JP3979213B2 - Singing synthesis device, singing synthesis method and singing synthesis program - Google Patents

Singing synthesis device, singing synthesis method and singing synthesis program Download PDF

Info

Publication number
JP3979213B2
JP3979213B2 JP2002219203A JP2002219203A JP3979213B2 JP 3979213 B2 JP3979213 B2 JP 3979213B2 JP 2002219203 A JP2002219203 A JP 2002219203A JP 2002219203 A JP2002219203 A JP 2002219203A JP 3979213 B2 JP3979213 B2 JP 3979213B2
Authority
JP
Japan
Prior art keywords
pitch
data
parameter
database
pitch data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002219203A
Other languages
Japanese (ja)
Other versions
JP2004061793A (en
Inventor
裕司 久湊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2002219203A priority Critical patent/JP3979213B2/en
Publication of JP2004061793A publication Critical patent/JP2004061793A/en
Application granted granted Critical
Publication of JP3979213B2 publication Critical patent/JP3979213B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Electrophonic Musical Instruments (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、入力された演奏データに基づいて音声を合成する歌唱合成装置、歌唱合成方法及び歌唱合成用プログラムに関する。
【0002】
【従来の技術】
電子楽器においては、キースケーリングと呼ばれる機能によりピッチ変換を実行している。具体的には、電子ピアノの鍵盤のうち、押された鍵盤に対応したピッチに依存したある値を音色パラメータに加減算することにより、音色の変換を行っている(例えば、特開昭58−211786号公報参照)。
例えばカラオケ装置などにおいては、男性の声を女性の声に変換するなどの用途のため、ピッチ変換機能を備えた歌唱合成装置が設けられている。この場合、単純に原歌唱音声のピッチを異なるピッチに変換するだけでは不自然な音声となるので、音色など歌唱合成に用いる他のパラメータも、電子楽器と同様のキースケーリング機能を用いて、ピッチに合わせて変換している。
【0003】
【発明が解決しようとする課題】
歌唱合成装置において、歌唱合成に用いるパラメータは、実際に録音した歌唱データを音素ごとに切り出して抽出したものであり、各音素で録音の際のピッチが異なる。このため、単純に合成したいピッチに応じたパラメータのキースケーリングでは、音素の録音時のピッチと同じピッチの歌唱音声を合成する場合にも音色に変化が生じてしまう。これを解決するために、各パラメータは各音素毎にピッチに応じたスケーリング量を規定するキースケーリング関数を保持することで、音素の録音時と同じピッチのときにはパラメータが変化しないようにする必要があった。しかし、このようにするとキースケーリング関数の数が膨大になるため、キースケーリング関数の作成及び変更が困難になってしまうという問題があった。
本発明は、このキースケーリング機能を歌唱合成装置、歌唱合成方法、歌唱合成用プログラムに導入したものであり、キースケーリング関数の数を多くしなくても、元の歌唱音声のピッチと同じピッチの歌唱音声を合成しようとする場合には音色など音質をそのままに保ち、元の歌唱音声のピッチと異なるピッチの歌唱音声を合成しようとする場合にだけ音色など音質を変化させることのできるようにすることを目的とする。
【0004】
【課題を解決するための手段】
上記目的達成のため、本出願の第1の発明に係る歌唱合成装置は、合成しようとする音声の内容を示す音声情報を入力する音声情報入力部と、音声を合成するための音声素片データが記憶された音韻データベースと、前記音声情報に基づいて前記音韻データベースに記憶された前記音声素片データを選択する選択部と、合成しようとする音声のピッチを時系列で示す合成ピッチデータを出力する合成ピッチデータ出力部と、前記選択部で選択された音声素片データから合成パラメータを抽出して出力する合成パラメータ出力部と、前記合成パラメータを抽出する際に使用した音声素片データを構成するピッチデータを抽出してデータベースピッチデータとして出力するデータベースピッチデータ生成部と、前記合成パラメータ毎に用意されたキースケーリング関数を記憶するキースケーリング関数記憶部と、前記合成ピッチデータを前記キースケーリング関数に代入して得られた関数値と前記データベースピッチデータを前記キースケーリング関数に代入して得られた関数値との差に基づき、前記合成パラメータを補正して補正パラメータを出力するキースケーリング部と、前記補正パラメータに基づく波形を合成する波形合成部とを備えたことを特徴とする。
【0005】
この第1の発明に係る歌唱合成装置によれば、入力された音声情報に基づいて前記音韻データベースに記憶された音声素片データが選択部により選択される。そして、合成しようとする音声のピッチを時系列で示す合成ピッチデータが出力される。また、前記選択部で選択された前記音声素片データからは、各時刻毎の合成パラメータが抽出される。さらに、合成パラメータを抽出する際に使用した音声素片データを構成するピッチデータが抽出されデータベースピッチデータとして出力される。
この合成ピッチデータとデータベースピッチデータとに差がある場合には、キースケーリング関数により、ピッチの変化に即した前記合成パラメータの補正が行われ、合成出力音声の自然性が高められる。一方、両者に差がない場合には、合成パラメータの補正は行われない。このため、各音素、時間ごとのキースケーリング関数を用意しなくとも、出力歌唱音声の自然性を高めることができる。
【0006】
上記目的達成のため、本出願の第2の発明に係る歌唱合成方法は、合成しようとする音声の内容を示す音声情報を入力する音声情報入力ステップと、音声を合成するための音声素片データを予め音韻データベースに記憶させるとともに、前記音声情報に基づいて前記音韻データベースに記憶された音声素片データを選択する選択ステップと、合成しようとする音声のピッチを時系列で示す合成ピッチデータを出力する合成ピッチデータ出力ステップと、前記選択ステップで選択された前記音声素片データから合成パラメータを抽出して出力する合成パラメータ出力ステップと、前記合成パラメータを抽出する際に使用した音声素片データを構成するピッチデータを抽出してデータベースピッチデータとして出力するデータベースピッチデータ生成ステップと、前記合成パラメータ毎にキースケーリング関数を用意するとともに、前記合成ピッチデータを前記キースケーリング関数に代入して得られた関数値と前記データベースピッチデータを前記キースケーリング関数に代入して得られた関数値との差に基づき、前記合成パラメータを補正して補正パラメータを出力するキースケーリングステップと、前記補正パラメータに基づく波形を合成する波形合成ステップとを備えたことを特徴とする。
【0007】
上記目的達成のため、本出願の第3の発明に係る歌唱合成用プログラムは、合成しようとする音声の内容を示す音声情報を入力する音声情報入力ステップと、音声を合成するための音声素片データを予め音韻データベースに記憶させるとともに、前記音声情報に基づいて前記音韻データベースに記憶された音声素片データを選択する選択ステップと、合成しようとする音声のピッチを時系列で示す合成ピッチデータを出力する合成ピッチデータ出力ステップと、前記選択ステップで選択された前記音声素片データから合成パラメータを抽出して出力する合成パラメータ出力ステップと、前記合成パラメータを抽出する際に使用した音声素片データを構成するピッチデータを抽出してデータベースピッチデータとして出力するデータベースピッチデータ生成ステップと、前記合成パラメータ毎にキースケーリング関数を用意するとともに、前記合成ピッチデータを前記キースケーリング関数に代入して得られた関数値と前記データベースピッチデータを前記キースケーリング関数に代入して得られた関数値の差に基づき、前記合成パラメータを補正して補正パラメータを出力するキースケーリングステップと、前記補正パラメータに基づく波形を合成する波形合成ステップとをコンピュータに実行させるように構成されたことを特徴とする。
【0008】
【発明の実施の形態】
以下、本発明の実施の形態を図面に基づいて詳細に説明する。
図1は、本発明の実施の形態に係る歌唱合成装置の概略構成を示すブロック図である。本実施の形態に係る歌唱合成装置1は、図1に示すように、音声データベース11と、合成パラメータ生成装置12と、キースケーリング関数記憶部13と、キースケーリング装置14と、波形合成装置15とを備えている。
【0009】
音声データベース11は、実際に録音或いは取得した歌唱データ等の信号を音素ごとに切り出したデータであり、図2に示すように、音韻遷移部分(音韻と音韻との間のつながり部分(例:a−e、a−i等)を示す)及び定常部分(音韻(例:a,i等)が定常的に発音される部分)とに分類された音声素片データを格納しており、各音声素片データは、合成パラメータPAにより表現されている。
合成パラメータPAは、例えばフォルマント中心周波数、バンド幅、ゲインなど複数種類(ここではN種類とする)のパラメータPAn(n=1,2、・・・N)から構成される。各パラメータPAnは、横軸を時刻t(t=0〜T)、縦軸をパラメータ値としたグラフにより表現することが出来るデータ配列や関数として記憶される。
異なる音声素片データには、互いに異なるパラメータPAnが格納されている。例えば、音韻遷移部a−eと、音韻遷移部a−iとではフォルマント中心周波数やゲインの異なるパラメータPAnが記憶される。
【0010】
また、各音韻遷移部、定常部のデータには、これらのパラメータPAnに加え、その音声素片の各時刻におけるピッチのデータDP(以下、データベースピッチDPという)が、各1つずつ格納されている。
【0011】
合成パラメータ生成装置12は、合成しようとする歌唱音声を表現するMIDIデータ(ピッチ、歌詞など)を入力する入力部と、この入力データに対応する音声素片データ(音韻遷移部データ又は定常部分データ)を音声データベース11から合成パラメータPAとして読み出す合成パラメータ生成部として機能する。
【0012】
また、合成パラメータ生成装置12は、MIDIデータとして合成パラメータ生成装置12に入力されるピッチデータ、歌詞データに基づいて、合成される出力歌唱音声の各時刻における正確なピッチを決定し、これを合成ピッチデータSPとしてキースケーリング装置14に向けて出力する合成ピッチデータ出力部として機能する。このピッチ決定の処理は、合成しようとする音声の前後に位置する音声についての歌詞の音韻、ピッチなどのデータが考慮されて行われる。
また、合成パラメータ生成装置12は、読み出された音声素片データに含まれているデータベースピッチDPを読み出して、これをキースケーリング装置14に向けて出力するデータベースピッチデータ生成部として機能する。
【0013】
キースケーリング関数記憶部13は、各合成パラメータPAnの数に対応した数(ここではN個)のキースケーリング関数fnを記憶している。
キースケーリング装置14は、このキースケーリング関数記憶部13に記憶された各合成パラメータPAnに対応するキースケーリング関数fn(n=1,2、・・・N)を読み出し、このキースケーリング関数fnを入力される各合成パラメータPAnに適用してキースケーリング効果を与える。
このキースケーリング効果により、例えば高い音を発生するときは声が甲高くなったり、低い声を発生するときは声が聞き取り難くなったりというように、合成しようとする歌唱音声のピッチに合わせて合成パラメータを調整することが出来るので、自然な音声合成が可能となる。また、合成しようとするピッチごとに音声データベースを備える必要がないため、音声データベースのサイズが小さくて済む。
そして、データベースピッチDPを用いて、キースケーリング効果を与えられた合成パラメータPAnに対し、音声データベース11に記憶されているのと同じピッチの歌唱音声を合成しようとする場合には合成パラメータPAnをそのままに保ち、異なるピッチの歌唱音声を合成しようとする場合には合成パラメータPAnを変化させる処理を行う。具体的には、合成ピッチSP、データベースピッチDPを関数fnに代入して得られた関数値fn(SP)、fn(DP)(図3参照)を得た後、次の[数1]に示すように、両関数値の差(図3の場合、fn(DP)−fn(SP)=0.1)を利用して各パラメータPAnにキースケーリング効果を与えて補正パラメータPAn´を得る。つまり、補正パラメータPAn´は、パラメータPAnを合成ピッチPAnを合成ピッチSPとデータベースピッチDPにより補正したパラメータである。
【0014】
【数1】
PAn´=PAn+fn(SP)−fn(DP)
【0015】
また、次に示す[数2]のように、関数値fn(SP)、fn(DP)の差に定数(例えば1)を加えた値を各パラメータPAnに乗算することによりキースケーリング効果を与えてもよい。
【数2】
PAn´=PAn×(fn(SP)−fn(DP)+1.0)
【0016】
上記の[数1]、[数2]のどちらを選ぶかは、各パラメータPAnの性質により決定する。例えば、パラメータPAnの値が、ゲインのように対数で表現されている場合には[数1]が適当であり、周波数(Hz)のようにリニアな値で表現されている場合には、[数2]が適当である。
【0017】
[数1]、[数2]のどちらの場合でも、SP=DPの場合には、PAn´=PAnとなる。すなわち、本実施の形態の歌唱合成装置1は、合成しようとするピッチSPと、データベース11に格納されたデータベースピッチDPとが等しい場合には、合成パラメータPAには変化を加えないようにしている。
波形合成装置15は、このキースケーリング効果を与えられた補正パラメータPAn´、及び合成ピッチSPにより表現される音声素片データを合成し重ね合わせて出力歌唱音声波形として出力する機能を有する。
【0018】
次に、本実施の形態に係る歌唱合成装置1の作用を、図4に示すフローチャートに基づいて説明する。図4のフローチャートは、1つの音声素片データ内での処理の手順を示したものであり、これを合成パラメータ生成装置12に入力されるMIDIデータに基づき音声データベース11から選択されるすべての音声素片データについて順次実行し、波形合成装置15で合成することにより、合成歌唱音声が得られる。
【0019】
また、この図4に示すフローチャートでは、1つの音声素片データ内の各パラメータPAn(n=1,2・・・N)を1からNの順で順々に処理するようにしている。また、各パラメータPAnが時刻tの関数により表現されていることから、各パラメータPAnの処理においては、各時刻t毎に合成ピッチデータSP(t)、データベースピッチDP(t)を取得して補正パラメータPAn(t)´の値を得るようにしている。具体的に説明すると、最初に、各パラメータPAnの種類を示す変数nを1に初期設定し(S1)、そのnの値に相当するスケーリング関数fnをスケーリング関数記憶部13より読み出す(S2)。続いて、時刻tを0に初期設定し(S3)、その時刻tでのパラメータPAn(t)を取得する(S4)。
【0020】
次に、その時刻tでの合成ピッチデータSP(t)、データベースピッチデータDP(t)の値を取得する(S5)。そして、このS4、S5で取得された値に基づき、[数1]又は[数2]により補正パラメータPAn(t)´を演算する(S6)。このS6では、[数1]又は[数2]のいずれか一方を固定的に使用させるようにしてもよいし、パラメータPAnの種類に応じて、[数1]又は[数2]のいずれを使用するかを自動選択させるようにしてもよい。
【0021】
こうして、すべての時刻t(t=0〜T)について、tをΔtずつインクリメントしながら補正パラメータPAn´(t)をS4〜S6の手順を繰り返して演算する(S7、S8)。この図4のフローチャートでは、Δtごとに離散的な補正パラメータ値PAn´(t)を演算しているので、各データの中間の値が必要となる場合は補間により演算してもよい。
以上説明した手順を、すべてのパラメータPAn(n=1、2、・・・N)について演算するまで繰り返す(S9、S10)。これにより得られたデータに基づいて得られた波形が、波形合成装置15で合成されることにより、歌唱音声が合成、出力される。
【0022】
以上、本発明の実施の形態について説明したが、本発明はこれに限定されるものではなく、例えば、音声データベース101には、音韻遷移部分、定常部分に加え、特定の音韻部分のデータ(timbre)を保持させるようにしてもよい。
また、データベースピッチDPは、上記のようにその音声素片データの各時刻におけるピッチのデータを格納するようにしてもよいが、その音声素片データの各時刻を代表するひとつのピッチデータとして格納してもよい。
また、合成パラメータ生成装置12に入力するMIDIデータはピッチ、歌詞に限らず、ダイナミクス、ビブラートなどのデータであってもよい。
また、MIDIデータとしてのピッチデータ、歌詞データに基づいて合成ピッチデータSPを決定する代わりに、合成ピッチデータSPデータを予めMIDIデータとして保持させておくようにしてもよい。
また、合成パラメータ生成部12に入力するデータはMIDIデータに限らず、合成する歌唱音声が生成されるように時系列で演奏データを指定できるものであればよい。
【0023】
【発明の効果】
以上説明したように、本発明によれば、音声素片のピッチをデータベースピッチとして記憶しているので、少ないキースケーリング関数で、元の歌唱音声のピッチと同じピッチの歌唱音声を合成しようとする場合に、音色など音質をそのままに保ち、元の歌唱音声のピッチと異なるピッチの歌唱音声を合成しようとする場合にだけ音色など音質を変化させることができ、自然な歌唱合成が可能になる。
【図面の簡単な説明】
【図1】 本発明の実施の形態に係る歌唱合成装置の全体構成を示すブロック図である。
【図2】 図1に示す音声データベースに記憶されるデータの内容を概念的に示す。
【図3】 キースケーリング関数fnの内容を示す。
【図4】 図1に示す歌唱合成装置1の作用を示すフローチャートである。
【符号の説明】
11…音声データベース、 12…合成パラメータ生成装置、 13…キースケーリング関数記憶部 14…キースケーリング装置、 15…波形合成装置
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a singing voice synthesizing device, a singing voice synthesis method, and a singing voice synthesis program for synthesizing voice based on input performance data.
[0002]
[Prior art]
In an electronic musical instrument, pitch conversion is performed by a function called key scaling. Specifically, the tone color conversion is performed by adding or subtracting a certain value depending on the pitch corresponding to the pressed key among the keys of the electronic piano to the tone color parameter (for example, Japanese Patent Laid-Open No. 58-211786). Issue gazette).
For example, in a karaoke apparatus or the like, a singing synthesizer having a pitch conversion function is provided for use such as converting a male voice into a female voice. In this case, simply converting the pitch of the original singing voice to a different pitch will result in unnatural voice, so other parameters used for singing synthesis, such as timbre, will also use the same key scaling function as the electronic musical instrument. It is converted to match.
[0003]
[Problems to be solved by the invention]
In the singing voice synthesizing apparatus, the parameters used for singing voice synthesis are obtained by cutting out and extracting the actually recorded singing data for each phoneme, and the pitch at the time of recording is different for each phoneme. For this reason, in the key scaling of the parameter according to the pitch to be synthesized simply, the timbre changes even when the singing voice having the same pitch as the pitch at the time of recording the phoneme is synthesized. In order to solve this problem, each parameter must hold a key scaling function that defines a scaling amount corresponding to the pitch for each phoneme so that the parameter does not change at the same pitch as when recording the phoneme. there were. However, if this is done, the number of key scaling functions becomes enormous, which makes it difficult to create and change the key scaling functions.
The present invention introduces this key scaling function into a singing synthesizer, a singing synthesis method, and a singing synthesis program, and the pitch of the same singing voice as that of the original singing voice can be obtained without increasing the number of key scaling functions. When trying to synthesize a singing voice, keep the tone quality such as the timbre as it is, and only when trying to synthesize a singing voice with a pitch different from the pitch of the original singing voice, the tone quality such as the timbre can be changed For the purpose.
[0004]
[Means for Solving the Problems]
In order to achieve the above object, a singing voice synthesizing apparatus according to the first invention of the present application includes a voice information input unit for inputting voice information indicating the contents of voice to be synthesized, and voice unit data for synthesizing voice Is stored, a selection unit that selects the speech segment data stored in the phoneme database based on the speech information, and synthesized pitch data that indicates the pitch of the speech to be synthesized in time series A synthesis pitch data output unit, a synthesis parameter output unit for extracting and outputting a synthesis parameter from the speech unit data selected by the selection unit, and a speech unit data used for extracting the synthesis parameter Database pitch data generation unit for extracting pitch data to be output and outputting it as database pitch data, and prepared for each of the synthesis parameters A key scaling function storage unit for storing a scaling function, a function value obtained by substituting the synthesized pitch data into the key scaling function, and a function value obtained by substituting the database pitch data into the key scaling function, A key scaling unit that corrects the synthesis parameter and outputs a correction parameter based on the difference, and a waveform synthesis unit that synthesizes a waveform based on the correction parameter.
[0005]
According to the singing voice synthesizing apparatus according to the first aspect of the invention, the speech unit data stored in the phonological database is selected by the selection unit based on the input speech information. Then, synthesized pitch data indicating the pitch of the voice to be synthesized in time series is output. Also, synthesis parameters for each time are extracted from the speech segment data selected by the selection unit. Further, pitch data constituting the speech segment data used when extracting the synthesis parameters is extracted and output as database pitch data.
When there is a difference between the synthesized pitch data and the database pitch data, the synthesis parameter is corrected in accordance with the change of the pitch by the key scaling function, and the naturalness of the synthesized output voice is enhanced. On the other hand, when there is no difference between them, the synthesis parameter is not corrected. For this reason, the naturalness of the output singing voice can be improved without preparing a key scaling function for each phoneme and time.
[0006]
In order to achieve the above object, a singing synthesis method according to the second invention of the present application includes a speech information input step for inputting speech information indicating the content of speech to be synthesized, and speech segment data for synthesizing speech. Is stored in the phoneme database in advance, and a selection step of selecting speech segment data stored in the phoneme database based on the speech information, and synthetic pitch data indicating the pitch of speech to be synthesized in time series are output. A synthesis pitch data output step, a synthesis parameter output step for extracting and outputting a synthesis parameter from the speech unit data selected in the selection step, and a speech unit data used for extracting the synthesis parameter. Database pitch data that extracts the pitch data to be configured and outputs it as database pitch data Preparing a key scaling function for each synthesis parameter, and substituting the function value obtained by substituting the synthetic pitch data into the key scaling function and the database pitch data into the key scaling function. A key scaling step for correcting the synthesis parameter and outputting a correction parameter based on a difference from the obtained function value, and a waveform synthesis step for synthesizing a waveform based on the correction parameter are provided.
[0007]
To achieve the above object, a singing synthesis program according to the third invention of the present application includes a speech information input step for inputting speech information indicating the content of speech to be synthesized, and a speech unit for synthesizing speech. A step of selecting the speech segment data stored in the phonological database based on the speech information, and the synthesized pitch data indicating the pitch of the speech to be synthesized in time series. A synthesis pitch data output step to output; a synthesis parameter output step to extract and output synthesis parameters from the speech segment data selected in the selection step; and speech segment data used when extracting the synthesis parameters. A database pin that extracts the pitch data that make up the database and outputs it as database pitch data. A data generation step, and a key scaling function is prepared for each synthesis parameter, and a function value obtained by substituting the synthetic pitch data into the key scaling function and the database pitch data are substituted into the key scaling function. Based on the obtained function value difference, the computer is configured to execute a key scaling step for correcting the synthesis parameter and outputting a correction parameter, and a waveform synthesis step for synthesizing a waveform based on the correction parameter. It is characterized by that.
[0008]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
FIG. 1 is a block diagram showing a schematic configuration of a singing voice synthesizing apparatus according to an embodiment of the present invention. As shown in FIG. 1, the singing voice synthesis apparatus 1 according to the present embodiment includes a voice database 11, a synthesis parameter generation apparatus 12, a key scaling function storage unit 13, a key scaling apparatus 14, and a waveform synthesis apparatus 15. It has.
[0009]
The speech database 11 is data obtained by cutting out a signal such as singing data actually recorded or acquired for each phoneme, and as shown in FIG. 2, a phoneme transition portion (a connection portion between phonemes and phonemes (example: a -E, a-i, etc.)) and stationary segments (portions where phonemes (eg, a, i) etc. are steadily pronounced) are stored. The segment data is expressed by a synthesis parameter PA.
The synthesis parameter PA is composed of a plurality of types of parameters PAn (n = 1, 2,..., N) such as formant center frequency, bandwidth, and gain. Each parameter PAn is stored as a data array or function that can be expressed by a graph with the horizontal axis representing time t (t = 0 to T) and the vertical axis representing parameter values.
Different speech unit data stores different parameters PAn. For example, parameters PAn having different formant center frequencies and gains are stored in the phoneme transition part ae and the phoneme transition part ai.
[0010]
In addition to these parameters PAn, pitch data DP at each time of the speech segment (hereinafter referred to as database pitch DP) is stored one by one in the data of each phoneme transition part and stationary part. Yes.
[0011]
The synthesis parameter generation device 12 inputs an input unit for inputting MIDI data (pitch, lyrics, etc.) expressing a singing voice to be synthesized, and speech unit data (phoneme transition unit data or stationary partial data) corresponding to the input data. ) From the voice database 11 as a synthesis parameter PA.
[0012]
Further, the synthesis parameter generation device 12 determines an accurate pitch at each time of the output singing voice to be synthesized based on the pitch data and lyrics data input to the synthesis parameter generation device 12 as MIDI data, and synthesizes this. It functions as a synthesized pitch data output unit that outputs the pitch data SP to the key scaling device 14. This pitch determination process is performed in consideration of data such as the phonological and pitch of the lyrics of the speech positioned before and after the speech to be synthesized.
In addition, the synthesis parameter generation device 12 functions as a database pitch data generation unit that reads the database pitch DP included in the read speech segment data and outputs it to the key scaling device 14.
[0013]
The key scaling function storage unit 13 stores a number (here, N) of key scaling functions fn corresponding to the number of each synthesis parameter PAn.
The key scaling device 14 reads the key scaling function fn (n = 1, 2,... N) corresponding to each synthesis parameter PAn stored in the key scaling function storage unit 13, and inputs this key scaling function fn. Applied to each synthesized parameter PAn to give a key scaling effect.
Due to this key scaling effect, for example, when generating a high sound, the voice becomes high-pitched, and when generating a low voice, the voice is difficult to hear, so that the synthesis parameter matches the pitch of the singing voice to be synthesized. Can be adjusted, so that natural speech synthesis is possible. In addition, since it is not necessary to provide an audio database for each pitch to be synthesized, the size of the audio database can be small.
Then, when synthesizing a singing voice having the same pitch as that stored in the voice database 11 with respect to the synthesis parameter PAn given the key scaling effect using the database pitch DP, the synthesis parameter PAn is used as it is. In order to synthesize singing voices with different pitches, the synthesis parameter PAn is changed. Specifically, after obtaining function values fn (SP) and fn (DP) (see FIG. 3) obtained by substituting the synthetic pitch SP and the database pitch DP into the function fn, the following [Equation 1] is obtained. As shown, a correction parameter PAn ′ is obtained by applying a key scaling effect to each parameter PAn using the difference between both function values (fn (DP) −fn (SP) = 0.1 in the case of FIG. 3). That is, the correction parameter PAn ′ is a parameter obtained by correcting the parameter PAn with the synthetic pitch PAn by the synthetic pitch SP and the database pitch DP.
[0014]
[Expression 1]
PAn ′ = PAn + fn (SP) −fn (DP)
[0015]
Further, as shown in [Expression 2] below, each parameter PAn is multiplied by a value obtained by adding a constant (for example, 1) to the difference between the function values fn (SP) and fn (DP), thereby providing a key scaling effect. May be.
[Expression 2]
PAn ′ = PAn × (fn (SP) −fn (DP) +1.0)
[0016]
Which of the above [Equation 1] and [Equation 2] is selected is determined by the property of each parameter PAn. For example, when the value of the parameter PAn is expressed by a logarithm such as a gain, [Equation 1] is appropriate, and when expressed by a linear value such as a frequency (Hz), [ Equation 2] is appropriate.
[0017]
In both cases of [Equation 1] and [Equation 2], when SP = DP, PAn ′ = PAn. That is, the singing voice synthesizing apparatus 1 of the present embodiment does not change the synthesis parameter PA when the pitch SP to be synthesized is equal to the database pitch DP stored in the database 11. .
The waveform synthesizer 15 has a function of synthesizing and superimposing the speech segment data expressed by the correction parameter PAn ′ given the key scaling effect and the synthesized pitch SP and outputting the synthesized speech segment waveform as an output singing voice waveform.
[0018]
Next, the effect | action of the song synthesizing | combining apparatus 1 which concerns on this Embodiment is demonstrated based on the flowchart shown in FIG. The flowchart of FIG. 4 shows the procedure of processing within one speech segment data, and all the speeches selected from the speech database 11 based on the MIDI data input to the synthesis parameter generation device 12 are shown. Synthetic singing voices are obtained by sequentially executing the segment data and synthesizing them by the waveform synthesizer 15.
[0019]
Further, in the flowchart shown in FIG. 4, each parameter PAn (n = 1, 2,... N) in one speech segment data is processed in order from 1 to N. Further, since each parameter PAn is expressed by a function at time t, in the processing of each parameter PAn, the synthesized pitch data SP (t) and the database pitch DP (t) are acquired and corrected at each time t. The value of the parameter PAn (t) ′ is obtained. More specifically, first, a variable n indicating the type of each parameter PAn is initialized to 1 (S1), and a scaling function fn corresponding to the value of n is read from the scaling function storage unit 13 (S2). Subsequently, time t is initialized to 0 (S3), and parameter PAn (t) at that time t is acquired (S4).
[0020]
Next, the values of the synthesized pitch data SP (t) and database pitch data DP (t) at the time t are acquired (S5). Then, based on the values acquired in S4 and S5, the correction parameter PAn (t) ′ is calculated by [Equation 1] or [Equation 2] (S6). In S6, either [Equation 1] or [Equation 2] may be used in a fixed manner, and either [Equation 1] or [Equation 2] is selected depending on the type of parameter PAn. You may make it select automatically whether to use.
[0021]
Thus, for all times t (t = 0 to T), the correction parameter PAn ′ (t) is calculated by repeating the steps S4 to S6 while incrementing t by Δt (S7, S8). In the flowchart of FIG. 4, since the discrete correction parameter value PAn ′ (t) is calculated for each Δt, if an intermediate value of each data is required, it may be calculated by interpolation.
The above-described procedure is repeated until all parameters PAn (n = 1, 2,... N) are calculated (S9, S10). By synthesize | combining the waveform obtained based on the data obtained by this by the waveform synthesizer 15, a singing voice is synthesize | combined and output.
[0022]
The embodiment of the present invention has been described above, but the present invention is not limited to this. For example, in the speech database 101, in addition to the phoneme transition portion and the steady portion, the data (timbre portion) of a specific phoneme portion is described. ) May be held.
The database pitch DP may store the pitch data at each time of the speech unit data as described above, but is stored as one pitch data representing each time of the speech unit data. May be.
Further, the MIDI data input to the synthesis parameter generation device 12 is not limited to pitch and lyrics, but may be data such as dynamics and vibrato.
Further, instead of determining the synthesized pitch data SP based on the pitch data and lyrics data as MIDI data, the synthesized pitch data SP data may be held in advance as MIDI data.
Further, the data input to the synthesis parameter generation unit 12 is not limited to MIDI data, but may be any data that can specify performance data in time series so that the singing voice to be synthesized is generated.
[0023]
【The invention's effect】
As described above, according to the present invention, since the pitch of the speech segment is stored as the database pitch, the singing voice having the same pitch as that of the original singing voice is synthesized with a small key scaling function. In this case, it is possible to change the tone quality such as the tone color only when trying to synthesize a singing voice having a pitch different from the pitch of the original singing voice while maintaining the tone quality such as the timbre, and natural singing synthesis is possible.
[Brief description of the drawings]
FIG. 1 is a block diagram showing the overall configuration of a singing voice synthesizing apparatus according to an embodiment of the present invention.
FIG. 2 conceptually shows the contents of data stored in the voice database shown in FIG.
FIG. 3 shows the contents of a key scaling function fn.
4 is a flowchart showing the operation of the singing voice synthesizing apparatus 1 shown in FIG.
[Explanation of symbols]
DESCRIPTION OF SYMBOLS 11 ... Speech database, 12 ... Synthesis parameter production | generation apparatus, 13 ... Key scaling function memory | storage part 14 ... Key scaling apparatus, 15 ... Waveform synthesis apparatus

Claims (6)

合成しようとする音声の内容を示す音声情報の入力を受ける音声情報入力部と、
音声を合成するための音声素片データが記憶された音韻データベースと、
前記音声情報に基づいて前記音韻データベースに記憶された前記音声素片データを選択する選択部と、
合成しようとする音声のピッチを時系列で示す合成ピッチデータを出力する合成ピッチデータ出力部と、
前記選択部で選択された音声素片データから合成パラメータを抽出して出力する合成パラメータ出力部と、
前記合成パラメータを抽出する際に使用した音声素片データを構成するピッチデータを抽出してデータベースピッチデータとして出力するデータベースピッチデータ生成部と、
前記合成パラメータ毎に用意されたキースケーリング関数を記憶するキースケーリング関数記憶部と、
前記合成ピッチデータを前記キースケーリング関数に代入して得られた関数値と前記データベースピッチデータを前記キースケーリング関数に代入して得られた関数値との差に基づき、前記合成パラメータを補正して補正パラメータを出力するキースケーリング部と、
前記補正パラメータに基づく波形を合成する波形合成部とを備えたことを特徴とする歌唱合成装置。
A voice information input unit that receives voice information indicating the content of the voice to be synthesized;
A phonetic database in which speech segment data for synthesizing speech is stored;
A selection unit for selecting the speech segment data stored in the phoneme database based on the speech information;
A synthesized pitch data output unit for outputting synthesized pitch data indicating the pitch of the voice to be synthesized in time series;
A synthesis parameter output unit that extracts and outputs a synthesis parameter from the speech unit data selected by the selection unit;
A database pitch data generating unit that extracts pitch data constituting the speech segment data used when extracting the synthesis parameter and outputs it as database pitch data;
A key scaling function storage unit for storing a key scaling function prepared for each of the synthesis parameters;
Based on the difference between the function value obtained by substituting the synthetic pitch data into the key scaling function and the function value obtained by substituting the database pitch data into the key scaling function, the synthetic parameter is corrected. A key scaling unit that outputs correction parameters;
A singing voice synthesizing apparatus comprising a waveform synthesizing unit that synthesizes a waveform based on the correction parameter.
前記合成ピッチデータ出力部は、前記音声情報に含まれるピッチ情報に基づき合成ピッチデータを生成しその生成した合成ピッチデータを出力するものである請求項1に記載の歌唱合成装置。The singing voice synthesizing apparatus according to claim 1, wherein the synthetic pitch data output unit generates synthetic pitch data based on pitch information included in the audio information and outputs the generated synthetic pitch data. 前記キースケーリング部は、前記2つの関数値の差を前記各種パラメータに加算するものである請求項1に記載の歌唱合成装置。The singing voice synthesizing apparatus according to claim 1, wherein the key scaling unit adds a difference between the two function values to the various parameters. 前記キースケーリング部は、前記2つの関数値の差に1を加えた値を前記各種パラメータに乗算するものである請求項1に記載の歌唱合成装置。The singing voice synthesizing apparatus according to claim 1, wherein the key scaling unit multiplies the various parameters by a value obtained by adding 1 to a difference between the two function values. 合成しようとする音声の内容を示す音声情報を入力する音声情報入力ステップと、
音声を合成するための音声素片データを予め音韻データベースに記憶させるとともに、前記音声情報に基づいて前記音韻データベースに記憶された音声素片データを選択する選択ステップと、
合成しようとする音声のピッチを時系列で示す合成ピッチデータを出力する合成ピッチデータ出力ステップと、
前記選択ステップで選択された前記音声素片データから合成パラメータを抽出して出力する合成パラメータ出力ステップと、
前記合成パラメータを抽出する際に使用した音声素片データを構成するピッチデータを抽出してデータベースピッチデータとして出力するデータベースピッチデータ生成ステップと、
前記合成パラメータ毎にキースケーリング関数を用意するとともに、前記合成ピッチデータを前記キースケーリング関数に代入して得られた関数値と前記データベースピッチデータを前記キースケーリング関数に代入して得られた関数値との差に基づき、前記合成パラメータを補正して補正パラメータを出力するキースケーリングステップと、
前記補正パラメータに基づく波形を合成する波形合成ステップとを備えたことを特徴とする歌唱合成方法。
A voice information input step for inputting voice information indicating the contents of the voice to be synthesized;
A selection step of storing speech segment data for synthesizing speech in the phoneme database in advance and selecting speech segment data stored in the phoneme database based on the speech information;
A synthesized pitch data output step for outputting synthesized pitch data indicating the pitch of the voice to be synthesized in time series;
A synthesis parameter output step for extracting and outputting a synthesis parameter from the speech segment data selected in the selection step;
A database pitch data generation step of extracting pitch data constituting the speech segment data used when extracting the synthesis parameter and outputting it as database pitch data;
A key scaling function is prepared for each synthetic parameter, and a function value obtained by substituting the synthetic pitch data into the key scaling function and a function value obtained by substituting the database pitch data into the key scaling function A key scaling step for correcting the composite parameter and outputting a correction parameter based on the difference between
And a waveform synthesis step of synthesizing a waveform based on the correction parameter.
合成しようとする音声の内容を示す音声情報を入力する音声情報入力ステップと、
音声を合成するための音声素片データを予め音韻データベースに記憶させるとともに、前記音声情報に基づいて前記音韻データベースに記憶された音声素片データを選択する選択ステップと、
合成しようとする音声のピッチを時系列で示す合成ピッチデータを出力する合成ピッチデータ出力ステップと、
前記選択ステップで選択された前記音声素片データから合成パラメータを抽出して出力する合成パラメータ出力ステップと、
前記合成パラメータを抽出する際に使用した音声素片データを構成するピッチデータを抽出してデータベースピッチデータとして出力するデータベースピッチデータ生成ステップと、
前記合成パラメータ毎にキースケーリング関数を用意するとともに、前記合成ピッチデータを前記キースケーリング関数に代入して得られた関数値と前記データベースピッチデータを前記キースケーリング関数に代入して得られた関数値の差に基づき、前記合成パラメータを補正して補正パラメータを出力するキースケーリングステップと、
前記補正パラメータに基づく波形を合成する波形合成ステップとをコンピュータに実行させるように構成されたことを特徴とする歌唱合成用プログラム。
A voice information input step for inputting voice information indicating the contents of the voice to be synthesized;
A selection step of storing speech segment data for synthesizing speech in the phoneme database in advance and selecting speech segment data stored in the phoneme database based on the speech information;
A synthesized pitch data output step for outputting synthesized pitch data indicating the pitch of the voice to be synthesized in time series;
A synthesis parameter output step for extracting and outputting a synthesis parameter from the speech segment data selected in the selection step;
A database pitch data generation step of extracting pitch data constituting the speech segment data used when extracting the synthesis parameter and outputting it as database pitch data;
A key scaling function is prepared for each synthetic parameter, and a function value obtained by substituting the synthetic pitch data into the key scaling function and a function value obtained by substituting the database pitch data into the key scaling function A key scaling step for correcting the composite parameter and outputting a correction parameter based on the difference between
A singing composition program configured to cause a computer to execute a waveform synthesis step of synthesizing a waveform based on the correction parameter.
JP2002219203A 2002-07-29 2002-07-29 Singing synthesis device, singing synthesis method and singing synthesis program Expired - Fee Related JP3979213B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002219203A JP3979213B2 (en) 2002-07-29 2002-07-29 Singing synthesis device, singing synthesis method and singing synthesis program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002219203A JP3979213B2 (en) 2002-07-29 2002-07-29 Singing synthesis device, singing synthesis method and singing synthesis program

Publications (2)

Publication Number Publication Date
JP2004061793A JP2004061793A (en) 2004-02-26
JP3979213B2 true JP3979213B2 (en) 2007-09-19

Family

ID=31940161

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002219203A Expired - Fee Related JP3979213B2 (en) 2002-07-29 2002-07-29 Singing synthesis device, singing synthesis method and singing synthesis program

Country Status (1)

Country Link
JP (1) JP3979213B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6561499B2 (en) * 2015-03-05 2019-08-21 ヤマハ株式会社 Speech synthesis apparatus and speech synthesis method

Also Published As

Publication number Publication date
JP2004061793A (en) 2004-02-26

Similar Documents

Publication Publication Date Title
US6992245B2 (en) Singing voice synthesizing method
JP4067762B2 (en) Singing synthesis device
JP5605066B2 (en) Data generation apparatus and program for sound synthesis
JP4153220B2 (en) SINGLE SYNTHESIS DEVICE, SINGE SYNTHESIS METHOD, AND SINGE SYNTHESIS PROGRAM
JP4207902B2 (en) Speech synthesis apparatus and program
JP4839891B2 (en) Singing composition device and singing composition program
JP3941611B2 (en) SINGLE SYNTHESIS DEVICE, SINGE SYNTHESIS METHOD, AND SINGE SYNTHESIS PROGRAM
WO2018084305A1 (en) Voice synthesis method
US6687674B2 (en) Waveform forming device and method
JP6024191B2 (en) Speech synthesis apparatus and speech synthesis method
CN107430849B (en) Sound control device, sound control method, and computer-readable recording medium storing sound control program
JP6737320B2 (en) Sound processing method, sound processing system and program
US20110132179A1 (en) Audio processing apparatus and method
JP2003345400A (en) Method, device, and program for pitch conversion
JP4757971B2 (en) Harmony sound adding device
JP3979213B2 (en) Singing synthesis device, singing synthesis method and singing synthesis program
TWI377557B (en) Apparatus and method for correcting a singing voice
JP2007226174A (en) Singing synthesizer, singing synthesizing method, and program for singing synthesis
JP3540159B2 (en) Voice conversion device and voice conversion method
EP1505570B1 (en) Singing voice synthesizing method
WO2022080395A1 (en) Audio synthesizing method and program
Bonada et al. Sample-based singing voice synthesizer using spectral models and source-filter decomposition
JP2005195968A (en) Pitch converting device
JP3540609B2 (en) Voice conversion device and voice conversion method
JP3294192B2 (en) Voice conversion device and voice conversion method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050224

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070524

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070605

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070618

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100706

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100706

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110706

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110706

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120706

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130706

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees