JP3918606B2 - Speech synthesis apparatus, speech synthesis method, speech synthesis program, and computer-readable recording medium storing the program - Google Patents

Speech synthesis apparatus, speech synthesis method, speech synthesis program, and computer-readable recording medium storing the program Download PDF

Info

Publication number
JP3918606B2
JP3918606B2 JP2002092450A JP2002092450A JP3918606B2 JP 3918606 B2 JP3918606 B2 JP 3918606B2 JP 2002092450 A JP2002092450 A JP 2002092450A JP 2002092450 A JP2002092450 A JP 2002092450A JP 3918606 B2 JP3918606 B2 JP 3918606B2
Authority
JP
Japan
Prior art keywords
data
component
dynamics
breathability
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002092450A
Other languages
Japanese (ja)
Other versions
JP2003288095A (en
Inventor
裕司 久湊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2002092450A priority Critical patent/JP3918606B2/en
Publication of JP2003288095A publication Critical patent/JP2003288095A/en
Application granted granted Critical
Publication of JP3918606B2 publication Critical patent/JP3918606B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Electrophonic Musical Instruments (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、入力された演奏データに基づいて音声を合成する音声合成装置、音声合成方法並びに音声合成用プログラム及びこのプログラムを記録したコンピュータで読み取り可能な記録媒体に関し、更に詳しくは、合成・出力される音声に気息性を付与する機能を備えた音声合成装置、音声合成方法並びに音声合成用プログラム及びこのプログラムを記録したコンピュータで読み取り可能な記録媒体に関する。
【0002】
【従来の技術】
人間の音声の特徴を表わす用語として気息性(Breathiness ブレスネス)がある。気息性とは、息の音の大きさを表わす指標である。気息性が大きい、といえば、それは息の音が大きく感じられる、という意味である。この気息性は話者や歌唱者の特徴の1つであるので、音声合成装置においても、気息性を考慮にいれた音声合成を行うのが好ましい。
【0003】
気息性や、音声の聴感上の音量感であるダイナミクスは、音声の調和成分、非調和成分の比率が変化すると、それに伴って変化することが判っている。ここで調和成分とは、声帯の振動による周期的な音声の成分のことであり、非調和成分とは、肺からの空気の流れが声門や声帯が狭められたことによって生じる雑音的な音声の成分のことである。
【0004】
【発明が解決しようとする課題】
従来より、調和成分と非調和成分の比率を変化させることが可能な音声合成装置が知られている(例えば特開平10−187180号公報参照)。
この公報に記載されているような方法でも、結果として気息性やダイナミクスを制御することは可能である。しかし、この方法では、調和成分と非調和成分の比率を変化させた結果として気息性等が変化するに過ぎず、気息性等を積極的に制御することが出来るわけではなかった。
本発明は、この点に鑑みてなされたものであり、気息性の大きさを所望どおりに簡易に制御することを可能とした音声合成装置、音声合成方法並びに音声合成用プログラム及びこのプログラムを記録したコンピュータで読み取り可能な記録媒体
を提供することを目的とする。
【0005】
【課題を解決するための手段】
上記目的を達成するため、本出願の第1の発明に係る音声合成装置は、入力された演奏データに基づいて音声を合成して出力する音声合成装置において、気息性の大きさを示す気息性データBrとダイナミクスを示すダイナミクスデータDyとを含む演奏データ入力される演奏データ入力部と、前記演奏データに基づき音声の調和成分と非調和成分NHとを生成する調和/非調和成分生成部と、
前記気息性データBr及び前記ダイナミクスデータDyを用いて、前記調和成分及び前記非調和成分NHの大きさをそれぞれ以下の式により変更後の調和成分H’及び変更後の非調和成分NH’に変更して前記音声に気息性を付与する気息性付与部と、
H’=H+ΔH×Br
NH’=NH+(ΔNH1+ΔNH2×Dy)×Br
(ここで、ΔH、ΔNH1、ΔNH2は気息性データ、ダイナミクスデータの増減による影響度を表す数である。)
前記気息性付与部より出力された前記変更後の調和成分H’及び前記変更後の非調和成分NH’とを合成して合成音声信号を出力するミキサとを備えたことを特徴とする。
【0010】
上記目的達成のため、本出願の第2の発明に係る音声合成方法は、入力された演奏データに基づいて音声合成装置により音声を合成して出力する音声合成方法において、気息性の大きさを示す気息性データBrとダイナミクスを示すダイナミクスデータDyとを含む演奏データを前記音声合成装置に入力させる演奏データ入力ステップと、前記演奏データに基づき音声の調和成分と非調和成分NHとを前記音声合成装置により生成させる調和/非調和成分生成ステップと、前記気息性データBr及び前記ダイナミクスデータDyを用いて前記音声合成装置により前記調和成分及び前記非調和成分NHの大きさをそれぞれ以下の式により変更後の調和成分H’及び変更後の非調和成分NH’に変更させて前記音声に気息性を付与させる気息性付与ステップと、
H’=H+ΔH×Br
NH’=NH+(ΔNH1+ΔNH2×Dy)×Br
(ここで、ΔH、ΔNH1、ΔNH2は気息性データ、ダイナミクスデータの増減による影響度を表す数である。)
前記気息性付与ステップより出力された前記変更後の調和成分H’及び前記変更後の非調和成分NH’とを前記音声合成装置により合成させて合成音声信号を出力させる合成ステップとを備えたことを特徴とする。
【0011】
上記目的達成のため、本出願の第3の発明に係る音声合成用プログラムは、入力された演奏データに基づいて音声を合成して出力する手順をコンピュータに実行させる音声合成用プログラムにおいて、気息性の大きさを示す気息性データBrとダイナミクスを示すダイナミクスデータDyとを含む演奏データを前記コンピュータに入力させる演奏データ入力ステップと、前記演奏データに基づき音声の調和成分と非調和成分NHとを前記コンピュータにより生成させる調和/非調和成分生成ステップと、前記気息性データBr及び前記ダイナミクスデータDyを用いて、前記音声合成装置により前記調和成分及び前記非調和成分NHの大きさをそれぞれ以下の式により変更後の調和成分H’及び変更後の非調和成分NH’に変更させて前記音声に気息性を付与させる気息性付与ステップと、
H’=H+ΔH×Br
NH’=NH+(ΔNH1+ΔNH2×Dy)×Br
(ここで、ΔH、ΔNH1、ΔNH2は気息性データ、ダイナミクスデータの増減による影響度を表す数である。)
前記気息性付与ステップより出力された前記変更後の調和成分H’及び前記変更後の非調和成分NH’とを前記コンピュータにより合成させて合成音声信号を出力させる合成ステップとを備えたことを特徴とする。
【0012】
【発明の実施の形態】
以下、本発明の実施の形態を、歌唱音声合成装置を例にとって説明する。
図1に示すように、本実施の形態の歌唱音声合成装置は、演奏データ入力部10と、調和/非調和成分生成器20と、気息性付与器30、ミキサ40とから構成される。これらの構成要素は、通常のコンピュータとコンピュータプログラムとにより実現することができるが、ハードウエア的に独立に構成することももちろん可能である。
演奏データ入力部10は、歌唱音声を合成するための各種の演奏データを入力する部分である。この実施の形態では、演奏データは、ピッチデータP、歌詞データL、歌唱者名データS、ダイナミクスデータDy、気息性データBr、ボリュームデータVを含んでいるものとする。
【0013】
ピッチデータPは、歌唱音声のピッチ(音高)を示すデータである。また、歌詞データLは、歌唱しようとする歌詞を表わすデータである。歌唱者名データSは、歌唱者の声の特徴を合成される歌唱音声に反映させるための歌唱者の識別番号である。気息性データBrは、気息性の大きさを表わすためのものであり、ここでは0から1の間の数値で表現する。気息性データBrの増減により、調和成分H、非調和成分NHの変化の仕方が変化する。詳しくは後述する。
【0014】
ダイナミクスデータDyは、聴感上のダイナミクス感を表わすためのものであり、ここでは0から1の間の数値で表現される。ダイナミクスデータDyが0のときは、合成される歌唱音声は最小のダイナミクス感(人が最も小さな声で歌唱したときの音声)となり、ダイナミクスデータDyが1のときは、合成される歌唱音声は最大のダイナミクス感(人が最も大きな声で歌唱したときの音声)となる。
【0015】
ボリュームデータVは、合成される歌唱音声の音量を決定するためのものであり、0から1の間の数値で表現される。ボリュームが0の時には、合成される歌唱音声の音量は最小となり、ボリュームが1の時には、合成される歌唱音声の音量が最大となる。
【0016】
調和/非調和成分生成器20は、入力される演奏データに合致する調和成分H、非調和成分NHを出力する部分である。ここでは、調和成分H、非調和成分NHは周波数スペクトルで表現されるものとするが、時間波形として表現することも可能である。調和/非調和成分生成器20は、演奏データの種類ごとに異なる調和成分データ、非調和成分データを記憶したデータベースDBを備えている。調和/非調和成分生成器20は、演奏データ入力部10から入力される演奏データに合致する適切な調和成分と非調和成分をデータベースDBから取得して出力する。なお、入力された演奏データに合致する調和成分及び非調和成分がデータベースDB内に無い場合には、近似する調和成分と非調和成分を読み出して直線補間等の調整を行うようにしてもよい。
【0017】
また、気息性付与器30は、演奏データ入力部10において入力される気息性データBr等に基づき、調和/非調和成分生成器20から出力される調和成分H、非調和成分NHに変更を加える部分である。ミキサ40は、気息性付与器30より出力された変更後の調和成分、非調和成分を合成して音声信号を合成して出力する部分である。
【0018】
次に、この実施の形態の作用を図2に示すフローチャートに基づいて説明する。
始めに、演奏データ入力部10において、各種演奏データが入力される(S1)。
【0019】
調和/非調和成分生成器20は、演奏データ入力部10より入力される演奏データのうち、ピッチデータP、歌詞データL、歌唱者名データS、ダイナミクスデータDyの入力を受け、これらデータに合致した調和成分データ、非調和成分データをデータベースDBから読み出すことにより、音声の調和成分H、非調和成分NHを生成する(S2)。ここで生成される調和成分Hは、図3(a)に示すように、ダイナミクスデータDyの増加に伴って増加する。一方、非調和成分NHは、図3(b)に示すように、ダイナミクスデータDyの大きさの変化に関係なく略一定である。このような曲線となるのは、調和/非調和成分生成器20において、気息性データBrをファクターとして考慮していないためである。
【0020】
気息性付与器30は、この調和成分H、非調和成分NHの入力を受けるとともに、演奏データ入力部10から入力される歌唱者名データS、ダイナミクスデータDy、気息性データBrに基づいて、調和成分H、非調和成分NHの大きさを変更する(S3)。
【0021】
変更後の調和成分の大きさH´、変更後の非調和成分の大きさNH´は、変更前の調和成分の大きさH、変更前の非調和成分の大きさNH´との関係で次の式で表わされる。
【0022】
【数1】
H´=H+ΔH(S)×Br [dB] ……(1)
NH´=NH+(ΔNH1(S)+ΔNH2(S)×Dy)×Br [dB]……(2)
【0023】
ただし、ΔH(S)、 ΔNH1(S)、 ΔNH2(S)は歌唱者データSにより決定される係数である。式(1)、(2)から明らかなように、ΔH(S)が大きくなるほど、気息性データBrの増減によるH´への影響度が大きくなる。また、ΔNH1(S)が大きくなる程、気息性データBrの増減によるNH´への影響度が大きくなるが、ダイナミクスデータDyの増減によるNH´への影響度は変化しない。また、ΔNH2(S)が大きくなるほど、気息性データBrの増減によるNH´への影響度、及び、ダイナミクスデータDyの増減によるNH´への影響度は大きくなる。
【0024】
上記[数1]の式(1)で表わされるH´の変化量(ΔH(S)×Br)を図4(a)のグラフに、式(2)で表わされる変化量((ΔNH1(S)+ΔNH2(S)×Dy)×Br)を図4(b)のグラフにそれぞれに示す。
図4(a)、(b)とも、横軸にダイナミクスデータDy 、縦軸に変化量の大きさ(dB)をとっている。
【0025】
図5は、ダイナミクスデータDyの変化に対する変更後の調和成分の大きさH´、変更後の非調和成分の大きさNH´の変化のしかたを示すグラフである。
図5(a)に示すように、ダイナミクスデータDyと調和成分H´との関係を示す直線は、気息性データBrの変化によってもその傾きは変化しないが、その縦軸の切片が変化する。すなわち、気息性データBrの変化により、ダイナミクスデータDy−調和成分H´直線は縦軸方向に平行移動する。
【0026】
一方、 図5(b)に示すように、気息性データBrが0のときは、非調和成分NH´の大きさは、ダイナミクスデータDyの増減に関わらず一定であるが、気息性データBrが0より大きくなると、非調和成分NH´は、ダイナミクスデータDyの増加に伴って大きくなり、気息性データBrが大きくなるほど、ダイナミクスデータDyの増加に伴う非調和成分NH´の変化の度合いも大きくなる。すなわち、図5(b)に示すように、気息性データBrが大きくなるほど、ダイナミクスデータDy−非調和成分NH´の変化曲線の傾きが大きくなる。
【0027】
図6に、気息性データBr=0.0(最小)の場合における調和成分H´、非調和成分NH´とダイナミクスデータDyとの関係(同図(a))、気息性データBr=1.0(最大)の場合における調和成分H、非調和成分NH´とダイナミクスデータDyとの関係を示す(同図(b))。
【0028】
図6(a)に示すように、気息性データBr=0.0の場合には、調和成分H´はダイナミクスデータDyの増加に伴って増加するようにされるが、非調和成分NH´はダイナミクスデータDyに拘わらず一定である。一方、図6(b)に示すように、気息性データBr=1.0の場合には、調和成分H´はダイナミクスデータDyの増加に伴って増加するようにされ、非調和成分NH´もダイナミクスデータDyの増加に伴って増加するようにされる。このように、気息性データBrの大きさが異なると、同じようにダイナミクスデータDyが変化するにしても、調和成分H´と非調和成分NH´との比率の変化のしかたが変わってくる。
【0029】
人間の実際の発声において、声門閉鎖区間が長い場合や、閉鎖区間が不完全で肺からの直流的空気流の割合が大きくなった場合の音声は「気息性の程度が大きい」という。このような場合、ダイナミクスを大きくしようとして発声すると、肺からの直流的空気流の大きさ自体も大きくなるから、非調和成分もダイナミクスの増加に伴って増加することになる。
気息性の程度が小さい場合には、こうした肺からの直流的空気流が殆ど無いので、非調和成分はダイナミクスに関係なく低いままで殆ど一定となる。
図6のグラフは、このような人間の実際の声の発声の特徴と共通している。
最後に、ミキサ40で、気息性付与器30より出力された変更後の調和成分H´、非調和成分NH´を合成して音声信号を合成して出力する(S4)。
【0030】
以上説明したように、本実施の形態の歌唱音声合成装置によれば、気息性データとダイナミクスデータにより合成する音声の調和成分、非調和成分を制御して、簡単に自然で特徴のある音声を合成することが可能になる。
また、ダイナミクスの気息性の程度を独立して制御することができるので、ダイナミクスを変化させて次第に大きくしたり小さくしたりした音声を合成する場合でも、より人間の歌唱に近い自然な気息性を持つ音声を合成することが可能になる。
【0031】
また、ダイナミクスと気息性の程度を適宜設定することで、歌唱者による気息性の違いを容易に与えることが可能になる。
また、入力された演奏データに合致する調和成分及び非調和成分がデータベースに無い場合でも、近似する調和成分と非調和成分から補間による調整により、目的とする演奏データを合成することが可能になる。このため、すべてのダイナミクス、気息性の組合せを取る調和成分及び非調和成分をデータベースに蓄積する必要がなくなり、データベースを小さくすることができる。
【0032】
【発明の効果】
以上説明したように、本発明によれば、気息性の大きさを所望どおりに簡易に制御することができる。
【図面の簡単な説明】
【図1】 本発明の実施の形態に係る歌唱音声合成装置の構成を示す。
【図2】 図1の装置による処理の様子を示すフローチャートである。
【図3】 図1の調和/非調和成分生成器20から出力される音声の調和成分H、非調和成分NHの、ダイナミクスデータDyとの関係を示すグラフである。
【図4】 図1の気息性付与器30で調和成分H、非調和成分NHに変更を加えるための変化分と、ダイナミクスデータDyとの関係を示すグラフである。
【図5】 気息性付与器30から出力される変更後の調和成分H´、非調和成分NH´のダイナミクスデータDyとの関係を示すグラフである。
【図6】 気息性データBrが異なる場合において、調和成分H´、非調和成分NH´のダイナミクスデータDyとの関係が変化する様子を説明するためのグラフである。
【符号の説明】
10・・・演奏データ入力部
20・・・調和/非調和成分生成器
30・・・気息性付与器
40・・・ミキサ
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a speech synthesizer that synthesizes speech based on input performance data, a speech synthesis method, a speech synthesis program, and a computer-readable recording medium on which the program is recorded. The present invention relates to a speech synthesizer, a speech synthesis method, a speech synthesis program, and a computer-readable recording medium on which the program is recorded.
[0002]
[Prior art]
Breathiness is a term that describes the characteristics of human speech. Breathability is an index that represents the loudness of a breath. Speaking of breathability means that the sound of breathing is felt loud. Since this breathability is one of the characteristics of a speaker or a singer, it is preferable to perform speech synthesis in consideration of breathability in the speech synthesizer.
[0003]
It has been found that the dynamics, which are breathiness and the volume of sound in the sense of sound, change with the change of the ratio of the harmonic component and the nonharmonic component of the voice. Here, the harmonic component is a periodic voice component caused by the vocal cord vibration, and the non-harmonic component is a noisy voice generated by the narrowing of the glottis and the vocal cords due to the air flow from the lungs. It is an ingredient.
[0004]
[Problems to be solved by the invention]
2. Description of the Related Art Conventionally, a speech synthesizer that can change the ratio of harmonic components and non-harmonic components is known (see, for example, JP-A-10-187180).
Even with the method described in this publication, it is possible to control breathability and dynamics as a result. However, in this method, the breathability only changes as a result of changing the ratio of the harmonic component and the nonharmonic component, and the breathability or the like cannot be positively controlled.
The present invention has been made in view of this point, and has a speech synthesizer, a speech synthesis method, a speech synthesis program, and a program for recording the program, which can easily control the level of breathability as desired. An object of the present invention is to provide a computer-readable recording medium.
[0005]
[Means for Solving the Problems]
To achieve the above object, a speech synthesizer according to a first invention of the present application is a speech synthesizer that synthesizes and outputs speech based on input performance data. A performance data input unit to which performance data including data Br and dynamics data Dy indicating dynamics is input, and a harmonic / nonharmonic component generation unit that generates a harmonic component H and an anharmonic component NH of the voice based on the performance data. When,
Using the breathability data Br and the dynamics data Dy , the magnitudes of the harmonic component H and the anharmonic component NH are respectively changed to the harmonic component H ′ after change and the anharmonic component NH ′ after change according to the following equations. An air breathing unit that changes the air to provide breathability;
H ′ = H + ΔH × Br
NH ′ = NH + (ΔNH1 + ΔNH2 × Dy) × Br
(Here, ΔH, ΔNH1, and ΔNH2 are numbers representing the degree of influence due to the increase and decrease of breathability data and dynamics data.)
Characterized in that a mixer for outputting the harmonic component H synthesized and synthesized speech signals a 'and inharmonic components NH after change' after the output from the breath-imparting portion changes.
[0010]
To achieve the above object, a speech synthesis method according to the second invention of the present application is a speech synthesis method for synthesizing and outputting speech by a speech synthesizer based on input performance data. the voice and performance data input step to let inputting performance data to the speech synthesizer, and a harmonic component H and the stochastic component NH speech based on said performance data including the dynamics data Dy showing a breathiness data Br and dynamics indicated harmony / stochastic component generating step Ru is generated by synthesizer, using the breathiness data Br and the dynamics data Dy, respectively below the magnitude of the harmonic component H and the stochastic component NH by the speech synthesizer breath of formula by is changed to 'stochastic component NH and after change' harmonic component H after change of Ru to impart breathiness to the audio And grant step,
H ′ = H + ΔH × Br
NH ′ = NH + (ΔNH1 + ΔNH2 × Dy) × Br
(Here, ΔH, ΔNH1, and ΔNH2 are numbers representing the degree of influence due to the increase and decrease of breathability data and dynamics data.)
And a synthesis step we leave for is synthesized to output the synthesized speech signal by a 'stochastic component NH and after the change' harmonic component H after the output from the breath-imparting step changes the speech synthesizer It is characterized by that.
[0011]
To achieve the above object, a speech synthesis program according to a third invention of the present application is a speech synthesis program for causing a computer to execute a procedure for synthesizing and outputting speech based on input performance data. and performance data input step of Ru is inputting performance data to the computer including the dynamics data Dy showing a breathiness data Br and dynamics indicating the magnitude of the harmonic component H of the speech based on the performance data and the stochastic component NH respectively harmony / stochastic component generating step Ru is generated by the computer, using the breathiness data Br and the dynamics data Dy, by the speech synthesizer the magnitude of the harmonic component H and the stochastic component NH wherein by changing the following harmonic component H after the change by the equation of 'and the stochastic component NH the changed' And breath-imparting step that Ru was granted a breathiness to voice,
H ′ = H + ΔH × Br
NH ′ = NH + (ΔNH1 + ΔNH2 × Dy) × Br
(Here, ΔH, ΔNH1, and ΔNH2 are numbers representing the degree of influence due to the increase and decrease of breathability data and dynamics data.)
That a synthesizing step of Ru and 'stochastic component NH and after the change' harmonic component H after change which is output from the breath-imparting step to output the synthesized speech signal by combining by the computer Features.
[0012]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, an embodiment of the present invention will be described by taking a singing voice synthesis device as an example.
As shown in FIG. 1, the singing voice synthesizer according to the present embodiment includes a performance data input unit 10, a harmonic / anharmonic component generator 20, an air breathing unit 30, and a mixer 40. These components can be realized by a normal computer and a computer program, but can of course be configured independently by hardware.
The performance data input unit 10 is a part for inputting various performance data for synthesizing the singing voice. In this embodiment, it is assumed that the performance data includes pitch data P, lyrics data L, singer name data S, dynamics data Dy, breathability data Br, and volume data V.
[0013]
The pitch data P is data indicating the pitch (pitch) of the singing voice. The lyrics data L is data representing the lyrics to be sung. The singer name data S is a singer identification number for reflecting the characteristics of the singer's voice in the synthesized singing voice. The breathability data Br is for representing the magnitude of breathability, and is represented by a numerical value between 0 and 1 here. The way of changing the harmonic component H and the anharmonic component NH is changed by increasing / decreasing the breath data Br. Details will be described later.
[0014]
The dynamics data Dy is for representing a sense of dynamics in the sense of hearing, and is represented by a numerical value between 0 and 1 here. When the dynamics data Dy is 0, the synthesized singing voice has the least dynamic feeling (the voice when a person sings with the smallest voice), and when the dynamics data Dy is 1, the synthesized singing voice is the largest. Of the dynamics (sound when a person sings with the loudest voice).
[0015]
The volume data V is for determining the volume of the synthesized singing voice and is expressed by a numerical value between 0 and 1. When the volume is 0, the volume of the synthesized singing voice is minimized, and when the volume is 1, the volume of the synthesized singing voice is maximized.
[0016]
The harmonic / anharmonic component generator 20 is a part that outputs a harmonic component H and an anharmonic component NH that match the input performance data. Here, the harmonic component H and the anharmonic component NH are assumed to be expressed by a frequency spectrum, but can also be expressed as a time waveform. The harmonic / anharmonic component generator 20 includes a database DB that stores different harmonic component data and anharmonic component data for each type of performance data. The harmonic / anharmonic component generator 20 acquires appropriate harmonic components and anharmonic components that match the performance data input from the performance data input unit 10 from the database DB and outputs them. If there is no harmonic component and anharmonic component that match the input performance data in the database DB, the approximate harmonic component and the anharmonic component may be read out and adjustment such as linear interpolation may be performed.
[0017]
Further, the breathing unit 30 changes the harmonic component H and the harmonic component NH output from the harmonic / nonharmonic component generator 20 based on the breath data Br input in the performance data input unit 10. Part. The mixer 40 is a part that synthesizes and outputs an audio signal by synthesizing the changed harmonic component and the non-harmonic component output from the breathing unit 30.
[0018]
Next, the operation of this embodiment will be described based on the flowchart shown in FIG.
First, various performance data are input in the performance data input unit 10 (S1).
[0019]
The harmonic / nonharmonic component generator 20 receives input of pitch data P, lyric data L, singer name data S, and dynamics data Dy among performance data input from the performance data input unit 10, and matches these data. The harmonic component data and the anharmonic component data are read from the database DB to generate the harmonic component H and the anharmonic component NH of the voice (S2). The harmonic component H generated here increases as the dynamics data Dy increases, as shown in FIG. On the other hand, the anharmonic component NH is substantially constant regardless of the change in the size of the dynamics data Dy, as shown in FIG. The reason why such a curve is formed is that the harmonic / anharmonic component generator 20 does not consider the breathability data Br as a factor.
[0020]
The breathability imparting device 30 receives the harmonic component H and the anharmonic component NH, and based on the singer name data S, the dynamics data Dy, and the breathability data Br input from the performance data input unit 10. The sizes of the component H and the anharmonic component NH are changed (S3).
[0021]
The magnitude H ′ of the harmonic component after the change, the magnitude NH ′ of the anharmonic component after the change, are the following in relation to the magnitude H of the harmonic component before the change, and the magnitude NH ′ of the anharmonic component before the change. It is expressed by the following formula.
[0022]
[Expression 1]
H´ = H + ΔH (S) × Br [dB] …… (1)
NH´ = NH + (ΔNH1 (S) + ΔNH2 (S) × Dy) × Br [dB] …… (2)
[0023]
However, ΔH (S), ΔNH1 (S), and ΔNH2 (S) are coefficients determined by the singer name data S. As is clear from the equations (1) and (2), the greater the ΔH (S), the greater the influence on H ′ due to the increase / decrease in the breath data Br. Further, as ΔNH1 (S) increases, the degree of influence on NH ′ due to increase / decrease in breathability data Br increases, but the degree of influence on NH ′ due to increase / decrease in dynamics data Dy does not change. Further, as ΔNH2 (S) increases, the degree of influence on NH ′ due to the increase / decrease in breathability data Br and the degree of influence on NH ′ due to the increase / decrease in dynamics data Dy increase.
[0024]
The change amount (ΔH (S) × Br) of H ′ represented by the equation (1) in the above [Equation 1] is shown in the graph of FIG. 4A, and the change amount represented by the equation (2) ((ΔNH1 (S ) + ΔNH 2 (S) × Dy) × Br) is shown in the graph of FIG.
4 (a) and 4 (b), the horizontal axis represents the dynamics data Dy and the vertical axis represents the magnitude of change (dB).
[0025]
FIG. 5 is a graph showing how the magnitude H ′ of the harmonic component after change and the magnitude NH ′ of the anharmonic component after change are changed with respect to the change in the dynamics data Dy.
As shown in FIG. 5A, the slope of the straight line indicating the relationship between the dynamics data Dy and the harmonic component H ′ does not change even when the breathability data Br changes, but the intercept of the vertical axis changes. That is, the dynamics data Dy-harmonic component H ′ straight line is translated in the vertical axis direction by the change of the breath data Br.
[0026]
On the other hand, as shown in FIG. 5B, when the breathing data Br is 0, the magnitude of the anharmonic component NH ′ is constant regardless of the increase / decrease in the dynamics data Dy. When it is greater than 0, the anharmonic component NH ′ increases with an increase in the dynamics data Dy, and as the breathability data Br increases, the degree of change in the anharmonic component NH ′ with an increase in the dynamics data Dy also increases. . That is, as shown in FIG. 5B, as the breathability data Br increases, the slope of the change curve of the dynamics data Dy-anharmonic component NH ′ increases.
[0027]
FIG. 6 shows the relationship between the harmonic component H ′ and the anharmonic component NH ′ and the dynamics data Dy when the breath data Br = 0.0 (minimum) (FIG. 6A), the breath data Br = 1. The relationship between the harmonic component H, the anharmonic component NH ′, and the dynamics data Dy in the case of 0 (maximum) is shown (FIG. 5B).
[0028]
As shown in FIG. 6 (a), in the case of breathability data Br = 0.0, the harmonic component H ′ is increased as the dynamics data Dy increases. It is constant regardless of the dynamics data Dy. On the other hand, as shown in FIG. 6B, in the case of breathability data Br = 1.0, the harmonic component H ′ is increased as the dynamics data Dy increases, and the anharmonic component NH ′ is also increased. It is made to increase with the increase of the dynamics data Dy. As described above, when the size of the breath data Br differs, the manner in which the ratio of the harmonic component H ′ and the non-harmonic component NH ′ changes is changed even if the dynamics data Dy changes in the same manner.
[0029]
In actual human vocalization, when the glottal closure period is long, or when the closed period is incomplete and the ratio of DC airflow from the lungs is high, the voice is said to be “highly breathable”. In such a case, when speaking to increase the dynamics, the magnitude of the direct current air flow from the lungs itself increases, so the anharmonic component also increases as the dynamics increase.
When the degree of breathing is small, there is almost no DC airflow from the lungs, so the anharmonic component remains low and constant regardless of the dynamics.
The graph of FIG. 6 is in common with the characteristics of the utterance of an actual human voice.
Finally, the mixer 40 combines the changed harmonic component H ′ and the non-harmonic component NH ′ output from the breather 30 and synthesizes and outputs an audio signal (S4).
[0030]
As described above, according to the singing voice synthesizer of the present embodiment, it is possible to control a harmonic component and a non-harmonic component of a voice to be synthesized by breath data and dynamics data, thereby easily producing a natural and characteristic voice. It becomes possible to synthesize.
In addition, since the degree of breathing of dynamics can be controlled independently, even when synthesizing voices that are gradually made larger or smaller by changing the dynamics, natural breathing closer to human singing is achieved. It is possible to synthesize the voice that you have.
[0031]
In addition, by appropriately setting the degree of dynamics and breathability, it becomes possible to easily give a difference in breathability by the singer.
Moreover, even if there is no harmonic component and anharmonic component that match the input performance data in the database, it is possible to synthesize the desired performance data by adjusting the approximate harmonic component and the anharmonic component by interpolation. . For this reason, it is not necessary to store harmonic components and non-harmonic components that take a combination of all dynamics and breathability in the database, and the database can be made smaller.
[0032]
【The invention's effect】
As described above, according to the present invention, the magnitude of breathability can be easily controlled as desired.
[Brief description of the drawings]
FIG. 1 shows a configuration of a singing voice synthesizer according to an embodiment of the present invention.
FIG. 2 is a flowchart showing a state of processing by the apparatus of FIG.
3 is a graph showing the relationship between the harmonic component H and the anharmonic component NH of the audio output from the harmonic / anharmonic component generator 20 of FIG. 1 and the dynamics data Dy. FIG.
4 is a graph showing a relationship between a change amount for changing the harmonic component H and the anharmonic component NH and dynamics data Dy in the breathability imparting device 30 of FIG. 1; FIG.
FIG. 5 is a graph showing the relationship between the changed harmonic component H ′ and the anharmonic component NH ′ output from the breathability imparting device 30 and the dynamics data Dy.
FIG. 6 is a graph for explaining how the relationship between the harmonic component H ′ and the anharmonic component NH ′ and the dynamics data Dy changes when the breathability data Br is different.
[Explanation of symbols]
DESCRIPTION OF SYMBOLS 10 ... Performance data input part 20 ... Harmonic / nonharmonic component generator 30 ... Breathing applicator 40 ... Mixer

Claims (5)

入力された演奏データに基づいて音声を合成して出力する音声合成装置において、
気息性の大きさを示す気息性データBrとダイナミクスを示すダイナミクスデータDyとを含む演奏データ入力される演奏データ入力部と、
前記演奏データに基づき音声の調和成分と非調和成分NHとを生成する調和/非調和成分生成部と、
前記気息性データBr及び前記ダイナミクスデータDyを用いて、前記調和成分及び前記非調和成分NHの大きさをそれぞれ以下の式により変更後の調和成分H’及び変更後の非調和成分NH’に変更して前記音声に気息性を付与する気息性付与部と、
H’=H+ΔH×Br
NH’=NH+(ΔNH1+ΔNH2×Dy)×Br
(ここで、ΔH、ΔNH1、ΔNH2は気息性データ、ダイナミクスデータの増減による影響度を表す数である。)
前記気息性付与部より出力された前記変更後の調和成分H’及び前記変更後の非調和成分NH’とを合成して合成音声信号を出力するミキサとを備えたことを特徴とする音声合成装置。
In a speech synthesizer that synthesizes and outputs speech based on input performance data,
A performance data input unit to which performance data including breathability data Br indicating the level of breathability and dynamics data Dy indicating dynamics is input;
A harmonic / nonharmonic component generating unit that generates a harmonic component H and an anharmonic component NH of the voice based on the performance data;
Using the breathability data Br and the dynamics data Dy , the magnitudes of the harmonic component H and the anharmonic component NH are respectively changed to the harmonic component H ′ after change and the anharmonic component NH ′ after change according to the following equations. An air breathing unit that changes the air to provide breathability;
H ′ = H + ΔH × Br
NH ′ = NH + (ΔNH1 + ΔNH2 × Dy) × Br
(Here, ΔH, ΔNH1, and ΔNH2 are numbers representing the degree of influence due to the increase and decrease of breathability data and dynamics data.)
Speech synthesis is characterized in that a mixer for outputting the synthesized and the synthesized speech signal and a 'non-harmonic component NH and after the change' harmonic component H after output from the breath-imparting unit the change apparatus.
前記ΔH、ΔNH1、ΔNH2は歌唱者データSにより決定される係数であることを特徴とする請求項1記載の音声合成装置。 The speech synthesizer according to claim 1 , wherein ΔH, ΔNH1, and ΔNH2 are coefficients determined by singer name data S. 入力された演奏データに基づいて音声合成装置により音声を合成して出力する音声合成方法において、
気息性の大きさを示す気息性データBrとダイナミクスを示すダイナミクスデータDyとを含む演奏データを前記音声合成装置に入力させる演奏データ入力ステップと、
前記演奏データに基づき音声の調和成分と非調和成分NHとを前記音声合成装置により生成させる調和/非調和成分生成ステップと、
前記気息性データBr及び前記ダイナミクスデータDyを用いて前記音声合成装置により前記調和成分及び前記非調和成分NHの大きさをそれぞれ以下の式により変更後の調和成分H’及び変更後の非調和成分NH’に変更させて前記音声に気息性を付与させる気息性付与ステップと、
H’=H+ΔH×Br
NH’=NH+(ΔNH1+ΔNH2×Dy)×Br
(ここで、ΔH、ΔNH1、ΔNH2は気息性データ、ダイナミクスデータの増減による影響度を表す数である。)
前記気息性付与ステップより出力された前記変更後の調和成分H’及び前記変更後の非調和成分NH’とを前記音声合成装置により合成させて合成音声信号を出力させる合成ステップとを備えたことを特徴とする音声合成方法。
In a speech synthesis method for synthesizing and outputting speech by a speech synthesizer based on input performance data,
A performance data input step for causing the speech synthesizer to input performance data including breathability data Br indicating the level of breathability and dynamics data Dy indicating dynamics;
Harmony / stochastic component generating step Ru is generated by the speech synthesizer and a harmonic component H and the stochastic component NH voice on the basis of the performance data,
Using the breathability data Br and the dynamics data Dy , the speech synthesizer uses the following equations to change the magnitudes of the harmonic component H and the nonharmonic component NH, respectively, according to the following formulas. a breath-imparting step conditioner is changed into components NH 'and Ru is imparting breathiness to the audio,
H ′ = H + ΔH × Br
NH ′ = NH + (ΔNH1 + ΔNH2 × Dy) × Br
(Here, ΔH, ΔNH1, and ΔNH2 are numbers representing the degree of influence due to the increase and decrease of breathability data and dynamics data.)
And a synthesis step we leave for is synthesized to output the synthesized speech signal by a 'stochastic component NH and after the change' harmonic component H after the output from the breath-imparting step changes the speech synthesizer A speech synthesis method characterized by the above.
入力された演奏データに基づいて音声を合成して出力する手順をコンピュータに実行させる音声合成用プログラムにおいて、
気息性の大きさを示す気息性データBrとダイナミクスを示すダイナミクスデータDyとを含む演奏データを前記コンピュータに入力させる演奏データ入力ステップと、
前記演奏データに基づき音声の調和成分と非調和成分NHとを前記コンピュータにより生成させる調和/非調和成分生成ステップと、
前記気息性データBr及び前記ダイナミクスデータDyを用いて、前記音声合成装置により前記調和成分及び前記非調和成分NHの大きさをそれぞれ以下の式により変更後の調和成分H’及び変更後の非調和成分NH’に変更させて前記音声に気息性を付与させる気息性付与ステップと、
H’=H+ΔH×Br
NH’=NH+(ΔNH1+ΔNH2×Dy)×Br
(ここで、ΔH、ΔNH1、ΔNH2は気息性データ、ダイナミクスデータの増減による影響度を表す数である。)
前記気息性付与ステップより出力された前記変更後の調和成分H’及び前記変更後の非調和成分NH’とを前記コンピュータにより合成させて合成音声信号を出力させる合成ステップとを備えたことを特徴とする音声合成用プログラム。
In a speech synthesis program for causing a computer to execute a procedure of synthesizing and outputting speech based on input performance data,
And performance data input step of performance data Ru is input to the computer including the dynamics data Dy showing a breathiness data Br and dynamics showing the breathiness magnitude,
Harmony / stochastic component generating step Ru is generated by the computer and a harmonic component H and the stochastic component NH voice on the basis of the performance data,
Using the breathability data Br and the dynamics data Dy, the speech synthesizer uses the following equations to change the magnitudes of the harmonic component H and the nonharmonic component NH, respectively, according to the following formulas. a breath-imparting step conditioner is changed into components NH 'and Ru is imparting breathiness to the audio,
H ′ = H + ΔH × Br
NH ′ = NH + (ΔNH1 + ΔNH2 × Dy) × Br
(Here, ΔH, ΔNH1, and ΔNH2 are numbers representing the degree of influence due to the increase and decrease of breathability data and dynamics data.)
That a synthesizing step of Ru and 'stochastic component NH and after the change' harmonic component H after change which is output from the breath-imparting step to output the synthesized speech signal by combining by the computer A special speech synthesis program.
請求項に記載の音声合成用プログラムを記録したコンピュータで読み取り可能な記録媒体。A computer-readable recording medium on which the speech synthesis program according to claim 4 is recorded.
JP2002092450A 2002-03-28 2002-03-28 Speech synthesis apparatus, speech synthesis method, speech synthesis program, and computer-readable recording medium storing the program Expired - Fee Related JP3918606B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002092450A JP3918606B2 (en) 2002-03-28 2002-03-28 Speech synthesis apparatus, speech synthesis method, speech synthesis program, and computer-readable recording medium storing the program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002092450A JP3918606B2 (en) 2002-03-28 2002-03-28 Speech synthesis apparatus, speech synthesis method, speech synthesis program, and computer-readable recording medium storing the program

Publications (2)

Publication Number Publication Date
JP2003288095A JP2003288095A (en) 2003-10-10
JP3918606B2 true JP3918606B2 (en) 2007-05-23

Family

ID=29237277

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002092450A Expired - Fee Related JP3918606B2 (en) 2002-03-28 2002-03-28 Speech synthesis apparatus, speech synthesis method, speech synthesis program, and computer-readable recording medium storing the program

Country Status (1)

Country Link
JP (1) JP3918606B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4649888B2 (en) 2004-06-24 2011-03-16 ヤマハ株式会社 Voice effect imparting device and voice effect imparting program
JP4654621B2 (en) 2004-06-30 2011-03-23 ヤマハ株式会社 Voice processing apparatus and program
JP2008139651A (en) * 2006-12-04 2008-06-19 Yamaha Corp Voice synthesizer, voice synthesizing method and program

Also Published As

Publication number Publication date
JP2003288095A (en) 2003-10-10

Similar Documents

Publication Publication Date Title
US8996378B2 (en) Voice synthesis apparatus
WO2011004579A1 (en) Voice tone converting device, voice pitch converting device, and voice tone converting method
US11289066B2 (en) Voice synthesis apparatus and voice synthesis method utilizing diphones or triphones and machine learning
CN105957515A (en) Voice Synthesis Method, Voice Synthesis Device, Medium for Storing Voice Synthesis Program
JP6747489B2 (en) Information processing method, information processing system and program
JP3287230B2 (en) Chorus effect imparting device
JP3711880B2 (en) Speech analysis and synthesis apparatus, method and program
JP6728843B2 (en) Electronic musical instrument, musical tone generating device, musical tone generating method and program
JP3732793B2 (en) Speech synthesis method, speech synthesis apparatus, and recording medium
WO2019181767A1 (en) Sound processing method, sound processing device, and program
JP3918606B2 (en) Speech synthesis apparatus, speech synthesis method, speech synthesis program, and computer-readable recording medium storing the program
JP4844623B2 (en) CHORAL SYNTHESIS DEVICE, CHORAL SYNTHESIS METHOD, AND PROGRAM
JP4304934B2 (en) CHORAL SYNTHESIS DEVICE, CHORAL SYNTHESIS METHOD, AND PROGRAM
JP4349316B2 (en) Speech analysis and synthesis apparatus, method and program
Saitou et al. Analysis of acoustic features affecting" singing-ness" and its application to singing-voice synthesis from speaking-voice
JP4757971B2 (en) Harmony sound adding device
JP4300764B2 (en) Method and apparatus for synthesizing singing voice
Howard The vocal tract organ and the vox humana organ stop
Bonada et al. Sample-based singing voice synthesizer using spectral models and source-filter decomposition
JP7195020B2 (en) Privacy system and privacy improvement method
JP7192834B2 (en) Information processing method, information processing system and program
JP5211437B2 (en) Voice processing apparatus and program
JPS58168097A (en) Voice synthesizer
WO2022080395A1 (en) Audio synthesizing method and program
JP2001265374A (en) Voice synthesizing device and recording medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040924

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060718

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060808

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061005

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061031

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061222

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070123

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070205

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313532

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110223

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120223

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130223

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140223

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees