JP4736524B2 - Speech synthesis apparatus and speech synthesis program - Google Patents
Speech synthesis apparatus and speech synthesis program Download PDFInfo
- Publication number
- JP4736524B2 JP4736524B2 JP2005133419A JP2005133419A JP4736524B2 JP 4736524 B2 JP4736524 B2 JP 4736524B2 JP 2005133419 A JP2005133419 A JP 2005133419A JP 2005133419 A JP2005133419 A JP 2005133419A JP 4736524 B2 JP4736524 B2 JP 4736524B2
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- model
- acoustic
- speech
- phoneme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
Description
本発明は、音声合成装置及び音声合成プログラムに関するものであり、詳細には、違和感のない音声の出力が可能な音声合成装置及び音声合成プログラムに関するものである。 The present invention relates to a speech synthesizer and a speech synthesizer program, and more particularly to a speech synthesizer and a speech synthesizer program capable of outputting speech without a sense of discomfort.
従来、音声合成において、疑問文、同意を求める文、行為を促す文などの文末の語調が平叙文とは異なり、ピッチの上がる文章の音声を合成する場合には、特許文献1に記載の発明のピッチパタン生成方法のように、ピッチが上がってゆく補正パタンを予め複数用意して、基本パタンにその終端位置を合わせて加え合わせることによりピッチの上がる文章のピッチパタンを生成したり、特許文献2に記載の発明の音声合成装置のように、呼気段落のモーラ数に応じて、モーラ位置ごとにピッチの補正量が設定されて、元のピッチを補正したりしている。
しかしながら、特許文献1及び2に示す発明のピッチパタン生成方法や音声合成装置では、元々のピッチに補正量を足しているだけなので、音声として出力した際に違和感が生じる場合があるという問題点がある。
However, the pitch pattern generation method and the speech synthesizer according to the inventions disclosed in
本発明は、上述の問題点を解決するためになされたものであり、違和感のない音声の出力が可能な音声合成装置及び音声合成プログラムを提供することを目的とする。 The present invention has been made to solve the above-described problems, and an object of the present invention is to provide a speech synthesizer and a speech synthesizer program that can output speech without a sense of incongruity.
上記課題を解決するため、請求項1に係る発明の音声合成装置では、音声を音響パラメータ列に分析した音韻データから作られた音韻モデルと音声を分析した基本周波数データから作られた韻律モデルとを少なくとも含む音響モデルの集合である音響辞書を記憶する音響辞書記憶手段と、疑問文、同意を求める文、行為を促す文などの文末の語調が平叙文とは異なる文を発声した音声の前記音韻データから作られた疑問文用音韻モデルと前記文末の語調が平叙文とは異なる文を発声した音声の前記基本周波数データから作られた疑問文用韻律モデルとを少なくとも含む疑問文用音響モデルの集合であり、前記音響辞書とは異なる疑問文用音響辞書を記憶する疑問文用音響辞書記憶手段と、音声を生成する文を単語に分解して品詞を決定し、アクセント句ごとにそのアクセント位置を示すアクセント型を決定し、かつ当該音声を生成する文の読みを決定する言語解析手段と、当該言語解析手段により解析された解析結果に基づいて前記音響辞書から前記音響モデルを選択する音響モデル選択手段と、当該音響モデル選択手段により選択された前記音響モデルを構成する前記音韻モデル及び前記韻律モデルをもとに音声を生成する音声生成手段とを備え、前記音響モデル選択手段は、前記音声を生成する文の文末が所定の文末のパターンである場合、又は、前記音声を生成する文に疑問詞が含まれる場合のうちの少なくとも一方の場合には、当該音声を生成する文の文末の音素、文末の所定数のモーラ、文末のアクセント句、又は、全文のいずれかの音響モデルを、前記音響辞書でなく前記疑問文用音響辞書の前記疑問文用音響モデルから選択することを特徴とする。 In order to solve the above-described problem, in the speech synthesizer according to the first aspect of the present invention, a phoneme model created from phoneme data obtained by analyzing speech into an acoustic parameter sequence and a prosody model created from fundamental frequency data obtained by analyzing speech Acoustic dictionary storage means for storing an acoustic dictionary that is a set of acoustic models including at least the above, and the voice of a voice that utters a sentence whose tone at the end of the sentence is different from a plain sentence, such as a question sentence, a sentence requesting consent, and a sentence prompting an action An interrogative sentence acoustic model including at least an interrogative sentence phonological model created from phonological data and an interrogative sentence prosodic model created from the fundamental frequency data of speech uttered by a sentence whose tone is different from that of a plain sentence A question sentence acoustic dictionary storage means for storing a question sentence acoustic dictionary different from the acoustic dictionary; Language analysis means for determining an accent type indicating the accent position for each cent phrase and determining reading of a sentence that generates the speech; and from the acoustic dictionary based on an analysis result analyzed by the language analysis means. An acoustic model selecting means for selecting an acoustic model; and a speech generating means for generating speech based on the phonological model and the prosodic model constituting the acoustic model selected by the acoustic model selecting means, The model selection means may determine whether the sentence that generates the speech has a predetermined sentence ending pattern or at least one of the cases where the sentence that generates the speech includes an interrogative. A phoneme at the end of a sentence, a predetermined number of mora at the end of the sentence, an accent phrase at the end of the sentence, or an acoustic model of the whole sentence instead of the acoustic dictionary And selecting from the question statements with the acoustic model of the serial question statements with acoustic dictionary.
また、請求項2に係る発明の音声合成装置では、請求項1に記載の発明の構成に加えて、前記所定の文末のパターンは文末の文字が疑問符であることを特徴とする。
Further, in the speech synthesizer of the invention according to
また、請求項3に係る発明の音声合成装置では、請求項1又は2に記載の発明の構成に加えて、前記所定の文末のパターンは文末が質問する言葉、同意を求める言葉又は行為を促す言葉であることを特徴とする。
Moreover, in the speech synthesizer of the invention according to
また、請求項4に係る発明の音声合成プログラムでは、コンピュータに音声を生成する文を単語に分解して品詞を決定し、アクセント句ごとにそのアクセント位置を示すアクセント型を決定し、かつ当該音声を生成する文の読みを決定する言語解析ステップと、音声を音響パラメータ列に分析した音韻データから作られた音韻モデルと音声を分析した基本周波数データから作られた韻律モデルとを少なくとも含む音響モデルの集合である音響辞書から、前記言語解析ステップにより解析された解析結果に基づいて前記音響モデルを選択する音響モデル選択ステップと、当該音響モデル選択ステップにより選択された前記音響モデルを構成する前記音韻モデル及び前記韻律モデルをもとに音声を生成する音声生成ステップとをコンピュータに実行させるための音声合成プログラムであって、前記音響モデル選択ステップは、前記音声を生成する文の文末が所定の文末のパターンである場合、又は、前記音声を生成する文に疑問詞が含まれる場合のうちの少なくとも一方の場合には、当該音声を生成する文の文末の音素、文末の所定数のモーラ、文末のアクセント句、又は、全文のいずれかの音響モデルを、前記音響辞書でなく、疑問文、同意を求める文、行為を促す文などの文末の語調が平叙文とは異なる文を発声した音声の前記音韻データから作られた疑問文用音韻モデルと前記文末の語調が平叙文とは異なる文を発声した音声の前記基本周波数データから作られた疑問文用韻律モデルとを少なくとも含む疑問文用音響モデルの集合である疑問文用音響辞書の前記疑問文用音響モデルから選択することを特徴とする。
In the speech synthesis program of the invention according to
また、請求項5に係る発明の音声合成プログラムでは、請求項4に記載の発明の構成に加えて、コンピュータが扱う前記所定の文末のパターンは文末の文字が疑問符であることを特徴とする。
Further, in the speech synthesis program of the invention according to
また、請求項6に係る発明の音声合成プログラムでは、請求項4又は5に記載の発明の構成に加えて、コンピュータが扱う前記所定の文末のパターンは文末が質問する言葉、同意を求める言葉又は行為を促す言葉であることを特徴とする。
Further, in the speech synthesis program of the invention according to
請求項1に係る発明の音声合成装置では、音響辞書記憶手段は、音声を音響パラメータ列に分析した音韻データから作られた音韻モデルと音声を分析した基本周波数データから作られた韻律モデルとを少なくとも含む音響モデルの集合である音響辞書を記憶し、疑問文用音響辞書記憶手段は、疑問文、同意を求める文、行為を促す文などの文末の語調が平叙文とは異なる文を発声した音声の音韻データから作られた疑問文用音韻モデルと文末の語調が平叙文とは異なる文を発声した音声の基本周波数データから作られた疑問文用韻律モデルとを少なくとも含む疑問文用音響モデルの集合であり、音響辞書とは異なる疑問文用音響辞書を記憶し、言語解析手段は、音声を生成する文を単語に分解して品詞を決定し、アクセント句ごとにそのアクセント位置を示すアクセント型を決定し、かつ音声を生成する文の読みを決定し、音響モデル選択手段は、言語解析手段により解析された解析結果に基づいて音響辞書から音響モデルを選択し、音声生成手段は、音響モデル選択手段により選択された音響モデルを構成する音韻モデル及び韻律モデルをもとに音声を生成することができる。また、音響モデル選択手段は、音声を生成する文の文末が所定の文末のパターンである場合、又は、音声を生成する文に疑問詞が含まれる場合のうちの少なくとも一方の場合には、音声を生成する文の文末の音素、文末の所定数のモーラ、文末のアクセント句、又は、全文のいずれかの音響モデルを、音響辞書でなく疑問文用音響辞書の疑問文用音響モデルから選択することができる。したがって、もともと疑問文、同意を求める文、行為を促す文などの文末の語調が平叙文とは異なる文を発声した音声の音韻データから作られている音響モデルを用いて音声を生成するので、自然な違和感のない音声を合成することができる。
In the speech synthesizer of the invention according to
また、請求項2に係る発明の音声合成装置では、請求項1に記載の発明の効果に加えて、所定の文末のパターンを文末の文字が疑問符であることとすることができる。したがって、疑問符がある場合に平叙文とは文末の語調の異なる文であると判断することができるので、容易に疑問文用音響辞書を使うか否かの判断を行うことができる。
In addition, in the speech synthesizer of the invention according to
また、請求項3に係る発明の音声合成装置では、請求項1又は2に記載の発明の効果に加えて、所定の文末のパターンは文末を質問する言葉、同意を求める言葉又は行為を促す言葉とすることができる。したがって、質問する言葉、同意を求める言葉又は行為を促す言葉が文末にある場合には平叙文とは文末の語調の異なる文であると判断することができるので、容易に疑問文用音響辞書を使うか否かの判断を行うことができる。
In addition, in the speech synthesizer of the invention according to
また、請求項4に係る発明の音声合成プログラムでは、コンピュータに音声を生成する文を単語に分解して品詞を決定し、アクセント句ごとにそのアクセント位置を示すアクセント型を決定し、かつ音声を生成する文の読みを決定する言語解析ステップと、音声を音響パラメータ列に分析した音韻データから作られた音韻モデルと音声を分析した基本周波数データから作られた韻律モデルとを少なくとも含む音響モデルの集合である音響辞書から、言語解析ステップにより解析された解析結果に基づいて音響モデルを選択する音響モデル選択ステップと、音響モデル選択ステップにより選択された音響モデルを構成する音韻モデル及び韻律モデルをもとに音声を生成する音声生成ステップとを実行させることができる。そして、音響モデル選択ステップでは、音声を生成する文の文末が所定の文末のパターンである場合、又は、音声を生成する文に疑問詞が含まれる場合のうちの少なくとも一方の場合には、音声を生成する文の文末の音素、文末の所定数のモーラ、文末のアクセント句、又は、全文のいずれかの音響モデルを、音響辞書でなく、疑問文、同意を求める文、行為を促す文などの文末の語調が平叙文とは異なる文を発声した音声の音韻データから作られた疑問文用音韻モデルと文末の語調が平叙文とは異なる文を発声した音声の基本周波数データから作られた疑問文用韻律モデルとを少なくとも含む疑問文用音響モデルの集合である疑問文用音響辞書の疑問文用音響モデルから選択することができる。したがって、もともと疑問文、同意を求める文、行為を促す文などの文末の語調が平叙文とは異なる文を発声した音声の音韻データから作られている音響モデルを用いて音声を生成するので、自然な違和感のない音声を合成することができる。
In the speech synthesis program of the invention according to
また、請求項5に係る発明の音声合成プログラムでは、請求項4に記載の発明の効果に加えて、所定の文末のパターンを文末の文字が疑問符であることとすることができる。したがって、疑問符がある場合に平叙文とは文末の語調の異なる文であると判断することができるので、容易に疑問文用音響辞書を使うか否かの判断を行うことができる。
In addition, in the speech synthesis program of the invention according to
また、請求項6に係る発明の音声合成プログラムでは、請求項4又は5に記載の発明の効果に加えて、所定の文末のパターンは文末を質問する言葉、同意を求める言葉又は行為を促す言葉とすることができる。したがって、質問する言葉、同意を求める言葉又は行為を促す言葉が文末にある場合には平叙文とは文末の語調の異なる文であると判断することができるので、容易に疑問文用音響辞書を使うか否かの判断を行うことができる。
In addition, in the speech synthesis program of the invention according to
以下、本発明の実施の形態を図面を参照して説明する。まず、図1を参照して、本実施の形態の音声合成装置1について説明する。図1は、音声合成装置1の電気的構成を示すブロック図である。図1に示すように、音声合成装置1には音声合成装置1の制御を司るCPU2が設けられ、CPU2には、キーボード3と、各種のデータを一時的に記憶するRAM4と、音響辞書50,文末パターン辞書55,疑問詞辞書56等を記憶したROM5と、デジタルアナログコンバータ(DAC)6、計時装置9とが接続している。そして、DAC6にはさらにアンプ(AMP)7が接続し、AMP7にはスピーカ8が接続している。
Hereinafter, embodiments of the present invention will be described with reference to the drawings. First, the
また、RAM4には、音声合成の処理を行う際に使用される変数や生成データを記憶する種々の記憶エリアが設けられている。例えば、テキスト記憶エリア41には、キーボード3から入力され、音声合成を行うテキストが記憶される。また、解析結果記憶エリア42には、言語解析11(図2参照)によりテキスト記憶エリア41に記憶されているテキストが解析された結果等が記憶される。
In addition, the
そして、mcep列記憶エリア43には、mcep列生成15(図2参照)により生成されたmcep列が記憶され、pitch列記憶エリア44には、pitch列生成16(図2参照)により生成されたpitch列が記憶される。そして、音源信号記憶エリア45には、音源信号生成17(図2参照)により生成された音源信号が記憶され、出力音声波形記憶エリア46には、MLSAフィルター23(図2参照)により生成された出力音声の波形が記憶される。
The msep
また、音響モデル情報記憶エリア61には、テキスト記憶エリア41に記憶されて入れているテキストについての音響モデルが音素ごとに記憶され、疑問形フラグ記憶エリア62には、テキスト記憶エリア41に記憶されて入れているテキストについての疑問形フラグが音素ごとに記憶される。
The acoustic model
次に、図2を参照して、本実施の形態の音声合成装置及び音声合成プログラムにおける機能構成について説明する。図2は、本実施の形態の機能構成図である。図2に示すように、まず、音声合成されるテキストは言語解析11が行われる。この言語解析11では、入力されたテキストが解析されて、その読みとアクセント型が出力される。
Next, with reference to FIG. 2, the functional configuration of the speech synthesis apparatus and speech synthesis program of the present embodiment will be described. FIG. 2 is a functional configuration diagram of the present embodiment. As shown in FIG. 2, first,
例えば、図3に示すように、テキスト記憶エリア41に「そういえば、京都に行った?」という文章が記憶されているとする。図3は、テキスト記憶エリア41の一例であるテキスト記憶エリア411の模式図である。まず、品詞情報、読み情報、接続情報、アクセント情報等をもつ言語辞書(図示外)が参照されて周知の最長一致法で形態素解析が行われ、「そう」,「いえ」,「ば」,「京都」,「に」,「行っ」,「た」,「?」に解析され、さらに品詞が判定される。そして、言語辞書の接続情報が参照されて複合語がまとめられ、「そういえば」,「京都に」,「行った?」とされる。なお、形態素解析においてはアクセント位置も言語辞書のアクセント情報から割り出される。そして、複合語にまとめられる際に、アクセント位置の移動がある語については、アクセント位置の変更処理も行われる。そして、最後に、言語情報の読み情報が参照されて、文字列がカタカナの文字列に置き換えられ、「ソーイエバ(4)|キョートニ(1)/イッタ(0)?」という解析結果が出力され、図4に示すように、解析結果記憶エリア42に記憶される。図4は、テキスト記憶エリア411の情報について言語解析11を行った解析結果の一例である解析結果記憶エリア421の模式図である。なお、解析結果記憶エリア42には、各語の品詞情報も記憶される。なお、ここで「|」は呼気段落区切りを示し、()はアクセント区の区切りを示し、()内の数字がアクセント区のアクセント位置を示している。
For example, as shown in FIG. 3, it is assumed that a text “Is that you went to Kyoto?” Is stored in the
そして、言語解析11により解析されたアクセント型及び読みに基づいて、音響モデル選択12が行われる。ここでは、読みがさらに音素に分解される。そして、音素ごとに、音響辞書50から音響モデルが選択される。図2に示すように、音響辞書50は、音韻モデル51と韻律モデル52とから形成されており、音韻モデルと韻律モデルとの組み合わされたものを音響モデルと呼ぶこととする。また、音韻モデル51には、通常用音韻モデル511と疑問文用音韻モデル512とがあり、韻律モデル52には、通常用韻律モデル521と疑問文用韻律モデル522とがある。
Then, an
また、通常用音韻モデル511及び通常用韻律モデル521は、平叙文を発声した際の声を録音した録音データから作られた音韻モデルの集合及び韻律モデルの集合である。また、疑問文用音韻モデル512及び疑問文用韻律モデル522は、疑問文,同意を求める文,行為を促す文などの平叙文とは異なる、文末のピッチが上がる文を発声した際の声を録音した録音データから作られた音韻モデルの集合及び韻律モデルの集合である。
The
本実施の形態では、文末に「?」がついている場合、文末が所定の文末パターンに該当する場合、文中に所定の疑問詞が存在する場合に、最後のアクセント句の音韻モデルを変更する場合は、最後のアクセント句の音韻モデルを疑問文用音韻モデル512から選択し、韻律モデルを疑問文用韻律モデル522から選択して、疑問文用音響モデルを作成する。
In this embodiment, when “?” Is added at the end of a sentence, when the end of the sentence corresponds to a predetermined end-of-sentence pattern, or when a predetermined question word is present in the sentence, the phoneme model of the last accent phrase is changed Selects the phoneme model of the last accent phrase from the question
通常用音韻モデル511には、「a,b,by,ch,cl,d,dy,e,f,fy,g,gy,h,hy,i,j,k,ky,m,my,n,N,ny,o,p,pau,py,r,ry,s,sh,t,ts,ty,u,w,y,z」の38種の音素に対する音韻モデルが記憶されている。例えば、この音韻モデルは、自然音声をメルケプストラム分析することによって得られるものである。各音韻モデルはその継続時間をフレーム(1フレームは10msとする)で分割され、フレームごとにメルケプストラム係数及びそのフレームが有声であるか無声であるかの情報等が記憶されている。なお、「pau」はポーズ(呼気段落の区切り)を示している。
The
そして、通常用韻律モデル521には、音素ごとにアクセント型やアクセント句内でのモーラ位置の情報に対応してpitch列生成のための情報となる韻律モデルが記憶されている。例えば、この韻律モデルは、自然音声を基本周波数分析することによって得られるもので、フレームごとのピッチデータが記憶されている。
The normal
なお、本実施の形態では、各音素に対して選択された音韻モデル及び音響モデルの情報を統合して音響モデルと呼ぶことし、例えば、音素「a」の音響モデルを「(a)」のように音素に「()」を付けて表示することとする。 In the present embodiment, information on the phoneme model and the acoustic model selected for each phoneme is integrated and called an acoustic model. For example, the acoustic model of the phoneme “a” is “(a)”. In this way, the phonemes are displayed with “()” added.
また、疑問文用音韻モデル512及び疑問文用韻律モデル522は、疑問文,同意を求める文,行為を促す文などの平叙文とは異なる、文末のピッチが上がる文を発声した際の声を録音した録音データから作られた音韻モデルの集合及び韻律モデルの集合であり、作成に使用される録音データは、ピッチの上がる文字の音素の種類、アクセント型、アクセント句内のモーラ位置の様々なパターンの文章を発声したものである。したがって、疑問文用音韻モデル512及び疑問文用韻律モデル522から選択された疑問文用音韻モデル及び疑問文用韻律モデルからなる疑問文用音響モデルは、1つの音素に対して1種類の音響モデルでなく、音素の種類、その音素の属するアクセント句のアクセント型、アクセント句内のモーラ位置の組合せ分だけ存在する。本実施の形態では、疑問文用音響モデルを通常用の音響モデルと区別するために、「(aq)」,「(aq2)」,「(aq3)」というように、音素の種類の後ろにq,q1,q2等を付与して表示することとする。
In addition, the interrogative
例えば、「そういえば、京都に行った。」という例では、図5に示すように「s_o_o_i_e_b_a_pau_ky_o_o_t_o_n_i_i_cl_t_a」という音素に分解される。図5は、音響モデル情報記憶エリア61の一例の「そういえば、京都に行った。」の音響モデルを記憶した音響モデル記憶エリア611の模式図である。そして、音韻モデル選択13では、音素ごとにフレームごとのメルケプストラム係数及びそのフレームが有声であるか無声であるかの情報等が通常用音韻モデル511から選択される。そして、韻律モデル選択14では、「(5,4)、pau、(4,1)、(3,0)」というようにアクセント型、アクセント句のモーラ数が整理され、通常用韻律モデル521から、音素ごとにアクセント型やアクセント句内でのモーラ位置の情報に対応してpitch列生成のための情報となる韻律モデルが選択される。なお、「(5,4)、pau、(4,1)、(3,0)」は、5モーラ(拍)のアクセント型4の韻律モデルの次に、ポーズがあり、その後に4モーラのアクセント型1、3モーラのアクセント型0となることを示している。
For example, in the example of “I went to Kyoto, so to speak”, it is decomposed into phonemes “s_o_o_i_e_b_a_pau_ky_o_o_t_o_n_i_i_cl_t_a” as shown in FIG. FIG. 5 is a schematic diagram of an acoustic
そして、音素ごとに音響モデルが音響モデル情報記憶エリア61に記憶される。図5は、その一例である音響モデル情報記憶エリア611の模式図である。なお、図5に示す模式図では、アクセント型及びモーラ位置も記載しているが、これらの情報は音響モデルに含まれる情報である。音素「s」の音響モデルは「(s)」であり、アクセント型は「4」、モーラ位置は1番目、次の音素「o」の音響モデルは「(o)」であり、アクセント型は「4」、モーラ位置は1番目、次の音素「o」の音響モデルは「(o)」であり、アクセント型は「4」、モーラ位置は2番目、次の音素「i」の音響モデルは「(i)」であり、アクセント型は「4」、モーラ位置は3番目、次の音素「e」の音響モデルは「(e)」であり、アクセント型は「4」、モーラ位置は4番目、次の音素「b」の音響モデルは「(b)」であり、アクセント型は「4」、モーラ位置は5番目、次の音素「a」の音響モデルは「(a)」であり、アクセント型は「4」、モーラ位置は5番目とされている。
The acoustic model is stored in the acoustic model
そして、次の音素「ky」の音響モデルは「(ky)」であり、アクセント型は「1」、モーラ位置は1番目、次の音素「o」の音響モデルは「(o)」であり、アクセント型は「1」、モーラ位置は1番目、次の音素「o」の音響モデルは「(o)」であり、アクセント型は「1」、モーラ位置は2番目、次の音素「t」の音響モデルは「(t)」であり、アクセント型は「1」、モーラ位置は3番目、次の音素「o」の音響モデルは「(o)」であり、アクセント型は「1」、モーラ位置は3番目、次の音素「n」の音響モデルは「(n)」であり、アクセント型は「1」、モーラ位置は4番目、次の音素「i」の音響モデルは「(i)」であり、アクセント型は「1」、モーラ位置は4番目とされている。そして、次の音素「i」の音響モデルは「(i)」であり、アクセント型は「0」、モーラ位置は1番目、次の音素「cl」の音響モデルは「(cl)」であり、アクセント型は「0」、モーラ位置は2番目、次の音素「t」の音響モデルは「(t)」であり、アクセント型は「0」、モーラ位置は3番目、次の音素「a」の音響モデルは「(a)」であり、アクセント型は「0」、モーラ位置は3番目とされている。 The acoustic model of the next phoneme “ky” is “(ky)”, the accent type is “1”, the mora position is the first, and the acoustic model of the next phoneme “o” is “(o)”. , The accent type is “1”, the mora position is the first, the acoustic model of the next phoneme “o” is “(o)”, the accent type is “1”, the mora position is the second, the next phoneme “t” ”Is the acoustic model“ (t) ”, the accent type is“ 1 ”, the mora position is the third, the acoustic model of the next phoneme“ o ”is“ (o) ”, and the accent type is“ 1 ”. , The mora position is the third, the acoustic model of the next phoneme “n” is “(n)”, the accent type is “1”, the mora position is the fourth, the acoustic model of the next phoneme “i” is “( i) ", the accent type is" 1 ", and the mora position is the fourth. The acoustic model of the next phoneme “i” is “(i)”, the accent type is “0”, the mora position is the first, and the acoustic model of the next phoneme “cl” is “(cl)”. The accent type is “0”, the mora position is second, the acoustic model of the next phoneme “t” is “(t)”, the accent type is “0”, the mora position is third, and the next phoneme “a” The acoustic model is “(a)”, the accent type is “0”, and the mora position is the third.
また、例えば、「そういえば、京都に行った?」というように文末に「?」が付いている文章の場合を考える。この場合にも、「s_o_o_i_e_b_a_pau_ky_o_o_t_o_n_i_i_cl_t_a」という音素に分解される。図6は、音響モデル情報記憶エリア61の一例の「そういえば、京都に行った?」の音響モデルを記憶した音響モデル記憶エリア612の模式図である。そして、文末に「?」が付いているので、最後のアクセント句の音素「i_cl_t_a」については、通常用音韻モデル511でなく疑問文用音韻モデル512から音韻モデルが選択され、通常用韻律モデル521でなく疑問文用韻律モデル522から韻律モデルが選択される。
Also, for example, consider a sentence with “?” At the end of the sentence such as “Speaking of which, did you go to Kyoto?”. Also in this case, it is decomposed into phonemes of “s_o_o_i_e_b_a_pau_ky_o_o_t_o_n_i_i_cl_t_a”. FIG. 6 is a schematic diagram of an acoustic
図6は、この場合の音響モデル情報記憶エリア612の模式図である。音素「s」の音響モデルは「(s)」であり、アクセント型は「4」、モーラ位置は1番目、次の音素「o」の音響モデルは「(o)」であり、アクセント型は「4」、モーラ位置は1番目、次の音素「o」の音響モデルは「(o)」であり、アクセント型は「4」、モーラ位置は2番目、次の音素「i」の音響モデルは「(i)」であり、アクセント型は「4」、モーラ位置は3番目、次の音素「e」の音響モデルは「(e)」であり、アクセント型は「4」、モーラ位置は4番目、次の音素「b」の音響モデルは「(b)」であり、アクセント型は「4」、モーラ位置は5番目、次の音素「a」の音響モデルは「(a)」であり、アクセント型は「4」、モーラ位置は5番目とされている。
FIG. 6 is a schematic diagram of the acoustic model
そして、次の音素「ky」の音響モデルは「(ky)」であり、アクセント型は「1」、モーラ位置は1番目、次の音素「o」の音響モデルは「(o)」であり、アクセント型は「1」、モーラ位置は1番目、次の音素「o」の音響モデルは「(o)」であり、アクセント型は「1」、モーラ位置は2番目、次の音素「t」の音響モデルは「(t)」であり、アクセント型は「1」、モーラ位置は3番目、次の音素「o」の音響モデルは「(o)」であり、アクセント型は「1」、モーラ位置は3番目、次の音素「n」の音響モデルは「(n)」であり、アクセント型は「1」、モーラ位置は4番目、次の音素「i」の音響モデルは「(i)」であり、アクセント型は「1」、モーラ位置は4番目とされている。そして、次の音素「i」の音響モデルは「(iq)」であり、アクセント型は「0」、モーラ位置は1番目、次の音素「cl」の音響モデルは「(clq)」であり、アクセント型は「0」、モーラ位置は2番目、次の音素「t」の音響モデルは「(tq)」であり、アクセント型は「0」、モーラ位置は3番目、次の音素「a」の音響モデルは「(aq)」であり、アクセント型は「0」、モーラ位置は3番目とされている。 The acoustic model of the next phoneme “ky” is “(ky)”, the accent type is “1”, the mora position is the first, and the acoustic model of the next phoneme “o” is “(o)”. , The accent type is “1”, the mora position is the first, the acoustic model of the next phoneme “o” is “(o)”, the accent type is “1”, the mora position is the second, the next phoneme “t” ”Is the acoustic model“ (t) ”, the accent type is“ 1 ”, the mora position is the third, the acoustic model of the next phoneme“ o ”is“ (o) ”, and the accent type is“ 1 ”. , The mora position is the third, the acoustic model of the next phoneme “n” is “(n)”, the accent type is “1”, the mora position is the fourth, the acoustic model of the next phoneme “i” is “( i) ", the accent type is" 1 ", and the mora position is the fourth. The acoustic model of the next phoneme “i” is “(iq)”, the accent type is “0”, the mora position is the first, and the acoustic model of the next phoneme “cl” is “(clq)”. , The accent type is “0”, the mora position is second, the acoustic model of the next phoneme “t” is “(tq)”, the accent type is “0”, the mora position is third, and the next phoneme “a” The acoustic model is “(aq)”, the accent type is “0”, and the mora position is the third.
ここで、図7乃至図10を参照して、疑問文用音韻モデル512及び疑問文用韻律モデル522から選択された疑問文用音響モデル「(iq)」,「(clq)」,「(tq)」,「(aq)」を例に挙げて、疑問文用音響モデルの作成及び選択について説明する。図7は、「(aq)」の疑問文用音響モデルを作成する際の例文「もう買った?」の音素、アクセント型及びアクセント句内のモーラ位置の模式図711であり、図8は、「(tq)」の疑問文用音響モデルを作成する際の例文「本貸して?」の音素、アクセント型及びアクセント句内のモーラ位置の模式図712であり、図9は、「(clq)」の疑問文用音響モデルを作成する際の例文「なんて言った?」の音素、アクセント型及びアクセント句内のモーラ位置の模式図713であり、図10は、「(iq)」の疑問文用音響モデルを作成する際の例文「彼女いない?」の音素、アクセント型及びアクセント句内のモーラ位置の模式図714である。
Here, referring to FIG. 7 to FIG. 10, the question sentence acoustic models “(iq)”, “(clq)”, “(tq) selected from the question
例えば、「(aq)」は、文末に「?」が付いており、文末音素が「a」であり、その音素「a」の属するアクセント句のアクセント型が0型であり、かつ、アクセント句内モーラ位置が「3」である疑問文用音響モデルである。これは、同様の条件を満たす例文「もう買った?」を発声したものを録音したデータから生成された音韻モデルや韻律モデルで形成されている。音素「a」の疑問文用音響モデルは、この「(aq)」の他にも、文末に「?」が付いており、文末音素が「a」であり、その音素「a」の属するアクセント句のアクセント型が1型であり、かつ、アクセント句内モーラ位置が「2」であるようなものや、文中に「なぜ」という疑問文があり、音素「a」は文末音素でなく、その音素「a」の属するアクセント句のアクセント型が0型であり、かつ、アクセント句内モーラ位置が「1」であるようなものなど、様々なパターンのアクセント型、アクセント句内のモーラ位置、文章の種類(「?」がついている場合、文末が所定の文末パターンの場合、文中に疑問詞が存在する場合)の組合せによる疑問文用音響モデルが録音データから作成される。そして、疑問文用音響モデルの選択時には、これらのアクセント句のアクセント型、アクセント句内のモーラ位置等の条件を満たす音響モデルが選択される。
For example, “(aq)” has “?” At the end of the sentence, the end-of-sentence phoneme is “a”, the accent type of the accent phrase to which the phoneme “a” belongs is
同様に、「(tq)」は、文末に「?」が付いており、文末から1モーラ目の音素が「t」であり、その音素「t」の属するアクセント句のアクセント型が0型であり、かつ、アクセント句内モーラ位置が「3」である疑問文用音響モデルである。これは、同様の条件を満たす例文「本貸して?」を発声したものを録音したデータから生成された音韻モデルや韻律モデルで形成されている。また、「(clq)」は、文末に「?」が付いており、文末から2モーラ目の音素が「cl」であり、その音素「cl」の属するアクセント句のアクセント型が0型であり、かつ、アクセント句内モーラ位置が「2」である疑問文用音響モデルである。これは、同様の条件を満たす例文「なんて言った?」を発声したものを録音したデータから生成された音韻モデルや韻律モデルで形成されている。また、「(iq)」は、文末に「?」が付いており、文末から3モーラ目の音素が「i」であり、その音素「i」の属するアクセント句のアクセント型が0型であり、かつ、アクセント句内モーラ位置が「1」である疑問文用音響モデルである。これは、同様の条件を満たす例文「彼女いない?」を発声したものを録音したデータから生成された音韻モデルや韻律モデルで形成されている。 Similarly, “(tq)” has “?” At the end of the sentence, the phoneme of the first mora from the end of the sentence is “t”, and the accent type of the accent phrase to which the phoneme “t” belongs is 0 type. There is an acoustic model for question sentences in which the mora position in the accent phrase is “3”. This is formed by a phonological model or a prosodic model generated from data obtained by recording an utterance of an example sentence “Lend me?” That satisfies the same conditions. “(Clq)” has “?” At the end of the sentence, the phoneme of the second mora from the end of the sentence is “cl”, and the accent type of the accent phrase to which the phoneme “cl” belongs is 0 type. And an acoustic model for a question sentence in which the mora position in the accent phrase is “2”. This is formed by a phonological model or a prosodic model generated from data obtained by recording an utterance of an example sentence “What did you say?” That satisfies the same condition. “(Iq)” has “?” At the end of the sentence, the phoneme of the third mora from the end of the sentence is “i”, and the accent type of the accent phrase to which the phoneme “i” belongs is 0 type. And the acoustic model for question sentences in which the mora position in the accent phrase is “1”. This is formed by a phonological model or a prosodic model generated from data obtained by recording a utterance of an example sentence “she is not?” That satisfies the same condition.
このようにして、音響モデル選択12により音響モデルが選択されたら、図2に示すように、pitch列生成16により、生成された韻律モデル列が接続されてpitch列が生成される。ただし、接続時に音韻モデル列の各音韻の長さに合わせて、モーラ長を伸縮して音韻モデルとの同期が取られる。次いで、音韻モデル選択13により選択された音韻モデルに基づいて、各音素の音韻モデルが結合されてメルケプストラム列と有声/無声情報列(以下、mcep列とする)が生成される(mcep列生成15)。
When the acoustic model is selected by the
そして、mcep列生成15により生成されたmcep列の有声/無声情報、及び、pitch列生成16により生成されたpitch列に基づいて音源信号生成17が行われる。音源信号は、pitch列に基づいて有声部にはパルス列信号が生成され、無声部には雑音信号が生成される。そして、音源信号がMLSAフィルター23を介して音声として出力される。
Then, the sound
次に、図11及び図12を参照して、文末パターン辞書55及び疑問詞辞書56について説明する。図11は文末パターン辞書55の模式図であり、図12は疑問詞辞書56の模式図である。これらの辞書は音響モデルを通常の音響モデルから疑問文用の音響モデルに変更するか否かの判断を行う際に使用されるものである。
Next, the sentence ending
図11に示すように、文末パターン辞書55には、疑問文、同意を求める文、行為を促す文など、語尾が上がる語調の文章で使用される文末の語句が品詞の情報と共に記憶されている。図11に示す例では、助動詞の「でしょ」,副詞の「どう」,動詞の「し」と助詞の「たら」,助詞の「て」と動詞の「い」と助詞の「て」,助詞の「かな」(末尾に「ぁ」が付いている場合を含む),助詞の「ね」(末尾に「ぇ」が付いている場合を含む),助詞の「よ」(末尾に「ぉ」が付いている場合を含む),助詞の「の」(末尾に「ぉ」が付いている場合を含む),助詞の「さ」(末尾に「ぁ」が付いている場合を含む)等であり、他の文末パターンについては省略されている。
As shown in FIG. 11, the sentence ending
また、図12に示すように、疑問詞辞書56には、疑問文、同意を求める文、行為を促す文などで使用される疑問詞が記憶されている。図12に示す例では、「何」,「いつ」,「誰」,「どこ」,「どれ」,「どう」,「いくら」,「いくつ」,「どうして」,「何故」等であり、他の疑問詞については省略されている。
In addition, as shown in FIG. 12, the
次に、図13の模式図、図14及び図15のフローチャートを参照して、音響モデルの選択に関する処理の動作について説明する。図13は、疑問形フラグ記憶エリア621の模式図であり、図14及び図15は、音響モデル選択12で行われる処理のフローチャートであり、図15は、図14に示すフローチャートの続きである。
Next, with reference to the schematic diagram of FIG. 13 and the flowcharts of FIG. 14 and FIG. FIG. 13 is a schematic diagram of the question
まず、図13の模式図を参照して、RAM4の疑問形フラグ記憶エリア62の一例である疑問形フラグ記憶エリア621について説明する。この疑問形フラグ記憶エリア621は、「そういえば、京都に行った?」の文の疑問形フラグの例であり、音素に対応して疑問形フラグが記憶されている。図13に示す例では、音素「s」,音素「o」,音素「o」,音素「i」,音素「e」,音素「b」,音素「a」,音素「ky」,音素「o」,音素「o」,音素「t」,音素「o」,音素「n」,音素「i」の疑問形フラグは「0」であり、音素「i」,音素「cl」,音素「t」,音素「a」の疑問形フラグは「1」となっている。
First, an interrogative
まず、疑問形フラグ記憶エリア62の音素欄に音響モデル情報記憶エリアの音素欄に記憶されている音素がセットされ、疑問形フラグ欄に全て初期値の「0」がセットされて、初期化が行われる(S1)。そして、テキスト記憶エリア41に記憶されている文章の文末の記号が「?」であり文末パターンに該当するか否かのチェックが行われる(S2)。文末の記号が「?」であり、文末パターンに該当する場合には(S3:YES)、最後のアクセント句に属する音素の疑問形フラグに「1」がセットされる(S4)。文末パターンに該当しなかった場合には(S3:NO)、疑問形フラグには何もセットされない。
First, the phonemes stored in the phoneme column of the acoustic model information storage area are set in the phoneme column of the interrogative
そして、解析結果記憶エリア42に記憶されている品詞情報等の解析結果において、文末パターン辞書55に該当するものがあり、文末パターンに該当するか否かのチェックが行われる(S5)。文末パターンに該当した場合には(S6:YES)、最後のアクセント句に属する音素の疑問形フラグに「1」がセットされる(S7)。文末パターンに該当しなかった場合には(S6:NO)、疑問形フラグには何もセットされない。
Then, in the analysis result such as part of speech information stored in the analysis
そして、解析結果記憶エリア42に記憶されている品詞情報等の解析結果において、疑問詞辞書56に登録されている疑問詞が存在するか否かのチェックが行われる(S8)。疑問詞があれば(S9:YES)、最後のアクセント句に属する音素の疑問形フラグに「1」がセットされる(S10)。疑問詞がなければ(S9:NO)、疑問形フラグには何もセットされない。
Then, in the analysis result such as the part of speech information stored in the analysis
そして、S1〜S10でセットされた疑問形フラグを参照しながら、各音素の音響モデルが音響辞書50から選択される(S11〜S17)。まず、ポインタが最初のポインタに置かれる(S11)。そして、その音素の疑問形フラグが「1」であるか否かの判断が行われる(S12)。疑問形フラグが「1」でなければ(S12:NO)、疑問文用音韻モデル512及び疑問文用韻律モデル522から選択する必要はないので、通常用音韻モデル511及び通常用韻律モデル521から音響モデル(音韻モデル及び韻律モデル)が選択される(S15)。そして、ポインタが次の音素へ進められる(S16)。
And the acoustic model of each phoneme is selected from the
また、疑問形フラグが「1」であれば(S12:YES)、その音素の属するアクセント句が文中の最後のアクセント句であるか否かの判断が行われる(S13)。最後のアクセント句でなければ(S13:NO)、疑問文用音韻モデル512及び疑問文用韻律モデル522から選択する必要はないので、通常用音韻モデル511及び通常用韻律モデル521から音響モデル(音韻モデル及び韻律モデル)が選択される(S15)。そして、ポインタが次の音素へ進められる(S16)。
If the question flag is “1” (S12: YES), it is determined whether the accent phrase to which the phoneme belongs is the last accent phrase in the sentence (S13). If it is not the last accent phrase (S13: NO), it is not necessary to select from the interrogative
最後のアクセント句であれば(S13:YES)、疑問文用の語調にして語尾のピッチを上げる必要があるので、疑問文用音韻モデル512及び疑問文用韻律モデル522から音響モデル(音韻モデル及び韻律モデル)が選択される(S14)。そして、ポインタが次の音素へ進められる(S16)。そして、すべての音素についての処理が終了していれば(S17:YES)、音響モデル選択の処理は終了するが、全ての音素についての処理が終了していなければ(S17:NO)、S12へ戻り、ポインタの指している音素についての音響モデルの選択の処理が行われる(S12〜S16)。
If it is the last accent phrase (S13: YES), it is necessary to increase the pitch of the ending by changing the tone for the question sentence, so the acoustic model (phoneme model and phonological model) is derived from the question
例えば、「そういえば、京都に行った?」の例であれば、S11において、始めの音素「s」にポインタが置かれる。そして、図13に示すように、この音素「s」の疑問形フラグは「0」であるので、(S12:NO)、通常用音韻モデル511及び通常用韻律モデル521から選択された音響モデル「(s)」が音響モデル情報記憶エリア61に記憶される(S15)。そして、次の音素「o」にポインタが進められる(S16)。まだ、全ての音素の処理は終了していないので(S17:NO)、ポインタの示している音素「o」についての処理が行われる。この音素「o」も疑問形フラグは「0」であるので、(S12:NO)、通常用音韻モデル511及び通常用韻律モデル521から選択された音響モデル「(s)」が音響モデル情報記憶エリア61に記憶される(S15)。そして、次の音素「o」にポインタが進められる(S16)。
For example, in the case of “Speaking of which, did you go to Kyoto?”, A pointer is placed on the first phoneme “s” in S11. As shown in FIG. 13, since the question flag of the phoneme “s” is “0” (S12: NO), the acoustic model “511” selected from the
このようにして、続く音素「o」,音素「i」,音素「e」,音素「b」,音素「a」音素「ky」,音素「o」,音素「o」,音素「t」,音素「o」,音素「n」,音素「i」の処理が行われるが、これらの音素は全て疑問形フラグが「0」であるので、通常用音韻モデル511及び通常用韻律モデル521から音響モデルが選択される。
In this way, the following phoneme “o”, phoneme “i”, phoneme “e”, phoneme “b”, phoneme “a” phoneme “ky”, phoneme “o”, phoneme “o”, phoneme “t”, The phoneme “o”, phoneme “n”, and phoneme “i” are processed. Since all of these phonemes have the question flag “0”, the sound from the
そして、次の音素「i」では疑問形フラグが「1」であり(S12:YES)、最後のアクセント句であるので(S13:YES)、疑問文用音韻モデル512及び疑問文用韻律モデル522から音響モデル(音韻モデル及び韻律モデル)が選択される(S14)。そして、ポインタが次の音素「cl」へ進められる(S16)。全ての音素についての処理が終了していないので(S17:NO)、S12へ戻る。音素「cl」は疑問形フラグが「1」であり(S12:YES)、最後のアクセント句であるので(S13:YES)、疑問文用音韻モデル512及び疑問文用韻律モデル522から音響モデル(音韻モデル及び韻律モデル)が選択される(S14)。
In the next phoneme “i”, the question-type flag is “1” (S12: YES), and is the last accent phrase (S13: YES). Therefore, the
同様にして、続く音素「t」,音素「a」についても疑問形フラグが「1」であり(S12:YES)、最後のアクセント句であるので(S13:YES)、疑問文用音韻モデル512及び疑問文用韻律モデル522から音響モデル(音韻モデル及び韻律モデル)が選択される(S14)。そして、全ての音素の処理が終了したので(S17:YES)、処理は終了する。 Similarly, the subsequent phoneme “t” and phoneme “a” also have the question flag “1” (S12: YES) and are the last accent phrase (S13: YES). Then, an acoustic model (phoneme model and prosody model) is selected from the question sentence prosody model 522 (S14). Since all phonemes have been processed (S17: YES), the processing ends.
以上のようにして、疑問文用音韻モデル512及び疑問文用韻律モデル522を、疑問文、同意を求める文、行為を促す文などの文末の語調が平叙文とは異なる文を発声した音声の前記音韻データから予め作成し、文末が所定のパターン(「?」がついている場合、所定の質問する言葉、同意を求める言葉又は行為を促す言葉)である場合、文中に疑問詞がある場合には、疑問文用音韻モデル512及び疑問文用韻律モデル522から音響モデル(音韻モデル及び韻律モデル)を選択することにより、疑問文、同意を求める文、行為を促す文などの文末の語調により近づいた自然な音声を出力することができる。
As described above, the interrogative
なお、本実施の形態のROM5の音響辞書50に記憶されている通常用音韻モデル511及び通常用韻律モデル521が「音響辞書記憶手段」に該当し、ROM5の音響辞書50に記憶されている疑問文用音韻モデル512及び疑問文用韻律モデル522が「疑問文用音響辞書記憶手段」に該当する。言語解析11の処理を行うCPU2が「言語解析手段」に相当し、音響モデル選択12の処理を行うCPU2が「音響モデル選択手段」に相当し、mcep列生成15,pitch列生成16,音源信号生成17及びMLSAフィルター23の処理を行うCPU2が「音声生成手段」に相当する。
It should be noted that the
なお、本発明の音声合成装置及び音声合成プログラムは、上記した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変更を加え得ることは勿論である。 Note that the speech synthesizer and the speech synthesis program of the present invention are not limited to the above-described embodiments, and it is needless to say that various modifications can be made without departing from the gist of the present invention.
上記実施の形態では、音響モデルのうち音韻モデル及び韻律モデルについて、疑問文用のデータを使用したが、音韻モデルのみ疑問文用のものを使用したり、韻律モデルのみ疑問文用のものをしようしたりしてもよい。また、疑問文の用のモデルを作成するに当たり、上記実施の形態では、音素の種類、その音素の属するアクセント句のアクセント型、アクセント句内のモーラ位置を考慮して、録音データを作成して疑問文用のデータを作成したが、これらの他に、文の長さ、呼気段落の長さ、アクセント句のアクセント位置からの距離(何音素離れているか)、アクセント句内の呼気段落の有無、アクセント句間の係り受けの度合い、品詞、品詞の活用型、品詞の活用形なども考慮に入れてデータを作成してもよい。また、1つ前の音素、2つ前の音素、1つ後の音素、2つ後の音素など、前後の音素の状況も考慮してもよい。また、音素の種類を考慮しなくてもよい。 In the above embodiment, data for question sentences is used for phonological models and prosodic models among acoustic models. However, only phonological models are used for question sentences, or only prosodic models are used for question sentences. You may do it. In creating the model for the question sentence, in the above embodiment, the recording data is created in consideration of the type of phoneme, the accent type of the accent phrase to which the phoneme belongs, and the mora position in the accent phrase. I created data for the question sentence, but in addition to these, the length of the sentence, the length of the exhalation paragraph, the distance from the accent position of the accent phrase (how many phonemes are apart), the presence or absence of the exhalation paragraph in the accent phrase The data may be created taking into account the degree of dependency between accent phrases, part of speech, part of speech utilization, part of speech utilization. In addition, the situation of previous and subsequent phonemes such as the previous phoneme, the previous phoneme, the next phoneme, and the second phoneme may be considered. In addition, it is not necessary to consider the type of phoneme.
また、上記実施の形態では、最後のアクセント句について、文末が所定のパターン(「?」がついている場合、所定の質問する言葉、同意を求める言葉又は行為を促す言葉)である場合、文中に疑問詞がある場合には、疑問文用音韻モデル512及び疑問文用韻律モデル522から音響モデル(音韻モデル及び韻律モデル)を選択したが、疑問文用の音響モデルから選択する音素に該当する音素は、最後のアクセント句に該当する音素である必要はなく、最後の音素のみであったり、最後のモーラに該当する音素であったりしてもよい。
Further, in the above embodiment, when the last accent phrase has a predetermined pattern (if “?” Is attached, a predetermined question word, a word for asking for consent, or a word prompting an action), When there is an interrogative, an acoustic model (phonological model and prosodic model) is selected from the interrogative
本発明の音声合成装置及び音声合成プログラムは、平叙文とは異なる語調の文章の音声出力を行う音声合成装置及び音声合成プログラムに適応可能である。 The speech synthesizer and speech synthesis program of the present invention can be applied to a speech synthesizer and a speech synthesis program for outputting speech of a sentence having a tone different from that of a plain text.
1 音声合成装置
2 CPU
4 RAM
5 ROM
11 言語解析
12 音響モデル選択
13 音韻モデル選択
14 韻律モデル選択
41 テキスト記憶エリア
42 解析結果記憶エリア
50 音響辞書
51 音韻モデル
52 韻律モデル
55 文末パターン辞書
56 疑問詞辞書
61 音響モデル情報記憶エリア
62 疑問形フラグ記憶エリア
511 通常用音韻モデル
512 疑問文用音韻モデル
521 通常用韻律モデル
522 疑問文用韻律モデル
1
4 RAM
5 ROM
11
Claims (6)
疑問文、同意を求める文、行為を促す文などの文末の語調が平叙文とは異なる文を発声した音声の前記音韻データから作られた疑問文用音韻モデルと前記文末の語調が平叙文とは異なる文を発声した音声の前記基本周波数データから作られた疑問文用韻律モデルとを少なくとも含む疑問文用音響モデルの集合であり、前記音響辞書とは異なる疑問文用音響辞書を記憶する疑問文用音響辞書記憶手段と、
音声を生成する文を単語に分解して品詞を決定し、アクセント句ごとにそのアクセント位置を示すアクセント型を決定し、かつ当該音声を生成する文の読みを決定する言語解析手段と、
当該言語解析手段により解析された解析結果に基づいて前記音響辞書から前記音響モデルを選択する音響モデル選択手段と、
当該音響モデル選択手段により選択された前記音響モデルを構成する前記音韻モデル及び前記韻律モデルをもとに音声を生成する音声生成手段とを備え、
前記音響モデル選択手段は、前記音声を生成する文の文末が所定の文末のパターンである場合、又は、前記音声を生成する文に疑問詞が含まれる場合のうちの少なくとも一方の場合には、当該音声を生成する文の文末の音素、文末の所定数のモーラ、文末のアクセント句、又は、全文のいずれかの音響モデルを、前記音響辞書でなく前記疑問文用音響辞書の前記疑問文用音響モデルから選択することを特徴とする音声合成装置。 Acoustic dictionary storage means for storing an acoustic dictionary that is a set of acoustic models including at least a phonological model created from phonological data obtained by analyzing speech into an acoustic parameter sequence and a prosodic model created from fundamental frequency data obtained by analyzing speech; ,
A phonological model for interrogative sentences made from the phonological data of a voice that utters a sentence whose ending tone is different from a plain sentence, such as a question sentence, a sentence requesting consent, a sentence that prompts an action, etc. Is a set of interrogative sentence acoustic models including at least interrogative sentence prosodic models created from the fundamental frequency data of speech uttered by different sentences, and stores interrogative sentence acoustic dictionaries different from the acoustic dictionary An acoustic dictionary storage means for sentences;
Language analysis means for decomposing speech generating sentences into words to determine part of speech, determining an accent type indicating the accent position for each accent phrase, and determining reading of the sentence generating the speech;
Acoustic model selection means for selecting the acoustic model from the acoustic dictionary based on the analysis result analyzed by the language analysis means;
Voice generation means for generating voice based on the phonological model and the prosodic model constituting the acoustic model selected by the acoustic model selection means,
The acoustic model selection means, in the case where the sentence ending sentence is a predetermined sentence ending pattern, or in the case where at least one of the sentence containing the voice includes a question word, The phoneme at the end of the sentence for generating the speech, the predetermined number of mora at the end of the sentence, the accent phrase at the end of the sentence, or the acoustic model of the whole sentence is used for the question sentence of the question sentence acoustic dictionary instead of the sound dictionary A speech synthesizer characterized by selecting from an acoustic model.
音声を音響パラメータ列に分析した音韻データから作られた音韻モデルと音声を分析した基本周波数データから作られた韻律モデルとを少なくとも含む音響モデルの集合である音響辞書から、前記言語解析ステップにより解析された解析結果に基づいて前記音響モデルを選択する音響モデル選択ステップと、
当該音響モデル選択ステップにより選択された前記音響モデルを構成する前記音韻モデル及び前記韻律モデルをもとに音声を生成する音声生成ステップとをコンピュータに実行させるための音声合成プログラムであって、
前記音響モデル選択ステップは、前記音声を生成する文の文末が所定の文末のパターンである場合、又は、前記音声を生成する文に疑問詞が含まれる場合のうちの少なくとも一方の場合には、当該音声を生成する文の文末の音素、文末の所定数のモーラ、文末のアクセント句、又は、全文のいずれかの音響モデルを、前記音響辞書でなく、疑問文、同意を求める文、行為を促す文などの文末の語調が平叙文とは異なる文を発声した音声の前記音韻データから作られた疑問文用音韻モデルと前記文末の語調が平叙文とは異なる文を発声した音声の前記基本周波数データから作られた疑問文用韻律モデルとを少なくとも含む疑問文用音響モデルの集合である疑問文用音響辞書の前記疑問文用音響モデルから選択することを特徴とする音声合成プログラム。 A language analysis step for determining a part of speech by decomposing a sentence that generates speech, determining an accent type indicating an accent position for each accent phrase, and determining a reading of the sentence that generates the speech;
Analyzed by the language analysis step from an acoustic dictionary that is a set of acoustic models including at least a phonological model created from phonological data obtained by analyzing speech into an acoustic parameter sequence and a prosodic model created from fundamental frequency data analyzed from speech. An acoustic model selection step of selecting the acoustic model based on the analyzed result,
A speech synthesis program for causing a computer to execute a speech generation step for generating speech based on the phonological model and the prosodic model constituting the acoustic model selected by the acoustic model selection step,
In the acoustic model selection step, when the sentence end of the sentence that generates the sound is a pattern of a predetermined sentence end, or when the sentence that generates the sound includes a question word, The phoneme at the end of the sentence that generates the speech, the predetermined number of mora at the end of the sentence, the accent phrase at the end of the sentence, or the acoustic model of the whole sentence is not an acoustic dictionary, but a question sentence, a sentence for seeking consent, or an act The phonological model for interrogative sentences created from the phonological data of the speech uttered by a sentence whose tone is different from that of the plain sentence and the basic of the speech uttered by a sentence whose tone is different from that of the plain sentence A speech synthesis program selected from the question sentence acoustic model of the question sentence acoustic dictionary, which is a set of question sentence acoustic models including at least a question sentence prosody model created from frequency data Lamb.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005133419A JP4736524B2 (en) | 2005-04-28 | 2005-04-28 | Speech synthesis apparatus and speech synthesis program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005133419A JP4736524B2 (en) | 2005-04-28 | 2005-04-28 | Speech synthesis apparatus and speech synthesis program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006308998A JP2006308998A (en) | 2006-11-09 |
JP4736524B2 true JP4736524B2 (en) | 2011-07-27 |
Family
ID=37475939
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005133419A Expired - Fee Related JP4736524B2 (en) | 2005-04-28 | 2005-04-28 | Speech synthesis apparatus and speech synthesis program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4736524B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111724765B (en) * | 2020-06-30 | 2023-07-25 | 度小满科技(北京)有限公司 | Text-to-speech method and device and computer equipment |
CN112002302B (en) * | 2020-07-27 | 2024-05-10 | 北京捷通华声科技股份有限公司 | Speech synthesis method and device |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62138898A (en) * | 1985-12-13 | 1987-06-22 | 株式会社日立製作所 | Voice rule synthesization system |
JPH06236197A (en) * | 1992-07-30 | 1994-08-23 | Ricoh Co Ltd | Pitch pattern generation device |
JPH11231885A (en) * | 1998-02-19 | 1999-08-27 | Fujitsu Ten Ltd | Speech synthesizing device |
JP2006243213A (en) * | 2005-03-02 | 2006-09-14 | Advanced Telecommunication Research Institute International | Language model conversion device, sound model conversion device, and computer program |
-
2005
- 2005-04-28 JP JP2005133419A patent/JP4736524B2/en not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62138898A (en) * | 1985-12-13 | 1987-06-22 | 株式会社日立製作所 | Voice rule synthesization system |
JPH06236197A (en) * | 1992-07-30 | 1994-08-23 | Ricoh Co Ltd | Pitch pattern generation device |
JPH11231885A (en) * | 1998-02-19 | 1999-08-27 | Fujitsu Ten Ltd | Speech synthesizing device |
JP2006243213A (en) * | 2005-03-02 | 2006-09-14 | Advanced Telecommunication Research Institute International | Language model conversion device, sound model conversion device, and computer program |
Also Published As
Publication number | Publication date |
---|---|
JP2006308998A (en) | 2006-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6778962B1 (en) | Speech synthesis with prosodic model data and accent type | |
US6751592B1 (en) | Speech synthesizing apparatus, and recording medium that stores text-to-speech conversion program and can be read mechanically | |
JP4125362B2 (en) | Speech synthesizer | |
JP5198046B2 (en) | Voice processing apparatus and program thereof | |
WO2005088606B1 (en) | Prosodic speech text codes and their use in computerized speech systems | |
JP3616250B2 (en) | Synthetic voice message creation method, apparatus and recording medium recording the method | |
WO2004066271A1 (en) | Speech synthesizing apparatus, speech synthesizing method, and speech synthesizing system | |
JP4736524B2 (en) | Speech synthesis apparatus and speech synthesis program | |
JP2004145015A (en) | System and method for text speech synthesis | |
JP5975033B2 (en) | Speech synthesis apparatus, speech synthesis method, and speech synthesis program | |
JP3589972B2 (en) | Speech synthesizer | |
JPH0580791A (en) | Device and method for speech rule synthesis | |
JP4056647B2 (en) | Waveform connection type speech synthesis apparatus and method | |
Kaur et al. | BUILDING AText-TO-SPEECH SYSTEM FOR PUNJABI LANGUAGE | |
JPH11282494A (en) | Speech synthesizer and storage medium | |
JP3870583B2 (en) | Speech synthesizer and storage medium | |
JP3397406B2 (en) | Voice synthesis device and voice synthesis method | |
JPH11259094A (en) | Regular speech synthesis device | |
JPH0229797A (en) | Text voice converting device | |
JPH01321496A (en) | Speech synthesizing device | |
IMRAN | ADMAS UNIVERSITY SCHOOL OF POST GRADUATE STUDIES DEPARTMENT OF COMPUTER SCIENCE | |
Evans et al. | An approach to producing new languages for talking applications for use by blind people | |
JP2001166787A (en) | Voice synthesizer and natural language processing method | |
JPH08160983A (en) | Speech synthesizing device | |
JPH08328578A (en) | Text voice synthesizer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20080219 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080317 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100915 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101109 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101227 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110405 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110418 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4736524 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140513 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |