JP2007086309A - Voice synthesizer, voice synthesizing method, and program - Google Patents
Voice synthesizer, voice synthesizing method, and program Download PDFInfo
- Publication number
- JP2007086309A JP2007086309A JP2005273987A JP2005273987A JP2007086309A JP 2007086309 A JP2007086309 A JP 2007086309A JP 2005273987 A JP2005273987 A JP 2005273987A JP 2005273987 A JP2005273987 A JP 2005273987A JP 2007086309 A JP2007086309 A JP 2007086309A
- Authority
- JP
- Japan
- Prior art keywords
- reading
- information
- text
- morpheme
- pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
この発明は、携帯電話、PDA(Personal Digital Assistant)、パーソナルコンピュータ等の情報機器や、カーナビゲーションシステム、ETC(Electronic Toll Collection System)等の車載機器、ATM(自動現金預払機)、CD(キャッシュディスペンサ)機等の事務機器などに適用するテキスト解析技術に係り、テキスト解析結果を読み上げるテキスト音声合成装置およびその方法、ならびにその方法をコンピュータに実現させるためのプログラムに関するものである。 The present invention relates to an information device such as a mobile phone, a PDA (Personal Digital Assistant), a personal computer, an in-vehicle device such as a car navigation system, an ETC (Electronic Toll Collection System), an ATM (automatic cash dispenser), a CD (cash dispenser). The present invention relates to a text analysis technology applied to office equipment such as a machine, and relates to a text-to-speech synthesizer that reads a text analysis result, a method thereof, and a program for causing a computer to implement the method.
任意の文章から人工的に音声信号を作り出すことをテキスト音声合成という。テキスト音声合成は、一般的に言語処理部(テキスト解析)、音韻処理部(韻律設定)、音声合成部の3つの段階によって行われる。入力されたテキストは、まず言語処理部において形態素解析や構文解析などが行われ、次に音韻処理部においてアクセントやイントネーションの処理が行われて、音韻記号、ピッチ長、継続時間長などの音素環境情報が出力される。そして音素環境情報を根拠に、音声素片辞書に登録された音声素片を選択する。最後に、音声合成部で選択された音声素片と音韻記号、ピッチ長、継続時間長などの情報から音声を合成する。 Synthesizing speech signals artificially from arbitrary sentences is called text-to-speech synthesis. Text-to-speech synthesis is generally performed in three stages: a language processing unit (text analysis), a phoneme processing unit (prosodic setting), and a speech synthesis unit. The input text is first subjected to morphological analysis and syntactic analysis in the language processing unit, and then subjected to accent and intonation processing in the phonological processing unit, so that the phoneme environment such as phonological symbol, pitch length, duration length, etc. Information is output. Then, based on the phoneme environment information, a speech unit registered in the speech unit dictionary is selected. Finally, the speech is synthesized from the speech unit selected by the speech synthesizer and information such as the phoneme symbol, the pitch length, and the duration time.
従来の音声合成装置では、入力文章に発音出力が妥当でない用語(差別用語等)が含まれている場合に、この種の用語の発音を禁止するために、読み上げ禁止用語テーブルに発音出力を禁止する読み上げ禁止用語を予め格納しておく。入力文章であるテキストが入力されると、読み上げ禁止用語判断手段は、入力されたテキストを単語単位で切り出し、読み上げ禁止テーブルを検索して、入力されたテキストに含まれている単語が読み上げ禁止用語か否かを判断する。そして、発音禁止手段が、この読み上げ禁止用語判断手段の判断結果に基づいて、読み上げ禁止用語に該当する単語の発音を禁止する。例えば、読み上げ禁止用語に代えてビープ音を発音させたり、無音にさせたりすることで読み上げ禁止用語の発音を禁止する。また、置換表現に変換して発音させる。(特許文献1に開示)
また、XML(Extended Markup Language)のタグを記述することで、本来のテキスト内容と異なる読み上げを行ったり、何も読み上げなかったりといった制御を行う方法が開示されている(非特許文献1)。この方法は、文章作成者が、あらかじめ意図する読み上げ方をさせるために、文章中に読みの指定、及び読み飛ばしを指定するための制御タグを埋め込むものである。
In the conventional speech synthesizer, when the input sentence contains a term whose pronunciation output is not valid (discriminatory term, etc.), the pronunciation output is prohibited in the reading prohibition term table in order to prohibit the pronunciation of this type of term. The words that are prohibited from being read out are stored in advance. When the text that is the input sentence is input, the reading prohibition term judging means cuts out the input text in units of words, searches the reading prohibition table, and the words included in the input text are read prohibition terms. Determine whether or not. Then, the pronunciation prohibiting means prohibits pronunciation of a word corresponding to the reading prohibited term based on the determination result of the reading prohibited term determining means. For example, the pronunciation of a prohibited word is prohibited by generating a beep sound or silence in place of the prohibited word. Moreover, it is converted into a substitution expression and pronounced. (Disclosed in Patent Document 1)
Further, a method is disclosed in which XML (Extended Markup Language) tags are described to perform control such as reading out different from the original text content or not reading out anything (Non-Patent Document 1). In this method, a text creator embeds a control tag for designating reading and skipping in a sentence so that the intended creator reads out in advance.
特許文献1に開示する従来の音声合成装置は、以上のように構成されているが、次のような課題がある。例えば、「あなたの暗証番号は1234です」とか「あなたのID番号はabcdefgです」などの文章がテキストとして入力された場合を考える。「暗証番号」「ID番号」などの単語と、“暗証番号そのもの”の「1234」や“ID番号そのもの”の「abcdefg」が関連無しに単独で読み上げられても、「暗証番号」や「ID番号」は読み上げに際して特に問題の無い一般名詞であり、また、「1234」や「abcdefg」は単なる数字やアルファベットの羅列に過ぎず、さほど大きな問題にはならない。しかし、「暗証番号は1234です」と読み上げられた場合には、「暗証番号=(イコール)1234」と関連付けられるので大きな問題となりうる。
従来の音声合成装置では、読み上げ禁止リストに登録された単語しか読み上げ禁止できないので、上記の「1234」や「abcdefg」を読み上げ禁止リストに登録する必要があるが、数字の羅列やアルファベット列などの組み合わせは膨大な数となる上、セキュリティのため暗証番号等は常に変更する必要があり、その度に登録するのはユーザあるいはシステムに負担が掛かり、上記の問題に対応できない。
The conventional speech synthesizer disclosed in
In the conventional speech synthesizer, only words registered in the reading prohibition list can be prohibited from reading out. Therefore, it is necessary to register the above “1234” and “abcdefg” in the reading prohibition list. In addition to enormous numbers of combinations, it is necessary to always change the password for security, and registration each time places a burden on the user or system, and cannot cope with the above problems.
また、非特許文献1に開示する従来の音声合成装置では、XMLでのタグによる音声読み上げ制御を行っているが、読み上げ制御のためにテキスト本文以外に送出する情報が必要であり、簡便ではない。さらに、制御のための情報は、テキスト作成者によってのみ設定できるものであり、テキスト作成者の意図でしか制御できず、音声合成装置利用者側で制御できないという課題がある。
例えば、テキスト作成者は、電話番号を、間違いなく聞き取って欲しいがために、制御のための情報として電話番号の範囲を「強調」して喋らせるように指定することが考えられるが、ユーザにとっては、利用状況によっては、個人情報に当たるため、読み上げて欲しくない場合があり、これらの問題には対応できない。
In addition, in the conventional speech synthesizer disclosed in Non-Patent
For example, a text writer may specify that the phone number range should be “highlighted” as control information because he / she wants to hear the phone number without fail. Depending on the usage situation, it may be personal information and you may not want it to be read out.
この発明は、上記問題点を解決するためになされたもので、ユーザの利用状況に応じて、暗証番号、電話番号、及びカード番号などの読み上げて欲しくない情報を、読み飛ばし、またはビープ音や無音などの別の内容に変更の上読み上げることを可能とすることを目的とする。 The present invention has been made to solve the above-described problems. Depending on the use situation of the user, information that is not desired to be read out such as a personal identification number, a telephone number, and a card number is skipped, or a beep or The purpose is to make it possible to read out after changing to another content such as silence.
この発明に係る音声合成装置は
テキストを入力とし、見だし、読み、アクセント型情報を持った言語辞書を用いて、読み情報とアクセント情報を含む解析結果に分割するテキスト解析手段と、
テキスト解析手段によって得られた読み情報とアクセント情報を元に、イントネーションやリズムを制御するための韻律情報を生成する韻律制御手段と、
テキスト解析手段によって得られた読み情報とアクセント情報、および韻律制御手段によって得られた韻律情報を元に、音素片を格納した音響辞書から音素片を選択する素片選択手段と、
素片選択手段で選択した音素片を韻律制御手段によって得られた韻律情報に合わせて合成音を作成する音声合成手段を有する音声合成装置において、
上記テキスト解析手段の処理中に、特定のパターンを抽出するための読み制御ルールを元に読み制御ルールに規定されているパターンに一致する形態素を生成するパターン形態素生成手段と、
パターン形態素生成手段によって求められた形態素の読み上げ内容の変更を行い入力テキストの読み上げ内容変更を行う読み上げ内容変更手段と、
上記読み上げ内容変更手段の読み上げ内容変更を実行するか否かの読み制御信号を入力する読み制御信号入力手段を有する。
A speech synthesizer according to the present invention uses a text dictionary as input, finds, reads, and uses a language dictionary having accent-type information, and divides it into analysis results including reading information and accent information;
Prosody control means for generating prosodic information for controlling intonation and rhythm based on reading information and accent information obtained by text analysis means,
Based on the reading information and accent information obtained by the text analysis means, and the prosody information obtained by the prosody control means, a segment selection means for selecting a phoneme from an acoustic dictionary storing phonemes;
In a speech synthesizer having a speech synthesizer that creates a synthesized sound in accordance with the prosodic information obtained by the prosodic control means, the phoneme selected by the segment selection means
A pattern morpheme generation unit that generates a morpheme that matches a pattern defined in the reading control rule based on a reading control rule for extracting a specific pattern during the processing of the text analysis unit;
Reading contents changing means for changing the reading contents of the input text by changing the reading contents of the morpheme obtained by the pattern morpheme generation means,
There is a reading control signal input means for inputting a reading control signal as to whether or not to execute the reading contents change of the reading contents changing means.
この発明に係る音声合成装置によれば、暗証番号、電話番号、及びカード番号などユーザの利用状況によっては、読み上げて欲しくない情報を、パターン形態素生成手段で形態素生成し、読み上げ内容変更手段での形態素生成された情報を読み飛ばし、またはビープ音や無音などの別の内容に変更し、読み制御信号入力手段でユーザの利用状況に応じて入力テキストを内容変更して読み上げるか、内容変更しないで読み上げるかを選択可能とするので、ユーザの利用状況に応じた使用が出来る効果がある。 According to the speech synthesizer according to the present invention, information that is not desired to be read out depending on the use situation of the user, such as a personal identification number, a telephone number, and a card number, is generated by the pattern morpheme generating unit, and the reading content changing unit Read the morpheme-generated information or change it to another content such as a beep or silence, and change the content of the input text according to the user's usage status with the reading control signal input means, or do not change the content Since it is possible to select whether to read out, there is an effect that it can be used in accordance with the usage status of the user.
実施の形態1.
以下、この発明を実施するための最良の形態について図を参照して説明する。
図1は、この発明の実施の形態に係る音声合成方法を実現する音声合成装置の構成を示すブロック図である。図1において、1はテキストを入力するテキスト入力端子である。2はテキスト入力端子1から入力されたテキストを解析して、読み、アクセント情報、および韻律制御に必要な言語情報を生成するテキスト解析部である。ここで、テキスト解析部2での処理としては、最長一致、文節数最小法、およびコスト最小法などの既知の形態素解析アルゴリズムを用いて処理するものである(例えば、首藤公昭,吉村賢治「日本語の構造とその解析」、情報処理 Vol.27, No.8, pp.947〜954, 1986)。
The best mode for carrying out the present invention will be described below with reference to the drawings.
FIG. 1 is a block diagram showing a configuration of a speech synthesizer for realizing a speech synthesis method according to an embodiment of the present invention. In FIG. 1, 1 is a text input terminal for inputting text. A
3はテキスト解析部2でテキストを解析し、読み、アクセント情報、および韻律制御に必要な言語情報を生成するために利用する言語辞書である。4はテキスト解析部2で生成された、読み、アクセント情報、および韻律制御に必要な言語情報を元に、イントネーション、リズムなどの韻律情報を生成する韻律制御部である。ここで、韻律制御部の処理としては、藤崎モデルに代表される既知の技術をもとに、イントネーション、リズムなどの韻律情報を生成するものである。
5は合成音を作成するときに利用する音素片を格納した音響辞書で、6は、韻律制御部4から出力した読みと、イントネーション、リズムなどの韻律情報を元に、合成音作成に使う音素片を音響辞書5から選択する素片選択部、7は、素片選択部6で選択した音素片を、韻律制御部4で生成したイントネーション、リズムなどの韻律情報に合わせて合成音声を作成する音声合成部である。ここで、ピッチ周期および音韻継続時間長を変更し、音声を合成する方法としては、例えばLSP(Line Spectral Pair)パラメータ上で合成する残差駆動LSP方法、スペクトルパラメータ上で合成するMBE(Multi Band Excitation)方法、2ピッチ長波形を重畳合成するピッチ波形重畳方法、音素単位等の信号波形を接続合成する波形編集方法など公知の手法を用いることができる。8は音声合成部7で生成した合成音声を出力する出力端子である。
また、9は読み制御信号入力端子で、出力端子8から出力する合成音声を入力端子1で入力したテキストの内容通りの読み上げとするか、重要キーワードは読み上げずに無音としたり、ビーブ音などの別の音に変更して読み上げるかを制御するための読み制御信号が入力される。10は、テキスト中の特定パターンの文字列を抽出し、その抽出した文字列パターンに対して読み上げ内容を定義する読み制御ルール、11は、テキスト解析部2の処理中に呼び出し、読み制御ルール10に記述した各ルールを元に形態素情報を追加するパターン形態素生成部、12は、テキスト解析部2の処理中に呼び出し、形態素解析結果中の形態素がパターン形態素生成部11で生成した形態素の場合、読み制御信号入力端子9からの読み上げ内容の変更を要求に従って、読み上げ内容を変更する読み上げ内容変更部である。
Reference numeral 9 is a reading control signal input terminal, and the synthesized speech output from the output terminal 8 is read out in accordance with the contents of the text input at the
図2は、テキスト解析部2の処理内容を示すフローチャートで、特にS14は、パターン形態素生成部11での処理を、S17は、読み上げ内容変更部12での処理を表している。
図3は、図2におけるS14の処理内容を詳細に示すもので、パターン形態素生成部11での処理内容を示すフローチャートである。なお、以下ではS25の処理におけるNを3として説明する。
図4は、図2におけるS17の処理内容を詳細に示すもので、読み上げ内容変更部12での処理内容を示すフローチャートである。
FIG. 2 is a flowchart showing the processing contents of the
FIG. 3 shows details of the processing contents of S14 in FIG. 2, and is a flowchart showing the processing contents in the pattern morpheme generation unit 11. In the following description, N is 3 in the process of S25.
FIG. 4 shows in detail the processing contents of S17 in FIG. 2, and is a flowchart showing the processing contents in the reading
図5は、読み制御ルール10の例であり、21〜24はそれぞれ読み制御ルール例である。
図6は、読み制御ルール10の変換対象文字パターンルールで指定されたルール名の具体的なマッチングパターンの例であり、31〜34はそれぞれマッチングパターン例である。
図7は、テキスト解析部2での処理データ例であり、51は入力テキスト例、52はマッチング文字列例、53は最適形態素例、54は読み制御ルール生成形態素例、55〜56はテキスト解析結果例である。
図8は、テキスト解析部2での形態素候補生成例であり、61〜63は実際の形態素例である。
図9は、テキスト解析部2での別の処理データ例であり、71は入力テキスト例、72は先行単語列例、73はマッチング文字列例、74は最適形態素例、75は読み制御ルール生成形態素例、76〜77はテキスト解析結果例である。
FIG. 5 is an example of the
FIG. 6 is an example of a specific matching pattern of the rule name designated by the conversion target character pattern rule of the
FIG. 7 is an example of processing data in the
FIG. 8 is an example of morpheme candidate generation in the
FIG. 9 is another example of processing data in the
次に動作について説明する。
図1のテキスト入力端子1に図7に示す入力テキスト例51を入力した場合の動作を説明する。また、読み制御信号入力端子9には、数段階のレベルを入力が可能とし、以下実施の形態では、0〜2の3段階のレベル指定が入力されるとする。ここでは、レベル指定は、あらかじめ利用者が設定するものとする。
テキスト入力端子1に入力された入力テキスト例51は、テキスト解析部2に渡される。テキスト解析部2では、テキストから文を1文ずつ抽出し、最ももっともらしい解析結果を生成する。1文ごとのテキスト解析部2での処理を図2に従って説明する。
Next, the operation will be described.
The operation when the input text example 51 shown in FIG. 7 is input to the
The input text example 51 input to the
入力テキスト例51は、1文からなっているため、入力テキスト例51全体がS11に渡され、現在位置を文頭にセットして、処理S12に処理を移す。S12では、現在処理位置が文頭のため、S13に処理を移す。S13では、現在位置から始まる単語を言語辞書3から検索し、形態素候補として登録する。現在位置が文頭の場合は、図8に示す形態素例61と形態素例62の形態素が生成される。
Since the input text example 51 consists of one sentence, the entire input text example 51 is transferred to S11, the current position is set at the beginning of the sentence, and the process proceeds to process S12. In S12, since the current processing position is the beginning of the sentence, the process proceeds to S13. In S13, a word starting from the current position is searched from the
辞書引きによる形態素の生成が終了すると、S14に処理を移し、図5の読み制御ルール、及び図6のマッチングパターンに一致するパターンが存在するかどうかチェックし、存在するならば、S19で形態素として登録する。現在位置(=文頭)では、読み制御ルール及び、マッチングパターンに一致するパターンが存在しないため、S15に処理を移し、現在位置を1文字文末方向に移動する。
S15の処理が終わると、S12まで処理を移し、S12〜S15までの処理を繰り返し実行する。
When generation of the morpheme by dictionary lookup is completed, the process moves to S14 to check whether there is a pattern that matches the reading control rule of FIG. 5 and the matching pattern of FIG. sign up. Since there is no pattern matching the reading control rule and the matching pattern at the current position (= the beginning of the sentence), the process proceeds to S15, and the current position is moved toward the end of one character sentence.
When the processing of S15 is completed, the processing is shifted to S12, and the processing from S12 to S15 is repeatedly executed.
ここで、入力テキスト例51の現在位置が、「(045)930-0010まで、連絡・・・」になった時の、S14の具体的処理について説明する。処理は図3のS21に移され、S21では、先頭の読み制御ルールをセットする処理であるから、図5に示すルール例21が選択され、S22に処理を移す。S22では、全ての読み制御ルールが処理されていないので、S23に処理を移す。S23では、ルール例21は先行単語列「FAX」が定義されているので、S25に処理を移す。前方N文字(N=3)以内に、「FAX」という先行単語列は存在しないため、S27に処理を移し、図5に示す次のルール例22を選択し、S22に処理を戻す。 Here, the specific processing of S14 when the current position of the input text example 51 becomes “(045) 930-0010, contact ...” will be described. The process is moved to S21 in FIG. 3, and in S21, the first reading control rule is set. Therefore, the rule example 21 shown in FIG. 5 is selected, and the process moves to S22. In S22, since all the reading control rules have not been processed, the process proceeds to S23. In S23, in the rule example 21, since the preceding word string “FAX” is defined, the process proceeds to S25. Since there is no preceding word string “FAX” within the front N characters (N = 3), the process proceeds to S27, the next rule example 22 shown in FIG. 5 is selected, and the process returns to S22.
ルール例22は、ルール例21と同様に、先行単語列を持ち、「TEL」が、入力テキスト例51の前方N文字以内に存在しないため、S23からS25の判定処理をして、S27に処理を移して、次のルール例23を選択し、S22に処理を戻す。 Similar to rule example 21, rule example 22 has a preceding word string, and “TEL” does not exist within the first N characters of input text example 51. Therefore, the determination process from S23 to S25 is performed, and the process proceeds to S27. , The next rule example 23 is selected, and the process returns to S22.
S22では、全読み制御ルールが処理されていないので、S23に処理を移す。S23では、ルール例23には、先行単語列が定義されていないので、S24に処理を移す。S24では、ルール例23の変換対象文字パターンルールが、図7に示す入力テキスト例51の現在位置からのテキスト「(045)930-0010まで、連絡・・・」の部分文字列に一致するかどうかを判定する。ルール例23では、変換対象文字パターンルールは、「rule(phone2)」であるので、図6のマッチングパターンにおけるマッチングパターン例31〜33のマッチングパターン記述とマッチング条件に一致するかどうかを判定する。 In S22, since the full reading control rule has not been processed, the process proceeds to S23. In S23, since the preceding word string is not defined in the rule example 23, the process proceeds to S24. In S24, whether the conversion target character pattern rule of rule example 23 matches the partial character string of the text “(045) 930-0010, contact ...” from the current position of input text example 51 shown in FIG. Determine if. In rule example 23, since the conversion target character pattern rule is “rule (phone2)”, it is determined whether or not the matching pattern description in the matching pattern examples 31 to 33 in the matching pattern in FIG.
ここで、図6のマッチングパターン記述では、直接その文字列を記述する方法と、特定の文字タイプが指定の個数だけ連続することが記述できるようになっている。直接その文字列を記述する方法としては、「”」、「”」でくくることで表現し、特定の文字タイプが指定の個数だけ連続することを記述する方法としては、<文字タイプ>(<最小文字数>,<最大文字数>)と記述することする。 Here, in the matching pattern description of FIG. 6, it is possible to describe a method of describing the character string directly and that a specific character type continues for a specified number of times. As a method of describing the character string directly, it is expressed by enclosing it with “” ”and“ ””, and as a method of describing that a specific character type continues for a specified number, <character type> (< (Minimum number of characters>, <Maximum number of characters>).
さらに、マッチング条件としては、マッチングパターン記述でマッチングした特定文字タイプのマッチングを先頭から順に変数に対応付けし、「len(<変数>)」で文字列の長さ、「[val(<変数>),<最小>,<最大>]」で数値の範囲を規定している。
例えば、マッチングパターン例31のマッチングパターン記述では、「NUM(1,10)」の記述により、数字が1〜10連続し、その後「”−”」によって文字「−」が現れ、さらに、数字が1〜10連続し、文字「−」が現れ、数字が1〜10連続することを示している。そして、各NUM(*,*)は左から順番に変数$1〜$3と割り当てる。一方、マッチング条件の「[len($1)+len($2)+len($3),10,11]」により、数字の連続の総和が10、または11であることが条件となる。
Further, as a matching condition, matching of a specific character type matched by the matching pattern description is associated with a variable in order from the top, and “len (<variable>)” is the length of the character string, “[val (<variable >> ), <Minimum>, <maximum>] ”defines the range of numerical values.
For example, in the matching pattern description of the matching pattern example 31, numbers “1” to “10” are consecutive in the description “NUM (1, 10)”, and then the character “-” appears by ““-””. 1 to 10 continuous, the character “-” appears, indicating that the numbers are 1 to 10 continuous. Each NUM (*, *) is assigned to variables $ 1 to $ 3 in order from the left. On the other hand, according to the matching condition “[len ($ 1) + len ($ 2) + len ($ 3), 10, 11]”, the condition is that the sum of consecutive numbers is 10 or 11.
従って、入力テキスト例51の現在位置からのテキスト「(045)930-0010まで、連絡・・・」に対しては、マッチングパターン例31、マッチングパターン例33は一致せず、マッチングパターン例32が一致し、S26に処理を移すことになる。その結果、S26では、図8の形態素63が生成・登録され、処理をS27に移す。このとき、形態素には、読みなどの一般的な情報のほかに、読み制御ルールのレベルを設定する。S27では次の読み制御ルールが選択され、S22〜S27の処理を繰り返す。最終的には、S22で全ての読み制御ルールが処理されたと判断され、パターン形態素生成部11での処理を終了する。 Accordingly, the matching pattern example 31 and the matching pattern example 33 do not match the text “(045) 930-0010, contact ...” from the current position of the input text example 51, and the matching pattern example 32 is If they match, the process proceeds to S26. As a result, in S26, the morpheme 63 of FIG. 8 is generated and registered, and the process proceeds to S27. At this time, in addition to general information such as reading, the level of the reading control rule is set in the morpheme. In S27, the next reading control rule is selected, and the processes in S22 to S27 are repeated. Finally, it is determined in S22 that all reading control rules have been processed, and the processing in the pattern morpheme generation unit 11 ends.
上記の通り、形態素候補の生成が終了すると、テキスト解析処理部2では、S16で、コスト最小法、2文節最長一致法などの既知の形態素解析方法に従い、最ももっともらしい最適形態素を選択する。入力テキスト例51に対しては、図7に示される最適形態素例53が生成される。S16で最適形態素が選択されると、S17に処理を移し、読み上げ内容変更部12にて、読み上げ内容の変更を行う。
As described above, when the generation of the morpheme candidate is completed, the text
読み上げ内容変更部12によるS17での読み上げ内容の変更処理を図4の処理の流れに従って説明する。まず、S31では、読み上げ制御信号入力端子9への入力値から合成音作成レベルを決定する。読み上げ制御信号入力端子9は、機器の使用環境に従って入力される値で、ここでは、読み上げ制御信号入力端子9は3段階の入力を受け付け、0:全て読み上げ、1:最重要キーワード非読み上げ、2:重要キーワード非読み上げ、といったレベルが入力できるものとする。以下では、読み上げ制御信号入力端子9からレベル1が入力されたものとして説明する。
S32では、図7の最適形態素例53から、先頭の形態素「御用[ゴヨ'ー]」を選択し、S33に処理を移す。S33では、全ての形態素の処理が終了していないため、S34に処理を移す。S34では、先頭の形態素「御用[ゴヨ'ー]」が処理対象となり、この形態素は読み制御ルールで生成された形態素ではないため、S37に処理を移す。
The reading content changing process in S17 by the reading
In S32, the first morpheme “goyo” is selected from the optimal morpheme example 53 in FIG. 7, and the process proceeds to S33. In S33, since the processing of all morphemes has not been completed, the process proceeds to S34. In S34, the first morpheme “goyo [goyo ']” is a processing target, and since this morpheme is not a morpheme generated by the reading control rule, the process proceeds to S37.
S37では、次の形態素「の[ノ]」を選択し、S33に処理を戻す。図7に示す形態素例54がS37で選択されるまでは、上記の処理の繰り返しとなる。形態素例54がS37で選択されて、S33に処理を移した場合、全ての形態素が処理済でないので、S34に処理を移す。ここで、形態素例54は読み制御ルールで生成された形態素なので、S35に処理を移す。S35では、合成音作成レベル(=1)≧ルールレベル(=1)なので、S36に処理を移す。S36では、所定のルールに従って読みを書き換える。ここでは、無音に書き換えるものとする。S36の処理が終了し、S37で次の形態素を選択する。 In S37, the next morpheme “no” is selected, and the process returns to S33. The above processing is repeated until the morpheme example 54 shown in FIG. 7 is selected in S37. When the morpheme example 54 is selected in S37 and the processing is shifted to S33, since all the morphemes have not been processed, the processing is shifted to S34. Here, since the morpheme example 54 is a morpheme generated by the reading control rule, the processing is shifted to S35. In S35, since the synthesized sound creation level (= 1) ≧ rule level (= 1), the process proceeds to S36. In S36, the reading is rewritten according to a predetermined rule. Here, it shall be rewritten to silence. The process of S36 is completed, and the next morpheme is selected in S37.
この後も、S32〜S37までの処理を繰り返し、S17の処理を終了する。S17の処理が終了すると、S18に処理を移し、アクセント句としてのアクセント位置の制御を行う。アクセント位置の処理は、例えば、「NHK日本語発音アクセント辞典」などの既知のアクセントルールによって、助詞、助動詞などの接続によるアクセントが変形されるものとする。そして、図7に示すテキスト解析結果例56が生成され、テキスト解析部2の処理を終了する。
なお、合成音作成レベルが0の場合には、形態素例54はS35で条件を満足しないので、そのまま、S37に処理を移すため、図7に示すテキスト解析結果例55が生成される。
Thereafter, the processes from S32 to S37 are repeated, and the process of S17 is terminated. When the process of S17 ends, the process moves to S18, and the accent position as an accent phrase is controlled. In the processing of the accent position, it is assumed that the accent due to the connection of particles, auxiliary verbs, etc. is deformed by a known accent rule such as “NHK Japanese pronunciation accent dictionary”. Then, a text analysis result example 56 shown in FIG. 7 is generated, and the processing of the
If the synthesized sound creation level is 0, the morpheme example 54 does not satisfy the condition in S35, and the process proceeds to S37 as it is, so that the text analysis result example 55 shown in FIG. 7 is generated.
テキスト解析処理が終了すると、韻律制御部4に処理を移し、イントネーション、リズムなどの韻律情報を生成する。更に、素片選択部6では、発声内容に併せた素片を音響辞書5から選択する。最後に音声合成部7において、素片選択部6で選択した素片を、韻律制御部4にて生成した、イントネーション、リズムにあわせるよう変形して合成音声を作成し、出力端子8に出力する。なお、韻律制御部4、素片選択部6、音声合成部7での処理については、既知の音声合成方法にて実現することが可能であるため、詳細は省略する。
When the text analysis process ends, the process moves to the prosody control unit 4 to generate prosody information such as intonation and rhythm. Further, the segment selection unit 6 selects a segment in accordance with the utterance content from the
次に、別の入力テキスト例での解析結果の例を図9を用い簡単に説明する。
図9の入力テキスト例71が入力された場合、図5の読み制御ルール例24の先行単語列が、先行単語列例72に一致するため、先行単語列例72の後方に図6のマッチングパターン例34のマッチングパターンを探す。
結果として、マッチング文字列例73が見つかり、形態素が生成され、最適形態素74を生成する。最適形態素74の中には、読み制御ルール生成形態素例75が存在するため、読み制御信号入力端子9のレベルが1の場合は、テキスト解析結果例77を、レベルが0の場合は、テキスト解析結果例76を生成する。
Next, an example of an analysis result in another input text example will be briefly described with reference to FIG.
When the input text example 71 in FIG. 9 is input, the preceding word string in the reading control rule example 24 in FIG. 5 matches the preceding word string example 72, so that the matching pattern in FIG. The matching pattern of Example 34 is searched.
As a result, a matching character string example 73 is found, a morpheme is generated, and an optimal morpheme 74 is generated. Since there is a reading control rule generation morpheme example 75 in the optimum morpheme 74, the text analysis result example 77 is displayed when the level of the reading control signal input terminal 9 is 1, and the text analysis is performed when the level is 0. Result example 76 is generated.
前記実施の形態では、読み上げ内容変更部12での処理として、無音化する例を示したが、変更内容として無音化以外にも、読みの内容をマッピングして、無意味な言葉に変更しても良い。
また、特定の効果音(動物の鳴き声や「ピー」といった信号音)などで置き換えることも可能である。
In the above-described embodiment, an example of silence is shown as the processing in the reading
It is also possible to replace with a specific sound effect (animal bark or signal sound such as “pea”).
また、前記実施の形態では、読み制御信号入力端子9からレベル指定は、あらかじめ利用者が設定するものとしたが、合成音出力の時点で、ユーザに確認し確認結果として、ユーザが読み制御信号入力端子9から入力した指定レベルで読み上げることも可能である。 In the above embodiment, the user designates the level from the reading control signal input terminal 9 in advance. However, the user confirms the reading control signal at the time of the synthesized sound output and confirms the result. It is also possible to read out at a specified level input from the input terminal 9.
さらに、前記実施の形態では、日本語のテキストに対して例示しているが、英語などの外国語に対しても適用可能である。例えば、“Your password number is 1234”では、“password”を「暗証番号」として置き換えて考えればよい。 Furthermore, in the said embodiment, although illustrated with respect to a Japanese text, it is applicable also to foreign languages, such as English. For example, in “Your password number is 1234”, “password” may be replaced with “password”.
また、前記実施の形態では、音声出力に対して、読みの制御を行ったが、表示装置に対しても適用可能である。 In the above embodiment, the reading control is performed on the audio output, but the present invention can also be applied to a display device.
さらに、前記実施の形態では、図6のパターンマッチを、文字列レベルのパターン記述としたが、形態素レベルでの記述を行うように拡張することも容易であり、これによって、人名の読み上げを制御したり、住所の読み上げを制御することも可能である。 Furthermore, in the above embodiment, the pattern matching in FIG. 6 is a pattern description at the character string level. However, it can be easily extended to be described at the morpheme level, thereby controlling the reading of personal names. It is also possible to control address reading.
この発明は、携帯電話、PDA(Personal Digital Assistant)、パーソナルコンピュータ等の情報機器や、カーナビゲーションシステム、ETC(Electronic Toll Collection System)等の車載機器、ATM(自動現金預払機)、CD(キャッシュディスペンサ)機等の事務機器などに適用が可能である。 The present invention relates to an information device such as a mobile phone, a PDA (Personal Digital Assistant), a personal computer, an in-vehicle device such as a car navigation system, an ETC (Electronic Toll Collection System), an ATM (automatic cash dispenser), a CD (cash dispenser). ) Applicable to office equipment such as machines.
1.テキスト入力端子、 2.テキスト解析部、 3.言語辞書、 4.韻律制御部、
5.音響辞書、 6.素片選択部、 7.音声合成部、 8.音声出力端子、 9.読み制御信号入力端子、 10.読み制御ルール、 11.パターン形態素生成部、 12.読み上げ内容変更部、 21〜24.読み制御ルール例、 31〜34.マッチングパターン例、 51.入力テキスト例、 52.マッチング文字列例、 53.最適形態素例、 54.読み制御ルール生成形態素例、 55〜56.テキスト解析結果例、 61〜63.形態素例、 71.入力テキスト例、 72.先行単語列例、 73.マッチング文字列例、 74.最適形態素例、 75.読み制御ルール生成形態素例、 76〜77.テキスト解析結果例。
1. 1.
5. 5. Acoustic dictionary 6. Segment selection unit, Speech synthesis unit, 8. 8. Audio output terminal 9. Reading control
Claims (7)
テキスト解析手段によって得られた読み情報とアクセント情報を元に、イントネーションやリズムを制御するための韻律情報を生成する韻律制御手段と、
テキスト解析手段によって得られた読み情報とアクセント情報、および韻律制御手段によって得られた韻律情報を元に、音素片を格納した音響辞書から音素片を選択する素片選択手段と、
素片選択手段で選択した音素片を韻律制御手段によって得られた韻律情報に合わせて合成音を作成する音声合成手段を有する音声合成装置において、
上記テキスト解析手段の処理中に、特定のパターンを抽出するための読み制御ルールを元に読み制御ルールに規定されているパターンに一致する形態素を生成するパターン形態素生成手段と、
パターン形態素生成手段によって求められた形態素の読み上げ内容の変更を行い入力テキストの読み上げ内容変更を行う読み上げ内容変更手段と、
上記読み上げ内容変更手段の読み上げ内容変更を実行するか否かの読み制御信号を入力する読み制御信号入力手段を有することを特徴とする音声合成装置。 A text analysis means for taking text as input, using a language dictionary with finding, reading, and accent type information, and dividing into analysis results including reading information and accent information;
Prosody control means for generating prosodic information for controlling intonation and rhythm based on reading information and accent information obtained by text analysis means,
Based on the reading information and accent information obtained by the text analysis means, and the prosody information obtained by the prosody control means, a segment selection means for selecting a phoneme from an acoustic dictionary storing phonemes;
In a speech synthesizer having a speech synthesizer that creates a synthesized sound in accordance with the prosodic information obtained by the prosodic control means, the phoneme selected by the segment selection means
A pattern morpheme generation unit that generates a morpheme that matches a pattern defined in the reading control rule based on a reading control rule for extracting a specific pattern during the processing of the text analysis unit;
Reading contents changing means for changing the reading contents of the input text by changing the reading contents of the morpheme obtained by the pattern morpheme generation means,
A speech synthesizer characterized by comprising reading control signal input means for inputting a reading control signal indicating whether or not to execute reading contents change of the reading contents changing means.
テキスト解析ステップによって得られた読み情報とアクセント情報を元に、イントネーションやリズムを制御するための韻律情報を生成する韻律制御ステップと、
テキスト解析ステップによって得られた読み情報とアクセント情報、および韻律制御ステップによって得られた韻律情報を元に、音素片を格納した音響辞書から音素片を選択する素片選択ステップと、
素片選択ステップで選択した音素片を韻律制御ステップによって得られた韻律情報に合わせて合成音を作成する音声合成ステップを有する音声合成方法において、
上記テキスト解析ステップの処理中に、特定のパターンを抽出するための読み制御ルールを元に読み制御ルールに規定されているパターンに一致する形態素を生成するパターン形態素生成ステップと、
パターン形態素生成ステップによって求められた形態素の読み上げ内容の変更を行い入力テキストの読み上げ内容変更を行う読み上げ内容変更ステップと、
上記読み上げ内容変更ステップの読み上げ内容変更を実行するか否かの読み制御信号を入力する読み制御信号入力ステップを有することを特徴とする音声合成方法。 A text analysis step that takes a text as input, divides it into an analysis result including reading information and accent information, using a language dictionary with finding, reading and accent type information;
Prosody control step for generating prosody information for controlling intonation and rhythm based on reading information and accent information obtained by the text analysis step,
Based on the reading information and accent information obtained by the text analysis step, and the prosodic information obtained by the prosody control step, a segment selection step for selecting a phoneme from an acoustic dictionary storing phonemes;
In a speech synthesis method having a speech synthesis step of creating a synthesized sound in accordance with the prosodic information obtained in the prosody control step by the phoneme segment selected in the segment selection step,
During the processing of the text analysis step, a pattern morpheme generation step for generating a morpheme that matches a pattern defined in the reading control rule based on a reading control rule for extracting a specific pattern;
A reading content change step for changing the reading content of the input text by changing the reading content of the morpheme obtained by the pattern morpheme generation step;
A speech synthesis method, comprising: a reading control signal input step for inputting a reading control signal indicating whether or not to execute reading content change in the reading content changing step.
テキスト解析処理によって得られた読み情報とアクセント情報を元に、イントネーションやリズムを制御するための韻律情報を生成する韻律制御処理と、
テキスト解析処理によって得られた読み情報とアクセント情報、および韻律制御処理によって得られた韻律情報を元に、音素片を格納した音響辞書から音素片を選択する素片選択処理と、
素片選択処理で選択した音素片を韻律制御処理によって得られた韻律情報に合わせて合成音を作成する音声合成手段をコンピュータに実現させるための音声合成プログラムにおいて、
テキスト解析処理の処理中に、特定のパターンを抽出するための読み制御ルールを元に読み制御ルールに規定されているパターンに一致する形態素を生成するパターン形態素生成処理と、
パターン形態素生成処理によって求められた形態素の読み上げ内容の変更を行い入力テキストの読み上げ内容変更を行う読み上げ内容変更処理と、
上記読み上げ内容変更処理の読み上げ内容変更を実行するか否かの読み制御信号を入力する読み制御信号入力処理をさらにコンピュータに実現させるための音声合成プログラム。 A text analysis process that takes text as input, divides it into analysis results that include reading information and accent information, using a language dictionary with finding, reading, and accent type information,
Prosody control processing for generating prosody information for controlling intonation and rhythm based on reading information and accent information obtained by text analysis processing,
Based on the reading information and accent information obtained by the text analysis processing, and the prosody information obtained by the prosody control processing, a segment selection process for selecting a phoneme from an acoustic dictionary storing the phonemes;
In a speech synthesis program for causing a computer to implement speech synthesis means for creating synthesized speech in accordance with the prosodic information obtained by prosody control processing for the phoneme segment selected in the segment selection process,
A pattern morpheme generation process that generates a morpheme that matches a pattern defined in the reading control rule based on the reading control rule for extracting a specific pattern during the text analysis process;
Reading contents change processing for changing the reading contents of the input text by changing the reading contents of the morpheme obtained by the pattern morpheme generation process,
A speech synthesis program for causing a computer to further realize a reading control signal input process for inputting a reading control signal for determining whether or not to read a reading contents change in the reading contents changing process.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005273987A JP2007086309A (en) | 2005-09-21 | 2005-09-21 | Voice synthesizer, voice synthesizing method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005273987A JP2007086309A (en) | 2005-09-21 | 2005-09-21 | Voice synthesizer, voice synthesizing method, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007086309A true JP2007086309A (en) | 2007-04-05 |
Family
ID=37973370
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005273987A Pending JP2007086309A (en) | 2005-09-21 | 2005-09-21 | Voice synthesizer, voice synthesizing method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007086309A (en) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009139677A (en) * | 2007-12-07 | 2009-06-25 | Toshiba Corp | Voice processor and program therefor |
JP2011095382A (en) * | 2009-10-28 | 2011-05-12 | Kyocera Corp | Character information display device with voice synthesis function and voice synthesis method for the same |
JP2011211266A (en) * | 2010-03-29 | 2011-10-20 | Hitachi Omron Terminal Solutions Corp | Speaker array device |
JP2012194264A (en) * | 2011-03-15 | 2012-10-11 | Fujitsu Frontech Ltd | Automatic transaction device, voice reading-aloud method, and voice reading-aloud program |
JP2014038265A (en) * | 2012-08-20 | 2014-02-27 | Toshiba Corp | Speech synthesizer, speech synthesis method and program |
JP2019200669A (en) * | 2018-05-17 | 2019-11-21 | Necパーソナルコンピュータ株式会社 | Information processing apparatus, program and information processing method |
-
2005
- 2005-09-21 JP JP2005273987A patent/JP2007086309A/en active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009139677A (en) * | 2007-12-07 | 2009-06-25 | Toshiba Corp | Voice processor and program therefor |
US8170876B2 (en) | 2007-12-07 | 2012-05-01 | Kabushiki Kaisha Toshiba | Speech processing apparatus and program |
JP2011095382A (en) * | 2009-10-28 | 2011-05-12 | Kyocera Corp | Character information display device with voice synthesis function and voice synthesis method for the same |
JP2011211266A (en) * | 2010-03-29 | 2011-10-20 | Hitachi Omron Terminal Solutions Corp | Speaker array device |
JP2012194264A (en) * | 2011-03-15 | 2012-10-11 | Fujitsu Frontech Ltd | Automatic transaction device, voice reading-aloud method, and voice reading-aloud program |
JP2014038265A (en) * | 2012-08-20 | 2014-02-27 | Toshiba Corp | Speech synthesizer, speech synthesis method and program |
JP2019200669A (en) * | 2018-05-17 | 2019-11-21 | Necパーソナルコンピュータ株式会社 | Information processing apparatus, program and information processing method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8825486B2 (en) | Method and apparatus for generating synthetic speech with contrastive stress | |
US9424833B2 (en) | Method and apparatus for providing speech output for speech-enabled applications | |
US6778962B1 (en) | Speech synthesis with prosodic model data and accent type | |
US7809572B2 (en) | Voice quality change portion locating apparatus | |
US20080126093A1 (en) | Method, Apparatus and Computer Program Product for Providing a Language Based Interactive Multimedia System | |
US8914291B2 (en) | Method and apparatus for generating synthetic speech with contrastive stress | |
JP2003295882A (en) | Text structure for speech synthesis, speech synthesizing method, speech synthesizer and computer program therefor | |
US6212501B1 (en) | Speech synthesis apparatus and method | |
JP5198046B2 (en) | Voice processing apparatus and program thereof | |
US7912718B1 (en) | Method and system for enhancing a speech database | |
JP2007086309A (en) | Voice synthesizer, voice synthesizing method, and program | |
JPH05165486A (en) | Text voice transforming device | |
Stöber et al. | Speech synthesis using multilevel selection and concatenation of units from large speech corpora | |
JPH0887297A (en) | Voice synthesis system | |
JPH08335096A (en) | Text voice synthesizer | |
JP4964695B2 (en) | Speech synthesis apparatus, speech synthesis method, and program | |
JP6289950B2 (en) | Reading apparatus, reading method and program | |
JP6197523B2 (en) | Speech synthesizer, language dictionary correction method, and language dictionary correction computer program | |
JP2004145015A (en) | System and method for text speech synthesis | |
JP2009271190A (en) | Speech element dictionary creation device and speech synthesizer | |
JPH096378A (en) | Text voice conversion device | |
JP2703253B2 (en) | Speech synthesizer | |
JP2001350490A (en) | Device and method for converting text voice | |
JP2003308084A (en) | Method and device for synthesizing voices | |
JPH11259091A (en) | Speech synthesizer and method therefor |