JP2007086309A - Voice synthesizer, voice synthesizing method, and program - Google Patents

Voice synthesizer, voice synthesizing method, and program Download PDF

Info

Publication number
JP2007086309A
JP2007086309A JP2005273987A JP2005273987A JP2007086309A JP 2007086309 A JP2007086309 A JP 2007086309A JP 2005273987 A JP2005273987 A JP 2005273987A JP 2005273987 A JP2005273987 A JP 2005273987A JP 2007086309 A JP2007086309 A JP 2007086309A
Authority
JP
Japan
Prior art keywords
reading
information
text
morpheme
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005273987A
Other languages
Japanese (ja)
Inventor
Yoichi Fujii
洋一 藤井
Satoshi Furuta
訓 古田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2005273987A priority Critical patent/JP2007086309A/en
Publication of JP2007086309A publication Critical patent/JP2007086309A/en
Pending legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To solve the problem that although PIN(personal identification number) and ID numbers are prohibited to read in a prohibit list when reading a text and outputing it in voice, the PINs are always changed for safety and their registration is a troublesome load each time on the user or the system, the read control on XML tag reading is not simple, and only the text maker can make the control information without allowing the user to make any control to meet the situations. <P>SOLUTION: This voice synthesizer which converts the input text into a voice signal and outputs it in voice creates a pattern morpheme of the information that is not desired to read depending on the use situation by the user, such as PINs, telephone numbers, and card numbers, by using a pattern morpheme creating means, and skips over the information to which a pattern morpheme is created in the read content converter, or changes it into other contents, such as a beep tone or muting. It makes it possible to decide whether to change the text content to read in the read control signal input or to read it without changing the content depending on the situations of the use by the user. <P>COPYRIGHT: (C)2007,JPO&INPIT

Description

この発明は、携帯電話、PDA(Personal Digital Assistant)、パーソナルコンピュータ等の情報機器や、カーナビゲーションシステム、ETC(Electronic Toll Collection System)等の車載機器、ATM(自動現金預払機)、CD(キャッシュディスペンサ)機等の事務機器などに適用するテキスト解析技術に係り、テキスト解析結果を読み上げるテキスト音声合成装置およびその方法、ならびにその方法をコンピュータに実現させるためのプログラムに関するものである。   The present invention relates to an information device such as a mobile phone, a PDA (Personal Digital Assistant), a personal computer, an in-vehicle device such as a car navigation system, an ETC (Electronic Toll Collection System), an ATM (automatic cash dispenser), a CD (cash dispenser). The present invention relates to a text analysis technology applied to office equipment such as a machine, and relates to a text-to-speech synthesizer that reads a text analysis result, a method thereof, and a program for causing a computer to implement the method.

任意の文章から人工的に音声信号を作り出すことをテキスト音声合成という。テキスト音声合成は、一般的に言語処理部(テキスト解析)、音韻処理部(韻律設定)、音声合成部の3つの段階によって行われる。入力されたテキストは、まず言語処理部において形態素解析や構文解析などが行われ、次に音韻処理部においてアクセントやイントネーションの処理が行われて、音韻記号、ピッチ長、継続時間長などの音素環境情報が出力される。そして音素環境情報を根拠に、音声素片辞書に登録された音声素片を選択する。最後に、音声合成部で選択された音声素片と音韻記号、ピッチ長、継続時間長などの情報から音声を合成する。   Synthesizing speech signals artificially from arbitrary sentences is called text-to-speech synthesis. Text-to-speech synthesis is generally performed in three stages: a language processing unit (text analysis), a phoneme processing unit (prosodic setting), and a speech synthesis unit. The input text is first subjected to morphological analysis and syntactic analysis in the language processing unit, and then subjected to accent and intonation processing in the phonological processing unit, so that the phoneme environment such as phonological symbol, pitch length, duration length, etc. Information is output. Then, based on the phoneme environment information, a speech unit registered in the speech unit dictionary is selected. Finally, the speech is synthesized from the speech unit selected by the speech synthesizer and information such as the phoneme symbol, the pitch length, and the duration time.

従来の音声合成装置では、入力文章に発音出力が妥当でない用語(差別用語等)が含まれている場合に、この種の用語の発音を禁止するために、読み上げ禁止用語テーブルに発音出力を禁止する読み上げ禁止用語を予め格納しておく。入力文章であるテキストが入力されると、読み上げ禁止用語判断手段は、入力されたテキストを単語単位で切り出し、読み上げ禁止テーブルを検索して、入力されたテキストに含まれている単語が読み上げ禁止用語か否かを判断する。そして、発音禁止手段が、この読み上げ禁止用語判断手段の判断結果に基づいて、読み上げ禁止用語に該当する単語の発音を禁止する。例えば、読み上げ禁止用語に代えてビープ音を発音させたり、無音にさせたりすることで読み上げ禁止用語の発音を禁止する。また、置換表現に変換して発音させる。(特許文献1に開示)
また、XML(Extended Markup Language)のタグを記述することで、本来のテキスト内容と異なる読み上げを行ったり、何も読み上げなかったりといった制御を行う方法が開示されている(非特許文献1)。この方法は、文章作成者が、あらかじめ意図する読み上げ方をさせるために、文章中に読みの指定、及び読み飛ばしを指定するための制御タグを埋め込むものである。
In the conventional speech synthesizer, when the input sentence contains a term whose pronunciation output is not valid (discriminatory term, etc.), the pronunciation output is prohibited in the reading prohibition term table in order to prohibit the pronunciation of this type of term. The words that are prohibited from being read out are stored in advance. When the text that is the input sentence is input, the reading prohibition term judging means cuts out the input text in units of words, searches the reading prohibition table, and the words included in the input text are read prohibition terms. Determine whether or not. Then, the pronunciation prohibiting means prohibits pronunciation of a word corresponding to the reading prohibited term based on the determination result of the reading prohibited term determining means. For example, the pronunciation of a prohibited word is prohibited by generating a beep sound or silence in place of the prohibited word. Moreover, it is converted into a substitution expression and pronounced. (Disclosed in Patent Document 1)
Further, a method is disclosed in which XML (Extended Markup Language) tags are described to perform control such as reading out different from the original text content or not reading out anything (Non-Patent Document 1). In this method, a text creator embeds a control tag for designating reading and skipping in a sentence so that the intended creator reads out in advance.

特開平5−165486号公報(第1頁〜5頁、第1図)JP-A-5-165486 (first page to fifth page, FIG. 1) Microsoft 「SpeechSDK」Version 5.1Microsoft “SpeechSDK” Version 5.1

特許文献1に開示する従来の音声合成装置は、以上のように構成されているが、次のような課題がある。例えば、「あなたの暗証番号は1234です」とか「あなたのID番号はabcdefgです」などの文章がテキストとして入力された場合を考える。「暗証番号」「ID番号」などの単語と、“暗証番号そのもの”の「1234」や“ID番号そのもの”の「abcdefg」が関連無しに単独で読み上げられても、「暗証番号」や「ID番号」は読み上げに際して特に問題の無い一般名詞であり、また、「1234」や「abcdefg」は単なる数字やアルファベットの羅列に過ぎず、さほど大きな問題にはならない。しかし、「暗証番号は1234です」と読み上げられた場合には、「暗証番号=(イコール)1234」と関連付けられるので大きな問題となりうる。
従来の音声合成装置では、読み上げ禁止リストに登録された単語しか読み上げ禁止できないので、上記の「1234」や「abcdefg」を読み上げ禁止リストに登録する必要があるが、数字の羅列やアルファベット列などの組み合わせは膨大な数となる上、セキュリティのため暗証番号等は常に変更する必要があり、その度に登録するのはユーザあるいはシステムに負担が掛かり、上記の問題に対応できない。
The conventional speech synthesizer disclosed in Patent Document 1 is configured as described above, but has the following problems. For example, consider a case where a sentence such as “Your PIN is 1234” or “Your ID is abcdefg” is entered as text. Even if a word such as “password” or “ID number” and “1234” of “password itself” or “abcdefg” of “ID number itself” are read out independently without being related, “password” or “ID” “No.” is a general noun that has no particular problem in reading, and “1234” and “abcdefg” are merely a list of numbers and alphabets, and do not become a big problem. However, when “PIN is 1234” is read out, it can be a big problem because it is associated with “PIN = (equal) 1234”.
In the conventional speech synthesizer, only words registered in the reading prohibition list can be prohibited from reading out. Therefore, it is necessary to register the above “1234” and “abcdefg” in the reading prohibition list. In addition to enormous numbers of combinations, it is necessary to always change the password for security, and registration each time places a burden on the user or system, and cannot cope with the above problems.

また、非特許文献1に開示する従来の音声合成装置では、XMLでのタグによる音声読み上げ制御を行っているが、読み上げ制御のためにテキスト本文以外に送出する情報が必要であり、簡便ではない。さらに、制御のための情報は、テキスト作成者によってのみ設定できるものであり、テキスト作成者の意図でしか制御できず、音声合成装置利用者側で制御できないという課題がある。
例えば、テキスト作成者は、電話番号を、間違いなく聞き取って欲しいがために、制御のための情報として電話番号の範囲を「強調」して喋らせるように指定することが考えられるが、ユーザにとっては、利用状況によっては、個人情報に当たるため、読み上げて欲しくない場合があり、これらの問題には対応できない。
In addition, in the conventional speech synthesizer disclosed in Non-Patent Document 1, speech reading control is performed using XML tags, but information to be sent out other than the text body is necessary for the reading control, which is not simple. . Furthermore, the control information can be set only by the text creator, and can be controlled only by the text creator's intention, and cannot be controlled by the user of the speech synthesizer.
For example, a text writer may specify that the phone number range should be “highlighted” as control information because he / she wants to hear the phone number without fail. Depending on the usage situation, it may be personal information and you may not want it to be read out.

この発明は、上記問題点を解決するためになされたもので、ユーザの利用状況に応じて、暗証番号、電話番号、及びカード番号などの読み上げて欲しくない情報を、読み飛ばし、またはビープ音や無音などの別の内容に変更の上読み上げることを可能とすることを目的とする。   The present invention has been made to solve the above-described problems. Depending on the use situation of the user, information that is not desired to be read out such as a personal identification number, a telephone number, and a card number is skipped, or a beep or The purpose is to make it possible to read out after changing to another content such as silence.

この発明に係る音声合成装置は
テキストを入力とし、見だし、読み、アクセント型情報を持った言語辞書を用いて、読み情報とアクセント情報を含む解析結果に分割するテキスト解析手段と、
テキスト解析手段によって得られた読み情報とアクセント情報を元に、イントネーションやリズムを制御するための韻律情報を生成する韻律制御手段と、
テキスト解析手段によって得られた読み情報とアクセント情報、および韻律制御手段によって得られた韻律情報を元に、音素片を格納した音響辞書から音素片を選択する素片選択手段と、
素片選択手段で選択した音素片を韻律制御手段によって得られた韻律情報に合わせて合成音を作成する音声合成手段を有する音声合成装置において、
上記テキスト解析手段の処理中に、特定のパターンを抽出するための読み制御ルールを元に読み制御ルールに規定されているパターンに一致する形態素を生成するパターン形態素生成手段と、
パターン形態素生成手段によって求められた形態素の読み上げ内容の変更を行い入力テキストの読み上げ内容変更を行う読み上げ内容変更手段と、
上記読み上げ内容変更手段の読み上げ内容変更を実行するか否かの読み制御信号を入力する読み制御信号入力手段を有する。
A speech synthesizer according to the present invention uses a text dictionary as input, finds, reads, and uses a language dictionary having accent-type information, and divides it into analysis results including reading information and accent information;
Prosody control means for generating prosodic information for controlling intonation and rhythm based on reading information and accent information obtained by text analysis means,
Based on the reading information and accent information obtained by the text analysis means, and the prosody information obtained by the prosody control means, a segment selection means for selecting a phoneme from an acoustic dictionary storing phonemes;
In a speech synthesizer having a speech synthesizer that creates a synthesized sound in accordance with the prosodic information obtained by the prosodic control means, the phoneme selected by the segment selection means
A pattern morpheme generation unit that generates a morpheme that matches a pattern defined in the reading control rule based on a reading control rule for extracting a specific pattern during the processing of the text analysis unit;
Reading contents changing means for changing the reading contents of the input text by changing the reading contents of the morpheme obtained by the pattern morpheme generation means,
There is a reading control signal input means for inputting a reading control signal as to whether or not to execute the reading contents change of the reading contents changing means.

この発明に係る音声合成装置によれば、暗証番号、電話番号、及びカード番号などユーザの利用状況によっては、読み上げて欲しくない情報を、パターン形態素生成手段で形態素生成し、読み上げ内容変更手段での形態素生成された情報を読み飛ばし、またはビープ音や無音などの別の内容に変更し、読み制御信号入力手段でユーザの利用状況に応じて入力テキストを内容変更して読み上げるか、内容変更しないで読み上げるかを選択可能とするので、ユーザの利用状況に応じた使用が出来る効果がある。   According to the speech synthesizer according to the present invention, information that is not desired to be read out depending on the use situation of the user, such as a personal identification number, a telephone number, and a card number, is generated by the pattern morpheme generating unit, and the reading content changing unit Read the morpheme-generated information or change it to another content such as a beep or silence, and change the content of the input text according to the user's usage status with the reading control signal input means, or do not change the content Since it is possible to select whether to read out, there is an effect that it can be used in accordance with the usage status of the user.

実施の形態1.
以下、この発明を実施するための最良の形態について図を参照して説明する。
図1は、この発明の実施の形態に係る音声合成方法を実現する音声合成装置の構成を示すブロック図である。図1において、1はテキストを入力するテキスト入力端子である。2はテキスト入力端子1から入力されたテキストを解析して、読み、アクセント情報、および韻律制御に必要な言語情報を生成するテキスト解析部である。ここで、テキスト解析部2での処理としては、最長一致、文節数最小法、およびコスト最小法などの既知の形態素解析アルゴリズムを用いて処理するものである(例えば、首藤公昭,吉村賢治「日本語の構造とその解析」、情報処理 Vol.27, No.8, pp.947〜954, 1986)。
Embodiment 1 FIG.
The best mode for carrying out the present invention will be described below with reference to the drawings.
FIG. 1 is a block diagram showing a configuration of a speech synthesizer for realizing a speech synthesis method according to an embodiment of the present invention. In FIG. 1, 1 is a text input terminal for inputting text. A text analysis unit 2 analyzes text input from the text input terminal 1 and generates language information necessary for reading, accent information, and prosody control. Here, the processing in the text analysis unit 2 is performed using a known morphological analysis algorithm such as the longest match, the minimum number of clauses method, and the minimum cost method (for example, Kimiaki Shudo, Kenji Yoshimura “Japan Word structure and its analysis ", Information Processing Vol.27, No.8, pp.947 ~ 954, 1986).

3はテキスト解析部2でテキストを解析し、読み、アクセント情報、および韻律制御に必要な言語情報を生成するために利用する言語辞書である。4はテキスト解析部2で生成された、読み、アクセント情報、および韻律制御に必要な言語情報を元に、イントネーション、リズムなどの韻律情報を生成する韻律制御部である。ここで、韻律制御部の処理としては、藤崎モデルに代表される既知の技術をもとに、イントネーション、リズムなどの韻律情報を生成するものである。   Reference numeral 3 denotes a language dictionary used for analyzing text by the text analysis unit 2 and generating language information necessary for reading, accent information, and prosodic control. Reference numeral 4 denotes a prosody control unit that generates prosody information such as intonation and rhythm based on the reading, accent information, and language information necessary for prosody control generated by the text analysis unit 2. Here, the prosody control unit generates prosody information such as intonation and rhythm based on a known technique represented by the Fujisaki model.

5は合成音を作成するときに利用する音素片を格納した音響辞書で、6は、韻律制御部4から出力した読みと、イントネーション、リズムなどの韻律情報を元に、合成音作成に使う音素片を音響辞書5から選択する素片選択部、7は、素片選択部6で選択した音素片を、韻律制御部4で生成したイントネーション、リズムなどの韻律情報に合わせて合成音声を作成する音声合成部である。ここで、ピッチ周期および音韻継続時間長を変更し、音声を合成する方法としては、例えばLSP(Line Spectral Pair)パラメータ上で合成する残差駆動LSP方法、スペクトルパラメータ上で合成するMBE(Multi Band Excitation)方法、2ピッチ長波形を重畳合成するピッチ波形重畳方法、音素単位等の信号波形を接続合成する波形編集方法など公知の手法を用いることができる。8は音声合成部7で生成した合成音声を出力する出力端子である。   Reference numeral 5 denotes an acoustic dictionary storing phonemes used when creating a synthesized sound. Reference numeral 6 denotes a phoneme used for creating a synthesized sound based on readings output from the prosody control unit 4 and prosodic information such as intonation and rhythm. A segment selection unit 7 for selecting a segment from the acoustic dictionary 5 generates a synthesized speech by matching the phoneme segment selected by the segment selection unit 6 with prosody information such as intonation and rhythm generated by the prosody control unit 4. It is a speech synthesizer. Here, as a method of synthesizing speech by changing the pitch period and the phoneme duration, for example, a residual drive LSP method for synthesizing on an LSP (Line Spectral Pair) parameter, an MBE (Multi Band) for synthesizing on a spectral parameter, etc. Excitation), a pitch waveform superposition method for superposing and synthesizing two pitch long waveforms, and a waveform editing method for connecting and synthesizing signal waveforms such as phoneme units can be used. Reference numeral 8 denotes an output terminal for outputting synthesized speech generated by the speech synthesis unit 7.

また、9は読み制御信号入力端子で、出力端子8から出力する合成音声を入力端子1で入力したテキストの内容通りの読み上げとするか、重要キーワードは読み上げずに無音としたり、ビーブ音などの別の音に変更して読み上げるかを制御するための読み制御信号が入力される。10は、テキスト中の特定パターンの文字列を抽出し、その抽出した文字列パターンに対して読み上げ内容を定義する読み制御ルール、11は、テキスト解析部2の処理中に呼び出し、読み制御ルール10に記述した各ルールを元に形態素情報を追加するパターン形態素生成部、12は、テキスト解析部2の処理中に呼び出し、形態素解析結果中の形態素がパターン形態素生成部11で生成した形態素の場合、読み制御信号入力端子9からの読み上げ内容の変更を要求に従って、読み上げ内容を変更する読み上げ内容変更部である。   Reference numeral 9 is a reading control signal input terminal, and the synthesized speech output from the output terminal 8 is read out in accordance with the contents of the text input at the input terminal 1, or important keywords are not read out and are silent, beep sounds, etc. A reading control signal for controlling whether to change to another sound and read out is input. 10 is a reading control rule that extracts a character string of a specific pattern in the text and defines the contents to be read out for the extracted character string pattern. 11 is a call control rule that is called during the processing of the text analysis unit 2. A pattern morpheme generator 12 that adds morpheme information based on each rule described in (1), is called during the processing of the text analyzer 2, and the morpheme in the morpheme analysis result is a morpheme generated by the pattern morpheme generator 11, This is a reading content changing unit that changes the reading contents in response to a request to change the reading contents from the reading control signal input terminal 9.

図2は、テキスト解析部2の処理内容を示すフローチャートで、特にS14は、パターン形態素生成部11での処理を、S17は、読み上げ内容変更部12での処理を表している。
図3は、図2におけるS14の処理内容を詳細に示すもので、パターン形態素生成部11での処理内容を示すフローチャートである。なお、以下ではS25の処理におけるNを3として説明する。
図4は、図2におけるS17の処理内容を詳細に示すもので、読み上げ内容変更部12での処理内容を示すフローチャートである。
FIG. 2 is a flowchart showing the processing contents of the text analysis unit 2. In particular, S14 represents processing in the pattern morpheme generation unit 11, and S17 represents processing in the reading content change unit 12.
FIG. 3 shows details of the processing contents of S14 in FIG. 2, and is a flowchart showing the processing contents in the pattern morpheme generation unit 11. In the following description, N is 3 in the process of S25.
FIG. 4 shows in detail the processing contents of S17 in FIG. 2, and is a flowchart showing the processing contents in the reading content changing unit 12.

図5は、読み制御ルール10の例であり、21〜24はそれぞれ読み制御ルール例である。
図6は、読み制御ルール10の変換対象文字パターンルールで指定されたルール名の具体的なマッチングパターンの例であり、31〜34はそれぞれマッチングパターン例である。
図7は、テキスト解析部2での処理データ例であり、51は入力テキスト例、52はマッチング文字列例、53は最適形態素例、54は読み制御ルール生成形態素例、55〜56はテキスト解析結果例である。
図8は、テキスト解析部2での形態素候補生成例であり、61〜63は実際の形態素例である。
図9は、テキスト解析部2での別の処理データ例であり、71は入力テキスト例、72は先行単語列例、73はマッチング文字列例、74は最適形態素例、75は読み制御ルール生成形態素例、76〜77はテキスト解析結果例である。
FIG. 5 is an example of the reading control rule 10, and 21 to 24 are reading control rule examples.
FIG. 6 is an example of a specific matching pattern of the rule name designated by the conversion target character pattern rule of the reading control rule 10, and 31 to 34 are examples of matching patterns, respectively.
FIG. 7 is an example of processing data in the text analysis unit 2, 51 is an example of input text, 52 is an example of a matching character string, 53 is an example of an optimal morpheme, 54 is an example of a reading control rule generation morpheme, and 55 to 56 is a text analysis. It is an example of a result.
FIG. 8 is an example of morpheme candidate generation in the text analysis unit 2, and 61 to 63 are actual morpheme examples.
FIG. 9 is another example of processing data in the text analysis unit 2, 71 is an example of input text, 72 is an example of a preceding word string, 73 is an example of a matching character string, 74 is an example of an optimal morpheme, and 75 is a generation of a reading control rule. Morphological examples 76 to 77 are examples of text analysis results.

次に動作について説明する。
図1のテキスト入力端子1に図7に示す入力テキスト例51を入力した場合の動作を説明する。また、読み制御信号入力端子9には、数段階のレベルを入力が可能とし、以下実施の形態では、0〜2の3段階のレベル指定が入力されるとする。ここでは、レベル指定は、あらかじめ利用者が設定するものとする。
テキスト入力端子1に入力された入力テキスト例51は、テキスト解析部2に渡される。テキスト解析部2では、テキストから文を1文ずつ抽出し、最ももっともらしい解析結果を生成する。1文ごとのテキスト解析部2での処理を図2に従って説明する。
Next, the operation will be described.
The operation when the input text example 51 shown in FIG. 7 is input to the text input terminal 1 of FIG. 1 will be described. Further, it is assumed that several levels of levels can be input to the reading control signal input terminal 9, and in the following embodiments, three levels of levels 0 to 2 are input. Here, the level designation is set by the user in advance.
The input text example 51 input to the text input terminal 1 is passed to the text analysis unit 2. The text analysis unit 2 extracts sentences one by one from the text and generates the most likely analysis result. Processing in the text analysis unit 2 for each sentence will be described with reference to FIG.

入力テキスト例51は、1文からなっているため、入力テキスト例51全体がS11に渡され、現在位置を文頭にセットして、処理S12に処理を移す。S12では、現在処理位置が文頭のため、S13に処理を移す。S13では、現在位置から始まる単語を言語辞書3から検索し、形態素候補として登録する。現在位置が文頭の場合は、図8に示す形態素例61と形態素例62の形態素が生成される。   Since the input text example 51 consists of one sentence, the entire input text example 51 is transferred to S11, the current position is set at the beginning of the sentence, and the process proceeds to process S12. In S12, since the current processing position is the beginning of the sentence, the process proceeds to S13. In S13, a word starting from the current position is searched from the language dictionary 3 and registered as a morpheme candidate. When the current position is the sentence head, the morphemes of the morpheme example 61 and the morpheme example 62 shown in FIG. 8 are generated.

辞書引きによる形態素の生成が終了すると、S14に処理を移し、図5の読み制御ルール、及び図6のマッチングパターンに一致するパターンが存在するかどうかチェックし、存在するならば、S19で形態素として登録する。現在位置(=文頭)では、読み制御ルール及び、マッチングパターンに一致するパターンが存在しないため、S15に処理を移し、現在位置を1文字文末方向に移動する。
S15の処理が終わると、S12まで処理を移し、S12〜S15までの処理を繰り返し実行する。
When generation of the morpheme by dictionary lookup is completed, the process moves to S14 to check whether there is a pattern that matches the reading control rule of FIG. 5 and the matching pattern of FIG. sign up. Since there is no pattern matching the reading control rule and the matching pattern at the current position (= the beginning of the sentence), the process proceeds to S15, and the current position is moved toward the end of one character sentence.
When the processing of S15 is completed, the processing is shifted to S12, and the processing from S12 to S15 is repeatedly executed.

ここで、入力テキスト例51の現在位置が、「(045)930-0010まで、連絡・・・」になった時の、S14の具体的処理について説明する。処理は図3のS21に移され、S21では、先頭の読み制御ルールをセットする処理であるから、図5に示すルール例21が選択され、S22に処理を移す。S22では、全ての読み制御ルールが処理されていないので、S23に処理を移す。S23では、ルール例21は先行単語列「FAX」が定義されているので、S25に処理を移す。前方N文字(N=3)以内に、「FAX」という先行単語列は存在しないため、S27に処理を移し、図5に示す次のルール例22を選択し、S22に処理を戻す。   Here, the specific processing of S14 when the current position of the input text example 51 becomes “(045) 930-0010, contact ...” will be described. The process is moved to S21 in FIG. 3, and in S21, the first reading control rule is set. Therefore, the rule example 21 shown in FIG. 5 is selected, and the process moves to S22. In S22, since all the reading control rules have not been processed, the process proceeds to S23. In S23, in the rule example 21, since the preceding word string “FAX” is defined, the process proceeds to S25. Since there is no preceding word string “FAX” within the front N characters (N = 3), the process proceeds to S27, the next rule example 22 shown in FIG. 5 is selected, and the process returns to S22.

ルール例22は、ルール例21と同様に、先行単語列を持ち、「TEL」が、入力テキスト例51の前方N文字以内に存在しないため、S23からS25の判定処理をして、S27に処理を移して、次のルール例23を選択し、S22に処理を戻す。   Similar to rule example 21, rule example 22 has a preceding word string, and “TEL” does not exist within the first N characters of input text example 51. Therefore, the determination process from S23 to S25 is performed, and the process proceeds to S27. , The next rule example 23 is selected, and the process returns to S22.

S22では、全読み制御ルールが処理されていないので、S23に処理を移す。S23では、ルール例23には、先行単語列が定義されていないので、S24に処理を移す。S24では、ルール例23の変換対象文字パターンルールが、図7に示す入力テキスト例51の現在位置からのテキスト「(045)930-0010まで、連絡・・・」の部分文字列に一致するかどうかを判定する。ルール例23では、変換対象文字パターンルールは、「rule(phone2)」であるので、図6のマッチングパターンにおけるマッチングパターン例31〜33のマッチングパターン記述とマッチング条件に一致するかどうかを判定する。   In S22, since the full reading control rule has not been processed, the process proceeds to S23. In S23, since the preceding word string is not defined in the rule example 23, the process proceeds to S24. In S24, whether the conversion target character pattern rule of rule example 23 matches the partial character string of the text “(045) 930-0010, contact ...” from the current position of input text example 51 shown in FIG. Determine if. In rule example 23, since the conversion target character pattern rule is “rule (phone2)”, it is determined whether or not the matching pattern description in the matching pattern examples 31 to 33 in the matching pattern in FIG.

ここで、図6のマッチングパターン記述では、直接その文字列を記述する方法と、特定の文字タイプが指定の個数だけ連続することが記述できるようになっている。直接その文字列を記述する方法としては、「”」、「”」でくくることで表現し、特定の文字タイプが指定の個数だけ連続することを記述する方法としては、<文字タイプ>(<最小文字数>,<最大文字数>)と記述することする。   Here, in the matching pattern description of FIG. 6, it is possible to describe a method of describing the character string directly and that a specific character type continues for a specified number of times. As a method of describing the character string directly, it is expressed by enclosing it with “” ”and“ ””, and as a method of describing that a specific character type continues for a specified number, <character type> (< (Minimum number of characters>, <Maximum number of characters>).

さらに、マッチング条件としては、マッチングパターン記述でマッチングした特定文字タイプのマッチングを先頭から順に変数に対応付けし、「len(<変数>)」で文字列の長さ、「[val(<変数>),<最小>,<最大>]」で数値の範囲を規定している。
例えば、マッチングパターン例31のマッチングパターン記述では、「NUM(1,10)」の記述により、数字が1〜10連続し、その後「”−”」によって文字「−」が現れ、さらに、数字が1〜10連続し、文字「−」が現れ、数字が1〜10連続することを示している。そして、各NUM(*,*)は左から順番に変数$1〜$3と割り当てる。一方、マッチング条件の「[len($1)+len($2)+len($3),10,11]」により、数字の連続の総和が10、または11であることが条件となる。
Further, as a matching condition, matching of a specific character type matched by the matching pattern description is associated with a variable in order from the top, and “len (<variable>)” is the length of the character string, “[val (<variable >> ), <Minimum>, <maximum>] ”defines the range of numerical values.
For example, in the matching pattern description of the matching pattern example 31, numbers “1” to “10” are consecutive in the description “NUM (1, 10)”, and then the character “-” appears by ““-””. 1 to 10 continuous, the character “-” appears, indicating that the numbers are 1 to 10 continuous. Each NUM (*, *) is assigned to variables $ 1 to $ 3 in order from the left. On the other hand, according to the matching condition “[len ($ 1) + len ($ 2) + len ($ 3), 10, 11]”, the condition is that the sum of consecutive numbers is 10 or 11.

従って、入力テキスト例51の現在位置からのテキスト「(045)930-0010まで、連絡・・・」に対しては、マッチングパターン例31、マッチングパターン例33は一致せず、マッチングパターン例32が一致し、S26に処理を移すことになる。その結果、S26では、図8の形態素63が生成・登録され、処理をS27に移す。このとき、形態素には、読みなどの一般的な情報のほかに、読み制御ルールのレベルを設定する。S27では次の読み制御ルールが選択され、S22〜S27の処理を繰り返す。最終的には、S22で全ての読み制御ルールが処理されたと判断され、パターン形態素生成部11での処理を終了する。   Accordingly, the matching pattern example 31 and the matching pattern example 33 do not match the text “(045) 930-0010, contact ...” from the current position of the input text example 51, and the matching pattern example 32 is If they match, the process proceeds to S26. As a result, in S26, the morpheme 63 of FIG. 8 is generated and registered, and the process proceeds to S27. At this time, in addition to general information such as reading, the level of the reading control rule is set in the morpheme. In S27, the next reading control rule is selected, and the processes in S22 to S27 are repeated. Finally, it is determined in S22 that all reading control rules have been processed, and the processing in the pattern morpheme generation unit 11 ends.

上記の通り、形態素候補の生成が終了すると、テキスト解析処理部2では、S16で、コスト最小法、2文節最長一致法などの既知の形態素解析方法に従い、最ももっともらしい最適形態素を選択する。入力テキスト例51に対しては、図7に示される最適形態素例53が生成される。S16で最適形態素が選択されると、S17に処理を移し、読み上げ内容変更部12にて、読み上げ内容の変更を行う。   As described above, when the generation of the morpheme candidate is completed, the text analysis processing unit 2 selects the most likely optimal morpheme in S16 according to a known morpheme analysis method such as the minimum cost method or the longest phrase matching method. For the input text example 51, an optimal morpheme example 53 shown in FIG. 7 is generated. When the optimum morpheme is selected in S16, the process proceeds to S17, and the reading content changing unit 12 changes the reading content.

読み上げ内容変更部12によるS17での読み上げ内容の変更処理を図4の処理の流れに従って説明する。まず、S31では、読み上げ制御信号入力端子9への入力値から合成音作成レベルを決定する。読み上げ制御信号入力端子9は、機器の使用環境に従って入力される値で、ここでは、読み上げ制御信号入力端子9は3段階の入力を受け付け、0:全て読み上げ、1:最重要キーワード非読み上げ、2:重要キーワード非読み上げ、といったレベルが入力できるものとする。以下では、読み上げ制御信号入力端子9からレベル1が入力されたものとして説明する。
S32では、図7の最適形態素例53から、先頭の形態素「御用[ゴヨ'ー]」を選択し、S33に処理を移す。S33では、全ての形態素の処理が終了していないため、S34に処理を移す。S34では、先頭の形態素「御用[ゴヨ'ー]」が処理対象となり、この形態素は読み制御ルールで生成された形態素ではないため、S37に処理を移す。
The reading content changing process in S17 by the reading content changing unit 12 will be described in accordance with the processing flow of FIG. First, in S31, a synthetic sound creation level is determined from an input value to the reading control signal input terminal 9. The reading control signal input terminal 9 is a value that is input according to the usage environment of the device. Here, the reading control signal input terminal 9 accepts input in three stages, 0: reading all, 1: not reading the most important keyword, 2 : It is possible to input a level such as non-important keyword reading. In the following description, it is assumed that level 1 is input from the reading control signal input terminal 9.
In S32, the first morpheme “goyo” is selected from the optimal morpheme example 53 in FIG. 7, and the process proceeds to S33. In S33, since the processing of all morphemes has not been completed, the process proceeds to S34. In S34, the first morpheme “goyo [goyo ']” is a processing target, and since this morpheme is not a morpheme generated by the reading control rule, the process proceeds to S37.

S37では、次の形態素「の[ノ]」を選択し、S33に処理を戻す。図7に示す形態素例54がS37で選択されるまでは、上記の処理の繰り返しとなる。形態素例54がS37で選択されて、S33に処理を移した場合、全ての形態素が処理済でないので、S34に処理を移す。ここで、形態素例54は読み制御ルールで生成された形態素なので、S35に処理を移す。S35では、合成音作成レベル(=1)≧ルールレベル(=1)なので、S36に処理を移す。S36では、所定のルールに従って読みを書き換える。ここでは、無音に書き換えるものとする。S36の処理が終了し、S37で次の形態素を選択する。   In S37, the next morpheme “no” is selected, and the process returns to S33. The above processing is repeated until the morpheme example 54 shown in FIG. 7 is selected in S37. When the morpheme example 54 is selected in S37 and the processing is shifted to S33, since all the morphemes have not been processed, the processing is shifted to S34. Here, since the morpheme example 54 is a morpheme generated by the reading control rule, the processing is shifted to S35. In S35, since the synthesized sound creation level (= 1) ≧ rule level (= 1), the process proceeds to S36. In S36, the reading is rewritten according to a predetermined rule. Here, it shall be rewritten to silence. The process of S36 is completed, and the next morpheme is selected in S37.

この後も、S32〜S37までの処理を繰り返し、S17の処理を終了する。S17の処理が終了すると、S18に処理を移し、アクセント句としてのアクセント位置の制御を行う。アクセント位置の処理は、例えば、「NHK日本語発音アクセント辞典」などの既知のアクセントルールによって、助詞、助動詞などの接続によるアクセントが変形されるものとする。そして、図7に示すテキスト解析結果例56が生成され、テキスト解析部2の処理を終了する。
なお、合成音作成レベルが0の場合には、形態素例54はS35で条件を満足しないので、そのまま、S37に処理を移すため、図7に示すテキスト解析結果例55が生成される。
Thereafter, the processes from S32 to S37 are repeated, and the process of S17 is terminated. When the process of S17 ends, the process moves to S18, and the accent position as an accent phrase is controlled. In the processing of the accent position, it is assumed that the accent due to the connection of particles, auxiliary verbs, etc. is deformed by a known accent rule such as “NHK Japanese pronunciation accent dictionary”. Then, a text analysis result example 56 shown in FIG. 7 is generated, and the processing of the text analysis unit 2 is finished.
If the synthesized sound creation level is 0, the morpheme example 54 does not satisfy the condition in S35, and the process proceeds to S37 as it is, so that the text analysis result example 55 shown in FIG. 7 is generated.

テキスト解析処理が終了すると、韻律制御部4に処理を移し、イントネーション、リズムなどの韻律情報を生成する。更に、素片選択部6では、発声内容に併せた素片を音響辞書5から選択する。最後に音声合成部7において、素片選択部6で選択した素片を、韻律制御部4にて生成した、イントネーション、リズムにあわせるよう変形して合成音声を作成し、出力端子8に出力する。なお、韻律制御部4、素片選択部6、音声合成部7での処理については、既知の音声合成方法にて実現することが可能であるため、詳細は省略する。   When the text analysis process ends, the process moves to the prosody control unit 4 to generate prosody information such as intonation and rhythm. Further, the segment selection unit 6 selects a segment in accordance with the utterance content from the acoustic dictionary 5. Finally, the speech synthesizer 7 generates a synthesized speech by transforming the segment selected by the segment selection unit 6 to match the intonation and rhythm generated by the prosody control unit 4 and outputs the synthesized speech to the output terminal 8. . Note that the processing in the prosody control unit 4, the segment selection unit 6, and the speech synthesis unit 7 can be realized by a known speech synthesis method, and thus the details are omitted.

次に、別の入力テキスト例での解析結果の例を図9を用い簡単に説明する。
図9の入力テキスト例71が入力された場合、図5の読み制御ルール例24の先行単語列が、先行単語列例72に一致するため、先行単語列例72の後方に図6のマッチングパターン例34のマッチングパターンを探す。
結果として、マッチング文字列例73が見つかり、形態素が生成され、最適形態素74を生成する。最適形態素74の中には、読み制御ルール生成形態素例75が存在するため、読み制御信号入力端子9のレベルが1の場合は、テキスト解析結果例77を、レベルが0の場合は、テキスト解析結果例76を生成する。
Next, an example of an analysis result in another input text example will be briefly described with reference to FIG.
When the input text example 71 in FIG. 9 is input, the preceding word string in the reading control rule example 24 in FIG. 5 matches the preceding word string example 72, so that the matching pattern in FIG. The matching pattern of Example 34 is searched.
As a result, a matching character string example 73 is found, a morpheme is generated, and an optimal morpheme 74 is generated. Since there is a reading control rule generation morpheme example 75 in the optimum morpheme 74, the text analysis result example 77 is displayed when the level of the reading control signal input terminal 9 is 1, and the text analysis is performed when the level is 0. Result example 76 is generated.

前記実施の形態では、読み上げ内容変更部12での処理として、無音化する例を示したが、変更内容として無音化以外にも、読みの内容をマッピングして、無意味な言葉に変更しても良い。
また、特定の効果音(動物の鳴き声や「ピー」といった信号音)などで置き換えることも可能である。
In the above-described embodiment, an example of silence is shown as the processing in the reading content changing unit 12, but the content of reading is mapped to a meaningless word other than the silence as the changed content. Also good.
It is also possible to replace with a specific sound effect (animal bark or signal sound such as “pea”).

また、前記実施の形態では、読み制御信号入力端子9からレベル指定は、あらかじめ利用者が設定するものとしたが、合成音出力の時点で、ユーザに確認し確認結果として、ユーザが読み制御信号入力端子9から入力した指定レベルで読み上げることも可能である。   In the above embodiment, the user designates the level from the reading control signal input terminal 9 in advance. However, the user confirms the reading control signal at the time of the synthesized sound output and confirms the result. It is also possible to read out at a specified level input from the input terminal 9.

さらに、前記実施の形態では、日本語のテキストに対して例示しているが、英語などの外国語に対しても適用可能である。例えば、“Your password number is 1234”では、“password”を「暗証番号」として置き換えて考えればよい。   Furthermore, in the said embodiment, although illustrated with respect to a Japanese text, it is applicable also to foreign languages, such as English. For example, in “Your password number is 1234”, “password” may be replaced with “password”.

また、前記実施の形態では、音声出力に対して、読みの制御を行ったが、表示装置に対しても適用可能である。   In the above embodiment, the reading control is performed on the audio output, but the present invention can also be applied to a display device.

さらに、前記実施の形態では、図6のパターンマッチを、文字列レベルのパターン記述としたが、形態素レベルでの記述を行うように拡張することも容易であり、これによって、人名の読み上げを制御したり、住所の読み上げを制御することも可能である。   Furthermore, in the above embodiment, the pattern matching in FIG. 6 is a pattern description at the character string level. However, it can be easily extended to be described at the morpheme level, thereby controlling the reading of personal names. It is also possible to control address reading.

この発明は、携帯電話、PDA(Personal Digital Assistant)、パーソナルコンピュータ等の情報機器や、カーナビゲーションシステム、ETC(Electronic Toll Collection System)等の車載機器、ATM(自動現金預払機)、CD(キャッシュディスペンサ)機等の事務機器などに適用が可能である。 The present invention relates to an information device such as a mobile phone, a PDA (Personal Digital Assistant), a personal computer, an in-vehicle device such as a car navigation system, an ETC (Electronic Toll Collection System), an ATM (automatic cash dispenser), a CD (cash dispenser). ) Applicable to office equipment such as machines.

この発明の実施の形態1に係る音声合成装置の構成を示すブロック図である。It is a block diagram which shows the structure of the speech synthesizer which concerns on Embodiment 1 of this invention. テキスト解析処理部の処理内容を示すフローチャートである。It is a flowchart which shows the processing content of a text analysis process part. パターン形態素生成部での処理内容を示すフローチャートである。It is a flowchart which shows the processing content in a pattern morpheme production | generation part. 読み上げ内容変更部での処理内容を示すフローチャートである。It is a flowchart which shows the processing content in the reading content change part. 読み制御ルール例の説明図である。It is explanatory drawing of the example of a reading control rule. 読み制御ルールでの具体的なマッチングパターン例の説明図である。It is explanatory drawing of the example of a specific matching pattern in a reading control rule. テキスト解析部での処理データ例の説明図である。It is explanatory drawing of the example of processing data in a text analysis part. テキスト解析部での形態素候補生成例の説明図である。It is explanatory drawing of the example of morpheme candidate generation in a text analysis part. テキスト解析部での別の処理データ例の説明図である。It is explanatory drawing of the example of another process data in a text analysis part.

符号の説明Explanation of symbols

1.テキスト入力端子、 2.テキスト解析部、 3.言語辞書、 4.韻律制御部、
5.音響辞書、 6.素片選択部、 7.音声合成部、 8.音声出力端子、 9.読み制御信号入力端子、 10.読み制御ルール、 11.パターン形態素生成部、 12.読み上げ内容変更部、 21〜24.読み制御ルール例、 31〜34.マッチングパターン例、 51.入力テキスト例、 52.マッチング文字列例、 53.最適形態素例、 54.読み制御ルール生成形態素例、 55〜56.テキスト解析結果例、 61〜63.形態素例、 71.入力テキスト例、 72.先行単語列例、 73.マッチング文字列例、 74.最適形態素例、 75.読み制御ルール生成形態素例、 76〜77.テキスト解析結果例。
1. 1. Text input terminal 2. text analysis unit; Language dictionary, 4. Prosody control part,
5. 5. Acoustic dictionary 6. Segment selection unit, Speech synthesis unit, 8. 8. Audio output terminal 9. Reading control signal input terminal 10. Reading control rules 11. pattern morpheme generator, Reading content changing section, 21-24. Reading control rule examples, 31-34. 51. matching pattern example 52. Input text example Matching string example 53. 54. Optimal morpheme example Reading control rule generation morpheme example, 55-56. Text analysis result example 61-63. 71. morpheme examples 72. Input text example 73. preceding word string example 74. matching character string example 75. Optimal morpheme example Reading control rule generation morpheme examples 76-77. Text analysis result example.

Claims (7)

テキストを入力とし、見だし、読み、アクセント型情報を持った言語辞書を用いて、読み情報とアクセント情報を含む解析結果に分割するテキスト解析手段と、
テキスト解析手段によって得られた読み情報とアクセント情報を元に、イントネーションやリズムを制御するための韻律情報を生成する韻律制御手段と、
テキスト解析手段によって得られた読み情報とアクセント情報、および韻律制御手段によって得られた韻律情報を元に、音素片を格納した音響辞書から音素片を選択する素片選択手段と、
素片選択手段で選択した音素片を韻律制御手段によって得られた韻律情報に合わせて合成音を作成する音声合成手段を有する音声合成装置において、
上記テキスト解析手段の処理中に、特定のパターンを抽出するための読み制御ルールを元に読み制御ルールに規定されているパターンに一致する形態素を生成するパターン形態素生成手段と、
パターン形態素生成手段によって求められた形態素の読み上げ内容の変更を行い入力テキストの読み上げ内容変更を行う読み上げ内容変更手段と、
上記読み上げ内容変更手段の読み上げ内容変更を実行するか否かの読み制御信号を入力する読み制御信号入力手段を有することを特徴とする音声合成装置。
A text analysis means for taking text as input, using a language dictionary with finding, reading, and accent type information, and dividing into analysis results including reading information and accent information;
Prosody control means for generating prosodic information for controlling intonation and rhythm based on reading information and accent information obtained by text analysis means,
Based on the reading information and accent information obtained by the text analysis means, and the prosody information obtained by the prosody control means, a segment selection means for selecting a phoneme from an acoustic dictionary storing phonemes;
In a speech synthesizer having a speech synthesizer that creates a synthesized sound in accordance with the prosodic information obtained by the prosodic control means, the phoneme selected by the segment selection means
A pattern morpheme generation unit that generates a morpheme that matches a pattern defined in the reading control rule based on a reading control rule for extracting a specific pattern during the processing of the text analysis unit;
Reading contents changing means for changing the reading contents of the input text by changing the reading contents of the morpheme obtained by the pattern morpheme generation means,
A speech synthesizer characterized by comprising reading control signal input means for inputting a reading control signal indicating whether or not to execute reading contents change of the reading contents changing means.
上記読み制御信号入力手段から入力される読み制御信号は、読み上げ内容の変更が発生する場合に、読み上げ内容の変更を行うか否かの確認を音声合成装置利用者が行った後に入力される構成にされたことを特徴とする請求項1記載の音声合成装置。   The reading control signal input from the reading control signal input means is input after the speech synthesizer user confirms whether or not to change the reading content when the reading content changes. The speech synthesizer according to claim 1, wherein 上記読み制御信号入力手段から入力される読み制御信号は、読み上げ内容の変更を数段階に設定することが可能な構成にされたことを特徴とする請求項1または2に記載の音声合成装置。   3. The speech synthesizer according to claim 1, wherein the reading control signal input from the reading control signal input means is configured to be able to set a change in reading contents in several stages. 上記読み上げ内容変更手段は、変更後の音声を無音にする構成にされたことを特徴とする請求項1ないし3の何れかに記載の音声合成装置。   4. The speech synthesizer according to claim 1, wherein the reading content changing means is configured to silence the changed voice. 上記読み上げ内容変更手段は、変更後の音声を特定の効果音または、効果音の連続にする構成にされたことを特徴とする請求項1ないし3の何れかに記載の音声合成装置。   4. The speech synthesizer according to claim 1, wherein the reading content changing means is configured to make the changed sound a specific sound effect or a continuous sound effect. テキストを入力とし、見だし、読み、アクセント型情報を持った言語辞書を用いて、読み情報とアクセント情報を含む解析結果に分割するテキスト解析ステップと、
テキスト解析ステップによって得られた読み情報とアクセント情報を元に、イントネーションやリズムを制御するための韻律情報を生成する韻律制御ステップと、
テキスト解析ステップによって得られた読み情報とアクセント情報、および韻律制御ステップによって得られた韻律情報を元に、音素片を格納した音響辞書から音素片を選択する素片選択ステップと、
素片選択ステップで選択した音素片を韻律制御ステップによって得られた韻律情報に合わせて合成音を作成する音声合成ステップを有する音声合成方法において、
上記テキスト解析ステップの処理中に、特定のパターンを抽出するための読み制御ルールを元に読み制御ルールに規定されているパターンに一致する形態素を生成するパターン形態素生成ステップと、
パターン形態素生成ステップによって求められた形態素の読み上げ内容の変更を行い入力テキストの読み上げ内容変更を行う読み上げ内容変更ステップと、
上記読み上げ内容変更ステップの読み上げ内容変更を実行するか否かの読み制御信号を入力する読み制御信号入力ステップを有することを特徴とする音声合成方法。
A text analysis step that takes a text as input, divides it into an analysis result including reading information and accent information, using a language dictionary with finding, reading and accent type information;
Prosody control step for generating prosody information for controlling intonation and rhythm based on reading information and accent information obtained by the text analysis step,
Based on the reading information and accent information obtained by the text analysis step, and the prosodic information obtained by the prosody control step, a segment selection step for selecting a phoneme from an acoustic dictionary storing phonemes;
In a speech synthesis method having a speech synthesis step of creating a synthesized sound in accordance with the prosodic information obtained in the prosody control step by the phoneme segment selected in the segment selection step,
During the processing of the text analysis step, a pattern morpheme generation step for generating a morpheme that matches a pattern defined in the reading control rule based on a reading control rule for extracting a specific pattern;
A reading content change step for changing the reading content of the input text by changing the reading content of the morpheme obtained by the pattern morpheme generation step;
A speech synthesis method, comprising: a reading control signal input step for inputting a reading control signal indicating whether or not to execute reading content change in the reading content changing step.
テキストを入力とし、見だし、読み、アクセント型情報を持った言語辞書を用いて、読み情報とアクセント情報を含む解析結果に分割するテキスト解析処理と、
テキスト解析処理によって得られた読み情報とアクセント情報を元に、イントネーションやリズムを制御するための韻律情報を生成する韻律制御処理と、
テキスト解析処理によって得られた読み情報とアクセント情報、および韻律制御処理によって得られた韻律情報を元に、音素片を格納した音響辞書から音素片を選択する素片選択処理と、
素片選択処理で選択した音素片を韻律制御処理によって得られた韻律情報に合わせて合成音を作成する音声合成手段をコンピュータに実現させるための音声合成プログラムにおいて、
テキスト解析処理の処理中に、特定のパターンを抽出するための読み制御ルールを元に読み制御ルールに規定されているパターンに一致する形態素を生成するパターン形態素生成処理と、
パターン形態素生成処理によって求められた形態素の読み上げ内容の変更を行い入力テキストの読み上げ内容変更を行う読み上げ内容変更処理と、
上記読み上げ内容変更処理の読み上げ内容変更を実行するか否かの読み制御信号を入力する読み制御信号入力処理をさらにコンピュータに実現させるための音声合成プログラム。
A text analysis process that takes text as input, divides it into analysis results that include reading information and accent information, using a language dictionary with finding, reading, and accent type information,
Prosody control processing for generating prosody information for controlling intonation and rhythm based on reading information and accent information obtained by text analysis processing,
Based on the reading information and accent information obtained by the text analysis processing, and the prosody information obtained by the prosody control processing, a segment selection process for selecting a phoneme from an acoustic dictionary storing the phonemes;
In a speech synthesis program for causing a computer to implement speech synthesis means for creating synthesized speech in accordance with the prosodic information obtained by prosody control processing for the phoneme segment selected in the segment selection process,
A pattern morpheme generation process that generates a morpheme that matches a pattern defined in the reading control rule based on the reading control rule for extracting a specific pattern during the text analysis process;
Reading contents change processing for changing the reading contents of the input text by changing the reading contents of the morpheme obtained by the pattern morpheme generation process,
A speech synthesis program for causing a computer to further realize a reading control signal input process for inputting a reading control signal for determining whether or not to read a reading contents change in the reading contents changing process.
JP2005273987A 2005-09-21 2005-09-21 Voice synthesizer, voice synthesizing method, and program Pending JP2007086309A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005273987A JP2007086309A (en) 2005-09-21 2005-09-21 Voice synthesizer, voice synthesizing method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005273987A JP2007086309A (en) 2005-09-21 2005-09-21 Voice synthesizer, voice synthesizing method, and program

Publications (1)

Publication Number Publication Date
JP2007086309A true JP2007086309A (en) 2007-04-05

Family

ID=37973370

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005273987A Pending JP2007086309A (en) 2005-09-21 2005-09-21 Voice synthesizer, voice synthesizing method, and program

Country Status (1)

Country Link
JP (1) JP2007086309A (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009139677A (en) * 2007-12-07 2009-06-25 Toshiba Corp Voice processor and program therefor
JP2011095382A (en) * 2009-10-28 2011-05-12 Kyocera Corp Character information display device with voice synthesis function and voice synthesis method for the same
JP2011211266A (en) * 2010-03-29 2011-10-20 Hitachi Omron Terminal Solutions Corp Speaker array device
JP2012194264A (en) * 2011-03-15 2012-10-11 Fujitsu Frontech Ltd Automatic transaction device, voice reading-aloud method, and voice reading-aloud program
JP2014038265A (en) * 2012-08-20 2014-02-27 Toshiba Corp Speech synthesizer, speech synthesis method and program
JP2019200669A (en) * 2018-05-17 2019-11-21 Necパーソナルコンピュータ株式会社 Information processing apparatus, program and information processing method

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009139677A (en) * 2007-12-07 2009-06-25 Toshiba Corp Voice processor and program therefor
US8170876B2 (en) 2007-12-07 2012-05-01 Kabushiki Kaisha Toshiba Speech processing apparatus and program
JP2011095382A (en) * 2009-10-28 2011-05-12 Kyocera Corp Character information display device with voice synthesis function and voice synthesis method for the same
JP2011211266A (en) * 2010-03-29 2011-10-20 Hitachi Omron Terminal Solutions Corp Speaker array device
JP2012194264A (en) * 2011-03-15 2012-10-11 Fujitsu Frontech Ltd Automatic transaction device, voice reading-aloud method, and voice reading-aloud program
JP2014038265A (en) * 2012-08-20 2014-02-27 Toshiba Corp Speech synthesizer, speech synthesis method and program
JP2019200669A (en) * 2018-05-17 2019-11-21 Necパーソナルコンピュータ株式会社 Information processing apparatus, program and information processing method

Similar Documents

Publication Publication Date Title
US8825486B2 (en) Method and apparatus for generating synthetic speech with contrastive stress
US9424833B2 (en) Method and apparatus for providing speech output for speech-enabled applications
US6778962B1 (en) Speech synthesis with prosodic model data and accent type
US7809572B2 (en) Voice quality change portion locating apparatus
US20080126093A1 (en) Method, Apparatus and Computer Program Product for Providing a Language Based Interactive Multimedia System
US8914291B2 (en) Method and apparatus for generating synthetic speech with contrastive stress
JP2003295882A (en) Text structure for speech synthesis, speech synthesizing method, speech synthesizer and computer program therefor
US6212501B1 (en) Speech synthesis apparatus and method
JP5198046B2 (en) Voice processing apparatus and program thereof
US7912718B1 (en) Method and system for enhancing a speech database
JP2007086309A (en) Voice synthesizer, voice synthesizing method, and program
JPH05165486A (en) Text voice transforming device
Stöber et al. Speech synthesis using multilevel selection and concatenation of units from large speech corpora
JPH0887297A (en) Voice synthesis system
JPH08335096A (en) Text voice synthesizer
JP4964695B2 (en) Speech synthesis apparatus, speech synthesis method, and program
JP6289950B2 (en) Reading apparatus, reading method and program
JP6197523B2 (en) Speech synthesizer, language dictionary correction method, and language dictionary correction computer program
JP2004145015A (en) System and method for text speech synthesis
JP2009271190A (en) Speech element dictionary creation device and speech synthesizer
JPH096378A (en) Text voice conversion device
JP2703253B2 (en) Speech synthesizer
JP2001350490A (en) Device and method for converting text voice
JP2003308084A (en) Method and device for synthesizing voices
JPH11259091A (en) Speech synthesizer and method therefor