JP2007025338A - Method and device for speech synthesis, and computer program - Google Patents
Method and device for speech synthesis, and computer program Download PDFInfo
- Publication number
- JP2007025338A JP2007025338A JP2005208532A JP2005208532A JP2007025338A JP 2007025338 A JP2007025338 A JP 2007025338A JP 2005208532 A JP2005208532 A JP 2005208532A JP 2005208532 A JP2005208532 A JP 2005208532A JP 2007025338 A JP2007025338 A JP 2007025338A
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- phoneme
- unit
- text body
- keywords
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Abstract
Description
本発明は文書を読み上げるための音声合成にかかり,特にキーワードを強調する音声合成方法,音声合成装置,およびコンピュータプログラムに関する。 The present invention relates to speech synthesis for reading a document, and more particularly to a speech synthesis method, speech synthesis apparatus, and computer program for emphasizing keywords.
予め録音された人の自然音声等を基にして,PC(パーソナルコンピュータ)に記憶された文書を,音声に変換して読み上げる音声合成装置が一般的に知られている。上記音声合成装置は,品詞単位に分割可能な自然音声が記録されているコーパスに基づいて合成音声を作成する。 2. Description of the Related Art Generally, a speech synthesizer is known that converts a document stored in a PC (personal computer) into a voice and reads it out based on a natural voice of a person recorded in advance. The speech synthesizer creates synthesized speech based on a corpus in which natural speech that can be divided into parts of speech is recorded.
上記音声合成装置による音声合成処理では,例えば,入力されたテキストに対して形態素解析,係り受け解析を実行し,音素記号,アクセント記号などに変換される。 In the speech synthesis processing by the speech synthesizer, for example, morpheme analysis and dependency analysis are executed on the input text, and converted into phoneme symbols, accent symbols, and the like.
次に,音素記号,アクセント記号列,および形態素解析結果から得られる入力テキストの品詞情報を用いて,音素持続時間(声の長さ),基本周波数(声の高さ),母音中心のパワー(声の大きさ)等の推定が行われる。 Next, the phoneme duration (voice length), fundamental frequency (voice pitch), vowel-centric power (by using the part-of-speech information of the input text obtained from phoneme symbols, accent symbol strings, and morpheme analysis results ( The loudness etc. is estimated.
次に,上記推定された音素持続時間,基本周波数,母音中心のパワーなどに最も近く,かつ波形辞書に蓄積されている合成単位(音素片)を接続したときの歪みが最も小さくなる合成単位の組合せが動的計画法等を用いて選択される。なお,この際に行われる単位選択では,知覚的特徴に一致した尺度(コスト値)を用いる。 Next, the synthesis unit that is closest to the estimated phoneme duration, fundamental frequency, vowel center power, etc. and that has the smallest distortion when connecting synthesis units (phonemes) stored in the waveform dictionary is the smallest. A combination is selected using dynamic programming or the like. The unit selection performed at this time uses a scale (cost value) that matches the perceptual feature.
上記合成単位の組合せが選択されると,当該選択された音素片の組合せに従って,ピッチを変換しつつ音素片の接続を行うことにより音声が合成される。以上が,音声合成処理の概略である。 When the combination of the synthesis units is selected, the speech is synthesized by connecting the phonemes while changing the pitch in accordance with the selected phoneme combination. The above is the outline of the speech synthesis process.
また,上記音声合成装置のなかには,文書中の重要な個所,文書作成者が読み手に特に伝えたい個所を強調して読み上げることが可能な装置が開発されている(例えば,特許文献1,参照)。 Among the speech synthesizers described above, an apparatus has been developed that can read out important parts in a document and emphasize parts that the document creator particularly wants to convey to the reader (for example, see Patent Document 1). .
しかしながら,音声合成装置において文書中の重要な個所を強調する際に,上記音声の話者,音量,音程,または話速を変更することによって,キーワード部分に対する出力音声と,その他の部分に対する出力音声とが識別できるように音声合成をすると,かかる強調部分の音質が劣化するという問題があった。 However, when emphasizing important parts in the document in the speech synthesizer, the output speech for the keyword portion and the output speech for other portions are changed by changing the speaker, volume, pitch, or speech speed of the speech. When speech synthesis is performed so that can be identified, there is a problem that the sound quality of the emphasized portion deteriorates.
本発明は,上記問題点に鑑みてなされたものであり,本発明の目的は,音声の話者,音量,音程,または話速を変更し,キーワード部分に対する出力音声と,その他の部分に対する出力音声とを識別できるような音声合成をしても音質の劣化を抑えることが可能な,新規かつ改良された音声合成装置,音声合成方法,およびコンピュータプログラムを提供することである。 The present invention has been made in view of the above problems, and an object of the present invention is to change the voice speaker, volume, pitch, or speech speed, and output voice to the keyword part and output to other parts. To provide a new and improved speech synthesizer, speech synthesis method, and computer program capable of suppressing deterioration of sound quality even if speech synthesis is performed such that speech can be distinguished.
上記課題を解決するため,本発明の第1の観点によれば,キーワード部分を強調し音声合成を行う音声合成方法が提供される。上記音声合成方法は,テキスト本文に含まれる全てのキーワードの音韻の候補を,該キーワード以外の音韻の候補よりも優先的に,該キーワードの出現順で,コーパスから選択する選択処理が実行されることを特徴としている。なお,上記コーパスには,例えば,少なくとも品詞単位に分割可能な自然音声が記録されているが,かかる例に限定されない。 In order to solve the above problems, according to a first aspect of the present invention, there is provided a speech synthesis method for performing speech synthesis by emphasizing a keyword portion. In the above speech synthesis method, a selection process is executed in which phoneme candidates for all keywords included in the text body are selected from the corpus in order of appearance of the keywords in preference to phoneme candidates other than the keywords. It is characterized by that. The corpus records, for example, natural speech that can be divided at least into parts of speech, but is not limited to this example.
上記選択処理は,上記キーワード部分のコスト値が最小となる単位候補の組合せを用いて,上記テキスト本文の開始位置から最初に出現したキーワード開始位置に向けて,コスト値が最小となる単位候補の組合せを選択し;上記キーワードが2つ以上存在する場合,該キーワードの終了位置から後続のキーワードの開始位置に向けて,上記コスト値が最小となる単位候補の組合せを選択するように構成しても良い。 The selection process uses a combination of unit candidates that minimizes the cost value of the keyword part, and selects a unit candidate that has the minimum cost value from the start position of the text body to the first keyword start position. A combination is selected; when there are two or more keywords, the combination of unit candidates that minimizes the cost value is selected from the end position of the keyword toward the start position of the subsequent keyword. Also good.
上記音声合成方法では,上記選択処理の前に,キーワードの音韻記号が,テキスト本文の音韻記号の内で,部分一致しているかを音韻記号の先頭からサーチするキーワード抽出処理が行われるようにしてもよい。 In the speech synthesis method, before the selection process, a keyword extraction process is performed to search from the head of the phonological symbol whether the phonological symbol of the keyword partially matches the phonological symbol of the text body. Also good.
上記キーワード抽出処理は,上記キーワードの音韻記号と上記テキスト本文の音韻記号とが部分一致している個所を基に,韻律予測情報に記載された各音韻ごとのキーワード位置情報の値を変更し;その変更後のキーワード位置情報を含んだ上記韻律予測情報を基にして,上記選択処理は,上記テキスト文に含まれる全てのキーワードの音韻の候補を,上記コーパスから選択するようにしてもよい。 The keyword extraction process changes the value of the keyword position information for each phoneme described in the prosodic prediction information based on a location where the phoneme symbol of the keyword and the phoneme symbol of the text body partially match; Based on the prosodic prediction information including the changed keyword position information, the selection process may select phoneme candidates for all keywords included in the text sentence from the corpus.
声の高さ,声の長さ,またはメルケプストラムのうち少なくとも一つを予測する情報である韻律予測情報に記載された各音韻のキーワード位置情報の値を変更することにより,キーワードの音韻記号とテキスト本文の音韻記号とが部分一致していることを示すようにしてもよい。 By changing the value of the keyword position information of each phoneme described in the prosodic prediction information, which is information for predicting at least one of voice pitch, voice length, or mel cepstrum, You may make it show that the phonetic symbol of a text main body corresponds partially.
上記音声合成方法では,上記テキスト本文内の1又は2以上のキーワードに対して,該キーワード部分を強調する度合いを示すキーワード重み付け係数を付与する重み付け付与処理がさらに行われるように構成しても良い。 The speech synthesis method may be configured to further perform a weighting process for assigning a keyword weighting coefficient indicating a degree of emphasizing the keyword part to one or more keywords in the text body. .
上記キーワード抽出処理では,上記テキスト本文内の1又は2以上のキーワードに対して,上記重み付け付与処理で付与されたキーワード重み付け係数をキーワード重み付け情報として取得し,そのキーワード重み付け情報と上記単位候補の組合せを絞り込む幅とを対応付けたテーブルが用いられるように構成してもよい。 In the keyword extraction process, the keyword weighting coefficient assigned in the weighting process is acquired as keyword weighting information for one or more keywords in the text body, and the combination of the keyword weighting information and the unit candidate is acquired. A table in which a width for narrowing down is associated may be used.
上記選択処理では,ターゲットコスト幅と,ピッチの不連続に関するサブコスト値と,スペクトルの不連続に関するサブコスト値とを足し合わせたコスト値が最小となる値を基にして,上記単位候補の組合せを絞り込む幅の範囲内に収まるコスト値をもつ単位候補の組合せを選択するように構成してもよい。 In the selection process described above, the unit candidate combinations are narrowed down based on the value that minimizes the cost value obtained by adding the target cost range, the sub cost value related to the pitch discontinuity, and the sub cost value related to the spectrum discontinuity. A combination of unit candidates having cost values that fall within the range of the width may be selected.
上記課題を解決するために,本発明の別の観点によれば,キーワード部分を強調し音声合成を行う音声合成装置が提供される。上記音声合成装置は,テキスト本文に含まれる全てのキーワードの音韻の候補を,当該キーワード以外の音韻の候補よりも優先的に,当該キーワードの出現順で,コーパスから選択するキーワード優先音韻選択部を備えることを特徴としている。なお,上記コーパスには,例えば,少なくとも品詞単位に分割可能な自然音声が記録されている。 In order to solve the above-described problem, according to another aspect of the present invention, a speech synthesizer for emphasizing a keyword portion and performing speech synthesis is provided. The speech synthesizer includes a keyword priority phoneme selection unit that selects phoneme candidates of all keywords included in the text body from a corpus in preference to phoneme candidates other than the keyword in the order of appearance of the keywords. It is characterized by providing. The corpus records, for example, natural speech that can be divided at least into parts of speech.
上記キーワード優先音韻選択部は,キーワード部分のコスト値が最小となる単位候補の組合せを用いて,上記テキスト本文の開始位置から最初に出現したキーワード開始位置に向けて,コスト値が最小となる単位候補の組合せを選択し;上記キーワードが2つ以上存在する場合,該キーワードの終了位置から後続のキーワードの開始位置に向けて,上記コスト値が最小となる単位候補の組合せを選択するように構成しても良い。 The keyword-preferred phoneme selection unit uses a combination of unit candidates that minimizes the cost value of the keyword part, and proceeds to the keyword start position that appears first from the start position of the text body. A candidate combination is selected; when there are two or more keywords, a unit candidate combination having the minimum cost value is selected from the end position of the keyword toward the start position of the subsequent keyword. You may do it.
上記音声合成装置は,上記キーワードの音韻記号が,上記テキスト本文の音韻記号の内で,部分一致しているかを音韻記号の先頭からサーチするキーワード抽出部をさらに備えてもよい。 The speech synthesizer may further include a keyword extraction unit that searches from the head of the phoneme symbol whether the phoneme symbol of the keyword partially matches the phoneme symbol of the text body.
上記キーワード抽出部は,上記キーワードの音韻記号と上記テキスト本文の音韻記号とが部分一致している個所を基に,韻律予測情報に記載された各音韻ごとのキーワード位置情報の値を変更し;上記キーワード優先音韻選択部は,上記変更後のキーワード位置情報を含んだ上記韻律予測情報を基にして,上記テキスト文に含まれる全てのキーワードの音韻の候補を,上記コーパスから選択するようにしてもよい。 The keyword extraction unit changes the value of the keyword position information for each phoneme described in the prosodic prediction information based on a location where the phoneme symbol of the keyword and the phoneme symbol of the text body partially match; The keyword priority phoneme selection unit selects from the corpus candidate phonemes of all keywords included in the text sentence based on the prosodic prediction information including the changed keyword position information. Also good.
上記キーワード抽出部が,声の高さ,声の長さ,またはメルケプストラムのうち少なくとも一つを予測する情報である韻律予測情報に記載された各音韻のキーワード位置情報の値を変更することにより,該変更されたキーワード位置情報の値は,キーワードの音韻記号とテキスト本文の音韻記号とが部分一致していることを示すようにしてもよい。 The keyword extraction unit changes the value of the keyword position information of each phoneme described in the prosodic prediction information that is information for predicting at least one of voice pitch, voice length, and mel cepstrum. The value of the changed keyword position information may indicate that the phonological symbol of the keyword partially matches the phonological symbol of the text body.
上記音声合成装置は,上記テキスト本文内の1又は2以上のキーワードに対して,該キーワード部分を強調する度合いを示すキーワード重み付け係数を付与する重み付け部をさらに備えてもよい。 The speech synthesizer may further include a weighting unit that assigns a keyword weighting coefficient indicating a degree of emphasizing the keyword part to one or more keywords in the text body.
上記キーワード抽出部は,上記テキスト本文内の1又は2以上のキーワードに対して,上記重み付け部で付与されたキーワード重み付け係数をキーワード重み付け情報として取得し,そのキーワード重み付け情報と上記単位候補の組合せを絞り込む幅とを対応付けたテーブルを用いるように構成しても良い。 The keyword extraction unit acquires, as keyword weighting information, the keyword weighting coefficient assigned by the weighting unit for one or more keywords in the text body, and combines the keyword weighting information and the unit candidate. You may comprise so that the table which matched the width | variety to narrow down may be used.
上記キーワード優先音韻選択部は,ターゲットコスト幅と,ピッチの不連続に関するサブコスト値と,スペクトルの不連続に関するサブコスト値とを足し合わせたコスト値が最小となる値を基にして,上記単位候補の組合せを絞り込む幅の範囲内に収まるコスト値をもつ単位候補の組合せを選択するように構成しても良い。 The keyword-preferred phoneme selection unit selects the unit candidate based on a value that minimizes the cost value obtained by adding the target cost range, the sub-cost value related to the pitch discontinuity, and the sub-cost value related to the spectrum discontinuity. A combination of unit candidates having cost values that fall within the range of narrowing down the combinations may be selected.
上記課題を解決するために,本発明の別の観点によれば,コンピュータをして,キーワード部分を強調し音声合成を行う音声合成装置として機能させるコンピュータプログラムが提供される。 In order to solve the above problems, according to another aspect of the present invention, there is provided a computer program that causes a computer to function as a speech synthesizer that performs speech synthesis by emphasizing a keyword portion.
以上説明したように,本発明によれば,音声の話者,音量,音程,または話速を変更しても,キーワード部分に対する出力音声とその他の部分に対する出力音声とを識別可能なように音声合成しても,強調させたいキーワード部分の音質の劣化を最小限に抑えることができる。 As described above, according to the present invention, even if the voice speaker, volume, pitch, or speech speed is changed, the voice can be distinguished from the output voice for the keyword part and the output voice for the other part. Even if it is synthesized, it is possible to minimize the deterioration of the sound quality of the keyword part to be emphasized.
以下,本発明の好適な実施の形態について,添付図面を参照しながら詳細に説明する。なお,以下の説明及び添付図面において,略同一の機能及び構成を有する構成要素については,同一符号を付することにより,重複説明を省略する。 DESCRIPTION OF EXEMPLARY EMBODIMENTS Hereinafter, preferred embodiments of the invention will be described in detail with reference to the accompanying drawings. In the following description and the accompanying drawings, components having substantially the same functions and configurations are denoted by the same reference numerals, and redundant description is omitted.
(音声合成装置について)
まず,図1を参照しながら,第1の実施の形態にかかる音声合成装置100について説明する。なお,図1は,第1の実施の形態にかかる音声合成装置の概略的な構成を示すブロック図である。
(About voice synthesizer)
First, the
図1に示すように,音声合成装置100は,テキスト解析部101と,韻律予測部103と,キーワード抽出部105と,キーワード優先音韻選択部107と,コーパス109と,音韻接続部111とを備えている。
As shown in FIG. 1, the
上記テキスト解析部101は,図1に示すように,漢字仮名文字で表現されたテキスト本文と,テキスト本文の中で強調させたい漢字仮名文字で表現されたキーワードとを入力し,そのテキスト本文とキーワードを音韻記号に変換する。なお,音韻とは,例えば音素記号で表されるような分節可能な単位を示すが,かかる例に限定されない。
As shown in FIG. 1, the
また,テキスト解析部101は,上記音韻記号に変換後,漢字仮名文字で表現されたテキスト本文に,形態素解析,係り受け解析を行い,アクセント記号列と,テキスト本文の品詞情報を表す形態素解析結果とを出力する。
In addition, the
上記韻律予測部103は,テキスト解析部101により変換されたテキスト本文の音韻記号と,テキスト解析部101から出力されるアクセント記号列と,形態素解析結果とから得られるテキスト本文の品詞情報を基にして,ピッチ(声の高さ:基本周波数F0)と,音韻継続時間長(声の長さ)と,波形の成分を表現するメルケプストラムとを予測する。なお,その予測した結果が韻律予測情報となる。また,メルケプストラム等の詳細については,特開2003−208188に記載されている。
The
図1に示すように,キーワード抽出部105は,キーワードの音韻記号が,テキスト本文の音韻記号のなかで部分的に一致しているか否かをテキスト本文の音韻記号の先頭から順にサーチする。
As shown in FIG. 1, the
また,キーワード抽出部105は,キーワードの音韻記号とテキスト本文における音韻記号とが部分的に一致している個所を基に,韻律予測部103から受ける韻律予測情報に記載された各音韻ごとのキーワード位置情報の値を,テキスト本文における音韻記号のなかで部分的に一致している全ての音韻について変更する。
In addition, the
上記キーワード優先音韻選択部107は,韻律予測部103で予測したピッチと,音韻継続時間長と,メルケプストラムとを,音韻選択処理のパラメータとして,コーパス109から音韻を選択する。なお,コーパス109は,例えば,ハードディスクドライブ等の記憶手段に記憶されている。
The keyword priority
上記音韻を選択する処理では,キーワード優先音韻選択部107は知覚的特性に一致した尺度(コスト)を使用する。また,観測可能な特徴量から,心理量にマッピングを行ったコスト関数は,韻律に関するサブコストと,ピッチの不連続に関するサブコストと,音韻環境代替に関するサブコストと,スペクトルの不連続に関するサブコストと,音韻の適合性に関するサブコストとの重み付けされた5つのサブコスト関数を足し合わせた関数として構成される(例えば,特開2003−208188,参照)。
In the process of selecting a phoneme, the keyword priority
なお,音声合成装置100は,テキスト本文とキーワードを基にして合成音声を出力することが可能な装置であって,その合成音声を出力することで,テキスト本文を音声にして読み上げることが可能な装置である。より具体的には,音声合成装置100は,例えば,CPU,メモリ,HDD(ハードディスクドライブ),マウス等に相当する入力部,液晶ディスプレイ等に相当する表示部などを備えたPC等を例示することができるが,かかる例に限定されない。
Note that the
なお,本実施の形態にかかる音声合成装置100に備わる表示部は,CPUにより表示可能なように処理された表示画面データと音声データを出力する。また,表示部は,例えば,TV又は液晶ディスプレイ装置などが例示され,上記双方ともにスピーカーを備えて,静止画像のほか,音声,又は動画像などを出力することが可能である。
In addition, the display part with which the
入力部は,例えば,使用者から操作指示を受けることが可能なマウス,トラックボール,トラックパッド,スタイラスペン,またはジョイスティックなどのポインティングデバイスや,キーボード,ボタン,スイッチ,レバー等の操作手段と,入力信号を生成してCPUに出力する入力制御回路などから構成されている。音声合成装置100のユーザは,この入力部を操作することにより,音声合成装置100に対して各種のデータを入力したり処理動作を指示したりすることができる。
The input unit is, for example, a pointing device such as a mouse, a trackball, a trackpad, a stylus pen, or a joystick that can receive an operation instruction from a user, an operation means such as a keyboard, a button, a switch, and a lever, and an input It comprises an input control circuit that generates a signal and outputs it to the CPU. The user of the
(音声合成方法について)
次に,図2を参照しながら,第1の実施の形態にかかる音声合成方法について説明する。なお,図2は,第1の実施の形態にかかる音声合成方法の概略を示すフローチャートである。
(Speech synthesis method)
Next, the speech synthesis method according to the first embodiment will be described with reference to FIG. FIG. 2 is a flowchart showing an outline of the speech synthesis method according to the first embodiment.
図2に示すように,まず,1又は2以上のキーワードを含むテキスト本文と,強調させたい1又は2以上のキーワードとは,テキスト解析部101に入力する(S201)。なお,上記テキスト本文およびキーワードは漢字仮名文字で表現された場合を例に挙げて説明するが,かかる例に限定されない。 As shown in FIG. 2, first, a text body including one or more keywords and one or more keywords to be emphasized are input to the text analysis unit 101 (S201). The text body and the keyword will be described by taking an example where the text body and the keyword are expressed in kanji characters, but are not limited to such examples.
次に,テキスト解析部101は,上記入力したテキスト本文とキーワードとを音韻記号に変換する(S203)。
Next, the
テキスト解析部101は,漢字仮名文字で表現されたテキスト本文に,形態素解析,係り受け解析を行い,アクセント記号列と,テキスト本文の品詞情報を表す形態素解析結果とを出力する(S203)。
The
なお,図2に示すように,テキスト本文に対して変換された音韻記号と,形態素解析結果との情報を持つ出力結果は,例えば,テキスト本文中間言語であると定義するが,かかる例に限定されない。 As shown in FIG. 2, the output result having information on the phoneme symbol converted to the text body and the morphological analysis result is defined as, for example, an intermediate language of the text body, but is limited to such an example. Not.
ここで,テキスト本文が変換された音韻記号501(図5Aに示す「テキスト本文音韻記号」)は,例えば,図5Aに示すように,「hajime…aoki」である。
Here, the
また,キーワードに対して変換された音韻記号を持つ出力結果を,キーワード中間言語とするが,かかる例に限定されない。 An output result having a phoneme symbol converted for a keyword is used as a keyword intermediate language. However, the present invention is not limited to such an example.
また,図5Aに示すように,キーワードの音韻記号502(図5Aに示す「キーワード音韻記号」)は,例えば,「aoki」である。 Further, as shown in FIG. 5A, the keyword phonological symbol 502 (“keyword phonological symbol” shown in FIG. 5A) is, for example, “aoki”.
次に,図2に示すように,テキスト解析部101は,テキスト本文を韻律予測部103に入力するために,テキスト本文であるかどうかを判定する(S205)。
Next, as shown in FIG. 2, the
判定の結果(S205),テキスト本文である場合,テキスト解析部101は,テキスト本文中間言語を出力して韻律予測部103に送信する。
As a result of the determination (S205), if it is a text body, the
さらに,判定の結果(S205),テキスト本文である場合,テキスト解析部101は,テキスト本文中間言語をキーワード抽出部105に出力する。
Furthermore, if the result of determination (S205) is a text body, the
一方,テキスト本文でない場合,つまりキーワードである場合,テキスト解析部101は,キーワード中間言語をキーワード抽出部105に送信する。
On the other hand, if it is not a text body, that is, if it is a keyword, the
次に,韻律予測部103は,ピッチ(声の高さ:基本周波数F0),音韻継続時間長(声の長さ),もしくは波形の成分を表現するメルケプストラムのうち少なくとも一つまたは全部を予測する(S207)。
Next, the
韻律予測部103は,予測した情報として韻律予測情報をキーワード抽出部105に出力する。
The
ここで,上記韻律予測情報について説明すると,図5Aに示すように,韻律予測情報503は,音韻記号501(図5Aに示す例では,「hajime…aoki…」。)の音韻(韻律予測情報503内の縦方向に記載された「hajime…aoki…」)ごとに,音韻の開始時間を表す「start」と,音韻の継続時間長を表す「duration」と,音韻の1又は2以上のピッチを表す「pitch」と,音韻の1又は2以上のメルケプストラムを表す「Mel cep」とから少なくとも構成される。
Here, the prosody prediction information will be described. As shown in FIG. 5A, the
次に,図2に示すように,キーワード抽出部105は,キーワードの音韻記号と,テキスト本文における音韻記号とが部分的に一致している個所を基に,韻律予測情報に記載された各音韻ごとのキーワード位置情報の値を,テキスト本文内の音韻記号について部分一致している音韻記号全てに対して変更し,その変更したキーワード位置情報付き韻律予測情報を,キーワード優先音韻選択部107に出力する。
Next, as shown in FIG. 2, the
(キーワード抽出部による処理について)
次に,キーワード抽出部105は,図2に示すように,テキスト本文内でキーワードがどの位置に存在しているかを示すための情報(キーワード位置情報)を記載するため,韻律予測情報における各音韻に対して領域を確保し,初期化する(S209)。なお,上記初期化の際には,キーワード位置情報のフラグ値をfalseに設定するが,かかる例に限定されない。
(About processing by the keyword extraction unit)
Next, as shown in FIG. 2, the
次に,キーワード抽出部105は,テキスト本文と,キーワードとの音韻記号内で,現在どの音韻を指し示しているかを表現した音韻位置指示子を,テキスト本文と1又は2以上のキーワードにおける先頭音韻に設定する(S211)。
Next, the
次に,キーワード抽出部105は,テキスト本文と,複数のキーワードに対して,音韻の数を求め,各キーワード音韻数にキーワードの音韻数,テキスト音韻数にテキスト本文の音韻数を設定する(S213)。
Next, the
次に,キーワード抽出部105は,テキスト本文の文末であるか否かを判定する(S215)。
Next, the
上記テキスト本文の文末であるか否かの判定した結果(S215),テキスト本文の文末でない場合,キーワード抽出部105は,テキスト本文内にあるキーワードの個所を抽出する(S217)。なお,上記キーワードの抽出処理(S217)については,後程説明する。
As a result of determining whether or not it is the end of the text body (S215), if it is not the end of the text body, the
上記テキスト本文の文末である場合,キーワード抽出部105は,韻律予測情報と,韻律予測情報内の各音韻ごとに(付随する)キーワード位置情報とを有する,キーワード位置情報付き韻律予測情報をキーワード優先音韻選択部107に出力する。
In the case of the end of the text body, the
なお,図4Bに示すように,テキスト本文の文末であるか否かの基準は,テキスト本文の音韻位置指示子が,テキスト音韻数より小さいか否かを,基にして判断される。上記テキスト本文の音韻位置指示子が,テキスト音韻数より小さい場合,テキスト本文の文末であると判断される。 As shown in FIG. 4B, the criterion of whether or not the end of the text body is determined is based on whether or not the phoneme position indicator of the text body is smaller than the number of text phonemes. If the phoneme position indicator of the text body is smaller than the number of text phonemes, it is determined that the end of the text body is reached.
図2に示すステップS219では,詳細は後述するが,キーワード優先音韻選択部107によって,テキスト本文内のキーワード部分から,図1に示すコーパス109を用いて,最適な音韻を選択している。
In step S219 shown in FIG. 2, although the details will be described later, the keyword-preferred
キーワード部分の音韻選択が完了すると,次に,キーワード部分以外の個所の最適な音韻を選択する。 When the phoneme selection for the keyword part is completed, the optimal phoneme for the part other than the keyword part is selected.
全ての音韻選択処理がキーワード優先音韻選択部107によって行われることで,波形セグメントを出力することができる(S219)。
All the phoneme selection processes are performed by the keyword priority
次に,音韻接続部111は,現在取り扱っている波形セグメントの音韻が,テキスト本文の文末であるか否かを判定する(S221)。
Next, the
上記判定した結果(S221),テキスト本文の文末でない場合,音韻接続部111は,現在取り扱っている波形セグメントと,次の波形セグメントを接続する(S223)。
As a result of the above determination (S221), if it is not the end of the text body, the
また一方で,テキスト本文の文末である場合(S221),音韻接続部111は,波形セグメントを接続することにより生成する合成音声を出力する(S225)。かかる合成音声の出力により(S225),音声合成装置100は,キーワードを強調しながら,テキスト本文を読み上げることができる。
On the other hand, if it is the end of the text body (S221), the
(キーワード個所の抽出処理について)
次に,図2に示すキーワード個所の抽出処理(S217)について,図3,図4A,図4Bを参照しながら,さらに詳細に説明する。なお,図3,図4Aは,第1の実施の形態にかかるキーワード個所の抽出処理の概略を示すフローチャートであり,図4Bは,第1の実施の形態にかかるキーワードの語尾であるか否かの判断基準の概略を示す説明図である。
(Keyword location extraction process)
Next, the keyword location extraction process (S217) shown in FIG. 2 will be described in more detail with reference to FIGS. 3, 4A, and 4B. 3 and 4A are flowcharts showing an outline of the keyword location extraction processing according to the first embodiment, and FIG. 4B shows whether or not it is the ending of the keyword according to the first embodiment. It is explanatory drawing which shows the outline of this judgment standard.
図3に示すように,テキスト本文の文末でなければ(S215),キーワード抽出部105は,1又は2以上のキーワードのうち,順々にキーワードを取り扱うため,現時点で取り扱うキーワードの順番が,全体のキーワード数の範囲内でおさまっているか否かを判定する(S240)。
As shown in FIG. 3, if it is not the end of the text body (S215), the
現在取り扱っているキーワードの順番は,キーワードの入力順とするが,かかる例に限定されない。 The order of keywords currently handled is the keyword input order, but is not limited to this example.
次に,キーワード抽出部105は,現在取り扱っているキーワード(当キーワード)の音韻位置指示子が,当キーワードの語尾を示しているかどうかを判定する(S241)。
Next, the
当キーワードの語尾である場合(S241),テキスト本文の音韻位置指示子が示す位置より前の,当キーワード音韻数の数値分の音韻の,韻律予測情報内の各音韻ごとのキーワード位置情報をtrueに設定する(図4Aに示すステップS253)。 When it is the ending of this keyword (S241), the keyword position information for each phoneme in the prosodic prediction information in the prosodic prediction information of the phonemes of the number of the keyword phonemes before the position indicated by the phoneme position indicator in the text body is true. (Step S253 shown in FIG. 4A).
図4Bに示すように,当キーワードの語尾であるか否かの判断基準は,現在取り扱っているキーワード(当キーワード)の音韻位置指示子が,当キーワードの音韻数より小さいかどうかによって,判断する。 As shown in FIG. 4B, the criterion for determining whether or not this keyword is ending is determined by whether or not the phoneme position indicator of the currently handled keyword (this keyword) is smaller than the number of phonemes of this keyword. .
図3に示すように,キーワード抽出部105は,テキスト本文と,当キーワードの音韻位置指示子が示している,テキスト本文の音韻と,当キーワードの音韻とが,同じ音韻であるか否かを判定する(S243)。
As shown in FIG. 3, the
音韻が一致している場合(S243),当キーワードの音韻位置指示子を次の音韻に設定し(S247),音韻が一致していない場合(S243),当キーワードの音韻位置指示子を先頭音韻に設定する(S245)。 When the phonemes match (S243), the phoneme position indicator of the keyword is set as the next phoneme (S247). When the phonemes do not match (S243), the phoneme position indicator of the keyword is set as the first phoneme. (S245).
次に,キーワード抽出部105は,現在取り扱っているキーワード(当キーワード)の音韻位置指示子の指し示す位置を,当キーワードの先頭音韻に設定する(S245)。
Next, the
キーワード抽出部105は,次に,現在取り扱っているキーワード(当キーワード)の音韻位置指示子の指し示す位置を,当キーワードの音韻位置指示子が現在指し示している音韻の次の音韻に設定する(S247)。
Next, the
次に,キーワード抽出部105は,現在取り扱っているキーワードを,キーワードの入力順に次のキーワードに変更する(S249)。
Next, the
なお,テキスト本文の文末である場合(S215),キーワード抽出部105は,キーワード位置情報付き韻律予測情報を出力する(S251)。
If it is the end of the text body (S215), the
さらに,図4Aに示すように,キーワード抽出部105は,テキスト本文の音韻位置指示子が指し示す音韻より,1つ先行している音韻から先頭音韻の方向に向かって,当キーワード音韻数の数値分の音韻全てに対応する,韻律予測情報内の各音韻ごとのキーワード位置情報を変更する(S253)。なお,falseからtrueにキーワード位置情報は変更されるが,かかる例に限定されない。
Further, as shown in FIG. 4A, the
次に,図4Aに示すように,キーワード抽出部105は,図3に示すステップS245と同じ処理を実行する(S255)。
Next, as shown in FIG. 4A, the
また,図3に示す判定の結果(S240),キーワード数内でない場合,図4Aに示すように,キーワード抽出部105は,当キーワードを最初のキーワードに変更する(S257)。
If the result of determination shown in FIG. 3 is not within the number of keywords (S240), the
次に,図4Aに示すように,キーワード抽出部105は,テキスト本文の音韻位置指示子の指し示す位置を,テキスト本文の音韻位置指示子が現在指し示している音韻の次の音韻に設定する(S259)。
Next, as shown in FIG. 4A, the
また,図5Bには,図1に示した第1の実施の形態にかかる音声合成装置100におけるテキスト解析部101〜音韻接続部111の各部で処理するデータの流れについて示している。
FIG. 5B shows the flow of data processed by each unit of the
以上で,図3及び図4に示すキーワード抽出部105によるキーワード個所の抽出処理(S217)の一連の処理が終了する。
Thus, a series of processing of the keyword location extraction processing (S217) by the
(キーワード優先音韻選択部107によるキーワード優先音韻選択処理について)
次に,図2に示すように,キーワード個所を抽出すると(S217),キーワード優先音韻選択部107によるキーワード優先音韻選択処理が実行される(S219)。
(Keyword priority phoneme selection processing by the keyword priority phoneme selection unit 107)
Next, as shown in FIG. 2, when a keyword part is extracted (S217), keyword priority phoneme selection processing by the keyword priority
上記キーワード優先音韻選択処理(S219)では,テキスト本文の音韻に対して,音韻の適合性に関するサブコスト値と,音韻環境代替に関するサブコスト値と,韻律に関するサブコスト値とをコーパス109を利用することで取得し,さらに3つのサブコスト値を足し合わせた,最小のサブコスト値(ターゲットコスト値)から,ある程度の幅を持たせた値の範囲内に含まれる,音韻を候補として選択(ターゲット選択)する。
In the keyword priority phoneme selection process (S219), a sub cost value related to phoneme compatibility, a sub cost value related to phonological environment substitution, and a sub cost value related to prosody are obtained by using the
ここで,図6〜図10を参照しながら,第1の実施の形態にかかるキーワード優先音韻選択処理(S219)について詳細に説明する。なお,図6は,第1の実施の形態にかかるキーワード優先音韻選択処理の概略を示す説明図であり,図7〜図10は,第1の実施の形態にかかるキーワード優先音韻選択処理の概略を示すフローチャートである。 Here, the keyword priority phoneme selection process (S219) according to the first embodiment will be described in detail with reference to FIGS. FIG. 6 is an explanatory diagram showing an outline of the keyword priority phoneme selection process according to the first embodiment. FIGS. 7 to 10 show an outline of the keyword priority phoneme selection process according to the first embodiment. It is a flowchart which shows.
図6に示すように,キーワード優先音韻選択部107は,ターゲット選択で求めた音韻候補をもとに,テキスト本文の各音韻に付与されているキーワード位置情報のフラグ値がtrueとなるキーワード開始位置から,キーワード終了位置まで,ターゲットコスト値と,ピッチの不連続に関するサブコスト値と,スペクトルの不連続に関するサブコスト値とを,足し合わせたコスト値が最小となる単位候補の組合せを,動的計画法を用いて選択する。
As shown in FIG. 6, the keyword priority
キーワード優先音韻選択部107は,キーワード部分のコスト値が最小となる単位候補の組合せを用いて,テキスト本文の開始位置から,キーワード開始位置に向けて,コスト値が最小となる単位候補の組合せを,動的計画法を用いて選択する。
The keyword priority
キーワード優先音韻選択部107は,キーワード部分のコスト値が最小となる単位候補の組合せを用いて,キーワード終了位置から,テキスト本文の終了位置に向けて,コスト値が最小となる単位候補の組合せを,動的計画法を用いて選択する。
The keyword priority
図6に示すように,キーワードが2つ以上存在する場合,キーワード部分に関するコスト値の計算は,テキスト本文の開始から終了に向けてキーワードの出現順に行う。 As shown in FIG. 6, when there are two or more keywords, the cost value for the keyword portion is calculated in the order of appearance of the keywords from the start to the end of the text body.
また,図6に示すように,キーワードが2つ以上存在する場合,キーワード部分以外のコスト値の計算方法は,テキスト本文の開始位置から,最初に出現したキーワード開始位置に向けて,コスト値が最小となる単位候補の組合せを,動的計画法を用いて選択する。 Also, as shown in FIG. 6, when there are two or more keywords, the cost value calculation method other than the keyword part is calculated from the start position of the text body toward the first keyword start position. The smallest unit candidate combination is selected using dynamic programming.
図6に示すように,キーワードが2つ以上存在する場合,キーワード部分以外のコスト値の計算方法は,キーワード部分のコスト値が最小となる単位候補の組合せを用いて,出現したキーワード(当該キーワード)の終了位置から,次に出現するキーワード(後続キーワード)の開始位置に向けて,コスト値が最小となる単位候補の組合せを,動的計画法を用いて選択する。 As shown in FIG. 6, when there are two or more keywords, the cost value calculation method other than the keyword part uses the combination of unit candidates that minimizes the cost value of the keyword part. ) From the end position to the start position of the next appearing keyword (subsequent keyword), the combination of unit candidates that minimizes the cost value is selected using dynamic programming.
図6に示すように,キーワードが2つ以上存在する場合,キーワード部分以外のコスト値の計算方法は,最後に出現したキーワードの終了位置から,テキスト本文の終了位置に向けて,コスト値が最小となる単位候補の組合せを,動的計画法を用いて選択する。 As shown in FIG. 6, when there are two or more keywords, the cost value calculation method other than the keyword part is the minimum cost value from the end position of the keyword that appears last to the end position of the text body. A unit candidate combination is selected using dynamic programming.
また,図7に示すように,キーワード優先音韻選択部107は,まず,テキスト本文の音韻に対して,ターゲット選択する(S271)。
As shown in FIG. 7, the keyword priority
上記ターゲット選択すると(S271),キーワード優先音韻選択部107は,サーチ変数をテキスト本文の先頭音韻にキーワード数を0に設定する(S273)ことで,テキスト本文内で現在どの音韻を指し示しているかを表現したサーチ変数をテキスト本文の先頭の音韻を指し示すようにする。
When the target is selected (S271), the keyword priority
次に,キーワード優先音韻選択部107は,サーチ変数が指し示している音韻の位置がテキスト本文の全体の音韻数の範囲内にあるかどうかを判定する(S275)。つまり,図7に示すように,サーチ変数<テキストの音韻数の関係にあるかどうかを判定する。
Next, the keyword priority
上記ステップS275の判定結果,サーチ変数がテキストの音韻数より小さい場合,キーワード優先音韻選択部107は,サーチ変数が指し示している音韻が,キーワード内の音韻であるかどうかを判定する(S277)。
If the result of determination in step S275 is that the search variable is smaller than the number of phonemes in the text, the keyword priority
通常,サーチ変数が指し示している音韻が,キーワード内の音韻である場合,キーワード位置情報はtrueである。キーワード内の音韻でない場合,キーワード位置情報はfalseである。 Normally, when the phoneme pointed to by the search variable is a phoneme in a keyword, the keyword position information is true. If it is not a phoneme within the keyword, the keyword position information is false.
一方,サーチ変数がテキストの音韻数より大きい場合(S275),図8に示す後続の処理(サーチ変数をテキスト本文の先頭音韻に設定する)が実行される。 On the other hand, if the search variable is larger than the number of phonemes of the text (S275), the subsequent processing shown in FIG. 8 (set the search variable to the first phoneme of the text body) is executed.
なお,サーチ変数が指すキーワード位置情報がfalseである場合(S277),サーチ変数を次の音韻に設定する(S287)。 If the keyword position information pointed to by the search variable is false (S277), the search variable is set to the next phoneme (S287).
サーチ変数が指すキーワード位置情報がtrueである場合,サーチ変数の次の音韻のキーワード位置情報がtrue,又は,次の音韻があるか否かを確認する処理を実行する(S279)。 If the keyword position information pointed to by the search variable is true, a process of checking whether the keyword position information of the phoneme next to the search variable is true or whether there is the next phoneme is executed (S279).
図7に示すように,ステップS279では,サーチ変数が指し示している音韻の次の音韻がキーワード内の音韻であるかどうかを判定している。 As shown in FIG. 7, in step S279, it is determined whether the phoneme next to the phoneme indicated by the search variable is a phoneme in the keyword.
サーチ変数の次の音韻のキーワード位置情報がtrueである場合,サーチ変数が指す音韻と次の音韻とのコスト値を求める(S281)。 If the keyword position information of the phoneme next to the search variable is true, the cost value of the phoneme pointed to by the search variable and the next phoneme is obtained (S281).
サーチ変数の次の音韻のキーワード位置情報がfalseである場合,キーワード数を1インクリメントする(S283)。 If the keyword position information of the phoneme next to the search variable is false, the number of keywords is incremented by 1 (S283).
図7に示すように,上記ステップS281では,サーチ変数が指し示している音韻のターゲット選択で求めた候補と,サーチ変数が指し示している音韻の次の音韻のターゲット選択で求めた候補との間で,ターゲットコスト値と,ピッチの不連続に関するサブコスト値と,スペクトルの不連続に関するサブコスト値とを足し合わせたコスト値を求めている。 As shown in FIG. 7, in step S281, between the candidate obtained by the target selection of the phoneme indicated by the search variable and the candidate obtained by the target selection of the phoneme next to the phoneme indicated by the search variable. The cost value obtained by adding the target cost value, the sub cost value related to the pitch discontinuity, and the sub cost value related to the spectrum discontinuity is obtained.
上記コスト値を求めると(S281),次に,サーチ変数を次の音韻に設定する(S287)。 When the cost value is obtained (S281), the search variable is set to the next phoneme (S287).
また,テキスト本文内でキーワードが幾つ存在するかを表現したキーワード数を1インクリメントすると(S283),キーワード優先音韻選択部107は,コスト値が最小となるパスを設定する(S285)。
Further, when the number of keywords expressing how many keywords exist in the text body is incremented by 1 (S283), the keyword priority
上記パスを設定するステップS285では,サーチ変数が指し示している音韻の,ターゲット選択で求めた候補と,サーチ変数が指し示している音韻の次の音韻の,ターゲット選択で求めた候補との間で,ターゲットコスト値と,ピッチの不連続に関するサブコスト値と,スペクトルの不連続に関するサブコスト値とを,足し合わせたコスト値が最小となる単位候補の組合せ(パス)を求めている。 In step S285 for setting the path, between the candidate obtained by target selection of the phoneme indicated by the search variable and the candidate obtained by target selection of the phoneme next to the phoneme indicated by the search variable, A combination (path) of unit candidates that obtains the minimum cost value by adding the target cost value, the sub cost value related to the pitch discontinuity, and the sub cost value related to the spectrum discontinuity is obtained.
上記コスト値が最小となるパスを設定すると(S285),サーチ変数を次の音韻に設定する(S287)。 When the path with the minimum cost value is set (S285), the search variable is set to the next phoneme (S287).
図8に示すように,キーワード優先音韻選択部107は,サーチ変数をテキスト本文の先頭音韻に設定する(S290)。なお,上記ステップS290は,上記図7のステップS273と実質的に同様である。
As shown in FIG. 8, the keyword priority
上記サーチ変数がテキスト本文の先頭音韻に設定されると(S290),サーチ変数が指すキーワード位置情報がfalseであるか否かを確認する(S291)。なお,上記ステップS291は,上記図7のステップS277と実質的に同様である。 When the search variable is set to the head phoneme of the text body (S290), it is confirmed whether or not the keyword position information pointed to by the search variable is false (S291). Note that step S291 is substantially the same as step S277 in FIG.
サーチ変数が指し示すキーワード位置情報がfalseである場合(S291),サーチ変数の次の音韻のキーワード位置情報がfalseであるか否かを確認する(S293)。 When the keyword position information indicated by the search variable is false (S291), it is confirmed whether the keyword position information of the phoneme next to the search variable is false (S293).
一方,サーチ変数が指し示すキーワード位置情報がtrueである場合(S291),サーチ変数が指すキーワード位置情報がtrueであるか否かを確認する(S298)。 On the other hand, if the keyword position information pointed to by the search variable is true (S291), it is confirmed whether the keyword position information pointed to by the search variable is true (S298).
図8に示すように,上記ステップS293では,サーチ変数が指し示している音韻の,次の音韻が,キーワード内の音韻であるかどうかを判定している。 As shown in FIG. 8, in step S293, it is determined whether or not the next phoneme of the phoneme indicated by the search variable is a phoneme in the keyword.
次に,サーチ変数の次の音韻のキーワード位置情報がfalseである場合(S293),サーチ変数が指す音韻と,次の音韻とのコスト値を求める(S295)。なお,当該ステップS295と,図7のコスト値を求める処理(S281)とは実質的に同様である。 Next, when the keyword position information of the phoneme next to the search variable is false (S293), the cost value of the phoneme pointed to by the search variable and the next phoneme is obtained (S295). Note that step S295 and the process of obtaining the cost value (S281) in FIG. 7 are substantially the same.
上記サーチ変数の次の音韻のキーワード位置情報がtrueである場合(S293),コスト値が最小となるパスを設定する(S296)。なお,当該ステップS296と,図7の最小となるパスを設定する処理(S285)とは実質的に同様である。 If the keyword position information of the phoneme next to the search variable is true (S293), a path with the minimum cost value is set (S296). Note that step S296 is substantially the same as the process (S285) for setting the minimum path in FIG.
上記サーチ変数が指し示す音韻と,次の音韻とのコスト値を求めた後,サーチ変数を次の音韻に設定する(S297)。なお,当該ステップS297と,図7の次の音韻に設定する処理(S287)とは実質的に同様である。 After obtaining the cost value of the phoneme indicated by the search variable and the next phoneme, the search variable is set to the next phoneme (S297). Note that step S297 and the processing for setting the next phoneme in FIG. 7 (S287) are substantially the same.
次に,図8に示すように,キーワード優先音韻選択部107は,サーチ変数が指し示すキーワード位置情報がfalseであるか否かを確認する(S298)。なお,上記ステップS298は,図7のサーチ変数が指すキーワード位置情報がfalseであるか否かを確認する処理(S277)と実質的に同様である。
Next, as shown in FIG. 8, the keyword priority
上記確認の結果(S298),サーチ変数が指し示すキーワード位置情報がtrueの場合,キーワード数を1デクリメント(減算)した結果が1以上であるか否かを確認する(S299)。 As a result of the confirmation (S298), if the keyword position information indicated by the search variable is true, it is confirmed whether or not the result of decrementing (subtracting) the number of keywords by 1 is 1 or more (S299).
一方,上記確認の結果(S298),サーチ変数が指し示すキーワード位置情報がfalseの場合,図9に示す後続の処理(S301)が実行される。 On the other hand, if the keyword position information indicated by the search variable is false as a result of the confirmation (S298), the subsequent processing (S301) shown in FIG. 9 is executed.
図8に示すように,上記ステップS299では,テキスト本文内に複数のキーワードがある場合,キーワードとキーワードの間に1つ以上の音韻がある場合,サーチ変数を次の音韻に設定する(S300)。上記ステップS300は,図7のステップS287と実質的に同様である。 As shown in FIG. 8, in step S299, if there are a plurality of keywords in the text body, and there is one or more phonemes between the keywords, the search variable is set to the next phoneme (S300). . Step S300 is substantially the same as step S287 in FIG.
次に,図9に示すように,キーワード優先音韻選択部107は,まずサーチ変数が指すキーワード位置情報がfalseであるか否かを確認し(S301),次にサーチ変数が指すキーワード位置情報がfalseである場合,サーチ変数の次の音韻のキーワード位置情報がfalseであるか否かを確認する(S303)。なお,ステップS303は,図8のステップS293と実質的に同様である。
Next, as shown in FIG. 9, the keyword priority
サーチ変数の次の音韻のキーワード位置情報がfalseである場合(S303),サーチ変数が指す音韻と,次の音韻とのコスト値を求める(S305)。 If the keyword position information of the phoneme next to the search variable is false (S303), the cost value of the phoneme pointed to by the search variable and the next phoneme is obtained (S305).
一方,サーチ変数の次の音韻のキーワード位置情報がtrueである場合,コスト値が最小となるパスを設定する(S307)。 On the other hand, if the keyword position information of the phoneme next to the search variable is true, a path with the minimum cost value is set (S307).
次に,図9に示すように,キーワード優先音韻選択部107による上記ステップS307では,図7のコスト値が最小となるパスを設定するステップS285と実質的に同様である。
Next, as shown in FIG. 9, the above-described step S307 by the keyword priority
キーワード優先音韻選択部107は,コスト値が最小となるパスを設定すると(S307),キーワード数を1デクリメントする(S309)。
When the keyword priority
図9に示すように,キーワード優先音韻選択部107による,ステップS309では,テキスト本文内に複数のキーワードがある場合,キーワード数を参照することで,キーワードとキーワードとの間の音韻選択処理が完了したことを表現するのに用いられる。例えば,キーワード数が1になるとキーワードとキーワードとの間の音韻選択処理が完了したことを示しているが,かかる例に限定されない。
As shown in FIG. 9, in step S309 by the keyword priority
上記ステップS309でキーワード数を1デクリメントすると,キーワード優先音韻選択部107は,サーチ変数を次の音韻に設定する(S311)。なお,上記ステップS311は,図7のステップS287と実質的に同様である。
When the number of keywords is decremented by 1 in step S309, the keyword priority
また,図9に示すように,図8のステップS299の実行後,キーワード優先音韻選択部107は,サーチ変数が指し示すキーワード位置情報がtrueであるか否かを確認する(S313)。
As shown in FIG. 9, after executing step S299 in FIG. 8, the keyword priority
上記サーチ変数が指し示すキーワード位置情報がtrueである場合(S313),サーチ変数の次の音韻のキーワード位置情報が文末であるか否かを確認する(S315)。 If the keyword position information pointed to by the search variable is true (S313), it is confirmed whether the keyword position information of the phoneme next to the search variable is the end of the sentence (S315).
一方,上記サーチ変数が指し示すキーワード位置情報がfalseである場合(S313),図10に示すサーチ変数の次の音韻のキーワード位置情報が文末であるか否かを確認する処理が行われる(S320)。 On the other hand, if the keyword position information pointed to by the search variable is false (S313), a process is performed to check whether the keyword position information of the phoneme next to the search variable shown in FIG. 10 is the end of the sentence (S320). .
上記説明したように,図9に示す上記ステップS315では,サーチ変数が指し示している音韻の,次の音韻が,テキスト本文の文末であるか否かの判定がされる。 As described above, in step S315 shown in FIG. 9, it is determined whether or not the next phoneme of the phoneme indicated by the search variable is the end of the text body.
上記サーチ変数の次の音韻のキーワード位置情報が文末である場合(S315),図10に示すように,波形セグメントを出力する(S329)。 When the keyword position information of the phoneme next to the search variable is the end of the sentence (S315), a waveform segment is output as shown in FIG. 10 (S329).
一方,上記サーチ変数の次の音韻のキーワード位置情報が文末でない場合(S315),サーチ変数を次の音韻に設定する(S317)。なお,上記ステップS317は,図7のステップS287と実質的に同様である。 On the other hand, if the keyword position information of the next phoneme after the search variable is not the end of the sentence (S315), the search variable is set to the next phoneme (S317). Note that step S317 is substantially the same as step S287 of FIG.
上記サーチ変数を次の音韻に設定すると(S317),再びサーチ変数が指し示すキーワード位置情報がtrueであるか否かを確認する(S313)。以降の処理については上記説明した通りである。 When the search variable is set to the next phoneme (S317), it is confirmed again whether or not the keyword position information indicated by the search variable is true (S313). Subsequent processing is as described above.
図10に示すキーワード優先音韻選択部107が行うサーチ変数の次の音韻のキーワード位置情報が文末であるか否かを確認する処理(S320)は,図9のステップS315と実質的に同様である。
The process (S320) for confirming whether or not the keyword position information of the phoneme next to the search variable performed by the keyword priority
上記確認の結果(S320),サーチ変数の次の音韻のキーワード位置情報が文末である場合,次に,コスト値が最小となるパスを設定する(S327)。なお,上記パスを設定する処理(S327)は,図7に示すステップS285と実質的に同様である。 As a result of the confirmation (S320), if the keyword position information of the phoneme next to the search variable is the end of the sentence, next, a path with the minimum cost value is set (S327). The process for setting the path (S327) is substantially the same as step S285 shown in FIG.
上記コスト値が最小となるパスを設定すると(S327),波形セグメントを出力する(S329)。 When the path with the minimum cost value is set (S327), a waveform segment is output (S329).
また一方で,サーチ変数の次の音韻のキーワード位置情報が文末でない場合(S320),キーワード優先音韻選択部107は,サーチ変数が指す音韻と,次の音韻とのコスト値を求める(S323)。なお,上記ステップS323は,図7のステップS281と実質的に同様である。
On the other hand, if the keyword position information of the phoneme next to the search variable is not the end of the sentence (S320), the keyword priority
サーチ変数を次の音韻に設定すると(S325),再びサーチ変数の次の音韻のキーワード位置情報が文末であるか否かを確認する処理が行われる(S320)。以降の処理については,上記説明した通りである。 When the search variable is set to the next phoneme (S325), a process is performed again to check whether the keyword position information of the next phoneme after the search variable is the end of the sentence (S320). The subsequent processing is as described above.
図10に示す波形セグメントを出力する処理(S329)は,テキスト本文に対して,音韻選択することで得ることができた波形セグメントを出力する。 The process (S329) for outputting the waveform segment shown in FIG. 10 outputs the waveform segment obtained by selecting the phoneme for the text body.
上記キーワード優先音韻選択部107により波形セグメントが出力されると(S329),音韻接続部111は,上記音韻選択された波形セグメントをつなぎ合わせて合成音声として出力する。上記合成音声がスピーカー等の出力部から出力されることで,音声合成装置100は,テキスト本文のうちキーワードを強調しながら読み上げることができる。
When a waveform segment is output by the keyword priority phoneme selection unit 107 (S329), the
なお,以上で,第1の実施の形態にかかる音声合成装置100についての説明が終了するが,かかる音声合成装置100によって,以下に示すような優れた効果が存在する。
(1)テキスト本文に含まれるキーワードを,キーワード以外の個所よりも滑らかな読み上げが可能となり,キーワード以外の個所よりも音質がよく,キーワード部分の読み上げをより強調し,より際立たせることができ,視聴者にキーワード部分をより明確に伝えることができる。
Although the description of the
(1) The keywords included in the text body can be read out more smoothly than the parts other than the keyword, the sound quality is better than the parts other than the keyword, the reading out of the keyword part is more emphasized, and can be made more prominent. It is possible to convey the keyword part more clearly to the viewer.
(音声合成装置について)
次に,図11を参照しながら,第2の実施の形態にかかる音声合成装置900について説明する。なお,図11は,第2の実施の形態にかかる音声合成装置の概略的な構成を示すブロック図である。以下,第1の実施の形態との相違点について詳細に説明するが,その他の点については,ほぼ同様であるため詳細な説明は省略する。
(About voice synthesizer)
Next, a
図11に示すように,音声合成装置900は,テキスト解析部101と,韻律予測部103と,キーワード重み付け部901と,キーワード抽出部905と,キーワード優先音韻選択部907と,コーパス109と,音韻接続部111とを備えている。
As shown in FIG. 11, the
なお,第2の実施の形態に係る音声合成装置900は,第1の実施の形態に係る音声合成装置100と同様に,テキスト本文とキーワードを基にして合成音声を出力することが可能な装置であって,その合成音声を出力することで,テキスト本文を音声にして読み上げることが可能な装置である。
Note that the
より具体的には,音声合成装置900は,例えば,CPU,メモリ,HDD(ハードディスクドライブ),マウス等に相当する入力部,液晶ディスプレイ等に相当する表示部などを備えたPC等を例示することができるが,かかる例に限定されない。
More specifically, the
なお,本実施の形態にかかる音声合成装置900に備わる表示部は,CPUにより表示可能なように処理された表示画面データと音声データを出力する。また,表示部は,例えば,TV又は液晶ディスプレイ装置などが例示され,上記双方ともにスピーカーを備えて,静止画像のほか,音声,又は動画像などを出力することが可能である。
Note that the display unit provided in the
入力部は,例えば,使用者から操作指示を受けることが可能なマウス,トラックボール,トラックパッド,スタイラスペン,またはジョイスティックなどのポインティングデバイスや,キーボード,ボタン,スイッチ,レバー等の操作手段と,入力信号を生成してCPUに出力する入力制御回路などから構成されている。音声合成装置900のユーザは,この入力部を操作することにより,音声合成装置900に対して各種のデータを入力したり処理動作を指示したりすることができる。
The input unit is, for example, a pointing device such as a mouse, a trackball, a trackpad, a stylus pen, or a joystick that can receive an operation instruction from a user, an operation means such as a keyboard, a button, a switch, and a lever, and an input It comprises an input control circuit that generates a signal and outputs it to the CPU. The user of the
図11に示すキーワード重み付け部901は,テキスト本文内にある,複数のキーワード部分を読み上げさせる強調の度合い,つまりキーワード優先音韻選択部907で単位候補の組合せを絞り込むための,重み係数を決定し,キーワード重み付け情報として保持する。
The
上記キーワード抽出部905は,キーワードの音韻記号と,テキスト本文内の音韻記号との部分一致している個所を基にして,キーワード強弱情報の値を,上記キーワード重み付け部901で求まったキーワード重み付け情報に対応する単位候補の組合せを絞り込む幅の値に変更する。なお,変更されたキーワード強弱情報は,韻律予測情報内のキーワードの先頭音韻に含んでいる。
The
また,上記キーワード抽出部905は,キーワード部分を読み上げさせる強調の度合いを示しているキーワード重み付け情報と,単位候補の組合せを絞り込む幅とを,対応付けたテーブルを用いる。なお,当該テーブルは,例えば,音声合成装置900に備わるHDD等の記憶手段に格納されている。
The
上記キーワード優先音韻選択部907は,ターゲット選択で求めた音韻候補を基にして,テキスト本文の各音韻に付与されているキーワード位置情報のフラグ値がtrueとなるキーワード開始位置からキーワード終了位置まで,ターゲットコスト値と,ピッチの不連続に関するサブコスト値と,スペクトルの不連続に関するサブコスト値とを足し合わせたコスト値が最小となる値から,単位候補の組合せを絞り込む幅の範囲内に収まるコスト値を持つ,単位候補の組合せを,動的計画法を用いて選択する。
The keyword priority
(音声合成方法について)
次に,図12,図13を参照しながら,第2の実施の形態にかかる音声合成方法について説明する。なお,図12,図13は,第2の実施の形態にかかる音声合成方法の概略を示すフローチャートである。
(Speech synthesis method)
Next, a speech synthesis method according to the second embodiment will be described with reference to FIGS. FIGS. 12 and 13 are flowcharts showing an outline of the speech synthesis method according to the second embodiment.
図12及び図13に示すように,第2の実施の形態にかかる音声合成方法は,第1の実施の形態にかかる音声合成方法と比べて,キーワード重み付け処理(S1201)と,キーワード強弱情報を初期化する処理(S1203)とを含んでいる点で相違し,またキーワード個所を抽出する処理(S1205)と,キーワード優先音韻選択処理(S1207)は,第1の実施の形態にかかる処理と処理内容を異にするが,詳細は後述する。 As shown in FIGS. 12 and 13, the speech synthesis method according to the second embodiment is different from the speech synthesis method according to the first embodiment in keyword weighting processing (S1201) and keyword strength information. The processing is different in that it includes initialization processing (S1203), and the keyword location extraction processing (S1205) and the keyword priority phoneme selection processing (S1207) are the processing and processing according to the first embodiment. The contents are different, but details will be described later.
まず,図12に示すように,1又は2以上のキーワードを含むテキスト本文と,強調させたい1又は2以上のキーワードとは,テキスト解析部101に入力する(S201)。なお,上記テキスト本文およびキーワードは漢字仮名文字で表現された場合を例に挙げて説明するが,かかる例に限定されない。 First, as shown in FIG. 12, a text body including one or more keywords and one or more keywords to be emphasized are input to the text analysis unit 101 (S201). The text body and the keyword will be described by taking an example where the text body and the keyword are expressed in kanji characters, but are not limited to such examples.
次に,テキスト解析部101は,上記入力したテキスト本文とキーワードとを音韻記号に変換する(S203)。
Next, the
テキスト解析部101は,漢字仮名文字で表現されたテキスト本文に,形態素解析,係り受け解析を行い,アクセント記号列と,テキスト本文の品詞情報を表す形態素解析結果とを出力する(S203)。
The
なお,図12に示すように,テキスト本文に対して変換された音韻記号と,形態素解析結果との情報を持つ出力結果は,例えば,テキスト本文中間言語であると定義するが,かかる例に限定されない。 As shown in FIG. 12, an output result having information on phonological symbols converted to a text body and a morphological analysis result is defined as, for example, a text body intermediate language. Not.
次に,図12に示すように,テキスト解析部101は,テキスト本文を韻律予測部103に入力するために,テキスト本文であるかどうかを判定する(S205)。
Next, as shown in FIG. 12, the
判定の結果(S205),テキスト本文である場合,テキスト解析部101は,テキスト本文中間言語を出力して韻律予測部103とともにキーワード抽出部905に送信する。
As a result of the determination (S205), if it is a text body, the
一方,テキスト本文でない場合,つまりキーワードである場合,テキスト解析部101は,キーワード中間言語をキーワード重み付け部901に送信する。
On the other hand, when it is not a text body, that is, when it is a keyword, the
次に,韻律予測部103は,ピッチ(声の高さ:基本周波数F0),音韻継続時間長(声の長さ),もしくは波形の成分を表現するメルケプストラムのうち少なくとも一つまたは全部を予測する(S207)。
Next, the
韻律予測部103は,予測した情報として韻律予測情報をキーワード抽出部901に出力する。
The
また,図12に示すように,キーワード重み付け部901は,テキスト解析部101からキーワード中間言語を受け取ると(S205),テキスト本文内にある,複数のキーワード部分を読み上げさせる際の強調する度合い,つまりキーワード優先音韻選択部907で単位候補の組合せを絞り込むための重み係数を決定し,キーワード重み付け情報として保持する(S1201)。
Also, as shown in FIG. 12, when the
次に,キーワード重み付け部901は,重み係数を決定し,キーワード重み付け情報を生成すると(S1201),キーワード中間言語とキーワード重み付け情報とをキーワード抽出部905に出力する。
Next, the
(キーワード抽出部による処理について)
次に,キーワード抽出部905は,図12に示すように,テキスト本文内でキーワードがどの位置に存在しているかを示すための情報(キーワード位置情報)を記載するため,韻律予測情報における各音韻に対して領域を確保し,初期化する(S209)。なお,上記初期化の際には,キーワード位置情報のフラグ値をfalseに設定するが,かかる例に限定されない。
(About processing by the keyword extraction unit)
Next, as shown in FIG. 12, the
次に,キーワード抽出部905は,単位候補の組合せを絞り込む幅を表現するキーワード強弱情報を初期化する(S1203)。
Next, the
上記ステップS1203では,単位候補の組合せを絞り込む幅を表現する,韻律予測情報内の各音韻ごとのキーワード強弱情報を初期化する。なお,当該初期化は,例えばキーワード強弱情報の値を0に設定する場合を例に挙げて説明するが,かかる例に限定されない。 In step S1203, keyword strength information is initialized for each phoneme in the prosodic prediction information, which expresses the range for narrowing the combination of unit candidates. The initialization will be described by taking, for example, a case where the value of keyword strength information is set to 0, but is not limited to such an example.
次に,キーワード抽出部905は,テキスト本文と,キーワードとの音韻記号内で,現在どの音韻を指し示しているかを表現した音韻位置指示子を,テキスト本文と1又は2以上のキーワードにおける先頭音韻に設定する(S211)。
Next, the
次に,キーワード抽出部905は,テキスト本文と,複数のキーワードに対して,音韻の数を求め,各キーワード音韻数にキーワードの音韻数,テキスト音韻数にテキスト本文の音韻数を設定する(S213)。
Next, the
次に,キーワード抽出部905は,テキスト本文の文末であるか否かを判定する(S215)。
Next, the
上記テキスト本文の文末であるか否かの判定した結果(S215),テキスト本文の文末でない場合,キーワード抽出部905は,テキスト本文内にあるキーワードの個所を抽出する(S217)。
As a result of determining whether or not it is the end of the text body (S215), if it is not the end of the text body, the
上記キーワード個所の抽出処理(S217)が実行された後,キーワードの音韻記号と,テキスト本文内の音韻記号との,部分一致している個所を基にして,韻律予測情報内のキーワードの先頭音韻に備えられたキーワード強弱情報を求めるために,キーワード部分を読み上げさせる強弱の度合いを示しているキーワード重み付け情報と,単位候補の組合せを絞り込む幅とを,対応付けたテーブルを用いて,キーワード強弱情報の値を,キーワード重み付け部901で求まったキーワード重み付け情報に対応する,単位候補の組合せを絞り込む幅の値に変更する(S2105)。 After the keyword location extraction process (S217) is executed, the first phoneme of the keyword in the prosodic prediction information is based on the location where the keyword phoneme symbol partially matches the phoneme symbol in the text body. In order to obtain the keyword strength information provided in the keyword, the keyword weighting information indicating the degree of strength at which the keyword portion is read out and the width for narrowing down the combination of unit candidates are used in the keyword strength information by using a table in which the combinations are narrowed down. Is changed to a width value for narrowing down the combination of unit candidates corresponding to the keyword weighting information obtained by the keyword weighting unit 901 (S2105).
上記キーワード抽出部905は,キーワード位置情報付き韻律予測情報と,キーワード強弱情報とから構成される「キーワード位置情報,強弱情報(キーワード強弱情報)付き韻律予測情報」をキーワード優先音韻選択部907に出力する。
The
次に,テキスト本文の文末であることを確認すると(S215),図13に示すように,キーワード優先音韻選択処理を実行する(S1219)。 Next, when it is confirmed that it is the end of the text body (S215), keyword priority phoneme selection processing is executed as shown in FIG. 13 (S1219).
上記キーワード優先音韻選択処理(S1219)では,ターゲット選択で求めた音韻候補を基にして,テキスト本文の各音韻に付与されているキーワード位置情報のフラグ値がtrueとなるキーワード開始位置からキーワード終了位置まで,ターゲットコスト値と,ピッチの不連続に関するサブコスト値と,スペクトルの不連続に関するサブコスト値とを,足し合わせたコスト値が最小となる値から,単位候補の組合せを絞り込む幅の間の,単位候補の組合せを,動的計画法を用いて選択している。 In the keyword priority phoneme selection process (S1219), based on the phoneme candidate obtained by the target selection, the keyword end position is changed from the keyword start position where the flag value of the keyword position information assigned to each phoneme of the text body is true. Until the target cost value, the sub cost value related to the pitch discontinuity, and the sub cost value related to the spectrum discontinuity are combined, the unit between the widths for narrowing the combination of unit candidates from the value that minimizes the cost value. Candidate combinations are selected using dynamic programming.
なお,上記ステップS1219において,キーワードが2つ以上存在する場合,キーワード部分に関するコスト値の計算は,テキスト本文の開始から終了に向けて,キーワードの出現順に行ってもよい。 In step S1219, when there are two or more keywords, the cost value for the keyword portion may be calculated in the order in which the keywords appear from the start to the end of the text body.
また,上記ステップS1219において,キーワードが2つ以上存在する場合,キーワード部分以外のコスト値の計算方法は,テキスト本文の開始位置から,最初に出現したキーワード開始位置に向けて,コスト値が最小となる単位候補の組合せを,動的計画法を用いて選択してもよい。 If there are two or more keywords in step S1219, the cost value calculation method other than the keyword portion is such that the cost value is the minimum from the start position of the text body to the first keyword start position. A combination of unit candidates may be selected using dynamic programming.
また,上記ステップS1219において,キーワードが2つ以上存在する場合,キーワード部分以外のコスト値の計算方法は,キーワード部分のコスト値が最小となる単位候補の組合せを用いて,出現したキーワード(当該キーワード)の終了位置から,次に出現するキーワード(後続キーワード)の開始位置に向けて,コスト値が最小となる単位候補の組合せを,動的計画法を用いて選択してもよい。 In the above step S1219, when there are two or more keywords, the cost value calculation method other than the keyword part uses the combination of unit candidates that minimizes the cost value of the keyword part (the relevant keyword ) From the end position to the start position of the next appearing keyword (subsequent keyword), a combination of unit candidates that minimizes the cost value may be selected using dynamic programming.
また,上記ステップS1219において,キーワードが2つ以上存在する場合,キーワード部分以外のコスト値の計算方法は,最後に出現したキーワードの終了位置から,テキスト本文の終了位置に向けて,コスト値が最小となる単位候補の組合せを,動的計画法を用いて選択しても良い。 In the above step S1219, when there are two or more keywords, the cost value calculation method other than the keyword portion is such that the cost value is minimized from the end position of the keyword that appears last to the end position of the text body. A combination of unit candidates may be selected using dynamic programming.
以上,図13に示すように,全ての音韻選択処理がキーワード優先音韻選択部107によって行われることで,波形セグメントを出力することができる(S1219)。
As described above, as shown in FIG. 13, all the phoneme selection processes are performed by the keyword priority
次に,音韻接続部111は,現在取り扱っている波形セグメントの音韻が,テキスト本文の文末であるか否かを判定する(S221)。
Next, the
上記判定した結果(S221),テキスト本文の文末でない場合,音韻接続部111は,現在取り扱っている波形セグメントと,次の波形セグメントを接続する(S223)。
As a result of the above determination (S221), if it is not the end of the text body, the
また一方で,テキスト本文の文末である場合(S221),音韻接続部111は,波形セグメントを接続することにより生成する合成音声を出力する(S225)。かかる合成音声の出力により(S225),音声合成装置900は,キーワードを強調しながら,テキスト本文を読み上げることができる。
On the other hand, if it is the end of the text body (S221), the
(キーワード個所の抽出処理について)
次に,図12に示す第2の実施の形態に係るキーワード個所の抽出処理(S215,S217,S2105)について,図14,図15を参照しながら,さらに詳細に説明する。なお,図14,図15は,第2の実施の形態にかかるキーワード個所の抽出処理の概略を示すフローチャートである。
(Keyword location extraction process)
Next, the keyword location extraction processing (S215, S217, S2105) according to the second embodiment shown in FIG. 12 will be described in more detail with reference to FIGS. FIGS. 14 and 15 are flowcharts showing an outline of the keyword location extraction processing according to the second embodiment.
キーワード個所の抽出処理(S217)では,上記説明したように,キーワード抽出部905は,予めテキスト本文と,キーワードとの音韻記号内で,現在どの音韻を指し示しているかを表現した,音韻位置指示子を,テキスト本文,複数のキーワードに対して,先頭音韻に設定しておく。
In the keyword location extraction process (S217), as described above, the
まず,図14に示すように,テキスト本文の文末でなければ(S215),キーワード抽出部905は,1又は2以上のキーワードのうち,順々にキーワードを取り扱うため,現時点で取り扱うキーワードの順番が,全体のキーワード数の範囲内でおさまっているか否かを判定する(S240)。
First, as shown in FIG. 14, if it is not the end of the text body (S215), the
現在取り扱っているキーワードの順番は,キーワードの入力順とするが,かかる例に限定されない。 The order of keywords currently handled is the keyword input order, but is not limited to this example.
次に,キーワード抽出部905は,現在取り扱っているキーワード(当キーワード)の音韻位置指示子が,当キーワードの語尾を示しているかどうかを判定する(S241)。
Next, the
当キーワードの語尾である場合(S241),当キーワードの重みに対応する,単位候補の組合せを絞り込む値を取得する処理が行われる(図15に示すS1229)。 If it is the ending of the keyword (S241), a process for obtaining a value for narrowing down the combination of unit candidates corresponding to the weight of the keyword is performed (S1229 shown in FIG. 15).
当キーワードの語尾でない場合(S241),音韻位置指示子が示しているテキスト本文,当キーワードの音韻が一致しているか否かを判定する(S243)。 If it is not the end of the keyword (S241), it is determined whether the text body indicated by the phoneme position indicator matches the phoneme of the keyword (S243).
なお,第2の実施の形態にかかる当キーワードの語尾であるか否かの判断基準は,第1の実施の形態にかかる判断基準と同様であり,現在取り扱っているキーワード(当キーワード)の音韻位置指示子が,当キーワードの音韻数より小さいかどうかによって,判断する。 Note that the criterion for determining whether or not the ending of the keyword according to the second embodiment is the same as the criterion according to the first embodiment, and the phoneme of the currently handled keyword (this keyword). Judgment is made based on whether the position indicator is smaller than the number of phonemes of the keyword.
音韻が一致している場合(S243),当キーワードの音韻位置指示子を次の音韻に設定し(S247),音韻が一致していない場合(S243),当キーワードの音韻位置指示子を先頭音韻に設定する(S245)。 When the phonemes match (S243), the phoneme position indicator of the keyword is set as the next phoneme (S247). When the phonemes do not match (S243), the phoneme position indicator of the keyword is set as the first phoneme. (S245).
次に,キーワード抽出部905は,現在取り扱っているキーワード(当キーワード)の音韻位置指示子の指し示す位置を,当キーワードの先頭音韻に設定する(S245)。
Next, the
キーワード抽出部905は,次に,現在取り扱っているキーワード(当キーワード)の音韻位置指示子の指し示す位置を,当キーワードの音韻位置指示子が現在指し示している音韻の次の音韻に設定する(S247)。
Next, the
次に,キーワード抽出部905は,現在取り扱っているキーワードを,キーワードの入力順に次のキーワードに変更する(S249)。
Next, the
なお,テキスト本文の文末である場合(S215),キーワード抽出部905は,キーワード位置情報,強弱付き韻律予測情報を出力する(S251)。
Note that if it is the end of the text body (S215), the
次に,図15に示すように,キーワード抽出部905によるステップS1229では,現在取り扱っているキーワード(当キーワード)が保持する,キーワード部分を読み上げさせる強調の度合いを示しているキーワード重み付け情報に対応する,単位候補の組合せを絞り込む値を,キーワード部分を読み上げさせる強調の度合いを示しているキーワード重み付け情報と単位候補の組合せを絞り込む幅とを対応付けたテーブルから,取得する処理が行われる。
Next, as shown in FIG. 15, in step S <b> 1229 by the
次に,キーワード抽出部905は,テキスト本文の音韻位置指示子が指し示す音韻より,1つ先行している音韻から先頭音韻の方向に向かって,当キーワード音韻数の数値分の音韻全てに対応する,韻律予測情報内の各音韻ごとのキーワード位置情報を変更する(S253)。なお,falseからtrueにキーワード位置情報は変更されるが,かかる例に限定されない。
Next, the
キーワード抽出部905は,ステップS253の処理を実行すると,次に,テキスト本文内の当キーワードの先頭音韻に含まれるキーワード強弱情報の値を,単位候補の組合せを絞り込む値に変更する(S1300)。
After executing the processing of step S253, the
上記ステップS1300では,テキスト本文内の当キーワードの先頭音韻に含むキーワード強弱情報の値を,上記ステップS1229で取得した単位候補の組合せを絞り込む幅の値に変更する処理が行われる。 In step S1300, a process of changing the value of the keyword strength information included in the first phoneme of the keyword in the text body to a width value for narrowing down the combination of unit candidates acquired in step S1229 is performed.
次に,図15に示すように,キーワード抽出部905は,図14に示すステップS245と同じ処理を実行する(S255)。
Next, as shown in FIG. 15, the
また,図14に示す判定の結果(S240),キーワード数内でない場合,図15に示すように,キーワード抽出部905は,当キーワードを最初のキーワードに変更する(S257)。
If the determination result shown in FIG. 14 is not within the number of keywords (S240), the
次に,キーワード抽出部905は,テキスト本文の音韻位置指示子の指し示す位置を,テキスト本文の音韻位置指示子が現在指し示している音韻の次の音韻に設定する(S259)。
Next, the
以上で,図14及び図15に示す第2の実施の形態に係るキーワード抽出部905によるキーワード個所の抽出処理(S215,S217,S2105)の一連の処理が終了する。
Thus, a series of processing of keyword part extraction processing (S215, S217, S2105) by the
(キーワード優先音韻選択部907によるキーワード優先音韻選択処理について)
次に,図16〜図20を参照しながら,第2の実施の形態にかかるキーワード優先音韻選択処理(S1219)について詳細に説明する。なお,図16〜図20は,第2の実施の形態にかかるキーワード優先音韻選択処理の概略を示すフローチャートである。
(Keyword priority phoneme selection processing by the keyword priority phoneme selection unit 907)
Next, the keyword priority phoneme selection process (S1219) according to the second embodiment will be described in detail with reference to FIGS. FIGS. 16 to 20 are flowcharts showing an outline of the keyword priority phoneme selection process according to the second embodiment.
まず,図16に示すように,キーワード優先音韻選択部907は,テキスト本文の音韻に対して,ターゲット選択する(S271)。
First, as shown in FIG. 16, the keyword priority
上記ターゲット選択すると(S271),キーワード優先音韻選択部907は,サーチ変数をテキスト本文の先頭音韻にキーワード数を0に設定する(S273)ことで,テキスト本文内で現在どの音韻を指し示しているかを表現したサーチ変数をテキスト本文の先頭の音韻を指し示すようにする。
When the target is selected (S271), the keyword priority
次に,キーワード優先音韻選択部907は,サーチ変数が指し示している音韻の位置がテキスト本文の全体の音韻数の範囲内にあるかどうかを判定する(S275)。つまり,図16のステップS275に示すように,サーチ変数<テキストの音韻数の関係にあるかどうかを判定する。
Next, the keyword priority
上記ステップS275の判定結果,サーチ変数がテキストの音韻数より小さい場合,キーワード優先音韻選択部907は,サーチ変数が指し示している音韻が,キーワード内の音韻であるかどうかを判定する(S277)。
If the result of determination in step S275 is that the search variable is smaller than the number of phonemes in the text, the keyword priority
通常,サーチ変数が指し示している音韻が,キーワード内の音韻である場合,キーワード位置情報はtrueである。キーワード内の音韻でない場合,キーワード位置情報はfalseである。 Normally, when the phoneme pointed to by the search variable is a phoneme in a keyword, the keyword position information is true. If it is not a phoneme within the keyword, the keyword position information is false.
また,サーチ変数がテキストの音韻数より大きい場合(S275),図18に示す後続の処理(サーチ変数をテキスト本文の先頭音韻に設定する(S290))が実行される。 If the search variable is larger than the number of phonemes of the text (S275), the subsequent processing shown in FIG. 18 (set the search variable to the first phoneme of the text body (S290)) is executed.
なお,サーチ変数が指すキーワード位置情報がfalseである場合(S277),図17に示すように,サーチ変数を次の音韻に設定する(S287)。 If the keyword position information pointed to by the search variable is false (S277), the search variable is set to the next phoneme as shown in FIG. 17 (S287).
サーチ変数が指すキーワード位置情報がtrueである場合,図17に示すように,サーチ変数が指し示すキーワード位置情報がtrue,かつ,サーチ変数の前の音韻のキーワード位置情報がfalseであるか否かを確認する処理を実行する(S1333)。 If the keyword position information pointed to by the search variable is true, as shown in FIG. 17, it is determined whether or not the keyword position information pointed to by the search variable is true and the keyword position information of the phoneme preceding the search variable is false. Processing to confirm is executed (S 1333).
図17に示すステップS1333では,テキスト本文内の当キーワードの先頭音韻であるかどうかを判定している。サーチ変数が指し示すキーワード位置情報がtrue,かつ,サーチ変数の前の音韻のキーワード位置情報がfalseである場合,サーチ変数がキーワードの先頭音韻を指し示している。 In step S1333 shown in FIG. 17, it is determined whether or not it is the first phoneme of the keyword in the text body. When the keyword position information indicated by the search variable is true and the keyword position information of the phoneme preceding the search variable is false, the search variable indicates the head phoneme of the keyword.
次に,サーチ変数が指すキーワード位置情報がtrueで,かつ,サーチ変数の前の音韻のキーワード位置情報がfalseである場合(S1333),サーチ変数が指し示すキーワードの先頭音韻に含まれるキーワード強弱情報を取得する(S1334)。 Next, when the keyword position information pointed to by the search variable is true and the keyword position information of the phoneme preceding the search variable is false (S 1333), the keyword strength information included in the head phoneme of the keyword pointed to by the search variable is obtained. Obtain (S1334).
一方,サーチ変数が指すキーワード位置情報がtrueで,かつ,サーチ変数の前の音韻のキーワード位置情報がfalseでない場合(S1333),サーチ変数の次の音韻のキーワード位置情報がtrue,または,次の音韻があるか否かを確認する(S279)。 On the other hand, if the keyword position information pointed to by the search variable is true and the keyword position information of the phoneme preceding the search variable is not false (S 1333), the keyword position information of the phoneme next to the search variable is true or It is confirmed whether there is a phoneme (S279).
上記ステップS1334では,サーチ変数が指し示すキーワードの先頭音韻に含まれる,単位候補の組合せを絞り込む幅を表現した,キーワード強弱情報の値を取得する。なお,当該キーワード強弱情報の値を取得すると(S1334),次に,ステップS279が実行される。 In step S1334, the value of keyword strength information expressing the range for narrowing down the combination of unit candidates included in the head phoneme of the keyword indicated by the search variable is acquired. If the value of the keyword strength information is acquired (S1334), next, step S279 is executed.
図17に示すように,ステップS279では,サーチ変数が指し示している音韻の次の音韻がキーワード内の音韻であるかどうかを判定している。 As shown in FIG. 17, in step S279, it is determined whether the phoneme next to the phoneme indicated by the search variable is a phoneme in the keyword.
サーチ変数の次の音韻のキーワード位置情報がtrueである場合,サーチ変数が指す音韻と次の音韻とのコスト値を求める(S281)。 If the keyword position information of the phoneme next to the search variable is true, the cost value of the phoneme pointed to by the search variable and the next phoneme is obtained (S281).
サーチ変数の次の音韻のキーワード位置情報がfalseである場合,キーワード数を1インクリメントする(S283)。 If the keyword position information of the phoneme next to the search variable is false, the number of keywords is incremented by 1 (S283).
図17に示すように,上記ステップS281では,サーチ変数が指し示している音韻のターゲット選択で求めた候補と,サーチ変数が指し示している音韻の次の音韻のターゲット選択で求めた候補との間で,ターゲットコスト値と,ピッチの不連続に関するサブコスト値と,スペクトルの不連続に関するサブコスト値とを足し合わせたコスト値を求めている。 As shown in FIG. 17, in step S281, between the candidate obtained by the target selection of the phoneme indicated by the search variable and the candidate obtained by the target selection of the phoneme next to the phoneme indicated by the search variable. The cost value obtained by adding the target cost value, the sub cost value related to the pitch discontinuity, and the sub cost value related to the spectrum discontinuity is obtained.
上記コスト値を求めると(S281),次に,サーチ変数を次の音韻に設定する(S287)。 When the cost value is obtained (S281), the search variable is set to the next phoneme (S287).
また,テキスト本文内でキーワードが幾つ存在するかを表現したキーワード数を1インクリメントすると(S283),キーワード優先音韻選択部907は,(コスト値+キーワード強弱情報)の値の範囲内に収まる,コスト値を持つパスを設定する(S1335)。
When the number of keywords expressing how many keywords are present in the text body is incremented by 1 (S283), the keyword priority
上記ステップS1335では,サーチ変数が指し示している音韻の,ターゲット選択で求めた候補と,サーチ変数が指し示している音韻の次の音韻の,ターゲット選択で求めた候補との間で,ターゲットコスト値と,ピッチの不連続に関するサブコスト値と,スペクトルの不連続に関するサブコスト値とを,足し合わせた最小となるコスト値に,上記ステップS1334で取得したキーワード強弱情報を足し合わせた値の範囲内に収まるコスト値を持つ,単位候補の組合せ(パス)を求める。 In step S1335, the target cost value between the candidate obtained by target selection of the phoneme indicated by the search variable and the candidate obtained by target selection of the phoneme next to the phoneme indicated by the search variable is , A cost that falls within a range of values obtained by adding the keyword cost information acquired in step S1334 to the minimum cost value obtained by adding the sub cost value related to the pitch discontinuity and the sub cost value related to the spectrum discontinuity. The unit candidate combination (path) having a value is obtained.
上記パスを設定すると(S1335),サーチ変数を次の音韻に設定する(S287)。 When the above path is set (S1335), the search variable is set to the next phoneme (S287).
図18に示すように,キーワード優先音韻選択部907は,サーチ変数をテキスト本文の先頭音韻に設定する(S290)。なお,上記ステップS290は,上記図16のステップS273と実質的に同様である。
As shown in FIG. 18, the keyword priority
上記サーチ変数がテキスト本文の先頭音韻に設定されると(S290),サーチ変数が指すキーワード位置情報がfalseであるか否かを確認する(S291)。なお,上記ステップS291は,上記図16のステップS277と実質的に同様である。 When the search variable is set to the head phoneme of the text body (S290), it is confirmed whether or not the keyword position information pointed to by the search variable is false (S291). Note that step S291 is substantially the same as step S277 in FIG.
サーチ変数が指し示すキーワード位置情報がfalseである場合(S291),サーチ変数の次の音韻のキーワード位置情報がfalseであるか否かを確認する(S293)。 When the keyword position information indicated by the search variable is false (S291), it is confirmed whether the keyword position information of the phoneme next to the search variable is false (S293).
一方,サーチ変数が指し示すキーワード位置情報がtrueである場合(S291),サーチ変数が指すキーワード位置情報がtrueであるか否かを確認する(S298)。 On the other hand, if the keyword position information pointed to by the search variable is true (S291), it is confirmed whether the keyword position information pointed to by the search variable is true (S298).
図18に示すように,上記ステップS293では,サーチ変数が指し示している音韻の,次の音韻が,キーワード内の音韻であるかどうかを判定している。 As shown in FIG. 18, in step S293, it is determined whether or not the next phoneme of the phoneme indicated by the search variable is a phoneme in the keyword.
次に,サーチ変数の次の音韻のキーワード位置情報がfalseである場合(S293),サーチ変数が指す音韻と,次の音韻とのコスト値を求める(S295)。なお,当該ステップS295と,図17のコスト値を求める処理(S281)とは実質的に同様である。 Next, when the keyword position information of the phoneme next to the search variable is false (S293), the cost value of the phoneme pointed to by the search variable and the next phoneme is obtained (S295). Note that step S295 is substantially the same as the process (S281) for obtaining the cost value in FIG.
上記サーチ変数の次の音韻のキーワード位置情報がtrueである場合(S293),コスト値が最小となるパスを設定する(S296)。なお,当該ステップS296と,図7の最小となるパスを設定する処理(S285)とは実質的に同様である。 If the keyword position information of the phoneme next to the search variable is true (S293), a path with the minimum cost value is set (S296). Note that step S296 is substantially the same as the process (S285) for setting the minimum path in FIG.
上記サーチ変数が指し示す音韻と,次の音韻とのコスト値を求めた後,サーチ変数を次の音韻に設定する(S297)。なお,当該ステップS297と,図7の次の音韻に設定する処理(S287)とは実質的に同様である。 After obtaining the cost value of the phoneme indicated by the search variable and the next phoneme, the search variable is set to the next phoneme (S297). Note that step S297 and the processing for setting the next phoneme in FIG. 7 (S287) are substantially the same.
次に,図18に示すように,キーワード優先音韻選択部907は,サーチ変数が指し示すキーワード位置情報がfalseであるか否かを確認する(S298)。なお,上記ステップS298は,図16のサーチ変数が指すキーワード位置情報がfalseであるか否かを確認する処理(S277)と実質的に同様である。
Next, as shown in FIG. 18, the keyword priority
上記確認の結果(S298),サーチ変数が指し示すキーワード位置情報がtrueの場合,キーワード数を1デクリメント(減算)した結果が1以上であるか否かを確認する(S299)。 As a result of the confirmation (S298), if the keyword position information indicated by the search variable is true, it is confirmed whether or not the result of decrementing (subtracting) the number of keywords by 1 is 1 or more (S299).
一方,上記確認の結果(S298),サーチ変数が指し示すキーワード位置情報がfalseの場合,図19に示す後続の処理(S301)が実行される。 On the other hand, if the keyword position information indicated by the search variable is false as a result of the confirmation (S298), the subsequent processing (S301) shown in FIG. 19 is executed.
図18に示すように,上記ステップS299では,テキスト本文内に複数のキーワードがある場合,キーワードとキーワードとの間に1つ以上の音韻がある場合,サーチ変数を次の音韻に設定する(S300)。上記ステップS300は,図17のステップS287と実質的に同様である。 As shown in FIG. 18, in step S299, if there are a plurality of keywords in the text body, and there is one or more phonemes between the keywords, the search variable is set to the next phoneme (S300). ). Step S300 is substantially the same as step S287 in FIG.
次に,図19に示すように,キーワード優先音韻選択部907は,まずサーチ変数が指すキーワード位置情報がfalseであるか否かを確認し(S301),次にサーチ変数が指すキーワード位置情報がfalseである場合,サーチ変数の次の音韻のキーワード位置情報がfalseであるか否かを確認する(S303)。なお,ステップS303は,図18のステップS293と実質的に同様である。
Next, as shown in FIG. 19, the keyword priority
サーチ変数の次の音韻のキーワード位置情報がfalseである場合(S303),サーチ変数が指す音韻と,次の音韻とのコスト値を求める(S305)。 If the keyword position information of the phoneme next to the search variable is false (S303), the cost value of the phoneme pointed to by the search variable and the next phoneme is obtained (S305).
一方,サーチ変数の次の音韻のキーワード位置情報がtrueである場合,コスト値が最小となるパスを設定する(S307)。 On the other hand, if the keyword position information of the phoneme next to the search variable is true, a path with the minimum cost value is set (S307).
次に,図19に示すように,キーワード優先音韻選択部907による上記ステップS307では,図7のコスト値が最小となるパスを設定するステップS285と実質的に同様である。
Next, as shown in FIG. 19, the above-described step S307 by the keyword priority
キーワード優先音韻選択部907は,コスト値が最小となるパスを設定すると(S307),キーワード数を1デクリメントする(S309)。
When the keyword priority
図19に示すように,キーワード優先音韻選択部907による,ステップS309では,テキスト本文内に複数のキーワードがある場合,キーワード数を参照することで,キーワードとキーワードとの間の音韻選択処理が完了したことを表現するのに用いられる。例えば,キーワード数が1になるとキーワードとキーワードとの間の音韻選択処理が完了したことを示しているが,かかる例に限定されない。
As shown in FIG. 19, in step S309 by the keyword priority
上記ステップS309でキーワード数を1デクリメントすると,キーワード優先音韻選択部907は,サーチ変数を次の音韻に設定する(S311)。なお,上記ステップS311は,図17のステップS287と実質的に同様である。
When the number of keywords is decremented by 1 in step S309, the keyword priority
また,図19に示すように,図18のステップS299の実行後,キーワード優先音韻選択部907は,サーチ変数が指し示すキーワード位置情報がtrueであるか否かを確認する(S313)。
As shown in FIG. 19, after executing step S299 in FIG. 18, the keyword priority
上記サーチ変数が指し示すキーワード位置情報がtrueである場合(S313),サーチ変数の次の音韻のキーワード位置情報が文末であるか否かを確認する(S315)。 If the keyword position information pointed to by the search variable is true (S313), it is confirmed whether the keyword position information of the phoneme next to the search variable is the end of the sentence (S315).
一方,上記サーチ変数が指し示すキーワード位置情報がfalseである場合(S313),図20に示すサーチ変数の次の音韻のキーワード位置情報が文末であるか否かを確認する処理が行われる(S320)。 On the other hand, if the keyword position information pointed to by the search variable is false (S313), a process is performed to check whether the keyword position information of the phoneme next to the search variable shown in FIG. 20 is the end of the sentence (S320). .
上記説明したように,図19に示す上記ステップS315では,サーチ変数が指し示している音韻の,次の音韻が,テキスト本文の文末であるか否かの判定がされる。 As described above, in step S315 shown in FIG. 19, it is determined whether or not the next phoneme of the phoneme indicated by the search variable is the end of the text body.
上記サーチ変数の次の音韻のキーワード位置情報が文末である場合(S315),図20に示すように,波形セグメントを出力する(S329)。 If the keyword position information of the phoneme next to the search variable is the end of the sentence (S315), a waveform segment is output as shown in FIG. 20 (S329).
一方,上記サーチ変数の次の音韻のキーワード位置情報が文末でない場合(S315),サーチ変数を次の音韻に設定する(S317)。なお,上記ステップS317は,図17のステップS287と実質的に同様である。 On the other hand, if the keyword position information of the next phoneme after the search variable is not the end of the sentence (S315), the search variable is set to the next phoneme (S317). Note that step S317 is substantially the same as step S287 of FIG.
上記サーチ変数を次の音韻に設定すると(S317),再びサーチ変数が指し示すキーワード位置情報がtrueであるか否かを確認する(S313)。以降の処理については上記説明した通りである。 When the search variable is set to the next phoneme (S317), it is confirmed again whether or not the keyword position information indicated by the search variable is true (S313). Subsequent processing is as described above.
図20に示すキーワード優先音韻選択部907が行うサーチ変数の次の音韻のキーワード位置情報が文末であるか否かを確認する処理(S320)は,図9のステップS315と実質的に同様である。
The process (S320) for confirming whether or not the keyword position information of the phoneme next to the search variable performed by the keyword priority
上記確認の結果(S320),サーチ変数の次の音韻のキーワード位置情報が文末である場合,次に,コスト値が最小となるパスを設定する(S327)。なお,上記パスを設定する処理(S327)は,図7に示すステップS285と実質的に同様である。 As a result of the confirmation (S320), if the keyword position information of the phoneme next to the search variable is the end of the sentence, next, a path with the minimum cost value is set (S327). The process for setting the path (S327) is substantially the same as step S285 shown in FIG.
上記コスト値が最小となるパスを設定すると(S327),波形セグメントを出力する(S329)。 When the path with the minimum cost value is set (S327), a waveform segment is output (S329).
また一方で,サーチ変数の次の音韻のキーワード位置情報が文末でない場合(S320),キーワード優先音韻選択部907は,サーチ変数が指す音韻と,次の音韻とのコスト値を求める(S323)。なお,上記ステップS323は,図17のステップS281と実質的に同様である。
On the other hand, if the keyword position information of the phoneme next to the search variable is not the end of the sentence (S320), the keyword priority
サーチ変数を次の音韻に設定すると(S325),再びサーチ変数の次の音韻のキーワード位置情報が文末であるか否かを確認する処理が行われる(S320)。以降の処理については,上記説明した通りである。 When the search variable is set to the next phoneme (S325), a process is performed again to check whether the keyword position information of the next phoneme after the search variable is the end of the sentence (S320). The subsequent processing is as described above.
図20に示す波形セグメントを出力する処理(S329)は,テキスト本文に対して,音韻選択することで得ることができた波形セグメントを出力する。 The process of outputting the waveform segment shown in FIG. 20 (S329) outputs the waveform segment obtained by selecting the phoneme for the text body.
上記キーワード優先音韻選択部907により波形セグメントが出力されると(S329),音韻接続部111は,上記音韻選択された波形セグメントをつなぎ合わせて合成音声として出力する。上記合成音声がスピーカー等の出力部から出力されることで,音声合成装置100は,テキスト本文のうちキーワードを強調しながら読み上げることができる。
When a waveform segment is output by the keyword priority phoneme selection unit 907 (S329), the
なお,以上で,第2の実施の形態にかかる音声合成装置900についての説明が終了するが,かかる音声合成装置900によって,以下に示すような優れた効果が存在する。
(1)キーワードの読み上げを強調させる度合い,つまりキーワード部分の強調の際に前後とのつながりを滑らかにし,また,そのキーワード部分の強調の度合いを調節することで,キーワード部分を強調しても自然な読み上げをすることができる。
Although the description of the
(1) The degree to which the reading of a keyword is emphasized, that is, when the keyword part is emphasized, the connection with the front and back is smoothed, and by adjusting the degree of emphasis of the keyword part, Can read aloud.
なお,上述した一連の処理は,専用のハードウェアにより行うこともできるし,ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には,そのソフトウェアを構成するプログラムが,汎用のコンピュータやマイクロコンピュータ等の情報処理装置にインストールされ,上記音声合成装置100,音声合成装置900として機能させる。
The series of processes described above can be performed by dedicated hardware or software. When a series of processing is performed by software, a program constituting the software is installed in an information processing apparatus such as a general-purpose computer or a microcomputer, and functions as the
上記プログラムは,コンピュータに内蔵されている記録媒体としてのハードディスクやROM等に予め実行可能なように記録しておくことができる。 The program can be recorded in advance on a hard disk or ROM as a recording medium built in the computer so as to be executable.
あるいはまた,プログラムは,ハードディスクドライブに限らず,フレキシブルディスク,CD−ROM(Compact Disc Read Only Memory),MO(Magneto Optical)ディスク,DVD(Digital Versatile Disc),磁気ディスク,半導体メモリなどのリムーバブル記録媒体に,一時的あるいは永続的に格納(記録)しておくことができる。このようなリムーバブル記録媒体は,いわゆるパッケージソフトウエアとして提供することができる。 Alternatively, the program is not limited to a hard disk drive, but a removable recording medium such as a flexible disk, CD-ROM (Compact Disc Read Only Memory), MO (Magneto Optical) disk, DVD (Digital Versatile Disc), magnetic disk, and semiconductor memory. In addition, it can be stored (recorded) temporarily or permanently. Such a removable recording medium can be provided as so-called package software.
なお,プログラムは,上述したようなリムーバブル記録媒体からコンピュータにインストールする他,ダウンロードサイトから,ディジタル衛星放送用の人工衛星を介して,コンピュータに無線で転送したり,LAN(Local Area Network),インターネットといったネットワークを介して,コンピュータに有線で転送し,コンピュータでは,そのようにして転送されてくるプログラムを,内蔵するハードディスク等の記憶手段にインストールすることができる。 The program is installed on the computer from the removable recording medium as described above, and is transferred from the download site to the computer wirelessly via a digital satellite broadcasting artificial satellite, or a LAN (Local Area Network) or the Internet. Such a program can be transferred to a computer via a network, and the computer can install the program transferred in this way in a storage means such as a built-in hard disk.
ここで,本明細書において,コンピュータに各種の処理を行わせるためのプログラムを記述する処理ステップは,必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく,並列的あるいは個別に実行される処理(例えば,並列処理あるいはオブジェクトによる処理)も含むものである。 Here, in this specification, the processing steps for describing a program for causing a computer to perform various processes do not necessarily have to be processed in time series in the order described in the flowchart, but in parallel or individually. This includes processing to be executed (for example, parallel processing or processing by an object).
また,プログラムは,1のコンピュータにより処理されるものであっても良いし,複数のコンピュータによって分散処理されるものであっても良い。 The program may be processed by one computer, or may be distributedly processed by a plurality of computers.
以上,添付図面を参照しながら本発明の好適な実施形態について説明したが,本発明はかかる例に限定されない。当業者であれば,特許請求の範囲に記載された技術的思想の範疇内において各種の変更例または修正例を想定し得ることは明らかであり,それらについても当然に本発明の技術的範囲に属するものと了解される。 As mentioned above, although preferred embodiment of this invention was described referring an accompanying drawing, this invention is not limited to this example. It is obvious for a person skilled in the art that various changes or modifications can be envisaged within the scope of the technical idea described in the claims, and these are naturally within the technical scope of the present invention. It is understood that it belongs.
上記実施形態においては,音声合成装置100および音声合成装置900に備わる各部(テキスト解析部101〜キーワード優先音韻選択部907)はハードウェアからなる場合を例にあげて説明したが,本発明はかかる例に限定されない。例えば,上記各部のうち少なくとも一つは,1又は2以上のモジュールまたはコンポーネントから構成されるプログラムの場合であってもよい。
In the above embodiment, each unit (
100 音声合成装置
101 テキスト解析部
103 韻律予測部
105,905 キーワード抽出部
107,907 キーワード優先音韻選択部
109 コーパス
111 音韻接続部
901 キーワード重み付け部
DESCRIPTION OF
Claims (17)
テキスト本文に含まれる全てのキーワードの音韻の候補を,該キーワード以外の音韻の候補よりも優先的に,該キーワードの出現順で,コーパスから選択する選択処理が実行されることを特徴とする,音声合成方法。 A speech synthesis method that synthesizes speech by emphasizing a keyword part:
A selection process is performed in which candidate phonemes of all keywords included in the text body are selected from a corpus in order of appearance of the keywords in preference to phoneme candidates other than the keywords. Speech synthesis method.
前記キーワードが2つ以上存在する場合,該キーワードの終了位置から後続のキーワードの開始位置に向けて,前記コスト値が最小となる単位候補の組合せを選択することを特徴とする,請求項1に記載の音声合成方法。 The selection process uses a combination of unit candidates that minimizes the cost value of the keyword part, and selects a unit candidate that has a minimum cost value from the start position of the text body to the first keyword start position. Select a combination;
The combination of unit candidates that minimizes the cost value is selected from the end position of the keyword toward the start position of the subsequent keyword when there are two or more keywords. The speech synthesis method described.
その変更後のキーワード位置情報を含んだ前記韻律予測情報を基にして,前記選択処理は,前記テキスト文に含まれる全てのキーワードの音韻の候補を,前記コーパスから選択することを特徴とする,請求項1〜3のいずれかに記載の音声合成方法。 The keyword extraction process changes a value of keyword position information for each phoneme described in the prosodic prediction information based on a part where the phoneme symbol of the keyword and the phoneme symbol of the text body partially match;
Based on the prosodic prediction information including the keyword position information after the change, the selection process selects phoneme candidates of all keywords included in the text sentence from the corpus, The speech synthesis method according to claim 1.
テキスト本文に含まれる全てのキーワードの音韻の候補を,該キーワード以外の音韻の候補よりも優先的に,該キーワードの出現順で,コーパスから選択するキーワード優先音韻選択部を備えることを特徴とする,音声合成装置。 A speech synthesizer that emphasizes keyword parts and synthesizes speech:
A keyword-preferred phoneme selection unit that selects phoneme candidates of all keywords included in a text body from a corpus in order of appearance of the keywords in preference to phoneme candidates other than the keyword. , Speech synthesizer.
前記キーワードが2つ以上存在する場合,該キーワードの終了位置から後続のキーワードの開始位置に向けて,前記コスト値が最小となる単位候補の組合せを選択することを特徴とする,請求項9に記載の音声合成装置。 The keyword priority phoneme selection unit uses a combination of unit candidates that minimizes the cost value of the keyword part, and the cost value is minimized from the start position of the text body to the first keyword start position. Select a unit candidate combination;
The combination of unit candidates that minimizes the cost value is selected from the end position of the keyword toward the start position of the subsequent keyword when there are two or more keywords. The speech synthesizer described.
前記キーワード優先音韻選択部は,前記変更後のキーワード位置情報を含んだ前記韻律予測情報を基にして,前記テキスト文に含まれる全てのキーワードの音韻の候補を,前記コーパスから選択することを特徴とする,請求項9〜11項のいずれかに記載の音声合成装置。 The keyword extraction unit changes the value of the keyword position information for each phoneme described in the prosodic prediction information based on a location where the phoneme symbol of the keyword and the phoneme symbol of the text body partially match;
The keyword priority phoneme selection unit selects, from the corpus, phoneme candidates of all keywords included in the text sentence based on the prosodic prediction information including the changed keyword position information. The speech synthesizer according to any one of claims 9 to 11.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005208532A JP2007025338A (en) | 2005-07-19 | 2005-07-19 | Method and device for speech synthesis, and computer program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005208532A JP2007025338A (en) | 2005-07-19 | 2005-07-19 | Method and device for speech synthesis, and computer program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007025338A true JP2007025338A (en) | 2007-02-01 |
Family
ID=37786185
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005208532A Withdrawn JP2007025338A (en) | 2005-07-19 | 2005-07-19 | Method and device for speech synthesis, and computer program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007025338A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007079019A (en) * | 2005-09-13 | 2007-03-29 | Oki Electric Ind Co Ltd | Method and device for speech synthesis, and computer program |
CN106652995A (en) * | 2016-12-31 | 2017-05-10 | 深圳市优必选科技有限公司 | Voice broadcasting method and system for text |
-
2005
- 2005-07-19 JP JP2005208532A patent/JP2007025338A/en not_active Withdrawn
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007079019A (en) * | 2005-09-13 | 2007-03-29 | Oki Electric Ind Co Ltd | Method and device for speech synthesis, and computer program |
JP4640063B2 (en) * | 2005-09-13 | 2011-03-02 | 沖電気工業株式会社 | Speech synthesis method, speech synthesizer, and computer program |
CN106652995A (en) * | 2016-12-31 | 2017-05-10 | 深圳市优必选科技有限公司 | Voice broadcasting method and system for text |
WO2018121757A1 (en) * | 2016-12-31 | 2018-07-05 | 深圳市优必选科技有限公司 | Method and system for speech broadcast of text |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CA2614840C (en) | System, program, and control method for speech synthesis | |
KR100586286B1 (en) | Eye gaze for contextual speech recognition | |
US8015011B2 (en) | Generating objectively evaluated sufficiently natural synthetic speech from text by using selective paraphrases | |
JP3250559B2 (en) | Lyric creating apparatus, lyrics creating method, and recording medium storing lyrics creating program | |
US8626510B2 (en) | Speech synthesizing device, computer program product, and method | |
EP1463031A1 (en) | Front-end architecture for a multi-lingual text-to-speech system | |
JP4586615B2 (en) | Speech synthesis apparatus, speech synthesis method, and computer program | |
WO2006095925A1 (en) | Speech synthesis device, speech synthesis method, and program | |
WO2010041744A1 (en) | Moving picture browsing system, and moving picture browsing program | |
JP4664194B2 (en) | Voice quality control device and method, and program storage medium | |
JP2008083239A (en) | Device, method and program for editing intermediate language | |
JP5152588B2 (en) | Voice quality change determination device, voice quality change determination method, voice quality change determination program | |
JP2008268478A (en) | Accent adjustable speech synthesizer | |
JP2007086309A (en) | Voice synthesizer, voice synthesizing method, and program | |
JP2006313176A (en) | Speech synthesizer | |
JP2007025338A (en) | Method and device for speech synthesis, and computer program | |
JP4640063B2 (en) | Speech synthesis method, speech synthesizer, and computer program | |
JP4648878B2 (en) | Style designation type speech synthesis method, style designation type speech synthesis apparatus, program thereof, and storage medium thereof | |
JP6411015B2 (en) | Speech synthesizer, speech synthesis method, and program | |
JP2013011828A (en) | Voice synthesizer, tone quality modification method and program | |
JP2008257116A (en) | Speech synthesis system | |
JP4173404B2 (en) | Statement set automatic generation device, statement set automatic generation program, storage medium | |
JPH09311775A (en) | Device and method voice output | |
JPH11259094A (en) | Regular speech synthesis device | |
JP4544258B2 (en) | Acoustic conversion device and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20081007 |