JP4964695B2 - Speech synthesis apparatus, speech synthesis method, and program - Google Patents
Speech synthesis apparatus, speech synthesis method, and program Download PDFInfo
- Publication number
- JP4964695B2 JP4964695B2 JP2007182081A JP2007182081A JP4964695B2 JP 4964695 B2 JP4964695 B2 JP 4964695B2 JP 2007182081 A JP2007182081 A JP 2007182081A JP 2007182081 A JP2007182081 A JP 2007182081A JP 4964695 B2 JP4964695 B2 JP 4964695B2
- Authority
- JP
- Japan
- Prior art keywords
- prosody
- voice
- section
- speech
- real voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Abstract
Description
本発明は、音声合成装置および音声合成方法に関係する。特に、合成音声と肉声とを併用してアナウンス音声を作成するハイブリッド音声合成装置に関係する。 The present invention relates to a speech synthesizer and a speech synthesis method. In particular, the present invention relates to a hybrid speech synthesizer that creates announcement speech by using synthesized speech and real voice together.
鉄道や公共施設での自動アナウンス、または銀行や証券会社などでの電話による情報提供システムのように、音声を使って情報を提供するシステムが大きく普及してきている。これらの応用分野で利用される音声メッセージには、固定的な表現が多いという特徴がある。例えば、鉄道での放送例では、「まもなく、5番線に東京行きがまいります」というアナウンス音声は、「5番線」「東京」という部分を変更して様々なバリエーションが利用されることが多い。
Systems that provide information using voice, such as automatic announcements at railways and public facilities, or telephone information provision systems at banks and securities companies, are becoming widespread. Voice messages used in these application fields are characterized by many fixed expressions. For example, in an example of broadcasting on a railway, the announcement voice “Soon to go to Tokyo on
そのため、このような固定的な表現が多い自動アナウンス分野で利用されるアナウンスシステムでは、固定的な表現部分を肉声音声の部品として用意しておき、それらを適宜組み合わせることによってアナウンス音声を作成する。例えば、上記のアナウンス例では、「まもなく」「5番線に」「東京行きが」「まいります」という音声部品を結合することで文章としてのアナウンス音声を作成するという手法が採用されている。これを録音編集方式と呼び、上記のようなアナウンス分野では、現在主流となっている方式(システム)である。 For this reason, in such an announcement system used in the automatic announcement field with many fixed expressions, a fixed expression part is prepared as a part of a real voice, and an announcement sound is created by appropriately combining them. For example, in the above-described announcement example, a technique of creating an announcement voice as a sentence by combining voice components “soon”, “to 5th line”, “to go to Tokyo”, “we will go” is adopted. This is called a recording / editing system, and is a system (system) which is currently mainstream in the announcement field as described above.
この録音編集方式では、肉声部品を結合するという方法であるため、肉声感という点での品質は高い。しかし、細切れの音声部品を結合させるため、抑揚やリズムが合わせづらくなり、音声の自然性という観点での品質は落ちてしまう。さらに、音声部品はあらかじめ録音しておかねばならないため、新しい語句が追加された場合には再録音が必要となり、コストや利便性にかける方式となっている。 In this recording / editing system, since the voice parts are combined, the quality in terms of real voice is high. However, since the audio components are cut into pieces, it is difficult to match the inflection and the rhythm, and the quality in terms of the naturalness of the audio falls. Furthermore, since the audio parts must be recorded in advance, re-recording is required when new words are added, which is a method for cost and convenience.
一方、音声合成やTTS(Text−to−Speech)技術と呼ばれる規則合成方式を用いて音声を合成すると、任意の文章を読み上げる音声データを生成することが可能となる。この規則合成方式については、「ディジタル音声処理」(古井貞煕、東海大学出版会)や「Progress in Speech Synthesis」(VAN SANTEN他、Springer)などに詳細な記述がある。しかし、この方式は任意の文章を音声に変換することが可能な反面、肉声感や自然性という点では、録音編集方式に及ばない。 On the other hand, by synthesizing speech using a rule synthesis method called speech synthesis or TTS (Text-to-Speech) technology, it is possible to generate speech data that reads an arbitrary sentence. The rule synthesis method is described in detail in “Digital Speech Processing” (Sadaaki Furui, Tokai University Press) and “Progress in Speech Synthesis” (VAN SANTEN et al., Springer). However, this method can convert an arbitrary sentence into speech, but it is not as good as the recording and editing method in terms of the real voice and naturalness.
そこで、上記の録音編集方式の問題点を解決するために、録音編集方式と規則合成方式を併用したハイブリッド方式というものが考えられている。これは、定型的な表現部分、たとえば、上記の文例では「まもなく」や「まいります」などには録音された肉声音声部品を用い、内容が変更される可能性がある「5番線に」や「東京行きが」の部分については、TTS技術で生成された合成音声部品を用いて、それらを結合して音声メッセージを作成するという手法である。これによって、録音編集方式の肉声感を保ちつつも、任意の語句に対応できるというTTS技術の柔軟性を兼ね備えることが可能となる。 Therefore, in order to solve the problems of the above-described recording and editing method, a hybrid method that combines the recording and editing method and the rule composition method has been considered. This is a typical expression part, for example, "Soon" and "I will continue" in the above sentence example, using recorded voice parts, the contents may change " The “Tokyo bound” part is a method of creating a voice message by combining the synthesized voice parts generated by the TTS technology. As a result, it is possible to have the flexibility of the TTS technology that can cope with an arbitrary phrase while maintaining the real voice feeling of the recording and editing method.
しかし、抑揚やリズムの自然性が低いという録音編集方式の問題点は、このハイブリッド方式でも残るため、それを解決する手法として例えば次のような可変位置でのハイブリッド方式が考えられる。これは、合成音声部分と肉声部分との結合位置を、上記のハイブリッド方式の例のように語句・文節単位とするのではなく、無声子音やパワーの小さい音素位置を動的に探索するなどしてより自由に結合位置を決定することで、音声部品間の結合位置を目立たないようにすることを特徴する。さらに、合成音声部分の抑揚・リズムをその前後の肉声部分に合わせて調整することで全体の自然性を向上させることができる。 However, since the problem of the recording and editing system that the naturalness of inflection and rhythm is low still remains in this hybrid system, the following hybrid system at a variable position is conceivable as a method for solving this problem. This is because the position where the synthesized speech part and the real voice part are combined is not a word / phrase unit as in the hybrid system example above, but a voiced consonant or a phoneme position with low power is dynamically searched. In this case, the coupling position between the audio components is made inconspicuous by determining the coupling position more freely. Furthermore, the overall naturalness can be improved by adjusting the inflection and rhythm of the synthesized voice part according to the front and rear real voice parts.
また、逆の観点から、定型的な表現が多い場合に音声合成方式の肉声感や自然性を向上させる技術も発明されている。例えば、特許文献1に示す発明では、音声合成を行う際に、定型的な表現部分の韻律(抑揚・リズム)情報として、肉声そのものから取得した情報を利用する技術を開示している。この技術を用いることで、音声合成方式ではありながらも、定型的な表現部分では肉声とほぼ同等の抑揚・リズムの自然性が得られることとなる。
上記の可変位置ハイブリッド方式を用いることで、肉声部分と合成音声部分との結合位置が目立たなくなり、合成音声部分の抑揚・リズムが肉声に合うように調整されることで、その自然性も向上することになる。しかし、その調整技術がまだ不十分なため、合成音声部分が合成音声であるということが分かってしまい、その結果、品質を大きく下げてしまうという問題がある。 By using the above-mentioned variable position hybrid method, the coupling position between the real voice part and the synthesized voice part becomes inconspicuous, and the naturalness is also improved by adjusting the inflection and rhythm of the synthesized voice part to match the real voice. It will be. However, since the adjustment technique is still insufficient, it is found that the synthesized speech portion is synthesized speech, and as a result, there is a problem that the quality is greatly lowered.
そこで、特許文献1が開示する技術を音声合成部分に適用して、その自然性を肉声とほぼ同等にすることで解決するという手法が考えられる。しかし、二つの手法を単純に組み合わせるだけでは解決することができない。これは、上記の可変位置ハイブリッド方式を実施したシステムで音声メッセージを作成する場合に、合成音声技術が使われる区間と同じ内容、より正確には同じ音韻の肉声が録音されている場合にのみ、かつ同じ音韻部分にのみ、特許文献1の技術を適用できるからである。つまり、同じ内容の肉声が録音されていない場合は適用自体が不可能である。合成音声が使われる区間は任意の語句であることを考えると、同じ内容の肉声が録音されているという可能性はかなり低いと想定せざるをえない。
In view of this, it is conceivable to solve the problem by applying the technique disclosed in
本発明は上記の問題を鑑みてなされたものであり、可変位置ハイブリッド方式を実施した場合の合成音声区間と部分的に一致する肉声区間を検出して、その肉声区間の韻律(抑揚・リズム)情報を合成音声に付与することで問題を解決する。そして、肉声と合成音声を従来技術よりも自然に結合させることで、肉声感・自然性がともに高い音声メッセージを作成可能なハイブリッド音声合成装置を提供することを目的とする。 The present invention has been made in view of the above problems, and detects a real voice segment that partially matches a synthesized speech segment when the variable position hybrid method is implemented, and prosody (inflection / rhythm) of the real voice segment. The problem is solved by adding information to the synthesized speech. It is another object of the present invention to provide a hybrid speech synthesizer capable of creating a voice message with a higher sense of natural voice and naturalness by combining the real voice and the synthesized voice more naturally than in the prior art.
本発明は、音声に変換するテキストを受け付けて発音テキストに変換する入力テキスト解析部と、予め設定された文章を肉声により記録した肉声データと前記文章を予め格納する録音音声格納部と、前記録音音声格納部に格納された文章と前記発音テキストを比較して、音声合成に使用する肉声データ及び文章を録音音声格納部から選択する録音音声選択部と、前記発音テキストと前記選択された文章から音声合成により音声を生成する合成音声区間と前記肉声データから音声を生成する肉声区間との境目を決定する接続境界算出部と、前記決定された合成音声区間に基づいて、予め設定された音声素片と韻律モデルにより音声合成データを生成する規則合成部と、前記肉声区間に対応する肉声データと、前記生成された音声合成データとを接続して入力されたテキストに対応する合成音声文章を生成する接続合成部と、を備えたハイブリッド音声合成装置において、前記接続境界算出部で決定された合成音声を使用する合成音声区間において前記肉声データの韻律を使用する肉声韻律区間を決定する肉声韻律区間決定部と、前記肉声韻律区間決定部で決定された前記区間の韻律を前記選択した肉声データから抽出する肉声韻律抽出部と、前記抽出された肉声による韻律と、前記韻律モデルから合成音声区間全体の韻律情報を生成するハイブリッド韻律生成部と、を備え、前記規則合成部は、前記合成音声区間について、前記音声素片と前記韻律情報により音声合成データを生成し、前記録音音声選択部は、前記録音音声格納部の前記文章と前記発音テキストを比較して、前記文章のうち前記発音テキストと発音が一致した音節数が最も大きな肉声データ及び文章を出力し、前記接続合成部は、前記肉声区間と、前記肉声韻律区間と、前記ハイブリッド韻律生成部で韻律情報を生成された合成音声区間とを接続し、前記肉声韻律区間決定部は、前記発音テキストと前記選択された文章の比較を行う際に、音節単位での最長一致に基づいて前記肉声データの韻律を使用する箇所を決定する。 The present invention includes an input text analysis unit for converting the accepted text pronunciation text-to-speech, and recording audio storage unit for storing the text and recorded real voice data sentence section that is set in advance by the real voice in advance, the A recorded voice selection unit that compares the sentence stored in the recorded voice storage unit with the pronunciation text and selects the voice data and sentences used for speech synthesis from the recorded voice storage unit, and the pronunciation text and the selected sentence A connection boundary calculation unit for determining a boundary between a synthesized voice section for generating voice by voice synthesis and a real voice section for generating voice from the real voice data, and a voice set in advance based on the determined synthesized voice section A rule synthesizer that generates speech synthesis data using segments and prosodic models, real voice data corresponding to the real voice segment, and the generated speech synthesis data In a hybrid speech synthesizer comprising: a connection synthesizer that generates a synthesized speech sentence corresponding to a subsequently input text, the real voice in a synthesized speech section that uses the synthesized speech determined by the connection boundary calculation unit A real voice prosody section determining unit that determines a real voice prosody section that uses data prosody, a real voice prosody extraction unit that extracts the prosody of the section determined by the real voice prosody section determiner from the selected real voice data, and the extraction prosodic by human voice, which is a hybrid prosody generation unit for generating prosody information for the entire synthetic speech segment from the prosodic model, wherein the rule-based synthesis unit, with the synthesized speech segment, the prosody and the speech segment generates speech synthesis data by the information, the recorded speech selection unit compares the pronunciation text and the sentence of the recorded speech storage unit, the sentence Among them, the voice data and sentence having the largest number of syllables whose pronunciation coincides with the pronunciation text are output, and the connection synthesis unit generates prosody information in the real voice segment, the real voice prosody segment, and the hybrid prosody generation unit The real voice prosody section determination unit uses the prosody of the real voice data based on the longest match in syllable units when comparing the pronunciation text and the selected sentence. that determine the location.
したがって、本発明により、肉声データと合成音声を結合して、肉声感・自然性の高い音声メッセージを作成することが可能なハイブリッド音声合成装置において、その合成音声区間の自然性をさらに向上させることができる。これにより、さらに自然性が高く高品質な音声メッセージの作成が可能となる。 Therefore, according to the present invention, in the hybrid speech synthesizer capable of combining the voice data and the synthesized speech to create a voice message with a high sense of natural voice and naturalness, further improving the naturalness of the synthesized speech section. Can do. This makes it possible to create a voice message with higher naturalness and higher quality.
以下、本発明の一実施形態を添付図面に基づいて説明する。 Hereinafter, an embodiment of the present invention will be described with reference to the accompanying drawings.
図1は、本発明の第1の実施形態を示す音声合成装置のブロック図である。音声合成装置1は、演算処理を行うCPU(プロセッサ)3と、データやプログラムを格納するメモリ2と、データやプログラムを格納するストレージ装置5と、演算結果などを表示する表示装置4と、音声を出力する音声再生装置6を含んで構成される。メモリ2には、テキストを生成するプログラムとしてテキスト生成部7と、テキスト生成部7が出力したテキストを音声に変換する音声合成部8がロードされ、CPU3により実行される。音声合成部8では、テキストを音声データに変換して出力し、CPU3は音声データを音声再生装置6に送信して音声の出力を指令する。
FIG. 1 is a block diagram of a speech synthesizer showing a first embodiment of the present invention. The
なお、テキスト生成部7は、後述するように、カーナビゲーション装置等における誘導情報をテキストで生成するソフトウェアモジュールとして機能するものである。また、ストレージ装置5には、後述するように音声合成部8が利用する各種データが格納される。
As will be described later, the
図2は、図1に示した音声合成部8の機能ブロック図である。
FIG. 2 is a functional block diagram of the
図2において、本発明の音声合成装置1および音声合成手法の基本的構成は、テキスト生成部7から入力されたテキスト10の内容を解析して録音された肉声部品(肉声録音音声データ)を使う部分と合成音声部品を使う部分とを切り分けるための発音テキスト21を生成する入力テキスト解析部20と、音声合成に使われる文章録音音声(=肉声録音音声データ)を多数格納した録音音声格納部30から肉声部品(=肉声録音音声データの一部または全部)の素材として使用可能な録音文章を決定する録音音声選択部40と、選択された録音文章の中から音声合成による合成音声区間と肉声録音音声データからなる肉声区間との境目(境界)を決定する接続境界算出部50と、合成音声を使用する合成音声区間において肉声録音音声データの韻律をそのまま使用できる箇所を決定する肉声韻律区間決定部60と、肉声録音音声データの韻律を使うと決定された箇所に対応する韻律情報を肉声録音音声データから抽出する肉声韻律抽出部70と、抽出された韻律情報に基づいて新規に音声合成する部分の韻律を補完して音声合成する区間全体のハイブリッド韻律情報を生成するハイブリッド韻律生成部80と、生成されたハイブリッド韻律情報に基づいて音声素片データベース110と韻律モデル120内のデータを用いて音声合成を行う規則合成部100と、肉声部品区間と合成音声区間とを接続して入力されたテキストに対応する合成音声文章全体を生成する接続合成部90とで構成される。
In FIG. 2, the basic configuration of the
次に、本発明の基本的構成な図2において、各要素を具体的にどのような装置として構成すればよいかを説明する。ここでは、本音声合成装置1をカーナビゲーションシステムでのガイダンス音声を音声合成する装置として実装する場合について具体的な説明を行う。
Next, in FIG. 2 which is the basic configuration of the present invention, what kind of device should be specifically configured for each element will be described. Here, a specific description will be given of the case where the
まず、入力テキスト10は、例えばキーボードやタッチパネル等でのデジタルペンを用いて入力され、電子データとして入力テキスト解析部20に渡される。これらの他にも、文字認識装置(OCR)を使うなど様々な入力装置が考えられる。また、あらかじめ音声合成される入力テキストをストレージ装置5のデータベースに格納しておいても良いし、図示しないテキスト処理装置やテキスト処理手法を用いて新たなテキストを動的に生成してもかまわない。
First, the
本第1実施形態の場合では、入力テキスト10として図3に示す「まもなく、渋谷南バイパスの先を右折です。」というデータが音声合成装置1へ入力されたものとして処理の流れを説明する。
In the case of the first embodiment, the processing flow will be described on the assumption that the
次に、録音音声格納部30は、音声合成される文章に対して肉声部品として使用可能な肉声録音音声データを多数格納したデータベースである。録音音声格納部30は、音声コーパスとも呼ばれる、様々なデータベース装置、データ格納技術を用いて実現は容易である。
Next, the recorded
本実施形態において、肉声録音音声データは、所定の文章を人間がしゃべった音声(文章録音音声)を予め記録したものである。録音音声格納部30の一例としては、例えば、図4に示す構造の表(またはリレーショナルデータベース)の形態でデータが格納しておくことができる。ここで肉声録音音声データ自体は、録音音声格納部30内の音声ファイル220に予め格納されている。さらに、録音音声格納部30には、音声ファイル220の肉声録音音声データをテキストに変換したものが録音音声テキスト210として格納され、録音音声テキスト210の発音をテキストに変換した情報が録音音声発音テキスト230に格納されている。また、録音音声テキスト210に対応する音声ファイル220と録音音声発音テキスト230は、ID200により一連のデータとして対応付けられる。これらID200に対応する録音音声テキスト210、音声ファイル220及び録音音声発音テキスト230を録音音声情報とする。
In the present embodiment, the voice recording voice data is obtained by recording in advance a voice (sentence recording voice) in which a human being speaks a predetermined sentence. As an example of the recorded
図4に示す録音音声発音テキスト230には、アクセントの位置やフレーズの区切りなどを示す記号は削除して、音節(ア、カ、ギなどの母音と子音の組で構成される単位)のみを示すカナ文字だけで記述しているが、アクセント等の記号も含めた発音記号列テキストというフォーマットで格納しておくことも可能である。そのほかにも、音素文字列、または音素ID列など、その音声がどのような音素(A、K、G、Iなどの母音と子音を合わせた単位)で構成されているかを示すに足る情報が格納されていれば良い。以下では、音節の単位、音素の単位など分けずに、より抽象的に音韻と呼ぶこととする。
In the recorded
次に、入力テキスト解析部20は、テキスト生成部7から入力されたテキスト10に対してテキスト解析処理、または自然言語解析処理とよばれる解析処理を行い、のちの録音音声選択部40や接続境界算出部50などで利用しやすい形態の情報を抽出、または変換することを目的とする。ここでの具体的な処理は肉声韻律区間としてどのような種類を選択するかなどの実装に依存するものとなる。本第1実施形態の場合、図3に示した入力テキスト10を、図5に示す発音テキスト21に変換する処理を行う。図3の入力テキスト10を図5の発音テキスト21に変換する手法としては、自然言語解析処理、具体的には単語辞書データを用いた形態素解析を行うことで実現できる。この手法については、例えば、「自然言語処理」(長尾真編、岩波書店)などに開示されている。また、別の手法としては、辞書データが不要なパターンマッチング技術を使うことも可能であろう。その場合は、録音音声格納部30には、図4の録音音声発音テキスト230の代わりに、図6に示すようなマッチングパターンを持っておくことで実現できる。図6のマッチングパターンは、ID2001に対応する録音音声テキスト2101と、録音音声テキスト2101の要部を含むマッチングパターン2102とから構成される。この場合は、文字列マッチング処理(上記文献などで広く開示されている)を適用することで、記号「*」をワイルドカード(どんな文字列とでもマッチング可能)とみなして、最も良く(ワイルドカード部分が最も短くなる)一致する録音音声情報を検索するという処理となる。
Next, the input
次に、録音音声選択部40は、入力テキスト解析部20で解析された情報(図5の発音テキスト21)に基づいて、入力テキスト10に最も近い、つまり同じ内容の肉声部分を多く含む肉声録音音声データ(音声ファイル220)を録音音声格納部30から選択するための処理である。
Next, based on the information analyzed by the input text analysis unit 20 (the
この処理は、発音テキスト21と録音音声発音テキスト230で共通に含まれる音節の数をカウントすることで実現可能である。第1実施形態の場合、図5の入力テキスト解析結果(発音テキスト21)と、録音音声格納部30に格納されているそれぞれの肉声録音音声データの録音音声発音テキスト230との比較を実施する。
This processing can be realized by counting the number of syllables included in common in the
この比較の結果、図7に示すような一致音節数を各肉声録音音声データに対して算出することができる。図7は、録音音声格納部30の録音音声テキスト210に対応する録音音声発音テキスト230のうち、発音テキスト21と発音が一致した音節数240をテーブルとして示したものである。この中で、最も一致音節数240が大きな肉声録音音声データを含む録音音声情報を録音音声選択部40の出力結果とすればよい。ここでの音節比較処理は、音節比較の順序を入れ替えないようにしなければならない。例えば、図8(a)は、図4に示したID=2の録音音声発音テキスト230と発音テキスト21の比較結果を示す。図8(a)において、「マモナク」までは一対一で対応してきて、「シ」「ブ」「ヤ」について一致する音節がなく、再び「ミナミ」以降は一対一で対応する音声が存在するため簡単に比較処理が可能であるが、発音テキストによってはテキスト左側の音節を優先して一致させることで後半部の一致音節数が少なくなる場合も存在する。このような場合に対しては、例えば文字列比較方式を最左最短一致方式にしたり、または、複数の一致パターンを生成させてすべての中で最も一致音節数が多い一致パターンを選択するという処理にしたりするなどして、より適切な一致音声を選択することは可能である。
As a result of this comparison, the number of coincident syllables as shown in FIG. 7 can be calculated for each recorded voice data. FIG. 7 shows, as a table, the number of
また、図8(b)は、ID=2とは一部が異なる録音音声発音テキスト230と発音テキスト21の比較結果を示す。この例のように、図8(a)よりも一致音節数が多くなるが、非一致部分、すなわち後ほど音声合成処理によって合成音声部品が生成される区間が極端に短くなる場合も出現する。音声合成処理によっては短い合成音声の生成に適しない方式もあるため、このような場合には図8(a)の一致パターンを優先させるなど、利用する音声合成部の処理内容によって比較結果の順序づけをすることも考えられる。これらの図8(a)と図8(b)などの一致パターンの優先順位の決定方法としては、例えば、入力テキスト10から求めた発音テキスト21と録音音節発音テキスト230とを比較して、録音音声発音テキスト230内で不一致だった箇所の文字数ごとに、図16に示す不一致コストを参照して、図15に示すようにトータルの不一致コストというものを計算することができる。この不一致コストを比較することで、一致音節数は少なくても、より不一致コストの小さな図15(a)の一致パターンを優先するということが可能となる。なお、図16は不一致文字数と不一致コストの関係を予め設定したテーブルである。
FIG. 8B shows a comparison result between the recorded
ここで、図8に示す不一致コストの設定方法は、本発明では録音音声情報(図15に示す録音音声発音テキスト230に相当する肉声録音音声データ)のうち、入力テキスト10(発音テキスト21)の音節と一致した部分のみがそのまま利用されるということを考慮して、肉声(肉声録音音声データ)の間に結合される合成音声区間の長さに応じて設定しておく必要がある。図8の例では、単純に不一致文字数のみに応じて不一致コストを定義しているが、不一致文字およびその前後の音韻がどのような種類のものかという音韻環境に応じて不一致コストを設定することもできる。このような設定方法を採れば、肉声録音音声データの無音区間で結合される場合には、たとえ不一致文字数が極端に少なくも、不一致コストを小さくすることで、よりスムーズな一致パターンを優先させるということも可能となる。
Here, the discrepancy cost setting method shown in FIG. 8 is based on the input text 10 (pronunciation text 21) in the recorded voice information (the real voice recording voice data corresponding to the recorded
この順序づけの変更方法は、音声合成部(規則合成部100)として、どのような特徴のものを採用するか決定した時点で、すなわち、本発明のシステムを実施した時点で、また、この録音音声選択部40での処理は、音節単位ではなく、より細かな音素単位にすることもでき、処理の手法については音節と同様となる。
This ordering change method is performed when the speech synthesis unit (rule synthesis unit 100) determines what characteristics to adopt, that is, when the system of the present invention is implemented, and when the recorded speech is used. The processing in the
ここで、音節単位で処理するか、音素単位で処理するかは、音声合成部(規則合成部100)がどこまで小さい単位でも音声合成に対応しているかに依存する。もし、規則合成部100が音節単位での音声合成までしか対応していないのであれば、この録音音声選択部40と関連する録音音声格納部30、さらに以降の接続境界算出部50からハイブリッド韻律生成部80まですべてが、音節単位での処理を行わなければならない。
Here, whether processing is performed in syllable units or phoneme units depends on how small the speech synthesis unit (rule synthesis unit 100) supports speech synthesis. If the
一方、規則合成部100が音素単位での音声合成に対応しているのであれば、録音音声格納部30からハイブリッド韻律生成部80までの処理は、音節単位と音素単位のどちらを選ぶことも可能である。本発明の目的である、肉声(肉声録音音声データ)と合成音声をよりスムーズに結合することを目的とするのであれば、より詳細な単位である音素単位での処理を基本とすることが望ましい。
On the other hand, if the
次に、接続境界算出部50では、録音音声選択部40で選択された肉声録音音声データ(音声ファイル220)に対して、どの部分を肉声そのままの肉声部品として利用し、どの部分を合成音声処理で生成された合成音声部品を使うかを決定する。一番簡単な手法としては、録音音声選択部40で実行された音節比較処理の結果で、一致した音節部分については肉声録音音声データ(音声ファイル220)の肉声を使い、それ以外の非一致部分については音声合成で生成された合成音声部品を使うという方法を用いることができる。
Next, the connection
しかしながら、実際の音声(肉声)では、音節間がなめらかにつながった音声となっているため、単純にすべての音節間で肉声と合成音声を滑らかに結合可能なわけではない。この課題を解決する手法として、次に説明する可変位置ハイブリッド方式と呼ぶべきものがある。 However, since the actual voice (real voice) is a voice in which the syllables are smoothly connected, the real voice and the synthesized voice cannot simply be smoothly combined between all syllables. As a method for solving this problem, there is a method to be called a variable position hybrid system described below.
このハイブリッド方式の手法によると、すべての音節、またはすべての音素間で、それらの接続のしやすさ(肉声と合成音声の結合のしやすさ)を示す接続コストを算出し、最も接続コストの小さな箇所で接続(肉声と合成音声の結合)が行われるように、合成音声部品の長さを伸ばすという処理がなされる。 According to this hybrid method, the connection cost indicating the ease of connection (ease of combining real voice and synthesized speech) between all syllables or all phonemes is calculated, and the connection cost is the highest. The process of extending the length of the synthesized speech component is performed so that connection (combination of real voice and synthesized speech) is performed at a small location.
より具体的には、無声子音先頭のポーズ位置や、音声パワーが十分に小さくなる音素境界を選択し、この音素境界まで合成音声部分を拡大するという処理を行うことができる。すなわち、肉声と合成音声の結合位置が常に一定ではなく、内容に応じて結合位置を動的に変更するという手法である。 More specifically, it is possible to select a pause position at the beginning of the unvoiced consonant or a phoneme boundary where the speech power is sufficiently low, and perform a process of expanding the synthesized speech part to this phoneme boundary. In other words, the combined position of the real voice and the synthesized voice is not always constant, and the combined position is dynamically changed according to the content.
例えば、本第1実施形態のケースで、図8(a)の比較によって肉声録音音声データID2が選択された場合を考える(図9)。この場合、音素・音節の一致比較処理のみで決定された肉声利用部分は「マモナク」「ミナミバイパスオウセツデス」となり、その途中の「シブヤ」は音声合成で生成された合成音声部品を利用する。しかし、「シブヤ」の「ヤ」と「ミナミバイパス」の「ミ」は両方とも有声音声であり、その間で音声を結合するとノイズが生じることになる。 For example, in the case of the first embodiment, consider a case where the real voice recording voice data ID2 is selected by the comparison of FIG. 8A (FIG. 9). In this case, the real voice usage part determined only by the phoneme / syllable coincidence comparison process is “mamonaku” and “minami bypass ootsudesde”, and “shibuya” in the middle uses the synthesized speech component generated by speech synthesis. . However, “Yu” of “Shibuya” and “Mi” of “Minami Bypass” are both voiced voices, and noise is generated when voices are combined between them.
そこで、無音区間や音声パワーの小さな箇所まで合成音声部分を拡大する処理を行う。図9の例の場合、「シブヤ」の直前は無音区間であるので、こちらの結合位置は変化しない。一方、「シブヤ」の後ろ側は、次に無音区間、まはた音声パワーが小さい箇所を探索すると「バイパス」の「パ」の箇所が見つかる。音節「パ」の先頭には破裂音音素「p」が存在しており、ここでは一旦、音声信号が0となる無音区間が生じる。この無音箇所で肉声(肉声録音音声データ)と合成音声を結合するとノイズを生じない。この結果、接続境界算出部50からは、図10に示すように、選択された録音音声ID=2と、肉声部品を使う区間である「マモナク」と「パスノサキオウセツデス」、そして、合成音声部品を使う区間となる「シブヤミナミバイ」が出力される。
Therefore, a process of expanding the synthesized voice part to a silent section or a part with a small voice power is performed. In the case of the example in FIG. 9, the coupling position does not change because it is a silent section immediately before “Shibuya”. On the other hand, on the back side of “Shibuya”, when a silent section or a portion with low voice power is searched for next, a “pa” portion of “bypass” is found. A plosive phoneme “p” exists at the head of the syllable “pa”, and here, a silent section in which the speech signal is zero occurs once. When the silent voice (real voice recording voice data) and the synthesized voice are combined in the silent part, no noise is generated. As a result, from the connection
次に、肉声韻律区間決定部60は、合成音声部品として音声合成処理される音節区間のうち、元の肉声録音音声データの韻律情報が利用できる区間を決定する処理を行う。この処理が本発明の基本的な部分であり、上記従来の可変位置ハイブリッド方式などの技術によって、肉声(肉声録音音声データ)と合成音声の結合を滑らかに行える箇所にまで(接続境界算出部50において)拡大された合成音声区間の中から肉声録音音声データから抽出された韻律情報を利用できる箇所を特定する処理を基本とする。
Next, the real voice prosody
以下、第1実施形態のケースで具体的に説明する。接続境界算出部50によって、図8(a)に示される一致音節部分(上下の実線)が、肉声韻律区間決定部60によって図9に示される一致音節部分へと縮小される。つまり、非一致部分である合成音声部分が「シブヤ」から「シブヤミナミバイ」にまで拡大されている。
Hereinafter, the case of the first embodiment will be specifically described. The connection
ここで図10のような処理結果の情報が肉声韻律区間決定部60に入力されると、合成音声区間「シブヤミナミバイ」と、この合成音声区間に対応する肉声録音音声データの区間「ナカノミナミバイ」との比較処理が行われる。ここでの比較も、上述の最左最短一致などの文字列マッチング手法を用いて一致部分を決定することができる。
Here, when the processing result information as shown in FIG. 10 is input to the real voice prosody
肉声韻律区間決定部60は、音節単位の最長一致法を用いて、合成音声区間「シブヤミナミバイ」の中で元の肉声録音音声データと音韻(音節)が一致する区間を図11の破線で示すように「ミナミバイ」と決定することができる。
The real voice prosody
以上の処理から、肉声韻律区間決定部60は、図12に示すように合成音声区間「シブヤミナミバイ」の中から肉声録音音声データの韻律を用いる肉声韻律区間を「ミナミバイ」として出力する。すなわち、肉声韻律区間決定部60は、肉声区間と、合成音声区間に加えて、合成音声を利用する区間で肉声録音音声データの韻律のみを利用する肉声韻律区間の情報を付加する。
From the above processing, the real voice prosody
次に、肉声韻律抽出部70では、肉声韻律区間決定部60から出力された合成音声区間に対応する肉声録音音声の区間の韻律情報の抽出処理を行う。韻律情報とは、音声の基本周波数と音素・音節の継続時間長と音声パワーの時間変化を示す情報をさす。この韻律抽出処理は、例えば、音声認識技術を使った自動セグメンテーション処理によって、入力音声を構成する音素、または音節が何か、およびその位置を決定することで実現できる。基本周波数や音声パワーについては、音声信号処理技術で用いられている一般的なF0(基本周波数)抽出処理やパワー計算処理などを利用することで実現できる。または、あらかじめ上記の韻律情報を肉声録音音声データ全体に対して抽出しておき、肉声韻律抽出部70での処理では、合成音声区間に相当する韻律情報部分を抜き出すという手法でも実現できる。第1実施形態のケースの場合にこの肉声韻律抽出部70から出力される情報の例を図12に示す。ここでは、合成音声区間「シブヤミナミバイ」に対応する肉声録音音声データの区間「ナカノミナミバイ」の韻律情報(基本周波数の始点と終点、継続時間長)が各音節ごとに抽出されている。
Next, the real voice
次に、ハイブリッド韻律生成部80では、肉声韻律抽出部70から出力された肉声録音音声データの一部区間に対する韻律情報を元に、合成音声区間に対する韻律情報を生成する。この処理は、肉声韻律抽出部70で抽出された韻律情報のうち、肉声録音音声データと合成音声とで一致する部分はその情報を用い、一致しない部分は抽出された情報を無視して、または抽出された情報を参考にして合成音声に対応する区間の韻律情報を生成する処理を行う。
Next, the hybrid
第1実施形態のケースで具体的に説明する。ハイブリッド韻律生成部80では、肉声韻律抽出部70から図12に示す肉声録音音声データ区間「ナカノミナミバイ」に対する韻律情報が入力された場合、その肉声録音音声データ区間に対応する合成音声区間「シブヤミナミバイ」の中で抽出された韻律情報が利用できる部分を決定する。ハイブリッド韻律生成部80での決定処理も、上記のさまざまな処理で利用されてきた文字列一致処理などを用いて実現可能である。この例の場合、「ミナミバイ」の部分は音節が一致するため、その部分の韻律情報としては肉声録音音声データから抽出された韻律情報を利用することができる。一方、音節が一致しない区間「シブヤ」については、規則合成部に含まれている韻律生成処理を使って「シブヤ」に対する韻律情報を新たに生成しても良いし、または「ナカノ」の韻律情報からある韻律変換処理(例えば、基本周波数や音素継続長を、その前後の箇所と連続になるように一律に伸縮・移動させるなどの処理)によって生成することも可能である。
The case of the first embodiment will be specifically described. In the hybrid
図13に、ハイブリッド韻律生成部80が韻律生成処理を行って「シブヤ」に対する韻律情報を生成した韻律情報付き音節列の一例を示す。この韻律生成処理については、「ディジタル音声処理」(古井貞煕、東海大学出版会)や「Progress in Speech Synthesis」(VAN SANTEN他、Springer)などで開示されている。
FIG. 13 shows an example of a syllable string with prosodic information in which the
次に規則合成部100では、ハイブリッド韻律生成部80から出力された韻律情報付き音節列(図13)を入力として、韻律情報付き音節列に指定された韻律が実現されるように音声合成処理を行う。その際、合成音声の部品である音声素片データベース110と韻律モデル120を参照して合成音声への変換処理を行う。この規則合成処理についても上記の文献などで広く開示されているため、説明は省略する。第1実施形態のケースでは、この処理の結果、図13の韻律を実現した合成音声部品「シブヤミナミバイ」が音声合成処理によって図14で示すように生成される。
Next, the
最後に、接続合成部90によって、録音音声選択部40と接続境界算出部50から出力された肉声録音音声データの部品と、規則合成部100から出力された合成音声部品とが接続合成(結合)処理されて、ハイブリッド合成音声130として出力される。この接続合成処理には、単純に合成音声を結合するだけの処理で実現することも可能であり、その結合部分にTD−PSOLA(Time Domain Pitch Synchronous Overlap Add)などの波形重畳信号処理などを用いて、より滑らかに接合されることも可能である。
Finally, the
第1実施形態のケースでは、接続境界算出部50から出力された肉声録音音声データの部品「マモナク」と「パスノサキオウセツデス」に、規則合成部100から出力された合成音声部品「シブヤミナミバイ」とが結合されて、「マモナク」「シブヤミナミバイ」「パスノサキオウセツデス」に対応するハイブリッド合成音声が出力されることになる。
In the case of the first embodiment, the synthesized voice component “Shibu Minami” output from the
ここで出力されたハイブリッド合成音声では、「マモナク」と「パスノサキオウセツデス」の区間は完全に肉声録音音声データであり、「シブヤミナミバイ」の区間は合成音声ではあるが、「ミナミバイ」部分は肉声録音音声データの韻律をそのまま実現した合成音声であるため、韻律的に自然で、かつ後半の「パスノサキオウセツデス」と韻律が連続に繋がる合成音声を実現できている。このように本発明によれば、前述の可変位置ハイブリッド合成方式を実施した場合の合成音声区間と部分的に一致する肉声区間を検出して、その肉声区間の韻律(抑揚・リズム)情報を合成音声に付与し、肉声と合成音声を従来技術よりも自然に結合させることで、肉声感・自然性がともに高い音声メッセージを作成可能なハイブリッド音声合成装置を提供することが可能となる。 In the hybrid synthesized speech output here, the sections of “mamonaku” and “pasnosakiousetetsudes” are completely recorded voice data, and the section of “shibuyamanamibai” is synthesized speech, but “minamibai” Since the part is a synthesized voice that directly realizes the prosody of the recorded voice data, it is possible to realize a synthetic voice that is prosodic in nature and has the prosody continuously connected to the latter half of “Pasano Sakiusetsudes”. As described above, according to the present invention, a real voice segment partially matching the synthesized speech segment when the above-described variable position hybrid synthesis method is implemented is detected, and the prosodic (intonation / rhythm) information of the real voice segment is synthesized. It is possible to provide a hybrid speech synthesizer capable of creating a voice message having both a higher feeling of natural voice and naturalness by adding to the voice and combining the voice and the synthesized voice more naturally than in the prior art.
なお、上記において、肉声韻律区間決定部60は、入力テキスト10を変換した発音テキスト21と、録音音声発音テキスト230とを、音節単位での最長一致に基づいて肉声録音音声データの韻律を用いる例を示したが、発音テキスト21と、録音音声発音テキスト230との比較を音素単位での最長一致を用いても良い。
In the above, the real voice prosody
<実施形態2>
次に本発明を、カーナビゲーションシステムに特化した場合の実施形態について説明する。
<
Next, an embodiment when the present invention is specialized for a car navigation system will be described.
図17は、本発明をカーナビゲーションシステムとして実施した場合の構成図である。前記第1実施形態の図2における入力テキスト10が、図17ではカーナビゲーション装置(特にその中の発声内容決定部)310から受け渡される。また、図2において接続合成部90から出力されていたハイブリッド合成音声130が、本第2実施形態の図17では、直接、スピーカー(アンプを含む)などの音声再生装置320から出力されるようになる。それ以外の構成は第1実施形態の図2と共通であり、各処理部における処理の内容、およびそれらの処理の流れは、基本的に前記第1実施形態に説明したものと同様となる。
FIG. 17 is a configuration diagram when the present invention is implemented as a car navigation system. The
そこで、ここでは、本発明の音声合成部8における処理フローについて、図18のフローチャートを用いて説明する。
Therefore, here, the processing flow in the
まず、図18に示すハイブリッド合成処理が起動すると、カーナビゲーション装置の発声内容決定部で決定された読み上げ(発声)テキストが入力されるまで待ち状態となる。もし、読み上げテキストが入力された場合、その入力テキスト10は入力テキスト解析処理410に渡されて、音声合成処理のための内部表現形式へと変換される。この処理の詳細については、第1実施形態の入力テキスト解析部20で説明した通りである。
First, when the hybrid synthesizing process shown in FIG. 18 is started, the process waits until the text to be read (spoken) determined by the utterance content determination unit of the car navigation apparatus is input. If a read-out text is input, the
続いて、内部表現データが録音音声選択処理420へと渡され、録音音声格納部30に格納されている肉声録音音声データ(音声ファイル220)の中から、録音音声発音テキスト230が入力テキスト10(発音テキスト21)に最もよく一致するパターンの肉声録音音声データ(音声情報)が選択される。この選択処理の詳細については、第1実施形態の録音音声選択部40で説明した通りである。
Subsequently, the internal representation data is transferred to the recorded
もし、この録音音声選択処理420において、適切な一致パターンを選択できなかった場合は、入力テキスト10、および内部表現データが規則合成処理430に渡され、入力テキスト全文が合成音声に変換されて出力される。すなわち、適切な一致パターンがない場合は、読み上げ(発声)テキストはすべて合成音声で出力される。
If an appropriate matching pattern cannot be selected in the recorded
一方、録音音声選択処理420で録音音声発音テキスト230の中から適切な一致パターンを選択できた場合は、一致した録音音声情報(図4に示すデータの横一列の録音音声情報)が接続境界算出処理へと渡される。この処理の詳細については、第1実施形態の接続境界算出部50で説明した通りである。
On the other hand, when an appropriate matching pattern can be selected from the recorded
つづいて、肉声韻律区間決定処理440が起動される。この処理では、接続境界算出処理で判定されたすべての接続境界(選択された肉声録音音声データの中の境界)に対して、肉声韻律を使用する肉声韻律区間なのか、合成音声を使用する合成音声区間なのかの決定処理が繰り返して実行される。この処理の詳細については、第1実施形態の肉声韻律区間決定部60で説明した通りである。
Subsequently, the real voice prosody
つづいて、肉声韻律抽出処理450が起動される。この処理では、肉声韻律区間決定処理440において、肉声韻律区間として判定されたすべての区間に対して、韻律抽出処理を繰り返し実行する。この処理の詳細については、第1実施形態の肉声韻律抽出部70で説明した通りである。
Subsequently, the real voice
つづいて、ハイブリッド韻律生成処理460が起動される。この処理では、肉声韻律区間決定処理440において、合成音声区間として判定されたすべての区間、さらにその区間内のすべての音韻に対して、韻律情報の生成処理を繰り返し実行する。この処理の詳細については、第1実施形態のハイブリッド韻律生成部80で説明した通りである。
Subsequently, the hybrid
つづいて、規則合成処理470が起動される。この処理では、ハイブリッド韻律生成処理で生成された韻律情報にしたがって、すべての合成音声区間を、それぞれ合成音声へと変換する処理を行う。この処理の詳細については、第1実施形態の規則合成部100で説明した通りである。
Subsequently, the
つづいて、肉声区間切り出し処理480が起動される。この処理は、入力テキストとよく一致して音声格納部から選択された肉声録音音声データデータ(音声ファイル220)を分割して、肉声韻律区間決定処理440が決定した肉声韻律区間に相当する部分の肉声録音音声データデータのみを切り出して出力する処理を行う。
Subsequently, the real voice
最後に、接続合成処理490が起動される。この処理では、規則合成処理470、および肉声区間切り出し処理480からそれぞれ出力された、合成音声区間に相当する合成音声データと、肉声韻律区間に相当する肉声録音音声データデータとを、それらの区間の順番に応じて、順次、繰り返しながら接続して出力する処理を行う。この結果、この処理から最後に出力されるのは、入力テキストに対応するハイブリッド合成音声(一部が合成音声で一部が肉声の肉声録音音声データ)データとなる。
Finally,
<実施形態3>
次に、図19を用いて、本発明をユーザインタフェースを備えたハイブリッド合成音声の編集ツールとして実施した場合の実施形態について説明する。
<
Next, an embodiment when the present invention is implemented as a hybrid synthesized speech editing tool having a user interface will be described with reference to FIG.
図19は、図1、図2に示す本発明の基本構成に、テキスト入力部510、ユーザ入力部520、情報表示部530を加えた構成である。
FIG. 19 is a configuration in which a
ここで、テキスト入力部510は、本発明の音声合成装置1に対して、読み上げ(発声)テキストを入力するための入力装置であり、例えば、キーボードなど、従来のユーザインタフェース機器を用いることができる。
Here, the
このテキスト入力部510でテキストが入力されると、前記第1実施形態、もしくは第2実施形態で説明したような処理が実行され、ハイブリッド合成音声130が出力されることになる。
When text is input by the
ただし、本第3実施形態においては、録音音声選択部40からハイブリッド韻律生成部80までの各処理部で処理された結果の情報が、別途、情報表示部530へと渡されて(点線の矢印)、ユーザに提示することが可能となっている。また同様に、ユーザ入力部520を通してユーザが指定した情報を、録音音声選択部40からハイブリッド韻律生成部80までの各処理部に渡すことで、各部が出力する情報を特定の内容に変更することを可能としている。
However, in the third embodiment, the information of the results processed by each processing unit from the recorded
情報表示部530は、様々な情報をユーザに提示するための装置であり、例えばディスプレイ装置などのグラフィカル表示装置を用いることができる。例えば、この情報表示部530は、前記第1実施形態の図1に示した表示装置4を用いればよい。この情報表示部530で表示される情報の一例を図20に示す。
The
図20では、上部の入力テキスト欄531に入力された読み上げテキストを、入力テキスト解析部20に渡した結果の解析結果情報(発音テキスト21)、さらに、録音音声選択部40で自動的に一致判定されて選択されたID2の録音音声のテキスト(録音音声発音テキスト230)が表示されている。また、一致判定の根拠となる音韻の一致度合いが対応する線の数によって表示されている。このように、録音音声選択部40でどのような録音音声が、どのような一致判定のもとで選択されたかを表示することができる。
In FIG. 20, the reading text input in the upper
また、図20では、接続境界算出部50、肉声韻律区間決定部60の結果、肉声録音音声データを使うと決定された区間を斜体の文字で表示している。このように、入力テキストのうち、どの区間が合成音声で、どの区間が肉声録音音声データとなるのかをグラフィカルに表示することができる。このような表示の仕方は、この他にも、色で分けたり、矩形や角丸矩形で囲い分けるなど、さまざまな表示方法が考えられる。
Further, in FIG. 20, the section determined to use the real voice recorded voice data as a result of the connection
さらに、図20の中央部には、肉声韻律抽出部70で抽出された肉声区間に対する韻律情報、およびハイブリッド韻律生成部80で生成された合成音声区間に対するハイブリッド韻律情報532である。このように、時間と周波数(F0)のグラフとして表示することで、出力されるハイブリッド合成音声がどのような音声になるのかを直感的に示すことが可能となる。
Further, in the central part of FIG. 20, prosody information for the real voice segment extracted by the real voice
一方、ユーザ入力部520はユーザインタフェース機器であり、例えば、マウスやキーボードなどを通してユーザに情報(例えば、録音音声選択部で選択すべき録音音声のIDなど)を入力・指定させて、その情報を適切な処理部(例えば、録音音声のIDは録音音声選択部40へ、接続境界情報は接続境界算出部50へ)へと渡す処理を行う。ここで、ユーザが指定可能な情報としては、録音音声選択部40で選択されたものの代わりに出力すべき録音音声IDであったり、接続境界算出部50や肉声韻律区間決定部60で決定されるものの代わりに出力すべき肉声−合成音声区間の区分であったりする。これらの情報を、例えば、マウスを画面下部の録音音声テキストの上でクリックすることで、代替の録音音声テキストをメニュー表示させて、その中から実際に選択すべきものをユーザに指定させるということを可能とする。
On the other hand, the
同様に、図20の情報表示部530の解析結果に示される肉声区間(斜体で表示される部分)と合成音声区間(通常表示される部分)を、それぞれマウスでクリック、またはドラッグするなどのインタラクションを行わせて、どの部分を合成音声とするか、どの部分を肉声とするかをユーザに指定させることを可能とする。
Similarly, an interaction such as clicking or dragging with a mouse each of a real voice section (part displayed in italics) and a synthesized voice section (part normally displayed) shown in the analysis result of the
さらには、その上の韻律情報のグラフ表示画面において、合成音声区間に対して、ハイブリッド韻律生成部80が出力した韻律情報(グラフ中、点線で表示される曲線)をマウスでドラッグ等で移動させることで、生成すべき韻律情報を直接ユーザが指定可能とする。 Furthermore, on the graph display screen of the prosodic information on the screen, the prosodic information output by the hybrid prosody generating unit 80 (the curve displayed with a dotted line in the graph) is moved by dragging the mouse with respect to the synthesized speech section. Thus, the user can directly specify the prosodic information to be generated.
以上のようにして、ユーザが直接指定した情報は、それぞれ対応する処理部に渡されて、各処理部が自動的に算出した処理結果の代わりに出力されるようにする。このような構成を採ることにより、情報表示部530とユーザ入力部520を通して、ユーザが直接、ハイブリッド合成音声の中身を指定することが可能となる。
As described above, the information directly designated by the user is transferred to the corresponding processing unit, and is output instead of the processing result automatically calculated by each processing unit. By adopting such a configuration, the user can directly specify the contents of the hybrid synthesized speech through the
なお、上記各実施形態において、肉声韻律区間決定部60は、入力テキスト10を変換した発音テキスト21と、録音音声発音テキスト230とを、音節単位での最長一致に基づいて肉声録音音声データの韻律を用いる例を示したが、各音素または音節に付随する言語情報の一致に基づいて肉声録音音声データの韻律を用いる区間を決定してもよい。さらに、言語情報は、録音音声発音テキスト230に含まれるアクセント核(アクセントの下がる位置)を上記位置情報として用いて肉声録音音声データの韻律を使用する区間を決定しても良い。アクセント核を含む言語情報は、入力テキスト解析部20における解析処理の中間情報として取得することが可能である。また、録音音声格納部30に格納されている音声データ(図4)に対しては、あらかじめテキスト解析処理を適用した結果、得られたそれらの言語情報を付加して格納しておくことで、上記のアクセント核を始めとする言語情報による一致を判定して、肉声韻律区間の決定を行うことが可能となる。
In each of the above embodiments, the real voice prosody
以上説明したように、本発明によれば、可変位置ハイブリッド合成方式を実施した場合の合成音声区間と部分的に一致する肉声区間を検出して、その肉声区間の韻律(抑揚・リズム)情報を合成音声に付与し、肉声と合成音声を従来技術よりも自然に結合させることで、肉声感・自然性がともに高い音声メッセージを作成可能なハイブリッド音声合成装置を提供することが可能となる。特に、音声で誘導を行うカーナビゲーション装置や、音声で案内を行う装置に適用することができる。 As described above, according to the present invention, a real voice segment that partially matches the synthesized voice segment when the variable position hybrid synthesis method is implemented is detected, and the prosodic (intonation / rhythm) information of the real voice segment is obtained. It is possible to provide a hybrid speech synthesizer capable of creating a voice message having both a higher feeling of natural voice and naturalness by giving it to synthesized speech and combining natural voice and synthesized speech more naturally than in the prior art. In particular, the present invention can be applied to a car navigation device that performs guidance by voice and a device that performs guidance by voice.
20 入力テキスト解析部
30 録音音声格納部
40 録音音声選択部
50 接続境界算出部
60 肉声韻律区間決定部
70 肉声韻律抽出部
80 ハイブリッド韻律生成部
90 接続合成部
100 規則合成部
110 音声素片データベース
120 韻律モデル
130 ハイブリッド合成音声
200 録音音声ID
210 録音音声テキスト
220 録音音声ファイル
230 録音音声発音テキスト
20 Input
210
Claims (16)
予め設定された文章を肉声により記録した肉声データと前記文章を予め格納する録音音声格納部と、
前記録音音声格納部に格納された文章と前記発音テキストを比較して、音声合成に使用する肉声データ及び文章を録音音声格納部から選択する録音音声選択部と、
前記発音テキストと前記選択された文章から音声合成により音声を生成する合成音声区間と前記肉声データから音声を生成する肉声区間との境目を決定する接続境界算出部と、
前記決定された合成音声区間に基づいて、予め設定された音声素片と韻律モデルにより音声合成データを生成する規則合成部と、
前記肉声区間に対応する肉声データと、前記生成された音声合成データとを接続して入力されたテキストに対応する合成音声文章を生成する接続合成部と、を備えたハイブリッド音声合成装置において、
前記接続境界算出部で決定された合成音声を使用する合成音声区間において前記肉声データの韻律を使用する肉声韻律区間を決定する肉声韻律区間決定部と、
前記肉声韻律区間決定部で決定された前記区間の韻律を前記選択した肉声データから抽出する肉声韻律抽出部と、
前記抽出された肉声による韻律と、前記韻律モデルから合成音声区間全体の韻律情報を生成するハイブリッド韻律生成部と、を備え、
前記録音音声選択部は、
前記録音音声格納部の前記文章と前記発音テキストを比較して、前記文章のうち前記発音テキストと発音が一致した音節数が最も大きな肉声データ及び文章を出力し、
前記規則合成部は、
前記合成音声区間について、前記音声素片と前記韻律情報により音声合成データを生成し、
前記接続合成部は、
前記肉声区間と、前記肉声韻律区間と、前記ハイブリッド韻律生成部で韻律情報を生成された合成音声区間とを接続し、
前記肉声韻律区間決定部は、
前記発音テキストと前記選択された文章の比較を行う際に、音節単位での最長一致に基づいて前記肉声データの韻律を使用する箇所を決定することを特徴とするハイブリッド音声合成装置。 An input text analysis unit that accepts text to be converted into speech and converts it into pronunciation text;
And recording the voice storage unit for storing the text and recorded real voice data a preset sentence chapter by real voice in advance,
A recorded voice selection unit that compares the pronunciation text with the sentence stored in the recorded voice storage unit, and selects the voice data and sentence used for speech synthesis from the recorded voice storage unit;
A connection boundary calculation unit for determining a boundary between a synthesized speech section for generating speech by speech synthesis from the pronunciation text and the selected sentence and a real voice section for generating speech from the real voice data;
Based on the determined synthesized speech section, a rule synthesizer that generates speech synthesis data based on a preset speech segment and a prosodic model;
In a hybrid speech synthesizer comprising a connection synthesizer that generates a synthesized speech sentence corresponding to a text inputted by connecting the real voice data corresponding to the real voice interval and the generated speech synthesis data,
A real voice prosody section determination unit that determines a real voice prosody section that uses the prosody of the real voice data in a synthetic voice section that uses the synthesized speech determined by the connection boundary calculation unit;
A real voice prosody extraction unit that extracts the prosody of the section determined by the real voice prosody section determination unit from the selected real voice data;
A prosody based on the extracted real voice, and a hybrid prosody generation unit that generates prosody information of the entire synthesized speech section from the prosody model,
The recorded voice selection unit
Compare the sentence and the pronunciation text in the recording voice storage unit, and output the voice data and sentence with the largest number of syllables whose pronunciation coincides with the pronunciation text in the sentence,
The rule composition unit includes:
For the synthesized speech segment, it generates a speech synthesis data by said prosodic information and the speech unit,
The connection composition unit
Connecting the real voice section, the real voice prosody section, and the synthesized voice section in which the prosody information is generated by the hybrid prosody generation unit;
The real voice prosody section determining unit
Wherein in performing pronunciation text and the comparison of the selected sentence, hybrid speech synthesis apparatus characterized that you decide where to use the prosody of the human voice data based on the longest match in syllable.
予め設定された文章を肉声により記録した肉声データと前記文章を予め格納する録音音声格納部と、
前記録音音声格納部に格納された文章と前記発音テキストを比較して、音声合成に使用する肉声データ及び文章を録音音声格納部から選択する録音音声選択部と、
前記発音テキストと前記選択された文章から音声合成により音声を生成する合成音声区間と前記肉声データから音声を生成する肉声区間との境目を決定する接続境界算出部と、
前記決定された合成音声区間に基づいて、予め設定された音声素片と韻律モデルにより音声合成データを生成する規則合成部と、
前記肉声区間に対応する肉声データと、前記生成された音声合成データとを接続して入力されたテキストに対応する合成音声文章を生成する接続合成部と、を備えたハイブリッド音声合成装置において、
前記接続境界算出部で決定された合成音声を使用する合成音声区間において前記肉声データの韻律を使用する肉声韻律区間を決定する肉声韻律区間決定部と、
前記肉声韻律区間決定部で決定された前記区間の韻律を前記選択した肉声データから抽出する肉声韻律抽出部と、
前記抽出された肉声による韻律と、前記韻律モデルから合成音声区間全体の韻律情報を生成するハイブリッド韻律生成部と、を備え、
前記録音音声選択部は、
前記録音音声格納部の前記文章と前記発音テキストを比較して、前記文章のうち前記発音テキストと発音が一致した音節数が最も大きな肉声データ及び文章を出力し、
前記規則合成部は、
前記合成音声区間について、前記音声素片と前記韻律情報により音声合成データを生成し、
前記接続合成部は、
前記肉声区間と、前記肉声韻律区間と、前記ハイブリッド韻律生成部で韻律情報を生成された合成音声区間とを接続し、
前記肉声韻律区間決定部は、
前記発音テキストと前記選択された文章の比較を行う際に、音素単位での最長一致に基づいて前記肉声データの韻律を使用する箇所を決定することを特徴とするハイブリッド音声合成装置。 An input text analysis unit that accepts text to be converted into speech and converts it into pronunciation text;
Real voice data in which a preset sentence is recorded in real voice, and a recording voice storage unit that stores the sentence in advance,
A recorded voice selection unit that compares the pronunciation text with the sentence stored in the recorded voice storage unit, and selects the voice data and sentence used for speech synthesis from the recorded voice storage unit;
A connection boundary calculation unit for determining a boundary between a synthesized speech section for generating speech by speech synthesis from the pronunciation text and the selected sentence and a real voice section for generating speech from the real voice data;
Based on the determined synthesized speech section, a rule synthesizer that generates speech synthesis data based on a preset speech segment and a prosodic model;
In a hybrid speech synthesizer comprising a connection synthesizer that generates a synthesized speech sentence corresponding to a text inputted by connecting the real voice data corresponding to the real voice interval and the generated speech synthesis data,
A real voice prosody section determination unit that determines a real voice prosody section that uses the prosody of the real voice data in a synthetic voice section that uses the synthesized speech determined by the connection boundary calculation unit;
A real voice prosody extraction unit that extracts the prosody of the section determined by the real voice prosody section determination unit from the selected real voice data;
A prosody based on the extracted real voice, and a hybrid prosody generation unit that generates prosody information of the entire synthesized speech section from the prosody model,
The recorded voice selection unit
Compare the sentence and the pronunciation text in the recording voice storage unit, and output the voice data and sentence with the largest number of syllables whose pronunciation coincides with the pronunciation text in the sentence,
The rule composition unit includes:
For the synthesized speech section, generate speech synthesis data from the speech segments and the prosodic information,
The connection composition unit
Connecting the real voice section, the real voice prosody section, and the synthesized voice section in which the prosody information is generated by the hybrid prosody generation unit;
The real voice prosody section determining unit
Wherein in performing pronunciation text and the comparison of the selected sentence, the longest matching feature and be Ruha hybrid speech synthesizer determining where to use the prosody of the human voice data based on the phoneme units.
前記音節または音素に付随する言語情報の一致に基づいて肉声データの韻律を用いる区間を決定することを特徴とする請求項1または請求項2に記載のハイブリッド音声合成装置。 The real voice prosody section determining unit
The hybrid speech synthesizer according to claim 1 or 2 , wherein a section using a prosody of real voice data is determined based on a match of language information associated with the syllable or phoneme .
前記合成音声区間と肉声区間との境目に関する情報を受け付けて、当該情報に基づいて前記境目を決定することを特徴とする請求項1ないし請求項4のいずれかひとつに記載のハイブリッド音声合成装置。 The connection boundary calculation unit
The hybrid speech synthesizer according to any one of claims 1 to 4, wherein information on a boundary between the synthesized speech section and the real voice section is received, and the boundary is determined based on the information .
前記合成音声区間と肉声区間との境目に関する情報を受け付けて、当該情報に基づいて前記境目を決定し、
前記肉声韻律区間決定部は、
前記合成音声区間において前記肉声データの韻律を使用する肉声韻律区間に関する情報を受け付けて当該情報に基づいて前記肉声韻律区間を決定することを特徴とする請求項1ないし請求項4のいずれかひとつに記載のハイブリッド音声合成装置。 The connection boundary calculation unit
Receiving information on the boundary between the synthesized speech section and the real voice section, and determining the boundary based on the information ;
The real voice prosody section determining unit
To any one of claims 1 to claim 4, characterized in that determining the real voice prosody section based on the information accepting information about the real voice prosody interval using the prosody of the human voice data in the synthesized speech segment The hybrid speech synthesizer described.
前記合成音声区間のうち、前記肉声韻律区間については前記音声素片と前記抽出された肉声による韻律を設定し、前記肉声韻律区間を除く合成音声区間については前記韻律モデルの韻律を設定して、当該合成音声区間全体の韻律情報を生成することを特徴とする請求項1または請求項2に記載のハイブリッド音声合成装置。 The hybrid prosody generation unit includes:
Among the synthesized speech segments, the prosody by the speech unit and the extracted real voice is set for the real voice prosody segment, and the prosody of the prosody model is set for the synthesized speech segment excluding the real voice prosody segment, 3. The hybrid speech synthesizer according to claim 1, wherein prosody information of the entire synthesized speech section is generated .
予め設定された文章を肉声により記録した肉声データと前記文章を予め格納した録音音声格納部の前記文章と前記発音テキストを比較して、音声合成に使用する肉声データ及び文章を前記録音音声格納部から選択する録音音声選択処理と、 The recorded voice storage unit stores the real voice data and the sentence used for voice synthesis by comparing the sentence and the pronunciation text of the recorded voice storage unit storing the sentence in advance with the real voice data recording the preset sentence by the real voice Recording voice selection process to select from,
前記発音テキストと前記選択された文章から音声合成により音声を生成する合成音声区間と前記肉声データから音声を生成する肉声区間との境目を決定する接続境界算出処理と、 A connection boundary calculation process for determining a boundary between a synthesized speech section for generating speech by speech synthesis from the pronunciation text and the selected sentence and a real voice section for generating speech from the real voice data;
前記決定された合成音声区間に基づいて、予め設定された音声素片と韻律モデルにより音声合成データを生成する規則合成処理と、 Based on the determined synthesized speech section, a rule synthesis process for generating speech synthesis data using a predetermined speech segment and a prosodic model;
前記肉声区間に対応する肉声データと、前記生成された音声合成データとを接続して入力されたテキストに対応する合成音声文章を生成する接続合成処理と、を計算機で実行することにより合成音声文章を生成するハイブリッド音声合成方法において、 A synthesized speech sentence by executing, by a computer, connection synthesis processing for generating synthesized speech sentences corresponding to input text by connecting the real voice data corresponding to the real voice section and the generated speech synthesis data. In a hybrid speech synthesis method for generating
前記接続境界算出処理で決定された合成音声を使用する合成音声区間において前記肉声データの韻律を使用する肉声韻律区間を決定する肉声韻律区間決定処理と、 A real voice prosody section determination process for determining a real voice prosody section that uses the prosody of the real voice data in a synthetic voice section using the synthesized speech determined in the connection boundary calculation process;
前記肉声韻律区間決定処理で決定された前記区間の韻律を前記選択した肉声データから抽出する肉声韻律抽出処理と、 A real voice prosody extraction process for extracting the prosody of the section determined by the real voice prosody section determination process from the selected real voice data;
前記抽出された肉声による韻律と、前記韻律モデルから合成音声区間全体の韻律情報を生成するハイブリッド韻律生成処理と、を含み、 Including the prosody by the extracted real voice, and a hybrid prosody generation process for generating prosody information of the entire synthesized speech section from the prosody model,
前記録音音声選択処理は、 The recorded voice selection process is:
前記録音音声格納部の前記文章と前記発音テキストを比較して、前記文章のうち前記発音テキストと発音が一致した音節数が最も大きな肉声データ及び文章を出力し、 Compare the sentence and the pronunciation text in the recording voice storage unit, and output the voice data and sentence with the largest number of syllables whose pronunciation coincides with the pronunciation text in the sentence,
前記規則合成処理は、 The rule composition process is:
前記合成音声区間について、前記音声素片と前記韻律情報により音声合成データを生成し、 For the synthesized speech section, generate speech synthesis data from the speech segments and the prosodic information,
前記接続合成処理は、 The connection composition process is as follows:
前記肉声区間と、前記肉声韻律区間と、前記ハイブリッド韻律生成処理で韻律情報を生成された合成音声区間とを接続し、 Connecting the real voice segment, the real voice prosody segment, and the synthesized speech segment generated prosodic information in the hybrid prosody generation process,
前記肉声韻律区間決定処理は、 The real voice prosody section determination process includes:
前記発音テキストと前記選択された文章の比較を行う際に、音節単位での最長一致に基づいて前記肉声データの韻律を使用する箇所を決定することを特徴とするハイブリッド音声合成方法。 A hybrid speech synthesizing method characterized in that, when comparing the pronunciation text and the selected sentence, a portion using the prosody of the real voice data is determined based on the longest match in syllable units.
予め設定された文章を肉声により記録した肉声データと前記文章を予め格納した録音音声格納部の前記文章と前記発音テキストを比較して、音声合成に使用する肉声データ及び文章を前記録音音声格納部から選択する録音音声選択処理と、
前記発音テキストと前記選択された文章から音声合成により音声を生成する合成音声区間と前記肉声データから音声を生成する肉声区間との境目を決定する接続境界算出処理と、
前記決定された合成音声区間に基づいて、予め設定された音声素片と韻律モデルにより音声合成データを生成する規則合成処理と、
前記肉声区間に対応する肉声データと、前記生成された音声合成データとを接続して入力されたテキストに対応する合成音声文章を生成する接続合成処理と、を計算機で実行することにより合成音声文章を生成するハイブリッド音声合成方法において、
前記接続境界算出処理で決定された合成音声を使用する合成音声区間において前記肉声データの韻律を使用する肉声韻律区間を決定する肉声韻律区間決定処理と、
前記肉声韻律区間決定処理で決定された前記区間の韻律を前記選択した肉声データから抽出する肉声韻律抽出処理と、
前記抽出された肉声による韻律と、前記韻律モデルから合成音声区間全体の韻律情報を生成するハイブリッド韻律生成処理と、を含み、
前記録音音声選択処理は、
前記録音音声格納部の前記文章と前記発音テキストを比較して、前記文章のうち前記発音テキストと発音が一致した音節数が最も大きな肉声データ及び文章を出力し、
前記規則合成処理は、
前記合成音声区間について、前記音声素片と前記韻律情報により音声合成データを生成する処理を含み、
前記接続合成処理は、
前記肉声区間と、前記肉声韻律区間と、前記ハイブリッド韻律生成処理で韻律情報を生成された合成音声区間とを接続し、
前記肉声韻律区間決定処理は、
前記発音テキストと前記選択された文章の比較を行う際に、音素単位での最長一致に基づいて前記肉声データの韻律を使用する箇所を決定することを特徴とするハイブリッド音声合成方法。 Input text analysis processing that accepts text to be converted to speech and converts it to pronunciation text;
The recorded voice storage unit stores the real voice data and the sentence used for voice synthesis by comparing the sentence and the pronunciation text of the recorded voice storage unit storing the sentence in advance with the real voice data recording the preset sentence by the real voice Recording voice selection process to select from,
A connection boundary calculation process for determining a boundary between a synthesized speech section for generating speech by speech synthesis from the pronunciation text and the selected sentence and a real voice section for generating speech from the real voice data;
Based on the determined synthesized speech section, a rule synthesis process for generating speech synthesis data using a predetermined speech segment and a prosodic model;
A synthesized speech sentence by executing, by a computer, connection synthesis processing for generating synthesized speech sentences corresponding to input text by connecting the real voice data corresponding to the real voice section and the generated speech synthesis data. In a hybrid speech synthesis method for generating
A real voice prosody section determination process for determining a real voice prosody section that uses the prosody of the real voice data in a synthetic voice section using the synthesized speech determined in the connection boundary calculation process;
A real voice prosody extraction process for extracting the prosody of the section determined by the real voice prosody section determination process from the selected real voice data;
Including the prosody by the extracted real voice, and a hybrid prosody generation process for generating prosody information of the entire synthesized speech section from the prosody model,
The recorded voice selection process is:
Compare the sentence and the pronunciation text in the recording voice storage unit, and output the voice data and sentence with the largest number of syllables whose pronunciation coincides with the pronunciation text in the sentence,
The rule composition process is:
For the synthetic speech segment, it viewed including the process of generating the speech synthesis data by said prosodic information and the speech unit,
The connection composition process is as follows:
Connecting the real voice segment, the real voice prosody segment, and the synthesized speech segment generated prosodic information in the hybrid prosody generation process,
The real voice prosody section determination process includes:
When comparing the pronunciation text with the selected text, maximum features and to Ruha hybrid speech synthesis method to determine where to use the prosody of the human voice data based on a match with phoneme.
前記音節または音素に付随する言語情報の一致に基づいて肉声データの韻律を用いる区間を決定することを特徴とする請求項8または請求項9に記載のハイブリッド音声合成方法。 The real voice prosody section determination process includes:
The hybrid speech synthesis method according to claim 8 or 9, wherein a section using a prosody of real voice data is determined based on a match of linguistic information associated with the syllable or phoneme .
前記合成音声区間と肉声区間との境目に関する情報を受け付けて、当該情報に基づいて前記境目を決定することを特徴とする請求項8ないし請求項11のいずれかひとつに記載のハイブリッド音声合成方法。 The connection boundary calculation process includes:
The hybrid speech synthesis method according to any one of claims 8 to 11, wherein information on a boundary between the synthesized speech section and the real voice section is received, and the boundary is determined based on the information .
前記合成音声区間と肉声区間との境目に関する情報を受け付けて、当該情報に基づいて前記境目を決定し、
前記肉声韻律区間決定処理は、
前記合成音声区間において前記肉声データの韻律を使用する肉声韻律区間に関する情報を受け付けて当該情報に基づいて前記肉声韻律区間を決定することを特徴とする請求項8ないし請求項11のいずれかひとつに記載のハイブリッド音声合成方法。 The connection boundary calculation process includes:
Receiving information on the boundary between the synthesized speech section and the real voice section, and determining the boundary based on the information;
The real voice prosody section determination process includes:
12. The real voice prosody section is received according to information on a real voice prosody section that uses the prosody of the real voice data in the synthesized speech section, and the real voice prosody section is determined based on the information. The described hybrid speech synthesis method.
前記合成音声区間のうち、前記肉声韻律区間については前記音声素片と前記抽出された肉声による韻律を設定し、前記肉声韻律区間を除く合成音声区間については前記韻律モデルの韻律を設定して、当該合成音声区間全体の韻律情報を生成することを特徴とする請求項8または請求項9に記載のハイブリッド音声合成方法。 The hybrid prosody generation process includes:
Among the synthesized speech segments, the prosody by the speech unit and the extracted real voice is set for the real voice prosody segment, and the prosody of the prosody model is set for the synthesized speech segment excluding the real voice prosody segment, hybrid speech synthesis method according to claim 8 or claim 9 you and generates a prosodic information of the entire synthesized speech segment.
音声に変換するテキストを受け付けて発音テキストに変換する入力テキスト解析処理と、 Input text analysis processing that accepts text to be converted to speech and converts it to pronunciation text;
予め設定された文章を肉声により記録した肉声データと前記文章を予め格納した録音音声格納部の前記文章と前記発音テキストを比較して、音声合成に使用する肉声データ及び文章を前記録音音声格納部から選択する録音音声選択処理と、 The recorded voice storage unit stores the real voice data and the sentence used for voice synthesis by comparing the sentence and the pronunciation text of the recorded voice storage unit storing the sentence in advance with the real voice data recording the preset sentence by the real voice Recording voice selection process to select from,
前記発音テキストと前記選択された文章から音声合成により音声を生成する合成音声区間と前記肉声データから音声を生成する肉声区間との境目を決定する接続境界算出処理と、 A connection boundary calculation process for determining a boundary between a synthesized speech section for generating speech by speech synthesis from the pronunciation text and the selected sentence and a real voice section for generating speech from the real voice data;
前記接続境界算出処理で決定された合成音声を使用する合成音声区間において前記肉声データの韻律を使用する肉声韻律区間を決定する肉声韻律区間決定処理と、 A real voice prosody section determination process for determining a real voice prosody section that uses the prosody of the real voice data in a synthetic voice section using the synthesized speech determined in the connection boundary calculation process;
前記肉声韻律区間決定処理で決定された前記区間の韻律を前記選択した肉声データから抽出する肉声韻律抽出処理と、 A real voice prosody extraction process for extracting the prosody of the section determined by the real voice prosody section determination process from the selected real voice data;
前記抽出された肉声による韻律と、前記韻律モデルから合成音声区間全体の韻律情報を生成するハイブリッド韻律生成処理と、 The prosody by the extracted real voice, and a hybrid prosody generation process for generating prosody information of the entire synthesized speech section from the prosody model;
前記決定された合成音声区間に基づいて、予め設定された音声素片と前記韻律情報により音声合成データを生成する規則合成処理と、 Based on the determined synthesized speech section, a rule synthesis process for generating speech synthesis data from a predetermined speech segment and the prosodic information;
前記肉声区間と、前記肉声韻律区間と、前記ハイブリッド韻律生成処理で韻律情報を生成された合成音声区間とを接続して入力されたテキストに対応する合成音声文章を生成する接続合成処理と、を計算機に機能させ、 A connection synthesis process for generating a synthesized speech sentence corresponding to the input text by connecting the real voice segment, the real voice prosody segment, and the synthesized speech segment for which prosody information is generated by the hybrid prosody generation process; Let the calculator work,
前記録音音声選択処理は、 The recorded voice selection process is:
前記録音音声格納部の前記文章と前記発音テキストを比較して、前記文章のうち前記発音テキストと発音が一致した音節数が最も大きな肉声データ及び文章を出力し、 Compare the sentence and the pronunciation text in the recording voice storage unit, and output the voice data and sentence with the largest number of syllables whose pronunciation coincides with the pronunciation text in the sentence,
前記肉声韻律区間決定処理は、 The real voice prosody section determination process includes:
前記発音テキストと前記選択された文章の比較を行う際に、音節単位での最長一致に基づいて前記肉声データの韻律を使用する箇所を決定することを特徴とするプログラム。 When comparing the pronunciation text and the selected sentence, a program is used to determine a location where the prosody of the real voice data is used based on the longest match in syllable units.
音声に変換するテキストを受け付けて発音テキストに変換する入力テキスト解析処理と、
予め設定された文章を肉声により記録した肉声データと前記文章を予め格納した録音音声格納部の前記文章と前記発音テキストを比較して、音声合成に使用する肉声データ及び文章を前記録音音声格納部から選択する録音音声選択処理と、
前記発音テキストと前記選択された文章から音声合成により音声を生成する合成音声区間と前記肉声データから音声を生成する肉声区間との境目を決定する接続境界算出処理と、
前記接続境界算出処理で決定された合成音声を使用する合成音声区間において前記肉声データの韻律を使用する肉声韻律区間を決定する肉声韻律区間決定処理と、
前記肉声韻律区間決定処理で決定された前記区間の韻律を前記選択した肉声データから抽出する肉声韻律抽出処理と、
前記抽出された肉声による韻律と、前記韻律モデルから合成音声区間全体の韻律情報を生成するハイブリッド韻律生成処理と、
前記決定された合成音声区間に基づいて、予め設定された音声素片と前記韻律情報により音声合成データを生成する規則合成処理と、
前記肉声区間と、前記肉声韻律区間と、前記ハイブリッド韻律生成処理で韻律情報を生成された合成音声区間とを接続して入力されたテキストに対応する合成音声文章を生成する接続合成処理と、を計算機に機能させ、
前記録音音声選択処理は、
前記録音音声格納部の前記文章と前記発音テキストを比較して、前記文章のうち前記発音テキストと発音が一致した音節数が最も大きな肉声データ及び文章を出力し、
前記肉声韻律区間決定処理は、
前記発音テキストと前記選択された文章の比較を行う際に、音素単位での最長一致に基づいて前記肉声データの韻律を使用する箇所を決定することを特徴とするプログラム。 A program that converts received text into synthesized speech,
Input text analysis processing that accepts text to be converted to speech and converts it to pronunciation text;
The recorded voice storage unit stores the real voice data and the sentence used for voice synthesis by comparing the sentence and the pronunciation text of the recorded voice storage unit storing the sentence in advance with the real voice data recording the preset sentence by the real voice Recording voice selection process to select from,
A connection boundary calculation process for determining a boundary between a synthesized speech section for generating speech by speech synthesis from the pronunciation text and the selected sentence and a real voice section for generating speech from the real voice data;
A real voice prosody section determination process for determining a real voice prosody section that uses the prosody of the real voice data in a synthetic voice section using the synthesized speech determined in the connection boundary calculation process;
A real voice prosody extraction process for extracting the prosody of the section determined by the real voice prosody section determination process from the selected real voice data;
The prosody by the extracted real voice, and a hybrid prosody generation process for generating prosody information of the entire synthesized speech section from the prosody model;
Based on the determined synthesized speech section, a rule synthesis process for generating speech synthesis data from a predetermined speech segment and the prosodic information;
A connection synthesis process for generating a synthesized speech sentence corresponding to the input text by connecting the real voice segment, the real voice prosody segment, and the synthesized speech segment for which prosody information is generated by the hybrid prosody generation process ; Let the calculator work ,
The recorded voice selection process is:
Compare the sentence and the pronunciation text in the recording voice storage unit, and output the voice data and sentence with the largest number of syllables whose pronunciation coincides with the pronunciation text in the sentence,
The real voice prosody section determination process includes:
When comparing the pronunciation text and the selected sentence, a program is used to determine a location where the prosody of the real voice data is used based on the longest match in phoneme units.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007182081A JP4964695B2 (en) | 2007-07-11 | 2007-07-11 | Speech synthesis apparatus, speech synthesis method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007182081A JP4964695B2 (en) | 2007-07-11 | 2007-07-11 | Speech synthesis apparatus, speech synthesis method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009020264A JP2009020264A (en) | 2009-01-29 |
JP4964695B2 true JP4964695B2 (en) | 2012-07-04 |
Family
ID=40359959
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007182081A Expired - Fee Related JP4964695B2 (en) | 2007-07-11 | 2007-07-11 | Speech synthesis apparatus, speech synthesis method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4964695B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5866728B2 (en) | 2011-10-14 | 2016-02-17 | サイバーアイ・エンタテインメント株式会社 | Knowledge information processing server system with image recognition system |
JP6669081B2 (en) * | 2014-12-24 | 2020-03-18 | 日本電気株式会社 | Audio processing device, audio processing method, and program |
CN111583901B (en) * | 2020-04-02 | 2023-07-11 | 湖南声广科技有限公司 | Intelligent weather forecast system of broadcasting station and weather forecast voice segmentation method |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3089715B2 (en) * | 1991-07-24 | 2000-09-18 | 松下電器産業株式会社 | Speech synthesizer |
JPH1138989A (en) * | 1997-07-14 | 1999-02-12 | Toshiba Corp | Device and method for voice synthesis |
JP3587048B2 (en) * | 1998-03-02 | 2004-11-10 | 株式会社日立製作所 | Prosody control method and speech synthesizer |
JP3601974B2 (en) * | 1998-05-26 | 2004-12-15 | 株式会社リコー | Voice synthesis device and voice synthesis method |
JP2002169581A (en) * | 2000-11-29 | 2002-06-14 | Matsushita Electric Ind Co Ltd | Method and device for voice synthesis |
JP4167084B2 (en) * | 2003-01-31 | 2008-10-15 | 日本電信電話株式会社 | Speech synthesis method and apparatus, and speech synthesis program |
JP4287785B2 (en) * | 2003-06-05 | 2009-07-01 | 株式会社ケンウッド | Speech synthesis apparatus, speech synthesis method and program |
JP4525162B2 (en) * | 2004-05-07 | 2010-08-18 | 三菱電機株式会社 | Speech synthesizer and program thereof |
JP2007212884A (en) * | 2006-02-10 | 2007-08-23 | Fujitsu Ltd | Speech synthesizer, speech synthesizing method, and computer program |
-
2007
- 2007-07-11 JP JP2007182081A patent/JP4964695B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2009020264A (en) | 2009-01-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7178028B2 (en) | Speech translation method and system using multilingual text-to-speech synthesis model | |
US11443733B2 (en) | Contextual text-to-speech processing | |
US7809572B2 (en) | Voice quality change portion locating apparatus | |
Isewon et al. | Design and implementation of text to speech conversion for visually impaired people | |
US8825486B2 (en) | Method and apparatus for generating synthetic speech with contrastive stress | |
US9978359B1 (en) | Iterative text-to-speech with user feedback | |
US20150106101A1 (en) | Method and apparatus for providing speech output for speech-enabled applications | |
KR20210082153A (en) | Method and system for generating synthesis voice for text via user interface | |
US8914291B2 (en) | Method and apparatus for generating synthetic speech with contrastive stress | |
JP2003295882A (en) | Text structure for speech synthesis, speech synthesizing method, speech synthesizer and computer program therefor | |
US20100066742A1 (en) | Stylized prosody for speech synthesis-based applications | |
WO2004066271A1 (en) | Speech synthesizing apparatus, speech synthesizing method, and speech synthesizing system | |
US8155963B2 (en) | Autonomous system and method for creating readable scripts for concatenative text-to-speech synthesis (TTS) corpora | |
Zhang et al. | Deep learning for mandarin-tibetan cross-lingual speech synthesis | |
KR20170057623A (en) | An apparatus for the linguistically disabled to synthesize the pronunciation and the script of words of a plural of designated languages | |
US9484014B1 (en) | Hybrid unit selection / parametric TTS system | |
JP6013104B2 (en) | Speech synthesis method, apparatus, and program | |
JP4964695B2 (en) | Speech synthesis apparatus, speech synthesis method, and program | |
Toman et al. | Unsupervised and phonologically controlled interpolation of Austrian German language varieties for speech synthesis | |
JPH08335096A (en) | Text voice synthesizer | |
Kaveri et al. | A novel approach for hindi text description to speech and expressive speech synthesis | |
JP2006349787A (en) | Method and device for synthesizing voices | |
Ananthi et al. | Syllable based concatenative synthesis for text to speech conversion | |
JP2016122033A (en) | Symbol string generation device, voice synthesizer, voice synthesis system, symbol string generation method, and program | |
JP6197362B2 (en) | Speech synthesis method, program, and apparatus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20100113 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20100113 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100217 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20111101 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111108 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120110 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120228 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120328 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4964695 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150406 Year of fee payment: 3 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |