JP2009020264A

JP2009020264A - 音声合成装置及び音声合成方法並びにプログラム

Info

Publication number: JP2009020264A
Application number: JP2007182081A
Authority: JP
Inventors: Kenji Nagamatsu; 健司永松; Ryota Kamoshita; 亮太鴨志田; Yusuke Fujita; 雄介藤田
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2007-07-11
Filing date: 2007-07-11
Publication date: 2009-01-29
Anticipated expiration: 2027-07-11
Also published as: JP4964695B2

Abstract

【課題】合成音声区間と部分的に一致する肉声区間を検出して、その肉声区間の韻律（抑揚・リズム）情報を合成音声に付与し、肉声と合成音声を自然に結合させる。
【解決手段】録音音声格納手段、入力テキスト解析手段、録音音声選択手段、接続境界算出手段、規則合成手段、接続合成手段に加えて、合成音声区間のうちで録音済みの肉声と部分的に一致する区間を決定する肉声韻律区間決定手段と、その一致部分の肉声韻律を抽出する肉声韻律抽出手段と、抽出された肉声韻律を使って合成音声区間全体の韻律情報を生成するハイブリッド韻律生成手段を備える。
【選択図】図２

Description

本発明は、音声合成装置および音声合成方法に関係する。特に、合成音声と肉声とを併用してアナウンス音声を作成するハイブリッド音声合成装置に関係する。

鉄道や公共施設での自動アナウンス、または銀行や証券会社などでの電話による情報提供システムのように、音声を使って情報を提供するシステムが大きく普及してきている。これらの応用分野で利用される音声メッセージには、固定的な表現が多いという特徴がある。例えば、鉄道での放送例では、「まもなく、５番線に東京行きがまいります」というアナウンス音声は、「５番線」「東京」という部分を変更して様々なバリエーションが利用されることが多い。

そのため、このような固定的な表現が多い自動アナウンス分野で利用されるアナウンスシステムでは、固定的な表現部分を肉声音声の部品として用意しておき、それらを適宜組み合わせることによってアナウンス音声を作成する。例えば、上記のアナウンス例では、「まもなく」「５番線に」「東京行きが」「まいります」という音声部品を結合することで文章としてのアナウンス音声を作成するという手法が採用されている。これを録音編集方式と呼び、上記のようなアナウンス分野では、現在主流となっている方式（システム）である。

この録音編集方式では、肉声部品を結合するという方法であるため、肉声感という点での品質は高い。しかし、細切れの音声部品を結合させるため、抑揚やリズムが合わせづらくなり、音声の自然性という観点での品質は落ちてしまう。さらに、音声部品はあらかじめ録音しておかねばならないため、新しい語句が追加された場合には再録音が必要となり、コストや利便性にかける方式となっている。

一方、音声合成やＴＴＳ（Ｔｅｘｔ−ｔｏ−Ｓｐｅｅｃｈ）技術と呼ばれる規則合成方式を用いて音声を合成すると、任意の文章を読み上げる音声データを生成することが可能となる。この規則合成方式については、「ディジタル音声処理」（古井貞煕、東海大学出版会）や「ＰｒｏｇｒｅｓｓｉｎＳｐｅｅｃｈＳｙｎｔｈｅｓｉｓ」（ＶＡＮＳＡＮＴＥＮ他、Ｓｐｒｉｎｇｅｒ）などに詳細な記述がある。しかし、この方式は任意の文章を音声に変換することが可能な反面、肉声感や自然性という点では、録音編集方式に及ばない。

そこで、上記の録音編集方式の問題点を解決するために、録音編集方式と規則合成方式を併用したハイブリッド方式というものが考えられている。これは、定型的な表現部分、たとえば、上記の文例では「まもなく」や「まいります」などには録音された肉声音声部品を用い、内容が変更される可能性がある「５番線に」や「東京行きが」の部分については、ＴＴＳ技術で生成された合成音声部品を用いて、それらを結合して音声メッセージを作成するという手法である。これによって、録音編集方式の肉声感を保ちつつも、任意の語句に対応できるというＴＴＳ技術の柔軟性を兼ね備えることが可能となる。

しかし、抑揚やリズムの自然性が低いという録音編集方式の問題点は、このハイブリッド方式でも残るため、それを解決する手法として例えば次のような可変位置でのハイブリッド方式が考えられる。これは、合成音声部分と肉声部分との結合位置を、上記のハイブリッド方式の例のように語句・文節単位とするのではなく、無声子音やパワーの小さい音素位置を動的に探索するなどしてより自由に結合位置を決定することで、音声部品間の結合位置を目立たないようにすることを特徴する。さらに、合成音声部分の抑揚・リズムをその前後の肉声部分に合わせて調整することで全体の自然性を向上させることができる。

また、逆の観点から、定型的な表現が多い場合に音声合成方式の肉声感や自然性を向上させる技術も発明されている。例えば、特許文献１に示す発明では、音声合成を行う際に、定型的な表現部分の韻律（抑揚・リズム）情報として、肉声そのものから取得した情報を利用する技術を開示している。この技術を用いることで、音声合成方式ではありながらも、定型的な表現部分では肉声とほぼ同等の抑揚・リズムの自然性が得られることとなる。
特開平１１−２４９６７７号公報

上記の可変位置ハイブリッド方式を用いることで、肉声部分と合成音声部分との結合位置が目立たなくなり、合成音声部分の抑揚・リズムが肉声に合うように調整されることで、その自然性も向上することになる。しかし、その調整技術がまだ不十分なため、合成音声部分が合成音声であるということが分かってしまい、その結果、品質を大きく下げてしまうという問題がある。

そこで、特許文献１が開示する技術を音声合成部分に適用して、その自然性を肉声とほぼ同等にすることで解決するという手法が考えられる。しかし、二つの手法を単純に組み合わせるだけでは解決することができない。これは、上記の可変位置ハイブリッド方式を実施したシステムで音声メッセージを作成する場合に、合成音声技術が使われる区間と同じ内容、より正確には同じ音韻の肉声が録音されている場合にのみ、かつ同じ音韻部分にのみ、特許文献１の技術を適用できるからである。つまり、同じ内容の肉声が録音されていない場合は適用自体が不可能である。合成音声が使われる区間は任意の語句であることを考えると、同じ内容の肉声が録音されているという可能性はかなり低いと想定せざるをえない。

本発明は上記の問題を鑑みてなされたものであり、可変位置ハイブリッド方式を実施した場合の合成音声区間と部分的に一致する肉声区間を検出して、その肉声区間の韻律（抑揚・リズム）情報を合成音声に付与することで問題を解決する。そして、肉声と合成音声を従来技術よりも自然に結合させることで、肉声感・自然性がともに高い音声メッセージを作成可能なハイブリッド音声合成装置を提供することを目的とする。

本発明は、音声に変換するテキストを受け付けて発音テキストに変換する入力テキスト解析処理と、予め設定された文書を肉声により記録した肉声データと前記文章を予め格納した録音音声格納部の前記文章と前記発音テキストを比較して、音声合成に使用する肉声データ及び文章を前記録音音声格納部から選択する録音音声選択処理と、前記発音テキストと前記選択された文章から音声合成により音声を生成する合成音声区間と前記肉声データから音声を生成する肉声区間との境目を決定する接続境界算出処理と、前記接続境界算出処理で決定された合成音声を使用する合成音声区間において前記肉声データの韻律を使用する肉声韻律区間を決定する肉声韻律区間決定処理と、前記肉声韻律区間決定処理で決定された前記区間の韻律を前記選択した肉声データから抽出する肉声韻律抽出処理と、前記抽出された肉声による韻律と、前記韻律モデルから合成音声区間全体の韻律情報を生成するハイブリッド韻律生成処理と、前記決定された合成音声区間に基づいて、予め設定された音声素片と前記韻律情報により音声合成データを生成する規則合成処理と、前記肉声区間に対応する肉声データと、前記生成された音声合成データとを接続して入力されたテキストに対応する合成音声文章を生成する接続合成処理と、を含む。

したがって、本発明により、肉声データと合成音声を結合して、肉声感・自然性の高い音声メッセージを作成することが可能なハイブリッド音声合成装置において、その合成音声区間の自然性をさらに向上させることができる。これにより、さらに自然性が高く高品質な音声メッセージの作成が可能となる。

以下、本発明の一実施形態を添付図面に基づいて説明する。

図１は、本発明の第１の実施形態を示す音声合成装置のブロック図である。音声合成装置１は、演算処理を行うＣＰＵ（プロセッサ）３と、データやプログラムを格納するメモリ２と、データやプログラムを格納するストレージ装置５と、演算結果などを表示する表示装置４と、音声を出力する音声再生装置６を含んで構成される。メモリ２には、テキストを生成するプログラムとしてテキスト生成部７と、テキスト生成部７が出力したテキストを音声に変換する音声合成部８がロードされ、ＣＰＵ３により実行される。音声合成部８では、テキストを音声データに変換して出力し、ＣＰＵ３は音声データを音声再生装置６に送信して音声の出力を指令する。

なお、テキスト生成部７は、後述するように、カーナビゲーション装置等における誘導情報をテキストで生成するソフトウェアモジュールとして機能するものである。また、ストレージ装置５には、後述するように音声合成部８が利用する各種データが格納される。

図２は、図１に示した音声合成部８の機能ブロック図である。

図２において、本発明の音声合成装置１および音声合成手法の基本的構成は、テキスト生成部７から入力されたテキスト１０の内容を解析して録音された肉声部品（肉声録音音声データ）を使う部分と合成音声部品を使う部分とを切り分けるための発音テキスト２１を生成する入力テキスト解析部２０と、音声合成に使われる文章録音音声（＝肉声録音音声データ）を多数格納した録音音声格納部３０から肉声部品（＝肉声録音音声データの一部または全部）の素材として使用可能な録音文章を決定する録音音声選択部４０と、選択された録音文章の中から音声合成による合成音声区間と肉声録音音声データからなる肉声区間との境目（境界）を決定する接続境界算出部５０と、合成音声を使用する合成音声区間において肉声録音音声データの韻律をそのまま使用できる箇所を決定する肉声韻律区間決定部６０と、肉声録音音声データの韻律を使うと決定された箇所に対応する韻律情報を肉声録音音声データから抽出する肉声韻律抽出部７０と、抽出された韻律情報に基づいて新規に音声合成する部分の韻律を補完して音声合成する区間全体のハイブリッド韻律情報を生成するハイブリッド韻律生成部８０と、生成されたハイブリッド韻律情報に基づいて音声素片データベース１１０と韻律モデル１２０内のデータを用いて音声合成を行う規則合成部１００と、肉声部品区間と合成音声区間とを接続して入力されたテキストに対応する合成音声文章全体を生成する接続合成部９０とで構成される。

次に、本発明の基本的構成な図２において、各要素を具体的にどのような装置として構成すればよいかを説明する。ここでは、本音声合成装置１をカーナビゲーションシステムでのガイダンス音声を音声合成する装置として実装する場合について具体的な説明を行う。

まず、入力テキスト１０は、例えばキーボードやタッチパネル等でのデジタルペンを用いて入力され、電子データとして入力テキスト解析部２０に渡される。これらの他にも、文字認識装置（ＯＣＲ）を使うなど様々な入力装置が考えられる。また、あらかじめ音声合成される入力テキストをストレージ装置５のデータベースに格納しておいても良いし、図示しないテキスト処理装置やテキスト処理手法を用いて新たなテキストを動的に生成してもかまわない。

本第１実施形態の場合では、入力テキスト１０として図３に示す「まもなく、渋谷南バイパスの先を右折です。」というデータが音声合成装置１へ入力されたものとして処理の流れを説明する。

次に、録音音声格納部３０は、音声合成される文章に対して肉声部品として使用可能な肉声録音音声データを多数格納したデータベースである。録音音声格納部３０は、音声コーパスとも呼ばれる、様々なデータベース装置、データ格納技術を用いて実現は容易である。

本実施形態において、肉声録音音声データは、所定の文章を人間がしゃべった音声（文章録音音声）を予め記録したものである。録音音声格納部３０の一例としては、例えば、図４に示す構造の表（またはリレーショナルデータベース）の形態でデータが格納しておくことができる。ここで肉声録音音声データ自体は、録音音声格納部３０内の音声ファイル２２０に予め格納されている。さらに、録音音声格納部３０には、音声ファイル２２０の肉声録音音声データをテキストに変換したものが録音音声テキスト２１０として格納され、録音音声テキスト２１０の発音をテキストに変換した情報が録音音声発音テキスト２３０に格納されている。また、録音音声テキスト２１０に対応する音声ファイル２２０と録音音声発音テキスト２３０は、ＩＤ２００により一連のデータとして対応付けられる。これらＩＤ２００に対応する録音音声テキスト２１０、音声ファイル２２０及び録音音声発音テキスト２３０を録音音声情報とする。

図４に示す録音音声発音テキスト２３０には、アクセントの位置やフレーズの区切りなどを示す記号は削除して、音節（ア、カ、ギなどの母音と子音の組で構成される単位）のみを示すカナ文字だけで記述しているが、アクセント等の記号も含めた発音記号列テキストというフォーマットで格納しておくことも可能である。そのほかにも、音素文字列、または音素ＩＤ列など、その音声がどのような音素（Ａ、Ｋ、Ｇ、Ｉなどの母音と子音を合わせた単位）で構成されているかを示すに足る情報が格納されていれば良い。以下では、音節の単位、音素の単位など分けずに、より抽象的に音韻と呼ぶこととする。

次に、入力テキスト解析部２０は、テキスト生成部７から入力されたテキスト１０に対してテキスト解析処理、または自然言語解析処理とよばれる解析処理を行い、のちの録音音声選択部４０や接続境界算出部５０などで利用しやすい形態の情報を抽出、または変換することを目的とする。ここでの具体的な処理は肉声韻律区間としてどのような種類を選択するかなどの実装に依存するものとなる。本第１実施形態の場合、図３に示した入力テキスト１０を、図５に示す発音テキスト２１に変換する処理を行う。図３の入力テキスト１０を図５の発音テキスト２１に変換する手法としては、自然言語解析処理、具体的には単語辞書データを用いた形態素解析を行うことで実現できる。この手法については、例えば、「自然言語処理」（長尾真編、岩波書店）などに開示されている。また、別の手法としては、辞書データが不要なパターンマッチング技術を使うことも可能であろう。その場合は、録音音声格納部３０には、図４の録音音声発音テキスト２３０の代わりに、図６に示すようなマッチングパターンを持っておくことで実現できる。図６のマッチングパターンは、ＩＤ２００１に対応する録音音声テキスト２１０１と、録音音声テキスト２１０１の要部を含むマッチングパターン２１０２とから構成される。この場合は、文字列マッチング処理（上記文献などで広く開示されている）を適用することで、記号「＊」をワイルドカード（どんな文字列とでもマッチング可能）とみなして、最も良く（ワイルドカード部分が最も短くなる）一致する録音音声情報を検索するという処理となる。

次に、録音音声選択部４０は、入力テキスト解析部２０で解析された情報（図５の発音テキスト２１）に基づいて、入力テキスト１０に最も近い、つまり同じ内容の肉声部分を多く含む肉声録音音声データ（音声ファイル２２０）を録音音声格納部３０から選択するための処理である。

この処理は、発音テキスト２１と録音音声発音テキスト２３０で共通に含まれる音節の数をカウントすることで実現可能である。第１実施形態の場合、図５の入力テキスト解析結果（発音テキスト２１）と、録音音声格納部３０に格納されているそれぞれの肉声録音音声データの録音音声発音テキスト２３０との比較を実施する。

この比較の結果、図７に示すような一致音節数を各肉声録音音声データに対して算出することができる。図７は、録音音声格納部３０の録音音声テキスト２１０に対応する録音音声発音テキスト２３０のうち、発音テキスト２１と発音が一致した音節数２４０をテーブルとして示したものである。この中で、最も一致音節数２４０が大きな肉声録音音声データを含む録音音声情報を録音音声選択部４０の出力結果とすればよい。ここでの音節比較処理は、音節比較の順序を入れ替えないようにしなければならない。例えば、図８（ａ）は、図４に示したＩＤ＝２の録音音声発音テキスト２３０と発音テキスト２１の比較結果を示す。図８（ａ）において、「マモナク」までは一対一で対応してきて、「シ」「ブ」「ヤ」について一致する音節がなく、再び「ミナミ」以降は一対一で対応する音声が存在するため簡単に比較処理が可能であるが、発音テキストによってはテキスト左側の音節を優先して一致させることで後半部の一致音節数が少なくなる場合も存在する。このような場合に対しては、例えば文字列比較方式を最左最短一致方式にしたり、または、複数の一致パターンを生成させてすべての中で最も一致音節数が多い一致パターンを選択するという処理にしたりするなどして、より適切な一致音声を選択することは可能である。

また、図８（ｂ）は、ＩＤ＝２とは一部が異なる録音音声発音テキスト２３０と発音テキスト２１の比較結果を示す。この例のように、図８（ａ）よりも一致音節数が多くなるが、非一致部分、すなわち後ほど音声合成処理によって合成音声部品が生成される区間が極端に短くなる場合も出現する。音声合成処理によっては短い合成音声の生成に適しない方式もあるため、このような場合には図８（ａ）の一致パターンを優先させるなど、利用する音声合成部の処理内容によって比較結果の順序づけをすることも考えられる。これらの図８（ａ）と図８（ｂ）などの一致パターンの優先順位の決定方法としては、例えば、入力テキスト１０から求めた発音テキスト２１と録音音節発音テキスト２３０とを比較して、録音音声発音テキスト２３０内で不一致だった箇所の文字数ごとに、図１６に示す不一致コストを参照して、図１５に示すようにトータルの不一致コストというものを計算することができる。この不一致コストを比較することで、一致音節数は少なくても、より不一致コストの小さな図１５（ａ）の一致パターンを優先するということが可能となる。なお、図１６は不一致文字数と不一致コストの関係を予め設定したテーブルである。

ここで、図８に示す不一致コストの設定方法は、本発明では録音音声情報（図１５に示す録音音声発音テキスト２３０に相当する肉声録音音声データ）のうち、入力テキスト１０（発音テキスト２１）の音節と一致した部分のみがそのまま利用されるということを考慮して、肉声（肉声録音音声データ）の間に結合される合成音声区間の長さに応じて設定しておく必要がある。図８の例では、単純に不一致文字数のみに応じて不一致コストを定義しているが、不一致文字およびその前後の音韻がどのような種類のものかという音韻環境に応じて不一致コストを設定することもできる。このような設定方法を採れば、肉声録音音声データの無音区間で結合される場合には、たとえ不一致文字数が極端に少なくも、不一致コストを小さくすることで、よりスムーズな一致パターンを優先させるということも可能となる。

この順序づけの変更方法は、音声合成部（規則合成部１００）として、どのような特徴のものを採用するか決定した時点で、すなわち、本発明のシステムを実施した時点で、また、この録音音声選択部４０での処理は、音節単位ではなく、より細かな音素単位にすることもでき、処理の手法については音節と同様となる。

ここで、音節単位で処理するか、音素単位で処理するかは、音声合成部（規則合成部１００）がどこまで小さい単位でも音声合成に対応しているかに依存する。もし、規則合成部１００が音節単位での音声合成までしか対応していないのであれば、この録音音声選択部４０と関連する録音音声格納部３０、さらに以降の接続境界算出部５０からハイブリッド韻律生成部８０まですべてが、音節単位での処理を行わなければならない。

一方、規則合成部１００が音素単位での音声合成に対応しているのであれば、録音音声格納部３０からハイブリッド韻律生成部８０までの処理は、音節単位と音素単位のどちらを選ぶことも可能である。本発明の目的である、肉声（肉声録音音声データ）と合成音声をよりスムーズに結合することを目的とするのであれば、より詳細な単位である音素単位での処理を基本とすることが望ましい。

次に、接続境界算出部５０では、録音音声選択部４０で選択された肉声録音音声データ（音声ファイル２２０）に対して、どの部分を肉声そのままの肉声部品として利用し、どの部分を合成音声処理で生成された合成音声部品を使うかを決定する。一番簡単な手法としては、録音音声選択部４０で実行された音節比較処理の結果で、一致した音節部分については肉声録音音声データ（音声ファイル２２０）の肉声を使い、それ以外の非一致部分については音声合成で生成された合成音声部品を使うという方法を用いることができる。

しかしながら、実際の音声（肉声）では、音節間がなめらかにつながった音声となっているため、単純にすべての音節間で肉声と合成音声を滑らかに結合可能なわけではない。この課題を解決する手法として、次に説明する可変位置ハイブリッド方式と呼ぶべきものがある。

このハイブリッド方式の手法によると、すべての音節、またはすべての音素間で、それらの接続のしやすさ（肉声と合成音声の結合のしやすさ）を示す接続コストを算出し、最も接続コストの小さな箇所で接続（肉声と合成音声の結合）が行われるように、合成音声部品の長さを伸ばすという処理がなされる。

より具体的には、無声子音先頭のポーズ位置や、音声パワーが十分に小さくなる音素境界を選択し、この音素境界まで合成音声部分を拡大するという処理を行うことができる。すなわち、肉声と合成音声の結合位置が常に一定ではなく、内容に応じて結合位置を動的に変更するという手法である。

例えば、本第１実施形態のケースで、図８（ａ）の比較によって肉声録音音声データＩＤ２が選択された場合を考える（図９）。この場合、音素・音節の一致比較処理のみで決定された肉声利用部分は「マモナク」「ミナミバイパスオウセツデス」となり、その途中の「シブヤ」は音声合成で生成された合成音声部品を利用する。しかし、「シブヤ」の「ヤ」と「ミナミバイパス」の「ミ」は両方とも有声音声であり、その間で音声を結合するとノイズが生じることになる。

そこで、無音区間や音声パワーの小さな箇所まで合成音声部分を拡大する処理を行う。図９の例の場合、「シブヤ」の直前は無音区間であるので、こちらの結合位置は変化しない。一方、「シブヤ」の後ろ側は、次に無音区間、まはた音声パワーが小さい箇所を探索すると「バイパス」の「パ」の箇所が見つかる。音節「パ」の先頭には破裂音音素「ｐ」が存在しており、ここでは一旦、音声信号が０となる無音区間が生じる。この無音箇所で肉声（肉声録音音声データ）と合成音声を結合するとノイズを生じない。この結果、接続境界算出部５０からは、図１０に示すように、選択された録音音声ＩＤ＝２と、肉声部品を使う区間である「マモナク」と「パスノサキオウセツデス」、そして、合成音声部品を使う区間となる「シブヤミナミバイ」が出力される。

次に、肉声韻律区間決定部６０は、合成音声部品として音声合成処理される音節区間のうち、元の肉声録音音声データの韻律情報が利用できる区間を決定する処理を行う。この処理が本発明の基本的な部分であり、上記従来の可変位置ハイブリッド方式などの技術によって、肉声（肉声録音音声データ）と合成音声の結合を滑らかに行える箇所にまで（接続境界算出部５０において）拡大された合成音声区間の中から肉声録音音声データから抽出された韻律情報を利用できる箇所を特定する処理を基本とする。

以下、第１実施形態のケースで具体的に説明する。接続境界算出部５０によって、図８（ａ）に示される一致音節部分（上下の実線）が、肉声韻律区間決定部６０によって図９に示される一致音節部分へと縮小される。つまり、非一致部分である合成音声部分が「シブヤ」から「シブヤミナミバイ」にまで拡大されている。

ここで図１０のような処理結果の情報が肉声韻律区間決定部６０に入力されると、合成音声区間「シブヤミナミバイ」と、この合成音声区間に対応する肉声録音音声データの区間「ナカノミナミバイ」との比較処理が行われる。ここでの比較も、上述の最左最短一致などの文字列マッチング手法を用いて一致部分を決定することができる。

肉声韻律区間決定部６０は、音節単位の最長一致法を用いて、合成音声区間「シブヤミナミバイ」の中で元の肉声録音音声データと音韻（音節）が一致する区間を図１１の破線で示すように「ミナミバイ」と決定することができる。

以上の処理から、肉声韻律区間決定部６０は、図１２に示すように合成音声区間「シブヤミナミバイ」の中から肉声録音音声データの韻律を用いる肉声韻律区間を「ミナミバイ」として出力する。すなわち、肉声韻律区間決定部６０は、肉声区間と、合成音声区間に加えて、合成音声を利用する区間で肉声録音音声データの韻律のみを利用する肉声韻律区間の情報を付加する。

次に、肉声韻律抽出部７０では、肉声韻律区間決定部６０から出力された合成音声区間に対応する肉声録音音声の区間の韻律情報の抽出処理を行う。韻律情報とは、音声の基本周波数と音素・音節の継続時間長と音声パワーの時間変化を示す情報をさす。この韻律抽出処理は、例えば、音声認識技術を使った自動セグメンテーション処理によって、入力音声を構成する音素、または音節が何か、およびその位置を決定することで実現できる。基本周波数や音声パワーについては、音声信号処理技術で用いられている一般的なＦ０（基本周波数）抽出処理やパワー計算処理などを利用することで実現できる。または、あらかじめ上記の韻律情報を肉声録音音声データ全体に対して抽出しておき、肉声韻律抽出部７０での処理では、合成音声区間に相当する韻律情報部分を抜き出すという手法でも実現できる。第１実施形態のケースの場合にこの肉声韻律抽出部７０から出力される情報の例を図１２に示す。ここでは、合成音声区間「シブヤミナミバイ」に対応する肉声録音音声データの区間「ナカノミナミバイ」の韻律情報（基本周波数の始点と終点、継続時間長）が各音節ごとに抽出されている。

次に、ハイブリッド韻律生成部８０では、肉声韻律抽出部７０から出力された肉声録音音声データの一部区間に対する韻律情報を元に、合成音声区間に対する韻律情報を生成する。この処理は、肉声韻律抽出部７０で抽出された韻律情報のうち、肉声録音音声データと合成音声とで一致する部分はその情報を用い、一致しない部分は抽出された情報を無視して、または抽出された情報を参考にして合成音声に対応する区間の韻律情報を生成する処理を行う。

第１実施形態のケースで具体的に説明する。ハイブリッド韻律生成部８０では、肉声韻律抽出部７０から図１２に示す肉声録音音声データ区間「ナカノミナミバイ」に対する韻律情報が入力された場合、その肉声録音音声データ区間に対応する合成音声区間「シブヤミナミバイ」の中で抽出された韻律情報が利用できる部分を決定する。ハイブリッド韻律生成部８０での決定処理も、上記のさまざまな処理で利用されてきた文字列一致処理などを用いて実現可能である。この例の場合、「ミナミバイ」の部分は音節が一致するため、その部分の韻律情報としては肉声録音音声データから抽出された韻律情報を利用することができる。一方、音節が一致しない区間「シブヤ」については、規則合成部に含まれている韻律生成処理を使って「シブヤ」に対する韻律情報を新たに生成しても良いし、または「ナカノ」の韻律情報からある韻律変換処理（例えば、基本周波数や音素継続長を、その前後の箇所と連続になるように一律に伸縮・移動させるなどの処理）によって生成することも可能である。

図１３に、ハイブリッド韻律生成部８０が韻律生成処理を行って「シブヤ」に対する韻律情報を生成した韻律情報付き音節列の一例を示す。この韻律生成処理については、「ディジタル音声処理」（古井貞煕、東海大学出版会）や「ＰｒｏｇｒｅｓｓｉｎＳｐｅｅｃｈＳｙｎｔｈｅｓｉｓ」（ＶＡＮＳＡＮＴＥＮ他、Ｓｐｒｉｎｇｅｒ）などで開示されている。

次に規則合成部１００では、ハイブリッド韻律生成部８０から出力された韻律情報付き音節列（図１３）を入力として、韻律情報付き音節列に指定された韻律が実現されるように音声合成処理を行う。その際、合成音声の部品である音声素片データベース１１０と韻律モデル１２０を参照して合成音声への変換処理を行う。この規則合成処理についても上記の文献などで広く開示されているため、説明は省略する。第１実施形態のケースでは、この処理の結果、図１３の韻律を実現した合成音声部品「シブヤミナミバイ」が音声合成処理によって図１４で示すように生成される。

最後に、接続合成部９０によって、録音音声選択部４０と接続境界算出部５０から出力された肉声録音音声データの部品と、規則合成部１００から出力された合成音声部品とが接続合成（結合）処理されて、ハイブリッド合成音声１３０として出力される。この接続合成処理には、単純に合成音声を結合するだけの処理で実現することも可能であり、その結合部分にＴＤ−ＰＳＯＬＡ（Time Domain Pitch Synchronous Overlap Add）などの波形重畳信号処理などを用いて、より滑らかに接合されることも可能である。

第１実施形態のケースでは、接続境界算出部５０から出力された肉声録音音声データの部品「マモナク」と「パスノサキオウセツデス」に、規則合成部１００から出力された合成音声部品「シブヤミナミバイ」とが結合されて、「マモナク」「シブヤミナミバイ」「パスノサキオウセツデス」に対応するハイブリッド合成音声が出力されることになる。

ここで出力されたハイブリッド合成音声では、「マモナク」と「パスノサキオウセツデス」の区間は完全に肉声録音音声データであり、「シブヤミナミバイ」の区間は合成音声ではあるが、「ミナミバイ」部分は肉声録音音声データの韻律をそのまま実現した合成音声であるため、韻律的に自然で、かつ後半の「パスノサキオウセツデス」と韻律が連続に繋がる合成音声を実現できている。このように本発明によれば、前述の可変位置ハイブリッド合成方式を実施した場合の合成音声区間と部分的に一致する肉声区間を検出して、その肉声区間の韻律（抑揚・リズム）情報を合成音声に付与し、肉声と合成音声を従来技術よりも自然に結合させることで、肉声感・自然性がともに高い音声メッセージを作成可能なハイブリッド音声合成装置を提供することが可能となる。

なお、上記において、肉声韻律区間決定部６０は、入力テキスト１０を変換した発音テキスト２１と、録音音声発音テキスト２３０とを、音節単位での最長一致に基づいて肉声録音音声データの韻律を用いる例を示したが、発音テキスト２１と、録音音声発音テキスト２３０との比較を音素単位での最長一致を用いても良い。

＜実施形態２＞
次に本発明を、カーナビゲーションシステムに特化した場合の実施形態について説明する。

図１７は、本発明をカーナビゲーションシステムとして実施した場合の構成図である。前記第１実施形態の図２における入力テキスト１０が、図１７ではカーナビゲーション装置（特にその中の発声内容決定部）３１０から受け渡される。また、図２において接続合成部９０から出力されていたハイブリッド合成音声１３０が、本第２実施形態の図１７では、直接、スピーカー（アンプを含む）などの音声再生装置３２０から出力されるようになる。それ以外の構成は第１実施形態の図２と共通であり、各処理部における処理の内容、およびそれらの処理の流れは、基本的に前記第１実施形態に説明したものと同様となる。

そこで、ここでは、本発明の音声合成部８における処理フローについて、図１８のフローチャートを用いて説明する。

まず、図１８に示すハイブリッド合成処理が起動すると、カーナビゲーション装置の発声内容決定部で決定された読み上げ（発声）テキストが入力されるまで待ち状態となる。もし、読み上げテキストが入力された場合、その入力テキスト１０は入力テキスト解析処理４１０に渡されて、音声合成処理のための内部表現形式へと変換される。この処理の詳細については、第１実施形態の入力テキスト解析部２０で説明した通りである。

続いて、内部表現データが録音音声選択処理４２０へと渡され、録音音声格納部３０に格納されている肉声録音音声データ（音声ファイル２２０）の中から、録音音声発音テキスト２３０が入力テキスト１０（発音テキスト２１）に最もよく一致するパターンの肉声録音音声データ（音声情報）が選択される。この選択処理の詳細については、第１実施形態の録音音声選択部４０で説明した通りである。

もし、この録音音声選択処理４２０において、適切な一致パターンを選択できなかった場合は、入力テキスト１０、および内部表現データが規則合成処理４３０に渡され、入力テキスト全文が合成音声に変換されて出力される。すなわち、適切な一致パターンがない場合は、読み上げ（発声）テキストはすべて合成音声で出力される。

一方、録音音声選択処理４２０で録音音声発音テキスト２３０の中から適切な一致パターンを選択できた場合は、一致した録音音声情報（図４に示すデータの横一列の録音音声情報）が接続境界算出処理へと渡される。この処理の詳細については、第１実施形態の接続境界算出部５０で説明した通りである。

つづいて、肉声韻律区間決定処理４４０が起動される。この処理では、接続境界算出処理で判定されたすべての接続境界（選択された肉声録音音声データの中の境界）に対して、肉声韻律を使用する肉声韻律区間なのか、合成音声を使用する合成音声区間なのかの決定処理が繰り返して実行される。この処理の詳細については、第１実施形態の肉声韻律区間決定部６０で説明した通りである。

つづいて、肉声韻律抽出処理４５０が起動される。この処理では、肉声韻律区間決定処理４４０において、肉声韻律区間として判定されたすべての区間に対して、韻律抽出処理を繰り返し実行する。この処理の詳細については、第１実施形態の肉声韻律抽出部７０で説明した通りである。

つづいて、ハイブリッド韻律生成処理４６０が起動される。この処理では、肉声韻律区間決定処理４４０において、合成音声区間として判定されたすべての区間、さらにその区間内のすべての音韻に対して、韻律情報の生成処理を繰り返し実行する。この処理の詳細については、第１実施形態のハイブリッド韻律生成部８０で説明した通りである。

つづいて、規則合成処理４７０が起動される。この処理では、ハイブリッド韻律生成処理で生成された韻律情報にしたがって、すべての合成音声区間を、それぞれ合成音声へと変換する処理を行う。この処理の詳細については、第１実施形態の規則合成部１００で説明した通りである。

つづいて、肉声区間切り出し処理４８０が起動される。この処理は、入力テキストとよく一致して音声格納部から選択された肉声録音音声データデータ（音声ファイル２２０）を分割して、肉声韻律区間決定処理４４０が決定した肉声韻律区間に相当する部分の肉声録音音声データデータのみを切り出して出力する処理を行う。

最後に、接続合成処理４９０が起動される。この処理では、規則合成処理４７０、および肉声区間切り出し処理４８０からそれぞれ出力された、合成音声区間に相当する合成音声データと、肉声韻律区間に相当する肉声録音音声データデータとを、それらの区間の順番に応じて、順次、繰り返しながら接続して出力する処理を行う。この結果、この処理から最後に出力されるのは、入力テキストに対応するハイブリッド合成音声（一部が合成音声で一部が肉声の肉声録音音声データ）データとなる。

＜実施形態３＞
次に、図１９を用いて、本発明をユーザインタフェースを備えたハイブリッド合成音声の編集ツールとして実施した場合の実施形態について説明する。

図１９は、図１、図２に示す本発明の基本構成に、テキスト入力部５１０、ユーザ入力部５２０、情報表示部５３０を加えた構成である。

ここで、テキスト入力部５１０は、本発明の音声合成装置１に対して、読み上げ（発声）テキストを入力するための入力装置であり、例えば、キーボードなど、従来のユーザインタフェース機器を用いることができる。

このテキスト入力部５１０でテキストが入力されると、前記第１実施形態、もしくは第２実施形態で説明したような処理が実行され、ハイブリッド合成音声１３０が出力されることになる。

ただし、本第３実施形態においては、録音音声選択部４０からハイブリッド韻律生成部８０までの各処理部で処理された結果の情報が、別途、情報表示部５３０へと渡されて（点線の矢印）、ユーザに提示することが可能となっている。また同様に、ユーザ入力部５２０を通してユーザが指定した情報を、録音音声選択部４０からハイブリッド韻律生成部８０までの各処理部に渡すことで、各部が出力する情報を特定の内容に変更することを可能としている。

情報表示部５３０は、様々な情報をユーザに提示するための装置であり、例えばディスプレイ装置などのグラフィカル表示装置を用いることができる。例えば、この情報表示部５３０は、前記第１実施形態の図１に示した表示装置４を用いればよい。この情報表示部５３０で表示される情報の一例を図２０に示す。

図２０では、上部の入力テキスト欄５３１に入力された読み上げテキストを、入力テキスト解析部２０に渡した結果の解析結果情報（発音テキスト２１）、さらに、録音音声選択部４０で自動的に一致判定されて選択されたＩＤ２の録音音声のテキスト（録音音声発音テキスト２３０）が表示されている。また、一致判定の根拠となる音韻の一致度合いが対応する線の数によって表示されている。このように、録音音声選択部４０でどのような録音音声が、どのような一致判定のもとで選択されたかを表示することができる。

また、図２０では、接続境界算出部５０、肉声韻律区間決定部６０の結果、肉声録音音声データを使うと決定された区間を斜体の文字で表示している。このように、入力テキストのうち、どの区間が合成音声で、どの区間が肉声録音音声データとなるのかをグラフィカルに表示することができる。このような表示の仕方は、この他にも、色で分けたり、矩形や角丸矩形で囲い分けるなど、さまざまな表示方法が考えられる。

さらに、図２０の中央部には、肉声韻律抽出部７０で抽出された肉声区間に対する韻律情報、およびハイブリッド韻律生成部８０で生成された合成音声区間に対するハイブリッド韻律情報５３２である。このように、時間と周波数（Ｆ０）のグラフとして表示することで、出力されるハイブリッド合成音声がどのような音声になるのかを直感的に示すことが可能となる。

一方、ユーザ入力部５２０はユーザインタフェース機器であり、例えば、マウスやキーボードなどを通してユーザに情報（例えば、録音音声選択部で選択すべき録音音声のＩＤなど）を入力・指定させて、その情報を適切な処理部（例えば、録音音声のＩＤは録音音声選択部４０へ、接続境界情報は接続境界算出部５０へ）へと渡す処理を行う。ここで、ユーザが指定可能な情報としては、録音音声選択部４０で選択されたものの代わりに出力すべき録音音声ＩＤであったり、接続境界算出部５０や肉声韻律区間決定部６０で決定されるものの代わりに出力すべき肉声−合成音声区間の区分であったりする。これらの情報を、例えば、マウスを画面下部の録音音声テキストの上でクリックすることで、代替の録音音声テキストをメニュー表示させて、その中から実際に選択すべきものをユーザに指定させるということを可能とする。

同様に、図２０の情報表示部５３０の解析結果に示される肉声区間（斜体で表示される部分）と合成音声区間（通常表示される部分）を、それぞれマウスでクリック、またはドラッグするなどのインタラクションを行わせて、どの部分を合成音声とするか、どの部分を肉声とするかをユーザに指定させることを可能とする。

さらには、その上の韻律情報のグラフ表示画面において、合成音声区間に対して、ハイブリッド韻律生成部８０が出力した韻律情報（グラフ中、点線で表示される曲線）をマウスでドラッグ等で移動させることで、生成すべき韻律情報を直接ユーザが指定可能とする。

以上のようにして、ユーザが直接指定した情報は、それぞれ対応する処理部に渡されて、各処理部が自動的に算出した処理結果の代わりに出力されるようにする。このような構成を採ることにより、情報表示部５３０とユーザ入力部５２０を通して、ユーザが直接、ハイブリッド合成音声の中身を指定することが可能となる。

なお、上記各実施形態において、肉声韻律区間決定部６０は、入力テキスト１０を変換した発音テキスト２１と、録音音声発音テキスト２３０とを、音節単位での最長一致に基づいて肉声録音音声データの韻律を用いる例を示したが、各音素または音節に付随する言語情報の一致に基づいて肉声録音音声データの韻律を用いる区間を決定してもよい。さらに、言語情報は、録音音声発音テキスト２３０に含まれるアクセント核（アクセントの下がる位置）を上記位置情報として用いて肉声録音音声データの韻律を使用する区間を決定しても良い。アクセント核を含む言語情報は、入力テキスト解析部２０における解析処理の中間情報として取得することが可能である。また、録音音声格納部３０に格納されている音声データ（図４）に対しては、あらかじめテキスト解析処理を適用した結果、得られたそれらの言語情報を付加して格納しておくことで、上記のアクセント核を始めとする言語情報による一致を判定して、肉声韻律区間の決定を行うことが可能となる。

以上説明したように、本発明によれば、可変位置ハイブリッド合成方式を実施した場合の合成音声区間と部分的に一致する肉声区間を検出して、その肉声区間の韻律（抑揚・リズム）情報を合成音声に付与し、肉声と合成音声を従来技術よりも自然に結合させることで、肉声感・自然性がともに高い音声メッセージを作成可能なハイブリッド音声合成装置を提供することが可能となる。特に、音声で誘導を行うカーナビゲーション装置や、音声で案内を行う装置に適用することができる。

本発明の第１の実施形態を示し、音声合成装置のシステム構成を示すブロック図。同じく、本発明の第１の実施形態を示し、音声合成部の処理の流れを示すブロック図。入力テキストの一例を示す説明図である。録音音声格納部に格納されるデータの一例を示す説明図である。入力テキストを変換した発音テキストの一例を示す説明図である。マッチングパターンの一例を示す説明図である。録音音声発音テキストのうち、発音テキスト２１と発音が一致した音節数を示すテーブルである。発音テキストと録音音声発音テキストの一致音節数を示す説明図で、（ａ）は、ＩＤ＝２の録音音声発音テキストと発音テキストの比較結果を示し、（ｂ）は他の録音音声発音テキストと発音テキストの比較結果を示す。発音テキストと録音音声発音テキストの一致音節数を示す説明図で、無音区間や音声パワーの小さな箇所まで合成音声部分を拡大する処理を示す。接続境界算出部が出力する録音音声、肉声区間及び合成音声区間の一例を示す説明図である。合成音声区間の中で元の肉声録音音声と音韻（音節）が一致する区間を決定する様子を示す説明図である。肉声韻律区間決定部が出力する録音音声、肉声区間、合成音声区間及び肉声韻律の一例を示す説明図である。音節。基本周波数（Ｈｚ）及び継続時間（msec）の解析結果を示すテーブルである。ハイブリッド韻律生成部での出力結果を示す説明図である。発音テキストと録音音声発音テキストの一致音節数を示す説明図で、（ａ）は、ＩＤ＝２の録音音声発音テキストと発音テキストの比較結果を示し、（ｂ）は他の録音音声発音テキストと発音テキストの比較結果を示す。不一致文字数と不一致コストの関係を示すテーブルである。本発明の第２の実施形態を示し、音声合成部の処理の流れを示すブロック図。同じく、第２の実施形態を示し、音声合成部における処理の一例を示すフローチャートである。本発明の第３の実施形態を示し、音声合成部の処理の流れを示すブロック図。同じく、第３の実施形態を示し、情報表示部で表示される情報の一例を示す説明図である。

符号の説明

２０入力テキスト解析部
３０録音音声格納部
４０録音音声選択部
５０接続境界算出部
６０肉声韻律区間決定部
７０肉声韻律抽出部
８０ハイブリッド韻律生成部
９０接続合成部
１００規則合成部
１１０音声素片データベース
１２０韻律モデル
１３０ハイブリッド合成音声
２００録音音声ＩＤ
２１０録音音声テキスト
２２０録音音声ファイル
２３０録音音声発音テキスト

Claims

音声に変換するテキストを受け付けて発音テキストに変換する入力テキスト解析部と、
予め設定された文書を肉声により記録した肉声データと前記文章を予め格納する録音音声格納部と、
前記録音音声格納部に格納された文章と前記発音テキストを比較して、音声合成に使用する肉声データ及び文章を録音音声格納部から選択する録音音声選択部と、
前記発音テキストと前記選択された文章から音声合成により音声を生成する合成音声区間と前記肉声データから音声を生成する肉声区間との境目を決定する接続境界算出部と、
前記決定された合成音声区間に基づいて、予め設定された音声素片と韻律モデルにより音声合成データを生成する規則合成部と、
前記肉声区間に対応する肉声データと、前記生成された音声合成データとを接続して入力されたテキストに対応する合成音声文章を生成する接続合成部と、を備えたハイブリッド音声合成装置において、
前記接続境界算出部で決定された合成音声を使用する合成音声区間において前記肉声データの韻律を使用する肉声韻律区間を決定する肉声韻律区間決定部と、
前記肉声韻律区間決定部で決定された前記区間の韻律を前記選択した肉声データから抽出する肉声韻律抽出部と、
前記抽出された肉声による韻律と、前記韻律モデルから合成音声区間全体の韻律情報を生成するハイブリッド韻律生成部と、を備え、
前記規則合成部は、
前記合成音声区間ついて、前記音声素片と前記韻律情報により音声合成データを生成することを特徴とするハイブリッド音声合成装置。
前記肉声韻律区間決定部は、
前記発音テキストと前記選択された文章の比較を行う際に、音節単位での最長一致に基づいて前記肉声データの韻律を使用する箇所を決定することを特徴とする請求項１に記載のハイブリッド音声合成装置。
前記肉声韻律区間決定部は、
前記発音テキストと前記選択された文章の比較を行う際に、音素単位での最長一致に基づいて前記肉声データの韻律を使用する箇所を決定することを特徴とする請求項１に記載のハイブリッド音声合成装置。
前記肉声韻律区間決定部は、
前記音節または音素に付随する言語情報の一致に基づいて肉声データの韻律を用いる区間を決定することを特徴とする請求項２または請求項３に記載のハイブリッド音声合成装置。
前記言語情報は、アクセント核の位置情報であることを特徴とする請求項４に記載のハイブリッド音声合成装置。
前記接続境界算出部は、
前記合成音声区間と肉声区間との境目に関する情報を受け付けて、当該情報に基づいて前記境目を決定することを特徴とする請求項１ないし請求項５のいずれかひとつに記載のハイブリッド音声合成装置。
前記接続境界算出部は、
前記合成音声区間と肉声区間との境目に関する情報を受け付けて、当該情報に基づいて前記境目を決定し、
前記肉声韻律区間決定部は、
前記合成音声区間において前記肉声データの韻律を使用する肉声韻律区間に関する情報を受け付けて当該情報に基づいて前記肉声韻律区間を決定することを特徴とする請求項１ないし請求項５のいずれかひとつに記載のハイブリッド音声合成装置。
前記ハイブリッド韻律生成部は、
前記合成音声区間のうち、前記肉声韻律区間については前記音声素片と前記抽出された肉声による韻律を設定し、前記肉声韻律区間を除く合成音声区間については前記韻律モデルの韻律を設定して、当該合成音声区間全体の韻律情報を生成することを特徴とする請求項１に記載のハイブリッド音声合成装置。
音声に変換するテキストを受け付けて発音テキストに変換する入力テキスト解析処理と、
予め設定された文書を肉声により記録した肉声データと前記文章を予め格納した録音音声格納部の前記文章と前記発音テキストを比較して、音声合成に使用する肉声データ及び文章を前記録音音声格納部から選択する録音音声選択処理と、
前記発音テキストと前記選択された文章から音声合成により音声を生成する合成音声区間と前記肉声データから音声を生成する肉声区間との境目を決定する接続境界算出処理と、
前記決定された合成音声区間に基づいて、予め設定された音声素片と韻律モデルにより音声合成データを生成する規則合成処理と、
前記肉声区間に対応する肉声データと、前記生成された音声合成データとを接続して入力されたテキストに対応する合成音声文章を生成する接続合成処理と、を計算機で実行すことにより合成音声文章を生成するハイブリッド音声合成方法において、
前記接続境界算出処理で決定された合成音声を使用する合成音声区間において前記肉声データの韻律を使用する肉声韻律区間を決定する肉声韻律区間決定処理と、
前記肉声韻律区間決定処理で決定された前記区間の韻律を前記選択した肉声データから抽出する肉声韻律抽出処理と、
前記抽出された肉声による韻律と、前記韻律モデルから合成音声区間全体の韻律情報を生成するハイブリッド韻律生成処理と、を備え、
前記規則合成処理は、
前記合成音声区間ついて、前記音声素片と前記韻律情報により音声合成データを生成する処理を含むことを特徴とするハイブリッド音声合成方法。
前記肉声韻律区間決定処理は、
前記発音テキストと前記選択された文章の比較を行う際に、音節単位での最長一致に基づいて前記肉声データの韻律を使用する箇所を決定することを特徴とする請求項９に記載のハイブリッド音声合成方法。
前記肉声韻律区間決定処理は、
前記発音テキストと前記選択された文章の比較を行う際に、音素単位での最長一致に基づいて前記肉声データの韻律を使用する箇所を決定することを特徴とする請求項９に記載のハイブリッド音声合成方法。
前記肉声韻律区間決定処理は、
前記音節または音素に付随する言語情報の一致に基づいて肉声データの韻律を用いる区間を決定することを特徴とする請求項１０または請求項１１に記載のハイブリッド音声合成方法。
前記言語情報は、アクセント核の位置情報であることを特徴とする請求項１２に記載のハイブリッド音声合成方法。
前記接続境界算出処理は、
前記合成音声区間と肉声区間との境目に関する情報を受け付けて、当該情報に基づいて前記境目を決定することを特徴とする請求項９ないし請求項１３のいずれかひとつに記載のハイブリッド音声合成方法。
前記接続境界算出処理は、
前記合成音声区間と肉声区間との境目に関する情報を受け付けて、当該情報に基づいて前記境目を決定し、
前記肉声韻律区間決定処理は、
前記合成音声区間において前記肉声データの韻律を使用する肉声韻律区間に関する情報を受け付けて当該情報に基づいて前記肉声韻律区間を決定することを特徴とする請求項９ないし請求項１３のいずれかひとつに記載のハイブリッド音声合成方法。
前記ハイブリッド韻律生成処理は、
前記合成音声区間のうち、前記肉声韻律区間については前記音声素片と前記抽出された肉声による韻律を設定し、前記肉声韻律区間を除く合成音声区間については前記韻律モデルの韻律を設定して、当該合成音声区間全体の韻律情報を生成することを特徴とする請求項９に記載のハイブリッド音声合成方法。
受け付けたテキストを合成音声に変換するプログラムであって、
音声に変換するテキストを受け付けて発音テキストに変換する入力テキスト解析処理と、
予め設定された文書を肉声により記録した肉声データと前記文章を予め格納した録音音声格納部の前記文章と前記発音テキストを比較して、音声合成に使用する肉声データ及び文章を前記録音音声格納部から選択する録音音声選択処理と、
前記発音テキストと前記選択された文章から音声合成により音声を生成する合成音声区間と前記肉声データから音声を生成する肉声区間との境目を決定する接続境界算出処理と、
前記接続境界算出処理で決定された合成音声を使用する合成音声区間において前記肉声データの韻律を使用する肉声韻律区間を決定する肉声韻律区間決定処理と、
前記肉声韻律区間決定処理で決定された前記区間の韻律を前記選択した肉声データから抽出する肉声韻律抽出処理と、
前記抽出された肉声による韻律と、前記韻律モデルから合成音声区間全体の韻律情報を生成するハイブリッド韻律生成処理と、
前記決定された合成音声区間に基づいて、予め設定された音声素片と前記韻律情報により音声合成データを生成する規則合成処理と、
前記肉声区間に対応する肉声データと、前記生成された音声合成データとを接続して入力されたテキストに対応する合成音声文章を生成する接続合成処理と、を計算機に機能させることを特徴とするプログラム。