JP4878538B2

JP4878538B2 - 音声合成装置

Info

Publication number: JP4878538B2
Application number: JP2006288675A
Authority: JP
Inventors: 雄介藤田; 亮太鴨志田; 健司永松
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2006-10-24
Filing date: 2006-10-24
Publication date: 2012-02-15
Anticipated expiration: 2026-10-24
Also published as: US7991616B2; JP2008107454A; US20080243511A1

Description

本発明は、音声を合成する装置に係り、特に定型部分と可変部分からなる文章の音声データを、録音音声と規則合成音声を組み合わせて合成する音声合成技術に関する。

一般に、録音音声とは録音した音声をもとに作られた音声をいい、規則合成音声とは発音を表わした文字または符号列から合成した音声をいう。音声の規則合成は、入力されたテキストに対して言語処理を行い、読みやアクセントの情報を示す中間記号列を生成した後、基本周波数パタン（声の高さに対応する声帯の振動周期）や音素継続時間長（発声速度に対応する各音素の長さ）などの韻律パラメータを決定し、波形生成処理により、韻律パラメータに合わせた音声波形を生成するものである。韻律パラメータから音声波形を生成する方法として、音素や音節に対応する音声素片を組み合わせる、波形接続型音声合成が広く用いられている。

一般的な規則合成の流れは次の通りである。まず、言語処理では、入力されたテキストから、音素（音声の意味を弁別するための最小単位）や音節（１ないし３個程度の音素の結合からなる音声の聞こえの一種のまとまり）の並びを表現する読み情報、およびアクセント（発音の強さを指定する情報）や抑揚（疑問文や話し手の感情を示す情報）を表現するアクセント情報を生成し、これを中間記号列とする。中間記号列の生成には、辞書を用いた言語処理や、形態素解析処理が応用される。次に、中間記号列のアクセント情報に対応するように、基本周波数パタンや音素継続時間長などの韻律パラメータを決定する。韻律パラメータは、あらかじめ肉声を用いて学習された韻律モデルや、ヒューリスティクス（発見的に求められた制御規則）に基づいて生成される。最後に波形生成処理によって、韻律パラメータに合わせた音声波形を生成する。

規則合成は、入力された任意のテキストを音声として出力することができるため、録音音声を利用する場合と比べて、柔軟性の高い音声案内システムが構築できる。しかし、肉声と比べると品質は充分でなく、従来、録音音声を利用している車載用カーナビゲーションなどの音声案内システムに、規則合成音声を導入するには、品質の面で問題があった。

そこで、規則合成音声を利用した音声案内システムを実現するために、定型部分にはあらかじめ録音された録音音声を用い、可変部分は規則合成音声を用いることにより、録音音声の高品質性と規則合成音声の柔軟性を組み合わせる方法が利用されている。

しかしながら、録音音声と規則合成音声を組み合わせて出力される音声は、録音音声と規則合成音声の間の、音質および韻律の不連続が知覚され、録音音声部分は高品質であっても全体としては高品質でなくなるという問題があった。

韻律の不連続を解消する方法として、規則合成音声に対するパラメータを設定する際に録音音声の特徴を利用する方法が開示されている（例えば、特許文献１参照）。また、定型部分と可変部分の韻律の連続性を考慮して、規則合成音声部分を拡張する方法が開示されている（例えば、特許文献２参照）。

特開平１１−２４９６７７号公報特開２００５−３２１５２０号公報

従来技術によれば、規則合成音声部分の韻律は自然となるが、一方で、規則合成音声と録音音声との間の音質の差が大きくなることがあり、全体として自然な音声を得ることはできないという課題を有する。

本発明は、上記の問題を解決するものであり、録音音声と合成音声を接続する際に音質および韻律の不連続が知覚されない、高品質な音声合成装置を提供することを目的とする。

上記目的を達成するために、本発明は、定型部分と可変部分からなるテキストを合成する音声合成装置において、録音された音声をもとに作成された、定型部分を含む音声データである第１の音声データ（録音音声データ）を予め格納する録音音声格納手段と、受け付けた前記テキストから、可変部分と少なくとも定型部分の一部を含む第２の音声データ（規則合成音声データ）を生成する規則合成手段と、前記テキストに対応する、前記第１の音声データと前記第２の音声データとが重複する区間の音響特徴情報にもとづいて、録音された音声データと規則合成により生成された音声データとの接続境界の位置を選択する接続境界算出手段と、前記第１の音声データを前記接続境界で区切った第３の音声データと、前記第２の音声データを前記接続境界で区切って切り出した第４の音声データとを接続して前記テキストの音声データを合成する接続合成手段とを備えることを特徴とする。ここで一例として、定型部分とは音声データに対応する部分がある部分と定義でき、可変部分とは音声データに対応する部分がない部分と定義できる。

この構成においては、可変部分に加えて定型部分の一部を含むように規則合成音声データを生成し、規則合成音声データと録音音声データとの重複した区間を作ることにより、録音音声と規則合成音声の接続位置を可変とすることができる。前記重複区間における、録音音声と規則合成音声の音響特徴情報を用いて、最適な接続位置を算出することにより、従来の技術と比較して自然な合成音声が生成される。

また、本発明の別の構成では、前記重複区間における、録音音声データの音響特徴情報を用いて、録音音声データと整合する規則合成音声データを生成する規則合成手段を備える。

この構成においては、重複区間における韻律の整合をとることで、韻律の不連続を解消することができ、さらに、重複区間に先行または後続する可変部分の規則合成音声データについても、同時に整合をとることができ、接続境界だけでなく、全体の整合がとれた合成音声が生成される。

また、本発明の別の構成では、前記接続境界算出手段から得られる接続境界の位置における録音音声データと規則合成音声データの音響特徴情報にもとづいて、規則合成音声データを加工する規則合成手段を備える。

この構成においては、接続境界を決定した後に、接続境界近傍での音響特徴がより録音音声に近づくように、規則合成音声データの特徴を加工することにより、さらに韻律や音質の不連続が目立たない合成音声が生成される。

本発明における音響特徴情報として、音素カテゴリを用いることにより、好適な接続境界を得ることができる。音素カテゴリは、例えば、有声音・無声音・破裂音・摩擦音等、音素の分類を規定する情報である。ポーズ（無音）区間で接続することで、接続歪が目立たなくなることは言うまでもないが、無声破裂音の先頭も同様に、短い無音区間が存在するため、接続歪が目立たない。また、有声音区間中での接続は、接続境界前後の基本周波数の差や位相の差により異音が目立つ可能性があるため、無声区間での接続が望ましい。また、音響特徴情報として、パワーを利用することにより、パワーの小さな接続境界を選択し、接続歪を目立たなくすることができる。

また、音響特徴情報として、基本周波数を用いると、韻律の接続がなめらかな接続境界を得ることができる。録音音声と規則合成音声の基本周波数の差が小さな音素境界を選択することによって、基本周波数の不連続が知覚されにくくなる。また、音韻継続長時間を用いると、接続境界の前後で急に話速が変化しないような、接続境界を選択することができる。

また、音響特徴情報として、スペクトル（音声の周波数成分を示す情報）を用いると、接続境界近傍で、音質が急に変化することを避けることができる。特に、接続境界を決定した後に、接続境界近傍での音響特徴情報を用いて規則合成音声データの特徴を加工する構成の場合に有効で、接続境界近傍の規則合成音声のスペクトルが、録音音声とより近くなるように加工することができる。

本発明では、規則合成音声データを作成する範囲として、可変部分に加えて定型部分の一部を含むようにしているが、この範囲は、一呼気段落（息継ぎのためのポーズで分割される一単位）、一文（句点によって分割される一単位）、定型部分の全体のいずれかで定義することが望ましい。特に録音音声と規則合成音声の韻律の整合をとるためには、前記重複区間は大きくとるとよい。ただし、別の手段による韻律の整合方法が利用できる場合や計算量の観点から問題となる場合は、一呼気段落未満の範囲となるように定義してもよい。

本発明の接続境界算出手段において、接続境界の候補となる位置は、前記重複区間における全ての標本点であるが、音素境界に限定して接続境界を選択すると、効果的な接続境界が得られる。このような構成をとることによって、録音音声および規則合成音声の音響特徴情報は、音素境界のみで計算するものであればよく、記憶容量や計算量の観点で有利となる。

本発明の録音音声格納手段において、定型部分と定型部分以外の一部を含む、一呼気段落または一文の単位であらかじめ録音した音声データを格納しておくことにより、録音音声における定型部分以外の区間も有効に利用できるようになる。定型部分のテキストがあらかじめ設定されている場合、可変部分のテキストに応じて録音音声を決定するようにすると、可変部分の一部についても録音音声が利用できる場合は、前記重複区間として、可変部分の一部を含めることができる。このようにすると、録音音声の多くの部分を活かすことができ、より高品質な合成音声を生成できる。

さらに、本発明の音声合成装置は、定型部分と可変部分からなるテキストを合成する音声合成装置において、録音された、前記定型部分を含む録音音声データを予め格納する録音音声格納部と、受け付けた前記テキストから、前記可変部分と少なくとも前記定型部分の一部を含む規則合成音声データを生成する規則合成部と、前記テキストに対応する、前記録音音声データおよび前記規則合成音声データの音響特徴情報に基いて、前記録音音声データと前記規則合成音声データとが重複する区間における接続境界位置を算出する接続境界算出部と、前記接続境界位置で区切って切り出した前記録音音声データと前記規則合成音声データとを接続して、前記テキストに対応する合成音声データを生成する接続合成部とを備えることを特徴とする。

さらにまた、本発明の音声合成装置は、定型部分と可変部分からなるテキストを合成する音声合成装置において、録音された、前記定型部分を含む録音音声データを予め格納する録音音声格納部と、受け付けた前記テキストから、前記可変部分と少なくとも前記定型部分の一部を含む規則合成パラメータを算出し、規則合成音声の音響特徴情報を生成する規則合成パラメータ算出部と、前記録音音声の音響特徴情報と前記規則合成の音響特徴情報とを用いて、前記録音音声データと前記規則合成パラメータとが重複する区間における接続境界位置を算出する接続境界算出部と、前記録音音声の音響特徴情報と、前記規則合成音声の音響特徴情報と、前記接続境界位置とを用いて、規則合成音声データを生成する規則合成音声データ部と、前記接続境界位置で区切って切り出した前記録音音声データと前記規則合成音声データとを接続して、前記テキストに対応する合成音声データを出力する接続合成部と、前記合成音声データを出力する手段とを備えることを特徴とする。

さらにまた、本発明の音声合成装置は、あらかじめ録音された、可変部分を含む音片と定型部分を含む音片とを接続して合成音声を作成する装置において、あらかじめ録音された前記音片からなる音声データを格納する録音音声格納部と、受け付けた入力テキストから、前記可変部分の音片の中間記号列と前記定型部分の音片の中間記号列とを作成する入力解析部と、前記可変部分の入力に従って、同じ定型部分をもつ複数の録音音声データの中から適切な録音音声データを選択する録音音声選択部と、前記入力解析部で得られる前記可変部分の音片の中間記号列と、前記定型部分の音片の中間記号列を用いて、規則合成音声データを生成する範囲を決定する規則合成部と、前記録音音声データの音響特徴情報および前記規則合成音声データの音響特徴情報を用いて、前記録音音声データと前記規則合成音声データとの重複区間における、接続境界位置を算出する接続境界算出部と、前記接続境界算出部から得られる前記接続境界位置を用いて、前記録音音声データと前記規則合成音声データとを切断し、切断された前記録音音声データと前記規則合成音声データとを接続することにより、前記可変部分を含む音片に対応する合成音声データを作成する接続合成部と、入力テキストから得られる音片の順序に基づいて、音片を接続して出力音声を生成する音片接続部とを有することを特徴とする。

また、本発明の音声合成方法は、あらかじめ録音音声データおよび録音音声データに対応する第１の中間記号列を格納しておき、入力テキストを準備する第１のステップと、入力テキストを第２の中間記号列に変換する第２のステップと、第１の中間記号列を参照し、第２の中間記号列を第１の中間記号列と対応する定型部分と対応しない可変部分に弁別する第３のステップと、録音音声データから、第１の中間記号列が定型部分に対応する部分を取得する第４のステップと、第２の中間記号列を用いて可変部分に対応する部分全部と定型部分に対応する部分の少なくとも一部の規則合成音声データを生成する第５のステップと、取得された録音音声データの一部と生成された規則合成音声データの一部を結合する第６のステップとを有する。

ここで、取得された録音音声データ、生成された規則合成音声データは、それぞれ連続する一つのフレーズとすることができ、２つのフレーズは重複する箇所を持つため、つなぎ合わせる箇所の自由度が大きく、自然なつながりで結合することができる。すなわち、２つの音声データは定型部分で重複している区間を持つので、この区間で２つの音声データが整合する部分を接続境界として選び、つなぎ合わせればよい。いかなる部分で整合するかの評価基準としては、例えば、２つの音声データの基本周波数、スペクトル、継続長などの特徴量の差の小さな箇所を選ぶことができる。
また、必要に応じて、２つのデータの片方を修正（加工）してつなぎ合わせることもできる。例えば、録音音声データと規則合成音声データの特徴量の差が小さくなるように、規則合成音声データ生成の際のパラメータを修正して音響特徴を合わせることができる。

本発明によれば、録音音声と合成音声を接続する際に音質および韻律の不連続が知覚されない、高品質な音声合成装置が実現できる。

以下、本発明の実施例について、図面を参照して詳述する。

（実施例１）
図１は、本発明の第１の実施例に係り、カーナビゲーションシステム用に構成された本発明の音声合成装置を示すブロック図である。

本実施例は、図示のとおり、音声合成装置１とナビゲーション制御装置２とからなる。本発明の音声合成装置１は、ナビゲーション制御部３からのテキスト入力を解析する入力解析部４と、入力解析部４で得られる定型部分の中間記号列を用いて録音音声格納部５から録音音声データを索出する録音音声選択部６と、入力解析部４で得られる可変部分の中間記号列および定型部分の中間記号列の一部と録音音声選択部６で得られる録音音声の音響特徴情報とを用いて規則合成音声データを生成する規則合成部７と、録音音声選択部６で得られる録音音声の音響特徴情報と規則合成部７で得られる規則合成音声の音響特徴情報を用いて、録音音声データと規則合成音声データとの接続境界を算出する接続境界算出部８と、接続境界算出部で得られる接続境界を用いて録音音声データと規則合成音声データを切り出して接続する接続合成部９とを備えている。

次に、図１および図２を用いて、本発明の第１の実施例に係る音声合成装置１の動作について説明する。なお、図２は、本発明の第１の実施例に係る音声合成装置１の動作を示すフローチャートである。

まず、ナビゲーション制御部２において、音声合成装置１へ渡す入力テキストを決定する。

ナビゲーション制御部３は、情報受信部１０から例えば天気予報や交通情報などの各種情報を受信し、ＧＰＳ１１から得られる現在位置情報や、ナビゲーション用データ記憶部１２のもつ地図情報と組み合わせるなどして、音声合成装置１へ渡す入力テキストを作成する（ステップ１０１）。

次に、入力解析部４においてナビゲーション制御部２から音声出力するための入力テキストを受け取り、中間記号列に変換する(ステップ１０２)。入力テキストは、例えば、「国分寺の明日の天気です。」のような漢字仮名混じりの文字列である。ここで入力解析部４は、言語処理を行い、「コクブンジノアシタノテンキデス」のように、音声合成用の中間記号列に変換する。

次に、入力解析部４は、録音音声格納部５に、図３に示す録音音声データ４０１と関連付けて格納されている中間記号列４０２とを参照して一致する部分を探索し、定型部分とする中間記号列を決定し、音声波形データ４０１と関連付けることのできない部分を可変部分として決定する(ステップ１０３)。

録音音声格納部５には、上述のように、図３に示すような構成で、録音音声データ４０１と関連付けられた中間記号列４０２が複数組格納されている。ここで、図４に示すように、録音音声格納部５に中間記号列「シンジュクノアシタノテンキデス」が格納されている場合を例としてステップ１０３の動作を説明する。

入力解析部４から得られる中間記号列「コクブンジノアシタノテンキデス」と録音音声格納部５に格納されている中間記号列４０２と順次比較すると、「シンジュクノ
アシタノテ’ンキデス」が、「ノアシタノテンキデス」の部分で入力解析部４から得られる中間記号列と一致するため、該当する部分を定型部分として、録音音声データ４０１を用いることができる。そこで、「ノアシタノテンキデス」を定型部分と決定し、録音音声データと関連付けることができない「コクブンジ」を可変部分と決定する。

次に録音音声選択部６において、録音音声データ４０１と録音音声の音響特徴情報４０３を取得する（ステップ１０４）。

録音音声選択部６は、入力解析部４で得られる定型部分の中間記号列を用いて、録音音声格納部５から録音音声データ４０１を取得する。ここで、定型部分の中間記号列が「ノアシタノテンキデス」となっている場合でも、当該中間記号列の前および後ろの少なくとも一方の録音音声データを一緒に取得する。ここでは一例として、「シンジュクノアシタノテンキデス」に対応する録音音声データ全体を取得するものとした。定型部分に対応する部分だけ切り出す処理はここでは行わない。

また、録音音声格納部５に録音音声データ４０１と関連付けて格納されている音響特徴情報４０３を取得する。音響特徴情報は、図４の例に示すような構成で格納されており、録音音声の各音素に関して，音素カテゴリ・始終端の時刻・基本周波数が記述されている。

規則合成部７は、入力解析部４で得られる可変部分の中間記号列と定型部分の中間記号列を用いて、規則合成音声を生成する範囲を決定する（ステップ１０５)。ここで、規則合成音声を作成する範囲は、可変部分を含む一文と定義しておくと、可変部分の「コクブンジ」に加えて、定型部分「ノアシタノテンキデス」を含めて規則合成音声を生成する。

次に、規則合成部７は、録音音声の音響特徴情報４０３を参照して、規則合成音声データを生成する（ステップ１０６）。ここで、基本周波数や音素継続長時間などの規則合成パラメータを、規則合成部７があらかじめ記憶している韻律モデル１３を用いて算出するが、その際、録音音声の音響特徴情報を参照して、規則合成パラメータを修正することにより、録音音声と接続しやすい規則合成音声データを生成することが出来る。

録音音声の音響特徴情報４０３のうち基本周波数情報を用いて規則合成パラメータを決定する様子を、図５に示す。図５に示すように、録音音声データと生成される規則合成音声データの重複する区間５０１において、録音音声データの音響特徴情報（録音音声の基本周波数パタン）５０２との誤差が小さくなるように、韻律モデル１３を用いて算出された規則合成パラメータ（韻律モデルが設定する基本周波数パタン）５０３を修正し、規則合成音声データの音響特徴情報（修正された基本周波数パタン）５０４を生成する。修正方法として、平行移動および、ダイナミックレンジの拡大や縮小などの操作を使用する。

このように、録音音声データと規則合成音声データとの重複する区間５０１において音響特徴を合わせる操作を行い、同様の操作が録音音声データと重複しない可変部分５０５に対しても行われることにより、可変部分と定型部分の韻律の整合をとることが可能となる。

音響特徴情報は、基本周波数のみに限らず、音韻継続長時間をあわせて利用することにより、録音音声データと規則合成音声データとの間のリズムの不整合が解消される。また、音響特徴情報として録音音声のスペクトル情報を用いることもでき、音質面でも、録音音声データと規則合成音声データの不連続を解消することができる。

次に、接続境界算出部８は、録音音声データの音響特徴情報５０２と規則合成音声データの音響特徴情報５０４とを用いて、録音音声データと規則合成音声データとの重複区間５０１における、図６に示す接続境界位置６０１を算出する（ステップ１０７）。録音音声データと規則合成音声データとの重複区間５０１における音響特徴情報として、基本周波数が与えられている際の算出方法を、図６を例として説明する。

まず、音素カテゴリ情報を用いて、無声破裂音の先頭など、語中の無声音区間を、接続境界の候補として選択する。続いて、音素境界候補における、録音音声と規則合成音声の基本周波数の差を算出して、差が小さくなるものを接続境界の候補とする。この時点で、算出された同等な候補が複数ある場合には、規則合成音声データの区間を短くすることを考慮して、接続境界位置６０１を決定する。

音素カテゴリ情報を用いて接続境界の候補を得る際には、無声破裂音の先頭位置が有効であるが、その他の無声音についても、有声音と比較すれば滑らかな接続が可能である。ただし、接続合成部９での接続方法に、クロスフェードを用いることができるときは、有声音中でも滑らかな接続ができる可能性があるため、接続境界の候補の選び方は、無声破裂音の先頭位置に限るものではない。

接続位置を算出するための音響特徴情報として、基本周波数の差を用いる以外にも、音韻継続長の差、スペクトルの差を併せて用いることで、より接続時に滑らかとなる位置を算出することが可能となる。

接続境界算出部８は、上述の例のように、音素カテゴリ情報で候補を絞りこんだ後に、基本周波数の差を計算する順序で、接続境界を算出するだけでなく、下記に示す（数１）の例に示すようなコスト関数を定義して算出することもできる。
C(b)＝Wp×Cp(b)＋Wf×Cf(b)＋Wd×Cd(b)＋Ws×Cs(b)＋Wl×Cl(b)
・・・・・・・（数１）
ここで、音素カテゴリ情報から決定される接続のしにくさを音素カテゴリコストCp(b)として定義し、その重み付けをWpとする。また、音響特徴情報における差も、それぞれ、基本周波数コストCf(b)、音韻継続長コストCd(b)、スペクトルコストCs(b)として定義し、それらの重み付けを、それぞれ、Wf、Wd、Wsとする。さらに、各音素境界位置から、可変部分と定型部分の境界との時刻の差を求め、規則合成音声長コストCl(b)として定義し、その重み付けをWlとする。各コストの重み付け和として、接続境界位置に関するコストC(b)を算出し、最も小さなコストを持つ音素境界を接続境界位置とすることも可能である。

次に、接続合成部９は、接続境界算出部８から得られる接続境界位置を用いて、録音音声データと規則合成音声データを切断し、切断された録音音声データと規則合成音声データを接続することにより、入力テキストに対応する合成音声データを出力する（ステップ１０８）。ここで、接続境界位置は、録音音声データにおける時刻および規則合成音声データにおける時刻として算出し、算出された時刻を用いて音声データの切断および接続を行う。

接続合成部９は、切断した音声を接続する際に、単に接続を行うだけでなく、クロスフェード処理を用いて接続部分を目立たなくすることもできる。特に有声部の中間で接続が行われる場合には、基本周波数に同期して、接続境界位置の音声波形の１基本周期分だけクロスフェード処理を行うことで、接続時の異音を解消することができる。ただし、クロスフェード処理を用いて信号が劣化する可能性もあるため、有声部の中間で接続を行うことは避けるように、接続境界位置を決定しておくことが望ましい。

なお、上記実施例では、規則合成音声データを作成する範囲は、可変部分を含む一文と定義した場合について述べたが、一呼気段落、一文のいずれかの単位で生成するようにしてもよい。

以上のように第１の実施例では、車載用カーナビゲーションシステム用に構成された、録音音声データと規則合成音声データを接続する音声合成装置において、規則合成音声データの音質と韻律を録音音声データに近づけるとともに、好適な接続境界を算出することにより、自然な合成音声を生成することが可能となる。

（実施例２）
次に、本発明の第２の実施例について説明する。

第１の実施例は、規則合成音声データを生成した後に決定される接続境界位置を用いて、録音音声データと規則合成音声データを接続するものであるが、接続境界位置の決定後に、規則合成音声データを生成する構成としてもよい。

図７は、本発明の第２の実施例を示すブロック図である。第２の実施例は、第１の実施例における規則合成部７の代わりに、規則合成パラメータ算出部２１と規則合成音声データ生成部２２とを設けた構成となる。図８は、第２の実施例に係る音声合成装置２０の動作を示すフローチャートである。図７と図８を用いて、第２の実施例に係る音声合成装置２０の動作について説明する。

まず、ナビゲーション制御部３において、音声合成装置２０へ渡す入力テキストを決定する（ステップ２０１）。

次に、入力解析部４において、定型部分の中間記号列と可変部分の中間記号列が決定され（ステップ２０２〜ステップ２０３）、録音音声選択部６で録音音声データと録音音声の音響特徴情報が得られる(ステップ２０４)。続いて、規則合成音声の作成範囲が決定される（ステップ２０５）。ここまでの処理は第１の実施例と同様の方法で行われる。

次に、規則合成パラメータ算出部２１において、規則合成パラメータを算出し、規則合成音声の音響特徴情報を生成する（ステップ２０６）。ここで第１の実施例では、規則合成部７において規則合成音声データを作成したが、第２の実施例においては、規則合成音声データを作成しない。

次に、接続境界算出部８は、録音音声の音響特徴情報と規則合成音声の音響特徴情報とを用いて、録音音声データと規則合成パラメータとの重複区間における、接続境界位置を算出する（ステップ２０７）。本ステップは、第１の実施例と同様の方法で行われる。

次に、規則合成音声データ生成部２２において、録音音声の音響特徴情報と規則合成音声の音響特徴情報と接続境界算出部８で得られる接続境界位置とを用いて、規則合成音声データを生成する（ステップ２０８）。本ステップは、接続境界位置に録音音声の音響特徴情報を参照して、ステップ２０６で得られた規則合成パラメータを修正し、規則合成音声データを生成するものである。

例えば、接続境界位置にある音素に対して、音響特徴の差が小さくなるように、規則合成パラメータを修正すると、より接続歪の少ない合成音声が生成されることになる。

第１の実施例では、可変部分を含む１文として定義された規則合成音声データの範囲と、録音音声データとの重複区間の音響特徴情報を用いて、規則合成パラメータを作成するものであったが、第２の実施例では、接続境界算出部８で得られる接続境界位置における、録音音声の音響特徴情報を用いて、規則合成パラメータを再度修正した上で、規則合成音声データを生成するものである。これにより、接続境界位置を考慮した、より滑らかな接続が行われる。

次に、接続合成部９は、接続境界算出部８から得られる接続境界位置を用いて、録音音声データと規則合成音声データとを切断し、切断された録音音声データと規則合成音声データとを接続することにより、入力テキストに対応する合成音声データを出力する（ステップ２０９）。

以上のように、第２の実施例では、第１の実施例と異なり、規則合成パラメータの設定を２段階で行う。１段目では、文全体の滑らかな接続を考慮した規則合成パラメータが設定され、２段目では、接続境界算出部８で得られる接続境界位置を考慮して規則合成パラメータが修正される。このようにして、規則合成パラメータを修正することで、録音音声データと規則合成音声データのより自然な接続を可能とする。

（実施例３）
次に、本発明の第３の実施例について説明する。

図９は、本発明の第３の実施例に係り、鉄道放送システムに本発明を適用する構成を示すブロック図である。図１０は、第２の実施例に係る音声合成装置３０の動作を示すフローチャートである。

本実施例は、あらかじめ録音された音片を接続して合成音声を作成する装置において、本発明の実施により可変部分を含む音片を生成する機能を備えた構成となっている。

入力部３１は、図１１に示すように、文例を選択するための表示手段３３と、選択された文例に従った音片の順序構成の表示手段３４と、可変部分を含む音片においては、テキストの定型部分と可変部分が分かるような表示手段３５を有する入力画面３２と、入力画面３２を見ながら、複数の文例の中から利用者が出力したい文例を選択し、音片の順序構成を編集し、可変部分のテキストをキーボード等で入力するための入力装置３６を備えている。

また、音片情報格納部３５は、図１２に示すような構成で、録音音声格納部５にあらかじめ録音された音声データを、図１３の例に示すように分類しておき、文例を、音片分類コード７０１の組み合わせで表現できるように構成する。また、音片情報格納部３５は、図１３に示すように各録音音声データについて一意に定められた音片コード７０２を格納する。このとき音片コード７０２から音片分類コード７０１が分かるように構成しておく。例として図１３では、音片コード７０２の最上位の桁が音片分類コード７０１の最上位の桁と一致するように構成している。

以下、第３の実施例の動作について説明する。

入力部３１では、文例を選択することによって、音片の構成を決定する（ステップ３０１）。ここで、音片の順序構成において、音片コードが指定されている場合は、固定の音片を利用し、音片分類コードが指定されている場合は、該当する音片を、本発明の音声合成方法によって生成することができる。例えば、図１３の例に示す音片情報が格納されており、入力部で、音片分類コード「２００」が設定されると、入力画面には、可変部分のテキストを入力するための領域と、表示データ７０３として、定型部分の「行きがまいります」が表示される。

続いて、可変部分のテキストをキーボードから入力し、可変部分のテキストを決定する（ステップ３０２）。例えば、可変部分のテキストとして、「原宿」と入力されると、定型部分と組み合わせた「原宿行きがまいります」を、音片として生成する。

入力解析部４は、入力部３１で指定した可変部分を含む音片を作成するために、音片分類コード７０１と対応する定型部分の中間記号列７０４を取得する。また、入力部から得られる可変部分のテキストを言語処理により中間記号列に変換し、可変部分の中間記号列を決定する（ステップ３０３）。このステップにより、可変部分のテキストが「原宿」である場合、可変部分の中間記号列「ハラジュク」が得られる。

次に、録音音声選択部６は、可変部分の入力に従って、同じ定型部分をもつ複数の録音音声の中から適切な録音音声を選択する。ここで、定型部分と可変部分を含めた中間記号列と、録音音声に対応する中間記号列を比較し、最も長く中間記号列が一致するものを選択する（ステップ３０４）。このようにすると、録音音声と規則合成音声の接続境界位置は、定型部分の中に決定されるだけでなく、場合によっては可変部分の中に決定することも可能となり、より高品質な合成音声を生成することができる。

次に、規則合成部７は、入力解析部４で得られる可変部分の中間記号列と定型部分の中間記号列を用いて、規則合成音声を生成する範囲を決定する（ステップ３０５)。ここで、規則合成音声を作成する範囲は、可変部分を含む一音片と定義しておくと、可変部分の「ハラジュク」に加えて、定型部分「ユキガマイリマス」を含めて規則合成音声を生成する。

次に、接続境界算出部８は、録音音声の音響特徴情報と規則合成音声の音響特徴情報を用いて、録音音声データと規則合成音声データの重複区間における、接続境界位置を算出する（ステップ３０６）。

このステップ３０６は、第１の実施例のステップ１０６と同様であるが、録音音声と規則合成音声の接続境界位置は、定型部分の中に決定されるだけでなく、場合によっては可変部分の中に決定することも可能となる。可変部分の中に、接続境界位置が決定される例を、図１４に示す。図１３に示すような音片情報に対応した録音音声が録音音声格納部５に格納されており、定型部分として、音片分類コード「２００」が指定されると、音片コード「２０１」、「２０２」、「２０３」の録音音声が選択の対象となる。ここで、可変部分の中間記号列が「ハラジュク」である場合、定型部分と組み合わせた中間記号列「ハラジュクユキガマイリマス」と、各録音音声の中間記号列を比較すると、音片コード「２０１」の「シンジュクユキガマイリマス」が選択される。

このようにすると、録音音声と規則合成音声の重複区間８０１は、「ジュクユキガマイリマス」に対応する区間となり、あらかじめ指定された定型部分８０３のみならず、可変部分８０２の一部である「ジュク」の部分に関しても録音音声を利用することができるようになり、接続境界位置８０４を可変部分８０２の中に決定することが可能となる。

次に、接続合成部９は、接続境界算出部８から得られる接続境界位置を用いて、録音音声データと規則合成音声データを切断し、切断された録音音声データと規則合成音声データを接続することにより、可変部分を含む音片に対応する合成音声データを作成する（ステップ３０７）。ここで、接続境界位置は、録音音声データにおける時刻および規則合成音声データにおける時刻として算出し、算出された時刻を用いて音声データの切断および接続を行う。このステップは、第１の実施例のステップ１０７と同様であるが、音声データをスピーカから出力する処理は、次の音片接続部３６が行う。

音片接続部３６は、入力部から得られる音片の順序に基づいて、音片を接続して出力音声を生成する（ステップ３０８）。ここで、可変部分を含む音片は、接続合成部から得られる合成音声を用いる。

このようにして、録音された音片を接続して合成音声を作成する装置において、規則合成音声を用いた音片を用いて、自然な接続の合成音声を出力することができる。

以上のように第３の実施例では、鉄道放送システムに本発明を適用した場合、あらかじめ録音された音片を接続して合成音声を作成する装置において、可変部分を含む音片を生成する機能を備え、高品質な音声を出力することができる。

以上詳述したように、本発明によれば、予め格納された録音された音声データと、規則合成により生成された音声データとが重複する区間の音響特徴情報にもとづいて、録音音声と規則合成音声との間の音質および韻律の連続性を考慮した接続境界を選択し、自然な合成音声を生成することが可能となる。また、規則合成作成手段は、重複する区間の音響特徴情報を目標として規則合成音声を作成することにより、規則合成音声の音質と韻律が録音音声に近づき、自然な合成音声を生成することが可能となる。

本発明は、車載用カーナビゲーションシステムや鉄道放送システムへの適用が好適であるが、テキストを音声出力する音声案内システム一般に適用可能である。

本発明の第１の実施例における音声合成装置の構成を示すブロック図である。第１の実施例における音声合成装置の動作を示すフローチャートである。第１の実施例における録音音声格納部に記憶される情報を示す図である第１の実施例における録音音声格納部に記憶される情報の具体例を示す図である第１の実施例における規則合成音声の生成方法を説明するための説明図である。第１の実施例における接続境界位置の選択方法を説明するための説明図である。本発明の第２の実施例における音声合成装置の構成を示すブロック図である。第２の実施例における音声合成装置の動作を示すフローチャートである。本発明の第３の実施例における音声合成装置の構成を示すブロック図である。第３の実施例における音声合成装置の動作を示すフローチャートである。第３の実施例における入力画面の構成を示す図である。第３の実施例における音片情報格納部に記憶される情報を示す図である。第３の実施例における音片情報格納部に記憶される情報の具体例を示す図である第３の実施例における接続境界位置の選択方法を説明するための説明図である。

符号の説明

１…音声合成装置、２…ナビゲーション制御装置、３…ナビゲーション制御部、４…入力解析部、５…録音音声格納部、６…録音音声選択部、７…規則合成部、８…接続境界算出部、９…接続合成部、１０…情報受信部、１１…ＧＰＳ、１２…ナビゲーション用データ記憶部、１３…韻律モデル、２０…音声合成装置、２１…規則合成パラメータ算出部、２２…規則合成音声データ生成部、３０…音声合成装置、３１…入力部、３５…音片情報格納部、３６…音片接続部。

Claims

定型部分と可変部分からなるテキストを合成する音声合成装置において、
録音された音声をもとに作成された、前記定型部分を含む音声データである第１の音声データを予め格納する録音音声格納手段と、
受け付けた前記テキストから、前記可変部分と少なくとも前記定型部分の一部を含む第２の音声データを生成する規則合成手段と、
前記テキストに対応する、前記第１の音声データと前記第２の音声データとが重複する区間の、音素カテゴリ、音韻継続長、パワー、スペクトルのうち少なくとも一つである音響特徴情報にもとづいて、録音された音声データと規則合成により生成された音声データとの接続境界の位置を選択する接続境界算出手段と、
前記第１の音声データを前記接続境界で区切った第３の音声データと、前記第２の音声データを前記接続境界で区切って切り出した第４の音声データとを接続して前記テキストの音声データを合成する接続合成手段とを備え、
前記接続境界算出手段は、前記第１の音声データと前記第２の音声データとが重複する区間に含まれる複数箇所の、前記第１の音声データと前記第２の音声データとの間の前記音響特徴情報の特徴量の差を算出し、算出した複数の前記特徴量の差が最も小さい箇所を、前記接続境界の位置として選択する、
ことを特徴とする音声合成装置。
前記規則合成手段は、前記テキストに対応する、前記第１の音声データと前記第２の音声データとが重複する区間における、前記第１の音声データの音響特徴情報を用いて、前記第１の音声データと整合する前記第２の音声データを生成することを特徴とする請求項１に記載の音声合成装置。
前記規則合成手段は、前記接続境界算出手段から得られる接続境界の位置における前記第１の音声データと前記第２の音声データの音響特徴情報にもとづいて、前記第２の音声データを加工することを特徴とする請求項１に記載の音声合成装置。
前記規則合成手段は、可変部分と、可変部分に先行または後続する定型部分のうち、定型部分の全体、一呼気段落、一文のいずれかの単位で、前記第２の音声データを生成することを特徴とする請求項１に記載の音声合成装置。
前記接続境界算出手段は、前記第１の音声データと第２の音声データとが重複する区間に含まれる複数の音素境界の中から前記接続境界の位置を選択する
ことを特徴とする請求項１に記載の音声合成装置。
前記録音音声格納手段は、定型部分と少なくとも定型部分以外の一部を含む、一呼気段落または一文の単位であらかじめ録音した音声データを、前記第１の音声データとして格納しておくことを特徴とする請求項１又は２に記載の音声合成装置。
前記接続境界位置は、前記第１の音声データにおける時刻および前記第２の音声データにおける時刻として算出し、算出された時刻を用いて音声データの切断および接続を行うことを特徴とする請求項１又は２に記載の音声合成装置。
前記接続合成手段で合成された前記音声データを出力する手段を設けたことを特徴とする請求項１又は２に記載の音声合成装置。
定型部分と可変部分からなるテキストを合成する音声合成装置において、
録音された、前記定型部分を含む録音音声データを予め格納する録音音声格納部と、
受け付けた前記テキストから、前記可変部分と少なくとも前記定型部分の一部を含む規則合成音声データを生成する規則合成部と、
前記テキストに対応する、前記録音音声データおよび前記規則合成音声データの、音素カテゴリ、音韻継続長、パワー、スペクトルのうち少なくとも一つである音響特徴情報に基いて、前記録音音声データと前記規則合成音声データとが重複する区間における接続境界位置を算出する接続境界算出部と、
前記接続境界位置で区切って切り出した前記録音音声データと前記規則合成音声データとを接続して、前記テキストに対応する合成音声データを生成する接続合成部とを備え、
前記接続境界算出部は、前記録音音声データと前記規則合成音声データとが重複する区間に含まれる複数箇所の、前記録音音声データと前記規則合成音声データとの間の前記音響特徴情報の特徴量の差を算出し、算出した複数の前記特徴量の差が最も小さい箇所を、前記接続境界位置として選択する、
ことを特徴とする音声合成装置。
前記規則合成手段は、前記テキストに対応する、前記録音音声データと前記規則合成音声データとが重複する区間における、前記録音音声データの音響特徴情報を用いて、前記録音音声データと整合する前記規則合成音声データを生成することを特徴とする請求項９に記載の音声合成装置。
前記規則合成手段は、前記接続境界算出手段から得られる接続境界の位置における前記録音音声データと前記規則合成音声データの音響特徴情報にもとづいて、前記規則合成音声データを加工することを特徴とする請求項９に記載の音声合成装置。
前記規則合成手段は、可変部分と、可変部分に先行または後続する定型部分のうち、定型部分の全体、一呼気段落、一文のいずれかの単位で、第２の音声データを生成することを特徴とする請求項９に記載の音声合成装置。
前記接続境界算出手段は、前記録音音声データと前記規則合成音声データとが重複する区間に含まれる複数の音素境界の中から前記接続境界位置を選択することを特徴とする請求項９に記載の音声合成装置。
前記録音音声格納手段は、定型部分と少なくとも定型部分以外の一部を含む、一呼気段落または一文の単位であらかじめ録音した音声データを、前記録音音声データとして格納しておくことを特徴とする請求項９又は１０に記載の音声合成装置。
前記接続境界位置は、前記録音音声データにおける時刻および前記規則合成音声データにおける時刻として算出し、算出された時刻を用いて音声データの切断および接続を行うことを特徴とする請求項９又は１０に記載の音声合成装置。
前記接続合成手段で生成された前記合成音声データを出力する手段を設けたことを特徴とする請求項９又は１０に記載の音声合成装置。
定型部分と可変部分からなるテキストを合成する音声合成装置において、
録音された、前記定型部分を含む録音音声データを予め格納する録音音声格納部と、
受け付けた前記テキストから、前記可変部分と少なくとも前記定型部分の一部を含む規則合成パラメータを算出し、規則合成音声の音響特徴情報を生成する規則合成パラメータ算出部と、
前記録音音声の音響特徴情報と前記規則合成の音響特徴情報とを用いて、前記録音音声データと前記規則合成パラメータとが重複する区間における接続境界位置を算出する接続境界算出部と、
前記録音音声の音響特徴情報と、前記規則合成音声の音響特徴情報と、前記接続境界位置とを用いて、規則合成音声データを生成する規則合成音声データ部と、
前記接続境界位置で区切って切り出した前記録音音声データと前記規則合成音声データとを接続して、前記テキストに対応する合成音声データを出力する接続合成部と、
前記合成音声データを出力する手段とを備え、
前記音響特徴情報は、音素カテゴリ、音韻継続長、パワー、スペクトルのうち少なくとも一つであり、
前記接続境界算出部は、前記録音音声データと前記規則合成パラメータとが重複する区間における複数箇所の、前記録音音声データと前記規則合成パラメータとの間の前記音響特徴情報の特徴量の差を算出し、算出した複数の前記特徴量の差が最も小さい箇所を、前記接続境界位置として選択する、
ことを特徴とする音声合成装置。
あらかじめ録音された、可変部分を含む音片と定型部分を含む音片とを接続して合成音声を作成する装置において、
あらかじめ録音された前記音片からなる音声データを格納する録音音声格納部と、
受け付けた入力テキストから、前記可変部分の音片の中間記号列と前記定型部分の音片の中間記号列とを作成する入力解析部と、
前記可変部分の入力に従って、同じ定型部分をもつ複数の録音音声データの中から適切な録音音声データを選択する録音音声選択部と、
前記入力解析部で得られる前記可変部分の音片の中間記号列と、前記定型部分の音片の中間記号列を用いて、規則合成音声データを生成する範囲を決定する規則合成部と、
前記録音音声データの音響特徴情報および前記規則合成音声データの音響特徴情報を用いて、前記録音音声データと前記規則合成音声データとの重複区間における、接続境界位置を算出する接続境界算出部と、
前記接続境界算出部から得られる前記接続境界位置を用いて、前記録音音声データと前記規則合成音声データとを切断し、切断された前記録音音声データと前記規則合成音声データとを接続することにより、前記可変部分を含む音片に対応する合成音声データを作成する接続合成部と、
入力テキストから得られる音片の順序に基づいて、音片を接続して出力音声を生成する音片接続部とを有し、
前記音響特徴情報は、音素カテゴリ、音韻継続長、パワー、スペクトルのうち少なくとも一つであり、
前記接続境界算出部は、前記録音音声データと前記規則合成音声データとが重複する区間における複数箇所の、前記録音音声データと前記規則合成音声データとの間の前記音響特徴情報の特徴量の差を算出し、算出した複数の前記特徴量の差が最も小さい箇所を、前記接続境界位置として選択する、
ことを特徴とする音声合成装置。
定型部分と可変部分からなるテキストを音声合成する音声合成方法において、
録音された、前記定型部分を含む録音音声データを予め格納しておき、
受け付けた前記テキストから、前記可変部分と少なくとも前記定型部分の一部を含む規則合成音声データを生成し、
前記テキストに対応する、前記録音音声データおよび前記規則合成音声データの、音素カテゴリ、音韻継続長、パワー、スペクトルのうち少なくとも一つである音響特徴情報に基いて、前記録音音声データと前記規則合成音声データとが重複する区間における複数箇所の、前記録音音声データと前記規則合成音声データとの間の前記音響特徴情報の特徴量の差を算出し、算出した複数の前記特徴量の差が最も小さい箇所を、接続境界位置として選択し、
前記接続境界位置で区切って切り出した前記録音音声データと前記規則合成音声データとを接続して、前記テキストに対応する合成音声データを生成する
ことを特徴とする音声合成方法。