JP3706112B2

JP3706112B2 - 音声合成装置及びコンピュータプログラム

Info

Publication number: JP3706112B2
Application number: JP2003066521A
Authority: JP
Inventors: ニックキャンベル
Original assignee: Japan Science and Technology Agency; ATR Advanced Telecommunications Research Institute International; National Institute of Japan Science and Technology Agency
Current assignee: Japan Science and Technology Agency; ATR Advanced Telecommunications Research Institute International; National Institute of Japan Science and Technology Agency
Priority date: 2003-03-12
Filing date: 2003-03-12
Publication date: 2005-10-12
Anticipated expiration: 2023-03-12
Also published as: JP2004279436A

Description

【０００１】
【発明の属する技術分野】
この発明は音声合成技術に関し、特に、自然発話の音声データベースから、自然に聞こえる音声を合成するための技術に関する。
【０００２】
【従来の技術】
音声合成とは、もともと自然なものという事はできない。しかし、自然に聞こえる音声を合成する技術に関する需要は存在する。たとえば何らかの原因で発話を行なう事ができない人のためのコミュニケーションの補助、音声から音声への自動翻訳、電話を介した音声による情報提供、又は顧客からの電話による問合せに対する対応などにおいてそうした音声合成技術が必要とされる。
【０００３】
自然に聞こえる音声を合成しようとする場合、話の内容に従って異なるトーンの音声を使い分ける必要がある。そのためには、音声合成に使用される音声を要素に細分し、それぞれにその要素がどの様な場合に用いられる音声であるかを表すラベルを付ける必要がある。
【０００４】
現在のところ、そうした自然に聞こえる音声合成を行なうために使用可能と思われる、大規模な自然発話音声のコーパスがいくつか存在する。しかし、コーパスに含まれる音声を分割して各々にラベル付けを行なう作業は膨大なものとなる。また、自然発話の音響的特徴をモデル化する事に関連してまだ解決されていない多くの問題が存在する。
【０００５】
一方、音素バランス文を読上げた音声からなる音声データベース（以下これを「バランス文音声ＤＢ」と呼ぶ。）では、そうしたラベル付けは比較的容易である。バランス文音声ＤＢは、全ての音素及び全ての韻律をデータベース化している。
【０００６】
従来、バランス文音声ＤＢを用いた音声合成技術として、たとえば非特許文献１また非特許文献２で紹介されたＣＨＡＴＲと呼ばれる、音素を選択して連結するものが存在する。
【０００７】
音素を連結する事による音声合成の標準的な方法は、非特許文献１又は非特許文献２に記載された様に２段階を経る。第１の段階では、合成すべきテキスト（ターゲット）に従った音素上の及び韻律上の制約を反映した目的コスト関数を用いて、音声の各区間ごとに適切な候補をいくつかのコーパスから選択する。第２の段階では、合成後の音声をできるだけ滑らかにする様に、連結のためのコストを最小化する様、各区間の候補の中から一つずつを選択し、それらを連結して音声合成を行なう。
【０００８】
このプロセスのターゲットは、通常は、所望の出力音声を音素的に及び韻律的に表した、予め知られた記号表現（アルファ−ニューメリック）である。
【０００９】
【非特許文献１】
キャンベル、Ｗ．Ｎ．、ブラック、Ａ．Ｗ．、「ＣＨＡＴＲ多言語音声再配列合成システム、ＩＥＩＣＥ技報ＳＰ９６−７，４５−５２，１９９６（Ｃａｍｐｂｅｌｌ，Ｗ．Ｎ．”ＣＨＡＴＲａｍｕｌｔｉｌｉｎｇｕａｌｓｐｅｅｃｈｒｅ−ｓｅｑｕｅｎｃｉｎｇｓｙｎｔｈｅｓｉｓｓｙｓｔｅｍ”、ＴｅｃｈｎｉｃａｌＲｅｐｏｒｔｏｆＩＥＩＣＥＳＰ９６−７，４５−５２，１９９６）
【非特許文献２】
キャンベル、Ｗ．Ｎ．、「ＣＨＡＴＲ合成のための音声コーパスの処理」、音声処理に関する国際会議予稿集１８３−１８６，１９９７（Ｃａｍｐｂｅｌｌ，Ｗ．Ｎ．，”ＰｒｏｃｅｓｓｉｎｇａＳｐｅｅｃｈＣｏｒｐｕｓｆｏｒＣＨＡＴＲＳｙｎｔｈｅｓｉｓ”，ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＳｐｅｅｃｈＰｒｏｃｅｓｓｉｎｇ１８３−１８６，１９９７）
【非特許文献３】
Ｐ．アルク及びＥ．ヴィルクマン、「逆フィルタリングにより推定した、声門容積速度波形のキャラクタリゼーションのための振幅ドメイン指数」、ＳｐｅｅｃｈＣｏｍｍ．，第１８巻、第２号、ｐｐ．１３１−１３８，１９９６（Ｐ．ＡｌｋｕａｎｄＥ．Ｖｉｌｋｍａｎ，”Ａｍｐｌｉｔｕｄｅｄｏｍａｉｎｑｕｏｔｉｅｎｔｆｏｒｃｈａｒａｃｔｅｒｉｚａｔｉｏｎｏｆｔｈｅｇｌｏｔｔａｌｖｅｌｏｃｉｔｙｗａｖｅｆｏｒｍｅｓｔｉｍａｔｅｄｂｙｉｎｖｅｒｓｅｆｉｌｔｅｒｉｎｇ”，ＳｐｅｅｃｈＣｏｍｍ．，ｖｏｌ．１８、ｎｏ．２、ｐｐ．１３１−１３８、１９９６）
【非特許文献４】
Ｐ．アルク、Ｔ．ベックストローム、及びＥ．ヴィルクマン、「声門気流のパラメータ化のための正規化振幅指数」、Ｊ．Ａｃｏｕｓｔ．Ｓｏｃ．Ａｍ．，ｖｏｌ．１１２，ｎｏ．２，ｐｐ．７０１−７１０，２００２（Ｐ．Ａｌｋｕ、Ｔ．Ｂａｅｃｋｓｔｒｏｅｍ、ａｎｄＥ．Ｖｉｌｋｍａｎ、”Ｎｏｒｍａｌｉｚｅｄａｍｐｌｉｔｕｄｅｑｕｏｔｉｅｎｔｆｏｒｐａｒａｍｅｔｒｉｚａｔｉｏｎｏｆｔｈｅｇｌｏｔｔａｌｆｌｏｗ”、Ｊ．Ａｃｏｕｓｔ．Ｓｏｃ．Ａｍ．，ｖｏｌ．１１２，ｎｏ．２，ｐｐ．７０１−７１０，２００２）
【発明が解決しようとする課題】
今日まで「コーパスベースの」音声合成として行なわれてきた研究の大部分は、実際は「データベースの」音声合成についてのものであったといわれている。その相違は、発話スタイルをどの程度カバーしているか、どの様な種類の発話スタイルに関するものであるか、という点である。
【００１０】
「コーパス」とは、ある言語を多少とも代表するテキスト又は音声の集合であり、ある言語に関する言語学的説明のための出発点又はある言語についての仮説を検証するための手段として使用できるものの事をいう。この場合、実際に使用されている言語の真正の実例についてのシステマチックな研究のためには、その集合が、ある言語の状態又は変化を特徴付ける様に選ばれた、自然発生的な言語（すなわちテキスト又は音声）の集まりである事が重要である。
【００１１】
ある特定の言語学的特徴を示す目的のために書いたテキストは、通常は言語学的研究のための真のコーパスに含ませるべきではないと考えられる。なぜならそれらは、「真正の」ものという基準を満たさず、従って「自然発生的なもの」でもないためである。
【００１２】
しかし、今までのところ、音声合成の研究に使用されてきたデータベースの大多数は、特定の目的のために設計されたものであり、通常は職業的なアナウンサが注意をはらって読んだものをスタジオ録音したものからなっている。それらは「使用されている音声」を代表するものではなく、常日頃経験する、言葉を用いた生活で出会う様な自然な発話スタイル及び発話状況に応じた変化形を含んでいるものでもない。
【００１３】
バランス音声ＤＢは、詳細にラベル付けを行なう事が可能である。しかしバランス音声ＤＢに含まれる音声は、話し言葉のフォーマルな言語学的特徴の多くの例を含んではいるが、話し言葉による社会的、相互作用的な機能という局面での特徴についてはほとんど含んでいない。バランス音声ＤＢを用いて音声合成を行なった場合、その結果得られる合成音声は硬い発音となり、自然な音声として聞こえるものではない。
【００１４】
もしも音声合成をより自然な形で行なう方向で発展させるのであれば、話し言葉による相互作用の全ての局面を表す事ができるコーパスであって、かつ話者の状態、態度、及び意図など、話し言葉をその意図に沿って解釈するための手掛かりを提供する非言語的情報をも含んだコーパスに基づいた研究を行なう事が必要である。
【００１５】
これを解決するために、自然発話ＤＢを用いる事が考えられる。しかし自然発話ＤＢを音声合成に用いようとすると、前述した通りラベル付けの作業が膨大となり、さらにラベル付けのための音響的な特徴をモデル化する事も困難であるという問題がある。そのため、従来は、自然発話音声ＤＢを用いて自然に聞こえる音声合成を行なう事が困難であるという問題点があった。
【００１６】
本発明はこの様な問題を解決するためになされたものであって、自然発話音声ＤＢを用いて自然に聞こえる音声合成を行なう事ができる音声合成装置を提供する事を目的とする。
【００１７】
この発明の他の目的は、自然発話音声ＤＢのラベル付けを行なう事なく、自然発話音声ＤＢを用いて自然に聞こえる音声合成を行なう事ができる音声合成装置を提供する事である。
【００１８】
この発明のさらに他の目的は、最初のターゲットから何らかの手段で音響的ターゲットを生成し、この音響ターゲットに類似した音声を自然発話音声ＤＢから抽出する事により、自然に聞こえる音声合成を行なう事ができる音声合成装置を提供する事である。
【００１９】
この発明の別の目的は、ターゲットの非言語的、パラ言語的特徴に沿った発話スタイルで、自然に聞こえる音声合成を行なう事ができる音声合成装置を提供する事である。
【００２０】
【課題を解決するための手段】
本発明の第１の局面に係る音声合成装置は、予め言語情報についてのラベル付けがされた朗読音声データからなる朗読音声データベースと、自然発話音声データからなる自然発話音声データベースと、非言語情報が予め付与されたテキスト情報を受け、朗読音声データベースからテキスト情報に付与された非言語情報と合致する言語情報が付与された音声データを抽出する事により、テキスト情報に対応する音声信号を合成するための音声合成手段と、自然発話音声データベースから音声信号の各部分について、各部分との間に定義される距離の小さいものから順番に自然発話音声データを複数個選択するための候補選択手段と、音声信号の各部分について、自然発話音声データベースから、候補選択手段により選択された複数個の自然発話データの各々について予め定められた韻律的特徴を算出し、テキスト情報に付与されている非言語情報と合致するものを選択するためのフィルタ手段と、フィルタ手段により選択された自然発話データに基づいて音声信号を合成するための手段とを含む。
【００２１】
好ましくは、テキスト情報に予め付与されている非言語情報は、予め定められた韻律的特徴を示す特徴ベクトルであり、フィルタ手段は、候補選択手段により選択された複数個の自然発話データの各々について予め定められた韻律的特徴を示す特徴ベクトルを算出し、テキスト情報に予め付与されている特徴ベクトルとの類似度が最も高いものを選択するための手段を含む。
【００２２】
さらに好ましくは、予め定められた韻律的特徴は、正規化振幅指数、音声信号のパワー、音声信号の持続時間、及び基本周波数のうち少なくとも一つを含む。
【００２３】
候補選択手段は、音声信号の各部分について、自然発話音声データベースから、各部分との間でＤＰ（ＤｙｎａｍｉｃＰｒｏｇｒａｍｍｉｎｇ）マッチングにより算出されるＤＰ距離が予め定められたしきい値より小さなものを選択するための手段を含んでもよい。
【００２４】
候補選択手段は、音声信号の各部分について、自然発話音声データベースから、各部分との間でＤＰマッチングにより算出されるＤＰ距離の小さなものから順番に予め定められた複数個だけ選択するための手段を含んでもよい。
【００２５】
本願発明の第２の局面は、コンピュータにより実行されると、当該コンピュータを上記したいずれかの音声合成装置として動作させるコンピュータプログラムに関する。
【００２６】
【発明の実施の形態】
−自然発話の特徴を表す声質について−
スタジオ録音された音声と、日頃親しんでいる音声との間の最も大きな相違は、日頃親しんでいる音声で経験する発話スタイルが非常に大きな範囲にわたっているという点である。これは、話者が、発話時にその状況における発話のフォーマルさを示すために、喉頭部の設定を種々に変化させるためと思われる。
【００２７】
出願人において作成した音声コーパスの話者の一人について、１００時間以上の録音を行なって得た音声データを、発話サイズのチャンク（かたまり）に分割した。これらチャンクについてさらに、発話スタイルの特徴を３段階で示す様にラベル付けした。ラベルは以下の３種類である。
【００２８】
（ａ）話者の状態（感情及び態度）
（ｂ）話のスタイル（友好的、丁寧、柔らか、ためらいがち、など）
（ｃ）各発話の間の話者の声の調子（ブレシー、暖か、緊張気味など）
なおここでブレシー（ｂｒｅａｔｈｙ）とは気息性という事を意味し、典型的には丁寧でやさしく話すときの話し方の特徴である。この逆はプレスト（ｐｒｅｓｓｅｄ）という。
【００２９】
これら３つのラベルからなるベクトルを、音声から抽出した音響的特徴（ピッチ、パワー、話す速度、気息性の度合いなど）と組合せた。さらに、この結果得られる多次元空間の複雑さを軽減するために主成分分析（ＰＣＡ）を行なった。ＰＣＡ分析の第１次元は話者と相手との間の関係（仲のよさ）によく対応し、第２次元は発話内容（誠実さ）によく対応し、第３次元は話者の態度（熱意）によく対応した。
【００３０】
これは、相手との関係及び対話の目的に応じて、話者がその声の質、ピッチの幅、及びその表現を変化させているためだと思われる。別の人には別の話し方で話すというのは常識に適っている。しかし、音声関連の分野では、家族、友人、仕事上の知人、他人、及び機械などに対して人が話すときの発話スタイル及び音声の特徴がどの様に相違するかについては、ほとんどデータが蓄積されてこなかった。
【００３１】
実施の形態の説明をする前に、その背景となる上記した発話スタイル及び音声の特徴の相違について説明する。図１に、二人の話者（ＦＩＡ及びＦＡＮ）についての正規化振幅指数（ＮｏｒｍａｌｉｓｅｄＡｍｐｌｉｔｕｄｅＱｕｏｔｉｅｎｔ：ＮＡＱ）の分布を示す。ＮＡＱとは、振幅係数（ＡｍｐｌｉｔｕｄｅＱｕｏｔｉｅｎｔ：ＡＱ）を基本周波数ｆ０で正規化したものである。
【００３２】
ＡＱとは、非特許文献３においてアルク（Ａｌｋｕ）により示されているものであって、音声信号から声道の影響を除去するために、最適化した、時間的に変化するフォルマントを用いて音声を逆フィルタリングする事により得られる声門（声帯）気流の波形の微分の推定値であり、その波形のピークツーピークの振幅の最大値を、波形の微分のサイクルツーサイクルの振幅の最小値で除したものである。ＡＱは声門の発音のモード（「声の質」）を示す。
【００３３】
ＡＱは、そのままでは発話波形の基本周期と弱い相関を持つが、基本周波数ｆ０で除する事によりその影響を削減できる。その結果得られるのがＮＡＱである。
【００３４】
図１の下半分に示すのは、二人の日本人の女性話者（ＦＩＡ，ＦＡＮ）の発話について測定したＮＡＱのヒストグラムである。図１の上半分には、非特許文献４でＡｌｋｕらにより、５人の男性話者および５人の女性話者について報告された「プレスト」、「地声（通常）」、及び「ブレシー（気息性）」に関する測度測度と比較したものである。図１から、個人により多少の変動はあるが、分布全体の形状は類似したものである事、及びそれが前記文献に記載された「プレスト」、「地声（通常）」、及び「ブレシー（気息性）」という範囲に当てはまる事が分かる。話者ＦＡＮのデータに見られる歪みは、以下に説明する様によりくだけた（プレストな）発話スタイルが優勢である事により説明できる。
【００３５】
以下、この変動がランダムなものではない事、この変動が発話の非言語的特徴、たとえば対話相手との関係、発言の意図、及び発話スタイルなどとの相関により最もよく説明できる事、ならびにそのためこの変動を韻律的パラメータとして考えるべき事を示す。
【００３６】
出願人は、約２５０時間の音声データを収集し、聞き取りによりテキスト入力を行った。そのうち約１００時間分について発話スタイルと発話とその目的との間の関係という特徴に関するラベル付けを行なった。音声の音響的測定を行ない、知覚上の属性と物理的属性との間の相関に関する分析を行なった。
【００３７】
以下の説明では、一人の日本人女性話者から得られたデータについての検討をする。この女性は、頭部に装着した高性能なマイクを用いて毎日の会話を録音した。分析はこの女性の発話に対してのみ行なわれたが、ときには相手の発言もラベル付けを行なう作業者に聞き取れた。
【００３８】
データは、音響的及び知覚的なラベルを適切に付す事ができた１３，６０４発話からなる。「発話」とは、文書化の担当者にとっては、知覚できる切れ目のない音声部分の事をいい、おそらくは「イントネーションフレーズ」に対応するものである。その長さは単一シラブルから３５シラブルまでにわたっている。
【００３９】
データはＣＲＡＮのパブリックドメインの統計ソフトウェアパッケージ「Ｒ」を用いて分析された。相手（「誰に」）、発話スタイル（「どの様に」）、及び発話活動（「何のために」）からなる特徴集合を生成し、ＮＡＱと音声の基本周波数ｆ０という測度と照合する事により何らかの相関があるかどうかについて検討した。
【００４０】
対話の相手は次の表１に記載の様にグループ分けした。
【００４１】
【表１】

発話スタイルについては本実施の形態では簡略化し、「家族」、「友人」及び「他人」、さらに自分に対する発話という分類の各々について「丁寧」、「親しい」、及び「くだけた」というグループに分けた。全部で２４の発話カテゴリがあったが、ここではそのうちの次の５つについて論じる。すなわち「情報の提供」、「あいづち」、「情報の要求」、「つぶやき」、及び「繰返しの要求」である。
【００４２】
−発話の韻律とＮＡＱ−
正規化前には、ＡＱは基本周波数ｆ０とｒ＝−０．４０６の相関を有していた。正規化（ＮＡＱ＝ｌｏｇ（ＡＱ）＋ｌｏｇ（ｆ０））により得られたＮＡＱは基本周波数ｆ０とｒ＝０．１８２の相関を有していた。
【００４３】
図２は、家族に対する発話についてのＮＡＱと基本周波数ｆ０とを示す。図２において、ｍ１、ｍ２、ｍ３、ｍ４、ｍ５、ｍ６、及びｍ８は、それぞれ母、父、娘、夫、姉、姉の子、及び叔母を示す。図２から、いくつか興味ある傾向がわかる。すなわち、話者（女性）の娘（１歳）に対する発話が、基本周波数ｆ０及び気息性のいずれにおいても最も高い値を示している。気息性から、家族の序列が次の様に定まる。すなわち、娘＞姉の子＞父＞母＝姉＞叔母＞夫という順序である。この順序が、家族内での対話において、「気配り」をされている程度を示すという事が可能かも知れない。ラベル付け作業者も、この結果は発話を聞いているときの印象と一致している事を確認した。
【００４４】
図３は、対話の相手によるＮＡＱと基本周波数ｆ０とを示す。図３において「ｆ」は友人を示す。「ｍ」は家族、「ｔ」は他人を示す。興味深いのは、友人に対する「ａ」（注意深い発話）に関するＮＡＱの値は高く「ｂ」（親しい会話）及び「ｃ」（くだけた会話）の間では違いが見られないのに対して、家族間の会話ではこの関係が逆転している事である。すなわち、注意深い会話と親しい会話との間では違いが見られないのに対して、くだけた会話ではＮＡＱの値はかなり低くなっている。他人との会話については、くだけた会話はないが、注意深い会話及び親しい会話は予想した通りのＮＡＱの相違を示した。
【００４５】
図４は、発話とその目的についての相違について論ずる。既に述べた事から、注意深い会話においては、より「手ごろな」会話と比較してＮＡＱの値が高くなる事が予測される。図４は、この予想が正しい事を示す。図４は５つのカテゴリ（つぶやき（「？」）、間投詞（「Ｉ」）、情報の提供（「ｅ」）、情報の要求（「ｒｅ」）、及び繰返しの要求（「ｒｚ」））についてのＮＡＱと基本周波数ｆ０とを示す。
【００４６】
図４を参照して、情報の提供のＮＡＱの値は、情報の要求についての値よりもかなり低い。また、繰返しの要求のＮＡＱの値が最も高い。「つぶやき」については他とは別カテゴリであると考えられるが、それは図４によっても裏打ちされる。すなわち、つぶやきについてはｆ０がきわだって低く、気息性（高ＮＡＱ値）の声質を示している。
【００４７】
以上から、ＮＡＱにより測定した声質が、会話の相手、発話スタイル、及び発話の目的と大きな相関を持っている事が分かる。ＮＡＱは、会話においてはらう「注意」の程度によって一定の変化をし、基本周波数とは独立に変化する。従って、この声質を、基本周波数ｆ０、発話の長さ、及び振幅とともに韻律的特徴と考える事ができ、意味上の非言語的な相違を示すために音声合成において制御すべきものと考える。
【００４８】
−音声合成装置の構成−
上に述べた考え方に従い、ＮＡＱにより測定した声質を制御することにより、意味上の非言語的な相違が反映された音声合成を行なう音声合成装置の実施の形態について以下説明する。
【００４９】
図５に、この一実施の形態に係る音声合成装置のブロック図を示す。図５を参照して、この音声合成装置は、入力される音声合成の対象となるテキスト及び非言語情報を表す属性などを含む入力ＸＭＬ（ＥｘｔｅｎｄｅｄＭａｒｋ−ＵｐＬａｎｇｕａｇｅ）文３０を前処理し、音声合成のターゲットとなるテキストを作成する前処理部３２と、予め準備された特定の話者のバランス文音声ＤＢ３４と、前処理部３２により生成されたターゲットテキストに対し、バランス文音声ＤＢから適切な音素列を選択し連結する事により、入力ＸＭＬ３０に対する音声波形データを生成するための波形生成部３６と、波形生成部３６により生成された音声波形データに基づいて音声信号を合成するための音声信号合成部３８とを含む。
【００５０】
波形生成部３６及び音声信号合成部３８にはいずれも従来の音声合成技術を用いる事ができる。バランス文音声ＤＢ３４の音声は自然な音声ではないので、生成される音声は生硬で、自然とはいえない音声となる。ただし、バランス文音声ＤＢ３４に含まれる各音素については、音素バランス文の朗読文から得られたものなので、適切にラベル付けをする事が可能である。その結果、音声信号合成部３８から出力される音声信号は、生硬ではあるが、入力ＸＭＬ３０で指定された非言語情報に比較的よくあった音声信号となる。
【００５１】
本実施の形態に係る装置は、この様に音声信号合成部３８の出力として得られた音声信号を、自然な音声合成のための音響的ターゲット４０としてさらに自然発話音声データを用いて音声合成を行ない、自然な発話に近い合成音声信号５４を得る点にある。そのために本実施の形態の装置は、上記した各構成要素に加えて、バランス文音声ＤＢ３４の話者と同じ話者（又はよく似た声を出す人）の自然な発話を集める事により予め準備された自然発話音声ＤＢ４２を用いる。自然発話音声ＤＢ４２は、上記した話者の自然発話を収集する事により得られたもので、様々な状況での音声データを集めてある。ただし、この自然発話音声ＤＢ４２内の音声データには、上記した非言語情報に合わせて音声を抽出するためのラベル付けなどはしていない。自然発話についてそうしたラベル付けをする事が、従来の技術の説明で述べた様に困難だからである。
【００５２】
この装置はさらに、音響的ターゲット４０の各時間期間について、ＤＰマッチングによって自然発話音声ＤＢ４２の中から比較的近い（ＤＰ距離が小さい、すなわち類似度が高い）音声データを音声合成のための候補として複数個選択し、候補列４６として出力するための候補選択部４４と、候補列４６内の各候補について所定の韻律的属性を求め、その部分について入力ＸＭＬ３０で指定された非言語的情報と合致した韻律的属性を示すもののみを選択するためのフィルタ部４８とを含む。ここで使用される時間期間は、可変長である。
【００５３】
フィルタ部４８が各候補列から求める韻律的属性としては、よく知られている基本周波数ｆ０、音声データのパワー、発話の長さに加えて、上記したＮＡＱを含む。たとえばこれら各要素について、入力ＸＭＬ３０では各発話単位（たとえば文）について予め特徴ベクトル（又は特徴ベクトルを計算するための情報）が非言語情報として付与されている。各候補についてもこれらの情報を計算する事ができ、比較のための特徴ベクトルを作成する事ができる。フィルタ部４８は、各候補について計算された特徴ベクトルと、入力ＸＭＬ３０でその発話単位について付与されていた特徴ベクトルとの間の距離を計算し、最も小さな距離を示した候補であって、かつ連結したときになめらかに連結できる様な候補を選択する。フィルタ部４８は、この様にして最終的に音声合成をするための最終音声データ列５０を出力する。
【００５４】
この装置はさらに、最終音声データ列５０に基づいて波形生成を行なうための波形生成部５２を含む。波形生成部５２が出力する合成音声信号５４は、自然発話音声ＤＢ４２から抽出した音声データに基づいて合成されており、かつその各発話単位は入力ＸＭＬ３０においてその発話単位に付与されていた非言語情報によく合致したものとなる。従って、合成音声信号５４は、自然に聞こえる音声であって、かつ指定された発話モードによく合致したものとなる。
【００５５】
−音声合成装置の動作−
この装置は以下の様に動作する。入力ＸＭＬ３０が前処理部３２に与えられると、前処理部３２は音声合成すべきテキストを各発話単位で作成し、かつ入力ＸＭＬ３０において各発話単位に付与されていた非言語情報を抽出する。波形生成部３６は、バランス文を朗読した音声から作成した朗読音声データベースであるバランス文音声ＤＢ３４から、前処理部３２によって与えられたテキストを合成するための音声データをバランス文音声ＤＢ３４から抽出する。波形生成部３６はこの際、前処理部３２から与えられた非言語情報と一致するラベルが付された音声データを抽出する。波形生成部３６はさらに、抽出した音声データを従来の技術に従ってなめらかに連結し、音声信号合成部３８に与える。
【００５６】
音声信号合成部３８は、この音声データ列に基づいて、従来の技術に従って音声合成を行ない、自然発話音声合成のための音響的ターゲット４０を出力し候補選択部４４に与える。この音響的ターゲット４０の例を図６に示す。図６に示す例では、音響的ターゲット４０は時間期間９２，９４，９６及び９８を含む。この期間は可変長である。またこれらの時間期間は互いに一部重複していてもよい。
図５を参照して、候補選択部４４は、図６に示す各区間９２，９４，９６及び９８について、自然発話音声ＤＢ４２からＤＰマッチングにより音響的ターゲット４０の波形と類似した音声データ候補列１１２，１１４，１１６，１１８をそれぞれ抽出する。音声データ候補列１１２、１１４，１１６，１１８の各々は複数の音声データ候補を含む。本実施の形態では、候補選択部４４は、ＤＰ距離の小さなものから順番に所定の複数個を候補として選択する。候補選択部４４はこれら音声データ候補列１１２、１１４、１１６、１１８を図５に示す候補列４６としてフィルタ部４８に与える。
【００５７】
フィルタ部４８は、たとえば図６に示す時間期間９２について、音声データ候補列１１２に含まれる各候補の特徴ベクトルを算出する。そしてこの特徴ベクトルと、入力ＸＭＬ３０において付与されていた特徴ベクトルとを比較して、その間で計算されるコサイン尺度（すなわち類似度）が小さなものであって、かつ連続する期間の音声データと滑らかに連結できる様な候補１３２を選択する。同様にフィルタ部４８は、時間期間９４，９６，９８等についても複数の候補から候補１３４、１３６、１３８を抽出する。これらが図５に示す最終音声データ列５０となる。
【００５８】
波形生成部５２はこれら最終音声データ列５０を滑らかに連結した合成音声信号５４を出力する。
【００５９】
以上説明した本実施の形態の装置によれば、一旦バランス文音声ＤＢ３４を用いて音響的ターゲット４０を生成し、この音響的ターゲット４０に近く、かつ入力ＸＭＬ３０に付与されていた非言語的特徴と一致した韻律的特徴を示す音声データを自然発話音声ＤＢ４２から抽出する事ができる。この音声データ列から合成した合成音声信号５４を得る事ができる。そのため、合成音声信号５４は、自然に聞こえる音声であってかつ最初に指定された非言語的特徴によく合致したものとなる。また、自然発話音声ＤＢ４２からの抽出のために、自然発話音声ＤＢ４２中の音声データに予めラベル付けをしておく必要はない。バランス文音声ＤＢ３４のラベル付けだけをしておけばよく、これは容易に行なう事ができる。
【００６０】
上記した実施の形態では、候補選択部４４は、ＤＰ距離の小さなものから順番に所定の複数個を選択する。しかし本発明はその様な実施の形態には限定されない。たとえば、候補選択部４４は、ＤＰ距離が所定のしきい値より小さなもののみを候補として選択する様にしてもよい。また、ＤＰ距離の小さなものから順番に、かつ所定のしきい値より小さなもののみを選択する様にしてもよい。
【００６１】
なお、ここに説明した実施の形態の装置は１又は複数のコンピュータ及び当該１又は複数のコンピュータ上で実行されるソフトウェアにより実現する事ができる。そのソフトウェアの制御構造は、図５に示したブロック図とよく対応している。そのため、ここではその詳細は説明しない。当業者であれば、上記した説明からソフトウェアをどの様に構成すればよいかは明らかであろう。
【００６２】
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内でのすべての変更を含む。
【図面の簡単な説明】
【図１】本発明の一実施の形態の装置の原理を説明するための図である。
【図２】家族に対するＮＡＱと基本周波数ｆ０とを示すための図である。
【図３】相手の種類によるＮＡＱと基本周波数ｆ０とを示すための図である。
【図４】発話の目的によるＮＡＱと基本周波数ｆ０とを示すための図である。
【図５】本発明の一実施の形態の装置のブロック図である。
【図６】本発明の一実施の形態の装置の動作を説明するための図である。
【符号の説明】
３０入力ＸＭＬ、３２前処理部、３４バランス文音声ＤＢ、３６波形生成部、３８音声信号合成部、４０音響的ターゲット、４２自然発話音声ＤＢ、４４候補選択部、４６候補列、４８フィルタ部、５０最終音声データ列、５２波形生成部、５４合成音声信号

Claims

予め言語情報についてのラベル付けがされた朗読音声データからなる朗読音声データベースと、
自然発話音声データからなる自然発話音声データベースと、
非言語情報が予め付与されたテキスト情報を受け、前記朗読音声データベースから前記テキスト情報に付与された非言語情報と合致する言語情報が付与された音声データを抽出する事により、前記テキスト情報に対応する音声信号を合成するための音声合成手段と、
前記自然発話音声データベースから前記音声信号の各部分について、前記各部分との間に定義される距離の小さいものから順番に自然発話音声データを複数個選択するための候補選択手段と、
前記音声信号の各部分について、前記自然発話音声データベースから、前記候補選択手段により選択された複数個の自然発話データの各々について予め定められた韻律的特徴を算出し、前記テキスト情報に付与されている前記非言語情報と合致するものを選択するためのフィルタ手段と、
前記フィルタ手段により選択された自然発話データに基づいて音声信号を合成するための手段とを含む、音声合成装置。
前記テキスト情報に予め付与されている非言語情報は、前記予め定められた韻律的特徴を示す特徴ベクトルであり、
前記フィルタ手段は、前記候補選択手段により選択された複数個の自然発話データの各々について前記予め定められた韻律的特徴を示す特徴ベクトルを算出し、前記テキスト情報に予め付与されている特徴ベクトルとの間の類似度が最も高いものを選択するための手段を含む、請求項１に記載の音声合成装置。
前記予め定められた韻律的特徴は、正規化振幅指数、音声信号のパワー、音声信号の持続時間、及び基本周波数のうち少なくとも一つを含む、請求項２に記載の音声合成装置。
前記候補選択手段は、前記音声信号の各部分について、前記自然発話音声データベースから、前記各部分との間でＤＰ（ＤｙｎａｍｉｃＰｒｏｇｒａｍｍｉｎｇ）マッチングにより算出されるＤＰ距離が予め定められたしきい値より小さなものを選択するための手段を含む、請求項１〜請求項３のいずれかに記載の音声合成装置。
前記候補選択手段は、前記音声信号の各部分について、前記自然発話音声データベースから、前記各部分との間でＤＰ（ＤｙｎａｍｉｃＰｒｏｇｒａｍｍｉｎｇ）マッチングにより算出されるＤＰ距離の小さなものから順番に予め定められた複数個だけ選択するための手段を含む、請求項１〜請求項３のいずれかに記載の音声合成装置。
コンピュータにより実行されると、当該コンピュータを請求項１〜請求項５のいずれかに記載の音声合成装置として動作させる、コンピュータプログラム。