JP2006021273A

JP2006021273A - テキストビジュアル音声（ｔｔｖｓ）合成方法及びコンピュータで実行可能なプログラム

Info

Publication number: JP2006021273A
Application number: JP2004201395A
Authority: JP
Inventors: Gurbuz Sabri; サブリ・グルブズ; Keisuke Kinoshita; 敬介木下; Riley Marcia; マルシア・ライリ; Sumio Yano; 澄男矢野
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2004-07-08
Filing date: 2004-07-08
Publication date: 2006-01-26

Abstract

【課題】仮想的または物理的なロボットがあたかも実際に話しているかのように口を動かすために必要な情報を生成できるようにする。
【解決手段】ＴＴＶＳ合成方法は、オーディオ音声単位特定マークとそのそれぞれの口の動きの軌跡パラメータとのマッピング（３２）を確立するステップと、それぞれ継続時間長が付された音声単位特定マークのリストを準備するステップと、それぞれの継続時間長がリストで特定された、リスト中の各音声単位について、口の動きの軌跡を表すパラメータ（６０）を連結するステップと、連結された口の動きの軌跡パラメータに従って、人工の口を駆動するための口駆動信号を発生するステップ（６２）と、を含む。
【選択図】図１

Description

この発明は話すロボットの同期オーディオビジュアル音声の調音に関し、特に、テキストビジュアル音声合成（Ｔｅｘｔ−Ｔｏ−ＶｉｓｕａｌＳｐｅｅｃｈＳｙｎｔｈｅｓｉｓ：ＴＴＶＳ）の方法とそのテキスト音声合成（ＴＴＳ）システムとの統合に関するものである。

ロボットは家庭生活の一部になるかもしれない。ロボットが、例えば話すことなど人と同様な振舞いをすれば、人はロボットと協力し合おうとする気持ちが増し、社会的な関係を築く助けになるかもしれない（非特許文献１−３を参照）。表情豊かで親しみやすい、話すロボットシステムを構築することが好ましいであろう。そこでまず、発声の間の口の動きの同期について着目する。

人の顎は口の開閉を制御するが、これはオーディオビジュアルな音声コミュニケーションでは重要な手がかりである。ロボットでこれらを実現すれば、音声と同期して口が動き、その結果、ロボットが自分に対して話しかけているのだと強く感じるようになるであろう。ロボットがある人に顔を向けて話していれば、その人は顎の全ての視覚的な手がかりを知覚することができ、実際には音声がロボットのスピーカーから出ているにもかかわらず、音声がロボットの口から発せられたものと考える。顎の動きに加えて唇の動きがあれば、ユーザとロボットとの関わりあいのレベルはさらに高まるであろう。

人の声道システムは、音響信号を生成するための発声器官（肺及び声帯）と調音器官（舌、唇、歯及び鼻腔）の動きを含み、これを聴覚システムで知覚することができる。早稲田大学の研究者らは話すロボットを開発しており（ＷＴ−１，ＷＴ−２，ＷＴ−３）これらは人の音声生成システムに基づいたものであって、声道器官と調音部とを含んでいる（非特許文献２を参照）。著者らは、ロボットが日本語の母音をかなり鮮明に発生でき、全ての発話が自然に聞こえるとは言えないものの、全ての日本語の子音、ストップ、摩擦音及び鼻音を生成できる、と報告している（非特許文献２、４を参照）。

Ｆ．ハラ、Ｋ．エンドウ、及びＳ．シラタ、「日本語の母音のためのロボットの口の唇形状制御」ＲＯ−ＭＡＮ‘９７、第６回ＩＥＥＥロボットと人のコミュニケーションに関するワークショップ、予稿集、１９９７年９月２９日−１０月１日（F. Hara, K. Endou, and S. Shirata, "Lip-configuration control of a mouth robot for Japanese vowels," in RO-MAN '97. Proceedings., 6th IEEE International Workshop on Robot and Human Communication, 29 Sept. -1 Oct., 1997）Ｔ．モチダ、Ｓ．ヒロヤ、Ｍ．ホンダ、Ｋ．ニシカワ、及びＡ．タカニシ、「人の音声のホルマント軌跡を模倣することによる、話すロボットの調音制御」第６回音声生成に関する国際セミナー、シドニー、オーストラリア、２００３（T. Mochida, S. Hiroya, M. Honda, K. Nishikawa, and A. Takanishi, "Articulatory control on talking robot by mimicking formant trajectories of human speech," in 6th International Seminar on Speech Production, Sydney, Australia, 2003）Ｃ．ブリーゼル、Ａ．エッジンガー、Ｐ．フィッツパトリック、Ｂ．スカセラッティ、及びＰ．ヴァルカフスカイア、「アニメートビジョンに対する社会的制約」ＩＥＥＥインテリジェントシステムズ、第１５巻第４号、２０００年（C. Breazel, A. Edsinger, P. Fitzpatrick, B. Scassellati, and P. Varchavskaia, "Social constraints on animate vision," IEEE Intelligent Systems, vol. 15, no. 4, 2000）タカニシ研究室「話すロボット」、ヒューマノイドロボット研究所、早稲田大学（Takanishi Laboratory, "Talking robot," Humanoid Robotics Institute, Waseda University.）Ａ．Ｗ．ブラック及びＫ．Ａ．レンゾ「合成音声の構築」http://festvox.org.（A. W. Black and K. A. Lenzo, "Building synthetic voices,"http://festvox.org）Ｔ．エザット、Ｇ．ガイガー及びＴ．ポッジオ、「訓練可能なビデオ現実音声アニメーション」、ＡＣＭＳＩＧＧＲＡＰＨ２００２予稿集、サンアントニオ、テキサス、２００２年（T. Ezzat, G. Geiger, and T. Poggio, "Trainable videorealistic speech animation," in Proceedings of ACM SIGGRAPH 2002, San Antonio, Texas, 2002）Ｔ．エザット及びＴ．ポッジオ、「視覚素変形によるビジュアル音声合成」、コンピュータビジョン国際ジャーナル、第３８巻、２０００年（T. Ezzat and T. Poggio, "Visual speech synthesis by morphing visemes," International Journal of Computer Vision, vol. 38, 2000）Ｐ．ホン、Ｔ．Ｓ．フアン、及びＸ．リン、「口の動きの学習と観察からの生成」ＩＥＥＥマルチメディア信号処理ワークショップ、１９９８年（P. Hong, T. S. Huang, and X. Lin, "Mouth motion learning and generating from observation," in IEEE Workshop on Multimedia Signal Processing, 1998）Ｓ．ヤング、Ｊ．オデル、Ｄ．オラソン、Ｖ．ヴァルチェフ及びＰ．ウッドランド、ＨＴＫブック、ケンブリッジ大学出版局、１９９７年（S. Young, J. Odell, D. Ollason, V. Valtchev, and P. Woodland, HTK Book, Cambridge University Press, 1997）Ｓ．グルブズ、Ｋ．キノシタ、及びＳ．ヤノ、「訓練可能な多変量ガウス分類辞を用いた、ビデオシーケンスからの口トラッキング」ＰＲＭＵ２００３、仙台、日本、２００３年（S. Gurbuz, K Kinoshita, and S. Yano, "Mouth tracking from video sequences using trainable multivariate gaussian classifiers," in PRMU 2003, Sendai, Japan, 2003）

従って、この発明の目的の一つは、仮想的または物理的なロボットがその口を、あたかもロボットが実際に話しているかのように動かすために必要な情報を生成可能なテキストビジュアル音声合成方法を提供することである。

この発明の別の目的は、ロボットがその音声と同期してその口を動かすことができる、テキストビジュアル音声合成方法を提供することである。

この発明の第一の局面によれば、テキストビジュアル音声合成方法は、オーディオ音声単位特定マークとそのそれぞれの口の動きのパラメータとのマッピングを確立するステップと、それぞれ継続時間長を付した音声単位特定マークのリストを準備するステップと、それぞれの継続時間長がリストに特定された、リスト中の各音声単位について、口の動きの軌跡を表す口の動きの軌跡パラメータを接続するステップと、接続するステップで接続された口の動きの軌跡パラメータに従って、人工の口を駆動するための口駆動信号を発生するステップと、を含む。

音声単位特定マークのリストが与えられると、この方法は、音声単位特定マークで特定された音声単位と、リスト中に特定された対応の継続時間長とに対応して口の動きの軌跡パラメータを接続することにより、口の動きの軌跡パラメータの時系列を準備することができる。

好ましくは、この方法は、それぞれの継続時間長がリストに特定された、人間の自然な音声から記録された部分を接続することにより、音声波形を合成するステップをさらに含む。

口の動きの軌跡パラメータと音声の波形とが共にリストに応じて準備されるため、音声の波形に従って生成された音声は口の動きの軌跡パラメータによって引き起こされた口の動きと同期する。このため、例えばこの発明の方法を実現する能力のあるロボットは、適切な口の動きで話すことができる。

さらに好ましくは、発生するステップは、接続するステップで接続された口の動きの軌跡パラメータに従って、ロボットの口の部品が動くようにアクチュエータを駆動するための信号を発生するステップを含む。

さらに好ましくは、確立するステップが、それぞれの音声単位特定マークによる注釈が付された、人間の話者によるオーディオビジュアル音声コーパスを準備するステップと、オーディオビジュアル音声コーパスを、それぞれの音声単位特定マークで印をつけた複数のオーディオビジュアル単位にセグメント化するステップとを含み、オーディオビジュアル単位の各々は音声単位と対応するビジュアルな口の動きデータとを含み、確立するステップはさらに、複数のオーディオビジュアル単位中の口の形状の動きをパラメータ化するステップと、各音声単位についての口の形状のシーケンスの特徴を学習するステップと、各音声単位についての口の形状のシーケンスの特徴を、音声単位からビジュアル表現へのマッピングとして、所定の記憶装置に記憶するステップとを含む。

パラメータ化するステップは、非侵襲的な画像処理技術を用いて口の形状をパラメータ化するステップを含んでもよい。

好ましくは、パラメータ化するステップは、非侵襲的なモーションキャプチャ技術を用いて口の形状をパラメータ化するステップを含む。

さらに好ましくは、口の形状のシーケンスの特徴は、部品ごとに組合された一組の楕円セグメントで表される。

さらに好ましくは、楕円セグメントの各々が所定数の点で表される。

マッピングは音声単位のビジュアル表現の物理的及び時間的空間を規定してもよい。

好ましくは、接続するステップが、リストで特定された音声単位の時間に依存して変化する継続時間長に対処するため、ビジュアル軌跡データを線形にかつ時間的に補間することによって、口の動きの軌跡パラメータを接続するステップを含む。

さらに好ましくは、準備するステップが、受信した音声信号または連結オーディオビジュアル音声データの音声認識を行なうステップと、所定の対話能力に従って、音声認識ステップで認識されたテキストに応答して発話されるべき応答テキストを決定するステップと、それぞれの継続時間長を付した、応答テキストに対応する音声単位特定マークのリストを準備するステップと、を含む。

さらに好ましくは、音声認識のステップが、多言語話し言葉理解システムを用いて、音声信号を音声認識するステップを含み、決定するステップは、所定の多言語対話能力に従って応答テキストを決定するステップを含む。

この発明の第二の局面に従ったコンピュータ読出可能媒体は、コンピュータ上で実行されると、上述の方法のいずれかに記載されたステップの全てをコンピュータに実行させる、コンピュータで実行可能なプログラムを記憶する。

−全体構造−
この発明の実施の形態は、テキスト音声（ＴＴＳ）システムを音声単位駆動の音声調音システムと組合せ、安価で自然に聞こえるシステムを得ようとするものである。話すロボットのオーディオビジュアル音声調音システム２０の概要を図１に示す。

図１を参照して、この実施の形態のシステム２０は、人間の話者の記録された音声コーパス３０を、隠れマルコフモデル（ＨＭＭ）ベースの学習能力で分析し、音声単位から口の軌跡へのパラメータマッピングのデータベース３４を構築するためのパラメータ化ユニット３２を含み、このマッピングにより、人の発声の音声単位を、口の動きの軌跡を表す口のパラメータの時系列にマッピングする。このパラメータ化ユニット３２はオフラインで動作する。

この実施の形態のシステム２０はさらに、パラメータ化ユニット３２で準備された音声単位から口の軌跡へのパラメータマッピングのデータベース３４を用いて、ロボット頭部のために、オンラインオーディオビジュアル音声を音響的かつ視覚的に調音するための、オーディオビジュアル音声生成システム３６を含む。

図２は動く口７２を有するヒューマノイドロボットの頭部７０を示す。図３は各々がモータ９０、９２、９４等のアクチュエータで駆動される上唇及び下唇を含む、口の部品８０を示す。

再び図１を参照して、オーディオビジュアル音声コーパス３０は、被験者が選択された発話の組を発音したものを予め記録したコーパスである。選択された発話の各々は、各々一つの音声単位を音響的にも視覚的にも明瞭に実現するように、かつ、結果として得られる音声データが音声バランスのとれたものであるように選ばれている。

パラメータ化ユニット３２は、オーディオビジュアル音声コーパス３０からの音声単位の視覚的表現の、形状のシーケンスを抽出するための音素−視覚音声分析及びセグメント化モジュール４０と、各音声単位について口の形状のシーケンスの特徴を学習し、これを音声単位（音素またはｎフォン）から視覚的表現へのマッピングとして、データベース３４に記憶するための口輪郭パラメータ化モジュール４２とを含む。

パラメータ化は、一個のＣＣＤ（電荷結合素子）カメラまたは立体視システム等の非侵襲的な、唇のトラッキング技術を用いて、または光センサや電磁調音（ＥＭＡ）システムを用いた３Ｄモーションキャプチャシステム等の侵襲的技術で、実現され得る。

好ましくは、パラメータ化するステップは非侵襲的なモーションキャプチャ技術を用いて口の形状をパラメータ化するステップを含む。

オーディオビジュアル音声生成システム３６は、多言語音声認識部及び話し言葉を理解する能力を有するオーディオまたはオーディオビジュアル言語インターフェース５０と、多言語対話管理能力を有し、言語インターフェース５０の出力に応答して音声単位マークのリストとその継続時間長とを含む応答テキストを生成するための音素テキスト応答生成部５２と、音素テキスト応答生成部５２の応答データに従って、人の自然な音声から記録された部分波形を接続することによって、音声波形を合成するための接続型ＴＴＳシステム５６と、音素テキスト応答生成部５２の応答データとデータベース中のマッピングデータとに従って、ロボット頭部の口部品を駆動するＴＴＶＳシステム５４とを含む。

ＴＴＶＳシステム５４は、音素テキスト応答生成部５２の応答データに従って口のパラメータを合成するための、音声単位からの軌跡合成部６０と、音声単位からの軌跡合成部６０からの口のパラメータに従って、口のアクチュエータを駆動するためのコマンドを生成するコマンドシステム６２と、コマンドシステム６２からのコマンドに従ってロボットの口部品を動かすための口アクチュエータ（モータ及び付属の回路）６４とを含む。ＴＴＳシステム５６とＴＴＶＳシステム５４とは音素テキスト応答生成部５２からの同じデータに応答して並列に動作するので、口アクチュエータ６４によって引き起される口の動きとＴＴＳシステム５６によって生成される音声とは同期している。

−動作−
オーディオビジュアル音声調音システム２０は以下のように動作する。オーディオビジュアル音声コーパス３０は準備されているものと仮定する。

音素−視覚音声分析及びセグメント化モジュール４０はまず、オーディオビジュアル音声コーパス３０の音声データから生成されたオーディオビジュアル音声コーパス３０を分析し、各音声単位とその関連の口の動きの視覚的データとをセグメント化する。口輪郭パラメータ化モジュール４２は、ＨＭＭベースの機械学習技術で、音声単位と、口の動きの軌跡を表す口パラメータの時系列とのマッピングを生成する。これによってデータベース３４が作られる。データベース３４がオフラインで準備されると、オーディオビジュアル音声生成システム３６はＴＴＳシステム５６とともに、音響的かつ視覚的に、オンラインのオーディオビジュアル音声を調音することができる。

言語インターフェース５０は音声信号または音声と映像とが結合した音声信号を受信し、音声を認識して、認識されたテキストを音素テキスト応答生成部５２に与える。これに応答して、音素テキスト応答生成部５２はその対話能力に従って応答テキストを生成し、音声単位のリストを含むこの応答テキストを、各音声単位の継続時間長とともに、音声単位からの軌跡合成部６０とＴＴＳシステム５６とに与える。

接続型ＴＴＳシステム５６は人の自然な音声から記録した部分波形を、音素テキスト応答生成部５２から与えられたリストに従って接続し、波形を合成する。

同じ接続合成の概念を用いて、音声単位からの軌跡合成部６０は視覚的な音声パラメータのシーケンスを生成することができる。視覚的な音声パラメータは、基本的には、音素テキスト応答生成部５２から与えられたリスト中の各音声単位についての口の動きの軌跡を表す口のパラメータの時系列を適切に接続したものである。コマンドシステム６２は音声単位からの軌跡合成部６０から与えられた口のパラメータに従ってアクチュエータコマンドを生成し、コマンドをそれぞれの口アクチュエータ６４に与えるので、アクチュエータはロボット頭部の口のそれぞれの部品を駆動する。

こうして、ＴＴＶＳシステム５４を備えたヒューマノイドロボットはもとのオーディオビジュアル音声コーパス３０に記録されたものに限られず、全く新しい発話を生成することができる。この能力を備えたことにより、ロボットは人の音声を頑健にエミュレートすることができる。

−モジュール機能の詳細−
＜オーディオビジュアル音声コーパス３０＞
オーディオビジュアル音声分析は、選択された発話の組を被験者が発音した、オーディオビジュアル音声コーパス３０を必要とする。選択された発話の各々は、一つの音声単位を音響的にも視覚的にも明瞭に実現するように選ばれる。音声単位とビジュアルとを一対一にマッピングするという考え方は、音声合成の際に入力テキストに対応する音声単位のストリーム（音素またはダイフォン）を生成する接続型ＴＴＳシステムの自然言語処理ユニット（ＮＬＰ）には合理的なアプローチである。従って、合成されたビジュアルストリームを生成するためには、音声単位から視覚表現へのマッピングが必要である。

音声単位の視覚的表現とは、唇の形状の組に属するパラメータの組であり、一方視覚素（ｖｉｓｅｍｅ）表現とは、単一の静止した唇の形状である。ここでは音声単位とそれらの視覚的表現との一対一マッピングを選択し、円滑さを保つとともに視覚的接続の問題を最小化した。視覚的調音運動合成システムは、音声単位のリストとその継続時間長とをあわせて入力とし、所与の継続時間長での視覚的音声の動きを、視覚的表現の部分ごとの線形補間によって生成する。

非特許文献５では、音声単位を接続する接続型波形合成には、ある音素から次の音素への変更箇所で遷移の問題があることが指摘されているが、これは音声単位の始まりと終わりとが波形の最も安定しない部分だからである。他方で、ダイフォンを接続する（ある音素の真中を次の音素の真中と接続する）合成部は、信号をより安定した部分で接続する。もちろん、こうすることで音声単位の数は音声単位の数の二乗だけ増加する。必要とされる音素の数は言語によってかなり変わる。例えば、日本語には約２５の単音があるため、ダイフォンは約６２５となるが、英語には約４０の音声単位があるので、ダイフォンは約１６００となる。また、全てのダイフォンが事実上同じではないことが報告されており、従って今日の「ダイフォン」合成のほとんどは幾つかの通常生じるトライフォンおよびｎフォンクラスタを含んでいる。このため、ここでは、オーディオとビジュアルの音声情報間の相関を保つため、ＴＴＳシステムで用いられる音声単位とそれらに対応する視覚的表現との一対一のマッピングを生成した。

＜音素−視覚音声分析及びセグメント化モジュール４０＞
顔の動きの分析、特に口の動きの分析は、オーディオ−ビジュアル音声知覚（ａｕｄｉｏｖｉｓｕａｌｓｐｅｅｃｈｐｅｒｃｅｐｔｉｏｎ：ＡＶＳＰ）、顔のアニメーション、及び話すロボットの研究において重要な主題である。顔のアニメーションの応用については、音声単位―視覚的音声分析に関し様々なアプローチがある。エザットらはそのオーディオビジュアル音声合成部に、音声単位の単一の視覚素表現を、手動で分析し選択することによって用いている（非特許文献６、７を参照）。その後、全ての視覚素から一つおきの視覚素への対応を光学的フロー法を用いて自動的に計算し、視覚素の遷移を接続することによって視覚的発話を構築している。著者らは、このアプローチが視覚ドメインでの同時調音を扱っておらず、結果として唇の動きの過剰調音につながったことを報告している。

ホンらは、鼻孔、唇、及び頬を含む、顔の下部をカバーする２Ｄのテンプレートモデルを用いている（非特許文献８を参照）。このモデルを自然な顔と一致させるために、特徴点と特徴領域とを手動で一致させた。その後、自然な顔の特徴点を、エッジ検出技術を用いてトラッキングした。次に、観察されたモデルのシーケンスにＰＣＡ（ＰｒｉｎｃｉｐａｌＣｏｍｐｏｎｅｎｔＡｎａｌｙｓｉｓ：主成分分析）を行なって合成のための口の動き空間を構築した。

この実施の形態では輪郭によるパラメータ化方法を用いる。この場合、制御されたビデオコーパスデータから口の動きを引出すことができ、各フレームの唇の外側の輪郭によって、口の形状を一組の部品ごとに組合せた楕円形状でパラメータ化して表すことができる。音素−視覚音声分析及びセグメント化モジュール４０はオーディオビジュアルコーパスデータから音声単位の視覚的表現の形状ベースのシーケンスを抽出する。口の形状のシーケンスの特徴は、各音声単位について口輪郭パラメータ化モジュール４２で学習され、音声単位（音素またはｎフォン）から視覚表現へのマッピングとしてデータベース３４に記憶される。マッピングは音声単位の視覚的表現の物理的時間的空間を規定する。音声単位の継続時間長の変化は視覚的表現の線形時間補間（アップサンプリングまたはダウンサンプリング）によって対処できる。

音声単位をコーパス中のそれらの視覚的表現にマッピングできるようにするためには、オーディオのアライメント（ラベル付け）が必要である。このようなアライメントは手作業で、または隠れマルコフモデルベース（ＨＭＭベース）の機械学習システムによって行なうことができる（非特許文献９を参照）。テキストの書き起こし文とそれに関連のオーディオシーケンスとが与えられると、アライメントシステムはＨＭＭベースの強制的ビタビ検索プログラムを用いることができ、その目的は、音声単位の境界の、視覚的表現へのマッピングに最適な開始点と終了点とを見出すことである。この発明の視覚的表現へのマッピングは、以下で説明するパラメータ化された口の輪郭に基づくものである。

＜口輪郭のパラメータ化＞
口輪郭パラメータ化モジュール４２では、発明者が用意した口トラッキングアルゴリズムが口領域をトラッキングする（非特許文献１０を参照）。話者の口の外側のエッジが方向付で検出される。その後唇の輪郭が、エッジデータのセグメントから得られる楕円を一部分ずつ接続することによりパラメータ化される。以下の一般的な二次方程式に対応するパラメータ化輪郭が見出される。
ａｘ^２＋ｂｘｙ＋ｃｙ^２＋ｄｘ＋ｅｙ＋ｆ＝０
ここでａ，ｂ，…ｆは定数であり、ａ及びｃはゼロでない。上唇は全体がパラメータ化され、下唇の輪郭は、話すときの唇の変形のため、３つの等しく重なるサブ輪郭に分けられる。トレースされた唇の輪郭のセグメントに対するデータサンプルの２Ｄ位置を以下のように表すこととする。

この行列表現で楕円パラメータの推定に用いられる基本的な形はＭ×ｑ＝０である。ただしｑ＝（ａｂｃｄｅｄｆ）^Ｔである。Ｍの次元は、セグメント内の点の数Ｎに６を乗じたもの（Ｎ×６）である。Ｍの各行はセグメント中の一点に相当する。各輪郭のパラメータをその後最小二乗法によって解き、ａ，ｂ，ｃ，ｄ，ｅ及びｆを得る。

＜垂直方向及び横方向の顎の動きの視覚的軌跡マッピング＞
垂直方向及び横方向の顎の動きについては、４個の楕円部分からなる唇空間を顎の垂直方向及び横方向の動きに変換する必要がある。垂直方向の動きは図４に示すとおり、開口１００の高さｈ（ｔ）を用いてモデル化でき、一方、横方向の動きα（ｔ）は図５及び６に示す開口１１０及び１２０で示されるいずれかの側への下唇の歪み角で特徴付けることができる。

＜唇構造の視覚的軌跡マッピング＞
推定された口パラメータを用いて、各セグメントについてパラメータ化唇輪郭記述が生成される。このようにして生成されたパラメータ形状は、重複するセグメントを平均化することによって組合される。このため、最終的な組合されたパラメータ化唇輪郭形状が結果として得られる。各楕円セグメントを表すのには５個の点で十分であり、これによってデータ量をかなり削減することができ、唇の動きを構造化した表現が得られる。

組合されたパラメータ化唇輪郭の十分なデータポイントはさらに、視覚的な音声の調音のために唇構造を制御するためにサブサンプリングすることができる。図７は唇構造１３０のサブサンプリングされた制御点１４０、１４２、１４４、１４６、１４８、１５０、１５２及び１５４を示す。

＜唇構造及び顎の視覚的制御＞
顎と唇構造はモータ（口アクチュエータ６４）によって制御される。モータには精密なエンコーダ（図示せず）が備えられる。エンコーダはモータの回転角度を監視しＰＩＤフィードバック制御に用いる。ＰＩＤ利得係数が自動的に定められ、その後最適化される。ロボットのオーディオビジュアルな発話機構は、２つの独立したシステム、ＴＴＳとＴＴＶＳとをまとめたものと見ることができ、これらは同期して働く。波形合成の間、音素テキスト応答生成部５２は音声単位の識別マークとその継続時間長とをＴＴＶＳシステム５４とＴＴＳシステム５６とに渡して、ＴＴＶＳシステム５４に視覚的な音声の動きを合成させる。その後、顎の動きがＴＴＳシステム５６によって生成されたオーディオ音声信号に同期して作られる。

ロボットは、映像中のアニメーションによるロボット頭部でもよい。動画を動かすために、ＮＴＳＣ（ＮａｔｉｏｎａｌＴｅｌｅｖｉｓｉｏｎＳｙｓｔｅｍＣｏｍｍｉｔｔｅｅ）のＴＶ（テレビジョン）規格では毎秒３０フレーム（ｆｐｓ）を用いており、ＰＡＬ（Ｐｈａｓｅ−ＡｌｔｅｒｎａｔｉｏｎｌｉｎｅＳｙｓｔｅｍ）ＴＶ規格では２５ｆｐｓを用いる。人間の視覚システム（ＨｕｍａｎＶｉｓｕａｌＳｙｓｔｅｍ：ＨＶＳ）が滑らかと感ずる動きを生成するためには、少なくとも毎秒１５から１６フレーム（ｆｐｓ）の最小フレームレートが必要とされるので、最小フレームレート要件より高い口モータステップの時間間隔で動作させることにより、ギクシャクしない滑らかな口の動きを複製する必要がある。

＜ロボットの顎の視覚的制御＞
視覚制御システムはコンピュータ（図示せず）とモータドライバとを含む。市販のソフトウェアを用いて顎モータを制御してもよい。好ましくはモータには精密なエンコーダが備えられ、これがその回転角度を監視しＰＩＤフィードバック制御に用いる。ＰＩＤ利得係数が自動的に定められ、その後マニュアルで最適化される。システムは最大で１２０Ｈｚのフィードバックサイクルで動作可能である。視覚情報はビデオ装置を用いて毎秒３０フレーム（ｆｐｓ）で記録されるので、このシステムを同じ速度（３０Ｈｚサイクル）で動作させてオーディオ波形と顎の動きとを同期させる。図８は線１７０で示されるターゲット位置に対し、線１７２で示されるシステム応答が約３０ミリ秒遅延していることを示すが、これはオーディオビジュアル知覚では妥当なものである。

唇が同期していないことは、オーディオビジュアルな音声の知覚の質を大いに損なう。図９は人の話者がある文を発話する際の、口の開き（上：線１８０で示す）とオーディオ波形（下：線１８２で示す）とを同時にプロットしたものである。図９で見られるように、音声領域１９２は通常、ある遅延１９０をもって最初の口の動きに追従する。この実施の形態による、音声単位から視覚表現へのマッピングでは、オーディオ波形とビジュアルな音声の動きとの相関が図９に示すとおり保存されている。

音声単位はＴＴＳシステム５６により、音素であっても、ダイフォンであっても、ｎフォンであってもよく、またはこれらの組合せであってもよい。音声対ビジュアルマッピングは一対一であって、英語の場合、ダイフォンについて記録する必要のあるコーパス３０のサイズは約１６００発話である。

ロボットのオーディオビジュアルな発話機構は、２つの独立したシステム、ＴＴＳシステム５６とＴＴＶＳシステム５４とをまとめたものと見ることができ、これらは同期して働く。波形合成の際、ＴＴＳシステムは音声単位の識別マークとその継続時間長とをＴＴＶＳシステム５４に渡して、ＴＴＶＳシステム５４に視覚的な音声の動きを合成させる。その後、顎の動きがＴＴＳシステム５６によって生成されたオーディオ音声信号に同期して作られる。

この実施の形態の視覚的な音声の調音とそのオーディオとの同期のアプローチ全体を試験するために、コンピュータシミュレーションにもとづいてコンピュータグラフィックによって作成した仮想ロボットと、物理的なロボットシステムの両方を用いて、オーディオビジュアルな文を合成した。これらの実験から、オーディオと調音されたビジュアルな音声との相関が、仮想プラットフォームとハードウェアプラットフォームの両者で保存されていることが確認された。

上述のシステムは多言語音声認識能力とオーディオビジュアル音声合成能力とを有する。この発明はこのような多言語システムに限定されず、単一言語のシステムとして実現することもできる。

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。

この発明の一実施の形態に従ったシステム２０のブロック図である。この発明の一実施の形態のロボット頭部を示す図である。ロボット頭部の顎部分を示す図である。唇の外側輪郭の開口高さでパラメータ化した垂直方向の顎の動きｈ（ｔ）を模式的に示す図である。下唇が左にゆがんだ状態での、横方向の顎の動きα（ｔ）を示す図である。下唇が右にゆがんだ状態での、横方向の顎の動きα（ｔ）を示す図である。組合されたパラメータ化唇輪郭の制御点を示す図である。ターゲット顎位置と、モータのエンコーダから読取ったモータの応答とを示す図である。開口（上）とオーディオ波形（下）とを同時にプロットした図である。

符号の説明

２０オーディオビジュアル音声調音システム、３０オーディオビジュアル音声コーパス、３２パラメータ化ユニット、３４音声単位から口の軌跡へのパラメータマッピングのデータベース、３６オーディオビジュアル音声生成システム、４０音素−視覚音声分析及びセグメント化モジュール、４２口輪郭パラメータ化モジュール、５０言語インターフェース、５２音素テキスト応答生成部、５４ＴＴＶＳシステム、５６ＴＴＳシステム、６０音声単位からの軌跡合成部、６２コマンドシステム、６４口アクチュエータ

Claims

テキストビジュアル音声（ＴＴＶＳ）合成方法であって、
オーディオ音声単位特定マークとそのそれぞれの口の動きのパラメータとのマッピングを確立するステップと、
それぞれ継続時間長を付した音声単位特定マークのリストを準備するステップと、
それぞれの継続時間長がリストに特定された、リスト中の各音声単位について、口の動きの軌跡を表す口の動きの軌跡パラメータを接続するステップと、
接続するステップで接続された口の動きの軌跡パラメータに従って、人工の口を駆動するための口駆動信号を発生するステップと、を含む、方法。
それぞれの継続時間長が前記リストに特定された、人間の自然な音声から記録された部分を接続することにより、音声波形を合成するステップをさらに含む、請求項１に記載の方法。
前記発生するステップが、前記接続するステップで接続された口の動きの軌跡パラメータに従って、ロボットの口の部品が動くようにアクチュエータを駆動するための信号を発生するステップを含む、請求項１または請求項２に記載の方法。
前記確立するステップが、
それぞれの音声単位特定マークによる注釈が付された、人間の話者によるオーディオビジュアル音声コーパスを準備するステップと、
前記オーディオビジュアル音声コーパスを、それぞれの音声単位特定マークで印をつけた複数のオーディオビジュアル単位にセグメント化するステップとを含み、前記オーディオビジュアル単位の各々は音声単位と、対応するビジュアルな口の動きデータとを含み、
前記確立するステップはさらに、
複数のオーディオビジュアル単位中の口の形状の動きをパラメータ化するステップと、
各音声単位についての口の形状のシーケンスの特徴を学習するステップと、
各音声単位についての口の形状のシーケンスの特徴を、音声単位からビジュアル表現へのマッピングとして、所定の記憶装置に記憶するステップとを含む、請求項１〜請求項３のいずれかに記載の方法。
前記パラメータ化するステップが、非侵襲的な画像処理技術を用いて口の形状をパラメータ化するステップを含む、請求項４に記載の方法。
前記パラメータ化するステップが、非侵襲的なモーションキャプチャ技術を用いて口の形状をパラメータ化するステップを含む、請求項４に記載の方法。
前記口の形状のシーケンスの特徴が、部品ごとに組合された一組の楕円セグメントで表される、請求項４に記載の方法。
前記楕円セグメントの各々が所定数の点で表される、請求項４に記載の方法。
前記マッピングは前記音声単位のビジュアル表現の物理的及び時間的空間を規定する、請求項４に記載の方法。
前記接続するステップが、前記リストで特定された音声単位の、時間に依存して変化する継続時間長に対処するため、前記ビジュアル軌跡データを線形にかつ時間的に補間することによって、口の動きの軌跡パラメータを接続するステップを含む、請求項１に記載の方法。
前記準備するステップが、
受信した音声信号または連結オーディオビジュアル音声データの音声認識を行なうステップと、
所定の対話能力に従って、前記音声認識ステップで認識されたテキストに応答して発話されるべき応答テキストを決定するステップと、
それぞれの継続時間長を付した、前記応答テキストに対応する音声単位特定マークのリストを準備するステップと、を含む、請求項１に記載の方法。
前記音声認識のステップが、多言語話し言葉理解システムを用いて、音声信号を音声認識するステップを含み、
前記決定するステップは、所定の多言語対話能力に従って応答テキストを決定するステップを含む、請求項１１に記載の方法。
コンピュータ上で実行されると、請求項１〜請求項１２のいずれかに記載されたステップの全てをコンピュータに実行させる、コンピュータで実行可能なプログラム。