JP6336676B2

JP6336676B2 - 顔構造に基づいて声を合成する方法および装置

Info

Publication number: JP6336676B2
Application number: JP2017510490A
Authority: JP
Inventors: ベーグム，シャミム; エー．オガネゾフ，アレグザンダー
Original assignee: インテルコーポレイション
Priority date: 2014-09-25
Filing date: 2015-08-28
Publication date: 2018-06-06
Anticipated expiration: 2035-08-28
Also published as: JP2017530393A; US9607609B2; KR20170034409A; US20170287464A1; EP3198589A4; US10621968B2; US20180322862A1; US20160093284A1; EP3198589B1; KR102361389B1; CN106575500A; EP3198589A1; WO2016048579A1; US10056073B2; CN106575500B

Description

本稿に記載される実施形態は概括的にはテキスト‐発話（TTS: text-to-speech）システムに関し、より詳細には、選択された個人の外部から可視の顔構造に基づいて発話合成を調整するための調音ベースの（articulatory-based）TTSシステムに関する。

一般的な発話合成は、電子メール・メッセージや他のテキストを読み上げることのできるものを含め多くの用途で広く使われてきた。テキスト入力を与えられて、TTSシステムは人工的に人間の発話を生成する。TTSシステムの性能は、自然さ、了解性および実装の複雑さによって特徴付けられる。自然言語インターフェースはコンピューティング装置一般において、特にスマートフォン、タブレットおよびラップトップ・コンピュータのようなモバイル・コンピューティング装置において一般的になりつつある。

Shunji Awazu、"Inference from Unfamiliar Voices to Unfamiliar Faces - Influence of Gender Difference," the 75th Annual Convention of the Japanese Psychological Association, p.607, 2011 Escoto et al.、"Who Said That? The Crossmodal Matching Identity for Inferring Unfamiliar Faces from Voices," the 2012 Eighth International Conference on Signal Image Technology and Internet Based Systems S. Levinson, D. Davis, S. Simon, J. Huang、"Articulatory Speech Synthesis from the Fluid Dynamics of the Vocal Apparatus," Morgan & Claypool publishers、July 2012 A.V. Nefian and M.H. Hayes III、"An Embedded HMM-Based Approach for Face Detection and Recognition," the Proceeding of the 1999 Institute of Electrical and Electronics Engineers International Conference on Acoustics, Speech and Signal Processing、vol.6, pp.3553-56, May 1999 Liu Zhi-fang et al.、"Face detection and facial feature extraction in color image," the Proceeding of the 2003 Fifth International Conference on Computational Intelligence and Multimedia Applications、pp.27-30, September 2003 Shih et al.、"Extracting Faces And Facial Features From Color Images"、the International Journal of Pattern Recognition and Artificial Intelligence、vol.22, issue 3, May 2008

ある実施形態に基づく、調音ベースの発話合成を含むTTSシステムのブロック図である。ある実施形態に基づく、顔‐声変換システムを使って調整された調音ベースの発話合成を含むTTSシステムのブロック図である。ある実施形態に基づく、前処理された顔画像を対応する調音パラメータ値と一緒に記憶するデータベースを表形式で示す図である。ある実施形態に基づく、図３のデータベースから発話合成のために所与の個人の声をエミュレートするために使われる調音パラメータを取得することに向けた、画像ベースのマッチング手法を用いる図２のTTSシステムのブロック図である。ある実施形態に基づく、調音パラメータ値を記憶するデータベースを表形式で示す図である。ある実施形態に基づく、図５のデータベースから発話合成のために所与の個人の声をエミュレートするために使われる調音パラメータを取得することに向けた、調音ベースのマッチング手法を用いる図２のTTSシステムのブロック図である。モバイル・ユーザー設備装置の例のブロック図である。

諸側面および利点は、付属の図面を参照して進められる、好ましい実施形態の以下の詳細な説明から、明白となるであろう。

１．序
TTS特性を改善するための学術界および産業界の両方における試みは、たとえば、調音発話合成モデル（articulatory speech synthesis model）を使った発話合成システムを含んできた。これは、人間の声道およびその中で起こる調音プロセスのモデルに基づいて発話を合成するための計算器技法である。しかしながら、そのようなこれまでのシステムが使う調音パラメータ値は、必ずしも、発話合成を使って生成されるエミュレートされた声としてユーザーが聞くことを望む特定の人のものにマッチしない。さらに、これらの初期の試みは、個人の顔の画像から導出される外部から可視調音パラメータに基づいて所与の個人の発話を合成するものではなかった。このため、これらの調音発話合成モデルから生成される音は、特定の人自身の声から生成された発話のようには聞こえない。

非特許文献１に記載される近年の心理学的研究は、同じような声の人は同じような顔の特徴をもつことを提唱した。非特許文献２もこの観察を記載している。

この開示は、同じような顔特徴が同じように聞こえる声を生成するのは、顔特徴（これは可視調音パラメータに従って定義されうる）が、人間の発話生成系を通って進む際に音周波数の同じような成形を付与するためであると説明している。この開示に記載される実施形態は、個人の声をその個人の顔の特徴に基づいて合成するために、顔特徴と（たとえば、可視調音パラメータと）個人によって生成される音周波数との間の相関を使う。

本稿に記載される調音発話合成システムの実施形態は、任意の所与の個人の発話を合成するために、調音パラメータと声との間のこの相関を活用する。たとえば、調音発話合成システムの実施形態は、人の顔を示す画像に基づいて、画像に描かれているその人の声の近似を生成する。図１および図２はTTS実施形態の概観を与え、図４および図６は二つの個別的な手法、すなわち画像ベースのマッチング手法および調音ベースのマッチング手法を与える。これらの実施形態は、所与の個人の発話を、その個人の顔画像およびベースライン・データベース・レコードの集合に基づいてリアルタイムで動的に合成する。ベースライン・データベース・レコードの集合は、それらのレコードについての対応する調音発話モデルを有する。

２．TTS実施形態の概観
図１はTTSシステム１００のある実施形態を示している。TTSシステム１００は、概括的には非特許文献３に記載される枠組みに基づいている。たとえば、AT&Tは上記の非特許文献３の第２章第２．１節に記述され、図２．１に描かれているTTSシステムを実装した。

システム１００はテキスト入力１０４を受領し、これがテキスト解析モジュール１０６によって解析されてテキスト入力１０４から単語１１０が抽出される。単語１１０は、数字および略語のような記号を含む生のテキストをスペルアウトされた単語の等価物に変換することによって得られる。このプロセスはしばしばテキスト正規化、前処理またはトークン化と呼ばれる。

次いで単語１１０は言語学的解析モジュール１１６によってさらに処理されて、各単語１１０の音声転写にされる。言語学的解析モジュール１１６はテキストを句、節および文のような韻律単位（prosodic units）に分割してマークする。単語に音声転写を割り当てるプロセスはテキスト‐音素または書記素‐音素変換と呼ばれる。音声転写および韻律情報は一緒になって記号言語学的表現をなし、それが出力され、音素１２０と称される。

音素１２０は波形合成モジュール１３０に入力される。波形合成モジュール１３０は調音系モデル１４０からの音周波数情報１３４（たとえば音周波数）をも受領する。調音系モデル１４０によって生成される情報１３４および音素１２０は波形合成モジュール１３０（たとえばウェーブ・シンセサイザー）を使って合成されて、発話出力１５０を生成する。波形合成は非特許文献３の第６章において記述され、図６．１〜６．６に示されている。

調音系モデル１４０は、声をモデル化するための調音モデル１６０を含む。調音モデルの例も非特許文献３に記載されている。たとえば、調音系モデル１４０についての一般的な枠組みを提供する先駆的なマーメルステイン（Mermelstein）調音モデルは第２章第２．３．３節に記述され、図２．１２に示されている。

調音系モデル１４０は、調音モデル１６０が声道モデル１７０に提供する調音パラメータ１６４（パラメータ・テーブル１６６に挙げられる例によって示される）に対する制御および調節を許容する。たとえば、舌半径、舌高さ、顎角度、唇突出および唇高さは、発話生成の間に声道モデル１７０によって生成される音周波数を調整するために制御されることができる調音パラメータである。声道モデル１７０についての追加的な情報が非特許文献３の第２．３．４章および図２．１３において利用可能である。

通常のTTSモデルは、可視（たとえば唇および顎）と不可視（たとえば舌、軟口蓋）の調音パラメータの間の区別をしないが、調音パラメータ１６４は可視または不可視であると識別される。TTSシステム１００が個人の声をその個人の顔画像に基づいて合成しうるよう、このようにして調音パラメータ１６４が識別される。先述したように、TTSシステム１００は、顔特徴（すなわち、可視調音パラメータ）と個人によって生成される声周波数との間の相関を活用する。

図２は、TTSシステム１００のコンポーネントの多くを含むTTSシステム２００を示している。ただし、システム２００は、人（たとえばアリス）の顔立ちを示す顔ポートレートを表わす画像データのような顔構造入力２１２を受領する顔‐声システム２０８をも含んでいる。顔構造入力２１２は、あらかじめ定義された調音モデル２２４のベースライン・データベースとの比較のために、顔に基づく（図３、図４）またはパラメータに基づく（図５、図６）マッチング・システム２２０（一般に、顔特性マッチング・システム２２０）によって使用される。顔特性マッチング・システム２２０はデータベース２２４から、顔構造入力２１２と相関しているパラメータ１６４を含むあらかじめ定義されたモデル１６０の少なくとも一部分を取得する。TTSシステム２００はこれらのパラメータ１６４を、先述したように、リアルタイムで動的にアリスの発話を合成するために使う。

３．画像ベースのマッチング手法
図３は、アマンダ３１２、ボブ３２０、ソフィア３２４およびキャサリン３３０についてのあらかじめ定義された諸調音モデルおよび顔画像に関連付けられた、諸レコードの例示的なテーブル３１０によって表現される、ベースライン・データベース３００を示している。各人物のレコードは、格納されている顔画像と、外から可視であるおよび不可視である（すなわち人の口または声道の中にあって外からの観察から隠されている）パラメータに従って分割されたあらかじめ定義された調音モデルを含む。たとえば、ソフィアのレコード３２４は彼女の写真（Image_y）；可視調音パラメータ（visible articulatory parameter）値（VAP_y<jaw_y,lipP_y,lipH_y,…>）；および不可視調音パラメータ（invisible articulatory parameter）値（IPA_y<tongueH_y,tongueW_y,velum_y,…>）を含む。VAP値は、ソフィアの顔の写真（Image_y）から観察されうる顔構造を定量化する彼女の顎および唇の顔特性<jaw_y,lipP_y,lipH_y,…>であり、「jaw」は顎角度、「lipP」は唇突出、「lipH」は唇高さを表わす。IPA値は写真からは観察できない声道構造を定量化するソフィアの舌および軟口蓋特性<tongueH_y,tongueW_y,velum_y,…>であり、「tongueH」は舌の高さ、「tongueW」は舌の幅、「velum」は軟口蓋の長さを意味する。いくつかの実施形態では、他のVAPおよびIAP特性が可能であり、顔画像およびパラメータはいくつかのデータベースにまたがって分散されることができる。ベースライン・データベース３００はユーザー設備装置（図７）においてまたはリモート・サーバー上で記憶されることができる。

図４は、データベース３００（たとえば図３参照）からパラメータ１６４を得るための顔マッチング・システム４２０を含む顔‐声変換システム４０８を使う例示的な画像ベース・マッチングのTTSシステム４００である。データベース３００は、顔画像および調音パラメータの既知のタプルを含んでいる。顔‐声変換システム４０８は、人物（アリス）の顔立ちを表わす画像データを取得し、ここで、顔立ち（visage）とは、その人の声の、外から可視の調音発話合成モデル・パラメータを定義する顔特性を含む。たとえば、顔‐声変換システム４０８は、ネットワーク接続を通じて画像ファイルを受領することができ、あるいは画像捕捉装置を使って捕捉された、ローカルに記憶されている画像を使うことができる。顔マッチング・システム４２０実装は、画像中の人物とデータベース３００内の画像によって同定される人物との間の好適な顔マッチングを達成するために、画像データおよび既存の擬似2D隠れマルコフ・モデル（PHMM: pseudo 2D hidden Markovian models）を使う。PHMMベースのモデルの例は非特許文献４に記載されている。このように、PHMMは画像マッチに基づいて最良のマッチする被写体を見出すために使用されうる。

同様の顔が同様の声を生成するという観察に基づいて、ベースライン・データベース３００からの最もよくマッチする顔の調音パラメータがアリスのための合成音声のために使われる。たとえば、アリスはソフィアによく似ていてもよく、よって図３のy番目の項目（ソフィア）３２４のVAPおよびIAP値または単にIPA値が、アリスのための調音モデル１６０として使用されてもよい。

ソフィアのVAPおよびIAP値を使うことはソフィアの声をモデルとした合成発話を生成することになる。この場合、アリスの生成された発話の自然な個性のいくらかがいくぶん失われることがありうる。したがって、いくつかの実施形態では、ソフィアの声のベースライン周波数は、最良マッチ（ソフィア）と目標人物（この例ではアリス）の間の視覚的な差に基づいてさらに調節されることができる。たとえば、一つのそのような調節はソフィアのIAP値と、顔構造入力画像２１２から抽出されるアリスのVAP値を使う。この技法は図５および図６を参照して後述する。

４．調音ベースのマッチング手法
図５は、アマンダ５１２、ボブ５２０、ソフィア５２４およびキャサリン５３０についてのあらかじめ定義された諸調音モデルに関連付けられた諸レコードの例示的なテーブル５１０によって表現される、ベースライン・データベース５００を示している。データベース５００ではベースライン被写体のデータベース画像は記憶されていないことを注意しておく。

データベース５００がモデルとされる人物の写真をもたないのは、図６のパラメータ・マッチング手法は、同様の外から可視の顔特徴と同様の声との間には相関が存在するという事実に依拠するためである。したがって、可視の顔特徴から得られる可視調音パラメータが、あらかじめ定義された調音モデルの少なくとも一部を得るための直接的な参照のはたらきをする。よって、図６は、システムへの入力が人物（たとえばアリス）の顔画像、テキスト入力および<可視調音パラメータ,不可視調音パラメータ>タプルのベースライン・データベースである手法を呈示している。ベースライン・データベース５００はユーザー設備装置（図７）にまたはリモート・サーバー上に記憶されることができる。

図６は、データベース５００（たとえば図５参照）からパラメータ１６４を得るために可視調音パラメータ抽出６１０およびパラメータ・マッチング・システム６２０を含む顔‐声変換システム６０８を使う例示的な画像ベース・マッチングのTTSシステム６００である。データベース５００は、可視および不可視調音パラメータの既知のタプルを含んでいる。

顔‐声変換システム６０８は、人物（アリス）の顔立ちを表わす画像データを取得し、ここで、顔立ちとは、その人の声の、外から可視の調音発話合成モデル・パラメータを定義する顔特徴を含む。先述したように、この取得はユーザー装置でローカルに実行されてもよいし、あるいはリモート・サーバーへのまたはリモート・サーバーからのデータの伝送を含んでいてもよい。

調音パラメータ抽出６１０は、可視パラメータを抽出するために顔構造入力画像２１２を解析する。抽出された可視パラメータは、発話合成段において使われる最良マッチした音周波数を見出すためのキーとして使われる。顔検出および特徴抽出の一例は非特許文献５に記述されている。非特許文献６は、カラー画像から人間の顔および顔特徴を抽出するための画像処理およびパターン認識技法を記述している。

次いで、パラメータ・マッチング・システム６２０がそれらの抽出されたパラメータを、データベース５００に記憶されているものとの比較のために受領する。パラメータ・マッチング・システム６２０は、データベース５００から可視調音パラメータの最も近いマッチをスコア付けするためにいくつもある技法を使うことができる。たとえば、パラメータ・マッチング・システム６２０はユークリッド距離、平方和計算器または最も近いマッチを見出すための別の技法を使ってもよい。

いくつかの実施形態では、顔‐声変換システム６０８は、データベース５００のy番目の項目の発話信号（たとえばソフィア）と目標（アリス）との間の差分をも使い、よってアリスの発話を生成することができる。たとえば、調音モデル１６０はアリスの写真から抽出されたVAP値およびデータベース５００に記憶されているソフィアのIAP値を含んでいてもよい。この手法は、たとえば顔の画像からの調音パラメータの抽出の間に誤差を導入しうる筋肉および脂肪に帰すことのできる、抽出されたVAPにおけるノイズを考慮に入れるための技法を含む。別の実施形態では、ソフィアのVAPおよびIPA値両方が、アリスの声の近似を合成するために使われてもよい。

５．発話合成のための例示的なユーザー設備装置
図７は、モバイル・ユーザー設備装置、たとえばモバイル・ステーション、モバイル無線装置、モバイル通信装置、タブレット、ハンドセットまたは他の型のモバイル無線装置の例示的な図解を与えている。モバイル装置は、伝送ステーション、たとえば基地局、進化型ノードB、ベースバンド・ユニット、リモート・ラジオ・ヘッド、リモート・ラジオ設備、中継局、電波設備または他の型の無線広域ネットワーク（WWAN）アクセス・ポイントと通信するよう構成された一つまたは複数のアンテナを含むことができる。モバイル装置は、3GPP LTE、WiMAX、高速パケット・アクセス、ブルートゥース（登録商標）およびWiFiを含む少なくとも一つの無線通信規格を使って通信するよう構成されることができる。モバイル装置は各無線通信規格のための別個のアンテナまたは複数の無線通信規格のための共有アンテナを使って通信できる。モバイル装置は無線ローカル・エリア・ネットワーク、無線パーソナル・エリア・ネットワークおよび／またはWWANにおいて通信できる。

図７は、モバイル装置へのオーディオ入力およびモバイル装置からのオーディオ出力のために使用できる、マイクロフォンおよび一つまたは複数のスピーカーの図示をも与えている。表示画面は液晶表示画面または他の型の表示画面、たとえば有機発光ダイオード・ディスプレイであってもよい。表示画面はタッチスクリーンとして構成されることができる。タッチスクリーンは容量性、抵抗性または別の型のタッチスクリーン技術を使ってもよい。アプリケーション・プロセッサおよびグラフィック・プロセッサは、処理および表示機能を提供するために内部メモリに結合されることができる。ユーザーにデータ入出力オプションを提供するために不揮発性メモリ・ポートが使われてもよい。不揮発性メモリ・ポートはモバイル装置のメモリ機能を拡張するために使われてもよい。追加的なユーザー入力を提供するためにキーボードがモバイル装置と統合されていてもよく、あるいはモバイル装置に無線接続されていてもよい。仮想キーボードがタッチスクリーンを使って提供されてもよい。モバイル装置はデジタル画像を得るためにデジタル・カメラまたは他の撮像装置を備えていてもよい。

個人の声に合わせて調整される発話合成は潜在的な新たな用途のための備えを提供する。たとえば、「マミーeリーダー（mom-e-reader）」がリアルタイムで動的に母親の声を合成することによって電子書籍を読み上げる。GPSおよびアラームのような用途ならびに言語療法のような療法用途のための発話合成を含め、本開示の諸側面を使用できる数多くの使用事例および応用がある。下記は、将来の製品または関心のためのいくつかの潜在的な用途である：母親（または選ばれた任意の特定の人物）の事前にロードされた画像を使って母親の声で物語を読む電子書籍アプリケーションを含むマミーeリーダー；モバイル装置上のアプリケーション、たとえばメッセージ・リーダー、GPSの、選ばれた人物を用いたカスタマイズ；さまざまな言語障害をもつ患者（たとえば話すことができない人）の声の合成；または写真画像に基づく亡くなった人々の声の合成。これは声の録音がないときに使用されうる。

６．サーバー・ベースの処理
いくつかの実施形態では、顔‐声変換システム２０８、４０８、６０８の任意の部分がユーザー設備またはリモート・サーバーにホストされうる。たとえば、パラメータ抽出６１０はユーザー設備装置上またはサーバー上で行なわれてもよい。データベース３００または５００のクラウド記憶はプライバシーおよびセキュリティー両面での懸念をもたらす。該データベースを目標システムに記憶することは該システムにおけるスペースおよびローカルな処理パワーの両方を使うことになる。

クラウド・ベースの実施形態については、誤ったデータ提出を避けるために、データ完全性（integrity）を検査するためにデータ・フィルタリング・システムが使われる。そのようなフィルタリング・システムの一例は、既知のテキストの声サンプル提出を画像（または一組の声合成パラメータ）と一緒に受け取る。該提出のパラメータ（またはシステム６０８から得られたもの）に基づいて、合成されたテキストが発話サンプルに変換される。そのサンプルは提出された声サンプルと比較される。明らかな不一致は無効な提出として拒否される。

７．例示的実施形態
例は、方法、方法の工程を実行する手段、機械によって実行されたときに該機械に方法の、あるいは本稿に記載される実施形態および例に基づく調音ベースのテキスト‐発話変換のための装置もしくはシステムの工程を実行させる命令を含む少なくとも一つの機械可読媒体といった主題を含んでいてもよい。
〔実施例１〕
人物の声の調音発話合成モデルを確立するための調音ベースのテキスト‐発話変換システムにおいて使うための装置であって：人物の顔立ちを表わす画像データを取得する顔構造入力装置であって、前記顔立ちは前記人物の声の外から可視の調音発話合成モデル・パラメータを定義する顔特性を含む、顔構造入力装置と；あらかじめ定義されたモデルの記憶のうちからあらかじめ定義された調音発話合成モデルを選択するための顔特性マッチング・システムであって、前記選択は少なくとも部分的には前記顔特性または前記外から可視の調音発話合成モデル・パラメータの一方または両方に基づく、顔特性マッチング・システムと；前記選択されたあらかじめ定義された調音発話合成モデルの少なくとも一部を前記人物の声の調音発話合成モデルと関連付ける調音システムとを有する、装置。
〔実施例２〕
前記選択は、前記人物の顔立ちの前記顔特性と前記あらかじめ定義されたモデルの可視の調音発話合成モデル・パラメータを定義する顔特性との間の顔マッチング相関の指標に基づく、実施例１記載の装置。
〔実施例３〕
前記顔マッチング相関の指標が隠れマルコフ・モデルを使って導出される、実施例２記載の装置。
〔実施例４〕
前記顔構造入力装置が、ユーザー設備装置において撮像装置を用いて画像を捕捉することによって前記画像データを取得するよう構成されている、実施例１記載の装置。
〔実施例５〕
前記顔特性マッチング・システムは、前記顔特性または前記外から可視の調音発話合成モデル・パラメータの前記一方または両方を前記あらかじめ定義されたモデルのものと比較することによって選択を行なうよう構成されている、実施例１ないし４のうちいずれか一項記載の装置。
〔実施例６〕
前記顔特性マッチング・システムは、前記顔特性または前記外から可視の調音発話合成モデル・パラメータの前記一方または両方を前記あらかじめ定義されたモデルのものと比較することを開始するために、前記画像データをユーザー設備装置からサーバーに通信することによって、選択を行なうよう構成されている、実施例１ないし４のうちいずれか一項記載の装置。
〔実施例７〕
前記調音システムは、前記選択されたあらかじめ定義された調音発話合成モデルの前記少なくとも一部を関連付けることを、前記選択されたあらかじめ定義された調音発話合成モデルのモデル・パラメータを使って発話を合成することによって行なうよう構成されている、実施例１ないし４のうちいずれか一項記載の装置。
〔実施例８〕
人物の声の調音発話合成モデルを確立するよう構成された調音ベースのテキスト‐発話変換システムにおいて使うための装置であって：人物の顔立ちを表わす画像データを取得する手段であって、前記顔立ちは前記人物の声の外から可視の調音発話合成モデル・パラメータを定義する顔特性を含む、手段と；あらかじめ定義されたモデルの記憶のうちからあらかじめ定義された調音発話合成モデルを選択する手段であって、前記選択は少なくとも部分的には前記顔特性または前記外から可視の調音発話合成モデル・パラメータの一方または両方に基づく、手段と；前記選択されたあらかじめ定義された調音発話合成モデルの少なくとも一部を前記人物の声の調音発話合成モデルと関連付ける手段とを有する、装置。
〔実施例９〕
前記選択は、前記人物の顔立ちの前記顔特性と前記あらかじめ定義されたモデルの可視の調音発話合成モデル・パラメータを定義する顔特性との間の顔マッチング相関の指標に基づく、実施例８記載の装置。
〔実施例１０〕
前記顔マッチング相関の指標が隠れマルコフ・モデルを使って導出される、実施例９記載の装置。
〔実施例１１〕
前記選択する手段が、前記顔特性または前記外から可視の調音発話合成モデル・パラメータの前記一方または両方を前記あらかじめ定義されたモデルのものと比較する手段を有する、実施例８記載の装置。
〔実施例１２〕
前記取得する手段が、ユーザー設備装置において撮像装置を用いて画像を捕捉する手段を有する、実施例８ないし１１のうちいずれか一項記載の装置。
〔実施例１３〕
前記選択する手段が、前記画像データをユーザー設備装置からサーバーに通信し、それにより前記顔特性または前記外から可視の調音発話合成モデル・パラメータの前記一方または両方を前記あらかじめ定義されたモデルのものと比較することを開始する手段を有する、実施例８記載の装置。
〔実施例１４〕
前記関連付ける手段は、前記選択されたあらかじめ定義された調音発話合成モデルの前記少なくとも一部を関連付けることを、前記選択されたあらかじめ定義された調音発話合成モデルのモデル・パラメータを使って発話を合成することによって行なう手段を有する、実施例８記載の装置。
〔実施例１５〕
前記あらかじめ定義されたモデルのそれぞれが、対応するモデル化された声の顔特性によって定義される外から可視の調音発話合成モデル・パラメータを含み、前記あらかじめ定義されたモデルのそれぞれが、前記対応するモデル化された声の、内部の声道特性によって定義される、内部に隠された調音発話合成モデル・パラメータを含む、実施例８記載の装置。
〔実施例１６〕
前記選択されたあらかじめ定義された調音発話合成モデルの前記少なくとも一部を関連付ける手段が、前記人物の声の外から可視の調音発話合成モデル・パラメータに基づき、かつ、前記選択されたあらかじめ定義された調音発話合成モデルの前記内部に隠された調音発話合成モデル・パラメータに基づいて発話を合成することを含む、実施例１５記載の装置。
〔実施例１７〕
前記選択は、前記人物の声の前記外から可視の調音発話合成モデル・パラメータと前記選択されたあらかじめ定義された調音発話合成モデルの前記外から可視の調音発話合成モデル・パラメータとの間の相関の指標に基づく、実施例１５記載の装置。
〔実施例１８〕
前記選択されたあらかじめ定義された調音発話合成モデルの前記少なくとも一部を関連付ける手段が、前記人物の声の外から可視の調音発話合成モデル・パラメータとの関連で使うために、前記選択されたあらかじめ定義された調音発話合成モデルの前記内部に隠された調音発話合成モデル・パラメータをユーザー設備装置に通信する手段を有する、実施例１５記載の装置。
〔実施例１９〕
前記画像データを取得する手段が、ユーザー設備装置からネットワークを通じて通信される画像ファイルを受信する手段を有する、実施例８ないし１１のうちいずれか一項記載の装置。
〔実施例２０〕
前記選択されたあらかじめ定義された調音発話合成モデルの前記少なくとも一部を関連付ける手段が、前記選択されたあらかじめ定義された調音発話合成モデルの、内部に隠された調音発話合成モデル・パラメータを、ユーザー設備装置に通信する手段を有する、実施例８記載の装置。
〔実施例２１〕
前記人物の声の前記外から可視の調音発話合成モデル・パラメータを、前記内部に隠された調音発話合成モデル・パラメータと組み合わせる手段をさらに有する、実施例２０記載の装置。
〔実施例２２〕
前記あらかじめ定義されたモデルの記憶がデータベースを含み、当該装置がさらに：あらかじめ定義されたモデルの提出を受領する手段であって、前記提出は既知のテキスト入力の声サンプル記録を含む、手段と；前記あらかじめ定義されたモデルを使って生成された合成発話出力が前記声サンプル記録にマッチするかどうかを判定する手段とをさらに有する、実施例８記載の装置。
〔実施例２３〕
前記あらかじめ定義されたモデルの記憶がデータベースを含み、当該装置がさらに、前記合成発話出力の前記声サンプル記録とのマッチが不十分であることに応答して前記提出を拒否する手段を有する、実施例２２記載の装置。
〔実施例２４〕
発話‐テキスト変換のための方法であって：人物の外部顔構造情報を調音モデル・サーバーに送り；前記外部顔構造情報に対応するあらかじめ定義された調音モデルの少なくとも一部を前記調音モデル・サーバーから受領し；前記あらかじめ定義された調音モデルに少なくとも部分的に基づいてテキスト入力を発話出力に変換することを含む、方法。
〔実施例２５〕
前記外部顔構造情報が、前記人物の顔の写真または前記写真から抽出された調音パラメータの一方または両方を含む、実施例２４記載の方法。
〔実施例２６〕
前記あらかじめ定義された調音モデルの前記一部が、前記写真に示されている人物とは異なるモデル化された人物に対応する不可視調音パラメータを含む、実施例２５記載の方法。
〔実施例２７〕
前記あらかじめ定義された調音モデルの前記一部が、前記写真に示されている人物とは異なるモデル化された人物に対応する可視調音パラメータを含む、実施例２５記載の方法。
〔実施例２８〕
前記外部顔構造情報が、前記人物の顔の写真を含み、前記送ることが、前記調音モデル・サーバーに、前記写真から前記調音パラメータを抽出させる、実施例２５記載の方法。
〔実施例２９〕
前記送ることが、前記調音モデル・サーバーに、前記人物の写真を、前記あらかじめ定義された調音モデルによって表わされている人物の記憶されている写真と照合させる、実施例２５記載の方法。
〔実施例３０〕
前記送ることが、前記調音モデル・サーバーに、前記写真から抽出された調音パラメータを、前記あらかじめ定義された調音モデルの調音パラメータと照合させる、実施例２５記載の方法。
〔実施例３１〕
発話‐テキスト変換のための方法であって：人物の外部顔構造情報をユーザー設備装置から受領し；前記外部顔構造情報を諸調音モデルのデータベースに記憶されている外部顔構造情報と比較することに基づいて、前記外部顔構造情報に対応する調音モデルの少なくとも一部を決定し；前記人物の前記外部顔構造情報に対応する前記調音モデルの前記少なくとも一部を前記ユーザー設備装置に送ることを含む、方法。
〔実施例３２〕
前記外部顔構造情報が、前記人物の顔の写真または前記写真から抽出された調音パラメータの一方または両方を含む、実施例３１記載の方法。
〔実施例３３〕
前記あらかじめ定義された調音モデルの前記一部が、前記写真に示されている人物とは異なるモデル化された人物に対応する不可視調音パラメータを含む、実施例３２記載の方法。
〔実施例３４〕
前記あらかじめ定義された調音モデルの前記一部が、前記写真に示されている人物とは異なるモデル化された人物に対応する可視調音パラメータを含む、実施例３２記載の方法。
〔実施例３５〕
前記外部顔構造情報が、前記人物の顔の写真を含み、前記受領することが、調音モデル・サーバーに、前記写真から前記調音パラメータを抽出させる、実施例３２記載の方法。
〔実施例３６〕
前記受領することが、調音モデル・サーバーに、前記人物の写真を、前記あらかじめ定義された調音モデルによって表わされている人物の記憶されている写真と照合させる、実施例３２記載の方法。
〔実施例３７〕
前記受領することが、調音モデル・サーバーに、前記写真から抽出された調音パラメータを、前記あらかじめ定義された調音モデルの調音パラメータと照合させる、実施例３２記載の方法。
〔実施例３８〕
人物の声の調音発話合成モデルを確立する方法であって：人物の顔立ちを表わす画像データを取得する段階であって、前記顔立ちは前記人物の声の外から可視の調音発話合成モデル・パラメータを定義する顔特性を含む、段階と；あらかじめ定義されたモデルの記憶のうちからあらかじめ定義された調音発話合成モデルを選択する段階であって、前記選択は少なくとも部分的には前記顔特性または前記外から可視の調音発話合成モデル・パラメータの一方または両方に基づく、段階と；前記選択されたあらかじめ定義された調音発話合成モデルの少なくとも一部を前記人物の声の調音発話合成モデルと関連付ける段階とを含む、方法。
〔実施例３９〕
前記選択は、前記人物の顔立ちの前記顔特性と前記あらかじめ定義されたモデルの可視の調音発話合成モデル・パラメータを定義する顔特性との間の顔マッチング相関の指標に基づく、実施例３８記載の方法。
〔実施例４０〕
前記顔マッチング相関の指標が隠れマルコフ・モデルを使って導出される、実施例３９記載の方法。
〔実施例４１〕
前記取得する段階が、ユーザー設備装置において撮像装置を用いて画像を捕捉することを含む、実施例３８記載の方法。
〔実施例４２〕
前記選択する段階が、前記顔特性または前記外から可視の調音発話合成モデル・パラメータの前記一方または両方を前記あらかじめ定義されたモデルのものと比較することを含む、実施例３８記載の方法。
〔実施例４３〕
前記選択する段階が、前記顔特性または前記外から可視の調音発話合成モデル・パラメータの前記一方または両方を前記あらかじめ定義されたモデルのものと比較することを開始するために、前記画像データをユーザー設備装置からサーバーに通信することを含む、実施例３８記載の方法。
〔実施例４４〕
前記選択されたあらかじめ定義された調音発話合成モデルの前記少なくとも一部を関連付ける段階が、前記選択されたあらかじめ定義された調音発話合成モデルのモデル・パラメータを使って発話を合成することを含む、実施例３８記載の方法。
〔実施例４５〕
前記あらかじめ定義されたモデルのそれぞれが、対応するモデル化された声の顔特性によって定義される外から可視の調音発話合成モデル・パラメータと、前記対応するモデル化された声の内部の声道特性によって定義される内部に隠された調音発話合成モデル・パラメータとを含む、実施例３８記載の方法。
〔実施例４６〕
前記選択されたあらかじめ定義された調音発話合成モデルの前記少なくとも一部を関連付ける段階が、前記人物の声の外から可視の調音発話合成モデル・パラメータに基づき、かつ、前記選択されたあらかじめ定義された調音発話合成モデルの前記内部に隠された調音発話合成モデル・パラメータに基づいて発話を合成することを含む、実施例４５記載の方法。
〔実施例４７〕
前記選択は、前記人物の声の前記外から可視の調音発話合成モデル・パラメータと前記選択されたあらかじめ定義された調音発話合成モデルの前記外から可視の調音発話合成モデル・パラメータとの間の相関の指標に基づく、実施例４５記載の方法。
〔実施例４８〕
前記選択されたあらかじめ定義された調音発話合成モデルの前記少なくとも一部を関連付ける段階が、前記人物の声の外から可視の調音発話合成モデル・パラメータとの関連で使うために、前記選択されたあらかじめ定義された調音発話合成モデルの前記内部に隠された調音発話合成モデル・パラメータをユーザー設備装置に通信することを含む、実施例４５記載の方法。
〔実施例４９〕
前記画像データを取得する段階が、ユーザー設備装置からネットワークを通じて通信される画像ファイルを受信することを含む、実施例３８記載の方法。
〔実施例５０〕
前記選択する段階が、前記顔特性または前記外から可視の調音発話合成モデル・パラメータの前記一方または両方を前記あらかじめ定義されたモデルのものと比較することを含む、実施例４９記載の方法。
〔実施例５１〕
前記選択されたあらかじめ定義された調音発話合成モデルの前記少なくとも一部を関連付ける段階が、前記選択されたあらかじめ定義された調音発話合成モデルの、内部に隠された調音発話合成モデル・パラメータを、ユーザー設備装置に通信することを含む、実施例３８記載の方法。
〔実施例５２〕
前記人物の声の前記外から可視の調音発話合成モデル・パラメータを、前記内部に隠された調音発話合成モデル・パラメータと組み合わせることをさらに含む、実施例５１記載の方法。
〔実施例５３〕
前記あらかじめ定義されたモデルの記憶がデータベースを含み、当該方法がさらに：あらかじめ定義されたモデルの提出を受領する段階であって、前記提出は既知のテキスト入力の声サンプル記録を含む、段階と；前記あらかじめ定義されたモデルを使って生成された合成発話出力が前記声サンプル記録にマッチするかどうかを判定する段階とをさらに含む、実施例４８記載の方法。
〔実施例５４〕
前記あらかじめ定義されたモデルの記憶がデータベースを含み、当該方法がさらに、前記合成発話出力が前記声サンプル記録と十分にマッチしないことに応答して前記提出を拒否することを含む、実施例５３記載の方法。
〔実施例５５〕
装置で実行されたときに実施例２４ないし５４のうちいずれか一項記載の方法を実行する命令を記憶している少なくとも一つのコンピュータ可読記憶媒体。

上記の記述は、本稿に記載される実施形態の十全な理解のために数多くの個別的な詳細を与えている。しかしながら、当業者は、こうした個別的詳細の一つまたは複数が省略されたり、あるいは他の方法、コンポーネントまたは材料が使用されてもよいことを認識するであろう。場合によっては、よく知られた特徴、構造または動作は詳細には図示や説明をしていない。

さらに、一つまたは複数の実施形態において、記載される特徴、動作または特性は、幅広い多様な異なる構成において配置および設計されてもよく、および／または任意の好適な仕方で組み合わされてもよい。このように、システムおよび方法の実施形態の詳細な記述は特許請求される本開示の範囲を限定することは意図されておらず、単に本開示の可能な実施形態を表わすものである。さらに、開示される実施形態との関連で記述される方法の段階または工程の順序は、当業者には明白であろうように変更されてもよい。このように、図面または詳細な説明におけるいかなる順序もあくまでも例解目的のためであり、ある順序が必要であると明記されているのでない限り、必須の順序を含意することは意図されていない。

実施形態は、汎用または専用目的のコンピュータ（または他の電子装置）によって実行される機械実行可能命令において具現されうるさまざまな段階を含みうる。あるいはまた、それらの段階は段階を実行するための具体的な論理を含むハードウェア・コンポーネントによって、あるいはハードウェア、ソフトウェアおよび／またはファームウェアの組み合わせによって実行されてもよい。

実施形態は、本稿に記載されるプロセスを実行するようコンピュータ（または他の電子装置）をプログラムするために使用されうる命令を記憶しているコンピュータ可読記憶媒体を含むコンピュータ・プログラム・プロダクトとして提供されてもよい。コンピュータ可読記憶媒体は、これに限られないが、ハードドライブ、フロッピーディスケット、光ディスク、CD-ROM、DVD-ROM、ROM、RAM、EPROM、EEPROM、磁気もしくは光学式カード、半導体メモリ・デバイスまたは電子的な命令を記憶するのに好適な他の型の媒体／機械可読媒体を含みうる。

本稿での用法では、ソフトウェア・モジュールまたはコンポーネントは、メモリ・デバイスおよび／またはコンピュータ可読記憶装置内に位置される任意の型のコンピュータ命令またはコンピュータ実行可能コードを含みうる。ソフトウェア・モジュールはたとえば、一つまたは複数のタスクを実行するまたは特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などとして編成されうるコンピュータ命令の一つまたは複数の物理的または論理的なブロックを含んでいてもよい。

ある種の実施形態では、特定のソフトウェア・モジュールは、メモリ・デバイスの異なる位置に記憶された別個の命令であって、一緒になって該モジュールの記載される機能を実装するものを含んでいてもよい。実際、モジュールは単一の命令または多数の命令を含みうる。モジュールは、いくつかの異なるコード・セグメントに、異なるプログラムの間に、およびいくつかのメモリ・デバイスを横断して、分配されていてもよい。いくつかの実施形態は、タスクが通信ネットワークを通じてリンクされているリモート処理装置によって実行される分散コンピューティング環境において実施されてもよい。分散コンピューティング環境では、ソフトウェア・モジュールはローカルおよび／またはリモートのメモリ記憶装置に位置されていてもよい。さらに、データベース・レコードにおいて一緒に結びつけられているまたはレンダリングされているデータは同じメモリ・デバイスに、あるいはいくつかのメモリ・デバイスにまたがって存在していてもよく、ネットワークを通じてデータベースにおけるあるレコードの諸フィールドにおいて一緒にリンクされてもよい。

本発明の根底にある原理から外れることなく、上記の実施形態の詳細に多くの変更がなされうることは理解されるであろう。したがって、本発明の範囲は付属の請求項によってのみ決定されるべきである。

Claims

人物の声の調音発話合成モデルを確立するための調音ベースのテキスト‐発話変換システムにおいて使うための装置であって：
人物の顔立ちを表わす画像データを取得する顔構造入力装置であって、前記顔立ちは前記人物の声の外から可視の調音発話合成モデル・パラメータを定義する顔特性を含む、顔構造入力装置と；
あらかじめ定義されたモデルの記憶のうちからあらかじめ定義された調音発話合成モデルを選択するための顔特性マッチング・システムであって、前記選択は少なくとも部分的には前記顔特性または前記外から可視の調音発話合成モデル・パラメータの一方または両方に基づく、顔特性マッチング・システムと；
前記選択されたあらかじめ定義された調音発話合成モデルの少なくとも一部を前記人物の声の調音発話合成モデルと関連付ける調音システムとを有する、
装置。
前記選択は、前記人物の顔立ちの前記顔特性と前記あらかじめ定義されたモデルの可視の調音発話合成モデル・パラメータを定義する顔特性との間の顔マッチング相関の指標に基づく、請求項１記載の装置。
前記顔マッチング相関の指標が隠れマルコフ・モデルを使って導出される、請求項２記載の装置。
前記顔構造入力装置が、ユーザー設備装置において撮像装置を用いて画像を捕捉することによって前記画像データを取得するよう構成されている、請求項１記載の装置。
前記顔特性マッチング・システムは、前記顔特性または前記外から可視の調音発話合成モデル・パラメータの前記一方または両方を前記あらかじめ定義されたモデルのものと比較することによって選択を行なうよう構成されている、請求項１ないし４のうちいずれか一項記載の装置。
前記顔特性マッチング・システムは、前記顔特性または前記外から可視の調音発話合成モデル・パラメータの前記一方または両方を前記あらかじめ定義されたモデルのものと比較することを開始するために、前記画像データをユーザー設備装置からサーバーに通信することによって、選択を行なうよう構成されている、請求項１ないし４のうちいずれか一項記載の装置。
前記調音システムは、前記選択されたあらかじめ定義された調音発話合成モデルの前記少なくとも一部を関連付けることを、前記選択されたあらかじめ定義された調音発話合成モデルのモデル・パラメータを使って発話を合成することによって行なうよう構成されている、請求項１ないし４のうちいずれか一項記載の装置。
人物の声の調音発話合成モデルを確立する方法であって：
人物の顔立ちを表わす画像データを取得する段階であって、前記顔立ちは前記人物の声の外から可視の調音発話合成モデル・パラメータを定義する顔特性を含む、段階と；
あらかじめ定義されたモデルの記憶のうちからあらかじめ定義された調音発話合成モデルを選択する段階であって、前記選択は少なくとも部分的には前記顔特性または前記外から可視の調音発話合成モデル・パラメータの一方または両方に基づく、段階と；
前記選択されたあらかじめ定義された調音発話合成モデルの少なくとも一部を前記人物の声の調音発話合成モデルと関連付ける段階とを含む、
方法。
前記選択は、前記人物の顔立ちの前記顔特性と前記あらかじめ定義されたモデルの可視の調音発話合成モデル・パラメータを定義する顔特性との間の顔マッチング相関の指標に基づく、請求項８記載の方法。
前記顔マッチング相関の指標が隠れマルコフ・モデルを使って導出される、請求項９記載の方法。
前記取得する段階が、ユーザー設備装置において撮像装置を用いて画像を捕捉することを含む、請求項８記載の方法。
前記選択する段階が、前記顔特性または前記外から可視の調音発話合成モデル・パラメータの前記一方または両方を前記あらかじめ定義されたモデルのものと比較することを含む、請求項８記載の方法。
前記選択する段階が、前記顔特性または前記外から可視の調音発話合成モデル・パラメータの前記一方または両方を前記あらかじめ定義されたモデルのものと比較することを開始するために、前記画像データをユーザー設備装置からサーバーに通信することを含む、請求項８記載の方法。
前記選択されたあらかじめ定義された調音発話合成モデルの前記少なくとも一部を関連付ける段階が、前記選択されたあらかじめ定義された調音発話合成モデルのモデル・パラメータを使って発話を合成することを含む、請求項８記載の方法。
前記あらかじめ定義されたモデルのそれぞれが、対応するモデル化された声の顔特性によって定義される外から可視の調音発話合成モデル・パラメータと、前記対応するモデル化された声の内部の声道特性によって定義される内部に隠された調音発話合成モデル・パラメータとを含む、請求項８記載の方法。
前記選択されたあらかじめ定義された調音発話合成モデルの前記少なくとも一部を関連付ける段階が、前記人物の声の外から可視の調音発話合成モデル・パラメータに基づき、かつ、前記選択されたあらかじめ定義された調音発話合成モデルの前記内部に隠された調音発話合成モデル・パラメータに基づいて発話を合成することを含む、請求項１５記載の方法。
前記選択は、前記人物の声の前記外から可視の調音発話合成モデル・パラメータと前記選択されたあらかじめ定義された調音発話合成モデルの前記外から可視の調音発話合成モデル・パラメータとの間の相関の指標に基づく、請求項１５記載の方法。
前記選択されたあらかじめ定義された調音発話合成モデルの前記少なくとも一部を関連付ける段階が、前記人物の声の外から可視の調音発話合成モデル・パラメータとの関連で使うために、前記選択されたあらかじめ定義された調音発話合成モデルの前記内部に隠された調音発話合成モデル・パラメータをユーザー設備装置に通信することを含む、請求項１５記載の方法。
前記画像データを取得する段階が、ユーザー設備装置からネットワークを通じて通信される画像ファイルを受信することを含む、請求項８記載の方法。
前記選択する段階が、前記顔特性または前記外から可視の調音発話合成モデル・パラメータの前記一方または両方を前記あらかじめ定義されたモデルのものと比較することを含む、請求項１９記載の方法。
前記選択されたあらかじめ定義された調音発話合成モデルの前記少なくとも一部を関連付ける段階が、前記選択されたあらかじめ定義された調音発話合成モデルの、内部に隠された調音発話合成モデル・パラメータを、ユーザー設備装置に通信することを含む、請求項８記載の方法。
前記人物の声の前記外から可視の調音発話合成モデル・パラメータを、前記内部に隠された調音発話合成モデル・パラメータと組み合わせることをさらに含む、請求項２１記載の方法。
前記あらかじめ定義されたモデルの記憶がデータベースを含み、当該方法がさらに：
あらかじめ定義されたモデルの提出を受領する段階であって、前記提出は既知のテキスト入力の声サンプル記録を含む、段階と；
前記あらかじめ定義されたモデルを使って生成された合成発話出力が前記声サンプル記録にマッチするかどうかを判定する段階とをさらに含む、
請求項１８記載の方法。
前記あらかじめ定義されたモデルの記憶がデータベースを含み、当該方法がさらに、前記合成発話出力の前記声サンプル記録とのマッチが不十分であることに応答して前記提出を拒否することを含む、請求項２３記載の方法。
請求項８ないし２４のうちいずれか一項記載の方法を装置に実行させるためのコンピュータ・プログラム。
請求項２５記載のコンピュータ・プログラムを記憶している少なくとも一つのコンピュータ可読記憶媒体。