JP6336676B2 - 顔構造に基づいて声を合成する方法および装置 - Google Patents

顔構造に基づいて声を合成する方法および装置 Download PDF

Info

Publication number
JP6336676B2
JP6336676B2 JP2017510490A JP2017510490A JP6336676B2 JP 6336676 B2 JP6336676 B2 JP 6336676B2 JP 2017510490 A JP2017510490 A JP 2017510490A JP 2017510490 A JP2017510490 A JP 2017510490A JP 6336676 B2 JP6336676 B2 JP 6336676B2
Authority
JP
Japan
Prior art keywords
articulatory
synthesis model
utterance
model
predefined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017510490A
Other languages
English (en)
Other versions
JP2017530393A (ja
Inventor
ベーグム,シャミム
エー. オガネゾフ,アレグザンダー
エー. オガネゾフ,アレグザンダー
Original Assignee
インテル コーポレイション
インテル コーポレイション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by インテル コーポレイション, インテル コーポレイション filed Critical インテル コーポレイション
Publication of JP2017530393A publication Critical patent/JP2017530393A/ja
Application granted granted Critical
Publication of JP6336676B2 publication Critical patent/JP6336676B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/176Dynamic expression
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • General Physics & Mathematics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Image Processing (AREA)
  • Processing Or Creating Images (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本稿に記載される実施形態は概括的にはテキスト‐発話(TTS: text-to-speech)システムに関し、より詳細には、選択された個人の外部から可視の顔構造に基づいて発話合成を調整するための調音ベースの(articulatory-based)TTSシステムに関する。
一般的な発話合成は、電子メール・メッセージや他のテキストを読み上げることのできるものを含め多くの用途で広く使われてきた。テキスト入力を与えられて、TTSシステムは人工的に人間の発話を生成する。TTSシステムの性能は、自然さ、了解性および実装の複雑さによって特徴付けられる。自然言語インターフェースはコンピューティング装置一般において、特にスマートフォン、タブレットおよびラップトップ・コンピュータのようなモバイル・コンピューティング装置において一般的になりつつある。
Shunji Awazu、"Inference from Unfamiliar Voices to Unfamiliar Faces - Influence of Gender Difference," the 75th Annual Convention of the Japanese Psychological Association, p.607, 2011 Escoto et al.、"Who Said That? The Crossmodal Matching Identity for Inferring Unfamiliar Faces from Voices," the 2012 Eighth International Conference on Signal Image Technology and Internet Based Systems S. Levinson, D. Davis, S. Simon, J. Huang、"Articulatory Speech Synthesis from the Fluid Dynamics of the Vocal Apparatus," Morgan & Claypool publishers、July 2012 A.V. Nefian and M.H. Hayes III、"An Embedded HMM-Based Approach for Face Detection and Recognition," the Proceeding of the 1999 Institute of Electrical and Electronics Engineers International Conference on Acoustics, Speech and Signal Processing、vol.6, pp.3553-56, May 1999 Liu Zhi-fang et al.、"Face detection and facial feature extraction in color image," the Proceeding of the 2003 Fifth International Conference on Computational Intelligence and Multimedia Applications、pp.27-30, September 2003 Shih et al.、"Extracting Faces And Facial Features From Color Images"、the International Journal of Pattern Recognition and Artificial Intelligence、vol.22, issue 3, May 2008
ある実施形態に基づく、調音ベースの発話合成を含むTTSシステムのブロック図である。 ある実施形態に基づく、顔‐声変換システムを使って調整された調音ベースの発話合成を含むTTSシステムのブロック図である。 ある実施形態に基づく、前処理された顔画像を対応する調音パラメータ値と一緒に記憶するデータベースを表形式で示す図である。 ある実施形態に基づく、図3のデータベースから発話合成のために所与の個人の声をエミュレートするために使われる調音パラメータを取得することに向けた、画像ベースのマッチング手法を用いる図2のTTSシステムのブロック図である。 ある実施形態に基づく、調音パラメータ値を記憶するデータベースを表形式で示す図である。 ある実施形態に基づく、図5のデータベースから発話合成のために所与の個人の声をエミュレートするために使われる調音パラメータを取得することに向けた、調音ベースのマッチング手法を用いる図2のTTSシステムのブロック図である。 モバイル・ユーザー設備装置の例のブロック図である。
諸側面および利点は、付属の図面を参照して進められる、好ましい実施形態の以下の詳細な説明から、明白となるであろう。
1.序
TTS特性を改善するための学術界および産業界の両方における試みは、たとえば、調音発話合成モデル(articulatory speech synthesis model)を使った発話合成システムを含んできた。これは、人間の声道およびその中で起こる調音プロセスのモデルに基づいて発話を合成するための計算器技法である。しかしながら、そのようなこれまでのシステムが使う調音パラメータ値は、必ずしも、発話合成を使って生成されるエミュレートされた声としてユーザーが聞くことを望む特定の人のものにマッチしない。さらに、これらの初期の試みは、個人の顔の画像から導出される外部から可視調音パラメータに基づいて所与の個人の発話を合成するものではなかった。このため、これらの調音発話合成モデルから生成される音は、特定の人自身の声から生成された発話のようには聞こえない。
非特許文献1に記載される近年の心理学的研究は、同じような声の人は同じような顔の特徴をもつことを提唱した。非特許文献2もこの観察を記載している。
この開示は、同じような顔特徴が同じように聞こえる声を生成するのは、顔特徴(これは可視調音パラメータに従って定義されうる)が、人間の発話生成系を通って進む際に音周波数の同じような成形を付与するためであると説明している。この開示に記載される実施形態は、個人の声をその個人の顔の特徴に基づいて合成するために、顔特徴と(たとえば、可視調音パラメータと)個人によって生成される音周波数との間の相関を使う。
本稿に記載される調音発話合成システムの実施形態は、任意の所与の個人の発話を合成するために、調音パラメータと声との間のこの相関を活用する。たとえば、調音発話合成システムの実施形態は、人の顔を示す画像に基づいて、画像に描かれているその人の声の近似を生成する。図1および図2はTTS実施形態の概観を与え、図4および図6は二つの個別的な手法、すなわち画像ベースのマッチング手法および調音ベースのマッチング手法を与える。これらの実施形態は、所与の個人の発話を、その個人の顔画像およびベースライン・データベース・レコードの集合に基づいてリアルタイムで動的に合成する。ベースライン・データベース・レコードの集合は、それらのレコードについての対応する調音発話モデルを有する。
2.TTS実施形態の概観
図1はTTSシステム100のある実施形態を示している。TTSシステム100は、概括的には非特許文献3に記載される枠組みに基づいている。たとえば、AT&Tは上記の非特許文献3の第2章第2.1節に記述され、図2.1に描かれているTTSシステムを実装した。
システム100はテキスト入力104を受領し、これがテキスト解析モジュール106によって解析されてテキスト入力104から単語110が抽出される。単語110は、数字および略語のような記号を含む生のテキストをスペルアウトされた単語の等価物に変換することによって得られる。このプロセスはしばしばテキスト正規化、前処理またはトークン化と呼ばれる。
次いで単語110は言語学的解析モジュール116によってさらに処理されて、各単語110の音声転写にされる。言語学的解析モジュール116はテキストを句、節および文のような韻律単位(prosodic units)に分割してマークする。単語に音声転写を割り当てるプロセスはテキスト‐音素または書記素‐音素変換と呼ばれる。音声転写および韻律情報は一緒になって記号言語学的表現をなし、それが出力され、音素120と称される。
音素120は波形合成モジュール130に入力される。波形合成モジュール130は調音系モデル140からの音周波数情報134(たとえば音周波数)をも受領する。調音系モデル140によって生成される情報134および音素120は波形合成モジュール130(たとえばウェーブ・シンセサイザー)を使って合成されて、発話出力150を生成する。波形合成は非特許文献3の第6章において記述され、図6.1〜6.6に示されている。
調音系モデル140は、声をモデル化するための調音モデル160を含む。調音モデルの例も非特許文献3に記載されている。たとえば、調音系モデル140についての一般的な枠組みを提供する先駆的なマーメルステイン(Mermelstein)調音モデルは第2章第2.3.3節に記述され、図2.12に示されている。
調音系モデル140は、調音モデル160が声道モデル170に提供する調音パラメータ164(パラメータ・テーブル166に挙げられる例によって示される)に対する制御および調節を許容する。たとえば、舌半径、舌高さ、顎角度、唇突出および唇高さは、発話生成の間に声道モデル170によって生成される音周波数を調整するために制御されることができる調音パラメータである。声道モデル170についての追加的な情報が非特許文献3の第2.3.4章および図2.13において利用可能である。
通常のTTSモデルは、可視(たとえば唇および顎)と不可視(たとえば舌、軟口蓋)の調音パラメータの間の区別をしないが、調音パラメータ164は可視または不可視であると識別される。TTSシステム100が個人の声をその個人の顔画像に基づいて合成しうるよう、このようにして調音パラメータ164が識別される。先述したように、TTSシステム100は、顔特徴(すなわち、可視調音パラメータ)と個人によって生成される声周波数との間の相関を活用する。
図2は、TTSシステム100のコンポーネントの多くを含むTTSシステム200を示している。ただし、システム200は、人(たとえばアリス)の顔立ちを示す顔ポートレートを表わす画像データのような顔構造入力212を受領する顔‐声システム208をも含んでいる。顔構造入力212は、あらかじめ定義された調音モデル224のベースライン・データベースとの比較のために、顔に基づく(図3、図4)またはパラメータに基づく(図5、図6)マッチング・システム220(一般に、顔特性マッチング・システム220)によって使用される。顔特性マッチング・システム220はデータベース224から、顔構造入力212と相関しているパラメータ164を含むあらかじめ定義されたモデル160の少なくとも一部分を取得する。TTSシステム200はこれらのパラメータ164を、先述したように、リアルタイムで動的にアリスの発話を合成するために使う。
3.画像ベースのマッチング手法
図3は、アマンダ312、ボブ320、ソフィア324およびキャサリン330についてのあらかじめ定義された諸調音モデルおよび顔画像に関連付けられた、諸レコードの例示的なテーブル310によって表現される、ベースライン・データベース300を示している。各人物のレコードは、格納されている顔画像と、外から可視であるおよび不可視である(すなわち人の口または声道の中にあって外からの観察から隠されている)パラメータに従って分割されたあらかじめ定義された調音モデルを含む。たとえば、ソフィアのレコード324は彼女の写真(Imagey);可視調音パラメータ(visible articulatory parameter)値(VAPy<jawy,lipPy,lipHy,…>);および不可視調音パラメータ(invisible articulatory parameter)値(IPAy<tongueHy,tongueWy,velumy,…>)を含む。VAP値は、ソフィアの顔の写真(Imagey)から観察されうる顔構造を定量化する彼女の顎および唇の顔特性<jawy,lipPy,lipHy,…>であり、「jaw」は顎角度、「lipP」は唇突出、「lipH」は唇高さを表わす。IPA値は写真からは観察できない声道構造を定量化するソフィアの舌および軟口蓋特性<tongueHy,tongueWy,velumy,…>であり、「tongueH」は舌の高さ、「tongueW」は舌の幅、「velum」は軟口蓋の長さを意味する。いくつかの実施形態では、他のVAPおよびIAP特性が可能であり、顔画像およびパラメータはいくつかのデータベースにまたがって分散されることができる。ベースライン・データベース300はユーザー設備装置(図7)においてまたはリモート・サーバー上で記憶されることができる。
図4は、データベース300(たとえば図3参照)からパラメータ164を得るための顔マッチング・システム420を含む顔‐声変換システム408を使う例示的な画像ベース・マッチングのTTSシステム400である。データベース300は、顔画像および調音パラメータの既知のタプルを含んでいる。顔‐声変換システム408は、人物(アリス)の顔立ちを表わす画像データを取得し、ここで、顔立ち(visage)とは、その人の声の、外から可視の調音発話合成モデル・パラメータを定義する顔特性を含む。たとえば、顔‐声変換システム408は、ネットワーク接続を通じて画像ファイルを受領することができ、あるいは画像捕捉装置を使って捕捉された、ローカルに記憶されている画像を使うことができる。顔マッチング・システム420実装は、画像中の人物とデータベース300内の画像によって同定される人物との間の好適な顔マッチングを達成するために、画像データおよび既存の擬似2D隠れマルコフ・モデル(PHMM: pseudo 2D hidden Markovian models)を使う。PHMMベースのモデルの例は非特許文献4に記載されている。このように、PHMMは画像マッチに基づいて最良のマッチする被写体を見出すために使用されうる。
同様の顔が同様の声を生成するという観察に基づいて、ベースライン・データベース300からの最もよくマッチする顔の調音パラメータがアリスのための合成音声のために使われる。たとえば、アリスはソフィアによく似ていてもよく、よって図3のy番目の項目(ソフィア)324のVAPおよびIAP値または単にIPA値が、アリスのための調音モデル160として使用されてもよい。
ソフィアのVAPおよびIAP値を使うことはソフィアの声をモデルとした合成発話を生成することになる。この場合、アリスの生成された発話の自然な個性のいくらかがいくぶん失われることがありうる。したがって、いくつかの実施形態では、ソフィアの声のベースライン周波数は、最良マッチ(ソフィア)と目標人物(この例ではアリス)の間の視覚的な差に基づいてさらに調節されることができる。たとえば、一つのそのような調節はソフィアのIAP値と、顔構造入力画像212から抽出されるアリスのVAP値を使う。この技法は図5および図6を参照して後述する。
4.調音ベースのマッチング手法
図5は、アマンダ512、ボブ520、ソフィア524およびキャサリン530についてのあらかじめ定義された諸調音モデルに関連付けられた諸レコードの例示的なテーブル510によって表現される、ベースライン・データベース500を示している。データベース500ではベースライン被写体のデータベース画像は記憶されていないことを注意しておく。
データベース500がモデルとされる人物の写真をもたないのは、図6のパラメータ・マッチング手法は、同様の外から可視の顔特徴と同様の声との間には相関が存在するという事実に依拠するためである。したがって、可視の顔特徴から得られる可視調音パラメータが、あらかじめ定義された調音モデルの少なくとも一部を得るための直接的な参照のはたらきをする。よって、図6は、システムへの入力が人物(たとえばアリス)の顔画像、テキスト入力および<可視調音パラメータ,不可視調音パラメータ>タプルのベースライン・データベースである手法を呈示している。ベースライン・データベース500はユーザー設備装置(図7)にまたはリモート・サーバー上に記憶されることができる。
図6は、データベース500(たとえば図5参照)からパラメータ164を得るために可視調音パラメータ抽出610およびパラメータ・マッチング・システム620を含む顔‐声変換システム608を使う例示的な画像ベース・マッチングのTTSシステム600である。データベース500は、可視および不可視調音パラメータの既知のタプルを含んでいる。
顔‐声変換システム608は、人物(アリス)の顔立ちを表わす画像データを取得し、ここで、顔立ちとは、その人の声の、外から可視の調音発話合成モデル・パラメータを定義する顔特徴を含む。先述したように、この取得はユーザー装置でローカルに実行されてもよいし、あるいはリモート・サーバーへのまたはリモート・サーバーからのデータの伝送を含んでいてもよい。
調音パラメータ抽出610は、可視パラメータを抽出するために顔構造入力画像212を解析する。抽出された可視パラメータは、発話合成段において使われる最良マッチした音周波数を見出すためのキーとして使われる。顔検出および特徴抽出の一例は非特許文献5に記述されている。非特許文献6は、カラー画像から人間の顔および顔特徴を抽出するための画像処理およびパターン認識技法を記述している。
次いで、パラメータ・マッチング・システム620がそれらの抽出されたパラメータを、データベース500に記憶されているものとの比較のために受領する。パラメータ・マッチング・システム620は、データベース500から可視調音パラメータの最も近いマッチをスコア付けするためにいくつもある技法を使うことができる。たとえば、パラメータ・マッチング・システム620はユークリッド距離、平方和計算器または最も近いマッチを見出すための別の技法を使ってもよい。
いくつかの実施形態では、顔‐声変換システム608は、データベース500のy番目の項目の発話信号(たとえばソフィア)と目標(アリス)との間の差分をも使い、よってアリスの発話を生成することができる。たとえば、調音モデル160はアリスの写真から抽出されたVAP値およびデータベース500に記憶されているソフィアのIAP値を含んでいてもよい。この手法は、たとえば顔の画像からの調音パラメータの抽出の間に誤差を導入しうる筋肉および脂肪に帰すことのできる、抽出されたVAPにおけるノイズを考慮に入れるための技法を含む。別の実施形態では、ソフィアのVAPおよびIPA値両方が、アリスの声の近似を合成するために使われてもよい。
5.発話合成のための例示的なユーザー設備装置
図7は、モバイル・ユーザー設備装置、たとえばモバイル・ステーション、モバイル無線装置、モバイル通信装置、タブレット、ハンドセットまたは他の型のモバイル無線装置の例示的な図解を与えている。モバイル装置は、伝送ステーション、たとえば基地局、進化型ノードB、ベースバンド・ユニット、リモート・ラジオ・ヘッド、リモート・ラジオ設備、中継局、電波設備または他の型の無線広域ネットワーク(WWAN)アクセス・ポイントと通信するよう構成された一つまたは複数のアンテナを含むことができる。モバイル装置は、3GPP LTE、WiMAX、高速パケット・アクセス、ブルートゥース(登録商標)およびWiFiを含む少なくとも一つの無線通信規格を使って通信するよう構成されることができる。モバイル装置は各無線通信規格のための別個のアンテナまたは複数の無線通信規格のための共有アンテナを使って通信できる。モバイル装置は無線ローカル・エリア・ネットワーク、無線パーソナル・エリア・ネットワークおよび/またはWWANにおいて通信できる。
図7は、モバイル装置へのオーディオ入力およびモバイル装置からのオーディオ出力のために使用できる、マイクロフォンおよび一つまたは複数のスピーカーの図示をも与えている。表示画面は液晶表示画面または他の型の表示画面、たとえば有機発光ダイオード・ディスプレイであってもよい。表示画面はタッチスクリーンとして構成されることができる。タッチスクリーンは容量性、抵抗性または別の型のタッチスクリーン技術を使ってもよい。アプリケーション・プロセッサおよびグラフィック・プロセッサは、処理および表示機能を提供するために内部メモリに結合されることができる。ユーザーにデータ入出力オプションを提供するために不揮発性メモリ・ポートが使われてもよい。不揮発性メモリ・ポートはモバイル装置のメモリ機能を拡張するために使われてもよい。追加的なユーザー入力を提供するためにキーボードがモバイル装置と統合されていてもよく、あるいはモバイル装置に無線接続されていてもよい。仮想キーボードがタッチスクリーンを使って提供されてもよい。モバイル装置はデジタル画像を得るためにデジタル・カメラまたは他の撮像装置を備えていてもよい。
個人の声に合わせて調整される発話合成は潜在的な新たな用途のための備えを提供する。たとえば、「マミーeリーダー(mom-e-reader)」がリアルタイムで動的に母親の声を合成することによって電子書籍を読み上げる。GPSおよびアラームのような用途ならびに言語療法のような療法用途のための発話合成を含め、本開示の諸側面を使用できる数多くの使用事例および応用がある。下記は、将来の製品または関心のためのいくつかの潜在的な用途である:母親(または選ばれた任意の特定の人物)の事前にロードされた画像を使って母親の声で物語を読む電子書籍アプリケーションを含むマミーeリーダー;モバイル装置上のアプリケーション、たとえばメッセージ・リーダー、GPSの、選ばれた人物を用いたカスタマイズ;さまざまな言語障害をもつ患者(たとえば話すことができない人)の声の合成;または写真画像に基づく亡くなった人々の声の合成。これは声の録音がないときに使用されうる。
6.サーバー・ベースの処理
いくつかの実施形態では、顔‐声変換システム208、408、608の任意の部分がユーザー設備またはリモート・サーバーにホストされうる。たとえば、パラメータ抽出610はユーザー設備装置上またはサーバー上で行なわれてもよい。データベース300または500のクラウド記憶はプライバシーおよびセキュリティー両面での懸念をもたらす。該データベースを目標システムに記憶することは該システムにおけるスペースおよびローカルな処理パワーの両方を使うことになる。
クラウド・ベースの実施形態については、誤ったデータ提出を避けるために、データ完全性(integrity)を検査するためにデータ・フィルタリング・システムが使われる。そのようなフィルタリング・システムの一例は、既知のテキストの声サンプル提出を画像(または一組の声合成パラメータ)と一緒に受け取る。該提出のパラメータ(またはシステム608から得られたもの)に基づいて、合成されたテキストが発話サンプルに変換される。そのサンプルは提出された声サンプルと比較される。明らかな不一致は無効な提出として拒否される。
7.例示的実施形態
例は、方法、方法の工程を実行する手段、機械によって実行されたときに該機械に方法の、あるいは本稿に記載される実施形態および例に基づく調音ベースのテキスト‐発話変換のための装置もしくはシステムの工程を実行させる命令を含む少なくとも一つの機械可読媒体といった主題を含んでいてもよい。
〔実施例1〕
人物の声の調音発話合成モデルを確立するための調音ベースのテキスト‐発話変換システムにおいて使うための装置であって: 人物の顔立ちを表わす画像データを取得する顔構造入力装置であって、前記顔立ちは前記人物の声の外から可視の調音発話合成モデル・パラメータを定義する顔特性を含む、顔構造入力装置と; あらかじめ定義されたモデルの記憶のうちからあらかじめ定義された調音発話合成モデルを選択するための顔特性マッチング・システムであって、前記選択は少なくとも部分的には前記顔特性または前記外から可視の調音発話合成モデル・パラメータの一方または両方に基づく、顔特性マッチング・システムと; 前記選択されたあらかじめ定義された調音発話合成モデルの少なくとも一部を前記人物の声の調音発話合成モデルと関連付ける調音システムとを有する、装置。
〔実施例2〕
前記選択は、前記人物の顔立ちの前記顔特性と前記あらかじめ定義されたモデルの可視の調音発話合成モデル・パラメータを定義する顔特性との間の顔マッチング相関の指標に基づく、実施例1記載の装置。
〔実施例3〕
前記顔マッチング相関の指標が隠れマルコフ・モデルを使って導出される、実施例2記載の装置。
〔実施例4〕
前記顔構造入力装置が、ユーザー設備装置において撮像装置を用いて画像を捕捉することによって前記画像データを取得するよう構成されている、実施例1記載の装置。
〔実施例5〕
前記顔特性マッチング・システムは、前記顔特性または前記外から可視の調音発話合成モデル・パラメータの前記一方または両方を前記あらかじめ定義されたモデルのものと比較することによって選択を行なうよう構成されている、実施例1ないし4のうちいずれか一項記載の装置。
〔実施例6〕
前記顔特性マッチング・システムは、前記顔特性または前記外から可視の調音発話合成モデル・パラメータの前記一方または両方を前記あらかじめ定義されたモデルのものと比較することを開始するために、前記画像データをユーザー設備装置からサーバーに通信することによって、選択を行なうよう構成されている、実施例1ないし4のうちいずれか一項記載の装置。
〔実施例7〕
前記調音システムは、前記選択されたあらかじめ定義された調音発話合成モデルの前記少なくとも一部を関連付けることを、前記選択されたあらかじめ定義された調音発話合成モデルのモデル・パラメータを使って発話を合成することによって行なうよう構成されている、実施例1ないし4のうちいずれか一項記載の装置。
〔実施例8〕
人物の声の調音発話合成モデルを確立するよう構成された調音ベースのテキスト‐発話変換システムにおいて使うための装置であって: 人物の顔立ちを表わす画像データを取得する手段であって、前記顔立ちは前記人物の声の外から可視の調音発話合成モデル・パラメータを定義する顔特性を含む、手段と; あらかじめ定義されたモデルの記憶のうちからあらかじめ定義された調音発話合成モデルを選択する手段であって、前記選択は少なくとも部分的には前記顔特性または前記外から可視の調音発話合成モデル・パラメータの一方または両方に基づく、手段と; 前記選択されたあらかじめ定義された調音発話合成モデルの少なくとも一部を前記人物の声の調音発話合成モデルと関連付ける手段とを有する、装置。
〔実施例9〕
前記選択は、前記人物の顔立ちの前記顔特性と前記あらかじめ定義されたモデルの可視の調音発話合成モデル・パラメータを定義する顔特性との間の顔マッチング相関の指標に基づく、実施例8記載の装置。
〔実施例10〕
前記顔マッチング相関の指標が隠れマルコフ・モデルを使って導出される、実施例9記載の装置。
〔実施例11〕
前記選択する手段が、前記顔特性または前記外から可視の調音発話合成モデル・パラメータの前記一方または両方を前記あらかじめ定義されたモデルのものと比較する手段を有する、実施例8記載の装置。
〔実施例12〕
前記取得する手段が、ユーザー設備装置において撮像装置を用いて画像を捕捉する手段を有する、実施例8ないし11のうちいずれか一項記載の装置。
〔実施例13〕
前記選択する手段が、前記画像データをユーザー設備装置からサーバーに通信し、それにより前記顔特性または前記外から可視の調音発話合成モデル・パラメータの前記一方または両方を前記あらかじめ定義されたモデルのものと比較することを開始する手段を有する、実施例8記載の装置。
〔実施例14〕
前記関連付ける手段は、前記選択されたあらかじめ定義された調音発話合成モデルの前記少なくとも一部を関連付けることを、前記選択されたあらかじめ定義された調音発話合成モデルのモデル・パラメータを使って発話を合成することによって行なう手段を有する、実施例8記載の装置。
〔実施例15〕
前記あらかじめ定義されたモデルのそれぞれが、対応するモデル化された声の顔特性によって定義される外から可視の調音発話合成モデル・パラメータを含み、前記あらかじめ定義されたモデルのそれぞれが、前記対応するモデル化された声の、内部の声道特性によって定義される、内部に隠された調音発話合成モデル・パラメータを含む、実施例8記載の装置。
〔実施例16〕
前記選択されたあらかじめ定義された調音発話合成モデルの前記少なくとも一部を関連付ける手段が、前記人物の声の外から可視の調音発話合成モデル・パラメータに基づき、かつ、前記選択されたあらかじめ定義された調音発話合成モデルの前記内部に隠された調音発話合成モデル・パラメータに基づいて発話を合成することを含む、実施例15記載の装置。
〔実施例17〕
前記選択は、前記人物の声の前記外から可視の調音発話合成モデル・パラメータと前記選択されたあらかじめ定義された調音発話合成モデルの前記外から可視の調音発話合成モデル・パラメータとの間の相関の指標に基づく、実施例15記載の装置。
〔実施例18〕
前記選択されたあらかじめ定義された調音発話合成モデルの前記少なくとも一部を関連付ける手段が、前記人物の声の外から可視の調音発話合成モデル・パラメータとの関連で使うために、前記選択されたあらかじめ定義された調音発話合成モデルの前記内部に隠された調音発話合成モデル・パラメータをユーザー設備装置に通信する手段を有する、実施例15記載の装置。
〔実施例19〕
前記画像データを取得する手段が、ユーザー設備装置からネットワークを通じて通信される画像ファイルを受信する手段を有する、実施例8ないし11のうちいずれか一項記載の装置。
〔実施例20〕
前記選択されたあらかじめ定義された調音発話合成モデルの前記少なくとも一部を関連付ける手段が、前記選択されたあらかじめ定義された調音発話合成モデルの、内部に隠された調音発話合成モデル・パラメータを、ユーザー設備装置に通信する手段を有する、実施例8記載の装置。
〔実施例21〕
前記人物の声の前記外から可視の調音発話合成モデル・パラメータを、前記内部に隠された調音発話合成モデル・パラメータと組み合わせる手段をさらに有する、実施例20記載の装置。
〔実施例22〕
前記あらかじめ定義されたモデルの記憶がデータベースを含み、当該装置がさらに: あらかじめ定義されたモデルの提出を受領する手段であって、前記提出は既知のテキスト入力の声サンプル記録を含む、手段と; 前記あらかじめ定義されたモデルを使って生成された合成発話出力が前記声サンプル記録にマッチするかどうかを判定する手段とをさらに有する、実施例8記載の装置。
〔実施例23〕
前記あらかじめ定義されたモデルの記憶がデータベースを含み、当該装置がさらに、前記合成発話出力の前記声サンプル記録とのマッチが不十分であることに応答して前記提出を拒否する手段を有する、実施例22記載の装置。
〔実施例24〕
発話‐テキスト変換のための方法であって:人物の外部顔構造情報を調音モデル・サーバーに送り;前記外部顔構造情報に対応するあらかじめ定義された調音モデルの少なくとも一部を前記調音モデル・サーバーから受領し;前記あらかじめ定義された調音モデルに少なくとも部分的に基づいてテキスト入力を発話出力に変換することを含む、方法。
〔実施例25〕
前記外部顔構造情報が、前記人物の顔の写真または前記写真から抽出された調音パラメータの一方または両方を含む、実施例24記載の方法。
〔実施例26〕
前記あらかじめ定義された調音モデルの前記一部が、前記写真に示されている人物とは異なるモデル化された人物に対応する不可視調音パラメータを含む、実施例25記載の方法。
〔実施例27〕
前記あらかじめ定義された調音モデルの前記一部が、前記写真に示されている人物とは異なるモデル化された人物に対応する可視調音パラメータを含む、実施例25記載の方法。
〔実施例28〕
前記外部顔構造情報が、前記人物の顔の写真を含み、前記送ることが、前記調音モデル・サーバーに、前記写真から前記調音パラメータを抽出させる、実施例25記載の方法。
〔実施例29〕
前記送ることが、前記調音モデル・サーバーに、前記人物の写真を、前記あらかじめ定義された調音モデルによって表わされている人物の記憶されている写真と照合させる、実施例25記載の方法。
〔実施例30〕
前記送ることが、前記調音モデル・サーバーに、前記写真から抽出された調音パラメータを、前記あらかじめ定義された調音モデルの調音パラメータと照合させる、実施例25記載の方法。
〔実施例31〕
発話‐テキスト変換のための方法であって:人物の外部顔構造情報をユーザー設備装置から受領し;前記外部顔構造情報を諸調音モデルのデータベースに記憶されている外部顔構造情報と比較することに基づいて、前記外部顔構造情報に対応する調音モデルの少なくとも一部を決定し;前記人物の前記外部顔構造情報に対応する前記調音モデルの前記少なくとも一部を前記ユーザー設備装置に送ることを含む、方法。
〔実施例32〕
前記外部顔構造情報が、前記人物の顔の写真または前記写真から抽出された調音パラメータの一方または両方を含む、実施例31記載の方法。
〔実施例33〕
前記あらかじめ定義された調音モデルの前記一部が、前記写真に示されている人物とは異なるモデル化された人物に対応する不可視調音パラメータを含む、実施例32記載の方法。
〔実施例34〕
前記あらかじめ定義された調音モデルの前記一部が、前記写真に示されている人物とは異なるモデル化された人物に対応する可視調音パラメータを含む、実施例32記載の方法。
〔実施例35〕
前記外部顔構造情報が、前記人物の顔の写真を含み、前記受領することが、調音モデル・サーバーに、前記写真から前記調音パラメータを抽出させる、実施例32記載の方法。
〔実施例36〕
前記受領することが、調音モデル・サーバーに、前記人物の写真を、前記あらかじめ定義された調音モデルによって表わされている人物の記憶されている写真と照合させる、実施例32記載の方法。
〔実施例37〕
前記受領することが、調音モデル・サーバーに、前記写真から抽出された調音パラメータを、前記あらかじめ定義された調音モデルの調音パラメータと照合させる、実施例32記載の方法。
〔実施例38〕
人物の声の調音発話合成モデルを確立する方法であって: 人物の顔立ちを表わす画像データを取得する段階であって、前記顔立ちは前記人物の声の外から可視の調音発話合成モデル・パラメータを定義する顔特性を含む、段階と; あらかじめ定義されたモデルの記憶のうちからあらかじめ定義された調音発話合成モデルを選択する段階であって、前記選択は少なくとも部分的には前記顔特性または前記外から可視の調音発話合成モデル・パラメータの一方または両方に基づく、段階と; 前記選択されたあらかじめ定義された調音発話合成モデルの少なくとも一部を前記人物の声の調音発話合成モデルと関連付ける段階とを含む、方法。
〔実施例39〕
前記選択は、前記人物の顔立ちの前記顔特性と前記あらかじめ定義されたモデルの可視の調音発話合成モデル・パラメータを定義する顔特性との間の顔マッチング相関の指標に基づく、実施例38記載の方法。
〔実施例40〕
前記顔マッチング相関の指標が隠れマルコフ・モデルを使って導出される、実施例39記載の方法。
〔実施例41〕
前記取得する段階が、ユーザー設備装置において撮像装置を用いて画像を捕捉することを含む、実施例38記載の方法。
〔実施例42〕
前記選択する段階が、前記顔特性または前記外から可視の調音発話合成モデル・パラメータの前記一方または両方を前記あらかじめ定義されたモデルのものと比較することを含む、実施例38記載の方法。
〔実施例43〕
前記選択する段階が、前記顔特性または前記外から可視の調音発話合成モデル・パラメータの前記一方または両方を前記あらかじめ定義されたモデルのものと比較することを開始するために、前記画像データをユーザー設備装置からサーバーに通信することを含む、実施例38記載の方法。
〔実施例44〕
前記選択されたあらかじめ定義された調音発話合成モデルの前記少なくとも一部を関連付ける段階が、前記選択されたあらかじめ定義された調音発話合成モデルのモデル・パラメータを使って発話を合成することを含む、実施例38記載の方法。
〔実施例45〕
前記あらかじめ定義されたモデルのそれぞれが、対応するモデル化された声の顔特性によって定義される外から可視の調音発話合成モデル・パラメータと、前記対応するモデル化された声の内部の声道特性によって定義される内部に隠された調音発話合成モデル・パラメータとを含む、実施例38記載の方法。
〔実施例46〕
前記選択されたあらかじめ定義された調音発話合成モデルの前記少なくとも一部を関連付ける段階が、前記人物の声の外から可視の調音発話合成モデル・パラメータに基づき、かつ、前記選択されたあらかじめ定義された調音発話合成モデルの前記内部に隠された調音発話合成モデル・パラメータに基づいて発話を合成することを含む、実施例45記載の方法。
〔実施例47〕
前記選択は、前記人物の声の前記外から可視の調音発話合成モデル・パラメータと前記選択されたあらかじめ定義された調音発話合成モデルの前記外から可視の調音発話合成モデル・パラメータとの間の相関の指標に基づく、実施例45記載の方法。
〔実施例48〕
前記選択されたあらかじめ定義された調音発話合成モデルの前記少なくとも一部を関連付ける段階が、前記人物の声の外から可視の調音発話合成モデル・パラメータとの関連で使うために、前記選択されたあらかじめ定義された調音発話合成モデルの前記内部に隠された調音発話合成モデル・パラメータをユーザー設備装置に通信することを含む、実施例45記載の方法。
〔実施例49〕
前記画像データを取得する段階が、ユーザー設備装置からネットワークを通じて通信される画像ファイルを受信することを含む、実施例38記載の方法。
〔実施例50〕
前記選択する段階が、前記顔特性または前記外から可視の調音発話合成モデル・パラメータの前記一方または両方を前記あらかじめ定義されたモデルのものと比較することを含む、実施例49記載の方法。
〔実施例51〕
前記選択されたあらかじめ定義された調音発話合成モデルの前記少なくとも一部を関連付ける段階が、前記選択されたあらかじめ定義された調音発話合成モデルの、内部に隠された調音発話合成モデル・パラメータを、ユーザー設備装置に通信することを含む、実施例38記載の方法。
〔実施例52〕
前記人物の声の前記外から可視の調音発話合成モデル・パラメータを、前記内部に隠された調音発話合成モデル・パラメータと組み合わせることをさらに含む、実施例51記載の方法。
〔実施例53〕
前記あらかじめ定義されたモデルの記憶がデータベースを含み、当該方法がさらに: あらかじめ定義されたモデルの提出を受領する段階であって、前記提出は既知のテキスト入力の声サンプル記録を含む、段階と; 前記あらかじめ定義されたモデルを使って生成された合成発話出力が前記声サンプル記録にマッチするかどうかを判定する段階とをさらに含む、実施例48記載の方法。
〔実施例54〕
前記あらかじめ定義されたモデルの記憶がデータベースを含み、当該方法がさらに、前記合成発話出力が前記声サンプル記録と十分にマッチしないことに応答して前記提出を拒否することを含む、実施例53記載の方法。
〔実施例55〕
装置で実行されたときに実施例24ないし54のうちいずれか一項記載の方法を実行する命令を記憶している少なくとも一つのコンピュータ可読記憶媒体。
上記の記述は、本稿に記載される実施形態の十全な理解のために数多くの個別的な詳細を与えている。しかしながら、当業者は、こうした個別的詳細の一つまたは複数が省略されたり、あるいは他の方法、コンポーネントまたは材料が使用されてもよいことを認識するであろう。場合によっては、よく知られた特徴、構造または動作は詳細には図示や説明をしていない。
さらに、一つまたは複数の実施形態において、記載される特徴、動作または特性は、幅広い多様な異なる構成において配置および設計されてもよく、および/または任意の好適な仕方で組み合わされてもよい。このように、システムおよび方法の実施形態の詳細な記述は特許請求される本開示の範囲を限定することは意図されておらず、単に本開示の可能な実施形態を表わすものである。さらに、開示される実施形態との関連で記述される方法の段階または工程の順序は、当業者には明白であろうように変更されてもよい。このように、図面または詳細な説明におけるいかなる順序もあくまでも例解目的のためであり、ある順序が必要であると明記されているのでない限り、必須の順序を含意することは意図されていない。
実施形態は、汎用または専用目的のコンピュータ(または他の電子装置)によって実行される機械実行可能命令において具現されうるさまざまな段階を含みうる。あるいはまた、それらの段階は段階を実行するための具体的な論理を含むハードウェア・コンポーネントによって、あるいはハードウェア、ソフトウェアおよび/またはファームウェアの組み合わせによって実行されてもよい。
実施形態は、本稿に記載されるプロセスを実行するようコンピュータ(または他の電子装置)をプログラムするために使用されうる命令を記憶しているコンピュータ可読記憶媒体を含むコンピュータ・プログラム・プロダクトとして提供されてもよい。コンピュータ可読記憶媒体は、これに限られないが、ハードドライブ、フロッピーディスケット、光ディスク、CD-ROM、DVD-ROM、ROM、RAM、EPROM、EEPROM、磁気もしくは光学式カード、半導体メモリ・デバイスまたは電子的な命令を記憶するのに好適な他の型の媒体/機械可読媒体を含みうる。
本稿での用法では、ソフトウェア・モジュールまたはコンポーネントは、メモリ・デバイスおよび/またはコンピュータ可読記憶装置内に位置される任意の型のコンピュータ命令またはコンピュータ実行可能コードを含みうる。ソフトウェア・モジュールはたとえば、一つまたは複数のタスクを実行するまたは特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などとして編成されうるコンピュータ命令の一つまたは複数の物理的または論理的なブロックを含んでいてもよい。
ある種の実施形態では、特定のソフトウェア・モジュールは、メモリ・デバイスの異なる位置に記憶された別個の命令であって、一緒になって該モジュールの記載される機能を実装するものを含んでいてもよい。実際、モジュールは単一の命令または多数の命令を含みうる。モジュールは、いくつかの異なるコード・セグメントに、異なるプログラムの間に、およびいくつかのメモリ・デバイスを横断して、分配されていてもよい。いくつかの実施形態は、タスクが通信ネットワークを通じてリンクされているリモート処理装置によって実行される分散コンピューティング環境において実施されてもよい。分散コンピューティング環境では、ソフトウェア・モジュールはローカルおよび/またはリモートのメモリ記憶装置に位置されていてもよい。さらに、データベース・レコードにおいて一緒に結びつけられているまたはレンダリングされているデータは同じメモリ・デバイスに、あるいはいくつかのメモリ・デバイスにまたがって存在していてもよく、ネットワークを通じてデータベースにおけるあるレコードの諸フィールドにおいて一緒にリンクされてもよい。
本発明の根底にある原理から外れることなく、上記の実施形態の詳細に多くの変更がなされうることは理解されるであろう。したがって、本発明の範囲は付属の請求項によってのみ決定されるべきである。

Claims (26)

  1. 人物の声の調音発話合成モデルを確立するための調音ベースのテキスト‐発話変換システムにおいて使うための装置であって:
    人物の顔立ちを表わす画像データを取得する顔構造入力装置であって、前記顔立ちは前記人物の声の外から可視の調音発話合成モデル・パラメータを定義する顔特性を含む、顔構造入力装置と;
    あらかじめ定義されたモデルの記憶のうちからあらかじめ定義された調音発話合成モデルを選択するための顔特性マッチング・システムであって、前記選択は少なくとも部分的には前記顔特性または前記外から可視の調音発話合成モデル・パラメータの一方または両方に基づく、顔特性マッチング・システムと;
    前記選択されたあらかじめ定義された調音発話合成モデルの少なくとも一部を前記人物の声の調音発話合成モデルと関連付ける調音システムとを有する、
    装置。
  2. 前記選択は、前記人物の顔立ちの前記顔特性と前記あらかじめ定義されたモデルの可視の調音発話合成モデル・パラメータを定義する顔特性との間の顔マッチング相関の指標に基づく、請求項1記載の装置。
  3. 前記顔マッチング相関の指標が隠れマルコフ・モデルを使って導出される、請求項2記載の装置。
  4. 前記顔構造入力装置が、ユーザー設備装置において撮像装置を用いて画像を捕捉することによって前記画像データを取得するよう構成されている、請求項1記載の装置。
  5. 前記顔特性マッチング・システムは、前記顔特性または前記外から可視の調音発話合成モデル・パラメータの前記一方または両方を前記あらかじめ定義されたモデルのものと比較することによって選択を行なうよう構成されている、請求項1ないし4のうちいずれか一項記載の装置。
  6. 前記顔特性マッチング・システムは、前記顔特性または前記外から可視の調音発話合成モデル・パラメータの前記一方または両方を前記あらかじめ定義されたモデルのものと比較することを開始するために、前記画像データをユーザー設備装置からサーバーに通信することによって、選択を行なうよう構成されている、請求項1ないし4のうちいずれか一項記載の装置。
  7. 前記調音システムは、前記選択されたあらかじめ定義された調音発話合成モデルの前記少なくとも一部を関連付けることを、前記選択されたあらかじめ定義された調音発話合成モデルのモデル・パラメータを使って発話を合成することによって行なうよう構成されている、請求項1ないし4のうちいずれか一項記載の装置。
  8. 人物の声の調音発話合成モデルを確立する方法であって:
    人物の顔立ちを表わす画像データを取得する段階であって、前記顔立ちは前記人物の声の外から可視の調音発話合成モデル・パラメータを定義する顔特性を含む、段階と;
    あらかじめ定義されたモデルの記憶のうちからあらかじめ定義された調音発話合成モデルを選択する段階であって、前記選択は少なくとも部分的には前記顔特性または前記外から可視の調音発話合成モデル・パラメータの一方または両方に基づく、段階と;
    前記選択されたあらかじめ定義された調音発話合成モデルの少なくとも一部を前記人物の声の調音発話合成モデルと関連付ける段階とを含む、
    方法。
  9. 前記選択は、前記人物の顔立ちの前記顔特性と前記あらかじめ定義されたモデルの可視の調音発話合成モデル・パラメータを定義する顔特性との間の顔マッチング相関の指標に基づく、請求項8記載の方法。
  10. 前記顔マッチング相関の指標が隠れマルコフ・モデルを使って導出される、請求項9記載の方法。
  11. 前記取得する段階が、ユーザー設備装置において撮像装置を用いて画像を捕捉することを含む、請求項8記載の方法。
  12. 前記選択する段階が、前記顔特性または前記外から可視の調音発話合成モデル・パラメータの前記一方または両方を前記あらかじめ定義されたモデルのものと比較することを含む、請求項8記載の方法。
  13. 前記選択する段階が、前記顔特性または前記外から可視の調音発話合成モデル・パラメータの前記一方または両方を前記あらかじめ定義されたモデルのものと比較することを開始するために、前記画像データをユーザー設備装置からサーバーに通信することを含む、請求項8記載の方法。
  14. 前記選択されたあらかじめ定義された調音発話合成モデルの前記少なくとも一部を関連付ける段階が、前記選択されたあらかじめ定義された調音発話合成モデルのモデル・パラメータを使って発話を合成することを含む、請求項8記載の方法。
  15. 前記あらかじめ定義されたモデルのそれぞれが、対応するモデル化された声の顔特性によって定義される外から可視の調音発話合成モデル・パラメータと、前記対応するモデル化された声の内部の声道特性によって定義される内部に隠された調音発話合成モデル・パラメータとを含む、請求項8記載の方法。
  16. 前記選択されたあらかじめ定義された調音発話合成モデルの前記少なくとも一部を関連付ける段階が、前記人物の声の外から可視の調音発話合成モデル・パラメータに基づき、かつ、前記選択されたあらかじめ定義された調音発話合成モデルの前記内部に隠された調音発話合成モデル・パラメータに基づいて発話を合成することを含む、請求項15記載の方法。
  17. 前記選択は、前記人物の声の前記外から可視の調音発話合成モデル・パラメータと前記選択されたあらかじめ定義された調音発話合成モデルの前記外から可視の調音発話合成モデル・パラメータとの間の相関の指標に基づく、請求項15記載の方法。
  18. 前記選択されたあらかじめ定義された調音発話合成モデルの前記少なくとも一部を関連付ける段階が、前記人物の声の外から可視の調音発話合成モデル・パラメータとの関連で使うために、前記選択されたあらかじめ定義された調音発話合成モデルの前記内部に隠された調音発話合成モデル・パラメータをユーザー設備装置に通信することを含む、請求項15記載の方法。
  19. 前記画像データを取得する段階が、ユーザー設備装置からネットワークを通じて通信される画像ファイルを受信することを含む、請求項8記載の方法。
  20. 前記選択する段階が、前記顔特性または前記外から可視の調音発話合成モデル・パラメータの前記一方または両方を前記あらかじめ定義されたモデルのものと比較することを含む、請求項19記載の方法。
  21. 前記選択されたあらかじめ定義された調音発話合成モデルの前記少なくとも一部を関連付ける段階が、前記選択されたあらかじめ定義された調音発話合成モデルの、内部に隠された調音発話合成モデル・パラメータを、ユーザー設備装置に通信することを含む、請求項8記載の方法。
  22. 前記人物の声の前記外から可視の調音発話合成モデル・パラメータを、前記内部に隠された調音発話合成モデル・パラメータと組み合わせることをさらに含む、請求項21記載の方法。
  23. 前記あらかじめ定義されたモデルの記憶がデータベースを含み、当該方法がさらに:
    あらかじめ定義されたモデルの提出を受領する段階であって、前記提出は既知のテキスト入力の声サンプル記録を含む、段階と;
    前記あらかじめ定義されたモデルを使って生成された合成発話出力が前記声サンプル記録にマッチするかどうかを判定する段階とをさらに含む、
    請求項18記載の方法。
  24. 前記あらかじめ定義されたモデルの記憶がデータベースを含み、当該方法がさらに、前記合成発話出力の前記声サンプル記録とのマッチが不十分であることに応答して前記提出を拒否することを含む、請求項23記載の方法。
  25. 請求項8ないし24のうちいずれか一項記載の方法を装置に実行させるためのコンピュータ・プログラム。
  26. 請求項25記載のコンピュータ・プログラムを記憶している少なくとも一つのコンピュータ可読記憶媒体。
JP2017510490A 2014-09-25 2015-08-28 顔構造に基づいて声を合成する方法および装置 Active JP6336676B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/496,832 US9607609B2 (en) 2014-09-25 2014-09-25 Method and apparatus to synthesize voice based on facial structures
US14/496,832 2014-09-25
PCT/US2015/047465 WO2016048579A1 (en) 2014-09-25 2015-08-28 Method and apparatus to synthesize voice based on facial structures

Publications (2)

Publication Number Publication Date
JP2017530393A JP2017530393A (ja) 2017-10-12
JP6336676B2 true JP6336676B2 (ja) 2018-06-06

Family

ID=55581779

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017510490A Active JP6336676B2 (ja) 2014-09-25 2015-08-28 顔構造に基づいて声を合成する方法および装置

Country Status (6)

Country Link
US (3) US9607609B2 (ja)
EP (1) EP3198589B1 (ja)
JP (1) JP6336676B2 (ja)
KR (1) KR102361389B1 (ja)
CN (1) CN106575500B (ja)
WO (1) WO2016048579A1 (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9607609B2 (en) * 2014-09-25 2017-03-28 Intel Corporation Method and apparatus to synthesize voice based on facial structures
US10102203B2 (en) * 2015-12-21 2018-10-16 Verisign, Inc. Method for writing a foreign language in a pseudo language phonetically resembling native language of the speaker
US9910836B2 (en) * 2015-12-21 2018-03-06 Verisign, Inc. Construction of phonetic representation of a string of characters
US9947311B2 (en) 2015-12-21 2018-04-17 Verisign, Inc. Systems and methods for automatic phonetization of domain names
US10102189B2 (en) * 2015-12-21 2018-10-16 Verisign, Inc. Construction of a phonetic representation of a generated string of characters
CN107734416B (zh) * 2017-10-11 2024-01-09 深圳市三诺数字科技有限公司 一种激光面纹识别降噪装置、耳机及方法
WO2020013891A1 (en) * 2018-07-11 2020-01-16 Apple Inc. Techniques for providing audio and video effects
JP6582157B1 (ja) * 2018-10-29 2019-09-25 健一 海沼 音声処理装置、およびプログラム
CN109558853B (zh) * 2018-12-05 2021-05-25 维沃移动通信有限公司 一种音频合成方法及终端设备
US11289067B2 (en) * 2019-06-25 2022-03-29 International Business Machines Corporation Voice generation based on characteristics of an avatar
CN110459200A (zh) * 2019-07-05 2019-11-15 深圳壹账通智能科技有限公司 语音合成方法、装置、计算机设备及存储介质
JP7356005B2 (ja) * 2019-09-06 2023-10-04 日本電信電話株式会社 音声変換装置、音声変換学習装置、音声変換方法、音声変換学習方法及びコンピュータプログラム
US11373633B2 (en) * 2019-09-27 2022-06-28 Amazon Technologies, Inc. Text-to-speech processing using input voice characteristic data
CN110600000B (zh) * 2019-09-29 2022-04-15 阿波罗智联(北京)科技有限公司 语音播报方法、装置、电子设备及存储介质
JP7339151B2 (ja) 2019-12-23 2023-09-05 株式会社 ディー・エヌ・エー 音声合成装置、音声合成プログラム及び音声合成方法
US11341953B2 (en) * 2020-09-21 2022-05-24 Amazon Technologies, Inc. Synthetic speech processing
WO2023012527A1 (en) * 2021-08-04 2023-02-09 Q (Cue) Ltd. Detection of silent speech
US11908478B2 (en) 2021-08-04 2024-02-20 Q (Cue) Ltd. Determining speech from facial skin movements using a housing supported by ear or associated with an earphone

Family Cites Families (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE519244C2 (sv) * 1995-12-06 2003-02-04 Telia Ab Anordning och metod vid talsyntes
SE519679C2 (sv) * 1997-03-25 2003-03-25 Telia Ab Metod vid talsyntes
AU2998099A (en) 1998-03-11 1999-09-27 Entropic, Inc. Face synthesis system and methodology
US6735566B1 (en) * 1998-10-09 2004-05-11 Mitsubishi Electric Research Laboratories, Inc. Generating realistic facial animation from speech
JP2001337688A (ja) * 2000-05-26 2001-12-07 Canon Inc 音声合成装置及び音声合成方法並びに記憶媒体
JP3676969B2 (ja) * 2000-09-13 2005-07-27 株式会社エイ・ジー・アイ 感情検出方法及び感情検出装置ならびに記録媒体
JP2002156989A (ja) * 2000-11-22 2002-05-31 Minolta Co Ltd 音声合成方法および音声合成システム
JP2002366186A (ja) * 2001-06-11 2002-12-20 Hitachi Ltd 音声合成方法及びそれを実施する音声合成装置
GB0212147D0 (en) 2002-05-27 2002-07-03 King S College London Speech processing apparatus and method
JP2004125843A (ja) * 2002-09-30 2004-04-22 Sanyo Electric Co Ltd 音声合成方法
US7168953B1 (en) * 2003-01-27 2007-01-30 Massachusetts Institute Of Technology Trainable videorealistic speech animation
JP2005305007A (ja) * 2004-04-26 2005-11-04 Nintendo Co Ltd キャラクタ再生装置およびキャラクタ再生プログラム
JP4526934B2 (ja) * 2004-11-24 2010-08-18 日本電信電話株式会社 調音運動の正規化を用いた音声合成方法および装置
JP2008185805A (ja) * 2007-01-30 2008-08-14 Internatl Business Mach Corp <Ibm> 高品質の合成音声を生成する技術
WO2008149547A1 (ja) * 2007-06-06 2008-12-11 Panasonic Corporation 声質編集装置および声質編集方法
CN100544463C (zh) * 2007-06-29 2009-09-23 中兴通讯股份有限公司 一种提供语音合成应用统一开发平台的系统和方法
CN101359473A (zh) * 2007-07-30 2009-02-04 国际商业机器公司 自动进行语音转换的方法和装置
CN101471071A (zh) * 2007-12-26 2009-07-01 中国科学院自动化研究所 一种基于混合隐马尔可夫模型的语音合成系统
WO2009129315A1 (en) * 2008-04-15 2009-10-22 Mobile Technologies, Llc System and methods for maintaining speech-to-speech translation in the field
JP2010094799A (ja) * 2008-10-17 2010-04-30 Littleisland Inc 人型ロボット
KR101558553B1 (ko) * 2009-02-18 2015-10-08 삼성전자 주식회사 아바타 얼굴 표정 제어장치
JP5597956B2 (ja) * 2009-09-04 2014-10-01 株式会社ニコン 音声データ合成装置
US8884982B2 (en) * 2009-12-15 2014-11-11 Deutsche Telekom Ag Method and apparatus for identifying speakers and emphasizing selected objects in picture and video messages
CN101916566B (zh) * 2010-07-09 2012-07-04 西安交通大学 一种电子喉语音重建方法及其系统
US8949123B2 (en) * 2011-04-11 2015-02-03 Samsung Electronics Co., Ltd. Display apparatus and voice conversion method thereof
EP2705515A4 (en) * 2011-05-06 2015-04-29 Seyyer Inc GENERATING VIDEO BASED ON TEXT
GB2501062B (en) * 2012-03-14 2014-08-13 Toshiba Res Europ Ltd A text to speech method and system
CN102820030B (zh) * 2012-07-27 2014-03-26 中国科学院自动化研究所 发音器官可视语音合成系统
US9767789B2 (en) * 2012-08-29 2017-09-19 Nuance Communications, Inc. Using emoticons for contextual text-to-speech expressivity
JP5958303B2 (ja) * 2012-11-27 2016-07-27 株式会社デンソー テキスト読み上げ装置
US8891817B2 (en) * 2013-03-15 2014-11-18 Orcam Technologies Ltd. Systems and methods for audibly presenting textual information included in image data
US20140278418A1 (en) 2013-03-15 2014-09-18 Broadcom Corporation Speaker-identification-assisted downlink speech processing systems and methods
EP2933067B1 (en) * 2014-04-17 2019-09-18 Softbank Robotics Europe Method of performing multi-modal dialogue between a humanoid robot and user, computer program product and humanoid robot for implementing said method
US9607609B2 (en) * 2014-09-25 2017-03-28 Intel Corporation Method and apparatus to synthesize voice based on facial structures
US10540975B2 (en) * 2016-03-25 2020-01-21 Intel Corporation Technologies for automatic speech recognition using articulatory parameters

Also Published As

Publication number Publication date
US20180322862A1 (en) 2018-11-08
US10621968B2 (en) 2020-04-14
EP3198589A4 (en) 2018-08-22
WO2016048579A1 (en) 2016-03-31
CN106575500A (zh) 2017-04-19
EP3198589A1 (en) 2017-08-02
US9607609B2 (en) 2017-03-28
KR102361389B1 (ko) 2022-02-10
US10056073B2 (en) 2018-08-21
US20160093284A1 (en) 2016-03-31
JP2017530393A (ja) 2017-10-12
CN106575500B (zh) 2021-06-01
US20170287464A1 (en) 2017-10-05
KR20170034409A (ko) 2017-03-28
EP3198589B1 (en) 2020-02-05

Similar Documents

Publication Publication Date Title
JP6336676B2 (ja) 顔構造に基づいて声を合成する方法および装置
JP7106680B2 (ja) ニューラルネットワークを使用したターゲット話者の声でのテキストからの音声合成
US20200294488A1 (en) Method, device and storage medium for speech recognition
CN111583944A (zh) 变声方法及装置
CN111508511A (zh) 实时变声方法及装置
EP3866160A1 (en) Electronic device and control method thereof
CN111145777A (zh) 一种虚拟形象展示方法、装置、电子设备及存储介质
JP2019208138A (ja) 発話認識装置、及びコンピュータプログラム
KR20210054800A (ko) 사용자의 음성샘플 수집
CN114121006A (zh) 虚拟角色的形象输出方法、装置、设备以及存储介质
US20230298564A1 (en) Speech synthesis method and apparatus, device, and storage medium
WO2024088321A1 (zh) 虚拟形象面部驱动方法、装置、电子设备及介质
CN104200807B (zh) 一种erp语音控制方法
CN115148185A (zh) 语音合成方法及装置、电子设备及存储介质
KR20140126485A (ko) 감정 반응형 모바일 개인 비서 서비스 방법
JP5949634B2 (ja) 音声合成システム、及び音声合成方法
KR20220034396A (ko) 얼굴 영상 생성 장치, 방법 및 컴퓨터 프로그램
KR102622350B1 (ko) 전자 장치 및 그 제어 방법
CN109102810B (zh) 声纹识别方法和装置
CN111445925A (zh) 用于生成差异信息的方法和装置
CN113903325B (zh) 文本转3d音频的方法及装置
JP5954221B2 (ja) 音源特定システム、及び音源特定方法
CN109815806B (en) Face recognition method and device, computer equipment and computer storage medium
US10304445B2 (en) Wearable device for speech training
JP6470586B2 (ja) 音声加工装置、及びプログラム

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180403

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180502

R150 Certificate of patent or registration of utility model

Ref document number: 6336676

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250