JP6336676B2 - 顔構造に基づいて声を合成する方法および装置 - Google Patents
顔構造に基づいて声を合成する方法および装置 Download PDFInfo
- Publication number
- JP6336676B2 JP6336676B2 JP2017510490A JP2017510490A JP6336676B2 JP 6336676 B2 JP6336676 B2 JP 6336676B2 JP 2017510490 A JP2017510490 A JP 2017510490A JP 2017510490 A JP2017510490 A JP 2017510490A JP 6336676 B2 JP6336676 B2 JP 6336676B2
- Authority
- JP
- Japan
- Prior art keywords
- articulatory
- synthesis model
- utterance
- model
- predefined
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 80
- 230000001815 facial effect Effects 0.000 title claims description 62
- 230000002194 synthesizing effect Effects 0.000 title claims description 10
- 230000015572 biosynthetic process Effects 0.000 claims description 139
- 238000003786 synthesis reaction Methods 0.000 claims description 139
- 238000006243 chemical reaction Methods 0.000 claims description 15
- 230000000007 visual effect Effects 0.000 claims description 15
- 230000001755 vocal effect Effects 0.000 claims description 10
- 238000003384 imaging method Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 3
- 230000000875 corresponding effect Effects 0.000 description 14
- 238000000605 extraction Methods 0.000 description 6
- 210000001847 jaw Anatomy 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 101150005467 lifO gene Proteins 0.000 description 3
- 101150015539 nlhH gene Proteins 0.000 description 3
- 210000001584 soft palate Anatomy 0.000 description 3
- TVYLLZQTGLZFBW-ZBFHGGJFSA-N (R,R)-tramadol Chemical compound COC1=CC=CC([C@]2(O)[C@H](CCCC2)CN(C)C)=C1 TVYLLZQTGLZFBW-ZBFHGGJFSA-N 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000008921 facial expression Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 239000012530 fluid Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000000465 moulding Methods 0.000 description 1
- 210000003205 muscle Anatomy 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000002630 speech therapy Methods 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/027—Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
- G06V40/176—Dynamic expression
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Processing (AREA)
- Processing Or Creating Images (AREA)
- User Interface Of Digital Computer (AREA)
Description
TTS特性を改善するための学術界および産業界の両方における試みは、たとえば、調音発話合成モデル(articulatory speech synthesis model)を使った発話合成システムを含んできた。これは、人間の声道およびその中で起こる調音プロセスのモデルに基づいて発話を合成するための計算器技法である。しかしながら、そのようなこれまでのシステムが使う調音パラメータ値は、必ずしも、発話合成を使って生成されるエミュレートされた声としてユーザーが聞くことを望む特定の人のものにマッチしない。さらに、これらの初期の試みは、個人の顔の画像から導出される外部から可視調音パラメータに基づいて所与の個人の発話を合成するものではなかった。このため、これらの調音発話合成モデルから生成される音は、特定の人自身の声から生成された発話のようには聞こえない。
図1はTTSシステム100のある実施形態を示している。TTSシステム100は、概括的には非特許文献3に記載される枠組みに基づいている。たとえば、AT&Tは上記の非特許文献3の第2章第2.1節に記述され、図2.1に描かれているTTSシステムを実装した。
図3は、アマンダ312、ボブ320、ソフィア324およびキャサリン330についてのあらかじめ定義された諸調音モデルおよび顔画像に関連付けられた、諸レコードの例示的なテーブル310によって表現される、ベースライン・データベース300を示している。各人物のレコードは、格納されている顔画像と、外から可視であるおよび不可視である(すなわち人の口または声道の中にあって外からの観察から隠されている)パラメータに従って分割されたあらかじめ定義された調音モデルを含む。たとえば、ソフィアのレコード324は彼女の写真(Imagey);可視調音パラメータ(visible articulatory parameter)値(VAPy<jawy,lipPy,lipHy,…>);および不可視調音パラメータ(invisible articulatory parameter)値(IPAy<tongueHy,tongueWy,velumy,…>)を含む。VAP値は、ソフィアの顔の写真(Imagey)から観察されうる顔構造を定量化する彼女の顎および唇の顔特性<jawy,lipPy,lipHy,…>であり、「jaw」は顎角度、「lipP」は唇突出、「lipH」は唇高さを表わす。IPA値は写真からは観察できない声道構造を定量化するソフィアの舌および軟口蓋特性<tongueHy,tongueWy,velumy,…>であり、「tongueH」は舌の高さ、「tongueW」は舌の幅、「velum」は軟口蓋の長さを意味する。いくつかの実施形態では、他のVAPおよびIAP特性が可能であり、顔画像およびパラメータはいくつかのデータベースにまたがって分散されることができる。ベースライン・データベース300はユーザー設備装置(図7)においてまたはリモート・サーバー上で記憶されることができる。
図5は、アマンダ512、ボブ520、ソフィア524およびキャサリン530についてのあらかじめ定義された諸調音モデルに関連付けられた諸レコードの例示的なテーブル510によって表現される、ベースライン・データベース500を示している。データベース500ではベースライン被写体のデータベース画像は記憶されていないことを注意しておく。
図7は、モバイル・ユーザー設備装置、たとえばモバイル・ステーション、モバイル無線装置、モバイル通信装置、タブレット、ハンドセットまたは他の型のモバイル無線装置の例示的な図解を与えている。モバイル装置は、伝送ステーション、たとえば基地局、進化型ノードB、ベースバンド・ユニット、リモート・ラジオ・ヘッド、リモート・ラジオ設備、中継局、電波設備または他の型の無線広域ネットワーク(WWAN)アクセス・ポイントと通信するよう構成された一つまたは複数のアンテナを含むことができる。モバイル装置は、3GPP LTE、WiMAX、高速パケット・アクセス、ブルートゥース(登録商標)およびWiFiを含む少なくとも一つの無線通信規格を使って通信するよう構成されることができる。モバイル装置は各無線通信規格のための別個のアンテナまたは複数の無線通信規格のための共有アンテナを使って通信できる。モバイル装置は無線ローカル・エリア・ネットワーク、無線パーソナル・エリア・ネットワークおよび/またはWWANにおいて通信できる。
いくつかの実施形態では、顔‐声変換システム208、408、608の任意の部分がユーザー設備またはリモート・サーバーにホストされうる。たとえば、パラメータ抽出610はユーザー設備装置上またはサーバー上で行なわれてもよい。データベース300または500のクラウド記憶はプライバシーおよびセキュリティー両面での懸念をもたらす。該データベースを目標システムに記憶することは該システムにおけるスペースおよびローカルな処理パワーの両方を使うことになる。
例は、方法、方法の工程を実行する手段、機械によって実行されたときに該機械に方法の、あるいは本稿に記載される実施形態および例に基づく調音ベースのテキスト‐発話変換のための装置もしくはシステムの工程を実行させる命令を含む少なくとも一つの機械可読媒体といった主題を含んでいてもよい。
〔実施例1〕
人物の声の調音発話合成モデルを確立するための調音ベースのテキスト‐発話変換システムにおいて使うための装置であって: 人物の顔立ちを表わす画像データを取得する顔構造入力装置であって、前記顔立ちは前記人物の声の外から可視の調音発話合成モデル・パラメータを定義する顔特性を含む、顔構造入力装置と; あらかじめ定義されたモデルの記憶のうちからあらかじめ定義された調音発話合成モデルを選択するための顔特性マッチング・システムであって、前記選択は少なくとも部分的には前記顔特性または前記外から可視の調音発話合成モデル・パラメータの一方または両方に基づく、顔特性マッチング・システムと; 前記選択されたあらかじめ定義された調音発話合成モデルの少なくとも一部を前記人物の声の調音発話合成モデルと関連付ける調音システムとを有する、装置。
〔実施例2〕
前記選択は、前記人物の顔立ちの前記顔特性と前記あらかじめ定義されたモデルの可視の調音発話合成モデル・パラメータを定義する顔特性との間の顔マッチング相関の指標に基づく、実施例1記載の装置。
〔実施例3〕
前記顔マッチング相関の指標が隠れマルコフ・モデルを使って導出される、実施例2記載の装置。
〔実施例4〕
前記顔構造入力装置が、ユーザー設備装置において撮像装置を用いて画像を捕捉することによって前記画像データを取得するよう構成されている、実施例1記載の装置。
〔実施例5〕
前記顔特性マッチング・システムは、前記顔特性または前記外から可視の調音発話合成モデル・パラメータの前記一方または両方を前記あらかじめ定義されたモデルのものと比較することによって選択を行なうよう構成されている、実施例1ないし4のうちいずれか一項記載の装置。
〔実施例6〕
前記顔特性マッチング・システムは、前記顔特性または前記外から可視の調音発話合成モデル・パラメータの前記一方または両方を前記あらかじめ定義されたモデルのものと比較することを開始するために、前記画像データをユーザー設備装置からサーバーに通信することによって、選択を行なうよう構成されている、実施例1ないし4のうちいずれか一項記載の装置。
〔実施例7〕
前記調音システムは、前記選択されたあらかじめ定義された調音発話合成モデルの前記少なくとも一部を関連付けることを、前記選択されたあらかじめ定義された調音発話合成モデルのモデル・パラメータを使って発話を合成することによって行なうよう構成されている、実施例1ないし4のうちいずれか一項記載の装置。
〔実施例8〕
人物の声の調音発話合成モデルを確立するよう構成された調音ベースのテキスト‐発話変換システムにおいて使うための装置であって: 人物の顔立ちを表わす画像データを取得する手段であって、前記顔立ちは前記人物の声の外から可視の調音発話合成モデル・パラメータを定義する顔特性を含む、手段と; あらかじめ定義されたモデルの記憶のうちからあらかじめ定義された調音発話合成モデルを選択する手段であって、前記選択は少なくとも部分的には前記顔特性または前記外から可視の調音発話合成モデル・パラメータの一方または両方に基づく、手段と; 前記選択されたあらかじめ定義された調音発話合成モデルの少なくとも一部を前記人物の声の調音発話合成モデルと関連付ける手段とを有する、装置。
〔実施例9〕
前記選択は、前記人物の顔立ちの前記顔特性と前記あらかじめ定義されたモデルの可視の調音発話合成モデル・パラメータを定義する顔特性との間の顔マッチング相関の指標に基づく、実施例8記載の装置。
〔実施例10〕
前記顔マッチング相関の指標が隠れマルコフ・モデルを使って導出される、実施例9記載の装置。
〔実施例11〕
前記選択する手段が、前記顔特性または前記外から可視の調音発話合成モデル・パラメータの前記一方または両方を前記あらかじめ定義されたモデルのものと比較する手段を有する、実施例8記載の装置。
〔実施例12〕
前記取得する手段が、ユーザー設備装置において撮像装置を用いて画像を捕捉する手段を有する、実施例8ないし11のうちいずれか一項記載の装置。
〔実施例13〕
前記選択する手段が、前記画像データをユーザー設備装置からサーバーに通信し、それにより前記顔特性または前記外から可視の調音発話合成モデル・パラメータの前記一方または両方を前記あらかじめ定義されたモデルのものと比較することを開始する手段を有する、実施例8記載の装置。
〔実施例14〕
前記関連付ける手段は、前記選択されたあらかじめ定義された調音発話合成モデルの前記少なくとも一部を関連付けることを、前記選択されたあらかじめ定義された調音発話合成モデルのモデル・パラメータを使って発話を合成することによって行なう手段を有する、実施例8記載の装置。
〔実施例15〕
前記あらかじめ定義されたモデルのそれぞれが、対応するモデル化された声の顔特性によって定義される外から可視の調音発話合成モデル・パラメータを含み、前記あらかじめ定義されたモデルのそれぞれが、前記対応するモデル化された声の、内部の声道特性によって定義される、内部に隠された調音発話合成モデル・パラメータを含む、実施例8記載の装置。
〔実施例16〕
前記選択されたあらかじめ定義された調音発話合成モデルの前記少なくとも一部を関連付ける手段が、前記人物の声の外から可視の調音発話合成モデル・パラメータに基づき、かつ、前記選択されたあらかじめ定義された調音発話合成モデルの前記内部に隠された調音発話合成モデル・パラメータに基づいて発話を合成することを含む、実施例15記載の装置。
〔実施例17〕
前記選択は、前記人物の声の前記外から可視の調音発話合成モデル・パラメータと前記選択されたあらかじめ定義された調音発話合成モデルの前記外から可視の調音発話合成モデル・パラメータとの間の相関の指標に基づく、実施例15記載の装置。
〔実施例18〕
前記選択されたあらかじめ定義された調音発話合成モデルの前記少なくとも一部を関連付ける手段が、前記人物の声の外から可視の調音発話合成モデル・パラメータとの関連で使うために、前記選択されたあらかじめ定義された調音発話合成モデルの前記内部に隠された調音発話合成モデル・パラメータをユーザー設備装置に通信する手段を有する、実施例15記載の装置。
〔実施例19〕
前記画像データを取得する手段が、ユーザー設備装置からネットワークを通じて通信される画像ファイルを受信する手段を有する、実施例8ないし11のうちいずれか一項記載の装置。
〔実施例20〕
前記選択されたあらかじめ定義された調音発話合成モデルの前記少なくとも一部を関連付ける手段が、前記選択されたあらかじめ定義された調音発話合成モデルの、内部に隠された調音発話合成モデル・パラメータを、ユーザー設備装置に通信する手段を有する、実施例8記載の装置。
〔実施例21〕
前記人物の声の前記外から可視の調音発話合成モデル・パラメータを、前記内部に隠された調音発話合成モデル・パラメータと組み合わせる手段をさらに有する、実施例20記載の装置。
〔実施例22〕
前記あらかじめ定義されたモデルの記憶がデータベースを含み、当該装置がさらに: あらかじめ定義されたモデルの提出を受領する手段であって、前記提出は既知のテキスト入力の声サンプル記録を含む、手段と; 前記あらかじめ定義されたモデルを使って生成された合成発話出力が前記声サンプル記録にマッチするかどうかを判定する手段とをさらに有する、実施例8記載の装置。
〔実施例23〕
前記あらかじめ定義されたモデルの記憶がデータベースを含み、当該装置がさらに、前記合成発話出力の前記声サンプル記録とのマッチが不十分であることに応答して前記提出を拒否する手段を有する、実施例22記載の装置。
〔実施例24〕
発話‐テキスト変換のための方法であって:人物の外部顔構造情報を調音モデル・サーバーに送り;前記外部顔構造情報に対応するあらかじめ定義された調音モデルの少なくとも一部を前記調音モデル・サーバーから受領し;前記あらかじめ定義された調音モデルに少なくとも部分的に基づいてテキスト入力を発話出力に変換することを含む、方法。
〔実施例25〕
前記外部顔構造情報が、前記人物の顔の写真または前記写真から抽出された調音パラメータの一方または両方を含む、実施例24記載の方法。
〔実施例26〕
前記あらかじめ定義された調音モデルの前記一部が、前記写真に示されている人物とは異なるモデル化された人物に対応する不可視調音パラメータを含む、実施例25記載の方法。
〔実施例27〕
前記あらかじめ定義された調音モデルの前記一部が、前記写真に示されている人物とは異なるモデル化された人物に対応する可視調音パラメータを含む、実施例25記載の方法。
〔実施例28〕
前記外部顔構造情報が、前記人物の顔の写真を含み、前記送ることが、前記調音モデル・サーバーに、前記写真から前記調音パラメータを抽出させる、実施例25記載の方法。
〔実施例29〕
前記送ることが、前記調音モデル・サーバーに、前記人物の写真を、前記あらかじめ定義された調音モデルによって表わされている人物の記憶されている写真と照合させる、実施例25記載の方法。
〔実施例30〕
前記送ることが、前記調音モデル・サーバーに、前記写真から抽出された調音パラメータを、前記あらかじめ定義された調音モデルの調音パラメータと照合させる、実施例25記載の方法。
〔実施例31〕
発話‐テキスト変換のための方法であって:人物の外部顔構造情報をユーザー設備装置から受領し;前記外部顔構造情報を諸調音モデルのデータベースに記憶されている外部顔構造情報と比較することに基づいて、前記外部顔構造情報に対応する調音モデルの少なくとも一部を決定し;前記人物の前記外部顔構造情報に対応する前記調音モデルの前記少なくとも一部を前記ユーザー設備装置に送ることを含む、方法。
〔実施例32〕
前記外部顔構造情報が、前記人物の顔の写真または前記写真から抽出された調音パラメータの一方または両方を含む、実施例31記載の方法。
〔実施例33〕
前記あらかじめ定義された調音モデルの前記一部が、前記写真に示されている人物とは異なるモデル化された人物に対応する不可視調音パラメータを含む、実施例32記載の方法。
〔実施例34〕
前記あらかじめ定義された調音モデルの前記一部が、前記写真に示されている人物とは異なるモデル化された人物に対応する可視調音パラメータを含む、実施例32記載の方法。
〔実施例35〕
前記外部顔構造情報が、前記人物の顔の写真を含み、前記受領することが、調音モデル・サーバーに、前記写真から前記調音パラメータを抽出させる、実施例32記載の方法。
〔実施例36〕
前記受領することが、調音モデル・サーバーに、前記人物の写真を、前記あらかじめ定義された調音モデルによって表わされている人物の記憶されている写真と照合させる、実施例32記載の方法。
〔実施例37〕
前記受領することが、調音モデル・サーバーに、前記写真から抽出された調音パラメータを、前記あらかじめ定義された調音モデルの調音パラメータと照合させる、実施例32記載の方法。
〔実施例38〕
人物の声の調音発話合成モデルを確立する方法であって: 人物の顔立ちを表わす画像データを取得する段階であって、前記顔立ちは前記人物の声の外から可視の調音発話合成モデル・パラメータを定義する顔特性を含む、段階と; あらかじめ定義されたモデルの記憶のうちからあらかじめ定義された調音発話合成モデルを選択する段階であって、前記選択は少なくとも部分的には前記顔特性または前記外から可視の調音発話合成モデル・パラメータの一方または両方に基づく、段階と; 前記選択されたあらかじめ定義された調音発話合成モデルの少なくとも一部を前記人物の声の調音発話合成モデルと関連付ける段階とを含む、方法。
〔実施例39〕
前記選択は、前記人物の顔立ちの前記顔特性と前記あらかじめ定義されたモデルの可視の調音発話合成モデル・パラメータを定義する顔特性との間の顔マッチング相関の指標に基づく、実施例38記載の方法。
〔実施例40〕
前記顔マッチング相関の指標が隠れマルコフ・モデルを使って導出される、実施例39記載の方法。
〔実施例41〕
前記取得する段階が、ユーザー設備装置において撮像装置を用いて画像を捕捉することを含む、実施例38記載の方法。
〔実施例42〕
前記選択する段階が、前記顔特性または前記外から可視の調音発話合成モデル・パラメータの前記一方または両方を前記あらかじめ定義されたモデルのものと比較することを含む、実施例38記載の方法。
〔実施例43〕
前記選択する段階が、前記顔特性または前記外から可視の調音発話合成モデル・パラメータの前記一方または両方を前記あらかじめ定義されたモデルのものと比較することを開始するために、前記画像データをユーザー設備装置からサーバーに通信することを含む、実施例38記載の方法。
〔実施例44〕
前記選択されたあらかじめ定義された調音発話合成モデルの前記少なくとも一部を関連付ける段階が、前記選択されたあらかじめ定義された調音発話合成モデルのモデル・パラメータを使って発話を合成することを含む、実施例38記載の方法。
〔実施例45〕
前記あらかじめ定義されたモデルのそれぞれが、対応するモデル化された声の顔特性によって定義される外から可視の調音発話合成モデル・パラメータと、前記対応するモデル化された声の内部の声道特性によって定義される内部に隠された調音発話合成モデル・パラメータとを含む、実施例38記載の方法。
〔実施例46〕
前記選択されたあらかじめ定義された調音発話合成モデルの前記少なくとも一部を関連付ける段階が、前記人物の声の外から可視の調音発話合成モデル・パラメータに基づき、かつ、前記選択されたあらかじめ定義された調音発話合成モデルの前記内部に隠された調音発話合成モデル・パラメータに基づいて発話を合成することを含む、実施例45記載の方法。
〔実施例47〕
前記選択は、前記人物の声の前記外から可視の調音発話合成モデル・パラメータと前記選択されたあらかじめ定義された調音発話合成モデルの前記外から可視の調音発話合成モデル・パラメータとの間の相関の指標に基づく、実施例45記載の方法。
〔実施例48〕
前記選択されたあらかじめ定義された調音発話合成モデルの前記少なくとも一部を関連付ける段階が、前記人物の声の外から可視の調音発話合成モデル・パラメータとの関連で使うために、前記選択されたあらかじめ定義された調音発話合成モデルの前記内部に隠された調音発話合成モデル・パラメータをユーザー設備装置に通信することを含む、実施例45記載の方法。
〔実施例49〕
前記画像データを取得する段階が、ユーザー設備装置からネットワークを通じて通信される画像ファイルを受信することを含む、実施例38記載の方法。
〔実施例50〕
前記選択する段階が、前記顔特性または前記外から可視の調音発話合成モデル・パラメータの前記一方または両方を前記あらかじめ定義されたモデルのものと比較することを含む、実施例49記載の方法。
〔実施例51〕
前記選択されたあらかじめ定義された調音発話合成モデルの前記少なくとも一部を関連付ける段階が、前記選択されたあらかじめ定義された調音発話合成モデルの、内部に隠された調音発話合成モデル・パラメータを、ユーザー設備装置に通信することを含む、実施例38記載の方法。
〔実施例52〕
前記人物の声の前記外から可視の調音発話合成モデル・パラメータを、前記内部に隠された調音発話合成モデル・パラメータと組み合わせることをさらに含む、実施例51記載の方法。
〔実施例53〕
前記あらかじめ定義されたモデルの記憶がデータベースを含み、当該方法がさらに: あらかじめ定義されたモデルの提出を受領する段階であって、前記提出は既知のテキスト入力の声サンプル記録を含む、段階と; 前記あらかじめ定義されたモデルを使って生成された合成発話出力が前記声サンプル記録にマッチするかどうかを判定する段階とをさらに含む、実施例48記載の方法。
〔実施例54〕
前記あらかじめ定義されたモデルの記憶がデータベースを含み、当該方法がさらに、前記合成発話出力が前記声サンプル記録と十分にマッチしないことに応答して前記提出を拒否することを含む、実施例53記載の方法。
〔実施例55〕
装置で実行されたときに実施例24ないし54のうちいずれか一項記載の方法を実行する命令を記憶している少なくとも一つのコンピュータ可読記憶媒体。
Claims (26)
- 人物の声の調音発話合成モデルを確立するための調音ベースのテキスト‐発話変換システムにおいて使うための装置であって:
人物の顔立ちを表わす画像データを取得する顔構造入力装置であって、前記顔立ちは前記人物の声の外から可視の調音発話合成モデル・パラメータを定義する顔特性を含む、顔構造入力装置と;
あらかじめ定義されたモデルの記憶のうちからあらかじめ定義された調音発話合成モデルを選択するための顔特性マッチング・システムであって、前記選択は少なくとも部分的には前記顔特性または前記外から可視の調音発話合成モデル・パラメータの一方または両方に基づく、顔特性マッチング・システムと;
前記選択されたあらかじめ定義された調音発話合成モデルの少なくとも一部を前記人物の声の調音発話合成モデルと関連付ける調音システムとを有する、
装置。 - 前記選択は、前記人物の顔立ちの前記顔特性と前記あらかじめ定義されたモデルの可視の調音発話合成モデル・パラメータを定義する顔特性との間の顔マッチング相関の指標に基づく、請求項1記載の装置。
- 前記顔マッチング相関の指標が隠れマルコフ・モデルを使って導出される、請求項2記載の装置。
- 前記顔構造入力装置が、ユーザー設備装置において撮像装置を用いて画像を捕捉することによって前記画像データを取得するよう構成されている、請求項1記載の装置。
- 前記顔特性マッチング・システムは、前記顔特性または前記外から可視の調音発話合成モデル・パラメータの前記一方または両方を前記あらかじめ定義されたモデルのものと比較することによって選択を行なうよう構成されている、請求項1ないし4のうちいずれか一項記載の装置。
- 前記顔特性マッチング・システムは、前記顔特性または前記外から可視の調音発話合成モデル・パラメータの前記一方または両方を前記あらかじめ定義されたモデルのものと比較することを開始するために、前記画像データをユーザー設備装置からサーバーに通信することによって、選択を行なうよう構成されている、請求項1ないし4のうちいずれか一項記載の装置。
- 前記調音システムは、前記選択されたあらかじめ定義された調音発話合成モデルの前記少なくとも一部を関連付けることを、前記選択されたあらかじめ定義された調音発話合成モデルのモデル・パラメータを使って発話を合成することによって行なうよう構成されている、請求項1ないし4のうちいずれか一項記載の装置。
- 人物の声の調音発話合成モデルを確立する方法であって:
人物の顔立ちを表わす画像データを取得する段階であって、前記顔立ちは前記人物の声の外から可視の調音発話合成モデル・パラメータを定義する顔特性を含む、段階と;
あらかじめ定義されたモデルの記憶のうちからあらかじめ定義された調音発話合成モデルを選択する段階であって、前記選択は少なくとも部分的には前記顔特性または前記外から可視の調音発話合成モデル・パラメータの一方または両方に基づく、段階と;
前記選択されたあらかじめ定義された調音発話合成モデルの少なくとも一部を前記人物の声の調音発話合成モデルと関連付ける段階とを含む、
方法。 - 前記選択は、前記人物の顔立ちの前記顔特性と前記あらかじめ定義されたモデルの可視の調音発話合成モデル・パラメータを定義する顔特性との間の顔マッチング相関の指標に基づく、請求項8記載の方法。
- 前記顔マッチング相関の指標が隠れマルコフ・モデルを使って導出される、請求項9記載の方法。
- 前記取得する段階が、ユーザー設備装置において撮像装置を用いて画像を捕捉することを含む、請求項8記載の方法。
- 前記選択する段階が、前記顔特性または前記外から可視の調音発話合成モデル・パラメータの前記一方または両方を前記あらかじめ定義されたモデルのものと比較することを含む、請求項8記載の方法。
- 前記選択する段階が、前記顔特性または前記外から可視の調音発話合成モデル・パラメータの前記一方または両方を前記あらかじめ定義されたモデルのものと比較することを開始するために、前記画像データをユーザー設備装置からサーバーに通信することを含む、請求項8記載の方法。
- 前記選択されたあらかじめ定義された調音発話合成モデルの前記少なくとも一部を関連付ける段階が、前記選択されたあらかじめ定義された調音発話合成モデルのモデル・パラメータを使って発話を合成することを含む、請求項8記載の方法。
- 前記あらかじめ定義されたモデルのそれぞれが、対応するモデル化された声の顔特性によって定義される外から可視の調音発話合成モデル・パラメータと、前記対応するモデル化された声の内部の声道特性によって定義される内部に隠された調音発話合成モデル・パラメータとを含む、請求項8記載の方法。
- 前記選択されたあらかじめ定義された調音発話合成モデルの前記少なくとも一部を関連付ける段階が、前記人物の声の外から可視の調音発話合成モデル・パラメータに基づき、かつ、前記選択されたあらかじめ定義された調音発話合成モデルの前記内部に隠された調音発話合成モデル・パラメータに基づいて発話を合成することを含む、請求項15記載の方法。
- 前記選択は、前記人物の声の前記外から可視の調音発話合成モデル・パラメータと前記選択されたあらかじめ定義された調音発話合成モデルの前記外から可視の調音発話合成モデル・パラメータとの間の相関の指標に基づく、請求項15記載の方法。
- 前記選択されたあらかじめ定義された調音発話合成モデルの前記少なくとも一部を関連付ける段階が、前記人物の声の外から可視の調音発話合成モデル・パラメータとの関連で使うために、前記選択されたあらかじめ定義された調音発話合成モデルの前記内部に隠された調音発話合成モデル・パラメータをユーザー設備装置に通信することを含む、請求項15記載の方法。
- 前記画像データを取得する段階が、ユーザー設備装置からネットワークを通じて通信される画像ファイルを受信することを含む、請求項8記載の方法。
- 前記選択する段階が、前記顔特性または前記外から可視の調音発話合成モデル・パラメータの前記一方または両方を前記あらかじめ定義されたモデルのものと比較することを含む、請求項19記載の方法。
- 前記選択されたあらかじめ定義された調音発話合成モデルの前記少なくとも一部を関連付ける段階が、前記選択されたあらかじめ定義された調音発話合成モデルの、内部に隠された調音発話合成モデル・パラメータを、ユーザー設備装置に通信することを含む、請求項8記載の方法。
- 前記人物の声の前記外から可視の調音発話合成モデル・パラメータを、前記内部に隠された調音発話合成モデル・パラメータと組み合わせることをさらに含む、請求項21記載の方法。
- 前記あらかじめ定義されたモデルの記憶がデータベースを含み、当該方法がさらに:
あらかじめ定義されたモデルの提出を受領する段階であって、前記提出は既知のテキスト入力の声サンプル記録を含む、段階と;
前記あらかじめ定義されたモデルを使って生成された合成発話出力が前記声サンプル記録にマッチするかどうかを判定する段階とをさらに含む、
請求項18記載の方法。 - 前記あらかじめ定義されたモデルの記憶がデータベースを含み、当該方法がさらに、前記合成発話出力の前記声サンプル記録とのマッチが不十分であることに応答して前記提出を拒否することを含む、請求項23記載の方法。
- 請求項8ないし24のうちいずれか一項記載の方法を装置に実行させるためのコンピュータ・プログラム。
- 請求項25記載のコンピュータ・プログラムを記憶している少なくとも一つのコンピュータ可読記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/496,832 US9607609B2 (en) | 2014-09-25 | 2014-09-25 | Method and apparatus to synthesize voice based on facial structures |
US14/496,832 | 2014-09-25 | ||
PCT/US2015/047465 WO2016048579A1 (en) | 2014-09-25 | 2015-08-28 | Method and apparatus to synthesize voice based on facial structures |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017530393A JP2017530393A (ja) | 2017-10-12 |
JP6336676B2 true JP6336676B2 (ja) | 2018-06-06 |
Family
ID=55581779
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017510490A Active JP6336676B2 (ja) | 2014-09-25 | 2015-08-28 | 顔構造に基づいて声を合成する方法および装置 |
Country Status (6)
Country | Link |
---|---|
US (3) | US9607609B2 (ja) |
EP (1) | EP3198589B1 (ja) |
JP (1) | JP6336676B2 (ja) |
KR (1) | KR102361389B1 (ja) |
CN (1) | CN106575500B (ja) |
WO (1) | WO2016048579A1 (ja) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9607609B2 (en) * | 2014-09-25 | 2017-03-28 | Intel Corporation | Method and apparatus to synthesize voice based on facial structures |
US10102203B2 (en) * | 2015-12-21 | 2018-10-16 | Verisign, Inc. | Method for writing a foreign language in a pseudo language phonetically resembling native language of the speaker |
US9910836B2 (en) * | 2015-12-21 | 2018-03-06 | Verisign, Inc. | Construction of phonetic representation of a string of characters |
US10102189B2 (en) * | 2015-12-21 | 2018-10-16 | Verisign, Inc. | Construction of a phonetic representation of a generated string of characters |
US9947311B2 (en) | 2015-12-21 | 2018-04-17 | Verisign, Inc. | Systems and methods for automatic phonetization of domain names |
CN107734416B (zh) * | 2017-10-11 | 2024-01-09 | 深圳市三诺数字科技有限公司 | 一种激光面纹识别降噪装置、耳机及方法 |
WO2019168834A1 (en) * | 2018-02-28 | 2019-09-06 | Apple Inc. | Voice effects based on facial expressions |
US10964308B2 (en) * | 2018-10-29 | 2021-03-30 | Ken-ichi KAINUMA | Speech processing apparatus, and program |
CN109558853B (zh) * | 2018-12-05 | 2021-05-25 | 维沃移动通信有限公司 | 一种音频合成方法及终端设备 |
US11289067B2 (en) * | 2019-06-25 | 2022-03-29 | International Business Machines Corporation | Voice generation based on characteristics of an avatar |
CN110459200A (zh) * | 2019-07-05 | 2019-11-15 | 深圳壹账通智能科技有限公司 | 语音合成方法、装置、计算机设备及存储介质 |
JP7356005B2 (ja) * | 2019-09-06 | 2023-10-04 | 日本電信電話株式会社 | 音声変換装置、音声変換学習装置、音声変換方法、音声変換学習方法及びコンピュータプログラム |
US11373633B2 (en) * | 2019-09-27 | 2022-06-28 | Amazon Technologies, Inc. | Text-to-speech processing using input voice characteristic data |
CN110600000B (zh) * | 2019-09-29 | 2022-04-15 | 阿波罗智联(北京)科技有限公司 | 语音播报方法、装置、电子设备及存储介质 |
JP7339151B2 (ja) * | 2019-12-23 | 2023-09-05 | 株式会社 ディー・エヌ・エー | 音声合成装置、音声合成プログラム及び音声合成方法 |
US11341953B2 (en) * | 2020-09-21 | 2022-05-24 | Amazon Technologies, Inc. | Synthetic speech processing |
CA3228015A1 (en) * | 2021-08-04 | 2023-02-09 | Q (Cue) Ltd. | Detection of silent speech |
US11908478B2 (en) | 2021-08-04 | 2024-02-20 | Q (Cue) Ltd. | Determining speech from facial skin movements using a housing supported by ear or associated with an earphone |
Family Cites Families (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
SE519244C2 (sv) * | 1995-12-06 | 2003-02-04 | Telia Ab | Anordning och metod vid talsyntes |
SE519679C2 (sv) * | 1997-03-25 | 2003-03-25 | Telia Ab | Metod vid talsyntes |
WO1999046734A1 (en) | 1998-03-11 | 1999-09-16 | Entropic, Inc. | Face synthesis system and methodology |
US6735566B1 (en) * | 1998-10-09 | 2004-05-11 | Mitsubishi Electric Research Laboratories, Inc. | Generating realistic facial animation from speech |
JP2001337688A (ja) * | 2000-05-26 | 2001-12-07 | Canon Inc | 音声合成装置及び音声合成方法並びに記憶媒体 |
JP3676969B2 (ja) * | 2000-09-13 | 2005-07-27 | 株式会社エイ・ジー・アイ | 感情検出方法及び感情検出装置ならびに記録媒体 |
JP2002156989A (ja) * | 2000-11-22 | 2002-05-31 | Minolta Co Ltd | 音声合成方法および音声合成システム |
JP2002366186A (ja) * | 2001-06-11 | 2002-12-20 | Hitachi Ltd | 音声合成方法及びそれを実施する音声合成装置 |
GB0212147D0 (en) | 2002-05-27 | 2002-07-03 | King S College London | Speech processing apparatus and method |
JP2004125843A (ja) * | 2002-09-30 | 2004-04-22 | Sanyo Electric Co Ltd | 音声合成方法 |
US7168953B1 (en) * | 2003-01-27 | 2007-01-30 | Massachusetts Institute Of Technology | Trainable videorealistic speech animation |
JP2005305007A (ja) * | 2004-04-26 | 2005-11-04 | Nintendo Co Ltd | キャラクタ再生装置およびキャラクタ再生プログラム |
JP4526934B2 (ja) * | 2004-11-24 | 2010-08-18 | 日本電信電話株式会社 | 調音運動の正規化を用いた音声合成方法および装置 |
JP2008185805A (ja) * | 2007-01-30 | 2008-08-14 | Internatl Business Mach Corp <Ibm> | 高品質の合成音声を生成する技術 |
JP4296231B2 (ja) * | 2007-06-06 | 2009-07-15 | パナソニック株式会社 | 声質編集装置および声質編集方法 |
CN100544463C (zh) * | 2007-06-29 | 2009-09-23 | 中兴通讯股份有限公司 | 一种提供语音合成应用统一开发平台的系统和方法 |
CN101359473A (zh) * | 2007-07-30 | 2009-02-04 | 国际商业机器公司 | 自动进行语音转换的方法和装置 |
CN101471071A (zh) * | 2007-12-26 | 2009-07-01 | 中国科学院自动化研究所 | 一种基于混合隐马尔可夫模型的语音合成系统 |
WO2009129315A1 (en) * | 2008-04-15 | 2009-10-22 | Mobile Technologies, Llc | System and methods for maintaining speech-to-speech translation in the field |
JP2010094799A (ja) * | 2008-10-17 | 2010-04-30 | Littleisland Inc | 人型ロボット |
KR101558553B1 (ko) * | 2009-02-18 | 2015-10-08 | 삼성전자 주식회사 | 아바타 얼굴 표정 제어장치 |
JP5597956B2 (ja) * | 2009-09-04 | 2014-10-01 | 株式会社ニコン | 音声データ合成装置 |
US8884982B2 (en) * | 2009-12-15 | 2014-11-11 | Deutsche Telekom Ag | Method and apparatus for identifying speakers and emphasizing selected objects in picture and video messages |
CN101916566B (zh) * | 2010-07-09 | 2012-07-04 | 西安交通大学 | 一种电子喉语音重建方法及其系统 |
US8949123B2 (en) * | 2011-04-11 | 2015-02-03 | Samsung Electronics Co., Ltd. | Display apparatus and voice conversion method thereof |
CN103650002B (zh) * | 2011-05-06 | 2018-02-23 | 西尔股份有限公司 | 基于文本的视频生成 |
GB2501062B (en) * | 2012-03-14 | 2014-08-13 | Toshiba Res Europ Ltd | A text to speech method and system |
CN102820030B (zh) * | 2012-07-27 | 2014-03-26 | 中国科学院自动化研究所 | 发音器官可视语音合成系统 |
US9767789B2 (en) * | 2012-08-29 | 2017-09-19 | Nuance Communications, Inc. | Using emoticons for contextual text-to-speech expressivity |
JP5958303B2 (ja) * | 2012-11-27 | 2016-07-27 | 株式会社デンソー | テキスト読み上げ装置 |
US10339406B2 (en) * | 2013-03-15 | 2019-07-02 | Orcam Technologies Ltd. | Apparatus and method for using background change to determine context |
US20140278418A1 (en) | 2013-03-15 | 2014-09-18 | Broadcom Corporation | Speaker-identification-assisted downlink speech processing systems and methods |
EP2933067B1 (en) * | 2014-04-17 | 2019-09-18 | Softbank Robotics Europe | Method of performing multi-modal dialogue between a humanoid robot and user, computer program product and humanoid robot for implementing said method |
US9607609B2 (en) * | 2014-09-25 | 2017-03-28 | Intel Corporation | Method and apparatus to synthesize voice based on facial structures |
US10540975B2 (en) * | 2016-03-25 | 2020-01-21 | Intel Corporation | Technologies for automatic speech recognition using articulatory parameters |
-
2014
- 2014-09-25 US US14/496,832 patent/US9607609B2/en active Active
-
2015
- 2015-08-28 JP JP2017510490A patent/JP6336676B2/ja active Active
- 2015-08-28 KR KR1020177004640A patent/KR102361389B1/ko active IP Right Grant
- 2015-08-28 CN CN201580045327.3A patent/CN106575500B/zh active Active
- 2015-08-28 WO PCT/US2015/047465 patent/WO2016048579A1/en active Application Filing
- 2015-08-28 EP EP15843816.8A patent/EP3198589B1/en active Active
-
2017
- 2017-02-23 US US15/440,371 patent/US10056073B2/en active Active
-
2018
- 2018-07-18 US US16/039,053 patent/US10621968B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2017530393A (ja) | 2017-10-12 |
US9607609B2 (en) | 2017-03-28 |
KR20170034409A (ko) | 2017-03-28 |
US20170287464A1 (en) | 2017-10-05 |
EP3198589A4 (en) | 2018-08-22 |
US10621968B2 (en) | 2020-04-14 |
US20180322862A1 (en) | 2018-11-08 |
US20160093284A1 (en) | 2016-03-31 |
EP3198589B1 (en) | 2020-02-05 |
KR102361389B1 (ko) | 2022-02-10 |
CN106575500A (zh) | 2017-04-19 |
EP3198589A1 (en) | 2017-08-02 |
WO2016048579A1 (en) | 2016-03-31 |
US10056073B2 (en) | 2018-08-21 |
CN106575500B (zh) | 2021-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6336676B2 (ja) | 顔構造に基づいて声を合成する方法および装置 | |
US20200294488A1 (en) | Method, device and storage medium for speech recognition | |
JP2022137201A (ja) | ニューラルネットワークを使用したターゲット話者の声でのテキストからの音声合成 | |
CN111583944A (zh) | 变声方法及装置 | |
CN111508511A (zh) | 实时变声方法及装置 | |
EP3866160A1 (en) | Electronic device and control method thereof | |
CN111145777A (zh) | 一种虚拟形象展示方法、装置、电子设备及存储介质 | |
JP2019208138A (ja) | 発話認識装置、及びコンピュータプログラム | |
KR20210054800A (ko) | 사용자의 음성샘플 수집 | |
CN114121006A (zh) | 虚拟角色的形象输出方法、装置、设备以及存储介质 | |
US20230298564A1 (en) | Speech synthesis method and apparatus, device, and storage medium | |
WO2024088321A1 (zh) | 虚拟形象面部驱动方法、装置、电子设备及介质 | |
CN104200807B (zh) | 一种erp语音控制方法 | |
CN115148185A (zh) | 语音合成方法及装置、电子设备及存储介质 | |
KR20140126485A (ko) | 감정 반응형 모바일 개인 비서 서비스 방법 | |
JP5949634B2 (ja) | 音声合成システム、及び音声合成方法 | |
KR20220034396A (ko) | 얼굴 영상 생성 장치, 방법 및 컴퓨터 프로그램 | |
KR102622350B1 (ko) | 전자 장치 및 그 제어 방법 | |
CN109815806B (zh) | 人脸识别方法及装置、计算机设备、计算机存储介质 | |
CN109102810B (zh) | 声纹识别方法和装置 | |
CN111445925A (zh) | 用于生成差异信息的方法和装置 | |
CN113903325B (zh) | 文本转3d音频的方法及装置 | |
US11792365B1 (en) | Message data analysis for response recommendations | |
JP5954221B2 (ja) | 音源特定システム、及び音源特定方法 | |
US10304445B2 (en) | Wearable device for speech training |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180403 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180502 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6336676 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |