JP7167106B2 - 口形特徴予測方法、装置及び電子機器 - Google Patents

口形特徴予測方法、装置及び電子機器 Download PDF

Info

Publication number
JP7167106B2
JP7167106B2 JP2020157690A JP2020157690A JP7167106B2 JP 7167106 B2 JP7167106 B2 JP 7167106B2 JP 2020157690 A JP2020157690 A JP 2020157690A JP 2020157690 A JP2020157690 A JP 2020157690A JP 7167106 B2 JP7167106 B2 JP 7167106B2
Authority
JP
Japan
Prior art keywords
mouth
features
neural network
feature
ppg
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020157690A
Other languages
English (en)
Other versions
JP2021128327A (ja
Inventor
ユイチャン リュ
タオ スン
ウェンフー ワン
グエンポ バオ
ジュ ポン
レイ ジァ
Original Assignee
バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド filed Critical バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド
Publication of JP2021128327A publication Critical patent/JP2021128327A/ja
Application granted granted Critical
Publication of JP7167106B2 publication Critical patent/JP7167106B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本願は、コンピュータ技術分野における仮想技術分野に関し、特に、口形特徴予測方法、装置及び電子機器に関するものである。
人工知能、デジタル通信などの技術の急速な発展に伴い、仮想画像は益々次世代の人工知能インタラクションの重要な発展方向となっている。その中でも、仮想画像における口形特徴は重要な技術的特徴である。現在は主に音素、音節などを音声特徴として採用しており、該分野の専門家が定義した一連の口形マッピング規則によって口形特徴が確定されている。しかしながら該方法は口形特徴を予測する精度が高くない。
本願は、口形特徴を予測する精度が低い問題を解決すべく、口形特徴予測方法、装置及び電子機器を提供する。
第1の態様では、本願は、口形特徴予測方法を提供し、
音声特徴の音素事後確率(Phonetic Posterior Grams、PPG)を認識するステップと、
ニューラルネットワークモデルを用いて前記PPGを予測して、前記音声特徴の口形特徴を予測するステップであって、前記ニューラルネットワークモデルは、トレーニングサンプルを用いてトレーニングして得た入力にPPGが含まれ、出力に口形特徴が含まれるニューラルネットワークモデルであり、前記トレーニングサンプルはPPGトレーニングサンプル及び口形特徴トレーニングサンプルを含むステップとを含む。
ニューラルネットワークモデルによって音声特徴のPPGを予測するため、該分野の専門家が定義した一連の口形マッピング規則によって口形特徴を確定することに比べて、口形特徴を予測する精度を向上させることができる。
選択可能で、前記PPGトレーニングサンプルは、
動的スライシングに基づいて取得され、且つ完全な意味を持つ音声特徴であるターゲット音声特徴のPPGを含み、
前記口形特徴トレーニングサンプルは、前記ターゲット音声特徴のPPGに対応する口形特徴を含む。
ターゲット音声特徴が動的スライシングに基づいて取得され、且つ完全な意味を持つ音声特徴であるため、ニューラルネットワークモデルによって予測される口形特徴がより正確になる。
選択可能で、前記ターゲット音声特徴の周波数は前記ターゲット音声特徴のPPGに対応する口形特徴の周波数と一致する。
ターゲット音声特徴の周波数が口形特徴の周波数と一致するため、ニューラルネットワークモデルによって予測される口形特徴の精度がさらに向上する。
選択可能で、前記ニューラルネットワークモデルは、自己回帰メカニズムを備えたリカレントニューラルネットワーク(Recurrent Neural Network、RNN)モデルであり、前記RNNモデルのトレーニングプロセスは、
現在フレームの前のフレームの口形特徴トレーニングサンプルを入力とし、前記現在フレームのPPGトレーニングサンプルを条件制約とし、前記現在フレームの口形特徴トレーニングサンプルをターゲットとしてトレーニングするステップを含む。
前のフレームの口形特徴トレーニングサンプルを入力とし、前記現在フレームのPPGトレーニングサンプルを条件制約とするため、前記ニューラルネットワークモデルによって予測される口形特徴の精度をさらに向上させることができる。
選択可能で、前記ニューラルネットワークモデルは、マルチブランチネットワークニューラルネットワークモデルであり、前記音声特徴の口形特徴は、
回帰口形ポイント、口形サムネイル、ブレンドシェイプ(blend shape)係数及び3Dモーフィングモデル(3D Morphable Models、3DMM)表情係数の少なくとも2つを含む。
複数の口形特徴を予測できるため、前記ニューラルネットワークモデルの汎化性能が向上する。
選択可能で、前記方法はさらに、前記ニューラルネットワークモデルを用いて実際の音声データのPPGを予測して、実際の音声データの口形特徴を取得するステップと、前記実際の音声データの口形特徴に基づいて、仮想画像の口形合成に用いられる口形特徴インデックスライブラリを構築するステップとを含む。
ニューラルネットワークモデルによって予測された口形特徴を用いて口形特徴インデックスライブラリを構築するため、ニューラルネットワークモデルによって出力された予測された口形特徴とインデックスライブラリの口形特徴との間の適合性を高めることができ、それによってインデックスの精度が向上する。
第2の態様では、本願は、口形特徴予測装置であって、音声特徴のPPGを認識するための認識モジュールと、ニューラルネットワークモデルを用いて前記PPGを予測して、音声特徴の口形特徴を予測するための第1予測モジュールであって、前記ニューラルネットワークモデルは、トレーニングサンプルを用いてトレーニングして得た入力にPPGが含まれ、出力に口形特徴が含まれるニューラルネットワークモデルであり、前記トレーニングサンプルはPPGトレーニングサンプル及び口形特徴トレーニングサンプルを含む第1予測モジュールとを備える口形特徴予測装置を提供する。
選択可能で、前記PPGトレーニングサンプルは、動的スライシングに基づいて取得され、且つ完全な意味を持つ音声特徴であるターゲット音声特徴のPPGを含み、前記口形特徴トレーニングサンプルは、前記ターゲット音声特徴のPPGに対応する口形特徴を含む。
選択可能で、前記ニューラルネットワークモデルは、自己回帰メカニズムを備えたリカレントニューラルネットワークRNNモデルであり、前記RNNモデルのトレーニングプロセスは、現在フレームの前のフレームの口形特徴トレーニングサンプルを入力とし、前記現在フレームのPPGトレーニングサンプルを条件制約とし、前記現在フレームの口形特徴トレーニングサンプルをターゲットとしてトレーニングするステップを含む。
選択可能で、前記ニューラルネットワークモデルは、マルチブランチネットワークニューラルネットワークモデルであり、前記音声特徴の口形特徴は、回帰口形ポイント、口形サムネイル、ブレンドシェイプ係数及び3Dモーフィングモデルの3DMM表情係数の少なくとも2つを含む。
選択可能で、前記装置はさらに、前記ニューラルネットワークモデルを用いて実際の音声データのPPGを予測して、実際の音声データの口形特徴を取得するための第2予測モジュールと、前記実際の音声データの口形特徴に基づいて、仮想画像の口形合成に用いられる口形特徴インデックスライブラリを構築するための構築モジュールとを含む。
第3の態様では、本願は電子機器であって、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサに通信可能に接続されるメモリとを備え、前記メモリには、前記少なくとも1つのプロセッサに本願による方法を実行させるように、前記少なくとも1つのプロセッサにより実行される指令が格納されている電子機器を提供する。
第4の態様では、本願は、コンピュータに本願による方法を実行させるためのコンピュータ指令が格納されていることを特徴とする非一時的コンピュータ可読記憶媒体を提供する。
第5の態様では、本願は、コンピュータプログラムであって、前記コンピュータプログラムがプロセッサにより実行されると、本願による方法を実現する、コンピュータプログラムを提供する。
上記出願における一実施形態の利点又は有益な効果は、音声特徴のPPGを認識するステップと、ニューラルネットワークモデルを用いて前記PPGを予測して、音声特徴の口形特徴を予測するステップであって、前記ニューラルネットワークモデルは、トレーニングサンプルを用いてトレーニングして得た入力にPPGが含まれ、出力に口形特徴が含まれるニューラルネットワークモデルであり、前記トレーニングサンプルはPPGトレーニングサンプル及び口形特徴トレーニングサンプルを含むステップとを含む。ニューラルネットワークモデルを用いて音声特徴のPPGを予測するという技術的手段を採用するため、口形特徴予測の精度が低いという技術的問題が解消され、口形特徴予測の精度を向上させるという技術的効果が得られる。
上記選択可能な実施形態が有する他の効果は、以下の実施例に合わせて具体的に説明する。
図面は本解決策をよりよく理解するためのものであって、本願を限定するものではない。
本願による口形特徴予測方法のフローチャートである。 本願による口形特徴予測装置の構造図である。 本願によるもう一つの口形特徴予測装置の構造図である。 本願の実施例による口形特徴予測方法を実現するための電子機器のブロック図である。
以下、容易に理解されるように様々な細部を含む本願の例示的な実施例を添付図面に合わせて説明し、それらは単なる例示的なものとして見なされるべきである。したがって、当業者は、本出願の範囲及び精神から逸脱することなく、本明細書に記載された実施例に対して様々な変更及び修正を行うことができることを理解されたい。また、以下の説明では、明確かつ簡潔にするために、周知の機能及び構造に対する説明を省略している。
図1を参照し、図1は、本願による口形特徴予測方法のフローチャートであり、図1に示すように、以下のステップを含む。
ステップS101:音声特徴のPPGを認識する。
前記音声特徴のPPGの認識は、自動音声認識システムに基づいて前記音声特徴のPPGを抽出するものであってもよい。
本願における音声特徴は音声データとして理解できることも留意されたい。
ステップS102:ニューラルネットワークモデルを用いて前記PPGを予測して、前記音声特徴の口形特徴を予測するステップであって、前記ニューラルネットワークモデルは、トレーニングサンプルを用いてトレーニングして得た入力にPPGが含まれ、出力に口形特徴が含まれるニューラルネットワークモデルであり、前記トレーニングサンプルはPPGトレーニングサンプル及び口形特徴トレーニングサンプルを含む。
前記ニューラルネットワークモデルは、入力がPPG、出力が対応する口形特徴であるエンドツーエンドのニューラルネットワークモデルであってもよい。
本願は、例えば、畳み込みニューラルネットワーク(Convolutional Neural Network、CNN)モデル、ディープニューラルネットワーク(Deep Neural Network、DNN)モデル又はRNNモデルなど、ニューラルネットワークモデルの種類を制限しないことに留意されたい。
本願において、PPGは話者とは無関係の特徴であるため、PPGを介して様々な話者の共通の音声特徴を取得することができ、音素などの音声特徴と比べて、PPGは音声との同期性がより高く、音声と唇の動きとの同期性が向上する。
本願において、ニューラルネットワークモデルによって音声特徴のPPGを予測するため、該分野の専門家が定義した一連の口形マッピング規則によって口形特徴を確定することに比べて、口形特徴を予測する精度を向上させることができる。
選択可能で、前記PPGトレーニングサンプルは、
動的スライシングに基づいて取得され、且つ完全な意味を持つ音声特徴であるターゲット音声特徴のPPGを含み、
前記口形特徴トレーニングサンプルは、前記ターゲット音声特徴のPPGに対応する口形特徴を含む。
前記動的スライシングに基づいて取得され、且つ完全な意味を持つ音声特徴は、音声の意味に基づいてスライスされて得られた完全な意味を持つ音声特徴であってもよい。
ターゲット音声特徴が動的スライシングに基づいて取得され、且つ完全な意味を持つ音声特徴であるため、音節の手動切断によって生じる情報不連続現象を解消することができて、ニューラルネットワークモデルによって予測される口形特徴をより正確にすることができる。
選択可能で、前記ターゲット音声特徴の周波数は前記ターゲット音声特徴のPPGに対応する口形特徴の周波数と一致する。
前記ターゲット音声特徴の周波数と口形特徴の周波数とが一致することは、ターゲット音声特徴の周波数が口形特徴の周波数と同じであるか又は類似することであってもよい。例えば、音声特徴の周波数は25Hzで、口形特徴の周波数も25Hzである。さらに、音声特徴の周波数が口形特徴の周波数と一致しない場合、本願は、例えば、100Hzの音声特徴を25Hzの音声特徴に調整するなど、音声特徴の周波数を調整することができ、音声特徴の周波数を調整することができるため、ニューラルネットワークモデルのトレーニングの柔軟性を向上させることができる。
ターゲット音声特徴の周波数が口形特徴の周波数と一致するため、ニューラルネットワークモデルによって予測される口形特徴の精度がさらに向上する。
選択可能で、前記ニューラルネットワークモデルは、自己回帰メカニズムを備えたリカレントニューラルネットワークRNNモデルであり、前記RNNモデルのトレーニングプロセスは、
現在フレームの前のフレームの口形特徴トレーニングサンプルを入力とし、前記現在フレームのPPGトレーニングサンプルを条件制約とし、前記現在フレームの口形特徴トレーニングサンプルをターゲットとしてトレーニングするステップを含む。
前記現在フレームは、トレーニングプロセスにおいて現在トレーニングを行っているフレームであってもよく、本願におけるトレーニングサンプルには複数のフレームが含まれており、各フレームには一つのPPGと口形特徴が対応する。
前のフレームの口形特徴トレーニングサンプルを入力とし、前記現在フレームのPPGトレーニングサンプルを条件制約とするため、各時刻の口形を現在時刻及び前後時刻の音声と関連付けすることができ、それによって、前記ニューラルネットワークモデルによって予測される口形特徴の精度をさらに向上させることができる。
選択可能で、前記ニューラルネットワークモデルは、マルチブランチネットワークニューラルネットワークモデルであり、前記音声特徴の口形特徴は、
回帰口形ポイント、口形サムネイル、ブレンドシェイプ(blend shape)係数及び3DMM表情係数の少なくとも2つを含む。
マルチブランチネットワークニューラルネットワークモデルは、該ニューラルネットワークモデルに複数のブランチネットワークが備えられてもよいことを意味し、各ブランチネットワークは一つの口形特徴を予測することができ、例えば、4つのブランチネットワークはそれぞれ回帰口形ポイント、口形サムネイル、ブレンドシェイプ係数及び3DMM表情係数を予測する。
複数の口形特徴を予測することができるため、前記ニューラルネットワークモデルの汎化性能が向上する。さらに、回帰口形ポイント、口形サムネイル、ブレンドシェイプ係数及び3DMM表情係数の複数の項目を予測することができるため、複数の特徴を融合して予測することにより、一方では、口形特徴間の相関性を利用してニューラルネットワークモデルの汎化性能を効果的に向上することができ、他方では、モデルの適用範囲が効果的に拡大され、2D及び3D仮想画像の作成に便利に適用することができる。
選択可能で、前記方法はさらに、
前記ニューラルネットワークモデルを用いて実際の音声データのPPGを予測して、実際の音声データの口形特徴を取得するステップと、
前記実際の音声データの口形特徴に基づいて、仮想画像の口形合成に用いられる口形特徴インデックスライブラリを構築するステップとを含む。
前記実際の音声データ及び実際の音声データの口形特徴は前記ニューラルネットワークモデルのトレーニングサンプルであってもよい。もちろん、これには限定せず、例えば、収集された他の実際のデータであってもよい。
前記実際の音声データの口形特徴に基づく口形特徴インデックスライブラリの構築は、前記実際の音声データの口形特徴に基づく口形特徴インデックスライブラリの再構築であってもよく、例えば、前記口形特徴インデックスライブラリは本来実際の口形特徴を含んでいるが、該実施形態では、口形特徴インデックスライブラリにおける実際の口形特徴を前記予測された実際の音声データの口形特徴で置き換える。
前記口形特徴インデックスライブラリは、仮想画像合成において口形特徴を取得するためのインデックスライブラリであってもよい。
ニューラルネットワークモデルによって予測された口形特徴を用いて口形特徴インデックスライブラリを構築するため、ニューラルネットワークモデルによって出力された予測口形特徴とインデックスライブラリにおける口形特徴との間の適合性を高めることができ、それによってインデックスの精度が向上する。
本願は、音声特徴のPPGを認識するステップと、ニューラルネットワークモデルを用いて前記PPGを予測して、音声特徴の口形特徴を予測するステップであって、前記ニューラルネットワークモデルは、トレーニングサンプルを用いてトレーニングして得た入力にPPGが含まれ、出力に口形特徴が含まれるニューラルネットワークモデルであり、前記トレーニングサンプルはPPGトレーニングサンプル及び口形特徴トレーニングサンプルを含むステップとを含む。ニューラルネットワークモデルによって音声特徴のPPGを予測するため、該分野の専門家が定義した一連の口形マッピング規則によって口形特徴を確定することに比べて、口形特徴を予測する精度を向上させることができる。
図2を参照し、図2は、本願による口形特徴予測装置の構造図であり、図2に示すように、口形特徴予測装置200は、
音声特徴のPPGを認識するための認識モジュール201と、
ニューラルネットワークモデルを用いて前記PPGを予測して、音声特徴の口形特徴を予測するための第1予測モジュール202であって、前記ニューラルネットワークモデルは、トレーニングサンプルを用いてトレーニングして得た入力にPPGが含まれ、出力に口形特徴が含まれるニューラルネットワークモデルであり、前記トレーニングサンプルはPPGトレーニングサンプル及び口形特徴トレーニングサンプルを含む第1予測モジュール202とを備える。
選択可能で、前記PPGトレーニングサンプルは、
動的スライシングに基づいて取得され、且つ完全な意味を持つ音声特徴であるターゲット音声特徴のPPGを含み、
選択可能で、前記口形特徴トレーニングサンプルは、前記ターゲット音声特徴のPPGに対応する口形特徴を含む。
選択可能で、前記ニューラルネットワークモデルは、自己回帰メカニズムを備えたリカレントニューラルネットワークRNNモデルであり、前記RNNモデルのトレーニングプロセスは、
現在フレームの前のフレームの口形特徴トレーニングサンプルを入力とし、前記現在フレームのPPGトレーニングサンプルを条件制約とし、前記現在フレームの口形特徴トレーニングサンプルをターゲットとしてトレーニングするステップを含む。
選択可能で、前記ニューラルネットワークモデルは、マルチブランチネットワークニューラルネットワークモデルであり、前記音声特徴の口形特徴は、
回帰口形ポイント、口形サムネイル、ブレンドシェイプ係数及び3Dモーフィングモデル3DMM表情係数の少なくとも2つを含む。
選択可能で、図3に示すように、前記装置はさらに、
前記ニューラルネットワークモデルを用いて実際の音声データのPPGを予測して、実際の音声データの口形特徴を取得するための第2予測モジュール203と、
前記実際の音声データの口形特徴に基づいて、仮想画像の口形合成に用いられる口形特徴インデックスライブラリを構築するための構築モジュール204とを含む。
本実施例に係る装置は、図1に示される方法の実施例で実施される各プロセスを実施することができ、且つ同じ有益な効果を達成することができるので、繰り返し説明を避けるため、ここではこれ以上説明しない。
本願の実施例によれば、本願はさらに電子機器及び読み取り可能な記憶媒体を提供している。
図4に示すように、本願の実施例による口形特徴予測方法を実施するための電子機器のブロック図である。電子機器は、ラップトップコンピューター、デスクトップコンピューター、ワークベンチ、パーソナル・デジタル・アシスタント、サーバー、ブレードサーバー、メインフレームコンピューター、その他の適切なコンピューターなど、様々な形態のデジタルコンピューターを表すためのものである。電子機器は、パーソナル・デジタル・アシスタント、携帯電話、スマートフォン、ウェアラブルデバイス、及びその他類似のコンピューティングデバイスなど、様々な形態のモバイルデバイスを表すこともできる。本明細書に示されている部品、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書で説明及び/又は要求されている本願の実施を限定するものではない。
図4に示すように、該電子機器は、1つ又は複数のプロセッサ401、メモリ402、及び高速インターフェース及び低速インターフェースを含む各々の部品を接続するためのインターフェースを含む。各部品は、互いに異なるバスで接続されており、共通のマザーボードに実装されていてもよく、又は必要に応じて他の形態で実装されていてもよい。プロセッサは、電子機器内で実行される指令を処理することができ、メモリ内又はメモリに格納されて外部の入力/出力装置(インターフェースなどに接続されたディスプレイデバイス)にGUIのグラフィック情報を表示させる指令を含む。他の実施形態では、必要に応じて、複数のプロセッサ及び/又は複数のバスを複数のメモリ及び複数のメモリと共に使用してもよい。同様に、複数の電子機器を接続することができ、それぞれの機器はいくつかの必要な操作(例えば、サーバアレイ、一組のブレードサーバ、又はマルチプロセッサシステムとして)を提供する。図4では一つのプロセッサ401を例とする。
メモリ402は本願による非一時的コンピュータ可読記憶媒体である。前記メモリは、前記少なくとも1つのプロセッサに本願による口形特徴予測方法を実行させるように、少なくとも1つのプロセッサによって実行可能な指令を格納している。本願の非一時的コンピュータ可読記憶媒体は、本願による口形特徴予測方法をコンピュータに実行させるためのコンピュータ指令を格納する。
メモリ402は、非一時的コンピュータ可読記憶媒体として、本願の実施例における口形特徴予測方法に対応するプログラム指令/モジュール(例えば、図2に示す認識モジュール201、第1予測モジュール202)などの非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能プログラム、及びモジュールを格納することができる。プロセッサ401は、メモリ402に格納されている非一時的なソフトウェアプログラム、指令及びモジュールを実行することにより、サーバの様々な機能アプリケーション及びデータ処理を実行し、上記方法の実施例における口形特徴予測方法を実施する。
メモリ402は、オペレーティングシステム、少なくとも1つの機能を実行するために必要なアプリケーションプログラムを格納し得るストレージプログラム領域と、口形特徴予測方法による電子機器を使用することによって作成されたデータなどを格納し得るストレージデータ領域とを含むことができる。また、メモリ402は、高速ランダムアクセスメモリを含んでもよく、さらに、例えば、少なくとも1つの磁気ディスク記憶デバイス、フラッシュメモリデバイス、又はその他の非一時的な固体メモリデバイスなどの非一時的メモリを含むことができる。いくつかの実施例において、メモリ402は、プロセッサ401に対して遠隔に設けられたメモリを任意選択で含んでもよく、これらのリモートメモリは、ネットワークを介して口形特徴予測方法の電子機器に接続されてもよい。上記ネットワークの実例はインターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク及びそれらの組み合わせを含むがこれらに限定されない。
口形特徴予測方法の電子機器はさらに入力装置403及び出力装置404を含むことができる。プロセッサ401、メモリ402、入力装置403及び出力装置404は、バス又はその他の形態で接続されていてもよく、図4ではバスを介して接続されている例を示している。
入力装置403は、入力されたデジタル又は文字情報を受け取り、口形特徴予測方法の電子機器のユーザ設定や機能制御に関するキー信号入力を生成することができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパネル、ポインティングスティック、1又は複数のマウスボタン、トラックボール、ジョイスティック等の入力装置を含む。出力装置404は、表示装置、補助照明装置(例えば、LED)、触覚フィードバック装置(例えば、振動モータ)などを含み得る。該ディスプレイデバイスは、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ及びプラズマディスプレイを含むがそれらに限定されない。いくつかの実施形態において、ディスプレイデバイスはタッチスクリーンであってもよい。
ここで説明されるシステム及び技術の様々な実施形態はデジタル電子回路システム、集積回路システム、専用ASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現することができる。これら様々な実施形態は以下を含むことができる。一つ又は複数のコンピュータプログラムにおいて実施され、該一つ又は複数のコンピュータプログラムは少なくとも一つのプログラマブルプロセッサを含むプログラム可能なシステムで実行、及び/又は解釈されてもよく、該プログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであってよく、ストレージシステム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び指令を受信するとともに、データ及び指令を該ストレージシステム、該少なくとも一つの入力装置、及び該少なくとも一つの出力装置に伝送することができる。
これらの計算プログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる)は、プログラマブルプロセッサの機械指令を含み、これらの計算プログラムを高度なプロセス及び/又はオブジェクト指向プログラミング言語、及び/又はアセンブリ/機械言語で実施することができる。
本明細書で使用されているように、用語「機械可読媒体」及び「コンピュータ可読媒体」は、機械指令及び/又はデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、デバイス及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を意味し、機械可読信号としての機械指令を受信する機械可読媒体を含む。用語「機械可読信号」は機械指令及び/又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。
ユーザとのインタラクションを提供するために、コンピュータ上で、明細書で説明したシステム及び技術を実施してもよく、該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(カソードレイチューブ)又はLCD(液晶ディスプレイ)モニタ)、及びユーザがコンピュータに入力を提供するためのキーボード及びポインティングデバイス(例えば、マウス又はトラックボール)を有する。他の種類の装置はユーザとのインタラクションを提供するために用いられてもよく、例えば、ユーザへのフィードバックは任意の形態のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形態(音響入力、音声入力又は触覚入力を含む)でユーザからの入力を受信することができる。
本明細書で説明されるシステム及び技術は、バックグラウンドコンポーネントを含むコンピューティングシステム(例えば、データサーバーとして)、又は、ミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバー)、又は、フロントエンドコンポーネント(例えば、グラフィカルユーザインタフェース又はウェブブラウザを備えたユーザーコンピュータは、ユーザが該グラフィカルユーザインタフェース又は該ウェブブラウザを介して、本明細書で説明するシステム及び技術の実施形態と対話することができる)、又は、これらのバックグラウンドコンポーネント、ミドルウェアコンポーネント又はフロントエンドコンポーネント任意の組み合わせのコンピューティングシステムで実施することができる。また、システムのコンポーネントは、任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)を介して相互に接続することができる。通信ネットワークの例示的なものとして、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)及びインターネットを含む。
コンピュータシステムはクライアント及びサーバーを含むことができる。クライアントとサーバーは一般的に互いに離れており、通常は通信ネットワークを介して相互作用している。クライアントとサーバーの関係は、対応するコンピューターで実行されるとともに互いにクライアント-サーバーの関係を持つコンピュータープログラムによって生成される。
本願実施例に基づく技術的解決策は、音声特徴のPPGを認識するステップと、ニューラルネットワークモデルを用いて前記PPGを予測して、音声特徴の口形特徴を予測するステップであって、前記ニューラルネットワークモデルは、トレーニングサンプルを用いてトレーニングして得た入力にPPGが含まれ、出力に口形特徴が含まれるニューラルネットワークモデルであり、前記トレーニングサンプルはPPGトレーニングサンプル及び口形特徴トレーニングサンプルを含むステップとを含む。ニューラルネットワークモデルによって音声特徴のPPGを予測するため、該分野の専門家が定義した一連の口形マッピング規則によって口形特徴を決定することに比べて、口形特徴を予測する精度を向上させることができる。
上記に示した様々な形態のプロセスを用いて、ステップを順序変更、追加又は削除できることを理解されたい。本願が開示する技術的解決策の望ましい結果を実現することができれば、例えば、本願に記載された各ステップは並行して又は順番通りに又は異なる順番で実行されてもよく、本明細書はここでは制限をしない。
上記の具体的な実施形態は、本願の保護範囲を制限するものではない。当業者は、設計要件及び他の要因に従って、様々な修正、組み合わせ、サブ組み合わせ及び置き換えが可能であることを理解すべきである。本願の精神及び原則の範囲内で行われた如何なる修正、同等の置き換え及び改善などは、本願の保護範囲内に含まれるべきである。

Claims (12)

  1. 音素事後確率(PPG)トレーニングサンプルを入力として、対応する口形特徴トレーニングサンプルを出力としてニューラルネットワークモデルをトレーニングして、トレーニング済みニューラルネットワークモデルを得るステップと、
    処理対象の音声特徴のPPGを認識するステップと、
    トレーニング済みニューラルネットワークモデルを用いて、認識された前記処理対象の音声特徴のPPGを入力として、前記音声特徴の口形特徴を予測するステップとを含み、
    前記PPGトレーニングサンプルは、
    ターゲット音声の完全な意味に基づいて分割された音声特徴であるターゲット音声特徴のPPGを含み、
    前記口形特徴トレーニングサンプルは、前記ターゲット音声特徴のPPGに対応する口形特徴を含む、ことを特徴とする口形特徴予測する方法。
  2. 前記ターゲット音声特徴の単位時間当たりの周期性変化回数が前記ターゲット音声特徴のPPGに対応する口形特徴の単位時間当たりの周期性変化回数とマッチングする、
    ことを特徴とする請求項1に記載の方法。
  3. 前記ニューラルネットワークモデルは、自己回帰メカニズムを備えたリカレントニューラルネットワークモデル(RNNモデル)であり、前記RNNモデルのトレーニングプロセスは、
    現在フレームの前のフレームの口形特徴トレーニングサンプルを入力とし、前記現在フレームのPPGトレーニングサンプルを条件制約とし、前記現在フレームの口形特徴トレーニングサンプルをターゲットとしてトレーニングするステップを含む、
    ことを特徴とする請求項1に記載の方法。
  4. 前記ニューラルネットワークモデルは、マルチブランチネットワークニューラルネットワークモデルであり、前記音声特徴の口形特徴は、
    回帰口形ポイント、口形サムネイル、ブレンドシェイプ係数及び3Dモーフィングモデル(3DMM)表情係数の少なくとも2つを含む、
    ことを特徴とする請求項1に記載の方法。
  5. 前記方法はさらに、
    前記ニューラルネットワークモデルを用いて実際の音声データのPPGを入力として、実際の音声データの口形特徴を予測して取得するステップと、
    前記実際の音声データの口形特徴に基づいて、仮想画像の口形合成に用いられる口形特徴インデックスライブラリを構築するステップとを含む、
    ことを特徴とする請求項1に記載の方法。
  6. 音素事後確率(PPG)トレーニングサンプルを入力として、対応する口形特徴トレーニングサンプルを出力としてニューラルネットワークモデルをトレーニングして、トレーニング済みニューラルネットワークモデルを得るためのトレーニングモジュールと、
    処理対象の音声特徴のPPGを認識するための認識モジュールと、
    トレーニング済みニューラルネットワークモデルを用いて、認識された前記処理対象の音声特徴のPPGを入力として、前記音声特徴の口形特徴を予測するための第1予測モジュールとを備え、
    前記PPGトレーニングサンプルは、
    ターゲット音声の完全な意味に基づいて分割された音声特徴であるターゲット音声特徴のPPGを含み、
    前記口形特徴トレーニングサンプルは、前記ターゲット音声特徴のPPGに対応する口形特徴を含む、ことを特徴とする口形特徴予測する装置。
  7. 前記ニューラルネットワークモデルは、自己回帰メカニズムを備えたリカレントニューラルネットワークモデル(RNNモデル)であり、前記RNNモデルのトレーニングプロセスは、
    現在フレームの前のフレームの口形特徴トレーニングサンプルを入力とし、前記現在フレームのPPGトレーニングサンプルを条件制約とし、前記現在フレームの口形特徴トレーニングサンプルをターゲットとしてトレーニングするステップを含む、
    ことを特徴とする請求項6に記載の装置。
  8. 前記ニューラルネットワークモデルは、マルチブランチネットワークニューラルネットワークモデルであり、前記音声特徴の口形特徴は、
    回帰口形ポイント、口形サムネイル、ブレンドシェイプ係数及び3Dモーフィングモデル(3DMM)表情係数の少なくとも2つを含む、
    ことを特徴とする請求項6に記載の装置。
  9. 前記装置はさらに、
    前記ニューラルネットワークモデルを用いて実際の音声データのPPGを入力として、実際の音声データの口形特徴を予測して取得するための第2予測モジュールと、
    前記実際の音声データの口形特徴に基づいて、仮想画像の口形合成に用いられる口形特徴インデックスライブラリを構築するための構築モジュールとを含む、
    ことを特徴とする請求項6に記載の装置。
  10. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサに通信可能に接続されるメモリとを備え、
    前記メモリには、前記少なくとも1つのプロセッサに請求項1~5のいずれか1項に記載の方法を実行させるように、前記少なくとも1つのプロセッサにより実行可能な指令が格納されている、
    ことを特徴とする電子機器。
  11. コンピュータ指令が格納されている非一時的コンピュータ可読記憶媒体であって、前記コンピュータ指令は請求項1~5のいずれか1項に記載の方法をコンピュータに実行させるためのものである、
    ことを特徴とする非一時的コンピュータ可読記憶媒体。
  12. コンピュータプログラムであって、
    前記コンピュータプログラムがプロセッサにより実行されると、請求項1~5のいずれか一項に記載の方法を実現する、コンピュータプログラム。
JP2020157690A 2020-02-13 2020-09-18 口形特徴予測方法、装置及び電子機器 Active JP7167106B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010091799.5A CN111354370B (zh) 2020-02-13 2020-02-13 一种唇形特征预测方法、装置和电子设备
CN202010091799.5 2020-02-13

Publications (2)

Publication Number Publication Date
JP2021128327A JP2021128327A (ja) 2021-09-02
JP7167106B2 true JP7167106B2 (ja) 2022-11-08

Family

ID=71195723

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020157690A Active JP7167106B2 (ja) 2020-02-13 2020-09-18 口形特徴予測方法、装置及び電子機器

Country Status (5)

Country Link
US (1) US11562732B2 (ja)
EP (1) EP3866166B1 (ja)
JP (1) JP7167106B2 (ja)
KR (1) KR102528771B1 (ja)
CN (1) CN111354370B (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3467712B1 (en) * 2017-10-06 2023-04-26 Sensing Feeling Limited Methods and systems for processing image data
CN113314094B (zh) * 2021-05-28 2024-05-07 北京达佳互联信息技术有限公司 唇形模型的训练方法和装置及语音动画合成方法和装置
CN113822968B (zh) * 2021-11-24 2022-03-04 北京影创信息科技有限公司 语音实时驱动虚拟人的方法、系统及存储介质
US20230394732A1 (en) * 2022-06-06 2023-12-07 Samsung Electronics Co., Ltd. Creating images, meshes, and talking animations from mouth shape data

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007299300A (ja) 2006-05-02 2007-11-15 Advanced Telecommunication Research Institute International アニメーション作成装置
JP2015038725A (ja) 2013-07-18 2015-02-26 国立大学法人北陸先端科学技術大学院大学 発話アニメーション生成装置、方法、及びプログラム
CN106653052A (zh) 2016-12-29 2017-05-10 Tcl集团股份有限公司 虚拟人脸动画的生成方法及装置
CN110503942A (zh) 2019-08-29 2019-11-26 腾讯科技(深圳)有限公司 一种基于人工智能的语音驱动动画方法和装置

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8751228B2 (en) * 2010-11-04 2014-06-10 Microsoft Corporation Minimum converted trajectory error (MCTE) audio-to-video engine
US20150287403A1 (en) * 2014-04-07 2015-10-08 Neta Holzer Zaslansky Device, system, and method of automatically generating an animated content-item
WO2017075452A1 (en) * 2015-10-29 2017-05-04 True Image Interactive, Inc Systems and methods for machine-generated avatars
US10839825B2 (en) * 2017-03-03 2020-11-17 The Governing Council Of The University Of Toronto System and method for animated lip synchronization
CN107944542A (zh) * 2017-11-21 2018-04-20 北京光年无限科技有限公司 一种基于虚拟人的多模态交互输出方法及系统
CN108538308B (zh) * 2018-01-09 2020-09-29 网易(杭州)网络有限公司 基于语音的口型和/或表情模拟方法及装置
CN108763190B (zh) 2018-04-12 2019-04-02 平安科技(深圳)有限公司 基于语音的口型动画合成装置、方法及可读存储介质
US10699705B2 (en) 2018-06-22 2020-06-30 Adobe Inc. Using machine-learning models to determine movements of a mouth corresponding to live speech
AU2020211809A1 (en) * 2019-01-25 2021-07-29 Soul Machines Limited Real-time generation of speech animation
CN109712627A (zh) * 2019-03-07 2019-05-03 深圳欧博思智能科技有限公司 一种使用语音触发虚拟人物表情及口型动画的语音系统
CN110136698B (zh) * 2019-04-11 2021-09-24 北京百度网讯科技有限公司 用于确定嘴型的方法、装置、设备和存储介质
CN110428803B (zh) * 2019-07-22 2020-04-28 北京语言大学 一种基于发音属性的发音人国别识别模型建模方法及系统
CN110503959B (zh) * 2019-09-03 2022-02-22 腾讯科技(深圳)有限公司 语音识别数据分发方法、装置、计算机设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007299300A (ja) 2006-05-02 2007-11-15 Advanced Telecommunication Research Institute International アニメーション作成装置
JP2015038725A (ja) 2013-07-18 2015-02-26 国立大学法人北陸先端科学技術大学院大学 発話アニメーション生成装置、方法、及びプログラム
CN106653052A (zh) 2016-12-29 2017-05-10 Tcl集团股份有限公司 虚拟人脸动画的生成方法及装置
CN110503942A (zh) 2019-08-29 2019-11-26 腾讯科技(深圳)有限公司 一种基于人工智能的语音驱动动画方法和装置

Also Published As

Publication number Publication date
EP3866166A1 (en) 2021-08-18
CN111354370A (zh) 2020-06-30
EP3866166B1 (en) 2023-05-17
KR20210103423A (ko) 2021-08-23
US20210256962A1 (en) 2021-08-19
US11562732B2 (en) 2023-01-24
CN111354370B (zh) 2021-06-25
JP2021128327A (ja) 2021-09-02
KR102528771B1 (ko) 2023-05-04

Similar Documents

Publication Publication Date Title
JP7167106B2 (ja) 口形特徴予測方法、装置及び電子機器
US11417314B2 (en) Speech synthesis method, speech synthesis device, and electronic apparatus
JP7317791B2 (ja) エンティティ・リンキング方法、装置、機器、及び記憶媒体
JP7181332B2 (ja) 音声変換方法、装置及び電子機器
US20220084502A1 (en) Method and apparatus for determining shape of lips of virtual character, device and computer storage medium
US11823660B2 (en) Method, apparatus and device for training network and storage medium
JP7149993B2 (ja) 感情分析モデルの事前トレーニング方法、装置及び電子機器
JP2021119381A (ja) 音声スペクトル生成モデルの学習方法、装置、電子機器及びコンピュータプログラム製品
KR102565673B1 (ko) 시멘틱 표현 모델의 생성 방법, 장치, 전자 기기 및 저장 매체
US11423907B2 (en) Virtual object image display method and apparatus, electronic device and storage medium
KR102630243B1 (ko) 구두점 예측 방법 및 장치
CN111144108A (zh) 情感倾向性分析模型的建模方法、装置和电子设备
CN110782871B (zh) 一种韵律停顿预测方法、装置以及电子设备
JP7308903B2 (ja) ストリーミング音声認識結果の表示方法、装置、電子機器及び記憶媒体
CN111079945B (zh) 端到端模型的训练方法及装置
CN110767212B (zh) 一种语音处理方法、装置和电子设备
CN111709252A (zh) 基于预训练的语义模型的模型改进方法及装置
JP7121791B2 (ja) 言語生成方法、装置及び電子機器
JP2022028889A (ja) 対話生成方法、装置、電子機器及び記憶媒体
CN114267375A (zh) 音素检测方法及装置、训练方法及装置、设备和介质
CN112527105B (zh) 人机互动方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201028

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201028

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220209

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220628

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220928

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221011

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221026

R150 Certificate of patent or registration of utility model

Ref document number: 7167106

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150