JP2024030802A - モデル学習装置、モデル学習方法、及びモデル学習プログラム。 - Google Patents
モデル学習装置、モデル学習方法、及びモデル学習プログラム。 Download PDFInfo
- Publication number
- JP2024030802A JP2024030802A JP2022133949A JP2022133949A JP2024030802A JP 2024030802 A JP2024030802 A JP 2024030802A JP 2022133949 A JP2022133949 A JP 2022133949A JP 2022133949 A JP2022133949 A JP 2022133949A JP 2024030802 A JP2024030802 A JP 2024030802A
- Authority
- JP
- Japan
- Prior art keywords
- audio
- model
- character
- features
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000012549 training Methods 0.000 claims description 24
- 230000008569 process Effects 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 21
- 238000006243 chemical reaction Methods 0.000 claims description 20
- 238000000605 extraction Methods 0.000 claims description 14
- 239000000284 extract Substances 0.000 claims description 9
- 238000013500 data storage Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 25
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 8
- 239000011295 pitch Substances 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 239000013598 vector Substances 0.000 description 6
- 230000010339 dilation Effects 0.000 description 5
- 230000008451 emotion Effects 0.000 description 5
- 238000010606 normalization Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 210000000988 bone and bone Anatomy 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 238000002156 mixing Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000005674 electromagnetic induction Effects 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 239000000523 sample Substances 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/027—Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0895—Weakly supervised learning, e.g. semi-supervised or self-supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
- G10L2021/105—Synthesis of the lips movements from speech, e.g. for talking heads
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Processing Or Creating Images (AREA)
Abstract
【課題】より自然なアニメーション生成方法を提供することを目的とする。【解決手段】音声データを入力として、音声特徴量を抽出する音声モデルと、抽出した音声特徴量を含む第二入力情報を入力として、キャラクタを制御するキャラクタ制御情報を出力するリグモデルとを備えるモデル学習装置。【選択図】 図1
Description
本発明は、モデル学習装置、モデル学習方法、及びモデル学習プログラムに関する。
キャラクタの音声データに合わせてその言語を発しているように唇を動かすリップシンク(LipSync)という技術がある。出願人は、音声データに基づいてリップシンクアニメーションを生成する技術を公開している(例えば特許文献1を参照)。
安定したリップシンクアニメーションを生成するため、さらなる改善が望まれていた。
本発明の少なくとも1つの実施の形態の目的は、より自然なアニメーションを生成する新たなモデル学習装置を提供することである。
非限定的な観点によると、本発明に係るモデル学習装置は、人間の声を含む音声データに対して所定の音響信号処理を実行し、音響特徴量を抽出する音響特徴量抽出部と、抽出した音響特徴量を含む第一入力情報に対して第一変換処理を実行し、音声特徴量を抽出する音声特徴量抽出部とを有する音声モデル学習装置と、抽出した音声特徴量を含む第二入力情報に対して第二変換処理を実行し、フレーム特徴量を抽出するフレーム特徴量抽出部と、抽出したフレーム特徴量から、キャラクタを制御するキャラクタ制御情報を出力するキャラクタ制御情報出力部とを有するリグモデル学習装置とを備える、モデル学習装置である。
非限定的な観点によると、本発明に係るモデル学習方法は、人間の声を含む音声データに対して所定の音響信号処理を実行し、音響特徴量を抽出するステップと、抽出した音響特徴量を含む第一入力情報に対して第一変換処理を実行し、音声特徴量を抽出するステップと抽出した音声特徴量を含む第二入力情報に対して第二変換処理を実行し、フレーム特徴量を抽出するステップと、抽出したフレーム特徴量から、キャラクタを制御するキャラクタ制御情報を出力するステップとを有する、モデル学習方法である。
非限定的な観点によると、本発明に係るモデル学習プログラムは、人間の声を含む音声データに対して所定の音響信号処理を実行し、音響特徴量を抽出するステップと、抽出した音響特徴量を含む第一入力情報に対して第一変換処理を実行し、音声特徴量を抽出するステップとをコンピュータ装置に実行させる音声モデル学習プログラムと、抽出した音声特徴量を含む第二入力情報に対して第二変換処理を実行し、フレーム特徴量を抽出するステップと、抽出したフレーム特徴量から、キャラクタを制御するキャラクタ制御情報を出力するステップとをコンピュータ装置に実行させるリグモデル学習プログラムとを備える、モデル学習プログラムである。
本発明の各実施形態により1または2以上の不足が解決される。
以下、添付図面を参照して、本発明の実施の形態について説明する。以下、効果に関する記載は、本発明の実施の形態の効果の一側面であり、ここに記載するものに限定されない。また、以下で説明するフローチャートを構成する各処理の順序は、処理内容に矛盾や不整合が生じない範囲で順不同である。
[第一の実施の形態]
本発明の第一の実施の形態の概要について説明をする。以下では、第一の実施の形態として、人間の声を含む音声データからキャラクタの表情を含むキャラクタを制御するキャラクタ制御情報を出力するモデル学習装置を例示して説明する。なお、特に明記が無い場合は、モデル学習装置が実施行為の主体である。
本発明の第一の実施の形態の概要について説明をする。以下では、第一の実施の形態として、人間の声を含む音声データからキャラクタの表情を含むキャラクタを制御するキャラクタ制御情報を出力するモデル学習装置を例示して説明する。なお、特に明記が無い場合は、モデル学習装置が実施行為の主体である。
本発明の第一の実施の形態において、装置の実装はハードウェアでの実装に限られず、ソフトウェアとしてコンピュータに実装されていてもよく、その実装形態は限定されない。例えば、パーソナルコンピュータ等のクライアント端末と有線又は無線の通信回線(インターネット回線など)に接続された専用サーバにインストールされて実装されていてもよいし、いわゆるクラウドサービスを利用して実装されていてもよい。
図1は、本発明の実施の形態の少なくとも1つに対応する、機械学習モデルの概要を示すブロック図である。モデル学習装置1は、音声モデル及びリグモデルの2種類の分離したサブモデルから構成される。
音声モデルは、人間の声を含む音声データと、任意の言語のスタイル情報を入力とする。そして、所定の音響信号処理を行い、機械学習用の入力値としての特徴量である音声特徴量を出力する。
リグモデルは、音声モデルが出力した音声特徴量、前記スタイル情報、使用するリグに関する情報、及びキャラクタのバインドポーズを入力とする。そして、所定の処理を行い、キャラクタのアニメーションに関するキャラクタ制御情報を出力する。キャラクタ制御情報は、例えば、アニメーションのトランスフォーム情報及びポーズウェイトを含んでいてもよい。
[音声モデル-音響信号処理]
次に、本発明の第一の実施の形態における音声モデルにおける音響信号処理について説明する。音声モデルは音声データを受け取ると、まず音声データをモノラルに変換する。次に、音楽データの周波数を所定の周波数帯に設定(リサンプリング)する。所定の周波数帯は、人間の声の周波数帯を適切に把握できるものであればよく、例えば19.2kHzである。
次に、本発明の第一の実施の形態における音声モデルにおける音響信号処理について説明する。音声モデルは音声データを受け取ると、まず音声データをモノラルに変換する。次に、音楽データの周波数を所定の周波数帯に設定(リサンプリング)する。所定の周波数帯は、人間の声の周波数帯を適切に把握できるものであればよく、例えば19.2kHzである。
次に、短時間フーリエ変換を使用して、処理した音声データをスペクトログラムに変換する。ここで、例えば、ウィンドウ幅を200サンプルとし、160サンプル分ずつ動かしながらフーリエ変換を行う。音声のサンプリングレートは19.2kHzであるから、この処理で音声1秒ごとに120の出力が生成されます(19200/160=120)。それぞれの出力は約10m秒分の音声をカバーしており、後続の出力と20%の重なりが存在する。
スペクトログラムでは水平方向の軸が時間を、垂直方向の軸が周波数を、そして値は音量を示す。より人間の感覚に近づけるようにするため、スペクトログラムをメル尺度に変換する(以下、メルスペクトログラムともいう)。メル尺度とは人間の周波数感覚にもとづいた対数尺度をいう。
メル尺度への変換は、スペクトログラムの垂直方向軸を対数的に引き延ばす効果がある。これにより、低い周波数帯での周波数差をより重視し、高い周波数帯での周波数差を無視することができる。
周波数と同様に、音量に対する人間の感覚も対数的である。メルスペクトログラムでの音量の値は線形であるから、人間の音量感覚により近づけるために、メルスペクトログラムの値の対数を計算する(以下、ログメルスペクトログラムともいう)。図2は、本発明の実施の形態の少なくとも1つに対応する、ログメルスペクトログラムを表す図である。
図3は、本発明の実施の形態の少なくとも1つに対応する、ログメルスペクトログラムを用いた学習方法を説明する図である。
ログメルスペクトログラムの画像は、水平方向の移動は時間の変更を、垂直方向の移動は近似的なピッチ変更を表す。時間とピッチの両方に不変である特徴量を学習するために、2次元の畳み込みニューラルネットワークを使用する。これは相対ピッチをもとに出力するもので、絶対的な周波数の値よりも周波数間の関係を重視する。
一方、周波数情報のベクトルとして画像の各列に単純な処理も行う。これは絶対ピッチをもとに出力するもので、絶対的な周波数の値を使用する。そして、両方の出力結果を組み合わせる。出力結果の組み合わせ方法については後述する。
絶対的な情報を組み合わせることで、いくつかの音素について品質が向上させることができる。
[畳み込みネットワーク]
使用した畳み込みニューラルネットワークについて説明する。このネットワークは、時間で変化する1次元の出力を生成する。情報を深度チャネルに転送することで画像の高さを段階的に削減することができる。
使用した畳み込みニューラルネットワークについて説明する。このネットワークは、時間で変化する1次元の出力を生成する。情報を深度チャネルに転送することで画像の高さを段階的に削減することができる。
図4は、本発明の実施の形態の少なくとも1つに対応する、畳み込みニューラルネットワークの設定を説明する図である。図4(A)は、ネットワークの先頭部分を表す。3つの異なる2次元の畳み込みニューラルレイヤーを、チャネル数を増やしながら適用する。それぞれのレイヤーの後部には、バッチ正規化が続く。それぞれのレイヤーは、画像の高さを入力時の1/4に削減する。
図4(B)は、図4(A)のネットワークに続くネットワークを示す。異なるTime dilationが設定された3つのカスタム残差ブロックのセットを3セット適用する。Time dilationを用いることで、時間軸の知覚野を大きく向上でき、ネットワークが音声の速度変化に適応できるようになる。
それぞれの残差ブロックのセットはチャネルの深さを倍にする一方、画像の高さを半分に削減する。最後の残差ブロックのセットで処理されると、画像は平坦になり、1次元ベクトルとして使用できる。
[残差ブロックの構成]
図5は、本発明の実施の形態の少なくとも1つに対応する、残差ブロックの構成を説明するブロック図である。本発明の第一の実施の形態における残差ブロックは、Pre-activation ResNetブロックに基づいていて、Time dilationに加えてSqueeze-and-Excitationを適用している。
図5は、本発明の実施の形態の少なくとも1つに対応する、残差ブロックの構成を説明するブロック図である。本発明の第一の実施の形態における残差ブロックは、Pre-activation ResNetブロックに基づいていて、Time dilationに加えてSqueeze-and-Excitationを適用している。
最初の畳み込みでは、Dilationとストライドを行う。2番目の畳み込みでは、目標となるカーネルのサイズを使用したDilationを適用します。3番目の畳み込みはカーネルサイズを1とすることで、各深度チャネルを全結合したレイヤーと同じようにふるまう。
下部の点線は、ResNetブロックのショートカットパスで、他のブロックの影響をほとんど受けずに勾配情報を送ることができる。Strided convolutionは結果を足し合わせる際に、入力と出力のサイズの一貫性を維持するために用いる。
図3における、相対ピッチ及び絶対ピッチの結果の組み合わせは、上述した畳み込みネットワーク及び残差ブロックを用いる。2次元ではなく1次元の畳み込みネットワークを使用することに留意する。
このように処理することで、オーディオ特徴量(音響特徴量ともいう)を得ることができる。
[音声特徴量抽出]
次に、音声特徴量の取得について説明する。図6は、本発明の実施の形態の少なくとも1つに対応する、オーディオ特徴量を入力として音声特徴量の出力を説明する図である。
次に、音声特徴量の取得について説明する。図6は、本発明の実施の形態の少なくとも1つに対応する、オーディオ特徴量を入力として音声特徴量の出力を説明する図である。
まず、オーディオ特徴量を言語スタイル情報に基づいて正規化する。スタイル情報を用いた正規化については後述する。その後、1次元の畳み込みネットワークを使用して位置埋め込みを計算し、その結果を単一のTransformer encoderを用いて変換することで、音声特徴量を取得することができる。ここで、Transformer encoderにおけるアテンションは各瞬間の前後1秒間のオーディオ特徴量のみに制限することが好ましい。
[スタイル正規化]
例えば、言語、キャラクタ、リグ等複数の種類のスタイルがあり、それぞれのスタイルは独立な値の集合を有する。例えば、言語のスタイルは日本語、英語、そしてその他の言語であってもよい。スタイルに含まれる情報は、訓練データに基づいて設定され得る。訓練データについては後述する。
例えば、言語、キャラクタ、リグ等複数の種類のスタイルがあり、それぞれのスタイルは独立な値の集合を有する。例えば、言語のスタイルは日本語、英語、そしてその他の言語であってもよい。スタイルに含まれる情報は、訓練データに基づいて設定され得る。訓練データについては後述する。
図7は、本発明の実施の形態の少なくとも1つに対応する、スタイル値を説明する図である。リグのスタイルは、例えば、ゲームで使用されるキャラクタの種類を取り得る。より具体的には、主要キャラクタ用のリグ、モブキャラクタ用のリグ、敵キャラクタ用のリグ等が挙げられる。
スタイルに対して値を設定しないこともでき、その場合はより汎用的な結果が生成され得る。未設定の場合は、例えば訓練データに現れない新規キャラクタや新しい言語を追加する際に使用できる。
図7(A)に示すように、それぞれのスタイルごとの埋め込みと、スタイルの取りうる値ごとの埋め込みを学習し、選択された使用スタイルに基づいて、2つの埋め込みを組として足し合わせる。スタイルの値が設定されない場合は、スタイル自身の埋め込みのみが使用される。例えば、図7(A)では、言語スタイルに対して特定の値を設定しない場合であるので、言語スタイルの埋め込みを使用する。また、スタイル値の埋め込みは0に初期化される。そのため、訓練データのサンプルが少ないスタイルは、スタイル値が設定されない場合の結果に近づく。
図7(B)は、Global Style Tokensを用いたデータの埋め込みを説明する図である。図7(A)のように設定することで、入力スタイルごとに1つの埋め込みを得ることができる。この埋め込みの集合に対し、全部のデータで共有されるGlobal Style Tokens(GSTs)を追加する。これらはスタイルと独立して、すべての訓練データに共有される学習された埋め込みである。モデル学習装置は、人間がスタイルの集合として明示的に定義していないようなその他の側面をとらえることができる。
図8は、本発明の実施の形態の少なくとも1つに対応する、スタイル埋め込み情報の集合の組み合わせを説明する図である。ここで、Multi-head attentionを使用する。正規化したい任意の入力を使用し、それぞれの瞬間での値とすべての埋め込みとの間でAttentionを実行する。その結果、瞬間ごとの合成された埋め込みとなり、同一サイズのスケールベクトルとバイアスベクトルに分けられる。これらのスケールベクトルとバイアスベクトルを用いて、入力データを正規化する。
[リグモデル-フレーム特徴量抽出部]
次に、リグモデルのフレーム特徴量抽出方法について説明する。図9は、本発明の実施の形態の少なくとも1つに対応する、フレーム特徴量抽出方法を説明する図である。
次に、リグモデルのフレーム特徴量抽出方法について説明する。図9は、本発明の実施の形態の少なくとも1つに対応する、フレーム特徴量抽出方法を説明する図である。
始めに、音声特徴量に対してスタイル正規化を行う。言語スタイルのみを使用していた音声モデルとは違い、ここでは使用可能なすべてのスタイル情報を使用する。正規化する際に、ここではスケールベクトルのみを使用する。
その後、ReLU(Rectified Linear Unit:ランプ関数)を用いて活性をもつ全結合レイヤーを適用します。
次に、適切なストライドでの1次元の畳み込みを適用します。これは、例えば、120Hzに固定されている音声特徴量の周波数を、目的のアニメーションのFPS(例:30fps)にダウンスケールするためです。30fpsに変換するためには、ストライドを4にするとよい。その後、別の単一のTransformer encoderを適用すると、フレーム特徴量を取得できる。
[キャラクタ制御情報出力]
次に、フレーム特徴量から出力する情報について説明する。本発明の第一の実施の形態においては、フレーム特徴量から、アニメーションのトランスフォーム情報及びポーズウェイトに関する情報を出力する。図10は、本発明の実施の形態の少なくとも1つに対応する、トランスフォーム情報の出力方法を説明する図である。
次に、フレーム特徴量から出力する情報について説明する。本発明の第一の実施の形態においては、フレーム特徴量から、アニメーションのトランスフォーム情報及びポーズウェイトに関する情報を出力する。図10は、本発明の実施の形態の少なくとも1つに対応する、トランスフォーム情報の出力方法を説明する図である。
アニメーションのトランスフォーム情報の出力は、カットシーンで使われるような品質の高い結果を生成することができる。この出力は後でFBX形式に変換され得る。
このデータの生成には、フレーム特徴量から、ボーンのトランスフォームを出力するための全結合レイヤーを使用する。そして、複数スタイルでの正規化を再度行い、その結果をターゲットキャラクターのバインドポーズに足し合わせることで生成する。
たとえトランスフォーム内で回転をオイラー角として表現している場合でも、クォータニオン形式による回転に対して同じ処理を独立して行います。このようにすることで、モデルの学習を安定化させることができる。内部の回転表現からクォータニオン、オイラー角の両方を生成できます。
[ポーズウェイト出力]
次に、ポーズウェイトに関する情報の出力について説明する。図11は、本発明の実施の形態の少なくとも1つに対応する、ポーズウェイトの出力方法を説明する図である。
次に、ポーズウェイトに関する情報の出力について説明する。図11は、本発明の実施の形態の少なくとも1つに対応する、ポーズウェイトの出力方法を説明する図である。
ここでは、与えられた感情に対応するポーズセットをブレンドするためのポーズウェイトを生成し、ランタイムで使用できるようにそれらのウェイトをファイルに保存する。
モデルをすべての可能な感情にさらすために、感情ウェイトも生成する。これらの感情のブレンドウェイトはすべての感情に対するLipmapポーズをブレンドして、1つのポーズセットを得る。その後、得られたポーズセットはLipmapのポーズウェイトでブレンドされる。
アニメーショントランスフォーム情報と同じように、フレーム特徴量に全結合レイヤーを適用し、その結果に複数スタイルでの正規化を適用して生成する。しかし、この場合はスタイル埋め込みを使用せずに、すべての訓練データで共有されているGlobal Style Tokens(GSTs)のみ用いる。
図11に示すように、モデル推論時はLipmap(HSF)のポーズウェイトを生成し、ファイルに保存する。一方、ランタイムでは、Lipmap(HSF)のポーズウェイトとリップマップのポーズをロードし、アニメーショントランスフォームを得るためにブレンドしている。
[学習方法]
本発明の第一の実施の形態において、モデルを学習する方法として現時点で2種類の学習方法が成果を上げている。1つはエンド・ツー・エンド学習(E2E学習)です。これは、訓練データに含まれる音声データ及びアニメーションデータを用いて、音声モデル及びリグモデルの両方を同時に、一般的な教師あり学習のアプローチで学習する方法である。
本発明の第一の実施の形態において、モデルを学習する方法として現時点で2種類の学習方法が成果を上げている。1つはエンド・ツー・エンド学習(E2E学習)です。これは、訓練データに含まれる音声データ及びアニメーションデータを用いて、音声モデル及びリグモデルの両方を同時に、一般的な教師あり学習のアプローチで学習する方法である。
[訓練データ]
訓練データには、既にある動画データのカットシーンからの、同期された音声データとリップシンクアニメーションを使用した。一例ではあるが、全体として3時間半分の音声データとリップシンクアニメーションを使用し、これらは53体のキャラクタ、3種類の異なるフェイシャルリグ、そして日本語、英語の2言語を網羅している。
訓練データには、既にある動画データのカットシーンからの、同期された音声データとリップシンクアニメーションを使用した。一例ではあるが、全体として3時間半分の音声データとリップシンクアニメーションを使用し、これらは53体のキャラクタ、3種類の異なるフェイシャルリグ、そして日本語、英語の2言語を網羅している。
訓練データに含まれるデータが短い場合には、同じキャラクタや、同じ言語の複数の短いクリップをランダムに連結して拡張することで、解消可能である。また、音声の速度や異なるキャラクタによるピッチの変化に対して、ロバスト性を向上させるために、オーディオとアニメーションの速度をランダムに変化させたクリップのコピーを追加する、あるいは、速度は維持し、オーディオのピッチをランダムに変更したクリップのコピーを追加することで、訓練データの精度を高めた。
[損失関数]
使用している損失関数は、訓練データのアニメーションデータと生成されたアニメーショントランスフォームとのL1誤差である。Lipmapを含む、すべての出力におけるアニメーショントランスフォームの誤差を計算する。Lipmapのポーズウェイトの生成については、Lipmapブレンディングを通した単純な誤差逆伝搬によって学習する。
使用している損失関数は、訓練データのアニメーションデータと生成されたアニメーショントランスフォームとのL1誤差である。Lipmapを含む、すべての出力におけるアニメーショントランスフォームの誤差を計算する。Lipmapのポーズウェイトの生成については、Lipmapブレンディングを通した単純な誤差逆伝搬によって学習する。
Mayaで使用されるボーン階層を通した誤差逆伝搬のコストを回避するため、訓練データに含まれる、ボーンのトランスフォームの数値範囲で出力を正規化することにより、品質の高いアニメーションを生成することができる。
また、訓練データとバインドポーズとの差分に基づいて誤差が大きくなるウェイトを追加した。バインドポーズで口が閉じられていることから、いくつかの音素を処理する際に、生成したモデルが頻繁に口を閉じるのに失敗することを防ぐためである。
もう1つの学習方法は、最初に音声データのみが必要となる自己教師あり学習を用いて、音声モデルを事前学習する方法である。図12は、本発明の実施の形態の少なくとも1つに対応する、音声モデルを事前学習する方法を説明する図である。
この場合、リグモデルを学習するために事前学習された音声モデルを用いる。初めに、音声モデルのウェイトを固定することによってリグモデルの学習を行い、その後リグモデルの学習が十分に進んだら音声モデルのファインチューニングを行う。
学習に使用できる豊富な量のオープンドメインなオーディオ(音声データ)がオンライン上にあるため、音声モデルを事前に学習させる方法は採用されやすい。
上述の手順によりチューニングした音声モデル及びリグモデルを生成し、アニメーション生成装置、アニメーション生成方法、アニメーション生成プログラムとして設計してもよい。
上述の説明とは別に、第一の実施の形態としてコンピュータ装置とを備える情報処理システムを用いてもよい。情報処理システムは、少なくとも1のコンピュータ装置から構成される。コンピュータ装置は、一例として、制御部、RAM、ストレージ部、サウンド処理部、グラフィックス処理部、通信インタフェース、インタフェース部を備え、それぞれ内部バスにより接続されている。グラフィックス処理部は表示部に接続されている。表示部は、表示画面と、表示部に対する、プレイヤによる接触により入力を受け付けるタッチ入力部とを有し得る。
タッチ入力部は、例えば、タッチパネルに用いられる抵抗膜方式、静電容量方式、超音波表面弾性波方式、光学方式、又は、電磁誘導方式等、いずれの方式を用いて、接触した位置を検知できるものであってもよく、ユーザのタッチ操作により操作を認識できれば方式は問わない。タッチ入力部の上面を指やスタイラス等により押圧や移動等の操作をした場合に、指等の位置を検知可能なデバイスである。
インタフェース部には外部メモリ(例えば、SDカード等)が接続され得る。外部メモリから読み込まれたデータはRAMにロードされ、制御部により演算処理が実行される。
通信インタフェースは無線又は有線により通信ネットワークに接続が可能であり、通信ネットワークを介してデータを受信することが可能である。通信インタフェースを介して受信したデータは、外部メモリから読み込まれたデータと同様に、RAMにロードされ、制御部により演算処理が行われる。
コンピュータ装置は、近接センサ、赤外線センサ、ジャイロセンサ、又は、加速度センサ等のセンサを備えるものであってもよい。また、コンピュータ装置は、レンズを有し、レンズを介して撮像する撮像部を備えるものであってもよい。さらに、コンピュータ装置は、身体に装着可能(ウェアラブル)な端末装置であってもよい。
第一の実施の形態の一側面として、より自然なアニメーションを生成する新たなモデル学習装置を提供することが可能となる。
第一の実施の形態において、「音響特徴量」とは、例えば、音の特徴を表現した数値をいう。「音声特徴量」とは、例えば、機械学習用の入力値としての特徴量をいう。「フレーム特徴量」とは、例えば、フレームに含まれる特徴を表現した数値をいう。「コンピュータ装置」とは、例えば、据置型ゲーム機、携帯型ゲーム機、ウェアラブル型端末、デスクトップ型又はノート型パーソナルコンピュータ、タブレットコンピュータ、又は、PDA等をいい、表示画面にタッチパネルセンサを備えるスマートフォン等の携帯型端末であってもよい。
[付記]
上で述べた実施の形態の説明は、下記の発明を、発明の属する分野における通常の知識を有する者がその実施をすることができるように記載した。
上で述べた実施の形態の説明は、下記の発明を、発明の属する分野における通常の知識を有する者がその実施をすることができるように記載した。
[1] 人間の声を含む音声データに対して所定の音響信号処理を実行し、音響特徴量を抽出する音響特徴量抽出部と、
抽出した音響特徴量を含む第一入力情報に対して第一変換処理を実行し、音声特徴量を抽出する音声特徴量抽出部と
を有する音声モデル学習装置と、
抽出した音声特徴量を含む第二入力情報に対して第二変換処理を実行し、フレーム特徴量を抽出するフレーム特徴量抽出部と、
抽出したフレーム特徴量から、キャラクタを制御するキャラクタ制御情報を出力するキャラクタ制御情報出力部と
を有するリグモデル学習装置と
を備える、モデル学習装置。
抽出した音響特徴量を含む第一入力情報に対して第一変換処理を実行し、音声特徴量を抽出する音声特徴量抽出部と
を有する音声モデル学習装置と、
抽出した音声特徴量を含む第二入力情報に対して第二変換処理を実行し、フレーム特徴量を抽出するフレーム特徴量抽出部と、
抽出したフレーム特徴量から、キャラクタを制御するキャラクタ制御情報を出力するキャラクタ制御情報出力部と
を有するリグモデル学習装置と
を備える、モデル学習装置。
[2] モデル学習装置がさらに、
音声及び正解となるキャラクタのアニメーションに関する情報を含む訓練データを記憶する訓練データ記憶部と、
訓練データに含まれるキャラクタのアニメーションに関する情報と、訓練データを用いて出力されたキャラクタ制御情報との差分に基づいて前記音声モデル学習装置及びリグモデル学習装置のパラメータを更新する学習モデル更新部と
を備える、[1]に記載のモデル学習装置。
音声及び正解となるキャラクタのアニメーションに関する情報を含む訓練データを記憶する訓練データ記憶部と、
訓練データに含まれるキャラクタのアニメーションに関する情報と、訓練データを用いて出力されたキャラクタ制御情報との差分に基づいて前記音声モデル学習装置及びリグモデル学習装置のパラメータを更新する学習モデル更新部と
を備える、[1]に記載のモデル学習装置。
[3] 人間の声を含む音声データに対して所定の音響信号処理を実行し、音響特徴量を抽出するステップと、
抽出した音響特徴量を含む第一入力情報に対して第一変換処理を実行し、音声特徴量を抽出するステップと
抽出した音声特徴量を含む第二入力情報に対して第二変換処理を実行し、フレーム特徴量を抽出するステップと、
抽出したフレーム特徴量から、キャラクタを制御するキャラクタ制御情報を出力するステップと
を有する、モデル学習方法。
抽出した音響特徴量を含む第一入力情報に対して第一変換処理を実行し、音声特徴量を抽出するステップと
抽出した音声特徴量を含む第二入力情報に対して第二変換処理を実行し、フレーム特徴量を抽出するステップと、
抽出したフレーム特徴量から、キャラクタを制御するキャラクタ制御情報を出力するステップと
を有する、モデル学習方法。
[4] 人間の声を含む音声データに対して所定の音響信号処理を実行し、音響特徴量を抽出するステップと、
抽出した音響特徴量を含む第一入力情報に対して第一変換処理を実行し、音声特徴量を抽出するステップと
をコンピュータ装置に実行させる音声モデル学習プログラムと、
抽出した音声特徴量を含む第二入力情報に対して第二変換処理を実行し、フレーム特徴量を抽出するステップと、
抽出したフレーム特徴量から、キャラクタを制御するキャラクタ制御情報を出力するステップと
をコンピュータ装置に実行させるリグモデル学習プログラムと
を備える、モデル学習プログラム。
抽出した音響特徴量を含む第一入力情報に対して第一変換処理を実行し、音声特徴量を抽出するステップと
をコンピュータ装置に実行させる音声モデル学習プログラムと、
抽出した音声特徴量を含む第二入力情報に対して第二変換処理を実行し、フレーム特徴量を抽出するステップと、
抽出したフレーム特徴量から、キャラクタを制御するキャラクタ制御情報を出力するステップと
をコンピュータ装置に実行させるリグモデル学習プログラムと
を備える、モデル学習プログラム。
[5] 人間の声を含む音声データを入力とし、[1]に記載のモデル学習装置で学習した、音声データから音声特徴量を抽出するための音声モデルを用いて音声特徴量を抽出する音声特徴量抽出手段と
前記音声特徴量を含む第二入力情報を入力とし、[1]に記載のモデル学習装置で学習した、音声特徴量を含む第二入力情報からキャラクタを制御するキャラクタ制御情報を出力するためのリグモデルを用いて、キャラクタ制御情報を出力するキャラクタ制御情報出力手段と、
キャラクタ制御情報に基づいてキャラクタに関するアニメーションを生成するアニメーション生成手段と
を備えるアニメーション生成装置。
前記音声特徴量を含む第二入力情報を入力とし、[1]に記載のモデル学習装置で学習した、音声特徴量を含む第二入力情報からキャラクタを制御するキャラクタ制御情報を出力するためのリグモデルを用いて、キャラクタ制御情報を出力するキャラクタ制御情報出力手段と、
キャラクタ制御情報に基づいてキャラクタに関するアニメーションを生成するアニメーション生成手段と
を備えるアニメーション生成装置。
[6] 人間の声を含む音声データを入力とし、[3]に記載のモデル学習方法で学習した、音声データから音声特徴量を抽出するための音声モデルを用いて音声特徴量を抽出するステップと、
前記音声特徴量を含む第二入力情報を入力とし、[3]に記載のモデル学習方法で学習した、音声特徴量を含む第二入力情報からキャラクタを制御するキャラクタ制御情報を出力するためのリグモデルを用いて、キャラクタ制御情報を出力するステップと、
キャラクタ制御情報に基づいてキャラクタに関するアニメーションを生成するステップと
を有するアニメーション生成方法。
前記音声特徴量を含む第二入力情報を入力とし、[3]に記載のモデル学習方法で学習した、音声特徴量を含む第二入力情報からキャラクタを制御するキャラクタ制御情報を出力するためのリグモデルを用いて、キャラクタ制御情報を出力するステップと、
キャラクタ制御情報に基づいてキャラクタに関するアニメーションを生成するステップと
を有するアニメーション生成方法。
[7] 人間の声を含む音声データを入力とし、[4]に記載の音声モデル学習プログラムで学習した、音声データから音声特徴量を抽出するための音声モデルを用いて音声特徴量を抽出するステップと、
前記音声特徴量を含む第二入力情報を入力とし、[4]に記載のリグモデル学習プログラムで学習した、音声特徴量を含む第二入力情報からキャラクタを制御するキャラクタ制御情報を出力するためのリグモデルを用いて、キャラクタ制御情報を出力するステップと、
キャラクタ制御情報に基づいてキャラクタに関するアニメーションを生成するステップと
をコンピュータ装置に実行させるアニメーション生成プログラム。
前記音声特徴量を含む第二入力情報を入力とし、[4]に記載のリグモデル学習プログラムで学習した、音声特徴量を含む第二入力情報からキャラクタを制御するキャラクタ制御情報を出力するためのリグモデルを用いて、キャラクタ制御情報を出力するステップと、
キャラクタ制御情報に基づいてキャラクタに関するアニメーションを生成するステップと
をコンピュータ装置に実行させるアニメーション生成プログラム。
1 :モデル学習装置
Claims (7)
- 人間の声を含む音声データに対して所定の音響信号処理を実行し、音響特徴量を抽出する音響特徴量抽出部と、
抽出した音響特徴量を含む第一入力情報に対して第一変換処理を実行し、音声特徴量を抽出する音声特徴量抽出部と
を有する音声モデル学習装置と、
抽出した音声特徴量を含む第二入力情報に対して第二変換処理を実行し、フレーム特徴量を抽出するフレーム特徴量抽出部と、
抽出したフレーム特徴量から、キャラクタを制御するキャラクタ制御情報を出力するキャラクタ制御情報出力部と
を有するリグモデル学習装置と
を備える、モデル学習装置。 - モデル学習装置がさらに、
音声及び正解となるキャラクタのアニメーションに関する情報を含む訓練データを記憶する訓練データ記憶部と、
訓練データに含まれるキャラクタのアニメーションに関する情報と、訓練データを用いて出力されたキャラクタ制御情報との差分に基づいて前記音声モデル学習装置及びリグモデル学習装置のパラメータを更新する学習モデル更新部と
を備える、請求項1に記載のモデル学習装置。 - 人間の声を含む音声データに対して所定の音響信号処理を実行し、音響特徴量を抽出するステップと、
抽出した音響特徴量を含む第一入力情報に対して第一変換処理を実行し、音声特徴量を抽出するステップと
抽出した音声特徴量を含む第二入力情報に対して第二変換処理を実行し、フレーム特徴量を抽出するステップと、
抽出したフレーム特徴量から、キャラクタを制御するキャラクタ制御情報を出力するステップと
を有する、モデル学習方法。 - 人間の声を含む音声データに対して所定の音響信号処理を実行し、音響特徴量を抽出するステップと、
抽出した音響特徴量を含む第一入力情報に対して第一変換処理を実行し、音声特徴量を抽出するステップと
をコンピュータ装置に実行させる音声モデル学習プログラムと、
抽出した音声特徴量を含む第二入力情報に対して第二変換処理を実行し、フレーム特徴量を抽出するステップと、
抽出したフレーム特徴量から、キャラクタを制御するキャラクタ制御情報を出力するステップと
をコンピュータ装置に実行させるリグモデル学習プログラムと
を備える、モデル学習プログラム。 - 人間の声を含む音声データを入力とし、請求項1に記載のモデル学習装置で学習した、音声データから音声特徴量を抽出するための音声モデルを用いて音声特徴量を抽出する音声特徴量抽出手段と
前記音声特徴量を含む第二入力情報を入力とし、請求項1に記載のモデル学習装置で学習した、音声特徴量を含む第二入力情報からキャラクタを制御するキャラクタ制御情報を出力するためのリグモデルを用いて、キャラクタ制御情報を出力するキャラクタ制御情報出力手段と、
キャラクタ制御情報に基づいてキャラクタに関するアニメーションを生成するアニメーション生成手段と
を備えるアニメーション生成装置。 - 人間の声を含む音声データを入力とし、請求項3に記載のモデル学習方法で学習した、音声データから音声特徴量を抽出するための音声モデルを用いて音声特徴量を抽出するステップと、
前記音声特徴量を含む第二入力情報を入力とし、請求項3に記載のモデル学習方法で学習した、音声特徴量を含む第二入力情報からキャラクタを制御するキャラクタ制御情報を出力するためのリグモデルを用いて、キャラクタ制御情報を出力するステップと、
キャラクタ制御情報に基づいてキャラクタに関するアニメーションを生成するステップと
を有するアニメーション生成方法。 - 人間の声を含む音声データを入力とし、請求項4に記載の音声モデル学習プログラムで学習した、音声データから音声特徴量を抽出するための音声モデルを用いて音声特徴量を抽出するステップと、
前記音声特徴量を含む第二入力情報を入力とし、請求項4に記載のリグモデル学習プログラムで学習した、音声特徴量を含む第二入力情報からキャラクタを制御するキャラクタ制御情報を出力するためのリグモデルを用いて、キャラクタ制御情報を出力するステップと、
キャラクタ制御情報に基づいてキャラクタに関するアニメーションを生成するステップと
をコンピュータ装置に実行させるアニメーション生成プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022133949A JP2024030802A (ja) | 2022-08-25 | 2022-08-25 | モデル学習装置、モデル学習方法、及びモデル学習プログラム。 |
US18/456,002 US20240078996A1 (en) | 2022-08-25 | 2023-08-25 | Model learning system, model learning method, a non-transitory computer-readable recording medium, an animation generation system, and an animation generation method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022133949A JP2024030802A (ja) | 2022-08-25 | 2022-08-25 | モデル学習装置、モデル学習方法、及びモデル学習プログラム。 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2024030802A true JP2024030802A (ja) | 2024-03-07 |
Family
ID=90061101
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022133949A Pending JP2024030802A (ja) | 2022-08-25 | 2022-08-25 | モデル学習装置、モデル学習方法、及びモデル学習プログラム。 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20240078996A1 (ja) |
JP (1) | JP2024030802A (ja) |
-
2022
- 2022-08-25 JP JP2022133949A patent/JP2024030802A/ja active Pending
-
2023
- 2023-08-25 US US18/456,002 patent/US20240078996A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
US20240078996A1 (en) | 2024-03-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11741940B2 (en) | Text and audio-based real-time face reenactment | |
WO2022116977A1 (zh) | 目标对象的动作驱动方法、装置、设备及存储介质及计算机程序产品 | |
WO2022048403A1 (zh) | 基于虚拟角色的多模态交互方法、装置及系统、存储介质、终端 | |
WO2019196306A1 (zh) | 基于语音的口型动画合成装置、方法及可读存储介质 | |
US11514634B2 (en) | Personalized speech-to-video with three-dimensional (3D) skeleton regularization and expressive body poses | |
EP3912159B1 (en) | Text and audio-based real-time face reenactment | |
EP4336490A1 (en) | Voice processing method and related device | |
WO2021196645A1 (zh) | 交互对象的驱动方法、装置、设备以及存储介质 | |
CN111508511A (zh) | 实时变声方法及装置 | |
JP6711044B2 (ja) | 画像処理装置、表示装置、アニメーション生成方法及びプログラム | |
US20230082830A1 (en) | Method and apparatus for driving digital human, and electronic device | |
US10825224B2 (en) | Automatic viseme detection for generating animatable puppet | |
CN112735371B (zh) | 一种基于文本信息生成说话人视频的方法及装置 | |
WO2023246163A1 (zh) | 一种虚拟数字人驱动方法、装置、设备和介质 | |
WO2024088321A1 (zh) | 虚拟形象面部驱动方法、装置、电子设备及介质 | |
CN111916054A (zh) | 基于唇形的语音生成方法、装置和系统及存储介质 | |
US20240022685A1 (en) | Method for generating on-the-beat video and electronic device | |
EP4343755A1 (en) | Method and system for generating composite speech by using style tag expressed in natural language | |
CN114882862A (zh) | 一种语音处理方法及相关设备 | |
CN113222841A (zh) | 一种图像处理方法、装置、设备及介质 | |
CN117115310A (zh) | 一种基于音频和图像的数字人脸生成方法及系统 | |
JP2024030802A (ja) | モデル学習装置、モデル学習方法、及びモデル学習プログラム。 | |
EP4404574A1 (en) | Video processing method and apparatus, and medium and program product | |
Yang et al. | Integrated visual transformer and flash attention for lip-to-speech generation GAN | |
US11461948B2 (en) | System and method for voice driven lip syncing and head reenactment |