JP2024030802A

JP2024030802A - モデル学習装置、モデル学習方法、及びモデル学習プログラム。

Info

Publication number: JP2024030802A
Application number: JP2022133949A
Authority: JP
Inventors: ヒルレアンドログラシア; Hill Leandro Gracia; 聖人中田; Masato Nakada
Original assignee: Square Enix Co Ltd
Current assignee: Square Enix Co Ltd
Priority date: 2022-08-25
Filing date: 2022-08-25
Publication date: 2024-03-07
Also published as: US20240078996A1

Abstract

【課題】より自然なアニメーション生成方法を提供することを目的とする。【解決手段】音声データを入力として、音声特徴量を抽出する音声モデルと、抽出した音声特徴量を含む第二入力情報を入力として、キャラクタを制御するキャラクタ制御情報を出力するリグモデルとを備えるモデル学習装置。【選択図】図１

Description

本発明は、モデル学習装置、モデル学習方法、及びモデル学習プログラムに関する。

キャラクタの音声データに合わせてその言語を発しているように唇を動かすリップシンク（LipSync）という技術がある。出願人は、音声データに基づいてリップシンクアニメーションを生成する技術を公開している（例えば特許文献１を参照）。

特開２０２０－１８４１００号公報

安定したリップシンクアニメーションを生成するため、さらなる改善が望まれていた。

本発明の少なくとも１つの実施の形態の目的は、より自然なアニメーションを生成する新たなモデル学習装置を提供することである。

非限定的な観点によると、本発明に係るモデル学習装置は、人間の声を含む音声データに対して所定の音響信号処理を実行し、音響特徴量を抽出する音響特徴量抽出部と、抽出した音響特徴量を含む第一入力情報に対して第一変換処理を実行し、音声特徴量を抽出する音声特徴量抽出部とを有する音声モデル学習装置と、抽出した音声特徴量を含む第二入力情報に対して第二変換処理を実行し、フレーム特徴量を抽出するフレーム特徴量抽出部と、抽出したフレーム特徴量から、キャラクタを制御するキャラクタ制御情報を出力するキャラクタ制御情報出力部とを有するリグモデル学習装置とを備える、モデル学習装置である。

非限定的な観点によると、本発明に係るモデル学習方法は、人間の声を含む音声データに対して所定の音響信号処理を実行し、音響特徴量を抽出するステップと、抽出した音響特徴量を含む第一入力情報に対して第一変換処理を実行し、音声特徴量を抽出するステップと抽出した音声特徴量を含む第二入力情報に対して第二変換処理を実行し、フレーム特徴量を抽出するステップと、抽出したフレーム特徴量から、キャラクタを制御するキャラクタ制御情報を出力するステップとを有する、モデル学習方法である。

非限定的な観点によると、本発明に係るモデル学習プログラムは、人間の声を含む音声データに対して所定の音響信号処理を実行し、音響特徴量を抽出するステップと、抽出した音響特徴量を含む第一入力情報に対して第一変換処理を実行し、音声特徴量を抽出するステップとをコンピュータ装置に実行させる音声モデル学習プログラムと、抽出した音声特徴量を含む第二入力情報に対して第二変換処理を実行し、フレーム特徴量を抽出するステップと、抽出したフレーム特徴量から、キャラクタを制御するキャラクタ制御情報を出力するステップとをコンピュータ装置に実行させるリグモデル学習プログラムとを備える、モデル学習プログラムである。

本発明の各実施形態により１または２以上の不足が解決される。

本発明の実施の形態の少なくとも１つに対応する、機械学習モデルの概要を示すブロック図である。本発明の実施の形態の少なくとも１つに対応する、ログメルスペクトログラムを表す図である。本発明の実施の形態の少なくとも１つに対応する、ログメルスペクトログラムを用いた学習方法を説明する図である。本発明の実施の形態の少なくとも１つに対応する、畳み込みニューラルネットワークの設定を説明する図である。本発明の実施の形態の少なくとも１つに対応する、残差ブロックの構成を説明するブロック図である。本発明の実施の形態の少なくとも１つに対応する、オーディオ特徴量を入力として音声特徴量の出力を説明する図である。本発明の実施の形態の少なくとも１つに対応する、スタイル値を説明する図である。本発明の実施の形態の少なくとも１つに対応する、スタイル埋め込み情報の集合の組み合わせを説明する図である。本発明の実施の形態の少なくとも１つに対応する、フレーム特徴量抽出方法を説明する図である。本発明の実施の形態の少なくとも１つに対応する、トランスフォーム情報の出力方法を説明する図である。本発明の実施の形態の少なくとも１つに対応する、ポーズウェイトの出力方法を説明する図である。本発明の実施の形態の少なくとも１つに対応する、音声モデルを事前学習する方法を説明する図である。

以下、添付図面を参照して、本発明の実施の形態について説明する。以下、効果に関する記載は、本発明の実施の形態の効果の一側面であり、ここに記載するものに限定されない。また、以下で説明するフローチャートを構成する各処理の順序は、処理内容に矛盾や不整合が生じない範囲で順不同である。

［第一の実施の形態］
本発明の第一の実施の形態の概要について説明をする。以下では、第一の実施の形態として、人間の声を含む音声データからキャラクタの表情を含むキャラクタを制御するキャラクタ制御情報を出力するモデル学習装置を例示して説明する。なお、特に明記が無い場合は、モデル学習装置が実施行為の主体である。

本発明の第一の実施の形態において、装置の実装はハードウェアでの実装に限られず、ソフトウェアとしてコンピュータに実装されていてもよく、その実装形態は限定されない。例えば、パーソナルコンピュータ等のクライアント端末と有線又は無線の通信回線（インターネット回線など）に接続された専用サーバにインストールされて実装されていてもよいし、いわゆるクラウドサービスを利用して実装されていてもよい。

図１は、本発明の実施の形態の少なくとも１つに対応する、機械学習モデルの概要を示すブロック図である。モデル学習装置１は、音声モデル及びリグモデルの２種類の分離したサブモデルから構成される。

音声モデルは、人間の声を含む音声データと、任意の言語のスタイル情報を入力とする。そして、所定の音響信号処理を行い、機械学習用の入力値としての特徴量である音声特徴量を出力する。

リグモデルは、音声モデルが出力した音声特徴量、前記スタイル情報、使用するリグに関する情報、及びキャラクタのバインドポーズを入力とする。そして、所定の処理を行い、キャラクタのアニメーションに関するキャラクタ制御情報を出力する。キャラクタ制御情報は、例えば、アニメーションのトランスフォーム情報及びポーズウェイトを含んでいてもよい。

［音声モデル－音響信号処理］
次に、本発明の第一の実施の形態における音声モデルにおける音響信号処理について説明する。音声モデルは音声データを受け取ると、まず音声データをモノラルに変換する。次に、音楽データの周波数を所定の周波数帯に設定（リサンプリング）する。所定の周波数帯は、人間の声の周波数帯を適切に把握できるものであればよく、例えば１９．２ｋＨｚである。

次に、短時間フーリエ変換を使用して、処理した音声データをスペクトログラムに変換する。ここで、例えば、ウィンドウ幅を２００サンプルとし、１６０サンプル分ずつ動かしながらフーリエ変換を行う。音声のサンプリングレートは１９．２ｋＨｚであるから、この処理で音声１秒ごとに１２０の出力が生成されます（19200/160=120）。それぞれの出力は約１０ｍ秒分の音声をカバーしており、後続の出力と２０％の重なりが存在する。

スペクトログラムでは水平方向の軸が時間を、垂直方向の軸が周波数を、そして値は音量を示す。より人間の感覚に近づけるようにするため、スペクトログラムをメル尺度に変換する（以下、メルスペクトログラムともいう）。メル尺度とは人間の周波数感覚にもとづいた対数尺度をいう。

メル尺度への変換は、スペクトログラムの垂直方向軸を対数的に引き延ばす効果がある。これにより、低い周波数帯での周波数差をより重視し、高い周波数帯での周波数差を無視することができる。

周波数と同様に、音量に対する人間の感覚も対数的である。メルスペクトログラムでの音量の値は線形であるから、人間の音量感覚により近づけるために、メルスペクトログラムの値の対数を計算する（以下、ログメルスペクトログラムともいう）。図２は、本発明の実施の形態の少なくとも１つに対応する、ログメルスペクトログラムを表す図である。

図３は、本発明の実施の形態の少なくとも１つに対応する、ログメルスペクトログラムを用いた学習方法を説明する図である。

ログメルスペクトログラムの画像は、水平方向の移動は時間の変更を、垂直方向の移動は近似的なピッチ変更を表す。時間とピッチの両方に不変である特徴量を学習するために、２次元の畳み込みニューラルネットワークを使用する。これは相対ピッチをもとに出力するもので、絶対的な周波数の値よりも周波数間の関係を重視する。

一方、周波数情報のベクトルとして画像の各列に単純な処理も行う。これは絶対ピッチをもとに出力するもので、絶対的な周波数の値を使用する。そして、両方の出力結果を組み合わせる。出力結果の組み合わせ方法については後述する。

絶対的な情報を組み合わせることで、いくつかの音素について品質が向上させることができる。

［畳み込みネットワーク］
使用した畳み込みニューラルネットワークについて説明する。このネットワークは、時間で変化する１次元の出力を生成する。情報を深度チャネルに転送することで画像の高さを段階的に削減することができる。

図４は、本発明の実施の形態の少なくとも１つに対応する、畳み込みニューラルネットワークの設定を説明する図である。図４（Ａ）は、ネットワークの先頭部分を表す。３つの異なる２次元の畳み込みニューラルレイヤーを、チャネル数を増やしながら適用する。それぞれのレイヤーの後部には、バッチ正規化が続く。それぞれのレイヤーは、画像の高さを入力時の１／４に削減する。

図４（Ｂ）は、図４（Ａ）のネットワークに続くネットワークを示す。異なるTime dilationが設定された３つのカスタム残差ブロックのセットを３セット適用する。Time dilationを用いることで、時間軸の知覚野を大きく向上でき、ネットワークが音声の速度変化に適応できるようになる。

それぞれの残差ブロックのセットはチャネルの深さを倍にする一方、画像の高さを半分に削減する。最後の残差ブロックのセットで処理されると、画像は平坦になり、１次元ベクトルとして使用できる。

［残差ブロックの構成］
図５は、本発明の実施の形態の少なくとも１つに対応する、残差ブロックの構成を説明するブロック図である。本発明の第一の実施の形態における残差ブロックは、Pre-activation ResNetブロックに基づいていて、Time dilationに加えてSqueeze-and-Excitationを適用している。

最初の畳み込みでは、Dilationとストライドを行う。２番目の畳み込みでは、目標となるカーネルのサイズを使用したDilationを適用します。３番目の畳み込みはカーネルサイズを１とすることで、各深度チャネルを全結合したレイヤーと同じようにふるまう。

下部の点線は、ResNetブロックのショートカットパスで、他のブロックの影響をほとんど受けずに勾配情報を送ることができる。Strided convolutionは結果を足し合わせる際に、入力と出力のサイズの一貫性を維持するために用いる。

図３における、相対ピッチ及び絶対ピッチの結果の組み合わせは、上述した畳み込みネットワーク及び残差ブロックを用いる。２次元ではなく１次元の畳み込みネットワークを使用することに留意する。

このように処理することで、オーディオ特徴量（音響特徴量ともいう）を得ることができる。

［音声特徴量抽出］
次に、音声特徴量の取得について説明する。図６は、本発明の実施の形態の少なくとも１つに対応する、オーディオ特徴量を入力として音声特徴量の出力を説明する図である。

まず、オーディオ特徴量を言語スタイル情報に基づいて正規化する。スタイル情報を用いた正規化については後述する。その後、１次元の畳み込みネットワークを使用して位置埋め込みを計算し、その結果を単一のTransformer encoderを用いて変換することで、音声特徴量を取得することができる。ここで、Transformer encoderにおけるアテンションは各瞬間の前後１秒間のオーディオ特徴量のみに制限することが好ましい。

［スタイル正規化］
例えば、言語、キャラクタ、リグ等複数の種類のスタイルがあり、それぞれのスタイルは独立な値の集合を有する。例えば、言語のスタイルは日本語、英語、そしてその他の言語であってもよい。スタイルに含まれる情報は、訓練データに基づいて設定され得る。訓練データについては後述する。

図７は、本発明の実施の形態の少なくとも１つに対応する、スタイル値を説明する図である。リグのスタイルは、例えば、ゲームで使用されるキャラクタの種類を取り得る。より具体的には、主要キャラクタ用のリグ、モブキャラクタ用のリグ、敵キャラクタ用のリグ等が挙げられる。

スタイルに対して値を設定しないこともでき、その場合はより汎用的な結果が生成され得る。未設定の場合は、例えば訓練データに現れない新規キャラクタや新しい言語を追加する際に使用できる。

図７（Ａ）に示すように、それぞれのスタイルごとの埋め込みと、スタイルの取りうる値ごとの埋め込みを学習し、選択された使用スタイルに基づいて、2つの埋め込みを組として足し合わせる。スタイルの値が設定されない場合は、スタイル自身の埋め込みのみが使用される。例えば、図７（Ａ）では、言語スタイルに対して特定の値を設定しない場合であるので、言語スタイルの埋め込みを使用する。また、スタイル値の埋め込みは０に初期化される。そのため、訓練データのサンプルが少ないスタイルは、スタイル値が設定されない場合の結果に近づく。

図７（Ｂ）は、Global Style Tokensを用いたデータの埋め込みを説明する図である。図７（Ａ）のように設定することで、入力スタイルごとに１つの埋め込みを得ることができる。この埋め込みの集合に対し、全部のデータで共有されるGlobal Style Tokens（GSTs）を追加する。これらはスタイルと独立して、すべての訓練データに共有される学習された埋め込みである。モデル学習装置は、人間がスタイルの集合として明示的に定義していないようなその他の側面をとらえることができる。

図８は、本発明の実施の形態の少なくとも１つに対応する、スタイル埋め込み情報の集合の組み合わせを説明する図である。ここで、Multi-head attentionを使用する。正規化したい任意の入力を使用し、それぞれの瞬間での値とすべての埋め込みとの間でAttentionを実行する。その結果、瞬間ごとの合成された埋め込みとなり、同一サイズのスケールベクトルとバイアスベクトルに分けられる。これらのスケールベクトルとバイアスベクトルを用いて、入力データを正規化する。

［リグモデル－フレーム特徴量抽出部］
次に、リグモデルのフレーム特徴量抽出方法について説明する。図９は、本発明の実施の形態の少なくとも１つに対応する、フレーム特徴量抽出方法を説明する図である。

始めに、音声特徴量に対してスタイル正規化を行う。言語スタイルのみを使用していた音声モデルとは違い、ここでは使用可能なすべてのスタイル情報を使用する。正規化する際に、ここではスケールベクトルのみを使用する。

その後、ReLU（Rectified Linear Unit：ランプ関数）を用いて活性をもつ全結合レイヤーを適用します。

次に、適切なストライドでの１次元の畳み込みを適用します。これは、例えば、１２０Ｈｚに固定されている音声特徴量の周波数を、目的のアニメーションのＦＰＳ（例：３０ｆｐｓ）にダウンスケールするためです。３０ｆｐｓに変換するためには、ストライドを４にするとよい。その後、別の単一のTransformer encoderを適用すると、フレーム特徴量を取得できる。

［キャラクタ制御情報出力］
次に、フレーム特徴量から出力する情報について説明する。本発明の第一の実施の形態においては、フレーム特徴量から、アニメーションのトランスフォーム情報及びポーズウェイトに関する情報を出力する。図１０は、本発明の実施の形態の少なくとも１つに対応する、トランスフォーム情報の出力方法を説明する図である。

アニメーションのトランスフォーム情報の出力は、カットシーンで使われるような品質の高い結果を生成することができる。この出力は後でFBX形式に変換され得る。

このデータの生成には、フレーム特徴量から、ボーンのトランスフォームを出力するための全結合レイヤーを使用する。そして、複数スタイルでの正規化を再度行い、その結果をターゲットキャラクターのバインドポーズに足し合わせることで生成する。

たとえトランスフォーム内で回転をオイラー角として表現している場合でも、クォータニオン形式による回転に対して同じ処理を独立して行います。このようにすることで、モデルの学習を安定化させることができる。内部の回転表現からクォータニオン、オイラー角の両方を生成できます。

［ポーズウェイト出力］
次に、ポーズウェイトに関する情報の出力について説明する。図１１は、本発明の実施の形態の少なくとも１つに対応する、ポーズウェイトの出力方法を説明する図である。

ここでは、与えられた感情に対応するポーズセットをブレンドするためのポーズウェイトを生成し、ランタイムで使用できるようにそれらのウェイトをファイルに保存する。

モデルをすべての可能な感情にさらすために、感情ウェイトも生成する。これらの感情のブレンドウェイトはすべての感情に対するLipmapポーズをブレンドして、１つのポーズセットを得る。その後、得られたポーズセットはLipmapのポーズウェイトでブレンドされる。

アニメーショントランスフォーム情報と同じように、フレーム特徴量に全結合レイヤーを適用し、その結果に複数スタイルでの正規化を適用して生成する。しかし、この場合はスタイル埋め込みを使用せずに、すべての訓練データで共有されているGlobal Style Tokens（GSTs）のみ用いる。

図１１に示すように、モデル推論時はLipmap（HSF）のポーズウェイトを生成し、ファイルに保存する。一方、ランタイムでは、Lipmap（HSF）のポーズウェイトとリップマップのポーズをロードし、アニメーショントランスフォームを得るためにブレンドしている。

［学習方法］
本発明の第一の実施の形態において、モデルを学習する方法として現時点で２種類の学習方法が成果を上げている。１つはエンド・ツー・エンド学習（E2E学習）です。これは、訓練データに含まれる音声データ及びアニメーションデータを用いて、音声モデル及びリグモデルの両方を同時に、一般的な教師あり学習のアプローチで学習する方法である。

［訓練データ］
訓練データには、既にある動画データのカットシーンからの、同期された音声データとリップシンクアニメーションを使用した。一例ではあるが、全体として３時間半分の音声データとリップシンクアニメーションを使用し、これらは５３体のキャラクタ、３種類の異なるフェイシャルリグ、そして日本語、英語の２言語を網羅している。

訓練データに含まれるデータが短い場合には、同じキャラクタや、同じ言語の複数の短いクリップをランダムに連結して拡張することで、解消可能である。また、音声の速度や異なるキャラクタによるピッチの変化に対して、ロバスト性を向上させるために、オーディオとアニメーションの速度をランダムに変化させたクリップのコピーを追加する、あるいは、速度は維持し、オーディオのピッチをランダムに変更したクリップのコピーを追加することで、訓練データの精度を高めた。

［損失関数］
使用している損失関数は、訓練データのアニメーションデータと生成されたアニメーショントランスフォームとのＬ１誤差である。Lipmapを含む、すべての出力におけるアニメーショントランスフォームの誤差を計算する。Lipmapのポーズウェイトの生成については、Lipmapブレンディングを通した単純な誤差逆伝搬によって学習する。

Mayaで使用されるボーン階層を通した誤差逆伝搬のコストを回避するため、訓練データに含まれる、ボーンのトランスフォームの数値範囲で出力を正規化することにより、品質の高いアニメーションを生成することができる。

また、訓練データとバインドポーズとの差分に基づいて誤差が大きくなるウェイトを追加した。バインドポーズで口が閉じられていることから、いくつかの音素を処理する際に、生成したモデルが頻繁に口を閉じるのに失敗することを防ぐためである。

もう１つの学習方法は、最初に音声データのみが必要となる自己教師あり学習を用いて、音声モデルを事前学習する方法である。図１２は、本発明の実施の形態の少なくとも１つに対応する、音声モデルを事前学習する方法を説明する図である。

この場合、リグモデルを学習するために事前学習された音声モデルを用いる。初めに、音声モデルのウェイトを固定することによってリグモデルの学習を行い、その後リグモデルの学習が十分に進んだら音声モデルのファインチューニングを行う。

学習に使用できる豊富な量のオープンドメインなオーディオ（音声データ）がオンライン上にあるため、音声モデルを事前に学習させる方法は採用されやすい。

上述の手順によりチューニングした音声モデル及びリグモデルを生成し、アニメーション生成装置、アニメーション生成方法、アニメーション生成プログラムとして設計してもよい。

上述の説明とは別に、第一の実施の形態としてコンピュータ装置とを備える情報処理システムを用いてもよい。情報処理システムは、少なくとも１のコンピュータ装置から構成される。コンピュータ装置は、一例として、制御部、ＲＡＭ、ストレージ部、サウンド処理部、グラフィックス処理部、通信インタフェース、インタフェース部を備え、それぞれ内部バスにより接続されている。グラフィックス処理部は表示部に接続されている。表示部は、表示画面と、表示部に対する、プレイヤによる接触により入力を受け付けるタッチ入力部とを有し得る。

タッチ入力部は、例えば、タッチパネルに用いられる抵抗膜方式、静電容量方式、超音波表面弾性波方式、光学方式、又は、電磁誘導方式等、いずれの方式を用いて、接触した位置を検知できるものであってもよく、ユーザのタッチ操作により操作を認識できれば方式は問わない。タッチ入力部の上面を指やスタイラス等により押圧や移動等の操作をした場合に、指等の位置を検知可能なデバイスである。

インタフェース部には外部メモリ（例えば、ＳＤカード等）が接続され得る。外部メモリから読み込まれたデータはＲＡＭにロードされ、制御部により演算処理が実行される。

通信インタフェースは無線又は有線により通信ネットワークに接続が可能であり、通信ネットワークを介してデータを受信することが可能である。通信インタフェースを介して受信したデータは、外部メモリから読み込まれたデータと同様に、ＲＡＭにロードされ、制御部により演算処理が行われる。

コンピュータ装置は、近接センサ、赤外線センサ、ジャイロセンサ、又は、加速度センサ等のセンサを備えるものであってもよい。また、コンピュータ装置は、レンズを有し、レンズを介して撮像する撮像部を備えるものであってもよい。さらに、コンピュータ装置は、身体に装着可能（ウェアラブル）な端末装置であってもよい。

第一の実施の形態の一側面として、より自然なアニメーションを生成する新たなモデル学習装置を提供することが可能となる。

第一の実施の形態において、「音響特徴量」とは、例えば、音の特徴を表現した数値をいう。「音声特徴量」とは、例えば、機械学習用の入力値としての特徴量をいう。「フレーム特徴量」とは、例えば、フレームに含まれる特徴を表現した数値をいう。「コンピュータ装置」とは、例えば、据置型ゲーム機、携帯型ゲーム機、ウェアラブル型端末、デスクトップ型又はノート型パーソナルコンピュータ、タブレットコンピュータ、又は、ＰＤＡ等をいい、表示画面にタッチパネルセンサを備えるスマートフォン等の携帯型端末であってもよい。

［付記］
上で述べた実施の形態の説明は、下記の発明を、発明の属する分野における通常の知識を有する者がその実施をすることができるように記載した。

［１］人間の声を含む音声データに対して所定の音響信号処理を実行し、音響特徴量を抽出する音響特徴量抽出部と、
抽出した音響特徴量を含む第一入力情報に対して第一変換処理を実行し、音声特徴量を抽出する音声特徴量抽出部と
を有する音声モデル学習装置と、
抽出した音声特徴量を含む第二入力情報に対して第二変換処理を実行し、フレーム特徴量を抽出するフレーム特徴量抽出部と、
抽出したフレーム特徴量から、キャラクタを制御するキャラクタ制御情報を出力するキャラクタ制御情報出力部と
を有するリグモデル学習装置と
を備える、モデル学習装置。

［２］モデル学習装置がさらに、
音声及び正解となるキャラクタのアニメーションに関する情報を含む訓練データを記憶する訓練データ記憶部と、
訓練データに含まれるキャラクタのアニメーションに関する情報と、訓練データを用いて出力されたキャラクタ制御情報との差分に基づいて前記音声モデル学習装置及びリグモデル学習装置のパラメータを更新する学習モデル更新部と
を備える、［１］に記載のモデル学習装置。

［３］人間の声を含む音声データに対して所定の音響信号処理を実行し、音響特徴量を抽出するステップと、
抽出した音響特徴量を含む第一入力情報に対して第一変換処理を実行し、音声特徴量を抽出するステップと
抽出した音声特徴量を含む第二入力情報に対して第二変換処理を実行し、フレーム特徴量を抽出するステップと、
抽出したフレーム特徴量から、キャラクタを制御するキャラクタ制御情報を出力するステップと
を有する、モデル学習方法。

［４］人間の声を含む音声データに対して所定の音響信号処理を実行し、音響特徴量を抽出するステップと、
抽出した音響特徴量を含む第一入力情報に対して第一変換処理を実行し、音声特徴量を抽出するステップと
をコンピュータ装置に実行させる音声モデル学習プログラムと、
抽出した音声特徴量を含む第二入力情報に対して第二変換処理を実行し、フレーム特徴量を抽出するステップと、
抽出したフレーム特徴量から、キャラクタを制御するキャラクタ制御情報を出力するステップと
をコンピュータ装置に実行させるリグモデル学習プログラムと
を備える、モデル学習プログラム。

［５］人間の声を含む音声データを入力とし、［１］に記載のモデル学習装置で学習した、音声データから音声特徴量を抽出するための音声モデルを用いて音声特徴量を抽出する音声特徴量抽出手段と
前記音声特徴量を含む第二入力情報を入力とし、［１］に記載のモデル学習装置で学習した、音声特徴量を含む第二入力情報からキャラクタを制御するキャラクタ制御情報を出力するためのリグモデルを用いて、キャラクタ制御情報を出力するキャラクタ制御情報出力手段と、
キャラクタ制御情報に基づいてキャラクタに関するアニメーションを生成するアニメーション生成手段と
を備えるアニメーション生成装置。

［６］人間の声を含む音声データを入力とし、［３］に記載のモデル学習方法で学習した、音声データから音声特徴量を抽出するための音声モデルを用いて音声特徴量を抽出するステップと、
前記音声特徴量を含む第二入力情報を入力とし、［３］に記載のモデル学習方法で学習した、音声特徴量を含む第二入力情報からキャラクタを制御するキャラクタ制御情報を出力するためのリグモデルを用いて、キャラクタ制御情報を出力するステップと、
キャラクタ制御情報に基づいてキャラクタに関するアニメーションを生成するステップと
を有するアニメーション生成方法。

［７］人間の声を含む音声データを入力とし、［４］に記載の音声モデル学習プログラムで学習した、音声データから音声特徴量を抽出するための音声モデルを用いて音声特徴量を抽出するステップと、
前記音声特徴量を含む第二入力情報を入力とし、［４］に記載のリグモデル学習プログラムで学習した、音声特徴量を含む第二入力情報からキャラクタを制御するキャラクタ制御情報を出力するためのリグモデルを用いて、キャラクタ制御情報を出力するステップと、
キャラクタ制御情報に基づいてキャラクタに関するアニメーションを生成するステップと
をコンピュータ装置に実行させるアニメーション生成プログラム。

１：モデル学習装置

Claims

人間の声を含む音声データに対して所定の音響信号処理を実行し、音響特徴量を抽出する音響特徴量抽出部と、
抽出した音響特徴量を含む第一入力情報に対して第一変換処理を実行し、音声特徴量を抽出する音声特徴量抽出部と
を有する音声モデル学習装置と、
抽出した音声特徴量を含む第二入力情報に対して第二変換処理を実行し、フレーム特徴量を抽出するフレーム特徴量抽出部と、
抽出したフレーム特徴量から、キャラクタを制御するキャラクタ制御情報を出力するキャラクタ制御情報出力部と
を有するリグモデル学習装置と
を備える、モデル学習装置。
モデル学習装置がさらに、
音声及び正解となるキャラクタのアニメーションに関する情報を含む訓練データを記憶する訓練データ記憶部と、
訓練データに含まれるキャラクタのアニメーションに関する情報と、訓練データを用いて出力されたキャラクタ制御情報との差分に基づいて前記音声モデル学習装置及びリグモデル学習装置のパラメータを更新する学習モデル更新部と
を備える、請求項１に記載のモデル学習装置。
人間の声を含む音声データに対して所定の音響信号処理を実行し、音響特徴量を抽出するステップと、
抽出した音響特徴量を含む第一入力情報に対して第一変換処理を実行し、音声特徴量を抽出するステップと
抽出した音声特徴量を含む第二入力情報に対して第二変換処理を実行し、フレーム特徴量を抽出するステップと、
抽出したフレーム特徴量から、キャラクタを制御するキャラクタ制御情報を出力するステップと
を有する、モデル学習方法。
人間の声を含む音声データに対して所定の音響信号処理を実行し、音響特徴量を抽出するステップと、
抽出した音響特徴量を含む第一入力情報に対して第一変換処理を実行し、音声特徴量を抽出するステップと
をコンピュータ装置に実行させる音声モデル学習プログラムと、
抽出した音声特徴量を含む第二入力情報に対して第二変換処理を実行し、フレーム特徴量を抽出するステップと、
抽出したフレーム特徴量から、キャラクタを制御するキャラクタ制御情報を出力するステップと
をコンピュータ装置に実行させるリグモデル学習プログラムと
を備える、モデル学習プログラム。
人間の声を含む音声データを入力とし、請求項１に記載のモデル学習装置で学習した、音声データから音声特徴量を抽出するための音声モデルを用いて音声特徴量を抽出する音声特徴量抽出手段と
前記音声特徴量を含む第二入力情報を入力とし、請求項１に記載のモデル学習装置で学習した、音声特徴量を含む第二入力情報からキャラクタを制御するキャラクタ制御情報を出力するためのリグモデルを用いて、キャラクタ制御情報を出力するキャラクタ制御情報出力手段と、
キャラクタ制御情報に基づいてキャラクタに関するアニメーションを生成するアニメーション生成手段と
を備えるアニメーション生成装置。
人間の声を含む音声データを入力とし、請求項３に記載のモデル学習方法で学習した、音声データから音声特徴量を抽出するための音声モデルを用いて音声特徴量を抽出するステップと、
前記音声特徴量を含む第二入力情報を入力とし、請求項３に記載のモデル学習方法で学習した、音声特徴量を含む第二入力情報からキャラクタを制御するキャラクタ制御情報を出力するためのリグモデルを用いて、キャラクタ制御情報を出力するステップと、
キャラクタ制御情報に基づいてキャラクタに関するアニメーションを生成するステップと
を有するアニメーション生成方法。
人間の声を含む音声データを入力とし、請求項４に記載の音声モデル学習プログラムで学習した、音声データから音声特徴量を抽出するための音声モデルを用いて音声特徴量を抽出するステップと、
前記音声特徴量を含む第二入力情報を入力とし、請求項４に記載のリグモデル学習プログラムで学習した、音声特徴量を含む第二入力情報からキャラクタを制御するキャラクタ制御情報を出力するためのリグモデルを用いて、キャラクタ制御情報を出力するステップと、
キャラクタ制御情報に基づいてキャラクタに関するアニメーションを生成するステップと
をコンピュータ装置に実行させるアニメーション生成プログラム。