JP7421869B2

JP7421869B2 - 情報処理プログラム、情報処理装置、情報処理方法及び学習済モデル生成方法

Info

Publication number: JP7421869B2
Application number: JP2019086481A
Authority: JP
Inventors: パイパーズヤン; ヒルレアンドログラシア; サジャードシディーク
Original assignee: Square Enix Co Ltd
Current assignee: Square Enix Co Ltd
Priority date: 2019-04-26
Filing date: 2019-04-26
Publication date: 2024-01-25
Anticipated expiration: 2039-04-26
Also published as: JP2020184100A

Description

本発明の実施形態の少なくとも１つは、人の声を録音した音声データに基づいて簡単にリップシンクアニメーションを生成する技術に関する。

近年、アニメーションにおいてよりリアリティのある表現を行うための一手法として、アニメーションに合わせて録音した声優の声に同期させてキャラクタの唇の動きを変化させることが行われている。このような音声と口唇の動きが同期したアニメーション（以下、リップシンクアニメーションともいう。）の作成は、非常に時間の掛かるプロセスである。アニメーターは、ゲームで使用することができる１秒間のリップシンクアニメーションを手作りするために平均で約1時間以上を要する。そのため、このプロセスをスピードアップする手法が求められている。

例えば、非特許文献１には、ウェブカムを使って撮影されたユーザの表情をキャプチャすることによって、ユーザの表情と同期させてキャラクタの口唇の動きを含む顔全体の表情を変化させる技術が開示されている。

ＦａｃｅＲｉｇ，ＵＲＬ：https://facerig.com/

上記の非特許文献１によれば、ユーザの表情を撮影してモーションキャプチャを行うことでリップシンクアニメーションを生成しているが、リップシンクアニメーションを生成するためにモーションキャプチャを常に行う必要があるため手間が掛かるという問題があった。

本発明の少なくとも１つの実施形態の目的は、上記問題を解決し、人の声を録音した音声データに基づいて簡単にリップシンクアニメーションを生成するための情報処理プログラム、情報処理装置、情報処理方法及び学習済モデル生成方法を提供することである。

非限定的な観点によると、本発明の一実施形態に係る情報処理プログラムは、人の声を録音した音声データに基づいてアニメーションのキャラクタの口の動きを含む表情をコントロールするための表情パラメータを出力する処理をコンピュータに実現させるための情報処理プログラムであって、前記コンピュータに、前記音声データを取得する音声データ取得機能と、取得した前記音声データに対して所定の前処理を行って前処理済音声データを得る前処理機能と、入力された音声データに基づいて前記表情パラメータを出力することについて予め学習を行った学習済モデルに基づいて、前記前処理済音声データを入力として前記表情パラメータを生成して出力する表情パラメータ生成機能とを実現させることを特徴とする。

非限定的な観点によると、本発明の一実施形態に係る情報処理装置は、人の声を録音した音声データに基づいてアニメーションのキャラクタの口の動きを含む表情をコントロールするための表情パラメータを出力するための情報処理装置であって、前記音声データを取得する音声データ取得部と、取得した前記音声データに対して所定の前処理を行って前処理済音声データを得る前処理部と、入力された音声データに基づいて前記表情パラメータを出力することについて予め学習を行った学習済モデルに基づいて、前記前処理済音声データを入力として前記表情パラメータを生成して出力する表情パラメータ生成部とを備えることを特徴とする。

非限定的な観点によると、本発明の一実施形態に係る情報処理方法は、コンピュータに複数手順を実行させることで、人の声を録音した音声データに基づいてアニメーションのキャラクタの口の動きを含む表情をコントロールするための表情パラメータを出力する処理を実現させるための情報処理方法であって、前記音声データを取得する音声データ取得手順と、取得した前記音声データに対して所定の前処理を行って前処理済音声データを得る前処理手順と、入力された音声データに基づいて前記表情パラメータを出力することについて予め学習を行った学習済モデルに基づいて、前記前処理済音声データを入力として前記表情パラメータを生成して出力する表情パラメータ生成手順とを含むことを特徴とする。

非限定的な観点によると、本発明の一実施形態に係る学習済モデル生成方法は、複数処理をコンピュータに実現させることで、人の声を録音した音声データに基づいてアニメーションのキャラクタの口の動きを含む表情をコントロールするための表情パラメータを出力するようにニューラルネットワークを学習させて学習済モデルを得るための学習済モデル生成方法であって、人の声を録音した音声データと当該音声データと同期した人又はキャラクタの表情を表した表情映像データとを一対の組としたサンプルデータを少なくとも１組以上取得するサンプルデータ取得処理と、前記サンプルデータのうちの表情映像データから当該表情映像データにおける表情パラメータを正解表情パラメータとして抽出する表情パラメータ抽出処理と、前記サンプルデータのうちの前記音声データをニューラルネットワークに入力して表情パラメータを生成して出力させる表情パラメータ生成処理と、前記表情パラメータ生成処理において生成した表情パラメータと前記正解表情パラメータとを用いて損失関数に基づいて損失を演算し、損失が小さくなるように前記ニューラルネットワークを更新するニューラルネットワーク更新処理とを含むことを特徴とする。

本願の各実施形態により１または２以上の不足が解決される。

本発明の実施形態の少なくとも一つに対応する情報処理装置の構成の例を示すブロック図である。本発明の実施形態の少なくとも一つに対応するニューラルネットワークの概念を表した説明図である。本発明の実施形態の少なくとも一つに対応する前処理における大気ノイズ除去の概念を説明するための説明図である。本発明の実施形態の少なくとも一つに対応するニューラルネットワークの構成の一例を表したブロック図である。本発明の実施形態の少なくとも一つに対応する学習処理の例を示すフローチャートである。本発明の実施形態の少なくとも一つに対応する表情パラメータ生成処理の例を示すフローチャートである。本発明の実施形態の少なくとも一つに対応する情報処理装置の構成の例を示すブロック図である。本発明の実施形態の少なくとも一つに対応する表情パラメータ調整処理の例を示すフローチャートである。

以下、本発明の実施形態の例について図面を参照して説明する。なお、以下で説明する各実施形態の例における各種構成要素は、矛盾等が生じない範囲で適宜組み合わせ可能である。また、ある実施形態の例として説明した内容については、他の実施形態においてその説明を省略している場合がある。また、各実施形態の特徴部分に関係しない動作や処理については、その内容を省略している場合がある。さらに、以下で説明する各種フローを構成する各種処理の順序は、処理内容に矛盾等が生じない範囲で順不同である。

［第１の実施形態］
以下において、本発明の一実施形態に係る情報処理装置について説明を行う。図１は、本発明に係る情報処理装置の構成の例を示すブロック図である。図１に示すように、情報処理装置１０は、音声データ取得部１１と、前処理部１２と、表情パラメータ生成部１３と、記憶部１４とを備える。図２は、本発明の実施形態の少なくとも一つに対応するニューラルネットワークの概念を表した説明図である。この図２に示すように、本例では、音声データを前処理することで得た前処理済音声データをニューラルネットワークに入力して、適切に学習が済まされたニューラルネットワークに表情パラメータを出力させる構成となっている。

音声データ取得部１１は、音声データを取得する機能を有する。ここで、音声データとは、人の声を録音したデータであって、アニメーションのキャラクタの口の動きを含む表情をコントロールするための表情パラメータを生成するためのベースとなるデータをいう。

前処理部１２は、取得した音声データに対して所定の前処理を行って前処理済音声データを得る機能を有する。ここで、前処理とは、ニューラルネットワークに入力する前段階として取得した音声データに対して必要な処理を行うことをいう。本例において実行する前処理は、例えば、振幅正規化処理と、ＭＦＣＣ変換処理である。

前処理部１２における正規化処理とは、音声データの振幅を正規化する処理のことをいう。録音された音声データの振幅は、スピーカーによっても、また読み上げられているテキストの種類によっても大きく異なるため、振幅正規化を行い、波形にコンプレッサを適用する。

また、前処理部１２における前処理の一例として、大気ノイズ除去処理を行うようにしてもよい。録音された音声データの振幅は、スピーカーによっても、また読み上げられているテキストの種類によっても大きく異なるため、スピーチがある部分にコンプレッサとリミッターを適用し、スピーチ以外の部分を無音にすることが好ましい。しかし、実際にはスピーチ以外の箇所にも大気ノイズが入っていて無音ではなく波形が存在する。このノイズの波形にコンプレッサを適用してノイズが増幅されてしまうと問題が生じるため、大気ノイズの波形にはコンプレッサを適用しない工夫が必要になる。そこで、の問題を解決するために、信号中の大気雑音のレベルを決定する必要がある。これは、信号内のすべてのサンプルの絶対値の対数の分布を見ることによって自動的に行われる。サンプルｓ［ｎ］が妥協された信号の場合、この分布は最初にｓ^－［ｎ］＝ｌｏｇ｜ｓ［ｎ］｜を計算することによって得られます。信号の全範囲はそれぞれｓ^－ _minおよびｓ^－ _maxです。次に、この振幅範囲は、幅ｗ＝ｓ^－ _max－ｓ^－ _minのＢ＝１０００個のビンに分割される。次に、各サンプルｓ^－［ｎ］がビンｂ＝１・・・１０００でカウントされます。ここで、ｓ^－ _min＋（ｂ－１）ｗ≦ｓ^－＜ｓ^－ _max＋ｂｗである。すべてのビンにわたって発生数をプロットすると、信号の対数絶対振幅の分布が分かる。一例を図３に示す。

図３は、本発明の実施形態の少なくとも一つに対応する前処理における大気ノイズ除去の概念を説明するための説明図である。この図３は、信号内のすべてのサンプルの絶対値の対数の分布をプロットした一例である。この図３から分かるように、小さいピークと大きいピークの間に極小値が存在する。典型的には、低い大気雑音を有する音声データの全ての記録は同様の分布を有する。大きい方のピークは信号内の音声データを危険にさらすサンプルに起因し、小さい方のピークは主にノイズサンプルに起因します。信号内の大気ノイズのレベルを決定するには、それらを分離する２つのピーク間の極小値を見つける必要がある。この例では、極小値は約－６であり、したがって大気雑音の振幅ＡＮはＡＮ＝ｅ－６≒０．００２５である。このようにして、大気ノイズのレベルを自動的に決定した後、信号全体にわたって同様の音量レベルを得るために、ＡＮよりも高い振幅を持つ信号のすべての部分にコンプレッサを適用するようにする。

前処理部１２におけるＭＦＣＣ変換処理について説明する。ここで、ＭＦＣＣとは、メル周波数ケプストラム係数のことである。音声としての情報をできるだけ損なわずにデータ容量を削減してニューラルネットワークを利用した演算に用いるための現実的な次元にデータを変換するための手法の１つとしてメル周波数ケプストラム係数が利用される。ＭＦＣＣは、音声データからＭ個のサンプルごとにＮ個のサンプルのチャンクを切り取ることによって得られる。その後、各チャンクは、ウィンドウ関数によって乗算され、ＦＦＴ（fast Fourier transform：高速フーリエ変換）を適用することによって周波数領域に転送され、ＦＦＴからの複素数値出力の最初のＮ／２＋１サンプルの絶対値を計算し、最後のＮ／２－１サンプルは、スペクトルのミラーリングされたバージョンとなる。スペクトルは次に、隣接するサンプルを１つのビンに合計し、ビンのサイズを増加させることによってメルスケールに変換される。次に、各ビンの振幅がそれらの対数的表現に変換され、ＤＣＴ（discrete cosine transform：離散コサイン変換）が適用される。ＤＣＴの第１のｎ係数は、処理されたチャンクのオーディオコンテンツを表すために使用される。このようにして、音声データをＭＦＣＣに変換する。

表情パラメータ生成部１３は、入力された音声データに基づいて表情パラメータを出力することについて予め学習を行った学習済モデルに基づいて、前処理済音声データを入力として表情パラメータを生成して出力する機能を有する。ここで、表情パラメータとは、アニメーションのキャラクタの口の動きを含む表情をコントロールするためのパラメータのことをいう。表情パラメータは、アニメーションを制御するソフトウェアにおいて設定可能なパラメータであれば取り扱うことが可能である。一例としては、頭をたおす（Head Pitch）、頭を回す（Head Roll）、頭を横にずらす（Head Yaw）、鼻上・下（Nose Up/Down）、閉じた左目・右目（Left Eye Closed・Right Eye Closed）、左目・右目の左・右（Left Eye Left/Right・Right Eye Left/Right）、左目・右目の斜視（Left Eye Squint・Right Eye Squint）、左目・右目の上・下（Left Eye Up/Down・Right Eye Up/Down）、左・右眉毛の外部（Left Eyebrow Exterlor・Right Eyebrow Exterlor）、左・右眉毛の内部（Left Eyebrow Interior・Right Eyebrow Interior）、顎下ろし（Jaw drop）、顎左／右（Jaw Left/Right）、唇を左・右に伸ばす（Lip Stretch Left・Lip Stretch Right）、唇で分からない時の左・右（Lip Unsure Left・Lip Unsure Right）、下唇下げる（Lower Lip Drop）、すぼめた唇（Pursed Lips）、すぼめた唇左／右（Pursed Lips Left/Right）、上唇上げる（Upper Lip Raiser）、無効にする(Disable)・・・などの表情パラメータが考えられる。これらの表情パラメータそれぞれの数値を学習済モデルに出力させることで、リップシンクアニメーションを生成可能とする。

また、表情パラメータ生成部１３は、前処理済音声データの他に、ラベル情報を入力として用いるようにしてもよい。ここで、ラベル情報とは、表情パラメータの生成のヒントとなるような様々な情報のことをいう。例えば、声優の情報、アニメーションにおけるキャラクタの情報、アニメーションが伝えようとする感情の指定など、様々なラベル情報が考えられる。このようなラベル情報を用いるためには、ニューラルネットワークの学習段階においてラベル情報を用いた学習を行っておく必要がある。

記憶部１４は、情報処理装置１０における各部の処理に必要な情報を記憶し、また、各部の処理で生じた各種の情報を記憶する機能を有する。また、学習過程のニューラルネットワークのパラメータ、及び、学習完了後のニューラルネットワークのパラメータをこの記憶部１６に記憶させる構成であってもよい。

次に、ニューラルネットワークの構造について説明を行う。ニューラルネットワークは、音声データに基づいて最適な表情パラメータを出力可能であればどのような構成であっても構わない。しかし、リップシンクアニメーションの場合、前の発音の口の形状によって次の発音の口の形状に移行する過程が異なることも想定されるなど時系列的な処理を要するため、時系列データを扱うことに適したリカレントニューラルネットワークを採用することが好ましい。リカレントニューラルネットワークとしては、例えば、ＬＳＴＭ（Long short-term memory）などが挙げられる。リカレントニューラルネットワークは、音声データという時系列データに基づいて表情パラメータを生成する際に適したモデルであるといえる。

図４は、本発明の実施形態の少なくとも一つに対応するニューラルネットワークの構成の一例を表したブロック図である。この図４において、複数のリカレントニューラルネットワーク（以下、ＲＮＮともいう。）は、それぞれが表情パラメータの生成を行うＲＮＮセルであり、この図４に示すように、１つのＲＮＮから次のＲＮＮに対してインプットデータがドロップアウトする構成となっている。複数のＲＮＮのそれぞれの出力は、Ｓｌｉｄｉｎｇｗｉｎｄｏｗ（スライディングウィンドウ）に入力される。Ｓｌｉｄｉｎｇｗｉｎｄｏｗは、入力と出力の間に時間遅延を導入するために用いられる。これは、会話中に口が何かを言う前に動き始め、その瞬間までの音声のみに基づくデータで正しい結果を生み出すことが不可能になるためである。この問題を軽減するために、私たちのネットワークは遅延出力を生成する。Ｍｕｌｔｉｐｌｅｓｏｆｔａｔｔｅｎｔｉｏｎは、ネットワークが生成する複数のソフトアテンションメカニズムの組み合わせにより、各出力を見るスライディングウィンドウの部分を定義する。最終的に、ＦＣＬａｙｅｒ（全結合層）を経て、表情パラメータが出力される。ラベル情報を用いる場合には、ラベル情報がＦＣＬａｙｅｒに入力されて、表情パラメータの決定に影響することになる。

次に、本発明の実施形態に対応する学習処理の流れについて説明を行う。学習処理は、情報処理装置１０において行われてもよいし、他のコンピュータにおいて学習を行うようにしてもよい。以下においては、情報処理装置１０において学習が行われる場合を例に説明を行う。図５は、本発明の実施形態の少なくとも一つに対応する学習処理の例を示すフローチャートである。この図５において、学習処理は、情報処理装置１０において、音声データとこれに同期した表情映像データとをサンプルデータとして取得することによって開始される（ステップＳ１０１）。ここで、表情映像データとしては、声を発している声優の顔を撮影したものであってもよいし、既にリップシンクアニメーションとして作成済みのアニメーションを利用するものであってもよい。音声データとこれに同期した表情映像データが一緒に取得できるものであればどのようなものであってもよい。次に、情報処理装置１０は、表情映像データから正解表情パラメータを抽出する（ステップＳ１０２）。表情映像データから正解表情パラメータを抽出する手法はどのような手法であってもよい。例えば、表情映像データを専用のソフトウェアによって解析して表情パラメータを抽出する。そして、情報処理装置１０は、ニューラルネットワークに音声データを入力して、表情パラメータを生成させる（ステップＳ１０３）。なお、正確には、音声データに前処理を行って、前処理済音声データをニューラルネットワークに入力する。最後に、生成した表情パラメータと正解表情パラメータとを用いて損失を演算して、損失が小さくなるようにニューラルネットワークを更新して（ステップＳ１０４）、学習処理を終了する。以上のステップＳ１０１～Ｓ１０４を複数のサンプルデータに基づいて繰り返し実行することで、適切な表情パラメータを生成可能な学習済モデルを得る。また、学習処理において、サンプルデータにラベル情報も加えて学習を行うことで、ラベル情報を用いた表情パラメータの生成が可能となる。

次に、本発明の実施形態に対応する表情パラメータ生成処理の流れについて説明を行う。図６は、本発明の実施形態の少なくとも一つに対応する表情パラメータ生成処理の例を示すフローチャートである。この図６において、表情パラメータ生成処理は、情報処理装置１０において、音声データを取得することによって開始される（ステップＳ２０１）。次に、情報処理装置１０は、前処理として、音声データから大気ノイズの影響を除去するための処理を実行する（ステップＳ２０２）。さらに、情報処理装置１０は、前処理として、音声データをＭＦＣＣに変換する（ステップＳ２０３）。そして、情報処理装置１０は、前処理済音声データを学習済モデルに入力して、学習済モデルに基づいて表情パラメータを生成して出力することで（ステップＳ２０４）、表情パラメータ生成処理を終了する。

以上に説明したように、第１の実施の形態の一側面として、人の声を録音した音声データに基づいてアニメーションのキャラクタの口の動きを含む表情をコントロールするための表情パラメータを出力するための情報処理装置１０が、音声データ取得部１１と、前処理部１２と、表情パラメータ生成部１３と、記憶部１４とを備え、音声データを取得し、取得した音声データに対して所定の前処理を行って前処理済音声データを得て、入力された音声データに基づいて前記表情パラメータを出力することについて予め学習を行った学習済モデルに基づいて、前処理済音声データを入力として表情パラメータを生成して出力するようにしたので、人の声を録音した音声データに基づいて簡単にリップシンクアニメーションを生成することが可能となる。

［第２の実施形態］
第１の実施の形態においては、表情パラメータ生成部１３で生成された表情パラメータに基づいて直接リップシンクアニメーションを生成するものとして説明を行ったが、俺に限定されるものではなく、表情パラメータ生成部１３で生成された表情パラメータをさらに調整するようにしてもよい。

図７は、本発明の実施形態の少なくとも一つに対応する情報処理装置の構成の例を示すブロック図である。この図７において、情報処理装置１０Ｂは、音声データ取得部１１と、前処理部１２と、表情パラメータ生成部１３と、表情パラメータ調整部１５と、記憶部１４とを備える。この図７に示す情報処理装置１０Ｂのうち、音声データ取得部１１、前処理部１２、表情パラメータ生成部１３、記憶部１４については、第１の実施の形態と同様であるので説明を省略する。

表情パラメータ調整部１５は、音声データ又は前処理済音声データから所定の調整候補個所を抽出して、抽出した調整候補個所が調整の必要があると判断した場合には、当該調整候補個所に該当する表情パラメータの値を所定の調整内容となるように変更する機能を有する。

ここで、所定の調整候補個所とは、リップシンクアニメーションの製作者がアニメーションに求めるクオリティ水準と比較して表情パラメータの調整が必要か否かを判定する個所のことをいう。例えば、発声する音と音の間には無音個所が発生するが、ニューラルネットワークの学習に用いるサンプルデータとして声優（俳優）の表情を撮影して正解表情パラメータを取得すると、声優（俳優）の癖として無音個所でも僅かに口を開いている場合がある。このような癖を有する声優の表情パラメータを用いて学習を行うと、学習済モデルが出力する無音時の表情パラメータも僅かに口を開いたものとなってしまう。このような無音時の口の開きは調整候補個所となり得る。また、ビデオゲームやアニメーションのストーリーとの兼ね合い若しくはキャラクタの個性などの理由で、特定の音、単語等を発音する個所では大きく表情を変化させたいという要望があり得るので、このような特定の音、単語等を発する個所は調整候補個所となり得る。これらを解決する方法としては、サンプルデータを調整する方法もあるが、本例では、学習済モデルが出力した表情パラメータを調整することで対応する。

図８は、本発明の実施形態の少なくとも一つに対応する表情パラメータ調整処理の例を示すフローチャートである。この図８において、表情パラメータ調整処理は、情報処理装置１０Ｂにおいて、音声データ（又は前処理済音声データ）から所定の調整候補個所（例えば無音個所）を抽出することによって開始される（ステップＳ３０１）。先ず、情報処理装置１０Ｂは、ｎ＝１とする（ステップＳ３０２）。次に、情報処理装置１０Ｂは、生成された表情パラメータのうち、ｎ番目の調整候補個所の表情パラメータを参照する（ステップＳ３０３）。そして、情報処理装置１０Ｂは、参照したｎ番目の調整候補個所の表情パラメータの調整が必要か否かを判定する（ステップＳ３０４）。表情パラメータが調整が必要ない場合にはステップＳ３０６へ移行するが（Ｓ３０４－Ｎ）、表情パラメータが調整が必要と判定した場合（Ｓ３０４－Ｙ）には、情報処理装置１０Ｂは、ｎ番目の調整候補個所の表情パラメータを所定の調整内容（例えば口を閉じる）となるように変更する（ステップＳ３０５）。そして、情報処理装置１０Ｂは、現在対象としているｎ番目の調整候補個所が最後の調整候補個所であるかを判定して（ステップＳ３０６）、最後の調整候補個所でない場合（Ｓ３０６－Ｎ）は、ｎ＝ｎ＋１として（ステップＳ３０７）から、ステップＳ３０３へ戻る。以降、情報処理装置１０Ｂは、最後の調整候補個所となるまでステップＳ３０３～Ｓ３０５の処理をｎ＝ｎ＋１としながら繰り返す。そして、最後の調整候補個所の処理が終わった段階で（Ｓ３０６－Ｙ）、表情パラメータ調整処理を終了する。なお、この図８の例では、ｎ個の調整候補個所それぞれについて調整の必要の有無を判定してから調整を行う構成として説明を行ったが、これはあくまで一例であり、調整の必要性について判定を行わずに、ｎ個の調整候補個所すべてに対して一律に調整を行う構成であってもよい。また、表情パラメータの調整を行う際には、前後の音との間で自然な表情変化となるように調整を行うべきである点はいうまでもない。

以上に説明したように、第２の実施の形態の一側面として、人の声を録音した音声データに基づいてアニメーションのキャラクタの口の動きを含む表情をコントロールするための表情パラメータを出力するための情報処理装置１０Ｂが、音声データ取得部１１と、前処理部１２と、表情パラメータ生成部１３と、表情パラメータ生成部１５と、記憶部１４とを備え、このうちの表情パラメータ生成部１５において、音声データ又は前処理済音声データから所定の調整候補個所を抽出して、抽出した調整候補個所が調整の必要があると判断した場合には、当該調整候補個所に該当する表情パラメータの値を所定の調整内容となるように変更するようにしたので、学習済モデルが生成する表情パラメータをリップシンクアニメーションの製作者の要望に応じて調整することが可能となる。この手法による調整は、サンプルデータを調整して学習済モデルを用意することに比較して簡単に調整を行うことができる点でメリットがある。

以上に説明したように、本願の実施形態により１または２以上の不足が解決される。なお、本願の実施形態による効果は、非限定的な効果または効果の一例である。

１０、１０Ｂ情報処理装置
１１音声データ取得部
１２前処理部
１３表情パラメータ生成部
１４記憶部
１５表情パラメータ調整部

Claims

人の声を録音した音声データに基づいてアニメーションのキャラクタの口の動きを含む表情をコントロールするための表情パラメータを出力する処理をコンピュータに実現させるための情報処理プログラムであって、
前記コンピュータに、
前記音声データを取得する音声データ取得機能と、
取得した前記音声データに対して所定の前処理を行って前処理済音声データを得る前処理機能と、
入力された音声データに基づいて前記表情パラメータを出力することについて予め学習を行った学習済モデルに基づいて、前記前処理済音声データを入力として前記表情パラメータを生成して出力する表情パラメータ生成機能と、
音声データ又は前処理済音声データから所定の調整候補個所を抽出して、抽出した調整候補個所が調整の必要があると判断した場合には、当該調整候補個所に該当する表情パラメータの値を所定の調整内容となるように変更する表情パラメータ調整機能と
を実現させる情報処理プログラム。
前記表情パラメータ調整機能は、
音声データ又は前処理済音声データから予め登録した特徴を備えた調整候補箇所を抽出して、抽出した調整候補個所に対応する表情パラメータが所定の条件から逸脱していて調整の必要があると判断した場合には、当該調整候補個所に対応する表情パラメータの値を前記所定の条件に合致するように変更する
請求項１記載の情報処理プログラム。
前記表情パラメータ調整機能は、
音声データ又は前処理済音声データから無音個所を抽出して、抽出した無音箇所に対応する表情パラメータが口を開いているものであると判定された場合には、当該無音個所に該当する表情パラメータの値を口を閉じた状態の値となるように変更する
請求項１記載の情報処理プログラム。
人の声を録音した音声データに基づいてアニメーションのキャラクタの口の動きを含む表情をコントロールするための表情パラメータを出力するための情報処理装置であって、
前記音声データを取得する音声データ取得部と、
取得した前記音声データに対して所定の前処理を行って前処理済音声データを得る前処理部と、
入力された音声データに基づいて前記表情パラメータを出力することについて予め学習を行った学習済モデルに基づいて、前記前処理済音声データを入力として前記表情パラメータを生成して出力する表情パラメータ生成部と、
音声データ又は前処理済音声データから所定の調整候補個所を抽出して、抽出した調整候補個所が調整の必要があると判断した場合には、当該調整候補個所に該当する表情パラメータの値を所定の調整内容となるように変更する表情パラメータ調整部と
を備える情報処理装置。
コンピュータに複数手順を実行させることで、人の声を録音した音声データに基づいてアニメーションのキャラクタの口の動きを含む表情をコントロールするための表情パラメータを出力する処理を実現させるための情報処理方法であって、
前記音声データを取得する音声データ取得手順と、
取得した前記音声データに対して所定の前処理を行って前処理済音声データを得る前処理手順と、
入力された音声データに基づいて前記表情パラメータを出力することについて予め学習を行った学習済モデルに基づいて、前記前処理済音声データを入力として前記表情パラメータを生成して出力する表情パラメータ生成手順と、
音声データ又は前処理済音声データから所定の調整候補個所を抽出して、抽出した調整候補個所が調整の必要があると判断した場合には、当該調整候補個所に該当する表情パラメータの値を所定の調整内容となるように変更する表情パラメータ調整手順と
を含む情報処理方法。