JP7421869B2 - 情報処理プログラム、情報処理装置、情報処理方法及び学習済モデル生成方法 - Google Patents

情報処理プログラム、情報処理装置、情報処理方法及び学習済モデル生成方法 Download PDF

Info

Publication number
JP7421869B2
JP7421869B2 JP2019086481A JP2019086481A JP7421869B2 JP 7421869 B2 JP7421869 B2 JP 7421869B2 JP 2019086481 A JP2019086481 A JP 2019086481A JP 2019086481 A JP2019086481 A JP 2019086481A JP 7421869 B2 JP7421869 B2 JP 7421869B2
Authority
JP
Japan
Prior art keywords
facial expression
audio data
adjustment
information processing
preprocessed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019086481A
Other languages
English (en)
Other versions
JP2020184100A (ja
Inventor
パイパーズ ヤン
ヒル レアンドロ グラシア
サジャード シディーク
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Square Enix Co Ltd
Original Assignee
Square Enix Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Square Enix Co Ltd filed Critical Square Enix Co Ltd
Priority to JP2019086481A priority Critical patent/JP7421869B2/ja
Publication of JP2020184100A publication Critical patent/JP2020184100A/ja
Application granted granted Critical
Publication of JP7421869B2 publication Critical patent/JP7421869B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Processing Or Creating Images (AREA)

Description

本発明の実施形態の少なくとも1つは、人の声を録音した音声データに基づいて簡単にリップシンクアニメーションを生成する技術に関する。
近年、アニメーションにおいてよりリアリティのある表現を行うための一手法として、アニメーションに合わせて録音した声優の声に同期させてキャラクタの唇の動きを変化させることが行われている。このような音声と口唇の動きが同期したアニメーション(以下、リップシンクアニメーションともいう。)の作成は、非常に時間の掛かるプロセスである。アニメーターは、ゲームで使用することができる1秒間のリップシンクアニメーションを手作りするために平均で約1時間以上を要する。そのため、このプロセスをスピードアップする手法が求められている。
例えば、非特許文献1には、ウェブカムを使って撮影されたユーザの表情をキャプチャすることによって、ユーザの表情と同期させてキャラクタの口唇の動きを含む顔全体の表情を変化させる技術が開示されている。
FaceRig,URL:https://facerig.com/
上記の非特許文献1によれば、ユーザの表情を撮影してモーションキャプチャを行うことでリップシンクアニメーションを生成しているが、リップシンクアニメーションを生成するためにモーションキャプチャを常に行う必要があるため手間が掛かるという問題があった。
本発明の少なくとも1つの実施形態の目的は、上記問題を解決し、人の声を録音した音声データに基づいて簡単にリップシンクアニメーションを生成するための情報処理プログラム、情報処理装置、情報処理方法及び学習済モデル生成方法を提供することである。
非限定的な観点によると、本発明の一実施形態に係る情報処理プログラムは、人の声を録音した音声データに基づいてアニメーションのキャラクタの口の動きを含む表情をコントロールするための表情パラメータを出力する処理をコンピュータに実現させるための情報処理プログラムであって、前記コンピュータに、前記音声データを取得する音声データ取得機能と、取得した前記音声データに対して所定の前処理を行って前処理済音声データを得る前処理機能と、入力された音声データに基づいて前記表情パラメータを出力することについて予め学習を行った学習済モデルに基づいて、前記前処理済音声データを入力として前記表情パラメータを生成して出力する表情パラメータ生成機能とを実現させることを特徴とする。
非限定的な観点によると、本発明の一実施形態に係る情報処理装置は、人の声を録音した音声データに基づいてアニメーションのキャラクタの口の動きを含む表情をコントロールするための表情パラメータを出力するための情報処理装置であって、前記音声データを取得する音声データ取得部と、取得した前記音声データに対して所定の前処理を行って前処理済音声データを得る前処理部と、入力された音声データに基づいて前記表情パラメータを出力することについて予め学習を行った学習済モデルに基づいて、前記前処理済音声データを入力として前記表情パラメータを生成して出力する表情パラメータ生成部とを備えることを特徴とする。
非限定的な観点によると、本発明の一実施形態に係る情報処理方法は、コンピュータに複数手順を実行させることで、人の声を録音した音声データに基づいてアニメーションのキャラクタの口の動きを含む表情をコントロールするための表情パラメータを出力する処理を実現させるための情報処理方法であって、前記音声データを取得する音声データ取得手順と、取得した前記音声データに対して所定の前処理を行って前処理済音声データを得る前処理手順と、入力された音声データに基づいて前記表情パラメータを出力することについて予め学習を行った学習済モデルに基づいて、前記前処理済音声データを入力として前記表情パラメータを生成して出力する表情パラメータ生成手順とを含むことを特徴とする。
非限定的な観点によると、本発明の一実施形態に係る学習済モデル生成方法は、複数処理をコンピュータに実現させることで、人の声を録音した音声データに基づいてアニメーションのキャラクタの口の動きを含む表情をコントロールするための表情パラメータを出力するようにニューラルネットワークを学習させて学習済モデルを得るための学習済モデル生成方法であって、人の声を録音した音声データと当該音声データと同期した人又はキャラクタの表情を表した表情映像データとを一対の組としたサンプルデータを少なくとも1組以上取得するサンプルデータ取得処理と、前記サンプルデータのうちの表情映像データから当該表情映像データにおける表情パラメータを正解表情パラメータとして抽出する表情パラメータ抽出処理と、前記サンプルデータのうちの前記音声データをニューラルネットワークに入力して表情パラメータを生成して出力させる表情パラメータ生成処理と、前記表情パラメータ生成処理において生成した表情パラメータと前記正解表情パラメータとを用いて損失関数に基づいて損失を演算し、損失が小さくなるように前記ニューラルネットワークを更新するニューラルネットワーク更新処理とを含むことを特徴とする。
本願の各実施形態により1または2以上の不足が解決される。
本発明の実施形態の少なくとも一つに対応する情報処理装置の構成の例を示すブロック図である。 本発明の実施形態の少なくとも一つに対応するニューラルネットワークの概念を表した説明図である。 本発明の実施形態の少なくとも一つに対応する前処理における大気ノイズ除去の概念を説明するための説明図である。 本発明の実施形態の少なくとも一つに対応するニューラルネットワークの構成の一例を表したブロック図である。 本発明の実施形態の少なくとも一つに対応する学習処理の例を示すフローチャートである。 本発明の実施形態の少なくとも一つに対応する表情パラメータ生成処理の例を示すフローチャートである。 本発明の実施形態の少なくとも一つに対応する情報処理装置の構成の例を示すブロック図である。 本発明の実施形態の少なくとも一つに対応する表情パラメータ調整処理の例を示すフローチャートである。
以下、本発明の実施形態の例について図面を参照して説明する。なお、以下で説明する各実施形態の例における各種構成要素は、矛盾等が生じない範囲で適宜組み合わせ可能である。また、ある実施形態の例として説明した内容については、他の実施形態においてその説明を省略している場合がある。また、各実施形態の特徴部分に関係しない動作や処理については、その内容を省略している場合がある。さらに、以下で説明する各種フローを構成する各種処理の順序は、処理内容に矛盾等が生じない範囲で順不同である。
[第1の実施形態]
以下において、本発明の一実施形態に係る情報処理装置について説明を行う。図1は、本発明に係る情報処理装置の構成の例を示すブロック図である。図1に示すように、情報処理装置10は、音声データ取得部11と、前処理部12と、表情パラメータ生成部13と、記憶部14とを備える。図2は、本発明の実施形態の少なくとも一つに対応するニューラルネットワークの概念を表した説明図である。この図2に示すように、本例では、音声データを前処理することで得た前処理済音声データをニューラルネットワークに入力して、適切に学習が済まされたニューラルネットワークに表情パラメータを出力させる構成となっている。
音声データ取得部11は、音声データを取得する機能を有する。ここで、音声データとは、人の声を録音したデータであって、アニメーションのキャラクタの口の動きを含む表情をコントロールするための表情パラメータを生成するためのベースとなるデータをいう。
前処理部12は、取得した音声データに対して所定の前処理を行って前処理済音声データを得る機能を有する。ここで、前処理とは、ニューラルネットワークに入力する前段階として取得した音声データに対して必要な処理を行うことをいう。本例において実行する前処理は、例えば、振幅正規化処理と、MFCC変換処理である。
前処理部12における正規化処理とは、音声データの振幅を正規化する処理のことをいう。録音された音声データの振幅は、スピーカーによっても、また読み上げられているテキストの種類によっても大きく異なるため、振幅正規化を行い、波形にコンプレッサを適用する。
また、前処理部12における前処理の一例として、大気ノイズ除去処理を行うようにしてもよい。録音された音声データの振幅は、スピーカーによっても、また読み上げられているテキストの種類によっても大きく異なるため、スピーチがある部分にコンプレッサとリミッターを適用し、スピーチ以外の部分を無音にすることが好ましい。しかし、実際にはスピーチ以外の箇所にも大気ノイズが入っていて無音ではなく波形が存在する。このノイズの波形にコンプレッサを適用してノイズが増幅されてしまうと問題が生じるため、大気ノイズの波形にはコンプレッサを適用しない工夫が必要になる。そこで、の問題を解決するために、信号中の大気雑音のレベルを決定する必要がある。これは、信号内のすべてのサンプルの絶対値の対数の分布を見ることによって自動的に行われる。サンプルs[n]が妥協された信号の場合、この分布は最初にs[n]=log|s[n]|を計算することによって得られます。信号の全範囲はそれぞれs minおよびs maxです。次に、この振幅範囲は、幅w=s max-s minのB=1000個のビンに分割される。次に、各サンプルs[n]がビンb=1・・・1000でカウントされます。ここで、s min+(b-1)w≦s<s max+bwである。すべてのビンにわたって発生数をプロットすると、信号の対数絶対振幅の分布が分かる。一例を図3に示す。
図3は、本発明の実施形態の少なくとも一つに対応する前処理における大気ノイズ除去の概念を説明するための説明図である。この図3は、信号内のすべてのサンプルの絶対値の対数の分布をプロットした一例である。この図3から分かるように、小さいピークと大きいピークの間に極小値が存在する。典型的には、低い大気雑音を有する音声データの全ての記録は同様の分布を有する。大きい方のピークは信号内の音声データを危険にさらすサンプルに起因し、小さい方のピークは主にノイズサンプルに起因します。信号内の大気ノイズのレベルを決定するには、それらを分離する2つのピーク間の極小値を見つける必要がある。この例では、極小値は約-6であり、したがって大気雑音の振幅ANはAN=e-6≒0.0025である。このようにして、大気ノイズのレベルを自動的に決定した後、信号全体にわたって同様の音量レベルを得るために、ANよりも高い振幅を持つ信号のすべての部分にコンプレッサを適用するようにする。
前処理部12におけるMFCC変換処理について説明する。ここで、MFCCとは、メル周波数ケプストラム係数のことである。音声としての情報をできるだけ損なわずにデータ容量を削減してニューラルネットワークを利用した演算に用いるための現実的な次元にデータを変換するための手法の1つとしてメル周波数ケプストラム係数が利用される。MFCCは、音声データからM個のサンプルごとにN個のサンプルのチャンクを切り取ることによって得られる。その後、各チャンクは、ウィンドウ関数によって乗算され、FFT(fast Fourier transform:高速フーリエ変換)を適用することによって周波数領域に転送され、FFTからの複素数値出力の最初のN/2+1サンプルの絶対値を計算し、最後のN/2-1サンプルは、スペクトルのミラーリングされたバージョンとなる。スペクトルは次に、隣接するサンプルを1つのビンに合計し、ビンのサイズを増加させることによってメルスケールに変換される。次に、各ビンの振幅がそれらの対数的表現に変換され、DCT(discrete cosine transform:離散コサイン変換)が適用される。DCTの第1のn係数は、処理されたチャンクのオーディオコンテンツを表すために使用される。このようにして、音声データをMFCCに変換する。
表情パラメータ生成部13は、入力された音声データに基づいて表情パラメータを出力することについて予め学習を行った学習済モデルに基づいて、前処理済音声データを入力として表情パラメータを生成して出力する機能を有する。ここで、表情パラメータとは、アニメーションのキャラクタの口の動きを含む表情をコントロールするためのパラメータのことをいう。表情パラメータは、アニメーションを制御するソフトウェアにおいて設定可能なパラメータであれば取り扱うことが可能である。一例としては、頭をたおす(Head Pitch)、頭を回す(Head Roll)、頭を横にずらす(Head Yaw)、鼻上・下(Nose Up/Down)、閉じた左目・右目(Left Eye Closed・Right Eye Closed)、左目・右目の左・右(Left Eye Left/Right・Right Eye Left/Right)、左目・右目の斜視(Left Eye Squint・Right Eye Squint)、左目・右目の上・下(Left Eye Up/Down・Right Eye Up/Down)、左・右眉毛の外部(Left Eyebrow Exterlor・Right Eyebrow Exterlor)、左・右眉毛の内部(Left Eyebrow Interior・Right Eyebrow Interior)、顎下ろし(Jaw drop)、顎左/右(Jaw Left/Right)、唇を左・右に伸ばす(Lip Stretch Left・Lip Stretch Right)、唇で分からない時の左・右(Lip Unsure Left・Lip Unsure Right)、下唇下げる(Lower Lip Drop)、すぼめた唇(Pursed Lips)、すぼめた唇左/右(Pursed Lips Left/Right)、上唇上げる(Upper Lip Raiser)、無効にする(Disable)・・・などの表情パラメータが考えられる。これらの表情パラメータそれぞれの数値を学習済モデルに出力させることで、リップシンクアニメーションを生成可能とする。
また、表情パラメータ生成部13は、前処理済音声データの他に、ラベル情報を入力として用いるようにしてもよい。ここで、ラベル情報とは、表情パラメータの生成のヒントとなるような様々な情報のことをいう。例えば、声優の情報、アニメーションにおけるキャラクタの情報、アニメーションが伝えようとする感情の指定など、様々なラベル情報が考えられる。このようなラベル情報を用いるためには、ニューラルネットワークの学習段階においてラベル情報を用いた学習を行っておく必要がある。
記憶部14は、情報処理装置10における各部の処理に必要な情報を記憶し、また、各部の処理で生じた各種の情報を記憶する機能を有する。また、学習過程のニューラルネットワークのパラメータ、及び、学習完了後のニューラルネットワークのパラメータをこの記憶部16に記憶させる構成であってもよい。
次に、ニューラルネットワークの構造について説明を行う。ニューラルネットワークは、音声データに基づいて最適な表情パラメータを出力可能であればどのような構成であっても構わない。しかし、リップシンクアニメーションの場合、前の発音の口の形状によって次の発音の口の形状に移行する過程が異なることも想定されるなど時系列的な処理を要するため、時系列データを扱うことに適したリカレントニューラルネットワークを採用することが好ましい。リカレントニューラルネットワークとしては、例えば、LSTM(Long short-term memory)などが挙げられる。リカレントニューラルネットワークは、音声データという時系列データに基づいて表情パラメータを生成する際に適したモデルであるといえる。
図4は、本発明の実施形態の少なくとも一つに対応するニューラルネットワークの構成の一例を表したブロック図である。この図4において、複数のリカレントニューラルネットワーク(以下、RNNともいう。)は、それぞれが表情パラメータの生成を行うRNNセルであり、この図4に示すように、1つのRNNから次のRNNに対してインプットデータがドロップアウトする構成となっている。複数のRNNのそれぞれの出力は、Sliding window(スライディングウィンドウ)に入力される。Sliding windowは、入力と出力の間に時間遅延を導入するために用いられる。これは、会話中に口が何かを言う前に動き始め、その瞬間までの音声のみに基づくデータで正しい結果を生み出すことが不可能になるためである。この問題を軽減するために、私たちのネットワークは遅延出力を生成する。Multiple soft attentionは、ネットワークが生成する複数のソフトアテンションメカニズムの組み合わせにより、各出力を見るスライディングウィンドウの部分を定義する。最終的に、FC Layer(全結合層)を経て、表情パラメータが出力される。ラベル情報を用いる場合には、ラベル情報がFC Layerに入力されて、表情パラメータの決定に影響することになる。
次に、本発明の実施形態に対応する学習処理の流れについて説明を行う。学習処理は、情報処理装置10において行われてもよいし、他のコンピュータにおいて学習を行うようにしてもよい。以下においては、情報処理装置10において学習が行われる場合を例に説明を行う。図5は、本発明の実施形態の少なくとも一つに対応する学習処理の例を示すフローチャートである。この図5において、学習処理は、情報処理装置10において、音声データとこれに同期した表情映像データとをサンプルデータとして取得することによって開始される(ステップS101)。ここで、表情映像データとしては、声を発している声優の顔を撮影したものであってもよいし、既にリップシンクアニメーションとして作成済みのアニメーションを利用するものであってもよい。音声データとこれに同期した表情映像データが一緒に取得できるものであればどのようなものであってもよい。次に、情報処理装置10は、表情映像データから正解表情パラメータを抽出する(ステップS102)。表情映像データから正解表情パラメータを抽出する手法はどのような手法であってもよい。例えば、表情映像データを専用のソフトウェアによって解析して表情パラメータを抽出する。そして、情報処理装置10は、ニューラルネットワークに音声データを入力して、表情パラメータを生成させる(ステップS103)。なお、正確には、音声データに前処理を行って、前処理済音声データをニューラルネットワークに入力する。最後に、生成した表情パラメータと正解表情パラメータとを用いて損失を演算して、損失が小さくなるようにニューラルネットワークを更新して(ステップS104)、学習処理を終了する。以上のステップS101~S104を複数のサンプルデータに基づいて繰り返し実行することで、適切な表情パラメータを生成可能な学習済モデルを得る。また、学習処理において、サンプルデータにラベル情報も加えて学習を行うことで、ラベル情報を用いた表情パラメータの生成が可能となる。
次に、本発明の実施形態に対応する表情パラメータ生成処理の流れについて説明を行う。図6は、本発明の実施形態の少なくとも一つに対応する表情パラメータ生成処理の例を示すフローチャートである。この図6において、表情パラメータ生成処理は、情報処理装置10において、音声データを取得することによって開始される(ステップS201)。次に、情報処理装置10は、前処理として、音声データから大気ノイズの影響を除去するための処理を実行する(ステップS202)。さらに、情報処理装置10は、前処理として、音声データをMFCCに変換する(ステップS203)。そして、情報処理装置10は、前処理済音声データを学習済モデルに入力して、学習済モデルに基づいて表情パラメータを生成して出力することで(ステップS204)、表情パラメータ生成処理を終了する。
以上に説明したように、第1の実施の形態の一側面として、人の声を録音した音声データに基づいてアニメーションのキャラクタの口の動きを含む表情をコントロールするための表情パラメータを出力するための情報処理装置10が、音声データ取得部11と、前処理部12と、表情パラメータ生成部13と、記憶部14とを備え、音声データを取得し、取得した音声データに対して所定の前処理を行って前処理済音声データを得て、入力された音声データに基づいて前記表情パラメータを出力することについて予め学習を行った学習済モデルに基づいて、前処理済音声データを入力として表情パラメータを生成して出力するようにしたので、人の声を録音した音声データに基づいて簡単にリップシンクアニメーションを生成することが可能となる。
[第2の実施形態]
第1の実施の形態においては、表情パラメータ生成部13で生成された表情パラメータに基づいて直接リップシンクアニメーションを生成するものとして説明を行ったが、俺に限定されるものではなく、表情パラメータ生成部13で生成された表情パラメータをさらに調整するようにしてもよい。
図7は、本発明の実施形態の少なくとも一つに対応する情報処理装置の構成の例を示すブロック図である。この図7において、情報処理装置10Bは、音声データ取得部11と、前処理部12と、表情パラメータ生成部13と、表情パラメータ調整部15と、記憶部14とを備える。この図7に示す情報処理装置10Bのうち、音声データ取得部11、前処理部12、表情パラメータ生成部13、記憶部14については、第1の実施の形態と同様であるので説明を省略する。
表情パラメータ調整部15は、音声データ又は前処理済音声データから所定の調整候補個所を抽出して、抽出した調整候補個所が調整の必要があると判断した場合には、当該調整候補個所に該当する表情パラメータの値を所定の調整内容となるように変更する機能を有する。
ここで、所定の調整候補個所とは、リップシンクアニメーションの製作者がアニメーションに求めるクオリティ水準と比較して表情パラメータの調整が必要か否かを判定する個所のことをいう。例えば、発声する音と音の間には無音個所が発生するが、ニューラルネットワークの学習に用いるサンプルデータとして声優(俳優)の表情を撮影して正解表情パラメータを取得すると、声優(俳優)の癖として無音個所でも僅かに口を開いている場合がある。このような癖を有する声優の表情パラメータを用いて学習を行うと、学習済モデルが出力する無音時の表情パラメータも僅かに口を開いたものとなってしまう。このような無音時の口の開きは調整候補個所となり得る。また、ビデオゲームやアニメーションのストーリーとの兼ね合い若しくはキャラクタの個性などの理由で、特定の音、単語等を発音する個所では大きく表情を変化させたいという要望があり得るので、このような特定の音、単語等を発する個所は調整候補個所となり得る。これらを解決する方法としては、サンプルデータを調整する方法もあるが、本例では、学習済モデルが出力した表情パラメータを調整することで対応する。
図8は、本発明の実施形態の少なくとも一つに対応する表情パラメータ調整処理の例を示すフローチャートである。この図8において、表情パラメータ調整処理は、情報処理装置10Bにおいて、音声データ(又は前処理済音声データ)から所定の調整候補個所(例えば無音個所)を抽出することによって開始される(ステップS301)。先ず、情報処理装置10Bは、n=1とする(ステップS302)。次に、情報処理装置10Bは、生成された表情パラメータのうち、n番目の調整候補個所の表情パラメータを参照する(ステップS303)。そして、情報処理装置10Bは、参照したn番目の調整候補個所の表情パラメータの調整が必要か否かを判定する(ステップS304)。表情パラメータが調整が必要ない場合にはステップS306へ移行するが(S304-N)、表情パラメータが調整が必要と判定した場合(S304-Y)には、情報処理装置10Bは、n番目の調整候補個所の表情パラメータを所定の調整内容(例えば口を閉じる)となるように変更する(ステップS305)。そして、情報処理装置10Bは、現在対象としているn番目の調整候補個所が最後の調整候補個所であるかを判定して(ステップS306)、最後の調整候補個所でない場合(S306-N)は、n=n+1として(ステップS307)から、ステップS303へ戻る。以降、情報処理装置10Bは、最後の調整候補個所となるまでステップS303~S305の処理をn=n+1としながら繰り返す。そして、最後の調整候補個所の処理が終わった段階で(S306-Y)、表情パラメータ調整処理を終了する。なお、この図8の例では、n個の調整候補個所それぞれについて調整の必要の有無を判定してから調整を行う構成として説明を行ったが、これはあくまで一例であり、調整の必要性について判定を行わずに、n個の調整候補個所すべてに対して一律に調整を行う構成であってもよい。また、表情パラメータの調整を行う際には、前後の音との間で自然な表情変化となるように調整を行うべきである点はいうまでもない。
以上に説明したように、第2の実施の形態の一側面として、人の声を録音した音声データに基づいてアニメーションのキャラクタの口の動きを含む表情をコントロールするための表情パラメータを出力するための情報処理装置10Bが、音声データ取得部11と、前処理部12と、表情パラメータ生成部13と、表情パラメータ生成部15と、記憶部14とを備え、このうちの表情パラメータ生成部15において、音声データ又は前処理済音声データから所定の調整候補個所を抽出して、抽出した調整候補個所が調整の必要があると判断した場合には、当該調整候補個所に該当する表情パラメータの値を所定の調整内容となるように変更するようにしたので、学習済モデルが生成する表情パラメータをリップシンクアニメーションの製作者の要望に応じて調整することが可能となる。この手法による調整は、サンプルデータを調整して学習済モデルを用意することに比較して簡単に調整を行うことができる点でメリットがある。
以上に説明したように、本願の実施形態により1または2以上の不足が解決される。なお、本願の実施形態による効果は、非限定的な効果または効果の一例である。
10、10B 情報処理装置
11 音声データ取得部
12 前処理部
13 表情パラメータ生成部
14 記憶部
15 表情パラメータ調整部

Claims (5)

  1. 人の声を録音した音声データに基づいてアニメーションのキャラクタの口の動きを含む表情をコントロールするための表情パラメータを出力する処理をコンピュータに実現させるための情報処理プログラムであって、
    前記コンピュータに、
    前記音声データを取得する音声データ取得機能と、
    取得した前記音声データに対して所定の前処理を行って前処理済音声データを得る前処理機能と、
    入力された音声データに基づいて前記表情パラメータを出力することについて予め学習を行った学習済モデルに基づいて、前記前処理済音声データを入力として前記表情パラメータを生成して出力する表情パラメータ生成機能と
    音声データ又は前処理済音声データから所定の調整候補個所を抽出して、抽出した調整候補個所が調整の必要があると判断した場合には、当該調整候補個所に該当する表情パラメータの値を所定の調整内容となるように変更する表情パラメータ調整機能と
    を実現させる情報処理プログラム。
  2. 前記表情パラメータ調整機能は、
    音声データ又は前処理済音声データから予め登録した特徴を備えた調整候補箇所を抽出して、抽出した調整候補個所に対応する表情パラメータが所定の条件から逸脱していて調整の必要があると判断した場合には、当該調整候補個所に対応する表情パラメータの値を前記所定の条件に合致するように変更する
    請求項1記載の情報処理プログラム。
  3. 前記表情パラメータ調整機能は、
    音声データ又は前処理済音声データから無音個所を抽出して、抽出した無音箇所に対応する表情パラメータが口を開いているものであると判定された場合には、当該無音個所に該当する表情パラメータの値を口を閉じた状態の値となるように変更する
    請求項1記載の情報処理プログラム。
  4. 人の声を録音した音声データに基づいてアニメーションのキャラクタの口の動きを含む表情をコントロールするための表情パラメータを出力するための情報処理装置であって、
    前記音声データを取得する音声データ取得部と、
    取得した前記音声データに対して所定の前処理を行って前処理済音声データを得る前処理部と、
    入力された音声データに基づいて前記表情パラメータを出力することについて予め学習を行った学習済モデルに基づいて、前記前処理済音声データを入力として前記表情パラメータを生成して出力する表情パラメータ生成部と
    音声データ又は前処理済音声データから所定の調整候補個所を抽出して、抽出した調整候補個所が調整の必要があると判断した場合には、当該調整候補個所に該当する表情パラメータの値を所定の調整内容となるように変更する表情パラメータ調整部と
    を備える情報処理装置。
  5. コンピュータに複数手順を実行させることで、人の声を録音した音声データに基づいてアニメーションのキャラクタの口の動きを含む表情をコントロールするための表情パラメータを出力する処理を実現させるための情報処理方法であって、
    前記音声データを取得する音声データ取得手順と、
    取得した前記音声データに対して所定の前処理を行って前処理済音声データを得る前処理手順と、
    入力された音声データに基づいて前記表情パラメータを出力することについて予め学習を行った学習済モデルに基づいて、前記前処理済音声データを入力として前記表情パラメータを生成して出力する表情パラメータ生成手順と
    音声データ又は前処理済音声データから所定の調整候補個所を抽出して、抽出した調整候補個所が調整の必要があると判断した場合には、当該調整候補個所に該当する表情パラメータの値を所定の調整内容となるように変更する表情パラメータ調整手順と
    を含む情報処理方法。
JP2019086481A 2019-04-26 2019-04-26 情報処理プログラム、情報処理装置、情報処理方法及び学習済モデル生成方法 Active JP7421869B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019086481A JP7421869B2 (ja) 2019-04-26 2019-04-26 情報処理プログラム、情報処理装置、情報処理方法及び学習済モデル生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019086481A JP7421869B2 (ja) 2019-04-26 2019-04-26 情報処理プログラム、情報処理装置、情報処理方法及び学習済モデル生成方法

Publications (2)

Publication Number Publication Date
JP2020184100A JP2020184100A (ja) 2020-11-12
JP7421869B2 true JP7421869B2 (ja) 2024-01-25

Family

ID=73045207

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019086481A Active JP7421869B2 (ja) 2019-04-26 2019-04-26 情報処理プログラム、情報処理装置、情報処理方法及び学習済モデル生成方法

Country Status (1)

Country Link
JP (1) JP7421869B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6993034B1 (ja) 2021-05-14 2022-01-13 Aiインフルエンサー株式会社 コンテンツ再生方法、及びコンテンツ再生システム
JPWO2023032224A1 (ja) * 2021-09-06 2023-03-09
KR102558530B1 (ko) * 2021-11-25 2023-07-24 주식회사 마음에이아이 립싱크 영상 생성을 위한 인공 신경망 학습 방법 및 컴퓨터 프로그램

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001126077A (ja) 1999-10-26 2001-05-11 Atr Ningen Joho Tsushin Kenkyusho:Kk 顔画像伝送方法およびシステムならびに当該システムで用いられる顔画像送信装置および顔画像再生装置
JP2005070367A (ja) 2003-08-22 2005-03-17 Sharp Corp 信号分析装置、信号処理装置、音声認識装置、信号分析プログラム、信号処理プログラムおよび音声認識プログラム、記録媒体、並びに電子機器
JP2007058846A (ja) 2005-07-27 2007-03-08 Advanced Telecommunication Research Institute International リップシンクアニメーション作成用の統計確率モデル作成装置、パラメータ系列合成装置、リップシンクアニメーション作成システム、及びコンピュータプログラム
JP2008052628A (ja) 2006-08-28 2008-03-06 Advanced Telecommunication Research Institute International アニメーションデータ作成装置及びアニメーションデータ作成プログラム
US20100211397A1 (en) 2009-02-18 2010-08-19 Park Chi-Youn Facial expression representation apparatus
JP2016173791A (ja) 2015-03-18 2016-09-29 カシオ計算機株式会社 画像処理装置、画像処理方法、及びプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001126077A (ja) 1999-10-26 2001-05-11 Atr Ningen Joho Tsushin Kenkyusho:Kk 顔画像伝送方法およびシステムならびに当該システムで用いられる顔画像送信装置および顔画像再生装置
JP2005070367A (ja) 2003-08-22 2005-03-17 Sharp Corp 信号分析装置、信号処理装置、音声認識装置、信号分析プログラム、信号処理プログラムおよび音声認識プログラム、記録媒体、並びに電子機器
JP2007058846A (ja) 2005-07-27 2007-03-08 Advanced Telecommunication Research Institute International リップシンクアニメーション作成用の統計確率モデル作成装置、パラメータ系列合成装置、リップシンクアニメーション作成システム、及びコンピュータプログラム
JP2008052628A (ja) 2006-08-28 2008-03-06 Advanced Telecommunication Research Institute International アニメーションデータ作成装置及びアニメーションデータ作成プログラム
US20100211397A1 (en) 2009-02-18 2010-08-19 Park Chi-Youn Facial expression representation apparatus
JP2016173791A (ja) 2015-03-18 2016-09-29 カシオ計算機株式会社 画像処理装置、画像処理方法、及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
西村 亮佑 Ryosuke NISHIMURA,深層学習を用いた入力音声に適した顔表情生成,第23回日本バーチャルリアリティ学会大会 [online] The 23<SP>rd</SP> Annual Conference of the Virtual Reality Society of Japan,2018年09月21日,13C-3

Also Published As

Publication number Publication date
JP2020184100A (ja) 2020-11-12

Similar Documents

Publication Publication Date Title
US20210142818A1 (en) System and method for animated lip synchronization
US11211060B2 (en) Using machine-learning models to determine movements of a mouth corresponding to live speech
JP7421869B2 (ja) 情報処理プログラム、情報処理装置、情報処理方法及び学習済モデル生成方法
Vougioukas et al. Video-driven speech reconstruction using generative adversarial networks
KR20060090687A (ko) 시청각 콘텐츠 합성을 위한 시스템 및 방법
GB2516965A (en) Synthetic audiovisual storyteller
JP2005049859A (ja) オーディオデータを自動的に認識する方法及び装置
CN112184859B (zh) 端到端的虚拟对象动画生成方法及装置、存储介质、终端
Ishi et al. Speech-driven lip motion generation for tele-operated humanoid robots
Llorach et al. Web-based live speech-driven lip-sync
WO2023279976A1 (zh) 语音合成方法、装置、设备及存储介质
CA2959862A1 (en) System and method for animated lip synchronization
CN113822968A (zh) 语音实时驱动虚拟人的方法、系统及存储介质
CN113823323A (zh) 一种基于卷积神经网络的音频处理方法、装置及相关设备
CN108847246A (zh) 一种动画制作方法、装置、终端及可读介质
CN117523051B (zh) 基于音频生成动态图像的方法、装置、设备及存储介质
JP2015038725A (ja) 発話アニメーション生成装置、方法、及びプログラム
CN116095357B (zh) 虚拟主播的直播方法、装置及系统
CN114708857A (zh) 语音识别模型训练方法、语音识别方法及相应装置
CN112712789A (zh) 跨语言音频转换方法、装置、计算机设备和存储介质
CN116366872A (zh) 基于中之人和人工智能的直播方法、装置及系统
KR20230172427A (ko) 사람 음성에 따른 실사인물의 발화 영상 합성 시스템
US11461948B2 (en) System and method for voice driven lip syncing and head reenactment
CN112992120A (zh) 语音转换虚拟脸部图像的方法
CN113362432A (zh) 一种面部动画生成方法及装置

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20210901

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220426

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230420

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230502

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20230703

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230831

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231114

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20231214

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240115

R150 Certificate of patent or registration of utility model

Ref document number: 7421869

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150