JP6528484B2

JP6528484B2 - 画像処理装置、アニメーション生成方法及びプログラム

Info

Publication number: JP6528484B2
Application number: JP2015054396A
Authority: JP
Inventors: 翔一岡庭; 祐和神田; 成克森谷; 弘明根岸
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2015-03-18
Filing date: 2015-03-18
Publication date: 2019-06-12
Anticipated expiration: 2035-03-18
Also published as: JP2016173790A

Description

本発明は、画像処理装置、アニメーション生成方法及びプログラムに関する。

従来、コンテンツの輪郭の形状に形成されたスクリーンにコンテンツを投影することにより、閲覧者に対して印象を高めることができる映像出力装置が知られている（特許文献１参照）。例えば、人の形状のスクリーンを用いることで、あたかもそこに人が立っているかのような存在感のある投影像が得られる。

また、近年、１枚の顔画像と音声データに基づいて、音声データに合わせて顔画像の口を動かすリップシンクアニメーションを生成する技術が利用されている。リップシンクアニメーションでは、発音される音の母音に応じて口の形状を変化させるとともに、音量に応じて口の開き量を変化させている。

特開２０１１−１５０２２１号公報

しかしながら、リップシンクアニメーションを生成する際に、素材として用いる音声データの単語の最初の部分の音量が小さいと、口が開くタイミングと音が聞こえるタイミングとにズレが発生してしまうという問題があった。
このような状況に対応するため、従来は、アニメーションを生成する作業者が音声データを耳で聞きながら、オーディオ編集ソフトウェアを用いて、手動で音量を調整していた。具体的には、音声データの単語の最初の部分の音量を上げることで、この最初の部分で確実に口が開くようにしている。この音量調整作業は、クリッピング（音割れ）等に気を配る必要があるため、一定のスキルを必要とする。

本発明は、上記の従来技術における問題に鑑みてなされたものであって、簡単に顔画像に含まれる口の動きを調整することを課題とする。

上記課題を解決するため、本発明に係る画像処理装置は、
音声データから開始音量を検出する開始音量検出手段と、
前記検出された開始音量と所定の閾値とを比較する比較手段と、
前記比較手段により比較された前記開始音量が前記所定の閾値よりも小さい場合、前記音声データの前記開始音量に対応する音声部分の口の開き量が、前記開始音量に対応する口の開き量より大きくなるように、前記音声データに応じて顔画像に含まれる口を動かすアニメーションを生成する生成手段と、
を備える。

本発明によれば、簡単に顔画像に含まれる口の動きを調整することができる。

画像処理装置の機能的構成を示すブロック図である。画像処理装置において実行されるアニメーション生成処理を示すフローチャートである。文字管理テーブルを示す図である。単語管理テーブルを示す図である。リップシンクアニメーション生成処理を示すフローチャートである。

以下、図面を参照して本発明に係る画像処理装置の実施の形態について説明する。なお、本発明は、図示例に限定されるものではない。

［画像処理装置の構成］
図１は、本実施の形態に係る画像処理装置１０の機能的構成を示すブロック図である。
画像処理装置１０は、制御部１１と、操作部１２と、表示部１３と、音声出力部１４と、通信部１５と、メモリ１６と、記憶部１７と、を備え、各部はバス１８を介して接続されている。画像処理装置１０は、映像加工が可能な演算装置であり、パーソナルコンピュータやワークステーション等により構成される。

制御部１１は、画像処理装置１０の各部の処理動作を統括的に制御する。具体的には、制御部１１は、ＣＰＵ（Central Processing Unit）等を備え、記憶部１７に記憶されている各種処理プログラムとの協働により各種処理を行う。

操作部１２は、カーソルキー、文字入力キー、テンキー及び各種機能キー等を備えたキーボードと、マウス等のポインティングデバイスを備えて構成され、キーボードに対するキー操作やマウス操作により入力された指示信号を制御部１１に出力する。

表示部１３は、ＬＣＤ（Liquid Crystal Display）等のモニタにより構成され、制御部１１から入力される表示信号の指示に従って、各種画面を表示する。

音声出力部１４は、スピーカ、Ｄ／Ａ変換回路等を備え、Ｄ／Ａ変換回路により、記憶部１７に記憶されている音声データＡや、アニメーション生成処理（図２参照）において生成される映像データＣに基づくデジタル信号をアナログ信号に変換し、このアナログ信号に基づいてスピーカにより音声を出力する。

通信部１５は、モデム、ルータ、ネットワークカード等により構成され、通信ネットワークに接続された外部機器との通信を行う。

メモリ１６は、ＤＲＡＭ（Dynamic Random Access Memory）等の半導体メモリ等により構成され、画像処理装置１０の各部によって処理されるデータ等を一時的に記憶する。

記憶部１７は、ＨＤＤ（Hard Disk Drive）や不揮発性の半導体メモリ等により構成される。記憶部１７には、アニメーション生成プログラムＰを始めとする、制御部１１が各種処理を実行するための各種処理プログラム、これらのプログラムの実行に必要なデータ等が記憶されている。

例えば、記憶部１７には、アニメーションを生成する元となる音声データＡ及び顔画像データＢが記憶されている。
音声データＡは、人が発した音声を録音して得られたデータであり、リップシンクさせたいキャラクターの音声として用いられる。音声データＡとしては、音声以外の音（ノイズ、ＢＧＭ等）が含まれていないものを想定している。
顔画像データＢは、リップシンクさせたいキャラクターの顔を含む画像のデータであり、２次元の静止画データ、又は、３次元のポリゴンデータを想定している。

また、記憶部１７には、アニメーション生成処理において生成される映像データＣが記憶される。映像データＣは、動画（アニメーション）を構成する一連のフレーム画像と、各フレーム画像に対応する音声データにより構成されている。

制御部１１は、音声データＡから単語を検出する。すなわち、制御部１１は、単語検出手段として機能する。

制御部１１は、音声データＡから開始音量を検出する。すなわち、制御部１１は、開始音量検出手段として機能する。例えば、制御部１１は、検出された単語毎に、音声データＡから当該単語の開始音量を検出する。

制御部１１は、検出された開始音量と所定の閾値とを比較する。すなわち、制御部１１は、比較手段として機能する。

制御部１１は、開始音量と所定の閾値との比較結果に基づいて、音声データＡに応じて顔画像データＢに基づく顔画像に含まれる口を動かすアニメーション（リップシンクアニメーション）を生成する。すなわち、制御部１１は、生成手段として機能する。
具体的には、制御部１１は、開始音量が所定の閾値より小さい場合に、音声データＡの開始音量に対応する音声部分の口の開き量を、開始音量に対応する口の開き量より大きくする。
更に、制御部１１は、開始音量が所定の閾値より小さい場合に、音声データＡの開始音量に対応する音声部分の口の開き量を、所定の閾値以上の音量に対応する口の開き量に変更することとしてもよい。

［画像処理装置の動作］
次に、画像処理装置１０の動作について説明する。
図２は、画像処理装置１０において実行されるアニメーション生成処理を示すフローチャートである。アニメーション生成処理は、操作部１２によりアニメーションの生成に使用する音声データＡ及び顔画像データＢが指定され、アニメーションの生成が指示された際に行われる処理であって、制御部１１と記憶部１７に記憶されているアニメーション生成プログラムＰとの協働によるソフトウェア処理によって実現される。

まず、制御部１１は、操作部１２により指定された音声データＡを記憶部１７から読み出し、音声データＡをテキスト変換し、テキストデータＤを生成する（ステップＳ１）。テキスト変換には、既存の音声認識技術を用いる。例えば、制御部１１は、「東京五輪の経済効果」という音声データＡを、「とーきょーごりんのけいざいこうか」というテキストデータＤに変換する。制御部１１は、生成したテキストデータＤをメモリ１６に記憶させる。

この際、制御部１１は、テキストデータＤに含まれる各文字（日本語なら、かな単位）の開始時間及び終了時間を記録する（ステップＳ２）。制御部１１は、図３に示す文字管理テーブルＴ１を生成し、生成した文字管理テーブルＴ１をメモリ１６に記憶させる。文字管理テーブルＴ１には、テキストデータＤに含まれる各文字に対して、開始時間と終了時間とが対応付けられている。各文字の開始時間及び終了時間は、例えば、音声データＡの開始からの経過時間で表される。
なお、拗音（「きょ」等）については、かな２文字で表されるが、拗音を１単位として開始時間及び終了時間を記録することとしてもよい。また、長音（「とー」等）についても、長音を１単位として開始時間及び終了時間を記録することとしてもよい。

次に、制御部１１は、テキストデータＤから単語を検出し、単語データ群Ｅを生成する（ステップＳ３）。単語の検出には、既存の単語検出技術を用いる。例えば、制御部１１は、「とーきょーごりんのけいざいこうか」というテキストデータＤから、「東京」、「五輪」、「の」、「経済」、「効果」という単語を検出する。なお、「の」等の助詞については、検出対象から除外してもよい。制御部１１は、生成した単語データ群Ｅをメモリ１６に記憶させる。

この際、制御部１１は、単語データ群Ｅに含まれる各単語の開始時間及び終了時間を、文字管理テーブルＴ１から取得し、記録する（ステップＳ４）。具体的には、制御部１１は、単語の開始時間として、当該単語の最初の文字の開始時間を取得し、単語の終了時間として、当該単語の最後の文字の終了時間を取得する。制御部１１は、図４に示す単語管理テーブルＴ２を生成し、生成した単語管理テーブルＴ２をメモリ１６に記憶させる。単語管理テーブルＴ２には、各単語に対して、開始時間と終了時間とが対応付けられている。各単語の開始時間及び終了時間は、例えば、音声データＡの開始からの経過時間で表される。

制御部１１は、「経済」という単語の開始時間として、文字管理テーブルＴ１に記録されている「け」という文字（「経済」の最初の文字）の開始時間を取得する。
また、制御部１１は、「経済」という単語の終了時間として、文字管理テーブルＴ１に記録されている「い」という文字（「経済」の最後の文字）の終了時間を取得する。

なお、ここでは、各単語の開始時間及び終了時間の検出が目的であるため、単語そのものの検出正否は問わない。例えば、「けいざいこうか」から「軽罪」、「高価」という単語を誤って検出したとしても、単語の開始時間及び終了時間に間違いはないため、問題としない。

次に、制御部１１は、操作部１２により指定された顔画像データＢを記憶部１７から読み出し、顔画像データＢ及び単語データ群Ｅに基づいて、リップシンクアニメーション生成処理を行い、リップシンクアニメーションとしての映像データＣを生成する（ステップＳ５）。制御部１１は、生成した映像データＣを記憶部１７に記憶させる。
リップシンクアニメーションは、音声データＡに応じてキャラクターの顔画像に含まれる口を動かす動画を生成する画像処理技術である。例えば、制御部１１は、音声データＡを解析して母音を取得し、母音に応じた口の形状とするとともに、音量に応じて口の開き量を調整する。
以上で、アニメーション生成処理が終了する。

次に、図５を参照して、ステップＳ５のリップシンクアニメーション生成処理について説明する。
まず、制御部１１は、単語データ群Ｅに含まれる最初の単語を処理対象に設定する（ステップＳ１１）。

次に、制御部１１は、処理対象単語の開始音量を検出する（ステップＳ１２）。具体的には、制御部１１は、メモリ１６に記憶されている単語管理テーブルＴ２から処理対象単語の開始時間を取得し、音声データＡから処理対象単語の開始時間に対応する音声部分の音量を検出する。

次に、制御部１１は、処理対象単語の開始音量が所定の閾値より小さいか否かを判断する（ステップＳ１３）。閾値については、様々な設定方法が考えられるが、例えば、処理対象単語の開始時間から終了時間までの音量の平均値を０．５倍した値を閾値に設定する。

処理対象単語の開始音量が所定の閾値より小さい場合には（ステップＳ１３；ＹＥＳ）、制御部１１は、処理対象単語の開始音量に対応する音声部分のキャラクターの口の開き量を、通常の開き量よりも大きくして口の形状データを生成する（ステップＳ１４）。ここで、通常の開き量とは、通常（従来）のリップシンクアニメーションエンジンを利用して求められた、処理対象単語の開始音量に対応する口の開き量である。制御部１１は、生成した口の形状データをフレーム番号に対応付けてメモリ１６に記憶させる。
例えば、制御部１１は、処理対象単語の開始音量に対応する音声部分の口の開き量を、所定の閾値以上の音量に対応する口の開き量に変更する。
なお、制御部１１は、処理対象単語の開始位置以外の音声部分については、通常のリップシンクアニメーションエンジンを利用して口の形状データを生成する。

一方、ステップＳ１３において、処理対象単語の開始音量が所定の閾値以上の場合には（ステップＳ１３；ＮＯ）、制御部１１は、処理対象単語に対応する音声部分について、通常のリップシンクアニメーションエンジンを利用して口の形状データを生成する（ステップＳ１５）。制御部１１は、生成した口の形状データをフレーム番号に対応付けてメモリ１６に記憶させる。

ステップＳ１４又はステップＳ１５の後、制御部１１は、処理対象単語が単語データ群Ｅに含まれる最後の単語であるか否かを判断する（ステップＳ１６）。
処理対象単語が単語データ群Ｅに含まれる最後の単語でない場合には（ステップＳ１６；ＮＯ）、制御部１１は、単語データ群Ｅに含まれる次の単語を処理対象に設定し（ステップＳ１７）、ステップＳ１２〜ステップＳ１６の処理を繰り返す。

ステップＳ１６において、処理対象単語が単語データ群Ｅに含まれる最後の単語である場合には（ステップＳ１６；ＹＥＳ）、制御部１１は、メモリ１６に記憶されている各フレームの口の形状データと、顔画像データＢと、音声データＡと、に基づいて、映像データＣを生成する（ステップＳ１８）。この映像データＣの生成には、既存の技術を用いる。具体的には、制御部１１は、顔画像データＢと各フレームの口の形状データとに基づいて、各フレームの静止画を生成し、各フレームの静止画を結合して動画データを生成する。そして、制御部１１は、この動画データに音声データＡを結合して映像データＣを生成し、生成した映像データＣを記憶部１７に記憶させる。
以上で、リップシンクアニメーション生成処理が終了する。

以上説明したように、本実施の形態によれば、音声データＡから開始音量を検出し、検出された開始音量と所定の閾値との比較結果に基づいて、リップシンクアニメーションを生成するので、簡単に顔画像に含まれる口の動きを調整することができる。そのため、音の波形を手動で調整する等のスキルが不要となり、オーディオ編集等の作業工程を削減することができる。また、オーディオ編集ソフトウェアを用いた音量調整等の特別なスキルを持たない者であっても、簡単にリップシンクアニメーションの生成が可能となる。

具体的には、開始音量が所定の閾値より小さい場合に、音声データＡの開始音量に対応する音声部分の口の開き量を、開始音量に対応する口の開き量より大きくするので、口が開くタイミングと音が聞こえるタイミングがずれるのを防止することができる。

また、開始音量が所定の閾値より小さい場合に、音声データＡの開始音量に対応する音声部分の口の開き量を、所定の閾値以上の音量に対応する口の開き量に変更することにより、音声が開始された場合には、所定の閾値以上の音量に対応する口の開き量とすることができ、口が開くタイミングと音が聞こえるタイミングがずれるのを防止することができる。

また、音声データＡから単語を検出し、検出された単語毎に、開始音量を検出するので、単語毎に、開始時の口の開き量を調整することができる。

なお、上記実施の形態における記述は、本発明に係る画像処理装置の例であり、これに限定されるものではない。装置を構成する各部の細部構成及び細部動作に関しても本発明の趣旨を逸脱することのない範囲で適宜変更可能である。

例えば、上記実施の形態では、音声データＡに含まれる各単語の開始音量を検出する場合について説明したが、音声データＡに含まれる各文の開始音量、会話の開始音量を検出することとしてもよい。
また、音声データＡの言語としては、日本語に限定されるものではなく、外国語であってもよい。

以上の説明では、各処理を実行するためのプログラムを格納したコンピュータ読み取り可能な媒体としてＨＤＤや不揮発性の半導体メモリを使用した例を開示したが、この例に限定されない。その他のコンピュータ読み取り可能な媒体として、ＣＤ−ＲＯＭ等の可搬型記録媒体を適用することも可能である。また、プログラムのデータを通信回線を介して提供する媒体として、キャリアウェーブ（搬送波）を適用することとしてもよい。

本発明の実施の形態を説明したが、本発明の範囲は、上述の実施の形態に限定するものではなく、特許請求の範囲に記載された発明の範囲とその均等の範囲を含む。
以下に、この出願の願書に最初に添付した特許請求の範囲に記載した発明を付記する。付記に記載した請求項の項番は、この出願の願書に最初に添付した特許請求の範囲の通りである。
〔付記〕
＜請求項１＞
音声データから開始音量を検出する開始音量検出手段と、
前記検出された開始音量と所定の閾値とを比較する比較手段と、
前記比較手段による比較結果に基づいて、前記音声データに応じて顔画像に含まれる口を動かすアニメーションを生成する生成手段と、
を備える画像処理装置。
＜請求項２＞
前記生成手段は、前記開始音量が前記所定の閾値より小さい場合に、前記音声データの前記開始音量に対応する音声部分の口の開き量を、前記開始音量に対応する口の開き量より大きくする請求項１に記載の画像処理装置。
＜請求項３＞
前記生成手段は、前記開始音量が前記所定の閾値より小さい場合に、前記音声データの前記開始音量に対応する音声部分の口の開き量を、前記所定の閾値以上の音量に対応する口の開き量に変更する請求項２に記載の画像処理装置。
＜請求項４＞
前記音声データから単語を検出する単語検出手段を更に備え、
前記開始音量検出手段は、前記単語検出手段により検出された単語毎に、前記音声データから当該単語の開始音量を検出する請求項１〜３のいずれか一項に記載の画像処理装置。
＜請求項５＞
音声データから開始音量を検出する開始音量検出工程と、
前記検出された開始音量と所定の閾値とを比較する比較工程と、
前記比較工程における比較結果に基づいて、前記音声データに応じて顔画像に含まれる口を動かすアニメーションを生成する生成工程と、
を含むアニメーション生成方法。
＜請求項６＞
コンピュータを、
音声データから開始音量を検出する開始音量検出手段、
前記検出された開始音量と所定の閾値とを比較する比較手段、
前記比較手段による比較結果に基づいて、前記音声データに応じて顔画像に含まれる口を動かすアニメーションを生成する生成手段、
として機能させるためのプログラム。

１０画像処理装置
１１制御部
１２操作部
１３表示部
１４音声出力部
１５通信部
１６メモリ
１７記憶部
Ａ音声データ
Ｂ顔画像データ
Ｃ映像データ
Ｄテキストデータ
Ｅ単語データ群
Ｐアニメーション生成プログラム
Ｔ１文字管理テーブル
Ｔ２単語管理テーブル

Claims

音声データから開始音量を検出する開始音量検出手段と、
前記検出された開始音量と所定の閾値とを比較する比較手段と、
前記比較手段により比較された前記開始音量が前記所定の閾値よりも小さい場合、前記音声データの前記開始音量に対応する音声部分の口の開き量が、前記開始音量に対応する口の開き量より大きくなるように、前記音声データに応じて顔画像に含まれる口を動かすアニメーションを生成する生成手段と、
を備える画像処理装置。
前記生成手段は、前記開始音量が前記所定の閾値より小さい場合に、前記音声データの前記開始音量に対応する音声部分の口の開き量を、前記所定の閾値以上の音量に対応する口の開き量に変更する請求項１に記載の画像処理装置。
前記音声データから単語を検出する単語検出手段を更に備え、
前記開始音量検出手段は、前記単語検出手段により検出された単語毎に、前記音声データから当該単語の開始音量を検出する請求項１又は２に記載の画像処理装置。
前記単語検出手段により検出された単語の平均音量に基づいて前記所定の閾値を設定する閾値設定手段を更に備える請求項３に記載の画像処理装置。
音声データから開始音量を検出する開始音量検出工程と、
前記検出された開始音量と所定の閾値とを比較する比較工程と、
前記比較工程により比較された前記開始音量が前記所定の閾値よりも小さい場合、前記音声データの前記開始音量に対応する音声部分の口の開き量が、前記開始音量に対応する口の開き量より大きくなるように、前記音声データに応じて顔画像に含まれる口を動かすアニメーションを生成する生成工程と、
を含むアニメーション生成方法。
コンピュータを、
音声データから開始音量を検出する開始音量検出手段、
前記検出された開始音量と所定の閾値とを比較する比較手段、
前記比較手段により比較された前記開始音量が前記所定の閾値よりも小さい場合、前記音声データの前記開始音量に対応する音声部分の口の開き量が、前記開始音量に対応する口の開き量より大きくなるように、前記音声データに応じて顔画像に含まれる口を動かすアニメーションを生成する生成手段、
として機能させるためのプログラム。