JP2005202854A

JP2005202854A - 画像処理装置、画像処理方法及び画像処理プログラム

Info

Publication number: JP2005202854A
Application number: JP2004010660A
Authority: JP
Inventors: Shigehiro Yoshimura; 成弘吉村
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2004-01-19
Filing date: 2004-01-19
Publication date: 2005-07-28
Also published as: CN1645413A; EP1555635A1; US20050159958A1

Abstract

【課題】画像及び音声情報から感情の判定を行い、修飾された画像データ又は画像データの代替画像データを出力する。また、判定を行う為の音声の範囲を的確に確定する。
【解決手段】画像の構成要素を抽出し、各要素の動きを継続的に解析することで、感情の判定を行う。また、口唇の動きが一定期間なかった区間と無音の区間とを音声を区切る合図として利用し、音声から感情を判定する。画像データから得られた結果と音声データから得られた結果とを重み付けして最終的に感情を決定し、これに対応する合成画像又は代替画像を出力する。
【選択図】図１

Description

本発明は、画像情報及び音声情報を用いて画像データを修飾又は画像データを代替する画像処理装置、画像処理方法及び画像処理プログラムに関する。

従来の画像装飾システムでは、図８に示すように、元画像８００に対して、操作者が表示される装飾メニュー８１０から、意図的に装飾を選択８１１することで、選択された装飾を加えた画像８２０もしくは装飾に該当する代替の画像８３０を出力していた。また図９に示すように、元画像９００の各部分、例えば眉毛９１０および口９１１の変化をとらえることで、感情を認識し、それに該当する装飾を加えた画像９２０もしくは感情に該当する代替画像９３０を出力していた。また図１０に示すように、音声情報から音声を切り出し、周波数、ピッチ、抑揚、音量、その他の変化をとらえることで感情を認識し、それに該当する装飾を加えた画像１０１０もしくは感情に該当する代替画像１０２０を出力していた。

しかし、この従来技術には、次のような問題点があった。
第一の問題点は、映像のみから感情要素を判断する場合、表情変化の乏しい場合、画像入力が不鮮明もしくは得られない場合に、感情要素を判断することが困難であるということである。第二の問題点は、音声のみから感情要素を判断する場合、誇大な音声表現を行うことで、誤った感情要素として判断される可能性があるということである。第三の問題点は、音声の感情要素を判断する場合、適切な単位で音声情報を切り出して判断する必要があるが、無音のみを拠り所として切り出す場合、外部のノイズ要因に左右されて、適切な切り出しを行うことができない可能性があるということである。

特許文献１は音声情報と画像情報とに重み付けして感情の認識を試みるものである。画像情報に基づく感情認識と音声情報に基づく感情の認識を行うというアイディアを提示し、経験則を反映した数値で重み付けを行っている。
特開平１０−２２８２９５号公報

上述したように、従来の映像のみから感情要素を判断する場合、表情変化の乏しい場合、画像入力が不鮮明もしくは得られない場合に、感情要素を判断することが困難であった。また音声のみから感情要素を判断する場合、誇大な音声表現を行うことで、誤った感情要素として判断される可能性があった。また音声の感情要素を判断する場合、適切な単位で音声情報を切り出して判断する必要があるが、無音のみを拠り所として切り出す場合、外部のノイズ要因に左右されて、適切な切り出しを行うことができない可能性があると言う問題があった。

本発明は、情報処理装置に具備されたカメラおよびマイクによって取得した情報により、操作者の感情を判別し、判別した情報に基づき相手に送信する情報を加工することを可能とする方法を提供するものである。特に感情判別に際し、映像、音声個々の情報だけでなく、双方の情報を合わせることで精度を高めるとともに、音声情報の解析に際しては、画像情報もトリガーとして使用することを特徴とする。

図１において、画像１００から抽出される眉１１１、目１１２、口（口唇）１１３の構成要素の変化に加え、音声情報を分析することで感情認識を行い、両方の結果を総合的に判断することで元画像に対する装飾１４０を加えたり、感情に相当する代替画像１５０を出力したりすることを可能とする。また音声情報の分析に際しては、音声を解析単位で切り出す際に、無音区間だけではなく、画像から抽出される口１１３の変化１２０も用いることで、ノイズの多い場所でもより簡単に音声を切り出すことを可能とする。

また本発明の画像処理装置は、画像データ及び音声データを入力とし、合成画像又は代替画像を出力する画像処理装置であって、画像データを解析し、上記画像データに基づく第１の感情情報を出力する画像解析部と、音声データを解析し、上記音声データに基づく第２の感情情報を出力する音声解析部と、上記第１の感情情報と上記第２の感情情報とから第３の感情情報を得て、上記第３の感情情報に対応する画像を出力することを特徴とする。

また本発明の画像処理装置は、上記第１の画像解析部は画像データから構成要素を抽出して、上記構成要素の動きに関する情報である構成要素情報を上記音声解析部に出力し、上記音声解析部では音声データの解析に上記構成要素情報を利用することを特徴とする。

また本発明の画像処理装置は、上記構成要素情報として画像データの口唇の動きを使用し、音声データを区切る合図とすることを特徴とする。

また本発明の画像処理装置において、上記第１乃至第３の感情情報はそれぞれ対応する入力データと対にされて記憶装置に保持されることを特徴とする。

また本発明の画像処理方法は、画像及び音声データを解析して上記画像及び音声データに基づく第１及び第２の感情情報をそれぞれ出力し、上記第１及び第２の感情情報から第３の感情情報を決定し、上記第３の感情情報に対応する合成画像又は代替画像を出力することを特徴とする。

また本発明の画像処理方法は、上記画像データから構成要素を抽出し、上記構成要素の動きに関する情報である構成要素情報を音声データの解析に利用することを特徴とする。

また本発明の画像処理方法において、上記構成要素情報は画像データの口唇の動きに関する情報であり、上記口唇の動きに関する情報を音声データの区切りの合図として利用することを特徴とする。

また本発明の画像処理方法において、上記第１乃至第３の感情情報はそれぞれ対応する入力データと対にされて記憶装置に保持されることを特徴とする。

また本発明の画像処理プログラムは、画像及び音声データを解析して上記画像及び音声データに基づく第１及び第２の感情情報をそれぞれ出力し、上記第１及び第２の感情情報から第３の感情情報を決定し、上記第３の感情情報に対応する合成画像又は代替画像を出力することをコンピュータに実行させることを特徴とする。

また本発明の画像処理プログラムは、上記画像データから構成要素を抽出し、上記構成要素の動きに関する情報である構成要素情報を音声データの解析に利用することを特徴とする。

また本発明の画像処理プログラムにおいて、上記構成要素情報は画像データの口唇の動きに関する情報であり、上記口唇の動きに関する情報を音声データの区切りの合図として利用することを特徴とする。

また本発明の画像処理プログラムにおいて、上記第１乃至第３の感情情報はそれぞれ対応する入力データと対にされて記憶装置に保持されることを特徴とする。

第１の効果は、映像から取得できる情報を元に解析した感情情報と、音声から取得できる情報を元に解析した感情情報を合わせてより精度の高い感情情報として使用することで、感情装飾を施した画像を出力できることにある。第２の効果は音声の感情解析を行うにあたり、適切な長さに音情報を区切る際に、無音区間だけではなく、画像解析の結果得られる口の動きを用いることで、ノイズの多い場所でも適切な長さに音情報を区切ることを可能としていることである。第３の効果は、得られた感情解析の結果を学習しておくことで、個人特有の感情表現に関し、精度を上げることができることにある。

以下本発明の内容を詳細に説明する。

＜動作の概要＞
図１は、画像情報および音声情報を用いて画像データなどを修飾する方式の一実施例である。図１を参照すると、本発明の画像情報および音声情報を用いて画像データなどを修飾する方式の一実施例は、元画像１００を解析し、顔の輪郭１１０や眉１１１、目１１２、口（口唇）１１３などの各パーツの位置、および動きを抽出する。そして各パーツの動きを継続的に解析することで、入力されている画像情報の感情の情報を出力する。

また入力された音声情報１３０の周波数や、抑揚、変位などを解析することで、入力された音情報の感情の情報を出力する。この解析の際、一連の音情報を適宜切り出して解析を行う必要があるが、切り出しのトリガーとして無音区間１３１を使用すると、ノイズが多い環境において目的の単位で切り出すことができない場合が発生する。そのため本発明では画像解析で抽出した口の動き１２０を利用し、口の動きが一定時間変化しないポイント１３１も合わせて音情報の切れ目として使用することで目的の音情報の抽出を行う。

このようにして画像情報および音情報を解析して得られた感情情報を元に、元画像に対して感情に合わせた装飾１４０を加えたり、感情に合わせた別なデータ１５０を出力したりする。

＜構成＞
図２を参照して、本発明の構成を説明する。画像入力装置１０はカメラなどであり、画像データを取得する。画像解析部２００は画像感情データベース２０１、表情解析部２０２及び画像感情解析部２０３を有する。画像入力装置１０からの画像データに基づき、表情解析部２０２では輪郭及びパーツを抽出し、輪郭及びパーツの位置及び動きを解析する。画像感情解析部２０３は、表情解析部２０２の解析結果に基づき、画像感情データベース２０１を参照して画像情報に対応する感情を選び出す。画像感情データベース２０１には、顔の各パーツの変化とこれに対応する感情に関する情報が格納されている。

音声入力装置２０はマイクなどであり、音声データを取得する。音情報感情解析部２１０は音感情データベース２１１、音声解析部２１２及び音感情解析部２１３を有する。音声解析部２１２は、音声データ及び表情解析部２０２からの口の移動情報を受け、音声情報の切り出しを行う。音感情解析部２１３では、音感情データベース２１１を参照して音声情報に対応する感情を決定する。音感情データベース２１１には、音声の変化とこれに対応する感情に関する情報が格納されている。

出力画像生成部２２０は感情データベース２２１、装飾パーツデータベース２２２、代替画像データベース２２３、感情決定部２２４、画像合成部２２５、代替画像選択部２２６及び画像出力部２２７を有する。

感情決定部２２４は、画像感情解析部２０３から輪郭及びパーツの位置情報並びにパーツ要素の解析結果を受け、更に音感情解析部２１３から感情の解析結果を受け、感情データベース２２１を参照して最終的に感情を決定する。画像合成部２２５は決定された感情に基づき、装飾パーツデータベース２２２を参照し、画像入力装置１０及び表情解析部２０２からのデータに合わせて合成画像を生成する。代替画像選択部２２６は、決定された感情に基づき、代替画像データベース２２３を参照して代替画像を選び出す。画像出力部２２７は画像合成部２２５又は代替画像選択部２２６から受けた、装飾された画像又は代替画像を出力する。

＜画像解析部の動作＞
以下図２及び図３を参照しながら画像解析部２００の動作を説明する。
画像入力装置１０から画像解析部２００に入力された画像データに基づき、顔の輪郭が抽出される（図３ステップ３０１）。次に抽出された輪郭情報から、顔を構成するパーツである眉、目、鼻、口などの個々の位置情報を切り出すと共に、各々の移動情報の検出を行う（ステップ３０２）。ここで解析される情報とは、輪郭及びパーツの位置情報並びに輪郭及びパーツの移動情報である。これらの位置情報は後段の出力画像生成部で装飾を付加する場所を決定するための位置情報として使用される（ステップ３０５）。また、パーツの移動情報の内、口の動きに関する情報は音情報感情解析部２１０に出力され、音データの切り出し処理に使用される。

次に個々のパーツの移動情報変化を継続的にとらえ、画像感情データベース２０１と比較する（ステップ３０３）ことで、最もマッチした感情に関する情報を出力画像生成部に出力する（ステップ３０４）。この結果は感情要素を確定する際の情報にフィードバックされ、画像データと感情情報を対にしてデータベースに保持することなどにより、以後の感情要素判断精度を上げる為に使用される。

＜音情報感情解析部の動作＞
次に音声入力装置２０から音情報感情解析部２１０に入力された音データに対して、音情報から感情解析を行う。音情報の解析を実施する場合には、入力された音を適切な長さに区切って解析を行う必要がある。この音を区切る要因として、一定時間や、無音区間で区切る方法がある。しかし周囲の雑音が大きい場合、無音のみでは意図したポイントで区切ることができない場合がある。そこで画像解析部で取得された口の変化情報を用い、口の動きが一定期間無かった場合を区切りとして区切る要因として使用する。

このように無音区間と、口の動きがない区間を併用することで、より正確に音を区切ることが可能となる。音情報が入力されると（ステップ４０１）、音声が無音レベル以下であるか又は口の動きが一定時間以上変化していないことを検出して音情報の切り出しを行う（ステップ４０２）。このようにして区切った音データの、周波数、ピッチ、抑揚、音量、その他の情報の変化（周波数の変化、音圧の変化、変化の傾きなど）を抽出する（ステップ４０３）。そして抽出したデータを音感情データベース２１１と比較する（ステップ４０４）そこで最もマッチした感情に関する情報を出力画像生成部に出力する（ステップ４０５）。この時出力された音情報を新たなデータとしてデータベースに蓄えておくことで、さらに出力される情報の精度を高めることも可能である。

＜出力画像生成部の動作＞
以下図５を参照して出力画像生成部２２０の動作を説明する。
画像解析部２００から出力された感情に関する情報と、音情報感情解析部２１０から出力された感情に関する情報は、出力画像生成部２２０に入力される。画像解析部２００から出力された感情に関する情報と音情報感情解析部２１０から出力された感情に関する情報とに対して重み付けを行い（ステップ５０１）、その結果得られた感情およびその度合いを感情データベース２２１に照合し（ステップ５０２）、そのときの感情修飾要素を決定する（ステップ５０３）。

ステップ５０３での感情決定を更に詳細に説明する。双方で得られた感情解析の結果が同じであった場合はそのままその結果を使用する。音声情報感情解析部２１０で複数の感情から１つに決定するのが困難である場合には、画像解析部２００で得られた結果を採用するようにする。これにより、突発的な音声表現が行われた際の判別を補完することができる。

また、音声情報感情解析部２１０において信号の値が感情と認識できる閾値に達しなかった場合、画像解析部２００から得られる情報を優先する。これにより、押し殺した感情表現を補完することができる。逆に、画像解析部２００から得られる情報が閾値に達しない場合や、暗くて判定可能な情報を画像から得られない場合には音声による感情分析の結果を利用する。このように、重み付けは個々で切り分けられない場合やどちらか判別できない場合を補完するように行われる。なお感情要素を決定する際、画像解析部２００から出力された感情に関する情報と、音情報感情解析部２１０から出力された感情に関する情報を単独で使用することも可能である。

ここで元画像に感情に合わせた修飾を行う場合、該当するパーツを装飾パーツＤＢ２２２から取得し（ステップ５０４）、輪郭情報解析で取得したパーツの位置情報を使用して、装飾付加位置を確定する（ステップ５０５）。そして画像入力装置１０から入力された画像の計算された位置に、選択された装飾パーツを合成（ステップ５０６）して、画像を出力する（ステップ５０９）。

また感情に合わせた代替画像を出力する場合には、感情修飾要素にマッチする代替画像を代替画像ＤＢ２２３から選択し（ステップ５０７及び５０８）、画像を出力する（ステップ５０９）。この出力された画像が、該当の感情表現でない場合、該当システムの操作者は適切な表現に是正することが可能である。その結果は感情要素を確定する際の情報にフィードバックされ、入力情報と対にして保持されるなどして、以後の感情要素判断精度を上げるために使用される。このようにして元画像に感情に関する装飾を加えた画像を出力したり、感情に該当する代替画像を出力したりすることができる。

次に、本発明の他の実施例について図面を参照して詳細に説明する。
図６を参照すると、画像解析部に入力される映像、音情報感情解析部に入力される音の各々の情報に関し、音と映像が一体となっているＴＶ電話やビデオデータを入力ソースとして解析し、元のソースに対して修飾を行うことも可能である。

図６を参照して本実施例の動作について詳細に説明する。ＴＶ電話などで相手端末から送られてきた映像および音声の情報は、各々映像および音声の情報に分離される（ステップ６０１及び６０２）。そして分離された各々の情報を用いて、映像情報、音情報から感情情報を検出する（ステップ６０３及び６０４）。そして送られてきた映像情報に対して、感情に合わせた装飾を行った画像、または感情に相当する代替画像の表示および音声再生を行う（ステップ６０５及び６０６）。

図７のように、入力ソースが音声しかない場合、例えば通常の音声通話による電話機能などの場合、音情報感情解析部に相手の音声情報を入力ソースとして解析し、感情に相当する代替画像を表示することで、擬似的なＴＶ電話機能を実現することも可能である。

本発明によれば、ＴＶ電話システムでその際の送話者の感情に応じた装飾を、送信画面に付加したり、感情に応じた代替の画像を選択したりする用途に使用することが可能である。また逆に相手から送られてきた情報に適用することで、送られてきた映像に対して、同様の装飾を行うことが可能となる。また音声のみの通話で、相手からの音声の感情認識結果を使用し、感情に応じた代替画像を表示させることで、擬似的なＴＶ電話システムを構築することも可能である。

本発明の概要を表す図である。本発明の構成を表すブロック図である。画像解析部の動作を表すフロー図である。音情報解析部の動作を表すフロー図である。出力画像生成部の動作を表すフロー図である。本発明の第２の実施例における動作を表すフロー図である。第２の実施例において音声のみの入力に対する動作を表す図である。画像データに装飾を加える従来技術を表す図である。画像データから感情を認識する従来技術を表す図である。音声データから感情を認識する従来技術を表す図である。

符号の説明

２００画像解析部
２０１画像感情データベース
２１０音情報感情解析部
２１１音感情データベース
２２０出力画像生成部
２２１感情データベース
２２２装飾パーツデータベース
２２３代替画像データベース

Claims

画像データ及び音声データを入力とし、合成画像又は代替画像を出力する画像処理装置であって、
画像データを解析し、前記画像データに基づく第１の感情情報を出力する画像解析部と、
音声データを解析し、前記音声データに基づく第２の感情情報を出力する音声解析部と、
前記第１の感情情報と前記第２の感情情報とから第３の感情情報を得て、前記第３の感情情報に対応する画像を出力することを特徴とする画像処理装置。
前記第１の画像解析部は画像データから構成要素を抽出して、前記構成要素の動きに関する情報である構成要素情報を前記音声解析部に出力し、前記音声解析部では音声データの解析に前記構成要素情報を利用することを特徴とする請求項１に記載の画像処理装置。
前記構成要素情報として画像データの口唇の動きを使用し、音声データを区切る合図とすることを特徴とする請求項２に記載の画像処理装置。
前記第１乃至第３の感情情報はそれぞれ対応する入力データと対にされて記憶装置に保持されることを特徴とする請求項１に記載の画像処理装置。
画像及び音声データを解析して前記画像及び音声データに基づく第１及び第２の感情情報をそれぞれ出力し、
前記第１及び第２の感情情報から第３の感情情報を決定し、
前記第３の感情情報に対応する合成画像又は代替画像を出力することを特徴とする画像処理方法。
前記画像データから構成要素を抽出し、前記構成要素の動きに関する情報である構成要素情報を音声データの解析に利用することを特徴とする請求項５に記載の画像処理方法。
前記構成要素情報は画像データの口唇の動きに関する情報であり、前記口唇の動きに関する情報を音声データの区切りの合図として利用することを特徴とする請求項６に記載の画像処理方法。
前記第１乃至第３の感情情報はそれぞれ対応する入力データと対にされて記憶装置に保持されることを特徴とする請求項５に記載の画像処理方法。
画像及び音声データを解析して前記画像及び音声データに基づく第１及び第２の感情情報をそれぞれ出力し、
前記第１及び第２の感情情報から第３の感情情報を決定し、
前記第３の感情情報に対応する合成画像又は代替画像を出力することをコンピュータに実行させる為の画像処理プログラム。
前記画像データから構成要素を抽出し、前記構成要素の動きに関する情報である構成要素情報を音声データの解析に利用することを特徴とする請求項９に記載の画像処理プログラム。
前記構成要素情報は画像データの口唇の動きに関する情報であり、前記口唇の動きに関する情報を音声データの区切りの合図として利用することを特徴とする請求項１０に記載の画像処理プログラム。
前記第１乃至第３の感情情報はそれぞれ対応する入力データと対にされて記憶装置に保持されることを特徴とする請求項９に記載の画像処理プログラム。