JP2005202854A - 画像処理装置、画像処理方法及び画像処理プログラム - Google Patents

画像処理装置、画像処理方法及び画像処理プログラム Download PDF

Info

Publication number
JP2005202854A
JP2005202854A JP2004010660A JP2004010660A JP2005202854A JP 2005202854 A JP2005202854 A JP 2005202854A JP 2004010660 A JP2004010660 A JP 2004010660A JP 2004010660 A JP2004010660 A JP 2004010660A JP 2005202854 A JP2005202854 A JP 2005202854A
Authority
JP
Japan
Prior art keywords
image
information
emotion
data
image processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004010660A
Other languages
English (en)
Inventor
Shigehiro Yoshimura
成弘 吉村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2004010660A priority Critical patent/JP2005202854A/ja
Priority to CNA2005100047422A priority patent/CN1645413A/zh
Priority to EP05000938A priority patent/EP1555635A1/en
Priority to US11/037,044 priority patent/US20050159958A1/en
Publication of JP2005202854A publication Critical patent/JP2005202854A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/2053D [Three Dimensional] animation driven by audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Processing Or Creating Images (AREA)
  • Image Processing (AREA)
  • Studio Circuits (AREA)
  • Image Analysis (AREA)

Abstract

【課題】 画像及び音声情報から感情の判定を行い、修飾された画像データ又は画像データの代替画像データを出力する。また、判定を行う為の音声の範囲を的確に確定する。
【解決手段】 画像の構成要素を抽出し、各要素の動きを継続的に解析することで、感情の判定を行う。また、口唇の動きが一定期間なかった区間と無音の区間とを音声を区切る合図として利用し、音声から感情を判定する。画像データから得られた結果と音声データから得られた結果とを重み付けして最終的に感情を決定し、これに対応する合成画像又は代替画像を出力する。
【選択図】 図1

Description

本発明は、画像情報及び音声情報を用いて画像データを修飾又は画像データを代替する画像処理装置、画像処理方法及び画像処理プログラムに関する。
従来の画像装飾システムでは、図8に示すように、元画像800に対して、操作者が表示される装飾メニュー810から、意図的に装飾を選択811することで、選択された装飾を加えた画像820もしくは装飾に該当する代替の画像830を出力していた。また図9に示すように、元画像900の各部分、例えば眉毛910および口911の変化をとらえることで、感情を認識し、それに該当する装飾を加えた画像920もしくは感情に該当する代替画像930を出力していた。また図10に示すように、音声情報から音声を切り出し、周波数、ピッチ、抑揚、音量、その他の変化をとらえることで感情を認識し、それに該当する装飾を加えた画像1010もしくは感情に該当する代替画像1020を出力していた。
しかし、この従来技術には、次のような問題点があった。
第一の問題点は、映像のみから感情要素を判断する場合、表情変化の乏しい場合、画像入力が不鮮明もしくは得られない場合に、感情要素を判断することが困難であるということである。第二の問題点は、音声のみから感情要素を判断する場合、誇大な音声表現を行うことで、誤った感情要素として判断される可能性があるということである。第三の問題点は、音声の感情要素を判断する場合、適切な単位で音声情報を切り出して判断する必要があるが、無音のみを拠り所として切り出す場合、外部のノイズ要因に左右されて、適切な切り出しを行うことができない可能性があるということである。
特許文献1は音声情報と画像情報とに重み付けして感情の認識を試みるものである。画像情報に基づく感情認識と音声情報に基づく感情の認識を行うというアイディアを提示し、経験則を反映した数値で重み付けを行っている。
特開平10−228295号公報
上述したように、従来の映像のみから感情要素を判断する場合、表情変化の乏しい場合、画像入力が不鮮明もしくは得られない場合に、感情要素を判断することが困難であった。また音声のみから感情要素を判断する場合、誇大な音声表現を行うことで、誤った感情要素として判断される可能性があった。また音声の感情要素を判断する場合、適切な単位で音声情報を切り出して判断する必要があるが、無音のみを拠り所として切り出す場合、外部のノイズ要因に左右されて、適切な切り出しを行うことができない可能性があると言う問題があった。
本発明は、情報処理装置に具備されたカメラおよびマイクによって取得した情報により、操作者の感情を判別し、判別した情報に基づき相手に送信する情報を加工することを可能とする方法を提供するものである。特に感情判別に際し、映像、音声個々の情報だけでなく、双方の情報を合わせることで精度を高めるとともに、音声情報の解析に際しては、画像情報もトリガーとして使用することを特徴とする。
図1において、画像100から抽出される眉111、目112、口(口唇)113の構成要素の変化に加え、音声情報を分析することで感情認識を行い、両方の結果を総合的に判断することで元画像に対する装飾140を加えたり、感情に相当する代替画像150を出力したりすることを可能とする。また音声情報の分析に際しては、音声を解析単位で切り出す際に、無音区間だけではなく、画像から抽出される口113の変化120も用いることで、ノイズの多い場所でもより簡単に音声を切り出すことを可能とする。
また本発明の画像処理装置は、画像データ及び音声データを入力とし、合成画像又は代替画像を出力する画像処理装置であって、画像データを解析し、上記画像データに基づく第1の感情情報を出力する画像解析部と、音声データを解析し、上記音声データに基づく第2の感情情報を出力する音声解析部と、上記第1の感情情報と上記第2の感情情報とから第3の感情情報を得て、上記第3の感情情報に対応する画像を出力することを特徴とする。
また本発明の画像処理装置は、上記第1の画像解析部は画像データから構成要素を抽出して、上記構成要素の動きに関する情報である構成要素情報を上記音声解析部に出力し、上記音声解析部では音声データの解析に上記構成要素情報を利用することを特徴とする。
また本発明の画像処理装置は、上記構成要素情報として画像データの口唇の動きを使用し、音声データを区切る合図とすることを特徴とする。
また本発明の画像処理装置において、上記第1乃至第3の感情情報はそれぞれ対応する入力データと対にされて記憶装置に保持されることを特徴とする。
また本発明の画像処理方法は、画像及び音声データを解析して上記画像及び音声データに基づく第1及び第2の感情情報をそれぞれ出力し、上記第1及び第2の感情情報から第3の感情情報を決定し、上記第3の感情情報に対応する合成画像又は代替画像を出力することを特徴とする。
また本発明の画像処理方法は、上記画像データから構成要素を抽出し、上記構成要素の動きに関する情報である構成要素情報を音声データの解析に利用することを特徴とする。
また本発明の画像処理方法において、上記構成要素情報は画像データの口唇の動きに関する情報であり、上記口唇の動きに関する情報を音声データの区切りの合図として利用することを特徴とする。
また本発明の画像処理方法において、上記第1乃至第3の感情情報はそれぞれ対応する入力データと対にされて記憶装置に保持されることを特徴とする。
また本発明の画像処理プログラムは、画像及び音声データを解析して上記画像及び音声データに基づく第1及び第2の感情情報をそれぞれ出力し、上記第1及び第2の感情情報から第3の感情情報を決定し、上記第3の感情情報に対応する合成画像又は代替画像を出力することをコンピュータに実行させることを特徴とする。
また本発明の画像処理プログラムは、上記画像データから構成要素を抽出し、上記構成要素の動きに関する情報である構成要素情報を音声データの解析に利用することを特徴とする。
また本発明の画像処理プログラムにおいて、上記構成要素情報は画像データの口唇の動きに関する情報であり、上記口唇の動きに関する情報を音声データの区切りの合図として利用することを特徴とする。
また本発明の画像処理プログラムにおいて、上記第1乃至第3の感情情報はそれぞれ対応する入力データと対にされて記憶装置に保持されることを特徴とする。
第1の効果は、映像から取得できる情報を元に解析した感情情報と、音声から取得できる情報を元に解析した感情情報を合わせてより精度の高い感情情報として使用することで、感情装飾を施した画像を出力できることにある。第2の効果は音声の感情解析を行うにあたり、適切な長さに音情報を区切る際に、無音区間だけではなく、画像解析の結果得られる口の動きを用いることで、ノイズの多い場所でも適切な長さに音情報を区切ることを可能としていることである。第3の効果は、得られた感情解析の結果を学習しておくことで、個人特有の感情表現に関し、精度を上げることができることにある。
以下本発明の内容を詳細に説明する。
<動作の概要>
図1は、画像情報および音声情報を用いて画像データなどを修飾する方式の一実施例である。図1を参照すると、本発明の画像情報および音声情報を用いて画像データなどを修飾する方式の一実施例は、元画像100を解析し、顔の輪郭110や眉111、目112、口(口唇)113などの各パーツの位置、および動きを抽出する。そして各パーツの動きを継続的に解析することで、入力されている画像情報の感情の情報を出力する。
また入力された音声情報130の周波数や、抑揚、変位などを解析することで、入力された音情報の感情の情報を出力する。この解析の際、一連の音情報を適宜切り出して解析を行う必要があるが、切り出しのトリガーとして無音区間131を使用すると、ノイズが多い環境において目的の単位で切り出すことができない場合が発生する。そのため本発明では画像解析で抽出した口の動き120を利用し、口の動きが一定時間変化しないポイント131も合わせて音情報の切れ目として使用することで目的の音情報の抽出を行う。
このようにして画像情報および音情報を解析して得られた感情情報を元に、元画像に対して感情に合わせた装飾140を加えたり、感情に合わせた別なデータ150を出力したりする。
<構成>
図2を参照して、本発明の構成を説明する。画像入力装置10はカメラなどであり、画像データを取得する。画像解析部200は画像感情データベース201、表情解析部202及び画像感情解析部203を有する。画像入力装置10からの画像データに基づき、表情解析部202では輪郭及びパーツを抽出し、輪郭及びパーツの位置及び動きを解析する。画像感情解析部203は、表情解析部202の解析結果に基づき、画像感情データベース201を参照して画像情報に対応する感情を選び出す。画像感情データベース201には、顔の各パーツの変化とこれに対応する感情に関する情報が格納されている。
音声入力装置20はマイクなどであり、音声データを取得する。音情報感情解析部210は音感情データベース211、音声解析部212及び音感情解析部213を有する。音声解析部212は、音声データ及び表情解析部202からの口の移動情報を受け、音声情報の切り出しを行う。音感情解析部213では、音感情データベース211を参照して音声情報に対応する感情を決定する。音感情データベース211には、音声の変化とこれに対応する感情に関する情報が格納されている。
出力画像生成部220は感情データベース221、装飾パーツデータベース222、代替画像データベース223、感情決定部224、画像合成部225、代替画像選択部226及び画像出力部227を有する。
感情決定部224は、画像感情解析部203から輪郭及びパーツの位置情報並びにパーツ要素の解析結果を受け、更に音感情解析部213から感情の解析結果を受け、感情データベース221を参照して最終的に感情を決定する。画像合成部225は決定された感情に基づき、装飾パーツデータベース222を参照し、画像入力装置10及び表情解析部202からのデータに合わせて合成画像を生成する。代替画像選択部226は、決定された感情に基づき、代替画像データベース223を参照して代替画像を選び出す。画像出力部227は画像合成部225又は代替画像選択部226から受けた、装飾された画像又は代替画像を出力する。
<画像解析部の動作>
以下図2及び図3を参照しながら画像解析部200の動作を説明する。
画像入力装置10から画像解析部200に入力された画像データに基づき、顔の輪郭が抽出される(図3ステップ301)。次に抽出された輪郭情報から、顔を構成するパーツである眉、目、鼻、口などの個々の位置情報を切り出すと共に、各々の移動情報の検出を行う(ステップ302)。ここで解析される情報とは、輪郭及びパーツの位置情報並びに輪郭及びパーツの移動情報である。これらの位置情報は後段の出力画像生成部で装飾を付加する場所を決定するための位置情報として使用される(ステップ305)。また、パーツの移動情報の内、口の動きに関する情報は音情報感情解析部210に出力され、音データの切り出し処理に使用される。
次に個々のパーツの移動情報変化を継続的にとらえ、画像感情データベース201と比較する(ステップ303)ことで、最もマッチした感情に関する情報を出力画像生成部に出力する(ステップ304)。この結果は感情要素を確定する際の情報にフィードバックされ、画像データと感情情報を対にしてデータベースに保持することなどにより、以後の感情要素判断精度を上げる為に使用される。
<音情報感情解析部の動作>
次に音声入力装置20から音情報感情解析部210に入力された音データに対して、音情報から感情解析を行う。音情報の解析を実施する場合には、入力された音を適切な長さに区切って解析を行う必要がある。この音を区切る要因として、一定時間や、無音区間で区切る方法がある。しかし周囲の雑音が大きい場合、無音のみでは意図したポイントで区切ることができない場合がある。そこで画像解析部で取得された口の変化情報を用い、口の動きが一定期間無かった場合を区切りとして区切る要因として使用する。
このように無音区間と、口の動きがない区間を併用することで、より正確に音を区切ることが可能となる。音情報が入力されると(ステップ401)、音声が無音レベル以下であるか又は口の動きが一定時間以上変化していないことを検出して音情報の切り出しを行う(ステップ402)。このようにして区切った音データの、周波数、ピッチ、抑揚、音量、その他の情報の変化(周波数の変化、音圧の変化、変化の傾きなど)を抽出する(ステップ403)。そして抽出したデータを音感情データベース211と比較する(ステップ404)そこで最もマッチした感情に関する情報を出力画像生成部に出力する(ステップ405)。この時出力された音情報を新たなデータとしてデータベースに蓄えておくことで、さらに出力される情報の精度を高めることも可能である。
<出力画像生成部の動作>
以下図5を参照して出力画像生成部220の動作を説明する。
画像解析部200から出力された感情に関する情報と、音情報感情解析部210から出力された感情に関する情報は、出力画像生成部220に入力される。画像解析部200から出力された感情に関する情報と音情報感情解析部210から出力された感情に関する情報とに対して重み付けを行い(ステップ501)、その結果得られた感情およびその度合いを感情データベース221に照合し(ステップ502)、そのときの感情修飾要素を決定する(ステップ503)。
ステップ503での感情決定を更に詳細に説明する。双方で得られた感情解析の結果が同じであった場合はそのままその結果を使用する。音声情報感情解析部210で複数の感情から1つに決定するのが困難である場合には、画像解析部200で得られた結果を採用するようにする。これにより、突発的な音声表現が行われた際の判別を補完することができる。
また、音声情報感情解析部210において信号の値が感情と認識できる閾値に達しなかった場合、画像解析部200から得られる情報を優先する。これにより、押し殺した感情表現を補完することができる。逆に、画像解析部200から得られる情報が閾値に達しない場合や、暗くて判定可能な情報を画像から得られない場合には音声による感情分析の結果を利用する。このように、重み付けは個々で切り分けられない場合やどちらか判別できない場合を補完するように行われる。なお感情要素を決定する際、画像解析部200から出力された感情に関する情報と、音情報感情解析部210から出力された感情に関する情報を単独で使用することも可能である。
ここで元画像に感情に合わせた修飾を行う場合、該当するパーツを装飾パーツDB222から取得し(ステップ504)、輪郭情報解析で取得したパーツの位置情報を使用して、装飾付加位置を確定する(ステップ505)。そして画像入力装置10から入力された画像の計算された位置に、選択された装飾パーツを合成(ステップ506)して、画像を出力する(ステップ509)。
また感情に合わせた代替画像を出力する場合には、感情修飾要素にマッチする代替画像を代替画像DB223から選択し(ステップ507及び508)、画像を出力する(ステップ509)。この出力された画像が、該当の感情表現でない場合、該当システムの操作者は適切な表現に是正することが可能である。その結果は感情要素を確定する際の情報にフィードバックされ、入力情報と対にして保持されるなどして、以後の感情要素判断精度を上げるために使用される。このようにして元画像に感情に関する装飾を加えた画像を出力したり、感情に該当する代替画像を出力したりすることができる。
次に、本発明の他の実施例について図面を参照して詳細に説明する。
図6を参照すると、画像解析部に入力される映像、音情報感情解析部に入力される音の各々の情報に関し、音と映像が一体となっているTV電話やビデオデータを入力ソースとして解析し、元のソースに対して修飾を行うことも可能である。
図6を参照して本実施例の動作について詳細に説明する。TV電話などで相手端末から送られてきた映像および音声の情報は、各々映像および音声の情報に分離される(ステップ601及び602)。そして分離された各々の情報を用いて、映像情報、音情報から感情情報を検出する(ステップ603及び604)。そして送られてきた映像情報に対して、感情に合わせた装飾を行った画像、または感情に相当する代替画像の表示および音声再生を行う(ステップ605及び606)。
図7のように、入力ソースが音声しかない場合、例えば通常の音声通話による電話機能などの場合、音情報感情解析部に相手の音声情報を入力ソースとして解析し、感情に相当する代替画像を表示することで、擬似的なTV電話機能を実現することも可能である。
本発明によれば、TV電話システムでその際の送話者の感情に応じた装飾を、送信画面に付加したり、感情に応じた代替の画像を選択したりする用途に使用することが可能である。また逆に相手から送られてきた情報に適用することで、送られてきた映像に対して、同様の装飾を行うことが可能となる。また音声のみの通話で、相手からの音声の感情認識結果を使用し、感情に応じた代替画像を表示させることで、擬似的なTV電話システムを構築することも可能である。
本発明の概要を表す図である。 本発明の構成を表すブロック図である。 画像解析部の動作を表すフロー図である。 音情報解析部の動作を表すフロー図である。 出力画像生成部の動作を表すフロー図である。 本発明の第2の実施例における動作を表すフロー図である。 第2の実施例において音声のみの入力に対する動作を表す図である。 画像データに装飾を加える従来技術を表す図である。 画像データから感情を認識する従来技術を表す図である。 音声データから感情を認識する従来技術を表す図である。
符号の説明
200 画像解析部
201 画像感情データベース
210 音情報感情解析部
211 音感情データベース
220 出力画像生成部
221 感情データベース
222 装飾パーツデータベース
223 代替画像データベース

Claims (12)

  1. 画像データ及び音声データを入力とし、合成画像又は代替画像を出力する画像処理装置であって、
    画像データを解析し、前記画像データに基づく第1の感情情報を出力する画像解析部と、
    音声データを解析し、前記音声データに基づく第2の感情情報を出力する音声解析部と、
    前記第1の感情情報と前記第2の感情情報とから第3の感情情報を得て、前記第3の感情情報に対応する画像を出力することを特徴とする画像処理装置。
  2. 前記第1の画像解析部は画像データから構成要素を抽出して、前記構成要素の動きに関する情報である構成要素情報を前記音声解析部に出力し、前記音声解析部では音声データの解析に前記構成要素情報を利用することを特徴とする請求項1に記載の画像処理装置。
  3. 前記構成要素情報として画像データの口唇の動きを使用し、音声データを区切る合図とすることを特徴とする請求項2に記載の画像処理装置。
  4. 前記第1乃至第3の感情情報はそれぞれ対応する入力データと対にされて記憶装置に保持されることを特徴とする請求項1に記載の画像処理装置。
  5. 画像及び音声データを解析して前記画像及び音声データに基づく第1及び第2の感情情報をそれぞれ出力し、
    前記第1及び第2の感情情報から第3の感情情報を決定し、
    前記第3の感情情報に対応する合成画像又は代替画像を出力することを特徴とする画像処理方法。
  6. 前記画像データから構成要素を抽出し、前記構成要素の動きに関する情報である構成要素情報を音声データの解析に利用することを特徴とする請求項5に記載の画像処理方法。
  7. 前記構成要素情報は画像データの口唇の動きに関する情報であり、前記口唇の動きに関する情報を音声データの区切りの合図として利用することを特徴とする請求項6に記載の画像処理方法。
  8. 前記第1乃至第3の感情情報はそれぞれ対応する入力データと対にされて記憶装置に保持されることを特徴とする請求項5に記載の画像処理方法。
  9. 画像及び音声データを解析して前記画像及び音声データに基づく第1及び第2の感情情報をそれぞれ出力し、
    前記第1及び第2の感情情報から第3の感情情報を決定し、
    前記第3の感情情報に対応する合成画像又は代替画像を出力することをコンピュータに実行させる為の画像処理プログラム。
  10. 前記画像データから構成要素を抽出し、前記構成要素の動きに関する情報である構成要素情報を音声データの解析に利用することを特徴とする請求項9に記載の画像処理プログラム。
  11. 前記構成要素情報は画像データの口唇の動きに関する情報であり、前記口唇の動きに関する情報を音声データの区切りの合図として利用することを特徴とする請求項10に記載の画像処理プログラム。
  12. 前記第1乃至第3の感情情報はそれぞれ対応する入力データと対にされて記憶装置に保持されることを特徴とする請求項9に記載の画像処理プログラム。
JP2004010660A 2004-01-19 2004-01-19 画像処理装置、画像処理方法及び画像処理プログラム Pending JP2005202854A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2004010660A JP2005202854A (ja) 2004-01-19 2004-01-19 画像処理装置、画像処理方法及び画像処理プログラム
CNA2005100047422A CN1645413A (zh) 2004-01-19 2005-01-18 图像处理设备、方法和程序
EP05000938A EP1555635A1 (en) 2004-01-19 2005-01-18 Image processing apparatus, method and program
US11/037,044 US20050159958A1 (en) 2004-01-19 2005-01-19 Image processing apparatus, method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004010660A JP2005202854A (ja) 2004-01-19 2004-01-19 画像処理装置、画像処理方法及び画像処理プログラム

Publications (1)

Publication Number Publication Date
JP2005202854A true JP2005202854A (ja) 2005-07-28

Family

ID=34616940

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004010660A Pending JP2005202854A (ja) 2004-01-19 2004-01-19 画像処理装置、画像処理方法及び画像処理プログラム

Country Status (4)

Country Link
US (1) US20050159958A1 (ja)
EP (1) EP1555635A1 (ja)
JP (1) JP2005202854A (ja)
CN (1) CN1645413A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010250761A (ja) * 2009-04-20 2010-11-04 Nippon Telegr & Teleph Corp <Ntt> アバタ生成装置、方法およびプログラム
JP5793255B1 (ja) * 2015-03-10 2015-10-14 株式会社 ディー・エヌ・エー 動画又は音声を配信するシステム、方法、及びプログラム
JP2017123579A (ja) * 2016-01-07 2017-07-13 株式会社見果てぬ夢 ネオメディア生成装置、ネオメディア生成方法、及びネオメディア生成プログラム
WO2017169499A1 (ja) * 2016-03-31 2017-10-05 ソニー株式会社 制御装置、制御方法及びコンピュータプログラム
JP6263252B1 (ja) * 2016-12-06 2018-01-17 株式会社コロプラ 情報処理方法、装置、および当該情報処理方法をコンピュータに実行させるためのプログラム
JP2019075124A (ja) * 2017-10-18 2019-05-16 ネイバー コーポレーションNAVER Corporation カメラエフェクトを提供する方法およびシステム
JP2022054326A (ja) * 2020-09-25 2022-04-06 Kddi株式会社 ユーザの感情に応じたキャラクタの傾聴感を表現する対話プログラム、装置及び方法

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007041988A (ja) * 2005-08-05 2007-02-15 Sony Corp 情報処理装置および方法、並びにプログラム
JP4085130B2 (ja) * 2006-06-23 2008-05-14 松下電器産業株式会社 感情認識装置
US7860705B2 (en) * 2006-09-01 2010-12-28 International Business Machines Corporation Methods and apparatus for context adaptation of speech-to-speech translation systems
KR100828371B1 (ko) * 2006-10-27 2008-05-08 삼성전자주식회사 컨텐츠의 메타 데이터 생성 방법 및 장치
CN101247482B (zh) * 2007-05-16 2010-06-02 北京思比科微电子技术有限公司 一种实现动态图像处理的方法和装置
US8111281B2 (en) * 2007-06-29 2012-02-07 Sony Ericsson Mobile Communications Ab Methods and terminals that control avatars during videoconferencing and other communications
CN101101752B (zh) * 2007-07-19 2010-12-01 华中科技大学 基于视觉特征的单音节语言唇读识别系统
JP4536134B2 (ja) * 2008-06-02 2010-09-01 株式会社コナミデジタルエンタテインメント ネットワークを利用したゲームシステム、ゲームプログラム、ゲーム装置、およびネットワークを利用したゲーム制御方法
US8237742B2 (en) 2008-06-12 2012-08-07 International Business Machines Corporation Simulation method and system
US8259992B2 (en) 2008-06-13 2012-09-04 International Business Machines Corporation Multiple audio/video data stream simulation method and system
CN101419499B (zh) * 2008-11-14 2010-06-02 东南大学 基于摄像头和话筒的多媒体人机交互方法
KR101558553B1 (ko) * 2009-02-18 2015-10-08 삼성전자 주식회사 아바타 얼굴 표정 제어장치
US10398366B2 (en) * 2010-07-01 2019-09-03 Nokia Technologies Oy Responding to changes in emotional condition of a user
EP2405365B1 (en) 2010-07-09 2013-06-19 Sony Ericsson Mobile Communications AB Method and device for mnemonic contact image association
WO2012089906A1 (en) * 2010-12-30 2012-07-05 Nokia Corporation Method, apparatus and computer program product for emotion detection
US9225701B2 (en) 2011-04-18 2015-12-29 Intelmate Llc Secure communication systems and methods
CN103514614A (zh) * 2012-06-29 2014-01-15 联想(北京)有限公司 生成图像的方法及电子设备
CN104219197A (zh) * 2013-05-30 2014-12-17 腾讯科技(深圳)有限公司 一种视频会话方法、终端和系统
CN107341435A (zh) * 2016-08-19 2017-11-10 北京市商汤科技开发有限公司 视频图像的处理方法、装置和终端设备
CN107341434A (zh) * 2016-08-19 2017-11-10 北京市商汤科技开发有限公司 视频图像的处理方法、装置和终端设备
US10170100B2 (en) * 2017-03-24 2019-01-01 International Business Machines Corporation Sensor based text-to-speech emotional conveyance
US11157549B2 (en) * 2019-03-06 2021-10-26 International Business Machines Corporation Emotional experience metadata on recorded images

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6471420B1 (en) * 1994-05-13 2002-10-29 Matsushita Electric Industrial Co., Ltd. Voice selection apparatus voice response apparatus, and game apparatus using word tables from which selected words are output as voice selections
JP2967058B2 (ja) * 1997-02-14 1999-10-25 株式会社エイ・ティ・アール知能映像通信研究所 階層的感情認識装置
US20030040916A1 (en) * 1999-01-27 2003-02-27 Major Ronald Leslie Voice driven mouth animation system
US6594629B1 (en) * 1999-08-06 2003-07-15 International Business Machines Corporation Methods and apparatus for audio-visual speech detection and recognition
US7106887B2 (en) * 2000-04-13 2006-09-12 Fuji Photo Film Co., Ltd. Image processing method using conditions corresponding to an identified person
DE60224776T2 (de) * 2001-12-20 2009-01-22 Matsushita Electric Industrial Co., Ltd., Kadoma-shi Virtuelles Bildtelefon
US20030212552A1 (en) * 2002-05-09 2003-11-13 Liang Lu Hong Face recognition procedure useful for audiovisual speech recognition
US7251603B2 (en) * 2003-06-23 2007-07-31 International Business Machines Corporation Audio-only backoff in audio-visual speech recognition system
US7999857B2 (en) * 2003-07-25 2011-08-16 Stresscam Operations and Systems Ltd. Voice, lip-reading, face and emotion stress analysis, fuzzy logic intelligent camera system
TW200540732A (en) * 2004-06-04 2005-12-16 Bextech Inc System and method for automatically generating animation

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010250761A (ja) * 2009-04-20 2010-11-04 Nippon Telegr & Teleph Corp <Ntt> アバタ生成装置、方法およびプログラム
JP5793255B1 (ja) * 2015-03-10 2015-10-14 株式会社 ディー・エヌ・エー 動画又は音声を配信するシステム、方法、及びプログラム
JP2016167727A (ja) * 2015-03-10 2016-09-15 株式会社 ディー・エヌ・エー 動画又は音声を配信するシステム、方法、及びプログラム
JP2017123579A (ja) * 2016-01-07 2017-07-13 株式会社見果てぬ夢 ネオメディア生成装置、ネオメディア生成方法、及びネオメディア生成プログラム
WO2017169499A1 (ja) * 2016-03-31 2017-10-05 ソニー株式会社 制御装置、制御方法及びコンピュータプログラム
US10904420B2 (en) 2016-03-31 2021-01-26 Sony Corporation Control device and control method for managing a captured image
JP6263252B1 (ja) * 2016-12-06 2018-01-17 株式会社コロプラ 情報処理方法、装置、および当該情報処理方法をコンピュータに実行させるためのプログラム
JP2018089227A (ja) * 2016-12-06 2018-06-14 株式会社コロプラ 情報処理方法、装置、および当該情報処理方法をコンピュータに実行させるためのプログラム
JP2019075124A (ja) * 2017-10-18 2019-05-16 ネイバー コーポレーションNAVER Corporation カメラエフェクトを提供する方法およびシステム
JP2022054326A (ja) * 2020-09-25 2022-04-06 Kddi株式会社 ユーザの感情に応じたキャラクタの傾聴感を表現する対話プログラム、装置及び方法
JP7423490B2 (ja) 2020-09-25 2024-01-29 Kddi株式会社 ユーザの感情に応じたキャラクタの傾聴感を表現する対話プログラム、装置及び方法

Also Published As

Publication number Publication date
CN1645413A (zh) 2005-07-27
EP1555635A1 (en) 2005-07-20
US20050159958A1 (en) 2005-07-21

Similar Documents

Publication Publication Date Title
JP2005202854A (ja) 画像処理装置、画像処理方法及び画像処理プログラム
Gabbay et al. Visual speech enhancement
CN110246512B (zh) 声音分离方法、装置及计算机可读存储介质
EP3226245A1 (en) System and method to insert visual subtitles in videos
KR102193029B1 (ko) 디스플레이 장치 및 그의 화상 통화 수행 방법
US20070136671A1 (en) Method and system for directing attention during a conversation
CN116129931B (zh) 一种视听结合的语音分离模型搭建方法及语音分离方法
CA3053032A1 (fr) Methode et appareil de modification dynamique du timbre de la voix par decalage en frequence des formants d&#39;une enveloppe spectrale
KR20210085938A (ko) 영상의 음성을 2d 및 3d 아바타, 애니메이션으로 번역해주는 수화번역 시스템 및 그 제어방법
CN110875036A (zh) 语音分类方法、装置、设备及计算机可读存储介质
CN104851423B (zh) 一种声音信息处理方法及装置
US8452599B2 (en) Method and system for extracting messages
US11069108B2 (en) Method and system for creating an intelligent cartoon chat strip based on dynamic content
KR102433964B1 (ko) 관계 설정을 이용한 실감형 인공지능기반 음성 비서시스템
CN112567455B (zh) 使用深度信息净化声音的方法和系统以及计算机可读介质
US11600279B2 (en) Transcription of communications
CN115225962B (zh) 视频生成方法、系统、终端设备及介质
JP2014149571A (ja) コンテンツ検索装置
KR20140093459A (ko) 자동 통역 방법
JP2020077272A (ja) 会話システムおよび会話プログラム
KR100849027B1 (ko) 음성 신호에 대한 립싱크 동기화 방법 및 장치
JP2022071968A (ja) 顔画像処理システム、顔画像生成用情報提供装置、顔画像生成用情報提供方法および顔画像生成用情報提供プログラム
JP2006048352A (ja) キャラクタ映像表示機能付き通信端末およびその制御方法
CN113066513B (zh) 语音数据处理方法、装置、电子设备及存储介质
JP2011150191A (ja) 音声変更装置、音声変更方法、プログラム及び記録媒体

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060912

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061113

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20061219