JP2019125927A - 表示制御装置、通信装置、表示制御方法およびプログラム - Google Patents

表示制御装置、通信装置、表示制御方法およびプログラム Download PDF

Info

Publication number
JP2019125927A
JP2019125927A JP2018005700A JP2018005700A JP2019125927A JP 2019125927 A JP2019125927 A JP 2019125927A JP 2018005700 A JP2018005700 A JP 2018005700A JP 2018005700 A JP2018005700 A JP 2018005700A JP 2019125927 A JP2019125927 A JP 2019125927A
Authority
JP
Japan
Prior art keywords
unit
lip
video
movement
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018005700A
Other languages
English (en)
Other versions
JP7081164B2 (ja
Inventor
拓之 照内
Hiroyuki Teruuchi
拓之 照内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JVCKenwood Corp
Original Assignee
JVCKenwood Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JVCKenwood Corp filed Critical JVCKenwood Corp
Priority to JP2018005700A priority Critical patent/JP7081164B2/ja
Priority to PCT/JP2018/039528 priority patent/WO2019142424A1/ja
Priority to KR1020207009456A priority patent/KR102446222B1/ko
Priority to EP18901303.0A priority patent/EP3691256B1/en
Priority to CN201880065578.1A priority patent/CN111201786B/zh
Publication of JP2019125927A publication Critical patent/JP2019125927A/ja
Priority to US16/842,811 priority patent/US11508106B2/en
Application granted granted Critical
Publication of JP7081164B2 publication Critical patent/JP7081164B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/2053D [Three Dimensional] animation driven by audio data
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B21/00Teaching, or communicating with, the blind, deaf or mute
    • G09B21/009Teaching or communicating with deaf persons
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/802D [Two Dimensional] animation, e.g. using sprites
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/165Detection; Localisation; Normalisation using facial parts and geometric relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Geometry (AREA)
  • Psychiatry (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Social Psychology (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Business, Economics & Management (AREA)
  • Telephone Function (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)
  • Closed-Circuit Television Systems (AREA)
  • Communication Control (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

【課題】発話内容を適切に認識可能にする表示制御装置、通信装置、表示制御方法およびプログラムを提供する。【解決手段】通信装置1において、少なくとも発話者の口元を撮影した映像データを取得する映像取得部101と、映像データから口唇部を検出するとともに、口唇部の動きを検出する口唇検出部107と、口唇検出部107が検出した口唇部の動きが大きくなるように強調した映像を生成する映像処理部110と、映像処理部110が生成した映像を表示パネル40に表示させる表示制御部104とを備える。【選択図】図1

Description

本発明は、表示制御装置、通信装置、表示制御方法およびプログラムに関する。
通信装置を使用して通話を行う際に、通話をしやすくするための技術が知られている。通話相手の発話内容を音声認識してテキスト表示する技術が知られている(例えば、特許文献1参照)。口唇の動きを示す絵柄または図形を生成表示したり、送話音声信号の音声認識結果のテキスト情報、または、合成音声信号による音声を出力させたりする技術が知られている(例えば、特許文献2参照)。
特開2008−99121号公報 特開2006−005440号公報
通話相手が聴覚障害者であるときに、特許文献1または特許文献2に記載の技術を使用すると、聴覚障害者が通話をしやすくなる。
しかしながら、発話内容をテキストで表示したり合成音声で出力したりする場合、発話者が意図するニュアンスが適切に伝わらないおそれがある。また、口唇の動きを表示する場合、口唇の動きが小さいと、発話内容を適切に認識できないおそれがある。
本発明は、上記に鑑みてなされたものであって、発話内容を適切に認識可能にすることを目的とする。
上述した課題を解決し、目的を達成するために、本発明に係る表示制御装置は、少なくとも発話者の口元を撮影した映像データを取得する映像取得部と、前記映像データから口唇部を検出するとともに、口唇部の動きを検出する口唇検出部と、前記口唇検出部が検出した口唇部の動きが大きくなるように強調した映像を生成する映像処理部と、前記映像処理部が生成した映像を表示部に表示させる表示制御部と、を備えることを特徴とする。
本発明に係る通信装置は、上記の表示制御装置と、通話処理を行う通話処理部と、を備え、前記音声取得部は、通話時の発話音声を取得し、前記映像処理部は、前記通話処理部が送信する映像を、前記口唇検出部が検出した口唇部の動きが大きくなるように強調した映像とするを特徴とする。
本発明に係る通信装置は、上記の表示制御装置と、通話処理を行う通話処理部と、を備え、前記音声認識部は、前記通話処理部が受信して取得した音声データから音声を認識し、前記映像取得部は、前記通話処理部が受信した映像データを取得するを特徴とする。
本発明に係る表示制御方法は、少なくとも発話者の口元を撮影した映像データを取得する映像取得ステップと、前記映像データから口唇部を検出するとともに、口唇部の動きを検出する口唇検出ステップと、前記口唇検出ステップによって検出した口唇部の動きが大きくなるように強調した映像を生成する映像処理ステップと、前記映像処理ステップによって生成した映像を表示部に表示させる表示制御ステップと、を含む。
本発明に係るプログラムは、少なくとも発話者の口元を撮影した映像データを取得する映像取得ステップと、前記映像データから口唇部を検出するとともに、口唇部の動きを検出する口唇検出ステップと、前記口唇検出ステップによって検出した口唇部の動きが大きくなるように強調した映像を生成する映像処理ステップと、前記映像処理ステップによって生成した映像を表示部に表示させる表示制御ステップと、をコンピュータに実行させる。
本発明によれば、発話内容を適切に認識可能にすることができるという効果を奏する。
図1は、第一実施形態に係る通信装置の構成例を示すブロック図である。 図2は、第一実施形態に係る通信装置の構成例を示す概略図である。 図3は、口唇部を説明する図であり、口唇を閉じた状態を示す。 図4は、口唇部の動きの一例を説明する図である。 図5は、音声認識処理の処理結果と口唇動作認識処理の処理結果と認識率とを説明する図である。 図6は、口唇部の動きが大きくなるように強調した強調映像の一例を説明する図である。 図7は、口唇部の動きが大きくなるように強調した強調映像をユーザの顔部の映像に重畳または合成した映像を説明する図である。 図8は、第一実施形態に係る通信装置における処理の流れを示すフローチャートである。 図9は、第二実施形態に係る通信装置における処理の流れを示すフローチャートである。 図10は、第三実施形態に係る通信装置における処理の流れを示すフローチャートである。
以下に添付図面を参照して、本発明に係る表示制御装置、通信装置、表示制御方法およびプログラムの実施形態を詳細に説明する。なお、以下の実施形態により本発明が限定されるものではない。
[第一実施形態]
図1は、第一実施形態に係る通信装置の構成例を示すブロック図である。図2は、第一実施形態に係る通信装置の構成例を示す概略図である。通信装置1は、例えば、携帯電話のように通話機能を有する携帯用電子機器を含む通信装置またはコンピュータなどである。本実施形態では、通信装置1は、携帯電話であるものとして説明する。通信装置1は、カメラ10とマイクロフォン20と送受信部30と表示パネル(表示部)40とスピーカ50と制御部100とを有する。本実施形態では、通信装置1は、ユーザが発話者である。本実施形態では、ユーザの通話相手が聴覚障害者である。本実施形態では、通信装置1は、ユーザである発話者の発話音声の音声データと強調映像210の映像データとを、聴覚障害者である通話相手に送信する。
カメラ10は、少なくともユーザの口唇部200を含んだ口元を含む映像を撮影する。本実施形態では、カメラ10は、ユーザの顔部の映像を撮影する。カメラ10は、通話時に少なくともユーザの口唇部200を撮影可能な位置に配置されている。本実施形態では、カメラ10は、通信装置1の表示パネル40の下側に配置されている。カメラ10は、通信装置1において通話を開始すると、常時、映像を撮影する。カメラ10は、撮影した映像データを制御部100の映像取得部101に出力する。
マイクロフォン20は、ユーザの発話音声の音声信号を取得する。本実施形態では、マイクロフォン20は、通信装置1の表示パネル40の下側に配置されている。マイクロフォン20は、通信装置1において通話を開始すると、常時、音声信号を取得する。マイクロフォン20は、取得した音声信号を制御部100の音声取得部102に出力する。
送受信部30は、音声と映像とによる通話を可能にする。送受信部30は、ユーザの発話音声の音声データとユーザの顔部の映像データとを通話相手が使用している通信装置に送信する。送受信部30は、通話相手の発話音声の音声データと顔部の映像データとを受信する。送受信部30は、無線または有線によって通信する。送受信部30は、例えば、4G回線等を含む携帯電話の回線を使用してもよい。送受信部30は、例えば、Wifi(登録商標)を含む無線通信規格を使用してもよい。送受信部30は、有線による通信規格を使用してもよい。送受信部30は、制御部100の通話処理部103によって通話開始と通話終了とが制御される。
表示パネル40は、液晶ディスプレイ(LCD:Liquid Crystal Display)または有機EL(Organic Electro−Luminescence)ディスプレイなどを含むディスプレイである。表示パネル40は、制御部100の表示制御部104から出力された映像信号に基づき映像を表示する。
スピーカ50は、音声出力装置である。スピーカ50は、制御部100の音声出力処理部105から出力された音声信号に基づき音声を出力する。本実施形態では、スピーカ50は、送受信部30を介して通話が行われているとき、通話相手の発話音声を出力する。
制御部100は、例えば、CPU(Central Processing Unit)などで構成された演算処理装置である。制御部100は、記憶部120に記憶されているプログラムをメモリにロードして、プログラムに含まれる命令を実行する。制御部100は、ユーザの口唇部200の認識率が低いとき、ユーザの口唇部200の動きを強調した強調映像210を生成する。制御部100は、映像取得部101と音声取得部102と通話処理部103と表示制御部104と音声出力処理部105と音声認識部106と口唇検出部107と口唇動作認識部108と比較部109と映像処理部110とを有する。制御部100には図示しない内部メモリが含まれ、内部メモリは制御部100におけるデータの一時記憶などに用いられる。
映像取得部101は、少なくとも発話者の口唇部200を含む口元を撮影した映像データを取得する。本実施形態では、映像取得部101は、少なくともユーザの口唇部200を含む口元をカメラ10が撮影した映像データを取得する。より詳しくは、映像取得部101は、カメラ10が出力した映像信号に符号化処理などを実行して、デジタルデータである映像データを取得する。映像取得部101は、取得した映像データを口唇検出部107と映像処理部110とに出力する。
音声取得部102は、発話者の発話音声の音声データを取得する。より詳しくは、音声取得部102は、マイクロフォン20が出力した音声信号にA/D(Analog/Digital)変換処理を実行して、デジタルデータである音声データを取得する。音声取得部102は、取得した音声データを通話処理部103と音声認識部106と比較部109とに出力する。
通話処理部103は、送受信部30を介して通話処理を行う。通話処理部103は、ユーザの音声データとユーザの映像データとを送受信部30に出力する。通話処理部103は、通話相手の音声データと通話相手の映像データとを送受信部30から取得する。通話処理部103は、取得したユーザまたは通話相手の映像データを表示制御部104に出力する。通話処理部103は、取得した通話相手の音声データを音声出力処理部105に出力する。
表示制御部104は、通話時に、ユーザまたは通話相手の強調映像210を表示する映像信号を表示パネル40に出力する。より詳しくは、表示制御部104は、通話処理部103から取得した映像データに復号化処理を実行して、映像信号を表示パネル40に出力する。または、表示制御部104は、映像取得部101が取得した映像データに復号化処理を実行して、映像信号を表示パネル40に出力する。
音声出力処理部105は、通話処理部103が取得した音声データに復号化処理とD/A(Digital/Analog)変換処理とを実行して、音声信号をスピーカ50に出力する。
音声認識部106は、音声取得部102が取得した音声データから音声を認識する音声認識処理を実行する。音声認識処理は、音素ごと、単語ごとなど任意の単位で行えばいよい。音声認識処理の方法は、公知のいずれの方法でもよく、限定されない。音声認識部106は、認識結果を比較部109に出力する。
口唇検出部107は、映像取得部101が取得した映像データから口唇部200を検出するとともに、口唇部200の動きを検出する。より詳しくは、口唇検出部107は、映像データに顔認識処理を行って、口唇部200を検出する。または、口唇検出部107は、例えば、口唇辞書データを参照しながら画像認識処理を行って、口唇部200を認識する。口唇検出部107は、検出した口唇部200の動きを検出する。口唇検出部107は、検出結果を口唇動作認識部108に出力する。
口唇動作認識部108は、口唇検出部107が検出した口唇部200の動きから発話内容を認識する。より詳しくは、口唇動作認識部108は、口唇辞書データを参照しながら画像認識処理を行って、発話内容を認識する。口唇動作認識処理は、音素ごと、単語ごとなど任意の単位で行えばいよい。口唇動作認識部108は、認識結果を比較部109に出力する。
図3、図4を参照して、口唇動作認識処理について説明する。図3は、口唇部を説明する図であり、口唇を閉じた状態を示す。図3に示す、口唇を閉じた状態における各部位の位置を基本位置とする。図4は、口唇部の動きの一例を説明する図である。本実施形態では、口唇動作認識部108は、例えば、口唇部200の部位P1から部位P8の動きを検出することで、口唇部200の動作を検出する。口唇部200の各部位は、これらに限定されず、口唇部200の動きを読み取ることができる部位であればよい。部位P1は、右側の口角である。部位P1の動きをベクトルV1で示す。ベクトルV1は、部位P1の基本位置に対する動きを示す。本実施形態で示す例では、ベクトルV1は、部位P1の動きが小さいため、図示を省略している。各図において、部位P1は、基本位置を図示している。他の部位についても同様である。部位P2は、左側の口角である。部位P2の動きをベクトルV2で示す。本実施形態で示す例では、ベクトルV2は、部位P2の動きが小さいため、図示を省略している。部位P3は、上唇の右側の上端部である。部位P3の動きをベクトルV3で示す。部位P4は、上唇の左側の上端部である。部位P4の動きをベクトルV4で示す。部位P5は、上唇の中央部の下端部である。部位P5の動きをベクトルV5で示す。部位P6は、下唇の右側の下端部である。部位P6の動きをベクトルV6で示す。部位P7は、下唇の左側の下端部である。部位P7の動きをベクトルV7で示す。部位P8は、下唇の中央部の上端部である。部位P8の動きをベクトルV8とする。
各ベクトルVは、各部位Pについて、ひとつ前または所定数前のフレームの映像データの口唇部200の各部位Pに対する動きとして示してもよい。
各ベクトルVは、各部位Pについて、ある音素から次の音素を発するときの、口唇部200の各部位Pに対する動きとして示してもよい。
比較部109は、同一の発話、言い換えると、同一期間における、音声認識部106が認識した認識結果と、口唇動作認識部108が認識した認識結果とを比較する。同一期間は、例えば、単語ごと、文節ごとなど、発話の任意の単位に対応する期間である。認識結果の比較とは、認識率の比較である。
認識率は、発話内容と認識結果とを比較して算出する。認識率は、例えば、発話内容と認識結果とがすべて一致したら100%である。認識率は、発話内容に対して認識結果の文字が誤って挿入、削除、置換されると低く算出される。
図5を参照して、認識率について説明する。図5は、音声認識処理の処理結果と口唇動作認識処理の処理結果と認識率とを説明する図である。例えば、「おはよう」「ございます」と発話したものを、音声認識部106が「おはよう」「ごさいます」と認識した場合について説明する。認識結果の「おはよう」「ございます」の単語は、文脈から重み付け処理を行ったり、単語辞書と対比処理を行ったりすることによって、単語として成立していると判定されるので、認識率はいずれも100%である。
例えば、「おはよう」「ございます」と発話したものを、口唇動作認識部108が「おあよう」「ごあいます」と認識した場合について説明する。認識結果の「おあよう」「ごあいます」の単語は、文脈から重み付け処理を行ったり、単語辞書と対比処理を行ったりすることによって、単語として成立していないと判定される。また、文脈や単語辞書によって、発話内容は「おはよう」「ございます」と推定される。このため、「おあよう」の認識率は75%であり、「ごあいます」の認識率は80%である。
映像処理部110は、口唇検出部107が検出した口唇部200の動きが大きくなるように強調した強調映像210を生成する。本実施形態では、映像処理部110は、比較部109の比較結果において、音声認識部106による認識結果に比して口唇動作認識部108の認識結果の認識率が低い場合、強調映像210を生成する。
図4、図6、図7を用いて、強調映像210について説明する。図6は、口唇部の動きが大きくなるように強調した強調映像の一例を説明する図である。図7は、口唇部の動きが大きくなるように強調した強調映像をユーザの顔部の映像に重畳または合成した映像を説明する図である。まず、図4に示す口唇部200の部位P1から部位P8のベクトルV1からベクトルV8に、例えば、1以上、より好ましくは、1.5以上2.0以下の係数を乗算して各部位の位置を算出する。図6において、破線が図4に示すベクトルV1からベクトルV8を示し、実線が係数を乗算したベクトルV1からベクトルV8を示す。そして、算出された各部位、言い換えると、各ベクトルの先端部を結んで口唇部200の外径を得る。このようにして、得られた外形を有する口唇部200の映像が強調映像210である。本実施形態では、さらに、ユーザの元の顔部の映像の口唇部200に強調映像210を重畳または合成して、図7に示す顔部映像220を生成する。
または、強調映像210を含むユーザの顔部のアニメーション映像を顔部映像220として生成してもよい。例えば、ユーザの顔を含む映像全体をアニメーションで表現してもよく、映像取得部が取得したユーザの映像に対し口唇部分のみをアニメーション映像として合成表示してもよい。
映像処理部110は、音声認識部106が認識した音声に基づいて口唇検出部107が検出した口唇部200の動きを補正して強調映像210を生成してもよい。
映像処理部110は、強調映像210の生成処理を開始すると、例えば、通話終了まで、生成処理を継続する。
図1に戻って、記憶部120は、通信装置1におけるデータの一時記憶などに用いられる。記憶部120は、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ(Flash Memory)などの半導体メモリ素子、または、ハードディスク、光ディスクなどの記憶装置である。または、図示しない通信装置を介して無線接続される外部記憶装置であってもよい。記憶部120は、口唇辞書データを記憶している。
次に、図8を用いて、通信装置1の制御部100における処理の流れについて説明する。図8は、第一実施形態に係る通信装置における処理の流れを示すフローチャートである。通信装置1において通話開始の操作が実行されると、ステップS11以降の処理が実行される。通信装置1は、通話中、言い換えると、図8に示すフローチャートの処理が実行されている間、送受信部30によって通話相手の発話音声が取得される。
制御部100は、ユーザの発話音声およびユーザの顔部の映像を取得する(ステップS11)。より詳しくは、制御部100は、音声取得部102によってユーザの発話音声の音声データを取得する。制御部100は、映像取得部101によってユーザの顔部の映像データを取得する。制御部100は、ステップS12に進む。
制御部100は、音声認識処理を実行する(ステップS12)。より詳しくは、制御部100は、音声認識部106によって、音声取得部102が取得した音声データから音声を認識する音声認識処理を実行する。制御部100は、ステップS13に進む。
制御部100は、口唇検出処理を実行する(ステップS13)。より詳しくは、制御部100は、口唇検出部107によって、映像取得部101が取得した映像データから口唇部200を検出するとともに、口唇部200の動きを検出する。制御部100は、ステップS14に進む。
制御部100は、口唇動作認識処理を実行する(ステップS14)。より詳しくは、制御部100は、口唇動作認識部108によって、口唇検出部107が検出した口唇部200の動きから発話内容を認識する。制御部100は、ステップS15に進む。
制御部100は、認識結果比較処理を実行する(ステップS15)。より詳しくは、制御部100は、比較部109によって、音声認識部106が認識した認識結果の認識率と、口唇動作認識部108が認識した認識結果の認識率とを比較する。制御部100は、ステップS16に進む。
制御部100は、音声認識率が口唇認識率より高いか否かを判定する(ステップS16)。より詳しくは、制御部100は、音声認識部106の認識結果の認識率が、口唇動作認識部108の認識結果の認識率より高い場合(ステップS16でYes)、ステップS18に進む。制御部100は、音声認識部106の認識結果の認識率が、口唇動作認識部108の認識結果の認識率より高くない場合(ステップS16でNo)、ステップS17に進む。
制御部100は、映像および音声を送信する(ステップS17)。より詳しくは、制御部100は、通話処理部103によって、ユーザの音声データとユーザの顔部の映像データとを送受信部30に出力する。これにより、制御部100は、ユーザの音声データとともに、口唇部200の動きを強調する処理をしていないユーザの顔部の映像データを通話相手に送信する。制御部100は、ステップS20に進む。
制御部100は、強調処理を実行する(ステップS18)。より詳しくは、制御部100は、映像処理部110によって、強調映像210を生成する。これにより、ユーザの口唇部200の動きを強調した強調映像210を含むユーザの顔部の顔部映像220が生成される。制御部100は、ステップS19に進む。
制御部100は、強調した映像および音声を送信する(ステップS19)。より詳しくは、制御部100は、通話処理部103によって、ユーザの音声データと強調映像210を含むユーザの顔部の顔部映像220の映像データとを送受信部30に出力する。これにより、制御部100は、ユーザの音声データとともに、ユーザの強調映像210を含む顔部映像220の映像データを通話相手に送信する。制御部100は、ステップS20に進む。
制御部100は、通話終了の操作が実行されたか否かを判定する(ステップS20)。より詳しくは、制御部100は、例えば、通話終了のボタンが選択されるなどの通話終了操作が実行された場合(ステップS20でYes)、通話を終了して、フローチャートの処理を終了する。制御部100は、通話終了操作が実行されていない場合(ステップS20でNo)、ステップS11の処理を再度実行する。
このようにして、音声認識部106による認識結果に比して口唇動作認識部108の認識結果の認識率が低い場合、ユーザの口唇部200の動きが大きくなるように強調した強調映像210を生成する。
上述したように、本実施形態は、音声認識部106による認識結果に比して口唇動作認識部108の認識結果の認識率が低い場合、ユーザの口唇部200の動きを強調した強調映像210を含む顔部映像220を音声とともに通話相手に送信する。本実施形態によれば、ユーザの口唇部200の動きが小さくても、通話相手が強調映像210からユーザの発話内容を認識しやすくすることができる。このように、本実施形態は、通話相手にユーザの発話内容を適切に認識させることができる。本実施形態によれば、聴覚障害を有する通話相手との通話をしやすくすることができる。
本実施形態は、強調映像210をユーザの顔部の映像に重畳または合成する。これにより、本実施形態によれば、通話相手は、強調映像210からユーザの発話音声を容易に認識することができるとともに、ユーザの顔部の顔部映像220から表情を読み取りユーザの発話内容の意図を適切に汲み取ることが可能である。
[第二実施形態]
図9を参照しながら、本実施形態に係る通信装置1について説明する。図9は、第二実施形態に係る通信装置における処理の流れを示すフローチャートである。本実施形態では、通信装置1は、ユーザが聴覚障害者である。本実施形態では、通話相手が発話者である。本実施形態では、通信装置1は、通話相手の発話音声の音声に対応する通話相手の顔部の映像を表示して、聴覚障害者であるユーザが通話をしやすくする。通信装置1は、基本的な構成は第一実施形態の通信装置1と同様である。以下の説明においては、通信装置1と同様の構成要素には、同一の符号または対応する符号を付し、その詳細な説明は省略する。通信装置1は、制御部100における処理が通信装置1と異なる。
表示パネル40は、送受信部30を介して通話が行われているとき、通話相手の発話音声に対応した強調映像210を含む通話相手の顔部の顔部映像220を表示する。
スピーカ50は、送受信部30を介して通話が行われているとき、通話相手の発話音声を出力する。
制御部100は、通話相手の口唇部200の認識率が低いとき、通話相手の口唇部200の動きを強調した強調映像210を生成する。
映像取得部101は、少なくとも通話相手の口唇部200を含む口元が撮影された映像データを通話処理部103を介して取得する。
音声取得部102は、少なくとも通話相手の音声データを通話処理部103を介して取得する。
通話処理部103は、音声データと映像データとを送受信部30から取得する。通話処理部103は、取得した音声データを音声取得部102に出力する。通話処理部103は、取得した映像データを映像取得部101に出力する。
表示制御部104は、通話時に、通話相手の顔部の映像を表示する映像信号を表示パネル40に出力する。より詳しくは、表示制御部104は、通話処理部103から取得した通話相手の顔部の映像データに復号化処理を実行して、映像信号を表示パネル40に出力する。または、表示制御部104は、映像処理部110が生成した強調映像210を含む通話相手の顔部映像の映像データに復号化処理を実行して、映像信号を表示パネル40に出力する。
次に、図9を用いて、通信装置1における処理の流れについて説明する。図9に示すフローチャートのステップS22ないしステップS26、ステップS30の処理は、図8に示すフローチャートのステップS12ないしステップS16、ステップS20の処理と同様の処理を行う。
制御部100は、受信した通話相手の発話音声および通話相手の顔部の映像を取得する(ステップS21)。より詳しくは、制御部100は、通話処理部103によって通話相手の発話音声の音声データと通話相手の顔部の映像データとを取得する。制御部100は、ステップS22に進む。
制御部100は、映像を表示し、音声を出力する(ステップS27)。より詳しくは、制御部100は、表示制御部104によって、通話相手の口唇部200の動きを強調する処理をしていない映像データに復号化処理を実行して、映像を表示する映像信号を表示パネル40に出力する。制御部100は、音声出力処理部105によって、通話相手の音声データにD/A変換処理を実行して、音声信号をスピーカ50に出力する。制御部100は、ステップS30に進む。
制御部100は、強調処理を実行する(ステップS28)。これにより、通話相手の強調映像210を含む顔部映像の映像データが生成される。制御部100は、ステップS29に進む。
制御部100は、強調した映像を表示し、音声を出力する(ステップS29)。より詳しくは、制御部100は、表示制御部104によって、通話相手の強調映像210を含む顔部映像の映像データに復号化処理を実行して、映像信号を表示パネル40に出力する。制御部100は、音声出力処理部105によって、通話相手の音声データにD/A変換処理を実行して、音声信号をスピーカ50に出力する。制御部100は、ステップS30に進む。
このようにして、音声認識部106による認識結果に比して口唇動作認識部108の認識結果の認識率が低い場合、通話相手の口唇部200の動きが大きくなるように強調した強調映像210を生成する。
上述したように、本実施形態は、音声認識部106による認識結果に比して口唇動作認識部108の認識結果の認識率が低い場合、通話相手の口唇部200の動きを強調した強調映像210を含む顔部映像220を表示するとともに、通話相手の音声を出力する。本実施形態によれば、通話相手の口唇部200の動きが小さくても、ユーザが強調映像210から通話相手の発話内容を認識しやすくすることができる。このように、本実施形態は、ユーザに通話相手の発話内容を適切に認識させることができる。本実施形態によれば、聴覚障害を有するユーザが通話相手との通話をしやすくすることができる。
[第三実施形態]
図10を参照しながら、本実施形態に係る通信装置1について説明する。図10は、第三実施形態に係る通信装置における処理の流れを示すフローチャートである。本実施形態では、通信装置1は、ユーザが聴覚障害者である。本実施形態では、通話相手が発話者である。通信装置1は、基本的な構成は第二実施形態の通信装置1と同様である。通信装置1は、制御部100における処理が第二実施形態の通信装置1と異なる。
制御部100は、通信相手が以前の通話で音声認識部106による認識結果に比して口唇動作認識部108の認識結果の認識率が低いと判定されている場合、通話開始から、口唇部200の動きを強調した強調映像210を生成する。
比較部109は、通話相手および通話ごとに比較結果を記憶部120に記憶させる。
映像処理部110は、通信相手が以前の通話で音声認識部106による認識結果に比して口唇動作認識部108の認識結果の認識率が低いと判定されている場合、強調映像210を生成する。
記憶部120は、通話相手および通話ごとに比較部109による比較結果を記憶する。
次に、図10を用いて、通信装置1における処理の流れについて説明する。図10に示すフローチャートのステップS32、ステップS33ないしステップS37、ステップS38ないしステップS40の処理は、図9に示すフローチャートのステップS27、ステップS21ないしステップS25、ステップS28ないしステップS30の処理と同様の処理を行う。
制御部100は、通話相手が以前の通話で音声認識率が口唇認識率より高いと判定されたか否かを判定する(ステップS31)。より詳しくは、制御部100は、記憶部120に、通話相手の以前の通話についての比較部109の比較結果であって、音声認識部106の認識結果の認識率が、口唇動作認識部108の認識結果の認識率より高いことが記憶されている場合(ステップS31でYes)、ステップS33に進む。制御部100は、記憶されていない場合(ステップS31でNo)、ステップS32に進む。
このようにして、通信相手が以前の通話で音声認識部106による認識結果に比して口唇動作認識部108の認識結果の認識率が低いと判定されている場合、通話相手の口唇部200の動きが大きくなるように強調した強調映像210を生成する。
上述したように、本実施形態は、通信相手が以前の通話で音声認識部106による認識結果に比して口唇動作認識部108の認識結果の認識率が低いと判定されている場合、通話相手の口唇部200の動きを強調した強調映像210を含む顔部映像220を表示するとともに、通話相手の音声を出力する。本実施形態によれば、聴覚障害を有するユーザが通話相手との通話をしやすくすることができる。
さて、これまで本発明に係る通信装置1について説明したが、上述した実施形態以外にも種々の異なる形態にて実施されてよいものである。
図示した通信装置1の各構成要素は、機能概念的なものであり、必ずしも物理的に図示の如く構成されていなくてもよい。すなわち、各装置の具体的形態は、図示のものに限られず、各装置の処理負担や使用状況などに応じて、その全部または一部を任意の単位で機能的または物理的に分散または統合してもよい。
通信装置1の構成は、例えば、ソフトウェアとして、メモリにロードされたプログラムなどによって実現される。上記実施形態では、これらのハードウェアまたはソフトウェアの連携によって実現される機能ブロックとして説明した。すなわち、これらの機能ブロックについては、ハードウェアのみ、ソフトウェアのみ、または、それらの組み合わせによって種々の形で実現できる。
上記した構成要素には、当業者が容易に想定できるもの、実質的に同一のものを含む。さらに、上記した構成は適宜組み合わせが可能である。また、本発明の要旨を逸脱しない範囲において構成の種々の省略、置換または変更が可能である。
第一実施形態と第二実施形態とは、一つの通信装置として実現されてもよい。
上記では、通信装置として説明したが、通信装置に限定されない。映像取得部101と音声取得部102と表示制御部104と音声出力処理部105と音声認識部106と口唇検出部107と口唇動作認識部108と比較部109と映像処理部110とを有する表示制御装置であってもよい。例えば、聴覚障害者であるユーザが、アナウンサーがニュースを読むニュース映像を視聴する際に、表示制御装置によって、アナウンサーの口唇部200の動きを強調した強調映像210を視聴することができる。例えば、ユーザが、聴覚障害者のために映像を生成する際に、表示制御装置によって、発話者の口唇部200の動きを強調した強調映像210を含んだ映像を生成することができる。
図8に示すフローチャートのステップS16において、制御部100は、口唇認識率が閾値以下であるか否かを判定してもよい。そして、口唇認識率が閾値以下であると判定された場合、ステップSS18に進み、口唇認識率が閾値以下ではないと判定された場合、ステップSS17に進む。
1 通信装置
10 カメラ
20 マイクロフォン
30 送受信部
40 表示パネル(表示部)
50 スピーカ
100 制御部
101 映像取得部
102 音声取得部
103 通話処理部
104 表示制御部
105 音声出力処理部
106 音声認識部
107 口唇検出部
108 口唇動作認識部
109 比較部
110 映像処理部
200 口唇部
210 強調映像
220 顔部映像

Claims (10)

  1. 少なくとも発話者の口元を撮影した映像データを取得する映像取得部と、
    前記映像データから口唇部を検出するとともに、口唇部の動きを検出する口唇検出部と、
    前記口唇検出部が検出した口唇部の動きが大きくなるように強調した映像を生成する映像処理部と、
    前記映像処理部が生成した映像を表示部に表示させる表示制御部と、
    を備えることを特徴とする表示制御装置。
  2. 前記発話者の発話音声の音声データを取得する音声取得部と、
    前記音声取得部が取得した前記音声データから音声を認識する音声認識部と、
    をさらに備え、
    前記映像処理部は、前記音声認識部が認識した音声に基づき前記口唇検出部が検出した口唇部の動きが大きくなるように強調した映像を生成する、
    請求項1に記載の表示制御装置。
  3. 前記口唇検出部が検出した口唇部の動きから発話内容を認識する口唇動作認識部と、
    前記音声認識部が認識した認識結果と、前記口唇動作認識部が認識した認識結果とを比較する比較部と、
    をさらに備え、
    前記映像処理部は、前記比較部の比較結果において、前記音声認識部による認識結果に比して前記口唇動作認識部の認識結果の認識率が低い場合、前記口唇検出部が検出した口唇部の動きが大きくなるように強調した映像を生成する、
    請求項1または2に記載の表示制御装置。
  4. 前記映像処理部は、前記口唇検出部が検出した口唇動作が大きくなるように強調したアニメーションの映像を生成する、
    請求項1から3のいずれか一項に記載の表示制御装置。
  5. 請求項2から4のいずれか一項に記載の表示制御装置と、
    通話処理を行う通話処理部と、
    を備え、
    前記音声取得部は、通話時の発話音声を取得し、
    前記映像処理部は、前記通話処理部が送信する映像を、前記口唇検出部が検出した口唇部の動きが大きくなるように強調した映像とする、
    ことを特徴とする通信装置。
  6. 請求項2から4のいずれか一項に記載の表示制御装置と、
    通話処理を行う通話処理部と、
    を備え、
    前記音声認識部は、前記通話処理部が受信して取得した音声データから音声を認識し、
    前記映像取得部は、前記通話処理部が受信した映像データを取得する、
    ことを特徴とする通信装置。
  7. 前記映像処理部は、前記通話処理部による通話開始後、前記比較部の比較結果が前記音声認識部による認識結果に比して前記口唇動作認識部の認識結果の認識率が低い結果が生じた場合、通話終了まで口唇動作を大きい映像となるように強調する処理を行う、
    請求項5または6に記載の通信装置。
  8. 前記映像処理部は、前記通話処理部による通話相手が以前の通話において、前記比較部の比較結果が前記音声認識部による認識結果に比して前記口唇動作認識部の認識結果の認識率が低い結果が生じた通話相手である場合、通話開始から口唇動作を大きい映像となるように強調する処理を行う、
    請求項5または6に記載の通信装置。
  9. 少なくとも発話者の口元を撮影した映像データを取得する映像取得ステップと、
    前記映像データから口唇部を検出するとともに、口唇部の動きを検出する口唇検出ステップと、
    前記口唇検出ステップによって検出した口唇部の動きが大きくなるように強調した映像を生成する映像処理ステップと、
    前記映像処理ステップによって生成した映像を表示部に表示させる表示制御ステップと、
    を含むことを特徴とする表示制御方法。
  10. 少なくとも発話者の口元を撮影した映像データを取得する映像取得ステップと、
    前記映像データから口唇部を検出するとともに、口唇部の動きを検出する口唇検出ステップと、
    前記口唇検出ステップによって検出した口唇部の動きが大きくなるように強調した映像を生成する映像処理ステップと、
    前記映像処理ステップによって生成した映像を表示部に表示させる表示制御ステップと、
    をコンピュータに実行させるためのプログラム。
JP2018005700A 2018-01-17 2018-01-17 表示制御装置、通信装置、表示制御方法および通信方法 Active JP7081164B2 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP2018005700A JP7081164B2 (ja) 2018-01-17 2018-01-17 表示制御装置、通信装置、表示制御方法および通信方法
PCT/JP2018/039528 WO2019142424A1 (ja) 2018-01-17 2018-10-24 表示制御装置、通信装置、表示制御方法およびプログラム
KR1020207009456A KR102446222B1 (ko) 2018-01-17 2018-10-24 표시 제어 장치, 통신 장치, 표시 제어 방법 및 컴퓨터 프로그램
EP18901303.0A EP3691256B1 (en) 2018-01-17 2018-10-24 Display control device, communication device, display control method, and program
CN201880065578.1A CN111201786B (zh) 2018-01-17 2018-10-24 显示控制装置、通信装置、显示控制方法及存储介质
US16/842,811 US11508106B2 (en) 2018-01-17 2020-04-08 Display control device, communication device, display control method, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018005700A JP7081164B2 (ja) 2018-01-17 2018-01-17 表示制御装置、通信装置、表示制御方法および通信方法

Publications (2)

Publication Number Publication Date
JP2019125927A true JP2019125927A (ja) 2019-07-25
JP7081164B2 JP7081164B2 (ja) 2022-06-07

Family

ID=67301388

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018005700A Active JP7081164B2 (ja) 2018-01-17 2018-01-17 表示制御装置、通信装置、表示制御方法および通信方法

Country Status (6)

Country Link
US (1) US11508106B2 (ja)
EP (1) EP3691256B1 (ja)
JP (1) JP7081164B2 (ja)
KR (1) KR102446222B1 (ja)
CN (1) CN111201786B (ja)
WO (1) WO2019142424A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2021024869A1 (ja) * 2019-08-02 2021-02-11

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11069357B2 (en) 2019-07-31 2021-07-20 Ebay Inc. Lip-reading session triggering events
KR20210127305A (ko) 2020-04-14 2021-10-22 주식회사 엘지에너지솔루션 권취롤로부터 전극 기재를 이송하는 시스템 및 방법
KR102501665B1 (ko) * 2021-02-15 2023-02-17 연세대학교 산학협력단 입술 움직임 정보 분석 방법 및 장치
CN113642469A (zh) * 2021-08-16 2021-11-12 北京百度网讯科技有限公司 嘴唇动作的检测方法、装置、设备和存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09265253A (ja) * 1996-03-29 1997-10-07 Hitachi Ltd 口唇アニメーション合成方法及び装置
JP2000057325A (ja) * 1998-08-17 2000-02-25 Fuji Xerox Co Ltd 音声検出装置
JP2003296753A (ja) * 2002-04-04 2003-10-17 Computer Image Laboratory Co Ltd 聴覚障害者用対話システム
JP2004098252A (ja) * 2002-09-11 2004-04-02 Ntt Docomo Inc コミュニケーション端末、口唇ロボットの制御方法及び口唇ロボットの制御装置
WO2005109830A1 (ja) * 2004-05-12 2005-11-17 Takashi Yoshimine 会話支援装置及び会話支援方法
JP2006140621A (ja) * 2004-11-10 2006-06-01 Matsushita Electric Ind Co Ltd 携帯電話機
JP2012103904A (ja) * 2010-11-10 2012-05-31 Sysystem Co Ltd 画像処理装置および方法、並びに、プログラム

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5907351A (en) * 1995-10-24 1999-05-25 Lucent Technologies Inc. Method and apparatus for cross-modal predictive coding for talking head sequences
US6014625A (en) * 1996-12-30 2000-01-11 Daewoo Electronics Co., Ltd Method and apparatus for producing lip-movement parameters in a three-dimensional-lip-model
KR100411760B1 (ko) 2000-05-08 2003-12-18 주식회사 모리아테크놀로지 애니메이션 영상 합성 장치 및 방법
WO2002029784A1 (en) * 2000-10-02 2002-04-11 Clarity, Llc Audio visual speech processing
JP2006005440A (ja) 2004-06-15 2006-01-05 Sony Corp 通話送受信方法および通話端末
KR100820141B1 (ko) 2005-12-08 2008-04-08 한국전자통신연구원 음성 구간 검출 장치 및 방법 그리고 음성 인식 시스템
JP2008099121A (ja) 2006-10-13 2008-04-24 Nec Electronics Corp 携帯電話機及びプログラム
CN101101752B (zh) * 2007-07-19 2010-12-01 华中科技大学 基于视觉特征的单音节语言唇读识别系统
KR101092820B1 (ko) * 2009-09-22 2011-12-12 현대자동차주식회사 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템
BRPI0904540B1 (pt) * 2009-11-27 2021-01-26 Samsung Eletrônica Da Amazônia Ltda método para animar rostos/cabeças/personagens virtuais via processamento de voz
CN101751692B (zh) * 2009-12-24 2012-05-30 四川大学 语音驱动唇形动画的方法
US9493130B2 (en) * 2011-04-22 2016-11-15 Angel A. Penilla Methods and systems for communicating content to connected vehicle users based detected tone/mood in voice input
KR20130022607A (ko) * 2011-08-25 2013-03-07 삼성전자주식회사 입술 이미지를 이용한 음성 인식 장치 및 이의 음성 인식 방법
WO2013086027A1 (en) * 2011-12-06 2013-06-13 Doug Carson & Associates, Inc. Audio-video frame synchronization in a multimedia stream
KR101862128B1 (ko) 2012-02-23 2018-05-29 삼성전자 주식회사 얼굴을 포함하는 영상 처리 방법 및 장치
JP5902632B2 (ja) * 2013-01-07 2016-04-13 日立マクセル株式会社 携帯端末装置及び情報処理システム
WO2014209262A1 (en) * 2013-06-24 2014-12-31 Intel Corporation Speech detection based upon facial movements
GB2516965B (en) * 2013-08-08 2018-01-31 Toshiba Res Europe Limited Synthetic audiovisual storyteller
CN105022470A (zh) * 2014-04-17 2015-11-04 中兴通讯股份有限公司 一种基于唇读的终端操作方法及装置
US10460732B2 (en) * 2016-03-31 2019-10-29 Tata Consultancy Services Limited System and method to insert visual subtitles in videos
US10770092B1 (en) * 2017-09-22 2020-09-08 Amazon Technologies, Inc. Viseme data generation
CN112204564A (zh) * 2018-02-15 2021-01-08 得麦股份有限公司 经由基于集成音频和视觉的语音识别进行语音理解的系统和方法
US10755463B1 (en) * 2018-07-20 2020-08-25 Facebook Technologies, Llc Audio-based face tracking and lip syncing for natural facial animation and lip movement

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09265253A (ja) * 1996-03-29 1997-10-07 Hitachi Ltd 口唇アニメーション合成方法及び装置
JP2000057325A (ja) * 1998-08-17 2000-02-25 Fuji Xerox Co Ltd 音声検出装置
JP2003296753A (ja) * 2002-04-04 2003-10-17 Computer Image Laboratory Co Ltd 聴覚障害者用対話システム
JP2004098252A (ja) * 2002-09-11 2004-04-02 Ntt Docomo Inc コミュニケーション端末、口唇ロボットの制御方法及び口唇ロボットの制御装置
WO2005109830A1 (ja) * 2004-05-12 2005-11-17 Takashi Yoshimine 会話支援装置及び会話支援方法
JP2006140621A (ja) * 2004-11-10 2006-06-01 Matsushita Electric Ind Co Ltd 携帯電話機
JP2012103904A (ja) * 2010-11-10 2012-05-31 Sysystem Co Ltd 画像処理装置および方法、並びに、プログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2021024869A1 (ja) * 2019-08-02 2021-02-11
WO2021024869A1 (ja) * 2019-08-02 2021-02-11 日本電気株式会社 音声処理装置、音声処理方法、および記録媒体
JP7347511B2 (ja) 2019-08-02 2023-09-20 日本電気株式会社 音声処理装置、音声処理方法、およびプログラム

Also Published As

Publication number Publication date
JP7081164B2 (ja) 2022-06-07
US11508106B2 (en) 2022-11-22
KR20200044947A (ko) 2020-04-29
CN111201786B (zh) 2022-04-08
EP3691256B1 (en) 2022-07-06
CN111201786A (zh) 2020-05-26
US20200234479A1 (en) 2020-07-23
KR102446222B1 (ko) 2022-09-21
EP3691256A4 (en) 2020-08-05
EP3691256A1 (en) 2020-08-05
WO2019142424A1 (ja) 2019-07-25

Similar Documents

Publication Publication Date Title
WO2019142424A1 (ja) 表示制御装置、通信装置、表示制御方法およびプログラム
EP1517298B1 (en) Speaking period detection based on electromyography
US8319818B2 (en) Information processing device, information processing method and storage medium storing computer program
CN110390953B (zh) 啸叫语音信号的检测方法、装置、终端及存储介质
JP2019208138A (ja) 発話認識装置、及びコンピュータプログラム
KR20140004426A (ko) 영상 통화 분석 서비스를 제공하기 위한 방법 및 그 전자 장치
KR20130096983A (ko) 얼굴을 포함하는 영상 처리 방법 및 장치
JP5046589B2 (ja) 電話システムと通話補助方法とプログラム
US20190304457A1 (en) Interaction device and program
JP2009104047A (ja) 情報処理方法及び情報処理装置
JP2013077925A (ja) 電子機器
KR20200056754A (ko) 개인화 립 리딩 모델 생성 방법 및 장치
KR20150025750A (ko) 사용자 단말 장치 및 그 양방향 번역 방법
JP2018081147A (ja) コミュニケーション装置、サーバ、制御方法、および情報処理プログラム
JP6813176B2 (ja) 音声抑制システム及び音声抑制装置
KR20140047525A (ko) 음성 변환 장치 및 이의 음성 변환 방법
WO2023139673A1 (ja) 通話システム、通話装置、通話方法及びプログラムを格納した非一時的なコンピュータ可読媒体
CN111182256A (zh) 一种信息处理方法及服务器
JP2019164286A (ja) 音声入力装置、及び遠隔対話システム
JP2006276470A (ja) 音声通話装置および音声通話システム
JP4850509B2 (ja) 通信端末装置及び通信端末装置における画像表示方法
JP2023114919A (ja) 音声処理装置および音声処理方法
KR20090086648A (ko) 사용자 입 모양 인식에 의한 아바타 제어 방법 및 시스템
WO2023165844A1 (en) Circuitry and method for visual speech processing
JP3073176U (ja) 音声ドライブ動画面用イメージデータ生成装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200831

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211012

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211210

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220426

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220509

R150 Certificate of patent or registration of utility model

Ref document number: 7081164

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150