JP2019125927A

JP2019125927A - 表示制御装置、通信装置、表示制御方法およびプログラム

Info

Publication number: JP2019125927A
Application number: JP2018005700A
Authority: JP
Inventors: 拓之照内; Hiroyuki Teruuchi
Original assignee: JVCKenwood Corp
Current assignee: JVCKenwood Corp
Priority date: 2018-01-17
Filing date: 2018-01-17
Publication date: 2019-07-25
Anticipated expiration: 2038-01-17
Also published as: JP7081164B2; US11508106B2; KR20200044947A; CN111201786B; EP3691256B1; CN111201786A; US20200234479A1; KR102446222B1; EP3691256A4; EP3691256A1; WO2019142424A1

Abstract

【課題】発話内容を適切に認識可能にする表示制御装置、通信装置、表示制御方法およびプログラムを提供する。【解決手段】通信装置１において、少なくとも発話者の口元を撮影した映像データを取得する映像取得部１０１と、映像データから口唇部を検出するとともに、口唇部の動きを検出する口唇検出部１０７と、口唇検出部１０７が検出した口唇部の動きが大きくなるように強調した映像を生成する映像処理部１１０と、映像処理部１１０が生成した映像を表示パネル４０に表示させる表示制御部１０４とを備える。【選択図】図１

Description

本発明は、表示制御装置、通信装置、表示制御方法およびプログラムに関する。

通信装置を使用して通話を行う際に、通話をしやすくするための技術が知られている。通話相手の発話内容を音声認識してテキスト表示する技術が知られている（例えば、特許文献１参照）。口唇の動きを示す絵柄または図形を生成表示したり、送話音声信号の音声認識結果のテキスト情報、または、合成音声信号による音声を出力させたりする技術が知られている（例えば、特許文献２参照）。

特開２００８−９９１２１号公報特開２００６−００５４４０号公報

通話相手が聴覚障害者であるときに、特許文献１または特許文献２に記載の技術を使用すると、聴覚障害者が通話をしやすくなる。

しかしながら、発話内容をテキストで表示したり合成音声で出力したりする場合、発話者が意図するニュアンスが適切に伝わらないおそれがある。また、口唇の動きを表示する場合、口唇の動きが小さいと、発話内容を適切に認識できないおそれがある。

本発明は、上記に鑑みてなされたものであって、発話内容を適切に認識可能にすることを目的とする。

上述した課題を解決し、目的を達成するために、本発明に係る表示制御装置は、少なくとも発話者の口元を撮影した映像データを取得する映像取得部と、前記映像データから口唇部を検出するとともに、口唇部の動きを検出する口唇検出部と、前記口唇検出部が検出した口唇部の動きが大きくなるように強調した映像を生成する映像処理部と、前記映像処理部が生成した映像を表示部に表示させる表示制御部と、を備えることを特徴とする。

本発明に係る通信装置は、上記の表示制御装置と、通話処理を行う通話処理部と、を備え、前記音声取得部は、通話時の発話音声を取得し、前記映像処理部は、前記通話処理部が送信する映像を、前記口唇検出部が検出した口唇部の動きが大きくなるように強調した映像とするを特徴とする。

本発明に係る通信装置は、上記の表示制御装置と、通話処理を行う通話処理部と、を備え、前記音声認識部は、前記通話処理部が受信して取得した音声データから音声を認識し、前記映像取得部は、前記通話処理部が受信した映像データを取得するを特徴とする。

本発明に係る表示制御方法は、少なくとも発話者の口元を撮影した映像データを取得する映像取得ステップと、前記映像データから口唇部を検出するとともに、口唇部の動きを検出する口唇検出ステップと、前記口唇検出ステップによって検出した口唇部の動きが大きくなるように強調した映像を生成する映像処理ステップと、前記映像処理ステップによって生成した映像を表示部に表示させる表示制御ステップと、を含む。

本発明に係るプログラムは、少なくとも発話者の口元を撮影した映像データを取得する映像取得ステップと、前記映像データから口唇部を検出するとともに、口唇部の動きを検出する口唇検出ステップと、前記口唇検出ステップによって検出した口唇部の動きが大きくなるように強調した映像を生成する映像処理ステップと、前記映像処理ステップによって生成した映像を表示部に表示させる表示制御ステップと、をコンピュータに実行させる。

本発明によれば、発話内容を適切に認識可能にすることができるという効果を奏する。

図１は、第一実施形態に係る通信装置の構成例を示すブロック図である。図２は、第一実施形態に係る通信装置の構成例を示す概略図である。図３は、口唇部を説明する図であり、口唇を閉じた状態を示す。図４は、口唇部の動きの一例を説明する図である。図５は、音声認識処理の処理結果と口唇動作認識処理の処理結果と認識率とを説明する図である。図６は、口唇部の動きが大きくなるように強調した強調映像の一例を説明する図である。図７は、口唇部の動きが大きくなるように強調した強調映像をユーザの顔部の映像に重畳または合成した映像を説明する図である。図８は、第一実施形態に係る通信装置における処理の流れを示すフローチャートである。図９は、第二実施形態に係る通信装置における処理の流れを示すフローチャートである。図１０は、第三実施形態に係る通信装置における処理の流れを示すフローチャートである。

以下に添付図面を参照して、本発明に係る表示制御装置、通信装置、表示制御方法およびプログラムの実施形態を詳細に説明する。なお、以下の実施形態により本発明が限定されるものではない。

［第一実施形態］
図１は、第一実施形態に係る通信装置の構成例を示すブロック図である。図２は、第一実施形態に係る通信装置の構成例を示す概略図である。通信装置１は、例えば、携帯電話のように通話機能を有する携帯用電子機器を含む通信装置またはコンピュータなどである。本実施形態では、通信装置１は、携帯電話であるものとして説明する。通信装置１は、カメラ１０とマイクロフォン２０と送受信部３０と表示パネル（表示部）４０とスピーカ５０と制御部１００とを有する。本実施形態では、通信装置１は、ユーザが発話者である。本実施形態では、ユーザの通話相手が聴覚障害者である。本実施形態では、通信装置１は、ユーザである発話者の発話音声の音声データと強調映像２１０の映像データとを、聴覚障害者である通話相手に送信する。

カメラ１０は、少なくともユーザの口唇部２００を含んだ口元を含む映像を撮影する。本実施形態では、カメラ１０は、ユーザの顔部の映像を撮影する。カメラ１０は、通話時に少なくともユーザの口唇部２００を撮影可能な位置に配置されている。本実施形態では、カメラ１０は、通信装置１の表示パネル４０の下側に配置されている。カメラ１０は、通信装置１において通話を開始すると、常時、映像を撮影する。カメラ１０は、撮影した映像データを制御部１００の映像取得部１０１に出力する。

マイクロフォン２０は、ユーザの発話音声の音声信号を取得する。本実施形態では、マイクロフォン２０は、通信装置１の表示パネル４０の下側に配置されている。マイクロフォン２０は、通信装置１において通話を開始すると、常時、音声信号を取得する。マイクロフォン２０は、取得した音声信号を制御部１００の音声取得部１０２に出力する。

送受信部３０は、音声と映像とによる通話を可能にする。送受信部３０は、ユーザの発話音声の音声データとユーザの顔部の映像データとを通話相手が使用している通信装置に送信する。送受信部３０は、通話相手の発話音声の音声データと顔部の映像データとを受信する。送受信部３０は、無線または有線によって通信する。送受信部３０は、例えば、４Ｇ回線等を含む携帯電話の回線を使用してもよい。送受信部３０は、例えば、Ｗｉｆｉ（登録商標）を含む無線通信規格を使用してもよい。送受信部３０は、有線による通信規格を使用してもよい。送受信部３０は、制御部１００の通話処理部１０３によって通話開始と通話終了とが制御される。

表示パネル４０は、液晶ディスプレイ（ＬＣＤ：ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）または有機ＥＬ（ＯｒｇａｎｉｃＥｌｅｃｔｒｏ−Ｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイなどを含むディスプレイである。表示パネル４０は、制御部１００の表示制御部１０４から出力された映像信号に基づき映像を表示する。

スピーカ５０は、音声出力装置である。スピーカ５０は、制御部１００の音声出力処理部１０５から出力された音声信号に基づき音声を出力する。本実施形態では、スピーカ５０は、送受信部３０を介して通話が行われているとき、通話相手の発話音声を出力する。

制御部１００は、例えば、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などで構成された演算処理装置である。制御部１００は、記憶部１２０に記憶されているプログラムをメモリにロードして、プログラムに含まれる命令を実行する。制御部１００は、ユーザの口唇部２００の認識率が低いとき、ユーザの口唇部２００の動きを強調した強調映像２１０を生成する。制御部１００は、映像取得部１０１と音声取得部１０２と通話処理部１０３と表示制御部１０４と音声出力処理部１０５と音声認識部１０６と口唇検出部１０７と口唇動作認識部１０８と比較部１０９と映像処理部１１０とを有する。制御部１００には図示しない内部メモリが含まれ、内部メモリは制御部１００におけるデータの一時記憶などに用いられる。

映像取得部１０１は、少なくとも発話者の口唇部２００を含む口元を撮影した映像データを取得する。本実施形態では、映像取得部１０１は、少なくともユーザの口唇部２００を含む口元をカメラ１０が撮影した映像データを取得する。より詳しくは、映像取得部１０１は、カメラ１０が出力した映像信号に符号化処理などを実行して、デジタルデータである映像データを取得する。映像取得部１０１は、取得した映像データを口唇検出部１０７と映像処理部１１０とに出力する。

音声取得部１０２は、発話者の発話音声の音声データを取得する。より詳しくは、音声取得部１０２は、マイクロフォン２０が出力した音声信号にＡ／Ｄ（Ａｎａｌｏｇ／Ｄｉｇｉｔａｌ）変換処理を実行して、デジタルデータである音声データを取得する。音声取得部１０２は、取得した音声データを通話処理部１０３と音声認識部１０６と比較部１０９とに出力する。

通話処理部１０３は、送受信部３０を介して通話処理を行う。通話処理部１０３は、ユーザの音声データとユーザの映像データとを送受信部３０に出力する。通話処理部１０３は、通話相手の音声データと通話相手の映像データとを送受信部３０から取得する。通話処理部１０３は、取得したユーザまたは通話相手の映像データを表示制御部１０４に出力する。通話処理部１０３は、取得した通話相手の音声データを音声出力処理部１０５に出力する。

表示制御部１０４は、通話時に、ユーザまたは通話相手の強調映像２１０を表示する映像信号を表示パネル４０に出力する。より詳しくは、表示制御部１０４は、通話処理部１０３から取得した映像データに復号化処理を実行して、映像信号を表示パネル４０に出力する。または、表示制御部１０４は、映像取得部１０１が取得した映像データに復号化処理を実行して、映像信号を表示パネル４０に出力する。

音声出力処理部１０５は、通話処理部１０３が取得した音声データに復号化処理とＤ／Ａ（Ｄｉｇｉｔａｌ／Ａｎａｌｏｇ）変換処理とを実行して、音声信号をスピーカ５０に出力する。

音声認識部１０６は、音声取得部１０２が取得した音声データから音声を認識する音声認識処理を実行する。音声認識処理は、音素ごと、単語ごとなど任意の単位で行えばいよい。音声認識処理の方法は、公知のいずれの方法でもよく、限定されない。音声認識部１０６は、認識結果を比較部１０９に出力する。

口唇検出部１０７は、映像取得部１０１が取得した映像データから口唇部２００を検出するとともに、口唇部２００の動きを検出する。より詳しくは、口唇検出部１０７は、映像データに顔認識処理を行って、口唇部２００を検出する。または、口唇検出部１０７は、例えば、口唇辞書データを参照しながら画像認識処理を行って、口唇部２００を認識する。口唇検出部１０７は、検出した口唇部２００の動きを検出する。口唇検出部１０７は、検出結果を口唇動作認識部１０８に出力する。

口唇動作認識部１０８は、口唇検出部１０７が検出した口唇部２００の動きから発話内容を認識する。より詳しくは、口唇動作認識部１０８は、口唇辞書データを参照しながら画像認識処理を行って、発話内容を認識する。口唇動作認識処理は、音素ごと、単語ごとなど任意の単位で行えばいよい。口唇動作認識部１０８は、認識結果を比較部１０９に出力する。

図３、図４を参照して、口唇動作認識処理について説明する。図３は、口唇部を説明する図であり、口唇を閉じた状態を示す。図３に示す、口唇を閉じた状態における各部位の位置を基本位置とする。図４は、口唇部の動きの一例を説明する図である。本実施形態では、口唇動作認識部１０８は、例えば、口唇部２００の部位Ｐ１から部位Ｐ８の動きを検出することで、口唇部２００の動作を検出する。口唇部２００の各部位は、これらに限定されず、口唇部２００の動きを読み取ることができる部位であればよい。部位Ｐ１は、右側の口角である。部位Ｐ１の動きをベクトルＶ１で示す。ベクトルＶ１は、部位Ｐ１の基本位置に対する動きを示す。本実施形態で示す例では、ベクトルＶ１は、部位Ｐ１の動きが小さいため、図示を省略している。各図において、部位Ｐ１は、基本位置を図示している。他の部位についても同様である。部位Ｐ２は、左側の口角である。部位Ｐ２の動きをベクトルＶ２で示す。本実施形態で示す例では、ベクトルＶ２は、部位Ｐ２の動きが小さいため、図示を省略している。部位Ｐ３は、上唇の右側の上端部である。部位Ｐ３の動きをベクトルＶ３で示す。部位Ｐ４は、上唇の左側の上端部である。部位Ｐ４の動きをベクトルＶ４で示す。部位Ｐ５は、上唇の中央部の下端部である。部位Ｐ５の動きをベクトルＶ５で示す。部位Ｐ６は、下唇の右側の下端部である。部位Ｐ６の動きをベクトルＶ６で示す。部位Ｐ７は、下唇の左側の下端部である。部位Ｐ７の動きをベクトルＶ７で示す。部位Ｐ８は、下唇の中央部の上端部である。部位Ｐ８の動きをベクトルＶ８とする。

各ベクトルＶは、各部位Ｐについて、ひとつ前または所定数前のフレームの映像データの口唇部２００の各部位Ｐに対する動きとして示してもよい。

各ベクトルＶは、各部位Ｐについて、ある音素から次の音素を発するときの、口唇部２００の各部位Ｐに対する動きとして示してもよい。

比較部１０９は、同一の発話、言い換えると、同一期間における、音声認識部１０６が認識した認識結果と、口唇動作認識部１０８が認識した認識結果とを比較する。同一期間は、例えば、単語ごと、文節ごとなど、発話の任意の単位に対応する期間である。認識結果の比較とは、認識率の比較である。

認識率は、発話内容と認識結果とを比較して算出する。認識率は、例えば、発話内容と認識結果とがすべて一致したら１００％である。認識率は、発話内容に対して認識結果の文字が誤って挿入、削除、置換されると低く算出される。

図５を参照して、認識率について説明する。図５は、音声認識処理の処理結果と口唇動作認識処理の処理結果と認識率とを説明する図である。例えば、「おはよう」「ございます」と発話したものを、音声認識部１０６が「おはよう」「ごさいます」と認識した場合について説明する。認識結果の「おはよう」「ございます」の単語は、文脈から重み付け処理を行ったり、単語辞書と対比処理を行ったりすることによって、単語として成立していると判定されるので、認識率はいずれも１００％である。

例えば、「おはよう」「ございます」と発話したものを、口唇動作認識部１０８が「おあよう」「ごあいます」と認識した場合について説明する。認識結果の「おあよう」「ごあいます」の単語は、文脈から重み付け処理を行ったり、単語辞書と対比処理を行ったりすることによって、単語として成立していないと判定される。また、文脈や単語辞書によって、発話内容は「おはよう」「ございます」と推定される。このため、「おあよう」の認識率は７５％であり、「ごあいます」の認識率は８０％である。

映像処理部１１０は、口唇検出部１０７が検出した口唇部２００の動きが大きくなるように強調した強調映像２１０を生成する。本実施形態では、映像処理部１１０は、比較部１０９の比較結果において、音声認識部１０６による認識結果に比して口唇動作認識部１０８の認識結果の認識率が低い場合、強調映像２１０を生成する。

図４、図６、図７を用いて、強調映像２１０について説明する。図６は、口唇部の動きが大きくなるように強調した強調映像の一例を説明する図である。図７は、口唇部の動きが大きくなるように強調した強調映像をユーザの顔部の映像に重畳または合成した映像を説明する図である。まず、図４に示す口唇部２００の部位Ｐ１から部位Ｐ８のベクトルＶ１からベクトルＶ８に、例えば、１以上、より好ましくは、１．５以上２．０以下の係数を乗算して各部位の位置を算出する。図６において、破線が図４に示すベクトルＶ１からベクトルＶ８を示し、実線が係数を乗算したベクトルＶ１からベクトルＶ８を示す。そして、算出された各部位、言い換えると、各ベクトルの先端部を結んで口唇部２００の外径を得る。このようにして、得られた外形を有する口唇部２００の映像が強調映像２１０である。本実施形態では、さらに、ユーザの元の顔部の映像の口唇部２００に強調映像２１０を重畳または合成して、図７に示す顔部映像２２０を生成する。

または、強調映像２１０を含むユーザの顔部のアニメーション映像を顔部映像２２０として生成してもよい。例えば、ユーザの顔を含む映像全体をアニメーションで表現してもよく、映像取得部が取得したユーザの映像に対し口唇部分のみをアニメーション映像として合成表示してもよい。

映像処理部１１０は、音声認識部１０６が認識した音声に基づいて口唇検出部１０７が検出した口唇部２００の動きを補正して強調映像２１０を生成してもよい。

映像処理部１１０は、強調映像２１０の生成処理を開始すると、例えば、通話終了まで、生成処理を継続する。

図１に戻って、記憶部１２０は、通信装置１におけるデータの一時記憶などに用いられる。記憶部１２０は、例えば、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、フラッシュメモリ（ＦｌａｓｈＭｅｍｏｒｙ）などの半導体メモリ素子、または、ハードディスク、光ディスクなどの記憶装置である。または、図示しない通信装置を介して無線接続される外部記憶装置であってもよい。記憶部１２０は、口唇辞書データを記憶している。

次に、図８を用いて、通信装置１の制御部１００における処理の流れについて説明する。図８は、第一実施形態に係る通信装置における処理の流れを示すフローチャートである。通信装置１において通話開始の操作が実行されると、ステップＳ１１以降の処理が実行される。通信装置１は、通話中、言い換えると、図８に示すフローチャートの処理が実行されている間、送受信部３０によって通話相手の発話音声が取得される。

制御部１００は、ユーザの発話音声およびユーザの顔部の映像を取得する（ステップＳ１１）。より詳しくは、制御部１００は、音声取得部１０２によってユーザの発話音声の音声データを取得する。制御部１００は、映像取得部１０１によってユーザの顔部の映像データを取得する。制御部１００は、ステップＳ１２に進む。

制御部１００は、音声認識処理を実行する（ステップＳ１２）。より詳しくは、制御部１００は、音声認識部１０６によって、音声取得部１０２が取得した音声データから音声を認識する音声認識処理を実行する。制御部１００は、ステップＳ１３に進む。

制御部１００は、口唇検出処理を実行する（ステップＳ１３）。より詳しくは、制御部１００は、口唇検出部１０７によって、映像取得部１０１が取得した映像データから口唇部２００を検出するとともに、口唇部２００の動きを検出する。制御部１００は、ステップＳ１４に進む。

制御部１００は、口唇動作認識処理を実行する（ステップＳ１４）。より詳しくは、制御部１００は、口唇動作認識部１０８によって、口唇検出部１０７が検出した口唇部２００の動きから発話内容を認識する。制御部１００は、ステップＳ１５に進む。

制御部１００は、認識結果比較処理を実行する（ステップＳ１５）。より詳しくは、制御部１００は、比較部１０９によって、音声認識部１０６が認識した認識結果の認識率と、口唇動作認識部１０８が認識した認識結果の認識率とを比較する。制御部１００は、ステップＳ１６に進む。

制御部１００は、音声認識率が口唇認識率より高いか否かを判定する（ステップＳ１６）。より詳しくは、制御部１００は、音声認識部１０６の認識結果の認識率が、口唇動作認識部１０８の認識結果の認識率より高い場合（ステップＳ１６でＹｅｓ）、ステップＳ１８に進む。制御部１００は、音声認識部１０６の認識結果の認識率が、口唇動作認識部１０８の認識結果の認識率より高くない場合（ステップＳ１６でＮｏ）、ステップＳ１７に進む。

制御部１００は、映像および音声を送信する（ステップＳ１７）。より詳しくは、制御部１００は、通話処理部１０３によって、ユーザの音声データとユーザの顔部の映像データとを送受信部３０に出力する。これにより、制御部１００は、ユーザの音声データとともに、口唇部２００の動きを強調する処理をしていないユーザの顔部の映像データを通話相手に送信する。制御部１００は、ステップＳ２０に進む。

制御部１００は、強調処理を実行する（ステップＳ１８）。より詳しくは、制御部１００は、映像処理部１１０によって、強調映像２１０を生成する。これにより、ユーザの口唇部２００の動きを強調した強調映像２１０を含むユーザの顔部の顔部映像２２０が生成される。制御部１００は、ステップＳ１９に進む。

制御部１００は、強調した映像および音声を送信する（ステップＳ１９）。より詳しくは、制御部１００は、通話処理部１０３によって、ユーザの音声データと強調映像２１０を含むユーザの顔部の顔部映像２２０の映像データとを送受信部３０に出力する。これにより、制御部１００は、ユーザの音声データとともに、ユーザの強調映像２１０を含む顔部映像２２０の映像データを通話相手に送信する。制御部１００は、ステップＳ２０に進む。

制御部１００は、通話終了の操作が実行されたか否かを判定する（ステップＳ２０）。より詳しくは、制御部１００は、例えば、通話終了のボタンが選択されるなどの通話終了操作が実行された場合（ステップＳ２０でＹｅｓ）、通話を終了して、フローチャートの処理を終了する。制御部１００は、通話終了操作が実行されていない場合（ステップＳ２０でＮｏ）、ステップＳ１１の処理を再度実行する。

このようにして、音声認識部１０６による認識結果に比して口唇動作認識部１０８の認識結果の認識率が低い場合、ユーザの口唇部２００の動きが大きくなるように強調した強調映像２１０を生成する。

上述したように、本実施形態は、音声認識部１０６による認識結果に比して口唇動作認識部１０８の認識結果の認識率が低い場合、ユーザの口唇部２００の動きを強調した強調映像２１０を含む顔部映像２２０を音声とともに通話相手に送信する。本実施形態によれば、ユーザの口唇部２００の動きが小さくても、通話相手が強調映像２１０からユーザの発話内容を認識しやすくすることができる。このように、本実施形態は、通話相手にユーザの発話内容を適切に認識させることができる。本実施形態によれば、聴覚障害を有する通話相手との通話をしやすくすることができる。

本実施形態は、強調映像２１０をユーザの顔部の映像に重畳または合成する。これにより、本実施形態によれば、通話相手は、強調映像２１０からユーザの発話音声を容易に認識することができるとともに、ユーザの顔部の顔部映像２２０から表情を読み取りユーザの発話内容の意図を適切に汲み取ることが可能である。

［第二実施形態］
図９を参照しながら、本実施形態に係る通信装置１について説明する。図９は、第二実施形態に係る通信装置における処理の流れを示すフローチャートである。本実施形態では、通信装置１は、ユーザが聴覚障害者である。本実施形態では、通話相手が発話者である。本実施形態では、通信装置１は、通話相手の発話音声の音声に対応する通話相手の顔部の映像を表示して、聴覚障害者であるユーザが通話をしやすくする。通信装置１は、基本的な構成は第一実施形態の通信装置１と同様である。以下の説明においては、通信装置１と同様の構成要素には、同一の符号または対応する符号を付し、その詳細な説明は省略する。通信装置１は、制御部１００における処理が通信装置１と異なる。

表示パネル４０は、送受信部３０を介して通話が行われているとき、通話相手の発話音声に対応した強調映像２１０を含む通話相手の顔部の顔部映像２２０を表示する。

スピーカ５０は、送受信部３０を介して通話が行われているとき、通話相手の発話音声を出力する。

制御部１００は、通話相手の口唇部２００の認識率が低いとき、通話相手の口唇部２００の動きを強調した強調映像２１０を生成する。

映像取得部１０１は、少なくとも通話相手の口唇部２００を含む口元が撮影された映像データを通話処理部１０３を介して取得する。

音声取得部１０２は、少なくとも通話相手の音声データを通話処理部１０３を介して取得する。

通話処理部１０３は、音声データと映像データとを送受信部３０から取得する。通話処理部１０３は、取得した音声データを音声取得部１０２に出力する。通話処理部１０３は、取得した映像データを映像取得部１０１に出力する。

表示制御部１０４は、通話時に、通話相手の顔部の映像を表示する映像信号を表示パネル４０に出力する。より詳しくは、表示制御部１０４は、通話処理部１０３から取得した通話相手の顔部の映像データに復号化処理を実行して、映像信号を表示パネル４０に出力する。または、表示制御部１０４は、映像処理部１１０が生成した強調映像２１０を含む通話相手の顔部映像の映像データに復号化処理を実行して、映像信号を表示パネル４０に出力する。

次に、図９を用いて、通信装置１における処理の流れについて説明する。図９に示すフローチャートのステップＳ２２ないしステップＳ２６、ステップＳ３０の処理は、図８に示すフローチャートのステップＳ１２ないしステップＳ１６、ステップＳ２０の処理と同様の処理を行う。

制御部１００は、受信した通話相手の発話音声および通話相手の顔部の映像を取得する（ステップＳ２１）。より詳しくは、制御部１００は、通話処理部１０３によって通話相手の発話音声の音声データと通話相手の顔部の映像データとを取得する。制御部１００は、ステップＳ２２に進む。

制御部１００は、映像を表示し、音声を出力する（ステップＳ２７）。より詳しくは、制御部１００は、表示制御部１０４によって、通話相手の口唇部２００の動きを強調する処理をしていない映像データに復号化処理を実行して、映像を表示する映像信号を表示パネル４０に出力する。制御部１００は、音声出力処理部１０５によって、通話相手の音声データにＤ／Ａ変換処理を実行して、音声信号をスピーカ５０に出力する。制御部１００は、ステップＳ３０に進む。

制御部１００は、強調処理を実行する（ステップＳ２８）。これにより、通話相手の強調映像２１０を含む顔部映像の映像データが生成される。制御部１００は、ステップＳ２９に進む。

制御部１００は、強調した映像を表示し、音声を出力する（ステップＳ２９）。より詳しくは、制御部１００は、表示制御部１０４によって、通話相手の強調映像２１０を含む顔部映像の映像データに復号化処理を実行して、映像信号を表示パネル４０に出力する。制御部１００は、音声出力処理部１０５によって、通話相手の音声データにＤ／Ａ変換処理を実行して、音声信号をスピーカ５０に出力する。制御部１００は、ステップＳ３０に進む。

このようにして、音声認識部１０６による認識結果に比して口唇動作認識部１０８の認識結果の認識率が低い場合、通話相手の口唇部２００の動きが大きくなるように強調した強調映像２１０を生成する。

上述したように、本実施形態は、音声認識部１０６による認識結果に比して口唇動作認識部１０８の認識結果の認識率が低い場合、通話相手の口唇部２００の動きを強調した強調映像２１０を含む顔部映像２２０を表示するとともに、通話相手の音声を出力する。本実施形態によれば、通話相手の口唇部２００の動きが小さくても、ユーザが強調映像２１０から通話相手の発話内容を認識しやすくすることができる。このように、本実施形態は、ユーザに通話相手の発話内容を適切に認識させることができる。本実施形態によれば、聴覚障害を有するユーザが通話相手との通話をしやすくすることができる。

［第三実施形態］
図１０を参照しながら、本実施形態に係る通信装置１について説明する。図１０は、第三実施形態に係る通信装置における処理の流れを示すフローチャートである。本実施形態では、通信装置１は、ユーザが聴覚障害者である。本実施形態では、通話相手が発話者である。通信装置１は、基本的な構成は第二実施形態の通信装置１と同様である。通信装置１は、制御部１００における処理が第二実施形態の通信装置１と異なる。

制御部１００は、通信相手が以前の通話で音声認識部１０６による認識結果に比して口唇動作認識部１０８の認識結果の認識率が低いと判定されている場合、通話開始から、口唇部２００の動きを強調した強調映像２１０を生成する。

比較部１０９は、通話相手および通話ごとに比較結果を記憶部１２０に記憶させる。

映像処理部１１０は、通信相手が以前の通話で音声認識部１０６による認識結果に比して口唇動作認識部１０８の認識結果の認識率が低いと判定されている場合、強調映像２１０を生成する。

記憶部１２０は、通話相手および通話ごとに比較部１０９による比較結果を記憶する。

次に、図１０を用いて、通信装置１における処理の流れについて説明する。図１０に示すフローチャートのステップＳ３２、ステップＳ３３ないしステップＳ３７、ステップＳ３８ないしステップＳ４０の処理は、図９に示すフローチャートのステップＳ２７、ステップＳ２１ないしステップＳ２５、ステップＳ２８ないしステップＳ３０の処理と同様の処理を行う。

制御部１００は、通話相手が以前の通話で音声認識率が口唇認識率より高いと判定されたか否かを判定する（ステップＳ３１）。より詳しくは、制御部１００は、記憶部１２０に、通話相手の以前の通話についての比較部１０９の比較結果であって、音声認識部１０６の認識結果の認識率が、口唇動作認識部１０８の認識結果の認識率より高いことが記憶されている場合（ステップＳ３１でＹｅｓ）、ステップＳ３３に進む。制御部１００は、記憶されていない場合（ステップＳ３１でＮｏ）、ステップＳ３２に進む。

このようにして、通信相手が以前の通話で音声認識部１０６による認識結果に比して口唇動作認識部１０８の認識結果の認識率が低いと判定されている場合、通話相手の口唇部２００の動きが大きくなるように強調した強調映像２１０を生成する。

上述したように、本実施形態は、通信相手が以前の通話で音声認識部１０６による認識結果に比して口唇動作認識部１０８の認識結果の認識率が低いと判定されている場合、通話相手の口唇部２００の動きを強調した強調映像２１０を含む顔部映像２２０を表示するとともに、通話相手の音声を出力する。本実施形態によれば、聴覚障害を有するユーザが通話相手との通話をしやすくすることができる。

さて、これまで本発明に係る通信装置１について説明したが、上述した実施形態以外にも種々の異なる形態にて実施されてよいものである。

図示した通信装置１の各構成要素は、機能概念的なものであり、必ずしも物理的に図示の如く構成されていなくてもよい。すなわち、各装置の具体的形態は、図示のものに限られず、各装置の処理負担や使用状況などに応じて、その全部または一部を任意の単位で機能的または物理的に分散または統合してもよい。

通信装置１の構成は、例えば、ソフトウェアとして、メモリにロードされたプログラムなどによって実現される。上記実施形態では、これらのハードウェアまたはソフトウェアの連携によって実現される機能ブロックとして説明した。すなわち、これらの機能ブロックについては、ハードウェアのみ、ソフトウェアのみ、または、それらの組み合わせによって種々の形で実現できる。

上記した構成要素には、当業者が容易に想定できるもの、実質的に同一のものを含む。さらに、上記した構成は適宜組み合わせが可能である。また、本発明の要旨を逸脱しない範囲において構成の種々の省略、置換または変更が可能である。

第一実施形態と第二実施形態とは、一つの通信装置として実現されてもよい。

上記では、通信装置として説明したが、通信装置に限定されない。映像取得部１０１と音声取得部１０２と表示制御部１０４と音声出力処理部１０５と音声認識部１０６と口唇検出部１０７と口唇動作認識部１０８と比較部１０９と映像処理部１１０とを有する表示制御装置であってもよい。例えば、聴覚障害者であるユーザが、アナウンサーがニュースを読むニュース映像を視聴する際に、表示制御装置によって、アナウンサーの口唇部２００の動きを強調した強調映像２１０を視聴することができる。例えば、ユーザが、聴覚障害者のために映像を生成する際に、表示制御装置によって、発話者の口唇部２００の動きを強調した強調映像２１０を含んだ映像を生成することができる。

図８に示すフローチャートのステップＳ１６において、制御部１００は、口唇認識率が閾値以下であるか否かを判定してもよい。そして、口唇認識率が閾値以下であると判定された場合、ステップＳＳ１８に進み、口唇認識率が閾値以下ではないと判定された場合、ステップＳＳ１７に進む。

１通信装置
１０カメラ
２０マイクロフォン
３０送受信部
４０表示パネル（表示部）
５０スピーカ
１００制御部
１０１映像取得部
１０２音声取得部
１０３通話処理部
１０４表示制御部
１０５音声出力処理部
１０６音声認識部
１０７口唇検出部
１０８口唇動作認識部
１０９比較部
１１０映像処理部
２００口唇部
２１０強調映像
２２０顔部映像

Claims

少なくとも発話者の口元を撮影した映像データを取得する映像取得部と、
前記映像データから口唇部を検出するとともに、口唇部の動きを検出する口唇検出部と、
前記口唇検出部が検出した口唇部の動きが大きくなるように強調した映像を生成する映像処理部と、
前記映像処理部が生成した映像を表示部に表示させる表示制御部と、
を備えることを特徴とする表示制御装置。
前記発話者の発話音声の音声データを取得する音声取得部と、
前記音声取得部が取得した前記音声データから音声を認識する音声認識部と、
をさらに備え、
前記映像処理部は、前記音声認識部が認識した音声に基づき前記口唇検出部が検出した口唇部の動きが大きくなるように強調した映像を生成する、
請求項１に記載の表示制御装置。
前記口唇検出部が検出した口唇部の動きから発話内容を認識する口唇動作認識部と、
前記音声認識部が認識した認識結果と、前記口唇動作認識部が認識した認識結果とを比較する比較部と、
をさらに備え、
前記映像処理部は、前記比較部の比較結果において、前記音声認識部による認識結果に比して前記口唇動作認識部の認識結果の認識率が低い場合、前記口唇検出部が検出した口唇部の動きが大きくなるように強調した映像を生成する、
請求項１または２に記載の表示制御装置。
前記映像処理部は、前記口唇検出部が検出した口唇動作が大きくなるように強調したアニメーションの映像を生成する、
請求項１から３のいずれか一項に記載の表示制御装置。
請求項２から４のいずれか一項に記載の表示制御装置と、
通話処理を行う通話処理部と、
を備え、
前記音声取得部は、通話時の発話音声を取得し、
前記映像処理部は、前記通話処理部が送信する映像を、前記口唇検出部が検出した口唇部の動きが大きくなるように強調した映像とする、
ことを特徴とする通信装置。
請求項２から４のいずれか一項に記載の表示制御装置と、
通話処理を行う通話処理部と、
を備え、
前記音声認識部は、前記通話処理部が受信して取得した音声データから音声を認識し、
前記映像取得部は、前記通話処理部が受信した映像データを取得する、
ことを特徴とする通信装置。
前記映像処理部は、前記通話処理部による通話開始後、前記比較部の比較結果が前記音声認識部による認識結果に比して前記口唇動作認識部の認識結果の認識率が低い結果が生じた場合、通話終了まで口唇動作を大きい映像となるように強調する処理を行う、
請求項５または６に記載の通信装置。
前記映像処理部は、前記通話処理部による通話相手が以前の通話において、前記比較部の比較結果が前記音声認識部による認識結果に比して前記口唇動作認識部の認識結果の認識率が低い結果が生じた通話相手である場合、通話開始から口唇動作を大きい映像となるように強調する処理を行う、
請求項５または６に記載の通信装置。
少なくとも発話者の口元を撮影した映像データを取得する映像取得ステップと、
前記映像データから口唇部を検出するとともに、口唇部の動きを検出する口唇検出ステップと、
前記口唇検出ステップによって検出した口唇部の動きが大きくなるように強調した映像を生成する映像処理ステップと、
前記映像処理ステップによって生成した映像を表示部に表示させる表示制御ステップと、
を含むことを特徴とする表示制御方法。
少なくとも発話者の口元を撮影した映像データを取得する映像取得ステップと、
前記映像データから口唇部を検出するとともに、口唇部の動きを検出する口唇検出ステップと、
前記口唇検出ステップによって検出した口唇部の動きが大きくなるように強調した映像を生成する映像処理ステップと、
前記映像処理ステップによって生成した映像を表示部に表示させる表示制御ステップと、
をコンピュータに実行させるためのプログラム。