JP2006005440A

JP2006005440A - 通話送受信方法および通話端末

Info

Publication number: JP2006005440A
Application number: JP2004176958A
Authority: JP
Inventors: Makoto Inoue; 真井上; Yoichiro Sako; 曜一郎佐古; Toshiro Terauchi; 俊郎寺内; Masamichi Asukai; 正道飛鳥井; Yasushi Miyajima; 靖宮島; Kenichi Makino; 堅一牧野; Motoyuki Takai; 基行高井; Katsuya Shirai; 克弥白井
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2004-06-15
Filing date: 2004-06-15
Publication date: 2006-01-05

Abstract

【課題】特殊なマイクロフォンなどを用いることなく、話し手や聴き手の周囲に騒音が存在する場合の通話の明瞭度を向上させる。
【解決手段】送話音声信号とともに、話し手の口唇１を送話用のマイクロフォン１２４の近傍に設けたカメラ１２６によって撮影して得た口唇動画像信号を送信し、受信側で表示部２１８上に口唇１の動きを動画像２として表示する。口唇動画像信号の代わりに、これから口唇１の動きを検出して生成した動きパラメータを送信し、受信側で、ＣＧによって口唇１の動きを示す絵柄または図形を生成表示し、または表示部２１８を点滅させてもよい。送話音声信号の代わりに、送話音声信号の音声認識結果のテキスト情報、または、このテキスト情報からテキスト音声合成によって生成した合成音声信号を送信し、受信側で合成音声信号による音声を出力させてもよい。
【選択図】図３

Description

この発明は、携帯電話端末などの通話端末の間で通話のための送受信を行う方法、および携帯電話端末などの通話端末に関する。

携帯電話端末は、街頭や駅頭など、騒音の激しい場所で使用されることも多く、通話の明瞭度を改善することが望まれる。その方法の一つとして、送話用マイクロフォンの指向性を改善することが考えられる。

また、特許文献１（特開平８−２７５２７９号公報：音声ピックアップシステム）には、骨伝導音または気道音を検出する音声ピックアップは、比較的、周囲の騒音を拾わないものの、高域成分の検出レベルが低下するため、ピックアップ検出信号中で欠落している周波数成分を検出し、その成分を補完音としてピックアップ検出信号に合成することが示されている。

上に挙げた先行技術文献は、次の通りである。
特開平８−２７５２７９号公報

しかしながら、送話用マイクロフォンの指向性を改善しても、その指向性方向において話し手の近傍に騒音が存在すると、通話の明瞭度が低下する。

また、特許文献１に示された、骨伝導音や気道音を検出する音声ピックアップは、使用者の顔面や頭部に密着させて、使用者の発声に伴う顔面や頭部の振動を検出し、または、使用者の外耳に挿入して、外耳道の気道音を検出するので、携帯電話端末のように、使用者が手で把持して、送話用マイクロフォンを口元に当て、受話用スピーカを耳元に当てる形態の通話端末の送話用マイクロフォンとしては使用することができない。

さらに、送話用マイクロフォンの指向性を改善する方法も、骨伝導音や気道音を検出する音声ピックアップを送話用マイクロフォンとして使用する方法も、聴き手の周囲に騒音が存在する場合には、無力であり、聴き手は受話用スピーカから出力される話し手の音声を明瞭に認識することができない。

そこで、この発明は、特殊なマイクロフォンなどを用いることなく、話し手や聴き手の周囲に騒音が存在する場合の通話の明瞭度を向上させることができるようにしたものである。

この発明の通話送受信方法では、送信側から受信側に、口唇動き情報として、（ａ）話し手の口唇を送話用マイクロフォンの近傍に設けられたカメラによって撮影して得られた口唇動画像信号そのもの、または（ｂ）この口唇動画像信号から話し手の口唇の動きを検出して得られた動きパラメータ、を送信するとともに、送話音声情報として、（ｃ）送話用マイクロフォンからの送話音声信号そのもの、（ｄ）この送話音声信号を音声認識して得られたテキスト情報、または（ｅ）このテキスト情報をもとにテキスト音声合成によって得られた合成音声信号、を送信する。

受信側では、（ａ）送信側から口唇動き情報として、口唇動画像信号そのものが送信される場合には、その口唇動画像信号によって話し手の口唇の動画像をディスプレイ上に表示し、（ｂ）送信側から口唇動き情報として、動きパラメータが送信される場合には、その動きパラメータをもとにコンピュータグラフィックスによって、話し手の口唇の動きを示す絵柄または図形を生成して、ディスプレイ上に表示し、または、その動きパラメータをもとに光点滅信号を生成し、その光点滅信号によってディスプレイまたは発光素子を点滅させる。

また、受信側では、（ｃ）送信側から送話音声情報として、送話用マイクロフォンからの送話音声信号そのものが送信される場合には、その送話音声信号によって音声を出力し、（ｄ）送信側から送話音声情報として、送話音声信号の音声認識結果のテキスト情報が送信される場合には、そのテキスト情報をもとにテキスト音声合成によって合成音声信号を生成し、その合成音声信号によって音声を出力し、（ｅ）送信側から送話音声情報として、送話音声信号の音声認識結果のテキスト情報をもとにテキスト音声合成によって得られた合成音声信号が送信される場合には、その合成音声信号によって音声を出力する。

したがって、この発明によれば、話し手や聴き手の周囲に騒音が存在する場合でも、または聴き手の聴力が低い場合にも、聴き手は、自身の端末のディスプレイ上に表示された動画像、絵柄または図形、または自身の端末のディスプレイまたは発光素子の点滅状態から、話し手の話しの内容を識別できる可能性が高くなり、通話の明瞭度が向上する。

以上のように、この発明によれば、話し手や聴き手の周囲に騒音が存在する場合の通話の明瞭度を向上させることができる。また、通話端末として、特殊なマイクロフォンなどを用いる必要がなく、カメラも話し手の口唇を撮影する小型のものでよいとともに、ディスプレイも携帯電話端末などに一般に使用されている液晶ディスプレイなどを利用することができる。

〔１．携帯電話端末の例：図１および図２〕
図１は、この発明の通話端末の一実施形態としての、この発明の携帯電話端末の一例を示す。２つの携帯電話端末の間で通話が行われるので、一方を携帯電話端末１００、他方を携帯電話端末２００とする。

携帯電話端末１００は、ＣＰＵ１１１を備え、そのバス１１２に、ＣＰＵ１１１が実行するプログラムや必要な固定データが書き込まれたＲＯＭ１１３、およびプログラムやデータが展開されるＲＡＭ１１４が接続される。

また、バス１１２には、インターフェース１１５を介して、操作部１１６が接続され、画像処理部１１７を介して、表示部１１８が接続され、音声処理部１２１を介して、受話用のスピーカ１２２が接続され、音声処理部１２３を介して、送話用のマイクロフォン１２４が接続される。

さらに、バス１１２には、画像処理部１２５を介して、後述のようにマイクロフォン１２４の近傍に設けられるカメラ１２６が接続され、送受信部１２７を介して、アンテナ１２８が接続される。

画像処理部１１７は、画像データやテキストデータなどを処理し、後述のように通話の相手方から口唇動き情報（口唇の動きを示す情報）として動きパラメータを受信した場合には、その動きパラメータをもとにコンピュータグラフィックスによって、相手方の口唇の動きを示す絵柄や図形のデータを生成し、または動きパラメータをもとに光点滅信号のデータを生成して、それぞれアナログ信号に変換し、表示部１１８に送出して、表示部１１８上に画像や文字または口唇の動きを示す絵柄や図形を表示し、または表示部１１８を点滅させるものである。表示部１１８は、液晶ディスプレイやＥＬ（エレクトロルミネセンス）ディスプレイなどのディスプレイである。

音声処理部１２１は、受話音声信号のデータをアナログ信号に変換し、後述のように通話の相手方から音声認識結果のテキスト情報またはテキスト音声合成後の合成音声信号を受信した場合には、そのテキスト情報のデータをテキスト音声合成し、合成音声信号のデータをアナログ信号に変換して、スピーカ１２２に供給するものである。

音声処理部１２３は、マイクロフォン１２４からの送話音声信号をデジタルデータに変換し、後述のように通話の相手方に音声認識結果のテキスト情報またはテキスト音声合成後の合成音声信号を送信する場合には、送話音声信号のデータを音声認識して音声認識結果のテキスト情報を得、またはさらにそのテキスト情報をもとにテキスト音声合成によって合成音声信号を得るものである。

カメラ１２６は、上述したようにマイクロフォン１２４の近傍に設けられ、話し手の口唇（上下の唇、その間の開口部、および上下の唇の周辺部）を撮影するものである。

画像処理部１２５は、このカメラ１２６から得られた口唇動画像信号をデジタルデータに変換し、後述のように通話の相手方に口唇動き情報として動きパラメータを送信する場合には、その口唇動画像データから話し手の口唇の動きを検出して、動きパラメータを生成するものである。

以上の構成は、携帯電話端末２００についても全く同じで、携帯電話端末２００の各部は、１００番台の参照番号に代えて２００番台の参照番号を付して示す。

携帯電話端末１００，２００は、例えば、図２に示すように、それぞれ折り畳み型に構成され、それぞれの基底部に操作部１１６，２１６およびマイクロフォン１２４，２２４が設けられ、それぞれの開閉部に表示部１１８，２１８およびスピーカ１２２，２２２が設けられ、それぞれの基底部のマイクロフォン１２４，２２４の近傍にカメラ１２６，２２６が設けられる。

カメラ１２６，２２６は、それぞれ、携帯電話端末１００，２００によって通話する者が通話中に顔を動かしたとき、その者の口唇を追尾して撮影するように、向きやズームが自動的に調整されることが望ましい。

そして、この発明では、携帯電話端末１００，２００間の通話時、送信側から受信側に口唇動き情報および送話音声情報が送信される。

口唇動き情報は、（ａ）口唇動画像信号そのもの（口唇動画像信号のデータまたは圧縮データ）、または（ｂ）上記の動きパラメータ、である。送話音声情報は、（ｃ）送話音声信号そのもの（送話音声信号のデータまたは圧縮データ）、（ｄ）送話音声信号の音声認識結果のテキスト情報、または（ｅ）上記の合成音声信号、である。

なお、通話相手の顔を表示したり話し手自身の顔を表示するなどしながら通話するような、話し手がそれぞれの表示部１１８，２１８を見ながら通話する場合でも、カメラ１２６，２２６が話し手の顔に向くので、話し手の口唇を撮影することができる。

〔２．通話送受信方法の実施形態：図３〜図１８〕
（２ａ．騒音対応モード）
上記のように送信側から受信側には口唇動き情報および送話音声情報が送信されるが、通話時、常にそうされる必要はない。

具体的に、話し手が、自身の周囲の騒音が大きく、自身の声が相手方に伝わりにくいと判断したとき、自身の携帯電話端末の通話モードを、口唇動き情報および送話音声情報が送信されるモードに設定できるように、携帯電話端末１００および２００を構成することができる。以下、このモードを騒音対応モードと称する。

実際上は、自身の周囲の騒音が大きい場合、または相手方の周囲の騒音が大きい場合には、自身の声が相手方に伝わりにくくなるとともに、相手方の声も聴き取りにくくなる。そのため、それぞれの携帯電話端末１００，２００では、自身の送話音声信号または相手方からの送話音声信号から、このような騒音レベル状態を検出して、それぞれの通話モードを騒音対応モードに設定するように、携帯電話端末１００および２００を構成することが望ましい。

以下では、通話モードでは常に、携帯電話端末１００および２００の双方が騒音対応モードに設定されるものとして、または、携帯電話端末１００，２００のいずれかの周囲の騒音が大きい場合には、上記の方法によって携帯電話端末１００および２００の双方が騒音対応モードに設定されるものとして、この発明の通話送受信方法の具体例を示す。

ただし、騒音対応モード中も、常に口唇動き情報が送信される必要はなく、当該の携帯電話端末によって通話する者が話しをし、その者の口唇が動いている期間においてのみ、当該の携帯電話端末から口唇動き情報が送信され、当該の携帯電話端末によって通話する者が話しをせず、相手方の話しを聴いているだけの期間においては、当該の携帯電話端末から口唇動き情報が送信されないように、携帯電話端末１００および２００を構成することができる。

上述したように、送信側から受信側には、口唇動き情報として、口唇動画像信号そのもの、または動きパラメータを送信するとともに、送話音声情報として、送話音声信号そのもの、またはこれに基づくテキスト情報または合成音声信号を送信する。

口唇動き情報として動きパラメータを送信する場合、受信側では、（ｆ）その動きパラメータをもとにコンピュータグラフィックスによって、送信側の話し手の口唇の動きを示す絵柄または図形を生成して、表示部（携帯電話端末１００からの送信に対しては携帯電話端末２００の表示部２１８、携帯電話端末２００からの送信に対しては携帯電話端末１００の表示部１１８）上に表示し、または（ｇ）その動きパラメータをもとに光点滅信号を生成し、その光点滅信号によって、表示部（上記のように携帯電話端末２００の表示部２１８または携帯電話端末１００の表示部１１８）を点滅させ、または図１および図２では省略したＬＥＤ（発光ダイオード）などの発光素子を点滅させる。

したがって、この発明の通話送受信方法は、以下の方法１、方法２および方法３に大別され、さらに、方法１は、方法１−１、方法１−２、方法１−３、方法１−４および方法１−５に分けられ、方法２は、方法２−１、方法２−２、方法２−３、方法２−４および方法２−５に分けられ、方法３は、方法３−１、方法３−２、方法３−３、方法３−４および方法３−５に分けられる。

以下では、携帯電話端末１００，２００間の通話時の、携帯電話端末１００側の通話者が話す（携帯電話端末１００が送信側となる）場合につき示す。そのため、以下では、携帯電話端末１００を送信側端末１００と称し、携帯電話端末２００を受信側端末２００と称する。携帯電話端末２００側の通話者が話す（携帯電話端末２００が送信側となる）場合も全く同じであるので、その場合の説明は省略する。

また、以下では、コンピュータグラフィックスを「ＣＧ」と称し、ＣＧによる絵柄または図形の生成を「ＣＧ生成」と称する。

（２ｂ．方法１：図３〜図１０）
方法１では、送信側端末１００から受信側端末２００に、口唇動き情報および送話音声信号そのものが送信される。口唇動き情報は、図３に示すようにカメラ１２６によって話し手の口唇１が撮影されて得られた口唇動画像信号、または、この口唇動画像信号から生成された動きパラメータである。

＜方法１−１：図３および図４＞
方法１の一方法である方法１−１では、図３に示すように、口唇動き情報として口唇動画像信号が送信される。

具体的に、図４に示すように、送信側端末１００では、上記のようにカメラ１２６から得られた口唇動画像信号が、画像処理部１２５でデジタルデータに変換され、さらに圧縮符号化されて、送受信部１２７およびアンテナ１２８によって、送話音声信号のデータとともに、受信側端末２００に送信される。

受信側端末２００では、アンテナ２２８および送受信部２２７によって、その圧縮符号化された口唇動画像信号、および送話音声信号が受信され、圧縮符号化された口唇動画像信号は、画像処理部２１７で伸長復号され、アナログ信号に変換されて、図３に示すように、表示部２１８上に、送信側端末１００側の話し手の口唇１の動きが、動画像２として表示される。送話音声信号による音声は、スピーカ２２２から出力される。

したがって、受信側端末２００側の通話者は、相手方（送信側端末１００側の通話者）の周囲の騒音が大きく、または自身の周囲の騒音が大きく、相手方の声が聴き取りにくい場合でも、表示部２１８上に動画像２として表示された相手方の口唇１の動きから、相手方の話しの内容を識別できる可能性が高くなり、通話の明瞭度が向上する。

＜方法１−２および方法１−３：図５〜図７＞
方法１−２または方法１−３では、図５または図６に示すように、口唇動き情報として動きパラメータが送信され、受信側では、この動きパラメータをもとにＣＧによって、送信側の話し手の口唇１の動きを示す絵柄３または図形４が生成されて、表示部２１８上に表示される。

具体的に、図７に示すように、送信側端末１００の画像処理部１２５では、カメラ１２６から得られた口唇動画像信号がデジタルデータに変換され、さらに、その口唇動画像データから、後述のような方法によって話し手の口唇の動きが検出されて、動きパラメータが生成され、送受信部１２７およびアンテナ１２８によって、その動きパラメータが、送話音声信号とともに、受信側端末２００に送信される。

受信側端末２００では、アンテナ２２８および送受信部２２７によって、その動きパラメータおよび送話音声信号が受信され、画像処理部２１７で、その動きパラメータをもとにＣＧによって絵柄または図形のデータが生成されて、図５または図６に示したように、表示部２１８上に、送信側端末１００側の話し手の口唇１の動きが、絵柄３または図形４として表示される。送話音声信号による音声は、スピーカ２２２から出力される。

絵柄３は、人の口唇に似せたアニメーション画像を、動きパラメータによって変化させたものであり、図形４は、幾何学的な図形の形状や大きさを、動きパラメータによって変化させたものである。

例えば、送信側端末１００側で話し手が口を大きく開けたときには、絵柄３では、アニメーション画像の口が大きく開き、図形４では、その形状が大きくなり、送信側端末１００側で話し手が口を閉じたときには、絵柄３では、アニメーション画像の口が閉じ、図形４では、その形状が小さくなるように、携帯電話端末が構成される。

したがって、上述した方法１−１と同様に、受信側端末２００側の通話者は、相手方（送信側端末１００側の通話者）の周囲の騒音が大きく、または自身の周囲の騒音が大きく、相手方の声が聴き取りにくい場合でも、表示部２１８上に表示された絵柄３または図形４の状態から、相手方の話しの内容を識別できる可能性が高くなり、通話の明瞭度が向上する。

また、この方法１−２または方法１−３では、口唇動画像信号そのものではなく、動きパラメータを送信するので、方法１−１に比べて送信データ量を減らすことができる。

＜方法１−４：図８および図９＞
方法１−４では、図８に示すように、口唇動き情報として動きパラメータが送信され、受信側では、この動きパラメータをもとに光点滅信号が生成され、その光点滅信号によって表示部２１８が点滅される。

具体的に、図９に示すように、送信側端末１００では、図７に示した方法１−２または方法１−３と同様に、動きパラメータが生成されて、送話音声信号とともに、受信側端末２００に送信される。

受信側端末２００では、画像処理部２１７で、その動きパラメータから光点滅信号が生成されて、図８に示したように、表示部２１８が点滅される。送話音声信号による音声は、スピーカ２２２から出力される。

表示部２１８の点滅態様としては、例えば、送信側端末１００側で話し手が口を大きく開けたときには、点灯部５が大きくなり、または点灯部５の輝度が高くなり、送信側端末１００側で話し手が口を閉じたときには、点灯部５が小さくなり、または点灯部５の輝度が低くなるように、携帯電話端末が構成される。

したがって、上述した方法１−１、方法１−２または方法１−３と同様に、受信側端末２００側の通話者は、相手方（送信側端末１００側の通話者）の周囲の騒音が大きく、または自身の周囲の騒音が大きく、相手方の声が聴き取りにくい場合でも、表示部２１８の点灯部５の大きさや輝度などから、相手方の話しの内容を識別できる可能性が高くなり、通話の明瞭度が向上する。

また、この方法１−４でも、方法１−２または方法１−３と同様に、口唇動画像信号そのものではなく、動きパラメータを送信するので、方法１−１に比べて送信データ量を減らすことができる。

＜方法１−５：図１０＞
上記の方法１−４は、携帯電話端末が一般に備える液晶ディスプレイなどの表示部を点滅させる場合であるが、ＬＥＤなどの発光素子を点滅させてもよい。方法１−５は、その場合である。

一例として、図１０（Ａ）に示すように、受信側端末２００（携帯電話端末２００）のスピーカ２２２と表示部２１８との間に、ＬＥＤ２３１を設け、上記の光点滅信号によって、このＬＥＤ２３１を点滅させる。送信側端末１００（携帯電話端末１００）についても、同様である。

例えば、送信側端末１００側で話し手が口を大きく開けたときには、ＬＥＤ２３１の発光輝度が高くなり、送信側端末１００側で話し手が口を閉じたときには、ＬＥＤ２３１の発光輝度が低くなるように、携帯電話端末を構成する。

したがって、受信側端末２００側の通話者は、相手方（送信側端末１００側の通話者）の周囲の騒音が大きく、または自身の周囲の騒音が大きく、相手方の声が聴き取りにくい場合でも、ＬＥＤ２３１の発光輝度から、相手方の話しの内容を識別できる可能性が高くなり、通話の明瞭度が向上する。

別の例として、図１０（Ｂ）に示すように、受信側端末２００（携帯電話端末２００）のスピーカ２２２と表示部２１８との間に、ＬＥＤ２３３を複数（図の例では１１個）、十字状に配置し、上記の光点滅信号によって、例えば、動きパラメータが送信側端末１００側で話し手が口を大きく開けたことを示すときには、ＬＥＤ２３３中の、中心部から離れたものも点灯し、または中心部から離れたものだけが点灯し、動きパラメータが送信側端末１００側で話し手が口を閉じたことを示すときには、ＬＥＤ２３３中の、中心部の１個だけが点灯し、または中心部の１個も消灯するように、携帯電話端末を構成する。

したがって、受信側端末２００側の通話者は、相手方（送信側端末１００側の通話者）の周囲の騒音が大きく、または自身の周囲の騒音が大きく、相手方の声が聴き取りにくい場合でも、ＬＥＤ２３３中の点灯するものの数や位置から、相手方の話しの内容を識別できる可能性が高くなり、通話の明瞭度が向上する。

（２ｃ．口唇の動き検出および動き再生の例：図１１）
＜動き検出の例：図１１＞
上述したように口唇動画像データから話し手の口唇の動きを検出して、動きパラメータを生成する方法の具体例を、以下に示す。

例えば、図１１（Ａ）に「基本パラメータ」として示すように、口唇動画像データから、十分に短いサンプリング時間間隔で、話し手の上唇１１、下唇１２、および口を開けたときの開口部１３を合わせた唇全体の縦の長さＬｖおよび横の長さＬｈを測定し、その測定値の時系列データを、話し手の口唇の動きを示す動きパラメータとする。

発話のために口を動かすと、図１１（Ａ）の左右に示すように、これら長さＬｖ，Ｌｈが変化する。サンプリング時間間隔は、１０〜５０ミリ秒程度であれば、口唇の動きを十分滑らかに再生することができる。

この基本パラメータに加えて、図１１（Ｂ）に「詳細パラメータ」として示すように、上唇１１の縦の長さＬｖｕ、開口部１３の縦の長さＬｖｍ、および下唇１２の縦の長さＬｖｌを測定して、動きパラメータとしてもよい。唇を噛み締め、突き出す際などの、唇の形状の変化が、これらのパラメータに反映される。

また、詳細パラメータとして、開口部１３から見える歯１４の部分の、縦横の長さＬｖｔ，Ｌｈｔ、または面積Ａｔ（＝Ｌｖｔ×Ｌｈｔ）を測定して、動きパラメータとしてもよい。口の開き具合、唇の突き出し具合（逆に唇の引き締め具合）、歯の剥き出し具合などが、これらのパラメータに反映される。

なお、口唇動画像データから上の歯と下の歯を識別できる場合には、上の歯と下の歯を分けて、これらパラメータを抽出することもできるが、図１１（Ｂ）のように、歯１４の部分として上下の歯を合わせた部分を測定し、上記のようにパラメータを抽出するだけでも、有効である。

また、図１１（Ｃ）に「さらに詳細なパラメータ」として示すように、上唇１１、下唇１２および開口部１３を合わせた唇全体の、左右方向における複数の位置での縦の長さＬｖ１，Ｌｖ２，Ｌｖ３、および上下方向における複数の位置での横の長さＬｈ１，Ｌｈ２，Ｌｈ３を測定して、動きパラメータとしてもよい。

＜動き再生の例＞
受信側では、以上のような動きパラメータで示される口唇の動き（口唇の形状の変化）を、図５または図６に示したような絵柄３または図形４の生成表示、図８に示したような表示部の点滅、または図１０に示したような発光素子の点滅に反映させることによって、上述した方法１−２、方法１−３、方法１−４または方法１−５を実現することができる。

例えば、絵柄（アニメーション画像）３を生成表示する場合には、絵柄３の唇全体の縦横の長さを、基本パラメータである唇全体の縦横の長さＬｖ，Ｌｈに合わせて変化させる。

図形４を生成表示する場合には、
（１）図形４として横長の楕円形、菱形、長方形などを生成表示し、その縦横の長さを、基本パラメータである唇全体の縦横の長さＬｖ，Ｌｈに合わせて変化させる。

（２）上記の楕円形などの図形中に、口の開口部を表す部分を加え、全体の縦横の長さを、基本パラメータである唇全体の縦横の長さＬｖ，Ｌｈに合わせて変化させながら、開口部を表す部分の縦の長さを、詳細パラメータである開口部１３の縦の長さＬｖｍに合わせて変化させる。

（３）上記の楕円形などの図形を、上唇、開口部および下唇の３つの部分に分割し、全体の縦横の長さを、基本パラメータである唇全体の縦横の長さＬｖ，Ｌｈに合わせて変化させながら、３つの各部分の占める面積を、詳細パラメータである上唇１１、開口部１３、下唇１２の縦の長さＬｖｕ，Ｌｖｍ，Ｌｖｌに合わせて変化させる。

（４）上記の楕円形などの図形中に、歯を表す部分を加え、全体の縦横の長さを、基本パラメータである唇全体の縦横の長さＬｖ，Ｌｈに合わせて変化させながら、歯を表す部分の面積または縦横の長さを、詳細パラメータである歯１４の部分の面積Ａｔまたは縦横の長さＬｖｔ，Ｌｈｔに合わせて変化させる。

（５）図形４として単に円形、星形、正方形などを生成表示し、その大きさ（直径や一辺の長さ）を、基本パラメータである唇全体の縦の長さＬｖまたは縦横の長さの積Ｌｖ×Ｌｈに合わせて変化させる。

表示部を点滅させる場合は、図８で上述したとおりである。

ＬＥＤなどの発光素子を点滅させる場合も、図１０で上述したとおりであるが、さらに詳細には、
（１）図１０（Ａ）の例では、ＬＥＤ２３１の発光輝度を、基本パラメータである唇全体の縦の長さＬｖまたは縦横の長さの積Ｌｖ×Ｌｈに合わせて変化させる。

（２）図１０（Ｂ）の例では、ＬＥＤ２３３中の、縦の列に属する複数（５個）のうちの点灯させる数を、基本パラメータである唇全体の縦の長さＬｖに合わせて変化させ、横の列に属する複数（７個）のうちの点灯させる数を、基本パラメータである唇全体の横の長さＬｈに合わせて変化させる。

（３）図１０では省略したが、ＬＥＤを複数、近接して設け、そのうちの点灯させる数を、基本パラメータである唇全体の縦の長さＬｖまたは縦横の長さの積Ｌｖ×Ｌｈに合わせて変化させる。

（２ｄ．方法２および方法３：図１２〜図１８）
方法２または方法３では、図１２に示すように、送信側端末１００から受信側端末２００に、口唇動き情報として、口唇動画像信号または動きパラメータが送信され、送話音声情報として、上述した方法１における送話音声信号そのものの代わりに、方法２では、送話音声信号の音声認識結果のテキスト情報が送信され、方法３では、そのテキスト情報をもとにテキスト音声合成によって生成された合成音声信号が送信される。

＜方法２−１：図１３＞
方法２の一方法である方法２−１では、送信側では、口唇動き情報として、口唇動画像信号そのものが送信され、送話音声情報として、送話音声信号の音声認識結果のテキスト情報が送信され、受信側では、口唇動画像信号によって、送信側の話し手の口唇の動画像が表示されるとともに、音声認識結果のテキスト情報をもとに、テキスト音声合成によって合成音声信号が生成され、その合成音声信号によって音声が出力される。

具体的に、図１３に示すように、送信側端末１００の画像処理部１２５では、カメラ１２６から得られた口唇動画像信号がデジタルデータに変換され、さらに、その口唇動画像データが圧縮符号化されるとともに、その口唇動画像データから、上述したような方法によって話し手の口唇の動きが検出されて、動きパラメータが生成される。

同時に、送信側端末１００の音声処理部１２３では、マイクロフォン１２４から得られた送話音声信号がデジタルデータに変換され、さらに、その送話音声データに対して音声認識が実行されて、音声認識結果のテキスト情報が得られる。この場合、画像処理部１２５で得られた動き検出の結果が音声認識に反映される。

そして、画像処理部１２５からの圧縮符号化された口唇動画像信号および動き検出の結果の動きパラメータ、および音声処理部１２３からの音声認識結果のテキスト情報が、送受信部１２７およびアンテナ１２８によって、受信側端末２００に送信される。

受信側端末２００では、アンテナ２２８および送受信部２２７によって、その圧縮符号化された口唇動画像信号、動きパラメータ、および音声認識結果のテキスト情報が受信され、圧縮符号化された口唇動画像信号は、画像処理部２１７で伸長復号され、アナログ信号に変換されて、図１２に示すように、表示部２１８上に、送信側端末１００側の話し手の口唇１の動きが、動画像２として表示される。

同時に、受信側端末２００の音声処理部２２１では、音声認識結果のテキスト情報に対してテキスト音声合成が実行されて、合成音声信号のデータが得られる。この場合、動きパラメータで示される動き検出の結果がテキスト音声合成に反映される。

その合成音声信号は、アナログ信号に変換されてスピーカ２２２に供給され、スピーカ２２２から、合成音声信号による音声が出力される。

したがって、上述した方法１−１と同様に、受信側端末２００側の通話者は、相手方（送信側端末１００側の通話者）の周囲の騒音が大きく、または自身の周囲の騒音が大きい場合でも、表示部２１８上に動画像２として表示された相手方の口唇１の動きから、相手方の話しの内容を識別できる可能性が高くなり、通話の明瞭度が向上する。

しかも、この方法２−１では、送信側で送話音声信号を音声認識して音声認識結果のテキスト情報を送信し、受信側でテキスト音声合成により合成音声信号を生成して音声を出力するので、送信側の騒音の影響を低減することができ、受信側の聴き手は、出力される音声からも、相手方の話しの内容が理解しやすくなる。

さらに、上記のように話し手の口唇の動きを音声認識およびテキスト音声合成に反映させることによって、音声認識の認識率が高められ、話し手の話しのスピードやリズム、声の大きなところと小さなところ、言いよどんだ部分など、個人的な会話の特徴や癖、話しの内容に関連したニュアンスなどが、合成音声信号中に確実に再現されるとともに、動画像２として表示される話し手の口唇１の動きに確実に同期した音声が出力され、受信側の聴き手は、より相手方の話しの内容が理解しやすくなる。

また、この方法２−１では、送話音声信号そのものではなく、送話音声信号の音声認識結果のテキスト情報を送信するので、方法１−１に比べて送信データ量を減らすことができる。

＜方法２−２および方法２−３：図１４＞
方法２−２または方法２−３では、送信側では、口唇動き情報として、動きパラメータが送信され、送話音声情報として、方法２−１と同様に、送話音声信号の音声認識結果のテキスト情報が送信され、受信側では、方法１−２または方法１−３と同様に、動きパラメータをもとにＣＧによって、送信側の話し手の口唇の動きを示す絵柄または図形が生成され、表示されるとともに、方法２−１と同様に、音声認識結果のテキスト情報をもとに、テキスト音声合成によって合成音声信号が生成され、その合成音声信号によって音声が出力される。

具体的に、図１４に示すように、送信側端末１００の画像処理部１２５では、カメラ１２６から得られた口唇動画像信号から、話し手の口唇の動きが検出されて、動きパラメータが生成され、受信側端末２００に送信されるとともに、受信側端末２００の画像処理部２１７では、その動きパラメータをもとにＣＧによって絵柄または図形のデータが生成されて、図５または図６に示したように、表示部２１８上に、送信側端末１００側の話し手の口唇１の動きが、絵柄３または図形４として表示される。送話音声情報の系については、方法２−１の図１３と同じである。

したがって、この方法２−２または方法２−３では、方法２−１と同様に通話の明瞭度が向上する。

また、この方法２−２または方法２−３では、送話音声信号そのものではなく、その音声認識結果のテキスト情報を送信するとともに、口唇動画像信号そのものではなく、動きパラメータを送信するので、方法１（送話音声情報としては送話音声信号そのものを送信する場合）および方法２−１に比べて送信データ量を減らすことができる。

＜方法２−４および方法２−５：図１５＞
方法２−４または方法２−５では、方法２−２または方法２−３と同様に、動きパラメータ、および送話音声信号の音声認識結果のテキスト情報が送信され、受信側では、方法１−４または方法１−５と同様に、動きパラメータをもとに光点滅信号が生成され、その光点滅信号によって表示部または発光素子が点滅されるとともに、方法２−１、方法２−２または方法２−３と同様に、音声認識結果のテキスト情報をもとに、テキスト音声合成によって合成音声信号が生成され、その合成音声信号によって音声が出力される。

具体的に、方法２−４では、図１５に示すように、送信側端末１００側は、方法２−２または方法２−３の図１４と同じであり、受信側端末２００側は、動きパラメータによる光点滅信号による表示部２１８の点滅については、方法１−４の図９と同じであり、音声認識結果のテキスト情報によるテキスト音声合成については、方法２−１の図１３と同じである。

方法２−５では、表示部２１８が点滅される代わりに、例えば、図１０（Ａ）または（Ｂ）で上述したようにＬＥＤ２３１または２３３が点滅される。

したがって、方法２−４または方法２−５では、方法２−１、方法２−２または方法２−３と同様に通話の明瞭度が向上するとともに、方法２−２または方法２−３と同様に送信データ量を減らすことができる。

＜方法３−１：図１６＞
方法３の一方法である方法３−１では、送信側では、口唇動き情報として、口唇動画像信号そのものが送信され、送話音声情報として、上述した送話音声信号の音声認識結果のテキスト情報から、テキスト音声合成によって合成音声信号が生成されて送信され、受信側では、口唇動画像信号によって、送信側の話し手の口唇の動画像が表示されるとともに、合成音声信号によって音声が出力される。

具体的に、図１６に示すように、送信側端末１００の画像処理部１２５では、図１３に示した方法２−１と同様に、カメラ１２６から得られた口唇動画像信号がデジタルデータに変換され、さらに、その口唇動画像データが圧縮符号化されるとともに、その口唇動画像データから話し手の口唇の動きが検出されて、動きパラメータが生成される。

同時に、送信側端末１００の音声処理部１２３では、マイクロフォン１２４から得られた送話音声信号がデジタルデータに変換され、さらに、その送話音声データに対して音声認識が実行されて、音声認識結果のテキスト情報が得られ、さらに、そのテキスト情報に対してテキスト音声合成が実行されて、合成音声信号のデータが得られる。この場合、画像処理部１２５で得られた動き検出の結果が音声認識およびテキスト音声合成に反映される。

そして、画像処理部１２５からの圧縮符号化された口唇動画像信号、および音声処理部１２３からの合成音声信号が、送受信部１２７およびアンテナ１２８によって、受信側端末２００に送信される。

受信側端末２００では、アンテナ２２８および送受信部２２７によって、その圧縮符号化された口唇動画像信号、および合成音声信号が受信され、圧縮符号化された口唇動画像信号は、画像処理部２１７で伸長復号され、アナログ信号に変換されて、図１２に示したように、表示部２１８上に、送信側端末１００側の話し手の口唇１の動きが、動画像２として表示される。

同時に、受信側端末２００の音声処理部２２１では、合成音声信号がアナログ信号に変換されてスピーカ２２２に供給され、スピーカ２２２から、合成音声信号による音声が出力される。

したがって、この方法３−１では、方法２と同様に通話の明瞭度が向上する。

＜方法３−２および方法３−３：図１７＞
方法３−２または方法３−３では、送信側では、口唇動き情報として、方法２−２または方法２−３と同様に、動きパラメータが送信され、送話音声情報として、方法３−１と同様に、テキスト音声合成による合成音声信号が送信され、受信側では、方法２−２または方法２−３と同様に、動きパラメータをもとにＣＧによって、送信側の話し手の口唇の動きを示す絵柄または図形が生成され、表示されるとともに、方法３−１と同様に、合成音声信号によって音声が出力される。

具体的に、図１７に示すように、口唇動き情報の系については、方法２−２または方法２−３の図１４と同じであり、送話音声情報の系については、方法３−１の図１６と同じである。

したがって、この方法３−２または方法３−３でも、方法２と同様に通話の明瞭度が向上する。

＜方法３−４および方法３−５：図１８＞
方法３−４または方法３−５では、方法３−２または方法３−３と同様に、動きパラメータ、およびテキスト音声合成による合成音声信号が送信され、受信側では、方法２−４または方法２−５と同様に、動きパラメータをもとに光点滅信号が生成され、その光点滅信号によって表示部または発光素子が点滅されるとともに、方法３−１、方法３−２または方法３−３と同様に、合成音声信号によって音声が出力される。

具体的に、方法３−４では、図１８に示すように、口唇動き情報の系については、方法２−４の図１５と同じであり、送話音声情報の系については、方法３−１の図１６と同じである。

方法３−５では、表示部２１８が点滅される代わりに、例えば、図１０（Ａ）または（Ｂ）で上述したようにＬＥＤ２３１または２３３が点滅される。

したがって、方法３−４または方法３−５でも、方法２と同様に通話の明瞭度が向上する。

この発明の通話端末の一実施形態を示す図である。図１の通話端末の外観構成の一例を示す図である。この発明の通話送受信方法の一例を示す図である。この発明の通話送受信方法の一例を示す図である。この発明の通話送受信方法の一例を示す図である。この発明の通話送受信方法の一例を示す図である。この発明の通話送受信方法の一例を示す図である。この発明の通話送受信方法の一例を示す図である。この発明の通話送受信方法の一例を示す図である。この発明の通話送受信方法の一例を示す図である。口唇の動き検出の例を示す図である。この発明の通話送受信方法の一例を示す図である。この発明の通話送受信方法の一例を示す図である。この発明の通話送受信方法の一例を示す図である。この発明の通話送受信方法の一例を示す図である。この発明の通話送受信方法の一例を示す図である。この発明の通話送受信方法の一例を示す図である。この発明の通話送受信方法の一例を示す図である。

符号の説明

主要部については図中に全て記述したので、ここでは省略する。

Claims

送信側端末において、話し手の口唇を送話用マイクロフォンの近傍に設けられたカメラによって撮影して口唇動画像信号を得る工程と、
その口唇動画像信号、および前記送話用マイクロフォンからの送話音声信号を、前記送信側端末から受信側端末に送信する工程と、
前記受信側端末において、前記口唇動画像信号によって前記話し手の口唇の動画像をディスプレイ上に表示する工程と、
前記受信側端末において、前記送話音声信号によって音声を出力する工程と、
を備える通話送受信方法。
送信側端末において、話し手の口唇を送話用マイクロフォンの近傍に設けられたカメラによって撮影して口唇動画像信号を得る工程と、
前記送信側端末において、前記口唇動画像信号から前記話し手の口唇の動きを検出して動きパラメータを生成する工程と、
その動きパラメータ、および前記送話用マイクロフォンからの送話音声信号を、前記送信側端末から受信側端末に送信する工程と、
前記受信側端末において、前記動きパラメータをもとにコンピュータグラフィックスによって、前記話し手の口唇の動きを示す絵柄または図形を生成して、ディスプレイ上に表示する工程と、
前記受信側端末において、前記送話音声信号によって音声を出力する工程と、
を備える通話送受信方法。
送信側端末において、話し手の口唇を送話用マイクロフォンの近傍に設けられたカメラによって撮影して口唇動画像信号を得る工程と、
前記送信側端末において、前記口唇動画像信号から前記話し手の口唇の動きを検出して動きパラメータを生成する工程と、
その動きパラメータ、および前記送話用マイクロフォンからの送話音声信号を、前記送信側端末から受信側端末に送信する工程と、
前記受信側端末において、前記動きパラメータをもとに光点滅信号を生成し、その光点滅信号によってディスプレイまたは発光素子を点滅させる工程と、
前記受信側端末において、前記送話音声信号によって音声を出力する工程と、
を備える通話送受信方法。
送信側端末において、話し手の口唇を送話用マイクロフォンの近傍に設けられたカメラによって撮影して口唇動画像信号を得る工程と、
前記送信側端末において、前記送話用マイクロフォンからの送話音声信号を音声認識して音声認識結果のテキスト情報を得る工程と、
前記口唇動画像信号および前記テキスト情報を、前記送信側端末から受信側端末に送信する工程と、
前記受信側端末において、前記口唇動画像信号によって前記話し手の口唇の動画像をディスプレイ上に表示する工程と、
前記受信側端末において、前記テキスト情報をもとにテキスト音声合成によって合成音声信号を生成し、その合成音声信号によって音声を出力する工程と、
を備える通話送受信方法。
送信側端末において、話し手の口唇を送話用マイクロフォンの近傍に設けられたカメラによって撮影して口唇動画像信号を得る工程と、
前記送信側端末において、前記口唇動画像信号から前記話し手の口唇の動きを検出して動きパラメータを生成する工程と、
前記送信側端末において、前記送話用マイクロフォンからの送話音声信号を音声認識して音声認識結果のテキスト情報を得る工程と、
前記動きパラメータおよび前記テキスト情報を、前記送信側端末から受信側端末に送信する工程と、
前記受信側端末において、前記動きパラメータをもとにコンピュータグラフィックスによって、前記話し手の口唇の動きを示す絵柄または図形を生成して、ディスプレイ上に表示する工程と、
前記受信側端末において、前記テキスト情報をもとにテキスト音声合成によって合成音声信号を生成し、その合成音声信号によって音声を出力する工程と、
を備える通話送受信方法。
送信側端末において、話し手の口唇を送話用マイクロフォンの近傍に設けられたカメラによって撮影して口唇動画像信号を得る工程と、
前記送信側端末において、前記口唇動画像信号から前記話し手の口唇の動きを検出して動きパラメータを生成する工程と、
前記送信側端末において、前記送話用マイクロフォンからの送話音声信号を音声認識して音声認識結果のテキスト情報を得る工程と、
前記動きパラメータおよび前記テキスト情報を、前記送信側端末から受信側端末に送信する工程と、
前記受信側端末において、前記動きパラメータをもとに光点滅信号を生成し、その光点滅信号によってディスプレイまたは発光素子を点滅させる工程と、
前記受信側端末において、前記テキスト情報をもとにテキスト音声合成によって合成音声信号を生成し、その合成音声信号によって音声を出力する工程と、
を備える通話送受信方法。
送信側端末において、話し手の口唇を送話用マイクロフォンの近傍に設けられたカメラによって撮影して口唇動画像信号を得る工程と、
前記送信側端末において、前記送話用マイクロフォンからの送話音声信号を音声認識して音声認識結果のテキスト情報を得、そのテキスト情報をもとにテキスト音声合成によって合成音声信号を得る工程と、
前記口唇動画像信号および前記合成音声信号を、前記送信側端末から受信側端末に送信する工程と、
前記受信側端末において、前記口唇動画像信号によって前記話し手の口唇の動画像をディスプレイ上に表示する工程と、
前記受信側端末において、前記合成音声信号によって音声を出力する工程と、
を備える通話送受信方法。
送信側端末において、話し手の口唇を送話用マイクロフォンの近傍に設けられたカメラによって撮影して口唇動画像信号を得る工程と、
前記送信側端末において、前記口唇動画像信号から前記話し手の口唇の動きを検出して動きパラメータを生成する工程と、
前記送信側端末において、前記送話用マイクロフォンからの送話音声信号を音声認識して音声認識結果のテキスト情報を得、そのテキスト情報をもとにテキスト音声合成によって合成音声信号を得る工程と、
前記動きパラメータおよび前記合成音声信号を、前記送信側端末から受信側端末に送信する工程と、
前記受信側端末において、前記動きパラメータをもとにコンピュータグラフィックスによって、前記話し手の口唇の動きを示す絵柄または図形を生成して、ディスプレイ上に表示する工程と、
前記受信側端末において、前記合成音声信号によって音声を出力する工程と、
を備える通話送受信方法。
送信側端末において、話し手の口唇を送話用マイクロフォンの近傍に設けられたカメラによって撮影して口唇動画像信号を得る工程と、
前記送信側端末において、前記口唇動画像信号から前記話し手の口唇の動きを検出して動きパラメータを生成する工程と、
前記送信側端末において、前記送話用マイクロフォンからの送話音声信号を音声認識して音声認識結果のテキスト情報を得、そのテキスト情報をもとにテキスト音声合成によって合成音声信号を得る工程と、
前記動きパラメータおよび前記合成音声信号を、前記送信側端末から受信側端末に送信する工程と、
前記受信側端末において、前記動きパラメータをもとに光点滅信号を生成し、その光点滅信号によってディスプレイまたは発光素子を点滅させる工程と、
前記受信側端末において、前記合成音声信号によって音声を出力する工程と、
を備える通話送受信方法。
送話用マイクロフォンと、
この送話用マイクロフォンの近傍に設けられ、話し手の口唇を撮影するカメラと、
このカメラからの口唇動画像信号、および前記送話用マイクロフォンからの送話音声信号を、他の通話端末に送信する送受信手段と、
を備える通話端末。
送話用マイクロフォンと、
この送話用マイクロフォンの近傍に設けられ、話し手の口唇を撮影するカメラと、
このカメラからの口唇動画像信号から前記話し手の口唇の動きを検出して、動きパラメータを生成する信号処理手段と、
その動きパラメータ、および前記送話用マイクロフォンからの送話音声信号を、他の通話端末に送信する送受信手段と、
を備える通話端末。
送話用マイクロフォンと、
この送話用マイクロフォンの近傍に設けられ、話し手の口唇を撮影するカメラと、
前記送話用マイクロフォンからの送話音声信号を音声認識し、音声認識結果のテキスト情報を得る信号処理手段と、
そのテキスト情報、および前記カメラからの口唇動画像信号を、他の通話端末に送信する送受信手段と、
を備える通話端末。
送話用マイクロフォンと、
この送話用マイクロフォンの近傍に設けられ、話し手の口唇を撮影するカメラと、
このカメラからの口唇動画像信号から前記話し手の口唇の動きを検出して、動きパラメータを生成する信号処理手段と、
前記送話用マイクロフォンからの送話音声信号を音声認識し、音声認識結果のテキスト情報を得る信号処理手段と、
そのテキスト情報、および前記動きパラメータを、他の通話端末に送信する送受信手段と、
を備える通話端末。
送話用マイクロフォンと、
この送話用マイクロフォンの近傍に設けられ、話し手の口唇を撮影するカメラと、
前記送話用マイクロフォンからの送話音声信号を音声認識して音声認識結果のテキスト情報を得、そのテキスト情報をもとにテキスト音声合成によって合成音声信号を得る信号処理手段と、
その合成音声信号、および前記カメラからの口唇動画像信号を、他の通話端末に送信する送受信手段と、
を備える通話端末。
送話用マイクロフォンと、
この送話用マイクロフォンの近傍に設けられ、話し手の口唇を撮影するカメラと、
このカメラからの口唇動画像信号から前記話し手の口唇の動きを検出して、動きパラメータを生成する信号処理手段と、
前記送話用マイクロフォンからの送話音声信号を音声認識して音声認識結果のテキスト情報を得、そのテキスト情報をもとにテキスト音声合成によって合成音声信号を得る信号処理手段と、
その合成音声信号、および前記動きパラメータを、他の通話端末に送信する送受信手段と、
を備える通話端末。