JP2006005440A - 通話送受信方法および通話端末 - Google Patents
通話送受信方法および通話端末 Download PDFInfo
- Publication number
- JP2006005440A JP2006005440A JP2004176958A JP2004176958A JP2006005440A JP 2006005440 A JP2006005440 A JP 2006005440A JP 2004176958 A JP2004176958 A JP 2004176958A JP 2004176958 A JP2004176958 A JP 2004176958A JP 2006005440 A JP2006005440 A JP 2006005440A
- Authority
- JP
- Japan
- Prior art keywords
- transmitting
- terminal
- signal
- transmission
- microphone
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】特殊なマイクロフォンなどを用いることなく、話し手や聴き手の周囲に騒音が存在する場合の通話の明瞭度を向上させる。
【解決手段】送話音声信号とともに、話し手の口唇1を送話用のマイクロフォン124の近傍に設けたカメラ126によって撮影して得た口唇動画像信号を送信し、受信側で表示部218上に口唇1の動きを動画像2として表示する。口唇動画像信号の代わりに、これから口唇1の動きを検出して生成した動きパラメータを送信し、受信側で、CGによって口唇1の動きを示す絵柄または図形を生成表示し、または表示部218を点滅させてもよい。送話音声信号の代わりに、送話音声信号の音声認識結果のテキスト情報、または、このテキスト情報からテキスト音声合成によって生成した合成音声信号を送信し、受信側で合成音声信号による音声を出力させてもよい。
【選択図】図3
【解決手段】送話音声信号とともに、話し手の口唇1を送話用のマイクロフォン124の近傍に設けたカメラ126によって撮影して得た口唇動画像信号を送信し、受信側で表示部218上に口唇1の動きを動画像2として表示する。口唇動画像信号の代わりに、これから口唇1の動きを検出して生成した動きパラメータを送信し、受信側で、CGによって口唇1の動きを示す絵柄または図形を生成表示し、または表示部218を点滅させてもよい。送話音声信号の代わりに、送話音声信号の音声認識結果のテキスト情報、または、このテキスト情報からテキスト音声合成によって生成した合成音声信号を送信し、受信側で合成音声信号による音声を出力させてもよい。
【選択図】図3
Description
この発明は、携帯電話端末などの通話端末の間で通話のための送受信を行う方法、および携帯電話端末などの通話端末に関する。
携帯電話端末は、街頭や駅頭など、騒音の激しい場所で使用されることも多く、通話の明瞭度を改善することが望まれる。その方法の一つとして、送話用マイクロフォンの指向性を改善することが考えられる。
また、特許文献1(特開平8−275279号公報:音声ピックアップシステム)には、骨伝導音または気道音を検出する音声ピックアップは、比較的、周囲の騒音を拾わないものの、高域成分の検出レベルが低下するため、ピックアップ検出信号中で欠落している周波数成分を検出し、その成分を補完音としてピックアップ検出信号に合成することが示されている。
上に挙げた先行技術文献は、次の通りである。
特開平8−275279号公報
しかしながら、送話用マイクロフォンの指向性を改善しても、その指向性方向において話し手の近傍に騒音が存在すると、通話の明瞭度が低下する。
また、特許文献1に示された、骨伝導音や気道音を検出する音声ピックアップは、使用者の顔面や頭部に密着させて、使用者の発声に伴う顔面や頭部の振動を検出し、または、使用者の外耳に挿入して、外耳道の気道音を検出するので、携帯電話端末のように、使用者が手で把持して、送話用マイクロフォンを口元に当て、受話用スピーカを耳元に当てる形態の通話端末の送話用マイクロフォンとしては使用することができない。
さらに、送話用マイクロフォンの指向性を改善する方法も、骨伝導音や気道音を検出する音声ピックアップを送話用マイクロフォンとして使用する方法も、聴き手の周囲に騒音が存在する場合には、無力であり、聴き手は受話用スピーカから出力される話し手の音声を明瞭に認識することができない。
そこで、この発明は、特殊なマイクロフォンなどを用いることなく、話し手や聴き手の周囲に騒音が存在する場合の通話の明瞭度を向上させることができるようにしたものである。
この発明の通話送受信方法では、送信側から受信側に、口唇動き情報として、(a)話し手の口唇を送話用マイクロフォンの近傍に設けられたカメラによって撮影して得られた口唇動画像信号そのもの、または(b)この口唇動画像信号から話し手の口唇の動きを検出して得られた動きパラメータ、を送信するとともに、送話音声情報として、(c)送話用マイクロフォンからの送話音声信号そのもの、(d)この送話音声信号を音声認識して得られたテキスト情報、または(e)このテキスト情報をもとにテキスト音声合成によって得られた合成音声信号、を送信する。
受信側では、(a)送信側から口唇動き情報として、口唇動画像信号そのものが送信される場合には、その口唇動画像信号によって話し手の口唇の動画像をディスプレイ上に表示し、(b)送信側から口唇動き情報として、動きパラメータが送信される場合には、その動きパラメータをもとにコンピュータグラフィックスによって、話し手の口唇の動きを示す絵柄または図形を生成して、ディスプレイ上に表示し、または、その動きパラメータをもとに光点滅信号を生成し、その光点滅信号によってディスプレイまたは発光素子を点滅させる。
また、受信側では、(c)送信側から送話音声情報として、送話用マイクロフォンからの送話音声信号そのものが送信される場合には、その送話音声信号によって音声を出力し、(d)送信側から送話音声情報として、送話音声信号の音声認識結果のテキスト情報が送信される場合には、そのテキスト情報をもとにテキスト音声合成によって合成音声信号を生成し、その合成音声信号によって音声を出力し、(e)送信側から送話音声情報として、送話音声信号の音声認識結果のテキスト情報をもとにテキスト音声合成によって得られた合成音声信号が送信される場合には、その合成音声信号によって音声を出力する。
したがって、この発明によれば、話し手や聴き手の周囲に騒音が存在する場合でも、または聴き手の聴力が低い場合にも、聴き手は、自身の端末のディスプレイ上に表示された動画像、絵柄または図形、または自身の端末のディスプレイまたは発光素子の点滅状態から、話し手の話しの内容を識別できる可能性が高くなり、通話の明瞭度が向上する。
以上のように、この発明によれば、話し手や聴き手の周囲に騒音が存在する場合の通話の明瞭度を向上させることができる。また、通話端末として、特殊なマイクロフォンなどを用いる必要がなく、カメラも話し手の口唇を撮影する小型のものでよいとともに、ディスプレイも携帯電話端末などに一般に使用されている液晶ディスプレイなどを利用することができる。
〔1.携帯電話端末の例:図1および図2〕
図1は、この発明の通話端末の一実施形態としての、この発明の携帯電話端末の一例を示す。2つの携帯電話端末の間で通話が行われるので、一方を携帯電話端末100、他方を携帯電話端末200とする。
図1は、この発明の通話端末の一実施形態としての、この発明の携帯電話端末の一例を示す。2つの携帯電話端末の間で通話が行われるので、一方を携帯電話端末100、他方を携帯電話端末200とする。
携帯電話端末100は、CPU111を備え、そのバス112に、CPU111が実行するプログラムや必要な固定データが書き込まれたROM113、およびプログラムやデータが展開されるRAM114が接続される。
また、バス112には、インターフェース115を介して、操作部116が接続され、画像処理部117を介して、表示部118が接続され、音声処理部121を介して、受話用のスピーカ122が接続され、音声処理部123を介して、送話用のマイクロフォン124が接続される。
さらに、バス112には、画像処理部125を介して、後述のようにマイクロフォン124の近傍に設けられるカメラ126が接続され、送受信部127を介して、アンテナ128が接続される。
画像処理部117は、画像データやテキストデータなどを処理し、後述のように通話の相手方から口唇動き情報(口唇の動きを示す情報)として動きパラメータを受信した場合には、その動きパラメータをもとにコンピュータグラフィックスによって、相手方の口唇の動きを示す絵柄や図形のデータを生成し、または動きパラメータをもとに光点滅信号のデータを生成して、それぞれアナログ信号に変換し、表示部118に送出して、表示部118上に画像や文字または口唇の動きを示す絵柄や図形を表示し、または表示部118を点滅させるものである。表示部118は、液晶ディスプレイやEL(エレクトロルミネセンス)ディスプレイなどのディスプレイである。
音声処理部121は、受話音声信号のデータをアナログ信号に変換し、後述のように通話の相手方から音声認識結果のテキスト情報またはテキスト音声合成後の合成音声信号を受信した場合には、そのテキスト情報のデータをテキスト音声合成し、合成音声信号のデータをアナログ信号に変換して、スピーカ122に供給するものである。
音声処理部123は、マイクロフォン124からの送話音声信号をデジタルデータに変換し、後述のように通話の相手方に音声認識結果のテキスト情報またはテキスト音声合成後の合成音声信号を送信する場合には、送話音声信号のデータを音声認識して音声認識結果のテキスト情報を得、またはさらにそのテキスト情報をもとにテキスト音声合成によって合成音声信号を得るものである。
カメラ126は、上述したようにマイクロフォン124の近傍に設けられ、話し手の口唇(上下の唇、その間の開口部、および上下の唇の周辺部)を撮影するものである。
画像処理部125は、このカメラ126から得られた口唇動画像信号をデジタルデータに変換し、後述のように通話の相手方に口唇動き情報として動きパラメータを送信する場合には、その口唇動画像データから話し手の口唇の動きを検出して、動きパラメータを生成するものである。
以上の構成は、携帯電話端末200についても全く同じで、携帯電話端末200の各部は、100番台の参照番号に代えて200番台の参照番号を付して示す。
携帯電話端末100,200は、例えば、図2に示すように、それぞれ折り畳み型に構成され、それぞれの基底部に操作部116,216およびマイクロフォン124,224が設けられ、それぞれの開閉部に表示部118,218およびスピーカ122,222が設けられ、それぞれの基底部のマイクロフォン124,224の近傍にカメラ126,226が設けられる。
カメラ126,226は、それぞれ、携帯電話端末100,200によって通話する者が通話中に顔を動かしたとき、その者の口唇を追尾して撮影するように、向きやズームが自動的に調整されることが望ましい。
そして、この発明では、携帯電話端末100,200間の通話時、送信側から受信側に口唇動き情報および送話音声情報が送信される。
口唇動き情報は、(a)口唇動画像信号そのもの(口唇動画像信号のデータまたは圧縮データ)、または(b)上記の動きパラメータ、である。送話音声情報は、(c)送話音声信号そのもの(送話音声信号のデータまたは圧縮データ)、(d)送話音声信号の音声認識結果のテキスト情報、または(e)上記の合成音声信号、である。
なお、通話相手の顔を表示したり話し手自身の顔を表示するなどしながら通話するような、話し手がそれぞれの表示部118,218を見ながら通話する場合でも、カメラ126,226が話し手の顔に向くので、話し手の口唇を撮影することができる。
〔2.通話送受信方法の実施形態:図3〜図18〕
(2a.騒音対応モード)
上記のように送信側から受信側には口唇動き情報および送話音声情報が送信されるが、通話時、常にそうされる必要はない。
(2a.騒音対応モード)
上記のように送信側から受信側には口唇動き情報および送話音声情報が送信されるが、通話時、常にそうされる必要はない。
具体的に、話し手が、自身の周囲の騒音が大きく、自身の声が相手方に伝わりにくいと判断したとき、自身の携帯電話端末の通話モードを、口唇動き情報および送話音声情報が送信されるモードに設定できるように、携帯電話端末100および200を構成することができる。以下、このモードを騒音対応モードと称する。
実際上は、自身の周囲の騒音が大きい場合、または相手方の周囲の騒音が大きい場合には、自身の声が相手方に伝わりにくくなるとともに、相手方の声も聴き取りにくくなる。そのため、それぞれの携帯電話端末100,200では、自身の送話音声信号または相手方からの送話音声信号から、このような騒音レベル状態を検出して、それぞれの通話モードを騒音対応モードに設定するように、携帯電話端末100および200を構成することが望ましい。
以下では、通話モードでは常に、携帯電話端末100および200の双方が騒音対応モードに設定されるものとして、または、携帯電話端末100,200のいずれかの周囲の騒音が大きい場合には、上記の方法によって携帯電話端末100および200の双方が騒音対応モードに設定されるものとして、この発明の通話送受信方法の具体例を示す。
ただし、騒音対応モード中も、常に口唇動き情報が送信される必要はなく、当該の携帯電話端末によって通話する者が話しをし、その者の口唇が動いている期間においてのみ、当該の携帯電話端末から口唇動き情報が送信され、当該の携帯電話端末によって通話する者が話しをせず、相手方の話しを聴いているだけの期間においては、当該の携帯電話端末から口唇動き情報が送信されないように、携帯電話端末100および200を構成することができる。
上述したように、送信側から受信側には、口唇動き情報として、口唇動画像信号そのもの、または動きパラメータを送信するとともに、送話音声情報として、送話音声信号そのもの、またはこれに基づくテキスト情報または合成音声信号を送信する。
口唇動き情報として動きパラメータを送信する場合、受信側では、(f)その動きパラメータをもとにコンピュータグラフィックスによって、送信側の話し手の口唇の動きを示す絵柄または図形を生成して、表示部(携帯電話端末100からの送信に対しては携帯電話端末200の表示部218、携帯電話端末200からの送信に対しては携帯電話端末100の表示部118)上に表示し、または(g)その動きパラメータをもとに光点滅信号を生成し、その光点滅信号によって、表示部(上記のように携帯電話端末200の表示部218または携帯電話端末100の表示部118)を点滅させ、または図1および図2では省略したLED(発光ダイオード)などの発光素子を点滅させる。
したがって、この発明の通話送受信方法は、以下の方法1、方法2および方法3に大別され、さらに、方法1は、方法1−1、方法1−2、方法1−3、方法1−4および方法1−5に分けられ、方法2は、方法2−1、方法2−2、方法2−3、方法2−4および方法2−5に分けられ、方法3は、方法3−1、方法3−2、方法3−3、方法3−4および方法3−5に分けられる。
以下では、携帯電話端末100,200間の通話時の、携帯電話端末100側の通話者が話す(携帯電話端末100が送信側となる)場合につき示す。そのため、以下では、携帯電話端末100を送信側端末100と称し、携帯電話端末200を受信側端末200と称する。携帯電話端末200側の通話者が話す(携帯電話端末200が送信側となる)場合も全く同じであるので、その場合の説明は省略する。
また、以下では、コンピュータグラフィックスを「CG」と称し、CGによる絵柄または図形の生成を「CG生成」と称する。
(2b.方法1:図3〜図10)
方法1では、送信側端末100から受信側端末200に、口唇動き情報および送話音声信号そのものが送信される。口唇動き情報は、図3に示すようにカメラ126によって話し手の口唇1が撮影されて得られた口唇動画像信号、または、この口唇動画像信号から生成された動きパラメータである。
方法1では、送信側端末100から受信側端末200に、口唇動き情報および送話音声信号そのものが送信される。口唇動き情報は、図3に示すようにカメラ126によって話し手の口唇1が撮影されて得られた口唇動画像信号、または、この口唇動画像信号から生成された動きパラメータである。
<方法1−1:図3および図4>
方法1の一方法である方法1−1では、図3に示すように、口唇動き情報として口唇動画像信号が送信される。
方法1の一方法である方法1−1では、図3に示すように、口唇動き情報として口唇動画像信号が送信される。
具体的に、図4に示すように、送信側端末100では、上記のようにカメラ126から得られた口唇動画像信号が、画像処理部125でデジタルデータに変換され、さらに圧縮符号化されて、送受信部127およびアンテナ128によって、送話音声信号のデータとともに、受信側端末200に送信される。
受信側端末200では、アンテナ228および送受信部227によって、その圧縮符号化された口唇動画像信号、および送話音声信号が受信され、圧縮符号化された口唇動画像信号は、画像処理部217で伸長復号され、アナログ信号に変換されて、図3に示すように、表示部218上に、送信側端末100側の話し手の口唇1の動きが、動画像2として表示される。送話音声信号による音声は、スピーカ222から出力される。
したがって、受信側端末200側の通話者は、相手方(送信側端末100側の通話者)の周囲の騒音が大きく、または自身の周囲の騒音が大きく、相手方の声が聴き取りにくい場合でも、表示部218上に動画像2として表示された相手方の口唇1の動きから、相手方の話しの内容を識別できる可能性が高くなり、通話の明瞭度が向上する。
<方法1−2および方法1−3:図5〜図7>
方法1−2または方法1−3では、図5または図6に示すように、口唇動き情報として動きパラメータが送信され、受信側では、この動きパラメータをもとにCGによって、送信側の話し手の口唇1の動きを示す絵柄3または図形4が生成されて、表示部218上に表示される。
方法1−2または方法1−3では、図5または図6に示すように、口唇動き情報として動きパラメータが送信され、受信側では、この動きパラメータをもとにCGによって、送信側の話し手の口唇1の動きを示す絵柄3または図形4が生成されて、表示部218上に表示される。
具体的に、図7に示すように、送信側端末100の画像処理部125では、カメラ126から得られた口唇動画像信号がデジタルデータに変換され、さらに、その口唇動画像データから、後述のような方法によって話し手の口唇の動きが検出されて、動きパラメータが生成され、送受信部127およびアンテナ128によって、その動きパラメータが、送話音声信号とともに、受信側端末200に送信される。
受信側端末200では、アンテナ228および送受信部227によって、その動きパラメータおよび送話音声信号が受信され、画像処理部217で、その動きパラメータをもとにCGによって絵柄または図形のデータが生成されて、図5または図6に示したように、表示部218上に、送信側端末100側の話し手の口唇1の動きが、絵柄3または図形4として表示される。送話音声信号による音声は、スピーカ222から出力される。
絵柄3は、人の口唇に似せたアニメーション画像を、動きパラメータによって変化させたものであり、図形4は、幾何学的な図形の形状や大きさを、動きパラメータによって変化させたものである。
例えば、送信側端末100側で話し手が口を大きく開けたときには、絵柄3では、アニメーション画像の口が大きく開き、図形4では、その形状が大きくなり、送信側端末100側で話し手が口を閉じたときには、絵柄3では、アニメーション画像の口が閉じ、図形4では、その形状が小さくなるように、携帯電話端末が構成される。
したがって、上述した方法1−1と同様に、受信側端末200側の通話者は、相手方(送信側端末100側の通話者)の周囲の騒音が大きく、または自身の周囲の騒音が大きく、相手方の声が聴き取りにくい場合でも、表示部218上に表示された絵柄3または図形4の状態から、相手方の話しの内容を識別できる可能性が高くなり、通話の明瞭度が向上する。
また、この方法1−2または方法1−3では、口唇動画像信号そのものではなく、動きパラメータを送信するので、方法1−1に比べて送信データ量を減らすことができる。
<方法1−4:図8および図9>
方法1−4では、図8に示すように、口唇動き情報として動きパラメータが送信され、受信側では、この動きパラメータをもとに光点滅信号が生成され、その光点滅信号によって表示部218が点滅される。
方法1−4では、図8に示すように、口唇動き情報として動きパラメータが送信され、受信側では、この動きパラメータをもとに光点滅信号が生成され、その光点滅信号によって表示部218が点滅される。
具体的に、図9に示すように、送信側端末100では、図7に示した方法1−2または方法1−3と同様に、動きパラメータが生成されて、送話音声信号とともに、受信側端末200に送信される。
受信側端末200では、画像処理部217で、その動きパラメータから光点滅信号が生成されて、図8に示したように、表示部218が点滅される。送話音声信号による音声は、スピーカ222から出力される。
表示部218の点滅態様としては、例えば、送信側端末100側で話し手が口を大きく開けたときには、点灯部5が大きくなり、または点灯部5の輝度が高くなり、送信側端末100側で話し手が口を閉じたときには、点灯部5が小さくなり、または点灯部5の輝度が低くなるように、携帯電話端末が構成される。
したがって、上述した方法1−1、方法1−2または方法1−3と同様に、受信側端末200側の通話者は、相手方(送信側端末100側の通話者)の周囲の騒音が大きく、または自身の周囲の騒音が大きく、相手方の声が聴き取りにくい場合でも、表示部218の点灯部5の大きさや輝度などから、相手方の話しの内容を識別できる可能性が高くなり、通話の明瞭度が向上する。
また、この方法1−4でも、方法1−2または方法1−3と同様に、口唇動画像信号そのものではなく、動きパラメータを送信するので、方法1−1に比べて送信データ量を減らすことができる。
<方法1−5:図10>
上記の方法1−4は、携帯電話端末が一般に備える液晶ディスプレイなどの表示部を点滅させる場合であるが、LEDなどの発光素子を点滅させてもよい。方法1−5は、その場合である。
上記の方法1−4は、携帯電話端末が一般に備える液晶ディスプレイなどの表示部を点滅させる場合であるが、LEDなどの発光素子を点滅させてもよい。方法1−5は、その場合である。
一例として、図10(A)に示すように、受信側端末200(携帯電話端末200)のスピーカ222と表示部218との間に、LED231を設け、上記の光点滅信号によって、このLED231を点滅させる。送信側端末100(携帯電話端末100)についても、同様である。
例えば、送信側端末100側で話し手が口を大きく開けたときには、LED231の発光輝度が高くなり、送信側端末100側で話し手が口を閉じたときには、LED231の発光輝度が低くなるように、携帯電話端末を構成する。
したがって、受信側端末200側の通話者は、相手方(送信側端末100側の通話者)の周囲の騒音が大きく、または自身の周囲の騒音が大きく、相手方の声が聴き取りにくい場合でも、LED231の発光輝度から、相手方の話しの内容を識別できる可能性が高くなり、通話の明瞭度が向上する。
別の例として、図10(B)に示すように、受信側端末200(携帯電話端末200)のスピーカ222と表示部218との間に、LED233を複数(図の例では11個)、十字状に配置し、上記の光点滅信号によって、例えば、動きパラメータが送信側端末100側で話し手が口を大きく開けたことを示すときには、LED233中の、中心部から離れたものも点灯し、または中心部から離れたものだけが点灯し、動きパラメータが送信側端末100側で話し手が口を閉じたことを示すときには、LED233中の、中心部の1個だけが点灯し、または中心部の1個も消灯するように、携帯電話端末を構成する。
したがって、受信側端末200側の通話者は、相手方(送信側端末100側の通話者)の周囲の騒音が大きく、または自身の周囲の騒音が大きく、相手方の声が聴き取りにくい場合でも、LED233中の点灯するものの数や位置から、相手方の話しの内容を識別できる可能性が高くなり、通話の明瞭度が向上する。
(2c.口唇の動き検出および動き再生の例:図11)
<動き検出の例:図11>
上述したように口唇動画像データから話し手の口唇の動きを検出して、動きパラメータを生成する方法の具体例を、以下に示す。
<動き検出の例:図11>
上述したように口唇動画像データから話し手の口唇の動きを検出して、動きパラメータを生成する方法の具体例を、以下に示す。
例えば、図11(A)に「基本パラメータ」として示すように、口唇動画像データから、十分に短いサンプリング時間間隔で、話し手の上唇11、下唇12、および口を開けたときの開口部13を合わせた唇全体の縦の長さLvおよび横の長さLhを測定し、その測定値の時系列データを、話し手の口唇の動きを示す動きパラメータとする。
発話のために口を動かすと、図11(A)の左右に示すように、これら長さLv,Lhが変化する。サンプリング時間間隔は、10〜50ミリ秒程度であれば、口唇の動きを十分滑らかに再生することができる。
この基本パラメータに加えて、図11(B)に「詳細パラメータ」として示すように、上唇11の縦の長さLvu、開口部13の縦の長さLvm、および下唇12の縦の長さLvlを測定して、動きパラメータとしてもよい。唇を噛み締め、突き出す際などの、唇の形状の変化が、これらのパラメータに反映される。
また、詳細パラメータとして、開口部13から見える歯14の部分の、縦横の長さLvt,Lht、または面積At(=Lvt×Lht)を測定して、動きパラメータとしてもよい。口の開き具合、唇の突き出し具合(逆に唇の引き締め具合)、歯の剥き出し具合などが、これらのパラメータに反映される。
なお、口唇動画像データから上の歯と下の歯を識別できる場合には、上の歯と下の歯を分けて、これらパラメータを抽出することもできるが、図11(B)のように、歯14の部分として上下の歯を合わせた部分を測定し、上記のようにパラメータを抽出するだけでも、有効である。
また、図11(C)に「さらに詳細なパラメータ」として示すように、上唇11、下唇12および開口部13を合わせた唇全体の、左右方向における複数の位置での縦の長さLv1,Lv2,Lv3、および上下方向における複数の位置での横の長さLh1,Lh2,Lh3を測定して、動きパラメータとしてもよい。
<動き再生の例>
受信側では、以上のような動きパラメータで示される口唇の動き(口唇の形状の変化)を、図5または図6に示したような絵柄3または図形4の生成表示、図8に示したような表示部の点滅、または図10に示したような発光素子の点滅に反映させることによって、上述した方法1−2、方法1−3、方法1−4または方法1−5を実現することができる。
受信側では、以上のような動きパラメータで示される口唇の動き(口唇の形状の変化)を、図5または図6に示したような絵柄3または図形4の生成表示、図8に示したような表示部の点滅、または図10に示したような発光素子の点滅に反映させることによって、上述した方法1−2、方法1−3、方法1−4または方法1−5を実現することができる。
例えば、絵柄(アニメーション画像)3を生成表示する場合には、絵柄3の唇全体の縦横の長さを、基本パラメータである唇全体の縦横の長さLv,Lhに合わせて変化させる。
図形4を生成表示する場合には、
(1)図形4として横長の楕円形、菱形、長方形などを生成表示し、その縦横の長さを、基本パラメータである唇全体の縦横の長さLv,Lhに合わせて変化させる。
(1)図形4として横長の楕円形、菱形、長方形などを生成表示し、その縦横の長さを、基本パラメータである唇全体の縦横の長さLv,Lhに合わせて変化させる。
(2)上記の楕円形などの図形中に、口の開口部を表す部分を加え、全体の縦横の長さを、基本パラメータである唇全体の縦横の長さLv,Lhに合わせて変化させながら、開口部を表す部分の縦の長さを、詳細パラメータである開口部13の縦の長さLvmに合わせて変化させる。
(3)上記の楕円形などの図形を、上唇、開口部および下唇の3つの部分に分割し、全体の縦横の長さを、基本パラメータである唇全体の縦横の長さLv,Lhに合わせて変化させながら、3つの各部分の占める面積を、詳細パラメータである上唇11、開口部13、下唇12の縦の長さLvu,Lvm,Lvlに合わせて変化させる。
(4)上記の楕円形などの図形中に、歯を表す部分を加え、全体の縦横の長さを、基本パラメータである唇全体の縦横の長さLv,Lhに合わせて変化させながら、歯を表す部分の面積または縦横の長さを、詳細パラメータである歯14の部分の面積Atまたは縦横の長さLvt,Lhtに合わせて変化させる。
(5)図形4として単に円形、星形、正方形などを生成表示し、その大きさ(直径や一辺の長さ)を、基本パラメータである唇全体の縦の長さLvまたは縦横の長さの積Lv×Lhに合わせて変化させる。
表示部を点滅させる場合は、図8で上述したとおりである。
LEDなどの発光素子を点滅させる場合も、図10で上述したとおりであるが、さらに詳細には、
(1)図10(A)の例では、LED231の発光輝度を、基本パラメータである唇全体の縦の長さLvまたは縦横の長さの積Lv×Lhに合わせて変化させる。
(1)図10(A)の例では、LED231の発光輝度を、基本パラメータである唇全体の縦の長さLvまたは縦横の長さの積Lv×Lhに合わせて変化させる。
(2)図10(B)の例では、LED233中の、縦の列に属する複数(5個)のうちの点灯させる数を、基本パラメータである唇全体の縦の長さLvに合わせて変化させ、横の列に属する複数(7個)のうちの点灯させる数を、基本パラメータである唇全体の横の長さLhに合わせて変化させる。
(3)図10では省略したが、LEDを複数、近接して設け、そのうちの点灯させる数を、基本パラメータである唇全体の縦の長さLvまたは縦横の長さの積Lv×Lhに合わせて変化させる。
(2d.方法2および方法3:図12〜図18)
方法2または方法3では、図12に示すように、送信側端末100から受信側端末200に、口唇動き情報として、口唇動画像信号または動きパラメータが送信され、送話音声情報として、上述した方法1における送話音声信号そのものの代わりに、方法2では、送話音声信号の音声認識結果のテキスト情報が送信され、方法3では、そのテキスト情報をもとにテキスト音声合成によって生成された合成音声信号が送信される。
方法2または方法3では、図12に示すように、送信側端末100から受信側端末200に、口唇動き情報として、口唇動画像信号または動きパラメータが送信され、送話音声情報として、上述した方法1における送話音声信号そのものの代わりに、方法2では、送話音声信号の音声認識結果のテキスト情報が送信され、方法3では、そのテキスト情報をもとにテキスト音声合成によって生成された合成音声信号が送信される。
<方法2−1:図13>
方法2の一方法である方法2−1では、送信側では、口唇動き情報として、口唇動画像信号そのものが送信され、送話音声情報として、送話音声信号の音声認識結果のテキスト情報が送信され、受信側では、口唇動画像信号によって、送信側の話し手の口唇の動画像が表示されるとともに、音声認識結果のテキスト情報をもとに、テキスト音声合成によって合成音声信号が生成され、その合成音声信号によって音声が出力される。
方法2の一方法である方法2−1では、送信側では、口唇動き情報として、口唇動画像信号そのものが送信され、送話音声情報として、送話音声信号の音声認識結果のテキスト情報が送信され、受信側では、口唇動画像信号によって、送信側の話し手の口唇の動画像が表示されるとともに、音声認識結果のテキスト情報をもとに、テキスト音声合成によって合成音声信号が生成され、その合成音声信号によって音声が出力される。
具体的に、図13に示すように、送信側端末100の画像処理部125では、カメラ126から得られた口唇動画像信号がデジタルデータに変換され、さらに、その口唇動画像データが圧縮符号化されるとともに、その口唇動画像データから、上述したような方法によって話し手の口唇の動きが検出されて、動きパラメータが生成される。
同時に、送信側端末100の音声処理部123では、マイクロフォン124から得られた送話音声信号がデジタルデータに変換され、さらに、その送話音声データに対して音声認識が実行されて、音声認識結果のテキスト情報が得られる。この場合、画像処理部125で得られた動き検出の結果が音声認識に反映される。
そして、画像処理部125からの圧縮符号化された口唇動画像信号および動き検出の結果の動きパラメータ、および音声処理部123からの音声認識結果のテキスト情報が、送受信部127およびアンテナ128によって、受信側端末200に送信される。
受信側端末200では、アンテナ228および送受信部227によって、その圧縮符号化された口唇動画像信号、動きパラメータ、および音声認識結果のテキスト情報が受信され、圧縮符号化された口唇動画像信号は、画像処理部217で伸長復号され、アナログ信号に変換されて、図12に示すように、表示部218上に、送信側端末100側の話し手の口唇1の動きが、動画像2として表示される。
同時に、受信側端末200の音声処理部221では、音声認識結果のテキスト情報に対してテキスト音声合成が実行されて、合成音声信号のデータが得られる。この場合、動きパラメータで示される動き検出の結果がテキスト音声合成に反映される。
その合成音声信号は、アナログ信号に変換されてスピーカ222に供給され、スピーカ222から、合成音声信号による音声が出力される。
したがって、上述した方法1−1と同様に、受信側端末200側の通話者は、相手方(送信側端末100側の通話者)の周囲の騒音が大きく、または自身の周囲の騒音が大きい場合でも、表示部218上に動画像2として表示された相手方の口唇1の動きから、相手方の話しの内容を識別できる可能性が高くなり、通話の明瞭度が向上する。
しかも、この方法2−1では、送信側で送話音声信号を音声認識して音声認識結果のテキスト情報を送信し、受信側でテキスト音声合成により合成音声信号を生成して音声を出力するので、送信側の騒音の影響を低減することができ、受信側の聴き手は、出力される音声からも、相手方の話しの内容が理解しやすくなる。
さらに、上記のように話し手の口唇の動きを音声認識およびテキスト音声合成に反映させることによって、音声認識の認識率が高められ、話し手の話しのスピードやリズム、声の大きなところと小さなところ、言いよどんだ部分など、個人的な会話の特徴や癖、話しの内容に関連したニュアンスなどが、合成音声信号中に確実に再現されるとともに、動画像2として表示される話し手の口唇1の動きに確実に同期した音声が出力され、受信側の聴き手は、より相手方の話しの内容が理解しやすくなる。
また、この方法2−1では、送話音声信号そのものではなく、送話音声信号の音声認識結果のテキスト情報を送信するので、方法1−1に比べて送信データ量を減らすことができる。
<方法2−2および方法2−3:図14>
方法2−2または方法2−3では、送信側では、口唇動き情報として、動きパラメータが送信され、送話音声情報として、方法2−1と同様に、送話音声信号の音声認識結果のテキスト情報が送信され、受信側では、方法1−2または方法1−3と同様に、動きパラメータをもとにCGによって、送信側の話し手の口唇の動きを示す絵柄または図形が生成され、表示されるとともに、方法2−1と同様に、音声認識結果のテキスト情報をもとに、テキスト音声合成によって合成音声信号が生成され、その合成音声信号によって音声が出力される。
方法2−2または方法2−3では、送信側では、口唇動き情報として、動きパラメータが送信され、送話音声情報として、方法2−1と同様に、送話音声信号の音声認識結果のテキスト情報が送信され、受信側では、方法1−2または方法1−3と同様に、動きパラメータをもとにCGによって、送信側の話し手の口唇の動きを示す絵柄または図形が生成され、表示されるとともに、方法2−1と同様に、音声認識結果のテキスト情報をもとに、テキスト音声合成によって合成音声信号が生成され、その合成音声信号によって音声が出力される。
具体的に、図14に示すように、送信側端末100の画像処理部125では、カメラ126から得られた口唇動画像信号から、話し手の口唇の動きが検出されて、動きパラメータが生成され、受信側端末200に送信されるとともに、受信側端末200の画像処理部217では、その動きパラメータをもとにCGによって絵柄または図形のデータが生成されて、図5または図6に示したように、表示部218上に、送信側端末100側の話し手の口唇1の動きが、絵柄3または図形4として表示される。送話音声情報の系については、方法2−1の図13と同じである。
したがって、この方法2−2または方法2−3では、方法2−1と同様に通話の明瞭度が向上する。
また、この方法2−2または方法2−3では、送話音声信号そのものではなく、その音声認識結果のテキスト情報を送信するとともに、口唇動画像信号そのものではなく、動きパラメータを送信するので、方法1(送話音声情報としては送話音声信号そのものを送信する場合)および方法2−1に比べて送信データ量を減らすことができる。
<方法2−4および方法2−5:図15>
方法2−4または方法2−5では、方法2−2または方法2−3と同様に、動きパラメータ、および送話音声信号の音声認識結果のテキスト情報が送信され、受信側では、方法1−4または方法1−5と同様に、動きパラメータをもとに光点滅信号が生成され、その光点滅信号によって表示部または発光素子が点滅されるとともに、方法2−1、方法2−2または方法2−3と同様に、音声認識結果のテキスト情報をもとに、テキスト音声合成によって合成音声信号が生成され、その合成音声信号によって音声が出力される。
方法2−4または方法2−5では、方法2−2または方法2−3と同様に、動きパラメータ、および送話音声信号の音声認識結果のテキスト情報が送信され、受信側では、方法1−4または方法1−5と同様に、動きパラメータをもとに光点滅信号が生成され、その光点滅信号によって表示部または発光素子が点滅されるとともに、方法2−1、方法2−2または方法2−3と同様に、音声認識結果のテキスト情報をもとに、テキスト音声合成によって合成音声信号が生成され、その合成音声信号によって音声が出力される。
具体的に、方法2−4では、図15に示すように、送信側端末100側は、方法2−2または方法2−3の図14と同じであり、受信側端末200側は、動きパラメータによる光点滅信号による表示部218の点滅については、方法1−4の図9と同じであり、音声認識結果のテキスト情報によるテキスト音声合成については、方法2−1の図13と同じである。
方法2−5では、表示部218が点滅される代わりに、例えば、図10(A)または(B)で上述したようにLED231または233が点滅される。
したがって、方法2−4または方法2−5では、方法2−1、方法2−2または方法2−3と同様に通話の明瞭度が向上するとともに、方法2−2または方法2−3と同様に送信データ量を減らすことができる。
<方法3−1:図16>
方法3の一方法である方法3−1では、送信側では、口唇動き情報として、口唇動画像信号そのものが送信され、送話音声情報として、上述した送話音声信号の音声認識結果のテキスト情報から、テキスト音声合成によって合成音声信号が生成されて送信され、受信側では、口唇動画像信号によって、送信側の話し手の口唇の動画像が表示されるとともに、合成音声信号によって音声が出力される。
方法3の一方法である方法3−1では、送信側では、口唇動き情報として、口唇動画像信号そのものが送信され、送話音声情報として、上述した送話音声信号の音声認識結果のテキスト情報から、テキスト音声合成によって合成音声信号が生成されて送信され、受信側では、口唇動画像信号によって、送信側の話し手の口唇の動画像が表示されるとともに、合成音声信号によって音声が出力される。
具体的に、図16に示すように、送信側端末100の画像処理部125では、図13に示した方法2−1と同様に、カメラ126から得られた口唇動画像信号がデジタルデータに変換され、さらに、その口唇動画像データが圧縮符号化されるとともに、その口唇動画像データから話し手の口唇の動きが検出されて、動きパラメータが生成される。
同時に、送信側端末100の音声処理部123では、マイクロフォン124から得られた送話音声信号がデジタルデータに変換され、さらに、その送話音声データに対して音声認識が実行されて、音声認識結果のテキスト情報が得られ、さらに、そのテキスト情報に対してテキスト音声合成が実行されて、合成音声信号のデータが得られる。この場合、画像処理部125で得られた動き検出の結果が音声認識およびテキスト音声合成に反映される。
そして、画像処理部125からの圧縮符号化された口唇動画像信号、および音声処理部123からの合成音声信号が、送受信部127およびアンテナ128によって、受信側端末200に送信される。
受信側端末200では、アンテナ228および送受信部227によって、その圧縮符号化された口唇動画像信号、および合成音声信号が受信され、圧縮符号化された口唇動画像信号は、画像処理部217で伸長復号され、アナログ信号に変換されて、図12に示したように、表示部218上に、送信側端末100側の話し手の口唇1の動きが、動画像2として表示される。
同時に、受信側端末200の音声処理部221では、合成音声信号がアナログ信号に変換されてスピーカ222に供給され、スピーカ222から、合成音声信号による音声が出力される。
したがって、この方法3−1では、方法2と同様に通話の明瞭度が向上する。
<方法3−2および方法3−3:図17>
方法3−2または方法3−3では、送信側では、口唇動き情報として、方法2−2または方法2−3と同様に、動きパラメータが送信され、送話音声情報として、方法3−1と同様に、テキスト音声合成による合成音声信号が送信され、受信側では、方法2−2または方法2−3と同様に、動きパラメータをもとにCGによって、送信側の話し手の口唇の動きを示す絵柄または図形が生成され、表示されるとともに、方法3−1と同様に、合成音声信号によって音声が出力される。
方法3−2または方法3−3では、送信側では、口唇動き情報として、方法2−2または方法2−3と同様に、動きパラメータが送信され、送話音声情報として、方法3−1と同様に、テキスト音声合成による合成音声信号が送信され、受信側では、方法2−2または方法2−3と同様に、動きパラメータをもとにCGによって、送信側の話し手の口唇の動きを示す絵柄または図形が生成され、表示されるとともに、方法3−1と同様に、合成音声信号によって音声が出力される。
具体的に、図17に示すように、口唇動き情報の系については、方法2−2または方法2−3の図14と同じであり、送話音声情報の系については、方法3−1の図16と同じである。
したがって、この方法3−2または方法3−3でも、方法2と同様に通話の明瞭度が向上する。
<方法3−4および方法3−5:図18>
方法3−4または方法3−5では、方法3−2または方法3−3と同様に、動きパラメータ、およびテキスト音声合成による合成音声信号が送信され、受信側では、方法2−4または方法2−5と同様に、動きパラメータをもとに光点滅信号が生成され、その光点滅信号によって表示部または発光素子が点滅されるとともに、方法3−1、方法3−2または方法3−3と同様に、合成音声信号によって音声が出力される。
方法3−4または方法3−5では、方法3−2または方法3−3と同様に、動きパラメータ、およびテキスト音声合成による合成音声信号が送信され、受信側では、方法2−4または方法2−5と同様に、動きパラメータをもとに光点滅信号が生成され、その光点滅信号によって表示部または発光素子が点滅されるとともに、方法3−1、方法3−2または方法3−3と同様に、合成音声信号によって音声が出力される。
具体的に、方法3−4では、図18に示すように、口唇動き情報の系については、方法2−4の図15と同じであり、送話音声情報の系については、方法3−1の図16と同じである。
方法3−5では、表示部218が点滅される代わりに、例えば、図10(A)または(B)で上述したようにLED231または233が点滅される。
したがって、方法3−4または方法3−5でも、方法2と同様に通話の明瞭度が向上する。
主要部については図中に全て記述したので、ここでは省略する。
Claims (15)
- 送信側端末において、話し手の口唇を送話用マイクロフォンの近傍に設けられたカメラによって撮影して口唇動画像信号を得る工程と、
その口唇動画像信号、および前記送話用マイクロフォンからの送話音声信号を、前記送信側端末から受信側端末に送信する工程と、
前記受信側端末において、前記口唇動画像信号によって前記話し手の口唇の動画像をディスプレイ上に表示する工程と、
前記受信側端末において、前記送話音声信号によって音声を出力する工程と、
を備える通話送受信方法。 - 送信側端末において、話し手の口唇を送話用マイクロフォンの近傍に設けられたカメラによって撮影して口唇動画像信号を得る工程と、
前記送信側端末において、前記口唇動画像信号から前記話し手の口唇の動きを検出して動きパラメータを生成する工程と、
その動きパラメータ、および前記送話用マイクロフォンからの送話音声信号を、前記送信側端末から受信側端末に送信する工程と、
前記受信側端末において、前記動きパラメータをもとにコンピュータグラフィックスによって、前記話し手の口唇の動きを示す絵柄または図形を生成して、ディスプレイ上に表示する工程と、
前記受信側端末において、前記送話音声信号によって音声を出力する工程と、
を備える通話送受信方法。 - 送信側端末において、話し手の口唇を送話用マイクロフォンの近傍に設けられたカメラによって撮影して口唇動画像信号を得る工程と、
前記送信側端末において、前記口唇動画像信号から前記話し手の口唇の動きを検出して動きパラメータを生成する工程と、
その動きパラメータ、および前記送話用マイクロフォンからの送話音声信号を、前記送信側端末から受信側端末に送信する工程と、
前記受信側端末において、前記動きパラメータをもとに光点滅信号を生成し、その光点滅信号によってディスプレイまたは発光素子を点滅させる工程と、
前記受信側端末において、前記送話音声信号によって音声を出力する工程と、
を備える通話送受信方法。 - 送信側端末において、話し手の口唇を送話用マイクロフォンの近傍に設けられたカメラによって撮影して口唇動画像信号を得る工程と、
前記送信側端末において、前記送話用マイクロフォンからの送話音声信号を音声認識して音声認識結果のテキスト情報を得る工程と、
前記口唇動画像信号および前記テキスト情報を、前記送信側端末から受信側端末に送信する工程と、
前記受信側端末において、前記口唇動画像信号によって前記話し手の口唇の動画像をディスプレイ上に表示する工程と、
前記受信側端末において、前記テキスト情報をもとにテキスト音声合成によって合成音声信号を生成し、その合成音声信号によって音声を出力する工程と、
を備える通話送受信方法。 - 送信側端末において、話し手の口唇を送話用マイクロフォンの近傍に設けられたカメラによって撮影して口唇動画像信号を得る工程と、
前記送信側端末において、前記口唇動画像信号から前記話し手の口唇の動きを検出して動きパラメータを生成する工程と、
前記送信側端末において、前記送話用マイクロフォンからの送話音声信号を音声認識して音声認識結果のテキスト情報を得る工程と、
前記動きパラメータおよび前記テキスト情報を、前記送信側端末から受信側端末に送信する工程と、
前記受信側端末において、前記動きパラメータをもとにコンピュータグラフィックスによって、前記話し手の口唇の動きを示す絵柄または図形を生成して、ディスプレイ上に表示する工程と、
前記受信側端末において、前記テキスト情報をもとにテキスト音声合成によって合成音声信号を生成し、その合成音声信号によって音声を出力する工程と、
を備える通話送受信方法。 - 送信側端末において、話し手の口唇を送話用マイクロフォンの近傍に設けられたカメラによって撮影して口唇動画像信号を得る工程と、
前記送信側端末において、前記口唇動画像信号から前記話し手の口唇の動きを検出して動きパラメータを生成する工程と、
前記送信側端末において、前記送話用マイクロフォンからの送話音声信号を音声認識して音声認識結果のテキスト情報を得る工程と、
前記動きパラメータおよび前記テキスト情報を、前記送信側端末から受信側端末に送信する工程と、
前記受信側端末において、前記動きパラメータをもとに光点滅信号を生成し、その光点滅信号によってディスプレイまたは発光素子を点滅させる工程と、
前記受信側端末において、前記テキスト情報をもとにテキスト音声合成によって合成音声信号を生成し、その合成音声信号によって音声を出力する工程と、
を備える通話送受信方法。 - 送信側端末において、話し手の口唇を送話用マイクロフォンの近傍に設けられたカメラによって撮影して口唇動画像信号を得る工程と、
前記送信側端末において、前記送話用マイクロフォンからの送話音声信号を音声認識して音声認識結果のテキスト情報を得、そのテキスト情報をもとにテキスト音声合成によって合成音声信号を得る工程と、
前記口唇動画像信号および前記合成音声信号を、前記送信側端末から受信側端末に送信する工程と、
前記受信側端末において、前記口唇動画像信号によって前記話し手の口唇の動画像をディスプレイ上に表示する工程と、
前記受信側端末において、前記合成音声信号によって音声を出力する工程と、
を備える通話送受信方法。 - 送信側端末において、話し手の口唇を送話用マイクロフォンの近傍に設けられたカメラによって撮影して口唇動画像信号を得る工程と、
前記送信側端末において、前記口唇動画像信号から前記話し手の口唇の動きを検出して動きパラメータを生成する工程と、
前記送信側端末において、前記送話用マイクロフォンからの送話音声信号を音声認識して音声認識結果のテキスト情報を得、そのテキスト情報をもとにテキスト音声合成によって合成音声信号を得る工程と、
前記動きパラメータおよび前記合成音声信号を、前記送信側端末から受信側端末に送信する工程と、
前記受信側端末において、前記動きパラメータをもとにコンピュータグラフィックスによって、前記話し手の口唇の動きを示す絵柄または図形を生成して、ディスプレイ上に表示する工程と、
前記受信側端末において、前記合成音声信号によって音声を出力する工程と、
を備える通話送受信方法。 - 送信側端末において、話し手の口唇を送話用マイクロフォンの近傍に設けられたカメラによって撮影して口唇動画像信号を得る工程と、
前記送信側端末において、前記口唇動画像信号から前記話し手の口唇の動きを検出して動きパラメータを生成する工程と、
前記送信側端末において、前記送話用マイクロフォンからの送話音声信号を音声認識して音声認識結果のテキスト情報を得、そのテキスト情報をもとにテキスト音声合成によって合成音声信号を得る工程と、
前記動きパラメータおよび前記合成音声信号を、前記送信側端末から受信側端末に送信する工程と、
前記受信側端末において、前記動きパラメータをもとに光点滅信号を生成し、その光点滅信号によってディスプレイまたは発光素子を点滅させる工程と、
前記受信側端末において、前記合成音声信号によって音声を出力する工程と、
を備える通話送受信方法。 - 送話用マイクロフォンと、
この送話用マイクロフォンの近傍に設けられ、話し手の口唇を撮影するカメラと、
このカメラからの口唇動画像信号、および前記送話用マイクロフォンからの送話音声信号を、他の通話端末に送信する送受信手段と、
を備える通話端末。 - 送話用マイクロフォンと、
この送話用マイクロフォンの近傍に設けられ、話し手の口唇を撮影するカメラと、
このカメラからの口唇動画像信号から前記話し手の口唇の動きを検出して、動きパラメータを生成する信号処理手段と、
その動きパラメータ、および前記送話用マイクロフォンからの送話音声信号を、他の通話端末に送信する送受信手段と、
を備える通話端末。 - 送話用マイクロフォンと、
この送話用マイクロフォンの近傍に設けられ、話し手の口唇を撮影するカメラと、
前記送話用マイクロフォンからの送話音声信号を音声認識し、音声認識結果のテキスト情報を得る信号処理手段と、
そのテキスト情報、および前記カメラからの口唇動画像信号を、他の通話端末に送信する送受信手段と、
を備える通話端末。 - 送話用マイクロフォンと、
この送話用マイクロフォンの近傍に設けられ、話し手の口唇を撮影するカメラと、
このカメラからの口唇動画像信号から前記話し手の口唇の動きを検出して、動きパラメータを生成する信号処理手段と、
前記送話用マイクロフォンからの送話音声信号を音声認識し、音声認識結果のテキスト情報を得る信号処理手段と、
そのテキスト情報、および前記動きパラメータを、他の通話端末に送信する送受信手段と、
を備える通話端末。 - 送話用マイクロフォンと、
この送話用マイクロフォンの近傍に設けられ、話し手の口唇を撮影するカメラと、
前記送話用マイクロフォンからの送話音声信号を音声認識して音声認識結果のテキスト情報を得、そのテキスト情報をもとにテキスト音声合成によって合成音声信号を得る信号処理手段と、
その合成音声信号、および前記カメラからの口唇動画像信号を、他の通話端末に送信する送受信手段と、
を備える通話端末。 - 送話用マイクロフォンと、
この送話用マイクロフォンの近傍に設けられ、話し手の口唇を撮影するカメラと、
このカメラからの口唇動画像信号から前記話し手の口唇の動きを検出して、動きパラメータを生成する信号処理手段と、
前記送話用マイクロフォンからの送話音声信号を音声認識して音声認識結果のテキスト情報を得、そのテキスト情報をもとにテキスト音声合成によって合成音声信号を得る信号処理手段と、
その合成音声信号、および前記動きパラメータを、他の通話端末に送信する送受信手段と、
を備える通話端末。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004176958A JP2006005440A (ja) | 2004-06-15 | 2004-06-15 | 通話送受信方法および通話端末 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004176958A JP2006005440A (ja) | 2004-06-15 | 2004-06-15 | 通話送受信方法および通話端末 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006005440A true JP2006005440A (ja) | 2006-01-05 |
Family
ID=35773483
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004176958A Pending JP2006005440A (ja) | 2004-06-15 | 2004-06-15 | 通話送受信方法および通話端末 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006005440A (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100775190B1 (ko) | 2006-05-24 | 2007-11-12 | 엘지전자 주식회사 | 멀티미디어 합성 방법 및 이를 이용한 단말기 |
JP2015220684A (ja) * | 2014-05-20 | 2015-12-07 | 株式会社ニコン | 携帯端末装置および読唇処理プログラム |
US9712666B2 (en) | 2013-08-29 | 2017-07-18 | Unify Gmbh & Co. Kg | Maintaining audio communication in a congested communication channel |
US10069965B2 (en) | 2013-08-29 | 2018-09-04 | Unify Gmbh & Co. Kg | Maintaining audio communication in a congested communication channel |
JP2019015773A (ja) * | 2017-07-04 | 2019-01-31 | 富士ゼロックス株式会社 | 情報処理装置およびプログラム |
WO2019142424A1 (ja) | 2018-01-17 | 2019-07-25 | 株式会社Jvcケンウッド | 表示制御装置、通信装置、表示制御方法およびプログラム |
US11189281B2 (en) | 2017-03-17 | 2021-11-30 | Samsung Electronics Co., Ltd. | Method and system for automatically managing operations of electronic device |
-
2004
- 2004-06-15 JP JP2004176958A patent/JP2006005440A/ja active Pending
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100775190B1 (ko) | 2006-05-24 | 2007-11-12 | 엘지전자 주식회사 | 멀티미디어 합성 방법 및 이를 이용한 단말기 |
US9712666B2 (en) | 2013-08-29 | 2017-07-18 | Unify Gmbh & Co. Kg | Maintaining audio communication in a congested communication channel |
US10069965B2 (en) | 2013-08-29 | 2018-09-04 | Unify Gmbh & Co. Kg | Maintaining audio communication in a congested communication channel |
JP2015220684A (ja) * | 2014-05-20 | 2015-12-07 | 株式会社ニコン | 携帯端末装置および読唇処理プログラム |
US11189281B2 (en) | 2017-03-17 | 2021-11-30 | Samsung Electronics Co., Ltd. | Method and system for automatically managing operations of electronic device |
JP2019015773A (ja) * | 2017-07-04 | 2019-01-31 | 富士ゼロックス株式会社 | 情報処理装置およびプログラム |
JP7056020B2 (ja) | 2017-07-04 | 2022-04-19 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置およびプログラム |
US11682392B2 (en) | 2017-07-04 | 2023-06-20 | Fujifilm Business Innovation Corp. | Information processing apparatus |
WO2019142424A1 (ja) | 2018-01-17 | 2019-07-25 | 株式会社Jvcケンウッド | 表示制御装置、通信装置、表示制御方法およびプログラム |
KR20200044947A (ko) | 2018-01-17 | 2020-04-29 | 가부시키가이샤 제이브이씨 켄우드 | 표시 제어 장치, 통신 장치, 표시 제어 방법 및 컴퓨터 프로그램 |
US11508106B2 (en) | 2018-01-17 | 2022-11-22 | Jvckenwood Corporation | Display control device, communication device, display control method, and recording medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9756422B2 (en) | Noise estimation in a mobile device using an external acoustic microphone signal | |
CN113873378B (zh) | 一种耳机噪声处理方法、装置及耳机 | |
CN106601272B (zh) | 耳机及其语音识别方法 | |
US20150319546A1 (en) | Hearing Assistance System | |
JP2017211640A (ja) | 補聴器機能の能動騷音除去ヘッドセット装置 | |
CN111294438B (zh) | 实现立体声输出的方法及终端 | |
CN111464905A (zh) | 基于智能穿戴设备的听力增强方法、系统和穿戴设备 | |
JP2004349851A (ja) | 携帯端末、画像通信プログラム、及び画像通信方法 | |
WO2008031955A3 (fr) | Procede et systeme d'animation d'un avatar en temps reel a partir de la voix d'un interlocuteur | |
CN110290262A (zh) | 一种通话方法及终端设备 | |
JP2011114677A (ja) | 携帯電話音声再生システム | |
CN112783330A (zh) | 电子设备的操作方法、装置和电子设备 | |
US20230091607A1 (en) | Psychoacoustics-based audio encoding method and apparatus | |
JP2009218950A (ja) | カメラ付き携帯端末装置 | |
CN113194383A (zh) | 一种声音播放方法、装置、电子设备及可读存储介质 | |
CN111065020B (zh) | 音频数据处理的方法和装置 | |
JP2006005440A (ja) | 通話送受信方法および通話端末 | |
US6687338B2 (en) | Call waiting notification | |
CN102396211A (zh) | 气氛电话通信系统、运动部件及其方法和计算机可读介质 | |
US20230143588A1 (en) | Bone conduction transducers for privacy | |
CN111935578A (zh) | 一种耳机及控制方法 | |
US20190004766A1 (en) | Wired wearable audio video to wireless audio video bridging device | |
CN114710730A (zh) | 音量提示方法、装置、耳机及存储介质 | |
JP6210448B2 (ja) | 携帯端末装置 | |
JP4600643B2 (ja) | 文字表示機能を有するテレビ電話装置及びテレビ電話装置における音声の文字変換表示方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070529 |
|
A977 | Report on retrieval |
Effective date: 20080912 Free format text: JAPANESE INTERMEDIATE CODE: A971007 |
|
A131 | Notification of reasons for refusal |
Effective date: 20080917 Free format text: JAPANESE INTERMEDIATE CODE: A131 |
|
A02 | Decision of refusal |
Effective date: 20090204 Free format text: JAPANESE INTERMEDIATE CODE: A02 |