JP2005004535A - 携帯通信端末及び画像処理方法 - Google Patents
携帯通信端末及び画像処理方法 Download PDFInfo
- Publication number
- JP2005004535A JP2005004535A JP2003168232A JP2003168232A JP2005004535A JP 2005004535 A JP2005004535 A JP 2005004535A JP 2003168232 A JP2003168232 A JP 2003168232A JP 2003168232 A JP2003168232 A JP 2003168232A JP 2005004535 A JP2005004535 A JP 2005004535A
- Authority
- JP
- Japan
- Prior art keywords
- mouth
- image
- motion vector
- communication terminal
- generating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Processing Or Creating Images (AREA)
- Image Analysis (AREA)
Abstract
【課題】聴覚障害者との通話性能を向上させた携帯通信端末及び画像処理方法を提供する。
【解決手段】フレームごとの撮影画像を順次に生成する撮像手段2と、撮影画像からフレーム内の各点についてフレーム間の動きベクトルを生成する動きベクトル生成手段3と、動きベクトルに基づいて撮影画像から口の輪郭を抽出する口輪郭抽出手段4と、口輪郭抽出手段4により抽出された口の輪郭及び動きベクトルに基づいて、口の動きを表すアニメーション動画を生成するアニメーション動画生成手段5と、画像データを圧縮する画像圧縮手段6と、アンテナ8を介して圧縮データを送信する送信手段7により構成される。
【選択図】 図1
【解決手段】フレームごとの撮影画像を順次に生成する撮像手段2と、撮影画像からフレーム内の各点についてフレーム間の動きベクトルを生成する動きベクトル生成手段3と、動きベクトルに基づいて撮影画像から口の輪郭を抽出する口輪郭抽出手段4と、口輪郭抽出手段4により抽出された口の輪郭及び動きベクトルに基づいて、口の動きを表すアニメーション動画を生成するアニメーション動画生成手段5と、画像データを圧縮する画像圧縮手段6と、アンテナ8を介して圧縮データを送信する送信手段7により構成される。
【選択図】 図1
Description
【0001】
【発明の属する技術分野】
本発明は、携帯通信端末及び画像処理方法に係り、より詳しくは、デジタルカメラ搭載の携帯電話機などの携帯通信端末であって、撮影しながらデータ通信が行える携帯通信端末の改良に関する。
【0002】
【従来の技術】
近年、デジタルカメラを搭載し、テレビ電話機能を有する携帯電話機、いわゆる、次世代型の携帯電話機が商品化され普及しつつある。このテレビ電話機能とは、撮影しながらデータ通信が行えるというものであり、例えば、自局端末のデジタルカメラにより撮影された通話者の画像が順次に送信され、無線通信回線を介して受信した画像が相手局端末に画面表示される。これにより、通信相手は、通話者の表情などを見ながら通話を行うことができる。一方、従来から、耳の不自由な聴覚障害者と通話ができる携帯通信端末が望まれている。
【0003】
聴覚障害者との通話を可能とする従来の携帯通信端末としては、例えば、特許文献1に記載のものがある。特許文献1に記載の携帯通信端末は、通信手段及び外部インターフェイスを有する情報端末と、外部インターフェイスに接合されるインターフェイス、音声認識処理部、音声合成処理部、音声サンプルデータが格納されているデータベース、表示部及び入力部を備えたディスプレイ装置により構成される。
【0004】
この携帯通信端末では、相手局端末により送信された音声信号を通信手段が受信し、音声認識処理部によって受信信号から通話者の音声が認識される。この音声の認識結果は、文字情報として表示部に表示される。この様な携帯通信端末を用いれば、通話内容が文字で表示されるので、聴覚障害者であっても、通話をすることができる。しかし、この様な従来の携帯通信端末では、通話者の音声に基づいて言語情報の認識が行われるので、同一の文字(言語情報)であっても声の高さ、声の強さ及び声の調子の違いにより、音声が誤認識され誤った文字に変換されてしまうということが少なくないと考えられる。
【0005】
また、上述した従来の携帯通信端末では、聴覚障害者が自局端末から送信する場合に、タッチペンを用いて文字入力が行われ、入力された文字に基づいて音声が合成され音声信号が相手局端末に送信される。この場合には、入力に慣れを要するとともに、入力に時間が長くかかるので、通話におけるリアルタイム性が損なわれてしまうという問題もあった。
【0006】
テレビ電話機能を有する従来の携帯通信端末としては、例えば、特許文献2に記載のものがある。特許文献2に記載の携帯通信端末は、顔のパーツが部品化された顔画像を登録する登録手段と、撮像手段と、動きベクトル生成手段と、送信手段により構成される。動きベクトル生成手段は、撮像手段により撮影された通話者の顔の表情に変化があると、その変化があった部分に対応する顔のパーツの顔画像を登録手段から読み出し、その顔のパーツの動きベクトルを生成する。生成された動きベクトルは、送信手段により送信される。
【0007】
この様な携帯通信端末を用いれば、変化があった顔のパーツの動きベクトルが送信されるので、相手局端末は、この動きベクトルに基づいて、通話者の表情の変化を画面表示することができる。しかし、この様な従来の携帯通信端末は、顔の表情の変化を伝えるものであって、口の動きや手の動きなどを詳細に伝えるものではない。このため、表示画像から口の動きなどを読み取るのは容易ではなく、従って、聴覚障害者との通話を可能とするものではない。
【0008】
【特許文献1】
特開2000−197115号公報
【特許文献2】
特開2002−176632号公報
【0009】
【発明が解決しようとする課題】
本発明は、上記事情に鑑みてなされたものであり、聴覚障害者との通話性能を向上させた携帯通信端末及び画像処理方法を提供することを目的としている。また、本発明の他の目的は、通話内容を誤認識することなく聴覚障害者との通話が可能な携帯通信端末を提供することにある。また、本発明の他の目的は、通話におけるリアルタイム性を損なうことなく聴覚障害者との通話が可能な携帯通信端末を提供することにある。また、本発明の他の目的は、聴覚障害者が容易に通話を行うことができる携帯通信端末を提供することにある。
【0010】
【課題を解決するための手段】
本発明による携帯通信端末は、フレームごとの撮影画像を順次に生成する撮像手段と、撮影画像からフレーム内の各点についてフレーム間の動きベクトルを生成する動きベクトル生成手段と、上記動きベクトルに基づいて、アニメーション動画を生成するアニメーション動画生成手段により構成される。
【0011】
フレームごとに撮影画像を生成し、フレーム間の動きベクトルを生成することにより、この動きベクトルに基づいてアニメーション動画を生成しているので、通話時に、通話者が自分を撮像手段により撮影すれば、アニメーション動画として通話者の動きを詳細に表すことができる。特に、動きベクトルに基づいて撮影画像から口の輪郭が抽出されるようにすると、通話者が自分の口を撮影することによって口の輪郭が抽出され、口の動きを表すアニメーション動画を生成することができる。従って、この様なアニメーション動画を送信することにより、相手局端末側の通話者は、アニメーション動画から口の動きを容易に識別することができる。
【0012】
また、本発明による携帯通信端末は、上記構成に加え、マイクから入力された音声信号について音量を検出する音量検出手段を備え、上記アニメーション動画生成手段は、上記音量検出手段により検出された音量に基づいてアニメーション動画を生成するように構成される。この様な構成によれば、音量の変化に基づいてアニメーション動画を生成することができる。例えば、音量が増加した場合に、動きベクトルを拡大させてアニメーション動画を生成することができる。従って、通話時に、通話者が自分の口を撮影しながら音声をマイクから入力すれば、口の動きが誇張されたアニメーション動画を生成することができる。
【0013】
また、本発明による携帯通信端末は、上記構成に加え、上記動きベクトルに基づいて、撮影画像から口の輪郭を抽出する輪郭抽出手段と、上記輪郭抽出手段により抽出された口の輪郭に基づいて、言語情報を順次に識別する画像識別手段と、言語情報ごとの手話に対応する複数の動画を記憶する手話画像記憶手段を備え、上記アニメーション動画生成手段は、上記画像識別手段により識別された言語情報に基づいて、上記手話画像記憶手段から動画を読み出し、アニメーション動画を生成するように構成される。
【0014】
この様な構成によれば、撮影画像から生成された動きベクトルに基づいて口の輪郭が抽出されるので、順次に抽出される口の輪郭から通話者が口の動きで表現した言語情報を識別することができる。従って、言語情報ごとの手話に対応する動画を予め記憶させておき、通話時に、通話者が自分の口を撮影することによって、口の動きで表現された言語情報に対応する手話を表すアニメーション動画を生成することができる。
【0015】
また、マイクから入力された音声信号に基づいて言語情報を識別する音声識別手段を備え、上記アニメーション動画生成手段が、上記画像識別手段及び上記音声識別手段による識別結果に基づいて、動画を読み出すように構成すれば、マイクからの音声信号から言語情報が識別されるので、例えば、口の動きからは言語情報が識別できなかった場合に、通話者の発した音声から識別された言語情報に基づいて、アニメーション動画を生成することができる。
【0016】
また、本発明による携帯通信端末は、フレームごとの撮影画像を順次に生成する撮像手段と、撮影画像からフレーム内の各点についてフレーム間の動きベクトルを生成する動きベクトル生成手段と、上記動きベクトルに基づいて言語情報を順次に識別する画像識別手段と、言語情報ごとの音声を記憶する音声記憶手段と、上記画像識別手段により識別された言語情報に基づいて、上記音声記憶手段から音声を読み出し、音声信号を生成する音声信号生成手段により構成される。
【0017】
この様な構成によれば、フレームごとに生成される撮影画像に基づいて、フレーム間の動きベクトルが生成されるので、通話時に、通話者が自分を撮影することによって、通話者の動きから言語情報を識別することができる。例えば、撮影画像から口の輪郭が抽出されるようにすれば、口の動きから通話者が口で表現した言語情報を識別することができる。また、撮影画像から手の輪郭が抽出されるようにすれば、手の動きから通話者が手で表現した言語情報を識別することができる。従って、言語情報ごとの音声を予め記憶させておき、通話時に、通話者が自分の口や手を撮影することによって、口または手の動きで表現された言語情報を音声信号に変換することができる。
【0018】
【発明の実施の形態】
実施の形態1.
図1は、本発明の実施の形態1による携帯通信端末の一構成例を示したブロック図である。本実施の形態の携帯通信端末1は、携帯電話機などの携帯可能な小型の電子機器であって、通話者の口の動きをアニメーションキャラクタの口の動きで表した動画を生成することができる。
【0019】
この携帯通信端末1は、撮像手段2、動きベクトル生成手段3、口輪郭抽出手段4、アニメーション動画生成手段5、画像圧縮手段6、送信手段7、アンテナ8及び静止画像記憶手段9により構成される。
【0020】
撮像手段2は、CCD(電荷結合素子)カメラなどのデジタルカメラであり、撮影した画像を動きベクトル生成手段3へ出力している。撮影画像は、画素ごとの輝度レベルを表すデジタルデータからなり、フレームごとに順次に生成される。この撮像手段2によって通話者の口が撮影される。
【0021】
動きベクトル生成手段3は、撮影対象の動きを表す動きベクトルを口輪郭抽出手段4及びアニメーション動画生成手段5へ出力している。この動きベクトルは、撮像手段2からの撮影画像に基づいて生成され、フレーム内の各点について、フレーム間の動き、すなわち、位置の変化量及び向きが検出される。例えば、1つ前のフレームと比較して、輝度レベルが同じであるかあるいは最も近い画素間の動きが検出される。この様にして検出されたフレーム内の各点の動きが動きベクトルとして順次に出力される。
【0022】
口輪郭抽出手段4は、撮影画像から口の輪郭の抽出を行っている。口の輪郭の抽出は、動きベクトル生成手段3により生成された動きベクトルに基づいて行われる。例えば、動きベクトルの始点を線で結ぶことによって、口の輪郭が抽出される。口の輪郭の抽出に際しては、平滑化が行われ、この平滑化によって滑らかな閉曲線として口の輪郭が抽出される。つまり、フレーム内で動きのあった部分を口とみなし、平滑化を行うことによって、口の形を判別し易くすることができる。
【0023】
アニメーション動画生成手段5は、通話者の口の動きをアニメーションキャラクタの口の動きで表すアニメーション動画の生成を行っている。このアニメーション動画は、口輪郭抽出手段4により撮影画像から抽出された口の輪郭と、動きベクトル生成手段3から順次に入力される動きベクトルに基づいて生成される。
【0024】
例えば、動画生成のもとになるアニメーションキャラクタの静止画像を予め静止画像記憶手段9に記憶しておき、この静止画像におけるアニメーションキャラクタの口を動きベクトルに基づいて変化させることによって、通話者の口の動きに対応するアニメーション動画が作成される。すなわち、まず、撮影画像から抽出された口の輪郭に対応させてアニメーションキャラクタの口を作成し、次に、このアニメーションキャラクタの口を動きベクトルに対応して1つの静止画像を変形させていくことにより、アニメーション動画が生成される。
【0025】
なお、アニメーション動画の作成において、動きベクトルを所定の倍率で拡大することにより、アニメーションキャラクタの口の動きを表すようにすれば、口の動きを誇張してアニメーション動画を生成することができる。
【0026】
画像圧縮手段6は、アニメーション動画生成手段5により生成されたアニメーション動画を所定の画像データ圧縮方法で圧縮し、圧縮データを送信手段7へ順次に出力している。画像データ圧縮方法としては、動画のデータ通信に適したものであって、データ処理能力が高くない端末であってもデータ通信可能なものであるとする。例えば、アニメーション動画は、MPEG4にエンコードされて出力される。
【0027】
送信手段7は、画像圧縮手段6からの圧縮データをベースバンドとして搬送波を変調し、アンテナ8を介して送信している。つまり、撮像手段2によって撮影された通話者の口の動きは、アニメーションキャラクタの口の動きに変換され、アニメーション動画として順次に送信される。従って、相手局端末側の通話者は、受信したアニメーション動画を介して送信側の通話者の口の動きを識別することができる。
【0028】
図2のステップS1〜S7は、図1の携帯通信端末におけるアニメーション動画の生成から送信までの動作の一例を示したフローチャートである。まず、自局端末側の通話者は、聴覚障害者と通話を行う場合に、相手局端末と通信回線を接続した後、撮像手段2により自分の口元をクローズアップして撮影する。
【0029】
撮影画像は、順次に動きベクトル生成手段3に出力され(ステップS1)、動きベクトル生成手段3によってフレーム間の動きベクトルが生成される(ステップS2)。生成された動きベクトルの一部は、口輪郭抽出手段4に出力され、撮影画像から口の輪郭が抽出される(ステップS3)。
【0030】
次に、アニメーション動画生成手段5は、口輪郭抽出手段4により撮影画像から抽出された口の輪郭と、動きベクトル生成手段3により生成された動きベクトルに基づいて、アニメーション動画を生成する(ステップS4)。生成されたアニメーション動画は、画像圧縮手段6により圧縮され、送信手段7によって順次に送信される(ステップS5,S6)。
【0031】
アニメーション動画の圧縮送信は、通話が終了するまで繰り返し行われ、通話者によって通話終了の操作が行われると、アニメーション動画の送信は終了し、この様な動画生成処理が終了する(ステップS7)。
【0032】
本実施の形態によれば、通話時に、通話者が自分の口元を撮像手段2によって撮影することにより、通話者の口の動きを詳細に表したアニメーション動画を生成することができる。この様なアニメーション動画が相手局端末に送信されるので、相手局端末側の通話者は、アニメーション動画から口の動きを容易に識別することができる。つまり、自局端末側の通話者が、撮像手段2に向かって通話内容を口の動きで表現するか、あるいは、話し掛けることによって、アニメーション動画が生成され、相手局端末に送信される。そして、相手局端末側の通話者は、受信したアニメーション動画における口の動きから通話内容を識別することができる。従って、相手局端末側の通話者が聴覚障害者であっても、アニメーション動画における口の動きによって通話内容を伝えることができる。
【0033】
また、通話者の口の動きでもって通話内容が伝えられるので、通話者の音声に基づいて言語情報を認識するものとは異なり、通話内容を誤認識することはない。従って、通話内容を正確に伝えることができ、聴覚障害者との通話性能が向上する。また、動画により通話が行われるので、文字入力するものに比べ、タイムラグがなく、聴覚障害者との通話において、通話におけるリアルタイム性が損なわれることはない。
【0034】
なお、本実施の形態では、アニメーションキャラクタの口を動きベクトルに基づいて変化させることによって、アニメーション動画が生成される場合について説明したが、本発明は、これに限られるものではない。例えば、口の形状に対応する複数の静止画像を予め記憶しておき、これらの静止画像を組み合わせることによってアニメーション動画を生成するようなものであっても良い。
【0035】
図3は、その様な携帯通信端末の構成例を示したブロック図である。この携帯通信端末では、口輪郭抽出手段4が動きベクトルに基づいて撮影画像から口の輪郭を順次に抽出し、アニメーション動画生成手段5が口輪郭抽出手段4から順次に入力される口の輪郭に基づいてアニメーション動画を生成している。静止画像記憶手段9には、様々な口の形状に対応する複数の静止画像が記憶され、アニメーション動画生成手段5は、口輪郭抽出手段4により抽出された口の輪郭に基づいて、静止画像記憶手段9から静止画像を順次に読み出し、読み出した静止画像を組み合わせることにより、アニメーション動画が作成される。この様にしても、アニメーション動画を生成することができる。
【0036】
また、本実施の形態では、通話者の口の動きを伝えるものについて説明したが、手の動きを伝えるようなものであっても良い。例えば、通話者が自分の手を撮影することによって、手の動きを表したアニメーション動画が生成され、相手局端末に送信されるようなものであっても良い。この様にしても、通話者が通話内容を手の動き(手話)で表現することによって、手の動きが相手局端末に伝えられ、相手局端末側の通話者は、手の動きによって通話内容を識別することができる。
【0037】
実施の形態2.
実施の形態1では、通話者の口の動きを表すアニメーション動画が生成される携帯通信端末について説明した。これに対し、本実施の形態では、手の動き(手話)を表すアニメーション動画が生成される携帯通信端末について説明する。
【0038】
図4は、本発明の実施の形態2による携帯通信端末の構成例を示したブロック図である。本実施の形態の携帯通信端末10は、図1の携帯通信端末1(実施の形態1)と比較して、言語情報を識別する画像識別手段11と、言語情報ごとの手話に対応する複数の動画を記憶する手話画像記憶手段13を備えている点で異なる。
【0039】
画像識別手段11は、口輪郭抽出手段4により抽出された口の輪郭と、動きベクトル生成手段3により順次に生成された動きベクトルに基づいて、言語情報の識別を行っている。すなわち、通話者の口の輪郭とその動きから、通話者が口の動きで表現した言語情報が識別される。例えば、言語情報として、「こんにちは」といった単語を口の動きから識別することができる。
【0040】
手話画像記憶手段13は、アニメーション動画生成のもとになる画像を予め記憶させておくものであり、各単語(言語情報)を表現する手話に対応して複数の動画が記憶されている。これらの動画は、アニメーションキャラクタの手の動きを表すものであっても良いし、撮像手段2などにより予め撮影された手の映像であっても良い。
【0041】
アニメーション動画生成手段12は、画像識別手段11により撮影画像から識別された言語情報に基づいて、手話画像記憶手段13から動画を読み出し、アニメーション動画を生成する。つまり、通話者が口の動きで表現した言語情報が識別され、この言語情報に対応する手の動きを表したアニメーション動画が生成される。その他の構成は、図1の携帯通信端末1と同様である。
【0042】
本実施の形態によれば、通話時に、通話者が自分の口を撮影することによって、口の動きで表現された言語情報に対応する手話を表すアニメーション動画が生成されるので、相手局端末側の通話者に手の動きでもって通話内容を伝えることができる。
【0043】
実施の形態3.
図5は、本発明の実施の形態3による携帯通信端末の構成例を示したブロック図である。本実施の形態の携帯通信端末1aは、図1の携帯通信端末1と比較して、マイク14から入力された音声信号について音量を検出する音量検出手段15を備えている点で異なる。
【0044】
音量検出手段15は、撮像手段2が撮影画像を生成するごとに音量の検出を行い、検出結果をアニメーション動画生成手段5へ順次に出力している。音量の検出は、マイク14からの音声信号について振幅レベルを判別することにより行われる。これによって、通話者が通話時に発した音声の強度変化を検出することができる。
【0045】
アニメーション動画生成手段5は、音量検出手段15により順次に検出された音量に基づいて、アニメーション動画を生成する。例えば、フレーム間で音量が増加した場合に、フレーム間で生成された動きベクトルを拡大させてアニメーション動画が生成される。動きベクトルの拡大は、音量の増加率に比例する倍率で行われる。つまり、マイク14から入力される音声信号に基づいて、アニメーション動画における口の動きを強調することができる。その他の構成は、図1の携帯通信端末1と同様である。
【0046】
本実施の形態によれば、音量検出手段15により検出された音量に基づいてアニメーション動画が生成されるので、音量の変化に基づいてアニメーション動画を生成することができる。特に、音量が増加した場合に、動きベクトルを拡大させてアニメーション動画が生成されるので、通話時に、通話者が自分の口を撮影しながら音声をマイクから入力すれば、音量の変化に応じて口の動きが誇張されたアニメーション動画を生成することができる。
【0047】
実施の形態4.
図6は、本発明の実施の形態4による携帯通信端末の構成例を示したブロック図である。本実施の形態の携帯通信端末10aは、図4の携帯通信端末10(実施の形態2)と比較して、マイク14から入力された音声信号に基づいて言語情報を識別する音声識別手段16を備えている点で異なる。
【0048】
音声識別手段16は、マイク14からの音声信号を様々な音声パターンと比較することにより言語情報の識別を行っている。音声パターンは、各単語(言語情報)に対応して予め複数記憶されており、これらの音声パターンと音声信号を比較することによって、通話者が発した音声で表現された言語情報が順次に識別される。例えば、言語情報として、「こんにちは」といった単語を音声認識することができる。
【0049】
アニメーション動画生成手段12は、画像識別手段11による識別結果と、音声識別手段16による識別結果とに基づいて、手話画像記憶手段13から動画を読み出し、アニメーション動画を生成している。例えば、画像識別手段11が口の動きから識別した言語情報(単語)が2種類以上となった場合に、音声識別手段16が音声信号から識別した言語情報に基づいて、言語情報(単語)の選別が行われる。つまり、口の動きからは言語情報(単語)が1つに絞りきれない場合に、音声から識別された言語情報に基づいて、アニメーション動画が生成される。その他の構成は、図4の携帯通信端末10と同様である。
【0050】
本実施の形態によれば、マイク14からの音声信号から言語情報が識別されるので、口の動きからは言語情報が識別できなかった場合に、通話者の発した音声から識別された言語情報に基づいて、アニメーション動画を生成することができる。従って、自局端末側の通話者が意図する通話内容を正確に表したアニメーション動画を生成することができる。
【0051】
実施の形態5.
図7は、本発明の実施の形態5による携帯通信端末の構成例を示したブロック図である。本実施の形態の携帯通信端末20は、通話者の口の動きから言語情報を識別し、この言語情報を音声信号に変換して送信することができる。
【0052】
この携帯通信端末20は、撮像手段2、動きベクトル生成手段3、口輪郭抽出手段4、送信手段7、アンテナ8、画像識別手段21、音声信号生成手段22及び音声記憶手段23により構成される。
【0053】
画像識別手段21は、口輪郭抽出手段4により抽出された口の輪郭と、動きベクトル生成手段3により順次に生成された動きベクトルに基づいて、言語情報の識別を行っている。すなわち、通話者の口の輪郭とその動きから、通話者が口の動きで表現した言語情報が識別される。ここでは、言語情報として、「あ」、「い」、「う」などの1つの音で表される言葉が順次に識別されるものとする。
【0054】
音声記憶手段23には、言語情報ごとの音声が予め記憶されている。音声信号生成手段22は、画像識別手段21により識別された言語情報に基づいて、音声記憶手段23から音声を読み出し、音声信号を生成している。つまり、通話者が口の動きで表現した言語情報が画像識別手段21によって識別され、この識別結果に基づいて音声信号が生成される。この様にして生成された音声信号は、送信手段7によりアンテナ8を介して順次に送信される。
【0055】
本実施の形態によれば、通話者が口の動きで表現した言語情報が識別され、音声信号に変換して送信されるので、声を発することができない通話者(聴覚障害者など)であっても、通話内容を容易に相手局端末側の通話者に伝えることができる。
【0056】
実施の形態6.
実施の形態5では、通話者の口の動きから言語情報が識別される携帯通信端末について説明した。これに対し、本実施の形態では、通話者の手の動きから言語情報が識別される携帯通信端末について説明する。
【0057】
図8は、本発明の実施の形態6による携帯通信端末の構成例を示したブロック図である。本実施の形態の携帯通信端末30は、図7の携帯通信端末20(実施の形態5)と比較して、口輪郭抽出手段4の代わりに手輪郭抽出手段31を備えている点で異なる。
【0058】
手輪郭抽出手段31は、撮影画像から手の輪郭の抽出を行っている。手の輪郭の抽出は、動きベクトル生成手段3により生成された動きベクトルに基づいて行われる。例えば、動きベクトルの始点を線で結ぶことによって、手の輪郭を抽出することができる。なお、様々な手の形を表すパターン画像を予め複数記憶しておき、これらのパターン画像とのマッチングを行うことによって、手の輪郭を抽出するようなものであっても良い。
【0059】
画像識別手段32は、手輪郭抽出手段31により抽出された手の輪郭と、動きベクトル生成手段3により順次に生成された動きベクトルに基づいて、言語情報の識別を行っている。すなわち、通話者の手の輪郭とその動きから、通話者が手の動き(手話)で表現した言語情報が識別される。ここでは、言語情報として、「こんにちは」といった単語が順次に識別されるものとする。その他の構成は、図7の携帯通信端末20と同様である。
【0060】
本実施の形態によれば、通話者が手話で表現した言語情報が識別され、音声信号に変換して送信されるので、声を発することができない通話者(聴覚障害者など)であっても、通話内容を容易に相手局端末側の通話者に伝えることができる。
【0061】
【発明の効果】
以上、説明したように本発明による携帯通信端末及び画像処理方法によれば、フレーム間の動きベクトルに基づいてアニメーション動画が生成されるので、通話者の動きを詳細に表すアニメーション動画を生成することができる。従って、アニメーション動画から通話者の動き、特に、口の動きを容易に識別することができるので、聴覚障害者との通話性能が向上する。
【0062】
また、口の動きで通話内容を伝えるので、音声から言語情報を認識する場合に比べ、通話内容の誤認識を抑制することができる。また、アニメーション動画による通話であるので、通話におけるリアルタイム性が損なわれることはない。また、通話者の口の動きや手の動きで通話内容を伝えるので、聴覚障害者が容易に通話を行うことができる。
【図面の簡単な説明】
【図1】本発明の実施の形態1による携帯通信端末の一構成例を示したブロック図である。
【図2】図1の携帯通信端末におけるアニメーション動画の生成から送信までの動作の一例を示したフローチャートである。
【図3】本発明の実施の形態1による携帯通信端末の他の構成例を示したブロック図である。
【図4】本発明の実施の形態2による携帯通信端末の構成例を示したブロック図である。
【図5】本発明の実施の形態3による携帯通信端末の構成例を示したブロック図である。
【図6】本発明の実施の形態4による携帯通信端末の構成例を示したブロック図である。
【図7】本発明の実施の形態5による携帯通信端末の構成例を示したブロック図である。
【図8】本発明の実施の形態6による携帯通信端末の構成例を示したブロック図である。
【符号の説明】
1,1a,10,10a,20,30 携帯通信端末、2 撮像手段、
3 動きベクトル生成手段、4 口輪郭抽出手段、
5,12 アニメーション動画生成手段、6 画像圧縮手段、7 送信手段、
8 アンテナ、9 静止画像記憶手段、11,21,32 画像識別手段、
13 手話画像記憶手段、14 マイク、15 音量検出手段、
16 音声識別手段、22 音声信号生成手段、23 音声記憶手段、
31 手輪郭抽出手段
【発明の属する技術分野】
本発明は、携帯通信端末及び画像処理方法に係り、より詳しくは、デジタルカメラ搭載の携帯電話機などの携帯通信端末であって、撮影しながらデータ通信が行える携帯通信端末の改良に関する。
【0002】
【従来の技術】
近年、デジタルカメラを搭載し、テレビ電話機能を有する携帯電話機、いわゆる、次世代型の携帯電話機が商品化され普及しつつある。このテレビ電話機能とは、撮影しながらデータ通信が行えるというものであり、例えば、自局端末のデジタルカメラにより撮影された通話者の画像が順次に送信され、無線通信回線を介して受信した画像が相手局端末に画面表示される。これにより、通信相手は、通話者の表情などを見ながら通話を行うことができる。一方、従来から、耳の不自由な聴覚障害者と通話ができる携帯通信端末が望まれている。
【0003】
聴覚障害者との通話を可能とする従来の携帯通信端末としては、例えば、特許文献1に記載のものがある。特許文献1に記載の携帯通信端末は、通信手段及び外部インターフェイスを有する情報端末と、外部インターフェイスに接合されるインターフェイス、音声認識処理部、音声合成処理部、音声サンプルデータが格納されているデータベース、表示部及び入力部を備えたディスプレイ装置により構成される。
【0004】
この携帯通信端末では、相手局端末により送信された音声信号を通信手段が受信し、音声認識処理部によって受信信号から通話者の音声が認識される。この音声の認識結果は、文字情報として表示部に表示される。この様な携帯通信端末を用いれば、通話内容が文字で表示されるので、聴覚障害者であっても、通話をすることができる。しかし、この様な従来の携帯通信端末では、通話者の音声に基づいて言語情報の認識が行われるので、同一の文字(言語情報)であっても声の高さ、声の強さ及び声の調子の違いにより、音声が誤認識され誤った文字に変換されてしまうということが少なくないと考えられる。
【0005】
また、上述した従来の携帯通信端末では、聴覚障害者が自局端末から送信する場合に、タッチペンを用いて文字入力が行われ、入力された文字に基づいて音声が合成され音声信号が相手局端末に送信される。この場合には、入力に慣れを要するとともに、入力に時間が長くかかるので、通話におけるリアルタイム性が損なわれてしまうという問題もあった。
【0006】
テレビ電話機能を有する従来の携帯通信端末としては、例えば、特許文献2に記載のものがある。特許文献2に記載の携帯通信端末は、顔のパーツが部品化された顔画像を登録する登録手段と、撮像手段と、動きベクトル生成手段と、送信手段により構成される。動きベクトル生成手段は、撮像手段により撮影された通話者の顔の表情に変化があると、その変化があった部分に対応する顔のパーツの顔画像を登録手段から読み出し、その顔のパーツの動きベクトルを生成する。生成された動きベクトルは、送信手段により送信される。
【0007】
この様な携帯通信端末を用いれば、変化があった顔のパーツの動きベクトルが送信されるので、相手局端末は、この動きベクトルに基づいて、通話者の表情の変化を画面表示することができる。しかし、この様な従来の携帯通信端末は、顔の表情の変化を伝えるものであって、口の動きや手の動きなどを詳細に伝えるものではない。このため、表示画像から口の動きなどを読み取るのは容易ではなく、従って、聴覚障害者との通話を可能とするものではない。
【0008】
【特許文献1】
特開2000−197115号公報
【特許文献2】
特開2002−176632号公報
【0009】
【発明が解決しようとする課題】
本発明は、上記事情に鑑みてなされたものであり、聴覚障害者との通話性能を向上させた携帯通信端末及び画像処理方法を提供することを目的としている。また、本発明の他の目的は、通話内容を誤認識することなく聴覚障害者との通話が可能な携帯通信端末を提供することにある。また、本発明の他の目的は、通話におけるリアルタイム性を損なうことなく聴覚障害者との通話が可能な携帯通信端末を提供することにある。また、本発明の他の目的は、聴覚障害者が容易に通話を行うことができる携帯通信端末を提供することにある。
【0010】
【課題を解決するための手段】
本発明による携帯通信端末は、フレームごとの撮影画像を順次に生成する撮像手段と、撮影画像からフレーム内の各点についてフレーム間の動きベクトルを生成する動きベクトル生成手段と、上記動きベクトルに基づいて、アニメーション動画を生成するアニメーション動画生成手段により構成される。
【0011】
フレームごとに撮影画像を生成し、フレーム間の動きベクトルを生成することにより、この動きベクトルに基づいてアニメーション動画を生成しているので、通話時に、通話者が自分を撮像手段により撮影すれば、アニメーション動画として通話者の動きを詳細に表すことができる。特に、動きベクトルに基づいて撮影画像から口の輪郭が抽出されるようにすると、通話者が自分の口を撮影することによって口の輪郭が抽出され、口の動きを表すアニメーション動画を生成することができる。従って、この様なアニメーション動画を送信することにより、相手局端末側の通話者は、アニメーション動画から口の動きを容易に識別することができる。
【0012】
また、本発明による携帯通信端末は、上記構成に加え、マイクから入力された音声信号について音量を検出する音量検出手段を備え、上記アニメーション動画生成手段は、上記音量検出手段により検出された音量に基づいてアニメーション動画を生成するように構成される。この様な構成によれば、音量の変化に基づいてアニメーション動画を生成することができる。例えば、音量が増加した場合に、動きベクトルを拡大させてアニメーション動画を生成することができる。従って、通話時に、通話者が自分の口を撮影しながら音声をマイクから入力すれば、口の動きが誇張されたアニメーション動画を生成することができる。
【0013】
また、本発明による携帯通信端末は、上記構成に加え、上記動きベクトルに基づいて、撮影画像から口の輪郭を抽出する輪郭抽出手段と、上記輪郭抽出手段により抽出された口の輪郭に基づいて、言語情報を順次に識別する画像識別手段と、言語情報ごとの手話に対応する複数の動画を記憶する手話画像記憶手段を備え、上記アニメーション動画生成手段は、上記画像識別手段により識別された言語情報に基づいて、上記手話画像記憶手段から動画を読み出し、アニメーション動画を生成するように構成される。
【0014】
この様な構成によれば、撮影画像から生成された動きベクトルに基づいて口の輪郭が抽出されるので、順次に抽出される口の輪郭から通話者が口の動きで表現した言語情報を識別することができる。従って、言語情報ごとの手話に対応する動画を予め記憶させておき、通話時に、通話者が自分の口を撮影することによって、口の動きで表現された言語情報に対応する手話を表すアニメーション動画を生成することができる。
【0015】
また、マイクから入力された音声信号に基づいて言語情報を識別する音声識別手段を備え、上記アニメーション動画生成手段が、上記画像識別手段及び上記音声識別手段による識別結果に基づいて、動画を読み出すように構成すれば、マイクからの音声信号から言語情報が識別されるので、例えば、口の動きからは言語情報が識別できなかった場合に、通話者の発した音声から識別された言語情報に基づいて、アニメーション動画を生成することができる。
【0016】
また、本発明による携帯通信端末は、フレームごとの撮影画像を順次に生成する撮像手段と、撮影画像からフレーム内の各点についてフレーム間の動きベクトルを生成する動きベクトル生成手段と、上記動きベクトルに基づいて言語情報を順次に識別する画像識別手段と、言語情報ごとの音声を記憶する音声記憶手段と、上記画像識別手段により識別された言語情報に基づいて、上記音声記憶手段から音声を読み出し、音声信号を生成する音声信号生成手段により構成される。
【0017】
この様な構成によれば、フレームごとに生成される撮影画像に基づいて、フレーム間の動きベクトルが生成されるので、通話時に、通話者が自分を撮影することによって、通話者の動きから言語情報を識別することができる。例えば、撮影画像から口の輪郭が抽出されるようにすれば、口の動きから通話者が口で表現した言語情報を識別することができる。また、撮影画像から手の輪郭が抽出されるようにすれば、手の動きから通話者が手で表現した言語情報を識別することができる。従って、言語情報ごとの音声を予め記憶させておき、通話時に、通話者が自分の口や手を撮影することによって、口または手の動きで表現された言語情報を音声信号に変換することができる。
【0018】
【発明の実施の形態】
実施の形態1.
図1は、本発明の実施の形態1による携帯通信端末の一構成例を示したブロック図である。本実施の形態の携帯通信端末1は、携帯電話機などの携帯可能な小型の電子機器であって、通話者の口の動きをアニメーションキャラクタの口の動きで表した動画を生成することができる。
【0019】
この携帯通信端末1は、撮像手段2、動きベクトル生成手段3、口輪郭抽出手段4、アニメーション動画生成手段5、画像圧縮手段6、送信手段7、アンテナ8及び静止画像記憶手段9により構成される。
【0020】
撮像手段2は、CCD(電荷結合素子)カメラなどのデジタルカメラであり、撮影した画像を動きベクトル生成手段3へ出力している。撮影画像は、画素ごとの輝度レベルを表すデジタルデータからなり、フレームごとに順次に生成される。この撮像手段2によって通話者の口が撮影される。
【0021】
動きベクトル生成手段3は、撮影対象の動きを表す動きベクトルを口輪郭抽出手段4及びアニメーション動画生成手段5へ出力している。この動きベクトルは、撮像手段2からの撮影画像に基づいて生成され、フレーム内の各点について、フレーム間の動き、すなわち、位置の変化量及び向きが検出される。例えば、1つ前のフレームと比較して、輝度レベルが同じであるかあるいは最も近い画素間の動きが検出される。この様にして検出されたフレーム内の各点の動きが動きベクトルとして順次に出力される。
【0022】
口輪郭抽出手段4は、撮影画像から口の輪郭の抽出を行っている。口の輪郭の抽出は、動きベクトル生成手段3により生成された動きベクトルに基づいて行われる。例えば、動きベクトルの始点を線で結ぶことによって、口の輪郭が抽出される。口の輪郭の抽出に際しては、平滑化が行われ、この平滑化によって滑らかな閉曲線として口の輪郭が抽出される。つまり、フレーム内で動きのあった部分を口とみなし、平滑化を行うことによって、口の形を判別し易くすることができる。
【0023】
アニメーション動画生成手段5は、通話者の口の動きをアニメーションキャラクタの口の動きで表すアニメーション動画の生成を行っている。このアニメーション動画は、口輪郭抽出手段4により撮影画像から抽出された口の輪郭と、動きベクトル生成手段3から順次に入力される動きベクトルに基づいて生成される。
【0024】
例えば、動画生成のもとになるアニメーションキャラクタの静止画像を予め静止画像記憶手段9に記憶しておき、この静止画像におけるアニメーションキャラクタの口を動きベクトルに基づいて変化させることによって、通話者の口の動きに対応するアニメーション動画が作成される。すなわち、まず、撮影画像から抽出された口の輪郭に対応させてアニメーションキャラクタの口を作成し、次に、このアニメーションキャラクタの口を動きベクトルに対応して1つの静止画像を変形させていくことにより、アニメーション動画が生成される。
【0025】
なお、アニメーション動画の作成において、動きベクトルを所定の倍率で拡大することにより、アニメーションキャラクタの口の動きを表すようにすれば、口の動きを誇張してアニメーション動画を生成することができる。
【0026】
画像圧縮手段6は、アニメーション動画生成手段5により生成されたアニメーション動画を所定の画像データ圧縮方法で圧縮し、圧縮データを送信手段7へ順次に出力している。画像データ圧縮方法としては、動画のデータ通信に適したものであって、データ処理能力が高くない端末であってもデータ通信可能なものであるとする。例えば、アニメーション動画は、MPEG4にエンコードされて出力される。
【0027】
送信手段7は、画像圧縮手段6からの圧縮データをベースバンドとして搬送波を変調し、アンテナ8を介して送信している。つまり、撮像手段2によって撮影された通話者の口の動きは、アニメーションキャラクタの口の動きに変換され、アニメーション動画として順次に送信される。従って、相手局端末側の通話者は、受信したアニメーション動画を介して送信側の通話者の口の動きを識別することができる。
【0028】
図2のステップS1〜S7は、図1の携帯通信端末におけるアニメーション動画の生成から送信までの動作の一例を示したフローチャートである。まず、自局端末側の通話者は、聴覚障害者と通話を行う場合に、相手局端末と通信回線を接続した後、撮像手段2により自分の口元をクローズアップして撮影する。
【0029】
撮影画像は、順次に動きベクトル生成手段3に出力され(ステップS1)、動きベクトル生成手段3によってフレーム間の動きベクトルが生成される(ステップS2)。生成された動きベクトルの一部は、口輪郭抽出手段4に出力され、撮影画像から口の輪郭が抽出される(ステップS3)。
【0030】
次に、アニメーション動画生成手段5は、口輪郭抽出手段4により撮影画像から抽出された口の輪郭と、動きベクトル生成手段3により生成された動きベクトルに基づいて、アニメーション動画を生成する(ステップS4)。生成されたアニメーション動画は、画像圧縮手段6により圧縮され、送信手段7によって順次に送信される(ステップS5,S6)。
【0031】
アニメーション動画の圧縮送信は、通話が終了するまで繰り返し行われ、通話者によって通話終了の操作が行われると、アニメーション動画の送信は終了し、この様な動画生成処理が終了する(ステップS7)。
【0032】
本実施の形態によれば、通話時に、通話者が自分の口元を撮像手段2によって撮影することにより、通話者の口の動きを詳細に表したアニメーション動画を生成することができる。この様なアニメーション動画が相手局端末に送信されるので、相手局端末側の通話者は、アニメーション動画から口の動きを容易に識別することができる。つまり、自局端末側の通話者が、撮像手段2に向かって通話内容を口の動きで表現するか、あるいは、話し掛けることによって、アニメーション動画が生成され、相手局端末に送信される。そして、相手局端末側の通話者は、受信したアニメーション動画における口の動きから通話内容を識別することができる。従って、相手局端末側の通話者が聴覚障害者であっても、アニメーション動画における口の動きによって通話内容を伝えることができる。
【0033】
また、通話者の口の動きでもって通話内容が伝えられるので、通話者の音声に基づいて言語情報を認識するものとは異なり、通話内容を誤認識することはない。従って、通話内容を正確に伝えることができ、聴覚障害者との通話性能が向上する。また、動画により通話が行われるので、文字入力するものに比べ、タイムラグがなく、聴覚障害者との通話において、通話におけるリアルタイム性が損なわれることはない。
【0034】
なお、本実施の形態では、アニメーションキャラクタの口を動きベクトルに基づいて変化させることによって、アニメーション動画が生成される場合について説明したが、本発明は、これに限られるものではない。例えば、口の形状に対応する複数の静止画像を予め記憶しておき、これらの静止画像を組み合わせることによってアニメーション動画を生成するようなものであっても良い。
【0035】
図3は、その様な携帯通信端末の構成例を示したブロック図である。この携帯通信端末では、口輪郭抽出手段4が動きベクトルに基づいて撮影画像から口の輪郭を順次に抽出し、アニメーション動画生成手段5が口輪郭抽出手段4から順次に入力される口の輪郭に基づいてアニメーション動画を生成している。静止画像記憶手段9には、様々な口の形状に対応する複数の静止画像が記憶され、アニメーション動画生成手段5は、口輪郭抽出手段4により抽出された口の輪郭に基づいて、静止画像記憶手段9から静止画像を順次に読み出し、読み出した静止画像を組み合わせることにより、アニメーション動画が作成される。この様にしても、アニメーション動画を生成することができる。
【0036】
また、本実施の形態では、通話者の口の動きを伝えるものについて説明したが、手の動きを伝えるようなものであっても良い。例えば、通話者が自分の手を撮影することによって、手の動きを表したアニメーション動画が生成され、相手局端末に送信されるようなものであっても良い。この様にしても、通話者が通話内容を手の動き(手話)で表現することによって、手の動きが相手局端末に伝えられ、相手局端末側の通話者は、手の動きによって通話内容を識別することができる。
【0037】
実施の形態2.
実施の形態1では、通話者の口の動きを表すアニメーション動画が生成される携帯通信端末について説明した。これに対し、本実施の形態では、手の動き(手話)を表すアニメーション動画が生成される携帯通信端末について説明する。
【0038】
図4は、本発明の実施の形態2による携帯通信端末の構成例を示したブロック図である。本実施の形態の携帯通信端末10は、図1の携帯通信端末1(実施の形態1)と比較して、言語情報を識別する画像識別手段11と、言語情報ごとの手話に対応する複数の動画を記憶する手話画像記憶手段13を備えている点で異なる。
【0039】
画像識別手段11は、口輪郭抽出手段4により抽出された口の輪郭と、動きベクトル生成手段3により順次に生成された動きベクトルに基づいて、言語情報の識別を行っている。すなわち、通話者の口の輪郭とその動きから、通話者が口の動きで表現した言語情報が識別される。例えば、言語情報として、「こんにちは」といった単語を口の動きから識別することができる。
【0040】
手話画像記憶手段13は、アニメーション動画生成のもとになる画像を予め記憶させておくものであり、各単語(言語情報)を表現する手話に対応して複数の動画が記憶されている。これらの動画は、アニメーションキャラクタの手の動きを表すものであっても良いし、撮像手段2などにより予め撮影された手の映像であっても良い。
【0041】
アニメーション動画生成手段12は、画像識別手段11により撮影画像から識別された言語情報に基づいて、手話画像記憶手段13から動画を読み出し、アニメーション動画を生成する。つまり、通話者が口の動きで表現した言語情報が識別され、この言語情報に対応する手の動きを表したアニメーション動画が生成される。その他の構成は、図1の携帯通信端末1と同様である。
【0042】
本実施の形態によれば、通話時に、通話者が自分の口を撮影することによって、口の動きで表現された言語情報に対応する手話を表すアニメーション動画が生成されるので、相手局端末側の通話者に手の動きでもって通話内容を伝えることができる。
【0043】
実施の形態3.
図5は、本発明の実施の形態3による携帯通信端末の構成例を示したブロック図である。本実施の形態の携帯通信端末1aは、図1の携帯通信端末1と比較して、マイク14から入力された音声信号について音量を検出する音量検出手段15を備えている点で異なる。
【0044】
音量検出手段15は、撮像手段2が撮影画像を生成するごとに音量の検出を行い、検出結果をアニメーション動画生成手段5へ順次に出力している。音量の検出は、マイク14からの音声信号について振幅レベルを判別することにより行われる。これによって、通話者が通話時に発した音声の強度変化を検出することができる。
【0045】
アニメーション動画生成手段5は、音量検出手段15により順次に検出された音量に基づいて、アニメーション動画を生成する。例えば、フレーム間で音量が増加した場合に、フレーム間で生成された動きベクトルを拡大させてアニメーション動画が生成される。動きベクトルの拡大は、音量の増加率に比例する倍率で行われる。つまり、マイク14から入力される音声信号に基づいて、アニメーション動画における口の動きを強調することができる。その他の構成は、図1の携帯通信端末1と同様である。
【0046】
本実施の形態によれば、音量検出手段15により検出された音量に基づいてアニメーション動画が生成されるので、音量の変化に基づいてアニメーション動画を生成することができる。特に、音量が増加した場合に、動きベクトルを拡大させてアニメーション動画が生成されるので、通話時に、通話者が自分の口を撮影しながら音声をマイクから入力すれば、音量の変化に応じて口の動きが誇張されたアニメーション動画を生成することができる。
【0047】
実施の形態4.
図6は、本発明の実施の形態4による携帯通信端末の構成例を示したブロック図である。本実施の形態の携帯通信端末10aは、図4の携帯通信端末10(実施の形態2)と比較して、マイク14から入力された音声信号に基づいて言語情報を識別する音声識別手段16を備えている点で異なる。
【0048】
音声識別手段16は、マイク14からの音声信号を様々な音声パターンと比較することにより言語情報の識別を行っている。音声パターンは、各単語(言語情報)に対応して予め複数記憶されており、これらの音声パターンと音声信号を比較することによって、通話者が発した音声で表現された言語情報が順次に識別される。例えば、言語情報として、「こんにちは」といった単語を音声認識することができる。
【0049】
アニメーション動画生成手段12は、画像識別手段11による識別結果と、音声識別手段16による識別結果とに基づいて、手話画像記憶手段13から動画を読み出し、アニメーション動画を生成している。例えば、画像識別手段11が口の動きから識別した言語情報(単語)が2種類以上となった場合に、音声識別手段16が音声信号から識別した言語情報に基づいて、言語情報(単語)の選別が行われる。つまり、口の動きからは言語情報(単語)が1つに絞りきれない場合に、音声から識別された言語情報に基づいて、アニメーション動画が生成される。その他の構成は、図4の携帯通信端末10と同様である。
【0050】
本実施の形態によれば、マイク14からの音声信号から言語情報が識別されるので、口の動きからは言語情報が識別できなかった場合に、通話者の発した音声から識別された言語情報に基づいて、アニメーション動画を生成することができる。従って、自局端末側の通話者が意図する通話内容を正確に表したアニメーション動画を生成することができる。
【0051】
実施の形態5.
図7は、本発明の実施の形態5による携帯通信端末の構成例を示したブロック図である。本実施の形態の携帯通信端末20は、通話者の口の動きから言語情報を識別し、この言語情報を音声信号に変換して送信することができる。
【0052】
この携帯通信端末20は、撮像手段2、動きベクトル生成手段3、口輪郭抽出手段4、送信手段7、アンテナ8、画像識別手段21、音声信号生成手段22及び音声記憶手段23により構成される。
【0053】
画像識別手段21は、口輪郭抽出手段4により抽出された口の輪郭と、動きベクトル生成手段3により順次に生成された動きベクトルに基づいて、言語情報の識別を行っている。すなわち、通話者の口の輪郭とその動きから、通話者が口の動きで表現した言語情報が識別される。ここでは、言語情報として、「あ」、「い」、「う」などの1つの音で表される言葉が順次に識別されるものとする。
【0054】
音声記憶手段23には、言語情報ごとの音声が予め記憶されている。音声信号生成手段22は、画像識別手段21により識別された言語情報に基づいて、音声記憶手段23から音声を読み出し、音声信号を生成している。つまり、通話者が口の動きで表現した言語情報が画像識別手段21によって識別され、この識別結果に基づいて音声信号が生成される。この様にして生成された音声信号は、送信手段7によりアンテナ8を介して順次に送信される。
【0055】
本実施の形態によれば、通話者が口の動きで表現した言語情報が識別され、音声信号に変換して送信されるので、声を発することができない通話者(聴覚障害者など)であっても、通話内容を容易に相手局端末側の通話者に伝えることができる。
【0056】
実施の形態6.
実施の形態5では、通話者の口の動きから言語情報が識別される携帯通信端末について説明した。これに対し、本実施の形態では、通話者の手の動きから言語情報が識別される携帯通信端末について説明する。
【0057】
図8は、本発明の実施の形態6による携帯通信端末の構成例を示したブロック図である。本実施の形態の携帯通信端末30は、図7の携帯通信端末20(実施の形態5)と比較して、口輪郭抽出手段4の代わりに手輪郭抽出手段31を備えている点で異なる。
【0058】
手輪郭抽出手段31は、撮影画像から手の輪郭の抽出を行っている。手の輪郭の抽出は、動きベクトル生成手段3により生成された動きベクトルに基づいて行われる。例えば、動きベクトルの始点を線で結ぶことによって、手の輪郭を抽出することができる。なお、様々な手の形を表すパターン画像を予め複数記憶しておき、これらのパターン画像とのマッチングを行うことによって、手の輪郭を抽出するようなものであっても良い。
【0059】
画像識別手段32は、手輪郭抽出手段31により抽出された手の輪郭と、動きベクトル生成手段3により順次に生成された動きベクトルに基づいて、言語情報の識別を行っている。すなわち、通話者の手の輪郭とその動きから、通話者が手の動き(手話)で表現した言語情報が識別される。ここでは、言語情報として、「こんにちは」といった単語が順次に識別されるものとする。その他の構成は、図7の携帯通信端末20と同様である。
【0060】
本実施の形態によれば、通話者が手話で表現した言語情報が識別され、音声信号に変換して送信されるので、声を発することができない通話者(聴覚障害者など)であっても、通話内容を容易に相手局端末側の通話者に伝えることができる。
【0061】
【発明の効果】
以上、説明したように本発明による携帯通信端末及び画像処理方法によれば、フレーム間の動きベクトルに基づいてアニメーション動画が生成されるので、通話者の動きを詳細に表すアニメーション動画を生成することができる。従って、アニメーション動画から通話者の動き、特に、口の動きを容易に識別することができるので、聴覚障害者との通話性能が向上する。
【0062】
また、口の動きで通話内容を伝えるので、音声から言語情報を認識する場合に比べ、通話内容の誤認識を抑制することができる。また、アニメーション動画による通話であるので、通話におけるリアルタイム性が損なわれることはない。また、通話者の口の動きや手の動きで通話内容を伝えるので、聴覚障害者が容易に通話を行うことができる。
【図面の簡単な説明】
【図1】本発明の実施の形態1による携帯通信端末の一構成例を示したブロック図である。
【図2】図1の携帯通信端末におけるアニメーション動画の生成から送信までの動作の一例を示したフローチャートである。
【図3】本発明の実施の形態1による携帯通信端末の他の構成例を示したブロック図である。
【図4】本発明の実施の形態2による携帯通信端末の構成例を示したブロック図である。
【図5】本発明の実施の形態3による携帯通信端末の構成例を示したブロック図である。
【図6】本発明の実施の形態4による携帯通信端末の構成例を示したブロック図である。
【図7】本発明の実施の形態5による携帯通信端末の構成例を示したブロック図である。
【図8】本発明の実施の形態6による携帯通信端末の構成例を示したブロック図である。
【符号の説明】
1,1a,10,10a,20,30 携帯通信端末、2 撮像手段、
3 動きベクトル生成手段、4 口輪郭抽出手段、
5,12 アニメーション動画生成手段、6 画像圧縮手段、7 送信手段、
8 アンテナ、9 静止画像記憶手段、11,21,32 画像識別手段、
13 手話画像記憶手段、14 マイク、15 音量検出手段、
16 音声識別手段、22 音声信号生成手段、23 音声記憶手段、
31 手輪郭抽出手段
Claims (12)
- フレームごとの撮影画像を順次に生成する撮像手段と、
撮影画像からフレーム内の各点についてフレーム間の動きベクトルを生成する動きベクトル生成手段と、
上記動きベクトルに基づいて、アニメーション動画を生成するアニメーション動画生成手段を備えたことを特徴とする携帯通信端末。 - 上記動きベクトルに基づいて、撮影画像から口の輪郭を抽出する口輪郭抽出手段を備え、
上記アニメーション動画生成手段は、上記口輪郭抽出手段により抽出された口の輪郭に基づいて、口の動きを表すアニメーション動画を生成することを特徴とする請求項1に記載の携帯通信端末。 - 口の形状に対応する複数の静止画像を記憶する静止画像記憶手段を備え、
上記アニメーション動画生成手段は、上記静止画像からアニメーション動画を生成することを特徴とする請求項2に記載の携帯通信端末。 - マイクから入力された音声信号について音量を検出する音量検出手段を備え、
上記アニメーション動画生成手段は、上記音量検出手段により検出された音量に基づいてアニメーション動画を生成することを特徴とする請求項1に記載の携帯通信端末。 - 上記アニメーション動画生成手段は、音量が増加した場合に動きベクトルを拡大させてアニメーション動画を生成することを特徴とする請求項4に記載の携帯通信端末。
- 上記動きベクトルに基づいて、撮影画像から口の輪郭を抽出する口輪郭抽出手段と、
上記口輪郭抽出手段により抽出された口の輪郭に基づいて、言語情報を順次に識別する画像識別手段と、
言語情報ごとの手話に対応する複数の動画を記憶する手話画像記憶手段を備え、
上記アニメーション動画生成手段は、上記画像識別手段により識別された言語情報に基づいて、上記手話画像記憶手段から動画を読み出し、アニメーション動画を生成することを特徴とする請求項1に記載の携帯通信端末。 - マイクから入力された音声信号に基づいて言語情報を識別する音声識別手段を備え、
上記アニメーション動画生成手段は、上記画像識別手段及び上記音声識別手段による識別結果に基づいて、動画を読み出すことを特徴とする請求項6に記載の携帯通信端末。 - フレームごとの撮影画像を順次に生成する撮像手段と、
撮影画像からフレーム内の各点についてフレーム間の動きベクトルを生成する動きベクトル生成手段と、
上記動きベクトルに基づいて言語情報を順次に識別する画像識別手段と、
言語情報ごとの音声を記憶する音声記憶手段と、
上記画像識別手段により識別された言語情報に基づいて、上記音声記憶手段から音声を読み出し、音声信号を生成する音声信号生成手段を備えたことを特徴とする携帯通信端末。 - 上記動きベクトルに基づいて、撮影画像から口の輪郭を抽出する口輪郭抽出手段を備え、
上記画像識別手段は、上記口輪郭抽出手段により抽出された口の輪郭に基づいて言語情報を識別することを特徴とする請求項8に記載の携帯通信端末。 - 上記動きベクトルに基づいて、撮影画像から手の輪郭を抽出する手輪郭抽出手段を備え、
上記画像識別手段は、上記手輪郭抽出手段により抽出された手の輪郭に基づいて言語情報を識別することを特徴とする請求項8に記載の携帯通信端末。 - フレームごとの撮影画像を順次に生成する撮像ステップと、
撮影画像からフレーム内の各点についてフレーム間の動きベクトルを生成する動きベクトル生成ステップと、
上記動きベクトルに基づいて、アニメーション動画を生成するアニメーション動画生成ステップからなることを特徴とする画像処理方法。 - フレームごとの撮影画像を順次に生成する撮像ステップと、
撮影画像からフレーム内の各点についてフレーム間の動きベクトルを生成する動きベクトル生成ステップと、
上記動きベクトルに基づいて言語情報を順次に識別する画像識別ステップと、
言語情報ごとの音声を記憶する音声記憶ステップと、
識別された言語情報に基づいて、音声信号を生成する音声信号生成ステップからなることを特徴とする画像処理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003168232A JP2005004535A (ja) | 2003-06-12 | 2003-06-12 | 携帯通信端末及び画像処理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003168232A JP2005004535A (ja) | 2003-06-12 | 2003-06-12 | 携帯通信端末及び画像処理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005004535A true JP2005004535A (ja) | 2005-01-06 |
Family
ID=34093802
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003168232A Pending JP2005004535A (ja) | 2003-06-12 | 2003-06-12 | 携帯通信端末及び画像処理方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005004535A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007094104A (ja) * | 2005-09-29 | 2007-04-12 | Sony Corp | 情報処理装置および方法、並びにプログラム |
-
2003
- 2003-06-12 JP JP2003168232A patent/JP2005004535A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007094104A (ja) * | 2005-09-29 | 2007-04-12 | Sony Corp | 情報処理装置および方法、並びにプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108933915B (zh) | 视频会议装置与视频会议管理方法 | |
CN110446000B (zh) | 一种生成对话人物形象的方法和装置 | |
KR100836616B1 (ko) | 영상 합성 기능을 가지는 휴대용 단말기 및 휴대용단말기의 영상 합성 방법 | |
US9792602B2 (en) | Apparatus and method for providing emotion expression service in mobile communication terminal | |
EP1480425B1 (en) | Portable terminal and program for generating an avatar based on voice analysis | |
KR102251781B1 (ko) | 인공신경망을 이용한 입모양 합성 장치 및 방법 | |
CN111201786B (zh) | 显示控制装置、通信装置、显示控制方法及存储介质 | |
KR100678209B1 (ko) | 휴대단말기의 이미지 제어방법 | |
JP2004533666A (ja) | 通信システム | |
EP2335400B1 (en) | System and method for video telephony by converting facial motion to text | |
JP2004289254A (ja) | テレビ電話端末 | |
US8319818B2 (en) | Information processing device, information processing method and storage medium storing computer program | |
JP2004201191A (ja) | 画像処理送信システム、携帯電話、画像処理送信方法、および、画像処理送信プログラム | |
US20230162323A1 (en) | Image frame super-resolution implementation method and apparatus | |
JP2019220848A (ja) | データ処理装置、データ処理方法及びプログラム | |
JP2007213364A (ja) | 画像変換装置、画像変換方法及び画像変換プログラム | |
JP2010239499A (ja) | 通信端末装置、通信制御装置、通信端末装置の通信制御方法、通信制御プログラム | |
US8290299B2 (en) | Object outputting method and information processing apparatus | |
KR20180129339A (ko) | 영상 압축 방법 및 영상 복원 방법 | |
KR20070006337A (ko) | 휴대단말기의 이미지편집 방법 | |
KR20100041061A (ko) | 화자의 얼굴을 확대하는 영상 통화 방법 및 이를 위한 단말 | |
JP4378250B2 (ja) | テレビ電話機及びプログラム | |
JP2005004535A (ja) | 携帯通信端末及び画像処理方法 | |
KR20020007511A (ko) | 화상 통신기의 배경화면 변환장치 | |
JP3062080U (ja) | 画面付き電話装置 |