JP2005004535A

JP2005004535A - 携帯通信端末及び画像処理方法

Info

Publication number: JP2005004535A
Application number: JP2003168232A
Authority: JP
Inventors: Terushi Kabasawa; 昭史樺沢
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2003-06-12
Filing date: 2003-06-12
Publication date: 2005-01-06

Abstract

【課題】聴覚障害者との通話性能を向上させた携帯通信端末及び画像処理方法を提供する。
【解決手段】フレームごとの撮影画像を順次に生成する撮像手段２と、撮影画像からフレーム内の各点についてフレーム間の動きベクトルを生成する動きベクトル生成手段３と、動きベクトルに基づいて撮影画像から口の輪郭を抽出する口輪郭抽出手段４と、口輪郭抽出手段４により抽出された口の輪郭及び動きベクトルに基づいて、口の動きを表すアニメーション動画を生成するアニメーション動画生成手段５と、画像データを圧縮する画像圧縮手段６と、アンテナ８を介して圧縮データを送信する送信手段７により構成される。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は、携帯通信端末及び画像処理方法に係り、より詳しくは、デジタルカメラ搭載の携帯電話機などの携帯通信端末であって、撮影しながらデータ通信が行える携帯通信端末の改良に関する。
【０００２】
【従来の技術】
近年、デジタルカメラを搭載し、テレビ電話機能を有する携帯電話機、いわゆる、次世代型の携帯電話機が商品化され普及しつつある。このテレビ電話機能とは、撮影しながらデータ通信が行えるというものであり、例えば、自局端末のデジタルカメラにより撮影された通話者の画像が順次に送信され、無線通信回線を介して受信した画像が相手局端末に画面表示される。これにより、通信相手は、通話者の表情などを見ながら通話を行うことができる。一方、従来から、耳の不自由な聴覚障害者と通話ができる携帯通信端末が望まれている。
【０００３】
聴覚障害者との通話を可能とする従来の携帯通信端末としては、例えば、特許文献１に記載のものがある。特許文献１に記載の携帯通信端末は、通信手段及び外部インターフェイスを有する情報端末と、外部インターフェイスに接合されるインターフェイス、音声認識処理部、音声合成処理部、音声サンプルデータが格納されているデータベース、表示部及び入力部を備えたディスプレイ装置により構成される。
【０００４】
この携帯通信端末では、相手局端末により送信された音声信号を通信手段が受信し、音声認識処理部によって受信信号から通話者の音声が認識される。この音声の認識結果は、文字情報として表示部に表示される。この様な携帯通信端末を用いれば、通話内容が文字で表示されるので、聴覚障害者であっても、通話をすることができる。しかし、この様な従来の携帯通信端末では、通話者の音声に基づいて言語情報の認識が行われるので、同一の文字（言語情報）であっても声の高さ、声の強さ及び声の調子の違いにより、音声が誤認識され誤った文字に変換されてしまうということが少なくないと考えられる。
【０００５】
また、上述した従来の携帯通信端末では、聴覚障害者が自局端末から送信する場合に、タッチペンを用いて文字入力が行われ、入力された文字に基づいて音声が合成され音声信号が相手局端末に送信される。この場合には、入力に慣れを要するとともに、入力に時間が長くかかるので、通話におけるリアルタイム性が損なわれてしまうという問題もあった。
【０００６】
テレビ電話機能を有する従来の携帯通信端末としては、例えば、特許文献２に記載のものがある。特許文献２に記載の携帯通信端末は、顔のパーツが部品化された顔画像を登録する登録手段と、撮像手段と、動きベクトル生成手段と、送信手段により構成される。動きベクトル生成手段は、撮像手段により撮影された通話者の顔の表情に変化があると、その変化があった部分に対応する顔のパーツの顔画像を登録手段から読み出し、その顔のパーツの動きベクトルを生成する。生成された動きベクトルは、送信手段により送信される。
【０００７】
この様な携帯通信端末を用いれば、変化があった顔のパーツの動きベクトルが送信されるので、相手局端末は、この動きベクトルに基づいて、通話者の表情の変化を画面表示することができる。しかし、この様な従来の携帯通信端末は、顔の表情の変化を伝えるものであって、口の動きや手の動きなどを詳細に伝えるものではない。このため、表示画像から口の動きなどを読み取るのは容易ではなく、従って、聴覚障害者との通話を可能とするものではない。
【０００８】
【特許文献１】
特開２０００−１９７１１５号公報
【特許文献２】
特開２００２−１７６６３２号公報
【０００９】
【発明が解決しようとする課題】
本発明は、上記事情に鑑みてなされたものであり、聴覚障害者との通話性能を向上させた携帯通信端末及び画像処理方法を提供することを目的としている。また、本発明の他の目的は、通話内容を誤認識することなく聴覚障害者との通話が可能な携帯通信端末を提供することにある。また、本発明の他の目的は、通話におけるリアルタイム性を損なうことなく聴覚障害者との通話が可能な携帯通信端末を提供することにある。また、本発明の他の目的は、聴覚障害者が容易に通話を行うことができる携帯通信端末を提供することにある。
【００１０】
【課題を解決するための手段】
本発明による携帯通信端末は、フレームごとの撮影画像を順次に生成する撮像手段と、撮影画像からフレーム内の各点についてフレーム間の動きベクトルを生成する動きベクトル生成手段と、上記動きベクトルに基づいて、アニメーション動画を生成するアニメーション動画生成手段により構成される。
【００１１】
フレームごとに撮影画像を生成し、フレーム間の動きベクトルを生成することにより、この動きベクトルに基づいてアニメーション動画を生成しているので、通話時に、通話者が自分を撮像手段により撮影すれば、アニメーション動画として通話者の動きを詳細に表すことができる。特に、動きベクトルに基づいて撮影画像から口の輪郭が抽出されるようにすると、通話者が自分の口を撮影することによって口の輪郭が抽出され、口の動きを表すアニメーション動画を生成することができる。従って、この様なアニメーション動画を送信することにより、相手局端末側の通話者は、アニメーション動画から口の動きを容易に識別することができる。
【００１２】
また、本発明による携帯通信端末は、上記構成に加え、マイクから入力された音声信号について音量を検出する音量検出手段を備え、上記アニメーション動画生成手段は、上記音量検出手段により検出された音量に基づいてアニメーション動画を生成するように構成される。この様な構成によれば、音量の変化に基づいてアニメーション動画を生成することができる。例えば、音量が増加した場合に、動きベクトルを拡大させてアニメーション動画を生成することができる。従って、通話時に、通話者が自分の口を撮影しながら音声をマイクから入力すれば、口の動きが誇張されたアニメーション動画を生成することができる。
【００１３】
また、本発明による携帯通信端末は、上記構成に加え、上記動きベクトルに基づいて、撮影画像から口の輪郭を抽出する輪郭抽出手段と、上記輪郭抽出手段により抽出された口の輪郭に基づいて、言語情報を順次に識別する画像識別手段と、言語情報ごとの手話に対応する複数の動画を記憶する手話画像記憶手段を備え、上記アニメーション動画生成手段は、上記画像識別手段により識別された言語情報に基づいて、上記手話画像記憶手段から動画を読み出し、アニメーション動画を生成するように構成される。
【００１４】
この様な構成によれば、撮影画像から生成された動きベクトルに基づいて口の輪郭が抽出されるので、順次に抽出される口の輪郭から通話者が口の動きで表現した言語情報を識別することができる。従って、言語情報ごとの手話に対応する動画を予め記憶させておき、通話時に、通話者が自分の口を撮影することによって、口の動きで表現された言語情報に対応する手話を表すアニメーション動画を生成することができる。
【００１５】
また、マイクから入力された音声信号に基づいて言語情報を識別する音声識別手段を備え、上記アニメーション動画生成手段が、上記画像識別手段及び上記音声識別手段による識別結果に基づいて、動画を読み出すように構成すれば、マイクからの音声信号から言語情報が識別されるので、例えば、口の動きからは言語情報が識別できなかった場合に、通話者の発した音声から識別された言語情報に基づいて、アニメーション動画を生成することができる。
【００１６】
また、本発明による携帯通信端末は、フレームごとの撮影画像を順次に生成する撮像手段と、撮影画像からフレーム内の各点についてフレーム間の動きベクトルを生成する動きベクトル生成手段と、上記動きベクトルに基づいて言語情報を順次に識別する画像識別手段と、言語情報ごとの音声を記憶する音声記憶手段と、上記画像識別手段により識別された言語情報に基づいて、上記音声記憶手段から音声を読み出し、音声信号を生成する音声信号生成手段により構成される。
【００１７】
この様な構成によれば、フレームごとに生成される撮影画像に基づいて、フレーム間の動きベクトルが生成されるので、通話時に、通話者が自分を撮影することによって、通話者の動きから言語情報を識別することができる。例えば、撮影画像から口の輪郭が抽出されるようにすれば、口の動きから通話者が口で表現した言語情報を識別することができる。また、撮影画像から手の輪郭が抽出されるようにすれば、手の動きから通話者が手で表現した言語情報を識別することができる。従って、言語情報ごとの音声を予め記憶させておき、通話時に、通話者が自分の口や手を撮影することによって、口または手の動きで表現された言語情報を音声信号に変換することができる。
【００１８】
【発明の実施の形態】
実施の形態１．
図１は、本発明の実施の形態１による携帯通信端末の一構成例を示したブロック図である。本実施の形態の携帯通信端末１は、携帯電話機などの携帯可能な小型の電子機器であって、通話者の口の動きをアニメーションキャラクタの口の動きで表した動画を生成することができる。
【００１９】
この携帯通信端末１は、撮像手段２、動きベクトル生成手段３、口輪郭抽出手段４、アニメーション動画生成手段５、画像圧縮手段６、送信手段７、アンテナ８及び静止画像記憶手段９により構成される。
【００２０】
撮像手段２は、ＣＣＤ（電荷結合素子）カメラなどのデジタルカメラであり、撮影した画像を動きベクトル生成手段３へ出力している。撮影画像は、画素ごとの輝度レベルを表すデジタルデータからなり、フレームごとに順次に生成される。この撮像手段２によって通話者の口が撮影される。
【００２１】
動きベクトル生成手段３は、撮影対象の動きを表す動きベクトルを口輪郭抽出手段４及びアニメーション動画生成手段５へ出力している。この動きベクトルは、撮像手段２からの撮影画像に基づいて生成され、フレーム内の各点について、フレーム間の動き、すなわち、位置の変化量及び向きが検出される。例えば、１つ前のフレームと比較して、輝度レベルが同じであるかあるいは最も近い画素間の動きが検出される。この様にして検出されたフレーム内の各点の動きが動きベクトルとして順次に出力される。
【００２２】
口輪郭抽出手段４は、撮影画像から口の輪郭の抽出を行っている。口の輪郭の抽出は、動きベクトル生成手段３により生成された動きベクトルに基づいて行われる。例えば、動きベクトルの始点を線で結ぶことによって、口の輪郭が抽出される。口の輪郭の抽出に際しては、平滑化が行われ、この平滑化によって滑らかな閉曲線として口の輪郭が抽出される。つまり、フレーム内で動きのあった部分を口とみなし、平滑化を行うことによって、口の形を判別し易くすることができる。
【００２３】
アニメーション動画生成手段５は、通話者の口の動きをアニメーションキャラクタの口の動きで表すアニメーション動画の生成を行っている。このアニメーション動画は、口輪郭抽出手段４により撮影画像から抽出された口の輪郭と、動きベクトル生成手段３から順次に入力される動きベクトルに基づいて生成される。
【００２４】
例えば、動画生成のもとになるアニメーションキャラクタの静止画像を予め静止画像記憶手段９に記憶しておき、この静止画像におけるアニメーションキャラクタの口を動きベクトルに基づいて変化させることによって、通話者の口の動きに対応するアニメーション動画が作成される。すなわち、まず、撮影画像から抽出された口の輪郭に対応させてアニメーションキャラクタの口を作成し、次に、このアニメーションキャラクタの口を動きベクトルに対応して１つの静止画像を変形させていくことにより、アニメーション動画が生成される。
【００２５】
なお、アニメーション動画の作成において、動きベクトルを所定の倍率で拡大することにより、アニメーションキャラクタの口の動きを表すようにすれば、口の動きを誇張してアニメーション動画を生成することができる。
【００２６】
画像圧縮手段６は、アニメーション動画生成手段５により生成されたアニメーション動画を所定の画像データ圧縮方法で圧縮し、圧縮データを送信手段７へ順次に出力している。画像データ圧縮方法としては、動画のデータ通信に適したものであって、データ処理能力が高くない端末であってもデータ通信可能なものであるとする。例えば、アニメーション動画は、ＭＰＥＧ４にエンコードされて出力される。
【００２７】
送信手段７は、画像圧縮手段６からの圧縮データをベースバンドとして搬送波を変調し、アンテナ８を介して送信している。つまり、撮像手段２によって撮影された通話者の口の動きは、アニメーションキャラクタの口の動きに変換され、アニメーション動画として順次に送信される。従って、相手局端末側の通話者は、受信したアニメーション動画を介して送信側の通話者の口の動きを識別することができる。
【００２８】
図２のステップＳ１〜Ｓ７は、図１の携帯通信端末におけるアニメーション動画の生成から送信までの動作の一例を示したフローチャートである。まず、自局端末側の通話者は、聴覚障害者と通話を行う場合に、相手局端末と通信回線を接続した後、撮像手段２により自分の口元をクローズアップして撮影する。
【００２９】
撮影画像は、順次に動きベクトル生成手段３に出力され（ステップＳ１）、動きベクトル生成手段３によってフレーム間の動きベクトルが生成される（ステップＳ２）。生成された動きベクトルの一部は、口輪郭抽出手段４に出力され、撮影画像から口の輪郭が抽出される（ステップＳ３）。
【００３０】
次に、アニメーション動画生成手段５は、口輪郭抽出手段４により撮影画像から抽出された口の輪郭と、動きベクトル生成手段３により生成された動きベクトルに基づいて、アニメーション動画を生成する（ステップＳ４）。生成されたアニメーション動画は、画像圧縮手段６により圧縮され、送信手段７によって順次に送信される（ステップＳ５，Ｓ６）。
【００３１】
アニメーション動画の圧縮送信は、通話が終了するまで繰り返し行われ、通話者によって通話終了の操作が行われると、アニメーション動画の送信は終了し、この様な動画生成処理が終了する（ステップＳ７）。
【００３２】
本実施の形態によれば、通話時に、通話者が自分の口元を撮像手段２によって撮影することにより、通話者の口の動きを詳細に表したアニメーション動画を生成することができる。この様なアニメーション動画が相手局端末に送信されるので、相手局端末側の通話者は、アニメーション動画から口の動きを容易に識別することができる。つまり、自局端末側の通話者が、撮像手段２に向かって通話内容を口の動きで表現するか、あるいは、話し掛けることによって、アニメーション動画が生成され、相手局端末に送信される。そして、相手局端末側の通話者は、受信したアニメーション動画における口の動きから通話内容を識別することができる。従って、相手局端末側の通話者が聴覚障害者であっても、アニメーション動画における口の動きによって通話内容を伝えることができる。
【００３３】
また、通話者の口の動きでもって通話内容が伝えられるので、通話者の音声に基づいて言語情報を認識するものとは異なり、通話内容を誤認識することはない。従って、通話内容を正確に伝えることができ、聴覚障害者との通話性能が向上する。また、動画により通話が行われるので、文字入力するものに比べ、タイムラグがなく、聴覚障害者との通話において、通話におけるリアルタイム性が損なわれることはない。
【００３４】
なお、本実施の形態では、アニメーションキャラクタの口を動きベクトルに基づいて変化させることによって、アニメーション動画が生成される場合について説明したが、本発明は、これに限られるものではない。例えば、口の形状に対応する複数の静止画像を予め記憶しておき、これらの静止画像を組み合わせることによってアニメーション動画を生成するようなものであっても良い。
【００３５】
図３は、その様な携帯通信端末の構成例を示したブロック図である。この携帯通信端末では、口輪郭抽出手段４が動きベクトルに基づいて撮影画像から口の輪郭を順次に抽出し、アニメーション動画生成手段５が口輪郭抽出手段４から順次に入力される口の輪郭に基づいてアニメーション動画を生成している。静止画像記憶手段９には、様々な口の形状に対応する複数の静止画像が記憶され、アニメーション動画生成手段５は、口輪郭抽出手段４により抽出された口の輪郭に基づいて、静止画像記憶手段９から静止画像を順次に読み出し、読み出した静止画像を組み合わせることにより、アニメーション動画が作成される。この様にしても、アニメーション動画を生成することができる。
【００３６】
また、本実施の形態では、通話者の口の動きを伝えるものについて説明したが、手の動きを伝えるようなものであっても良い。例えば、通話者が自分の手を撮影することによって、手の動きを表したアニメーション動画が生成され、相手局端末に送信されるようなものであっても良い。この様にしても、通話者が通話内容を手の動き（手話）で表現することによって、手の動きが相手局端末に伝えられ、相手局端末側の通話者は、手の動きによって通話内容を識別することができる。
【００３７】
実施の形態２．
実施の形態１では、通話者の口の動きを表すアニメーション動画が生成される携帯通信端末について説明した。これに対し、本実施の形態では、手の動き（手話）を表すアニメーション動画が生成される携帯通信端末について説明する。
【００３８】
図４は、本発明の実施の形態２による携帯通信端末の構成例を示したブロック図である。本実施の形態の携帯通信端末１０は、図１の携帯通信端末１（実施の形態１）と比較して、言語情報を識別する画像識別手段１１と、言語情報ごとの手話に対応する複数の動画を記憶する手話画像記憶手段１３を備えている点で異なる。
【００３９】
画像識別手段１１は、口輪郭抽出手段４により抽出された口の輪郭と、動きベクトル生成手段３により順次に生成された動きベクトルに基づいて、言語情報の識別を行っている。すなわち、通話者の口の輪郭とその動きから、通話者が口の動きで表現した言語情報が識別される。例えば、言語情報として、「こんにちは」といった単語を口の動きから識別することができる。
【００４０】
手話画像記憶手段１３は、アニメーション動画生成のもとになる画像を予め記憶させておくものであり、各単語（言語情報）を表現する手話に対応して複数の動画が記憶されている。これらの動画は、アニメーションキャラクタの手の動きを表すものであっても良いし、撮像手段２などにより予め撮影された手の映像であっても良い。
【００４１】
アニメーション動画生成手段１２は、画像識別手段１１により撮影画像から識別された言語情報に基づいて、手話画像記憶手段１３から動画を読み出し、アニメーション動画を生成する。つまり、通話者が口の動きで表現した言語情報が識別され、この言語情報に対応する手の動きを表したアニメーション動画が生成される。その他の構成は、図１の携帯通信端末１と同様である。
【００４２】
本実施の形態によれば、通話時に、通話者が自分の口を撮影することによって、口の動きで表現された言語情報に対応する手話を表すアニメーション動画が生成されるので、相手局端末側の通話者に手の動きでもって通話内容を伝えることができる。
【００４３】
実施の形態３．
図５は、本発明の実施の形態３による携帯通信端末の構成例を示したブロック図である。本実施の形態の携帯通信端末１ａは、図１の携帯通信端末１と比較して、マイク１４から入力された音声信号について音量を検出する音量検出手段１５を備えている点で異なる。
【００４４】
音量検出手段１５は、撮像手段２が撮影画像を生成するごとに音量の検出を行い、検出結果をアニメーション動画生成手段５へ順次に出力している。音量の検出は、マイク１４からの音声信号について振幅レベルを判別することにより行われる。これによって、通話者が通話時に発した音声の強度変化を検出することができる。
【００４５】
アニメーション動画生成手段５は、音量検出手段１５により順次に検出された音量に基づいて、アニメーション動画を生成する。例えば、フレーム間で音量が増加した場合に、フレーム間で生成された動きベクトルを拡大させてアニメーション動画が生成される。動きベクトルの拡大は、音量の増加率に比例する倍率で行われる。つまり、マイク１４から入力される音声信号に基づいて、アニメーション動画における口の動きを強調することができる。その他の構成は、図１の携帯通信端末１と同様である。
【００４６】
本実施の形態によれば、音量検出手段１５により検出された音量に基づいてアニメーション動画が生成されるので、音量の変化に基づいてアニメーション動画を生成することができる。特に、音量が増加した場合に、動きベクトルを拡大させてアニメーション動画が生成されるので、通話時に、通話者が自分の口を撮影しながら音声をマイクから入力すれば、音量の変化に応じて口の動きが誇張されたアニメーション動画を生成することができる。
【００４７】
実施の形態４．
図６は、本発明の実施の形態４による携帯通信端末の構成例を示したブロック図である。本実施の形態の携帯通信端末１０ａは、図４の携帯通信端末１０（実施の形態２）と比較して、マイク１４から入力された音声信号に基づいて言語情報を識別する音声識別手段１６を備えている点で異なる。
【００４８】
音声識別手段１６は、マイク１４からの音声信号を様々な音声パターンと比較することにより言語情報の識別を行っている。音声パターンは、各単語（言語情報）に対応して予め複数記憶されており、これらの音声パターンと音声信号を比較することによって、通話者が発した音声で表現された言語情報が順次に識別される。例えば、言語情報として、「こんにちは」といった単語を音声認識することができる。
【００４９】
アニメーション動画生成手段１２は、画像識別手段１１による識別結果と、音声識別手段１６による識別結果とに基づいて、手話画像記憶手段１３から動画を読み出し、アニメーション動画を生成している。例えば、画像識別手段１１が口の動きから識別した言語情報（単語）が２種類以上となった場合に、音声識別手段１６が音声信号から識別した言語情報に基づいて、言語情報（単語）の選別が行われる。つまり、口の動きからは言語情報（単語）が１つに絞りきれない場合に、音声から識別された言語情報に基づいて、アニメーション動画が生成される。その他の構成は、図４の携帯通信端末１０と同様である。
【００５０】
本実施の形態によれば、マイク１４からの音声信号から言語情報が識別されるので、口の動きからは言語情報が識別できなかった場合に、通話者の発した音声から識別された言語情報に基づいて、アニメーション動画を生成することができる。従って、自局端末側の通話者が意図する通話内容を正確に表したアニメーション動画を生成することができる。
【００５１】
実施の形態５．
図７は、本発明の実施の形態５による携帯通信端末の構成例を示したブロック図である。本実施の形態の携帯通信端末２０は、通話者の口の動きから言語情報を識別し、この言語情報を音声信号に変換して送信することができる。
【００５２】
この携帯通信端末２０は、撮像手段２、動きベクトル生成手段３、口輪郭抽出手段４、送信手段７、アンテナ８、画像識別手段２１、音声信号生成手段２２及び音声記憶手段２３により構成される。
【００５３】
画像識別手段２１は、口輪郭抽出手段４により抽出された口の輪郭と、動きベクトル生成手段３により順次に生成された動きベクトルに基づいて、言語情報の識別を行っている。すなわち、通話者の口の輪郭とその動きから、通話者が口の動きで表現した言語情報が識別される。ここでは、言語情報として、「あ」、「い」、「う」などの１つの音で表される言葉が順次に識別されるものとする。
【００５４】
音声記憶手段２３には、言語情報ごとの音声が予め記憶されている。音声信号生成手段２２は、画像識別手段２１により識別された言語情報に基づいて、音声記憶手段２３から音声を読み出し、音声信号を生成している。つまり、通話者が口の動きで表現した言語情報が画像識別手段２１によって識別され、この識別結果に基づいて音声信号が生成される。この様にして生成された音声信号は、送信手段７によりアンテナ８を介して順次に送信される。
【００５５】
本実施の形態によれば、通話者が口の動きで表現した言語情報が識別され、音声信号に変換して送信されるので、声を発することができない通話者（聴覚障害者など）であっても、通話内容を容易に相手局端末側の通話者に伝えることができる。
【００５６】
実施の形態６．
実施の形態５では、通話者の口の動きから言語情報が識別される携帯通信端末について説明した。これに対し、本実施の形態では、通話者の手の動きから言語情報が識別される携帯通信端末について説明する。
【００５７】
図８は、本発明の実施の形態６による携帯通信端末の構成例を示したブロック図である。本実施の形態の携帯通信端末３０は、図７の携帯通信端末２０（実施の形態５）と比較して、口輪郭抽出手段４の代わりに手輪郭抽出手段３１を備えている点で異なる。
【００５８】
手輪郭抽出手段３１は、撮影画像から手の輪郭の抽出を行っている。手の輪郭の抽出は、動きベクトル生成手段３により生成された動きベクトルに基づいて行われる。例えば、動きベクトルの始点を線で結ぶことによって、手の輪郭を抽出することができる。なお、様々な手の形を表すパターン画像を予め複数記憶しておき、これらのパターン画像とのマッチングを行うことによって、手の輪郭を抽出するようなものであっても良い。
【００５９】
画像識別手段３２は、手輪郭抽出手段３１により抽出された手の輪郭と、動きベクトル生成手段３により順次に生成された動きベクトルに基づいて、言語情報の識別を行っている。すなわち、通話者の手の輪郭とその動きから、通話者が手の動き（手話）で表現した言語情報が識別される。ここでは、言語情報として、「こんにちは」といった単語が順次に識別されるものとする。その他の構成は、図７の携帯通信端末２０と同様である。
【００６０】
本実施の形態によれば、通話者が手話で表現した言語情報が識別され、音声信号に変換して送信されるので、声を発することができない通話者（聴覚障害者など）であっても、通話内容を容易に相手局端末側の通話者に伝えることができる。
【００６１】
【発明の効果】
以上、説明したように本発明による携帯通信端末及び画像処理方法によれば、フレーム間の動きベクトルに基づいてアニメーション動画が生成されるので、通話者の動きを詳細に表すアニメーション動画を生成することができる。従って、アニメーション動画から通話者の動き、特に、口の動きを容易に識別することができるので、聴覚障害者との通話性能が向上する。
【００６２】
また、口の動きで通話内容を伝えるので、音声から言語情報を認識する場合に比べ、通話内容の誤認識を抑制することができる。また、アニメーション動画による通話であるので、通話におけるリアルタイム性が損なわれることはない。また、通話者の口の動きや手の動きで通話内容を伝えるので、聴覚障害者が容易に通話を行うことができる。
【図面の簡単な説明】
【図１】本発明の実施の形態１による携帯通信端末の一構成例を示したブロック図である。
【図２】図１の携帯通信端末におけるアニメーション動画の生成から送信までの動作の一例を示したフローチャートである。
【図３】本発明の実施の形態１による携帯通信端末の他の構成例を示したブロック図である。
【図４】本発明の実施の形態２による携帯通信端末の構成例を示したブロック図である。
【図５】本発明の実施の形態３による携帯通信端末の構成例を示したブロック図である。
【図６】本発明の実施の形態４による携帯通信端末の構成例を示したブロック図である。
【図７】本発明の実施の形態５による携帯通信端末の構成例を示したブロック図である。
【図８】本発明の実施の形態６による携帯通信端末の構成例を示したブロック図である。
【符号の説明】
１，１ａ，１０，１０ａ，２０，３０携帯通信端末、２撮像手段、
３動きベクトル生成手段、４口輪郭抽出手段、
５，１２アニメーション動画生成手段、６画像圧縮手段、７送信手段、
８アンテナ、９静止画像記憶手段、１１，２１，３２画像識別手段、
１３手話画像記憶手段、１４マイク、１５音量検出手段、
１６音声識別手段、２２音声信号生成手段、２３音声記憶手段、
３１手輪郭抽出手段

Claims

フレームごとの撮影画像を順次に生成する撮像手段と、
撮影画像からフレーム内の各点についてフレーム間の動きベクトルを生成する動きベクトル生成手段と、
上記動きベクトルに基づいて、アニメーション動画を生成するアニメーション動画生成手段を備えたことを特徴とする携帯通信端末。
上記動きベクトルに基づいて、撮影画像から口の輪郭を抽出する口輪郭抽出手段を備え、
上記アニメーション動画生成手段は、上記口輪郭抽出手段により抽出された口の輪郭に基づいて、口の動きを表すアニメーション動画を生成することを特徴とする請求項１に記載の携帯通信端末。
口の形状に対応する複数の静止画像を記憶する静止画像記憶手段を備え、
上記アニメーション動画生成手段は、上記静止画像からアニメーション動画を生成することを特徴とする請求項２に記載の携帯通信端末。
マイクから入力された音声信号について音量を検出する音量検出手段を備え、
上記アニメーション動画生成手段は、上記音量検出手段により検出された音量に基づいてアニメーション動画を生成することを特徴とする請求項１に記載の携帯通信端末。
上記アニメーション動画生成手段は、音量が増加した場合に動きベクトルを拡大させてアニメーション動画を生成することを特徴とする請求項４に記載の携帯通信端末。
上記動きベクトルに基づいて、撮影画像から口の輪郭を抽出する口輪郭抽出手段と、
上記口輪郭抽出手段により抽出された口の輪郭に基づいて、言語情報を順次に識別する画像識別手段と、
言語情報ごとの手話に対応する複数の動画を記憶する手話画像記憶手段を備え、
上記アニメーション動画生成手段は、上記画像識別手段により識別された言語情報に基づいて、上記手話画像記憶手段から動画を読み出し、アニメーション動画を生成することを特徴とする請求項１に記載の携帯通信端末。
マイクから入力された音声信号に基づいて言語情報を識別する音声識別手段を備え、
上記アニメーション動画生成手段は、上記画像識別手段及び上記音声識別手段による識別結果に基づいて、動画を読み出すことを特徴とする請求項６に記載の携帯通信端末。
フレームごとの撮影画像を順次に生成する撮像手段と、
撮影画像からフレーム内の各点についてフレーム間の動きベクトルを生成する動きベクトル生成手段と、
上記動きベクトルに基づいて言語情報を順次に識別する画像識別手段と、
言語情報ごとの音声を記憶する音声記憶手段と、
上記画像識別手段により識別された言語情報に基づいて、上記音声記憶手段から音声を読み出し、音声信号を生成する音声信号生成手段を備えたことを特徴とする携帯通信端末。
上記動きベクトルに基づいて、撮影画像から口の輪郭を抽出する口輪郭抽出手段を備え、
上記画像識別手段は、上記口輪郭抽出手段により抽出された口の輪郭に基づいて言語情報を識別することを特徴とする請求項８に記載の携帯通信端末。
上記動きベクトルに基づいて、撮影画像から手の輪郭を抽出する手輪郭抽出手段を備え、
上記画像識別手段は、上記手輪郭抽出手段により抽出された手の輪郭に基づいて言語情報を識別することを特徴とする請求項８に記載の携帯通信端末。
フレームごとの撮影画像を順次に生成する撮像ステップと、
撮影画像からフレーム内の各点についてフレーム間の動きベクトルを生成する動きベクトル生成ステップと、
上記動きベクトルに基づいて、アニメーション動画を生成するアニメーション動画生成ステップからなることを特徴とする画像処理方法。
フレームごとの撮影画像を順次に生成する撮像ステップと、
撮影画像からフレーム内の各点についてフレーム間の動きベクトルを生成する動きベクトル生成ステップと、
上記動きベクトルに基づいて言語情報を順次に識別する画像識別ステップと、
言語情報ごとの音声を記憶する音声記憶ステップと、
識別された言語情報に基づいて、音声信号を生成する音声信号生成ステップからなることを特徴とする画像処理方法。