JP3962820B2 - Mobile phone, document display method with voice, call voice display method, and mobile phone display method - Google Patents
Mobile phone, document display method with voice, call voice display method, and mobile phone display method Download PDFInfo
- Publication number
- JP3962820B2 JP3962820B2 JP2003187864A JP2003187864A JP3962820B2 JP 3962820 B2 JP3962820 B2 JP 3962820B2 JP 2003187864 A JP2003187864 A JP 2003187864A JP 2003187864 A JP2003187864 A JP 2003187864A JP 3962820 B2 JP3962820 B2 JP 3962820B2
- Authority
- JP
- Japan
- Prior art keywords
- brightness
- moving image
- text
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【0001】
【発明の属する技術分野】
本発明は、携帯電話、音声付き文書表示方法、通話音声表示方法および携帯電話の表示方法に関する。
【0002】
【従来の技術】
従来、携帯電話においては、音声の録音・再生機能を備え、送信側では、録音した音声ファイルをメールに添付して送信し、受信側では、メールに添付されている音声を再生出力するものがある。また、近年、データ転送速度の向上により、携帯電話同士で、通話時に動画を送受信するものがある。この場合、ユーザは、携帯電話本体を耳に当てた状態でスピーカから通話音声を聞くことになるが、この状態では、動画を見ることができない。そこで、携帯電話本体を対面状態で把持し、イヤフォンなどを用いて通話音声を聞くとともに、対面状態の携帯電話の表示部で動画を見ることになる。
【0003】
ところで、メールに添付されている音声を再生出力する場合や、通話時に動画を再生しつつ通話音声を出力する場合においては、音声をスピーカで出力すると、周囲の雑音が大きい場合などには、音声が聞き取りにくかったり、周囲が静かな場合などには、周りに迷惑をかけたりするという問題がある。また、イヤフォンなどを用いて音声を聞くことも考えられるが、イヤフォンを取り出して接続したりするのは手間がかかるという問題がある。そこで、音声を音声認識してテキストに変換し、テキスト文字として表示させることができれば、ユーザにとって利便性が向上すると考えられる。
【0004】
例えば、音声を音声認識する従来技術としては、多くの画像データの中から所望する画像データを検索するために、画像データ毎に、内容が分かるような音声を録音し、それぞれの画像データに関連付け、該音声を可変速再生して目的の画像データを探す技術が提案されている(例えば特許文献1参照)。該特許文献1では、上記音声を音声認識によりテキストに変換し、該テキストを画像データのインデックスとして用いて、画像データのソート(並び替え)を行なうことが可能になっている。
【0005】
【特許文献1】
特開2002−41529号公報
【0006】
【発明が解決しようとする課題】
上述した特許文献1による従来技術では、音声データをテキストへ変換する音声認識技術や、音声認識したテキストによりソートを行なう技術などが開示されている。しかしながら、携帯電話でメールに添付されている音声や、通話時において動画と通話音声などについて、従来技術により、音声を音声認識してテキストに変換したとしても、携帯電話などの限られた面積(解像度)の表示部にどのように表示するかは何ら記述されていない。
【0007】
そこで本発明は、メールに添付されている音声データを、より容易に確認することができ、また、通話時における通話音声と通話時に送信されてくる動画とを、より容易に確認することができる携帯電話、音声付き文書表示方法、通話音声表示方法および携帯電話の表示方法を提供することを目的とする。
【0008】
【課題を解決するための手段】
上記目的達成のため、請求項1の発明は、動画を表示しながらテキストを画面に重ねて表示する携帯電話において、相手側から送信されてくる動画の明度が中間値(M)より明るいか否かを判別する第1の判別手段と、前記第1の判別手段により動画の明度が中間値(M)より明るいと判別されたとき、更に動画の明度が中間値(M)と閾値(TH1)(ただしM<TH1)との間であるか否かを判別する第2の判別手段と、前記第2の判別手段により動画の明度が中間値(M)より暗いと判別されたとき、更に動画の明度が中間値(M)と閾値(TH2)(ただしM>TH2)との間であるか否かを判別する第3の判別手段と、前記第2の判別手段により動画の明度が中間値(M)と閾値(TH1)との間にあると判別されたとき、動画の明度を所定量増加させ、前記第3の判別手段により動画の明度が中間値(M)と閾値(TH2)との間にあると判別されたとき、動画の明度を所定量減少させる明度調整手段と、前記明度調整手段により明度が調整された動画上に前記テキストを重ねて表示する表示制御手段とを具備することを特徴とする。
【0023】
また、好ましい態様として、例えば請求項2記載のように、請求項1記載の携帯電話において、前記第1の判別手段、前記第2の判別手段、前記第3の判別手段、および前記明度調整手段は、前記動画の明度判別と明度の増加または減少を、フレーム毎に行ない、リアルタイムで動画の明度を調整するようにしてもよい。
【0024】
また、好ましい態様として、例えば請求項3記載のように、請求項1または2記載の携帯電話において、前記第1の判別手段、前記第2の判別手段、または、前記第3の判別手段による動画の明度の判別結果に基づいて、画面に重ねて表示するテキストの文字色を設定する文字色設定手段を更に備えるようにしてもよい。
【0025】
また、好ましい態様として、例えば請求項4記載のように、請求項3記載の携帯電話において、前記文字色設定手段は、動画の明度を減少させたとき、テキストの文字色を白に設定するようにしてもよい。
【0026】
また、上記目的達成のため、請求項5記載の発明による携帯電話の表示方法は、動画を表示しながらテキストを画面に重ねて表示する携帯電話の表示方法において、前記動画の明度をB、明度の中間値をM、所定の明るい側の閾値をTH1、所定の暗い側の閾値をTH2としたとき、動画のフレーム単位で、TH1>B>M であるときは明度Mを増加するステップと、M>B>TH2 であるときは明度Mを減少するステップと、前記明度Mが調整された動画上に前記テキストを重ねて表示するステップとを含むことを特徴とする。
【0027】
また、好ましい態様として、例えば請求項6記載のように、請求項5記載の携帯電話の表示方法において、前記M>B>TH2であるときは、更にテキストの文字色を白に設定するステップを更に含むようにしてもよい。
【0029】
【発明の実施の形態】
以下、本発明の実施の形態を、携帯電話に適用した一実施例として、図面を参照して説明する。
【0030】
A.第1実施形態
A−1.第1実施形態の構成
図1は、本発明の第1実施形態による携帯電話システムの構成を示すブロック図である。図において、携帯電話(無線通信端末/データ通信装置)1a,1bは、音声録音機能を備え、録音した音声データを添付したメールをシステム(特に、後述するメールサーバ33、63)に送信する機能、および音声付きメールを受信する機能を備えている。該携帯電話1a,1bは、音声付きメールを作成する際、該メール本文に添付する音声を音声認識してテキストデータに変換し、メール本文とテキストデータとを一画面で確認できるように表示する。また、携帯電話1a,1bは、通話時に相手側から動画が送信されてくると、通話音声を音声認識してテキストデータに変換し、動画とテキストデータとを同一画面で確認できるように表示する。
【0031】
また、動画再生時には、96×80ピクセルの動画を128×96ピクセルの最大表示領域に拡大することが可能となっている。拡大方式には、動画周囲を単純に拡大する方式、動画の周囲にいくほど直線的に拡大率を大きくする方式、中央部から周囲にいくほど指数関数的に拡大率を大きくする方式などが考えられるが、いずれの場合においても、拡大により動画の視認性を低下させないため、中央部は1倍のままとする。なお、動画の拡大アルゴリズムは、周知の技術を用いるものとし説明を省略する。
【0032】
無線基地局2,2は、公衆回線網4を介して携帯電話1a,1bのユーザが加入する通信サービス事業者(インターネットプロバイダを含む)3に接続する。通信サービス事業者(インターネットプロバイダを含む)3は、主なサービスとして提供している携帯電話サービスに必要とする交換機34の他、後述のWWW5に接続するためのシステム(Webサーバ32、ルータ35)、メールシステム(メールサーバ33)を備えている。無線基地局2をAP(アクセス・ポイント)として、携帯電話1a,1bをWWW5に接続させるための機能も備えている。
【0033】
公衆回線網4は、アナログ、デジタル電話回線網である。WWW5は、所謂インターネットである。インターネットサービスプロバイダ(以下ISPと称す)6は、交換機を除いて、通信サービス事業者3と同じ構成であり、WWW5に接続するためのシステム(便宜的にWebサーバ62、ルータ65)、メールシステム(メールサーバ63)を備えている。パーソナルコンピュータ7は、公衆回線4、ISP6を介してWWW5に接続したり、メールの送受信を行なう機能を備えている。
【0034】
なお、本実施形態の特徴として、携帯電話1a,1b同士では、音声付きメールを、メール本文と音声を変換したテキストとを一画面で表示するが(詳細は後述)、携帯電話1a,1bからパーソナルコンピュータ7へ音声付きメールを送信した場合、パーソナルコンピュータ7では、音声は、添付ファイルとして扱われる。すなわち、本実施形態による「音声付きメールソフトプログラム」は、一般に知られるメールソフトと互換性を持っている。
【0035】
次に、図2(a),(b)は、携帯電話1a,1bの外観図(開状態:正面図および背面図)である。本実施形態における携帯電話1a、1bは、蓋部と本体部からなる二つ折り構造である。アンテナ11は、蓋部の背面に設けられており、伸縮自在となっている。スピーカ12は、蓋部の前面側に設けられており、音声出力を行なう。表示部(メイン表示部)13は、カラー液晶であり、例えば120ドット(幅)×160ドット(高さ)である。該表示部13には、音声付きメールの音声(テキスト)とメール本文、通話音声(テキスト)と動画とを同一画面上に表示可能となっている。
【0036】
キー操作部14は、本体部の前面に設けられており、各種機能キー(メールキー141、アドレスキー142、ファンクションキー143)、テンキー144、シャッターキー145などからなる。メールキー141は、メール機能を起動し、メールメニューを表示するためのものである。アドレスキー142は、送信先のメールアドレスを選択する際に用いるアドレス帳を開くためのものである。ファンクションキー143は、音声付きメールの作成時、あるいは音声付きメールの確認時、動画の再生や一時停止などを指示するためのものである。テンキー144は、電話番号や文字の入力の際に使用する。シャッターキー145は、撮像モード時において、押圧検出で、静止画を撮影したり、所定秒(例えば2秒)の押圧維持検出で、動画を撮影したりする。
【0037】
マイク15は、本体部の下部に設けられており、通話時の音声入力や、録音時の音声入力を行なう。サブ表示部16は、蓋部の背面に設けられている。背面キー17は、透明、または半透明部材で構成され、着信の際、発光するLED171を内蔵している。撮像レンズ18は、蓋部2の背面、上記サブ表示部16の下部に設けられている。報知スピーカ19は、着信などを報知するものであり、蓋部を本体部に閉じた状態でも報知音が聞こえるように、本体部の裏面に配置されている。
【0038】
次に、図3は、携帯電話1a,1bの構成を示すブロック図である。無線送受信部20は、無線によりアンテナ11を介して音声やデータ(メールデータ)を送受し変調/復調する。無線信号処理部21は、無線送受信部20で受信した音声やデータ(メールデータ)を復調し、あるいは無線送受信部20へ送信するための音声やデータを変調するなどの無線通信に必要な処理をする。制御部22は、各種動作および全体の動作を制御する。
【0039】
画像メモリ23は、撮像部(撮像レンズ18、撮像モジュール181、DSP182)で撮像され、画像処理プログラム領域2413に格納されたプログラムにより圧縮符号化された画像ファイルや、WWW5を介してダウンロードした画像ファイルを格納するためのメモリである。ROM24は、書換可能なFlash ROMで構成され、本発明の特徴となる、後述の各種プログラムを格納する。
【0040】
ドライバ25は、表示部13を駆動させる。ドライバ26は、サブ表示部16を駆動させる。加入者情報記憶部27は、本携帯電話1を呼び出すための電話番号や、操作者(加入者)のID等、プロフィールデータを格納する。ROM28は、制御部18を制御する各種プログラムなどを格納する。RAM29は、無線通信端末として必要な各種データを記憶し、かつ制御部25が動作する上で必要なデータを格納するとともに、メールデータも格納記憶する。特に、本実施形態では、RAM29には、撮影モードにおいて、撮影中の動画を一度バッファリグするための記憶領域がある。
【0041】
音声信号処理部200は、マイク15から入力された音声信号を符号化処理したり、無線信号処理部21から出力された信号に基づいて復号化してスピーカ12を駆動させ、音声を出力する。撮像モジュール181は、CCD、若しくはCMOSで構成され、カラー画像を取り込む。DSP182は、撮像モジュール181にて取り込まれた画像を符号化処理する。報知デバイス192は、報音スピーカ19、バイブレータ191、LED171を駆動させるためのドライバである。音声認識処理部30は、メールに添付されている音声データ、または通話時の相手の音声を認識してテキストデータに変換する。
【0042】
次に、図4は、本第1実施形態による携帯電話1a,1bのROM24のメモリエリアの構成を示す概念図である。該ROM24は、本実施形態の特徴であるソフトウェアプログラムを格納する。ROM24は、メールソフトウェアプログラム領域2411、音声付きメールソフトプログラム領域2412、音声認識プログラム領域2413、およびその他のプログラム領域2415からなる。
【0043】
メールソフトウェアプログラム領域2411は、既知のメールソフトウェアプログラムを格納する。音声付きメールソフトプログラム領域2412は、音声付きメールの作成、受信した音声付きメールの閲覧を行なうための音声付きメールソフトプログラムを格納する。なお、音声付きメールソフトウェアプログラムは、ISP6を介してWWW5からダウンロードするようにしてもよい。
【0044】
音声認識プログラム領域2413は、メールに添付された音声を認識し、テキストに変換する。音声データは、所定のフォーマット(例えば、WAV形式、MP3形式、PCM形式など)により符号化されている。その他のプログラム領域2414は、上記以外のアプリケーションプログラムなどを格納する。
【0045】
次に、図5は、本第1実施形態による携帯電話1a,1bのRAM29のメモリエリアの構成を示す概念図である。RAM29は、アドレス帳データ格納領域291、メールデータ格納領域292、添付ファイル格納領域293、その他・ワークメモリ294および音声データバッファ領域295からなる。アドレス帳データ格納領域291は、氏名、電話番号、メールアドレス等を一組のレコードとして複数格納する。メールデータ格納領域292は、メールソフトウェアを使用して作成されたメールデータや、受信したメールデータを格納する。添付ファイル格納領域293は、メールにファイルが添付されている場合、このファイルを格納する。その他・ワークメモリ294は、その他のワークメモリとして、例えば、各種データを格納する。音声データバッファ領域295は、録音中の音声を一度バッファリングするための記憶領域である。
【0046】
A−2.第1実施形態の動作
次に、上述した第1実施形態による携帯電話の動作について説明する。
(1)メール作成
次に、本第1実施形態によるメール作成時の動作について説明する。ここで、図6ないし図9は、本実施形態による携帯電話のメール作成時の動作を説明するためのフローチャートである。また、図10(a),(b)は、メールに添付される音声ファイル再生例やメール本文の表示例を示す模式図である。
【0047】
ユーザによりメール作成モードが選択されると、メールメニューを表示する(ステップS40)。次に、メールメニューから新規作成が選択されたか否かを判断する(ステップS42)。ここで、新規作成が選択されなかった場合には、受信ボックスが選択されたか否かを判断し(ステップS44)、受信ボックスが選択されなければ、その他の処理へ進む(ステップS46)。なお、受信ボックスが選択された場合、すなわち受信メールを表示するための処理については後述する。
【0048】
一方、メールメニューから新規作成が選択されると、作成メニューを表示する(ステップS48)。次に、メールメニューから音声データ付きメールが選択された否かを判断する(ステップS50)。そして、音声データ付きメールが選択されなかった場合には、通常のメール処理へ進む(ステップS54)。
【0049】
一方、メールメニューから音声データ付きメールが選択された場合には、音声データ付きメールプログラムおよび音声認識プログラムをロードし(ステップS56)、作成画面を表示する(ステップS60)。
【0050】
次に、作成画面において、「音声選択」、「メール作成(編集)」のいずれの項目が選択されたか否かを判断する(ステップS62)。ここで、「音声選択」が選択された場合には、まず、音声ファイルを検索する(ステップS64)。そして、音声ファイルがあったか否かを判断し(ステップS66)、音声ファイルがなければ、音声を入力して録音し(ステップS68)、録音した音声を音声ファイルとして保存し(ステップS70)、ステップS64の音声ファイル検索へ戻り、上述した処理を繰り返す。
【0051】
一方、音声ファイルがあった場合には、音声ファイルをリスト表示する(ステップS72)。次に、リスト表示からいずれかの音声ファイルが選択されたか否かを判断する(ステップS74)。そして、選択されない場合には、ステップS72に戻り、リスト表示を継続する。
【0052】
一方、音声ファイルが選択されると、図10(a)に示すように、選択された音声を再生出力し(ステップS76)、音声認識処理部30により音声データを認識し、テキストデータに変換し(ステップS78)、認識したテキストデータを表示部13に表示する(ステップS80)。その後、ステップS60の作成画面に戻り、上述した処理を繰り返す。
【0053】
また、作成画面において、「メール作成・編集」が選択された場合には、まず、各項目・編集・表示を行なう画面を表示する(図8のステップS82)。ユーザは、該画面において、メールのタイトル、メール送信者の名前、メール宛先、メール本文などを入力する。次に、「再生」を指示するファンクションキー143が操作されたか否かを判断し(ステップS84)、さらに「決定」が検出されたか否かを判断する(ステップS86)。そして、「再生」を指示するファンクションキー143の操作も「決定」もされなかった場合には、ステップS82へ戻り、「各項目・編集・表示」の画面表示を継続する。
【0054】
一方、「再生」を指示するファンクションキー143が操作されると、メールに添付すべき音声が選択されているか否かを判断する(ステップS88)。そして、音声が選択されている場合には、図10(b)に示すように、選択された音声を再生出力し(ステップS90)、音声認識処理部30により音声データを認識し、テキストデータに変換し(ステップS92)、メール本文と認識したテキストデータとを表示部13に表示する(ステップS94)。その後、ステップS82に戻り、上述した処理を繰り返す。
【0055】
また、ステップS82で、各項目・編集・表示画面が表示されているとき、音声が選択されていない状態で、ステップS84でファンクションキーが操作された場合には、「音声が選択されていません」というメッセージを表示する(図9のステップS106)。次に、所定時間経過したか否かを判断し(ステップS108)、所定時間経過していなければ、ステップS106へ戻り、メッセージの表示を維持する。一方、メッセージの表示が所定時間経過した場合には、メッセージを消去する(ステップS110)。その後、図6のステップS60へ戻り、前述した処理を繰り返す。
【0056】
そして、ステップS82で、各項目・編集・表示画面が表示されているとき、「決定」の操作が検出されると、未記入項目があるか、あるいは音声が選択されていないかを判断する(ステップS110)。そして、未記入項目があるか、あるいは音声ファイルが選択されていない場合には、ユーザに対する確認表示を行ない(ステップS112)、「OK」が選択されたか否かを判断する(ステップS114)。そして、「OK」が選択されない場合、すなわち未記入項目があるか、音声ファイルが選択されていない場合には、図6に示すステップS60へ戻り、作成画面の表示へ進む。以降、ユーザは、未記入項目への入力、あるいはメールに添付する音声ファイルを選択するなどしてメールを完成させることになる。
【0057】
一方、ユーザへの確認表示において、「OK」が選択された場合には、未記入項目があってもよい、あるいは音声ファイルが選択されていなくてもよい、ということであるので、メールを送信ボックスに格納し(ステップS116)、図6に示すステップS40のメールメニューの表示へ戻り、前述した処理を繰り返す。また、未記入項目がないか、あるいは音声ファイルが選択されている場合には、確認することなく、音声ファイルが添付されたメールを送信ボックスに格納し(ステップS116)、図6に示すステップS40のメールメニューの表示へ戻り、前述した処理を繰り返す。送信ボックスに格納された音声ファイル付きメールは、所定のタイミングで送信される。
【0058】
(2)受信メール表示処理
次に、図11は、本第1実施形態による受信メール表示処理を説明するためのフローチャートである。なお、図11に示すフローチャートは、前述した図6に示すステップS44における「YES」からの分岐である。
【0059】
受信フォルダが選択された場合には、受信したメールの一覧を表示すべく受信リストを表示する(ステップS200)。ここで、図12は、表示部13に表示される受信リストの表示例を示す模式図である。アイコン1301は、バッテリの充電量を表わしている。また、アイコン1302は、電波受信状態を表わしている。また、受信リストでは、アイコン1303〜1306でメールの既読/未読を判別できるようになっている。すなわち、アイコン1303は、未読メールを表わしている。また、アイコン1304は、未読音声付きメールを表わしている。また、アイコン1305は、既読メールを表わしている。アイコン1306は、既読音声付きメールを表わしている。ここで、ユーザは、表示したいメールを受信リストから選択操作することになる。
【0060】
次に、音声付きメールが選択されたか否かを判断する(ステップS202)。そして、音声付きメールが選択された場合には、音声付きメールソフトプログラムおよび音声認識プログラムをロードし(ステップS204)、音声認識処理部30により音声データを認識し、テキストデータに変換し(ステップS206)、図13に示すように、メール本文と認識したテキストデータとを表示部13に表示する(ステップS208)。次に、キャンセル操作が検出されたか否かを判断し(ステップS210)、キャンセル操作が検出された場合には、ステップS200へ戻り、受信リストの表示へ移行する。
【0061】
一方、キャンセル操作が検出されなかった場合には、ファンクションキー143が操作されたか否かを判断する(ステップS212)。そして、ファンクションキー143が操作されない場合には、ステップS206へ戻り、メール本文と音声認識したテキストとの表示を継続する。
【0062】
一方、ファンクションキー143が操作されると、図13に示すように、メールに添付されていた音声ファイルを再生出力する(ステップS214)。次に、再度、ファンクションキー143が操作されたか否かを判断する(ステップS216)。そして、ファンクションキー143が操作されない場合には、ステップS212へ戻り、音声の再生出力を繰り返す。一方、音声の再生出力後に、ファンクションキー143が操作されると、ステップS208へ戻り、図13に示すように、メール本文と音声認識したテキストとを表示する。
【0063】
上述した第1実施形態では、メールに音声ファイルが添付されていた場合、該音声を音声認識によりテキストデータに変換し、メール本文とともに表示部13に表示するようにしたので、メールに添付された音声ファイルを容易に認識可能にすることができる。
【0064】
B.第2実施形態
次に、本発明の第2実施形態について説明する。本第2実施形態では、カメラ付き携帯電話において、通話時に動画(または静止画)が送信されてきた場合、通話音声(相手側)を音声認識によりテキストデータに変換し、再生表示している動画に重ねて、上記テキストを表示するようにしたものである。また、このとき、動画をそのままのサイズ(96×80ピクセル)で再生表示させ、該動画にテキストデータを重ねて表示したり、動画を128×96ピクセルに拡大して再生表示させ、該動画にテキストデータを並べて表示したりすることが可能となっている。
【0065】
B−1.第2実施形態の構成
本第2実施形態による携帯電話の構成は、第1実施形態で説明した図3と同様であるので説明を省略する。
【0066】
図14は、本第2実施形態による携帯電話1a,1bのROM24のメモリエリアの構成を示す概念図である。該ROM24は、本実施形態の特徴であるソフトウェアプログラムを格納する。ROM24は、動画再生プログラム領域2411、音声認識プログラム領域2413、画像処理プログラム領域2415、およびその他のプログラム領域2414からなる。
【0067】
動画再生プログラム領域2411は、通話時に送信されてくる動画を再生するための動画再生プログラムを格納する。音声認識プログラム領域2413は、メールに添付された音声を認識し、テキストに変換する。音声データは、所定のフォーマット(例えば、WAV形式、MP3形式、PCM形式など)により符号化されている。
【0068】
画像処理プログラム領域2415は、撮像部(撮像レンズ18、撮像モジュール181、DSP182)で撮像・デジタル符号化されてRAM29にバッファリングされた動画データを、MPEG−4に準拠する符号化圧縮処理で圧縮ファイル化するための画像処理プログラムを格納する。また、該画像処理プログラムは、外部より受信、もしくは自機においてファイル化された動画を、再生時に、動画の周囲部を拡大し、全体として128×96ピクセルの表示サイズに変更して表示するようになっている。その他のプログラム領域2414は、上記以外のアプリケーションプログラムなどを格納する。
【0069】
また、図15は、本第2実施形態による携帯電話1a,1bのRAM29のメモリエリアの構成を示す概念図である。RAM29は、その他・ワークメモリ294、音声データバッファ領域295、拡大データ領域296、および表示バッファ297からなる。その他・ワークメモリ294は、その他のワークメモリとして、例えば、上述したデコード処理におけるフレームメモリ(3フレーム分)として用いたり、各種データを格納する。音声データバッファ領域295は、録音中の音声を一度バッファリングするための記憶領域である。拡大データ領域295は、部分拡大した動画データを格納する。表示バッファ296は、動画を表示する際のバッファとして用いられる。
【0070】
次に、図16は、本第2の実施形態による動画拡大方式を説明するための概念図である。本第2実施態様では、静止画の表示サイズは、128×96ピクセルであり、動画の表示サイズは、通常、96×80ピクセルである。但し、本第2実施形態では、動画の視認性を向上させるために、所定の拡大方式により、128×96ピクセルに拡大して表示することができるようになっている。より詳細には、図示するように、96×80ピクセルの動画の周囲部(図示の斜線部)を、所定の動画拡大方式(後述)に従って部分拡大し、全体として、128×96ピクセルの表示領域で再生可能となっている。また、動画の停止(一時停止)時は、全体を一様拡大して128×96ピクセル(Sub−QCIFサイズ)で静止画として表示する。
【0071】
次に、図17は、本第2実施形態による動画拡大方式例を説明するための概念図である。図17(a)では、中央部を1倍、周囲を3倍とし、単純に拡大する方式である。また、図17(b)では、動画の周囲にいくほど直線的に拡大率を大きくする方式である。また、図17(c)では、中央部から周囲にいくほど指数関数的に拡大率を大きくする方式である。いずれの場合においても、拡大により動画の視認性を低下させないため、中央部の拡大率は1倍のままとする。いずれの動画拡大方式を用いるかは、予め決めておいてもよいし、ユーザによって選択可能としてもよい。
【0072】
次に、図18および図19は、動画拡大の方式の一例を説明するための概念図である。動画がMPEG−4の場合、デコードする際には、図18に示すように、前後のフレームを参照する必要があるので、通常、バッファには3フレーム分のメモリ領域が必要となる。また、部分拡大の方式としては、一例として、図19に示すように、注目画素のデータを隣接画素に埋め込むことにより補間する補間法を用いればよい。通常、補間後のデータにフィルタ処理を施すという画像処理を加える。
【0073】
B−2.第2実施形態の動作
次に、上述した第2実施形態による携帯電話の動作について説明する。
(1)着信動作
図20は、本第2実施形態による携帯電話において着信時の動作を説明するためのフローチャートである。まず、待機状態において、着信したか否かを判断する(ステップS300)。そして、着信すると、相手側から動画を受信したか否かを判断する(ステップS302)。ここで、動画を受信していない場合には、通常の通話処理へ進む(ステップS304)。
【0074】
一方、動画を受信した場合には、動画再生プログラム、音声認識プログラムおよび画像処理プログラムをロードする(ステップS306)。次に、動画再生プログラムにより、受信した動画を再生する(ステップS308)。動画再生の詳細については後述する。動画再生においては、所定のファンクションキーの操作に応じて、96×80ピクセルで再生するか、図17(a)〜(c)に示す拡大方式のいずれかに従って、128×96ピクセルに部分拡大して再生する。部分拡大して128×96ピクセルで再生しているとき、フラグFは「1」であり、96×80ピクセルで通常再生しているとき、フラグFは「0」である。
【0075】
次に、相手側からの通話音声を音声認識し、テキストデータに変換し(S310)、フラグFが「1」であるか否かを判断する(ステップS312)。フラグFが「1」である場合、すなわち部分拡大再生が選択されている場合には、図21(a)に示すように、128×96ピクセルに部分拡大された動画を背景に音声認識したテキストを重ねて表示する(ステップS314)。一方、フラグFが「0」である場合、すなわち通常再生が選択されている場合には、図21(b)に示すように、96×80ピクセルの動画に対して、並列に音声認識したテキストを表示する(ステップS316)。
【0076】
いずれの場合も、次に、オフフック(通話終了)されたか否かを判断し(S318)、通話が継続されている場合には、ステップS308へ戻り、動画の再生、通話音声を音声認識したテキストの表示を継続する。一方、オフフックされた場合には、回線を切断して当該処理を終了する(ステップS320)。
【0077】
(2)動画再生
次に、上述した動画再生処理について説明する。ここで、図22は、本第2実施形態による携帯電話において通話時に相手側から送信されてくる動画の再生動作について説明するためのフローチャートである。上述した着信動作において、通話時に動画を受信すると、図20のステップS308における動画の再生では、以下のようにして処理が実行される。
【0078】
まず、受信した動画データをバッファリングし(ステップS160)、デコードし(ステップS162)、フラグFが「1」であるか否か、すなわち部分拡大表示するか否かを判断する(ステップS164)。そして、フラグFが「1」である場合には、図17(a)〜(c)に示す拡大方式のいずれかに従って部分拡大処理を実行する(ステップS166)。そして、部分拡大処理した、128×96ピクセルの動画をLCDの表示バッファへ格納する(ステップS168)。この場合、図16に示すように、96×80ピクセルの周辺部が拡大(斜線部分)されて、128×96ピクセルの動画として再生され、前述した図21(a)に示すように、部分拡大された再生動画上に音声認識されたテキストが重ねて表示される。
【0079】
一方、フラグFが「1」でない場合には、部分拡大することなく、96×80ピクセルのサイズのまま、動画をLCDの表示バッファへ格納する(ステップS168)。この場合、96×80ピクセルの動画として再生され、前述した図21(b)に示すように、動画と並列に音声認識されたテキストが表示される。
【0080】
次に、所定のファンクションキー(部分拡大←→通常を選択するキー)が押下されたか否かを判断する(ステップS170)。そして、所定のファンクションキーが押下されない場合には、図20へ戻り、ステップS310以降へ進む。
【0081】
一方、所定のファンクションキーが押下された場合には、フラグFが「1」であるか否かを判断し(ステップS172)、フラグFが「1」の場合には、「0」にし(ステップS174)、フラグFが「0」の場合には、フラグFを「1」とする(ステップS176)。すなわち、動画再生中(=通話中)に、所定のファンクションキー(部分拡大←→通常を選択するキー)が押下される度に、部分拡大した再生と通常サイズの再生とが交互に実行されることになる。そして、図20へ戻り、ステップS310以降へ進む。
【0082】
(3)動画への音声認識によるテキストの重ね表示処理
次に、本第2実施形態による動画への音声認識によるテキストの重ね表示時の動作について説明する。ここで、図23は、本第2実施形態による動画への音声認識によるテキストの重ね表示時の動作を説明するためのフローチャートである。上述した通話時において、ステップS314の再生動画上への音声認識によるテキストの重ね表示では、以下のようにして処理が実行される。
【0083】
まず、相手側から送信されてくる動画(フレーム)の明度を判別する(ステップS180)。そして、動画の明度が中間値Mであるか否かを判断する(ステップS182)。そして、動画の明度が中間値Mであれば、動画の明度を所定量増やす(ステップS188)。
【0084】
一方、動画の明度が中間値Mでなければ、中間値Mより明るいか否かを判断し(ステップS184)、中間値Mより明るければ、さらに、中間値Mと閾値TH1(中間値M<閾値TH1)との間であるか否かを判断する(ステップS186)。そして、動画の明度が中間値Mと閾値TH1との間であれば、動画の明度を所定量増やす、すなわち明るくする(ステップS188)。
【0085】
一方、動画の明度が中間値Mより暗ければ、さらに、中間値Mと閾値TH2(中間値M>閾値TH2)との間であるか否かを判断する(ステップS190)。そして、動画の明度が中間値Mと閾値TH2との間であれば、動画の明度を所定量減らす、すなわち暗くする(ステップS192)。そして、表示する文字色(音声認識によるテキスト)を白に設定する(ステップS194)。また、動画の明度が閾値TH2より暗い場合には、明度を調整することなく、そのまま表示する文字色(音声認識によるテキスト)を白に設定する(ステップS194)。
【0086】
上述したように、動画の明度を調整した後(あるいは文字色を白に設定した後)、表示部13に、音声認識したテキストと動画とを重ねてプレビュー表示する(ステップS196)。そして、図20に戻り、ステップS318以降へ進む。
【0087】
このように、本第2実施形態では、明度判別によって、通話音声を音声認識したテキストの背景として表示される動画の明るさを調整することを特徴としている。ここで、図24は、動画の明度調整について説明するための概念図である。また、図25は、動画の明るさ(明度)が中間値M、若しくは、中間値Mと閾値TH1(明度70%)の間にあるときに明度調整された動画に音声認識によるテキストを重ねて表示した場合と、動画の明るさ(明度)が中間値Mと閾値TH2(明度30%)の間にあるときに明度調整された動画に音声認識によるテキストを重ねて表示した場合との模式図である。
【0088】
動画の明るさ(明度)が、図24に示すように、中間値M、若しくは、中間値Mと閾値TH1(明度70%)の間にあるときは、この動画の明度を上げるように加工処理し、図25(a)に示すように、音声認識によるテキストを重ねて表示する。一方、動画の明るさ(明度)が、図24に示すように、中間値M以下で、中間値Mと閾値TH2(明度30%)の間にあるときは、この動画の明度を下げるように加工処理し、図25(b)に示すように、音声認識によるテキストを重ねて表示する。
【0089】
上述した第2実施形態では、通話時に動画が送られてきた場合、動画を再生するとともに、通話による相手側の音声を音声認識によりテキスト化し、該テキストを再生動画に重ねて表示したり、動画に並べて表示したりするようにしたので、通話の音声と動画との視認性を同時に向上させることができる。
【0090】
【発明の効果】
請求項1記載の発明によれば、第1の判別手段により、相手側から送信されてくる動画の明度が中間値(M)より明るいか否かを判別し、第2の判別手段により、前記第1の判別手段により動画の明度が中間値(M)より明るいと判別されたとき、更に動画の明度が中間値(M)と閾値(TH1)(ただしM<TH1)との間であるか否かを判別し、第3の判別手段により、前記第2の判別手段により動画の明度が中間値(M)より暗いと判別されたとき、更に動画の明度が中間値(M)と閾値(TH2)(ただしM>TH2)との間であるか否かを判別し、明度調整手段により、前記第2の判別手段により動画の明度が中間値(M)と閾値(TH1)との間にあると判別されたとき、動画の明度を所定量増加させ、前記第3の判別手段により動画の明度が中間値(M)と閾値(TH2)との間にあると判別されたとき、動画の明度を所定量減少させ、表示制御手段により、前記明度調整手段により明度が調整された動画上に前記テキストを重ねて表示するようにしたので、動画とテキストとを、より容易に確認することができるという利点が得られる。
【0105】
また、請求項2記載の発明によれば、前記第1の判別手段、前記第2の判別手段、前記第3の判別手段、および前記明度調整手段により、前記動画の明度判別と明度の増加または減少を、フレーム毎に行ない、リアルタイムで動画の明度を調整するようにしたので、動画とテキストとを、より容易に確認することができるという利点が得られる。
【0106】
また、請求項3記載の発明によれば、文字色設定手段により、前記第1の判別手段、前記第2の判別手段、または、前記第3の判別手段による動画の明度の判別結果に基づいて、画面に重ねて表示するテキストの文字色を設定するようにしたので、動画とテキストとを、より容易に確認することができるという利点が得られる。
【0107】
また、請求項4記載の発明によれば、前記文字色設定手段は、動画の明度を減少させたとき、テキストの文字色を白に設定するようにしたので、動画とテキストとを、より容易に確認することができるという利点が得られる。
【0108】
また、請求項5記載の発明によれば、前記動画の明度をB、明度の中間値をM、所定の明るい側の閾値をTH1、所定の暗い側の閾値をTH2としたとき、動画のフレーム単位で、TH1>B>M であるときは明度Mを増加し、M>B>TH2 であるときは、明度Mを減少し、前記明度Mが調整された動画上に前記テキストを重ねて表示するようにしたので、動画とテキストとを、より容易に確認することができるという利点が得られる。
【0109】
また、請求項6記載の発明によれば、前記M>B>TH2であるときは、更にテキストの文字色を白に設定するようにしたので、動画とテキストとを、より容易に確認することができるという利点が得られる。
【図面の簡単な説明】
【図1】本発明の第1実施形態による携帯電話システムの構成を示すブロック図である。
【図2】携帯電話1a,1bの外観図(開状態:正面図および背面図)である。
【図3】携帯電話1a,1bの構成を示すブロック図である。
【図4】本第1実施形態による携帯電話1a,1bのROM24のメモリエリアの構成を示す概念図である。
【図5】本第1実施形態による携帯電話1a,1bのRAM29のメモリエリアの構成を示す概念図である。
【図6】本第1実施形態による携帯電話のメール作成時の動作を説明するためのフローチャートである。
【図7】本第1実施形態による携帯電話のメール作成時の動作を説明するためのフローチャートである。
【図8】本第1実施形態による携帯電話のメール作成時の動作を説明するためのフローチャートである。
【図9】本第1実施形態による携帯電話のメール作成時の動作を説明するためのフローチャートである。
【図10】メールに添付される音声ファイル再生例やメール本文の表示例を示す模式図である。
【図11】本第1実施形態による受信メール表示処理を説明するためのフローチャートである。
【図12】表示部13に表示される受信リストの表示例を示す模式図である。
【図13】音声ファイルが添付されているメールの表示例を示す模式図である。
【図14】本第2実施形態による携帯電話1a,1bのROM24のメモリエリアの構成を示す概念図である。
【図15】本第2実施形態による携帯電話1a,1bのRAM29のメモリエリアの構成を示す概念図である。
【図16】本第2の実施形態による動画拡大方式を説明するための概念図である。
【図17】本第2実施形態による動画拡大方式例を説明するための概念図である。
【図18】動画拡大の方式の一例を説明するための概念図である。
【図19】表示部13に表示される受信リストの表示例を示す模式図である。
【図20】本第2実施形態による携帯電話において着信時の動作を説明するためのフローチャートである。
【図21】本第2実施形態による携帯電話において通話時の動画および音声認識した音声のテキストの表示例を示す模式図である。
【図22】本第2実施形態による携帯電話において通話時に相手側から送信されてくる動画の再生動作について説明するためのフローチャートである。
【図23】本第2実施形態による動画への音声認識によるテキストの重ね表示時の動作を説明するためのフローチャートである。
【図24】動画の明度調整について説明するための概念図である。また、
【図25】明度調整された動画に音声認識によるテキストを重ねて表示した状態を示す模式図である。
【符号の説明】
1a,1b 携帯電話
2 無線基地局
3 通信サービス事業者
32 Webサーバ
33 メールサーバ
34 交換機
35 ルータ
4 公衆回線網
5 WWW
6 インターネットプロバイダ
62 Webサーバ
63 メールサーバ
65 ルータ
7 パーソナルコンピュータ
11 アンテナ
12 スピーカ(音声出力手段)
13 表示部(表示手段)
138 ファンクションキー
139 ファンクションキー
140 ファンクションキー
14 キー入力部
141 メールキー
142 アドレスキー
143 ファンクションキー
144 テンキー
145 シャッターキー
15 マイク
16 サブ表示部
17 背面キー
171 LED
18 撮像レンズ
19 報知スピーカ
20 無線送受信部
21 無線信号処理部
22 制御部(メール作成手段、拡大手段、画像処理手段)
23 画像メモリ
24 Flash ROM
25,26 ドライバ
27 加入者情報記憶部
28 システムROM
29 RAM(記憶手段、動画記憶手段)
30 音声認識部(音声認識手段)
181 撮像モジュール
182 DSP
192 ドライバ
200 音声信号処理部[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a mobile phone, a voice-added document display method, a call voice display method, and a mobile phone display method.
[0002]
[Prior art]
2. Description of the Related Art Conventionally, a mobile phone has a voice recording / playback function, and a transmission side attaches a recorded voice file to a mail and transmits it, and a reception side plays and outputs the voice attached to the mail. is there. In recent years, some mobile phones transmit and receive moving images during a call due to an improvement in data transfer speed. In this case, the user listens to the call voice from the speaker in a state where the mobile phone body is placed on the ear, but in this state, the user cannot see the moving image. Therefore, the mobile phone main body is gripped in a face-to-face state, the call voice is heard using an earphone or the like, and a moving image is viewed on the display unit of the face-to-face mobile phone.
[0003]
By the way, when playing and outputting the voice attached to an email, or when outputting a call voice while playing a video during a call, if the voice is output by a speaker, the ambient noise is high, etc. When it is difficult to hear, or when the surroundings are quiet, there is a problem of causing trouble around. Although it is conceivable to listen to the sound using an earphone or the like, there is a problem that it takes time and effort to take out and connect the earphone. Therefore, if the voice can be recognized and converted into text and displayed as text characters, it is considered that convenience for the user is improved.
[0004]
For example, as a conventional technique for recognizing sound, in order to search for desired image data from a lot of image data, sound that can be understood is recorded for each image data and associated with each image data. A technique for searching for desired image data by reproducing the sound at a variable speed has been proposed (see, for example, Patent Document 1). In
[0005]
[Patent Document 1]
JP 2002-41529 A
[0006]
[Problems to be solved by the invention]
The above-described prior art disclosed in
[0007]
Therefore, the present invention can more easily confirm the voice data attached to the e-mail, and can more easily confirm the call voice during the call and the video transmitted during the call. It is an object of the present invention to provide a mobile phone, a voice-attached document display method, a call voice display method, and a mobile phone display method.
[0008]
[Means for Solving the Problems]
To achieve the above object, the invention of
[0023]
Moreover, as a preferable aspect, for example, a
[0024]
Moreover, as a preferable aspect, for example, a
[0025]
Moreover, as a preferable aspect, for example, a
[0026]
In order to achieve the above object, a mobile phone display method according to the invention described in
[0027]
Moreover, as a preferable aspect, for example, a
[0029]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, an embodiment of the present invention will be described as an example applied to a mobile phone with reference to the drawings.
[0030]
A. First embodiment
A-1. Configuration of the first embodiment
FIG. 1 is a block diagram showing the configuration of the mobile phone system according to the first embodiment of the present invention. In the figure, mobile phones (wireless communication terminals / data communication devices) 1a and 1b have a voice recording function, and a function of transmitting a mail attached with recorded voice data to a system (particularly,
[0031]
Further, at the time of moving image reproduction, a 96 × 80 pixel moving image can be expanded to a maximum display area of 128 × 96 pixels. The enlargement method includes a method of simply enlarging the periphery of the movie, a method of increasing the enlargement factor linearly as it goes around the movie, and a method of increasing the enlargement factor exponentially as it goes from the center to the periphery. However, in any case, since the visibility of the moving image is not deteriorated by enlargement, the central portion remains at 1 ×. The moving image enlargement algorithm uses a well-known technique and will not be described.
[0032]
The
[0033]
The
[0034]
As a feature of the present embodiment, the
[0035]
Next, FIGS. 2A and 2B are external views (open state: front view and rear view) of the
[0036]
The
[0037]
The
[0038]
Next, FIG. 3 is a block diagram showing the configuration of the
[0039]
The
[0040]
The
[0041]
The audio
[0042]
Next, FIG. 4 is a conceptual diagram showing the configuration of the memory area of the
[0043]
The mail
[0044]
The voice
[0045]
Next, FIG. 5 is a conceptual diagram showing the configuration of the memory area of the
[0046]
A-2. Operation of the first embodiment
Next, the operation of the mobile phone according to the first embodiment described above will be described.
(1) Mail creation
Next, the operation at the time of mail creation according to the first embodiment will be described. Here, FIG. 6 to FIG. 9 are flowcharts for explaining the operation at the time of mail creation of the mobile phone according to the present embodiment. FIGS. 10A and 10B are schematic diagrams showing an example of reproducing an audio file attached to an e-mail and an example of displaying an e-mail text.
[0047]
When the mail creation mode is selected by the user, a mail menu is displayed (step S40). Next, it is determined whether new creation is selected from the mail menu (step S42). If new creation is not selected, it is determined whether or not an inbox is selected (step S44). If no inbox is selected, the process proceeds to other processing (step S46). Note that the processing for displaying the received mail when the inbox is selected, that is, the received mail will be described later.
[0048]
On the other hand, when new creation is selected from the mail menu, the creation menu is displayed (step S48). Next, it is determined whether or not a mail with voice data is selected from the mail menu (step S50). If the mail with voice data is not selected, the process proceeds to normal mail processing (step S54).
[0049]
On the other hand, when the mail with voice data is selected from the mail menu, the mail program with voice data and the voice recognition program are loaded (step S56), and the creation screen is displayed (step S60).
[0050]
Next, it is determined whether any item of “voice selection” or “mail creation (edit)” has been selected on the creation screen (step S62). Here, when “select voice” is selected, first, a voice file is searched (step S64). Then, it is determined whether or not there is an audio file (step S66). If there is no audio file, the audio is input and recorded (step S68), and the recorded audio is saved as an audio file (step S70), and step S64. Returning to the voice file search, the above-described processing is repeated.
[0051]
On the other hand, if there is an audio file, the audio file is displayed as a list (step S72). Next, it is determined whether any audio file is selected from the list display (step S74). If not selected, the process returns to step S72 and the list display is continued.
[0052]
On the other hand, when an audio file is selected, the selected audio is reproduced and output as shown in FIG. 10A (step S76), and the audio
[0053]
If “mail creation / editing” is selected on the creation screen, first, a screen for performing each item / editing / display is displayed (step S82 in FIG. 8). On the screen, the user inputs a mail title, a mail sender name, a mail destination, a mail text, and the like. Next, it is determined whether or not the
[0054]
On the other hand, when the
[0055]
In addition, when each item / edit / display screen is displayed in step S82, if no sound is selected and the function key is operated in step S84, "No sound is selected." Is displayed (step S106 in FIG. 9). Next, it is determined whether or not a predetermined time has passed (step S108). If the predetermined time has not passed, the process returns to step S106 and the message display is maintained. On the other hand, when the message display has elapsed for a predetermined time, the message is deleted (step S110). Thereafter, the process returns to step S60 in FIG. 6, and the above-described processing is repeated.
[0056]
In step S82, when each item / edit / display screen is displayed, if a "decision" operation is detected, it is determined whether there is an unfilled item or no sound is selected (step S82). Step S110). If there is an unfilled item or no audio file is selected, a confirmation display for the user is performed (step S112), and it is determined whether or not “OK” is selected (step S114). If “OK” is not selected, that is, if there is an unfilled item or no audio file is selected, the process returns to step S60 shown in FIG. 6 and proceeds to display of the creation screen. Thereafter, the user completes the mail by inputting an unfilled item or selecting an audio file attached to the mail.
[0057]
On the other hand, when “OK” is selected in the confirmation display to the user, it means that there may be an unfilled item, or the voice file may not be selected. The data is stored in the box (step S116), the display returns to the mail menu display in step S40 shown in FIG. 6, and the above-described processing is repeated. If there is no unfilled item or a voice file is selected, the mail with the voice file attached is stored in the transmission box without confirmation (step S116), and step S40 shown in FIG. 6 is performed. Return to the mail menu display and repeat the process described above. The mail-attached mail stored in the transmission box is transmitted at a predetermined timing.
[0058]
(2) Received mail display processing
Next, FIG. 11 is a flowchart for explaining the received mail display process according to the first embodiment. The flowchart shown in FIG. 11 is a branch from “YES” in step S44 shown in FIG.
[0059]
When the reception folder is selected, the reception list is displayed to display a list of received mails (step S200). Here, FIG. 12 is a schematic diagram illustrating a display example of a reception list displayed on the
[0060]
Next, it is determined whether or not a mail with voice is selected (step S202). If the mail with voice is selected, the mail software program with voice and the voice recognition program are loaded (step S204), the voice
[0061]
On the other hand, if the cancel operation is not detected, it is determined whether or not the
[0062]
On the other hand, when the
[0063]
In the first embodiment described above, when a voice file is attached to the mail, the voice is converted into text data by voice recognition and displayed on the
[0064]
B. Second embodiment
Next, a second embodiment of the present invention will be described. In the second embodiment, in a camera-equipped mobile phone, when a moving image (or still image) is transmitted during a call, the call voice (the other party) is converted into text data by voice recognition, and the reproduced video is displayed. The above text is displayed on top of each other. Also, at this time, the moving image is reproduced and displayed in the same size (96 × 80 pixels), and the text data is displayed superimposed on the moving image, or the moving image is enlarged and displayed to 128 × 96 pixels. It is possible to display text data side by side.
[0065]
B-1. Configuration of the second embodiment
Since the configuration of the mobile phone according to the second embodiment is the same as that of FIG. 3 described in the first embodiment, the description thereof is omitted.
[0066]
FIG. 14 is a conceptual diagram showing the configuration of the memory area of the
[0067]
The moving image
[0068]
The image
[0069]
FIG. 15 is a conceptual diagram showing the configuration of the memory area of the
[0070]
Next, FIG. 16 is a conceptual diagram for explaining a moving image enlargement method according to the second embodiment. In the second embodiment, the display size of still images is 128 × 96 pixels, and the display size of moving images is usually 96 × 80 pixels. However, in the second embodiment, in order to improve the visibility of a moving image, it can be displayed in an enlarged size of 128 × 96 pixels by a predetermined enlargement method. More specifically, as shown in the figure, the peripheral part (the hatched part in the figure) of the moving picture of 96 × 80 pixels is partially enlarged according to a predetermined moving picture enlargement method (described later), and the display area is 128 × 96 pixels as a whole. It is possible to play with. When the moving image is stopped (temporarily stopped), the entire image is uniformly enlarged and displayed as a still image with 128 × 96 pixels (Sub-QCIF size).
[0071]
Next, FIG. 17 is a conceptual diagram for explaining an example of a moving image enlargement method according to the second embodiment. In FIG. 17 (a), the central part is 1 time and the periphery is 3 times, and the system is simply enlarged. In FIG. 17B, the enlargement ratio is linearly increased toward the periphery of the moving image. In FIG. 17C, the enlargement ratio is exponentially increased from the center to the periphery. In any case, since the visibility of the moving image is not deteriorated by the enlargement, the enlargement ratio in the central portion remains one time. Which moving image enlargement method is used may be determined in advance or may be selectable by the user.
[0072]
Next, FIGS. 18 and 19 are conceptual diagrams for explaining an example of a moving image enlargement method. When the moving image is MPEG-4, when decoding, it is necessary to refer to the previous and subsequent frames as shown in FIG. 18, and therefore a memory area for three frames is usually required for the buffer. As an example of the partial enlargement method, as shown in FIG. 19, an interpolation method in which interpolation is performed by embedding data of the pixel of interest in adjacent pixels may be used. Usually, an image process of applying a filter process to the interpolated data is added.
[0073]
B-2. Operation of the second embodiment
Next, the operation of the mobile phone according to the second embodiment will be described.
(1) Incoming call operation
FIG. 20 is a flowchart for explaining the operation at the time of an incoming call in the mobile phone according to the second embodiment. First, it is determined whether or not an incoming call is received in the standby state (step S300). When an incoming call is received, it is determined whether a moving image has been received from the other party (step S302). If no moving image has been received, the process proceeds to normal call processing (step S304).
[0074]
On the other hand, when a moving image is received, a moving image reproduction program, a voice recognition program, and an image processing program are loaded (step S306). Next, the received moving image is reproduced by the moving image reproduction program (step S308). Details of the video playback will be described later. In moving image playback, playback is performed at 96 × 80 pixels according to the operation of a predetermined function key, or is partially expanded to 128 × 96 pixels according to any of the enlargement methods shown in FIGS. To play. The flag F is “1” when partially enlarged and reproduced at 128 × 96 pixels, and the flag F is “0” when normally reproduced at 96 × 80 pixels.
[0075]
Next, the call voice from the other party is recognized and converted into text data (S310), and it is determined whether or not the flag F is “1” (step S312). When the flag F is “1”, that is, when partial enlarged playback is selected, as shown in FIG. 21A, the text is voice-recognized with the background of the video partially enlarged to 128 × 96 pixels. Are superimposed and displayed (step S314). On the other hand, when the flag F is “0”, that is, when normal playback is selected, as shown in FIG. 21B, text that has been voice-recognized in parallel for a 96 × 80 pixel moving image. Is displayed (step S316).
[0076]
In any case, it is next determined whether or not the phone has been off-hooked (call ended) (S318). If the call is continued, the process returns to step S308 to reproduce the video, and the voice-recognized text. Continue to display. On the other hand, if it is off-hook, the line is disconnected and the process is terminated (step S320).
[0077]
(2) Movie playback
Next, the above-described moving image reproduction process will be described. Here, FIG. 22 is a flowchart for explaining the reproduction operation of a moving image transmitted from the other party during a call in the mobile phone according to the second embodiment. In the above-described incoming operation, when a moving image is received during a call, the processing is executed as follows in the reproduction of the moving image in step S308 of FIG.
[0078]
First, the received moving image data is buffered (step S160), decoded (step S162), and it is determined whether or not the flag F is “1”, that is, whether or not partial enlarged display is performed (step S164). When the flag F is “1”, the partial enlargement process is executed according to any of the enlargement methods shown in FIGS. 17A to 17C (step S166). Then, the 128 × 96 pixel moving image subjected to the partial enlargement process is stored in the LCD display buffer (step S168). In this case, as shown in FIG. 16, the peripheral part of 96 × 80 pixels is enlarged (shaded portion) and reproduced as a moving picture of 128 × 96 pixels, and as shown in FIG. The voice-recognized text is superimposed on the reproduced video.
[0079]
On the other hand, when the flag F is not “1”, the moving image is stored in the display buffer of the LCD with the size of 96 × 80 pixels without being partially enlarged (step S168). In this case, it is reproduced as a moving image of 96 × 80 pixels, and as shown in FIG. 21 (b) described above, text that has been voice-recognized in parallel with the moving image is displayed.
[0080]
Next, it is determined whether or not a predetermined function key (partial enlargement ← → normal selection key) has been pressed (step S170). If the predetermined function key is not pressed, the process returns to FIG. 20 and proceeds to step S310 and subsequent steps.
[0081]
On the other hand, if a predetermined function key is pressed, it is determined whether or not the flag F is “1” (step S172). If the flag F is “1”, the flag F is set to “0” (step S172). S174) When the flag F is “0”, the flag F is set to “1” (step S176). That is, when a predetermined function key (partial enlargement ← → normal selection key) is pressed during video playback (= during a call), partial enlargement playback and normal size playback are executed alternately. It will be. Then, returning to FIG. 20, the process proceeds to step S310 and subsequent steps.
[0082]
(3) Text overlay display processing by voice recognition on video
Next, an operation at the time of displaying text superimposed by voice recognition on a moving image according to the second embodiment will be described. Here, FIG. 23 is a flowchart for explaining the operation at the time of displaying text superimposed by voice recognition on a moving image according to the second embodiment. At the time of the above-mentioned call, in the superimposed display of the text by the voice recognition on the reproduced moving image in step S314, the process is executed as follows.
[0083]
First, the brightness of a moving image (frame) transmitted from the other party is determined (step S180). Then, it is determined whether or not the brightness of the moving image is the intermediate value M (step S182). If the brightness of the moving image is the intermediate value M, the brightness of the moving image is increased by a predetermined amount (step S188).
[0084]
On the other hand, if the brightness of the moving image is not the intermediate value M, it is determined whether or not it is brighter than the intermediate value M (step S184). If it is brighter than the intermediate value M, the intermediate value M and the threshold value TH1 (intermediate value M <threshold value) are further determined. It is determined whether it is between (TH1) (step S186). If the brightness of the moving image is between the intermediate value M and the threshold value TH1, the brightness of the moving image is increased by a predetermined amount, that is, brightened (step S188).
[0085]
On the other hand, if the brightness of the moving image is darker than the intermediate value M, it is further determined whether or not it is between the intermediate value M and the threshold value TH2 (intermediate value M> threshold value TH2) (step S190). If the brightness of the moving image is between the intermediate value M and the threshold value TH2, the brightness of the moving image is reduced by a predetermined amount, that is, darkened (step S192). Then, the character color to be displayed (text by voice recognition) is set to white (step S194). If the brightness of the moving image is darker than the threshold value TH2, the character color (text by voice recognition) to be displayed as it is is set to white without adjusting the brightness (step S194).
[0086]
As described above, after adjusting the brightness of the moving image (or after setting the character color to white), the voice-recognized text and the moving image are superimposed and displayed on the display unit 13 (step S196). Then, returning to FIG. 20, the process proceeds to step S318 and subsequent steps.
[0087]
As described above, the second embodiment is characterized in that the brightness of the moving image displayed as the background of the text obtained by recognizing the call voice is adjusted by brightness determination. Here, FIG. 24 is a conceptual diagram for explaining brightness adjustment of a moving image. In FIG. 25, text by voice recognition is superimposed on a moving image whose brightness is adjusted when the brightness (brightness) of the moving image is between the intermediate value M or the intermediate value M and the threshold value TH1 (
[0088]
As shown in FIG. 24, when the moving image brightness (brightness) is between the intermediate value M or the intermediate value M and the threshold value TH1 (
[0089]
In the second embodiment described above, when a moving image is sent during a call, the moving image is reproduced, the other party's voice by the call is converted into text by voice recognition, and the text is superimposed on the reproduced moving image. Since they are displayed side by side, the visibility of the voice and video of the call can be improved at the same time.
[0090]
【The invention's effect】
According to invention of
[0105]
According to a second aspect of the present invention, the first discriminating means, the second discriminating means, The third discriminating means; In addition, since the brightness adjustment unit performs brightness determination and brightness increase or decrease for each frame and adjusts the brightness of the movie in real time, it is possible to more easily check the movie and text. The advantage that it can be obtained.
[0106]
[0107]
[0108]
[0109]
[Brief description of the drawings]
FIG. 1 is a block diagram showing a configuration of a mobile phone system according to a first embodiment of the present invention.
FIG. 2 is an external view (open state: front view and rear view) of the
FIG. 3 is a block diagram showing a configuration of
FIG. 4 is a conceptual diagram showing a configuration of a memory area of a
FIG. 5 is a conceptual diagram showing a configuration of a memory area of a
FIG. 6 is a flowchart for explaining an operation at the time of mail creation of the mobile phone according to the first embodiment;
FIG. 7 is a flowchart for explaining an operation at the time of mail creation of the mobile phone according to the first embodiment;
FIG. 8 is a flowchart for explaining an operation at the time of mail creation of the mobile phone according to the first embodiment;
FIG. 9 is a flowchart for explaining an operation at the time of mail creation of the mobile phone according to the first embodiment;
FIG. 10 is a schematic diagram showing an example of reproducing an audio file attached to an e-mail and an example of displaying an e-mail text.
FIG. 11 is a flowchart for explaining received mail display processing according to the first embodiment;
12 is a schematic diagram illustrating a display example of a reception list displayed on the
FIG. 13 is a schematic diagram showing a display example of a mail with an attached audio file.
FIG. 14 is a conceptual diagram showing a configuration of a memory area of a
FIG. 15 is a conceptual diagram showing a configuration of a memory area of a
FIG. 16 is a conceptual diagram for explaining a moving image enlargement method according to the second embodiment;
FIG. 17 is a conceptual diagram for explaining an example of a moving image enlargement method according to the second embodiment.
FIG. 18 is a conceptual diagram for explaining an example of a moving image enlargement method;
FIG. 19 is a schematic diagram illustrating a display example of a reception list displayed on the
FIG. 20 is a flowchart for explaining an operation at the time of an incoming call in the mobile phone according to the second embodiment.
FIG. 21 is a schematic diagram showing a display example of a moving image during a call and voice-recognized voice text in the mobile phone according to the second embodiment.
FIG. 22 is a flowchart for explaining a reproduction operation of a moving image transmitted from the other party during a call in the mobile phone according to the second embodiment.
FIG. 23 is a flowchart for explaining an operation at the time of displaying text superimposed by voice recognition on a moving image according to the second embodiment;
FIG. 24 is a conceptual diagram for explaining brightness adjustment of a moving image. Also,
FIG. 25 is a schematic diagram showing a state in which text by voice recognition is superimposed and displayed on a moving image whose brightness has been adjusted.
[Explanation of symbols]
1a, 1b mobile phone
2 radio base stations
3 communication service providers
32 Web server
33 Mail server
34 exchange
35 routers
4 Public network
5 WWW
6 Internet providers
62 Web server
63 Mail server
65 routers
7 Personal computer
11 Antenna
12 Speaker (Audio output means)
13 Display section (display means)
138 Function key
139 Function key
140 function keys
14 Key input section
141 Mail key
142 Address key
143 function keys
144 Numeric keypad
145 Shutter key
15 microphone
16 Sub display section
17 Back key
171 LED
18 Imaging lens
19 Information speaker
20 Wireless transceiver
21 Radio signal processor
22 Control unit (mail creation means, enlargement means, image processing means)
23 Image memory
24 Flash ROM
25, 26 drivers
27 Subscriber information storage
28 System ROM
29 RAM (storage means, moving image storage means)
30 Voice recognition unit (voice recognition means)
181 Imaging module
182 DSP
192 drivers
200 Audio signal processor
Claims (6)
相手側から送信されてくる動画の明度が中間値(M)より明るいか否かを判別する第1の判別手段と、
前記第1の判別手段により動画の明度が中間値(M)より明るいと判別されたとき、更に動画の明度が中間値(M)と閾値(TH1)(ただしM<TH1)との間であるか否かを判別する第2の判別手段と、
前記第2の判別手段により動画の明度が中間値(M)より暗いと判別されたとき、更に動画の明度が中間値(M)と閾値(TH2)(ただしM>TH2)との間であるか否かを判別する第3の判別手段と、
前記第2の判別手段により動画の明度が中間値(M)と閾値(TH1)との間にあると判別されたとき、動画の明度を所定量増加させ、前記第3の判別手段により動画の明度が中間値(M)と閾値(TH2)との間にあると判別されたとき、動画の明度を所定量減少させる明度調整手段と、
前記明度調整手段により明度が調整された動画上に前記テキストを重ねて表示する表示制御手段と
を具備したことを特徴とする携帯電話。For mobile phones that display video while overlaying text on the screen,
First discriminating means for discriminating whether or not the brightness of the moving image transmitted from the other side is brighter than the intermediate value (M);
When the brightness of the moving image is determined to be brighter than the intermediate value (M) by the first determining means, the brightness of the moving image is further between the intermediate value (M) and the threshold value (TH1) (where M <TH1). Second determining means for determining whether or not,
When the second determination means determines that the brightness of the moving image is darker than the intermediate value (M), the brightness of the moving image is further between the intermediate value (M) and a threshold value (TH2) (where M> TH2). Third determining means for determining whether or not,
When the brightness of the moving image is determined to be between the intermediate value (M) and the threshold value (TH1) by the second determining means, the brightness of the moving image is increased by a predetermined amount, and the moving image brightness is increased by the third determining means. when the brightness is determined to be between the intermediate value (M) with a threshold value (TH2), and brightness adjusting means Ru is decreased a predetermined amount the brightness of video,
A mobile phone comprising: display control means for displaying the text superimposed on a moving image whose brightness has been adjusted by the brightness adjustment means .
前記動画の明度をB、
明度の中間値をM、
所定の明るい側の閾値をTH1、
所定の暗い側の閾値をTH2としたとき、
動画のフレーム単位で、
TH1>B>M であるときは明度Mを増加するステップと、
M>B>TH2 であるときは明度Mを減少するステップと、
前記明度Mが調整された動画上に前記テキストを重ねて表示するステップと
を含むことを特徴とする携帯電話の表示方法。In the display method of the mobile phone that displays text on the screen while displaying the video,
B brightness of the moving image,
M for the lightness intermediate value,
The predetermined bright side threshold is TH1,
When the predetermined dark side threshold is TH2,
In video frame units,
A step of increasing the brightness M when a TH1>B> M,
A step of reducing the brightness M when M>B> is TH2,
Displaying the text superimposed on the moving image with the brightness M adjusted;
Display method for a mobile phone, which comprises a.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003187864A JP3962820B2 (en) | 2003-06-30 | 2003-06-30 | Mobile phone, document display method with voice, call voice display method, and mobile phone display method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003187864A JP3962820B2 (en) | 2003-06-30 | 2003-06-30 | Mobile phone, document display method with voice, call voice display method, and mobile phone display method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005026822A JP2005026822A (en) | 2005-01-27 |
JP3962820B2 true JP3962820B2 (en) | 2007-08-22 |
Family
ID=34186574
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003187864A Expired - Fee Related JP3962820B2 (en) | 2003-06-30 | 2003-06-30 | Mobile phone, document display method with voice, call voice display method, and mobile phone display method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3962820B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4648824B2 (en) * | 2005-11-10 | 2011-03-09 | オリンパスイメージング株式会社 | Image display device |
US8180644B2 (en) | 2008-08-28 | 2012-05-15 | Qualcomm Incorporated | Method and apparatus for scrolling text display of voice call or message during video display session |
JP6552868B2 (en) * | 2015-04-27 | 2019-07-31 | 株式会社東芝 | Voice communication support device, voice communication support method and program |
-
2003
- 2003-06-30 JP JP2003187864A patent/JP3962820B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2005026822A (en) | 2005-01-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7508386B2 (en) | Data communications device, data communications system, document display method with video and document display program with video | |
US9418463B2 (en) | Mobile communication device | |
US20150043837A1 (en) | Method for editing images in a mobile terminal | |
KR100478613B1 (en) | Data communication apparatus, data communication system and method thereof | |
US20050264650A1 (en) | Apparatus and method for synthesizing captured images in a mobile terminal with a camera | |
US20060152600A1 (en) | Mobile telephone device | |
US7711255B2 (en) | Camera-equipped portable terminal and photograph transmission method using the same | |
JP3962820B2 (en) | Mobile phone, document display method with voice, call voice display method, and mobile phone display method | |
US20050018050A1 (en) | Wireless communication device, dynamic image preparation method and dynamic image preparation program | |
KR100438540B1 (en) | Image transmitting/receiving method and system for mobile communication terminal equipment | |
JP4258507B2 (en) | Mobile phone with camera and data communication device | |
JP2005044187A (en) | Sending device and method for sending mail with animation | |
JP2005295374A (en) | Device and method for reproducing image | |
JP4565121B2 (en) | Imaging apparatus and imaging program | |
JP4161313B2 (en) | Image data generation apparatus, image data generation method, and image data generation program | |
JP2006018854A (en) | Cellular phone with camera and display method of document with image | |
JP3789274B2 (en) | Mobile communication terminal | |
JP4535063B2 (en) | Data receiving apparatus, data receiving method, and data receiving program | |
JP4446242B2 (en) | Data transmission device, mail data transmission method, and mail data transmission program | |
JP4324733B2 (en) | Image transmission apparatus, transmission control method, and transmission control program | |
JP2005005882A (en) | Portable telephone and method for displaying document with image | |
KR20090097319A (en) | Method for performing a video telephony using substitution picture in a portable terminal and a apparatus thereof | |
JP4155861B2 (en) | Image forming apparatus | |
KR100765698B1 (en) | Selective call processing method for mobile communication system | |
KR101023301B1 (en) | Method for sending and editing mp3 file in wireless terminal |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050204 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070111 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070126 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070326 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070416 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070429 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 3962820 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110601 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120601 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120601 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130601 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |