JPH1155614A - 音声認識画像処理装置 - Google Patents

音声認識画像処理装置

Info

Publication number
JPH1155614A
JPH1155614A JP9221941A JP22194197A JPH1155614A JP H1155614 A JPH1155614 A JP H1155614A JP 9221941 A JP9221941 A JP 9221941A JP 22194197 A JP22194197 A JP 22194197A JP H1155614 A JPH1155614 A JP H1155614A
Authority
JP
Japan
Prior art keywords
voice
character
image
display
image processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9221941A
Other languages
English (en)
Other versions
JP3757565B2 (ja
Inventor
Jun Iijima
純 飯島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casio Computer Co Ltd
Original Assignee
Casio Computer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Computer Co Ltd filed Critical Casio Computer Co Ltd
Priority to JP22194197A priority Critical patent/JP3757565B2/ja
Publication of JPH1155614A publication Critical patent/JPH1155614A/ja
Application granted granted Critical
Publication of JP3757565B2 publication Critical patent/JP3757565B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Transfer Between Computers (AREA)
  • Editing Of Facsimile Originals (AREA)

Abstract

(57)【要約】 【課題】 音声を入力して音声認識処理し、認識された
音声を文字に変換して入力画像と重畳して表示し、記録
或いは出力する画像処理装置の提供。 【解決手段】 撮像結果は画像データ入力系10で処理
され、VRAM51にイメージ展開される。音声/文字
入力部30は音声認識画像処理モードの時に、撮像の際
入力される被撮影者(物)或いは撮影者から発せられた
音声を認識して文字コードに変換し、撮像結果(画像)
上の表示位置、文字の大きさ等を決定して、文字イメー
ジを吹出しとともにVRAM52に展開する。VRAM
51への画像イメージの展開とVRAM52への吹出し
付き文字イメージの展開が終ると両イメージを合成して
液晶ディスプレイ53に重畳表示する。また、画像デー
タおよび文字データのフラッシュメモリー61への記
録、記録された文字イメージの編集、インターフェイス
83を介して外部装置への出力を行なう。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明はデジタルカメラやパ
ーソナルコンピュータ(以下、パソコンと記す)等の画
像処理装置に関し、特に、音声を入力して文字データに
変換し画像データに重畳させて表示/記録/出力する音
声認識画像処理装置に関する。
【0002】
【従来の技術】デジタルカメラで撮像された被写体像
は、CCDによる光電変換、信号変換及び信号処理等を
経て画像データとして記憶媒体に記録される。また、デ
ジタルカメラの多くは液晶ディスプレイ等からなる表示
装置を備えており、このようなデジタルカメラでは、使
用者は撮像の際にそれをファインダー代りに用いること
もできるし、また、撮像後に記録媒体から読み出した再
生画像を表示することもできる。
【0003】一方、文字認識技術や音声認識技術はコン
ピュータの発達、普及に伴いデータ入力或いは指示入力
手段としての応用が多くの分野でなされている。
【0004】音声認識装置における音声認識処理にあた
っては、背景雑音や不要語の付加による音声区間検出の
誤りを防ぐためにワードスポッティング法を用いる認識
処理が一般に行われている。これは、任意の入力音声か
らあらかじめ定めた単語や音節等の単位を捜し出すもの
で、音声区間検出を行わず種々の部分区間を設定し各標
準パターンとの類似度を求め、すべての部分区間を通し
て類似度が最大となる単語を認識結果とするものであ
る。
【0005】文字認識装置における文字認識処理では、
読取った文字パターン(未知の文字)と候補文字の特徴
を比較し、比較結果としてのパターン間の距離を得て候
補文字のコードを未知の文字候補として出力するか否か
のリジェクト判定を行うものがある。使用頻度が高い文
字種については標準辞書を用い、使用頻度が低い文字種
については、順に使用頻度が低くなる文字種についての
標準パターンで構成した多段構成の辞書を用いて認識処
理を行うものもある。
【0006】また、音声を認識して文字に変換する技術
として、音声波形の特徴を抽出して、波形と文字(単
音)を登録した辞書を用いて音声を単音列として文字列
(平仮名或いは片仮名)に変換する技術や、変換された
文字列を区分して語(漢字)に変換する技術が開発され
ている。
【0007】
【発明が解決しようとする課題】画像データを再生した
表示画像或いは印刷画像を識別する場合にインデックス
や表題或いは説明文をつけることが行なわれているが、
これらはパーソナルコンピュータ(以下、パソコン)の
キーボード等の入力装置から入力した文字データを重畳
するか、画像入力時に文字と共に画像データとして入力
するか、或いは画像入力時に画像と文字を別々に入力し
て保存し出力時に合成している。これらはいずれも文字
入力を必要とするのでそのための装置(例えば、キーボ
ードやスキャナー)を必要とする。
【0008】一方、デジタルカメラは電子写真機として
の応用の他に画像入力等の画像入力装置として応用され
ているが、デジタルカメラは大衆向け製品としてユーザ
にとっての使い易さという点から外形およびサイズが制
約され、従来の大衆向け光学カメラ程度の大きさの範囲
にとどまらざるを得ず、キーボード等の入力機器を付加
することは事実上困難である。仮に、デジタルカメラに
キーボードを付加したとしても撮影時にキーボード入力
を行なうことは時間的/場所的に不具合が生じる可能性
が高いという問題点がある。
【0009】したがって、デジタルカメラで撮像した画
像に表題や説明文を付ける場合には、デジタルカメラで
得た画像データをパソコン等で処理しその際に文字等を
入力するか、被写体と共に表題や説明文を掲示するか、
或いは被写体に添付して撮影する方法があるが、パソコ
ン等の後処理では臨場感に富んだ表現が欠けインパクト
のない客観表現に止ることが多く、撮影時の爽快感や感
動等の印象を表現しにくいという問題点がある。また、
被写体と共に表題や説明文を撮影する方法は効果的では
あるが、文字と被写体がバランスを欠く可能性が高いと
いう問題点がある他、画像と文字が同一画像の画像デー
タとして変換されるので、画像と文字を別々に処理しよ
うとする場合にパソコンと画像処理用高級プログラムを
用いた処理を要するという不具合が生ずる。
【0010】ここで、デジタルカメラで撮影時に音声を
入力し、音声認識を行なって文字に変換して、液晶ディ
スプレイに再生画像と文字で現わされた言葉を重畳表示
し、また、画像データおよび文字データとして記録でき
れば、撮影時の印象や事実を画像と共に表示および記録
することができ、画像処理装置としてのデジタルカメラ
の新しい利用分野を拓くこととなり好ましい。
【0011】また、文字表示の際に、漫画等での言語表
示の一手法である「吹出し」を形成し言語(文字)をそ
の中に表示するようにできれば、画像の印象付けや、誰
が云ったかを明示でき更に好ましい。
【0012】本発明は、上述した画像に文字を付加する
場合の問題点や不具合を解消するために上記着想に基づ
いてなされたものであり、音声を入力して音声認識処理
し、認識された音声を文字に変換して入力画像と重畳し
て表示し、記録或いは出力する画像処理装置の提供を目
的とする。
【0013】本発明は、また、上記重畳表示或いは印刷
出力の際に適切な位置に適切な大きさの吹出し枠を形成
して、その吹出し枠の中に認識された音声の文字表示を
行ない得る画像処理装置の提供を目的とする。
【0014】
【課題を解決するための手段】上記の目的を達成するた
めに本発明の音声認識画像処理装置は、画像データを入
力する画像データ入力系と、音声を入力して認識して認
識結果を文字,記号,または絵文字に変換する音声/文
字変換系と、画像データと音声/文字変換系による変換
結果を合成して表示する画像表示手段を有することを特
徴とする。
【0015】更に、音声認識画像処理装置に記録手段を
設け、記録手段を画像データと変換結果を記録媒体に記
録するように構成する。なお、この場合、記録手段を合
成表示された画像データを記録媒体に記録するように構
成してもよい。あるいは変換結果と画像データを対応づ
けて別々に保存するように構成してもよい。
【0016】また、上記音声/文字変換系は、音声を入
力して音声信号に変換する音声入力手段と、前記音声入
力手段の出力から所定の強度範囲の音声信号を抽出し、
波形処理を行なって音声データを得る音声信号処理手段
と、音声データを認識処理して文字に変換する音声/文
字変換処理手段を有している。
【0017】また、上記/文字変換処理手段は、音声の
発せられた方向を検出して認識結果の表示位置情報を得
る音声方向解析手段と、音声の強度を基に認識結果の表
示サイズおよび表示濃度情報を得る表示状態決定手段を
有している。
【0018】更に、音声認識画像処理装置は、変換結果
を閉鎖図形枠で囲んで表示することができる。この場
合、閉鎖図形枠を吹出し枠としてもよい。
【0019】また、上記音声/文字変換処理手段が、更
に、音声の発せられた方向を検出して認識結果の閉鎖図
形枠表示位置情報を得る音声方向解析手段と、音声の強
度を基に前記認識結果および前記閉鎖図形の表示サイズ
および表示濃度情報を得る表示状態決定手段を有するよ
うに構成してもよい。
【0020】更に、上述の各音声認識画像処理装置を、
表示された変換結果を修正または編集する編集手段を有
するように構成してもよい。
【0021】この場合、編集手段を、認識結果の表示位
置を移動する移動手段と、認識結果の表示サイズおよび
表示濃度を調整する調整表示手段を有するように構成す
る。なお、上記編集手段が、認識結果と閉鎖図形の表示
位置を移動する移動手段と、認識結果と閉鎖図形の表示
サイズおよび表示濃度を調整する調整表示手段を有する
ように構成してもよい。
【0022】また、上記編集手段を、更に、表示された
認識結果の一部または全部を指定して、該指定部分に相
当する音声を再入力して当該指定部分を修正する修正手
段を有するように構成してもよく、更に上記編集手段
が、表示された認識結果の一部または全部を指定して、
他の文字列、記号或いは絵文字に変換する変換手段を有
するように構成してもよい。
【0023】
【発明の実施の形態】
<画像処理装置の構成>図1は本発明の音声認識画像処
理装置(以下、単に画像処理装置と記す)の構成例を示
すブロック図である。画像処理装置100は、画像デー
タを記録部60に与える画像データ入力系10と、画像
処理装置100全体の動作制御を行なう制御部20と、
音声を入力して音声認識処理等を行ない、認識結果を文
字に変換する音声/文字変換系30と、ユーザによって
操作された指示結果を制御部20に与える操作部40
と、画像と文字に変換された言葉(音声)を重畳表示す
る表示部50と、画像データ入力系10からの画像デー
タ,音声/文字変換系30の出力等を記録媒体61に記
録すると共にそれらの読み出しを行なう記録部60と、
「画像処理装置100」用の入力インターフェイス8
1,82(後述)と、外部機器に画像処理装置100に
よる処理結果を出力する出力インターフェイス83を有
している。なお、図1で記号90はバスラインを示す。
【0024】画像データ入力系10としては、画像処理
装置100全体をデジタルカメラとする場合には図12
に示すようなデジタルカメラ200の光学系11からD
RAM14に至る系が相当し、画像処理装置100がパ
ソコン等のコンピュータ装置によってプログラム制御さ
れる処理装置(以下、「画像処理装置」と記す)の場合
には、デジタルカメラ、デジタルカメラ以外の撮像装
置、スキャナー等の画像データ変換装置およびメモリー
カードやCD−ROM等の画像データを記録した記録媒
体の読取装置等が相当する。なお、画像処理装置100
全体をデジタルカメラとする場合には、図1の入力イン
ターフェイス81は不要である。
【0025】また、デジタルカメラからの画像データは
後述するようにJPEG圧縮されているので「画像処理
装置100」では画像データの伸張部を設けるか画像デ
ータ伸張手段をプログラムで構成して後述する各手段と
同様にROM23に格納してCPU21により実行する
ように構成することが望ましい。この場合、画像データ
入力系10からの画像データが圧縮データでない場合
(例えば、スキャナー出力)には画像データの伸張部或
いは伸張手段を機能させないように構成する。なお、画
像処理装置100全体をデジタルカメラとする場合に
は、データ伸張の際にはデジタルカメラの圧縮データ伸
張部(信号処理部(図12))を用いる。
【0026】制御部20はCPU21、RAM22、及
びROM23を有している。CPU21はROM23に
格納されている制御プログラムにより画像処理装置10
0全体の制御を行なうと共に、音声認識画像処理手段1
10(図3)により入力音声の認識処理と認識結果の文
字データへの変換、表示位置および吹出し枠の決定、文
字データの編集および画像データとの重畳表示、或いは
出力を行なう。
【0027】RAM22はデータ或いは処理結果の一時
記憶および中間作業領域等に用いられる。なお、画像処
理装置100をデジタルカメラとする場合には画像デー
タの作業領域および音声データの一時格納領域としてD
RAM14(図12)を用いることもできる。
【0028】ROM23は上述の制御プログラムと音声
認識画像処理手段110および画像処理装置のその他の
各機能を実行させるためのプログラムを記録する記録媒
体であり、PROM、FROM(フラッシュROM)等
が用いられる。なお、これらプログラムをROM23以
外のリムーバブルな記録媒体(例えば、記録媒体61
(後述))に格納するように構成することもできる。
【0029】音声/文字変換系30は、図2に示すよう
に、音声入力手段31、音声信号処理手段32、復元手
段33および音声/文字変換処理手段34を有してい
る。なお、音声/文字変換処理手段34は入力した音声
を解析して音声を認識し、音声認識の結果を文字コード
に変換する音声/文字変換手段341、音声の発せられ
た方向を検出し文字表示位置の決定を行なう音声方向解
析手段342および入力音量等を基に表示文字の大きさ
および吹出し(図10)の大きさ等を決定し、画像メモ
リー(VRAMb)にイメージ展開する表示状態決定手
段343を有している。また、音声/文字変換処理手段
34は実施例ではプログラムで構成されているが、ハー
ドウエアで構成してもよい。
【0030】音声入力手段31は、マイクロフォン等か
らなり音声を入力して電気信号(音声信号)に変換す
る。音声信号処理手段32は一定の強度範囲以外の音声
信号のカットや、突出波形のカットおよび雑音処理等の
前処理を施した後、出力信号(音声信号)をA/D変換
して音声データ(デジタルデータ)としてRAM22
(或いはDRAM14)に格納する。復元手段33はR
AM22(或いはDRAM14)に格納された音声デー
タを読み出して音声信号(アナログ信号)を復元する。
【0031】なお、本実施の形態では後述の音声方向解
析処理を行なうため、音声入力手段31として左右
(L,R)にマイクロフォンを設けるように構成してい
るが左右上下に設けるようにしてもよく、また、音声方
向解析処理を行なわない場合(後述するように、ユーザ
ー操作により文字表示位置の決定を行なう場合)には1
個のマイククロフォンで構成してもよい。また、画像処
理装置100全体をデジタルカメラとする場合には、図
1の入力インターフェイス82は不要である。
【0032】図1で、操作部40はモード切換えボタン
(キー)、表示文字(および吹出し)移動ボタン、表示
文字サイズ拡大/縮小ボタン、音声再入力ボタン、文字
変換ボタン、記録ボタン、出力ボタン等を有し、使用者
による選択操作、或いは確認操作により押し下げ等が行
なわれると、その結果が電気信号(デジタルコード)変
換され、バス90を介してCPU21に入力される。C
PU21は受け取った電気信号を基にこれらのボタン
(キー)の状態フラグをセットする。
【0033】表示部50は第1および第2のVRAM
(ビデオラム)およびビデオモニタ(例えば、図8の液
晶ディスプレイ53やパソコンのディスプレイ)からな
り、記録媒体61から読み出された画像データの再生結
果をビデオモニタの画面上に表示すると共に、音声/文
字変換された文字を画像と重畳表示する。なお、表示す
る文字を吹出しで囲んで表示することもできる。以下、
説明上、第1のVRAMを画像表示用(VRAMa)と
し、第2のVRAMを文字データ表示用(VRAMb)
とする(図12参照)。この場合、VRAMaには記録
媒体61から読み出された画像データがイメージ展開さ
れ、VRAMbに音声から変換された文字および吹出し
の他、選択メニューや入力指示メッセージ等の表示デー
タが一時的に格納され、ビデオモニタの画面上に重畳表
示或いは単独表示される。
【0034】記録部60は記録媒体61を収容し、CP
U21の制御により記録媒体61上に画像データ入力系
10からの画像データおよび文字変換された音声データ
と、文字表示位置情報、吹出し描画情報(呼び出し図形
番号)と画像データおよび文字変換された音声データを
関連づけるポインタを有する参照リスト(図7、図8)
を記録し、また、記録媒体61から画像データ、文字デ
ータ或いは参照リストを読み出してRAM22(或い
は、DRAM14)に転送する。なお、記録部60によ
るデータの転送はDMA(ダイレクトメモリーアクセス
方式)によって行なわれるよう構成することが望まし
い。また、参照リストは記録媒体61の先頭に格納され
ることが望ましい。
【0035】記録媒体61は画像処理装置100がデジ
タルカメラに相当する場合にはフラッシュROMやメモ
リーカードが用いられる。また、「画像処理装置10
0」の場合にはFD,磁気ディスク,光ディスク等のリ
ムーバブルな記録媒体が用いられる。この場合、記録装
置60として、FD装置,磁気ディスク装置,光ディス
ク装置等が用いられる。
【0036】インターフェイス81、82は「画像処理
装置100」の場合に、画像データを外部画像データ入
力系(10)から入力したり、文字変換された音声デー
タを外部音声/文字変換系(30)から入力するために
設けられているが、前述したように画像データ入力系1
0が内部データ入力系(すなわち、デジタルカメラの光
学系11〜DRAM14に至る系)であり、音声/文字
変換系30が内部変換系(すなわち、デジタルカメラの
音声入力部31〜音声/文字変換部34に至る系)であ
る場合には不要である。
【0037】<モード>動作モードは画像処理装置10
0の有する処理手段(プログラム)によって規定され、
操作部40に設けられた、ボタン、キー、或いはスイッ
チの操作、或いは表示部50の画面にモード選択メニュ
ーを表示してカーソルボタン等の操作よって使用者によ
り選択される。制御部20は操作部40からのモード選
択信号を受け取ると、後述のモード指定手段111制御
を移す。画像処理装置100は音声認識画像処理モー
ド、通常処理モード、特殊処理モードを有しており、音
声認識画像処理モードは、音声/画像入力モード、文字
/画像再生モードおよび文字/画像出力モードからなっ
ている(図4)。これら、動作モードの選択は画像処理
装置100の動作中の任意の時点で行なうようにするこ
とができる。
【0038】<音声認識画像処理手段>図3は、画像処
理装置100の音声認識画像処理を実行する音声認識画
像処理手段の構成例を示すブロック図であり、音声認識
画像処理手段110は、モード指定手段111と、画像
データ入力系10と、音声/文字変換系30と、画像/
文字表示手段112と、記録手段113と、再生表示手
段114と、出力手段115と、編集手段70とを有
し、本実施例では、モード指定手段111、画像データ
入力系10のうちのデータ圧縮/伸張手段、音声/文字
変換系30のうちの音声/文字変換処理手段34、記録
手段113、再生表示手段114、出力手段115およ
び編集手段70はプログラムで構成されている。
【0039】音声認識画像処理手段110は画像処理装
置100の制御プログラムによりその実行順序を管理さ
れる。モード指定手段111は操作部40から送られた
モード選択信号を調べて対応の処理ブロック、例えば、
図4に示す音声/画像入力モード処理ブロック111
1,文字/画像再生モード処理ブロック1112および
文字/画像出力モード処理ブロック1113からなる音
声認識画像処理モード、或いは画像入力モード処理ブロ
ック1114,画像再生モード処理ブロック1115お
よび画像出力モード処理ブロック1116からなる通常
処理モード、或いはその他のモード処理ブロック111
7からなる特殊処理モードに制御を渡す。画像データ入
力系10は画像データを記録部60に与える。画像デー
タ入力系10の具体例としてはデジタルカメラ(実施例
参照)、スキャナー、デジタルカメラの記録結果を格納
した記録媒体(例えば、カードメモリー或いはROM
等)の読取り装置および画像データ圧縮/伸張手段(実
施例ではプログラムで構成)がある。なお、前述したよ
うに画像データ入力系10を内部データ入力系(すなわ
ち、デジタルカメラの光学系11〜DRAM14に至る
系)とすることもできる。
【0040】音声/文字変換系30は、前述したよう
に、音声入力手段31、音声信号処理手段32、復元手
段33および音声/文字変換処理手段34を有し(図
2)、音声入力手段31で音声を入力して電気信号(音
声信号)に変換し、音声信号処理手段32で一定の強度
範囲以外の音声信号のカットや、突出波形のカットおよ
び雑音処理等の前処理を施した後、出力信号(音声信
号)をA/D変換して音声データとしてRAM22(ま
たはDRAM14)に格納し、復元手段33でRAM2
2(またはDRAM14)に格納した音声データを取り
出してD/A変換して音声信号に復元し、音声/文字変
換処理手段34で、音声認識処理を行なって文字コード
に変換すると共に、文字表示位置の決定や表示文字およ
び吹出し枠の大きさや太さの決定等を行なう。
【0041】図5は音声/文字変換処理手段34の構成
例を示すブロック図であり、音声/文字変換処理手段3
4は、音声/文字変換手段341、音声方向解析手段3
42、表示状態決定手段343を有している。
【0042】音声/文字変換手段341はRAM22
(或いはDRAM14)から読み出され音声信号に復元
された音声信号を単音に区分して波形の特徴を解析する
特徴解析手段3411と、単音の特徴データと文字コー
ドを登録した音声/文字変換辞書3414の各特徴デー
タとの類似度を計算して最も類似度の高い特徴データを
認識結果として音声を単音列として文字コード列(平仮
名或いは片仮名)に変換する文字変換手段3412と、
変換された文字列を区分して漢字辞書を用いて語(漢
字)コードおよび仮名コードの混合した文字列に変換す
る仮名漢字変換手段3413と、音声/文字変換辞書3
414および漢字辞書3415を有している。なお、仮
名漢字変換手段3413および漢字辞書3415はオプ
ションであり、仮名コードのみとしてもよい。また、特
定の語(或いは予め設定された語)については別の辞書
を用いて別の語(例えば丁寧語)に変換したり、記号や
絵文字(アイコン)に変換するように構成してもよい。
【0043】なお、実施例では上述したように、音声/
文字変換処理手段34で、RAM22から読み出されD
/A変換により復元された音声信号の単音の波形特徴を
解析するように構成しているが、前述したワードスポッ
ティング法を用いて任意の入力音声からあらかじめ定め
た単語や音節等の単位を捜し出すよう構成し、音声区間
検出を行わず種々の部分区間を設定し各標準パターンと
の類似度を求め、すべての部分区間を通して類似度が最
大となる単語を認識結果とするように構成してもよい。
【0044】また、音声/文字変換手段341で、RA
M22から読み出され復元された音声信号の単音の波形
特徴を解析する代りに、RAM22(或いはDRAM1
4)に格納された音声データをD/A変換することなく
取り出して、特徴解析手段3411で単音の特徴を解析
し、文字変換手段3412で単音音声データの特徴デー
タと文字コードを登録した音声/文字変換辞書3414
の各特徴データと比較して音声を単音列として文字コー
ド列(平仮名或いは片仮名)に変換するように構成して
もよい。
【0045】音声方向解析手段342は、画像処理装置
100の左右に設けられた音声入力手段31Rおよび3
1Lから得られる音量VR,VLを基に音声入力手段3
1Rおよび31Lを2点とする三角形の頂点の座標(す
なわち、音声の発生位置)を算出し吹出し口位置とする
発声位置推測手段3421と、VRAMaに展開された
画像イメージの黒画素の密度の高い領域と低い領域を調
べ発声位置推測手段3421で得た座標点を黒画素の密
度の低い領域に平行移動し、その点を含む黒画素低密度
域の形状と標準図形テーブル3423に登録された各種
吹出しの形状とを比較し、相似度を判定して吹出しの形
状および縮尺を決定し、当該縮尺を基にして決定された
大きさの吹出しを嵌め込む黒画素低密度域を文字表示位
置候補とする文字表示位置候補決定手段3422と、吹
出しの標準形状および各吹出しに入る標準形状の文字数
を登録した標準図形テーブル3423を有している。
【0046】図6は標準図形テーブル3423の一実施
例であり、標準図形テーブル3423には吹出しの種類
を特定する吹出し図形番号、吹出し図形番号で特定され
る吹出しを描画する吹出し描画コマンド、描画コマンド
で描かれる標準の大きさの吹出しの閉空間面積(また
は、形成される吹出し線で囲まれる画素数)、標準の大
きさの吹出しに書込めるある標準Aの大きさの文字数
(行数、行当りの文字数とその合計)、標準B,C・・
の大きさの文字数等が登録されている。なお、ここで文
字の標準A、B、C・・とは文字サイズ(或いは、縮
尺)を意味する。また、吹出しパターンを登録した吹出
しパターンテーブルを設け、描画コマンドの代りに図形
番号で特定される吹出しパターンのアドレス(ポイン
タ)を登録するようにしてもよい。
【0047】表示状態決定処理手段343は、文字数お
よび上記当該サイズにより決定された大きさの吹出しの
大きさと標準文配列テーブル3423を基にして、表示
文字の大きさおよび配列を決定する表示文字形状決定手
段3431と、入力音量の大きさを基にして吹出しおよ
び文字の太さを決定する文字濃度決定手段3432と、
上記決定された大きさと太さの吹出しをVRAMbの上
記決定された表示位置(相対座標)にイメージ展開し、
さらに文字コードに対応する文字パターンを登録したパ
ターン辞書3434を基に、当該VRAMb領域中の吹
出しの中に上記決定された大きさと太さの文字列(或い
は記号、絵文字)をイメージ展開する文字展開手段33
33と、パターン辞書3434を有している。
【0048】図3で、画像/文字表示手段112は画像
/文字入力モードのとき入力した画像および音声(文字
に変換された言葉)を合成して表示部50の画面に表示
する。すなわち、画像データ入力系10でVRAMaに
イメージ展開した画像と音声/文字変換系30でVRA
Mbにイメージ展開した文字(吹出し付き文字)を図1
0の例に示すように重畳させて表示する。
【0049】記録手段113は、ユーザが操作部40か
ら記録指示を行なうと重畳表示された画像データ、文字
データ(文字コード)と位置データ(位置座標)および
吹出し番号、或いは文字および吹出しのイメージデータ
を記録媒体61に記録する。
【0050】図7(a)は画像データおよび文字データ
とその表示情報等を記録する記録媒体61のレイアウト
例であり、(b)は参照リスト610の例を示す。
(a)に示すように記録媒体61には、参照リスト61
0、文字データ620−1〜620−m、画像データ6
30−1〜630−n(n≧m)が記録され、文字デー
タおよび画像データの記録アドレスは対応の参照リスト
610の対応の画像番号のポインタ612、613に格
納される。また、参照リスト610には、画像データ番
号611、文字データの記録アドレスを示すポインタ6
12、文字データの記録アドレスを示すポインタ61
3、文字(吹出し口)表示位置を示す表示座標614、
吹出し情報(種類)を示す吹出し図形番号615が含ま
れている。
【0051】なお、本実施の形態では文字データと位置
データおよび吹出し図形番号を格納するように構成した
が、図8に示すように文字(イメージ)データと画像デ
ータをそれぞれ別の1枚の画像620’、630として
別々に記録媒体61に記録するようにしてもよい。この
場合、参照リスト610’には画像データ番号611、
文字データの記録アドレスを示すポインタ612’、文
字データの記録アドレスを示すポインタ613が格納さ
れる。また、図示しないが画像データと文字(イメー
ジ)データを1枚の合成画像のデータとして記録するよ
うにしてもよい。再生/表示手段114は、文字/画像
再生モードが選択された場合に起動され、画像データお
よび文字データを記録媒体61から読み出し、画像デー
タについては伸張処理を施した後にVRAMaにイメー
ジ展開し、文字データについてはVRAMbに(吹出し
と共に)イメージ展開する。これにより表示部50の画
面上に再生された画像および文字が重畳表示される。
【0052】なお、記録媒体61に格納されている画像
データと文字データの合成(重畳表示)の可否を画面で
指定するように再生手段114を構成してもよく、ま
た、文字データが記録されている場合に必ず対応の画像
と重畳表示するように構成してもよい。
【0053】出力手段115は、文字/画像出力モード
の指定、或いは文字/画像再生モードが指定されて画像
表示がなされた後にユーザの出力指示操作があると、画
面上に表示されている画像および文字に対応する画像デ
ータおよび文字データ、或いは指定の番号の画像および
文字に対応する画像データおよび文字データを記録部6
0およびインターフェイス83を介して記録媒体61か
ら外部装置(例えば、プリンタや他の画像処理装置或い
は通信回線に接続する端末機器)に送信する。
【0054】編集手段70は、音声/文字入力モードま
たは文字/画像再生モードで表示部50に文字と画像が
重畳表示された場合に、操作部40からユーザによる割
込み編集指示があると、表示文字の位置、大きさ、認識
誤りのあった文字の訂正/再入力および丁寧語或いは絵
文字への文字の変換等の編集処理を行なう。なお、操作
部40からの割込み指示は操作部40に設けられた編集
用ボタン(或いはキー)の押し下げにより制御部20に
与えられる(図10参照)。
【0055】図9は編集手段70の構成例を示すブロッ
ク図であり、編集手段70は表示位置移動手段71、サ
イズ拡大/縮小手段72、音声再入力手段73および文
字変換手段74を有している。
【0056】表示位置移動手段71は画面に表示された
文字(吹出し)の位置が画像の主要部に重なっていた
り、位置のバランスが悪かったりした場合に適切な位置
に吹出しごと文字を移動させる。実施例では文字の移動
を図10に示すような移動用ボタン42および十字キー
48(図11)の操作により吹出し口を移動中心として
移動させている。
【0057】サイズ拡大/縮小手段72は画面に表示さ
れた文字(吹出し)が小さ過ぎたり大き過ぎたりした場
合や、表示位置移動手段71による移動先の空間の大き
さが現在の吹出しの大きさより大きかったり小さかった
りする場合に文字(および吹出し)の大きさを拡大或い
は縮小して表示バランスを調整する。サイズ拡大/縮小
手段72は、また、文字および吹出しの濃度(線の太
さ)の調整も行なうことができる。実施例では文字の拡
大/縮小を図10に示すようなサイズ拡大/縮小ボタン
43と十字キー48の操作により行なっている。
【0058】音声再入力手段73は、画面に表示された
文字に認識誤りがある場合に誤った文字のみをスポット
的に訂正したり、表現全体を差替えたい場合に操作部4
0(実施例では変換入力ボタン44および十字キー48
の操作)により訂正対象(訂正文字のみ或いは文字列全
体または、訂正する行)を指定し、音声の再入力を行な
うことによりスポット訂正或いは全体の差替えを行な
う。誤った文字をスポット的に訂正する場合にはその部
分を指定し、正しい音を単音で区切って再入力し、全体
を差替える場合には(例えば、吹出し口部分を指定する
と全体差し換え、というように意味付けて)全体の差替
えを指定し、差替える言葉を再入力するようにできる。
ユーザーが再入力操作を行なうと、音声/文字変換系3
0が起動され、前述したような処理を経て新たな文字が
画面上に重畳表示される。
【0059】文字変換手段74は、画面に表示された文
字(または、文字列)を特定の文字(丁寧語)に変換し
たり、特定の記号や絵文字に変換したい場合に操作部4
0(実施例では変換入力ボタン44および十字キー48
の操作)により変換対象の文字又は文字列を指定する
と、変換辞書とのマッチングを行なって当該文字または
文字列を指定の語,記号または絵文字に変換する。変換
辞書には文字又は文字列と、それら文字列と変換可能な
語,記号または絵文字が登録されている。なお、変換
後、必要に応じて吹出しの形状或いは大きさを自動的に
調整できるように構成してもよい。
【0060】<実施例>以下、本発明をデジタルカメラ
に適用した場合の一実施例について述べる。図10はデ
ジタルカメラでの文字/画像の重畳表示例を示す説明図
であり、(a),(a)’は被撮影者の発した言葉10
1’を画像に重畳表示した例であり、(a)で撮影時に
被撮影者が発した「おめでとうございます」という音声
を手前のデジタルカメラ200で捉えて、(a)’に示
すように画像後方に吹出し枠101付きで重畳表示して
いる。また、(b),(b)’は撮影者の発した言葉1
02’を画像に重畳表示した例であり、(a)で撮影時
に撮影者が発した「おめでとうございます」という音声
を手前のデジタルカメラ200で捉えて、(b)’に示
すように画像前方に吹出し枠102付きで重畳表示して
いる。上述の例のように被撮影者の言葉や動物の鳴き声
等を表示する場合は吹出し口を像の方向に向け、撮影者
の言葉を表示する場合は吹出し口を外側に向けることに
より、被撮影者(物)の発した音声か、撮影者の発した
音声かを一見して明らかに表示できる。
【0061】なお、上例では吹出しを横方向に長めに形
成し、文字も横書きとしているが、吹出しを縦長にした
り、文字を縦書きにすることもできる。また、吹出し枠
を実線で現わされる矩形状としているが、破線で形成し
てもよく、また、大音響や驚き等を表現する場合に用い
られる突起状の角を有する吹出しも表示できる。
【0062】図11は本発明を適用したデジタルカメラ
一実施例の斜視図であり、(a)は正面図、(b)は背
面図である。デジタルカメラ200の上面には、動作モ
ードを本発明の音声認識画像処理モードに切換えるモー
ド切換えスイッチ(スライドスイッチ)41と、編集用
ボタン42〜45、出力用ボタン47、デジタルカメラ
200を起動するメインスイッチ201、撮像用シャッ
ターボタン202が設けられている。前面(正面)に
は、撮像部210、撮像レンズ201、ファインダー2
20、ファインダーレンズ221が設けられ、前面の内
部にはステレオマイク231,232が設けられてい
る。ここで、ステレオマイク231は音声入力部31の
右耳(R)に、ステレオマイク232は左耳(L)に相
当する。
【0063】背部には、記録モードと再生モードを切換
える記録/再生モード切換えスイッチ46と、光学ファ
インダー202と、画像表示用の液晶ディスプレイ53
が設けられている。なお、背部の内部に撮影者の音声入
力用マイク233を設けてもよい。音声入力用マイク2
33を設けた場合には撮影者からの音声であることを確
実に判定できるので、音声方向解析手段342の構成が
音声入力用マイク233を設けない場合に比べて簡易に
なる。
【0064】図12は図11のデジタルカメラ200の
回路構成例を示すブロック図である。以下、図1の画像
処理装置100と同じ機能を有する構成部分については
同じ記号を用い、詳細な説明は省略する。
【0065】光学系11,信号変換部12,信号処理部
13,DRAM(ダイナミックメモリー)14は図1の
画像データ入力系10に相当する。光学系11は、撮像
レンズおよび絞り等の光学系機構11を含み、被写体か
らの光を後段の信号変換部12のCCD上に結像させ
る。信号変換部12は、CCD,A/D変換部およびC
CD駆動信号生成回路を含み、前段の光学系11を介し
てCCDに結像した画像を電気信号に変換すると共にデ
ジタルデータ(以下、画像データ)に変換してDRAM
14に一時的に記憶させる。
【0066】信号処理部13は、画像データをJPEG
方式等の圧縮方式により圧縮し、また、圧縮された画像
データに伸張処理を施す。また、信号処理部13はDR
AM14からの画像データ或いはフラッシュメモリー6
1から読み出した画像データに伸張処理を施した後、V
RAM(ビデオRAM)51にイメージ展開する。
【0067】制御部20は上述の各回路および図示しな
い電源切換えスイッチ等にバスラインを介して接続し、
ROM21内に格納された制御プログラムによりデジタ
ルカメラ200全体の動作を制御する。また、制御部2
0はROM21内に格納された音声認識画像処理手段1
10(図3)を実行して音声認識画像処理モードの制御
を行なう。
【0068】音声/文字入力部30は音声認識画像処理
モードの時に、撮像の際入力される被撮影者(物)或い
は撮影者から発せられた音声を認識して文字コードに変
換し、撮像結果(画像)上の表示位置、文字の大きさ等
を決定して、文字イメージを吹出しとともにVRAM5
2に展開する。
【0069】モード切換えスイッチ41,移動ボタン4
2,拡大/縮小ボタン43,音声再入力ボタン44,文
字変換ボタン45,記録/再生スイッチ46および出力
ボタン47(以下、単にスイッチ41,46、ボタン4
2,43,44,45,47と記す)は図1の操作部4
0の構成部分に相当する。VRAM51,VRAM5
2,および液晶ディスプレイ53は表示部50を構成す
る(VRAM51はVRAMaに、VRAM52はVR
AMbに相当する)。
【0070】液晶ディスプレイ(LCD)53の電源が
オン(ON)であれば、VRAM51上の画像データが
液晶ディスプレイ53に画像表示される。また、制御部
20を介してVRAM52に書込まれる音声変換後の文
字および吹出しや選択画像フォーマットや各種メニュー
およびメッセージを液晶ディスプレイ53に表示する。
さらに、VRAM51上の画像イメージとVRAM52
上のイメージを液晶ディスプレイ53に合成(重畳)し
て表示できる。
【0071】フラッシュメモリー61は画像データの記
録媒体として圧縮された画像データと、音声/文字変換
された文字データを記録し、また、必要参照事項を記録
する参照リストを有する(図7,図8)。インターフェ
イス83はデジタルカメラ200と、プリンタやパソコ
ン、その他の画像処理装置、CD−ROM等の外部機器
との間のデータの授受を行なう。フラッシュメモリー6
1に記録された画像データおよび文字データ等の外部機
器への送信(出力)は、図示しない出力手段115(プ
ログラム)に基づいて行なわれる。
【0072】<モードの切換>スイッチ41は、「NO
P」、「通常」、「特殊」、「音声/文字変換」の4位
置にスライド可能に構成されている。スイッチ41が
「NOP」に位置する場合はメインスイッチ201がオ
ンであってもモード処理動作に移行しない(すなわち、
ノーオペレーション状態である)。また、スイッチ41
はメインスイッチ201をオフにすると自動的に「NO
P」位置に戻る。
【0073】メインスイッチ201をオン(ON)にし
た後、スイッチ41を「通常」側に切換えると、デジタ
ルカメラ200は通常処理モード(図4)となり、被写
体の撮像、表示、記録等、一連の撮像動作を行なうこと
ができる。また、スイッチ41を「特殊」側に切換える
と、デジタルカメラ200は特殊処理モード(図4)と
なり、接写や連写その他特殊処理動作を行なうことがで
きる。
【0074】さらに、スイッチ41を「音声/文字変
換]側に切換えると、音声認識画像処理モードとなり、
撮像/音声入力モード、文字/画像再生モードおよび文
字/画像出力モードを実行することができる(図4)。
スイッチ41を「音声/文字変換]側に切換えた場合、
撮像スイッチ202が2段となり、一回押すとステレオ
マイク231,232(およびマイク233)が起動さ
れ、被撮影者(物)または撮影者の発する音声の入力を
可能とする。撮像スイッチをもう一回押すと被写体が撮
像され、撮像/音声入力モード処理ブロック1111が
実行されて液晶ディスプレイ53上に撮像結果である静
止画像と入力音声が変換された文字が(吹出し付きで)
重畳表示される(図13参照)。
【0075】記録/再生スイッチ46は、「NOP」、
「記録」、「再生」の3位置にスライド可能に構成され
ている。スイッチ46が「NOP」に位置する場合はメ
インスイッチ201およびスイッチ41がオンであって
もモード処理動作に移行しない(すなわち、ノーオペレ
ーション状態である)。また、スイッチ46はメインス
イッチ201をオフにするか或いはスイッチ41を「N
OP」に位置させるとスイッチ46は自動的に「NO
P」位置に戻る(図14参照)。
【0076】スイッチ41を「音声/文字変換」側に切
換えた場合にスイッチ46を「記録」に切換えると撮像
/音声入力モード処理により液晶ディスプレイ53に表
示中の画像および文字に係わるデータ(画像データ,文
字データおよび表示位置データ、大きさデータ、太さデ
ータ、吹出し図形番号)がフラッシュメモリー61に記
録される。
【0077】スイッチ41を「音声/文字変換」側に切
換えた場合にスイッチ46を「再生」に切換えるとデジ
タルカメラ200は文字/画像再生モードとなり、文字
/画像再生モード処理ブロック1112が実行され、フ
ラッシュメモリー61に記録されている画像データおよ
び文字データが読み出され、各変換処理等を経て液晶デ
ィスプレイ53上に静止画像と入力音声が変換された文
字が(吹出し付きで)重畳表示される(図15参照)。
【0078】スイッチ211を「音声/文字変換]側に
切換えた場合に、ボタン47を押すと文字/画像出力モ
ードとなり、文字/画像出力モード処理ブロック111
3により画像データおよび文字データがインターフェイ
ス83を介して外部機器に送信される。
【0079】図13〜図15は音声認識画像処理モード
における画像処理装置200の動作を示すフローチャー
トであり、図13は音声/画像入力モード時の動作フロ
ーチャート、図14は文字/画像再生モード時の動作フ
ローチャート、図15は文字/画像出力モード時の動作
フローチャートである。
【0080】(イ) 音声/画像入力モード時の動作 図13で、選択モードを調べ、音声/画像入力モードが
選択された場合にはS3に移行し、その他の場合にはS
2のその他のモード処理に移行する(S1)。上記S2
では音声/画像入力モード処理以外のモード処理を行な
い、終了するとS1に戻る。
【0081】音声/画像モードが選択された場合、撮像
シャッター202を一回押すとステレオマイク231,
232(およびマイク233)が起動され、2回目に撮
像シャッター202を押すと所定時間経つとオフとなる
(S3)。また、2回目の撮像シャッター押し下げによ
り撮像が行なわれ(S3’)、撮像データは信号変換処
理(S4’)を経てVRAM51(VRAMb)にイメ
ージ展開される(S5’)。
【0082】ステレオマイク231,232(およびマ
イク233)から入力された音は、音声信号処理手段3
2により一定の強度以上の音が抽出され、突出波形のカ
ットや雑音処理等が施された後に特徴抽出処理を経てか
らA/D変換されて音声データとしてDRAM14に一
時的に格納される(S4)。
【0083】VRAM14に格納した音声データを取り
出して、音声/文字変換手段341による特徴解析(S
5)、文字変換(S6)および仮名漢字変換処理等の音
声/文字変換(S7)を行ない、次に、音声方向解析手
段342による発声位置の推測(S8)、文字および吹
出し表示位置候補の決定(S9)を行なう。さらに、お
よび表示状態決定手段343による表示文字形状決定
(S10)と文字濃度(文字の太さ)の決定(S11)
を行ない、吹出しおよび文字をVRAM52(VRAM
a)にイメージ展開する(S12)。
【0084】VRAM51への1枚分の画像イメージ展
開とVRAM52への文字イメージ展開が終ると、画像
/文字表示手段112によりVRAM51の画像イメー
ジとVRAM52の文字イメージを合成し、液晶ディス
プレイ53上に画像と吹出しに囲まれた文字を重畳表示
する(S13)。
【0085】ここで、制御部20は操作部40からの信
号状態を調べ、信号状態が「記録」を意味している場合
(すなわち、再生/記録ボタン46が「記録」位置に切
換えられた場合)にはS15に移行し、信号状態が「編
集」を意味している場合(すなわち、ボタン42〜45
のいずれかが押し下げられた場合)には、S16に移行
し、その他の場合にはS1に戻る(S14)。
【0086】上記S15で、再生/記録ボタン46が
「記録」位置に切換えられた場合には、記録手段113
(図3)が起動され、フラッシュメモリー61に現在液
晶ディスプレイ53に重畳表示されている画像の圧縮デ
ータ、文字データを格納すると共にフラッシュメモリー
61に設けられている参照リストに当該画像の画像番
号、画像データ格納アドレス(ポインタ1)、文字デー
タ格納アドレス(ポインタ2)、画像表示位置情報、濃
度情報、吹出し図形番号等の必要情報を登録し、S1に
戻る(S15)。
【0087】上記S15で、ボタン42〜45のいずれ
かが押し下げられた場合には、編集割込みとして対応の
編集処理に移行する。すなわち、ボタン42が押し下げ
られた場合には文字(吹出し)移動処理を、ボタン43
が押し下げられた場合にはサイズ拡大/縮小処理を、ボ
タン44が押し下げられた場合には音声再入力処理を、
ボタン45が押し下げられた場合には文字変換処理を実
行し、それぞれの処理が終了するとS15に戻る(S1
6)。
【0088】(ロ) 文字/画像再生モード時の動作 文字/画像再生モードが選択されると、図14で、再生
手段114により参照リスト、画像データおよび文字デ
ータが記録媒体61から読み出され(T1)、画像デー
タについては伸張処理が施された後にVRAM51にイ
メージ展開され(T2)、文字データについては参照リ
ストに格納された各情報(画像表示位置情報、濃度情報
、吹出し図形番号等)を基にして吹出しおよび文字列
がVRAM52にイメージ展開される(T3)。
【0089】VRAM51への1枚分の画像イメージ展
開とVRAM52への文字イメージ展開が終ると、画像
/文字表示手段112によりVRAM51の画像イメー
ジとVRAM52の文字イメージを合成し、液晶ディス
プレイ53上に画像と吹出しに囲まれた文字を重畳表示
する(T4)。
【0090】ここで、CPU21は操作部40からの信
号状態を調べ、信号状態が「編集」を意味している場合
(すなわち、ボタン42〜45のいずれかが押し下げら
れた場合)にはT6に移行し、その他の場合には図13
のS1に戻る(T5)。
【0091】上記T5で、ボタン47が押し下げられた
場合には文字/画像出力モード(図15)に移行する。
また、ボタン42〜45のいずれかが押し下げられた場
合には、編集割込みとして対応の編集処理に移行する。
すなわち、ボタン42が押し下げられた場合には文字
(吹出し)移動処理を、ボタン43が押し下げられた場
合にはサイズ拡大/縮小処理を、ボタン44が押し下げ
られた場合には音声再入力処理を、ボタン45が押し下
げられた場合には文字変換処理を実行する(T6)。
【0092】それぞれの編集処理が終了すると、記録手
段113が起動され、フラッシュメモリー61に現在液
晶ディスプレイ53に重畳表示されている画像の圧縮デ
ータ、文字データを格納すると共にフラッシュメモリー
61に設けられている参照リストに当該画像の画像番
号、画像データ格納アドレス(ポインタ1)、文字デー
タ格納アドレス(ポインタ2)、画像表示位置情報、濃
度情報、吹出し図形番号等の必要情報を登録し、図13
のS1に戻る(T7)。
【0093】(ハ) 文字/画像出力モード時の処理 文字/画像出力モードが選択されると、図15で、出力
手段115により画面上に表示されている画像および文
字に対応する画像データおよび文字データ、或いは指定
の番号の画像および文字に対応する画像データおよび文
字データをフラッシュメモリー61から読み出し(U
1)、イターフェイス83を介して外部装置に送信する
(U2)。なお、上記実施例では吹出しのなかに文字を
表示したが、吹出しを設けず文字をそのまま表示するよ
うにしてもよい。
【0094】他の実施例として、先に撮像を行なって画
像データを記録しておき、後から音声入力を行なって画
像と変換された文字を重畳表示するように構成できる。
この場合、前述の実施例において通常モードを選択し、
次に画像入力モード(撮像モード)1114を選択して
撮像および記録を行なった後、所望の時期に音声認識処
理モードを選択し、次いで文字/画像再生モードを選択
して記録画像を表示し、編集割込みにより編集処理(こ
の場合は、音声再入力)を行なって、変換された文字
(言葉)を重畳表示するようにしてもよい。
【0095】以上本発明の実施例について説明したが、
本発明は上記実施例に限定されるものではなく、種々の
変形実施が可能であることはいうまでもない。
【0096】
【発明の効果】以上説明したように本発明によれば、デ
ジタルカメラ等の画像処理装置での画像入力時(デジタ
ルカメラの場合は撮影時)に音声を入力し、音声認識を
行なって文字に変換して、液晶ディスプレイに画像と文
字で現わされた言葉を重畳表示でき、また、画像データ
および文字データを記録/出力できるので、撮像時の印
象や事実を画像と共に表示および記録することができ
る。これにより画像処理装置としてのデジタルカメラの
新しい利用分野、例えば、写真撮影時の印象や事実等が
表示されたアルバムの作成や、画像データに印象や事実
を記述した文字データを臨場的に対応させて外部に送信
し、外部装置で加工できる。また、文字表示の際に、漫
画等での言語表示の一手法である「吹出し」を形成し言
語(文字)をその中に表示するようにできるので、画像
の印象付けや、誰が言ったか等を画像中に明示できる。
【図面の簡単な説明】
【図1】本発明の音声認識画像処理装置の構成例を示す
ブロック図である。
【図2】音声/文字変換系の構成例を示すブロック図で
ある。
【図3】音声認識画像処理系の構成例を示すブロック図
である。
【図4】動作モードの構成例を示す構成図である。
【図5】音声/文字変換処理手段の構成例を示すブロッ
ク図である。
【図6】標準図形テーブルの一実施例を示す図である。
【図7】記録媒体のレイアウトの一例を示す図である。
【図8】記録媒体のレイアウトの一例を示す図である。
【図9】編集手段の構成例を示すブロック図である。
【図10】本発明をデジタルカメラに適用した場合の文
字/画像の重畳表示例を示す説明図である。
【図11】本発明をデジタルカメラに適用した場合の一
実施例の斜視図である。
【図12】図11のデジタルカメラの回路構成例を示す
ブロック図である。
【図13】音声認識画像処理装置の音声/画像入力モー
ド時の動作を示すフローチャートである。
【図14】音声認識画像処理装置の文字/画像再生モー
ド時の動作を示すフローチャートである。
【図15】音声認識画像処理装置の文字/画像出力モー
ド時の動作を示すフローチャートである。
【符号の説明】
10 画像データ入力系 30 音声/文字変換系 31 音声入力手段 32 音声信号処理手段 34 音声/文字変換処理手段 50 表示部(表示装置;VRAMa,VRAM,液晶
ディスプレイ)) 60 記録部(記録装置) 61 記録媒体 70 編集手段 71 表示位置移動手段(移動手段) 72 サイズ拡大/縮小手段(調整表示手段) 73 音声再入力手段(修正手段) 74 文字変換手段(変換手段) 100 音声認識画像処理装置 101,102 吹出し枠(閉鎖図形) 112 画像/文字表示手段(画像表示手段) 113 記録遮断 114 再生/表示手段(画像表示手段) 200 デジタルカメラ(音声認識画像処理装置) 342 音声方向解析手段 343 表示状態決定手段
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 FI // G06F 3/16 330 G06F 3/16 330C

Claims (14)

    【特許請求の範囲】
  1. 【請求項1】 画像データを入力する画像データ入力系
    と、音声を入力して認識して認識結果を文字,記号,ま
    たは絵文字に変換する音声/文字変換系と、画像データ
    と前記音声/文字変換系による変換結果を合成して表示
    する画像表示手段を有することを特徴とする音声認識画
    像処理装置。
  2. 【請求項2】 更に、前記画像データと前記変換結果を
    記録媒体に記録する記録手段を有することを特徴とする
    請求項1に記載の音声認識画像処理装置。
  3. 【請求項3】 更に、前記合成表示された画像データを
    記録媒体に記録する記録手段を有することを特徴とする
    請求項1に記載の音声認識画像処理装置。
  4. 【請求項4】 前記音声/文字変換系が、音声を入力し
    て音声信号に変換する音声入力手段と、前記音声入力手
    段の出力から所定の強度範囲の音声信号を抽出し、波形
    処理を行なって音声データを得る音声信号処理手段と、
    前記音声データを認識処理して文字に変換する音声/文
    字変換処理手段を有することを特徴とする請求項1,2
    または3に記載の音声認識画像処理装置。
  5. 【請求項5】 前記音声/文字変換処理手段が、更に、
    音声の発せられた方向を検出して前記認識結果の表示位
    置情報を得る音声方向解析手段と、音声の強度を基に前
    記認識結果の表示サイズおよび表示濃度情報を得る表示
    状態決定手段を有することを特徴とする請求項4記載の
    音声認識画像処理装置。
  6. 【請求項6】 前記変換結果を閉鎖図形枠で囲んで表示
    することを特徴とする請求項1,2または3に記載の音
    声認識画像処理装置。
  7. 【請求項7】 前記閉鎖図形枠が吹出し枠であることを
    特徴とする請求項6記載の音声認識画像処理装置。
  8. 【請求項8】 前記音声/文字変換処理手段が、更に、
    音声の発せられた方向を検出して前記認識結果の閉鎖図
    形枠表示位置情報を得る音声方向解析手段と、音声の強
    度を基に前記認識結果および前記閉鎖図形の表示サイズ
    および表示濃度情報を得る表示状態決定手段を有するこ
    とを特徴とする請求項5記載の音声認識画像処理装置。
  9. 【請求項9】 更に、前記表示された変換結果を修正ま
    たは編集する編集手段を有することを特徴とする請求項
    1,2,3,6または7に記載の音声認識画像処理装
    置。
  10. 【請求項10】 前記編集手段が、前記認識結果の表示
    位置を移動する移動手段と、前記認識結果の表示サイズ
    および表示濃度を調整する調整表示手段を有することを
    特徴とする請求項9記載の音声認識画像処理装置。
  11. 【請求項11】 前記編集手段が、前記認識結果と前記
    閉鎖図形の表示位置を移動する移動手段と、前記認識結
    果と前記閉鎖図形の表示サイズおよび表示濃度を調整す
    る調整表示手段を有することを特徴とする請求項9記載
    の音声認識画像処理装置。
  12. 【請求項12】 前記編集手段が、更に、表示された前
    記認識結果の一部または全部を指定して、該指定部分に
    相当する音声を再入力して当該指定部分を修正する修正
    手段を有することを特徴とする請求項9記載の音声認識
    画像処理装置。
  13. 【請求項13】 前記編集手段が、更に、表示された前
    記認識結果の一部または全部を指定して、他の文字列、
    記号或いは絵文字に変換する変換手段を有することを特
    徴とする請求項9記載の音声認識画像処理装置。
  14. 【請求項14】 前記変換結果と前記画像データと対応
    づけて別々に保存する手段を設けたことを特徴とする請
    求項1記載の音声認識画像処理装置。
JP22194197A 1997-08-04 1997-08-04 音声認識画像処理装置 Expired - Fee Related JP3757565B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP22194197A JP3757565B2 (ja) 1997-08-04 1997-08-04 音声認識画像処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP22194197A JP3757565B2 (ja) 1997-08-04 1997-08-04 音声認識画像処理装置

Publications (2)

Publication Number Publication Date
JPH1155614A true JPH1155614A (ja) 1999-02-26
JP3757565B2 JP3757565B2 (ja) 2006-03-22

Family

ID=16774562

Family Applications (1)

Application Number Title Priority Date Filing Date
JP22194197A Expired - Fee Related JP3757565B2 (ja) 1997-08-04 1997-08-04 音声認識画像処理装置

Country Status (1)

Country Link
JP (1) JP3757565B2 (ja)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003067300A (ja) * 2001-08-29 2003-03-07 Nec Corp 音声認識処理による電子メール作成方法
JP2005346252A (ja) * 2004-06-01 2005-12-15 Nec Corp 情報伝達システムおよび情報伝達方法
JP2007243442A (ja) * 2006-03-07 2007-09-20 Konica Minolta Business Technologies Inc 画像処理装置、画像処理方法および画像処理プログラム
JP2010161592A (ja) * 2009-01-07 2010-07-22 Olympus Imaging Corp 音声表示装置及びカメラ
WO2010109274A1 (en) * 2009-03-23 2010-09-30 Sony Ericsson Mobile Communications Ab Voice-controlled image editing
JP2010276728A (ja) * 2009-05-26 2010-12-09 Nec Casio Mobile Communications Ltd 音声処理装置、音声処理方法、及び、プログラム
JP2013008031A (ja) * 2011-06-24 2013-01-10 Honda Motor Co Ltd 情報処理装置、情報処理システム、情報処理方法及び情報処理プログラム
US8441553B2 (en) * 2008-11-17 2013-05-14 Pentax Ricoh Imaging Company, Ltd. Imager for composing characters on an image
JP2015087695A (ja) * 2013-11-01 2015-05-07 セイコーエプソン株式会社 情報処理装置および情報処理装置の制御方法
WO2015156011A1 (ja) * 2014-04-08 2015-10-15 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
JP2017018414A (ja) * 2015-07-13 2017-01-26 株式会社コロプラ ユーザ入力支援のためのコンピュータ・プログラム
KR101879349B1 (ko) * 2015-06-24 2018-07-18 주식회사 브이터치 의사소통을 지원하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체
CN112151029A (zh) * 2020-09-04 2020-12-29 深圳创维-Rgb电子有限公司 语音唤醒与识别自动化测试方法、存储介质及测试终端
CN118612471A (zh) * 2024-08-07 2024-09-06 深圳市天诺安防有限公司 视频云存储方法、系统、计算机设备以及存储介质

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003067300A (ja) * 2001-08-29 2003-03-07 Nec Corp 音声認識処理による電子メール作成方法
JP2005346252A (ja) * 2004-06-01 2005-12-15 Nec Corp 情報伝達システムおよび情報伝達方法
US7739118B2 (en) 2004-06-01 2010-06-15 Nec Corporation Information transmission system and information transmission method
JP4650303B2 (ja) * 2006-03-07 2011-03-16 コニカミノルタビジネステクノロジーズ株式会社 画像処理装置、画像処理方法および画像処理プログラム
JP2007243442A (ja) * 2006-03-07 2007-09-20 Konica Minolta Business Technologies Inc 画像処理装置、画像処理方法および画像処理プログラム
US8441553B2 (en) * 2008-11-17 2013-05-14 Pentax Ricoh Imaging Company, Ltd. Imager for composing characters on an image
JP2010161592A (ja) * 2009-01-07 2010-07-22 Olympus Imaging Corp 音声表示装置及びカメラ
JP2012521705A (ja) * 2009-03-23 2012-09-13 ソニーモバイルコミュニケーションズ, エービー 音声制御画像編集
WO2010109274A1 (en) * 2009-03-23 2010-09-30 Sony Ericsson Mobile Communications Ab Voice-controlled image editing
JP2010276728A (ja) * 2009-05-26 2010-12-09 Nec Casio Mobile Communications Ltd 音声処理装置、音声処理方法、及び、プログラム
JP2013008031A (ja) * 2011-06-24 2013-01-10 Honda Motor Co Ltd 情報処理装置、情報処理システム、情報処理方法及び情報処理プログラム
JP2015087695A (ja) * 2013-11-01 2015-05-07 セイコーエプソン株式会社 情報処理装置および情報処理装置の制御方法
WO2015156011A1 (ja) * 2014-04-08 2015-10-15 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
KR101879349B1 (ko) * 2015-06-24 2018-07-18 주식회사 브이터치 의사소통을 지원하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체
JP2017018414A (ja) * 2015-07-13 2017-01-26 株式会社コロプラ ユーザ入力支援のためのコンピュータ・プログラム
CN112151029A (zh) * 2020-09-04 2020-12-29 深圳创维-Rgb电子有限公司 语音唤醒与识别自动化测试方法、存储介质及测试终端
CN118612471A (zh) * 2024-08-07 2024-09-06 深圳市天诺安防有限公司 视频云存储方法、系统、计算机设备以及存储介质

Also Published As

Publication number Publication date
JP3757565B2 (ja) 2006-03-22

Similar Documents

Publication Publication Date Title
US5917944A (en) Character recognizing and translating system and voice recognizing and translating system
US8645121B2 (en) Language translation of visual and audio input
US6460056B1 (en) Method and apparatus for displaying sign language images corresponding to input information
JP3757565B2 (ja) 音声認識画像処理装置
JP2003216955A (ja) ジェスチャ認識方法、ジェスチャ認識装置、対話装置及びジェスチャ認識プログラムを記録した記録媒体
JP2009301248A (ja) 言語処理装置
US7421394B2 (en) Information processing apparatus, information processing method and recording medium, and program
JP2004199299A (ja) 手書き情報記録方法、投影記録装置
JP4429081B2 (ja) 情報処理装置及び情報処理方法
JPH06217252A (ja) 電子スチルカメラ
JP2017102939A (ja) オーサリング装置、オーサリング方法、およびプログラム
KR101742779B1 (ko) 음성인식형 입체적 디지털영상 구현시스템
JPH09138802A (ja) 文字認識翻訳システム
JP2005101931A (ja) 画像プリント装置
JP2003044074A (ja) 印刷処理装置、印刷処理方法、コンピュータ読み取り可能な記憶媒体及びコンピュータプログラム
JP2006267934A (ja) 議事録作成装置および議事録作成処理プログラム
JPH11203008A (ja) 情報処理装置及び情報処理装置における言語切替制御方法
JP2007078985A (ja) データ検索装置及びその制御方法
CN106060394A (zh) 一种拍照方法、装置和终端设备
KR101843135B1 (ko) 영상 처리 방법, 장치 및 컴퓨터 프로그램
JPH11327030A (ja) カメラ制御装置及び方法並びに記憶媒体
JP6080058B2 (ja) オーサリング装置、オーサリング方法、およびプログラム
JPH0792938A (ja) 案内装置
JPH03149592A (ja) 道案内装置
CN110955401B (zh) 声音回放区间控制方法、计算机可读存储介质和信息处理装置

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20040507

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050808

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050830

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051027

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20051206

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20051219

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090113

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100113

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110113

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110113

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120113

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130113

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130113

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees