JP2004301894A - 音声記録方法および装置、デジタルカメラ、並びに画像再生方法および装置 - Google Patents

音声記録方法および装置、デジタルカメラ、並びに画像再生方法および装置 Download PDF

Info

Publication number
JP2004301894A
JP2004301894A JP2003091562A JP2003091562A JP2004301894A JP 2004301894 A JP2004301894 A JP 2004301894A JP 2003091562 A JP2003091562 A JP 2003091562A JP 2003091562 A JP2003091562 A JP 2003091562A JP 2004301894 A JP2004301894 A JP 2004301894A
Authority
JP
Japan
Prior art keywords
recognition
voice
image
annotation
recording
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003091562A
Other languages
English (en)
Other versions
JP4295540B2 (ja
Inventor
Hisanobu Tsubaki
尚宜 椿
Hiroshi Tanaka
宏志 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Holdings Corp
Original Assignee
Fuji Photo Film Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Photo Film Co Ltd filed Critical Fuji Photo Film Co Ltd
Priority to JP2003091562A priority Critical patent/JP4295540B2/ja
Publication of JP2004301894A publication Critical patent/JP2004301894A/ja
Application granted granted Critical
Publication of JP4295540B2 publication Critical patent/JP4295540B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Television Signal Processing For Recording (AREA)
  • Studio Devices (AREA)

Abstract

【課題】音声認識の精度を向上させ、画像の注釈として入力される音声の利用価値を高める。
【解決手段】認識辞書格納部45は、画像ファイルに付属情報として添付される撮影者名を元に、音声による注釈を行った撮影者を特定し、認識辞書の中から撮影者用の認識辞書を抽出して音声認識処理回路43にロードする。音声認識処理回路43は、認識辞書格納部45で抽出された撮影者用の認識辞書を用いて、注釈として入力された音声の音声認識を行い、この音声をテキストデータに変換する。変換されたテキストデータは、撮影した画像データと関連付けてメモリカード19に記録される。
【選択図】 図6

Description

【0001】
【発明の属する技術分野】
本発明は、撮影手段により取得した画像の注釈として入力された音声を記録する音声記録方法および装置、撮影手段により取得した画像の注釈として入力された音声を記録する機能を有するデジタルカメラ、並びに注釈としての音声が関連付けて記録された画像を再生する画像再生方法および装置に関する。
【0002】
【従来の技術】
現在市販されているデジタルカメラには、撮影した画像とともに注釈として音声を記録する、いわゆるボイスメモ機能を備えたものがある。このようなデジタルカメラとしては、撮影した画像毎に注釈として音声を記録することができ、外部電力が供給されたときに、記録した音声データを文字データに変換するものが提案されている(特許文献1参照)。
【0003】
【特許文献1】
特許第3272336号
【0004】
【発明が解決しようとする課題】
上記のようなボイスメモ機能を有するデジタルカメラで撮影した画像を編集する際に、記録した音声を利用することができれば、ボイスメモ機能が充分に活用され、より利便性が高まる可能性があるが、この場合は音声データをテキストデータに変換する必要がある。
【0005】
テキスト変換の最も単純な方法としては、音声データを再生してユーザーが手入力により行う方法があるが、ユーザーに多大な労力を強いることになり、実用には不向きである。一方、現在盛んに研究されている音声認識技術を用いる方法が考えられるが、話者を特定して認識を行わないと、認識の精度が落ちるという問題があった。
【0006】
本発明は、音声認識の精度を向上させ、画像の注釈として入力される音声の利用価値を高めることができる音声記録方法および装置、デジタルカメラ、並びに画像再生方法および装置を提供することを目的とする。
【0007】
【課題を解決するための手段】
上記目的を達成するために、請求項1に記載される発明は、撮影手段により取得した画像の注釈として入力された音声を記録する音声記録方法において、前記画像を表す画像データの記録時に添付される付属情報を元に、音声による注釈を行った人物を特定するステップと、音声認識を行う際に参照される複数の認識辞書の中から、特定した人物用の認識辞書を抽出するステップと、抽出した認識辞書を用いて、注釈として入力された音声の音声認識を行い、この音声をテキストデータに変換するステップと、前記テキストデータを前記画像データと関連付けて記録するステップとを備えたことを特徴とする。
【0008】
請求項2に記載される発明は、撮影手段により取得した画像の注釈として入力された音声を記録する音声記録方法において、音声による注釈を行う人物の名前を音声入力するステップと、音声入力された人物名の音声認識を行い、音声による注釈を行う人物を特定するステップと、音声認識を行う際に参照される複数の認識辞書の中から、特定した人物用の認識辞書を抽出するステップと、抽出した認識辞書を用いて、注釈として入力された音声の音声認識を行い、この音声をテキストデータに変換するステップと、前記テキストデータを前記画像を表す画像データと関連付けて記録するステップとを備えたことを特徴とする。
【0009】
請求項3に記載される発明は、撮影手段により取得した画像の注釈として入力された音声を記録する音声記録装置において、前記画像を表す画像データの記録時に添付される付属情報を元に、音声による注釈を行った人物を特定する人物特定手段と、音声認識を行う際に参照される複数の認識辞書の中から、特定した人物用の認識辞書を抽出する辞書抽出手段と、抽出した認識辞書を用いて、注釈として入力された音声の音声認識を行い、この音声をテキストデータに変換する音声認識手段と、前記テキストデータを前記画像データと関連付けて記録する記録手段とを備えたことを特徴とする。
【0010】
請求項4に記載される発明は、撮影手段により取得した画像の注釈として入力された音声を記録する音声記録装置において、音声入力された人物名の音声認識を行って、音声による注釈を行う人物を特定する人物特定手段と、音声認識を行う際に参照される複数の認識辞書の中から、特定した人物用の認識辞書を抽出する辞書抽出手段と、抽出した認識辞書を用いて、注釈として入力された音声の音声認識を行い、この音声をテキストデータに変換する音声認識手段と、前記テキストデータを前記画像を表す画像データと関連付けて記録する記録手段とを備えたことを特徴とする。
【0011】
請求項5に記載される発明は、撮影手段により取得した画像の注釈として入力された音声を記録する機能を有するデジタルカメラにおいて、前記画像を表す画像データの記録時に添付される付属情報を元に、音声による注釈を行った人物を特定する人物特定手段と、音声認識を行う際に参照される複数の認識辞書の中から、特定した人物用の認識辞書を抽出する辞書抽出手段と、抽出した認識辞書を用いて、注釈として入力された音声の音声認識を行い、この音声をテキストデータに変換する音声認識手段と、前記テキストデータを前記画像データと関連付けて記録する記録手段とを備えたことを特徴とする。
【0012】
請求項6に記載される発明は、撮影手段により取得した画像の注釈として入力された音声を記録する機能を有するデジタルカメラにおいて、音声入力された人物名の音声認識を行って、音声による注釈を行う人物を特定する人物特定手段と、音声認識を行う際に参照される複数の認識辞書の中から、特定した人物用の認識辞書を抽出する辞書抽出手段と、抽出した認識辞書を用いて、注釈として入力された音声の音声認識を行い、この音声をテキストデータに変換する音声認識手段と、前記テキストデータを前記画像を表す画像データと関連付けて記録する記録手段とを備えたことを特徴とする。なお、前記音声認識手段は、前記抽出した認識辞書を用いて、カメラの操作命令を表す音声の音声認識を行い、この音声認識結果に基づいて前記操作を実行させることが好ましい。
【0013】
請求項8に記載される発明は、注釈としての音声が関連付けて記録された画像を再生する画像再生方法において、前記画像を表す画像データの記録時に添付される付属情報を元に、音声による注釈を行った人物を特定するステップと、音声認識を行う際に参照される複数の認識辞書の中から、特定した人物用の認識辞書を抽出するステップと、抽出した認識辞書を用いて、注釈として入力された音声の音声認識を行い、この音声をテキストデータに変換するステップと、前記テキストデータを前記画像データと関連付けて記録するステップと、記録された前記テキストデータおよび前記画像データを読み出して、前記画像および前記音声認識された注釈を、同一画面上、または別画面に表示するステップとを備えたことを特徴とする。
【0014】
請求項9に記載される発明は、注釈としての音声が関連付けて記録された画像を再生する画像再生方法において、音声による注釈を行う人物の名前を音声入力するステップと、音声入力された人物名の音声認識を行い、音声による注釈を行う人物を特定するステップと、音声認識を行う際に参照される複数の認識辞書の中から、特定した人物用の認識辞書を抽出するステップと、抽出した認識辞書を用いて、注釈として入力された音声の音声認識を行い、この音声をテキストデータに変換するステップと、前記テキストデータを前記画像データと関連付けて記録するステップと、記録された前記テキストデータおよび前記画像データを読み出して、前記画像および前記音声認識された注釈を、同一画面上、または別画面に表示するステップとを備えたことを特徴とする。なお、前記音声認識された注釈を訂正するステップを備えることが好ましい。
【0015】
請求項11に記載される発明は、注釈としての音声が関連付けて記録された画像を再生する画像再生装置において、前記画像を表す画像データの記録時に添付される付属情報を元に、音声による注釈を行った人物を特定する人物特定手段と、音声認識を行う際に参照される複数の認識辞書の中から、特定した人物用の認識辞書を抽出する辞書抽出手段と、抽出した認識辞書を用いて、注釈として入力された音声の音声認識を行い、この音声をテキストデータに変換する音声認識手段と、前記テキストデータを前記画像データと関連付けて記録する記録手段と、記録された前記テキストデータおよび前記画像データを読み出して、前記画像および前記音声認識された注釈を、同一画面上、または別画面に表示する表示制御手段とを備えたことを特徴とする。
【0016】
請求項12に記載される発明は、注釈としての音声が関連付けて記録された画像を再生する画像再生装置において、音声入力された人物名の音声認識を行って、音声による注釈を行う人物を特定する人物特定手段と、音声認識を行う際に参照される複数の認識辞書の中から、特定した人物用の認識辞書を抽出する辞書抽出手段と、抽出した認識辞書を用いて、注釈として入力された音声の音声認識を行い、この音声をテキストデータに変換する音声認識手段と、前記テキストデータを前記画像データと関連付けて記録する記録手段と、記録された前記テキストデータおよび前記画像データを読み出して、前記画像および前記音声認識された注釈を、同一画面上、または別画面に表示する表示制御手段とを備えたことを特徴とする。なお、前記音声認識された注釈を訂正する注釈訂正手段を備えることが好ましい。
【0017】
【発明の実施の形態】
図1および図2において、デジタルカメラ2には、撮像レンズ10が組み込まれたレンズ鏡胴11、光学ファインダを構成するファインダ対物窓12とファインダ接眼窓13、ストロボ発光部14、およびマイクロホン15が設けられている。側面および上面には、グリップ部16、モードダイヤル17、およびレリーズボタン18が設けられ、他方の側面には、メモリカード19が着脱自在に装填されるメモリカードスロット20が設けられている。
【0018】
デジタルカメラ2の背面には、液晶表示器(LCD)21と、操作部22とが設けられている。LCD21は、撮影した画像や、いわゆるスルー画像の表示を行う。操作部22は、電源のオン/オフ切替えを行う電源ボタン23、撮像レンズ10のズームレンズをワイド側、テレ側に変倍するズーム操作ボタン24、LCD21に表示されるメニュー画面内でカーソルを移動させるカーソル操作板25、マイクロホン15を介してボイスメモを録音する際に操作される音声入力ボタン26などからなる。
【0019】
デジタルカメラ2では、静止画撮影を行う静止画撮影モード、撮影した画像をLCD21に表示する再生モード、および各種設定を行うセットアップモードが選択可能となっている。これらのモードの切り替えは、モードダイヤル17を回動操作させることで行われる。また、デジタルカメラ2は、撮影した画像の注釈として音声を記録するボイスメモ機能を備えている。このボイスメモ機能は、画像の撮影後、操作部22の音声入力ボタン26を押圧操作した場合のみ有効となる。
【0020】
デジタルカメラ2の電気的構成を示す図3において、撮像レンズ10の背後には、撮像レンズ10から入射する被写体光を撮像信号に変換するCCD30が配置されている。CCD30から出力された撮像信号は、相関二重サンプリング回路(図示せず)に入力され、CCD30の各セルの蓄積電荷量に正確に対応したR、G、Bの画像データとして出力される。相関二重サンプリング回路から出力された画像データは、増幅器(図示せず)で増幅され、A/D変換器31でデジタルデータに変換される。
【0021】
A/D変換器31から出力された画像データは、画像信号処理回路32に送信される。画像信号処理回路32では、階調変換、ホワイトバランス補正、γ補正処理などの各種画像処理が画像データに施される。一方、マイクロホン15を介して収録された音声は、A/D変換器33でデジタルデータに変換され、音声信号処理回路34に送信される。音声信号処理回路34では、ノイズ除去などの各種処理が音声データに施される。
【0022】
CPU35は、システムバス36を介して各部に接続し、デジタルカメラ2全体の動作を統括制御する。システムバス36には、圧縮伸長処理回路37、YC処理回路38、SDRAM39、外部I/F40、カードI/F41、LCDドライバ42、および音声認識処理回路43が接続されている。
【0023】
画像信号処理回路32で各種処理を施された画像データは、YC処理回路38により輝度信号Yと色差信号Cr、Cbとに変換される。圧縮伸長処理回路37は、この変換された画像データに対して、所定の圧縮形式(例えばJPEG形式)で画像圧縮を施す。
【0024】
圧縮伸長処理回路37により圧縮された画像データは、外部I/F40を介してパーソナルコンピュータなどの外部機器に送信される。または、カードI/F41を介してメモリカード19に保存される。あるいは、LCDドライバ42によりコンポジット信号に変換され、LCD21に表示される。なお、図4に示すように、ボイスメモ機能を使用した画像データには、そのときの音声データが同一のファイル名で関連付けて記録される。
【0025】
図3において、CPU35には、前述のレリーズボタン18、操作部22の他に、EEPROM44が接続されている。EEPROM44には、各種制御用のプログラムや設定情報などが記録されている。CPU35は、これらの情報をEEPROM44から作業用メモリであるSDRAM39に読み出して、各種処理を実行する。
【0026】
音声認識処理回路43は、認識辞書格納部45に格納された認識辞書を用いて、マイクロホン15を介してボイスメモとして入力された音声の音声認識を行い、この音声をテキストデータに変換する。変換されたテキストデータは、画像ファイルのタグ情報にユーザーコメントとして添付され、撮影した画像データと関連付けてメモリカード19に記録される。なお、図5に示すように、変換されたテキストデータを、画像ファイルや音声ファイルと独立したテキストファイルとしてメモリカード19に記録してもよい。この場合は、関連する各ファイルを同一のファイル名で記録する。
【0027】
認識辞書格納部45には、一般用の認識辞書および個人用にカスタマイズされた認識辞書が格納されている。この認識辞書格納部45は、EEPROM44に設定情報として予め記録され、画像ファイルに付属情報として添付される撮影者名を元に、音声による注釈を行った撮影者を特定し、認識辞書の中から撮影者用の認識辞書を抽出して音声認識処理回路43にロードする。音声認識処理回路43は、認識辞書格納部45で抽出された撮影者用の認識辞書を用いて、注釈として入力された音声の音声認識を行う。
【0028】
次に、図6のフローチャートを参照して、上記構成による作用について説明する。まず、CPU35でメモリカード19に記録されたファイルを検索する。ボイスメモ機能を使用せず、画像ファイルのみが記録されている場合は、音声認識処理を行わずに次のファイルを検索する。
【0029】
ボイスメモ機能を使用して音声ファイルが記録されていた場合は、音声認識処理回路43を起動させ、画像ファイルの付属情報から音声による注釈を行った撮影者を特定する。そして、認識辞書格納部45で撮影者用の認識辞書を抽出し、音声認識処理回路43にロードする。ここで、デジタルカメラ2を初期状態で使用する場合など、認識辞書格納部45に撮影者用の認識辞書が格納されていないときには、一般用の認識辞書を抽出する。
【0030】
音声認識処理回路43で、抽出した撮影者用の認識辞書を用いて、注釈として入力された音声の音声認識を行い、この音声をテキストデータに変換する。最後に、変換したテキストデータを画像データと関連付けてメモリカード19に記録する。テキストデータの記録後、次の画像ファイルがある場合は、処理をリターンして再びファイル検索を行う。画像ファイルが無い場合は処理を終了する。
【0031】
ここで、図6に示す音声記録方法では、画像ファイルに付属情報として添付される撮影者名を元に、音声による注釈を行った撮影者を特定し、撮影者用の認識辞書を抽出しているが、図7のフローチャートに示すように、デジタルカメラ2の起動時に認識辞書を抽出するようにしてもよい。この場合は、デジタルカメラ2の起動とともに音声認識処理回路43を起動させ、音声による注釈を行う撮影者の名前の音声入力を促すメッセージをLCD21に表示する。
【0032】
LCD21にメッセージを表示した後、所定時間内に音声入力がされた場合は、一般用の認識辞書を用いて入力された音声の音声認識を行い、音声による注釈を行う撮影者を特定する。そして、認識辞書格納部45で特定した撮影者用の認識辞書を抽出し、音声認識処理回路43にロードして処理を終了する。音声認識処理回路43は、この撮影者用の認識辞書を用いて以後の音声認識処理を行う。
なお、LCD21にメッセージを表示して所定時間経過した後、音声入力が無いときや、デジタルカメラ2を初期状態で使用する場合など、認識辞書格納部45に撮影者用の認識辞書が格納されていないときには、一般用の認識辞書を用いて以後の音声認識処理を行う。
【0033】
図6に示す音声記録方法では、撮影終了後にファイル検索を行って音声認識処理を施す例を示したが、ボイスメモ機能を使用したときのみ音声認識処理回路43を起動させ、個別に音声認識処理を行うようにしてもよい。また、抽出した撮影者用の認識辞書を用いて、デジタルカメラ2の操作命令、例えばシャッタレリーズやストロボ発光の有無、ズーム操作などを表す音声の音声認識を行い、この音声認識結果に基づいて操作を実行させるようにしてもよい。
【0034】
図8に、本発明を適用したパーソナルコンピュータの概略構成を示す。パーソナルコンピュータ(PC)50は、CPU51、メモリ52、操作部53、外部I/F54、およびモニタ55から構成される。メモリ52には、図6または図7に示す音声記録方法を実行可能なプログラムがインストールされている。操作部53は、キーボードやマウス、音声入力を行うためのマイクロホンなどから構成される。外部I/F54は、デジタルカメラなどの外部機器とデータの送受信を行う。
【0035】
CPU50は、ボイスメモ機能を有するデジタルカメラで撮影された画像データと、ボイスメモ機能を使用して記録された音声データとを、外部I/F54を介してメモリ52にダウンロードし、メモリ52にインストールされたプログラムを用いて、図6または図7に示す音声認識処理を行い、この処理結果をモニタ55に表示する。
【0036】
図9に示すように、モニタ55の表示画面55aには、撮影した画像60と音声認識された注釈61とが表示される。注釈61は、音声認識の誤りを訂正したり、新たにコメントを追加することができるように、操作部53のキーボードで修正加筆することが可能となっている。注釈61を修正加筆した後、マウスのカーソル62を「OK」ボタンに合わせて選択すると、注釈61の内容が画像60を表す画像データに関連付けて記録される。
【0037】
なお、画像60と注釈61とは、同一画面上ではなく別画面で切り替え可能に表示してもよい。また、吹き出しなどを用いて画像60に重ねて表示してもよい。さらに、音声認識前の音声を再生することができるようにしてもよい。
【0038】
【発明の効果】
以上のように、本発明の音声記録方法および装置、デジタルカメラによれば、音声による注釈を行う人物用の認識辞書を用いて、注釈として入力された音声の音声認識を行い、この音声をテキストデータに変換し、変換したテキストデータを画像データと関連付けて記録するので、音声認識の精度を向上させることができる。
【0039】
また、本発明の画像再生方法および装置によれば、音声による注釈を行う人物用の認識辞書を用いて、注釈として入力された音声の音声認識を行い、この音声をテキストデータに変換して、変換したテキストデータを画像データと関連付けて記録し、画像および音声認識された注釈を、同一画面上、または別画面に表示するので、画像の注釈として入力される音声の利用価値を高めることができる。
【図面の簡単な説明】
【図1】デジタルカメラの正面概観斜視図である。
【図2】デジタルカメラの背面概観斜視図である。
【図3】デジタルカメラの電気的構成を示すブロック図である。
【図4】ファイルのディレクトリ構造を示す図である。
【図5】テキストデータ記録後のファイルのディレクトリ構造を示す図である。
【図6】音声記録の処理手順を示すフローチャートである。
【図7】音声記録の別の処理手順を示すフローチャートである。
【図8】パーソナルコンピュータの概略構成を示すブロック図である。
【図9】モニタ表示の一例を示す図である。
【符号の説明】
2 デジタルカメラ
10 撮像レンズ
15 マイクロホン
18 レリーズボタン
19 メモリカード
21 液晶表示器(LCD)
26 音声入力ボタン
30 CCD
35 CPU
43 音声認識処理回路
45 認識辞書格納部
50 パーソナルコンピュータ(PC)
51 CPU
55 モニタ
60 画像
61 注釈

Claims (13)

  1. 撮影手段により取得した画像の注釈として入力された音声を記録する音声記録方法において、
    前記画像を表す画像データの記録時に添付される付属情報を元に、音声による注釈を行った人物を特定するステップと、
    音声認識を行う際に参照される複数の認識辞書の中から、特定した人物用の認識辞書を抽出するステップと、
    抽出した認識辞書を用いて、注釈として入力された音声の音声認識を行い、この音声をテキストデータに変換するステップと、
    前記テキストデータを前記画像データと関連付けて記録するステップとを備えたことを特徴とする音声記録方法。
  2. 撮影手段により取得した画像の注釈として入力された音声を記録する音声記録方法において、
    音声による注釈を行う人物の名前を音声入力するステップと、
    音声入力された人物名の音声認識を行い、音声による注釈を行う人物を特定するステップと、
    音声認識を行う際に参照される複数の認識辞書の中から、特定した人物用の認識辞書を抽出するステップと、
    抽出した認識辞書を用いて、注釈として入力された音声の音声認識を行い、この音声をテキストデータに変換するステップと、
    前記テキストデータを前記画像を表す画像データと関連付けて記録するステップとを備えたことを特徴とする音声記録方法。
  3. 撮影手段により取得した画像の注釈として入力された音声を記録する音声記録装置において、
    前記画像を表す画像データの記録時に添付される付属情報を元に、音声による注釈を行った人物を特定する人物特定手段と、
    音声認識を行う際に参照される複数の認識辞書の中から、特定した人物用の認識辞書を抽出する辞書抽出手段と、
    抽出した認識辞書を用いて、注釈として入力された音声の音声認識を行い、この音声をテキストデータに変換する音声認識手段と、
    前記テキストデータを前記画像データと関連付けて記録する記録手段とを備えたことを特徴とする音声記録装置。
  4. 撮影手段により取得した画像の注釈として入力された音声を記録する音声記録装置において、
    音声入力された人物名の音声認識を行って、音声による注釈を行う人物を特定する人物特定手段と、
    音声認識を行う際に参照される複数の認識辞書の中から、特定した人物用の認識辞書を抽出する辞書抽出手段と、
    抽出した認識辞書を用いて、注釈として入力された音声の音声認識を行い、この音声をテキストデータに変換する音声認識手段と、
    前記テキストデータを前記画像を表す画像データと関連付けて記録する記録手段とを備えたことを特徴とする音声記録装置。
  5. 撮影手段により取得した画像の注釈として入力された音声を記録する機能を有するデジタルカメラにおいて、
    前記画像を表す画像データの記録時に添付される付属情報を元に、音声による注釈を行った人物を特定する人物特定手段と、
    音声認識を行う際に参照される複数の認識辞書の中から、特定した人物用の認識辞書を抽出する辞書抽出手段と、
    抽出した認識辞書を用いて、注釈として入力された音声の音声認識を行い、この音声をテキストデータに変換する音声認識手段と、
    前記テキストデータを前記画像データと関連付けて記録する記録手段とを備えたことを特徴とするデジタルカメラ。
  6. 撮影手段により取得した画像の注釈として入力された音声を記録する機能を有するデジタルカメラにおいて、
    音声入力された人物名の音声認識を行って、音声による注釈を行う人物を特定する人物特定手段と、
    音声認識を行う際に参照される複数の認識辞書の中から、特定した人物用の認識辞書を抽出する辞書抽出手段と、
    抽出した認識辞書を用いて、注釈として入力された音声の音声認識を行い、この音声をテキストデータに変換する音声認識手段と、
    前記テキストデータを前記画像を表す画像データと関連付けて記録する記録手段とを備えたことを特徴とするデジタルカメラ。
  7. 前記音声認識手段は、前記抽出した認識辞書を用いて、カメラの操作命令を表す音声の音声認識を行い、この音声認識結果に基づいて前記操作を実行させることを特徴とする請求項5または6に記載のデジタルカメラ。
  8. 注釈としての音声が関連付けて記録された画像を再生する画像再生方法において、
    前記画像を表す画像データの記録時に添付される付属情報を元に、音声による注釈を行った人物を特定するステップと、
    音声認識を行う際に参照される複数の認識辞書の中から、特定した人物用の認識辞書を抽出するステップと、
    抽出した認識辞書を用いて、注釈として入力された音声の音声認識を行い、この音声をテキストデータに変換するステップと、
    前記テキストデータを前記画像データと関連付けて記録するステップと、
    記録された前記テキストデータおよび前記画像データを読み出して、前記画像および前記音声認識された注釈を、同一画面上、または別画面に表示するステップとを備えたことを特徴とする画像再生方法。
  9. 注釈としての音声が関連付けて記録された画像を再生する画像再生方法において、
    音声による注釈を行う人物の名前を音声入力するステップと、
    音声入力された人物名の音声認識を行い、音声による注釈を行う人物を特定するステップと、
    音声認識を行う際に参照される複数の認識辞書の中から、特定した人物用の認識辞書を抽出するステップと、
    抽出した認識辞書を用いて、注釈として入力された音声の音声認識を行い、この音声をテキストデータに変換するステップと、
    前記テキストデータを前記画像データと関連付けて記録するステップと、
    記録された前記テキストデータおよび前記画像データを読み出して、前記画像および前記音声認識された注釈を、同一画面上、または別画面に表示するステップとを備えたことを特徴とする画像再生方法。
  10. 前記音声認識された注釈を訂正するステップを備えたことを特徴とする請求項8または9に記載の画像再生方法。
  11. 注釈としての音声が関連付けて記録された画像を再生する画像再生装置において、
    前記画像を表す画像データの記録時に添付される付属情報を元に、音声による注釈を行った人物を特定する人物特定手段と、
    音声認識を行う際に参照される複数の認識辞書の中から、特定した人物用の認識辞書を抽出する辞書抽出手段と、
    抽出した認識辞書を用いて、注釈として入力された音声の音声認識を行い、この音声をテキストデータに変換する音声認識手段と、
    前記テキストデータを前記画像データと関連付けて記録する記録手段と、
    記録された前記テキストデータおよび前記画像データを読み出して、前記画像および前記音声認識された注釈を、同一画面上、または別画面に表示する表示制御手段とを備えたことを特徴とする画像再生装置。
  12. 注釈としての音声が関連付けて記録された画像を再生する画像再生装置において、
    音声入力された人物名の音声認識を行って、音声による注釈を行う人物を特定する人物特定手段と、
    音声認識を行う際に参照される複数の認識辞書の中から、特定した人物用の認識辞書を抽出する辞書抽出手段と、
    抽出した認識辞書を用いて、注釈として入力された音声の音声認識を行い、この音声をテキストデータに変換する音声認識手段と、
    前記テキストデータを前記画像データと関連付けて記録する記録手段と、
    記録された前記テキストデータおよび前記画像データを読み出して、前記画像および前記音声認識された注釈を、同一画面上、または別画面に表示する表示制御手段とを備えたことを特徴とする画像再生装置。
  13. 前記音声認識された注釈を訂正する注釈訂正手段を備えたことを特徴とする請求項11または12に記載の画像再生装置。
JP2003091562A 2003-03-28 2003-03-28 音声記録方法および装置、デジタルカメラ、並びに画像再生方法および装置 Expired - Lifetime JP4295540B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003091562A JP4295540B2 (ja) 2003-03-28 2003-03-28 音声記録方法および装置、デジタルカメラ、並びに画像再生方法および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003091562A JP4295540B2 (ja) 2003-03-28 2003-03-28 音声記録方法および装置、デジタルカメラ、並びに画像再生方法および装置

Publications (2)

Publication Number Publication Date
JP2004301894A true JP2004301894A (ja) 2004-10-28
JP4295540B2 JP4295540B2 (ja) 2009-07-15

Family

ID=33404905

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003091562A Expired - Lifetime JP4295540B2 (ja) 2003-03-28 2003-03-28 音声記録方法および装置、デジタルカメラ、並びに画像再生方法および装置

Country Status (1)

Country Link
JP (1) JP4295540B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007025001A (ja) * 2005-07-12 2007-02-01 Sony Corp 音声記録装置、音声記録方法及び音声記録プログラム
JP2008193531A (ja) * 2007-02-06 2008-08-21 Cpu Inc オブジェクトデータ供給システム、画像生成プログラムおよび商品データ供給サービス
JP2009515260A (ja) * 2005-11-07 2009-04-09 ゼネラル・エレクトリック・カンパニイ 放射線医療のディクテーションおよびuiコマンドにおける音声下対話のシステムおよび方法
JP2013534741A (ja) * 2010-06-02 2013-09-05 ナクソス ファイナンス エスエー 画像記録再生装置、及び画像記録再生方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007025001A (ja) * 2005-07-12 2007-02-01 Sony Corp 音声記録装置、音声記録方法及び音声記録プログラム
JP2009515260A (ja) * 2005-11-07 2009-04-09 ゼネラル・エレクトリック・カンパニイ 放射線医療のディクテーションおよびuiコマンドにおける音声下対話のシステムおよび方法
JP2008193531A (ja) * 2007-02-06 2008-08-21 Cpu Inc オブジェクトデータ供給システム、画像生成プログラムおよび商品データ供給サービス
JP2013534741A (ja) * 2010-06-02 2013-09-05 ナクソス ファイナンス エスエー 画像記録再生装置、及び画像記録再生方法

Also Published As

Publication number Publication date
JP4295540B2 (ja) 2009-07-15

Similar Documents

Publication Publication Date Title
JPWO2006028172A1 (ja) 記録装置および方法、再生装置および方法、並びにプログラム
KR100770637B1 (ko) 디지털 카메라
JP2010130437A (ja) 撮像装置、及び、プログラム
JP2003242163A (ja) 画像記録装置、情報処理装置、情報処理方法及びプログラム
JPH09331502A (ja) 情報入力装置
JP2010081012A (ja) 撮像装置、撮像制御方法及びプログラム
JP5320913B2 (ja) 撮像装置およびキーワード作成プログラム
JP4295540B2 (ja) 音声記録方法および装置、デジタルカメラ、並びに画像再生方法および装置
JPH1118042A (ja) 情報記録再生装置および記録媒体
JP4595832B2 (ja) 撮像装置、プログラム、及び記憶媒体
JP2005346259A (ja) 情報処理装置及び情報処理方法
JP4654947B2 (ja) 動画処理装置及びそのプログラム
US20060051069A1 (en) Recording and reproducing device and method and program thereof
JP2010021819A (ja) 画像表示装置、画像表示方法、及び、プログラム
JP2008242714A (ja) 撮影装置、楽譜撮影方法、及び楽譜撮影プログラム
JP2003198909A (ja) 撮像装置、その制御方法、及び制御プログラム
JP5392244B2 (ja) 撮像装置、制御方法およびプログラム
JP2007266661A (ja) 撮像装置、情報処理装置、撮像表示システム
JP2007104405A (ja) 音声付き映像データ処理装置、音声付き映像データ処理方法及び音声付き映像データ処理用プログラム
JP2005129994A (ja) デジタルカメラ
JP5561044B2 (ja) 撮像装置、撮像方法及びプログラム
JP2003333470A (ja) デジタルカメラのデータ管理方法
JP2005303805A (ja) デジタルカメラ及びプログラム
JP2004208276A (ja) 撮像装置
JP5045792B2 (ja) 撮像装置、並びにプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050223

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20061219

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070409

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070418

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070612

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080924

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081105

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20081201

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090401

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090410

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120417

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4295540

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120417

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130417

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130417

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140417

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250