JP2006030874A - 画像記録装置 - Google Patents

画像記録装置 Download PDF

Info

Publication number
JP2006030874A
JP2006030874A JP2004213145A JP2004213145A JP2006030874A JP 2006030874 A JP2006030874 A JP 2006030874A JP 2004213145 A JP2004213145 A JP 2004213145A JP 2004213145 A JP2004213145 A JP 2004213145A JP 2006030874 A JP2006030874 A JP 2006030874A
Authority
JP
Japan
Prior art keywords
language
recognition
voice
image
voice recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004213145A
Other languages
English (en)
Inventor
Kenta Kadomitsu
健太 角光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Holdings Corp
Original Assignee
Fuji Photo Film Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Photo Film Co Ltd filed Critical Fuji Photo Film Co Ltd
Priority to JP2004213145A priority Critical patent/JP2006030874A/ja
Publication of JP2006030874A publication Critical patent/JP2006030874A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Television Signal Processing For Recording (AREA)
  • Studio Devices (AREA)

Abstract

【課題】 多言語対応の音声認識機能を搭載した場合の操作性の悪化を防止する。
【解決手段】 静止画像及び動画像の撮影記録が可能とされ、メニュー画面や各種の設定画面を複数種の言語のうち予め選択されたUI用言語で表示すると共に、撮影時に録音された音声に対し、複数種の言語のうち設定された言語で音声認識を行って字幕データを生成する機能を備えた撮影記録装置において、音声認識の実行にあたり、認識対象音声の設定が"AUTO"か否か判定し(120)、判定が肯定された場合はUI用言語として設定されている言語を、音声認識における認識対象言語として自動的に設定し(122)た後に、音声認識を行う。音声認識によって得られた字幕データは、動画像の再生時に字幕として表示される。
【選択図】 図4

Description

本発明は画像記録装置に係り、特に、画像信号を記録媒体に記録すると共に、画像信号が表す画像に関連する音声に対し、複数種の言語のうち設定された言語で音声認識を行う機能を備えた画像記録装置に関する。
デジタルスチルカメラ(DSC)やデジタルビデオカメラ(DVC)等の画像記録装置に音声認識機能を付加することが従来より提案されている。例えば特許文献1には、メディアに記録されている撮影画像を印刷する際に、画像と同時に記録された音声データに対して音声認識を行ってテキストデータへ変換すると共に、画像と同時に記録された手書き文字のメモ情報に対して手書き文字認識を行ってテキストデータへ変換し、音声データやメモ情報、撮影情報をテキストとして印刷出力する技術が開示されている。
また、特許文献2には、カメラ一体型ビデオテープレコーダ等の画像記録装置において、音声認識により音声信号をテキストデータへ変換して撮影情報を生成し、生成した撮影情報を撮像結果と共に記録し、撮像結果を編集する編集装置において、記録した撮影情報に基づいて編集対象のファイルを選択可能とする技術が開示されている。
特開平11−146311号公報 特開平9−130736号公報
近年、複数種の言語の音声を各々認識可能な音声認識装置が実用化されている。但し、この種の音声認識装置においても、認識精度等の問題から同時に認識可能な言語は1つに限られている。このため、ユーザの利便性向上を目的として、画像記録装置に多言語対応の音声認識機能を搭載する場合には、音声認識の実行に際して認識対象の言語を決定する必要がある。認識対象言語の決定は、例えば音声認識が可能な複数種の言語の中から認識対象言語をユーザによって選択させることによって実現できるが、画像記録装置は近年、多機能化に伴って各種設定等の操作が煩雑化の傾向にあり、音声認識における認識対象言語の選択操作までをユーザに行わせることは、画像記録装置の操作の更なる煩雑化に繋がるので望ましくない。
本発明は上記事実を考慮して成されたもので、多言語対応の音声認識機能を搭載した場合の操作性の悪化を防止できる画像記録装置を得ることが目的である。
画像記録装置では近年、ユーザの利便性を向上させるために、メニュー画面や各種の設定画面等で表示する言語を複数種の言語の中から選択可能に構成されていることが多い。この種の画像記録装置は、ユーザによって特定の言語が選択されると、選択された言語に対応するフォントデータ等を読み出してメニュー画面や各種の設定画面等を生成・表示させることで多言語表示を実現している。本願発明者は、上記のように多言語表示機能が搭載された画像記録装置において、ユーザによってメニュー画面や各種の設定画面等の表示用として選択された言語はユーザが常用している言語(例えば母語)であり、この画像記録装置に多言語対応の音声認識機能を設けた場合には、音声認識における認識対象言語としてユーザが所望している言語はメニュー画面や各種の設定画面等の表示用として選択した言語と同一の言語である可能性が非常に高いことに想到し、本発明を成すに至った。
上記に基づき請求項1記載の発明に係る画像記録装置は、画像信号及び該画像信号が表す画像に関連する音声信号を記録媒体に記録する記録手段と、前記音声信号が表す音声に対し、複数種の言語のうち設定された言語で音声認識を行う音声認識手段と、所定の情報を前記複数種の言語のうち選択された言語で表示可能な表示手段と、前記表示手段によって表示される前記所定の情報の言語を前記複数種の言語の中から選択するための選択手段と、前記音声認識手段による認識対象言語として、前記選択手段を介して選択された言語を自動的に設定する第1制御手段と、を含んで構成されている。
請求項1記載の発明に係る画像記録装置としては、例えばデジタルスチルカメラ(DSC)やデジタルビデオカメラ(DVC)が挙げられるが、画像信号及び音声信号が入力され(これらの信号はデジタルでもアナログでもよい)、入力された画像信号及び音声信号を記録媒体に記録する機器であればよく、例えばアナログのビデオカメラ、アナログ又はデジタルのビデオレコーダであってもよい。請求項1記載の発明では、画像信号が表す画像に関連する音声信号が表す音声(例えば画像の撮影時に同時に録音された音声)に対し、複数種の言語のうち設定された言語で音声認識を行う音声認識手段が設けられている。なお、記録手段は音声認識手段による音声認識の結果も併せて記録するように構成することができる。
また請求項1記載の発明では、所定の情報(例えばメニュー画面や各種の設定画面等)を複数種の言語のうち選択された言語で表示可能な表示手段と、該表示手段によって表示される所定の情報の言語を複数種の言語の中から選択するための選択手段が設けられており、表示手段は、選択手段を介して選択された言語(ユーザによって選択された言語)で所定の情報を表示する。そして請求項1記載の発明に係る第1制御手段は、音声認識における認識対象言語としてユーザが所望している言語が、選択手段を介してユーザによって選択された言語と同一の言語である可能性が非常に高いことに基づき、音声認識手段による認識対象言語として、選択手段を介して選択された言語を自動的に設定する。
このように、請求項1記載の発明によれば、音声認識手段による認識対象言語をユーザが選択することなく、音声認識手段による認識対象言語として適切な言語(適切である可能性が非常に高い言語)が自動的に設定されるので、多言語対応の音声認識機能を搭載した場合の画像記録装置の操作性の悪化を防止することができる。
なお、音声認識における認識対象言語としてユーザが所望している言語は、選択手段を介して選択された言語と同一の言語である可能性が非常に高いものの、例えば入力された画像信号及び音声信号が表すシーンが、ユーザが常用している言語とは異なる言語で話をしているシーンであった等のように、音声認識における適切な認識対象言語が選択手段を介して選択された言語と相違している場合も稀にではあるが生じ得る。これを考慮すると、請求項1記載の発明において、例えば請求項2に記載したように、音声認識手段による認識対象言語を設定するための設定手段と、音声認識手段による音声の認識率が所定値以下の場合に報知する報知手段を設けることが好ましい。
音声認識手段によって音声認識が行われる音声が、設定された認識対象言語とは異なる言語で話しをしている音声であった等の場合、音声認識手段による音声認識における認識率が低下する。請求項2記載の発明ではこれを利用し、音声認識手段による音声の認識率が所定値以下の場合に報知手段が報知する。これにより、現在の認識対象言語の設定が実際に音声認識が行われている音声と合致していない場合に、これをユーザに認識させることができる。また請求項2記載の発明では、音声認識手段による認識対象言語を設定するための設定手段が設けられているので、報知手段による報知に基づき現在の認識対象言語の設定が実際に音声認識が行われている音声と合致していないことを認識したユーザが、設定手段を介し、現在の認識対象言語の設定を実際に音声認識を行っている音声に合致する言語へ変更設定することが可能となる。
従って、請求項2記載の発明によれば、第1制御手段によって自動的に設定された認識対象言語が、実際に音声認識が行われている音声と合致していなかった場合にも、これが見過ごされることを防止することができる。また請求項2記載の発明においても、ユーザは、自動的に設定された認識対象言語が不適の場合にのみ認識対象言語の変更設定を行えばよいので、認識対象言語の設定のためにユーザに多大な負担が加わることを防止することができる。
また、請求項1記載の発明において、画像信号は静止画像を表す信号であってもよいが、例えば請求項3に記載したように、画像信号は動画像を表す動画像信号が好適であり、この場合、記録手段は、前記音声信号として前記動画像に付随する音声を表す音声信号を記録し、音声認識手段は前記音声信号に対して音声認識を行うように構成することができる。
また、請求項3記載の発明において、例えば請求項4に記載したように、動画像信号が表す動画像及び音声信号が表す音声を再生させると共に、音声認識手段が音声認識を行うことで得られた文字情報を字幕として同時に表示させる再生制御手段を設けることが好ましい。これにより、動画像に付随する音声の内容を、ユーザが字幕を目視することで認識することも可能となるので、ユーザの利便性を向上させることができる。
また、請求項3記載の発明において、例えば請求項5に記載したように、音声認識手段による音声認識と並行して前記動画像及び音声の記録又は再生が行われる場合に、動画像信号及び音声信号を単位時間分の信号毎に分割し、分割した個々の動画像信号及び音声信号を、個々の音声信号に対して音声認識手段が音声認識を行うのに要する所定時間だけ記憶手段に保持させた後に記憶手段から記録用又は再生用に出力させることを繰り返させると共に、分割した個々の音声信号のうち、記憶手段に保持されている状態の音声信号に対して音声認識手段による音声認識を行わせる第2制御手段を設けることが好ましい。
音声認識は処理内容が複雑で処理に時間がかかるので、音声認識と並行して動画像及び音声の記録又は再生を行う場合、記録又は再生される動画像と音声に時間的なずれが生ずる可能性がある(請求項4に記載したように、動画像及び音声の再生時に音声認識を行うことで得られた文字情報を字幕として表示させる場合には、動画像と字幕の再生表示タイミングにも時間的なずれが生ずる可能性がある)。これに対して請求項5記載の発明では、動画像信号及び音声信号を単位時間分の信号毎に分割し、分割した個々の動画像信号及び音声信号を、所定時間(個々の音声信号に対して音声認識手段が音声認識を行うのに要する時間)だけ記憶手段に保持させた後に記憶手段から記録用又は再生用に出力させることが繰り返され、分割した個々の動画像信号及び音声信号が記憶手段に保持されている間に、記憶手段に保持されている状態の音声信号に対して音声認識が行われるので、記録又は再生される動画像と音声(或いは再生表示される動画像と字幕)に時間的なずれが生ずることを防止することができる。
以上説明したように本発明は、複数種の言語のうち設定された言語で音声認識を行うと共に、所定の情報を複数種の言語のうち選択された言語で表示可能な構成において、選択された言語を、音声認識における認識対象言語として自動的に設定するようにしたので、多言語対応の音声認識機能を搭載した場合の操作性の悪化を防止できる、という優れた効果を有する。
以下、図面を参照して本発明の実施形態の一例を詳細に説明する。図1には、静止画像及び動画像の撮影記録が可能な撮影記録装置10が示されている。撮影記録装置10の本体12は略箱型とされ、図1(A)に示すように、本体12の正面側中央やや上寄りにレンズ14が取付けられている。また、本体12のレンズ14の上方には、ユーザが撮影範囲等を目視で確認するための光学ファインダ16と、補助光を発するためのストロボ18と、マイクロフォン20が各々取付けられている。ストロボ18は、低照度であることが検出された場合や、ユーザによって発光が指示された場合に発光される。
また、本体12の上面には、正面から見て左側にシャッターボタン22が設けられており、本体12の正面から見て左側の側面には、記録メディア68(図2参照)を装填可能なスロット24が設けられている。図1(B)に示すように、本体12の背面の上方側には光学ファインダ16と電源スイッチ26が設けられており、左下方側には、反射型又は透過型のカラーLCD28が取付けられている。また、LCD28の右側には、撮影モードの切り替えや各種の設定スイッチ30が各々取付けられている。
図2には撮影記録装置10の電気系の構成が示されている。本体12内部のレンズ14の焦点位置に相当する位置には、エリアCCDセンサ34が配置されており、被写体を反射してレンズ14に入射された光はエリアCCDセンサ34の受光面に結像される。エリアCCDセンサ34は、図示しないタイミング発生回路(図示省略)によって発生されたタイミング信号に同期したタイミングで駆動され、画像信号(受光面上にマトリクス状に配列された多数個の光電変換セルの各々における受光量を表す信号)を出力する。エリアCCDセンサ34の信号出力端には、A/D変換器36、画像信号処理回路38が順に接続されている。エリアCCDセンサ34から出力された画像信号は、A/D変換器36によってデジタルの画像データに変換されて画像信号処理回路38へ入力される。画像信号処理回路38では、入力された画像データに対して色補正・γ補正等の各種処理を行う。
画像信号処理回路38はバス40に接続されており、このバス40には、CPU42、DMAC(ダイレクト・メモリ・アクセス・コントローラ)44、メディアI/F(インタフェース)部46、YC処理回路48、符号化回路50、音声信号処理回路52、音声認識回路54、液晶/ビデオI/F部56、表示言語設定回路58、メモリコントローラ60が各々接続されていると共に、電源スイッチ26・各種の設定スイッチ30・シャッターボタン22の半押しや全押し等の操作に応じて接点が切り替わるシャッタースイッチ(図示省略)等を含んで構成された操作部62が接続されている。なお、図示は省略するが、CPU42はROM、RAM、入出力ポート等の周辺回路を含んで構成されており、液晶/ビデオI/F部56にはLCD28が、メモリコントローラ60にはSDRAM(シンクロナスDRAM)64及びフラッシュROM66が各々接続されている。
画像(静止画像又は動画像)の撮影時、画像信号処理回路38から出力された画像データは液晶/ビデオI/F部56に入力され、液晶/ビデオI/F部56によって被写体が動画像としてLCD28に表示される。また、ユーザによって操作部62が操作されることで、メニュー画面や各種の設定画面の表示が指示された場合、液晶/ビデオI/F部56は、予めフラッシュROM66に記憶されている各種画面のデータのうち、表示対象の画面のデータを読み出してLCD28に表示させる。
本実施形態に係る撮影記録装置10は、互いに公用語等が異なる複数の国へ輸出された場合の各国のユーザの利便性向上のために、メニュー画面や各種の設定画面等で表示する言語(UI用言語という)を複数種の言語(例えば日本語、英語、フランス語、中国語等)の中から選択可能とされている。すなわち、フラッシュROM66には、各画面で表示させる文字のデータが複数種のUI用言語に対応して複数種記憶されており、表示言語設定回路58は、後述する言語設定処理が実行されることでユーザによって選択されたUI用言語を液晶/ビデオI/F部56へ設定する。
そして、表示対象の特定の画面を表示する際、液晶/ビデオI/F部56は表示対象の画面に対応する複数種の文字データのうち設定されたUI用言語に対応する文字データもフラッシュROM66から読み出し、読み出した文字データを表示対象の画面データと合成することで、表示対象の画面を設定されたUI言語で表示するための画面データを生成し、生成した画面データが表す画面をLCD28に表示させる。このように、液晶/ビデオI/F部56はLCD28と共に本発明に係る表示手段に対応している。
一方、撮影モードが動画像撮影モードの場合、ユーザがシャッターボタン22を押している期間に画像信号処理回路38から順次出力される画像データは、メモリコントローラ60を介してSDRAM64に一時記憶され、YC処理回路48によるY/C変換処理、符号化回路50による符号化(圧縮)処理が順次行われた後に、メディアI/F部46を介して記録メディア68に動画像データとして順次記録される。なお、メディアI/F部46は本発明に係る記録手段に対応している。上記処理におけるSDRAM64と各回路間のデータ転送(ダイレクト・メモリ・アクセス)はDMAC44の制御下で行われる。なお、撮影モードが静止画像撮影モードの場合には、ユーザがシャッターボタン22を全押ししたタイミングで画像信号処理回路38から出力された画像データについてのみ、SDRAM64への一時記憶、YC処理回路48によるY/C変換処理、符号化回路50による符号化処理、記録メディア68への記録が行われる。
また、マイクロフォン20はA/D変換器70を介して音声信号処理回路52に接続されており、撮影モードが動画像撮影モードの場合、マイクロフォン20から出力された音声信号は、A/D変換器70によってデジタルの音声データに変換されて音声信号処理回路52へ入力され、音質補正等の各種処理が施される。音声信号処理回路52から出力された音声データは、メモリコントローラ60を介してSDRAM64に一時記憶された後に、画像データ(動画像データ)と共にメディアI/F部46を介して記録メディア68に順次記録される。
また、記録メディア68に記録されている画像データが表す画像(動画像又は静止画像)の再生(表示)が指示された場合には、記録メディア68から画像データが読み出されて液晶/ビデオI/F部56へ転送され、LCD28に動画像又は静止画像が表示(再生)される。なお、液晶/ビデオI/F部56には増幅器を介してスピーカが接続され(何れも図示省略)、このスピーカはLCD28に併設されており、再生対象の画像が動画像の場合は記録メディア68から音声データも同時に読み出されて液晶/ビデオI/F部56へ転送されることで、スピーカから音声が出力される。
一方、音声認識回路54は音声データが表す音声に対して音声認識を行い、認識結果をテキストデータとして出力する音声認識処理を行う。また、音声認識回路54も認識対象言語(認識対象音声設定)を複数種の言語(例えば日本語、英語、フランス語、中国語等)の中から選択的に設定可能とされている。すなわち、音声認識回路54には認識言語選択回路72を介して言語辞書74が接続されており、言語辞書74には、音声認識処理時にパターンマッチングのために参照されるパターンデータが、複数種の言語に対応して複数種記憶されている。認識言語選択回路72は、言語辞書74に記憶されているパターンデータのうち、設定された認識対象言語に対応するパターンデータを参照し、音声認識回路54は、認識言語選択回路72によって選択されたパターンデータを参照して音声認識を行う。このように、音声認識回路54、認識言語選択回路72及び言語辞書74は本発明に係る音声認識手段に対応している。
次に本実施形態の作用を説明する。本実施形態に係る撮影記録装置10は、出荷時に、UI用言語として出荷先の国の公用語がデフォルトとして設定される。また、本実施形態に係る撮影記録装置10は、認識対象音声設定として、複数種の言語の中から選択的に設定する以外に、UI用言語と同一の言語を自動的に設定することを意味する"AUTO"を設定することも可能とされており、出荷時に、認識対象音声設定として"AUTO"がデフォルトとして設定される。このため、殆どのユーザはUI用言語及び認識対象音声設定の変更は不要であるが、UI用言語等の変更を所望しているユーザは操作部62の設定スイッチ30を操作してUI言語設定画面の表示を指示する。この場合、図3に示す言語設定処理がCPU42で実行される。
言語設定処理では、ステップ100において、UI用言語として設定可能な複数種の言語が一覧表示されたUI言語設定画面を表示するよう液晶/ビデオI/F部56へ指示する。これにより、液晶/ビデオI/F部56によって上記のUI言語設定画面(但し、一覧表示される複数種の言語のうちUI用言語として現在設定されている言語は強調表示される)がLCD28に表示される。なお、上記のUI言語設定画面で表示される言語は、UI用言語として現在設定されている言語である。次のステップ102では、UI言語設定画面に一覧表示した言語の中から特定の言語が選択されたか否か判定し、判定が否定された場合はステップ102を繰り返す。
LCD28にUI言語設定画面が表示されると、ユーザは操作部62の設定スイッチ30を操作することで、一覧表示されている言語の中からUI用言語として設定すべき所望の言語を選択する。上記の操作が行われると、ステップ102の判定が肯定されてステップ104へ移行し、ユーザによって選択された言語をUI用言語として設定する。なお、このUI用言語の設定は、フラッシュROM66に設けられているUI用言語設定用のエリアに記憶されているデータを上書きする等によって成される。これにより、以降に各種画面がLCD28に表示される際には、フラッシュROM66に記憶された上記のデータが表示言語設定回路58によって参照されることで、UI用言語として新たに設定された言語で各種画面が表示されることになる。このように、上記のステップ100〜104は本発明に係る選択手段に相当する処理であり、上記処理を行うCPU42は設定スイッチ30と共に本発明に係る選択手段に対応している。
次のステップ106以降では、認識対象音声設定の内容をユーザに確認させると共に、必要に応じて認識対象音声設定の内容変更を可能とする処理を行う。すなわち、ステップ106では認識対象音声設定の選択肢として"AUTO"と"OTHER"(「"AUTO"以外」を意味する)が表示された画面を表示するよう液晶/ビデオI/F部56へ指示する。これにより、液晶/ビデオI/F部56によって上記の画面(但し、認識対象音声設定の現在の内容に対応する選択肢(通常は"AUTO")が強調表示される)がLCD28に表示される。ステップ108では上記画面に表示した選択肢の何れかが選択されたか否か判定し、判定が否定された場合はステップ108を繰り返す。
LCD28に上記画面が表示されると、ユーザは認識対象音声設定の現在の内容を確認すると共に、操作部62の設定スイッチ30を操作することで、表示されている選択肢のうち認識対象音声設定として設定すべき所望の内容に対応する選択肢を選択する。なお、認識対象音声設定として"AUTO"を設定しておけば、認識対象言語としてUI用言語と同一の言語が自動的に設定されるので、選択肢"OTHER"はUI用言語と異なる言語を認識対象言語として設定することを所望している場合にのみユーザによって選択される。
上記の操作が行われると、ステップ108の判定が肯定されてステップ110へ移行し認識対象音声設定として"AUTO"が選択されたか否か判定する。判定が肯定された場合は認識対象音声設定として"AUTO"を設定して言語設定処理を終了する。なお、認識対象音声設定の内容設定についても、フラッシュROM66に設けられている認識対象音声設定用のエリアに記憶されているデータを上書きする等によって成される。また、ステップ110の判定が否定された場合はステップ112へ移行し、認識対象音声設定の選択肢として、"AUTO"以外に選択可能な複数種の言語が一覧表示された画面を表示するよう液晶/ビデオI/F部56へ指示する。これにより、液晶/ビデオI/F部56によって上記の画面がLCD28に表示される。ステップ114では上記画面に表示した選択肢の何れかが選択されたか否か判定し、判定が否定された場合はステップ114を繰り返す。
LCD28に上記画面が表示されると、ユーザは操作部62の設定スイッチ30を操作することで、一覧表示されている複数種の言語のうち認識対象言語として設定すべき所望の言語を選択する。上記の操作が行われると、ステップ114の判定が肯定されてステップ116へ移行し、選択された言語を認識対象音声設定の言語として設定して言語設定処理を終了する。
次に、音声データに対する音声認識を行う場合にCPU42によって実行される音声認識処理について、図4のフローチャートを参照して説明する。なお、音声データに対する音声認識は、記録メディア68への動画像データ及び音声データの記録時や、LCD28での動画像の再生時(スピーカからの音声の出力時)に行ってもよいし、動画像データ及び音声データの記録や動画像の再生等の処理が行われていない待機時に、記録メディア68から音声データを順に読み出して実行することも可能である。
ステップ120では、フラッシュROM66に設けられている認識対象音声設定用のエリアに記憶されているデータを参照する等により、認識対象音声設定の内容が"AUTO"か否か判定する。判定が肯定された場合はステップ122へ移行し、フラッシュROM66に設けられているUI用言語設定用のエリアに記憶されているデータを参照する等により、UI用言語として現在設定されている言語を認識した後に、認識した言語を認識対象言語として設定し、設定した認識対象言語を認識言語選択回路72へ通知する。なお、ステップ122は本発明に係る第1制御手段に相当する処理であり、ステップ122の処理を行うCPU42は上記の第1制御手段に対応している。一方、ステップ120の判定が否定された場合(認識対象音声設定として特定の言語が設定されている場合)はステップ124へ移行し、認識対象音声設定の言語を認識対象言語として設定し、設定した認識対象言語を認識言語選択回路72へ通知する。
ステップ126では、SDRAM64に記憶されている音声認識対象の音声データから1文節又は1単語分の音声データを音声認識回路54によって読み込ませ、次のステップ128において、読み込ませた音声データに対する先に通知した認識対象言語での音声認識を音声認識回路54によって実行させる。
これにより、言語辞書74に記憶されている複数種のパターンデータのうち、CPU42から通知された認識対象言語に対応するパターンデータが認識言語選択回路72によって選択され、音声認識回路54では、認識言語選択回路72によって選択されたパターンデータを参照し、参照したパターンデータと読み込んだ音声データ(認識対象の音声データ)とのパターンマッチングを行うことで、通知された認識対象言語での音声認識を試行する。そして、認識対象の音声データとの一致度が所定値以上のパターンデータを発見した場合には音声認識成功と判断し、当該パターンデータと対応付けて言語辞書74に記憶されているテキストデータを字幕データとしてSDRAM64に記憶させる。一方、認識対象の音声データとの一致度が所定値以上のパターンデータが存在していなかった場合は音声認識失敗と判断する。
次のステップ130では音声認識回路54による音声認識が成功したか否か判定する。判定が肯定された場合は、音声認識結果(音声認識回路54によってSDRAM64に記憶された字幕データ)を出力する。すなわち、記録メディア68への動画像データ及び音声データの記録時、或いは待機時であれば、SDRAM64に記憶されている字幕データをメディアI/F部46へ出力することで、対応する動画像データ及び音声データと対応付けて記録メディア68に記録させ、LCD28での動画像の再生時(スピーカからの音声の出力時)であれば、字幕データを液晶/ビデオI/F部56へ出力することで、字幕としてLCD28に表示させる(この処理は請求項4に記載の再生制御手段に対応している)。
また、ステップ130の判定が否定された場合(音声認識が失敗であった場合)はステップ134へ移行し、エラー数のカウントアップを行う。またステップ136では、文節数又は単語数のカウントアップを行う。なお、上記のエラー数、文節数又は単語数は先のステップ126の処理が最初に実行されるときに各々0にクリアされる。次のステップ138では、文節数又は単語数が所定値(例えば10個)未満か否か判定する。判定が肯定された場合はステップ126に戻り、ステップ126以降の処理を繰り返す。従って、文節数又は単語数が所定値に達する迄の間、SDRAM64に記憶されている認識対象の音声データに対し、1文節又は1単語分づつ順に音声認識が試行され、音声認識の結果に応じて字幕データを出力するか、又はエラー数をカウントアップする処理が繰り返されることになる。
文節数又は単語数が所定値に達すると、ステップ138の判定が否定されてステップ140へ移行し、エラー数が閾値(例えば5)以下か否か判定する。判定が肯定された場合はステップ144へ移行して文節数又は単語数を0にクリアし、次のステップ146において、SDRAM64に記憶されていた認識対象の音声データが無くなったか否かに基づいて音声認識を終了するか否か判定する。判定が否定された場合はステップ126に戻り、上記処理を繰り返す。これにより、SDRAM64に記憶されている認識対象の全ての音声データに対して1文節又は1単語分づつ順に音声認識が行われる。
一方、ステップ140の判定において、エラー数が閾値よりも多かった場合には、認識対象の音声データが、認識対象言語とは異なる言語で話している音声を表すデータである可能性が高いと判断できる。このため、ステップ140の判定が否定された場合はステップ142へ移行し(これにより、音声認識回路54による音声認識が中断される)、現在設定されている認識対象言語が認識対象の音声データが表す音声における言語と相違している可能性が高いことをユーザへ警告するメッセージを、液晶/ビデオI/F部56を介してLCD28に表示させる。そして、認識対象音声設定の言語を変更させる処理(前述した言語設定処理におけるステップ106〜116の処理)を行った後にステップ144へ移行することで、音声認識回路54による音声認識を再開させる。
これにより、現在設定されている認識対象言語が、認識対象の音声データが表す音声における言語と相違していた場合に、これが見過ごされて音声認識回路54による音声認識が継続されることで、殆ど意味をなさない字幕データが生成されることを防止することができる。なお、ステップ140、142は請求項2に記載の報知手段に対応する処理であり、ステップ140、142を実行するCPU42は上記の報知手段に対応している。
続いて、本発明の他の態様を説明する。音声認識は処理内容が複雑で処理に時間がかかるので、記録メディア68への動画像データ及び音声データの記録時、或いはLCD28での動画像の再生時(スピーカからの音声の出力時)に、これらの処理と並行して音声認識を行う場合、記録又は再生される動画像と音声及び字幕とに時間的なずれが生ずる可能性が高い。例えば音声認識回路54が、1秒分の音声データに対する音声認識に1秒よりも長い時間(例えば2秒程度)がかかる場合には、以下のような構成を採用することで、記録又は再生される動画像と音声及び字幕とに時間的なずれが生ずることを防止することができる。
すなわち、図5に示すように、CPU42は、画像の撮影時に被写体を動画像としてLCD28に表示させる場合には、画像信号処理回路38から出力された画像データ(動画像データ)をそのまま液晶/ビデオI/F部56に入力させる(図5に破線で示す動画像0〜動画像3を参照)ことで、被写体をリアルタイムにLCD28へ表示させる。これに対し、記録メディア68への動画像データ及び音声データの記録時や、LCD28での動画像の再生時(スピーカからの音声の出力時)には、処理対象の動画像データ及び音声データ(画像信号処理回路38及び音声信号処理回路52から順次出力される動画像データ及び音声データ、或いは記録メディア68から読み出されてメディアI/F部46から順次出力される動画像データ及び音声データ)を、単位時間分のデータ(例えば1秒分のデータ)毎に分割し、個々のデータ(単位動画像データ/単位音声データと称する)を順次SDRAM64へ記憶させると共に、SDRAM64へ記憶させてから2秒間を経過した単位動画像データ及び単位音声データから順に出力する。これにより、SDRAM64には常に2個(2秒間分)の単位動画像データ(図5に実線で示す動画像2,3に相当する動画像データ)及び単位音声データ(図5に示す音声2,3に相当する音声データ)が記憶されていることになる。
また、この態様では単一の音声認識回路54が、1秒分の音声データに対する音声認識に2秒程度の時間がかかることを考慮し、図5に「音声認識回路A/B」と表記して示すように音声認識回路54を2個設けており、個々の音声認識回路54は、SDRAM64に記憶されている2個の単位音声データのうち互いに異なる単位音声データを対象として音声認識を行い、音声認識によって得られた字幕データ(単位字幕データ)を順次SDRAM64に記憶させる。そしてCPU42は、音声認識回路54によってSDRAM64に記憶された単位字幕データを単位動画像データ及び単位音声データと共に出力する。なお、音声認識回路54による音声認識は、前述のようにパターンマッチングによって成されるので、正確には処理時間が一定していない。このため、個々の音声認識回路54は、処理対象の単位音声データに対する音声認識における処理時間を計時し、処理時間が2秒に達した時点で処理対象の単位音声データに対する音声認識を中止し、次の単位音声データに対する音声認識を開始する。
これにより、図5に実線で示す動画像0,1、音声0,1、字幕0,1からも明らかなように、SDRAM64から読み出して出力する単位動画像データ、単位音声データ及び単位字幕データを完全に同期させることができるので、記録又は再生される動画像と音声及び字幕とに時間的なずれが生ずることを防止することができる。なお、上記態様は請求項5記載の発明に対応しており、上記態様におけるCPU42は請求項5に記載の第2制御手段に、SDRAM64は請求項5に記載の記憶手段に各々対応している。
なお、上記では本発明に係る画像信号として動画像を表す動画像データを適用した例を説明したが、これに限定されるものではなく、静止画像を表す画像データを本発明に係る画像信号として適用することも可能である。この場合、音声認識を行う音声データとしては、例えば静止画像の撮影時に撮影者が吹き込んだ音声のデータ等を適用することができる。
また、上記では本発明に係る画像記録装置として撮影記録装置10を例に説明したが、被写体を撮影する機能は必須ではなく、少なくとも画像信号及び音声信号が入力され、入力された画像信号及び音声信号を記録媒体に記録する機器であれば本発明を適用可能であり、本発明に係る画像記録装置は、例えばアナログ又はデジタルのビデオレコーダ等であってもよい。
本実施形態に係る撮影記録装置の外観を示す斜視図である。 撮影記録装置の概略ブロック図である。 言語設定処理の内容を示すフローチャートである。 音声認識処理の内容を示すフローチャートである。 動画像の記録/再生と並行して音声認識を行う場合の動作を示すイメージ図である。
符号の説明
10 撮影記録装置
28 カラーLCD
30 設定スイッチ
46 メディアI/F部
52 音声信号処理回路
54 音声認識回路
56 液晶/ビデオI/F部
58 表示言語設定回路
62 操作部
64 SDRAM
68 記録メディア
72 認識言語選択回路
74 言語辞書

Claims (5)

  1. 画像信号及び該画像信号が表す画像に関連する音声信号を記録媒体に記録する記録手段と、
    前記音声信号が表す音声に対し、複数種の言語のうち設定された言語で音声認識を行う音声認識手段と、
    所定の情報を前記複数種の言語のうち選択された言語で表示可能な表示手段と、
    前記表示手段によって表示される前記所定の情報の言語を前記複数種の言語の中から選択するための選択手段と、
    前記音声認識手段による認識対象言語として、前記選択手段を介して選択された言語を自動的に設定する第1制御手段と、
    を含む画像記録装置。
  2. 前記音声認識手段による認識対象言語を設定するための設定手段と、前記音声認識手段による音声の認識率が所定値以下の場合に報知する報知手段と、を更に備えたことを特徴とする請求項1記載の画像記録装置。
  3. 前記画像信号は動画像を表す動画像信号であり、前記記録手段は、前記音声信号として前記動画像に付随する音声を表す音声信号を記録し、前記音声認識手段は前記音声信号に対して音声認識を行うことを特徴とする請求項1記載の画像記録装置。
  4. 前記動画像信号が表す動画像及び前記音声信号が表す音声を再生させると共に、前記音声認識手段が音声認識を行うことで得られた文字情報を字幕として同時に表示させる再生制御手段を更に備えたことを特徴とする請求項3記載の画像記録装置。
  5. 前記音声認識手段による音声認識と並行して前記動画像及び音声の記録又は再生が行われる場合に、前記動画像信号及び前記音声信号を単位時間分の信号毎に分割し、分割した個々の動画像信号及び音声信号を、個々の音声信号に対して音声認識手段が音声認識を行うのに要する所定時間だけ記憶手段に保持させた後に前記記憶手段から記録用又は再生用に出力させることを繰り返させると共に、分割した個々の音声信号のうち、前記記憶手段に保持されている状態の音声信号に対して前記音声認識手段による音声認識を行わせる第2制御手段を更に備えたことを特徴とする請求項3記載の画像記録装置。
JP2004213145A 2004-07-21 2004-07-21 画像記録装置 Pending JP2006030874A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004213145A JP2006030874A (ja) 2004-07-21 2004-07-21 画像記録装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004213145A JP2006030874A (ja) 2004-07-21 2004-07-21 画像記録装置

Publications (1)

Publication Number Publication Date
JP2006030874A true JP2006030874A (ja) 2006-02-02

Family

ID=35897255

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004213145A Pending JP2006030874A (ja) 2004-07-21 2004-07-21 画像記録装置

Country Status (1)

Country Link
JP (1) JP2006030874A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010004320A (ja) * 2008-06-20 2010-01-07 Denso Corp 通信装置
EP2577654A1 (en) * 2010-06-02 2013-04-10 Naxos Finance SA Apparatus for image data recording and reproducing, and method thereof
US8441553B2 (en) * 2008-11-17 2013-05-14 Pentax Ricoh Imaging Company, Ltd. Imager for composing characters on an image
WO2020195897A1 (ja) * 2019-03-28 2020-10-01 国立研究開発法人情報通信研究機構 言語識別装置及びそのためのコンピュータプログラム、並びに音声処理装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000270247A (ja) * 1999-03-12 2000-09-29 Casio Comput Co Ltd 電子カメラ装置及び撮影情報記録方法
JP2004186941A (ja) * 2002-12-03 2004-07-02 Nikon Corp 電子カメラ、電子カメラの操作支援情報を記録した記録媒体

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000270247A (ja) * 1999-03-12 2000-09-29 Casio Comput Co Ltd 電子カメラ装置及び撮影情報記録方法
JP2004186941A (ja) * 2002-12-03 2004-07-02 Nikon Corp 電子カメラ、電子カメラの操作支援情報を記録した記録媒体

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010004320A (ja) * 2008-06-20 2010-01-07 Denso Corp 通信装置
US8441553B2 (en) * 2008-11-17 2013-05-14 Pentax Ricoh Imaging Company, Ltd. Imager for composing characters on an image
EP2577654A1 (en) * 2010-06-02 2013-04-10 Naxos Finance SA Apparatus for image data recording and reproducing, and method thereof
JP2013534741A (ja) * 2010-06-02 2013-09-05 ナクソス ファイナンス エスエー 画像記録再生装置、及び画像記録再生方法
WO2020195897A1 (ja) * 2019-03-28 2020-10-01 国立研究開発法人情報通信研究機構 言語識別装置及びそのためのコンピュータプログラム、並びに音声処理装置
US12057102B2 (en) 2019-03-28 2024-08-06 National Institute Of Information And Communications Technology Language identifying device and computer program for same, and speech processing device

Similar Documents

Publication Publication Date Title
KR100770637B1 (ko) 디지털 카메라
JP3976316B2 (ja) 画像再生装置
JP2007159095A (ja) 撮像装置
TW200305805A (en) Image recording device and method
JP2010081012A (ja) 撮像装置、撮像制御方法及びプログラム
JP2005117369A (ja) 動画記録装置および動画再生装置並びにデジタルカメラ
JP2006030874A (ja) 画像記録装置
US6804652B1 (en) Method and apparatus for adding captions to photographs
JP2007243750A (ja) 動画処理装置及びそのプログラム
KR19990049718A (ko) 음성 녹음/재생이 가능한 디지탈카메라
JP2006310907A (ja) 撮像装置及びその制御方法
JP4915978B2 (ja) 動画再生装置及びそのプログラム
JP4553134B2 (ja) 画像生成装置及びそのプログラム
JP2007266661A (ja) 撮像装置、情報処理装置、撮像表示システム
JP2003333470A (ja) デジタルカメラのデータ管理方法
JP2002344802A (ja) カメラ及びそのモード切換方法
JP2005328225A (ja) デジタルカメラ
US20050254813A1 (en) Apparatus for including user-provided message with still pictures
JP2009095047A (ja) 録画再生装置
JP2000293975A (ja) 複写方法及び装置並びにプログラム記憶媒体
JP2005117077A (ja) 携帯電子機器およびデータ再生方法
JP2005252797A (ja) デジタルカメラ
JP2004208013A (ja) 音楽再生機能付きカメラ
JP2005117370A (ja) デジタルカメラ
KR100627070B1 (ko) 화상 음성 기록 장치 및 재생 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070201

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20070201

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100330

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100803