JP2006030874A

JP2006030874A - 画像記録装置

Info

Publication number: JP2006030874A
Application number: JP2004213145A
Authority: JP
Inventors: Kenta Kadomitsu; 健太角光
Original assignee: Fuji Photo Film Co Ltd
Current assignee: Fujifilm Holdings Corp
Priority date: 2004-07-21
Filing date: 2004-07-21
Publication date: 2006-02-02

Abstract

【課題】多言語対応の音声認識機能を搭載した場合の操作性の悪化を防止する。
【解決手段】静止画像及び動画像の撮影記録が可能とされ、メニュー画面や各種の設定画面を複数種の言語のうち予め選択されたＵＩ用言語で表示すると共に、撮影時に録音された音声に対し、複数種の言語のうち設定された言語で音声認識を行って字幕データを生成する機能を備えた撮影記録装置において、音声認識の実行にあたり、認識対象音声の設定が"AUTO"か否か判定し(120)、判定が肯定された場合はＵＩ用言語として設定されている言語を、音声認識における認識対象言語として自動的に設定し(122)た後に、音声認識を行う。音声認識によって得られた字幕データは、動画像の再生時に字幕として表示される。
【選択図】図４

Description

本発明は画像記録装置に係り、特に、画像信号を記録媒体に記録すると共に、画像信号が表す画像に関連する音声に対し、複数種の言語のうち設定された言語で音声認識を行う機能を備えた画像記録装置に関する。

デジタルスチルカメラ（ＤＳＣ）やデジタルビデオカメラ（ＤＶＣ）等の画像記録装置に音声認識機能を付加することが従来より提案されている。例えば特許文献１には、メディアに記録されている撮影画像を印刷する際に、画像と同時に記録された音声データに対して音声認識を行ってテキストデータへ変換すると共に、画像と同時に記録された手書き文字のメモ情報に対して手書き文字認識を行ってテキストデータへ変換し、音声データやメモ情報、撮影情報をテキストとして印刷出力する技術が開示されている。

また、特許文献２には、カメラ一体型ビデオテープレコーダ等の画像記録装置において、音声認識により音声信号をテキストデータへ変換して撮影情報を生成し、生成した撮影情報を撮像結果と共に記録し、撮像結果を編集する編集装置において、記録した撮影情報に基づいて編集対象のファイルを選択可能とする技術が開示されている。
特開平１１−１４６３１１号公報特開平９−１３０７３６号公報

近年、複数種の言語の音声を各々認識可能な音声認識装置が実用化されている。但し、この種の音声認識装置においても、認識精度等の問題から同時に認識可能な言語は１つに限られている。このため、ユーザの利便性向上を目的として、画像記録装置に多言語対応の音声認識機能を搭載する場合には、音声認識の実行に際して認識対象の言語を決定する必要がある。認識対象言語の決定は、例えば音声認識が可能な複数種の言語の中から認識対象言語をユーザによって選択させることによって実現できるが、画像記録装置は近年、多機能化に伴って各種設定等の操作が煩雑化の傾向にあり、音声認識における認識対象言語の選択操作までをユーザに行わせることは、画像記録装置の操作の更なる煩雑化に繋がるので望ましくない。

本発明は上記事実を考慮して成されたもので、多言語対応の音声認識機能を搭載した場合の操作性の悪化を防止できる画像記録装置を得ることが目的である。

画像記録装置では近年、ユーザの利便性を向上させるために、メニュー画面や各種の設定画面等で表示する言語を複数種の言語の中から選択可能に構成されていることが多い。この種の画像記録装置は、ユーザによって特定の言語が選択されると、選択された言語に対応するフォントデータ等を読み出してメニュー画面や各種の設定画面等を生成・表示させることで多言語表示を実現している。本願発明者は、上記のように多言語表示機能が搭載された画像記録装置において、ユーザによってメニュー画面や各種の設定画面等の表示用として選択された言語はユーザが常用している言語（例えば母語）であり、この画像記録装置に多言語対応の音声認識機能を設けた場合には、音声認識における認識対象言語としてユーザが所望している言語はメニュー画面や各種の設定画面等の表示用として選択した言語と同一の言語である可能性が非常に高いことに想到し、本発明を成すに至った。

上記に基づき請求項１記載の発明に係る画像記録装置は、画像信号及び該画像信号が表す画像に関連する音声信号を記録媒体に記録する記録手段と、前記音声信号が表す音声に対し、複数種の言語のうち設定された言語で音声認識を行う音声認識手段と、所定の情報を前記複数種の言語のうち選択された言語で表示可能な表示手段と、前記表示手段によって表示される前記所定の情報の言語を前記複数種の言語の中から選択するための選択手段と、前記音声認識手段による認識対象言語として、前記選択手段を介して選択された言語を自動的に設定する第１制御手段と、を含んで構成されている。

請求項１記載の発明に係る画像記録装置としては、例えばデジタルスチルカメラ（ＤＳＣ）やデジタルビデオカメラ（ＤＶＣ）が挙げられるが、画像信号及び音声信号が入力され（これらの信号はデジタルでもアナログでもよい）、入力された画像信号及び音声信号を記録媒体に記録する機器であればよく、例えばアナログのビデオカメラ、アナログ又はデジタルのビデオレコーダであってもよい。請求項１記載の発明では、画像信号が表す画像に関連する音声信号が表す音声（例えば画像の撮影時に同時に録音された音声）に対し、複数種の言語のうち設定された言語で音声認識を行う音声認識手段が設けられている。なお、記録手段は音声認識手段による音声認識の結果も併せて記録するように構成することができる。

また請求項１記載の発明では、所定の情報（例えばメニュー画面や各種の設定画面等）を複数種の言語のうち選択された言語で表示可能な表示手段と、該表示手段によって表示される所定の情報の言語を複数種の言語の中から選択するための選択手段が設けられており、表示手段は、選択手段を介して選択された言語（ユーザによって選択された言語）で所定の情報を表示する。そして請求項１記載の発明に係る第１制御手段は、音声認識における認識対象言語としてユーザが所望している言語が、選択手段を介してユーザによって選択された言語と同一の言語である可能性が非常に高いことに基づき、音声認識手段による認識対象言語として、選択手段を介して選択された言語を自動的に設定する。

このように、請求項１記載の発明によれば、音声認識手段による認識対象言語をユーザが選択することなく、音声認識手段による認識対象言語として適切な言語（適切である可能性が非常に高い言語）が自動的に設定されるので、多言語対応の音声認識機能を搭載した場合の画像記録装置の操作性の悪化を防止することができる。

なお、音声認識における認識対象言語としてユーザが所望している言語は、選択手段を介して選択された言語と同一の言語である可能性が非常に高いものの、例えば入力された画像信号及び音声信号が表すシーンが、ユーザが常用している言語とは異なる言語で話をしているシーンであった等のように、音声認識における適切な認識対象言語が選択手段を介して選択された言語と相違している場合も稀にではあるが生じ得る。これを考慮すると、請求項１記載の発明において、例えば請求項２に記載したように、音声認識手段による認識対象言語を設定するための設定手段と、音声認識手段による音声の認識率が所定値以下の場合に報知する報知手段を設けることが好ましい。

音声認識手段によって音声認識が行われる音声が、設定された認識対象言語とは異なる言語で話しをしている音声であった等の場合、音声認識手段による音声認識における認識率が低下する。請求項２記載の発明ではこれを利用し、音声認識手段による音声の認識率が所定値以下の場合に報知手段が報知する。これにより、現在の認識対象言語の設定が実際に音声認識が行われている音声と合致していない場合に、これをユーザに認識させることができる。また請求項２記載の発明では、音声認識手段による認識対象言語を設定するための設定手段が設けられているので、報知手段による報知に基づき現在の認識対象言語の設定が実際に音声認識が行われている音声と合致していないことを認識したユーザが、設定手段を介し、現在の認識対象言語の設定を実際に音声認識を行っている音声に合致する言語へ変更設定することが可能となる。

従って、請求項２記載の発明によれば、第１制御手段によって自動的に設定された認識対象言語が、実際に音声認識が行われている音声と合致していなかった場合にも、これが見過ごされることを防止することができる。また請求項２記載の発明においても、ユーザは、自動的に設定された認識対象言語が不適の場合にのみ認識対象言語の変更設定を行えばよいので、認識対象言語の設定のためにユーザに多大な負担が加わることを防止することができる。

また、請求項１記載の発明において、画像信号は静止画像を表す信号であってもよいが、例えば請求項３に記載したように、画像信号は動画像を表す動画像信号が好適であり、この場合、記録手段は、前記音声信号として前記動画像に付随する音声を表す音声信号を記録し、音声認識手段は前記音声信号に対して音声認識を行うように構成することができる。

また、請求項３記載の発明において、例えば請求項４に記載したように、動画像信号が表す動画像及び音声信号が表す音声を再生させると共に、音声認識手段が音声認識を行うことで得られた文字情報を字幕として同時に表示させる再生制御手段を設けることが好ましい。これにより、動画像に付随する音声の内容を、ユーザが字幕を目視することで認識することも可能となるので、ユーザの利便性を向上させることができる。

また、請求項３記載の発明において、例えば請求項５に記載したように、音声認識手段による音声認識と並行して前記動画像及び音声の記録又は再生が行われる場合に、動画像信号及び音声信号を単位時間分の信号毎に分割し、分割した個々の動画像信号及び音声信号を、個々の音声信号に対して音声認識手段が音声認識を行うのに要する所定時間だけ記憶手段に保持させた後に記憶手段から記録用又は再生用に出力させることを繰り返させると共に、分割した個々の音声信号のうち、記憶手段に保持されている状態の音声信号に対して音声認識手段による音声認識を行わせる第２制御手段を設けることが好ましい。

音声認識は処理内容が複雑で処理に時間がかかるので、音声認識と並行して動画像及び音声の記録又は再生を行う場合、記録又は再生される動画像と音声に時間的なずれが生ずる可能性がある（請求項４に記載したように、動画像及び音声の再生時に音声認識を行うことで得られた文字情報を字幕として表示させる場合には、動画像と字幕の再生表示タイミングにも時間的なずれが生ずる可能性がある）。これに対して請求項５記載の発明では、動画像信号及び音声信号を単位時間分の信号毎に分割し、分割した個々の動画像信号及び音声信号を、所定時間（個々の音声信号に対して音声認識手段が音声認識を行うのに要する時間）だけ記憶手段に保持させた後に記憶手段から記録用又は再生用に出力させることが繰り返され、分割した個々の動画像信号及び音声信号が記憶手段に保持されている間に、記憶手段に保持されている状態の音声信号に対して音声認識が行われるので、記録又は再生される動画像と音声（或いは再生表示される動画像と字幕）に時間的なずれが生ずることを防止することができる。

以上説明したように本発明は、複数種の言語のうち設定された言語で音声認識を行うと共に、所定の情報を複数種の言語のうち選択された言語で表示可能な構成において、選択された言語を、音声認識における認識対象言語として自動的に設定するようにしたので、多言語対応の音声認識機能を搭載した場合の操作性の悪化を防止できる、という優れた効果を有する。

以下、図面を参照して本発明の実施形態の一例を詳細に説明する。図１には、静止画像及び動画像の撮影記録が可能な撮影記録装置１０が示されている。撮影記録装置１０の本体１２は略箱型とされ、図１（Ａ）に示すように、本体１２の正面側中央やや上寄りにレンズ１４が取付けられている。また、本体１２のレンズ１４の上方には、ユーザが撮影範囲等を目視で確認するための光学ファインダ１６と、補助光を発するためのストロボ１８と、マイクロフォン２０が各々取付けられている。ストロボ１８は、低照度であることが検出された場合や、ユーザによって発光が指示された場合に発光される。

また、本体１２の上面には、正面から見て左側にシャッターボタン２２が設けられており、本体１２の正面から見て左側の側面には、記録メディア６８（図２参照）を装填可能なスロット２４が設けられている。図１（Ｂ）に示すように、本体１２の背面の上方側には光学ファインダ１６と電源スイッチ２６が設けられており、左下方側には、反射型又は透過型のカラーＬＣＤ２８が取付けられている。また、ＬＣＤ２８の右側には、撮影モードの切り替えや各種の設定スイッチ３０が各々取付けられている。

図２には撮影記録装置１０の電気系の構成が示されている。本体１２内部のレンズ１４の焦点位置に相当する位置には、エリアＣＣＤセンサ３４が配置されており、被写体を反射してレンズ１４に入射された光はエリアＣＣＤセンサ３４の受光面に結像される。エリアＣＣＤセンサ３４は、図示しないタイミング発生回路（図示省略）によって発生されたタイミング信号に同期したタイミングで駆動され、画像信号（受光面上にマトリクス状に配列された多数個の光電変換セルの各々における受光量を表す信号）を出力する。エリアＣＣＤセンサ３４の信号出力端には、Ａ／Ｄ変換器３６、画像信号処理回路３８が順に接続されている。エリアＣＣＤセンサ３４から出力された画像信号は、Ａ／Ｄ変換器３６によってデジタルの画像データに変換されて画像信号処理回路３８へ入力される。画像信号処理回路３８では、入力された画像データに対して色補正・γ補正等の各種処理を行う。

画像信号処理回路３８はバス４０に接続されており、このバス４０には、ＣＰＵ４２、ＤＭＡＣ（ダイレクト・メモリ・アクセス・コントローラ）４４、メディアＩ／Ｆ（インタフェース）部４６、ＹＣ処理回路４８、符号化回路５０、音声信号処理回路５２、音声認識回路５４、液晶／ビデオＩ／Ｆ部５６、表示言語設定回路５８、メモリコントローラ６０が各々接続されていると共に、電源スイッチ２６・各種の設定スイッチ３０・シャッターボタン２２の半押しや全押し等の操作に応じて接点が切り替わるシャッタースイッチ（図示省略）等を含んで構成された操作部６２が接続されている。なお、図示は省略するが、ＣＰＵ４２はＲＯＭ、ＲＡＭ、入出力ポート等の周辺回路を含んで構成されており、液晶／ビデオＩ／Ｆ部５６にはＬＣＤ２８が、メモリコントローラ６０にはＳＤＲＡＭ（シンクロナスＤＲＡＭ）６４及びフラッシュＲＯＭ６６が各々接続されている。

画像（静止画像又は動画像）の撮影時、画像信号処理回路３８から出力された画像データは液晶／ビデオＩ／Ｆ部５６に入力され、液晶／ビデオＩ／Ｆ部５６によって被写体が動画像としてＬＣＤ２８に表示される。また、ユーザによって操作部６２が操作されることで、メニュー画面や各種の設定画面の表示が指示された場合、液晶／ビデオＩ／Ｆ部５６は、予めフラッシュＲＯＭ６６に記憶されている各種画面のデータのうち、表示対象の画面のデータを読み出してＬＣＤ２８に表示させる。

本実施形態に係る撮影記録装置１０は、互いに公用語等が異なる複数の国へ輸出された場合の各国のユーザの利便性向上のために、メニュー画面や各種の設定画面等で表示する言語（ＵＩ用言語という）を複数種の言語（例えば日本語、英語、フランス語、中国語等）の中から選択可能とされている。すなわち、フラッシュＲＯＭ６６には、各画面で表示させる文字のデータが複数種のＵＩ用言語に対応して複数種記憶されており、表示言語設定回路５８は、後述する言語設定処理が実行されることでユーザによって選択されたＵＩ用言語を液晶／ビデオＩ／Ｆ部５６へ設定する。

そして、表示対象の特定の画面を表示する際、液晶／ビデオＩ／Ｆ部５６は表示対象の画面に対応する複数種の文字データのうち設定されたＵＩ用言語に対応する文字データもフラッシュＲＯＭ６６から読み出し、読み出した文字データを表示対象の画面データと合成することで、表示対象の画面を設定されたＵＩ言語で表示するための画面データを生成し、生成した画面データが表す画面をＬＣＤ２８に表示させる。このように、液晶／ビデオＩ／Ｆ部５６はＬＣＤ２８と共に本発明に係る表示手段に対応している。

一方、撮影モードが動画像撮影モードの場合、ユーザがシャッターボタン２２を押している期間に画像信号処理回路３８から順次出力される画像データは、メモリコントローラ６０を介してＳＤＲＡＭ６４に一時記憶され、ＹＣ処理回路４８によるＹ／Ｃ変換処理、符号化回路５０による符号化（圧縮）処理が順次行われた後に、メディアＩ／Ｆ部４６を介して記録メディア６８に動画像データとして順次記録される。なお、メディアＩ／Ｆ部４６は本発明に係る記録手段に対応している。上記処理におけるＳＤＲＡＭ６４と各回路間のデータ転送（ダイレクト・メモリ・アクセス）はＤＭＡＣ４４の制御下で行われる。なお、撮影モードが静止画像撮影モードの場合には、ユーザがシャッターボタン２２を全押ししたタイミングで画像信号処理回路３８から出力された画像データについてのみ、ＳＤＲＡＭ６４への一時記憶、ＹＣ処理回路４８によるＹ／Ｃ変換処理、符号化回路５０による符号化処理、記録メディア６８への記録が行われる。

また、マイクロフォン２０はＡ／Ｄ変換器７０を介して音声信号処理回路５２に接続されており、撮影モードが動画像撮影モードの場合、マイクロフォン２０から出力された音声信号は、Ａ／Ｄ変換器７０によってデジタルの音声データに変換されて音声信号処理回路５２へ入力され、音質補正等の各種処理が施される。音声信号処理回路５２から出力された音声データは、メモリコントローラ６０を介してＳＤＲＡＭ６４に一時記憶された後に、画像データ（動画像データ）と共にメディアＩ／Ｆ部４６を介して記録メディア６８に順次記録される。

また、記録メディア６８に記録されている画像データが表す画像（動画像又は静止画像）の再生（表示）が指示された場合には、記録メディア６８から画像データが読み出されて液晶／ビデオＩ／Ｆ部５６へ転送され、ＬＣＤ２８に動画像又は静止画像が表示（再生）される。なお、液晶／ビデオＩ／Ｆ部５６には増幅器を介してスピーカが接続され（何れも図示省略）、このスピーカはＬＣＤ２８に併設されており、再生対象の画像が動画像の場合は記録メディア６８から音声データも同時に読み出されて液晶／ビデオＩ／Ｆ部５６へ転送されることで、スピーカから音声が出力される。

一方、音声認識回路５４は音声データが表す音声に対して音声認識を行い、認識結果をテキストデータとして出力する音声認識処理を行う。また、音声認識回路５４も認識対象言語（認識対象音声設定）を複数種の言語（例えば日本語、英語、フランス語、中国語等）の中から選択的に設定可能とされている。すなわち、音声認識回路５４には認識言語選択回路７２を介して言語辞書７４が接続されており、言語辞書７４には、音声認識処理時にパターンマッチングのために参照されるパターンデータが、複数種の言語に対応して複数種記憶されている。認識言語選択回路７２は、言語辞書７４に記憶されているパターンデータのうち、設定された認識対象言語に対応するパターンデータを参照し、音声認識回路５４は、認識言語選択回路７２によって選択されたパターンデータを参照して音声認識を行う。このように、音声認識回路５４、認識言語選択回路７２及び言語辞書７４は本発明に係る音声認識手段に対応している。

次に本実施形態の作用を説明する。本実施形態に係る撮影記録装置１０は、出荷時に、ＵＩ用言語として出荷先の国の公用語がデフォルトとして設定される。また、本実施形態に係る撮影記録装置１０は、認識対象音声設定として、複数種の言語の中から選択的に設定する以外に、ＵＩ用言語と同一の言語を自動的に設定することを意味する"AUTO"を設定することも可能とされており、出荷時に、認識対象音声設定として"AUTO"がデフォルトとして設定される。このため、殆どのユーザはＵＩ用言語及び認識対象音声設定の変更は不要であるが、ＵＩ用言語等の変更を所望しているユーザは操作部６２の設定スイッチ３０を操作してＵＩ言語設定画面の表示を指示する。この場合、図３に示す言語設定処理がＣＰＵ４２で実行される。

言語設定処理では、ステップ１００において、ＵＩ用言語として設定可能な複数種の言語が一覧表示されたＵＩ言語設定画面を表示するよう液晶／ビデオＩ／Ｆ部５６へ指示する。これにより、液晶／ビデオＩ／Ｆ部５６によって上記のＵＩ言語設定画面（但し、一覧表示される複数種の言語のうちＵＩ用言語として現在設定されている言語は強調表示される）がＬＣＤ２８に表示される。なお、上記のＵＩ言語設定画面で表示される言語は、ＵＩ用言語として現在設定されている言語である。次のステップ１０２では、ＵＩ言語設定画面に一覧表示した言語の中から特定の言語が選択されたか否か判定し、判定が否定された場合はステップ１０２を繰り返す。

ＬＣＤ２８にＵＩ言語設定画面が表示されると、ユーザは操作部６２の設定スイッチ３０を操作することで、一覧表示されている言語の中からＵＩ用言語として設定すべき所望の言語を選択する。上記の操作が行われると、ステップ１０２の判定が肯定されてステップ１０４へ移行し、ユーザによって選択された言語をＵＩ用言語として設定する。なお、このＵＩ用言語の設定は、フラッシュＲＯＭ６６に設けられているＵＩ用言語設定用のエリアに記憶されているデータを上書きする等によって成される。これにより、以降に各種画面がＬＣＤ２８に表示される際には、フラッシュＲＯＭ６６に記憶された上記のデータが表示言語設定回路５８によって参照されることで、ＵＩ用言語として新たに設定された言語で各種画面が表示されることになる。このように、上記のステップ１００〜１０４は本発明に係る選択手段に相当する処理であり、上記処理を行うＣＰＵ４２は設定スイッチ３０と共に本発明に係る選択手段に対応している。

次のステップ１０６以降では、認識対象音声設定の内容をユーザに確認させると共に、必要に応じて認識対象音声設定の内容変更を可能とする処理を行う。すなわち、ステップ１０６では認識対象音声設定の選択肢として"AUTO"と"OTHER"（「"AUTO"以外」を意味する）が表示された画面を表示するよう液晶／ビデオＩ／Ｆ部５６へ指示する。これにより、液晶／ビデオＩ／Ｆ部５６によって上記の画面（但し、認識対象音声設定の現在の内容に対応する選択肢（通常は"AUTO"）が強調表示される）がＬＣＤ２８に表示される。ステップ１０８では上記画面に表示した選択肢の何れかが選択されたか否か判定し、判定が否定された場合はステップ１０８を繰り返す。

ＬＣＤ２８に上記画面が表示されると、ユーザは認識対象音声設定の現在の内容を確認すると共に、操作部６２の設定スイッチ３０を操作することで、表示されている選択肢のうち認識対象音声設定として設定すべき所望の内容に対応する選択肢を選択する。なお、認識対象音声設定として"AUTO"を設定しておけば、認識対象言語としてＵＩ用言語と同一の言語が自動的に設定されるので、選択肢"OTHER"はＵＩ用言語と異なる言語を認識対象言語として設定することを所望している場合にのみユーザによって選択される。

上記の操作が行われると、ステップ１０８の判定が肯定されてステップ１１０へ移行し認識対象音声設定として"AUTO"が選択されたか否か判定する。判定が肯定された場合は認識対象音声設定として"AUTO"を設定して言語設定処理を終了する。なお、認識対象音声設定の内容設定についても、フラッシュＲＯＭ６６に設けられている認識対象音声設定用のエリアに記憶されているデータを上書きする等によって成される。また、ステップ１１０の判定が否定された場合はステップ１１２へ移行し、認識対象音声設定の選択肢として、"AUTO"以外に選択可能な複数種の言語が一覧表示された画面を表示するよう液晶／ビデオＩ／Ｆ部５６へ指示する。これにより、液晶／ビデオＩ／Ｆ部５６によって上記の画面がＬＣＤ２８に表示される。ステップ１１４では上記画面に表示した選択肢の何れかが選択されたか否か判定し、判定が否定された場合はステップ１１４を繰り返す。

ＬＣＤ２８に上記画面が表示されると、ユーザは操作部６２の設定スイッチ３０を操作することで、一覧表示されている複数種の言語のうち認識対象言語として設定すべき所望の言語を選択する。上記の操作が行われると、ステップ１１４の判定が肯定されてステップ１１６へ移行し、選択された言語を認識対象音声設定の言語として設定して言語設定処理を終了する。

次に、音声データに対する音声認識を行う場合にＣＰＵ４２によって実行される音声認識処理について、図４のフローチャートを参照して説明する。なお、音声データに対する音声認識は、記録メディア６８への動画像データ及び音声データの記録時や、ＬＣＤ２８での動画像の再生時（スピーカからの音声の出力時）に行ってもよいし、動画像データ及び音声データの記録や動画像の再生等の処理が行われていない待機時に、記録メディア６８から音声データを順に読み出して実行することも可能である。

ステップ１２０では、フラッシュＲＯＭ６６に設けられている認識対象音声設定用のエリアに記憶されているデータを参照する等により、認識対象音声設定の内容が"AUTO"か否か判定する。判定が肯定された場合はステップ１２２へ移行し、フラッシュＲＯＭ６６に設けられているＵＩ用言語設定用のエリアに記憶されているデータを参照する等により、ＵＩ用言語として現在設定されている言語を認識した後に、認識した言語を認識対象言語として設定し、設定した認識対象言語を認識言語選択回路７２へ通知する。なお、ステップ１２２は本発明に係る第１制御手段に相当する処理であり、ステップ１２２の処理を行うＣＰＵ４２は上記の第１制御手段に対応している。一方、ステップ１２０の判定が否定された場合（認識対象音声設定として特定の言語が設定されている場合）はステップ１２４へ移行し、認識対象音声設定の言語を認識対象言語として設定し、設定した認識対象言語を認識言語選択回路７２へ通知する。

ステップ１２６では、ＳＤＲＡＭ６４に記憶されている音声認識対象の音声データから１文節又は１単語分の音声データを音声認識回路５４によって読み込ませ、次のステップ１２８において、読み込ませた音声データに対する先に通知した認識対象言語での音声認識を音声認識回路５４によって実行させる。

これにより、言語辞書７４に記憶されている複数種のパターンデータのうち、ＣＰＵ４２から通知された認識対象言語に対応するパターンデータが認識言語選択回路７２によって選択され、音声認識回路５４では、認識言語選択回路７２によって選択されたパターンデータを参照し、参照したパターンデータと読み込んだ音声データ（認識対象の音声データ）とのパターンマッチングを行うことで、通知された認識対象言語での音声認識を試行する。そして、認識対象の音声データとの一致度が所定値以上のパターンデータを発見した場合には音声認識成功と判断し、当該パターンデータと対応付けて言語辞書７４に記憶されているテキストデータを字幕データとしてＳＤＲＡＭ６４に記憶させる。一方、認識対象の音声データとの一致度が所定値以上のパターンデータが存在していなかった場合は音声認識失敗と判断する。

次のステップ１３０では音声認識回路５４による音声認識が成功したか否か判定する。判定が肯定された場合は、音声認識結果（音声認識回路５４によってＳＤＲＡＭ６４に記憶された字幕データ）を出力する。すなわち、記録メディア６８への動画像データ及び音声データの記録時、或いは待機時であれば、ＳＤＲＡＭ６４に記憶されている字幕データをメディアＩ／Ｆ部４６へ出力することで、対応する動画像データ及び音声データと対応付けて記録メディア６８に記録させ、ＬＣＤ２８での動画像の再生時（スピーカからの音声の出力時）であれば、字幕データを液晶／ビデオＩ／Ｆ部５６へ出力することで、字幕としてＬＣＤ２８に表示させる（この処理は請求項４に記載の再生制御手段に対応している）。

また、ステップ１３０の判定が否定された場合（音声認識が失敗であった場合）はステップ１３４へ移行し、エラー数のカウントアップを行う。またステップ１３６では、文節数又は単語数のカウントアップを行う。なお、上記のエラー数、文節数又は単語数は先のステップ１２６の処理が最初に実行されるときに各々０にクリアされる。次のステップ１３８では、文節数又は単語数が所定値（例えば１０個）未満か否か判定する。判定が肯定された場合はステップ１２６に戻り、ステップ１２６以降の処理を繰り返す。従って、文節数又は単語数が所定値に達する迄の間、ＳＤＲＡＭ６４に記憶されている認識対象の音声データに対し、１文節又は１単語分づつ順に音声認識が試行され、音声認識の結果に応じて字幕データを出力するか、又はエラー数をカウントアップする処理が繰り返されることになる。

文節数又は単語数が所定値に達すると、ステップ１３８の判定が否定されてステップ１４０へ移行し、エラー数が閾値（例えば５）以下か否か判定する。判定が肯定された場合はステップ１４４へ移行して文節数又は単語数を０にクリアし、次のステップ１４６において、ＳＤＲＡＭ６４に記憶されていた認識対象の音声データが無くなったか否かに基づいて音声認識を終了するか否か判定する。判定が否定された場合はステップ１２６に戻り、上記処理を繰り返す。これにより、ＳＤＲＡＭ６４に記憶されている認識対象の全ての音声データに対して１文節又は１単語分づつ順に音声認識が行われる。

一方、ステップ１４０の判定において、エラー数が閾値よりも多かった場合には、認識対象の音声データが、認識対象言語とは異なる言語で話している音声を表すデータである可能性が高いと判断できる。このため、ステップ１４０の判定が否定された場合はステップ１４２へ移行し（これにより、音声認識回路５４による音声認識が中断される）、現在設定されている認識対象言語が認識対象の音声データが表す音声における言語と相違している可能性が高いことをユーザへ警告するメッセージを、液晶／ビデオＩ／Ｆ部５６を介してＬＣＤ２８に表示させる。そして、認識対象音声設定の言語を変更させる処理（前述した言語設定処理におけるステップ１０６〜１１６の処理）を行った後にステップ１４４へ移行することで、音声認識回路５４による音声認識を再開させる。

これにより、現在設定されている認識対象言語が、認識対象の音声データが表す音声における言語と相違していた場合に、これが見過ごされて音声認識回路５４による音声認識が継続されることで、殆ど意味をなさない字幕データが生成されることを防止することができる。なお、ステップ１４０、１４２は請求項２に記載の報知手段に対応する処理であり、ステップ１４０、１４２を実行するＣＰＵ４２は上記の報知手段に対応している。

続いて、本発明の他の態様を説明する。音声認識は処理内容が複雑で処理に時間がかかるので、記録メディア６８への動画像データ及び音声データの記録時、或いはＬＣＤ２８での動画像の再生時（スピーカからの音声の出力時）に、これらの処理と並行して音声認識を行う場合、記録又は再生される動画像と音声及び字幕とに時間的なずれが生ずる可能性が高い。例えば音声認識回路５４が、１秒分の音声データに対する音声認識に１秒よりも長い時間（例えば２秒程度）がかかる場合には、以下のような構成を採用することで、記録又は再生される動画像と音声及び字幕とに時間的なずれが生ずることを防止することができる。

すなわち、図５に示すように、ＣＰＵ４２は、画像の撮影時に被写体を動画像としてＬＣＤ２８に表示させる場合には、画像信号処理回路３８から出力された画像データ（動画像データ）をそのまま液晶／ビデオＩ／Ｆ部５６に入力させる（図５に破線で示す動画像０〜動画像３を参照）ことで、被写体をリアルタイムにＬＣＤ２８へ表示させる。これに対し、記録メディア６８への動画像データ及び音声データの記録時や、ＬＣＤ２８での動画像の再生時（スピーカからの音声の出力時）には、処理対象の動画像データ及び音声データ（画像信号処理回路３８及び音声信号処理回路５２から順次出力される動画像データ及び音声データ、或いは記録メディア６８から読み出されてメディアＩ／Ｆ部４６から順次出力される動画像データ及び音声データ）を、単位時間分のデータ（例えば１秒分のデータ）毎に分割し、個々のデータ（単位動画像データ／単位音声データと称する）を順次ＳＤＲＡＭ６４へ記憶させると共に、ＳＤＲＡＭ６４へ記憶させてから２秒間を経過した単位動画像データ及び単位音声データから順に出力する。これにより、ＳＤＲＡＭ６４には常に２個（２秒間分）の単位動画像データ（図５に実線で示す動画像２，３に相当する動画像データ）及び単位音声データ（図５に示す音声２，３に相当する音声データ）が記憶されていることになる。

また、この態様では単一の音声認識回路５４が、１秒分の音声データに対する音声認識に２秒程度の時間がかかることを考慮し、図５に「音声認識回路Ａ／Ｂ」と表記して示すように音声認識回路５４を２個設けており、個々の音声認識回路５４は、ＳＤＲＡＭ６４に記憶されている２個の単位音声データのうち互いに異なる単位音声データを対象として音声認識を行い、音声認識によって得られた字幕データ（単位字幕データ）を順次ＳＤＲＡＭ６４に記憶させる。そしてＣＰＵ４２は、音声認識回路５４によってＳＤＲＡＭ６４に記憶された単位字幕データを単位動画像データ及び単位音声データと共に出力する。なお、音声認識回路５４による音声認識は、前述のようにパターンマッチングによって成されるので、正確には処理時間が一定していない。このため、個々の音声認識回路５４は、処理対象の単位音声データに対する音声認識における処理時間を計時し、処理時間が２秒に達した時点で処理対象の単位音声データに対する音声認識を中止し、次の単位音声データに対する音声認識を開始する。

これにより、図５に実線で示す動画像０，１、音声０，１、字幕０，１からも明らかなように、ＳＤＲＡＭ６４から読み出して出力する単位動画像データ、単位音声データ及び単位字幕データを完全に同期させることができるので、記録又は再生される動画像と音声及び字幕とに時間的なずれが生ずることを防止することができる。なお、上記態様は請求項５記載の発明に対応しており、上記態様におけるＣＰＵ４２は請求項５に記載の第２制御手段に、ＳＤＲＡＭ６４は請求項５に記載の記憶手段に各々対応している。

なお、上記では本発明に係る画像信号として動画像を表す動画像データを適用した例を説明したが、これに限定されるものではなく、静止画像を表す画像データを本発明に係る画像信号として適用することも可能である。この場合、音声認識を行う音声データとしては、例えば静止画像の撮影時に撮影者が吹き込んだ音声のデータ等を適用することができる。

また、上記では本発明に係る画像記録装置として撮影記録装置１０を例に説明したが、被写体を撮影する機能は必須ではなく、少なくとも画像信号及び音声信号が入力され、入力された画像信号及び音声信号を記録媒体に記録する機器であれば本発明を適用可能であり、本発明に係る画像記録装置は、例えばアナログ又はデジタルのビデオレコーダ等であってもよい。

本実施形態に係る撮影記録装置の外観を示す斜視図である。撮影記録装置の概略ブロック図である。言語設定処理の内容を示すフローチャートである。音声認識処理の内容を示すフローチャートである。動画像の記録／再生と並行して音声認識を行う場合の動作を示すイメージ図である。

符号の説明

１０撮影記録装置
２８カラーＬＣＤ
３０設定スイッチ
４６メディアＩ／Ｆ部
５２音声信号処理回路
５４音声認識回路
５６液晶／ビデオＩ／Ｆ部
５８表示言語設定回路
６２操作部
６４ＳＤＲＡＭ
６８記録メディア
７２認識言語選択回路
７４言語辞書

Claims

画像信号及び該画像信号が表す画像に関連する音声信号を記録媒体に記録する記録手段と、
前記音声信号が表す音声に対し、複数種の言語のうち設定された言語で音声認識を行う音声認識手段と、
所定の情報を前記複数種の言語のうち選択された言語で表示可能な表示手段と、
前記表示手段によって表示される前記所定の情報の言語を前記複数種の言語の中から選択するための選択手段と、
前記音声認識手段による認識対象言語として、前記選択手段を介して選択された言語を自動的に設定する第１制御手段と、
を含む画像記録装置。
前記音声認識手段による認識対象言語を設定するための設定手段と、前記音声認識手段による音声の認識率が所定値以下の場合に報知する報知手段と、を更に備えたことを特徴とする請求項１記載の画像記録装置。
前記画像信号は動画像を表す動画像信号であり、前記記録手段は、前記音声信号として前記動画像に付随する音声を表す音声信号を記録し、前記音声認識手段は前記音声信号に対して音声認識を行うことを特徴とする請求項１記載の画像記録装置。
前記動画像信号が表す動画像及び前記音声信号が表す音声を再生させると共に、前記音声認識手段が音声認識を行うことで得られた文字情報を字幕として同時に表示させる再生制御手段を更に備えたことを特徴とする請求項３記載の画像記録装置。
前記音声認識手段による音声認識と並行して前記動画像及び音声の記録又は再生が行われる場合に、前記動画像信号及び前記音声信号を単位時間分の信号毎に分割し、分割した個々の動画像信号及び音声信号を、個々の音声信号に対して音声認識手段が音声認識を行うのに要する所定時間だけ記憶手段に保持させた後に前記記憶手段から記録用又は再生用に出力させることを繰り返させると共に、分割した個々の音声信号のうち、前記記憶手段に保持されている状態の音声信号に対して前記音声認識手段による音声認識を行わせる第２制御手段を更に備えたことを特徴とする請求項３記載の画像記録装置。