JP4018678B2

JP4018678B2 - データ管理方法および装置

Info

Publication number: JP4018678B2
Application number: JP2004236070A
Authority: JP
Inventors: 誠廣田
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2004-08-13
Filing date: 2004-08-13
Publication date: 2007-12-05
Anticipated expiration: 2024-08-13
Also published as: JP2006053827A; US20060036441A1

Description

本発明は、データに音声情報を付与し、その音声情報を手がかりにデータの検索を可能とするデータ管理装置および方法に関する。

デジタル情報のマルチメディア化が進展し、テキストだけでなく、静止画、動画をはじめさまざまな種類のデジタルデータが情報機器の中に蓄えられるようになった。そのため、これらのデジタルデータを効率よく検索する技術の重要性が高まってきている。例えば、デジタルカメラの普及により、撮影した写真のデジタルデータをＰＣに取り込んで保管するという利用形態が増えてきている。このため、撮り貯めた写真のなかから必要なときに必要な写真を検索するための技術に対するニーズが高まりつつある。

一方、デジタルカメラには、撮影したそれぞれの写真に対して音声アノテーションとしての音声情報を付与する機能を持つものが増えてきた。特許文献１は、こうした機能を利用する形態として、音声情報を手がかりに望みの写真を検索する方法を開示している。特許文献１では、音声アノテーションを音声認識してテキストデータに変換し、これを用いてキーワード検索を行うという方法を用いている。
特開２００３−２１９３２７号公報

しかしながら、音声認識は一般に、雑音の影響を受けるという問題を抱えている。例えばデジタルカメラの場合、撮影する環境は、家庭内、旅行先、展示会場など様々であり、その場で音声入力をした場合、入力音声はその場所の雑音の影響を受ける。また雑音だけでなく、音声入力をした人の性別や年齢の違いによる影響を受けやすい。特許文献１のような従来の音声アノテーションによる検索技術では、こうした雑音環境や音声入力をした人の性別や年齢の違いを必ずしも十分に考慮していない。そのため、雑音、性別、年齢などといった音声アノテーション付与条件の違いが原因で、音声認識性能が低下し、さらには検索の精度が低下する、という問題があった。

本発明は、上記の課題に鑑みてなされたものであり、音声認識結果に基づく検索において、データに音声情報を付与する際の音声入力条件（例えば音声を入力した際の雑音環境や、発声した人の性別、年齢）の影響を考慮し、より精度の高い検索を可能にすることを目的とする。

上記の目的を達成するための本発明によるデータ管理装置は以下の構成を備える。すなわち、
検索文字列および音声入力条件をユーザに入力させるためのインターフェースを提示するインターフェース手段と、
データと、当該データに関連付けられた音声データに対して複数種類の音声認識処理を実行して得られた複数種類の音声認識結果とを対応付けて、各音声認識結果と音声認識処理の対応を識別可能に格納する格納手段に格納された音声認識結果のうち、前記インターフェース手段で入力された音声入力条件に対応する音声認識処理によって得られた音声認識結果と、該インターフェース手段で入力された検索文字列との一致度を取得する取得手段と、
前記取得手段で取得された一致度に基づいてデータを検索結果として抽出する抽出手段とを備える。

また、上記の目的を達成するための本発明によるデータ管理方法は以下の構成を備える。すなわち、
検索文字列および音声入力条件をユーザに入力させるためのインターフェースを提示するインターフェース工程と、
データと、当該データに関連付けられた音声データに対して複数種類の音声認識処理を実行して得られた複数種類の音声認識結果とを対応付けて、各音声認識結果と音声認識処理の対応を識別可能に格納する格納手段に格納された音声認識結果のうち、前記インターフェース工程で入力された音声入力条件に対応する音声認識処理によって得られた音声認識結果と、該インターフェース工程で入力された検索文字列との一致度を取得する取得工程と、
前記取得工程で取得された一致度に基づいてデータを検索結果として抽出する抽出工程とを備える。

本発明によれば、音声認識結果に基づく検索において、データに音声情報を付与する際の音声入力条件（例えば音声を入力した際の雑音環境や、発声した人の性別、年齢）の影響が考慮され、より精度の高い検索が可能になる。

以下、添付の図面を参照して本発明の実施形態を詳細に説明する。

＜第１実施形態＞
本実施形態では、データ管理装置の例として、デジタルカメラで撮像した画像を管理する画像管理システムの例を挙げて説明する。まず、図１、図４、図５を参照して本実施形態が形成する画像管理システムのハードウエア構成の概要を説明する。本実施形態では、図１（ａ）に示すように、デジタルカメラで撮った画像をＰＣにアップロードし、音声アノテーションを手がかりにＰＣ上で画像を検索するケースで説明する。図１（ａ）において、デジタルカメラ１０１は、インターフェースケーブル（本例ではＵＳＢケーブルとする）１０３を介して、ＰＣ１０２に画像をアップロードする。

図４は、本実施形態に係るデジタルカメラ１０１のハードウエア構成例を示す構成図である。図４において、ＣＰＵ４０１は、ＲＯＭ４０３に格納された制御プログラムを実行することにより、フローチャート等を参照して後述する動作を含む、デジタルカメラ１０１における各種動作を実現する。ＲＡＭ４０２は、上記プログラムをＣＰＵ４０１が実行するのに必要な記憶領域を提供する。ＬＣＤ４０４は、ＣＣＤ４０５が取り込んだ画像をリアルタイムに表示して撮影時におけるファインダーの役割を果たしたり、撮影済みの画像を表示するための液晶パネルである。

Ａ／Ｄコンバータ４０６は、マイク４０７から入力された音声信号をデジタル信号に変換する。メモリカード４０８は、撮影した画像や音声データを保持するのに用いられる。ＵＳＢインターフェース４０９は、ＰＣ１０２への画像や音声データの転送に用いられる。バス４１０は上述した各構成を相互に接続する。なお、ＵＳＢはデータ転送用のインターフェースの一例であり、他の規格のインターフェースを用いてもかまわない。

図５は、本実施形態に係るＰＣ１０２のハードウエア構成例を示す図である。図５において、ＣＰＵ５０１は、ＲＯＭ５０３に格納された制御プログラムや、ハードディスク５０７からＲＡＭ５０２にロードされた制御プログラムに従って各種処理を実行する。ＲＡＭ５０２は、ロードされた制御プログラムを格納する他、ＣＰＵ５０１が各種処理を実行するにあたって必要となる記憶領域を提供する。ＲＯＭ５０３は、上記プログラムの動作手順を実現するプログラムなどを保持する。モニタ５０４は、ＣＰＵ５０１の制御下で各種表示を行う。キーボード５０５、マウス５０６はＰＣ１０２への各種ユーザ入力を実現するための入力装置を構成する。ハードディスク５０７には、各種制御プログラムが格納されるほか、デジタルカメラ１０１から転送される画像や音声データが格納される。バス５０８は上記の各構成を相互に接続する。ＵＳＢインターフェース５０９はデジタルカメラ１０１のＵＳＢインターフェース４０９との間でデータ通信を実現する。なお、ＵＳＢはデータ転送用のインターフェースの一例であり、他の企画のインターフェースを用いてもかまわないことはいうまでもない。

次に、図１、図２、図３を参照して本実施形態による画像管理システムの機能、動作概要を説明する。

図２は、本実施形態に係るデジタルカメラ１０１における機能構成例を示すブロック図である。図２に示す各機能は、ＣＰＵ４０１がＲＯＭ４０３に格納されている各種制御プログラムを実行することで実現される。図２において、撮像部２０１は、ＣＣＤ４０５を用いて撮影を実行する。画像保持部２０２は、撮像部２０１により得られた画像データをメモリカード４０８に格納する。音声入力部２０３は、マイク４０７およびＡ／Ｄコンバータ４０６を介した音声データの入力を制御する。音声データ付与部２０４は、画像保持部２０２に保持されている画像データに対して音声入力部２０３から得た音声データを付与する。なお音声データもメモリカード４０８に格納されるものとする。画像送信部２０５は、画像保持部２０２によってメモリカード４０８に保持された画像データをこれに付与された音声データとともに、ＵＳＢインターフェース４０９を介してＰＣ１０２に送信する。

図３は、本実施形態に係るＰＣ１０２における機能構成例を示すブロック図である。図３に示される各機能は、ＣＰＵ５０１が所定の制御プログラムを実行することにより実現される。

図３において、画像受信部３０１は、デジタルカメラ１０１から画像データおよびこれに付与された音声データを受信する。音声認識部３０２は、音響モデル３０３を用いて画像データに付与された音声データを音声認識し、文字列データに変換する。音響モデル３０３には、例えば環境に応じた複数種類の音響モデルが用意されており、音声認識部３０２はこれら複数の音響モデルを用いて音声認識を実行し、複数の認識結果（文字列データ）を得る。音声認識結果付与部３０４は、音声認識部３０２が出力する複数の文字列データを、当該音声データが付与された画像データに関連付ける。画像保持部３０５は、受信した画像データを音声認識結果である文字列データと関連付けた形で画像データベース３０６に保存する。これらの様子については図１（ｂ）により以下に詳しく説明する。なお、本実施形態では、画像データベース３０６はハードディスク５０７上に形成される。

検索語入力部３０７はモニタ５０７上に所定のユーザインターフェースを提示し、キーボード５０５によりユーザに検索語と音声入力条件を入力させる。読み文字列生成部３０８は、検索語入力部３０７で入力された検索語文字列を読み文字列データに変換する。一致度計算部３０９は、各画像に付与された音声認識結果の文字列データのうち指定された音声入力条件に対応する音声認識結果の文字列データと、読み文字列生成部３０８で生成された読み文字列データとのマッチングを行い、その一致度を計算する。検索結果出力部３１０は、一致度計算部３０９によって算出された一致度の高い順に画像データを並べ変え、表示する。

図１（ｂ）を参照して、本実施形態によるデジタルカメラ１０１とＰＣ１０２による画像データ、音声データの管理動作の概要を説明する。

デジタルカメラ１０１は、音声データ付与部２０４によって各画像データ１１０ｂに対して音声データ１１１を付与する。画像保持部２０２によってメモリカード４０８には画像ファイル１１０とこれに付与された音声データを含む音声データファイル１１１が保持される。ここで、画像ファイル１１０のヘッダ部１１０ａには音声データファイル１１１と画像データ１１０ｂを関連付けるためのリンク情報が含まれる。なお、デジタルカメラ１０１における音声データの付与については種々の提案がなされており、例えば、
［音声データ付与方法１］：画像の撮影後、例えばシャッターボタンを継続して押すことにより、シャッターボタンが押されている間を音声入力期間とし、この期間にマイク４０７より入力された音声情報を当該画像に関連付ける、
［音声データ付与方法２］：音声データを付与したい画像データを液晶表示器４０４に表示した状態で、所定の操作とともに音声入力を行うことで、当該画像データに音声情報を関連付ける、
といった手順で実施できる。

このような音声データが付与された画像ファイル１１０を画像送信部２０５によりＰＣ１０２へアップロードすると、ＰＣ１０２では、入力された画像ファイル１１０のヘッダ部１１０ａから当該画像ファイル１１０に音声データ（音声データファイル１１１）が付与されていることを認識し、音声認識部３０２の音声認識処理１４０を起動して、画像ファイル１１０に付与された音声データについて音声認識を行う。このとき、複数の音響モデル３０３を用いてそれぞれの認識結果を得、使用した音響モデルと認識結果を対応付けて文字列データ１３０として保存する。文字列データ１３０は各音響モデルを用いて得られた認識結果のテキスト１３０ａ〜１３０ｃを含む。本実施形態では、ＰＣ１０２において、画像データベース３０６に、画像ファイル１１０の画像データ１１０ｂと関連する文字列データ１３０が対応付けて登録されることになる。

以上のような画像データベース３０６を用いて、検索語入力部３０７、読み文字列生成部３０８、一致度計算部３０９、検索結果出力部３１０は画像検索を行う。この画像検索において、ユーザによって指示された音声入力条件が例えば音響モデルＡが示すものとすると、各文字列データ１３０より音響モデルＡによって得られた認識結果のテキスト（１３０ａ）が抽出され、抽出されたテキストと入力された検索文字列との間で一致度を計算する。そして、検索されたテキストからリンク情報１３０ａを用いて対応する画像データを特定し、これをユーザに提示する。

なお、デジタルカメラ１０１における音声データの画像ファイルへの付与方法は上記の形態に限られるものではなく、例えば、イメージデータと音声データをつなげて１つの画像ファイルとして扱うようにしてもよいし、リンク情報を別のファイルで管理するようにしてもよい。また、ＰＣ１０２における画像ファイルとテキストデータとの関連付けにおいても、イメージデータとテキストデータを含む１つの画像ファイルとしてもよいし、リンク情報を別ファイルによって管理するようにしてもよいであろう。

次に、図６のフローチャートに沿って、ＰＣ１０２がデジタルカメラから画像データと音声データを受信した際の動作を説明する。ここでユーザは、デジタルカメラ１０１を用いて一枚または複数の画像を撮像し、そのすべてもしくは一部の画像に音声によって何らかのコメントを入力し、その音声データが画像に付与されているものとする。例えば、図８のように、誕生日ケーキを撮影し、デジタルカメラ１０１のマイク４０７に向かって「お誕生ケーキ」のように発声すると、その音声データが撮影した誕生日ケーキの画像に付与される。こうして撮影した画像と音声データは図１（ｂ）で上述したようにメモリカード４０８に記録されていく。ユーザは、デジタルカメラ１０１をＵＳＢケーブルによってＰＣ１０２に接続し、所定の操作を行うことで、撮り貯めた画像と音声データをＰＣ１０２に転送（アップロード）することができる。

ＰＣ１０２では、まずステップＳ６０１において、デジタルカメラ１０１からの画像転送（アップロード）があるかどうかをチェックする。画像がアップロードされてきていたら、ステップＳ６０２において、転送されてくる各画像について音声データが付与されているか否かチェックする。例えば、図１（ｂ）のようなファイル構成であれば、画像ファイルのヘッダ部にリンク情報があるか否かで判断することができる。画像データに音声データが付与されていれば、ステップＳ６０３へ進み、音声認識部３０２が、音響モデル３０３を用いて音声認識し、その音声データをテキストに変換する。ここで、音響モデル３０３は、雑音環境に応じた複数の音響モデルを有する。例えば、本実施形態では「オフィスの音響モデル」、「展示会場の音響モデル」、「家庭内の音響モデル」という３つの音響モデルを有する。

上記のような音響モデルは、すでにある従来技術を用いて作成可能である。例えば、展示会場の音響モデルは、展示会場内で発声された多くの音声を収録し、その収録音声データに所定の処理を施すことで作成できる。一般に、発声された音声を音声認識する場合、発声された環境と同様の環境に対応した音響モデルを用いるほうが高い音声認識性能を得られる可能性が高い。例えば、展示会場で発声された音声を認識する場合は、展示会場の音響モデルを用いて音声認識したほうが精度が高くなる可能性が高い。

音声認識部３０２では、画像データに付与された音声データがどのような環境で発声されたものであるかを知ることはできない。よって、ステップＳ６０３においては、音声認識部３０２は音響モデル３０３に含まれるすべての音響モデルそれぞれを用いて音声認識を行う。音響モデルが上記の３つである場合、それぞれのモデルを用いて、３つの音声認識結果を生成することになる。そして、図１（ｂ）で上述したように、ステップＳ６０４において、これらの音声認識結果を、画像と関連付けて画像データベース３０６に保持しておく。アップロードの完了といった所定の終了条件が満足されたかを判定し、満足されていなければステップＳ６０１に戻る。

図９は１枚の画像に付与される音声認識結果の例である。画像ファイルIMG_001.JPGに対し、３種類の音声認識結果ファイルIMG_001_オフィス.va、IMG_001_展示会場.va、IMG_001_家庭内.va、が関連付けられて保持されている。それぞれ、オフィスの音響モデル、展示会場の音響モデル、家庭内の音響モデルを用いて音声認識をした結果の文字列データを含む。なお、音声認識は一般に複数解を出力できるので、各音声認識結果ファイルは、複数の音声認識結果文字列を含む。

続いて、図７のフローチャートに沿って、ＰＣ１０２上でユーザが画像を検索する際の処理の流れを説明する。画像を検索するアプリケーションは図３の３０７〜３１０の機能構成を実現する。検索語入力部３０７は、図１０のようなユーザインターフェースをユーザに提示する。ユーザは、検索文字列を検索文字列入力フィールド１００１に入力し、さらに、プルダウンメニュー１００２によって、音声入力した環境を選択する。その後、検索ボタン１００３をクリックすることで検索を実行する。

ユーザからの検索指示入力があると、ステップＳ７０１からステップＳ７０２へ進み、読み文字列生成部３０８がフィールド１００１に入力された検索文字列を読み文字列に変換する。読み文字列への変換は、従来の自然言語処理技術を利用することで実現可能である。例えば、ユーザが「お誕生ケーキ」と入力した場合は、「オタンジョウケーキ」という読み文字列へ変換される。続いて、ステップＳ７０３において、一致度計算部３０９は、画像データベース３０６に保持されるすべての画像に関連付けられている文字列データ（音声認識結果）と読み文字列との一致度を計算する。図９により上述したように、一つの画像に対して、複数の音響モデルに対応した複数の音声認識結果が付与されている。一致度計算部３０９は、これらのうち、プルダウンメニュー１００２で指定された音声入力条件に合致する音響モデルに対応する音声認識結果だけを一致度計算に使用する。音声入力条件に合致する音響モデルを用いて音声認識した結果は、他の音響モデルを用いた場合に比べて高い精度で認識されている可能性が高いからである。例えば、ユーザが図１０のように「展示会場」を指定している場合は、図９のIMG_001_展示会場.vaを用い、この中に記述されている文字列と、検索文字列の読み文字列「オタンジョウケーキ」のマッチングを行い、一致度を計算する。一致度の計算は、ＤＰマッチングなど従来の方法を用いればよい。ステップＳ７０４では、検索結果出力部３１０が、すべての画像データに対して上記の一致度計算を行った結果を用いて、一致度の高い順に画像を並べ換え、その順番で画像を検索結果として表示する。図１１は検索結果の表示例を示す。

以上のようにして、音声入力時の雑音環境を考慮した音声認識とこれに基づく検索ができるので、精度の高い、効率的な検索が可能になる。

＜第１実施形態の変形例＞
上記実施形態では、音響モデルとして、雑音環境に応じた音響モデルを使用し、検索時にも、雑音環境を指定するようにしていた。しかし、音声の付与条件として、雑音環境ではなく、発声者の性別を用いることも可能である。この場合、音響モデルとして、例えば、男性音響モデル、女性音響モデルを用意し、音声認識では、音声データに対してそれぞれの音響モデルを用いて認識した結果をすべて画像に付与する。検索時には、図１２に示すように、音声メモ付与者の性別を選択するプルダウンメニューで性別を選択し、その選択に合致する音響モデルで認識した音声認識結果を用いて検索の一致度計算処理を行う。

また、発声者の年齢別に音響モデルを用意するようにしてもよい。この場合、音響モデルとして、例えば、子供音響モデル、成人音響モデル、老人音響モデルを用意し、音声認識では、音声データに対してそれぞれの音響モデルを用いて認識した結果をすべて画像に付与する。検索時には、図１３のように、音声メモ付与者の年齢カテゴリを選択するプルダウンメニューで年齢カテゴリを選択し、その選択に合致する音響モデルで認識した音声認識結果を用いて検索の一致度計算処理を行う。

更に、上記実施形態では、画像検索の際に入力する音声付与条件と、音響モデルが一対一対応であったが、それ以外の対応関係でもかまわない。例えば、音声認識に用いる音響モデルが、オフィス、家庭内、展示会場、市街地の４種類を用い、検索の際に、屋内、屋外のいずれかを音声アノテーション付与条件として選択するようにする。そして、ユーザが「屋内」を選択したときは、検索のマッチング処理において、「オフィス」「家庭内」の２つの音響モデルそれぞれに対する音声認識結果を用い、「屋外」を選択したときは、「展示会場」「市街地」の２つの音響モデルそれぞれに対する音声認識結果を用いるようにしてもよい。

以上のように第１実施形態によれば、音声入力の環境に適した音響モデルを用いた音声認識結果を用いることができ、精度の高い検索を実現できる。また、ＰＣ１０２側で複数の音声入力条件に対応するので、デジタルカメラ１０１側では画像撮影と音声入力に専念でき、使い勝手がよい。

＜第２実施形態＞
第１実施形態では、ＰＣ１０２において複数種類の音声認識処理（複数種類の音響モデル）を適用して複数種類の認識結果を得、これらを画像に関連付けて記憶しておき、検索条件として指定された音声入力条件に対応した認識結果を抽出し、抽出した認識結果の範囲で検索文字列による検索を実施した。しかしながら、この場合、ユーザは検索したい画像に関連付けられた音声がどのような音声入力条件で入力されたかを覚えておく必要がある。第２実施形態では、デジタルカメラ１０１において画像データに関連付けられた音声データを登録する際に、音声入力条件を示す情報を当該音声データに含ませる。例えば、音声データの属性情報の一つとして音声入力条件を持たせる。

第２実施形態の画像管理システムにおける構成は、図１（ａ）、図４、図５に示したとおりである。また、デジタルカメラ１０１の機能構成も第１実施形態（図２）とほぼ同様であるが、音声データ付与部２０４はユーザによって設定された音声入力条件を示す属性情報を音声データに含ませる。ＰＣ１０２の機能構成も第１実施形態（図３）とほぼ同様であるが、音声認識部３０２は音声データの属性情報によって示される音声入力条件に適応した音響モデルを用いて音声認識を行う。また、画像検索時に指定した音声メモの環境（図１０の１００２）の設定は不要である。第１実施形態においては、一致度計算部３０９はプルダウンメニュー１００２で指定された音声入力条件に合致する音響モデルに対応する音声認識結果だけを一致度計算に使用したが、第２実施形態ではそのような区別はなく、全ての音声認識結果を利用する。

図１４は第２実施形態による画像データおよび音声データの管理方法を説明する図である。図１（ｂ）と比べて、メモリカード４０８に格納される音声データには音声入力条件を表す属性情報が付与されている点が異なる。また、ＰＣ１０２において格納される文字列データ１３０は、音声データの属性情報によって示される音声入力条件に対応した音響モデルを用いて取得された認識結果のみをテキスト１３０ｂとして含む。

図１５は第２実施形態のデジタルカメラ１０１における画像データへの音声データの関連付け処理を説明するフローチャートである。

デジタルカメラ１０１において、所定のユーザインターフェースを介して音声入力モードが指示されると、ステップＳ１５０１において音声入力条件を指定させる。音声入力条件は、例えば、オフィス、展示会場、家庭内といった中から設定可能とする。そして、上述した音声データ付与方法１或いは２によって音声が入力されると、ステップＳ１５０２からステップＳ１５０３へ処理が進み、マイク４０７およびＡ／Ｄコンバータ４０６を介して取得された音声データにステップＳ１５０１で設定した音声入力条件を示す属性情報を付与する。そして、ステップＳ１５０４において、音声データを対応する画像データと関連付けてメモリカード４０８に格納する。以上のようにして、音声入力条件を示す属性情報が付与された音声データが画像データに関連付けられてメモリカード４０８に格納される。

音声入力条件を変更する旨の操作があった場合はステップＳ１５０５からステップＳ１５０１へ処理を戻す。また、音声入力モードの終了が指示された場合はステップＳ１５０６から本処理を終了する。

以上のような画像データおよびこれに関連付けられた音声データがアップロードされるＰＣ１０２の動作について、第１実施形態の図６および図７のフローチャートを流用して説明する。

まず、画像データおよび音声データを受信した際の動作について図６を用いて説明する。第１実施形態と異なるのは、ステップＳ６０３、Ｓ６０４において、音声データに付与された属性情報（音声入力条件）から音声認識に用いるべき音響モデルを決定し、決定された音響モデルを用いた認識結果を画像データに関連付けて保存する点である。例えば、音声入力条件が「展示会場」であった場合は、予め用意されている「オフィスの音響モデル」、「展示会場の音響モデル」、「家庭内の音響モデル」の中から、「展示会場の音響モデル」を用いて音声認識を行い、その結果の文字列を画像データに関連付けて画像データベース３０６に登録することになる。

次に、画像データの検索時の動作について図７を用いて説明する。第１実施形態と異なるのは、音声入力条件を検索条件として設定せず、検索文字列のみが設定される点である。そして、ステップＳ７０３では、画像データベース３０６に登録された全ての文字列データとの間でマッチングが行われる。

以上のように第２実施形態によれば、音声入力の環境に適した音響モデルを用いた音声認識結果を用いることができ、精度の高い検索を実現できる。また、デジタルカメラ側で音声流力環境を設定することができるので、検索時に音声入力条件を設定する手間を省くことができ、使い勝手がよい。

なお、上記第１実施形態の変形例で示したような音声入力条件のバリエーションが第２実施形態にも適用可能であることはいうまでもない。また、デジタルカメラ１０１側で音声データに複数の音声入力条件を設定できるようにし、ＰＣ１０２側では設定された複数の音声入力条件に応じた複数の認識結果を保持するようにしてもよい。第２実施形態では、こうして保持された全ての認識結果を検索対象とすることになる。

また、上記第１、第２実施形態においては、ＣＰＵが所定のソフトウエアを実行することにより実現する構成を説明したが、これに限定されるものではなく、同様の動作をするハードウエア回路で実現してもよい。

なお、本発明は、複数の機器から構成されるシステムに適用しても、１つの機器からなる装置に適用してもよい。前述した実施形態の機能を実現するソフトウエアのプログラムコードを記録した記録媒体を、システム或いは装置に供給し、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵ）が記録媒体に格納されたプログラムコードを読み出し実行することによっても、達成されることは言うまでもない。この場合、記録媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記録した記録媒体は本発明を構成することになる。

プログラムコードを供給するための記録媒体としては、例えば、フロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、磁気テープ、不揮発性のメモリカード、ＲＯＭなどを用いることができる。

また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているＯＳなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。

更に、記録媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。

（ａ）実施形態に係るシステム構成例、および（ｂ）画像データの格納状態を説明する図である。実施形態のデジタルカメラ１０１における機能構成を示すブロック図である。実施形態のＰＣ１０２における、画像データの保存、検索に関る機能構成を示すブロック図である。実施形態に係るデジタルカメラ１０１のハードウエア構成例を示すブロック図ある。実施形態に係るＰＣ１０２のハードウエア構成例を示すブロック図である。実施形態において、ＰＣ１０２がデジタルカメラから画像データと音声データを受信した際の動作を説明するフローチャートである。実施形態において、ＰＣ１０２上でユーザが画像を検索する際の処理の流れを説明するフローチャートである。実施形態に係る、ユーザがデジタルカメラ１０１で写真を撮影し、その写真に音声でコメントを付与する例図である。実施形態に係る、各画像データに付与された音声認識結果の例を示す図である。実施形態による画像検索時のグラフィックユーザインタフェースの例を示す図である。実施形態による画像検索の結果として、画像のサムネイルが表示された例を示す図である。他の実施形態による画像検索時のグラフィックユーザインタフェースの例を示す図である。他の実施形態による画像検索時のグラフィックユーザインタフェースの例を示す図である。第２実施形態による画像データの格納状態を説明する図である。第２実施形態によるデジタルカメラ側の音声データ付与処理を説明するフローチャートである。

Claims

検索文字列および音声入力条件をユーザに入力させるためのインターフェースを提示するインターフェース手段と、
データと、当該データに関連付けられた音声データに対して複数種類の音声認識処理を実行して得られた複数種類の音声認識結果とを対応付けて、各音声認識結果と音声認識処理の対応を識別可能に格納する格納手段に格納された音声認識結果のうち、前記インターフェース手段で入力された音声入力条件に対応する音声認識処理によって得られた音声認識結果と、該インターフェース手段で入力された検索文字列との一致度を取得する取得手段と、
前記取得手段で取得された一致度に基づいてデータを検索結果として抽出する抽出手段とを備えることを特徴とするデータ管理装置。
前記複数種類の音声認識処理は、音声認識に用いる音響モデルを切り換えることによってなされることを特徴とする請求項１記載のデータ管理装置。
前記音響モデルは、雑音環境に応じた音響モデル、性別に応じた音響モデル、年齢別の音響モデルの少なくともいずれかであることを特徴とする請求項２記載のデータ管理装置。
前記音声入力条件は、雑音環境、発声者の性別、発声者の年齢の少なくともいずれかであることを特徴とする請求項１記載のデータ管理装置。
検索文字列および音声入力条件をユーザに入力させるためのインターフェースを提示するインターフェース工程と、
データと、当該データに関連付けられた音声データに対して複数種類の音声認識処理を実行して得られた複数種類の音声認識結果とを対応付けて、各音声認識結果と音声認識処理の対応を識別可能に格納する格納手段に格納された音声認識結果のうち、前記インターフェース工程で入力された音声入力条件に対応する音声認識処理によって得られた音声認識結果と、該インターフェース工程で入力された検索文字列との一致度を取得する取得工程と、
前記取得工程で取得された一致度に基づいてデータを検索結果として抽出する抽出工程とを備えることを特徴とするデータ管理方法。
前記複数種類の音声認識処理は、音声認識に用いる音響モデルを切り換えることによってなされることを特徴とする請求項５記載のデータ管理方法。
前記音響モデルは、雑音環境に応じた音響モデル、性別に応じた音響モデル、年齢別の音響モデルの少なくともいずれかであることを特徴とする請求項６記載のデータ管理方法。
前記音声入力条件は、雑音環境、発声者の性別、発声者の年齢の少なくともいずれかであることを特徴とする請求項５記載のデータ管理方法。
請求項５乃至８のいずれかに記載のデータ管理方法をコンピュータによって実行させるための制御プログラム。
請求項９に記載の制御プログラムを格納したコンピュータ読み取り可能な記憶媒体。