JP4018678B2 - データ管理方法および装置 - Google Patents

データ管理方法および装置 Download PDF

Info

Publication number
JP4018678B2
JP4018678B2 JP2004236070A JP2004236070A JP4018678B2 JP 4018678 B2 JP4018678 B2 JP 4018678B2 JP 2004236070 A JP2004236070 A JP 2004236070A JP 2004236070 A JP2004236070 A JP 2004236070A JP 4018678 B2 JP4018678 B2 JP 4018678B2
Authority
JP
Japan
Prior art keywords
data
speech recognition
voice
acoustic model
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004236070A
Other languages
English (en)
Other versions
JP2006053827A (ja
Inventor
誠 廣田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2004236070A priority Critical patent/JP4018678B2/ja
Priority to US11/201,013 priority patent/US20060036441A1/en
Publication of JP2006053827A publication Critical patent/JP2006053827A/ja
Application granted granted Critical
Publication of JP4018678B2 publication Critical patent/JP4018678B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Studio Devices (AREA)

Description

本発明は、データに音声情報を付与し、その音声情報を手がかりにデータの検索を可能とするデータ管理装置および方法に関する。
デジタル情報のマルチメディア化が進展し、テキストだけでなく、静止画、動画をはじめさまざまな種類のデジタルデータが情報機器の中に蓄えられるようになった。そのため、これらのデジタルデータを効率よく検索する技術の重要性が高まってきている。例えば、デジタルカメラの普及により、撮影した写真のデジタルデータをPCに取り込んで保管するという利用形態が増えてきている。このため、撮り貯めた写真のなかから必要なときに必要な写真を検索するための技術に対するニーズが高まりつつある。
一方、デジタルカメラには、撮影したそれぞれの写真に対して音声アノテーションとしての音声情報を付与する機能を持つものが増えてきた。特許文献1は、こうした機能を利用する形態として、音声情報を手がかりに望みの写真を検索する方法を開示している。特許文献1では、音声アノテーションを音声認識してテキストデータに変換し、これを用いてキーワード検索を行うという方法を用いている。
特開2003−219327号公報
しかしながら、音声認識は一般に、雑音の影響を受けるという問題を抱えている。例えばデジタルカメラの場合、撮影する環境は、家庭内、旅行先、展示会場など様々であり、その場で音声入力をした場合、入力音声はその場所の雑音の影響を受ける。また雑音だけでなく、音声入力をした人の性別や年齢の違いによる影響を受けやすい。特許文献1のような従来の音声アノテーションによる検索技術では、こうした雑音環境や音声入力をした人の性別や年齢の違いを必ずしも十分に考慮していない。そのため、雑音、性別、年齢などといった音声アノテーション付与条件の違いが原因で、音声認識性能が低下し、さらには検索の精度が低下する、という問題があった。
本発明は、上記の課題に鑑みてなされたものであり、音声認識結果に基づく検索において、データに音声情報を付与する際の音声入力条件(例えば音声を入力した際の雑音環境や、発声した人の性別、年齢)の影響を考慮し、より精度の高い検索を可能にすることを目的とする。
上記の目的を達成するための本発明によるデータ管理装置は以下の構成を備える。すなわち、
検索文字列および音声入力条件をユーザに入力させるためのインターフェースを提示するインターフェース手段と、
データと、当該データに関連付けられた音声データに対して複数種類の音声認識処理を実行して得られた複数種類の音声認識結果とを対応付けて、各音声認識結果と音声認識処理の対応を識別可能に格納する格納手段に格納された音声認識結果のうち、前記インターフェース手段で入力された音声入力条件に対応する音声認識処理によって得られた音声認識結果と、該インターフェース手段で入力された検索文字列との一致度を取得する取得手段と、
前記取得手段で取得された一致度に基づいてデータを検索結果として抽出する抽出手段とを備える。
また、上記の目的を達成するための本発明によるデータ管理方法は以下の構成を備える。すなわち、
検索文字列および音声入力条件をユーザに入力させるためのインターフェースを提示するインターフェース工程と、
データと、当該データに関連付けられた音声データに対して複数種類の音声認識処理を実行して得られた複数種類の音声認識結果とを対応付けて、各音声認識結果と音声認識処理の対応を識別可能に格納する格納手段に格納された音声認識結果のうち、前記インターフェース工程で入力された音声入力条件に対応する音声認識処理によって得られた音声認識結果と、該インターフェース工程で入力された検索文字列との一致度を取得する取得工程と、
前記取得工程で取得された一致度に基づいてデータを検索結果として抽出する抽出工程とを備える。
本発明によれば、音声認識結果に基づく検索において、データに音声情報を付与する際の音声入力条件(例えば音声を入力した際の雑音環境や、発声した人の性別、年齢)の影響が考慮され、より精度の高い検索が可能になる。
以下、添付の図面を参照して本発明の実施形態を詳細に説明する。
<第1実施形態>
本実施形態では、データ管理装置の例として、デジタルカメラで撮像した画像を管理する画像管理システムの例を挙げて説明する。まず、図1、図4、図5を参照して本実施形態が形成する画像管理システムのハードウエア構成の概要を説明する。本実施形態では、図1(a)に示すように、デジタルカメラで撮った画像をPCにアップロードし、音声アノテーションを手がかりにPC上で画像を検索するケースで説明する。図1(a)において、デジタルカメラ101は、インターフェースケーブル(本例ではUSBケーブルとする)103を介して、PC102に画像をアップロードする。
図4は、本実施形態に係るデジタルカメラ101のハードウエア構成例を示す構成図である。図4において、CPU401は、ROM403に格納された制御プログラムを実行することにより、フローチャート等を参照して後述する動作を含む、デジタルカメラ101における各種動作を実現する。RAM402は、上記プログラムをCPU401が実行するのに必要な記憶領域を提供する。LCD404は、CCD405が取り込んだ画像をリアルタイムに表示して撮影時におけるファインダーの役割を果たしたり、撮影済みの画像を表示するための液晶パネルである。
A/Dコンバータ406は、マイク407から入力された音声信号をデジタル信号に変換する。メモリカード408は、撮影した画像や音声データを保持するのに用いられる。USBインターフェース409は、PC102への画像や音声データの転送に用いられる。バス410は上述した各構成を相互に接続する。なお、USBはデータ転送用のインターフェースの一例であり、他の規格のインターフェースを用いてもかまわない。
図5は、本実施形態に係るPC102のハードウエア構成例を示す図である。図5において、CPU501は、ROM503に格納された制御プログラムや、ハードディスク507からRAM502にロードされた制御プログラムに従って各種処理を実行する。RAM502は、ロードされた制御プログラムを格納する他、CPU501が各種処理を実行するにあたって必要となる記憶領域を提供する。ROM503は、上記プログラムの動作手順を実現するプログラムなどを保持する。モニタ504は、CPU501の制御下で各種表示を行う。キーボード505、マウス506はPC102への各種ユーザ入力を実現するための入力装置を構成する。ハードディスク507には、各種制御プログラムが格納されるほか、デジタルカメラ101から転送される画像や音声データが格納される。バス508は上記の各構成を相互に接続する。USBインターフェース509はデジタルカメラ101のUSBインターフェース409との間でデータ通信を実現する。なお、USBはデータ転送用のインターフェースの一例であり、他の企画のインターフェースを用いてもかまわないことはいうまでもない。
次に、図1、図2、図3を参照して本実施形態による画像管理システムの機能、動作概要を説明する。
図2は、本実施形態に係るデジタルカメラ101における機能構成例を示すブロック図である。図2に示す各機能は、CPU401がROM403に格納されている各種制御プログラムを実行することで実現される。図2において、撮像部201は、CCD405を用いて撮影を実行する。画像保持部202は、撮像部201により得られた画像データをメモリカード408に格納する。音声入力部203は、マイク407およびA/Dコンバータ406を介した音声データの入力を制御する。音声データ付与部204は、画像保持部202に保持されている画像データに対して音声入力部203から得た音声データを付与する。なお音声データもメモリカード408に格納されるものとする。画像送信部205は、画像保持部202によってメモリカード408に保持された画像データをこれに付与された音声データとともに、USBインターフェース409を介してPC102に送信する。
図3は、本実施形態に係るPC102における機能構成例を示すブロック図である。図3に示される各機能は、CPU501が所定の制御プログラムを実行することにより実現される。
図3において、画像受信部301は、デジタルカメラ101から画像データおよびこれに付与された音声データを受信する。音声認識部302は、音響モデル303を用いて画像データに付与された音声データを音声認識し、文字列データに変換する。音響モデル303には、例えば環境に応じた複数種類の音響モデルが用意されており、音声認識部302はこれら複数の音響モデルを用いて音声認識を実行し、複数の認識結果(文字列データ)を得る。音声認識結果付与部304は、音声認識部302が出力する複数の文字列データを、当該音声データが付与された画像データに関連付ける。画像保持部305は、受信した画像データを音声認識結果である文字列データと関連付けた形で画像データベース306に保存する。これらの様子については図1(b)により以下に詳しく説明する。なお、本実施形態では、画像データベース306はハードディスク507上に形成される。
検索語入力部307はモニタ507上に所定のユーザインターフェースを提示し、キーボード505によりユーザに検索語と音声入力条件を入力させる。読み文字列生成部308は、検索語入力部307で入力された検索語文字列を読み文字列データに変換する。一致度計算部309は、各画像に付与された音声認識結果の文字列データのうち指定された音声入力条件に対応する音声認識結果の文字列データと、読み文字列生成部308で生成された読み文字列データとのマッチングを行い、その一致度を計算する。検索結果出力部310は、一致度計算部309によって算出された一致度の高い順に画像データを並べ変え、表示する。
図1(b)を参照して、本実施形態によるデジタルカメラ101とPC102による画像データ、音声データの管理動作の概要を説明する。
デジタルカメラ101は、音声データ付与部204によって各画像データ110bに対して音声データ111を付与する。画像保持部202によってメモリカード408には画像ファイル110とこれに付与された音声データを含む音声データファイル111が保持される。ここで、画像ファイル110のヘッダ部110aには音声データファイル111と画像データ110bを関連付けるためのリンク情報が含まれる。なお、デジタルカメラ101における音声データの付与については種々の提案がなされており、例えば、
[音声データ付与方法1]:画像の撮影後、例えばシャッターボタンを継続して押すことにより、シャッターボタンが押されている間を音声入力期間とし、この期間にマイク407より入力された音声情報を当該画像に関連付ける、
[音声データ付与方法2]:音声データを付与したい画像データを液晶表示器404に表示した状態で、所定の操作とともに音声入力を行うことで、当該画像データに音声情報を関連付ける、
といった手順で実施できる。
このような音声データが付与された画像ファイル110を画像送信部205によりPC102へアップロードすると、PC102では、入力された画像ファイル110のヘッダ部110aから当該画像ファイル110に音声データ(音声データファイル111)が付与されていることを認識し、音声認識部302の音声認識処理140を起動して、画像ファイル110に付与された音声データについて音声認識を行う。このとき、複数の音響モデル303を用いてそれぞれの認識結果を得、使用した音響モデルと認識結果を対応付けて文字列データ130として保存する。文字列データ130は各音響モデルを用いて得られた認識結果のテキスト130a〜130cを含む。本実施形態では、PC102において、画像データベース306に、画像ファイル110の画像データ110bと関連する文字列データ130が対応付けて登録されることになる。
以上のような画像データベース306を用いて、検索語入力部307、読み文字列生成部308、一致度計算部309、検索結果出力部310は画像検索を行う。この画像検索において、ユーザによって指示された音声入力条件が例えば音響モデルAが示すものとすると、各文字列データ130より音響モデルAによって得られた認識結果のテキスト(130a)が抽出され、抽出されたテキストと入力された検索文字列との間で一致度を計算する。そして、検索されたテキストからリンク情報130aを用いて対応する画像データを特定し、これをユーザに提示する。
なお、デジタルカメラ101における音声データの画像ファイルへの付与方法は上記の形態に限られるものではなく、例えば、イメージデータと音声データをつなげて1つの画像ファイルとして扱うようにしてもよいし、リンク情報を別のファイルで管理するようにしてもよい。また、PC102における画像ファイルとテキストデータとの関連付けにおいても、イメージデータとテキストデータを含む1つの画像ファイルとしてもよいし、リンク情報を別ファイルによって管理するようにしてもよいであろう。
次に、図6のフローチャートに沿って、PC102がデジタルカメラから画像データと音声データを受信した際の動作を説明する。ここでユーザは、デジタルカメラ101を用いて一枚または複数の画像を撮像し、そのすべてもしくは一部の画像に音声によって何らかのコメントを入力し、その音声データが画像に付与されているものとする。例えば、図8のように、誕生日ケーキを撮影し、デジタルカメラ101のマイク407に向かって「お誕生ケーキ」のように発声すると、その音声データが撮影した誕生日ケーキの画像に付与される。こうして撮影した画像と音声データは図1(b)で上述したようにメモリカード408に記録されていく。ユーザは、デジタルカメラ101をUSBケーブルによってPC102に接続し、所定の操作を行うことで、撮り貯めた画像と音声データをPC102に転送(アップロード)することができる。
PC102では、まずステップS601において、デジタルカメラ101からの画像転送(アップロード)があるかどうかをチェックする。画像がアップロードされてきていたら、ステップS602において、転送されてくる各画像について音声データが付与されているか否かチェックする。例えば、図1(b)のようなファイル構成であれば、画像ファイルのヘッダ部にリンク情報があるか否かで判断することができる。画像データに音声データが付与されていれば、ステップS603へ進み、音声認識部302が、音響モデル303を用いて音声認識し、その音声データをテキストに変換する。ここで、音響モデル303は、雑音環境に応じた複数の音響モデルを有する。例えば、本実施形態では「オフィスの音響モデル」、「展示会場の音響モデル」、「家庭内の音響モデル」という3つの音響モデルを有する。
上記のような音響モデルは、すでにある従来技術を用いて作成可能である。例えば、展示会場の音響モデルは、展示会場内で発声された多くの音声を収録し、その収録音声データに所定の処理を施すことで作成できる。一般に、発声された音声を音声認識する場合、発声された環境と同様の環境に対応した音響モデルを用いるほうが高い音声認識性能を得られる可能性が高い。例えば、展示会場で発声された音声を認識する場合は、展示会場の音響モデルを用いて音声認識したほうが精度が高くなる可能性が高い。
音声認識部302では、画像データに付与された音声データがどのような環境で発声されたものであるかを知ることはできない。よって、ステップS603においては、音声認識部302は音響モデル303に含まれるすべての音響モデルそれぞれを用いて音声認識を行う。音響モデルが上記の3つである場合、それぞれのモデルを用いて、3つの音声認識結果を生成することになる。そして、図1(b)で上述したように、ステップS604において、これらの音声認識結果を、画像と関連付けて画像データベース306に保持しておく。アップロードの完了といった所定の終了条件が満足されたかを判定し、満足されていなければステップS601に戻る。
図9は1枚の画像に付与される音声認識結果の例である。画像ファイルIMG_001.JPGに対し、3種類の音声認識結果ファイルIMG_001_オフィス.va、IMG_001_展示会場.va、IMG_001_家庭内.va、が関連付けられて保持されている。それぞれ、オフィスの音響モデル、展示会場の音響モデル、家庭内の音響モデルを用いて音声認識をした結果の文字列データを含む。なお、音声認識は一般に複数解を出力できるので、各音声認識結果ファイルは、複数の音声認識結果文字列を含む。
続いて、図7のフローチャートに沿って、PC102上でユーザが画像を検索する際の処理の流れを説明する。画像を検索するアプリケーションは図3の307〜310の機能構成を実現する。検索語入力部307は、図10のようなユーザインターフェースをユーザに提示する。ユーザは、検索文字列を検索文字列入力フィールド1001に入力し、さらに、プルダウンメニュー1002によって、音声入力した環境を選択する。その後、検索ボタン1003をクリックすることで検索を実行する。
ユーザからの検索指示入力があると、ステップS701からステップS702へ進み、読み文字列生成部308がフィールド1001に入力された検索文字列を読み文字列に変換する。読み文字列への変換は、従来の自然言語処理技術を利用することで実現可能である。例えば、ユーザが「お誕生ケーキ」と入力した場合は、「オタンジョウケーキ」という読み文字列へ変換される。続いて、ステップS703において、一致度計算部309は、画像データベース306に保持されるすべての画像に関連付けられている文字列データ(音声認識結果)と読み文字列との一致度を計算する。図9により上述したように、一つの画像に対して、複数の音響モデルに対応した複数の音声認識結果が付与されている。一致度計算部309は、これらのうち、プルダウンメニュー1002で指定された音声入力条件に合致する音響モデルに対応する音声認識結果だけを一致度計算に使用する。音声入力条件に合致する音響モデルを用いて音声認識した結果は、他の音響モデルを用いた場合に比べて高い精度で認識されている可能性が高いからである。例えば、ユーザが図10のように「展示会場」を指定している場合は、図9のIMG_001_展示会場.vaを用い、この中に記述されている文字列と、検索文字列の読み文字列「オタンジョウケーキ」のマッチングを行い、一致度を計算する。一致度の計算は、DPマッチングなど従来の方法を用いればよい。ステップS704では、検索結果出力部310が、すべての画像データに対して上記の一致度計算を行った結果を用いて、一致度の高い順に画像を並べ換え、その順番で画像を検索結果として表示する。図11は検索結果の表示例を示す。
以上のようにして、音声入力時の雑音環境を考慮した音声認識とこれに基づく検索ができるので、精度の高い、効率的な検索が可能になる。
<第1実施形態の変形例>
上記実施形態では、音響モデルとして、雑音環境に応じた音響モデルを使用し、検索時にも、雑音環境を指定するようにしていた。しかし、音声の付与条件として、雑音環境ではなく、発声者の性別を用いることも可能である。この場合、音響モデルとして、例えば、男性音響モデル、女性音響モデルを用意し、音声認識では、音声データに対してそれぞれの音響モデルを用いて認識した結果をすべて画像に付与する。検索時には、図12に示すように、音声メモ付与者の性別を選択するプルダウンメニューで性別を選択し、その選択に合致する音響モデルで認識した音声認識結果を用いて検索の一致度計算処理を行う。
また、発声者の年齢別に音響モデルを用意するようにしてもよい。この場合、音響モデルとして、例えば、子供音響モデル、成人音響モデル、老人音響モデルを用意し、音声認識では、音声データに対してそれぞれの音響モデルを用いて認識した結果をすべて画像に付与する。検索時には、図13のように、音声メモ付与者の年齢カテゴリを選択するプルダウンメニューで年齢カテゴリを選択し、その選択に合致する音響モデルで認識した音声認識結果を用いて検索の一致度計算処理を行う。
更に、上記実施形態では、画像検索の際に入力する音声付与条件と、音響モデルが一対一対応であったが、それ以外の対応関係でもかまわない。例えば、音声認識に用いる音響モデルが、オフィス、家庭内、展示会場、市街地の4種類を用い、検索の際に、屋内、屋外のいずれかを音声アノテーション付与条件として選択するようにする。そして、ユーザが「屋内」を選択したときは、検索のマッチング処理において、「オフィス」「家庭内」の2つの音響モデルそれぞれに対する音声認識結果を用い、「屋外」を選択したときは、「展示会場」「市街地」の2つの音響モデルそれぞれに対する音声認識結果を用いるようにしてもよい。
以上のように第1実施形態によれば、音声入力の環境に適した音響モデルを用いた音声認識結果を用いることができ、精度の高い検索を実現できる。また、PC102側で複数の音声入力条件に対応するので、デジタルカメラ101側では画像撮影と音声入力に専念でき、使い勝手がよい。
<第2実施形態>
第1実施形態では、PC102において複数種類の音声認識処理(複数種類の音響モデル)を適用して複数種類の認識結果を得、これらを画像に関連付けて記憶しておき、検索条件として指定された音声入力条件に対応した認識結果を抽出し、抽出した認識結果の範囲で検索文字列による検索を実施した。しかしながら、この場合、ユーザは検索したい画像に関連付けられた音声がどのような音声入力条件で入力されたかを覚えておく必要がある。第2実施形態では、デジタルカメラ101において画像データに関連付けられた音声データを登録する際に、音声入力条件を示す情報を当該音声データに含ませる。例えば、音声データの属性情報の一つとして音声入力条件を持たせる。
第2実施形態の画像管理システムにおける構成は、図1(a)、図4、図5に示したとおりである。また、デジタルカメラ101の機能構成も第1実施形態(図2)とほぼ同様であるが、音声データ付与部204はユーザによって設定された音声入力条件を示す属性情報を音声データに含ませる。PC102の機能構成も第1実施形態(図3)とほぼ同様であるが、音声認識部302は音声データの属性情報によって示される音声入力条件に適応した音響モデルを用いて音声認識を行う。また、画像検索時に指定した音声メモの環境(図10の1002)の設定は不要である。第1実施形態においては、一致度計算部309はプルダウンメニュー1002で指定された音声入力条件に合致する音響モデルに対応する音声認識結果だけを一致度計算に使用したが、第2実施形態ではそのような区別はなく、全ての音声認識結果を利用する。
図14は第2実施形態による画像データおよび音声データの管理方法を説明する図である。図1(b)と比べて、メモリカード408に格納される音声データには音声入力条件を表す属性情報が付与されている点が異なる。また、PC102において格納される文字列データ130は、音声データの属性情報によって示される音声入力条件に対応した音響モデルを用いて取得された認識結果のみをテキスト130bとして含む。
図15は第2実施形態のデジタルカメラ101における画像データへの音声データの関連付け処理を説明するフローチャートである。
デジタルカメラ101において、所定のユーザインターフェースを介して音声入力モードが指示されると、ステップS1501において音声入力条件を指定させる。音声入力条件は、例えば、オフィス、展示会場、家庭内といった中から設定可能とする。そして、上述した音声データ付与方法1或いは2によって音声が入力されると、ステップS1502からステップS1503へ処理が進み、マイク407およびA/Dコンバータ406を介して取得された音声データにステップS1501で設定した音声入力条件を示す属性情報を付与する。そして、ステップS1504において、音声データを対応する画像データと関連付けてメモリカード408に格納する。以上のようにして、音声入力条件を示す属性情報が付与された音声データが画像データに関連付けられてメモリカード408に格納される。
音声入力条件を変更する旨の操作があった場合はステップS1505からステップS1501へ処理を戻す。また、音声入力モードの終了が指示された場合はステップS1506から本処理を終了する。
以上のような画像データおよびこれに関連付けられた音声データがアップロードされるPC102の動作について、第1実施形態の図6および図7のフローチャートを流用して説明する。
まず、画像データおよび音声データを受信した際の動作について図6を用いて説明する。第1実施形態と異なるのは、ステップS603、S604において、音声データに付与された属性情報(音声入力条件)から音声認識に用いるべき音響モデルを決定し、決定された音響モデルを用いた認識結果を画像データに関連付けて保存する点である。例えば、音声入力条件が「展示会場」であった場合は、予め用意されている「オフィスの音響モデル」、「展示会場の音響モデル」、「家庭内の音響モデル」の中から、「展示会場の音響モデル」を用いて音声認識を行い、その結果の文字列を画像データに関連付けて画像データベース306に登録することになる。
次に、画像データの検索時の動作について図7を用いて説明する。第1実施形態と異なるのは、音声入力条件を検索条件として設定せず、検索文字列のみが設定される点である。そして、ステップS703では、画像データベース306に登録された全ての文字列データとの間でマッチングが行われる。
以上のように第2実施形態によれば、音声入力の環境に適した音響モデルを用いた音声認識結果を用いることができ、精度の高い検索を実現できる。また、デジタルカメラ側で音声流力環境を設定することができるので、検索時に音声入力条件を設定する手間を省くことができ、使い勝手がよい。
なお、上記第1実施形態の変形例で示したような音声入力条件のバリエーションが第2実施形態にも適用可能であることはいうまでもない。また、デジタルカメラ101側で音声データに複数の音声入力条件を設定できるようにし、PC102側では設定された複数の音声入力条件に応じた複数の認識結果を保持するようにしてもよい。第2実施形態では、こうして保持された全ての認識結果を検索対象とすることになる。
また、上記第1、第2実施形態においては、CPUが所定のソフトウエアを実行することにより実現する構成を説明したが、これに限定されるものではなく、同様の動作をするハードウエア回路で実現してもよい。
なお、本発明は、複数の機器から構成されるシステムに適用しても、1つの機器からなる装置に適用してもよい。前述した実施形態の機能を実現するソフトウエアのプログラムコードを記録した記録媒体を、システム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU)が記録媒体に格納されたプログラムコードを読み出し実行することによっても、達成されることは言うまでもない。この場合、記録媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記録した記録媒体は本発明を構成することになる。
プログラムコードを供給するための記録媒体としては、例えば、フロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどを用いることができる。
また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOSなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
更に、記録媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
(a)実施形態に係るシステム構成例、および(b)画像データの格納状態を説明する図である。 実施形態のデジタルカメラ101における機能構成を示すブロック図である。 実施形態のPC102における、画像データの保存、検索に関る機能構成を示すブロック図である。 実施形態に係るデジタルカメラ101のハードウエア構成例を示すブロック図ある。 実施形態に係るPC102のハードウエア構成例を示すブロック図である。 実施形態において、PC102がデジタルカメラから画像データと音声データを受信した際の動作を説明するフローチャートである。 実施形態において、PC102上でユーザが画像を検索する際の処理の流れを説明するフローチャートである。 実施形態に係る、ユーザがデジタルカメラ101で写真を撮影し、その写真に音声でコメントを付与する例図である。 実施形態に係る、各画像データに付与された音声認識結果の例を示す図である。 実施形態による画像検索時のグラフィックユーザインタフェースの例を示す図である。 実施形態による画像検索の結果として、画像のサムネイルが表示された例を示す図である。 他の実施形態による画像検索時のグラフィックユーザインタフェースの例を示す図である。 他の実施形態による画像検索時のグラフィックユーザインタフェースの例を示す図である。 第2実施形態による画像データの格納状態を説明する図である。 第2実施形態によるデジタルカメラ側の音声データ付与処理を説明するフローチャートである。

Claims (10)

  1. 検索文字列および音声入力条件をユーザに入力させるためのインターフェースを提示するインターフェース手段と、
    データと、当該データに関連付けられた音声データに対して複数種類の音声認識処理を実行して得られた複数種類の音声認識結果とを対応付けて、各音声認識結果と音声認識処理の対応を識別可能に格納する格納手段に格納された音声認識結果のうち、前記インターフェース手段で入力された音声入力条件に対応する音声認識処理によって得られた音声認識結果と、該インターフェース手段で入力された検索文字列との一致度を取得する取得手段と、
    前記取得手段で取得された一致度に基づいてデータを検索結果として抽出する抽出手段とを備えることを特徴とするデータ管理装置。
  2. 前記複数種類の音声認識処理は、音声認識に用いる音響モデルを切り換えることによってなされることを特徴とする請求項1記載のデータ管理装置。
  3. 前記音響モデルは、雑音環境に応じた音響モデル、性別に応じた音響モデル、年齢別の音響モデルの少なくともいずれかであることを特徴とする請求項2記載のデータ管理装置。
  4. 前記音声入力条件は、雑音環境、発声者の性別、発声者の年齢の少なくともいずれかであることを特徴とする請求項1記載のデータ管理装置。
  5. 検索文字列および音声入力条件をユーザに入力させるためのインターフェースを提示するインターフェース工程と、
    データと、当該データに関連付けられた音声データに対して複数種類の音声認識処理を実行して得られた複数種類の音声認識結果とを対応付けて、各音声認識結果と音声認識処理の対応を識別可能に格納する格納手段に格納された音声認識結果のうち、前記インターフェース工程で入力された音声入力条件に対応する音声認識処理によって得られた音声認識結果と、該インターフェース工程で入力された検索文字列との一致度を取得する取得工程と、
    前記取得工程で取得された一致度に基づいてデータを検索結果として抽出する抽出工程とを備えることを特徴とするデータ管理方法。
  6. 前記複数種類の音声認識処理は、音声認識に用いる音響モデルを切り換えることによってなされることを特徴とする請求項5記載のデータ管理方法。
  7. 前記音響モデルは、雑音環境に応じた音響モデル、性別に応じた音響モデル、年齢別の音響モデルの少なくともいずれかであることを特徴とする請求項6記載のデータ管理方法。
  8. 前記音声入力条件は、雑音環境、発声者の性別、発声者の年齢の少なくともいずれかであることを特徴とする請求項5記載のデータ管理方法。
  9. 請求項5乃至8のいずれかに記載のデータ管理方法をコンピュータによって実行させるための制御プログラム。
  10. 請求項9に記載の制御プログラムを格納したコンピュータ読み取り可能な記憶媒体。
JP2004236070A 2004-08-13 2004-08-13 データ管理方法および装置 Expired - Fee Related JP4018678B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2004236070A JP4018678B2 (ja) 2004-08-13 2004-08-13 データ管理方法および装置
US11/201,013 US20060036441A1 (en) 2004-08-13 2005-08-10 Data-managing apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004236070A JP4018678B2 (ja) 2004-08-13 2004-08-13 データ管理方法および装置

Publications (2)

Publication Number Publication Date
JP2006053827A JP2006053827A (ja) 2006-02-23
JP4018678B2 true JP4018678B2 (ja) 2007-12-05

Family

ID=35801083

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004236070A Expired - Fee Related JP4018678B2 (ja) 2004-08-13 2004-08-13 データ管理方法および装置

Country Status (2)

Country Link
US (1) US20060036441A1 (ja)
JP (1) JP4018678B2 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7697827B2 (en) 2005-10-17 2010-04-13 Konicek Jeffrey C User-friendlier interfaces for a camera
WO2007076529A2 (en) * 2005-12-28 2007-07-05 The Trustees Of Columbia University In The City Of New York A system and method for accessing images with a novel user interface and natural language processing
US8301995B2 (en) * 2006-06-22 2012-10-30 Csr Technology Inc. Labeling and sorting items of digital data by use of attached annotations
JP5274324B2 (ja) * 2009-03-19 2013-08-28 株式会社エヌ・ティ・ティ・ドコモ 言語モデル特定装置、言語モデル特定方法、音響モデル特定装置、および音響モデル特定方法
US8903847B2 (en) * 2010-03-05 2014-12-02 International Business Machines Corporation Digital media voice tags in social networks
US20120244842A1 (en) 2011-03-21 2012-09-27 International Business Machines Corporation Data Session Synchronization With Phone Numbers
US20120246238A1 (en) 2011-03-21 2012-09-27 International Business Machines Corporation Asynchronous messaging tags
US8688090B2 (en) 2011-03-21 2014-04-01 International Business Machines Corporation Data session preferences
US8903726B2 (en) * 2012-05-03 2014-12-02 International Business Machines Corporation Voice entry of sensitive information
CN104700831B (zh) * 2013-12-05 2018-03-06 国际商业机器公司 分析音频文件的语音特征的方法和装置
JP2015207181A (ja) * 2014-04-22 2015-11-19 ソニー株式会社 情報処理装置、情報処理方法及びコンピュータプログラム
WO2017113370A1 (zh) * 2015-12-31 2017-07-06 华为技术有限公司 声纹检测的方法和装置
CN109710750A (zh) * 2019-01-23 2019-05-03 广东小天才科技有限公司 一种搜题方法及学习设备

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5729741A (en) * 1995-04-10 1998-03-17 Golden Enterprises, Inc. System for storage and retrieval of diverse types of information obtained from different media sources which includes video, audio, and text transcriptions
US6374260B1 (en) * 1996-05-24 2002-04-16 Magnifi, Inc. Method and apparatus for uploading, indexing, analyzing, and searching media content
US6504571B1 (en) * 1998-05-18 2003-01-07 International Business Machines Corporation System and methods for querying digital image archives using recorded parameters
US6563536B1 (en) * 1998-05-20 2003-05-13 Intel Corporation Reducing noise in an imaging system
US6721001B1 (en) * 1998-12-16 2004-04-13 International Business Machines Corporation Digital camera with voice recognition annotation
US6369908B1 (en) * 1999-03-31 2002-04-09 Paul J. Frey Photo kiosk for electronically creating, storing and distributing images, audio, and textual messages
US6434520B1 (en) * 1999-04-16 2002-08-13 International Business Machines Corporation System and method for indexing and querying audio archives
US6789061B1 (en) * 1999-08-25 2004-09-07 International Business Machines Corporation Method and system for generating squeezed acoustic models for specialized speech recognizer
US6499016B1 (en) * 2000-02-28 2002-12-24 Flashpoint Technology, Inc. Automatically storing and presenting digital images using a speech-based command language
JP4244514B2 (ja) * 2000-10-23 2009-03-25 セイコーエプソン株式会社 音声認識方法および音声認識装置
JP2003219327A (ja) * 2001-09-28 2003-07-31 Canon Inc 画像管理装置、画像管理方法、制御プログラム、情報処理システム、画像データ管理方法、アダプタ、及びサーバ
US7209881B2 (en) * 2001-12-20 2007-04-24 Matsushita Electric Industrial Co., Ltd. Preparing acoustic models by sufficient statistics and noise-superimposed speech data
KR100770637B1 (ko) * 2002-12-12 2007-10-29 후지필름 가부시키가이샤 디지털 카메라
US7324943B2 (en) * 2003-10-02 2008-01-29 Matsushita Electric Industrial Co., Ltd. Voice tagging, voice annotation, and speech recognition for portable devices with optional post processing
US7272562B2 (en) * 2004-03-30 2007-09-18 Sony Corporation System and method for utilizing speech recognition to efficiently perform data indexing procedures

Also Published As

Publication number Publication date
JP2006053827A (ja) 2006-02-23
US20060036441A1 (en) 2006-02-16

Similar Documents

Publication Publication Date Title
US20060036441A1 (en) Data-managing apparatus and method
US20210294833A1 (en) System and method for rich media annotation
WO2021109678A1 (zh) 视频生成方法、装置、电子设备及存储介质
US7831598B2 (en) Data recording and reproducing apparatus and method of generating metadata
JP2892901B2 (ja) プレゼンテーションの獲得、管理およびプレイバック用自動化システム及び方法
JP4466564B2 (ja) 文書作成閲覧装置、文書作成閲覧ロボットおよび文書作成閲覧プログラム
US8385588B2 (en) Recording audio metadata for stored images
JP3895892B2 (ja) マルチメディア情報収集管理装置およびプログラムを格納した記憶媒体
WO2004002144A1 (ja) メタデータ作成装置、その作成方法および検索装置
KR20070118038A (ko) 정보처리 장치 및 정보처리 방법과 컴퓨터·프로그램
JP2009026108A (ja) 発想支援装置、発想支援システム、発想支援プログラム及び発想支援方法
JP2006512007A (ja) マルチメディア文書における多モード特性に注釈を付けるためのシステムおよび方法
CA2227371A1 (en) Automatic report generation system and method
JP2000184258A (ja) 音声認識注釈を有するデジタル・カメラ
WO2005094437A2 (en) System and method for automatically cataloguing data by utilizing speech recognition procedures
CN110166650A (zh) 视频集的生成方法及装置、计算机设备与可读介质
JP2014146066A (ja) 文書データ生成装置、文書データ生成方法及びプログラム
KR102148021B1 (ko) 딥러닝 텍스트 탐지 기술을 활용한 실생활 영상 속의 정보 검색 방법 및 그 장치
US20060082664A1 (en) Moving image processing unit, moving image processing method, and moving image processing program
JP2005346259A (ja) 情報処理装置及び情報処理方法
JP2007207031A (ja) 画像処理装置、画像処理方法及び画像処理プログラム
WO2007058268A1 (ja) 対応付け装置
TWI496470B (zh) Digital stethoscope for extensive collection of clinical lung tone signals
JP2003208083A (ja) 教材作成方法及び装置及び教材作成プログラム及び教材作成プログラムを格納した記憶媒体
JP5573402B2 (ja) 会議支援装置、会議支援方法、会議支援プログラムおよび記録媒体

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060804

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061003

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070914

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070920

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100928

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100928

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110928

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110928

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120928

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120928

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130928

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees