JP4579638B2 - データ検索装置及びデータ検索方法 - Google Patents

データ検索装置及びデータ検索方法 Download PDF

Info

Publication number
JP4579638B2
JP4579638B2 JP2004292606A JP2004292606A JP4579638B2 JP 4579638 B2 JP4579638 B2 JP 4579638B2 JP 2004292606 A JP2004292606 A JP 2004292606A JP 2004292606 A JP2004292606 A JP 2004292606A JP 4579638 B2 JP4579638 B2 JP 4579638B2
Authority
JP
Japan
Prior art keywords
data
order
search
phoneme
correlation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004292606A
Other languages
English (en)
Other versions
JP2006107108A5 (ja
JP2006107108A (ja
Inventor
英生 久保山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2004292606A priority Critical patent/JP4579638B2/ja
Publication of JP2006107108A publication Critical patent/JP2006107108A/ja
Publication of JP2006107108A5 publication Critical patent/JP2006107108A5/ja
Application granted granted Critical
Publication of JP4579638B2 publication Critical patent/JP4579638B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Studio Devices (AREA)

Description

本発明は、データに付与された音声アノテーションデータを音声認識して求めた音声認識結果アノテーションデータに基づき、データを検索する装置や方法に関するものである。
昨今、デジタルカメラ等の普及が著しい。ユーザは、デジタルカメラのような携帯型撮像装置により撮像したデジタル画像を、PCやサーバ等で管理することが一般的である。例えば撮影した画像を、PCあるいはサーバ上のフォルダ内に整理したり、特定の画像を印刷し、年賀状に組み込むことが可能である。また、サーバで管理する場合は、一部の画像を他のユーザに公開することも可能である。
このような作業を行う場合には、ユーザの意図する特定の画像を見つけ出すことが必要となる。見つけ出す対象となる画像数が少ない場合は、画像をサムネイル表示し、その一覧から目視で見つけ出すことも可能である。しかし、対象となる画像数が何百となる場合や、対象画像群が複数フォルダに分断されて格納されている場合は、目視で見つけ出すことは困難である。
そこで、撮像装置上で画像に音声アノテーション(音声による注釈)を付け、検索時のその情報を使うことが行われている。例えば携帯型撮像装置により山の画像を撮像し、その画像に対して「箱根の山」と発声する。この音声データは先の画像データと対となって撮像装置内に格納された後、その画像撮像装置内あるいは画像をアップロードしたPC内で音声認識され、“はこねのやま”というテキスト情報に変換する。音声アノテーションデータがテキスト情報に変換されれば、後は一般的なテキスト検索技術で処理することが可能であり、「やま」、「はこね」等の単語でその画像を検索することができる。
このような音声アノテーションを利用した先行技術に、特許文献1、特許文献2、特許文献3がある。これらの先行技術では、画像の撮像時あるいは撮像後に注釈となる音声をユーザが入力し、その音声データを既存の音声認識技術を利用して画像検索に利用している。
特開2003−219327号公報 特開2002−325225号公報 特開平9−135417号公報
音声認識で音声アノテーションを変換して検索する時には誤認識は避けられない。誤認識による誤りの割合が大きい場合には検索キーを正しく入れてもマッチングの相関が悪く、正しく検索されない。しかしながら、アノテーションのごく一部が誤認識により誤っていても、大部分が正解していればしばしば正しく検索することができる。
ここで、検索キーとのマッチングの相関度をスコアとして検索画像をランキングして並べると、検索キーとの相関が高いアノテーションについてはランキングの上位に正しく検索されることが多いが、誤認識などにより検索キーとの相関が低い画像は、その他のアノテーションとの差がつき難くなり、急激に順位が落ちる。このように相関度が低い画像に付いては順位順に並べるとその中から探すのが困難であり、むしろ従来のフォルダのように名前順、時間順などで整列させたり、検索結果を表示しないで検索失敗を通知するほうが好ましい。
上記課題を解決するために、本発明のデータ検索方法は、各々のデータが所定の音声データと対応付けて蓄積されている複数のデータから、所望のデータを検索し、検索結果を表示手段に表示させるデータ検索装置のデータ検索方法であって、前記複数のデータと、前記複数のデータの各々に対応付けられた所定の音声データとを蓄積する蓄積ステップと、各々の前記音声データを音声認識することによって得られた第1の音素列を取得する取得ステップと、ユーザによる操作に応答して、検索条件に相当する検索キーを入力する入力ステップと、前記検索キーを形態素解析して単語列に分割しさらに当該単語列に読みを付与し、第2の音素列を得る変換ステップと、各々の前記音声データから得られた前記第1の音素について音素マッチングを行うことにより、前記第2の音素列との相関それぞれ決定する決定ステップと、前記相関度が所定の閾値以上である前記第1の音素列に対応する音声データが対応付けられた前記データを前記相関度でランキングした順位順に並べて表示させると共に前記相関度が前記閾値未満である前記第1の音素列に対応する音声データが対応付けられた前記データを、前記データの名称の名前順、前記データが有する時間情報順、前記データのデータサイズ順、前記データの表示サイズ順のうちいずれかに従って並べて表示させるよう前記表示手段を制御する表示制御ステップを有する。また、本発明のデータ検索方法は、各々のデータが所定の音声データと対応付けて蓄積されている複数のデータから、所望のデータを検索し、検索結果を表示手段に表示させるデータ検索装置のデータ検索方法であって、前記複数のデータと、前記複数のデータの各々に対応付けられた所定の音声データとを蓄積する蓄積ステップと、各々の前記音声データを音声認識することによって得られた第1の単語列を取得する取得ステップと、ユーザによる操作に応答して、検索条件に相当する検索キーを入力する入力ステップと、前記検索キーを形態素解析して第2の単語列を得る変換ステップと、各々の前記音声データから得られた前記第1の単語列について、単語マッチングを行うことにより、前記第2の単語列との相関度をそれぞれ決定する決定ステップと、前記相関度が所定の閾値以上である前記第1の単語列に対応する音声データが対応付けられた前記データを前記相関度でランキングした順位順に並べて表示させると共に、前記相関度が前記閾値未満である前記第1の単語列に対応する音声データが対応付けられた前記データを、前記データの名称の名前順、前記データが有する時間情報順、前記データのデータサイズ順、前記データの表示サイズ順のうちいずれかに従って並べて表示させるよう前記表示手段を制御する表示制御ステップを有する。
以上に述べたとおり、本発明におけるデータ検索では、データに対応する音声にデータを音声認識した結果である音声認識結果アノテーションデータと検索条件との相関をあらわすスコアによって、検索結果の表示方法を切り替えることにより、高い順位にあらわれるデータと高い順位に現れないデータを区別して探し出すことができ、ユーザの利便性向上につながる。
以下、図面を参照して本発明の一実施形態を詳細に説明する。
図1は、本発明の一実施例に係るデータ検索装置の機能を示すブロック図である。同図において、101はデータベースである。102は、データベース101に蓄積される画像やドキュメントなどのデータである。103は、データ102に対応して音声によって注釈をつけた音声アノテーションデータである。104は、音声アノテーションデータ103を音声認識し、音素列や単語列などに変換した音声認識結果アノテーションデータである。105は、所望のデータ102を検索するために検索条件として、検索キーを入力する検索キー入力部である。106は、検策キーでマッチングを取るために、音声認識結果アノテーションデータ104と同様の書式の音素列や単語列に検索キーを変換する検索キー変換部である。
107は、データベース101内の複数の音声認識結果アノテーションデータ104と検索キーとでマッチングを取り、それぞれの音声認識結果アノテーションデータ104に対する相関度スコアを求め、音声認識結果アノテーションデータ104に対応するデータ102を順位付けする検索部である。108は、それぞれのデータの相関度スコアに基づいてデータの表示方法を切り替える表示切り替え部である。109は、表示切り替え部108でそれぞれ指定された方法に基づいてデータ102を表示する表示部である。
図1を用いて、本実施例の処理の流れを詳細に説明する。画像やドキュメントなどのデータ102には、対応する音声アノテーションデータ103及びこの音声アノテーションデータを音声認識した結果である音声認識結果アノテーションデータ104が存在する。ここで、音声認識結果アノテーションデータは、本装置に音声認識部を有しておいて作成しても構わないし、画像を撮るカメラなどの別の装置上で音声認識部を有して作成しても構わない。また、本発明においてデータ検索で使用するアノテーションデータは音声認識結果アノテーションデータ104であるため、音声アノテーションデータ103は存在しなくとも構わない。
図2に、音声認識結果アノテーションデータ104の一例を示す。同図の201は、音声アノテーションデータ103を音声認識して音素列に変換した認識結果音素列であり、尤もらしいとされる上位5位までが順番に並んでいる。202は音声認識に用いた文法名である。本実施例では音素列に変換する文法を用いて説明するが、単語列に変換する文法を用いても良い。203は、音声に対する音素列の尤もらしさを表す認識尤度である。本実施例におけるデータ検索ではこれらの情報のうち、認識結果音素列201のみ用いるため、文法名202、認識尤度203はなくとも良い。
まず、ユーザは検索キー入力部105に検索条件として検索キーを入力する。図3に検索キー入力部においてユーザに提示する検索キー入力ダイアログの一例を示す。このようなダイアログに、ユーザは検索したいデータに付与されている音声もしくはその一部に相当する単語、文をテキスト入力する。検索キーを入力して検索ボタンを押すと、検索キーは検索キー変換部106にわたり、検索キーが認識結果音素列201と同じ形式の音素列に変換される。図4は検索キーを音素列に変換する様子を表す図である。検索キー「箱根の山」を、形態素解析し、単語列に分割する。さらに、単語列に読みを付与し、音素列を得る。形態素解析、読み付与の方法は一般的な自然言語処理技術を適用する。
次に、検索部107において検索キーの音素列と、検索対象となる全てのデータ102に対応する音声認識結果アノテーションデータ104とで音素マッチングを取り、検索キーとの相関度を表す音素正解精度を求める。マッチングは、一般的なDPマッチング法などにより取ることができる。図5に音素正解精度を求める様子を表す。音素正解精度は、DPマッチング等により正解数、挿入誤り数、削除誤り数、置換誤り数が得られたときに、
{(正解数)―(挿入誤り数)―(削除誤り数)―(置換誤り数)}×100/(正解数)
で求める。図5においては挿入誤りが“o”と“a”の2箇所、そして“h”を“f”として誤った置換誤りが1箇所であり、音素正解精度は75%となる。このようにして求めた音素正解精度を検索に用いるスコアとしてデータ102をランキングする。ここで、図2の音声認識結果アノテーションデータは上位5つの認識結果音素列が存在するが、マッチングはこれらそれぞれと行って音素正解精度を求め、最も良い音素正解精度及び認識結果音素列を採用する。ただし本発明はこれに限るものではなく、順位によって重み係数を音素正解精度にかけてから最大値を取ったり、総和を取ったりしても良い。また、音声認識結果アノテーションデータは、図2のように上位N個の認識結果を保持する形態に限らず、各音素(あるいは単語など)で構成するラティス(単語グラフ)を出力し、ラティスの始端から終端までのそれぞれのパスにおいて音素正解精度を求めても良い。
次に、表示切り替え部108において、それぞれのデータ102に対応する音素正解精度を閾値と比較し、音素正解精度が閾値以上のデータについては表示部109において音素正解精度でランキングした順位順に整列して表示され、閾値未満のデータにおいては表示部109の別の領域においてデータの名称の名前順、データが有する時間情報順、データのデータサイズ順、データの表示サイズ順などの前記スコア順とは異なる基準で表示する。
図6に検索データ表示の様子を示す。同図において、601は、検索キーとの音素正解精度が閾値以上のデータ(ここでは画像)が順位順で表示される検索結果表示ウインドウである。602は、音素正解精度が閾値未満のデータが名前順、時間順など、順位順以外の方法で表示されるデータ表示ウインドウである。図6においてはデータ表示ウインドウでは名前順で画像が整列されて表示されている。また、音符のボタンを押すと対応する音声アノテーションを聞くことができる。ユーザは、まず検索結果表示ウインドウ601に表示された音素正解精度の高いデータを見て、所望のデータが無い場合にはデータ表示ウインドウで名前順、時間順などに整列されたデータから所望のデータを探す。なお、本実施例では順位順に整列するデータとそれ以外のデータでウインドウを分けて表示したが、本発明はこれに限るものではなく、例えば同一ウインドウで領域を分けて表示しても構わない。このように、サブワード正解精度が高いデータを順位順に、その他のデータを名前順、時間順などに整列してこれらを並列に表示することで、ユーザはまず限られた数の順位順データを見て、そこに無かったら通常どおり名前、時間順で探すという併用した使い方ができるので、利便性が高まる。
ここで、音素正解精度とデータ検索性能との関係からの音素正解精度閾値設定方法と、閾値処理による表示方法切り替えの有効性について説明する。図7は、1000データを対象に検索を行ったときに、所望する正解データの検索キーとの音素正解精度及び、正解データを音素正解精度でランキングした検索順位をプロットした散布図である。同図を見ると、音素正解精度が60%を超えるデータについては検索順位は良い順位に集中し、順位を大きく落とすデータは無い。その一方で、音素正解精度60%を下回るデータは大きく順位を落とし、順位の範囲もデータによって大きく異なる。したがって、音素正解精度60%を超える正解データについてはロバストに上位で検索できるのに対して、音素正解精度60%を下回るデータに対しては大きく順位を落とし、順位の範囲もデータに大きく左右されるので検索結果として提示するのは好ましくない。
そこで、この予備実験で確認した特徴を生かし、音素正解精度の閾値を60%に設定する。音素正解精度60%を超える正解データについては(実際にはシステムは正解を知らないので音素正解精度60%を超える全てのデータは)検索結果表示ウインドウ601に順位順で表示する。検索キーとの音素正解精度が閾値60%を超える正解については検索結果表示ウインドウ601においてロバストに高い順位で検索できる。音素正解精度60%を超えないデータについては順位順に並べてもどの順位の範囲に現れるかわからず検索効率がむしろ悪いため、データ表示ウインドウ602でデータの名称の名前順、データが有する時間情報順、データのデータサイズ順、データの表示サイズ順などの前記スコア順とは異なる基準で表示する。
すなわち、システム設計者があらかじめ検索キーに対応する正解データが既知である検索セットを用意して図7のような散布図を作れば、音素正解精度と検索性能の関係がもつ図7のグラフ形状の特徴により適切な閾値を設定でき、検索による限られた数の順位順表示と、名前順、時間順などの通常表示とのハイブリッドなユーザ提示ができる。
図8に、本発明のデータ検索装置を実現するハードウエア構成図を示す。同図において、801は、データやGUIパネルなどを表示するディスプレイなどの画面表示部である。802は、検索キーなどを入力したりGUIボタンを押下するキーボードやマウスなどのデータ入力部である。803は、音声アノテーションデータや警告音などの音を出力するスピーカなどの音出力部である。804は、データベース101や本データ検索方法のプログラムを保持するROM或いはハードディスクなどの外部記憶部である。805は、本データ検索方法のプログラム実行時に、プログラムやデータ等、一時情報を保持するためのRAMである。806は、本データ検索方法のプログラムを実行するCPUである。
(他の実施例)
上記実施例では音素列マッチングにより音素正解精度を検索のためのスコアとして用いたが、本発明はこれに限るものではなく、例えば音素ではなく音節でのマッチングや、単語単位でのマッチングによる正解精度でも良い。また、これに音声認識で求まる認識尤度203を加味したり、音素間の類似度(“p”と“t”は類似度が高いなど)を用いてスコアの重み付けをしたりしても良い。また、上記実施例では、図5に示すとおり音素列の全体マッチングによる音素正解精度を検索のためのスコアとして用いたが、挿入誤りによるスコアの劣化を抑えるなどとしたスコアの工夫により検索キーの部分的なマッチングによって検索しても良い。この実施例では、例えば音声認識結果アノテーションデータに「箱根の山」というアノテーションが付与されているときに、部分マッチングにより「箱根」、「山」を検索キーとして検索可能となる。
(他の実施例)
上記実施例は音素正解精度の閾値処理によって、順位順による整列とその他の整列とを切り替えて別の領域に表示するものであるが、本発明はこれに限らず、音素正解精度の閾値処理によってデータの表示方法を切り替える全ての実施形態に適用可能である。例えば、音素正解精度が閾値未満のデータは全て表示せず、音素正解精度が閾値以上のデータのみを表示させたり、音素正解精度が閾値以上のデータのみ画像を大きく表示して閾値未満のデータは小さなアイコンもしくはリンクのテキストのみを表示するといった実施形態も考えられる。
(他の実施例)
なお、本発明は、1つの機器からなる装置に適用しても、複数の機器から構成されるシステムに適用してもよい。また、前述した実施形態の機能を実現するソフトウエアのプログラムコードを記録した記録媒体を、システム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU)が記録媒体に格納されたプログラムコードを読み出し実行することによっても、達成されることは言うまでもない。この場合、記録媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記録した記録媒体は本発明を構成することになる。
上記実施例においては、プログラムをROMに保持する場合について説明したが、これに限定されるものではなく、任意の記憶媒体を用いて実現してもよい。また、同様の動作をする回路で実現してもよい。
プログラムコードを供給するための記録媒体としては、例えば、フロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、CDーROM、CDーR、磁気テープ、不揮発性のメモリカード、ROMなどを用いることができる。
また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOSなどが実際の処理の一部または全部を行ない、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
更に、記録媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行ない、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
本発明のデータ検索装置の機能構成図である。 本発明における音声認識結果アノテーションデータの例である。 本発明の検索キー入力部における検索キー入力ダイアログの例である。 本発明の検索キー変換部における処理の様子を表す図である。 本発明の検索部における音素マッチングを表す図である。 本発明の表示部における検索結果表示ウインドウとデータ表示ウインドウの一例である。 音素正解精度とデータ検索順位の関係を表す散布図である。 本発明のデータ検索装置を実現するハードウエア構成図である。

Claims (7)

  1. 各々のデータが所定の音声データと対応付けて蓄積されている複数のデータから、所望のデータを検索し、検索結果を表示手段に表示させるデータ検索装置のデータ検索方法であって、
    前記複数のデータと、前記複数のデータの各々に対応付けられた所定の音声データとを蓄積する蓄積ステップと、
    各々の前記音声データを音声認識することによって得られた第1の音素列を取得する取得ステップと、
    ユーザによる操作に応答して、検索条件に相当する検索キーを入力する入力ステップと、
    前記検索キーを形態素解析して単語列に分割しさらに当該単語列に読みを付与し、第2の音素列を得る変換ステップと、
    各々の前記音声データから得られた前記第1の音素について音素マッチングを行うことにより、前記第2の音素列との相関それぞれ決定する決定ステップと、
    前記相関度が所定の閾値以上である前記第1の音素列に対応する音声データが対応付けられた前記データを前記相関度でランキングした順位順に並べて表示させると共に前記相関度が前記閾値未満である前記第1の音素列に対応する音声データが対応付けられた前記データを、前記データの名称の名前順、前記データが有する時間情報順、前記データのデータサイズ順、前記データの表示サイズ順のうちいずれかに従って並べて表示させるよう前記表示手段を制御する表示制御ステップを有するデータ検索方法。
  2. 各々のデータが所定の音声データと対応付けて蓄積されている複数のデータから、所望のデータを検索し、検索結果を表示手段に表示させるデータ検索装置のデータ検索方法であって、
    前記複数のデータと、前記複数のデータの各々に対応付けられた所定の音声データとを蓄積する蓄積ステップと、
    各々の前記音声データを音声認識することによって得られた第1の単語列を取得する取得ステップと、
    ユーザによる操作に応答して、検索条件に相当する検索キーを入力する入力ステップと、
    前記検索キーを形態素解析して第2の単語列を得る変換ステップと、
    各々の前記音声データから得られた前記第1の単語列について、単語マッチングを行うことにより、前記第2の単語列との相関度をそれぞれ決定する決定ステップと、
    前記相関度が所定の閾値以上である前記第1の単語列に対応する音声データが対応付けられた前記データを前記相関度でランキングした順位順に並べて表示させると共に、前記相関度が前記閾値未満である前記第1の単語列に対応する音声データが対応付けられた前記データを、前記データの名称の名前順、前記データが有する時間情報順、前記データのデータサイズ順、前記データの表示サイズ順のうちいずれかに従って並べて表示させるよう前記表示手段を制御する表示制御ステップを有するデータ検索方法。
  3. 前記表示制御ステップは、前記相関度が所定の閾値以上である前記第1の音素列に対応する音声データが対応付けられた前記データを前記相関度でランキングした順位順に並べて第1のウインドウに表示させると共に、前記相関度が前記閾値未満である前記第1の音素列に対応する音声データが対応付けられた前記データを、前記データの名称の名前順、前記データが有する時間情報順、前記データのデータサイズ順、前記データの表示サイズ順のうちいずれかに従って並べて前記第1のウインドウと異なる第2のウインドウに表示させるよう前記表示手段を制御することを特徴とする請求項1に記載のデータ検索方法。
  4. 請求項1乃至は請求項3のいずれか1項に記載のデータ検索方法をコンピュータに実行させるプログラム。
  5. 請求項に記載のプログラムを記憶したコンピュータ読み取り可能な記憶媒体。
  6. 各々のデータが所定の音声データと対応付けて蓄積されている複数のデータから、所望のデータを検索し、検索結果を表示手段に表示させるデータ検索装置であって、
    前記複数のデータと、前記複数のデータの各々に対応付けられた所定の音声データとを蓄積する蓄積手段と、
    各々の前記音声データを音声認識することによって得られた第1の音素列を取得する取得手段と、
    ユーザによる操作に応答して、検索条件に相当する検索キーを入力する入力手段と、
    前記検索キーを形態素解析して単語列に分割しさらに当該単語列に読みを付与し、第2の音素列を得る変換手段と、
    各々の前記音声データから得られた前記第1の音素について音素マッチングを行うことにより、前記第2の音素列との相関それぞれ決定する決定手段と、
    前記相関度が所定の閾値以上である前記第1の音素列に対応する音声データが対応付けられた前記データを前記相関度でランキングした順位順に並べて表示させると共に前記相関度が前記閾値未満である前記第1の音素列に対応する音声データが対応付けられた前記データを、前記データの名称の名前順、前記データが有する時間情報順、前記データのデータサイズ順、前記データの表示サイズ順のうちいずれかに従って並べて表示させるよう前記表示手段を制御する表示制御手段を有するデータ検索装置。
  7. 各々のデータが所定の音声データと対応付けて蓄積されている複数のデータから、所望のデータを検索し、検索結果を表示手段に表示させるデータ検索装置であって、
    前記複数のデータと、前記複数のデータの各々に対応付けられた所定の音声データとを蓄積する蓄積手段と、
    各々の前記音声データを音声認識することによって得られた第1の単語列を取得する取得手段と、
    ユーザによる操作に応答して、検索条件に相当する検索キーを入力する入力手段と、
    前記検索キーを形態素解析して第2の単語列を得る変換手段と、
    各々の前記音声データから得られた前記第1の単語列について、単語マッチングを行うことにより、前記第2の単語列との相関度をそれぞれ決定する決定手段と、
    前記相関度が所定の閾値以上である前記第1の単語列に対応する音声データが対応付けられた前記データを前記相関度でランキングした順位順に並べて表示させると共に、前記相関度が前記閾値未満である前記第1の単語列に対応する音声データが対応付けられた前記データを、前記データの名称の名前順、前記データが有する時間情報順、前記データのデータサイズ順、前記データの表示サイズ順のうちいずれかに従って並べて表示させるよう前記表示手段を制御する表示制御手段を有するデータ検索装置。
JP2004292606A 2004-10-05 2004-10-05 データ検索装置及びデータ検索方法 Expired - Fee Related JP4579638B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004292606A JP4579638B2 (ja) 2004-10-05 2004-10-05 データ検索装置及びデータ検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004292606A JP4579638B2 (ja) 2004-10-05 2004-10-05 データ検索装置及びデータ検索方法

Publications (3)

Publication Number Publication Date
JP2006107108A JP2006107108A (ja) 2006-04-20
JP2006107108A5 JP2006107108A5 (ja) 2010-02-18
JP4579638B2 true JP4579638B2 (ja) 2010-11-10

Family

ID=36376778

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004292606A Expired - Fee Related JP4579638B2 (ja) 2004-10-05 2004-10-05 データ検索装置及びデータ検索方法

Country Status (1)

Country Link
JP (1) JP4579638B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010008601A (ja) 2008-06-25 2010-01-14 Fujitsu Ltd 案内情報表示装置、案内情報表示方法及びプログラム
US8364481B2 (en) * 2008-07-02 2013-01-29 Google Inc. Speech recognition with parallel recognition tasks
CN108984730A (zh) * 2018-07-12 2018-12-11 三星电子(中国)研发中心 一种搜索方法和搜索设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6135498A (ja) * 1984-07-27 1986-02-19 松下電器産業株式会社 音声認識装置
JPH03266898A (ja) * 1990-03-16 1991-11-27 Fujitsu Ltd 大語彙音声認識処理方式
JPH09101970A (ja) * 1995-10-06 1997-04-15 Omron Corp 画像検索方法および画像検索装置
JPH09135417A (ja) * 1995-11-10 1997-05-20 Ricoh Co Ltd デジタルスチルビデオカメラ
JPH11175535A (ja) * 1997-12-08 1999-07-02 Hitachi Ltd 画像検索方法およびその装置およびこれを利用した検索サービス
JP2000357175A (ja) * 1993-05-18 2000-12-26 Seiko Epson Corp データ管理装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6135498A (ja) * 1984-07-27 1986-02-19 松下電器産業株式会社 音声認識装置
JPH03266898A (ja) * 1990-03-16 1991-11-27 Fujitsu Ltd 大語彙音声認識処理方式
JP2000357175A (ja) * 1993-05-18 2000-12-26 Seiko Epson Corp データ管理装置
JPH09101970A (ja) * 1995-10-06 1997-04-15 Omron Corp 画像検索方法および画像検索装置
JPH09135417A (ja) * 1995-11-10 1997-05-20 Ricoh Co Ltd デジタルスチルビデオカメラ
JPH11175535A (ja) * 1997-12-08 1999-07-02 Hitachi Ltd 画像検索方法およびその装置およびこれを利用した検索サービス

Also Published As

Publication number Publication date
JP2006107108A (ja) 2006-04-20

Similar Documents

Publication Publication Date Title
CN109493850B (zh) 成长型对话装置
JP3848319B2 (ja) 情報処理方法及び情報処理装置
JP4218758B2 (ja) 字幕生成装置、字幕生成方法、及びプログラム
US20070174326A1 (en) Application of metadata to digital media
JP2836159B2 (ja) 同時通訳向き音声認識システムおよびその音声認識方法
US20090234854A1 (en) Search system and search method for speech database
US20060047647A1 (en) Method and apparatus for retrieving data
CN109033060B (zh) 一种信息对齐方法、装置、设备及可读存储介质
JP4699954B2 (ja) マルチメディアデータ管理方法とその装置
CN111276149B (zh) 语音识别方法、装置、设备及可读存储介质
US9251808B2 (en) Apparatus and method for clustering speakers, and a non-transitory computer readable medium thereof
JP5296598B2 (ja) 音声情報抽出装置
US11501546B2 (en) Media management system for video data processing and adaptation data generation
CN112382295B (zh) 语音识别方法、装置、设备及可读存储介质
JP4738847B2 (ja) データ検索装置および方法
KR102170844B1 (ko) 강의 관련 키워드를 기반으로 하는 강의 음성파일 텍스트 변환 시스템
JP5897718B2 (ja) 音声検索装置、計算機読み取り可能な記憶媒体、及び音声検索方法
CN111785299B (zh) 一种语音测评方法、装置、设备及计算机存储介质
KR20060100646A (ko) 영상물의 특정 위치를 검색하는 방법 및 영상 검색 시스템
JP4579638B2 (ja) データ検索装置及びデータ検索方法
JP2005345616A (ja) 情報処理装置及び情報処理方法
WO2009113505A1 (ja) 映像分割装置、方法及びプログラム
US20050125224A1 (en) Method and apparatus for fusion of recognition results from multiple types of data sources
JP3444831B2 (ja) 編集処理装置、及び編集処理プログラムが記憶された記憶媒体
CN110890095A (zh) 语音检测方法、推荐方法、装置、存储介质和电子设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071003

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091228

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20100201

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100210

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100216

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100412

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20100630

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100824

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100826

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130903

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees