JP4587165B2 - 情報処理装置及びその制御方法 - Google Patents

情報処理装置及びその制御方法 Download PDF

Info

Publication number
JP4587165B2
JP4587165B2 JP2004249014A JP2004249014A JP4587165B2 JP 4587165 B2 JP4587165 B2 JP 4587165B2 JP 2004249014 A JP2004249014 A JP 2004249014A JP 2004249014 A JP2004249014 A JP 2004249014A JP 4587165 B2 JP4587165 B2 JP 4587165B2
Authority
JP
Japan
Prior art keywords
data
content data
phoneme
annotation
phoneme string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004249014A
Other languages
English (en)
Other versions
JP2006065675A (ja
JP2006065675A5 (ja
Inventor
英生 久保山
寛樹 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2004249014A priority Critical patent/JP4587165B2/ja
Priority to US11/202,493 priority patent/US20060047647A1/en
Publication of JP2006065675A publication Critical patent/JP2006065675A/ja
Publication of JP2006065675A5 publication Critical patent/JP2006065675A5/ja
Application granted granted Critical
Publication of JP4587165B2 publication Critical patent/JP4587165B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、データ検索方法および装置に関する。
デジタルカメラのような携帯型撮像装置により撮像されたデジタル画像は、パーソナルコンピュータ(PC)やサーバコンピュータ等で管理することができる。例えば、撮影した画像を、PCあるいはサーバ上のフォルダ内に整理したり、特定の画像を印刷したり、あるいは、年賀状の絵の一部として組み込むことも可能である。また、サーバで管理する場合には、一部の画像を他のユーザに公開することも可能である。
このような作業を行う場合には、ユーザの意図する特定の画像を見つけ出すことが必要となる。見つけ出す対象となる画像数が少ない場合は、画像をサムネイル表示し、その一覧から目視で見つけ出すことも可能である。しかし、対象となる画像数が何百となる場合や、対象画像群が複数フォルダに分断されて格納されている場合は、目視で見つけ出すことが困難になる。
これに対し、撮像装置上で画像に音声アノテーション(音声による注釈)を付け、検索時にその情報を使うことが行われている。例えば、山の画像を撮像し、その画像に対して「箱根の山」と発声する。この音声データは、先の画像データと対となって撮像装置内に格納された後、その画像撮像装置内あるいは画像をアップロードしたPC内で音声認識され、“はこねのやま”というテキスト情報に変換される。アノテーションデータがテキスト情報に変換されれば、後は一般的なテキスト検索技術で処理することが可能であり、「やま」、「はこね」等の単語でその画像を検索することが出来る。
この他、本発明に関連する先行技術として、ユーザが入力した検索キーを登録する技術を開示している特許文献1がある。同文献は、ユーザが入力した検索キーを、同義語等を用いて既存のキーワードの演算式としてシステムに登録する技術を開示している。
特開平2−27479号公報
音声認識で音声アノテーションを変換して検索する場合、音声認識の誤認識は完全には避けられないのが現状である。誤認識の割合が大きい場合には検索キーを正しく入れてもマッチングの相関が悪く、正しく検索されない。このような場合にはいかに検索語を入れようとも、音声認識の結果が悪いため、所望の画像データが上位候補として検索されないという問題がある。
したがって、音声認識の誤認識を伴って生成されたアノテーションが検索対象のデータに付属していてもデータの検索精度を高めることのできる技術を導入する必要がある。
上記した問題を解決するために、例えば本発明の一側面に係る情報処理装置の制御方法は、以下の構成を備える。すなわち、複数のコンテンツデータと、前記複数のコンテンツデータの検索のための、各コンテンツデータの注釈を表すアノテーションデータとを対応付けて記憶するデータベースを有し、各アノテーションデータは、対応するコンテンツデータの注釈を表す音声データを入力し、該音声データに対し音声認識を行うことによって作成されるように構成された情報処理装置の制御方法であって、入力手段が、ユーザによる操作に応答して、検索条件に相当する検索キーを入力する入力ステップと、解析手段が、前記入力ステップで入力された前記検索キーに対して形態素解析を行うことにより前記検索キーを単語列に分割し、各単語列に読みを付与し、第1の音素列を得る解析ステップと、計算手段が、前記データベースに登録されている各アノテーションデータについて、そのアノテーションデータを構成する第2の音素列と前記解析ステップで得られた前記第1の音素列との音素マッチングを行うことにより、前記第2の音素列の前記第1の音素列に対する相関度を計算する計算ステップと、表示制御手段が、前記複数のコンテンツデータを、前記計算ステップで計算された前記相関度でランキングした順序に並べて表示部に表示させる表示制御ステップと、受付手段が、前記表示部に表示された前記複数のコンテンツデータからユーザが1又は2以上のコンテンツデータを選択する操作を受け付ける受付ステップと、登録手段が、前記解析ステップで得られた前記第1の音素列を、前記受付ステップにおいて前記ユーザが選択した1又は2以上のコンテンツデータに対応付けて前記データベースに登録する登録ステップとを有することを特徴とする。
本発明によれば、音声認識の誤認識を伴って生成されたアノテーションが検索対象のデータに付属していても、データの検索精度を高めることが可能になる。
以下、図面を参照して本発明の好適な実施形態について詳細に説明する。
図1Aは、本発明の一実施形態に係るデータ検索装置の機能構成を示す図である。同図において、100はデータベースである。101は、データベース100に蓄積される画像やドキュメントなどをコンテンツとする複数の検索対象データである。検索対象データ101は例えば図1Bに示すような構造で、画像やドキュメントなどのコンテンツデータ102を有するほか、コンテンツデータ102に対応する、音声によって注釈をつけた音声アノテーションデータ(音声メモデータ)103、音声アノテーションデータ103の音声認識によって得られた音素列や音節列や単語列などのサブワード列(本実施形態では音素列で説明する)を含むアノテーションデータとしての音声認識結果アノテーションデータ104が付属する。
105は、所望のコンテンツデータ102を検索するために検索キーを入力する検索キー入力部である。106は、検策キーでマッチングを取るために、音声認識結果アノテーションデータ104と同様の書式のサブワード列に検索キーを変換する検索キー変換部である。107は、データベース100内の複数の音声認識結果アノテーションデータ104と検索キーとでマッチングを取り、それぞれの音声認識結果アノテーションデータ104に対する相関度スコアを求め、音声認識結果アノテーションデータ104に対応するコンテンツデータ102を順位付けする検索部である。108は、検索部107によって順位付けされたコンテンツデータ102を順位順に表示する表示部である。109は、表示部108に表示されたコンテンツデータ102の中から、ユーザが所望するデータを選択するユーザ選択部である。110は、ユーザ選択部109においてユーザが選択したデータに対応する音声認識結果アノテーションデータ104に、検索キーのサブワード列を追加的に登録するアノテーション登録部である。
本実施形態におけるデータ検索装置の機能構成は概ね上記のとおりである。また、このデータ検索装置における処理は、図1の上のブロックから順次、行われる。つまり、この図1は、このデータ検索装置による処理フローをも表している。そこで、以下ではこの図1を参照して、本実施形態におけるデータ検索装置の処理の流れを詳細に説明する。
上記したように、画像やドキュメントなどコンテンツとする検索対象データ101には、対応する音声アノテーションデータ103及びこの音声アノテーションデータを音声認識した結果である音声認識結果アノテーションデータ104が含まれる(図1Bを参照。)。ここで、音声認識結果アノテーションデータ104は、本装置に音声認識部を設けておいて作成するようにしてもよいし、画像を撮像するカメラなど、別の装置上に設けられた音声認識部を利用して作成するようにしてもよい。また、本発明においてデータ検索に使用されるのは音声認識結果アノテーションデータ104であるため、音声認識結果アノテーションデータ104が作成された後は、音声アノテーションデータ103は存在しなくとも構わない。
図2に、音声認識結果アノテーションデータ104の一例を示す。同図の201は、音声アノテーションデータ103を音声認識して音素列に変換した認識結果音素列であり、尤度等に基づく認識スコアの高い上位N位(Nは1以上の整数)までが順番に並んでいる。
まず、ユーザは検索キー入力部105に検索キーを入力する。入力された検索キーは検索キー変換部106に渡され、その検索キーが認識結果音素列201と同じ形式の音素列に変換される。
図3は検索キーを音素列に変換する様子を表している。検索キー「箱根の山」を、形態素解析し、単語列に分割する。さらに、単語列に読みを付与し、音素列を得る。形態素解析、読み付与の方法は公知の自然言語処理技術を適用することができる。
次に、検索部107において、検索キーの音素列と、各検索対象データ101における音声認識結果アノテーションデータ104とで音素マッチングを取り、検索キーとの相関度を表す音素正解精度を求める。マッチングは、公知のDPマッチング法などにより行うことができる。
図4は音素正解精度を求める様子を表している。音素正解精度は、DPマッチング等により正解数、挿入誤り数、削除誤り数、置換誤り数が得られたときに、次式により求める。
{(正解数)―(挿入誤り数)―(削除誤り数)―(置換誤り数)}×100/(正解数)
図4においては、挿入誤りが“o”と“a”の2箇所、そして“h”を“f”として誤った置換誤りが1箇所であり、音素正解精度は75%となる。このようにして求めた音素正解精度を、検索に用いるスコアとしてコンテンツデータ102をランキングする。ここで、図2の音声認識結果アノテーションデータは上位N位の認識結果音素列が存在するが、マッチングはこれらそれぞれと行って音素正解精度を求め、最も良い音素正解精度及び認識結果音素列を採用する。ただし本発明はこれに限るものではなく、順位によって重み係数を音素正解精度にかけてから最大値を取ったり、総和を取ったりしても良い。
次に、表示部108によりデータを検索順位順に表示する。図5に、表示部108がデータ(ここでは画像)をウインドウに表示する例を示す。同図においては、ウインドウの左のフレームで検索キーを入力して検索ボタンを押すと、同ウインドウの右のフレームにコンテンツデータ102が検索順位順に表示される。
ここで、ユーザは、表示されているデータから1または2以上のデータを選択することができる。先述したように、音声認識の際に認識誤りを起こしている可能性があるから、所望のコンテンツデータは上位に現れず、下位の方にかろうじて現れている場合もある。そこで、本実施形態では、たとえ上位に検索されなくとも、ユーザが所望の画像であるとしてここで選択をすれば、以下の処理によって、同じ検索キーで再度検索する際には確実に上位で検索することが可能になる。
すなわち、ユーザ選択部109は、ユーザの選択操作に従いデータを選択する。これに応じ、アノテーション登録部110は、検索キーを変換した音素列を、選択したデータに対応する音声認識結果アノテーションデータ104に追加的に登録する。
図6にその様子を示す。同図において、601はポインタであり、これを用いてユーザは表示されているデータのうち一つを選択する。このときのデータ選択手法としては、画像を指定できる方法であればどのような方法でも構わない。例えば、ユーザによってクリックされた画像をそのまま選択しても良いし、ユーザによってクリックされた画像について、選択するかをユーザに問い合わせ、その後ユーザからOKが得られた場合に選択するようにしてもよい。602は、検索キーを変換した音素列で、この音素列が、選択されたデータに対応する音声認識結果アノテーションデータ104に追加的に登録される。これにより、再び全く同じ検索キーを入力して検索するときには、図4に示した音素正解精度が100%となって1位もしくはそれに順ずる順位で検索できるし、一部が同じ検索キーを入力する場合にも、部分マッチングの技術を用いて検索する場合に検索精度を上げることができる。
図7に、本実施形態におけるデータ検索装置のハードウエア構成例を示しておく。
同図において、701は、データやGUIなどを表示する表示装置である。702は、検索キーなどを入力したりGUIボタンを押下するためのキーボード/マウスである。703は、音声アノテーションデータや警告音などの音を出力するスピーカなどを含む音声出力装置である。704は、データベース100や本データ検索方法を実現するための制御プログラムを保持するROMである。もっとも、ハードディスクなどの外部記憶装置を別途設け、ここにデータベース100や本データ検索方法を実現するための制御プログラムを保持させてもよい。705は、主記憶装置として機能し、特に、本データ検索方法のプログラム実行時に、当該プログラムやデータ等を一時的に記憶するRAMである。706は、本装置の制御を司るCPUで、特に、本データ検索方法を実現するための制御プログラムを実行する。
上述の実施形態では、サブワードとして音素を用いたマッチングによるスコアを用いたが、本発明はこれに限るものではなく、例えば音素ではなく音節でのマッチングや、単語単位でのマッチングによるスコアでも良い。また、これに音声認識で求まる認識尤度を加味したり、音素間の類似度(“p”と“t”は類似度が高いなど)を用いてスコアの重み付けをしたりしても良い。
また、上記実施形態では、図4に示すとおり音素列の全体マッチングによる音素正解精度を検索のためのスコアとして用いたが、挿入誤りによるスコアの劣化を抑えるなどとしたスコアの工夫により検索キーの部分的なマッチングによって検索しても良い。この実施形態では、例えば音声認識結果アノテーションデータに「箱根の山」というアノテーションが付与されているときに、部分マッチングにより「箱根」、「山」を検索キーとして検索が可能となる。
また、上記実施形態における音声認識結果アノテーションデータ104は、図2に示したように、音素列201のみが並ぶデータとして説明したが、その他の態様を適用することもできる。例えば、それぞれの音素列に属性をつけ、音声認識で作成された音素列なのか、アノテーション登録部110によって検索キーの音素列が追加されたものなのかを区別する。
図8にこの変形例における音声認識結果アノテーションデータ104を示す。同図において、801はそれぞれの音素列が生成された属性である。ここで、属性値“phonemeASR”は音素列認識型の音声認識によって作成された音素列であることを表し、“user”はユーザがデータを選択したときにアノテーション登録部110によって追加された音素列であることを表す。これを用いて、検索時に使用された音素列によって表示方法を切り替えたり、またはアノテーション登録部110によって追加登録された音素列を消去したりすることができる。また、この属性はこれに限るものではなく、音声認識でも属性値によって音素列認識/単語列認識などを判断できるようにしても良い。
また、上記実施形態の音声認識結果アノテーションデータ104は、図2に示したように、上位N個の認識結果を音素などのサブワード列として保持されていたが、本発明はこれに限らず、各サブワードで構成するラティス(サブワードグラフ)を出力し、ラティスの始端から終端までのそれぞれのパスにおいて音素正解精度を求めても良い。
図9にサブワードグラフの例を示す。同図において、901はサブワードグラフのノードであり、図9の例では音素ごとにノードを形成する。902は、ノードを結ぶリンクであり、これによって音素の連鎖を表現する。リンクには、リンクが結ぶノード間の音声認識区間尤度が割り振られていることが一般的であり、この音声認識区間尤度を用いると、A*探索という手法により上位N個の音素列候補を抽出できる。この候補と検索キーとのマッチングにより、音素正解精度を得る。
この場合、アノテーション登録部110が音素列を追加する場合には、図9のサブワードグラフに必要なノードを追加しても構わないし、図10に示すように音声認識によって生成された音素列のグラフとアノテーション登録部110によって登録された音素列のグラフとを分けて保持しても構わない。また、アノテーション登録部110が追加する音素列が、既に図9のサブワードグラフのパスに存在する場合には、そのパスがA*探索によって選択されるようにリンク902の音声認識区間尤度を変更するように実装しても構わない。
また、上記実施形態においては、アノテーション登録部110は検索キーの音素列を音声認識結果アノテーションデータ104に追加登録するものとして説明したが、本発明はこれに限るものではなく、例えば、認識結果上位N個の音素列のうちN番目の音素列(すなわち、音声認識結果アノテーションデータ104において認識スコアが最下位の音素列)を検索キーの音素列に置換するようにしても構わない。
(その他の実施形態)
以上、本発明の実施形態を詳述したが、本発明は、複数の機器から構成されるシステムに適用してもよいし、また、一つの機器からなる装置に適用してもよい。
なお、本発明は、前述した実施形態の機能を実現するソフトウェアのプログラムを、システムあるいは装置に直接あるいは遠隔から供給し、そのシステムあるいは装置のコンピュータがその供給されたプログラムコードを読み出して実行することによっても達成される。その場合、プログラムの機能を有していれば、その形態はプログラムである必要はない。
従って、本発明の機能処理をコンピュータで実現するために、そのコンピュータにインストールされるプログラムコード自体およびそのプログラムを格納した記憶媒体も本発明を構成することになる。つまり、本発明の特許請求の範囲には、本発明の機能処理を実現するためのコンピュータプログラム自体、およびそのプログラムを格納した記憶媒体も含まれる。
その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給するスクリプトデータ等、プログラムの形態を問わない。
プログラムを供給するための記憶媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、MO、CD−ROM、CD−R、CD−RW、磁気テープ、不揮発性のメモリカード、ROM、DVD(DVD−ROM、DVD−R)などがある。
その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続し、そのホームページから本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイルをハードディスク等の記憶媒体にダウンロードすることによっても供給できる。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるWWWサーバも、本発明のクレームに含まれるものである。
また、本発明のプログラムを暗号化してCD−ROM等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせ、その鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。
また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される他、そのプログラムの指示に基づき、コンピュータ上で稼動しているOSなどが、実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現され得る。
さらに、記憶媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現される。
図1Aは、本発明の実施形態におけるデータ検索装置の機能構成および処理フローを示す図である。 図1Bは、本発明の実施形態における検索対象データの構造例を示す図である。 図2は、本発明の実施形態における音声認識結果アノテーションデータの一例を示す図である。 図3は、本発明の実施形態における検索キー変換部による処理を説明する図である。 図4は、本発明の実施形態における検索部による音素マッチング処理を説明する図である。 図5は、本発明の実施形態における表示部による検索結果の表示例示す図である。 図6は、本発明の実施形態におけるアノテーション変更部による処理を説明する図である。 図7は、本発明の実施形態におけるデータ検索装置のハードウエア構成例を示すブロック図である。 図8は、本発明の実施形態における音声認識結果アノテーションデータの変形例を示す図である。 図9は、本発明の実施形態におけるサブワードグラフの例を示す図である。 図10は、本発明の実施形態におけるアノテーション変更部による音素列の追加処理の変形例を説明する図である。

Claims (4)

  1. 複数のコンテンツデータと、前記複数のコンテンツデータの検索のための、各コンテンツデータの注釈を表すアノテーションデータとを対応付けて記憶するデータベースを有し、各アノテーションデータは、対応するコンテンツデータの注釈を表す音声データを入力し、該音声データに対し音声認識を行うことによって作成されるように構成された情報処理装置の制御方法であって、
    入力手段が、ユーザによる操作に応答して、検索条件に相当する検索キーを入力する入力ステップと、
    解析手段が、前記入力ステップで入力された前記検索キーに対して形態素解析を行うことにより前記検索キーを単語列に分割し、各単語列に読みを付与し、第1の音素列を得る解析ステップと、
    計算手段が、前記データベースに登録されている各アノテーションデータについて、そのアノテーションデータを構成する第2の音素列と前記解析ステップで得られた前記第1の音素列との音素マッチングを行うことにより、前記第2の音素列の前記第1の音素列に対する相関度を計算する計算ステップと、
    表示制御手段が、前記複数のコンテンツデータを、前記計算ステップで計算された前記相関度でランキングした順序に並べて表示部に表示させる表示制御ステップと、
    受付手段が、前記表示部に表示された前記複数のコンテンツデータからユーザが1又は2以上のコンテンツデータを選択する操作を受け付ける受付ステップと、
    登録手段が、前記解析ステップで得られた前記第1の音素列を、前記受付ステップにおいて前記ユーザが選択した1又は2以上のコンテンツデータに対応付けて前記データベースに登録する登録ステップと、
    を有することを特徴とする情報処理装置の制御方法。
  2. 複数のコンテンツデータと、前記複数のコンテンツデータの検索のための、各コンテンツデータの注釈を表すアノテーションデータとを対応付けて記憶するデータベースを有し、各アノテーションデータは、対応するコンテンツデータの注釈を表す音声データを入力し、該音声データに対し音声認識を行うことによって作成されるように構成された情報処理装置であって、
    ユーザによる操作に応答して、検索条件に相当する検索キーを入力する入力手段と、
    前記入力手段により入力された前記検索キーに対して形態素解析を行うことにより前記検索キーを単語列に分割し、各単語列に読みを付与し、第1の音素列を得る解析手段と、
    前記データベースに登録されている各アノテーションデータについて、そのアノテーションデータを構成する第2の音素列と前記解析手段により得られた前記第1の音素列との音素マッチングを行うことにより、前記第2の音素列の前記第1の音素列に対する相関度を計算する計算手段と、
    前記複数のコンテンツデータを、前記計算手段により計算された前記相関度でランキングした順序に並べて表示部に表示させる表示制御手段と、
    前記表示部に表示された前記複数のコンテンツデータからユーザが1又は2以上のコンテンツデータを選択する操作を受け付ける受付手段と、
    前記解析手段により得られた前記第1の音素列を、前記ユーザが選択した1又は2以上のコンテンツデータに対応付けて前記データベースに登録する登録手段と、
    を有することを特徴とする情報処理装置。
  3. 複数のコンテンツデータと、前記複数のコンテンツデータの検索のための、各コンテンツデータの注釈を表すアノテーションデータとを対応付けて記憶するデータベースを有し、各アノテーションデータは、対応するコンテンツデータの注釈を表す音声データを入力し、該音声データに対し音声認識を行うことによって作成されるように構成された情報処理装置によって実行されるプログラムであって、前記情報処理装置を、
    ユーザによる操作に応答して、検索条件に相当する検索キーを入力する入力手段、
    前記入力手段により入力された前記検索キーに対して形態素解析を行うことにより前記検索キーを単語列に分割し、各単語列に読みを付与し、第1の音素列を得る解析手段、
    前記データベースに登録されている各アノテーションデータについて、そのアノテーションデータを構成する第2の音素列と前記解析手段により得られた前記第1の音素列との音素マッチングを行うことにより、前記第2の音素列の前記第1の音素列に対する相関度を計算する計算手段、
    前記複数のコンテンツデータを、前記計算手段により計算された前記相関度でランキングした順序に並べて表示部に表示させる表示制御手段、
    前記表示部に表示された前記複数のコンテンツデータからユーザが1又は2以上のコンテンツデータを選択する操作を受け付ける受付手段、
    前記解析手段により得られた前記第1の音素列を、前記ユーザが選択した1又は2以上のコンテンツデータに対応付けて前記データベースに登録する登録手段、
    として機能させるためのプログラム。
  4. 請求項に記載のプログラムを格納したコンピュータ読み取り可能な記憶媒体。
JP2004249014A 2004-08-27 2004-08-27 情報処理装置及びその制御方法 Expired - Fee Related JP4587165B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2004249014A JP4587165B2 (ja) 2004-08-27 2004-08-27 情報処理装置及びその制御方法
US11/202,493 US20060047647A1 (en) 2004-08-27 2005-08-12 Method and apparatus for retrieving data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004249014A JP4587165B2 (ja) 2004-08-27 2004-08-27 情報処理装置及びその制御方法

Publications (3)

Publication Number Publication Date
JP2006065675A JP2006065675A (ja) 2006-03-09
JP2006065675A5 JP2006065675A5 (ja) 2007-10-11
JP4587165B2 true JP4587165B2 (ja) 2010-11-24

Family

ID=35944627

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004249014A Expired - Fee Related JP4587165B2 (ja) 2004-08-27 2004-08-27 情報処理装置及びその制御方法

Country Status (2)

Country Link
US (1) US20060047647A1 (ja)
JP (1) JP4587165B2 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100735820B1 (ko) * 2006-03-02 2007-07-06 삼성전자주식회사 휴대 단말기에서 음성 인식에 의한 멀티미디어 데이터 검색방법 및 그 장치
WO2007105655A1 (ja) 2006-03-10 2007-09-20 Nsk Ltd. 複列転がり軸受ユニット用予圧測定装置
US20080240158A1 (en) * 2007-03-30 2008-10-02 Eric Bouillet Method and apparatus for scalable storage for data stream processing systems
US20090055242A1 (en) * 2007-08-24 2009-02-26 Gaurav Rewari Content identification and classification apparatus, systems, and methods
US20090055368A1 (en) * 2007-08-24 2009-02-26 Gaurav Rewari Content classification and extraction apparatus, systems, and methods
US7716228B2 (en) * 2007-09-25 2010-05-11 Firstrain, Inc. Content quality apparatus, systems, and methods
US8321277B2 (en) * 2008-06-18 2012-11-27 Nuance Communications, Inc. Method and system for voice ordering utilizing product information
JPWO2010044123A1 (ja) * 2008-10-14 2012-03-08 三菱電機株式会社 検索装置、検索用索引作成装置、および検索システム
US8903847B2 (en) * 2010-03-05 2014-12-02 International Business Machines Corporation Digital media voice tags in social networks
US8977613B1 (en) 2012-06-12 2015-03-10 Firstrain, Inc. Generation of recurring searches
JP5939587B2 (ja) * 2014-03-27 2016-06-22 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation アノテーションの相関を計算する装置及び方法
CN113284509B (zh) * 2021-05-06 2024-01-16 北京百度网讯科技有限公司 语音标注的正确率获取方法、装置和电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1139338A (ja) * 1997-07-24 1999-02-12 Toshiba Corp 文書検索装置、文書検索方法及び文書検索のためのプログラムを記録した媒体
JP2002539528A (ja) * 1999-03-05 2002-11-19 キヤノン株式会社 データベース注釈付け及び検索
JP2004206521A (ja) * 2002-12-26 2004-07-22 Nec Corp 文書検索装置および文書検索プログラム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3427692B2 (ja) * 1996-11-20 2003-07-22 松下電器産業株式会社 文字認識方法および文字認識装置
US6181351B1 (en) * 1998-04-13 2001-01-30 Microsoft Corporation Synchronizing the moveable mouths of animated characters with recorded speech
JP2000020089A (ja) * 1998-07-07 2000-01-21 Matsushita Electric Ind Co Ltd 音声認識方法及びその装置、並びに音声制御システム
JP3252282B2 (ja) * 1998-12-17 2002-02-04 松下電器産業株式会社 シーンを検索する方法及びその装置
WO2000045375A1 (en) * 1999-01-27 2000-08-03 Kent Ridge Digital Labs Method and apparatus for voice annotation and retrieval of multimedia data
US6882970B1 (en) * 1999-10-28 2005-04-19 Canon Kabushiki Kaisha Language recognition using sequence frequency
GB0015233D0 (en) * 2000-06-21 2000-08-16 Canon Kk Indexing method and apparatus
GB0023930D0 (en) * 2000-09-29 2000-11-15 Canon Kk Database annotation and retrieval
US6970818B2 (en) * 2001-12-07 2005-11-29 Sony Corporation Methodology for implementing a vocabulary set for use in a speech recognition system
CN100338619C (zh) * 2002-08-07 2007-09-19 松下电器产业株式会社 字符识别处理设备、字符识别处理方法和便携式终端设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1139338A (ja) * 1997-07-24 1999-02-12 Toshiba Corp 文書検索装置、文書検索方法及び文書検索のためのプログラムを記録した媒体
JP2002539528A (ja) * 1999-03-05 2002-11-19 キヤノン株式会社 データベース注釈付け及び検索
JP2004206521A (ja) * 2002-12-26 2004-07-22 Nec Corp 文書検索装置および文書検索プログラム

Also Published As

Publication number Publication date
JP2006065675A (ja) 2006-03-09
US20060047647A1 (en) 2006-03-02

Similar Documents

Publication Publication Date Title
US20060047647A1 (en) Method and apparatus for retrieving data
JP2836159B2 (ja) 同時通訳向き音声認識システムおよびその音声認識方法
US7818173B2 (en) Information retrieval system, method, and program
JP3983265B1 (ja) 辞書作成支援システム、方法及びプログラム
US20160055763A1 (en) Electronic apparatus, pronunciation learning support method, and program storage medium
JP2011018330A (ja) 統計的な方法を用いて漢字を自国語の発音列に変換するシステムおよび方法
JP2005150841A (ja) 情報処理方法及び情報処理装置
JP4738847B2 (ja) データ検索装置および方法
JP2007087397A (ja) 形態素解析プログラム、補正プログラム、形態素解析装置、補正装置、形態素解析方法および補正方法
Ríos-Vila et al. Evaluating simultaneous recognition and encoding for optical music recognition
KR20060100646A (ko) 영상물의 특정 위치를 검색하는 방법 및 영상 검색 시스템
US11606629B2 (en) Information processing apparatus and non-transitory computer readable medium storing program
WO2010026804A1 (ja) 近似照合装置、近似照合方法、プログラム及び記録媒体
JP2006236037A (ja) 音声対話コンテンツ作成方法、装置、プログラム、記録媒体
JP2004348552A (ja) 音声文書検索装置および方法およびプログラム
JP4515186B2 (ja) 音声辞書作成装置、音声辞書作成方法、及びプログラム
JP4579638B2 (ja) データ検索装置及びデータ検索方法
JP2004184951A (ja) クラス同定モデル生成方法、装置、およびプログラム、クラス同定方法、装置、およびプログラム
JP2004171174A (ja) 文章読み上げ装置、読み上げのためのプログラム及び記録媒体
JP4304146B2 (ja) 辞書登録装置、辞書登録方法および辞書登録プログラム
CN112541651B (zh) 电子设备、发音学习方法、服务器装置、发音学习处理系统及记录介质
CN110782899B (zh) 信息处理装置、存储介质及信息处理方法
JP3734101B2 (ja) ハイパーメディア構築支援装置
JP2007171275A (ja) 言語処理装置及び現後処理方法
JP4621936B2 (ja) 音声合成装置、学習データ生成装置、ポーズ予測装置およびプログラム

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070827

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070827

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20070827

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100225

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100312

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100511

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100827

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100906

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100831

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130917

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130917

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130917

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130917

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees