JP4587165B2 - Information processing apparatus and control method thereof - Google Patents

Information processing apparatus and control method thereof Download PDF

Info

Publication number
JP4587165B2
JP4587165B2 JP2004249014A JP2004249014A JP4587165B2 JP 4587165 B2 JP4587165 B2 JP 4587165B2 JP 2004249014 A JP2004249014 A JP 2004249014A JP 2004249014 A JP2004249014 A JP 2004249014A JP 4587165 B2 JP4587165 B2 JP 4587165B2
Authority
JP
Japan
Prior art keywords
data
content data
phoneme
annotation
phoneme string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004249014A
Other languages
Japanese (ja)
Other versions
JP2006065675A (en
JP2006065675A5 (en
Inventor
英生 久保山
寛樹 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2004249014A priority Critical patent/JP4587165B2/en
Priority to US11/202,493 priority patent/US20060047647A1/en
Publication of JP2006065675A publication Critical patent/JP2006065675A/en
Publication of JP2006065675A5 publication Critical patent/JP2006065675A5/ja
Application granted granted Critical
Publication of JP4587165B2 publication Critical patent/JP4587165B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、データ検索方法および装置に関する。   The present invention relates to a data search method and apparatus.

デジタルカメラのような携帯型撮像装置により撮像されたデジタル画像は、パーソナルコンピュータ(PC)やサーバコンピュータ等で管理することができる。例えば、撮影した画像を、PCあるいはサーバ上のフォルダ内に整理したり、特定の画像を印刷したり、あるいは、年賀状の絵の一部として組み込むことも可能である。また、サーバで管理する場合には、一部の画像を他のユーザに公開することも可能である。   Digital images taken by a portable imaging device such as a digital camera can be managed by a personal computer (PC), a server computer, or the like. For example, captured images can be organized in a folder on a PC or server, a specific image can be printed, or incorporated as a part of a New Year's card picture. In addition, when managed by the server, some images can be disclosed to other users.

このような作業を行う場合には、ユーザの意図する特定の画像を見つけ出すことが必要となる。見つけ出す対象となる画像数が少ない場合は、画像をサムネイル表示し、その一覧から目視で見つけ出すことも可能である。しかし、対象となる画像数が何百となる場合や、対象画像群が複数フォルダに分断されて格納されている場合は、目視で見つけ出すことが困難になる。   When performing such work, it is necessary to find a specific image intended by the user. When the number of images to be found is small, the images can be displayed as thumbnails, and can be found visually from the list. However, when the number of target images is hundreds, or when the target image group is divided into a plurality of folders and stored, it is difficult to find it visually.

これに対し、撮像装置上で画像に音声アノテーション(音声による注釈)を付け、検索時にその情報を使うことが行われている。例えば、山の画像を撮像し、その画像に対して「箱根の山」と発声する。この音声データは、先の画像データと対となって撮像装置内に格納された後、その画像撮像装置内あるいは画像をアップロードしたPC内で音声認識され、“はこねのやま”というテキスト情報に変換される。アノテーションデータがテキスト情報に変換されれば、後は一般的なテキスト検索技術で処理することが可能であり、「やま」、「はこね」等の単語でその画像を検索することが出来る。   On the other hand, a voice annotation (annotation by voice) is attached to an image on an imaging device, and the information is used at the time of retrieval. For example, an image of a mountain is taken, and “Hakone no Yama” is uttered on the image. This audio data is stored in the imaging device as a pair with the previous image data, and then voice recognition is performed in the image imaging device or in the PC to which the image is uploaded, and the text information is “Hakoneyama”. Converted. If the annotation data is converted into text information, it can be processed later by a general text search technique, and the image can be searched for using words such as “yama” and “hakone”.

この他、本発明に関連する先行技術として、ユーザが入力した検索キーを登録する技術を開示している特許文献1がある。同文献は、ユーザが入力した検索キーを、同義語等を用いて既存のキーワードの演算式としてシステムに登録する技術を開示している。   In addition, Patent Document 1 discloses a technique for registering a search key input by a user as a prior art related to the present invention. This document discloses a technique for registering a search key input by a user in the system as an arithmetic expression for an existing keyword using a synonym or the like.

特開平2−27479号公報JP-A-2-27479

音声認識で音声アノテーションを変換して検索する場合、音声認識の誤認識は完全には避けられないのが現状である。誤認識の割合が大きい場合には検索キーを正しく入れてもマッチングの相関が悪く、正しく検索されない。このような場合にはいかに検索語を入れようとも、音声認識の結果が悪いため、所望の画像データが上位候補として検索されないという問題がある。   In the case of searching by converting voice annotations by voice recognition, it is the current situation that misrecognition of voice recognition cannot be completely avoided. If the rate of misrecognition is large, even if the search key is correctly inserted, the matching correlation is poor and the search is not performed correctly. In such a case, no matter how the search word is entered, there is a problem that the desired image data is not searched as a higher candidate because the result of the speech recognition is poor.

したがって、音声認識の誤認識を伴って生成されたアノテーションが検索対象のデータに付属していてもデータの検索精度を高めることのできる技術を導入する必要がある。   Therefore, it is necessary to introduce a technique capable of improving the data search accuracy even if annotation generated with erroneous recognition of voice recognition is attached to the data to be searched.

上記した問題を解決するために、例えば本発明の一側面に係る情報処理装置の制御方法は、以下の構成を備える。すなわち、複数のコンテンツデータと、前記複数のコンテンツデータの検索のための、各コンテンツデータの注釈を表すアノテーションデータとを対応付けて記憶するデータベースを有し、各アノテーションデータは、対応するコンテンツデータの注釈を表す音声データを入力し、該音声データに対し音声認識を行うことによって作成されるように構成された情報処理装置の制御方法であって、入力手段が、ユーザによる操作に応答して、検索条件に相当する検索キーを入力する入力ステップと、解析手段が、前記入力ステップで入力された前記検索キーに対して形態素解析を行うことにより前記検索キーを単語列に分割し、各単語列に読みを付与し、第1の音素列を得る解析ステップと、計算手段が、前記データベースに登録されている各アノテーションデータについて、そのアノテーションデータを構成する第2の音素列と前記解析ステップで得られた前記第1の音素列との音素マッチングを行うことにより、前記第2の音素列の前記第1の音素列に対する相関度を計算する計算ステップと、表示制御手段が、前記複数のコンテンツデータを、前記計算ステップで計算された前記相関度でランキングした順序に並べて表示部に表示させる表示制御ステップと、受付手段が、前記表示部に表示された前記複数のコンテンツデータからユーザが1又は2以上のコンテンツデータを選択する操作を受け付ける受付ステップと、登録手段が、前記解析ステップで得られた前記第1の音素列を、前記受付ステップにおいて前記ユーザが選択した1又は2以上のコンテンツデータに対応付けて前記データベースに登録する登録ステップとを有することを特徴とする。 In order to solve the above problem, for example, a method for controlling an information processing apparatus according to one aspect of the present invention includes the following configuration. That is, it has a database that stores a plurality of pieces of content data in association with annotation data representing annotations of each piece of content data for searching the plurality of pieces of content data. An information processing apparatus control method configured to input voice data representing an annotation and perform voice recognition on the voice data, wherein the input unit responds to an operation by a user, An input step for inputting a search key corresponding to a search condition, and the analysis means divides the search key into word strings by performing morphological analysis on the search key input in the input step, and each word string Analysis step for obtaining a first phoneme string and a calculation means are registered in the database. The notation data is subjected to phoneme matching between the second phoneme string constituting the annotation data and the first phoneme string obtained in the analysis step, whereby the first phoneme string of the second phoneme string is obtained. A calculation step for calculating a degree of correlation with respect to the phoneme string; and a display control step for causing the display control unit to display the plurality of content data on the display unit in an order ranked by the degree of correlation calculated in the calculation step; A receiving unit that receives an operation in which a user selects one or more content data from the plurality of content data displayed on the display unit; and a registration unit that includes the first step obtained in the analyzing step. Is associated with one or more content data selected by the user in the accepting step. And having a registration step of registering in the database.

本発明によれば、音声認識の誤認識を伴って生成されたアノテーションが検索対象のデータに付属していても、データの検索精度を高めることが可能になる。   According to the present invention, it is possible to improve data search accuracy even when annotation generated with erroneous recognition of voice recognition is attached to data to be searched.

以下、図面を参照して本発明の好適な実施形態について詳細に説明する。   DESCRIPTION OF EMBODIMENTS Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the drawings.

図1Aは、本発明の一実施形態に係るデータ検索装置の機能構成を示す図である。同図において、100はデータベースである。101は、データベース100に蓄積される画像やドキュメントなどをコンテンツとする複数の検索対象データである。検索対象データ101は例えば図1Bに示すような構造で、画像やドキュメントなどのコンテンツデータ102を有するほか、コンテンツデータ102に対応する、音声によって注釈をつけた音声アノテーションデータ(音声メモデータ)103、音声アノテーションデータ103の音声認識によって得られた音素列や音節列や単語列などのサブワード列(本実施形態では音素列で説明する)を含むアノテーションデータとしての音声認識結果アノテーションデータ104が付属する。   FIG. 1A is a diagram showing a functional configuration of a data search apparatus according to an embodiment of the present invention. In the figure, reference numeral 100 denotes a database. Reference numeral 101 denotes a plurality of search target data whose contents are images and documents stored in the database 100. The search target data 101 has a structure as shown in FIG. 1B, for example, and includes content data 102 such as an image and a document, and voice annotation data (voice memo data) 103 annotated by voice corresponding to the content data 102. Attached is speech recognition result annotation data 104 as annotation data including a subword string (described in this embodiment with a phoneme string) such as a phoneme string, a syllable string, and a word string obtained by voice recognition of the voice annotation data 103.

105は、所望のコンテンツデータ102を検索するために検索キーを入力する検索キー入力部である。106は、検策キーでマッチングを取るために、音声認識結果アノテーションデータ104と同様の書式のサブワード列に検索キーを変換する検索キー変換部である。107は、データベース100内の複数の音声認識結果アノテーションデータ104と検索キーとでマッチングを取り、それぞれの音声認識結果アノテーションデータ104に対する相関度スコアを求め、音声認識結果アノテーションデータ104に対応するコンテンツデータ102を順位付けする検索部である。108は、検索部107によって順位付けされたコンテンツデータ102を順位順に表示する表示部である。109は、表示部108に表示されたコンテンツデータ102の中から、ユーザが所望するデータを選択するユーザ選択部である。110は、ユーザ選択部109においてユーザが選択したデータに対応する音声認識結果アノテーションデータ104に、検索キーのサブワード列を追加的に登録するアノテーション登録部である。   Reference numeral 105 denotes a search key input unit that inputs a search key in order to search for desired content data 102. Reference numeral 106 denotes a search key conversion unit that converts a search key into a subword string having the same format as the speech recognition result annotation data 104 in order to perform matching with a check key. 107 matches with the plurality of speech recognition result annotation data 104 in the database 100 and the search key, obtains a correlation score for each speech recognition result annotation data 104, and content data corresponding to the speech recognition result annotation data 104 The search unit ranks 102. A display unit 108 displays the content data 102 ranked by the search unit 107 in the order of ranking. Reference numeral 109 denotes a user selection unit that selects data desired by the user from the content data 102 displayed on the display unit 108. Reference numeral 110 denotes an annotation registration unit that additionally registers the subword string of the search key in the speech recognition result annotation data 104 corresponding to the data selected by the user in the user selection unit 109.

本実施形態におけるデータ検索装置の機能構成は概ね上記のとおりである。また、このデータ検索装置における処理は、図1の上のブロックから順次、行われる。つまり、この図1は、このデータ検索装置による処理フローをも表している。そこで、以下ではこの図1を参照して、本実施形態におけるデータ検索装置の処理の流れを詳細に説明する。   The functional configuration of the data search apparatus in the present embodiment is generally as described above. Further, the processing in this data search apparatus is performed sequentially from the upper block of FIG. That is, FIG. 1 also shows a processing flow by the data search apparatus. In the following, the flow of processing of the data search apparatus in this embodiment will be described in detail with reference to FIG.

上記したように、画像やドキュメントなどコンテンツとする検索対象データ101には、対応する音声アノテーションデータ103及びこの音声アノテーションデータを音声認識した結果である音声認識結果アノテーションデータ104が含まれる(図1Bを参照。)。ここで、音声認識結果アノテーションデータ104は、本装置に音声認識部を設けておいて作成するようにしてもよいし、画像を撮像するカメラなど、別の装置上に設けられた音声認識部を利用して作成するようにしてもよい。また、本発明においてデータ検索に使用されるのは音声認識結果アノテーションデータ104であるため、音声認識結果アノテーションデータ104が作成された後は、音声アノテーションデータ103は存在しなくとも構わない。   As described above, the search target data 101 that is content such as an image or a document includes the corresponding voice annotation data 103 and the voice recognition result annotation data 104 that is a result of voice recognition of the voice annotation data (see FIG. 1B). reference.). Here, the voice recognition result annotation data 104 may be created by providing a voice recognition unit in this apparatus, or a voice recognition unit provided on another apparatus such as a camera that captures an image. You may make it create using. In addition, since the speech recognition result annotation data 104 is used for data retrieval in the present invention, the speech annotation data 103 may not exist after the speech recognition result annotation data 104 is created.

図2に、音声認識結果アノテーションデータ104の一例を示す。同図の201は、音声アノテーションデータ103を音声認識して音素列に変換した認識結果音素列であり、尤度等に基づく認識スコアの高い上位N位(Nは1以上の整数)までが順番に並んでいる。   FIG. 2 shows an example of the voice recognition result annotation data 104. 201 in the figure is a recognition result phoneme sequence obtained by speech recognition of the speech annotation data 103 and converted into a phoneme sequence, and the highest N recognition ranks (N is an integer of 1 or more) having a high recognition score based on likelihood or the like. Are lined up.

まず、ユーザは検索キー入力部105に検索キーを入力する。入力された検索キーは検索キー変換部106に渡され、その検索キーが認識結果音素列201と同じ形式の音素列に変換される。   First, the user inputs a search key into the search key input unit 105. The input search key is transferred to the search key conversion unit 106, and the search key is converted into a phoneme string having the same format as the recognition result phoneme string 201.

図3は検索キーを音素列に変換する様子を表している。検索キー「箱根の山」を、形態素解析し、単語列に分割する。さらに、単語列に読みを付与し、音素列を得る。形態素解析、読み付与の方法は公知の自然言語処理技術を適用することができる。   FIG. 3 shows how the search key is converted into a phoneme string. The search key “Hakone no Yama” is morphologically analyzed and divided into word strings. Further, reading is given to the word string to obtain a phoneme string. A known natural language processing technique can be applied to the morphological analysis and reading method.

次に、検索部107において、検索キーの音素列と、各検索対象データ101における音声認識結果アノテーションデータ104とで音素マッチングを取り、検索キーとの相関度を表す音素正解精度を求める。マッチングは、公知のDPマッチング法などにより行うことができる。   Next, in the search unit 107, phoneme matching is performed between the phoneme string of the search key and the speech recognition result annotation data 104 in each search target data 101, and the correct phoneme accuracy indicating the degree of correlation with the search key is obtained. The matching can be performed by a known DP matching method or the like.

図4は音素正解精度を求める様子を表している。音素正解精度は、DPマッチング等により正解数、挿入誤り数、削除誤り数、置換誤り数が得られたときに、次式により求める。   FIG. 4 shows how the phoneme accuracy is obtained. The phoneme accuracy is obtained by the following equation when the number of correct answers, the number of insertion errors, the number of deletion errors, and the number of replacement errors are obtained by DP matching or the like.

{(正解数)―(挿入誤り数)―(削除誤り数)―(置換誤り数)}×100/(正解数)     {(Number of correct answers)-(Number of insertion errors)-(Number of deletion errors)-(Number of replacement errors)} × 100 / (Number of correct answers)

図4においては、挿入誤りが“o”と“a”の2箇所、そして“h”を“f”として誤った置換誤りが1箇所であり、音素正解精度は75%となる。このようにして求めた音素正解精度を、検索に用いるスコアとしてコンテンツデータ102をランキングする。ここで、図2の音声認識結果アノテーションデータは上位N位の認識結果音素列が存在するが、マッチングはこれらそれぞれと行って音素正解精度を求め、最も良い音素正解精度及び認識結果音素列を採用する。ただし本発明はこれに限るものではなく、順位によって重み係数を音素正解精度にかけてから最大値を取ったり、総和を取ったりしても良い。   In FIG. 4, there are two insertion errors, “o” and “a”, and one erroneous replacement error with “h” as “f”, and the phoneme correct answer accuracy is 75%. The content data 102 is ranked as the score used for the search with the correct phoneme accuracy obtained in this way. Here, the speech recognition result annotation data in FIG. 2 has the top N recognition result phoneme strings, but matching is performed with each of them to obtain the correct phoneme accuracy, and the best correct phoneme accuracy and recognition result phoneme string are adopted. To do. However, the present invention is not limited to this, and the maximum value may be taken or the sum may be taken after applying the weighting coefficient to the correct phoneme accuracy according to the order.

次に、表示部108によりデータを検索順位順に表示する。図5に、表示部108がデータ(ここでは画像)をウインドウに表示する例を示す。同図においては、ウインドウの左のフレームで検索キーを入力して検索ボタンを押すと、同ウインドウの右のフレームにコンテンツデータ102が検索順位順に表示される。   Next, the display unit 108 displays the data in the order of search order. FIG. 5 shows an example in which the display unit 108 displays data (here, an image) on a window. In the figure, when a search key is input in the left frame of the window and the search button is pressed, the content data 102 is displayed in the search frame in the right frame of the window.

ここで、ユーザは、表示されているデータから1または2以上のデータを選択することができる。先述したように、音声認識の際に認識誤りを起こしている可能性があるから、所望のコンテンツデータは上位に現れず、下位の方にかろうじて現れている場合もある。そこで、本実施形態では、たとえ上位に検索されなくとも、ユーザが所望の画像であるとしてここで選択をすれば、以下の処理によって、同じ検索キーで再度検索する際には確実に上位で検索することが可能になる。   Here, the user can select one or more data from the displayed data. As described above, since there is a possibility that a recognition error has occurred during speech recognition, the desired content data may not appear at the upper level, but may barely appear at the lower level. Therefore, in this embodiment, even if the search is not performed at the top, if the user selects here as the desired image, the search is surely performed at the top when the search is performed again with the same search key by the following processing. It becomes possible to do.

すなわち、ユーザ選択部109は、ユーザの選択操作に従いデータを選択する。これに応じ、アノテーション登録部110は、検索キーを変換した音素列を、選択したデータに対応する音声認識結果アノテーションデータ104に追加的に登録する。   That is, the user selection unit 109 selects data in accordance with a user selection operation. In response to this, the annotation registration unit 110 additionally registers the phoneme string obtained by converting the search key in the speech recognition result annotation data 104 corresponding to the selected data.

図6にその様子を示す。同図において、601はポインタであり、これを用いてユーザは表示されているデータのうち一つを選択する。このときのデータ選択手法としては、画像を指定できる方法であればどのような方法でも構わない。例えば、ユーザによってクリックされた画像をそのまま選択しても良いし、ユーザによってクリックされた画像について、選択するかをユーザに問い合わせ、その後ユーザからOKが得られた場合に選択するようにしてもよい。602は、検索キーを変換した音素列で、この音素列が、選択されたデータに対応する音声認識結果アノテーションデータ104に追加的に登録される。これにより、再び全く同じ検索キーを入力して検索するときには、図4に示した音素正解精度が100%となって1位もしくはそれに順ずる順位で検索できるし、一部が同じ検索キーを入力する場合にも、部分マッチングの技術を用いて検索する場合に検索精度を上げることができる。   This is shown in FIG. In the figure, reference numeral 601 denotes a pointer, which is used by the user to select one of the displayed data. As a data selection method at this time, any method may be used as long as it can specify an image. For example, the image clicked by the user may be selected as it is, or the user may be asked whether to select the image clicked by the user, and may be selected when OK is obtained from the user thereafter. . Reference numeral 602 denotes a phoneme string obtained by converting the search key, and this phoneme string is additionally registered in the speech recognition result annotation data 104 corresponding to the selected data. As a result, when the same search key is input again to perform a search, the phoneme accuracy shown in FIG. 4 is 100%, and the search can be performed in the first place or the order corresponding thereto, and a part of the same search key is input. In this case, the search accuracy can be improved when the search is performed using the partial matching technique.

図7に、本実施形態におけるデータ検索装置のハードウエア構成例を示しておく。   FIG. 7 shows an example of the hardware configuration of the data search apparatus according to this embodiment.

同図において、701は、データやGUIなどを表示する表示装置である。702は、検索キーなどを入力したりGUIボタンを押下するためのキーボード/マウスである。703は、音声アノテーションデータや警告音などの音を出力するスピーカなどを含む音声出力装置である。704は、データベース100や本データ検索方法を実現するための制御プログラムを保持するROMである。もっとも、ハードディスクなどの外部記憶装置を別途設け、ここにデータベース100や本データ検索方法を実現するための制御プログラムを保持させてもよい。705は、主記憶装置として機能し、特に、本データ検索方法のプログラム実行時に、当該プログラムやデータ等を一時的に記憶するRAMである。706は、本装置の制御を司るCPUで、特に、本データ検索方法を実現するための制御プログラムを実行する。   In the figure, reference numeral 701 denotes a display device that displays data, GUI, and the like. Reference numeral 702 denotes a keyboard / mouse for inputting a search key or the like or pressing a GUI button. Reference numeral 703 denotes an audio output device including a speaker that outputs sounds such as audio annotation data and warning sounds. A ROM 704 holds a control program for realizing the database 100 and the data search method. Of course, an external storage device such as a hard disk may be provided separately, and the database 100 and a control program for realizing the data search method may be held therein. Reference numeral 705 denotes a RAM that functions as a main storage device, and particularly temporarily stores the program, data, and the like when the data search method program is executed. Reference numeral 706 denotes a CPU that controls the apparatus, and particularly executes a control program for realizing the data search method.

上述の実施形態では、サブワードとして音素を用いたマッチングによるスコアを用いたが、本発明はこれに限るものではなく、例えば音素ではなく音節でのマッチングや、単語単位でのマッチングによるスコアでも良い。また、これに音声認識で求まる認識尤度を加味したり、音素間の類似度(“p”と“t”は類似度が高いなど)を用いてスコアの重み付けをしたりしても良い。   In the above-described embodiment, the score based on matching using phonemes as subwords is used. However, the present invention is not limited to this. For example, a score based on syllables instead of phonemes, or a score based on word-by-word matching may be used. In addition, the likelihood of recognition obtained by speech recognition may be added to this, or the score may be weighted using the similarity between phonemes (eg, “p” and “t” are high in similarity).

また、上記実施形態では、図4に示すとおり音素列の全体マッチングによる音素正解精度を検索のためのスコアとして用いたが、挿入誤りによるスコアの劣化を抑えるなどとしたスコアの工夫により検索キーの部分的なマッチングによって検索しても良い。この実施形態では、例えば音声認識結果アノテーションデータに「箱根の山」というアノテーションが付与されているときに、部分マッチングにより「箱根」、「山」を検索キーとして検索が可能となる。   In the above embodiment, as shown in FIG. 4, the correct phoneme accuracy based on the entire phoneme string matching is used as a search score. You may search by partial matching. In this embodiment, for example, when the annotation “Hakone no Yama” is added to the speech recognition result annotation data, the search can be performed using “Hakone” and “Mountain” as search keys by partial matching.

また、上記実施形態における音声認識結果アノテーションデータ104は、図2に示したように、音素列201のみが並ぶデータとして説明したが、その他の態様を適用することもできる。例えば、それぞれの音素列に属性をつけ、音声認識で作成された音素列なのか、アノテーション登録部110によって検索キーの音素列が追加されたものなのかを区別する。   Further, although the speech recognition result annotation data 104 in the above embodiment has been described as data in which only the phoneme string 201 is arranged as shown in FIG. 2, other modes can be applied. For example, an attribute is assigned to each phoneme string to distinguish whether it is a phoneme string created by speech recognition or a phoneme string of a search key added by the annotation registration unit 110.

図8にこの変形例における音声認識結果アノテーションデータ104を示す。同図において、801はそれぞれの音素列が生成された属性である。ここで、属性値“phonemeASR”は音素列認識型の音声認識によって作成された音素列であることを表し、“user”はユーザがデータを選択したときにアノテーション登録部110によって追加された音素列であることを表す。これを用いて、検索時に使用された音素列によって表示方法を切り替えたり、またはアノテーション登録部110によって追加登録された音素列を消去したりすることができる。また、この属性はこれに限るものではなく、音声認識でも属性値によって音素列認識/単語列認識などを判断できるようにしても良い。   FIG. 8 shows the speech recognition result annotation data 104 in this modification. In the figure, reference numeral 801 denotes an attribute in which each phoneme string is generated. Here, the attribute value “phonemeASR” represents a phoneme sequence created by phoneme sequence recognition type speech recognition, and “user” is a phoneme sequence added by the annotation registration unit 110 when the user selects data. It represents that. By using this, the display method can be switched depending on the phoneme string used at the time of search, or the phoneme string additionally registered by the annotation registration unit 110 can be deleted. Further, this attribute is not limited to this, and it may be possible to determine phoneme string recognition / word string recognition based on attribute values in voice recognition.

また、上記実施形態の音声認識結果アノテーションデータ104は、図2に示したように、上位N個の認識結果を音素などのサブワード列として保持されていたが、本発明はこれに限らず、各サブワードで構成するラティス(サブワードグラフ)を出力し、ラティスの始端から終端までのそれぞれのパスにおいて音素正解精度を求めても良い。   In the speech recognition result annotation data 104 of the above embodiment, the top N recognition results are held as subword strings such as phonemes as shown in FIG. 2, but the present invention is not limited to this. A lattice (subword graph) composed of subwords may be output, and the correct phoneme accuracy may be obtained in each path from the start to the end of the lattice.

図9にサブワードグラフの例を示す。同図において、901はサブワードグラフのノードであり、図9の例では音素ごとにノードを形成する。902は、ノードを結ぶリンクであり、これによって音素の連鎖を表現する。リンクには、リンクが結ぶノード間の音声認識区間尤度が割り振られていることが一般的であり、この音声認識区間尤度を用いると、A*探索という手法により上位N個の音素列候補を抽出できる。この候補と検索キーとのマッチングにより、音素正解精度を得る。   FIG. 9 shows an example of a subword graph. In FIG. 9, reference numeral 901 denotes a node of the subword graph. In the example of FIG. 9, a node is formed for each phoneme. Reference numeral 902 denotes a link connecting nodes, which represents a chain of phonemes. In general, a speech recognition interval likelihood between nodes to which the link is connected is assigned to the link, and when this speech recognition interval likelihood is used, the top N phoneme string candidates are obtained by a method called A * search. Can be extracted. The phoneme correct answer accuracy is obtained by matching the candidate with the search key.

この場合、アノテーション登録部110が音素列を追加する場合には、図9のサブワードグラフに必要なノードを追加しても構わないし、図10に示すように音声認識によって生成された音素列のグラフとアノテーション登録部110によって登録された音素列のグラフとを分けて保持しても構わない。また、アノテーション登録部110が追加する音素列が、既に図9のサブワードグラフのパスに存在する場合には、そのパスがA*探索によって選択されるようにリンク902の音声認識区間尤度を変更するように実装しても構わない。   In this case, when the annotation registration unit 110 adds a phoneme string, a necessary node may be added to the subword graph of FIG. 9, and a graph of a phoneme string generated by speech recognition as shown in FIG. And the graph of the phoneme sequence registered by the annotation registration unit 110 may be held separately. If the phoneme sequence added by the annotation registration unit 110 already exists in the path of the subword graph of FIG. 9, the speech recognition interval likelihood of the link 902 is changed so that the path is selected by A * search. It may be implemented as follows.

また、上記実施形態においては、アノテーション登録部110は検索キーの音素列を音声認識結果アノテーションデータ104に追加登録するものとして説明したが、本発明はこれに限るものではなく、例えば、認識結果上位N個の音素列のうちN番目の音素列(すなわち、音声認識結果アノテーションデータ104において認識スコアが最下位の音素列)を検索キーの音素列に置換するようにしても構わない。   In the above-described embodiment, the annotation registration unit 110 has been described as additionally registering the phoneme string of the search key in the speech recognition result annotation data 104. However, the present invention is not limited to this. Of the N phoneme strings, the Nth phoneme string (that is, the phoneme string having the lowest recognition score in the speech recognition result annotation data 104) may be replaced with the phoneme string of the search key.

(その他の実施形態)
以上、本発明の実施形態を詳述したが、本発明は、複数の機器から構成されるシステムに適用してもよいし、また、一つの機器からなる装置に適用してもよい。
(Other embodiments)
As mentioned above, although embodiment of this invention was explained in full detail, this invention may be applied to the system comprised from several apparatuses, and may be applied to the apparatus which consists of one apparatus.

なお、本発明は、前述した実施形態の機能を実現するソフトウェアのプログラムを、システムあるいは装置に直接あるいは遠隔から供給し、そのシステムあるいは装置のコンピュータがその供給されたプログラムコードを読み出して実行することによっても達成される。その場合、プログラムの機能を有していれば、その形態はプログラムである必要はない。   In the present invention, a software program that realizes the functions of the above-described embodiments is directly or remotely supplied to a system or apparatus, and the computer of the system or apparatus reads and executes the supplied program code. Is also achieved. In that case, as long as it has the function of a program, the form does not need to be a program.

従って、本発明の機能処理をコンピュータで実現するために、そのコンピュータにインストールされるプログラムコード自体およびそのプログラムを格納した記憶媒体も本発明を構成することになる。つまり、本発明の特許請求の範囲には、本発明の機能処理を実現するためのコンピュータプログラム自体、およびそのプログラムを格納した記憶媒体も含まれる。   Therefore, in order to realize the functional processing of the present invention with a computer, the program code itself installed in the computer and the storage medium storing the program also constitute the present invention. In other words, the claims of the present invention include the computer program itself for realizing the functional processing of the present invention and a storage medium storing the program.

その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給するスクリプトデータ等、プログラムの形態を問わない。   In this case, the program may be in any form as long as it has a program function, such as an object code, a program executed by an interpreter, or script data supplied to the OS.

プログラムを供給するための記憶媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、MO、CD−ROM、CD−R、CD−RW、磁気テープ、不揮発性のメモリカード、ROM、DVD(DVD−ROM、DVD−R)などがある。   As a storage medium for supplying the program, for example, flexible disk, hard disk, optical disk, magneto-optical disk, MO, CD-ROM, CD-R, CD-RW, magnetic tape, nonvolatile memory card, ROM, DVD (DVD-ROM, DVD-R).

その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続し、そのホームページから本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイルをハードディスク等の記憶媒体にダウンロードすることによっても供給できる。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるWWWサーバも、本発明のクレームに含まれるものである。   As another program supply method, a client computer browser is used to connect to an Internet homepage, and the computer program of the present invention itself or a compressed file including an automatic installation function is downloaded from the homepage to a storage medium such as a hard disk. Can also be supplied. It can also be realized by dividing the program code constituting the program of the present invention into a plurality of files and downloading each file from a different homepage. That is, a WWW server that allows a plurality of users to download a program file for realizing the functional processing of the present invention on a computer is also included in the claims of the present invention.

また、本発明のプログラムを暗号化してCD−ROM等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせ、その鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。   In addition, the program of the present invention is encrypted, stored in a storage medium such as a CD-ROM, distributed to users, and key information for decryption is downloaded from a homepage via the Internet to users who have cleared predetermined conditions. It is also possible to execute the encrypted program by using the key information and install the program on a computer.

また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される他、そのプログラムの指示に基づき、コンピュータ上で稼動しているOSなどが、実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現され得る。   In addition to the functions of the above-described embodiments being realized by the computer executing the read program, the OS running on the computer based on the instruction of the program is a part of the actual processing. Alternatively, the functions of the above-described embodiment can be realized by performing all of the processes.

さらに、記憶媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現される。   Furthermore, after the program read from the storage medium is written to a memory provided in a function expansion board inserted into the computer or a function expansion unit connected to the computer, the function expansion board or The CPU or the like provided in the function expansion unit performs part or all of the actual processing, and the functions of the above-described embodiments are realized by the processing.

図1Aは、本発明の実施形態におけるデータ検索装置の機能構成および処理フローを示す図である。FIG. 1A is a diagram showing a functional configuration and a processing flow of a data search device according to an embodiment of the present invention. 図1Bは、本発明の実施形態における検索対象データの構造例を示す図である。FIG. 1B is a diagram showing a structure example of search target data in the embodiment of the present invention. 図2は、本発明の実施形態における音声認識結果アノテーションデータの一例を示す図である。FIG. 2 is a diagram illustrating an example of speech recognition result annotation data according to the embodiment of the present invention. 図3は、本発明の実施形態における検索キー変換部による処理を説明する図である。FIG. 3 is a diagram illustrating processing by the search key conversion unit in the embodiment of the present invention. 図4は、本発明の実施形態における検索部による音素マッチング処理を説明する図である。FIG. 4 is a diagram illustrating phoneme matching processing by the search unit according to the embodiment of the present invention. 図5は、本発明の実施形態における表示部による検索結果の表示例示す図である。FIG. 5 is a diagram showing a display example of search results by the display unit in the embodiment of the present invention. 図6は、本発明の実施形態におけるアノテーション変更部による処理を説明する図である。FIG. 6 is a diagram illustrating processing performed by the annotation changing unit according to the embodiment of this invention. 図7は、本発明の実施形態におけるデータ検索装置のハードウエア構成例を示すブロック図である。FIG. 7 is a block diagram illustrating a hardware configuration example of the data search apparatus according to the embodiment of the present invention. 図8は、本発明の実施形態における音声認識結果アノテーションデータの変形例を示す図である。FIG. 8 is a diagram showing a modification of the speech recognition result annotation data in the embodiment of the present invention. 図9は、本発明の実施形態におけるサブワードグラフの例を示す図である。FIG. 9 is a diagram illustrating an example of a subword graph in the embodiment of the present invention. 図10は、本発明の実施形態におけるアノテーション変更部による音素列の追加処理の変形例を説明する図である。FIG. 10 is a diagram illustrating a modification of the phoneme string addition processing by the annotation changing unit according to the embodiment of the present invention.

Claims (4)

複数のコンテンツデータと、前記複数のコンテンツデータの検索のための、各コンテンツデータの注釈を表すアノテーションデータとを対応付けて記憶するデータベースを有し、各アノテーションデータは、対応するコンテンツデータの注釈を表す音声データを入力し、該音声データに対し音声認識を行うことによって作成されるように構成された情報処理装置の制御方法であって、There is a database that stores a plurality of content data and annotation data representing annotations of the respective content data in association with each other for searching the plurality of content data, and each annotation data includes an annotation of the corresponding content data. An information processing apparatus control method configured to be generated by inputting voice data to be represented and performing voice recognition on the voice data,
入力手段が、ユーザによる操作に応答して、検索条件に相当する検索キーを入力する入力ステップと、An input step in which an input means inputs a search key corresponding to a search condition in response to an operation by a user;
解析手段が、前記入力ステップで入力された前記検索キーに対して形態素解析を行うことにより前記検索キーを単語列に分割し、各単語列に読みを付与し、第1の音素列を得る解析ステップと、Analyzing means for dividing the search key into word strings by performing morphological analysis on the search key input in the input step, and adding a reading to each word string to obtain a first phoneme string Steps,
計算手段が、前記データベースに登録されている各アノテーションデータについて、そのアノテーションデータを構成する第2の音素列と前記解析ステップで得られた前記第1の音素列との音素マッチングを行うことにより、前記第2の音素列の前記第1の音素列に対する相関度を計算する計算ステップと、For each annotation data registered in the database, the calculation means performs phoneme matching between the second phoneme string constituting the annotation data and the first phoneme string obtained in the analysis step, A calculation step of calculating a degree of correlation of the second phoneme string with respect to the first phoneme string;
表示制御手段が、前記複数のコンテンツデータを、前記計算ステップで計算された前記相関度でランキングした順序に並べて表示部に表示させる表示制御ステップと、A display control step, wherein the display control means displays the plurality of content data on the display unit in an order ranked by the correlation degree calculated in the calculation step;
受付手段が、前記表示部に表示された前記複数のコンテンツデータからユーザが1又は2以上のコンテンツデータを選択する操作を受け付ける受付ステップと、An accepting step for accepting an operation in which a user selects one or more content data from the plurality of content data displayed on the display unit;
登録手段が、前記解析ステップで得られた前記第1の音素列を、前記受付ステップにおいて前記ユーザが選択した1又は2以上のコンテンツデータに対応付けて前記データベースに登録する登録ステップと、A registration step in which a registration unit registers the first phoneme string obtained in the analysis step in the database in association with one or more content data selected by the user in the reception step;
を有することを特徴とする情報処理装置の制御方法。A method for controlling an information processing apparatus, comprising:
複数のコンテンツデータと、前記複数のコンテンツデータの検索のための、各コンテンツデータの注釈を表すアノテーションデータとを対応付けて記憶するデータベースを有し、各アノテーションデータは、対応するコンテンツデータの注釈を表す音声データを入力し、該音声データに対し音声認識を行うことによって作成されるように構成された情報処理装置であって、There is a database that stores a plurality of content data and annotation data representing annotations of the respective content data in association with each other for searching the plurality of content data, and each annotation data includes an annotation of the corresponding content data. An information processing apparatus configured to be inputted by inputting voice data to be represented and performing voice recognition on the voice data,
ユーザによる操作に応答して、検索条件に相当する検索キーを入力する入力手段と、An input means for inputting a search key corresponding to the search condition in response to an operation by the user;
前記入力手段により入力された前記検索キーに対して形態素解析を行うことにより前記検索キーを単語列に分割し、各単語列に読みを付与し、第1の音素列を得る解析手段と、Analyzing means for dividing the search key into word strings by performing morphological analysis on the search key input by the input means, giving a reading to each word string, and obtaining a first phoneme string;
前記データベースに登録されている各アノテーションデータについて、そのアノテーションデータを構成する第2の音素列と前記解析手段により得られた前記第1の音素列との音素マッチングを行うことにより、前記第2の音素列の前記第1の音素列に対する相関度を計算する計算手段と、For each annotation data registered in the database, the second phoneme string constituting the annotation data and the first phoneme string obtained by the analyzing unit are subjected to phoneme matching, thereby performing the second phoneme matching. Calculation means for calculating a correlation degree of the phoneme string with respect to the first phoneme string;
前記複数のコンテンツデータを、前記計算手段により計算された前記相関度でランキングした順序に並べて表示部に表示させる表示制御手段と、Display control means for displaying the plurality of content data on a display unit in an order ranked by the correlation calculated by the calculation means;
前記表示部に表示された前記複数のコンテンツデータからユーザが1又は2以上のコンテンツデータを選択する操作を受け付ける受付手段と、Accepting means for accepting an operation for the user to select one or more content data from the plurality of content data displayed on the display unit;
前記解析手段により得られた前記第1の音素列を、前記ユーザが選択した1又は2以上のコンテンツデータに対応付けて前記データベースに登録する登録手段と、Registration means for registering the first phoneme sequence obtained by the analysis means in the database in association with one or more content data selected by the user;
を有することを特徴とする情報処理装置。An information processing apparatus comprising:
複数のコンテンツデータと、前記複数のコンテンツデータの検索のための、各コンテンツデータの注釈を表すアノテーションデータとを対応付けて記憶するデータベースを有し、各アノテーションデータは、対応するコンテンツデータの注釈を表す音声データを入力し、該音声データに対し音声認識を行うことによって作成されるように構成された情報処理装置によって実行されるプログラムであって、前記情報処理装置を、There is a database that stores a plurality of content data and annotation data representing annotations of the respective content data in association with each other for searching the plurality of content data, and each annotation data includes an annotation of the corresponding content data. A program executed by an information processing apparatus configured to input voice data to be represented and perform voice recognition on the voice data, the information processing apparatus comprising:
ユーザによる操作に応答して、検索条件に相当する検索キーを入力する入力手段、An input means for inputting a search key corresponding to a search condition in response to an operation by a user;
前記入力手段により入力された前記検索キーに対して形態素解析を行うことにより前記検索キーを単語列に分割し、各単語列に読みを付与し、第1の音素列を得る解析手段、Analysis means for dividing the search key into word strings by performing morphological analysis on the search key input by the input means, giving a reading to each word string, and obtaining a first phoneme string;
前記データベースに登録されている各アノテーションデータについて、そのアノテーションデータを構成する第2の音素列と前記解析手段により得られた前記第1の音素列との音素マッチングを行うことにより、前記第2の音素列の前記第1の音素列に対する相関度を計算する計算手段、For each annotation data registered in the database, the second phoneme string constituting the annotation data and the first phoneme string obtained by the analyzing unit are subjected to phoneme matching, thereby performing the second phoneme matching. Calculation means for calculating a correlation degree of the phoneme string with respect to the first phoneme string;
前記複数のコンテンツデータを、前記計算手段により計算された前記相関度でランキングした順序に並べて表示部に表示させる表示制御手段、Display control means for displaying the plurality of content data on a display unit in an order ranked by the correlation calculated by the calculation means;
前記表示部に表示された前記複数のコンテンツデータからユーザが1又は2以上のコンテンツデータを選択する操作を受け付ける受付手段、Accepting means for accepting an operation for a user to select one or more content data from the plurality of content data displayed on the display unit;
前記解析手段により得られた前記第1の音素列を、前記ユーザが選択した1又は2以上のコンテンツデータに対応付けて前記データベースに登録する登録手段、Registration means for registering the first phoneme string obtained by the analysis means in the database in association with one or more content data selected by the user;
として機能させるためのプログラム。Program to function as.
請求項に記載のプログラムを格納したコンピュータ読み取り可能な記憶媒体。 A computer-readable storage medium storing the program according to claim 3 .
JP2004249014A 2004-08-27 2004-08-27 Information processing apparatus and control method thereof Expired - Fee Related JP4587165B2 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2004249014A JP4587165B2 (en) 2004-08-27 2004-08-27 Information processing apparatus and control method thereof
US11/202,493 US20060047647A1 (en) 2004-08-27 2005-08-12 Method and apparatus for retrieving data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004249014A JP4587165B2 (en) 2004-08-27 2004-08-27 Information processing apparatus and control method thereof

Publications (3)

Publication Number Publication Date
JP2006065675A JP2006065675A (en) 2006-03-09
JP2006065675A5 JP2006065675A5 (en) 2007-10-11
JP4587165B2 true JP4587165B2 (en) 2010-11-24

Family

ID=35944627

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004249014A Expired - Fee Related JP4587165B2 (en) 2004-08-27 2004-08-27 Information processing apparatus and control method thereof

Country Status (2)

Country Link
US (1) US20060047647A1 (en)
JP (1) JP4587165B2 (en)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100735820B1 (en) * 2006-03-02 2007-07-06 삼성전자주식회사 Speech recognition method and apparatus for multimedia data retrieval in mobile device
US8864382B2 (en) 2006-03-10 2014-10-21 Nsk Ltd. Preload measuring device for double row rolling bearing unit
US20080240158A1 (en) * 2007-03-30 2008-10-02 Eric Bouillet Method and apparatus for scalable storage for data stream processing systems
US20090055368A1 (en) * 2007-08-24 2009-02-26 Gaurav Rewari Content classification and extraction apparatus, systems, and methods
US20090055242A1 (en) * 2007-08-24 2009-02-26 Gaurav Rewari Content identification and classification apparatus, systems, and methods
US7716228B2 (en) * 2007-09-25 2010-05-11 Firstrain, Inc. Content quality apparatus, systems, and methods
US8321277B2 (en) * 2008-06-18 2012-11-27 Nuance Communications, Inc. Method and system for voice ordering utilizing product information
US20110106814A1 (en) * 2008-10-14 2011-05-05 Yohei Okato Search device, search index creating device, and search system
US8903847B2 (en) * 2010-03-05 2014-12-02 International Business Machines Corporation Digital media voice tags in social networks
US8977613B1 (en) 2012-06-12 2015-03-10 Firstrain, Inc. Generation of recurring searches
JP5939587B2 (en) * 2014-03-27 2016-06-22 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation Apparatus and method for calculating correlation of annotation
CN113284509B (en) * 2021-05-06 2024-01-16 北京百度网讯科技有限公司 Method and device for obtaining accuracy of voice annotation and electronic equipment

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1139338A (en) * 1997-07-24 1999-02-12 Toshiba Corp Document retrieval device and method therefor and medium recording program for document retrieval
JP2002539528A (en) * 1999-03-05 2002-11-19 キヤノン株式会社 Database annotation and search
JP2004206521A (en) * 2002-12-26 2004-07-22 Nec Corp Document search device and program

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3427692B2 (en) * 1996-11-20 2003-07-22 松下電器産業株式会社 Character recognition method and character recognition device
US6181351B1 (en) * 1998-04-13 2001-01-30 Microsoft Corporation Synchronizing the moveable mouths of animated characters with recorded speech
JP2000020089A (en) * 1998-07-07 2000-01-21 Matsushita Electric Ind Co Ltd Speed recognition method and apparatus therefor as well as voice control system
JP3252282B2 (en) * 1998-12-17 2002-02-04 松下電器産業株式会社 Method and apparatus for searching scene
GB2361339B (en) * 1999-01-27 2003-08-06 Kent Ridge Digital Labs Method and apparatus for voice annotation and retrieval of multimedia data
US6882970B1 (en) * 1999-10-28 2005-04-19 Canon Kabushiki Kaisha Language recognition using sequence frequency
GB0015233D0 (en) * 2000-06-21 2000-08-16 Canon Kk Indexing method and apparatus
GB0023930D0 (en) * 2000-09-29 2000-11-15 Canon Kk Database annotation and retrieval
US6970818B2 (en) * 2001-12-07 2005-11-29 Sony Corporation Methodology for implementing a vocabulary set for use in a speech recognition system
AU2003252263A1 (en) * 2002-08-07 2004-02-25 Matsushita Electric Industrial Co., Ltd. Character recognition processing device, character recognition processing method, and mobile terminal device

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1139338A (en) * 1997-07-24 1999-02-12 Toshiba Corp Document retrieval device and method therefor and medium recording program for document retrieval
JP2002539528A (en) * 1999-03-05 2002-11-19 キヤノン株式会社 Database annotation and search
JP2004206521A (en) * 2002-12-26 2004-07-22 Nec Corp Document search device and program

Also Published As

Publication number Publication date
US20060047647A1 (en) 2006-03-02
JP2006065675A (en) 2006-03-09

Similar Documents

Publication Publication Date Title
US20060047647A1 (en) Method and apparatus for retrieving data
JP2836159B2 (en) Speech recognition system for simultaneous interpretation and its speech recognition method
US7818173B2 (en) Information retrieval system, method, and program
JP3983265B1 (en) Dictionary creation support system, method and program
US20160055763A1 (en) Electronic apparatus, pronunciation learning support method, and program storage medium
JP2011018330A (en) System and method for transforming kanji into vernacular pronunciation string by statistical method
JP2005150841A (en) Information processing method and information processing apparatus
JP4738847B2 (en) Data retrieval apparatus and method
Ríos-Vila et al. Evaluating simultaneous recognition and encoding for optical music recognition
KR20060100646A (en) Method and system for searching the position of an image thing
CN110782899B (en) Information processing apparatus, storage medium, and information processing method
JP4839291B2 (en) Speech recognition apparatus and computer program
WO2010026804A1 (en) Approximate collation device, approximate collation method, program, and recording medium
JP2006236037A (en) Voice interaction content creation method, device, program and recording medium
JP2004348552A (en) Voice document search device, method, and program
JP2006227914A (en) Information search device, information search method, program and storage medium
JP4515186B2 (en) Speech dictionary creation device, speech dictionary creation method, and program
JP2004184951A (en) Method, device, and program for class identification model, and method, device, and program for class identification
JP4579638B2 (en) Data search apparatus and data search method
JP2004171174A (en) Device and program for reading text aloud, and recording medium
JP4304146B2 (en) Dictionary registration device, dictionary registration method, and dictionary registration program
CN112541651B (en) Electronic device, pronunciation learning method, server device, pronunciation learning processing system, and recording medium
JP3734101B2 (en) Hypermedia construction support device
JP2007171275A (en) Language processor and language processing method
JP4621936B2 (en) Speech synthesis apparatus, learning data generation apparatus, pose prediction apparatus, and program

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070827

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070827

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20070827

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100225

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100312

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100511

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100827

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100906

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100831

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130917

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130917

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130917

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130917

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees