JP4587165B2 - Information processing apparatus and control method thereof - Google Patents
Information processing apparatus and control method thereof Download PDFInfo
- Publication number
- JP4587165B2 JP4587165B2 JP2004249014A JP2004249014A JP4587165B2 JP 4587165 B2 JP4587165 B2 JP 4587165B2 JP 2004249014 A JP2004249014 A JP 2004249014A JP 2004249014 A JP2004249014 A JP 2004249014A JP 4587165 B2 JP4587165 B2 JP 4587165B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- content data
- phoneme
- annotation
- phoneme string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 22
- 230000010365 information processing Effects 0.000 title claims description 9
- 238000004364 calculation method Methods 0.000 claims description 10
- 230000000877 morphologic effect Effects 0.000 claims description 5
- 230000004044 response Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 12
- 238000003384 imaging method Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000003780 insertion Methods 0.000 description 3
- 230000037431 insertion Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000009434 installation Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、データ検索方法および装置に関する。 The present invention relates to a data search method and apparatus.
デジタルカメラのような携帯型撮像装置により撮像されたデジタル画像は、パーソナルコンピュータ(PC)やサーバコンピュータ等で管理することができる。例えば、撮影した画像を、PCあるいはサーバ上のフォルダ内に整理したり、特定の画像を印刷したり、あるいは、年賀状の絵の一部として組み込むことも可能である。また、サーバで管理する場合には、一部の画像を他のユーザに公開することも可能である。 Digital images taken by a portable imaging device such as a digital camera can be managed by a personal computer (PC), a server computer, or the like. For example, captured images can be organized in a folder on a PC or server, a specific image can be printed, or incorporated as a part of a New Year's card picture. In addition, when managed by the server, some images can be disclosed to other users.
このような作業を行う場合には、ユーザの意図する特定の画像を見つけ出すことが必要となる。見つけ出す対象となる画像数が少ない場合は、画像をサムネイル表示し、その一覧から目視で見つけ出すことも可能である。しかし、対象となる画像数が何百となる場合や、対象画像群が複数フォルダに分断されて格納されている場合は、目視で見つけ出すことが困難になる。 When performing such work, it is necessary to find a specific image intended by the user. When the number of images to be found is small, the images can be displayed as thumbnails, and can be found visually from the list. However, when the number of target images is hundreds, or when the target image group is divided into a plurality of folders and stored, it is difficult to find it visually.
これに対し、撮像装置上で画像に音声アノテーション(音声による注釈)を付け、検索時にその情報を使うことが行われている。例えば、山の画像を撮像し、その画像に対して「箱根の山」と発声する。この音声データは、先の画像データと対となって撮像装置内に格納された後、その画像撮像装置内あるいは画像をアップロードしたPC内で音声認識され、“はこねのやま”というテキスト情報に変換される。アノテーションデータがテキスト情報に変換されれば、後は一般的なテキスト検索技術で処理することが可能であり、「やま」、「はこね」等の単語でその画像を検索することが出来る。 On the other hand, a voice annotation (annotation by voice) is attached to an image on an imaging device, and the information is used at the time of retrieval. For example, an image of a mountain is taken, and “Hakone no Yama” is uttered on the image. This audio data is stored in the imaging device as a pair with the previous image data, and then voice recognition is performed in the image imaging device or in the PC to which the image is uploaded, and the text information is “Hakoneyama”. Converted. If the annotation data is converted into text information, it can be processed later by a general text search technique, and the image can be searched for using words such as “yama” and “hakone”.
この他、本発明に関連する先行技術として、ユーザが入力した検索キーを登録する技術を開示している特許文献1がある。同文献は、ユーザが入力した検索キーを、同義語等を用いて既存のキーワードの演算式としてシステムに登録する技術を開示している。 In addition, Patent Document 1 discloses a technique for registering a search key input by a user as a prior art related to the present invention. This document discloses a technique for registering a search key input by a user in the system as an arithmetic expression for an existing keyword using a synonym or the like.
音声認識で音声アノテーションを変換して検索する場合、音声認識の誤認識は完全には避けられないのが現状である。誤認識の割合が大きい場合には検索キーを正しく入れてもマッチングの相関が悪く、正しく検索されない。このような場合にはいかに検索語を入れようとも、音声認識の結果が悪いため、所望の画像データが上位候補として検索されないという問題がある。 In the case of searching by converting voice annotations by voice recognition, it is the current situation that misrecognition of voice recognition cannot be completely avoided. If the rate of misrecognition is large, even if the search key is correctly inserted, the matching correlation is poor and the search is not performed correctly. In such a case, no matter how the search word is entered, there is a problem that the desired image data is not searched as a higher candidate because the result of the speech recognition is poor.
したがって、音声認識の誤認識を伴って生成されたアノテーションが検索対象のデータに付属していてもデータの検索精度を高めることのできる技術を導入する必要がある。 Therefore, it is necessary to introduce a technique capable of improving the data search accuracy even if annotation generated with erroneous recognition of voice recognition is attached to the data to be searched.
上記した問題を解決するために、例えば本発明の一側面に係る情報処理装置の制御方法は、以下の構成を備える。すなわち、複数のコンテンツデータと、前記複数のコンテンツデータの検索のための、各コンテンツデータの注釈を表すアノテーションデータとを対応付けて記憶するデータベースを有し、各アノテーションデータは、対応するコンテンツデータの注釈を表す音声データを入力し、該音声データに対し音声認識を行うことによって作成されるように構成された情報処理装置の制御方法であって、入力手段が、ユーザによる操作に応答して、検索条件に相当する検索キーを入力する入力ステップと、解析手段が、前記入力ステップで入力された前記検索キーに対して形態素解析を行うことにより前記検索キーを単語列に分割し、各単語列に読みを付与し、第1の音素列を得る解析ステップと、計算手段が、前記データベースに登録されている各アノテーションデータについて、そのアノテーションデータを構成する第2の音素列と前記解析ステップで得られた前記第1の音素列との音素マッチングを行うことにより、前記第2の音素列の前記第1の音素列に対する相関度を計算する計算ステップと、表示制御手段が、前記複数のコンテンツデータを、前記計算ステップで計算された前記相関度でランキングした順序に並べて表示部に表示させる表示制御ステップと、受付手段が、前記表示部に表示された前記複数のコンテンツデータからユーザが1又は2以上のコンテンツデータを選択する操作を受け付ける受付ステップと、登録手段が、前記解析ステップで得られた前記第1の音素列を、前記受付ステップにおいて前記ユーザが選択した1又は2以上のコンテンツデータに対応付けて前記データベースに登録する登録ステップとを有することを特徴とする。 In order to solve the above problem, for example, a method for controlling an information processing apparatus according to one aspect of the present invention includes the following configuration. That is, it has a database that stores a plurality of pieces of content data in association with annotation data representing annotations of each piece of content data for searching the plurality of pieces of content data. An information processing apparatus control method configured to input voice data representing an annotation and perform voice recognition on the voice data, wherein the input unit responds to an operation by a user, An input step for inputting a search key corresponding to a search condition, and the analysis means divides the search key into word strings by performing morphological analysis on the search key input in the input step, and each word string Analysis step for obtaining a first phoneme string and a calculation means are registered in the database. The notation data is subjected to phoneme matching between the second phoneme string constituting the annotation data and the first phoneme string obtained in the analysis step, whereby the first phoneme string of the second phoneme string is obtained. A calculation step for calculating a degree of correlation with respect to the phoneme string; and a display control step for causing the display control unit to display the plurality of content data on the display unit in an order ranked by the degree of correlation calculated in the calculation step; A receiving unit that receives an operation in which a user selects one or more content data from the plurality of content data displayed on the display unit; and a registration unit that includes the first step obtained in the analyzing step. Is associated with one or more content data selected by the user in the accepting step. And having a registration step of registering in the database.
本発明によれば、音声認識の誤認識を伴って生成されたアノテーションが検索対象のデータに付属していても、データの検索精度を高めることが可能になる。 According to the present invention, it is possible to improve data search accuracy even when annotation generated with erroneous recognition of voice recognition is attached to data to be searched.
以下、図面を参照して本発明の好適な実施形態について詳細に説明する。 DESCRIPTION OF EMBODIMENTS Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the drawings.
図1Aは、本発明の一実施形態に係るデータ検索装置の機能構成を示す図である。同図において、100はデータベースである。101は、データベース100に蓄積される画像やドキュメントなどをコンテンツとする複数の検索対象データである。検索対象データ101は例えば図1Bに示すような構造で、画像やドキュメントなどのコンテンツデータ102を有するほか、コンテンツデータ102に対応する、音声によって注釈をつけた音声アノテーションデータ(音声メモデータ)103、音声アノテーションデータ103の音声認識によって得られた音素列や音節列や単語列などのサブワード列(本実施形態では音素列で説明する)を含むアノテーションデータとしての音声認識結果アノテーションデータ104が付属する。
FIG. 1A is a diagram showing a functional configuration of a data search apparatus according to an embodiment of the present invention. In the figure,
105は、所望のコンテンツデータ102を検索するために検索キーを入力する検索キー入力部である。106は、検策キーでマッチングを取るために、音声認識結果アノテーションデータ104と同様の書式のサブワード列に検索キーを変換する検索キー変換部である。107は、データベース100内の複数の音声認識結果アノテーションデータ104と検索キーとでマッチングを取り、それぞれの音声認識結果アノテーションデータ104に対する相関度スコアを求め、音声認識結果アノテーションデータ104に対応するコンテンツデータ102を順位付けする検索部である。108は、検索部107によって順位付けされたコンテンツデータ102を順位順に表示する表示部である。109は、表示部108に表示されたコンテンツデータ102の中から、ユーザが所望するデータを選択するユーザ選択部である。110は、ユーザ選択部109においてユーザが選択したデータに対応する音声認識結果アノテーションデータ104に、検索キーのサブワード列を追加的に登録するアノテーション登録部である。
本実施形態におけるデータ検索装置の機能構成は概ね上記のとおりである。また、このデータ検索装置における処理は、図1の上のブロックから順次、行われる。つまり、この図1は、このデータ検索装置による処理フローをも表している。そこで、以下ではこの図1を参照して、本実施形態におけるデータ検索装置の処理の流れを詳細に説明する。 The functional configuration of the data search apparatus in the present embodiment is generally as described above. Further, the processing in this data search apparatus is performed sequentially from the upper block of FIG. That is, FIG. 1 also shows a processing flow by the data search apparatus. In the following, the flow of processing of the data search apparatus in this embodiment will be described in detail with reference to FIG.
上記したように、画像やドキュメントなどコンテンツとする検索対象データ101には、対応する音声アノテーションデータ103及びこの音声アノテーションデータを音声認識した結果である音声認識結果アノテーションデータ104が含まれる(図1Bを参照。)。ここで、音声認識結果アノテーションデータ104は、本装置に音声認識部を設けておいて作成するようにしてもよいし、画像を撮像するカメラなど、別の装置上に設けられた音声認識部を利用して作成するようにしてもよい。また、本発明においてデータ検索に使用されるのは音声認識結果アノテーションデータ104であるため、音声認識結果アノテーションデータ104が作成された後は、音声アノテーションデータ103は存在しなくとも構わない。
As described above, the
図2に、音声認識結果アノテーションデータ104の一例を示す。同図の201は、音声アノテーションデータ103を音声認識して音素列に変換した認識結果音素列であり、尤度等に基づく認識スコアの高い上位N位(Nは1以上の整数)までが順番に並んでいる。
FIG. 2 shows an example of the voice recognition result
まず、ユーザは検索キー入力部105に検索キーを入力する。入力された検索キーは検索キー変換部106に渡され、その検索キーが認識結果音素列201と同じ形式の音素列に変換される。
First, the user inputs a search key into the search
図3は検索キーを音素列に変換する様子を表している。検索キー「箱根の山」を、形態素解析し、単語列に分割する。さらに、単語列に読みを付与し、音素列を得る。形態素解析、読み付与の方法は公知の自然言語処理技術を適用することができる。 FIG. 3 shows how the search key is converted into a phoneme string. The search key “Hakone no Yama” is morphologically analyzed and divided into word strings. Further, reading is given to the word string to obtain a phoneme string. A known natural language processing technique can be applied to the morphological analysis and reading method.
次に、検索部107において、検索キーの音素列と、各検索対象データ101における音声認識結果アノテーションデータ104とで音素マッチングを取り、検索キーとの相関度を表す音素正解精度を求める。マッチングは、公知のDPマッチング法などにより行うことができる。
Next, in the
図4は音素正解精度を求める様子を表している。音素正解精度は、DPマッチング等により正解数、挿入誤り数、削除誤り数、置換誤り数が得られたときに、次式により求める。 FIG. 4 shows how the phoneme accuracy is obtained. The phoneme accuracy is obtained by the following equation when the number of correct answers, the number of insertion errors, the number of deletion errors, and the number of replacement errors are obtained by DP matching or the like.
{(正解数)―(挿入誤り数)―(削除誤り数)―(置換誤り数)}×100/(正解数) {(Number of correct answers)-(Number of insertion errors)-(Number of deletion errors)-(Number of replacement errors)} × 100 / (Number of correct answers)
図4においては、挿入誤りが“o”と“a”の2箇所、そして“h”を“f”として誤った置換誤りが1箇所であり、音素正解精度は75%となる。このようにして求めた音素正解精度を、検索に用いるスコアとしてコンテンツデータ102をランキングする。ここで、図2の音声認識結果アノテーションデータは上位N位の認識結果音素列が存在するが、マッチングはこれらそれぞれと行って音素正解精度を求め、最も良い音素正解精度及び認識結果音素列を採用する。ただし本発明はこれに限るものではなく、順位によって重み係数を音素正解精度にかけてから最大値を取ったり、総和を取ったりしても良い。
In FIG. 4, there are two insertion errors, “o” and “a”, and one erroneous replacement error with “h” as “f”, and the phoneme correct answer accuracy is 75%. The
次に、表示部108によりデータを検索順位順に表示する。図5に、表示部108がデータ(ここでは画像)をウインドウに表示する例を示す。同図においては、ウインドウの左のフレームで検索キーを入力して検索ボタンを押すと、同ウインドウの右のフレームにコンテンツデータ102が検索順位順に表示される。
Next, the
ここで、ユーザは、表示されているデータから1または2以上のデータを選択することができる。先述したように、音声認識の際に認識誤りを起こしている可能性があるから、所望のコンテンツデータは上位に現れず、下位の方にかろうじて現れている場合もある。そこで、本実施形態では、たとえ上位に検索されなくとも、ユーザが所望の画像であるとしてここで選択をすれば、以下の処理によって、同じ検索キーで再度検索する際には確実に上位で検索することが可能になる。 Here, the user can select one or more data from the displayed data. As described above, since there is a possibility that a recognition error has occurred during speech recognition, the desired content data may not appear at the upper level, but may barely appear at the lower level. Therefore, in this embodiment, even if the search is not performed at the top, if the user selects here as the desired image, the search is surely performed at the top when the search is performed again with the same search key by the following processing. It becomes possible to do.
すなわち、ユーザ選択部109は、ユーザの選択操作に従いデータを選択する。これに応じ、アノテーション登録部110は、検索キーを変換した音素列を、選択したデータに対応する音声認識結果アノテーションデータ104に追加的に登録する。
That is, the
図6にその様子を示す。同図において、601はポインタであり、これを用いてユーザは表示されているデータのうち一つを選択する。このときのデータ選択手法としては、画像を指定できる方法であればどのような方法でも構わない。例えば、ユーザによってクリックされた画像をそのまま選択しても良いし、ユーザによってクリックされた画像について、選択するかをユーザに問い合わせ、その後ユーザからOKが得られた場合に選択するようにしてもよい。602は、検索キーを変換した音素列で、この音素列が、選択されたデータに対応する音声認識結果アノテーションデータ104に追加的に登録される。これにより、再び全く同じ検索キーを入力して検索するときには、図4に示した音素正解精度が100%となって1位もしくはそれに順ずる順位で検索できるし、一部が同じ検索キーを入力する場合にも、部分マッチングの技術を用いて検索する場合に検索精度を上げることができる。
This is shown in FIG. In the figure, reference numeral 601 denotes a pointer, which is used by the user to select one of the displayed data. As a data selection method at this time, any method may be used as long as it can specify an image. For example, the image clicked by the user may be selected as it is, or the user may be asked whether to select the image clicked by the user, and may be selected when OK is obtained from the user thereafter. . Reference numeral 602 denotes a phoneme string obtained by converting the search key, and this phoneme string is additionally registered in the speech recognition
図7に、本実施形態におけるデータ検索装置のハードウエア構成例を示しておく。 FIG. 7 shows an example of the hardware configuration of the data search apparatus according to this embodiment.
同図において、701は、データやGUIなどを表示する表示装置である。702は、検索キーなどを入力したりGUIボタンを押下するためのキーボード/マウスである。703は、音声アノテーションデータや警告音などの音を出力するスピーカなどを含む音声出力装置である。704は、データベース100や本データ検索方法を実現するための制御プログラムを保持するROMである。もっとも、ハードディスクなどの外部記憶装置を別途設け、ここにデータベース100や本データ検索方法を実現するための制御プログラムを保持させてもよい。705は、主記憶装置として機能し、特に、本データ検索方法のプログラム実行時に、当該プログラムやデータ等を一時的に記憶するRAMである。706は、本装置の制御を司るCPUで、特に、本データ検索方法を実現するための制御プログラムを実行する。
In the figure,
上述の実施形態では、サブワードとして音素を用いたマッチングによるスコアを用いたが、本発明はこれに限るものではなく、例えば音素ではなく音節でのマッチングや、単語単位でのマッチングによるスコアでも良い。また、これに音声認識で求まる認識尤度を加味したり、音素間の類似度(“p”と“t”は類似度が高いなど)を用いてスコアの重み付けをしたりしても良い。 In the above-described embodiment, the score based on matching using phonemes as subwords is used. However, the present invention is not limited to this. For example, a score based on syllables instead of phonemes, or a score based on word-by-word matching may be used. In addition, the likelihood of recognition obtained by speech recognition may be added to this, or the score may be weighted using the similarity between phonemes (eg, “p” and “t” are high in similarity).
また、上記実施形態では、図4に示すとおり音素列の全体マッチングによる音素正解精度を検索のためのスコアとして用いたが、挿入誤りによるスコアの劣化を抑えるなどとしたスコアの工夫により検索キーの部分的なマッチングによって検索しても良い。この実施形態では、例えば音声認識結果アノテーションデータに「箱根の山」というアノテーションが付与されているときに、部分マッチングにより「箱根」、「山」を検索キーとして検索が可能となる。 In the above embodiment, as shown in FIG. 4, the correct phoneme accuracy based on the entire phoneme string matching is used as a search score. You may search by partial matching. In this embodiment, for example, when the annotation “Hakone no Yama” is added to the speech recognition result annotation data, the search can be performed using “Hakone” and “Mountain” as search keys by partial matching.
また、上記実施形態における音声認識結果アノテーションデータ104は、図2に示したように、音素列201のみが並ぶデータとして説明したが、その他の態様を適用することもできる。例えば、それぞれの音素列に属性をつけ、音声認識で作成された音素列なのか、アノテーション登録部110によって検索キーの音素列が追加されたものなのかを区別する。
Further, although the speech recognition
図8にこの変形例における音声認識結果アノテーションデータ104を示す。同図において、801はそれぞれの音素列が生成された属性である。ここで、属性値“phonemeASR”は音素列認識型の音声認識によって作成された音素列であることを表し、“user”はユーザがデータを選択したときにアノテーション登録部110によって追加された音素列であることを表す。これを用いて、検索時に使用された音素列によって表示方法を切り替えたり、またはアノテーション登録部110によって追加登録された音素列を消去したりすることができる。また、この属性はこれに限るものではなく、音声認識でも属性値によって音素列認識/単語列認識などを判断できるようにしても良い。
FIG. 8 shows the speech recognition
また、上記実施形態の音声認識結果アノテーションデータ104は、図2に示したように、上位N個の認識結果を音素などのサブワード列として保持されていたが、本発明はこれに限らず、各サブワードで構成するラティス(サブワードグラフ)を出力し、ラティスの始端から終端までのそれぞれのパスにおいて音素正解精度を求めても良い。
In the speech recognition
図9にサブワードグラフの例を示す。同図において、901はサブワードグラフのノードであり、図9の例では音素ごとにノードを形成する。902は、ノードを結ぶリンクであり、これによって音素の連鎖を表現する。リンクには、リンクが結ぶノード間の音声認識区間尤度が割り振られていることが一般的であり、この音声認識区間尤度を用いると、A*探索という手法により上位N個の音素列候補を抽出できる。この候補と検索キーとのマッチングにより、音素正解精度を得る。
FIG. 9 shows an example of a subword graph. In FIG. 9,
この場合、アノテーション登録部110が音素列を追加する場合には、図9のサブワードグラフに必要なノードを追加しても構わないし、図10に示すように音声認識によって生成された音素列のグラフとアノテーション登録部110によって登録された音素列のグラフとを分けて保持しても構わない。また、アノテーション登録部110が追加する音素列が、既に図9のサブワードグラフのパスに存在する場合には、そのパスがA*探索によって選択されるようにリンク902の音声認識区間尤度を変更するように実装しても構わない。 In this case, when the annotation registration unit 110 adds a phoneme string, a necessary node may be added to the subword graph of FIG. 9, and a graph of a phoneme string generated by speech recognition as shown in FIG. And the graph of the phoneme sequence registered by the annotation registration unit 110 may be held separately. If the phoneme sequence added by the annotation registration unit 110 already exists in the path of the subword graph of FIG. 9, the speech recognition interval likelihood of the link 902 is changed so that the path is selected by A * search. It may be implemented as follows.
また、上記実施形態においては、アノテーション登録部110は検索キーの音素列を音声認識結果アノテーションデータ104に追加登録するものとして説明したが、本発明はこれに限るものではなく、例えば、認識結果上位N個の音素列のうちN番目の音素列(すなわち、音声認識結果アノテーションデータ104において認識スコアが最下位の音素列)を検索キーの音素列に置換するようにしても構わない。
In the above-described embodiment, the annotation registration unit 110 has been described as additionally registering the phoneme string of the search key in the speech recognition
(その他の実施形態)
以上、本発明の実施形態を詳述したが、本発明は、複数の機器から構成されるシステムに適用してもよいし、また、一つの機器からなる装置に適用してもよい。
(Other embodiments)
As mentioned above, although embodiment of this invention was explained in full detail, this invention may be applied to the system comprised from several apparatuses, and may be applied to the apparatus which consists of one apparatus.
なお、本発明は、前述した実施形態の機能を実現するソフトウェアのプログラムを、システムあるいは装置に直接あるいは遠隔から供給し、そのシステムあるいは装置のコンピュータがその供給されたプログラムコードを読み出して実行することによっても達成される。その場合、プログラムの機能を有していれば、その形態はプログラムである必要はない。 In the present invention, a software program that realizes the functions of the above-described embodiments is directly or remotely supplied to a system or apparatus, and the computer of the system or apparatus reads and executes the supplied program code. Is also achieved. In that case, as long as it has the function of a program, the form does not need to be a program.
従って、本発明の機能処理をコンピュータで実現するために、そのコンピュータにインストールされるプログラムコード自体およびそのプログラムを格納した記憶媒体も本発明を構成することになる。つまり、本発明の特許請求の範囲には、本発明の機能処理を実現するためのコンピュータプログラム自体、およびそのプログラムを格納した記憶媒体も含まれる。 Therefore, in order to realize the functional processing of the present invention with a computer, the program code itself installed in the computer and the storage medium storing the program also constitute the present invention. In other words, the claims of the present invention include the computer program itself for realizing the functional processing of the present invention and a storage medium storing the program.
その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給するスクリプトデータ等、プログラムの形態を問わない。 In this case, the program may be in any form as long as it has a program function, such as an object code, a program executed by an interpreter, or script data supplied to the OS.
プログラムを供給するための記憶媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、MO、CD−ROM、CD−R、CD−RW、磁気テープ、不揮発性のメモリカード、ROM、DVD(DVD−ROM、DVD−R)などがある。 As a storage medium for supplying the program, for example, flexible disk, hard disk, optical disk, magneto-optical disk, MO, CD-ROM, CD-R, CD-RW, magnetic tape, nonvolatile memory card, ROM, DVD (DVD-ROM, DVD-R).
その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続し、そのホームページから本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイルをハードディスク等の記憶媒体にダウンロードすることによっても供給できる。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるWWWサーバも、本発明のクレームに含まれるものである。 As another program supply method, a client computer browser is used to connect to an Internet homepage, and the computer program of the present invention itself or a compressed file including an automatic installation function is downloaded from the homepage to a storage medium such as a hard disk. Can also be supplied. It can also be realized by dividing the program code constituting the program of the present invention into a plurality of files and downloading each file from a different homepage. That is, a WWW server that allows a plurality of users to download a program file for realizing the functional processing of the present invention on a computer is also included in the claims of the present invention.
また、本発明のプログラムを暗号化してCD−ROM等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせ、その鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。 In addition, the program of the present invention is encrypted, stored in a storage medium such as a CD-ROM, distributed to users, and key information for decryption is downloaded from a homepage via the Internet to users who have cleared predetermined conditions. It is also possible to execute the encrypted program by using the key information and install the program on a computer.
また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される他、そのプログラムの指示に基づき、コンピュータ上で稼動しているOSなどが、実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現され得る。 In addition to the functions of the above-described embodiments being realized by the computer executing the read program, the OS running on the computer based on the instruction of the program is a part of the actual processing. Alternatively, the functions of the above-described embodiment can be realized by performing all of the processes.
さらに、記憶媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現される。 Furthermore, after the program read from the storage medium is written to a memory provided in a function expansion board inserted into the computer or a function expansion unit connected to the computer, the function expansion board or The CPU or the like provided in the function expansion unit performs part or all of the actual processing, and the functions of the above-described embodiments are realized by the processing.
Claims (4)
入力手段が、ユーザによる操作に応答して、検索条件に相当する検索キーを入力する入力ステップと、An input step in which an input means inputs a search key corresponding to a search condition in response to an operation by a user;
解析手段が、前記入力ステップで入力された前記検索キーに対して形態素解析を行うことにより前記検索キーを単語列に分割し、各単語列に読みを付与し、第1の音素列を得る解析ステップと、Analyzing means for dividing the search key into word strings by performing morphological analysis on the search key input in the input step, and adding a reading to each word string to obtain a first phoneme string Steps,
計算手段が、前記データベースに登録されている各アノテーションデータについて、そのアノテーションデータを構成する第2の音素列と前記解析ステップで得られた前記第1の音素列との音素マッチングを行うことにより、前記第2の音素列の前記第1の音素列に対する相関度を計算する計算ステップと、For each annotation data registered in the database, the calculation means performs phoneme matching between the second phoneme string constituting the annotation data and the first phoneme string obtained in the analysis step, A calculation step of calculating a degree of correlation of the second phoneme string with respect to the first phoneme string;
表示制御手段が、前記複数のコンテンツデータを、前記計算ステップで計算された前記相関度でランキングした順序に並べて表示部に表示させる表示制御ステップと、A display control step, wherein the display control means displays the plurality of content data on the display unit in an order ranked by the correlation degree calculated in the calculation step;
受付手段が、前記表示部に表示された前記複数のコンテンツデータからユーザが1又は2以上のコンテンツデータを選択する操作を受け付ける受付ステップと、An accepting step for accepting an operation in which a user selects one or more content data from the plurality of content data displayed on the display unit;
登録手段が、前記解析ステップで得られた前記第1の音素列を、前記受付ステップにおいて前記ユーザが選択した1又は2以上のコンテンツデータに対応付けて前記データベースに登録する登録ステップと、A registration step in which a registration unit registers the first phoneme string obtained in the analysis step in the database in association with one or more content data selected by the user in the reception step;
を有することを特徴とする情報処理装置の制御方法。A method for controlling an information processing apparatus, comprising:
ユーザによる操作に応答して、検索条件に相当する検索キーを入力する入力手段と、An input means for inputting a search key corresponding to the search condition in response to an operation by the user;
前記入力手段により入力された前記検索キーに対して形態素解析を行うことにより前記検索キーを単語列に分割し、各単語列に読みを付与し、第1の音素列を得る解析手段と、Analyzing means for dividing the search key into word strings by performing morphological analysis on the search key input by the input means, giving a reading to each word string, and obtaining a first phoneme string;
前記データベースに登録されている各アノテーションデータについて、そのアノテーションデータを構成する第2の音素列と前記解析手段により得られた前記第1の音素列との音素マッチングを行うことにより、前記第2の音素列の前記第1の音素列に対する相関度を計算する計算手段と、For each annotation data registered in the database, the second phoneme string constituting the annotation data and the first phoneme string obtained by the analyzing unit are subjected to phoneme matching, thereby performing the second phoneme matching. Calculation means for calculating a correlation degree of the phoneme string with respect to the first phoneme string;
前記複数のコンテンツデータを、前記計算手段により計算された前記相関度でランキングした順序に並べて表示部に表示させる表示制御手段と、Display control means for displaying the plurality of content data on a display unit in an order ranked by the correlation calculated by the calculation means;
前記表示部に表示された前記複数のコンテンツデータからユーザが1又は2以上のコンテンツデータを選択する操作を受け付ける受付手段と、Accepting means for accepting an operation for the user to select one or more content data from the plurality of content data displayed on the display unit;
前記解析手段により得られた前記第1の音素列を、前記ユーザが選択した1又は2以上のコンテンツデータに対応付けて前記データベースに登録する登録手段と、Registration means for registering the first phoneme sequence obtained by the analysis means in the database in association with one or more content data selected by the user;
を有することを特徴とする情報処理装置。An information processing apparatus comprising:
ユーザによる操作に応答して、検索条件に相当する検索キーを入力する入力手段、An input means for inputting a search key corresponding to a search condition in response to an operation by a user;
前記入力手段により入力された前記検索キーに対して形態素解析を行うことにより前記検索キーを単語列に分割し、各単語列に読みを付与し、第1の音素列を得る解析手段、Analysis means for dividing the search key into word strings by performing morphological analysis on the search key input by the input means, giving a reading to each word string, and obtaining a first phoneme string;
前記データベースに登録されている各アノテーションデータについて、そのアノテーションデータを構成する第2の音素列と前記解析手段により得られた前記第1の音素列との音素マッチングを行うことにより、前記第2の音素列の前記第1の音素列に対する相関度を計算する計算手段、For each annotation data registered in the database, the second phoneme string constituting the annotation data and the first phoneme string obtained by the analyzing unit are subjected to phoneme matching, thereby performing the second phoneme matching. Calculation means for calculating a correlation degree of the phoneme string with respect to the first phoneme string;
前記複数のコンテンツデータを、前記計算手段により計算された前記相関度でランキングした順序に並べて表示部に表示させる表示制御手段、Display control means for displaying the plurality of content data on a display unit in an order ranked by the correlation calculated by the calculation means;
前記表示部に表示された前記複数のコンテンツデータからユーザが1又は2以上のコンテンツデータを選択する操作を受け付ける受付手段、Accepting means for accepting an operation for a user to select one or more content data from the plurality of content data displayed on the display unit;
前記解析手段により得られた前記第1の音素列を、前記ユーザが選択した1又は2以上のコンテンツデータに対応付けて前記データベースに登録する登録手段、Registration means for registering the first phoneme string obtained by the analysis means in the database in association with one or more content data selected by the user;
として機能させるためのプログラム。Program to function as.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004249014A JP4587165B2 (en) | 2004-08-27 | 2004-08-27 | Information processing apparatus and control method thereof |
US11/202,493 US20060047647A1 (en) | 2004-08-27 | 2005-08-12 | Method and apparatus for retrieving data |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004249014A JP4587165B2 (en) | 2004-08-27 | 2004-08-27 | Information processing apparatus and control method thereof |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2006065675A JP2006065675A (en) | 2006-03-09 |
JP2006065675A5 JP2006065675A5 (en) | 2007-10-11 |
JP4587165B2 true JP4587165B2 (en) | 2010-11-24 |
Family
ID=35944627
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004249014A Expired - Fee Related JP4587165B2 (en) | 2004-08-27 | 2004-08-27 | Information processing apparatus and control method thereof |
Country Status (2)
Country | Link |
---|---|
US (1) | US20060047647A1 (en) |
JP (1) | JP4587165B2 (en) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100735820B1 (en) * | 2006-03-02 | 2007-07-06 | 삼성전자주식회사 | Speech recognition method and apparatus for multimedia data retrieval in mobile device |
US8864382B2 (en) | 2006-03-10 | 2014-10-21 | Nsk Ltd. | Preload measuring device for double row rolling bearing unit |
US20080240158A1 (en) * | 2007-03-30 | 2008-10-02 | Eric Bouillet | Method and apparatus for scalable storage for data stream processing systems |
US20090055368A1 (en) * | 2007-08-24 | 2009-02-26 | Gaurav Rewari | Content classification and extraction apparatus, systems, and methods |
US20090055242A1 (en) * | 2007-08-24 | 2009-02-26 | Gaurav Rewari | Content identification and classification apparatus, systems, and methods |
US7716228B2 (en) * | 2007-09-25 | 2010-05-11 | Firstrain, Inc. | Content quality apparatus, systems, and methods |
US8321277B2 (en) * | 2008-06-18 | 2012-11-27 | Nuance Communications, Inc. | Method and system for voice ordering utilizing product information |
US20110106814A1 (en) * | 2008-10-14 | 2011-05-05 | Yohei Okato | Search device, search index creating device, and search system |
US8903847B2 (en) * | 2010-03-05 | 2014-12-02 | International Business Machines Corporation | Digital media voice tags in social networks |
US8977613B1 (en) | 2012-06-12 | 2015-03-10 | Firstrain, Inc. | Generation of recurring searches |
JP5939587B2 (en) * | 2014-03-27 | 2016-06-22 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | Apparatus and method for calculating correlation of annotation |
CN113284509B (en) * | 2021-05-06 | 2024-01-16 | 北京百度网讯科技有限公司 | Method and device for obtaining accuracy of voice annotation and electronic equipment |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1139338A (en) * | 1997-07-24 | 1999-02-12 | Toshiba Corp | Document retrieval device and method therefor and medium recording program for document retrieval |
JP2002539528A (en) * | 1999-03-05 | 2002-11-19 | キヤノン株式会社 | Database annotation and search |
JP2004206521A (en) * | 2002-12-26 | 2004-07-22 | Nec Corp | Document search device and program |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3427692B2 (en) * | 1996-11-20 | 2003-07-22 | 松下電器産業株式会社 | Character recognition method and character recognition device |
US6181351B1 (en) * | 1998-04-13 | 2001-01-30 | Microsoft Corporation | Synchronizing the moveable mouths of animated characters with recorded speech |
JP2000020089A (en) * | 1998-07-07 | 2000-01-21 | Matsushita Electric Ind Co Ltd | Speed recognition method and apparatus therefor as well as voice control system |
JP3252282B2 (en) * | 1998-12-17 | 2002-02-04 | 松下電器産業株式会社 | Method and apparatus for searching scene |
GB2361339B (en) * | 1999-01-27 | 2003-08-06 | Kent Ridge Digital Labs | Method and apparatus for voice annotation and retrieval of multimedia data |
US6882970B1 (en) * | 1999-10-28 | 2005-04-19 | Canon Kabushiki Kaisha | Language recognition using sequence frequency |
GB0015233D0 (en) * | 2000-06-21 | 2000-08-16 | Canon Kk | Indexing method and apparatus |
GB0023930D0 (en) * | 2000-09-29 | 2000-11-15 | Canon Kk | Database annotation and retrieval |
US6970818B2 (en) * | 2001-12-07 | 2005-11-29 | Sony Corporation | Methodology for implementing a vocabulary set for use in a speech recognition system |
AU2003252263A1 (en) * | 2002-08-07 | 2004-02-25 | Matsushita Electric Industrial Co., Ltd. | Character recognition processing device, character recognition processing method, and mobile terminal device |
-
2004
- 2004-08-27 JP JP2004249014A patent/JP4587165B2/en not_active Expired - Fee Related
-
2005
- 2005-08-12 US US11/202,493 patent/US20060047647A1/en not_active Abandoned
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1139338A (en) * | 1997-07-24 | 1999-02-12 | Toshiba Corp | Document retrieval device and method therefor and medium recording program for document retrieval |
JP2002539528A (en) * | 1999-03-05 | 2002-11-19 | キヤノン株式会社 | Database annotation and search |
JP2004206521A (en) * | 2002-12-26 | 2004-07-22 | Nec Corp | Document search device and program |
Also Published As
Publication number | Publication date |
---|---|
US20060047647A1 (en) | 2006-03-02 |
JP2006065675A (en) | 2006-03-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20060047647A1 (en) | Method and apparatus for retrieving data | |
JP2836159B2 (en) | Speech recognition system for simultaneous interpretation and its speech recognition method | |
US7818173B2 (en) | Information retrieval system, method, and program | |
JP3983265B1 (en) | Dictionary creation support system, method and program | |
US20160055763A1 (en) | Electronic apparatus, pronunciation learning support method, and program storage medium | |
JP2011018330A (en) | System and method for transforming kanji into vernacular pronunciation string by statistical method | |
JP2005150841A (en) | Information processing method and information processing apparatus | |
JP4738847B2 (en) | Data retrieval apparatus and method | |
Ríos-Vila et al. | Evaluating simultaneous recognition and encoding for optical music recognition | |
KR20060100646A (en) | Method and system for searching the position of an image thing | |
CN110782899B (en) | Information processing apparatus, storage medium, and information processing method | |
JP4839291B2 (en) | Speech recognition apparatus and computer program | |
WO2010026804A1 (en) | Approximate collation device, approximate collation method, program, and recording medium | |
JP2006236037A (en) | Voice interaction content creation method, device, program and recording medium | |
JP2004348552A (en) | Voice document search device, method, and program | |
JP2006227914A (en) | Information search device, information search method, program and storage medium | |
JP4515186B2 (en) | Speech dictionary creation device, speech dictionary creation method, and program | |
JP2004184951A (en) | Method, device, and program for class identification model, and method, device, and program for class identification | |
JP4579638B2 (en) | Data search apparatus and data search method | |
JP2004171174A (en) | Device and program for reading text aloud, and recording medium | |
JP4304146B2 (en) | Dictionary registration device, dictionary registration method, and dictionary registration program | |
CN112541651B (en) | Electronic device, pronunciation learning method, server device, pronunciation learning processing system, and recording medium | |
JP3734101B2 (en) | Hypermedia construction support device | |
JP2007171275A (en) | Language processor and language processing method | |
JP4621936B2 (en) | Speech synthesis apparatus, learning data generation apparatus, pose prediction apparatus, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070827 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070827 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20070827 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100225 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100312 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100511 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100827 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100906 Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100831 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130917 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130917 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130917 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130917 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |