JP2005257954A - Speech retrieval apparatus, speech retrieval method, and speech retrieval program - Google Patents
Speech retrieval apparatus, speech retrieval method, and speech retrieval program Download PDFInfo
- Publication number
- JP2005257954A JP2005257954A JP2004068177A JP2004068177A JP2005257954A JP 2005257954 A JP2005257954 A JP 2005257954A JP 2004068177 A JP2004068177 A JP 2004068177A JP 2004068177 A JP2004068177 A JP 2004068177A JP 2005257954 A JP2005257954 A JP 2005257954A
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- syllable
- string
- data
- new
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、音声検索装置、音声検索方法および音声検索プログラムに関し、特に発話された音声から特定の語を検索する技術に関する。 The present invention relates to a voice search device, a voice search method, and a voice search program, and more particularly to a technique for searching for a specific word from spoken voice.
コンピュータ技術の進歩に伴う記憶デバイスの大容量化や、ネットワーク技術の発達による広帯域を使用したデータ通信の普及に伴って、音声の電子化が行われ始めている。電子化された音声である音声データを、適切に検索できる技術が望まれている。従来技術による音声認識によって書き起こされた音素列には、認識誤りが混入している場合がある。そのため、ヒトが耳で聞いた場合には同一の読みであると判断される音声同士であっても、音声認識を行う装置(またはソフトウェア)が、同じ音素列を生成しない場合がある。認識誤りが存在する場合であっても、入力された検索キーワードによる検索が可能な技術が知られている(例えば、特許文献1、非特許文献1参照。)。
With the increase in the capacity of storage devices accompanying the advancement of computer technology and the spread of data communication using broadband due to the development of network technology, digitization of voice has begun. There is a demand for a technique that can appropriately search voice data that is an electronic voice. There may be a case where a recognition error is mixed in a phoneme string transcribed by speech recognition according to the prior art. For this reason, even when sounds that are determined to be the same reading when a human hears them by ear, a device (or software) that performs speech recognition may not generate the same phoneme string. A technique is known that enables a search using an input search keyword even when a recognition error exists (see, for example,
図1は上記特許文献1に記載された音声検索装置の構成を示すブロック図である。図1を参照すると、その音声検索装置は、音声・電気信号変換部101と、音声データ保管部102と、音素または音節認識部103と、音声データ始端保管部104と、音素または音節系列保管部105と、検索単語・語句の音素列または音節保管部106と、マッチング部107と、尤度閾値保管部108と、比較部109と、音声データ再生始端ポインタ110と、電気信号・音声変換部111とから構成されている。
FIG. 1 is a block diagram showing the configuration of the speech search apparatus described in
このような構成を有する従来の検索装置は次のように動作する。文章音声を音声・電気信号変換部101により電気信号に変換し、この音声データを音声データ保管部102に保管すると共に、その音声データを音素または音節認識部103に入力する。音素または音節認識部103は、その認識結果である文章音声の音素または音節系列を音素または音節系列保管部105に保管すると共に、認識した各音素または音節の音声データの始端位置を、音素または音節の音声データ始端保管部104に保管する。
The conventional search device having such a configuration operates as follows. The sentence voice is converted into an electric signal by the voice / electrical
次に、キーボード等により文字で入力された、検索を希望する単語、もしくは語句の音素または音節列を検索単語・語句の音素または音節列保管部106に保管する。文章音声音素または音節系列保管部105の文章音素の音素または音節系列と、検索単語・語句の音素または音節列保管部106の検索を希望する単語、もしくは語句の音素または音節列とをマッチング部107に入力し、文章音声の音素または音節列中で検索を希望する単語、もしくは語句の音素または音節列とのマッチングの尤度を計算する。
Next, the phoneme or syllable string of the word or phrase desired to be searched, which is input by characters using a keyboard or the like, is stored in the phoneme or syllable
このマッチング尤度の計算結果と尤度閾値保管部108における予め設定してある尤度閾値とを比較部109に入力し、尤度閾値を超える文章音声の音素または音節系列中の区間を検出し、その区間の位置を出力する。音声データ再生始端ポインタ110は、検索結果区間の音素または音節と音声データ始端保管部104の音声データの始端位置の入力により検索区間の文章音声データ保管部102の中の文章音声データの位置を指し示し、この位置からの音声データである電気信号を電気信号・音声変換部111に入力させる。これにより、電気信号・電気変換部111から検索結果を音声として出力することができる。上記の技術は、尤度を使用して検索結果を導き出しているため、認識誤りが存在する場合でも、比較的精度の高い検索の実行が可能である。
The matching likelihood calculation result and the likelihood threshold set in advance in the likelihood
また、非特許文献1に記載の技術は、ニュース記事読み上げ音声コーパスからクエリー語の音声を含んだ記事の音声ファイルの検索を行う。クエリーは音素列として与え、音声コーパスを音素認識して得られた認識誤りを含む音素列を検索する。この際、連続した音素列中の任意の始点から始まる音素列とクエリーとの距離を計算する連続DPマッチングを用いることで、ある程度の挿入、脱落、置換を吸収している。また、ある音素がどういう音素に誤りやすいかをまとめた Confusion matrix もDPマッチングと合わせて用いることでより効果的な検索を可能にしている。
The technique described in Non-Patent
本発明が解決しようとする課題は、認識誤りが混入している音声データから、任意の単語(または語句)を検索する場合に、少ない情報処理量で検索を実行し、効果的な検索結果が得られる音声検索装置、音声検索プログラムおよび音声検索方法を提供することにある。 The problem to be solved by the present invention is that when an arbitrary word (or phrase) is searched from speech data in which recognition errors are mixed, a search is executed with a small amount of information processing, and an effective search result is obtained. An object is to provide a voice search device, a voice search program, and a voice search method.
以下に、[発明を実施するための最良の形態]で使用される番号を用いて、課題を解決するための手段を説明する。これらの番号は、[特許請求の範囲]の記載と[発明を実施するための最良の形態]との対応関係を明らかにするために付加されたものである。ただし、それらの番号を、[特許請求の範囲]に記載されている発明の技術的範囲の解釈に用いてはならない。 The means for solving the problem will be described below using the numbers used in [Best Mode for Carrying Out the Invention]. These numbers are added to clarify the correspondence between the description of [Claims] and [Best Mode for Carrying Out the Invention]. However, these numbers should not be used to interpret the technical scope of the invention described in [Claims].
入力された語を変換して、音素列または音節列を生成する語句展開部(6)と、前記音素列または前記音節列に新たな音素を加減するか、または、前記音素列または前記音節列を構成する少なくとも一つの音素を他の音素に置換して、新たな音素列または新たな音節列を生成する音素列変換部(7)と、検索対象音素・音節データを格納する音素・音節データ格納部(9)と、前記音素列または前記音節列と、前記検索対象音素・音節データとを照合すると共に、前記新たな音素列または前記新たな音節列と、前記検索対象音素・音節データとを照合する照合部(4)とを具備する音声検索装置を使用して認識誤りを含むデータに対する音声検索を実行する。 A phrase expansion unit (6) that converts an input word to generate a phoneme string or a syllable string, and adds or subtracts a new phoneme to the phoneme string or the syllable string, or the phoneme string or the syllable string A phoneme string conversion unit (7) for generating a new phoneme string or a new syllable string by replacing at least one phoneme constituting the phoneme, and a phoneme / syllable data for storing search target phoneme / syllable data The storage unit (9), the phoneme string or the syllable string, and the search target phoneme / syllable data are collated, and the new phoneme string or the new syllable string, the search target phoneme / syllable data, A voice search is performed on data including a recognition error using a voice search device including a matching unit (4) for matching the data.
その音声検索装置において、前記検索対象音素・音節データは、複数の音素によって構成され、前記照合部(4)は、前記照合により、前記新たな音素列または前記新たな音節列に一致する箇所を前記検索対象音素・音節データから検出する音声検索装置を使用して認識誤りを含むデータに対する音声検索を実行する。また、前記音素列変換部(7)は、前記新たな音素列または前記新たな音節列を生成するための規則である展開ルール(25)を格納し、前記展開ルール(25)に基づいて前記新たな音素列または前記新たな音節列を生成する音声検索装置を使用して認識誤りを含むデータに対する音声検索を実行する。 In the speech search apparatus, the search target phoneme / syllable data is composed of a plurality of phonemes, and the collation unit (4) finds a position that matches the new phoneme string or the new syllable string by the collation. A speech search is performed on data including recognition errors using a speech search device that detects from the search target phoneme / syllable data. Further, the phoneme string conversion unit (7) stores a development rule (25) that is a rule for generating the new phoneme string or the new syllable string, and based on the expansion rule (25), A voice search is performed on data including recognition errors using a new phoneme string or a voice search device that generates the new syllable string.
さらに、その音声検索装置において、前記検索対象音素・音節データは、音声入力装置によって入力された音声を電子データ化するための情報処理を、逐次実行することで生成された音声データに基づいて生成される。また、その音声データは予め格納された音声データ(30)でも良い。そのうえで、前記展開ルール(25)は、前記検索対象音素・音節データを構成する複数の音素と、前記音声データ(30)を正しく音素・音節認識した結果である正解データ(28)を構成する音素・音節との比較に基づいて設定される音声検索装置を使用して認識誤りを含むデータに対する音声検索を実行する。ここで、本発明による音声検索装置は前記検索対象音素・音節データを生成するための元となるデータ形式に制限が無い。 Further, in the voice search device, the search target phoneme / syllable data is generated based on the voice data generated by sequentially executing information processing for converting the voice input by the voice input device into electronic data. Is done. The voice data may be voice data (30) stored in advance. In addition, the expansion rule (25) includes a plurality of phonemes constituting the search target phoneme / syllable data and phonemes constituting correct answer data (28) as a result of correctly recognizing the phoneme / syllable of the speech data (30). Perform a voice search for data containing recognition errors using a voice search device set based on comparison with syllables. Here, the speech search apparatus according to the present invention has no limitation on the data format that is the basis for generating the search target phoneme / syllable data.
その音声検索装置において、前記検索対象音素・音節データは、上記と同様に音声入力装置によって入力された音声から生成された音声データや、予め格納された音声データ(30)に基づいて生成され、前記展開ルール(25)は、前記検索対象音素・音節データを構成する複数の音素の出現頻度の統計に基づいて設定される音声検索装置を使用して認識誤りを含むデータに対する音声検索を実行する。 In the speech search device, the search target phoneme / syllable data is generated based on speech data generated from speech input by the speech input device as described above, or speech data (30) stored in advance. The expansion rule (25) executes a voice search for data including a recognition error using a voice search device set based on statistics of appearance frequencies of a plurality of phonemes constituting the search target phoneme / syllable data. .
その音声検索装置において、前記語句展開部(6)は、入力された語を構成する形態素を解析する形態素解析手段(50)を備え、前記音素列変換部(7)は、前記形態素解析手段(50)から出力された解析結果と、前記音素列または前記音節列とに基づいて、前記新たな音素列または前記新たな音節列を生成する音声検索装置を使用して認識誤りを含むデータに対する音声検索を実行する。また、前記語句展開部(6)は更に、登録語句判定部(51)を備え、前記登録語句判定部(51)は、前記形態素解析手段(50)が解析した結果である形態素の各々が、予め登録されたものであるかどうかを判定し、前記音素列変換部(7)は、前記判定結果に基づいて前記新たな音素列または前記新たな音節列を生成する音声検索装置を使用して認識誤りを含むデータに対する音声検索を実行する。 In the speech search apparatus, the phrase expansion unit (6) includes morpheme analysis means (50) for analyzing morphemes constituting the input word, and the phoneme string conversion unit (7) includes the morpheme analysis means ( 50) speech for data including a recognition error using the speech search device that generates the new phoneme sequence or the new syllable sequence based on the analysis result output from 50) and the phoneme sequence or the syllable sequence. Perform a search. Moreover, the phrase expansion unit (6) further includes a registered phrase determination unit (51), and each of the morphemes that is a result of analysis by the morpheme analysis unit (50) The phoneme string conversion unit (7) determines whether the phoneme string is registered in advance, and uses the speech search device that generates the new phoneme string or the new syllable string based on the determination result. Perform a voice search for data containing recognition errors.
その音声検索装置において、前記検索対象音素・音節データは、上記と同様に音声入力装置によって入力された音声を電子データ化するための情報処理を、逐次実行することで生成された音声データに基づいて生成される。また、その音声データは予め格納された音声データ(30)でも良い。それらの音声データを音声認識した音声認識結果、または、それらの音声データを音素認識した音素認識結果に基づいて、前記検索対象音素・音節データは生成される。ここで、前記音声データは、発話された音声の集合から生成される。このような構成を備える音声検索装置を使用して認識誤りを含むデータに対する音声検索を実行する。また、その音声検索装置において、前記検索対象音素・音節データは、予め格納された言語モデルに基づいて生成され、前記言語モデルは、単語の接続制約を記述した情報であるような音声検索装置を使用して認識誤りを含むデータに対する音声検索を実行する。また、その音声検索装置において、前記語句展開部(6)は、前記入力された語が、前記新たな音素列または前記新たな音節列を生成する必要がない語であった場合、前記音素列または前記音節列を前記照合部(4)に出力するような音声検索装置を使用して認識誤りを含むデータに対する音声検索を実行する。 In the speech search device, the search target phoneme / syllable data is based on speech data generated by sequentially executing information processing for converting speech input by the speech input device into electronic data, as described above. Generated. The voice data may be voice data (30) stored in advance. The search target phoneme / syllable data is generated based on a speech recognition result obtained by recognizing the speech data or a phoneme recognition result obtained by phoneme recognition of the speech data. Here, the voice data is generated from a set of spoken voices. A voice search is performed on data including a recognition error using the voice search apparatus having such a configuration. Further, in the speech search device, the search target phoneme / syllable data is generated based on a language model stored in advance, and the language model is a speech search device that is information describing connection restrictions of words. Use to perform a voice search for data containing recognition errors. Further, in the speech search device, the phrase expansion unit (6), when the input word is a word that does not need to generate the new phoneme string or the new syllable string, the phoneme string Alternatively, a voice search is performed on data including a recognition error using a voice search device that outputs the syllable string to the collation unit (4).
その音声検索装置において、音声検索装置は所定の記憶領域を備え、その記憶領域に前記入力された語を変換するための音素辞書データまたは音節辞書データを有し、前記語句展開部(6)は、音素列を生成する場合には、前記音素辞書データを使用し、音節列を生成する場合には前記音節辞書データ使用する。それにより、前記語句展開部(6)は、前記入力された語を音素または音節に変換し、変換された音素または音節に基づいて前記音素列または前記音節列を生成する音声検索装置によって音声検索を実行する。 In the speech search device, the speech search device has a predetermined storage area, and has phoneme dictionary data or syllable dictionary data for converting the input word in the storage area, and the phrase expansion unit (6) When generating a phoneme string, the phoneme dictionary data is used, and when generating a syllable string, the syllable dictionary data is used. Thereby, the phrase expansion unit (6) converts the inputted word into a phoneme or a syllable, and performs a voice search by a voice search device that generates the phoneme string or the syllable string based on the converted phoneme or syllable. Execute.
上記課題をコンピュータプログラムによって解決しようとする場合、入力された語を変換し、音素列または音節列を生成するステップと、前記音素列または前記音節列に新たな音素を加減し、または、前記音素列または前記音節列を構成する音素を他の音素に置換して、新たな音素列または新たな音節列を生成するステップと、格納された検索対象音素・音節データを読み出すステップと、前記新たな音素列または前記新たな音節列と、前記検索対象音素・音節データとを照合するステップとを具備する方法をコンピュータで実行可能なプログラムを所定のコンピュータに搭載し、そのプログラムを実行することによって音声検索を実行する。 When solving the above problem by a computer program, a step of converting an input word to generate a phoneme string or a syllable string, adding or subtracting a new phoneme to the phoneme string or the syllable string, or the phoneme Replacing the phoneme constituting the sequence or the syllable sequence with another phoneme, generating a new phoneme sequence or a new syllable sequence, reading the stored search target phoneme / syllable data, and the new A computer-executable program is installed in a predetermined computer and a method comprising the step of collating a phoneme string or the new syllable string with the search target phoneme / syllable data, and a voice is obtained by executing the program. Perform a search.
そのプログラムにおいて、複数の音素によって構成された前記検索対象音素・音節データを読み出すステップと、前記照合により、前記新たな音素列または前記新たな音節列に一致する箇所を前記検索対象音素・音節データから検出するステップを具備する方法をコンピュータで実行可能なプログラムを所定のコンピュータに搭載し、そのプログラムを実行することによって音声検索を実行する。 In the program, the step of reading out the search target phoneme / syllable data constituted by a plurality of phonemes, and the search results in the search target phoneme / syllable data corresponding to the new phoneme string or the new syllable string by the collation. A program that can be executed by a computer is installed in a predetermined computer, and voice search is executed by executing the program.
そのプログラムにおいて、展開ルール(25)を読み出すステップと、前記展開ルール(25)は、前記新たな音素列または前記新たな音節列を生成するための規則であり、前記展開ルール(25)に基づいて前記新たな音素列または前記新たな音節列を生成するステップを具備する方法をコンピュータで実行可能なプログラムを所定のコンピュータに搭載し、そのプログラムを実行することによって音声検索を実行する。 In the program, the step of reading the expansion rule (25), and the expansion rule (25) are rules for generating the new phoneme string or the new syllable string, and are based on the expansion rule (25). Then, a computer-executable program that includes the step of generating the new phoneme sequence or the new syllable sequence is installed in a predetermined computer, and voice search is executed by executing the program.
そのプログラムにおいて、音声入力装置によって入力された音声を電子データ化するための情報処理を逐次実行することで生成された音声データや、予め格納された音声データ(30)に基づいて、前記検索対象音素・音節データを生成するステップと、前記検索対象音素・音節データを構成する複数の音素と、前記音声データを正しく音素認識した結果である正解データ(28)を構成する音素との比較に基づいて前記展開ルール(25)を設定するステップを具備する方法をコンピュータで実行可能なプログラムを所定のコンピュータに搭載し、そのプログラムを実行することによって音声検索を実行する。ここで、本発明による音声検索装置は前記検索対象音素・音節データを生成するための元となるデータ形式に制限が無い。 In the program, the search target is based on voice data generated by sequentially executing information processing for converting voice inputted by the voice input device into electronic data, or voice data (30) stored in advance. Based on comparison between a step of generating phoneme / syllable data, a plurality of phonemes constituting the search target phoneme / syllable data, and a phoneme constituting correct answer data (28) as a result of correct phoneme recognition of the speech data. Then, a program that can be executed by a computer is installed in a predetermined computer and a voice search is executed by executing the program. Here, the speech search apparatus according to the present invention has no limitation on the data format that is the basis for generating the search target phoneme / syllable data.
そのプログラムにおいて、上記と同様に音声入力装置によって入力された音声から生成された音声データや、予め格納された音声データ(30)に基づいて、前記検索対象音素・音節データを生成するステップと、前記検索対象音素・音節データを構成する複数の音素の出現頻度の統計に基づいて、前記展開ルール(25)を設定するステップを具備する方法をコンピュータで実行可能なプログラムを所定のコンピュータに搭載し、そのプログラムを実行することによって音声検索を実行する。 In the program, similar to the above, generating the search target phoneme / syllable data based on voice data generated from voice input by the voice input device or voice data stored in advance (30); A computer-executable program having a method of setting the expansion rule (25) based on statistics of appearance frequencies of a plurality of phonemes constituting the search target phoneme / syllable data is installed in a predetermined computer. Perform a voice search by running the program.
そのプログラムにおいて、入力された語を構成する形態素を解析するステップと、その解析結果と、前記音素列または前記音節列とに基づいて、前記新たな音素列または前記新たな音節列を生成するステップを具備する方法をコンピュータで実行可能なプログラムを所定のコンピュータに搭載し、そのプログラムを実行することによって音声検索を実行する。 In the program, a step of analyzing a morpheme constituting an input word, and a step of generating the new phoneme sequence or the new syllable sequence based on the analysis result and the phoneme sequence or the syllable sequence A program that can be executed by a computer is installed in a predetermined computer, and voice search is executed by executing the program.
そのプログラムにおいて、前記形態素の各々が、予め登録されたものであるかどうかを判定するステップと、その判定結果に基づいて前記新たな音素列または前記新たな音節列を生成するステップを具備する方法をコンピュータで実行可能なプログラムを所定のコンピュータに搭載し、そのプログラムを実行することによって音声検索を実行する。 In the program, a method comprising: determining whether each of the morphemes is registered in advance; and generating the new phoneme string or the new syllable string based on the determination result Is installed in a predetermined computer and a voice search is executed by executing the program.
そのプログラムにおいて、音声データ(30)を読み出すステップと、前記音声データを音声認識した音声認識結果、または、前記音声データを音素・音節認識した音素・音節認識結果に基づいて前記検索対象音素・音節データを生成するステップとを具備する方法をコンピュータで実行可能なプログラムを所定のコンピュータに搭載し、そのプログラムを実行することによって音声検索を実行する。前記音声データは、発話された音声の集合であり、上記と同様に音声入力装置によって入力された音声を、逐次で電子データ化を行うことで生成された音声データから生成される。また、その音声データは予め格納されたものであっても良い。 In the program, the retrieval target phoneme / syllable is read based on a step of reading out speech data (30) and a speech recognition result obtained by speech recognition of the speech data, or a phoneme / syllable recognition result obtained by phoneme / syllable recognition of the speech data. A program that can be executed by a computer is mounted on a predetermined computer, and a voice search is executed by executing the program. The voice data is a set of spoken voices, and is generated from voice data generated by sequentially converting voice input by a voice input device into electronic data in the same manner as described above. The voice data may be stored in advance.
そのプログラムにおいて、予め格納された言語モデルを読み出すステップと、前記言語モデルは、単語の接続制約を記述した情報であり、前記言語モデルに基づいて前記検索対象音素・音節データを生成するステップを具備する方法をコンピュータで実行可能なプログラムを所定のコンピュータに搭載し、そのプログラムを実行することによって音声検索を実行する。また、そのプログラムにおいて、前記入力された語が、前記新たな音素列または前記新たな音節列を生成する必要があるかどうかの判定を実行するステップと、前記判定の結果、前記入力された語が、前記新たな音素列または前記新たな音節列を生成する必要のない語であった場合、前記音素列または前記音節列を新たな音素列または新たな音節列にすることなく出力するプログラムを所定のコンピュータに搭載し、そのプログラムを実行することによって音声検索を実行する。 In the program, a step of reading a language model stored in advance, and the language model is information describing connection restrictions of words, and includes generating the search target phoneme / syllable data based on the language model. A program that can be executed by a computer is installed in a predetermined computer, and voice search is executed by executing the program. In the program, the step of determining whether or not the input word needs to generate the new phoneme string or the new syllable string; and as a result of the determination, the input word Is a word that does not require generation of the new phoneme string or the new syllable string, a program for outputting the phoneme string or the syllable string without making it a new phoneme string or a new syllable string. The voice search is executed by installing the program on a predetermined computer and executing the program.
そのプログラムにおいて、所定の記憶領域に格納された、前記入力された語を変換するための音素辞書データまたは音節辞書データを読み出すステップと、前記音素辞書データまたは前記音節辞書データに基づいて、前記入力された語を音素または音節に変換するステップと、その変換された音素または音節に基づいて前記音素列または前記音節列を生成するステップを具備する方法をコンピュータで実行可能なプログラムを所定のコンピュータに搭載し、そのプログラムを実行することによって音声検索を実行する。 In the program, the step of reading phoneme dictionary data or syllable dictionary data for converting the inputted word stored in a predetermined storage area; and the input based on the phoneme dictionary data or the syllable dictionary data A computer-executable program comprising a step of converting a converted word into a phoneme or a syllable and a step of generating the phoneme sequence or the syllable sequence based on the converted phoneme or syllable Install and execute voice search by executing the program.
さらに、上記課題を解決する方法として、入力された語を変換し、音素列または音節列を生成するステップと、前記音素列または前記音節列に新たな音素を加減し、または、前記音素列または前記音節列を構成する音素を他の音素に置換して、新たな音素列または新たな音節列を生成するステップと、格納された検索対象音素・音節データを読み出すステップと、前記新たな音素列または前記新たな音節列と、前記検索対象音素・音節データとを照合するステップとを具備する音声検索方法を使用して、認識誤りを含むデータに対する音声検索を実行する。 Furthermore, as a method for solving the above-mentioned problem, a step of converting an input word to generate a phoneme string or a syllable string, adding or subtracting a new phoneme to the phoneme string or the syllable string, Replacing a phoneme constituting the syllable string with another phoneme to generate a new phoneme string or a new syllable string; reading a stored search target phoneme / syllable data; and the new phoneme string Alternatively, a speech search is performed on data including a recognition error using a speech search method including a step of collating the new syllable string with the search target phoneme / syllable data.
その音声検索方法において、複数の音素によって構成された前記検索対象音素・音節データを読み出すステップと、前記照合により、前記新たな音素列または前記新たな音節列に一致する箇所を前記検索対象音素・音節データから検出するステップを具備する音声検索方法を使用して認識誤りを含むデータに対する音声検索を実行する。 In the speech search method, the step of reading out the search target phoneme / syllable data composed of a plurality of phonemes, and the matching to the new phoneme string or the location matching the new syllable string by the collation Perform a speech search on data containing recognition errors using a speech search method comprising detecting from syllable data.
その音声検索方法において、展開ルール(25)を読み出すステップと、前記展開ルール(25)は、前記新たな音素列または前記新たな音節列を生成するための規則であり、前記展開ルール(25)に基づいて前記新たな音素列または前記新たな音節列を生成するステップを具備する音声検索方法を使用して認識誤りを含むデータに対する音声検索を実行する。 In the speech search method, the step of reading the expansion rule (25), and the expansion rule (25) are rules for generating the new phoneme string or the new syllable string, and the expansion rule (25) A speech search is performed on data including recognition errors using a speech search method comprising the step of generating the new phoneme sequence or the new syllable sequence based on
その音声検索方法において、音声入力装置によって入力された音声をリアルタイムで電子データに変換した音声データや、予め格納された音声データ(30)に基づいて、前記検索対象音素・音節データを生成するステップと、前記検索対象音素・音節データを構成する複数の音素と、前記音声データを正しく音素・音節認識した結果である正解データ(28)を構成する音素・音節との比較に基づいて前記展開ルール(25)を設定するステップを具備する音声検索方法を使用して認識誤りを含むデータに対する音声検索を実行する。本発明による音声検索方法は前記検索対象音素・音節データを生成するための元となるデータ形式に制限が無い。 In the voice search method, the search target phoneme / syllable data is generated based on voice data obtained by converting voice input by a voice input device into electronic data in real time or voice data (30) stored in advance. And a plurality of phonemes constituting the search target phoneme / syllable data and the expansion rule based on a comparison between the phoneme / syllable constituting the correct answer data (28) as a result of correctly recognizing the phoneme / syllable Perform a voice search on data containing recognition errors using a voice search method comprising the step of setting (25). In the speech search method according to the present invention, there is no limitation on the data format that is the basis for generating the search target phoneme / syllable data.
その音声検索方法において、音声入力装置によって入力された音声をリアルタイムで電子データに変換した音声データや、予め格納された音声データ(30)に基づいて、前記検索対象音素・音節データを生成するステップと、前記検索対象音素・音節データを構成する複数の音素の出現頻度の統計に基づいて、前記展開ルール(25)を設定するステップを具備する音声検索方法を使用して認識誤りを含むデータに対する音声検索を実行する。 In the voice search method, the search target phoneme / syllable data is generated based on voice data obtained by converting voice input by a voice input device into electronic data in real time or voice data (30) stored in advance. And using a speech search method comprising a step of setting the expansion rule (25) based on statistics of appearance frequencies of a plurality of phonemes constituting the search target phoneme / syllable data. Perform a voice search.
その音声検索方法において、入力された語を構成する形態素を解析するステップと、その解析結果と、前記音素列または前記音節列とに基づいて、前記新たな音素列または前記新たな音節列を生成するステップを具備する音声検索方法を使用して認識誤りを含むデータに対する音声検索を実行する。 In the speech search method, the new phoneme string or the new syllable string is generated based on the step of analyzing the morpheme constituting the input word, the analysis result, and the phoneme string or the syllable string Performing a voice search on data including a recognition error using a voice search method comprising the steps of:
その音声検索方法において、前記形態素の各々が、予め登録されたものであるかどうかを判定するステップと、その判定結果に基づいて前記新たな音素列または前記新たな音節列を生成するステップを具備する音声検索方法を使用して認識誤りを含むデータに対する音声検索を実行する。 In the speech search method, the method includes a step of determining whether each of the morphemes is registered in advance, and a step of generating the new phoneme sequence or the new syllable sequence based on the determination result. The voice search is performed on the data including the recognition error using the voice search method.
その音声検索方法において、音声入力装置によって入力された音声をリアルタイムで電子データに変換した音声データや、予め格納された音声データ(30)を読み出すステップと、前記音声データを音声認識した音声認識結果、または、前記音声データを音素認識した音素認識結果に基づいて前記検索対象音素・音節データを生成するステップとを具備する音声検索方法を使用して認識誤りを含むデータに対する音声検索を実行する。前記音声データは、発話された音声の集合であり、上記と同様に音声入力装置によって入力された音声を、逐次で電子データ化された音声データから生成される。また、その音声データは予め格納されたものであっても良い。 In the voice search method, a step of reading voice data obtained by converting voice input by a voice input device into electronic data in real time, or voice data (30) stored in advance, and a voice recognition result obtained by voice recognition of the voice data Alternatively, a speech search is performed on data including a recognition error using a speech search method including a step of generating the search target phoneme / syllable data based on a phoneme recognition result obtained by phoneme recognition of the speech data. The voice data is a set of spoken voices, and the voice input by the voice input device is generated from the voice data that is sequentially converted into electronic data in the same manner as described above. The voice data may be stored in advance.
その音声検索方法において、予め格納された言語モデルを読み出すステップと、前記言語モデルは、単語の接続制約を記述した情報であり、前記言語モデルに基づいて前記検索対象音素・音節データを生成するステップを具備する音声検索方法を使用して認識誤りを含むデータに対する音声検索を実行する。 In the speech search method, a step of reading a language model stored in advance, and the language model is information describing a word connection constraint, and generating the search target phoneme / syllable data based on the language model A voice search is performed on data including recognition errors using a voice search method comprising:
その音声検索方法において、所定の記憶領域に格納され、前記入力された語を変換するための音素辞書データまたは音節辞書データを読み出すステップと、前記音素辞書データまたは前記音節辞書データに基づいて、前記入力された語を音素または音節に変換するステップと、その変換された音素または音節に基づいて前記音素列または前記音節列を生成するステップを具備する音声検索方法を使用して認識誤りを含むデータに対する音声検索を実行する。 In the speech search method, the step of reading phoneme dictionary data or syllable dictionary data for converting the input word stored in a predetermined storage area, and based on the phoneme dictionary data or the syllable dictionary data, Data including a recognition error using a speech search method comprising: converting an input word into a phoneme or syllable; and generating the phoneme sequence or the syllable sequence based on the converted phoneme or syllable Perform a voice search for.
本発明によれば、検索対象である音声データに対して、任意の単語(または語句)である検索キーワードを使用して、その検索キーワードに対応する箇所を特定する場合に、少ない情報処理量で検索結果が得られるという効果がある。 According to the present invention, when using a search keyword that is an arbitrary word (or phrase) for audio data that is a search target and specifying a location corresponding to the search keyword, the amount of information processing is small. There is an effect that a search result can be obtained.
さらに、本発明によれば、入力された任意の単語(または語句)から音素列を生成する場合に、認識誤りが発生している可能性を考慮した検索を実行するため、より効果的な検索結果が得られるという効果がある。 Furthermore, according to the present invention, when a phoneme string is generated from an arbitrary input word (or phrase), a search is performed in consideration of the possibility that a recognition error has occurred. There is an effect that a result is obtained.
以下に図面を使用して本発明を実施するための最良の形態について述べる。 The best mode for carrying out the present invention will be described below with reference to the drawings.
[第1の実施の形態の構成]
図2は、本発明を実施するための第1の実施の形態の構成を示すブロック図である。このブロック図によると、第1の実施の形態における音声検索装置は、検索キーワード入力部1と、音素・音節処理部2と、音素・音節データ出力部3とマッチング部4と、出力部5とで構成されることが示されている。以下に述べる実施の形態では、被検索対象である音素・音節データが、予め格納された音声データから生成される場合を例に述べるが、これは、本発明における音声データの状態を限定するものではない。例えば、入力された音声(発話された音声など)に対して、逐次に認識処理を実行して音声データを作成することで、リアルタイムで音声検索を行うことも可能である。
[Configuration of First Embodiment]
FIG. 2 is a block diagram showing the configuration of the first embodiment for carrying out the present invention. According to this block diagram, the speech search apparatus in the first embodiment includes a search
検索キーワード入力部1は、文字や音声で入力された単語、語句および文(以下、これらをキーワードと呼ぶ)を、コンピュータによる情報処置が可能なデータとして出力する情報入力装置である。
The search
音素・音節処理部2は、検索キーワードを音素列または音節列(以下、音素列等と呼ぶ)に変換するデータ処理機能ブロックである。音素・音節処理部2はさらに語句展開部6と音素列変換部7とを含む。語句展開部6は検索キーワード入力部1から出力されたキーワードを音素列等に変換するデータ処理機能ブロックである。語句展開部6は音声検索装置に備えられた音素・音節辞書(図示されず)を使用して、そのキーワードが、どの音素(または音節)で構成されているかを判断する。語句展開部6は、その判断により得られた音素(または音節)を用いて音素列等を生成することによって、そのキーワードを音素列等に変換する。音素列変換部7は、入力された音素列等と、所定の処理規則に対応して新たな音素列等を生成するデータ処理機能ブロックである。音素列変換部7に関する詳細は後で説明する。
The phoneme /
音素・音節データ出力部3は、音声検索可能な検索対象音素・音節データを出力するデータ出力機能ブロックである。音素・音節データ出力部3はさらに音素・音節データ生成部8と音素・音節データ格納部9とを含む。音素・音節データ生成部8は入力された音声からコンピュータで情報処理が可能な音声データを生成し、その音声データから、検索対象音素・音節データを生成するデータ生成機能ブロックである。音素・音節データ格納部9は音素・音節データ生成部8から出力された検索対象音素・音節データを格納する情報記憶機能ブロックである。
The phoneme / syllable
マッチング部4は、音素・音節処理部2から出力された音素列等と、音素・音節データ出力部3から出力された検索対象音素・音節データとのマッチングを行う照合機能ブロックである。マッチング部4は、音素・音節処理部2から出力された音素列等と、音素・音節データ出力部3から出力された検索対象音素・音節データとに対してマッチングを実行し、検索対象音素・音節データに音素列等と一致する部分が存在する場合、その一致する箇所を特定するための情報(例えば、その一致する箇所を含む単文や、その単文を含む複文など)を抽出する。また、マッチングを行う際には、音素・音節データ出力部3から出力された検索対象音素・音節データと、音素・音節処理部2から出力された音素列等の中に含まれる音素あるいは音節を組にしてインデックスを作成し、そのインデックスの突合せを行ってより効率的に検索を行うこともできる。出力部5はマッチング部4から出力された情報が入力され、その情報を出力可能なデータ形式にデータ変換して出力する情報出力装置である。
The matching unit 4 is a collating function block that performs matching between the phoneme string output from the phoneme /
図3は、音素・音節データ出力部3に備えられた音素・音節データ生成部8と音素・音節データ格納部9との構成の詳細を示すブロック図である。図3を参照すると、音素・音節データ生成部8は、音声データ格納部30と、その音声データ格納部30に接続された音素・音節認識部31と、その音素・音節認識部31に接続された音響モデル格納部32とを含む。音声データ格納部30は、予め入力された音声をコンピュータによる情報処理が可能な形式に変換することによって生成されたデータを格納する情報記憶機能ブロックである。音素・音節認識部31は、その音声データ格納部30から出力された音声データに対応する、検索対象音素・音節データを生成する情報処理機能ブロックである。音響モデル格納部32は、認識単位の音響的特徴の情報である音響モデルを格納する情報記憶機能ブロックである。
FIG. 3 is a block diagram showing details of the configuration of the phoneme / syllable
音素・音節認識部31は、音声データ格納部30から出力される音声データと、音響モデル格納部32から出力される音響モデルに基づいて音素・音節認識を実行する。音素・音節認識部31はその実行結果である音素・音節データを音素・音節データ格納部9に出力する。音素・音節データ格納部9は音素・音節データ生成部8から出力された音素・音声データを検索対象音素・音節データとして格納する。音素・音節データ出力部3は、マッチング部4からの要求に応答して、音素・音節データ格納部9に格納された検索対象音素・音節データを出力する。
The phoneme /
図4は、音素・音節データ出力部3に備えられた音素・音節データ生成部8と音素・音節データ格納部9との構成を詳細に示すブロック図である。図4を参照すると、音素・音節データ生成部8は音声データ格納部30と、音声認識部33と、音素・音節変換部34と、音響モデル格納部35と、言語モデル格納部36とで構成される。図4に示される音声データ格納部30及び音素・音節データ格納部9は、図3に示されるものと同様であるため、それらに関する詳細な説明は省略する。音声認識部33は、入力された音声データの音声認識を実行する情報処理機能ブロックである。音声認識部33は、音響モデル格納部35に格納された音響モデル(認識単位の音響的特徴を示す情報)、および言語モデル格納部36に格納された言語モデル(認識対象の単語間の接続制約を示す情報)を使用して大語彙連続音声認識を実行する。音素・音節変換部34は、音声認識部33が実行した大語彙連続音声認識処理によって得られた認識結果に基づいて、検索対象音素・音節データを生成する情報処理機能ブロックである。
FIG. 4 is a block diagram showing in detail the configuration of the phoneme / syllable
音素・音節データ生成部8は、上述の音響モデル格納部32(または音響モデル格納部35)に格納される音響モデルを使用して音素・音節データ格納部9に格納される検索対象音素・音節データを生成する。音響モデル格納部32(または音響モデル格納部35)に格納される音響モデルは任意の音響モデルを選択することが可能である。例えば、通常は音声認識に広く使用されているHMM(Hidden Markov Model)を用いて音素・音節データを生成し、必要に応じて他の音響モデルを使用するような構成を備えることで、より高精度の検索が可能になる。また、言語モデル格納部36に格納された言語モデルも、音響モデルと同様に任意の言語モデルを選択することが可能である。例えば、通常は音声認識に広く使用されている単語N−Gramモデルを用いて音素・音節データを生成し、必要に応じて他の言語モデルを使用するような構成を備えることで、より高精度の検索が可能になる。
The phoneme / syllable
音素・音節データ生成部8の構成を、図4に示される言語モデル格納部36を備える構成にすることで、大語彙連続音声認識を行うことが可能になる。その大語彙連続音声認識処理によって得られた検索対象音素・音節データは、言語モデルを備えていない構成の音素・音節データ生成部8に比較して、既知語(言語モデルに登録のある単語)に関連する部分において、高精度の処理が行える。これらのような音素・音節データ生成部8を備え、処理速度と音素・音節認識の精度との重要度に応じて両者を切り替えることで、利便性の高い検索装置を構成することができる。
By configuring the phoneme / syllable
図5は、音素列変換部7の構成を詳細に示すブロック図である。図5を参照すると、音素列変換部7は、展開ルール出力部20と展開実行部21とを備え、その各々は互いに接続されている。展開ルール出力部20は展開実行部21が実行する情報処理のための処理規則である展開ルールを出力する情報出力機能ブロックである。展開実行部21は、語句展開部6から出力された音素列等を展開ルール出力部20から出力された展開ルールに基づいて変形する情報処理機能ブロックである。
FIG. 5 is a block diagram showing in detail the configuration of the phoneme
その展開ルール出力部20は更に、展開ルール作成用音素・音節データ格納部22と、統計処理部23と、展開ルール作成部24と、展開ルール格納部25とを含む。展開ルール作成用音素・音節データ格納部22は、展開ルール作成用の音素・音節データを格納する情報記憶機能ブロックである。展開ルール作成用音素・音節データ格納部22に格納される音素・音節データは、任意に変更可能である。例えば、格納される音素・音節データを音素・音節データ格納部9から抽出して展開ルールを生成する構成にすることで、特定の音声データに対応した展開ルールを作成することが可能になる。
The expansion
統計処理部23は、展開ルール作成用音素・音節データ格納部22に格納された音素・音節データの統計処理を実行する統計処理機能ブロックである。展開ルール作成部24は、統計処理部23から出力された統計処理結果に基づいて展開ルールを作成する情報作成機能ブロックである。
The
以下に、統計処理部23がn−gramの統計を行う場合を例に、展開ルール作成部24が実行する展開ルール作成処理について具体的に説明を行う。統計処理部23は予めルール作成用音素・音節データに含まれる音素列の音素n-gramの統計を調査し、展開ルールを音素n-gramの頻度順に並べる。統計処理部23は、その統計処理結果を展開ルール作成部24に出力し、展開ルール作成部24はその出力された統計処理結果に所定の閾値を設ける。さらに展開ルール作成部24は、展開ルール作成用音素・音節データ格納部22に格納される音素・音節データを用いて、前後音素条件を変化させながら、複数の展開ルールを作成する。展開ルール作成部24は、作成された複数の展開ルールと、閾値が設けられた統計処理結果に基づいて複数の統計ルールの絞込みを実行する。例えば、音素n-gramの頻度が少なく、キーワードにほとんど適用されないと考えられる閾値を設け、その閾値以下の展開ルールを削除する。また逆に、展開実行部21が生成する新たな音素列がn-gramの頻度の高いコンテクストを含むことになる展開ルールを削除する。このような処理を実行することで効率と精度の良い展開ルール集合を作成する。
Hereinafter, the expansion rule creation process executed by the expansion
図6は、音素列変換部7の構成を詳細に示すブロック図である。図7を参照すると、音素列変換部7は、展開ルール出力部20と展開実行部21とを備え、その各々は互いに接続されている。展開ルール出力部20は、さらに、展開ルール作成用音声データ格納部26と展開ルール作成用音素・音節データ格納部27と正解ルール格納部28と統計処理部23と展開ルール作成部24と展開ルール格納部25とを備える。展開実行部21、統計処理部23、展開ルール作成部24および展開ルール格納部25は図5に示されるものと同様であるため、詳細な説明は省略する。
FIG. 6 is a block diagram showing the configuration of the phoneme
展開ルール作成用音声データ格納部26は、展開ルール作成用の音声データを格納する情報記憶機能ブロックである。展開ルール作成用音声データ格納部26に格納される音声データは、任意に変更可能である。例えば、展開ルール作成用音声データ格納部26に格納される音声データを、音声データ格納部30から抽出して展開ルールを生成する構成にすることで、特定の音声データに対応した展開ルールを作成することが可能になる。展開ルール作成用音素・音節データ格納部27は、展開ルール作成用音声データ格納部26に格納された音声データに基づいて作成された展開ルール作成用音素・音節データを格納する情報記憶機能ブロックである。格納される展開ルール作成用音素・音節データは、展開ルール作成用音声データ格納部26に格納された音声データに対して音素・音節認識を実行することにより得られた音素・音節認識結果、あるいは、音声認識を実行することにより得られた音声認識結果を、音素列あるいは音節列に変換したデータである。この展開ルール作成用音素・音節データは認識誤りを含んでいても良い。
The expansion rule creation voice
正解ルール格納部28は、正解データを格納する情報記憶機能ブロックである。正解データは、展開ルール作成用音素・音節データ格納部27に格納される展開ルール作成用音素・音節データの、正しい音素列(あるいは音節列)のデータである。この正解データは、展開ルール作成用音声データの全体に対して作成されたデータでもよいし、一部でもよい。
The correct
統計処理部23は、ルール作成用音素・音節データの音素列(あるいは音節列)と、正解データの音素列(あるいは音節列)とマッチングを行う情報処理機能ブロックである。統計処理部23はそのマッチングの結果、正解データ中の音素列(あるいは音節列)が展開ルール作成用音素・音節データのどのような音素列(あるいは音節列)になったかの統計をとり、その統計結果を展開ルール作成部24へ出力する。
The
展開ルール作成部24は、その統計結果に基づいて、展開ルールを生成する情報生成機能ブロックである。展開ルール作成部24は、例えば、ルール作成用音節・音声データの音素列と正解データの音素列とのDPマッチングをとり、前後の音素条件を見た1音素につき、正解データ中の音素がルール作成用音素・音節データ中のどの音素に置換(あるいは脱落、挿入)されたかの頻度を調査する。
The expansion
置換に基づく展開ルールの作成の例を以下に説明する。なお、脱落、挿入に関しても同様の処理で展開ルールの作成が可能である。下記のリスト例は左から、正解データ中の前後の音素条件を見た音素、その音素が展開ルール作成用音素・音節データ中のどの音素になったか、その置換の回数をまとめたものの一部分である。
(a)t(o) k 50
(a)t(o) d 40
(a)t(o) p 20
(i)k(a) g 400
(i)k(a) t 100
(e)s(u) z 3
(e)s(u) c 2
上記のリスト例は、例えば、「(a)t(o) k 50」は、正解データ中の、前音素がaで後ろ音素がoの音素tが、ルール作成用音素・音節データ中で音素kになった頻度が50であったことを示す。
An example of creating an expansion rule based on replacement will be described below. It should be noted that the expansion rule can be created by the same process for dropping and inserting. The following list example is a part of the phoneme that looks at the phoneme conditions before and after in the correct answer data, the phoneme that the phoneme became in the development rule creation phoneme / syllable data, and the number of replacements. is there.
(A) t (o)
(A) t (o)
(A) t (o)
(I) k (a) g 400
(I) k (a) t 100
(E) s (u)
(E) s (u)
In the above list example, for example, “(a) t (o)
さらに、展開ルール集合の作成は特定の条件に基づいて行われる。例えば作成の条件として、「出現回数の多いものから並べ、ある閾値以上のものを採用する。」という条件が設定されている場合を考える。この場合、例えば閾値を50以上ならば、
(i)k(a)→g、(i)k(a)→t、(a)t(o)→k
の展開ルールを採用する。
また、「正解データ中の音素の置換先の音素毎に頻度の割合を調査し、ある閾値以上のものを採用する。」と、定められた場合を考える。このとき仮に、正解データ中の音素“t”を抽出して調査した結果、(a)t(o)が計200回出現したならば、
(a)t(o)→k 50/200 = 0.25、
(a)t(o)→d 40/200 = 0.20、
(a)t(o)→p 20/200 = 0.10、
となる。
ここで、閾値を0.20以上とすれば、採用される展開ルールは、音素(a)t(o)の場合(a)t(o)→k、(a)t(o)→dとなる。
[第1の実施の形態の動作]
図7は、本発明の第1の実施の形態の動作を示すフローチャートである。図7を参照すると、第1の実施の形態の動作は、検索対象のコンテンツを決定すると開始する。ステップS101において、決定されたコンテンツ内の音素列または音節列に対する検索を実行するために、検索キーワードを入力する。入力された検索キーワードは、検索キーワード入力部1から出力され音素・音節処理部2に入力される。
Further, the creation of the expansion rule set is performed based on specific conditions. For example, let us consider a case where a condition of “arrange from the most frequently appearing items and adopt a certain threshold value or more” is set as a creation condition. In this case, for example, if the threshold is 50 or more,
(I) k (a) → g, (i) k (a) → t, (a) t (o) → k
Adopt the deployment rules.
Further, a case is considered in which “the frequency ratio is investigated for each phoneme as a replacement destination of phonemes in correct answer data, and a phoneme having a certain threshold value or more is adopted”. At this time, if the phoneme “t” in the correct answer data is extracted and investigated, and (a) t (o) appears 200 times in total,
(A) t (o) →
(A) t (o) →
(A) t (o) →
It becomes.
Here, if the threshold is 0.20 or more, the expansion rules adopted are (a) t (o) → k, (a) t (o) → d in the case of phoneme (a) t (o). Become.
[Operation of First Embodiment]
FIG. 7 is a flowchart showing the operation of the first exemplary embodiment of the present invention. Referring to FIG. 7, the operation of the first embodiment starts when content to be searched is determined. In step S101, a search keyword is input to execute a search for the phoneme string or syllable string in the determined content. The input search keyword is output from the search
ステップS102において、音素・音節処理部2は検索キーワードを語句展開部6に入力する。検索キーワードが入力された語句展開部6は、その検索キーワードを音素列または音節列(以下、[実施の形態の構成]と同様に音素列等と呼ぶ)に変換し、ステップS103に進む。ステップS103において、語句展開部6は、変換された音素列等が、音素列変換部7に出力するべきものかどうかの判断を行う。その判断の結果、その音素列等が、音素列変換部7で処理する必要の無いものだと判断された場合、処理はステップS106に進む。例えば、入力された検索キーワードが音声認識の認識誤りが比較的少ない単語であった場合、語句展開部6はその単語の音素列等を音素列変換部7に出力することなくマッチング部4へ出力する。これによって、入力された検索キーワードに対応して、データ処理量を軽減させることが可能になる。
In step S <b> 102, the phoneme /
ステップS104において、語句展開部6から出力された音素列等が入力された音素列変換部7は、その音素列等を展開実行部21に出力する。展開実行部21には、音素列変換部7から出力された音素列等が入力され、その音素列等に応答して展開ルール格納部25に格納された展開ルールを抽出する。ステップS105において、展開ルールを抽出した展開実行部21は、その展開ルールに基づいて語句展開部6から送られた検索キーワードの音素列等に対応する新たな音素列等を生成する。
In step S104, the phoneme
ステップS106において、音素列変換部7は、展開実行部21によって生成された新たな音素列等をマッチング部4に出力する。マッチング部4は、検索キーワードの音素列等または新たな音素列(音節列)との、少なくとも一方の入力に応答して、検索対象のコンテンツの検索対象音素・音節データを音素・音節データ出力部3に要求する(ステップS107)。音素・音節データ出力部3は、その要求に応答して対応する検索対象音素・音節データを音素・音節データ格納部9から抽出しマッチング部4へ出力する。
In step S <b> 106, the phoneme
ステップS108において、マッチング部4は、音素・音節処理部2から出力された音素列等と、音素・音節データ出力部3から出力された検索対象音素・音節データとのマッチングを実行し、その実行結果を出力部5に出力する。
In step S108, the matching unit 4 executes matching between the phoneme string output from the phoneme /
展開ルールについての具体的な例としては、例えば、短母音と長母音の揺れに対応可能なように、同じ母音を挿入するルール、つまり、
「a」→「aa」、「i」→「ii」、「u」→「uu」、「e」→「ee」、「o」→「oo」
および同じ母音を削除する展開ルール、つまり、
「aa」→「a」、「ii」→「i」、「uu」→「u」、「ee」→「e」、「oo」→「o」
が設定されている場合を例に、新たな音素列等の生成動作について述べる。
As a specific example of the expansion rule, for example, a rule that inserts the same vowel so as to be able to cope with fluctuations of a short vowel and a long vowel, that is,
“A” → “aa”, “i” → “ii”, “u” → “uu”, “e” → “ee”, “o” → “oo”
And an expansion rule that removes the same vowel, ie
“Aa” → “a”, “ii” → “i”, “uu” → “u”, “ee” → “e”, “oo” → “o”
The operation for generating a new phoneme string or the like will be described by taking as an example the case where is set.
検索キーワードとして「インタホーン」が入力された場合、これを音素列に変換した「iNtahooN」に上述の展開ルールをかけることで「iNtaahooN」「iNtaahoN」「iNtahoN」などの展開音素列が作成される。もし、検索対象が音素認識結果で、「インタホーン」に対応する認識結果が「iNtaahooN」で音素・音節データ格納部9に格納されている場合、上述の展開音素列「iNtaahooN」で検索を行うことができる。また、もし検索対象が大語彙連続音声認識結果を音素列に変換したもので、認識辞書に「インタホーン」ではなく「インターホン」しか登録されておらず「インターホン」が認識結果となり、その音素列が「iNtaahoN」となっている場合でも、上述の展開音素列「iNtaahoN」で検索を行うことができる。
When "interphone" is input as a search keyword, expanded phoneme strings such as "iNtahouN", "iNtahoN", and "iNtahoN" are created by applying the above expansion rules to "iNtahooN" that is converted to a phoneme string. . If the search target is the phoneme recognition result and the recognition result corresponding to “interphone” is “iNtahouN” and stored in the phoneme / syllable
また、他の展開ルールとしては、子音「t」→「d」、「k」→「g」、「d」→「r」、「sh」→「j」の置換、「w」「y」の挿入、母音の「a」「i」「u」「e」「o」の削除など、予めどの音素がどの音素に誤りやすいかを展開ルールとして設定されている場合を例に、新たな音素列(または音節列)の生成動作について述べる。 Other expansion rules include consonants “t” → “d”, “k” → “g”, “d” → “r”, “sh” → “j” replacement, “w” “y” of insertion, such as the deletion of "a", "i", "u", "e", "o" vowel, a case that has been set if the error likely in advance which phoneme is any phoneme as a developing rules as an example, a new phoneme A sequence (or syllable sequence) generation operation will be described.
例えば、「礼文島」について検索したいとし、検索対象である音素認識結果中では「礼文島」は「debuNto」となって音素・音節データ格納部9に格納されているとする。
For example, it is assumed that “Rebun Island” is to be searched, and “Rebun Island” is stored as “debuNto” in the phoneme / syllable
この場合、まず検索キーワード「礼文島」を音素列「rebuNtoo」に変換し、この音素列に対し音素の展開を行う。この場合「d」→「r」の置換、「o」の削除による「debuNto」の展開音素列により、コンテンツ中の所望の部分を検索することができる。 In this case, first, the search keyword “Rebun Island” is converted into a phoneme string “rebuNtoo”, and the phoneme is expanded for this phoneme string. In this case, it is possible to search for a desired portion in the content by using “debuNto” expanded phoneme string by replacing “d” → “r” and deleting “o”.
他の例としては、例えば、「小泉首相」について検索したいとし、検索対象である音素列では、「小泉首相」は音声認識結果「小泉受賞」を音素列に変換した「koizumijushoo」になっているとする。この場合、まず検索キーワード「小泉首相」を音素列「koizumishushoo」に変換し、この音素列に対し音素の展開を行う。この場合「sh」→「j」の置換による「koizumijushoo」の展開音素列により、コンテンツ中の所望の部分を検索することができる。 As another example, for example, when it is desired to search for “Prime Koizumi”, in the phoneme string to be searched, “Koizumi Prime” is “koizumijusho” obtained by converting the speech recognition result “Koizumi Award” into a phoneme string. And In this case, first, the search keyword “Prime Minister Koizumi” is converted into a phoneme string “koizumishusho”, and phonemes are expanded for this phoneme string. In this case, a desired part in the content can be searched by using the expanded phoneme string “koizumijusho” by replacing “sh” → “j”.
このような構成、動作によって音声検索を実行することで、検索対象のコンテンツに対する認識誤りが存在する場合でも、処理に係る負担を増加させることなく効果的な検索の実行が可能になる。 By performing a voice search with such a configuration and operation, even when there is a recognition error with respect to the content to be searched, an effective search can be executed without increasing the burden on processing.
[第2の実施の形態の構成]
図8は、本発明の第2の実施の形態の構成を示すブロック図である。本発明の第2の実施の形態は、複数の展開ルールが存在する場合において、どのルールを適用して検索を実行するかを決定する展開調整部を備える。図8を参照すると、第2の実施の形態の構成は、語句展開部6に接続される音素・音節数カウント部40と、その音素・音節数カウント部40と音素列変換部7との各々と接続される展開調整部41とを備え、キーワードの音素・音節数により展開の調整を行う構成である。
[Configuration of Second Embodiment]
FIG. 8 is a block diagram showing the configuration of the second exemplary embodiment of the present invention. The second embodiment of the present invention includes an expansion adjustment unit that determines which rule is applied to execute a search when there are a plurality of expansion rules. Referring to FIG. 8, the configuration of the second embodiment includes a phoneme / syllable
音素・音節数カウント部40は、音素・音節変換手段2が出力したキーワードの音素列等に含まれる音素数(または音節数)をカウントするカウンタである。展開調整部41は、語句展開部6が出力したキーワードの音素列等と、音素・音節数カウント部40が出力する、カウントされた音素数(または音節数)に基づいて、音素列変換部7で使用される展開ルールを調整する情報処理機能ブロックである。展開調整部41は音素・音節数カウント部40から出力される音素数(または音節数)と、予め設定された閾値とに基づいて音素列変換部7で使用される展開ルールに制限ルールや拡張ルールを加えることで調整を実行する。
The phoneme / syllable
この制限ルールの適用の具体的な動作を以下に述べる。以下の例では、展開調整部41には、音素・音節数カウント部40でカウントされる音素数(または音節数)に適用する閾値が格納され、検索キーワードの音素数がその閾値より少ない場合は、「展開を行わない」という制限ルールである場合を考える。一般に検索キーワードが短いほど誤検出が増えることから、このような制限を加えることができる展開調整部41を備えることで、より効果的な音声検索の実行が可能になる。上記の制限ルールは、「展開を行わない」というもの以外に、任意に変更可能である。例えば、「音素の削除は行わない」、「展開後の音素・音節列の数をある閾値より少なくする」などの制限ルールを使用することも可能である。また、これらの制限ルールを複数格納し、組合せて使用する構成にすることも可能である。
The specific operation of applying this restriction rule will be described below. In the following example, the
また、展開調整部41が、音素・音節数カウント部40でカウントされる音素数(または音節数)に適用する閾値を格納し、検索キーワードの音素数がその閾値より多い場合、展開調整部41は、キーワード中の「複数箇所に挿入、置換、削除の変換を行う」という拡張ルールを使用することで効果的な音声検索の実行が可能になる。
Further, the
図9は、本発明の第2の実施の形態における他の構成を示すブロック図である。図9を参照すると、第2の実施の形態における他の構成では、語句展開部6に接続されるコンテクスト調査部43を備え、そのコンテクスト調査部43と音素列変換部7との各々と接続される展開調整部44とを備える構成である。図9に示される展開調整部44は、キーワードに含まれる音素・音節コンテクストにより展開の調整を行う。
FIG. 9 is a block diagram showing another configuration in the second exemplary embodiment of the present invention. Referring to FIG. 9, in another configuration in the second embodiment, a
コンテクスト調査部43は、語句展開部6が出力した検索キーワードの音素列等のコンテクストを調査する情報処理機能ブロックである。展開調整部44は、コンテクスト調査部43が出力した音素(または音節)のコンテクストに基づいて、音素列変換部7で使用される展開ルールを調整する情報処理機能ブロックである。展開調整部44は、検索キーワードに含まれる音素・音節のコンテクストに応じて、そのコンテクスト部分の展開を行うか行わないかを調整する。
The
展開調整部44は、特定の文集合から、既知語または未知語それぞれに含まれる音素・音節のコンテクストの統計情報を予め格納する。展開調整部44は、コンテクスト調査部43から出力される検索キーワード中の音素・音節のコンテクストを解析し、コンテクストの中で未知語に多く含まれるコンテクスト部分があった場合はその部分の展開を行い、既知語に多く含まれるコンテクスト部分は展開を行わないようにする。
The
これにより、検索対象として、音声認識結果を音素に変換したものを使用する場合に、適切な音声検索の実行が可能になる。音声認識の際に用いた言語モデルに登録された語である既知語は、検索対象の音素列に正しく現れている可能性が高く、その場合における展開を行わないことで処理に係る負担を軽減することができる。また、言語モデルに登録されていない語である未知語は、誤認識される可能性が高く、その誤認識により音素列が元の音素列から大きくずれることが多い。そのため、展開を実行して音声検索を行うことで効果的な検索が可能になる。さらに、特定の文集合中に含まれるコンテクストの頻度を予め調査し、展開後に大量に誤検出を招くコンテクストを含むことになる音素列の展開を行わないようにすることで、展開音素列による誤検出の増大を防ぐことも可能になる。 As a result, when a speech recognition result converted into phonemes is used as a search target, an appropriate speech search can be executed. A known word, which is a word registered in the language model used for speech recognition, is likely to appear correctly in the phoneme string to be searched, and the processing burden is reduced by not expanding in that case. can do. In addition, unknown words that are not registered in the language model are likely to be misrecognized, and the phoneme string often deviates greatly from the original phoneme string due to the misrecognition. Therefore, an effective search can be performed by performing the expansion and performing a voice search. Furthermore, by examining the frequency of contexts included in a specific sentence set in advance and avoiding the expansion of phoneme strings that contain a large number of contexts that may cause false detection after expansion, errors due to expanded phoneme strings are prevented. It is also possible to prevent an increase in detection.
図10は、本発明の第2の実施の形態における他の構成を示すブロック図である。図10を参照すると、第2の実施の形態における他の構成では、マップ45と、展開ルール集合格納部46と、展開調整部47と、コンテクスト調査部48とを備える構成である。展開調整部47は、語句展開部6と音素列変換部7とマップ45と展開ルール集合格納部46とコンテクスト調査部48とに接続され、コンテクスト調査部48は音素・音節データ格納部9に接続される。以下の説明では、コンテンツの性質が、そのコンテンツから作成した音素・音節n-gramの分布から特定できる場合を例に述べる。
FIG. 10 is a block diagram showing another configuration in the second exemplary embodiment of the present invention. Referring to FIG. 10, another configuration in the second embodiment is a configuration including a
展開調整部47は、マップ45と展開ルール集合格納部46とに基づいて、複数の展開ルールから音素列変換部7に適用させる展開ルールを選択する機能を有する情報処理機能ブロックである。マップ45は、「どのようなコンテンツの検索対象に対しどのような展開ルール集合が有効か」という情報を示すマップを格納する情報記憶機能ブロックである。展開ルール集合格納部46は複数の展開ルール(461、462…46n)を予め格納する情報記憶機能ブロックである。コンテクスト調査部48は、音素・音節データ格納部9が出力した検索キーワードの音素列等のコンテクストを調査する情報処理機能ブロックである。
The
コンテクスト調査部48は、検索対象の音素・音節データ格納部9の音素・音節のn-gramを調査し、検索対象に適した展開ルール集合を選択し、キーワードの音素・音節列に選択した展開ルールを適用する。これにより、検索対象が変化する際にも、予め用意しておいた複数の展開ルールの中から自動で検索対象に適した展開ルール集合を選択することができる。また、展開ルールを適用する際に上述のようにキーワード音素・音節数や音素・音節コンテクストによりさらに展開パターンの調整を行ってもよい。
The
[第2の実施の形態の動作]
図11は、第2の実施の形態の動作の一例を示すフローチャートである。図11を参照すると、第2の実施の形態の動作は、検索対象のコンテンツを決定すると開始する。ステップS101において、決定されたコンテンツ内の音素列(または音節列)に対する検索を実行するために、検索キーワードを入力する。入力された検索キーワードは、検索キーワード入力部1から出力され音素・音節処理部2に入力される。
[Operation of Second Embodiment]
FIG. 11 is a flowchart illustrating an example of the operation of the second embodiment. Referring to FIG. 11, the operation of the second embodiment starts when content to be searched is determined. In step S101, a search keyword is input to execute a search for a phoneme string (or syllable string) in the determined content. The input search keyword is output from the search
ステップS102において、音素・音節処理部2は検索キーワードを語句展開部6に入力する。検索キーワードが入力された語句展開部6は、その検索キーワードを音素列等に変換し、ステップS103に進む。ステップS103において、語句展開部6は、変換された音素列が、音素列変換部7に出力するべきものかどうかの判断を行う。その判断の結果、その音素列等が、音素列変換部7で処理する必要の無いものだと判断された場合、処理はステップS106に進む。例えば、入力された検索キーワードが音声認識の認識誤りが比較的少ない単語であった場合、語句展開部6はその単語の音素列等を音素列変換部7に出力することなくマッチング部4へ出力する。ステップS103の判断の結果、その音素列等が、音素列変換部7での処理を要するものだと判断された場合、ステップS201に進む。
In step S <b> 102, the phoneme /
ステップS201において、音素列等に変換した検索キーワードに対応した展開調整を実行する。展開調整部(41、44、47)はステップS201における処理結果を音素列変換部7に出力する。ステップS104において、音素列変換部7は展開調整部(41、44、47)から出力された処理結果に基づいて展開ルールを抽出し、以下の処理は第1の実施の形態と同様に動作する。
In step S201, the expansion adjustment corresponding to the search keyword converted into a phoneme string or the like is executed. The development adjustment unit (41, 44, 47) outputs the processing result in step S201 to the phoneme
これにより、展開ルールに制限や拡張、および多彩な展開ルールの使用などのキーワードや検索対象に適した展開パターンを適用することが可能になり、より精度が高く、効率の良い検索を行うことができる。 This makes it possible to apply expansion patterns suitable for keywords and search targets, such as restrictions and expansions to expansion rules, and the use of various expansion rules, enabling more accurate and efficient searches. it can.
[第3の実施の形態の構成]
図12は本発明の第3の実施の形態の構成を示すブロック図である。図12を参照すると、本発明の第3の実施の形態は、形態素解析部50と既知語・未知語判定部51とを備える。形態素解析部50は、検索キーワード入力部1が出力した検索キーワードを入力とし、形態素に分割し、形態素列を生成する情報処理機能ブロックである。形態素解析部50は既知語・未知語判定部51と接続し、生成した形態素列を既知語・未知語判定部51に出力する。既知語・未知語判定部51は、形態素解析部50から出力された形態素列が入力され、各形態素が既知語であるか未知語であるかを判定する情報処理機能ブロックである。既知語・未知語判定部51は、入力された形態素列を、音素・音節データ格納部9に格納される音素・音節データを作成する際に用いる言語モデルと突合せ、各形態素が既知語であるか未知語であるかを判定し、各形態素の判定結果を語句展開部6に出力する。
[Configuration of Third Embodiment]
FIG. 12 is a block diagram showing the configuration of the third exemplary embodiment of the present invention. Referring to FIG. 12, the third embodiment of the present invention includes a
[第3の実施の形態の動作]
図13は、本発明の第3の実施の形態の動作の一例を示すフローチャートである。図13を参照すると、第3の実施の形態の動作は、検索対象のコンテンツを決定すると開始する。ステップS101において、決定されたコンテンツ内の音素列(または音節列)に対する検索を実行するために、検索キーワードを入力する。入力された検索キーワードは、検索キーワード入力部1から出力され形態素解析部50に入力される。
[Operation of Third Embodiment]
FIG. 13 is a flowchart showing an example of the operation of the third exemplary embodiment of the present invention. Referring to FIG. 13, the operation of the third embodiment starts when the content to be searched is determined. In step S101, a search keyword is input to execute a search for a phoneme string (or syllable string) in the determined content. The input search keyword is output from the search
ステップS301において、形態素解析部50は入力された検索キーワードを形態素に分割し、形態素列を生成する。生成された形態素列は、既知語・未知語判定部51に出力される。ステップS302において、既知語・未知語判定部51は、入力された形態素列を、音素・音節データ格納部9に格納される検索対象音素・音節データを作成する際に用いる言語モデルと突合せ、各形態素が既知語であるか未知語であるかを判定し、各形態素の判定結果と、検索キーワードを語句展開部6に出力する。
In step S301, the
ステップ102において、語句展開部6は、既知語・未知語判定部51が出力した形態素区切りのキーワードと、各形態素の既知語・未知語の判定結果を入力とし、各形態素を音素または音節列に変換し、形態素区切りの音素または音節列と各形態素の既知語・未知語の判定結果とともに音素列変換部7へ出力する。以下、第1の実施の形態、または第2の実施の形態と同様に動作する。
In
これにより、そのキーワードの中に含まれる既知語・未知語によって適用する展開ルールを指定することが可能になり、精度よく、効率よく検索を行うことができる。更に、第2の実施の形態と組合せることで、そのキーワードの中に含まれる既知語・未知語によって適用する展開パターンや展開数を調整することも可能になり、より精度よく、効率よく検索を行うことができる。 As a result, it is possible to specify an expansion rule to be applied based on a known word / unknown word included in the keyword, and a search can be performed with high accuracy and efficiency. Furthermore, by combining with the second embodiment, it is also possible to adjust the expansion pattern and the number of expansions to be applied depending on the known words / unknown words included in the keyword, so that more accurate and efficient search is possible. It can be performed.
例えば、実際のキーワードとして「インフレターゲティング」が入力されたとする。これを形態素解析にかけ「インフレ」「ターゲティング」が得られる。既知語・未知語判定部51は、それぞれを音声認識に用いた言語モデルと突合せ、既知語か未知語かを判定する。この場合、「インフレ」は既知語、「ターゲティング」は未知語だったとする。既知語は正しく認識結果に出現している可能性が高く、未知語は検索対象の音素列がキーワードの音素列からずれている可能性が高いため、展開調整部で既知語、未知語により展開のパターンを切り分け、既知語である「インフレ」の音素列「iNfure」は少量の展開しか行わず、未知語である「ターゲティング」の音素列「taagetyiNgu」は多く展開を行う。この結果、処理に係る負担を軽減しつつ、高精度な検索を行うことが可能になる。
For example, it is assumed that “inflation targeting” is input as an actual keyword. By applying this to morphological analysis, “inflation” and “targeting” are obtained. The known word / unknown
1…検索キーワード入力部
2…音素・音節処理部
3…音素・音節データ出力部
4…マッチング部
5…出力部
6…語句展開部
7…音素列変換部
8…音素・音節データ生成部
9…音素・音節データ格納部
20…展開ルール出力部
21…展開実行部
22…展開ルール作成用音素・音節データ格納部
23…統計処理部
24…展開ルール作成部
25…展開ルール格納部
26…展開ルール作成用音声データ格納部
27…展開ルール作成用音素・音節データ格納部
28…正解ルール格納部
30…音声データ格納部
31…音素・音節認識部
32…音響モデル格納部
33…音声認識部
34…音素・音節変換部
35…音響モデル格納部
36…言語モデル格納部
40…音素・音節数カウント部
41…展開調整部
43…コンテクスト調査部
44…展開調整部
45…マップ
46…展開ルール集合格納部、
461、462〜46n…展開ルール
47…展開調整部
48…コンテクスト調査部
50…形態素解析部
51…既知語・未知語判定部
DESCRIPTION OF
46 1 , 46 2 to 46 n ...
Claims (33)
前記音素列または前記音節列に新たな音素を加減し、または、前記音素列または前記音節列を構成する音素を他の音素に置換して、新たな音素列または新たな音節列を生成する音素列変換部と、
検索対象音素・音節データを格納する音素・音節データ格納部と、
前記音素列または前記音節列と、前記検索対象音素・音節データとを照合すると共に、前記新たな音素列または前記新たな音節列と、前記検索対象音素・音節データとを照合する照合部と
を具備する
音声検索装置。 A phrase expansion unit that converts input words to generate phoneme strings or syllable strings;
A phoneme that generates a new phoneme string or a new syllable string by adding or subtracting a new phoneme to the phoneme string or the syllable string, or replacing a phoneme constituting the phoneme string or the syllable string with another phoneme A column conversion unit;
Phoneme / syllable data storage unit for storing search target phoneme / syllable data;
A collation unit that collates the phoneme string or the syllable string with the search target phoneme / syllable data, and collates the new phoneme string or the new syllable string with the search target phoneme / syllable data; Voice search device provided.
前記検索対象音素・音節データは、複数の音素によって構成され、
前記照合部は、前記照合により、前記新たな音素列または前記新たな音節列に一致する箇所を前記検索対象音素・音節データから検出する
音声検索装置。 The voice search device according to claim 1,
The search target phoneme / syllable data is composed of a plurality of phonemes,
The collation unit detects, from the search target phoneme / syllable data, a part that matches the new phoneme string or the new syllable string by the collation.
前記音素列変換部は、前記新たな音素列または前記新たな音節列を生成するための規則である展開ルールを格納し、前記展開ルールに基づいて、前記新たな音素列または前記新たな音節列を生成する
音声検索装置。 The voice search device according to claim 1 or 2,
The phoneme string conversion unit stores an expansion rule that is a rule for generating the new phoneme string or the new syllable string, and based on the expansion rule, the new phoneme string or the new syllable string Generate voice search device.
前記検索対象音素・音節データは、入力された音声データに基づいて生成され、
前記展開ルールは、前記検索対象音素・音節データを構成する複数の音素と、前記音声データを正しく音素認識した結果である正解データを構成する音素との比較に基づいて設定される
音声検索装置。 The voice search device according to claim 3.
The search target phoneme / syllable data is generated based on the input voice data,
The expansion rule is set based on a comparison between a plurality of phonemes constituting the search target phoneme / syllable data and a phoneme constituting correct data which is a result of correct phoneme recognition of the speech data.
前記検索対象音素・音節データは、入力された音声データに基づいて生成され、
前記展開ルールは、前記検索対象音素・音節データを構成する複数の音素の出現頻度の統計に基づいて設定される
音声検索装置。 The voice search device according to claim 3.
The search target phoneme / syllable data is generated based on the input voice data,
The expansion rule is set based on statistics of appearance frequencies of a plurality of phonemes constituting the search target phoneme / syllable data.
前記語句展開部は、入力された語を構成する形態素を解析する形態素解析手段を備え、
前記音素列変換部は、前記形態素解析手段から出力された解析結果と、前記音素列または前記音節列とに基づいて、前記新たな音素列または前記新たな音節列を生成する
音声検索装置。 The voice search device according to any one of claims 1 to 5,
The phrase expansion unit includes morpheme analysis means for analyzing morphemes constituting the input word,
The phoneme string conversion unit generates the new phoneme string or the new syllable string based on the analysis result output from the morpheme analyzing unit and the phoneme string or the syllable string.
前記語句展開部は、登録語句判定部を備え、
前記登録語句判定部は、前記形態素解析手段が解析した結果である形態素の各々が、予め登録されたものであるかどうかを判定し、
前記音素列変換部は、前記判定結果に基づいて前記新たな音素列または前記新たな音節列を生成する
音声検索装置。 The voice search device according to claim 6.
The phrase expansion unit includes a registered phrase determination unit,
The registered word determination unit determines whether each morpheme that is a result of analysis by the morpheme analysis unit is registered in advance,
The phoneme string conversion unit generates the new phoneme string or the new syllable string based on the determination result.
前記検索対象音素・音節データは、入力された音声データを音声認識した音声認識結果、または、前記音声データを音素認識した音素認識結果に基づいて生成され、
前記音声データは、発話された音声の集合である
音声検索装置。 The voice search device according to any one of claims 1 to 7,
The search target phoneme / syllable data is generated based on a speech recognition result obtained by speech recognition of input speech data or a phoneme recognition result obtained by phoneme recognition of the speech data,
The voice search device is a set of spoken voices.
前記検索対象音素・音節データは、予め格納された言語モデルに基づいて生成され、
前記言語モデルは、単語の接続制約を記述した情報である
音声検索装置。 The voice search device according to claim 8.
The search target phoneme / syllable data is generated based on a language model stored in advance,
The language model is information describing connection restrictions of words.
前記語句展開部は、前記入力された語が、前記新たな音素列または前記新たな音節列を生成する必要がない語であった場合、前記音素列または前記音節列を前記照合部に出力する
音声検索装置。 The voice search device according to any one of claims 1 to 9,
The phrase expansion unit outputs the phoneme sequence or the syllable sequence to the collation unit when the input word is a word that does not need to generate the new phoneme sequence or the new syllable sequence. Voice search device.
前記入力された語を変換するための音素辞書データまたは音節辞書データを有し、
前記語句展開部は、前記音素辞書データまたは前記音節辞書データに基づいて、前記入力された語を音素または音節に変換し、
変換された音素または音節に基づいて前記音素列または前記音節列を生成する
音声検索装置。 The voice search device according to any one of claims 1 to 10,
Phoneme dictionary data or syllable dictionary data for converting the input word,
The phrase expansion unit converts the input word into phonemes or syllables based on the phoneme dictionary data or the syllable dictionary data,
A speech search device that generates the phoneme string or the syllable string based on the converted phoneme or syllable.
前記音素列または前記音節列に新たな音素を加減し、または、前記音素列または前記音節列を構成する音素を他の音素に置換して、新たな音素列または新たな音節列を生成するステップと、
格納された検索対象音素・音節データを読み出すステップと、
前記音素列または前記音節列と、前記検索対象音素・音節データとを照合すると共に、前記新たな音素列または前記新たな音節列と、前記検索対象音素・音節データとを照合するステップ
を具備する方法をコンピュータで実行可能なプログラム。 Converting input words to generate phoneme sequences or syllable sequences;
A step of generating a new phoneme string or a new syllable string by adding or subtracting a new phoneme to the phoneme string or the syllable string or replacing a phoneme constituting the phoneme string or the syllable string with another phoneme When,
Reading stored search target phoneme / syllable data;
Collating the phoneme string or the syllable string with the search target phoneme / syllable data, and collating the new phoneme string or the new syllable string with the search target phoneme / syllable data. A program that can be executed on a computer.
複数の音素によって構成された前記検索対象音素・音節データを読み出すステップと、
前記照合により、前記新たな音素列または前記新たな音節列に一致する箇所を前記検索対象音素・音節データから検出するステップ
を具備する方法をコンピュータで実行可能なプログラム。 The program according to claim 12,
Reading the search target phoneme / syllable data composed of a plurality of phonemes;
A computer-executable program comprising a step of detecting, from the search target phoneme / syllable data, the new phoneme string or a part that matches the new syllable string by the collation.
展開ルールを読み出すステップと、前記展開ルールは、前記新たな音素列または前記新たな音節列を生成するための規則であり、
前記展開ルールに基づいて前記新たな音素列または前記新たな音節列を生成するステップ
を具備する方法をコンピュータで実行可能なプログラム。 The program according to claim 12 or 13,
A step of reading an expansion rule; and the expansion rule is a rule for generating the new phoneme string or the new syllable string,
A computer-executable program comprising the step of generating the new phoneme string or the new syllable string based on the expansion rule.
入力された音声データに基づいて、前記検索対象音素・音節データを生成するステップと、
前記検索対象音素・音節データを構成する複数の音素と、前記音声データを正しく音素認識した結果である正解データを構成する音素との比較に基づいて前記展開ルールを設定するステップ
を具備する方法をコンピュータで実行可能なプログラム。 The program according to claim 14, wherein
Generating the search target phoneme / syllable data based on the input voice data;
A method of setting the expansion rule based on a comparison between a plurality of phonemes constituting the search target phoneme / syllable data and a phoneme constituting correct data which is a result of correct phoneme recognition of the speech data. A program that can be executed on a computer.
入力された音声データに基づいて、前記検索対象音素・音節データを生成するステップと、
前記検索対象音素・音節データを構成する複数の音素の出現頻度の統計に基づいて、前記展開ルールを設定するステップ
を具備する方法をコンピュータで実行可能なプログラム。 The program according to claim 14, wherein
Generating the search target phoneme / syllable data based on the input voice data;
A computer-executable program comprising: a step of setting the expansion rule based on statistics of appearance frequencies of a plurality of phonemes constituting the search target phoneme / syllable data.
入力された語を構成する形態素を解析するステップと、
その解析結果と、前記音素列または前記音節列とに基づいて、前記新たな音素列または前記新たな音節列を生成するステップ
を具備する方法をコンピュータで実行可能なプログラム。 The program according to any one of claims 12 to 16,
Analyzing the morphemes that make up the input word;
A computer-executable program comprising a step of generating the new phoneme string or the new syllable string based on the analysis result and the phoneme string or the syllable string.
前記形態素の各々が、予め登録されたものであるかどうかを判定するステップと、
その判定結果に基づいて前記新たな音素列または前記新たな音節列を生成するステップ
を具備する方法をコンピュータで実行可能なプログラム。 The program according to claim 17, wherein
Determining whether each of the morphemes is pre-registered;
A computer-executable program comprising a step of generating the new phoneme string or the new syllable string based on the determination result.
入力された音声データを読み出すステップと、前記音声データは、発話された音声の集合であり、
前記音声データを音声認識した音声認識結果、または、前記音声データを音素認識した音素認識結果に基づいて前記検索対象音素・音節データを生成するステップ
を具備する方法をコンピュータで実行可能なプログラム。 The program according to any one of claims 12 to 18,
Reading the input voice data, and the voice data is a set of spoken voices;
A computer-executable program comprising: generating the search target phoneme / syllable data based on a voice recognition result obtained by voice recognition of the voice data or a phoneme recognition result obtained by phoneme recognition of the voice data.
予め格納された言語モデルを読み出すステップと、前記言語モデルは、単語の接続制約を記述した情報であり、
前記言語モデルに基づいて前記検索対象音素・音節データを生成するステップ
を具備する方法をコンピュータで実行可能なプログラム。 The program according to claim 19, wherein
A step of reading a language model stored in advance, and the language model is information describing a connection constraint of words;
A computer-executable program comprising the step of generating the search target phoneme / syllable data based on the language model.
前記入力された語が、前記新たな音素列または前記新たな音節列を生成する必要があるかどうかの判定を実行するステップと、
前記判定の結果、前記入力された語が、前記新たな音素列または前記新たな音節列を生成する必要のない語であった場合、前記音素列または前記音節列を出力するステップ
を具備する方法をコンピュータで実行可能なプログラム。 The program according to any one of claims 12 to 20,
Performing a determination as to whether the input word needs to generate the new phoneme string or the new syllable string;
As a result of the determination, if the input word is a word that does not require generation of the new phoneme string or the new syllable string, the method includes the step of outputting the phoneme string or the syllable string. A computer executable program.
入力された語を変換するための音素辞書データまたは音節辞書データを読み出すステップと、
前記音素辞書データまたは前記音節辞書データに基づいて、前記入力された語を音素または音節に変換するステップと、
前記変換された音素または音節に基づいて前記音素列または前記音節列を生成するステップ
を具備する方法をコンピュータで実行可能なプログラム。 The program according to any one of claims 12 to 21,
Reading phoneme dictionary data or syllable dictionary data for converting input words;
Converting the input word into phonemes or syllables based on the phoneme dictionary data or the syllable dictionary data;
A computer-executable program comprising a step of generating the phoneme string or the syllable string based on the converted phoneme or syllable.
前記音素列または前記音節列に新たな音素を加減し、または、前記音素列または前記音節列を構成する音素を他の音素に置換して、新たな音素列または新たな音節列を生成するステップと、
格納された検索対象音素・音節データを読み出すステップと、
前記音素列または前記音節列と、前記検索対象音素・音節データとを照合すると共に、前記新たな音素列または前記新たな音節列と、前記検索対象音素・音節データとを照合するステップ
を具備する音声検索方法。 Converting input words to generate phoneme sequences or syllable sequences;
A step of generating a new phoneme string or a new syllable string by adding or subtracting a new phoneme to the phoneme string or the syllable string or replacing a phoneme constituting the phoneme string or the syllable string with another phoneme When,
Reading stored search target phoneme / syllable data;
Collating the phoneme string or the syllable string with the search target phoneme / syllable data, and comparing the new phoneme string or the new syllable string with the search target phoneme / syllable data. Voice search method.
複数の音素によって構成された前記検索対象音素・音節データを読み出すステップと、
前記照合により、前記新たな音素列または前記新たな音節列に一致する箇所を前記検索対象音素・音節データから検出するステップ
を具備する音声検索方法。 24. The voice search method according to claim 23.
Reading the search target phoneme / syllable data composed of a plurality of phonemes;
A speech search method comprising a step of detecting, from the search target phoneme / syllable data, a part that matches the new phoneme string or the new syllable string by the collation.
展開ルールを読み出すステップと、前記展開ルールは、前記新たな音素列または前記新たな音節列を生成するための規則であり、
前記展開ルールに基づいて前記新たな音素列または前記新たな音節列を生成するステップ
を具備する音声検索方法。 The voice search method according to claim 23 or 24,
A step of reading an expansion rule; and the expansion rule is a rule for generating the new phoneme string or the new syllable string,
A speech search method comprising the step of generating the new phoneme string or the new syllable string based on the expansion rule.
入力された音声データに基づいて、前記検索対象音素・音節データを生成するステップと、
前記検索対象音素・音節データを構成する複数の音素と、前記音声データを正しく音素認識した結果である正解データを構成する音素との比較に基づいて前記展開ルールを設定するステップ
を具備する音声検索方法。 26. The voice search method according to claim 25.
Generating the search target phoneme / syllable data based on the input voice data;
A speech search comprising a step of setting the expansion rule based on a comparison between a plurality of phonemes constituting the search target phoneme / syllable data and a phoneme constituting correct data which is a result of correct phoneme recognition of the speech data. Method.
入力された音声データに基づいて、前記検索対象音素・音節データを生成するステップと、
前記検索対象音素・音節データを構成する複数の音素の出現頻度の統計に基づいて、前記展開ルールを設定するステップ
を具備する音声検索方法。 26. The voice search method according to claim 25.
Generating the search target phoneme / syllable data based on the input voice data;
A speech search method comprising a step of setting the expansion rule based on statistics of appearance frequencies of a plurality of phonemes constituting the search target phoneme / syllable data.
入力された語を構成する形態素を解析するステップと、
その解析結果と、前記音素列または前記音節列とに基づいて、前記新たな音素列または前記新たな音節列を生成するステップ
を具備する音声検索方法。 The voice search method according to any one of claims 23 to 27,
Analyzing the morphemes that make up the input word;
A speech search method comprising a step of generating the new phoneme string or the new syllable string based on the analysis result and the phoneme string or the syllable string.
前記形態素の各々が、予め登録されたものであるかどうかを判定するステップと、
その判定結果に基づいて前記新たな音素列または前記新たな音節列を生成するステップ
を具備する音声検索方法。 The voice search method according to claim 28, wherein
Determining whether each of the morphemes is pre-registered;
A speech search method comprising a step of generating the new phoneme string or the new syllable string based on the determination result.
入力された音声データを読み出すステップと、前記音声データは、発話された音声の集合であり、
前記音声データを音声認識した音声認識結果、または、前記音声データを音素認識した音素認識結果に基づいて前記検索対象音素・音節データを生成するステップと
を具備する音声検索方法。 The voice search method according to any one of claims 23 to 29,
Reading the input voice data, and the voice data is a set of spoken voices;
Generating a search target phoneme / syllable data based on a speech recognition result obtained by speech recognition of the speech data or a phoneme recognition result obtained by phoneme recognition of the speech data.
予め格納された言語モデルを読み出すステップと、前記言語モデルは、単語の接続制約を記述した情報であり、
前記言語モデルに基づいて前記検索対象音素・音節データを生成するステップ
を具備する音声検索方法。 The voice search method according to claim 30, wherein
A step of reading a language model stored in advance, and the language model is information describing a connection constraint of words;
A speech search method comprising: generating the search target phoneme / syllable data based on the language model.
前記入力された語が、前記新たな音素列または前記新たな音節列を生成する必要があるかどうかの判定を実行するステップと、
前記判定の結果、前記入力された語が、前記新たな音素列または前記新たな音節列を生成する必要のない語であった場合、前記音素列または前記音節列を出力するステップ
音声検索方法。 The voice search method according to any one of claims 23 to 31,
Performing a determination as to whether the input word needs to generate the new phoneme string or the new syllable string;
As a result of the determination, if the input word is a word that does not require generation of the new phoneme string or the new syllable string, a step of outputting the phoneme string or the syllable string.
入力された語を変換するための音素辞書データまたは音節辞書データを読み出すステップと、
前記音素辞書データまたは前記音節辞書データに基づいて、前記入力された語を音素または音節に変換するステップと、
前記変換された音素または音節に基づいて前記音素列または前記音節列を生成するステップ
を具備する音声検索方法。 The voice search method according to any one of claims 23 to 32,
Reading phoneme dictionary data or syllable dictionary data for converting input words;
Converting the input word into phonemes or syllables based on the phoneme dictionary data or the syllable dictionary data;
A speech search method comprising: generating the phoneme string or the syllable string based on the converted phoneme or syllable.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004068177A JP2005257954A (en) | 2004-03-10 | 2004-03-10 | Speech retrieval apparatus, speech retrieval method, and speech retrieval program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004068177A JP2005257954A (en) | 2004-03-10 | 2004-03-10 | Speech retrieval apparatus, speech retrieval method, and speech retrieval program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005257954A true JP2005257954A (en) | 2005-09-22 |
Family
ID=35083742
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004068177A Pending JP2005257954A (en) | 2004-03-10 | 2004-03-10 | Speech retrieval apparatus, speech retrieval method, and speech retrieval program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005257954A (en) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007280104A (en) * | 2006-04-07 | 2007-10-25 | Pioneer Electronic Corp | Information processor, information processing method, information processing program, and computer readable recording medium |
JP2008102641A (en) * | 2006-10-18 | 2008-05-01 | Ns Solutions Corp | Retrieving device, retrieving method, and program |
JP2009145548A (en) * | 2007-12-13 | 2009-07-02 | Mitsubishi Electric Corp | Speech retrieval device |
WO2010098209A1 (en) * | 2009-02-26 | 2010-09-02 | 国立大学法人豊橋技術科学大学 | Speech search device and speech search method |
US8150678B2 (en) | 2007-11-21 | 2012-04-03 | Hitachi, Ltd. | Spoken document retrieval system |
JP2013195685A (en) * | 2012-03-19 | 2013-09-30 | Fuji Xerox Co Ltd | Language model generation program, language model generation device, and voice recognition apparatus |
JP2013206116A (en) * | 2012-03-28 | 2013-10-07 | Fujitsu Ltd | Voice data search device, voice data search method and voice data search program |
WO2014033855A1 (en) * | 2012-08-29 | 2014-03-06 | 株式会社日立製作所 | Speech search device, computer-readable storage medium, and audio search method |
EP2595144B1 (en) * | 2011-11-18 | 2016-02-03 | Hitachi Ltd. | Voice data retrieval system and program product therefor |
KR20160080915A (en) * | 2014-12-29 | 2016-07-08 | 삼성전자주식회사 | Method and apparatus for speech recognition |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS635395A (en) * | 1986-06-25 | 1988-01-11 | 富士通株式会社 | Voice recognition equipment |
JPH0261700A (en) * | 1988-08-27 | 1990-03-01 | Brother Ind Ltd | Speech recognition device |
JPH0736929A (en) * | 1993-07-16 | 1995-02-07 | Mitsubishi Electric Corp | Information recording medium and information reproducing device |
JP2000259645A (en) * | 1999-03-05 | 2000-09-22 | Fuji Xerox Co Ltd | Speech processor and speech data retrieval device |
JP2004348552A (en) * | 2003-05-23 | 2004-12-09 | Nippon Telegr & Teleph Corp <Ntt> | Voice document search device, method, and program |
-
2004
- 2004-03-10 JP JP2004068177A patent/JP2005257954A/en active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS635395A (en) * | 1986-06-25 | 1988-01-11 | 富士通株式会社 | Voice recognition equipment |
JPH0261700A (en) * | 1988-08-27 | 1990-03-01 | Brother Ind Ltd | Speech recognition device |
JPH0736929A (en) * | 1993-07-16 | 1995-02-07 | Mitsubishi Electric Corp | Information recording medium and information reproducing device |
JP2000259645A (en) * | 1999-03-05 | 2000-09-22 | Fuji Xerox Co Ltd | Speech processor and speech data retrieval device |
JP2004348552A (en) * | 2003-05-23 | 2004-12-09 | Nippon Telegr & Teleph Corp <Ntt> | Voice document search device, method, and program |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007280104A (en) * | 2006-04-07 | 2007-10-25 | Pioneer Electronic Corp | Information processor, information processing method, information processing program, and computer readable recording medium |
JP2008102641A (en) * | 2006-10-18 | 2008-05-01 | Ns Solutions Corp | Retrieving device, retrieving method, and program |
US8150678B2 (en) | 2007-11-21 | 2012-04-03 | Hitachi, Ltd. | Spoken document retrieval system |
JP2009145548A (en) * | 2007-12-13 | 2009-07-02 | Mitsubishi Electric Corp | Speech retrieval device |
US8626508B2 (en) | 2009-02-26 | 2014-01-07 | National University Corporation Toyohashi University Of Technology | Speech search device and speech search method |
WO2010098209A1 (en) * | 2009-02-26 | 2010-09-02 | 国立大学法人豊橋技術科学大学 | Speech search device and speech search method |
CN102334119A (en) * | 2009-02-26 | 2012-01-25 | 国立大学法人丰桥技术科学大学 | Speech search device and speech search method |
US20120036159A1 (en) * | 2009-02-26 | 2012-02-09 | Nat. Univ. Corp. Toyohashi Univ. Of Technology | Speech search device and speech search method |
JP5408631B2 (en) * | 2009-02-26 | 2014-02-05 | 国立大学法人豊橋技術科学大学 | Voice search apparatus and voice search method |
EP2595144B1 (en) * | 2011-11-18 | 2016-02-03 | Hitachi Ltd. | Voice data retrieval system and program product therefor |
JP2013195685A (en) * | 2012-03-19 | 2013-09-30 | Fuji Xerox Co Ltd | Language model generation program, language model generation device, and voice recognition apparatus |
JP2013206116A (en) * | 2012-03-28 | 2013-10-07 | Fujitsu Ltd | Voice data search device, voice data search method and voice data search program |
WO2014033855A1 (en) * | 2012-08-29 | 2014-03-06 | 株式会社日立製作所 | Speech search device, computer-readable storage medium, and audio search method |
JP5897718B2 (en) * | 2012-08-29 | 2016-03-30 | 株式会社日立製作所 | Voice search device, computer-readable storage medium, and voice search method |
KR20160080915A (en) * | 2014-12-29 | 2016-07-08 | 삼성전자주식회사 | Method and apparatus for speech recognition |
KR102117082B1 (en) | 2014-12-29 | 2020-05-29 | 삼성전자주식회사 | Method and apparatus for speech recognition |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4791984B2 (en) | Apparatus, method and program for processing input voice | |
US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
US8380505B2 (en) | System for recognizing speech for searching a database | |
EP2477186B1 (en) | Information retrieving apparatus, information retrieving method and navigation system | |
KR100769033B1 (en) | Method for synthesizing speech | |
US5949961A (en) | Word syllabification in speech synthesis system | |
JP2004005600A (en) | Method and system for indexing and retrieving document stored in database | |
WO2003010754A1 (en) | Speech input search system | |
TW201203222A (en) | Voice stream augmented note taking | |
JP5824829B2 (en) | Speech recognition apparatus, speech recognition method, and speech recognition program | |
JP2004133880A (en) | Method for constructing dynamic vocabulary for speech recognizer used in database for indexed document | |
EP2595144B1 (en) | Voice data retrieval system and program product therefor | |
KR101504522B1 (en) | Apparatus and method and for storing/searching music | |
CN111552777B (en) | Audio identification method and device, electronic equipment and storage medium | |
WO2004100126A2 (en) | Method for statistical language modeling in speech recognition | |
JP5073024B2 (en) | Spoken dialogue device | |
JP2005257954A (en) | Speech retrieval apparatus, speech retrieval method, and speech retrieval program | |
KR101747873B1 (en) | Apparatus and for building language model for speech recognition | |
KR20090063546A (en) | Apparatus and method of human speech recognition | |
Llitjós et al. | Improving pronunciation accuracy of proper names with language origin classes | |
JPH08248980A (en) | Voice recognition device | |
JP5196114B2 (en) | Speech recognition apparatus and program | |
JP2006031278A (en) | Voice retrieval system, method, and program | |
JPH10247194A (en) | Automatic interpretation device | |
JP2003162524A (en) | Language processor |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070213 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100104 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100119 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100526 |