JP2013125144A - Speech recognition device and program thereof - Google Patents

Speech recognition device and program thereof Download PDF

Info

Publication number
JP2013125144A
JP2013125144A JP2011273754A JP2011273754A JP2013125144A JP 2013125144 A JP2013125144 A JP 2013125144A JP 2011273754 A JP2011273754 A JP 2011273754A JP 2011273754 A JP2011273754 A JP 2011273754A JP 2013125144 A JP2013125144 A JP 2013125144A
Authority
JP
Japan
Prior art keywords
word
data
appearance probability
probability value
acoustic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2011273754A
Other languages
Japanese (ja)
Inventor
Toru Imai
亨 今井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2011273754A priority Critical patent/JP2013125144A/en
Publication of JP2013125144A publication Critical patent/JP2013125144A/en
Pending legal-status Critical Current

Links

Images

Abstract

PROBLEM TO BE SOLVED: To realize speech recognition processing with high precision while regulating the increase of memory usage of dictionary data in the case where a genre or a domain of speech content transits.SOLUTION: A speech recognition device comprises: an integrated dictionary storing section for storing phoneme string data that represents a phoneme string being a string of phonemes associated with an acoustic model, word notation data that represents a word notation associated with the phoneme string data, and word appearance probability value data in which a word appearance probability value, associated with the word notation data and representing an appearance probability of a word notation, is held for each of a plurality of linguistic models; and a correct word searching section for calculating an acoustic score of each phoneme string on the basis of the relationship between an acoustic feature amount output from an acoustic analyzing section and acoustic model, for acquiring a word appearance probability value corresponding to a predetermined linguistic model with respect to word notation data corresponding to a phoneme string from the integrated dictionary storing section to calculate a linguistic score for each word notation, and for searching for a correct word notation on the basis of the calculated acoustic score and linguistic score.

Description

本発明は、入力される音声を認識する処理を行なう音声認識装置、およびそのプログラムに関する。   The present invention relates to a speech recognition apparatus that performs processing for recognizing input speech, and a program thereof.

一般に音声認識処理では、単語の連鎖が出現する確率値(単語N−gram(エヌグラム))を言語モデルとして事前に学習しておき、この言語モデルを頼りにして入力音声に最適な正解単語列を探索する。このような統計的な言語モデルを用いた音声認識処理のために、音声認識対象と同じジャンルあるいはドメインのテキストを大量に用意しておき、用途別に学習することが一般的である。例えば、放送番組におけるジャンル別用途とは、料理用、園芸用、健康用などである。   In general, in speech recognition processing, a probability value (word N-gram (engram)) of occurrence of a chain of words is learned in advance as a language model, and a correct word string optimal for input speech is relied on using this language model. Explore. For speech recognition processing using such a statistical language model, it is common to prepare a large amount of text of the same genre or domain as the speech recognition target and learn according to use. For example, genre-specific uses in broadcast programs are for cooking, gardening, health and the like.

放送における長時間の情報番組のように、音声認識対象の入力音声の発話内容のジャンルあるいはドメインが時間とともに推移していく場合には、広く一般的な話題のテキストで学習された言語モデルでは、十分な認識性能が得られない。   If the genre or domain of the utterance content of the input speech that is the target of speech recognition changes over time, such as a long-time information program in broadcasting, the language model learned from the text of a general topic, Sufficient recognition performance cannot be obtained.

そこで、非特許文献1には、用途別あるいはドメイン別に用意された複数の言語モデルのうち、最適な1つの言語モデルを認識前に何らかの規準で選択してから音声認識を実行する手法が記載されている。   Therefore, Non-Patent Document 1 describes a method of performing speech recognition after selecting an optimal one language model from among a plurality of language models prepared for each use or domain, according to some criteria before recognition. ing.

また、特許文献1には、複数の言語モデルで複数の音声認識を並列に実行し、最適な1つの認識結果を何らかの規準で選択する手法が記載されている。   Japanese Patent Application Laid-Open No. 2004-228561 describes a technique in which a plurality of speech recognitions are performed in parallel using a plurality of language models, and an optimum single recognition result is selected according to some criteria.

また、特許文献2には、複数の言語モデルを1つに統合した言語モデルを生成しておき、この統合した言語モデルを用いた音声認識結果から、最適な言語モデルを選択する手法が提案されている。   Patent Document 2 proposes a method of generating a language model in which a plurality of language models are integrated into one, and selecting an optimal language model from a speech recognition result using the integrated language model. ing.

また、非特許文献2には、複数の文法を単一のグローバルな文法として展開する手法が提案されている。   Non-Patent Document 2 proposes a method of developing a plurality of grammars as a single global grammar.

特開2004−198831号公報JP 2004-198831 A 特開2010−224029号公報JP 2010-224029 A

本間真一,小林彰夫,奥貴裕,今井亨,「情報番組向け話題スイッチング言語モデルの検討」,日本音響学会研究発表会講演論文集,3-P-9,2011年Shinichi Honma, Akio Kobayashi, Takahiro Oku, Satoshi Imai, “Examination of Topic Switching Language Model for Information Programs”, Proceedings of the Acoustical Society of Japan, 3-P-9, 2011 李晃伸,鹿野清宏,「複数文法の同時認識および動的切り替えを行う認識エンジンJulius/Julian-3.3」,日本音響学会研究発表会講演論文集,3-9-12,pp. 153-154,2002年Lee Sung-nobu and Shikahiro Shikano, “Recognition Engine Julius / Julian-3.3 for Simultaneous Recognition and Dynamic Switching of Multiple Grammars”, Proc. Of the Acoustical Society of Japan, 3-9-12, pp. 153-154, 2002 Year

しかしながら、従来の技術は次のような課題を持っている。
例えば特許文献1に記載されている技術では、複数の音声認識処理を並行して稼動させるため、計算量およびメモリ消費量が並列度に比例して大きくなり、装置規模が増大するという問題がある。
また、特許文献2に記載されている技術では、複数の言語モデルをひとつに統合する際に、それぞれの言語モデルに同じ表記の単語が語彙として登録されている場合でも、各言語モデルに対応したそれらの単語表記を別のものとして識別し、それぞれの単語に別の単語N−gramを付与する。そのため、正解単語探索の対象となる木構造化辞書データにおいては同じ単語が複数箇所で展開され、冗長であり、使用メモリの増加や音声認識処理時間の増加をもたらすという問題がある。
また、非特許文献1に記載されている技術では、複数の言語モデルの中から1つの言語モデルを認識前に選択してから、音声認識処理を実行する。このため、言語モデルを動的に切り替えたり調整したりすることができない。
また、非特許文献2に記載されている技術では、複数の文法ごとの木構造化辞書が独立にメモリに展開され、同じ単語が複数個所でメモリを占有する。このため、使用メモリの増加や音声認識処理時間の増加をもたらすという問題がある。
However, the conventional technology has the following problems.
For example, in the technique described in Patent Document 1, since a plurality of voice recognition processes are operated in parallel, there is a problem that the amount of calculation and memory consumption increase in proportion to the degree of parallelism, and the device scale increases. .
Further, in the technique described in Patent Document 2, when a plurality of language models are integrated into one, even when words having the same notation are registered as vocabulary in each language model, each language model is supported. Those word notations are identified as different ones, and another word N-gram is given to each word. Therefore, there is a problem that the same word is expanded at a plurality of locations in the tree-structured dictionary data to be searched for the correct word, which is redundant, resulting in an increase in use memory and an increase in speech recognition processing time.
In the technology described in Non-Patent Document 1, a speech recognition process is executed after selecting one language model from a plurality of language models before recognition. For this reason, the language model cannot be dynamically switched or adjusted.
In the technique described in Non-Patent Document 2, a tree-structured dictionary for each grammar is independently expanded in a memory, and the same word occupies the memory at a plurality of locations. For this reason, there is a problem that the use memory increases and the speech recognition processing time increases.

本発明は、上記の課題認識に基づいて行なわれたものであり、例えば情報番組のように、1つの番組の中で時間とともに発話内容のジャンルあるいはドメインが推移していく場合に、複数の言語モデルを切り替える等の調整を行ないながら認識処理を行い、且つ複数の言語モデルに対応した辞書データの使用メモリ量の増加を抑えることのできる音声認識装置を提供するものである。   The present invention has been made based on the above problem recognition. For example, when the genre or domain of the utterance content changes with time in one program as in an information program, a plurality of languages are used. The present invention provides a speech recognition apparatus that can perform recognition processing while performing adjustments such as switching models and can suppress an increase in the amount of memory used for dictionary data corresponding to a plurality of language models.

また、本発明は、複数の言語モデルから1つを選択して使用する場合や、複数の言語モデルを重み付き線形結合させて使用する場合に、オンラインで動作している音声認識処理を中断・遅滞させることなく、認識処理することのできる音声認識装置を提供するものである。   In addition, the present invention interrupts speech recognition processing that is operating online when selecting and using one of a plurality of language models or using a plurality of language models with weighted linear combination. It is an object of the present invention to provide a speech recognition apparatus that can perform recognition processing without delay.

[1]上記の課題を解決するため、本発明の一態様による音声認識装置は、音響特徴量に関する統計量である音響モデルに関連付けられた音素の列である音素列を表わす音素列データと、前記音素列データに関連付けられた単語表記を表わす単語表記データと、前記単語表記データに関連付けられ前記単語表記の出現確率を表わす単語出現確率値を複数の言語モデルの各々に対応して保持する単語出現確率値データとを記憶する統合辞書記憶部と、入力音声を分析して音響特徴量を出力する音響分析部と、前記音響分析部から出力された前記音響特徴量と前記音響モデルとの関係により前記音素列ごとの音響スコアを算出するとともに、前記音素列に対応する前記単語表記データについて所定言語モデルに対応する前記単語出現確率値を前記統合辞書記憶部から取得して前記単語表記ごとの言語スコアを算出し、算出された前記音響スコアおよび前記言語スコアにより、正解の単語表記を探索して出力する正解単語探索部とを具備する。   [1] In order to solve the above-described problem, a speech recognition apparatus according to an aspect of the present invention includes phoneme sequence data representing a phoneme sequence that is a sequence of phonemes associated with an acoustic model that is a statistic relating to an acoustic feature. A word notation data representing a word notation associated with the phoneme string data and a word appearance probability value associated with the word notation data and representing an appearance probability of the word notation corresponding to each of a plurality of language models An integrated dictionary storage unit that stores appearance probability value data, an acoustic analysis unit that analyzes input speech and outputs an acoustic feature amount, and a relationship between the acoustic feature amount output from the acoustic analysis unit and the acoustic model To calculate an acoustic score for each phoneme string, and to calculate the word appearance probability value corresponding to a predetermined language model for the word notation data corresponding to the phoneme string Acquired from engagement dictionary storage unit calculates the language score of each of the word notation, the calculated the acoustic score and the language score comprises a correct word searching unit and outputting the searched word notation correct.

ここで、統合辞書記憶部は、複数の言語モデルに共通の領域に音素列データと単語表記データを記憶する。また、単語表記データは、日本語の場合には漢字カナ混じりによる表記に対応している。単語出現確率値データは、ユニグラム、バイグラム、トライグラム等の単語連鎖に基づく確率値である。単語の連鎖数が2以上の場合には、直前の単語(列)に基づく条件付確率を用いる。なお、単語出現確率値データは、単語出現確率値を言語モデルごとに保持する。   Here, the integrated dictionary storage unit stores phoneme string data and word notation data in an area common to a plurality of language models. In addition, the word notation data corresponds to the notation mixed with kanji characters in Japanese. The word appearance probability value data is a probability value based on a word chain such as a unigram, bigram, or trigram. When the number of word chains is 2 or more, a conditional probability based on the immediately preceding word (sequence) is used. In addition, word appearance probability value data hold | maintains a word appearance probability value for every language model.

[2]また、本発明の一態様は、上記の音声認識装置において、前記統合辞書記憶部が記憶する前記単語出現確率値データは、どの言語モデルが選択されているかを表わす言語モデル選択制御データを含むものであり、設定に応じて前記言語モデル選択制御データを更新する統合辞書管理部を具備し、前記正解単語探索部は、前記言語モデル選択制御データによって選択されていることが示されている前記所定言語モデルに対応する前記単語出現確率値を前記統合辞書記憶部から取得して前記単語表記ごとの言語スコアを算出するものである。   [2] Further, according to one aspect of the present invention, in the speech recognition apparatus, the word appearance probability value data stored in the integrated dictionary storage unit is language model selection control data indicating which language model is selected. And includes an integrated dictionary management unit that updates the language model selection control data in accordance with settings, and indicates that the correct word search unit is selected by the language model selection control data. The word appearance probability value corresponding to the predetermined language model is acquired from the integrated dictionary storage unit, and a language score for each word notation is calculated.

[3]また、本発明の一態様は、上記の音声認識装置において、言語モデルごとの重み値を記憶する重み値記憶部を具備し、前記統合辞書管理部は、前記単語出現確率値データにおける複数の言語モデルに対応する前記単語出現確率値を、前記重み値記憶部から取得した前記重み値で加重平均することにより、前記複数の言語モデルを合成して得られる新たな単語出現確率値を算出し、算出された前記単語出現確率値で前記単語出現確率値データを更新するものである。   [3] Further, according to an aspect of the present invention, the speech recognition apparatus includes a weight value storage unit that stores a weight value for each language model, and the integrated dictionary management unit includes the word appearance probability value data A new word appearance probability value obtained by synthesizing the plurality of language models is obtained by weighted averaging the word appearance probability values corresponding to the plurality of language models with the weight values acquired from the weight value storage unit. The word appearance probability value data is updated with the calculated word appearance probability value.

この構成により、複数の言語モデルを所望の比率で混合して新たな言語モデルを合成し、認識処理に用いることができる。また、混合比率(重み値)が変更された場合には、その合成された言語モデルを自動的に更新することができる。   With this configuration, a plurality of language models can be mixed at a desired ratio to synthesize a new language model and used for recognition processing. Further, when the mixture ratio (weight value) is changed, the synthesized language model can be automatically updated.

[4]また、本発明の一態様は、上記の音声認識装置において、前記統合辞書管理部は、前記複数の言語モデルの各々に対応して、前記単語表記データと前記単語出現確率値と前記単語表記データの各々に対応する発音データとを取得し、前記単語表記データごとに前記発音データを前記音素列データに展開して前記統合辞書記憶部に書き込み、展開された前記音素列データに関連付けて前記単語表記データを前記統合辞書記憶部に書き込み、前記単語表記データに関連付けた前記単語出現確率値を前記言語モデルに対応させて前記統合辞書記憶部の前記単語出現確率値データに書き込むとともに、言語モデル間で単語表記が共通の単語が存在する場合には単一の前記単語表記データに関連付けるように言語モデルごとの前記単語出現確率値を前記単語出現確率値データに書き込み、言語モデル間で発音データが共通の単語が存在する場合には単一の音素列データに関連付けるように言語モデルごとの前記単語出現確率値を前記単語出現確率値データに書き込むものである。   [4] Further, according to one aspect of the present invention, in the speech recognition apparatus, the integrated dictionary management unit corresponds to each of the plurality of language models, the word notation data, the word appearance probability value, and the Pronunciation data corresponding to each of the word notation data is acquired, the phonetic data is expanded into the phoneme string data for each word notation data, written to the integrated dictionary storage unit, and associated with the expanded phoneme string data And writing the word notation data to the integrated dictionary storage unit, writing the word appearance probability value associated with the word notation data to the word appearance probability value data of the integrated dictionary storage unit in association with the language model, When there is a word having a common word notation among language models, the word appearance probability value for each language model is associated with a single word notation data. The word appearance probability value data is written in the word appearance probability value data, and the word appearance probability value for each language model is associated with a single phoneme string data when there is a word with common pronunciation data between language models. Write data.

この構成により、複数の言語モデルを統合して、各言語モデルに依存した音素列データおよび単語表記データに関して、言語モデル間で共通の静的に統合された木構造データをメモリ上に展開し、それらの単語表記データから、言語モデル別の単語出現確率値を関連付けるようにできる。   With this configuration, a plurality of language models are integrated, and regarding phoneme string data and word notation data depending on each language model, statically integrated tree structure data common between the language models is expanded on the memory, The word appearance probability value for each language model can be associated from the word notation data.

[5]また、本発明の一態様は、上記の音声認識装置において、前記統合辞書記憶部は、前記音素列データにおける単語始端から単語途中音素までの部分音素列に対応して、言語モデルごとに、前記部分音素列を共有する全ての前記単語表記データに関連付けられた前記単語出現確率値の最大値を、前記部分音素列に対応する単語内確率値として保持する単語内確率値データをも記憶するものであり、前記正解単語探索部は、前記単語内確率値が所定閾値より低い場合には対応する前記部分音素列を共有する単語表記データを探索対象から除外するものである。   [5] Further, according to one aspect of the present invention, in the speech recognition apparatus, the integrated dictionary storage unit corresponds to a partial phoneme sequence from a word start to a mid-word phoneme in the phoneme sequence data, for each language model. Further, intra-word probability value data for holding the maximum value of the word appearance probability values associated with all the word notation data sharing the partial phoneme string as an intra-word probability value corresponding to the partial phoneme string. The correct word search unit is configured to exclude word notation data sharing the corresponding partial phoneme sequence from search targets when the intra-word probability value is lower than a predetermined threshold.

[6]また、本発明の一態様は、音響特徴量に関する統計量である音響モデルに関連付けられた音素の列である音素列を表わす音素列データと、前記音素列データに関連付けられた単語表記を表わす単語表記データと、前記単語表記データに関連付けられ前記単語表記の出現確率を表わす単語出現確率値を複数の言語モデルの各々に対応して保持する単語出現確率値データとを記憶する統合辞書記憶部と、入力音声を分析して音響特徴量の統計データを出力する音響分析部と、前記音響分析部から出力された前記音響特徴量を前記音響モデルとの関係により前記音素列ごとの音響スコアを算出するとともに、前記音素列に対応する前記単語表記データについての所定の言語モデルに対応する前記単語出現確率値データを前記統合辞書記憶部から取得して前記単語表記ごとの言語スコアを算出し、算出された前記音響スコアおよび前記言語スコアにより、正解の単語表記を探索して出力する正解単語探索部とを具備する音声認識装置としてコンピューターを機能させるためのプログラムである。   [6] Further, according to one aspect of the present invention, phoneme string data representing a phoneme string that is a phoneme string associated with an acoustic model that is a statistic relating to an acoustic feature value, and a word notation associated with the phoneme string data And a word appearance probability value data for storing a word appearance probability value associated with the word notation data and representing a word appearance probability value corresponding to each of a plurality of language models. A storage unit, an acoustic analysis unit that analyzes input speech and outputs statistical data of acoustic feature values, and an acoustic feature value output from the acoustic analysis unit for each phoneme sequence according to a relationship with the acoustic model A score is calculated, and the word appearance probability value data corresponding to a predetermined language model for the word notation data corresponding to the phoneme string is stored in the integrated dictionary storage unit A computer as a speech recognition apparatus comprising: a correct word search unit that acquires and calculates a language score for each word notation, and searches for and outputs a correct word notation based on the calculated acoustic score and the language score. It is a program to make it function.

本発明によれば、複数の言語モデルを切り替えることなどにより、高精度な音声認識を実現し、且つ、複数の言語モデルに対応した辞書データのメモリ使用量を抑制することができる。
また、本発明によれば、単語の出現確率値のテーブルを更新する際にも、認識処理を遅延させたり中断させたりすることがない。
According to the present invention, highly accurate speech recognition can be realized by switching a plurality of language models, and the memory usage of dictionary data corresponding to the plurality of language models can be suppressed.
Further, according to the present invention, the recognition process is not delayed or interrupted when the word appearance probability value table is updated.

本発明の一実施形態による音声認識装置の機能構成を示すブロック図である。It is a block diagram which shows the function structure of the speech recognition apparatus by one Embodiment of this invention. 同実施形態による統合辞書記憶部が記憶する辞書データに含まれる、音素列探索用データの構成例を示す概略図である。It is the schematic which shows the structural example of the data for phoneme sequence search contained in the dictionary data which the integrated dictionary memory | storage part by the same embodiment memorize | stores. 同実施形態による統合辞書記憶部が記憶する辞書データに含まれる、音素列探索用データの構成例を示すもう一つの概略図である。It is another schematic diagram which shows the structural example of the data for phoneme string search contained in the dictionary data which the integrated dictionary memory | storage part by the same embodiment memorize | stores. 同実施形態による重みベクトル記憶部が記憶するデータの構成を示す概略図である。It is the schematic which shows the structure of the data which the weight vector memory | storage part by the same embodiment memorize | stores. 同実施形態による統合辞書記憶部内に記憶される単語終端N−gramテーブルの構成例を示す概略図である。It is the schematic which shows the structural example of the word termination | terminus N-gram table memorize | stored in the integrated dictionary memory | storage part by the embodiment. 同実施形態による統合辞書記憶部内に記憶される単語内N−gramテーブルの構成例を示す概略図である。It is the schematic which shows the structural example of the N-gram table in a word memorize | stored in the integrated dictionary memory | storage part by the embodiment. 同実施形態による音声認識処理(特に、N−gramテーブルの更新と、正解単語の探索)の手順を示したフローチャートである。It is the flowchart which showed the procedure of the speech recognition process (especially update of an N-gram table and search of a correct word) by the embodiment.

次に、図面を参照しながら、本発明の一実施形態について説明する。
図1は、同実施形態による音声認識装置の機能構成を示すブロック図である。図示するように、音声認識装置1は、音響分析部2と、正解単語探索部3と、統合辞書記憶部4と、言語モデル記憶部6−1,6−2,・・・,6−Mと、発音辞書記憶部7−1,7−2,・・・,7−Mと、統合辞書管理部8と、音響モデル記憶部9と、重みベクトル記憶部10(重み値記憶部)と、手動設定部11と、自動設定部12とを含んで構成される。
Next, an embodiment of the present invention will be described with reference to the drawings.
FIG. 1 is a block diagram showing a functional configuration of the speech recognition apparatus according to the embodiment. As illustrated, the speech recognition apparatus 1 includes an acoustic analysis unit 2, a correct word search unit 3, an integrated dictionary storage unit 4, and language model storage units 6-1, 6-2, ..., 6-M. , 7-M, pronunciation dictionary storage units 7-1, 7-2,..., 7-M, integrated dictionary management unit 8, acoustic model storage unit 9, weight vector storage unit 10 (weight value storage unit), A manual setting unit 11 and an automatic setting unit 12 are included.

なお、言語モデル記憶部6−1と発音辞書記憶部7−1が対として用いられる。なお、言語モデル記憶部6−2と発音辞書記憶部7−2が対として用いられ、以下も同様である。   The language model storage unit 6-1 and the pronunciation dictionary storage unit 7-1 are used as a pair. The language model storage unit 6-2 and the pronunciation dictionary storage unit 7-2 are used as a pair, and so on.

一例としては、音声認識装置1は、放送番組の音声から放送用の字幕テキストを制作する目的で使用される。この場合、入力音声は、放送番組の音声そのもの、あるいは放送番組の音声を字幕制作専用アナウンサーが認識処理のために言い直した音声(いわゆる、リスピーク音声)である。   As an example, the speech recognition apparatus 1 is used for the purpose of producing subtitle text for broadcasting from the sound of a broadcast program. In this case, the input sound is the sound of the broadcast program itself, or the sound of the broadcast program that is restated by the announcer dedicated to caption production (so-called “risk peak sound”).

音響分析部2は、入力音声を読み込み、パワーや周波数特性などの音響特徴量を抽出する。また、音響分析部2は、音響特徴量を抽出すると同時に、入力音声における声の発話始端と発話終端を逐次検出する。発話始端および発話終端の検出自体は、既存の技術により行なうことができる。例えば、音響分析部2は、話者クラスタごとのスピーチに対する音響モデルと非スピーチに対する音響モデルとを参照しながら、スピーチに対する最大の累積尤度と非スピーチに対する累積尤度との比を逐次算出し、算出された比の値と予め設定された閾値とを比較することにより、発話始端および発話終端を検出する。   The acoustic analysis unit 2 reads input speech and extracts acoustic feature quantities such as power and frequency characteristics. In addition, the acoustic analysis unit 2 extracts the acoustic feature amount and simultaneously detects the voice utterance start point and the utterance end point in the input voice. Detection of the utterance start point and utterance end point itself can be performed by existing techniques. For example, the acoustic analysis unit 2 sequentially calculates the ratio between the maximum cumulative likelihood for speech and the cumulative likelihood for non-speech while referring to an acoustic model for speech and a non-speech acoustic model for each speaker cluster. Then, by comparing the calculated ratio value with a preset threshold value, the utterance start point and utterance end point are detected.

正解単語探索部3は、音響分析部2において抽出された音響特徴量を元に、統合辞書記憶部4から読み出した辞書データを用いて、正解単語を探索し、その結果得られたテキストを認識結果テキストとして出力する。具体的には、正解単語探索部3は、音響分析部2から出力された音響特徴量と、音響モデル記憶部9に記憶されている音響モデルとの関係により、音素列ごとの音響スコアを算出する。また、正解単語探索部3は、音素列に対応する単語表記データについての、選択されている言語モデルに対応する単語出現確率値を前記統合辞書記憶部から取得して単語表記ごとの言語スコアを算出する。そして、正解単語探索部3は、算出された音響スコアおよび言語スコアにより、正解の単語表記を探索して出力する。なお、正解単語探索部3は、制御フラグによって選択が示されている言語モデルに対応する単語出現確率値を統合辞書記憶部から取得して、言語スコア算出に使用する。   The correct word search unit 3 searches the correct word using the dictionary data read from the integrated dictionary storage unit 4 based on the acoustic feature amount extracted by the acoustic analysis unit 2, and recognizes the text obtained as a result. Output as result text. Specifically, the correct word search unit 3 calculates an acoustic score for each phoneme sequence based on the relationship between the acoustic feature amount output from the acoustic analysis unit 2 and the acoustic model stored in the acoustic model storage unit 9. To do. In addition, the correct word search unit 3 acquires a word appearance probability value corresponding to the selected language model from the integrated dictionary storage unit for the word notation data corresponding to the phoneme string, and obtains a language score for each word notation. calculate. Then, the correct word search unit 3 searches for and outputs the correct word notation based on the calculated acoustic score and language score. The correct word searching unit 3 acquires a word appearance probability value corresponding to the language model indicated by the control flag from the integrated dictionary storage unit, and uses it for language score calculation.

統合辞書記憶部4は、複数の言語モデルおよび複数の発音辞書の情報を統合した統合辞書のデータを記憶する。具体的には、統合辞書記憶部4は、単語始端ノードおよび単語終端ノードに関するデータと、音素列データと、単語表記データと、単語終端N−gramテーブルと、単語内N−gramテーブルとを記憶する。また、統合辞書記憶部4は、それらのデータ間の関連付けを行なうリンクの情報を記憶する。これらのデータの詳細については、後述する。   The integrated dictionary storage unit 4 stores integrated dictionary data obtained by integrating information of a plurality of language models and a plurality of pronunciation dictionaries. Specifically, the integrated dictionary storage unit 4 stores data related to the word start node and the word end node, phoneme string data, word notation data, a word end N-gram table, and an intra-word N-gram table. To do. In addition, the integrated dictionary storage unit 4 stores information on links for associating those data. Details of these data will be described later.

言語モデル記憶部6−1,6−2,・・・,6−Mは、言語モデルのデータを記憶するものであり、それぞれ、言語モデル1,言語モデル2,・・・,言語モデルMに対応している。各々の言語モデルのデータは、単語表記データと単語出現確率値のデータとを関連付けて保持している。なお、本実施形態において単語出現確率値はバイグラムの確率値であるが、任意の数の単語連鎖に基づく確率値であってもよい。   The language model storage units 6-1, 6-2,..., 6-M store language model data, and the language model 1, language model 2,. It corresponds. Each language model data holds word notation data and word appearance probability value data in association with each other. In this embodiment, the word appearance probability value is a bigram probability value, but may be a probability value based on an arbitrary number of word chains.

発音辞書記憶部7−1,7−2,・・・,7−Mは、発音辞書のデータを記憶するものであり、それぞれ、言語モデル1,言語モデル2,・・・,言語モデルMに対応している。各々の発音辞書のデータは、単語表記データと発音データとを関連付けて保持している。発音データは、音素列と等価である。   The pronunciation dictionary storage units 7-1, 7-2,..., 7 -M store pronunciation dictionary data, and the language model 1, language model 2,. It corresponds. Each pronunciation dictionary data holds word notation data and pronunciation data in association with each other. The phonetic data is equivalent to a phoneme string.

統合辞書管理部8は、複数の言語モデルのデータ、即ち、言語モデル記憶部6−1,6−2,・・・,6−Mおよび発音辞書記憶部7−1,7−2,・・・,7−Mから読み出したデータを統合し、言語モデル間で共通の音素列データおよび単語表記データをメモリ上に展開するとともに、言語モデルごとに確率値を保持する単語終端N−gramテーブルおよび単語内N−gramテーブルに、値を書き込む。この言語モデルの統合および展開の処理の詳細については、後述する。   The integrated dictionary management unit 8 includes data of a plurality of language models, that is, language model storage units 6-1, 6-2,..., 6-M and pronunciation dictionary storage units 7-1, 7-2,. The data read from 7-M is integrated, and the phoneme string data and the word notation data common to the language models are expanded on the memory, and the word end N-gram table for holding the probability value for each language model and A value is written in the intra-word N-gram table. Details of the language model integration and expansion processing will be described later.

また、統合辞書管理部8は、音響分析部2が検出した発話始端および発話終端のタイミングに基づいて、発話終端と次の発話始端の間の発話間ポーズにおいて、必要な場合に統合辞書記憶部4を更新する。具体的には、重みベクトル記憶部10の重みベクトルが変更されていた場合には、統合辞書管理部8は、変更後の重みベクトルを用いて、単語終端N−gramテーブルおよび単語内N−gramテーブルの値を再計算し、これらのテーブルを更新する。このテーブル更新処理の詳細については、後述する。   The integrated dictionary management unit 8 also integrates the integrated dictionary storage unit when necessary in the utterance pause between the utterance end and the next utterance start based on the timing of the utterance start and end of the utterance detected by the acoustic analysis unit 2. 4 is updated. Specifically, when the weight vector of the weight vector storage unit 10 has been changed, the integrated dictionary management unit 8 uses the changed weight vector to change the word end N-gram table and the intra-word N-gram. Recalculate table values and update these tables. Details of this table update processing will be described later.

また、統合辞書管理部8は、手動設定または自動設定により言語モデル(ケース)の選択を制御するための制御フラグを更新する。このフラグの更新により、正解単語探索部3が使用する言語モデルを瞬時に切り替えることができる。なお、複数の言語モデルの重み付き合成結果である言語モデル(後述する「ケースX」)が選択される場合にも、同様に、統合辞書管理部8が上記の制御フラグを更新することにより行なう。   Further, the integrated dictionary management unit 8 updates a control flag for controlling selection of a language model (case) by manual setting or automatic setting. By updating this flag, the language model used by the correct word searching unit 3 can be instantaneously switched. Even when a language model (“case X” described later) that is a weighted synthesis result of a plurality of language models is selected, the integrated dictionary management unit 8 similarly updates the control flag. .

音響モデル記憶部9は、音響特徴量に関する統計量を、音素に関連付けた形式で記憶する。音響モデル記憶部9内の音響特徴量の統計量とは、例えば、音素のパワーや周波数特性などの平均値および分散値(ベクトルで表現される場合には分散共分散行列)である。
音響特徴量としては、例えば、隠れマルコフモデル(HMM)を用いる。
The acoustic model storage unit 9 stores statistics related to acoustic features in a format associated with phonemes. The statistic of the acoustic feature quantity in the acoustic model storage unit 9 is, for example, an average value and a variance value (a variance covariance matrix when expressed as a vector) such as phoneme power and frequency characteristics.
As the acoustic feature amount, for example, a hidden Markov model (HMM) is used.

重みベクトル記憶部10は、複数の言語モデルを合成するための、各言語モデルの寄与度を表わす重み値のベクトルを記憶する。重みベクトルの詳細については、後述する。   The weight vector storage unit 10 stores a vector of weight values representing the contribution of each language model for synthesizing a plurality of language models. Details of the weight vector will be described later.

手動設定部11は、利用者からの手動設定により、重みベクトルの値を設定する。手動設定部11は、言語モデルに対する各重み係数の値を直接入力できるようにしてもよいし、あらかじめ何通りかの重み係数の組み合わせ(例えば、後述するケース1、ケース2、・・・、ケースX)を設定しておき、そのうちのひとつを選択できるようにしておいてもよい。   The manual setting unit 11 sets the value of the weight vector by manual setting from the user. The manual setting unit 11 may directly input the value of each weighting factor for the language model, or a combination of several weighting factors in advance (for example, case 1, case 2,. X) may be set so that one of them can be selected.

自動設定部12は、音声認識結果のテキストを分析することによって話題を推定し、特定された話題に応じて言語モデルを切り替える設定を行なう。話題を推定すること自体は、既存技術を利用して行なうことができる。例えば、認識結果テキスト中の単語ごとの出現頻度をカウントし、すべての単語の出現頻度を特徴ベクトルとして、コサイン尺度等によるベクトル間の類似度を用いて話題を推定できる。自動設定部12は、随時、話題を推定し、推定結果に応じて、予め準備された候補の中から重みベクトルを選択したり、重みベクトルを新たに生成したりする。   The automatic setting unit 12 estimates the topic by analyzing the text of the speech recognition result, and performs setting to switch the language model according to the identified topic. Estimating the topic itself can be performed using existing technology. For example, the frequency of appearance for each word in the recognition result text is counted, and the topic can be estimated using the frequency of appearance of all words as a feature vector and the similarity between vectors based on a cosine scale or the like. The automatic setting unit 12 estimates a topic at any time and selects a weight vector from candidates prepared in advance or newly generates a weight vector according to the estimation result.

図2は、統合辞書記憶部4が記憶する辞書データに含まれる、音素列探索用データの構成例を示す概略図である。図示するように、統合辞書記憶部4が記憶する辞書データは、ノードと有向リンクを表わすデータを含んで構成される。各ノードは例えば構造体データとして表わされる。また、有向リンクは、リンクの終点の記憶領域へのポインタ等を用いて表わされる。同図において、符号20は、単語始端に対応する単語始端ノードである。また、31から40までは、音素に対応する音素ノードである。また、51から57までは、日本語の漢字仮名交じりで表わされる単語表記に対応する単語表記ノードである。また、70は単語終端に対応する単語終端ノードである。なお、音素ノード31〜40と音素ノード間のリンクとが、正解単語探索部3による探索対象空間である音素列を表わしており、これを音素列データと呼ぶ。   FIG. 2 is a schematic diagram illustrating a configuration example of phoneme string search data included in the dictionary data stored in the integrated dictionary storage unit 4. As shown in the figure, the dictionary data stored in the integrated dictionary storage unit 4 includes data representing nodes and directed links. Each node is represented as structure data, for example. The directed link is represented by using a pointer to a storage area at the end point of the link. In the figure, reference numeral 20 denotes a word start node corresponding to the word start. Reference numerals 31 to 40 are phoneme nodes corresponding to phonemes. Reference numerals 51 to 57 are word notation nodes corresponding to word notations represented by Japanese kanji kana mixing. Reference numeral 70 denotes a word end node corresponding to the word end. Note that the phoneme nodes 31 to 40 and the link between the phoneme nodes represent a phoneme string that is a search target space by the correct word searching unit 3, and this is referred to as phoneme string data.

統合辞書記憶部4が記憶する単語表記データは、単語表記ノードに対応し、単語表記を表わすものである。また、単語表記データは、音素列データ中の終端の音素ノードからリンクによって関連付けられている。   The word notation data stored in the integrated dictionary storage unit 4 corresponds to the word notation node and represents the word notation. Further, the word notation data is associated by a link from the terminal phoneme node in the phoneme string data.

例えば、単語表記ノード51に対応する単語「朝」は、音素列/asa/で発音されるため、/a/の音素ノード31と、/s/の音素ノード32と、/a/の音素ノード34とを直列するネットワークに関連付けられて居る。また例えば、単語表記ノード53に対応する単語「明日」は、音素列/asu/で発音されるため、/a/の音素ノード31と、/s/の音素ノード32とを、上記の単語表記ノード51(単語「朝」)との間で共有する。そして、/s/の音素ノード32から枝分かれして/u/の音素ノード35に至るネットワーク(音素ノード31、32、35と直列するネットワーク)に、単語表記ノード53(単語「明日」)は関連付けられる。なお、音素列/asa/には、単語表記ノード51(単語「朝」)だけでなく、単語表記ノード52(単語「麻」)も同様に、関連付けられる。   For example, since the word “morning” corresponding to the word notation node 51 is pronounced by the phoneme string / asa /, the phoneme node 31 of / a /, the phoneme node 32 of / s /, and the phoneme node of / a / 34 is associated with a serial network. Further, for example, the word “Tomorrow” corresponding to the word notation node 53 is pronounced with the phoneme string / asu /, so the phoneme node 31 of / a / and the phoneme node 32 of / s / Share with node 51 (word “morning”). Then, the word notation node 53 (the word “tomorrow”) is associated with the network branching from the phoneme node 32 of / s / to the phoneme node 35 of / u / (a network in series with the phoneme nodes 31, 32, and 35). It is done. In addition, not only the word notation node 51 (word “morning”) but also the word notation node 52 (word “hemp”) is associated with the phoneme string / asa /.

また、音素ノード31〜40の各々は、音響モデル記憶部9内の音響特徴量の統計量への関連付けが行なわれている。この関連付けは、各音素ノードがリンク情報(図2では図示省略)を保持することによって実現される。   In addition, each of the phoneme nodes 31 to 40 is associated with the statistic of the acoustic feature amount in the acoustic model storage unit 9. This association is realized by each phoneme node holding link information (not shown in FIG. 2).

また、音素ノード31〜40の各々は、単語内N−gramテーブルのエントリーへの関連付けのためのリンク情報(図2ではこのリンク情報の図示を省略)を保持している。この関連付けは、ポインタや音素ノード識別情報の値によって行なう。なお、単語内N−gramテーブルについては、後述する。   Each of the phoneme nodes 31 to 40 holds link information (not shown in FIG. 2) for associating with an entry in the intra-word N-gram table. This association is performed by the value of the pointer or phoneme node identification information. The intra-word N-gram table will be described later.

また、単語表記ノード51〜57の各々は、単語終端N−gramテーブルのエントリーへのリンク情報(図2ではこのリンク情報の図示を省略)を保持している。単語終端N−gramテーブルについては、後述する。   Each of the word notation nodes 51 to 57 holds link information (not shown in FIG. 2) to the entry in the word end N-gram table. The word end N-gram table will be described later.

図3は、統合辞書記憶部4が記憶する辞書データに含まれる、音素列探索用データの構成例を示すもう一つの概略図である。図3に示すデータと図2で説明したデータとは、概念的な構成において同一である。図3において、符号21は、単語始端ノードである。また、41から43までは、音素ノードである。また、58から61までは、単語表記ノードである。また、71は、単語終端ノードである。なお、音素ノード41〜43と音素ノード間のリンクとが、正解単語探索部3による探索対象空間である音素列を表わしており、これを音素列データと呼ぶ。   FIG. 3 is another schematic diagram showing a configuration example of phoneme string search data included in the dictionary data stored in the integrated dictionary storage unit 4. The data shown in FIG. 3 and the data described in FIG. 2 are the same in conceptual configuration. In FIG. 3, reference numeral 21 denotes a word start node. 41 to 43 are phoneme nodes. 58 to 61 are word notation nodes. Reference numeral 71 denotes a word end node. Note that the phoneme nodes 41 to 43 and the link between the phoneme nodes represent a phoneme string that is a search target space by the correct word searching unit 3, and this is referred to as phoneme string data.

この例では、単語表記wと単語表記wとは、ともに音素列/n/に関連付けられている。つまり、wとwは同音異義語である。また、単語表記wと単語表記wとは、ともに音素列/n/に関連付けられている。つまり、wとwは同音異義語である。後で単語内N−gramテーブルおよび単語終端N−gramテーブルについて説明する際に、また図3内のデータに言及する。 In this example, the word notation w 1 and the word notation w 2 are both associated with the phoneme string / n 1 n 2 /. In other words, w 1 and w 2 is a homonym. The word notation w 3 and the word notation w 4 are both associated with the phoneme string / n 1 n 3 /. In other words, w 3 and w 4 is a homonym. In the description of the intra-word N-gram table and the end-of-word N-gram table later, reference will be made to the data in FIG.

図4は、重みベクトル記憶部10が記憶するデータの構成を示す概略図である。図示するように、重みベクトル記憶部10は、ケースごとに、各言語モデルの重みの値を記憶する。図示する例では、ケース1のベクトルは(1.0, 0.0, ・・・, 0.0)である。つまり、ケース1では、言語モデル1の重みを1.0とし、その他の言語モデルの重みをすべて0.0とする。また、ケース2では、言語モデル2の重みを1.0とし、その他の言語モデルの重みをすべて0.0とする。また、ケースXでは、言語モデル1および2の重みをそれぞれ0.5ずつとし、その他の言語モデルの重みをすべて0.0とする。つまり、ケース1あるいはケース2の場合には、実質的に、複数の言語モデルのうち一つの言語モデルを単独で使用することを意味する。また、ケースXのように、重みベクトルを用いて、複数の言語モデルの任意の重み付き線形結合による統計量を、言語モデルとして使用することもできる。   FIG. 4 is a schematic diagram illustrating a configuration of data stored in the weight vector storage unit 10. As illustrated, the weight vector storage unit 10 stores the weight value of each language model for each case. In the illustrated example, the vector of case 1 is (1.0, 0.0,..., 0.0). That is, in case 1, the weight of the language model 1 is 1.0, and the weights of all other language models are 0.0. In case 2, the weight of the language model 2 is set to 1.0, and the weights of all other language models are set to 0.0. In case X, the weights of the language models 1 and 2 are set to 0.5 each, and the weights of the other language models are all set to 0.0. That is, in case 1 or case 2, it means that one language model is used independently from among a plurality of language models. Further, as in case X, using a weight vector, a statistic obtained by arbitrarily weighting linear combination of a plurality of language models can be used as a language model.

言語モデルに対する重みベクトルの意味は、次の通りである。即ち、任意の言語モデルm∈{1,2,・・・,M}に対する重み係数をλとし、入力音声に含まれる(n−1)番目の単語wn−1からn番目の単語wへの単語連鎖(バイグラム)の言語モデルmに基づく出現確率をP(w|wn−1)とすると、これらM個の言語モデルから重み付き線形結合で構成される言語モデル(ケースX)の単語連鎖の出現確率は、それぞれの重み係数を各言語モデルの出現確率に乗じて足し合わせることで、下の式(1)のように計算できる。 The meaning of the weight vector for the language model is as follows. That is, the weighting coefficient for an arbitrary language model m∈ {1, 2,..., M} is λ m, and the (n−1) th word w n−1 to the nth word w included in the input speech. If the appearance probability based on the language model m of the word chain (bigram) to n is P m (w n | w n−1 ), a language model (case) composed of weighted linear combinations from these M language models. The appearance probability of the word chain of X) can be calculated as the following equation (1) by adding the respective weighting factors to the appearance probability of each language model.

Figure 2013125144
Figure 2013125144

なお、ここで、下の式(2)で表わされる条件を前提とする。   Here, it is assumed that the condition expressed by the following equation (2) is satisfied.

Figure 2013125144
Figure 2013125144

つまり、あるケースに対する重み値の総和は1であり、各々の重み値は非負である。
なお、ここでは、1つの直前単語から次単語への2単語連鎖の出現確率、すなわちバイグラム確率について説明したが、さらにもう1つ前の直前単語も条件に加えた、3単語連鎖の出現確率、すなわちトライグラム確率についても、同様に重みを用いて計算できる。
That is, the sum of the weight values for a certain case is 1, and each weight value is non-negative.
In addition, although the appearance probability of the two-word chain from the immediately preceding word to the next word, that is, the bigram probability has been described here, the appearance probability of the three-word chain including the previous immediately preceding word as a condition, That is, the trigram probability can be similarly calculated using the weight.

前述の手動設定部11あるいは自動設定部12は、ケース1、ケース2、・・・、ケースXの中から重みベクトルを選択するか、あるいはケースXのベクトル値を適宜変更することによって、重みを決定する。また、ケース1やケース2のように、選択された重みベクトルにおいてある特定の言語モデルの重みのみが1.0である場合には、元の言語モデルを単純に選択することと同じ作用を得られる。   The manual setting unit 11 or the automatic setting unit 12 selects a weight vector from the case 1, the case 2,..., The case X, or changes the vector value of the case X as appropriate. decide. Further, when only the weight of a specific language model in the selected weight vector is 1.0 as in case 1 and case 2, the same effect as that of simply selecting the original language model is obtained. It is done.

図5は、統合辞書記憶部4内に記憶される単語終端N−gramテーブル(単語出現確率値データ)の構成例を示す概略図である。ここに図示する例は、バイグラム確率を用いる場合のデータである。なお前述の通り、図2および図3で説明した単語表記ノードから、この単語終端N−gramテーブルのエントリーへのリンクによる関連付けが行なわれている。   FIG. 5 is a schematic diagram illustrating a configuration example of a word end N-gram table (word appearance probability value data) stored in the integrated dictionary storage unit 4. The example shown here is data when using bigram probabilities. Note that as described above, the word notation nodes described in FIG. 2 and FIG. 3 are associated by links from the word end N-gram table entries.

図示するように、単語終端N−gramテーブルは、言語モデルのケースごとに、単語N−gramの確率値(単語出現確率値)を保持している。例えば、ケース1では、直前単語wに対して次単語wおよびwそれぞれに接続する場合の確率値として、それぞれ、0.8および0.2を保持している。このとき、直前単語wに対して、次単語への接続の確率の総和は1.0である。即ち、直前単語w−次単語wの接続確率0.8と、直前単語w−次単語wの接続確率0.2との和は1.0である。同様に、ケース1では、直前単語wから次単語への接続確率の総和も1.0である。また、この単語終端N−gramテーブルは、ケース2やケースX等においても、同様に単語のN−gram(ここでは、バイグラム)による確率値を保持している。 As illustrated, the word end N-gram table holds the probability value (word appearance probability value) of the word N-gram for each case of the language model. For example, in Case 1, as the probability value when connecting to each next word w 2 and w 4 with respect to previous word w 1, respectively, and holds 0.8 and 0.2. At this time, the total probability of connection to the next word with respect to the immediately preceding word w 1 is 1.0. That is, immediately before the word w 1 - a connection probability 0.8 follows the word w 2, immediately before the word w 1 - sum of the connection probability 0.2 follows the word w 4 1.0. Similarly, in Case 1, the sum of the connection probability of previous word w 2 to the next word is also 1.0. Further, this word end N-gram table similarly holds probability values based on N-grams (here, bigrams) of words in case 2, case X, and the like.

ケースXについて、詳細に説明する。図4にも示した通り、ケースXにおける重み値が言語モデル1と言語モデル2の各々に対して0.5である場合、図5のケースXにおける直前単語w−次単語wの接続確率は、ケース1における確率0.8に重み0.5を乗じた値と、ケース2における確率0.0に重み0.5を乗じた値との和、即ち0.4である。同様に、ケースXにおける直前単語w−次単語wの接続確率は、ケース1における確率0.0に重み0.5を乗じた値と、ケース2における確率0.4に重み0.5を乗じた値との和、即ち0.2である。同様に、ケースXにおける直前単語w−次単語wの接続確率は、ケース1における確率0.2に重み0.5を乗じた値と、ケース2における確率0.6に重み0.5を乗じた値との和、即ち0.4である。そして、他の直前単語についても同様である。 Case X will be described in detail. As shown in FIG. 4, when the weight value in case X is 0.5 for each of language model 1 and language model 2, the connection between immediately preceding word w 1 and next word w 2 in case X in FIG. The probability is the sum of the value obtained by multiplying the probability 0.8 in Case 1 by the weight 0.5 and the value obtained by multiplying the probability 0.0 in Case 2 by the weight 0.5, that is, 0.4. Similarly, the connection probability of the immediately preceding word w 1 -next word w 3 in case X is a value obtained by multiplying probability 0.0 in case 1 by weight 0.5 and probability 0.4 in case 2 with weight 0.5. The sum of the value and the value obtained by multiplying by 0.2, that is, 0.2. Similarly, the connection probability of the immediately preceding word w 1 -next word w 4 in case X is a value obtained by multiplying probability 0.2 in case 1 by weight 0.5 and probability 0.6 in case 2 with weight 0.5. The sum of the value and the value obtained by multiplying by 0.4, that is, 0.4. The same applies to the other immediately preceding words.

つまり、単語終端N−gramテーブルは、単語表記データに関連付けられ、直前の単語または直前の単語連鎖を前提とした当該単語表記の条件付出現確率を表わす単語出現確率値を、複数の言語モデルの各々に対応して保持する。   That is, the word end N-gram table is associated with the word notation data, and the word appearance probability value representing the conditional appearance probability of the word notation on the premise of the immediately preceding word or the immediately preceding word chain is represented by a plurality of language models. Hold corresponding to each.

また、単語終端N−gramテーブルは、言語モデル(ケース)の選択を制御するための制御フラグ(言語モデル選択制御データ)を有している。図示する例では、ケース1が選択されているために、ケース1に対応する制御フラグの値は「○」である。また、選択されていないケース2やケースXに対応する制御フラグの値は「×」である。音声認識処理の実行中は、この制御フラグが「○」で示されている言語モデルのデータを参照するようにすることにより、音素列データの木構造を言語モデルごとにメモリ上に複数展開したり、言語モデルごとの木構造全体を切り替えたりすることなく、言語モデルを切り替えることと等価な処理を行うことが可能となる。また、制御フラグの更新のみにより、迅速な言語モデルの変更が可能となる。   The word end N-gram table has a control flag (language model selection control data) for controlling selection of a language model (case). In the illustrated example, since the case 1 is selected, the value of the control flag corresponding to the case 1 is “◯”. Further, the value of the control flag corresponding to case 2 or case X not selected is “×”. While the speech recognition process is being executed, multiple tree structures of phoneme string data are expanded in the memory for each language model by referring to the data of the language model indicated by this control flag “○”. It is possible to perform processing equivalent to switching the language model without switching the entire tree structure for each language model. Moreover, the language model can be changed quickly only by updating the control flag.

図6は、統合辞書記憶部4内に記憶される単語内N−gramテーブル(単語内確率値データ)の構成例を示す概略図である。図示するように、単語内N−gramテーブルは、直前単語ごとに、音素ノードに対応する確率値(単語内確率値)を保持している。なお前述の通り、各音素ノードから、この単語内N−gramテーブルのエントリーへのリンクによる関連付けが行なわれている。また、単語内N−gramテーブルは、前述の単語終端N−gramテーブルと同様に、言語モデル(ケース)の選択を制御するための制御フラグ(言語モデル選択制御データ)を有している。選択されているケースにおいては、制御フラグの値は「○」である。また、選択されていないケースにおいては、制御フラグの値は「×」である。   FIG. 6 is a schematic diagram illustrating a configuration example of an intra-word N-gram table (intra-word probability value data) stored in the integrated dictionary storage unit 4. As illustrated, the intra-word N-gram table holds a probability value (intra-word probability value) corresponding to a phoneme node for each immediately preceding word. As described above, the association from each phoneme node to the entry in the intra-word N-gram table is performed. In addition, the intra-word N-gram table has a control flag (language model selection control data) for controlling the selection of a language model (case), similarly to the above-described word end N-gram table. In the selected case, the value of the control flag is “◯”. In the case where the control flag is not selected, the value of the control flag is “×”.

つまり、統合辞書記憶部4は、音素列データにおける単語始端から単語途中音素(単語途中音素とは、単語表記ノードへの直接リンクを持たない音素)までの部分音素列に対応して、言語モデルごとに、部分音素列を共有する全ての単語表記データに関連付けられた単語出現確率値の最大値を、部分音素列に対応する単語内確率値として保持する単語内N−gramテーブルを記憶する。部分音素列(音素ノード)を共有する単語表記データの意味については、次に説明する。   That is, the integrated dictionary storage unit 4 corresponds to the partial phoneme sequence from the beginning of the word to the mid-word phoneme in the phoneme sequence data (the mid-word phoneme is a phoneme that does not have a direct link to the word notation node). For each, an intra-word N-gram table is stored that holds the maximum value of word appearance probability values associated with all word notation data sharing a partial phoneme string as an intra-word probability value corresponding to the partial phoneme string. The meaning of word notation data that shares partial phoneme strings (phoneme nodes) will be described next.

図6に示すデータ例は、図3で説明した音素列の木構造に対応している。図3で示したように、音素ノードnは、単語表記ノード58〜61の各々に対応する単語wとwとwとwである。つまり、音素ノードnは、単語wとwとwとwを共有している。一般に音素ノードpにおける共有単語(この音素ノードを含む複数の単語)の集合をsとすると、s={w,w,w,w},s={w,w},s={w,w}である。言い換えれば、音素ノードpを共有する全ての単語表記ノードの集合が、sである。単語内N−gramテーブルが保持する確率値は、ある直前単語を前提として、ある音素ノードが共有する共有単語集合に含まれる単語を次単語としたときの接続確率の最大値である。 The data example shown in FIG. 6 corresponds to the tree structure of the phoneme string described in FIG. As shown in FIG. 3, the phoneme node n 1 is the words w 1 , w 2 , w 3, and w 4 corresponding to the word notation nodes 58 to 61. That is, the phoneme node n 1 shares the words w 1 , w 2 , w 3, and w 4 . In general, the set of shared words (more words containing the phoneme nodes) in the phoneme node p and s p, s 1 = {w 1, w 2, w 3, w 4}, s 2 = {w 1, w 2 }, s 3 = {w 3 , w 4 }. In other words, the set of all words notation nodes sharing the phoneme node p is the s p. The probability value held in the intra-word N-gram table is the maximum value of connection probabilities when a word included in a shared word set shared by a certain phoneme node is set as the next word on the premise of a certain previous word.

即ち、直前単語wn−1に後続する音素ノードpにおける共有単語集合s(音素ノードpを含む複数の単語の集合)の連鎖出現確率の最大値は、下の式(3)で表わされる。 That is, the maximum value of the chain the probabilities of occurrence of previous word w n-1 to the shared word set s p in the subsequent phoneme node p (a set of a plurality of words containing phonemes node p) is represented by the following formula (3) .

Figure 2013125144
Figure 2013125144

なお、式(3)において、P(w|wn−1)は、ケースm(いずれか単独の言語モデルあるいは重み付け線形和)における、単語wn−1から単語wへの接続確率であり、前述の単語終端N−gramテーブルがその確率値を保持している。 In Expression (3), P m (w n | w n−1 ) is a connection probability from the word w n −1 to the word w n in the case m (any single language model or weighted linear sum). And the above-mentioned word end N-gram table holds the probability value.

なお、ここでは一つの直前単語から次単語への2単語連鎖の出現確率、すなわちバイグラム確率の最大値について説明したが、さらにもう一つ前の直前単語も条件に加えた、3単語連鎖の出現確率、すなわちトライグラム確率の最大値や、直前単語によらずに1単語単独の出現確率、すなわちユニグラム確率の最大値等を用いるようにしても良い。これら、トライグラム確率やユニグラム確率等を用いる場合にも、単語内N−gramテーブルが保持する値の算出方法は、同様である。   In this example, the appearance probability of the two-word chain from one previous word to the next word, that is, the maximum value of the bigram probability has been described. However, the appearance of the three-word chain including the previous previous word as a condition is also described. The probability, that is, the maximum value of the trigram probability, the appearance probability of a single word independently of the immediately preceding word, that is, the maximum value of the unigram probability may be used. Even when these trigram probabilities, unigram probabilities, and the like are used, the method for calculating the value held in the intra-word N-gram table is the same.

例えば、ケース1(図4に示す例では言語モデル1のみを使用)において、直前単語がwであるとき、音素ノードnの共有単語の集合はs={w,w,w,w}であるので、直前単語w−次単語wの接続確率0.0と、直前単語w−次単語wの接続確率0.8と、直前単語w−次単語w接続確率0.0と、直前単語w−次単語wの接続確率0.2の最大値は0.8である。よって、直前単語w−音素ノードnの確率値は0.8である。他の直前単語、および他の音素ノードについても同様である。 For example, in case 1 (only language model 1 is used in the example shown in FIG. 4), when the immediately preceding word is w 1 , the set of shared words of phoneme node n 1 is s 1 = {w 1 , w 2 , w 3, since w 4 is a}, previous word w 1 - a next word w 1 of the connection probability 0.0, previous word w 1 - a connection probability 0.8 follows the word w 2, immediately before the word w 1 - next word and w 3 connection probability 0.0, previous word w 1 - maximum value of the connection probability 0.2 follows the word w 4 is 0.8. Therefore, the probability value of the immediately preceding word w 1 -phoneme node n 1 is 0.8. The same applies to other immediately preceding words and other phoneme nodes.

このような単語内N−gramテーブルを用いることにより、音声認識処理を行う場合に、単語終端まで言語モデルの適用(対数言語スコアの加算)を遅らせるのではなく、探索途中の各音素ノードで、その音素を共有する単語への連鎖出現確率の最大値に基づいて、可能性の低い単語の探索を打ち切る(即ち、探索空間における枝刈りを行なう)ことが可能となる。つまり、その音素を共有する単語への連鎖出現確率の最大値が、所定の閾値よりも低い場合には、当該共有単語集合のどれもが、正解単語である可能性が閾値よりも低いため、安全に探索空間の枝刈りを行なうことができる。   By using such an intra-word N-gram table, when performing speech recognition processing, instead of delaying the application of the language model (addition of logarithmic language score) to the end of the word, at each phoneme node during the search, Based on the maximum value of the chain appearance probability for the words that share the phoneme, it is possible to terminate the search for the word with low possibility (that is, pruning in the search space). In other words, when the maximum value of the chain appearance probability for a word that shares the phoneme is lower than a predetermined threshold, the possibility that any of the shared word sets is a correct word is lower than the threshold. The search space can be safely pruned.

なお、単語内N−gramテーブルに、可能性のある全ての音素ノードについて予め確率値を書き込んでおいても良いが、データ量が膨大になることを避けるために、次のような工夫をしても良い。第1の工夫は、音素の列のツリーにおいてそれ以上分岐が起きない音素ノード以降(つまり、その音素ノードに共通する単語の発音が1種類のみの場合)では音素ノード間で確率値が不変なので確率値の登録を省略する。第2の工夫は、計算頻度の高い、単語始端に近い音素ノードに関してのみ確率値を事前計算して単語内N−gramテーブルに登録しておく。そして、計算頻度の低い、単語終端に近い音素ノードについては認識時に必要になった時だけ確率値を計算する。   Although it is possible to write probability values for all possible phoneme nodes in the intra-word N-gram table in advance, in order to avoid an enormous amount of data, the following measures are taken. May be. The first contrivance is that the probability value does not change between phoneme nodes after the phoneme node where no further branching occurs in the tree of phoneme strings (that is, when there is only one type of word pronunciation common to the phoneme node). Omit registration of probability values. The second idea is to pre-calculate a probability value only for a phoneme node close to the beginning of a word having a high calculation frequency and register it in the intra-word N-gram table. Then, for a phoneme node with a low calculation frequency and close to the word end, a probability value is calculated only when it is necessary for recognition.

次に、音声認識装置1による処理の手順について説明する。
図7は、音声認識装置1による動作の手順を示すフローチャートである。
Next, a procedure of processing by the voice recognition device 1 will be described.
FIG. 7 is a flowchart showing an operation procedure performed by the speech recognition apparatus 1.

まず、ステップS1において、統合辞書管理部8が、言語モデル記憶部6−1〜6−Mから各言語モデルのデータを読み出すとともに、発音辞書記憶部7−1〜7−Mから発音辞書データを読み出す。また、統合辞書管理部8は、音響モデル記憶部9から音響モデルのデータを読み出す。そして、統合辞書管理部8は、音素ノードの木構造を展開するなどの処理により、統合辞書データを作成し、統合辞書記憶部4にそのデータを書き込む。このときに作成されるデータとしては、図2および図3で示した音素ノードの木構造とそれに関連付けられた単語表記ノードのデータ、図5で示した単語終端N−gramテーブル、そして、図6で示した単語内N−gramテーブルが含まれる。統合辞書管理部8による統合辞書作成処理の詳細については、後述する。   First, in step S1, the integrated dictionary management unit 8 reads the data of each language model from the language model storage units 6-1 to 6-M, and the pronunciation dictionary data from the pronunciation dictionary storage units 7-1 to 7-M. read out. The integrated dictionary management unit 8 reads out acoustic model data from the acoustic model storage unit 9. Then, the integrated dictionary management unit 8 creates integrated dictionary data by processing such as expanding the tree structure of phoneme nodes, and writes the data in the integrated dictionary storage unit 4. Data generated at this time includes the tree structure of the phoneme node shown in FIGS. 2 and 3 and the data of the word notation node associated therewith, the word end N-gram table shown in FIG. 5, and FIG. In-word N-gram table indicated by. Details of the integrated dictionary creation processing by the integrated dictionary management unit 8 will be described later.

次に、ステップS2において、自動設定部12が、重みベクトルの初期値として、ケース1のベクトルを使用するよう設定する。つまり、言語モデル1に対する重み係数が1.0に設定され、その他の言語モデルに対する重み係数が0.0に設定される。また、このとき、単語終端N−gramテーブルおよび単語内N−gramテーブルの制御フラグが、特定のケースを選択するように設定される。   Next, in step S <b> 2, the automatic setting unit 12 sets the case 1 vector to be used as the initial value of the weight vector. That is, the weighting factor for language model 1 is set to 1.0, and the weighting factor for other language models is set to 0.0. At this time, the control flags of the word end N-gram table and the intra-word N-gram table are set so as to select a specific case.

次に、ステップS3において、統合辞書管理部8が、重みベクトルが初期値以外の値に手動設定されているか否かを調べる。そして、重みベクトルの手動設定がある場合(ステップS3:YES)には次のステップS4に進み、手動設定がない場合(ステップS3:NO)にはステップS5に飛ぶ。   Next, in step S3, the integrated dictionary management unit 8 checks whether or not the weight vector is manually set to a value other than the initial value. If there is a manual setting of the weight vector (step S3: YES), the process proceeds to the next step S4, and if there is no manual setting (step S3: NO), the process jumps to step S5.

次に、ステップS4に進んだ場合には、統合辞書管理部8が、変更後の重みベクトルの値に従って、単語終端N−gramテーブルおよび単語内N−gramテーブルが保持する確率値を再計算し、更新する。   Next, when it progresses to step S4, the integrated dictionary management part 8 recalculates the probability value which a word end N-gram table and an intra-word N-gram table hold | maintain according to the value of the weight vector after a change. ,Update.

次に、ステップS5において、音響分析部2が、入力音声の分析を行い、音響特徴量を抽出する。具体的には、音響分析部2は、所定の時間長の入力音声に基づき、その時間長に対応して、音響特徴量の離散的な時系列を求める。またこのとき、音響分析部2は、既に述べた方法で発話始端および発話終端の検出も同時に行なう。   Next, in step S5, the acoustic analysis unit 2 analyzes the input speech and extracts acoustic feature values. Specifically, the acoustic analysis unit 2 obtains a discrete time series of acoustic feature values based on an input voice having a predetermined time length, corresponding to the time length. At this time, the acoustic analysis unit 2 also simultaneously detects the utterance start point and utterance end point by the method described above.

次に、ステップS6において、音響分析部2は、ステップS5で検出された発話始端および発話終端のタイミングに応じて、現時点での入力音声が発話間ポーズ(無音、非スピーチ)であるか否かを判定する。そして、発話間ポーズである場合(ステップS6:YES)には次のステップS7に進み、発話間ポーズでない場合(ステップS6:NO)にはステップS11に飛ぶ。   Next, in step S6, the acoustic analysis unit 2 determines whether or not the current input speech is an inter-speech pause (silence, non-speech) according to the timing of the speech start end and speech end detected in step S5. Determine. If it is a pause between utterances (step S6: YES), the process proceeds to the next step S7, and if it is not a pause between utterances (step S6: NO), the process jumps to step S11.

次に、ステップS7において、統合辞書管理部8は、前回以後、自動設定部12によって重みベクトルが自動設定されたかどうか調べる。そして、自動設定されていた場合(ステップS7:YES)にはステップS8に進み、自動設定されていなかった場合(ステップS7:NO)にはステップS9に進む。   Next, in step S7, the integrated dictionary management unit 8 checks whether or not the weight vector is automatically set by the automatic setting unit 12 after the previous time. If it is automatically set (step S7: YES), the process proceeds to step S8. If it is not automatically set (step S7: NO), the process proceeds to step S9.

次に、ステップS8に進んだ場合には、変更された重みベクトルを用いるように、使用する重みベクトルの設定を更新する。このステップの処理のあとは、ステップS10に進む。   Next, when the process proceeds to step S8, the setting of the weight vector to be used is updated so that the changed weight vector is used. After the processing in this step, the process proceeds to step S10.

次に、ステップS9に進んだ場合には、統合辞書管理部8は、前回以後、手動設定部11によって重みベクトルが設定(変更)されたかどうか調べる。そして、変更されていた場合(ステップS9:YES)にはステップS10に進み、変更されていなかった場合(ステップS9:NO)にはステップS11に飛ぶ。   Next, in step S9, the integrated dictionary management unit 8 checks whether or not the weight vector has been set (changed) by the manual setting unit 11 since the previous time. If it has been changed (step S9: YES), the process proceeds to step S10. If it has not been changed (step S9: NO), the process jumps to step S11.

次に、ステップS10に進んだ場合には、統合辞書管理部8が、変更後の重みベクトルの値に従って、単語終端N−gramテーブルおよび単語内N−gramテーブルが保持する確率値を再計算し、更新する。   Next, when it progresses to step S10, the integrated dictionary management part 8 recalculates the probability value which a word end N-gram table and an intra-word N-gram table hold | maintain according to the value of the weight vector after a change. ,Update.

そして、ステップS11において、正解単語探索部3が、音響分析部2によって得られた音響特徴量を元に、統合辞書記憶部4に記憶されている統合辞書データ(N−gramテーブルを含む)を用いて、正解単語を探索し、各正解候補のスコア(尤度)を算出する。正解単語探索部3は、例えば、単語単位の確率値の対数の時系列方向の和をスコアとして算出する。   In step S11, the correct word search unit 3 uses the integrated dictionary data (including the N-gram table) stored in the integrated dictionary storage unit 4 based on the acoustic feature amount obtained by the acoustic analysis unit 2. The correct word is searched for, and the score (likelihood) of each correct candidate is calculated. The correct word searching unit 3 calculates, for example, the sum of the logarithm of the probability value of the word unit in the time series direction as a score.

そして、ステップS12において、単語終端に達したとき、あるいは文の終端に達したとき、あるいは発話終端に達したときなど、適切なタイミングに達した場合には、正解単語探索部3は、最尤単語列を認識結果テキストとして逐次出力する。   Then, in step S12, when an appropriate timing is reached, such as when the end of the word is reached, when the end of the sentence is reached, or when the end of the utterance is reached, the correct word search unit 3 determines the maximum likelihood. A word string is sequentially output as a recognition result text.

次に、ステップS13において、音響分析部2は、入力音声の終了であるか否かを判定する。入力終了の場合(ステップS13:YES)にはこのフローチャート全体の処理を終了する。まだ入力終了ではない場合(ステップS13:NO)には、次の入力音声を分析するためにステップS5へ戻る。つまり、音声認識装置1は、入力音声が終了するまで、音声認識処理を繰り返す。   Next, in step S <b> 13, the acoustic analysis unit 2 determines whether or not the input voice is terminated. When the input is completed (step S13: YES), the process of the entire flowchart is terminated. If the input is not yet finished (step S13: NO), the process returns to step S5 to analyze the next input voice. That is, the voice recognition device 1 repeats the voice recognition process until the input voice is finished.

<正解単語探索処理の詳細>
ここで、正解単語探索部3の処理の詳細について説明する。正解単語探索部3は、上述した手順において、統合辞書記憶部4の統合辞書を探索し、探索が単語表記ノード(符号51〜60)に達した時、その単語に対応する確率値を単語終端N−gramテーブルから読み出して、その対数を取り、その単語を含む系列(正解候補)の音響スコアにその対数値を加算する。なお、確率値の対数値の系列方向の加算が、確率値の積によるスコアと同じ意味を持つことは言うまでもない。また、単語終端N−gramテーブルについての説明でも述べたように、バイグラム確率の最大値によって正解単語を探索する方法に限らず、トライグラム確率の最大値や、ユニグラム確率の最大値を用いる方法を採用しても良い。また、4以上の連鎖数のN−gramを用いても良い。
<Details of correct word search processing>
Here, the detail of the process of the correct word search part 3 is demonstrated. The correct word search unit 3 searches the integrated dictionary in the integrated dictionary storage unit 4 in the above-described procedure, and when the search reaches a word notation node (reference numerals 51 to 60), the probability value corresponding to the word is determined as the word end. The logarithm is read from the N-gram table, the logarithm is taken, and the logarithmic value is added to the acoustic score of the sequence (correct answer candidate) including the word. Needless to say, the addition of logarithmic values of probability values in the series direction has the same meaning as the score obtained by multiplying the probability values. Further, as described in the explanation of the word end N-gram table, not only a method of searching for a correct word by the maximum value of the bigram probability, but also a method of using the maximum value of the trigram probability or the maximum value of the unigram probability. It may be adopted. Further, an N-gram having a chain number of 4 or more may be used.

なお、制御フラグで「○」で示されているケース(選択されている単独の言語モデルあるいはこれらの重み付け線形和)に関して、単語終端N−gramテーブルに記載のない次単語については、次のように連鎖出現確率を扱う。即ち、当該ケースにおける語彙に、その次単語が含まれない場合にはその次単語への接続確率を0.0とする。そして、当該ケースにおける語彙に、その次単語が含まれる場合には、連鎖数がひとつ下のN−gram(つまり、トライグラムを用いている場合にはひとつ下のバイグラム。バイグラムを用いている場合にはひとつ下のユニグラム)を利用したバックオフ言語モデルの確率値を用いるようにする。   Regarding the case indicated by “◯” in the control flag (the selected single language model or the weighted linear sum thereof), the next word not described in the word end N-gram table is as follows. To handle the chain appearance probability. That is, when the next word is not included in the vocabulary in the case, the connection probability to the next word is set to 0.0. If the next word is included in the vocabulary in this case, the N-gram with the lower chain number (that is, the lower bigram when using a trigram. When the bigram is used. The probability value of the back-off language model using the lower unigram) is used.

また、正解単語探索部3は、上述した手順における探索時に、各音素ノードでは、入力音声がどの音素に近いのかを評価するため、音素ノードに関連付けされている音響モデルを用いて、仮説候補単語に対する音響スコアを算出する。正解単語探索部3は、この音響スコアP(O|W)を、下の式(4)によって算出する。   In addition, the correct word search unit 3 uses the acoustic model associated with the phoneme node to evaluate the hypothesis candidate word at each phoneme node in order to evaluate which phoneme the input speech is close to when searching in the above-described procedure. The acoustic score for is calculated. The correct word searching unit 3 calculates the acoustic score P (O | W) by the following equation (4).

Figure 2013125144
Figure 2013125144

ここでWは入力音声O中の単語列である。また、wは入力音声O中のn番目の単語である。また、Oはこのn番目の単語に対応する入力音声の音響特徴量のベクトル列(時系列)である。 Here, W is a word string in the input speech O. Wn is the nth word in the input speech O. Also, O n is the vector sequence of acoustic features of the input speech corresponding to the n-th word (time series).

また、正解単語探索部3は、単語単位だけではなく、複数単語からなるフレーズや文を音声認識するために、各単語の単語終端ノードから次単語の単語始端ノードへの遷移をたどる。これにより、正解単語探索部3は、次々に連続した単語の探索を行なうことができるようになっている。例えば、「秋の朝ね」という文発声を音声認識する際には、正解単語探索部3は、図2の単語始端ノード20から、音素ノード31〜40のそれぞれに関連付けられた音響モデルによって音響スコアの計算を行い、可能性の高い(つまり、音響スコアが所定の閾値より高い)音素ノードのみを正解候補として保持して、可能性の低い(つまり、音響スコアが所定の閾値より低い)音素ノード以降の探索を打ち切る。つまり、音素ノードの枝刈りを行なう。そして、正解単語探索部3は、音響スコアと言語スコアの和が最大となる「秋」→「の」→「朝」→「ね」という単語列を認識結果として採用することで、音声認識処理を完了する。なお、ここで言語スコアとは、単語連鎖の出現確率(単語N−gram)の対数を取った値である。   In addition, the correct word search unit 3 traces a transition from the word end node of each word to the word start node of the next word in order to recognize a phrase or sentence composed of a plurality of words, not only in word units. As a result, the correct word search unit 3 can search for consecutive words one after another. For example, when recognizing the utterance of the sentence “Autumn in the morning”, the correct word searching unit 3 performs acoustic analysis using the acoustic model associated with each of the phoneme nodes 31 to 40 from the word start node 20 of FIG. The score calculation is performed, and only phoneme nodes having high possibility (that is, acoustic score higher than a predetermined threshold) are stored as correct answer candidates, and phonemes having low possibility (that is, acoustic score is lower than the predetermined threshold) are stored. Abandon the search after the node. That is, the phoneme node is pruned. Then, the correct word search unit 3 adopts the word sequence of “autumn” → “no” → “morning” → “ne”, which maximizes the sum of the acoustic score and the language score, as a speech recognition process. To complete. Here, the language score is a value obtained by taking the logarithm of the word chain appearance probability (word N-gram).

正解単語探索部3は、音素を共有する単語への連鎖出現確率の最大値を保持する単語内N−gramテーブルを参照することにより、上記のような探索空間の枝刈りを行なうことができる。言い換えれば、正解単語探索部3は、単語内確率値が所定閾値より低い場合には対応する部分音素列を共有する単語表記データを探索対象から除外する。   The correct word search unit 3 can perform pruning of the search space as described above by referring to the intra-word N-gram table that holds the maximum value of the chain appearance probability for words that share phonemes. In other words, when the intra-word probability value is lower than the predetermined threshold, the correct word search unit 3 excludes the word notation data sharing the corresponding partial phoneme string from the search target.

つまり、単語終端まで言語モデルの適用(対数言語スコアの加算)を遅らせるのではなく、探索途中の各音素ノードで、その音素を共有する単語への連鎖出現確率の最大値に基づいて、可能性の低い単語の探索を打ち切ることが可能となる。言い換えれば、正解単語探索部3は、単語終端まで言語モデルの適用(対数言語スコアの加算)を遅らせるのではなく、探索途中の各音素ノードで、その音素を共有する単語への連鎖出現確率の最大値を仮に加算(言語スコアを先読み)する。   In other words, instead of delaying the application of the language model (adding the logarithmic language score) to the end of the word, the possibility is based on the maximum value of the chain appearance probability for each word sharing the phoneme at each phoneme node in the search. It is possible to abort the search for low words. In other words, the correct word search unit 3 does not delay the application of the language model (addition of the logarithmic language score) until the end of the word, but the chain appearance probability of the word sharing the phoneme at each phoneme node in the search. Temporarily add the maximum value (pre-read language score).

<統合辞書管理処理の詳細>
次に、統合辞書管理部8の処理の詳細について説明する。統合辞書管理部8は、初期(図7のステップS1)において、M個の言語モデルおよびそれらに対応するM個の発音辞書を順次読み込み、木構造に展開し、図2および図3で示した統合辞書を生成する。また、それらM個の言語モデルに対応して、さらにこれらのM個の言語モデルの重み付け線形和のケースに対応して、単語終端N−gramテーブルおよび単語内N−gramテーブルを生成する。
<Details of integrated dictionary management processing>
Next, details of the processing of the integrated dictionary management unit 8 will be described. In the initial stage (step S1 in FIG. 7), the integrated dictionary management unit 8 sequentially reads M language models and M pronunciation dictionaries corresponding to them and expands them into a tree structure, as shown in FIG. 2 and FIG. Generate an integrated dictionary. A word end N-gram table and an intra-word N-gram table are generated corresponding to these M language models and further corresponding to the case of the weighted linear sum of these M language models.

このとき、統合辞書管理部8は、M個の言語モデル間で、共通の単語表記による単語や、共通の音素列(つまり、同一の発音)による単語が含まれる場合には、これらを重複して音素列の木構造に展開することを行なわず、共通の音素列間で木構造のデータを共用できるようにする。具体的手順の例として、統合辞書管理部8は、例えば言語モデル1の語彙の全単語を木構造に展開し終えた後で、言語モデル2も中に、同一の単語表記や同一の発音(音素列)の単語を含む場合には、これらを再度別ノードとして展開することをしない。つまり、同一の単語表記が言語モデル1と言語モデル2の両方に存在する場合には、既存の言語モデル1用に作成した単語表記ノードから関連付けられている先の、単語終端N−gramテーブルのエントリーに対応させて、言語モデル2(ケース2)用の確率値を書き込む。また、同一の発音で新たな単語表記が言語モデル2の中に存在した場合には、言語モデル1用に作成した音素列のネットワークをそのまま用いて、それに関連付けられた単語表記ノードのみを新たに作成する。統合辞書管理部8は、言語モデル3以後についても同様の方法で、統合辞書データを作成していく。   At this time, the integrated dictionary management unit 8 overlaps the M language models when a word with a common word notation or a word with a common phoneme string (that is, the same pronunciation) is included. Thus, the tree structure data can be shared among the common phoneme strings without expanding into the tree structure of the phoneme strings. As an example of a specific procedure, the integrated dictionary management unit 8, for example, finishes expanding all the words in the vocabulary of the language model 1 into a tree structure, and then uses the same word notation and the same pronunciation ( Phoneme strings) are not expanded again as separate nodes. That is, when the same word notation exists in both the language model 1 and the language model 2, the word end N-gram table associated with the word notation node created for the existing language model 1 is used. Corresponding to the entry, the probability value for the language model 2 (case 2) is written. If a new word notation with the same pronunciation is present in the language model 2, the phoneme string network created for the language model 1 is used as it is, and only the word notation node associated therewith is newly added. create. The integrated dictionary management unit 8 creates integrated dictionary data for the language model 3 and later in the same manner.

言い換えれば、統合辞書管理部8は、複数の言語モデルの各々に対応して、言語モデル記憶部6−1〜6−Mから単語表記データと単語出現確率値とを取得するとともに、発音辞書記憶部7−1〜7−Mから単語表記データの各々に対応する発音データを取得する。そして、統合辞書管理部8は、単語表記データごとの発音データを音素列データの木構造に展開して統合辞書記憶部4に書き込む。そして、統合辞書管理部8は、展開された木構造の音素列データに関連付けて単語表記データを統合辞書記憶部4に書き込む。そして、統合辞書管理部8は、単語表記データに関連付けた単語出現確率値を言語モデルに対応させて統合辞書記憶部4の単語終端N−gramテーブルに書き込む。但し、統合辞書管理部8は、言語モデル間で単語表記が共通の単語が存在する場合には単一の単語表記データ(すなわち、単一のメモリ領域だけを占める)に関連付けるように言語モデルごとの単語出現確率値を単語終端N−gramテーブルに書き込み、言語モデル間で発音データ(即ち、音素列)が共通の単語が存在する場合には単一の音素列データ(つまり、単一のメモリ領域だけを占める音素ノードの連鎖)に関連付けるように言語モデルごとの単語出現確率値を単語終端N−gramテーブルに書き込む。   In other words, the integrated dictionary management unit 8 acquires word notation data and word appearance probability values from the language model storage units 6-1 to 6-M corresponding to each of the plurality of language models, and also stores the pronunciation dictionary. The pronunciation data corresponding to each of the word notation data is acquired from the sections 7-1 to 7-M. Then, the integrated dictionary management unit 8 expands the pronunciation data for each word notation data into a tree structure of phoneme string data and writes it in the integrated dictionary storage unit 4. Then, the integrated dictionary management unit 8 writes the word notation data in the integrated dictionary storage unit 4 in association with the expanded phoneme string data of the tree structure. Then, the integrated dictionary management unit 8 writes the word appearance probability value associated with the word notation data in the word end N-gram table of the integrated dictionary storage unit 4 in association with the language model. However, the integrated dictionary management unit 8 is configured to associate each word model with a single word expression data (that is, occupy only a single memory area) when a word having a common word expression exists between the language models. Is written in the word end N-gram table, and there is a single phoneme string data (i.e., a single memory) when there is a word with common pronunciation data (i.e., phoneme string) between language models. The word appearance probability value for each language model is written in the word end N-gram table so as to be related to the chain of phoneme nodes occupying only the region.

これにより、統合辞書管理部8は、言語モデルごとの木構造をメモリ上に展開する必要がなく、冗長性を廃した木構造を有する辞書に、複数の言語モデルを静的に統合することが可能となる。つまり、複数の言語モデルを切り替えて使用しながらも、消費するメモリ量を大幅に削減することが可能となり、装置のハードウェア規模を削減することが出来る。   As a result, the integrated dictionary management unit 8 does not need to expand the tree structure for each language model on the memory, and can statically integrate a plurality of language models into a dictionary having a tree structure that eliminates redundancy. It becomes possible. In other words, it is possible to significantly reduce the amount of memory consumed while switching between a plurality of language models, and to reduce the hardware scale of the apparatus.

重みベクトル記憶部10に記憶されている重みベクトルが手動設定部11または自動設定部12によって変更された場合には、統合辞書管理部8は、必要に応じて単語終端N−gramテーブルおよび単語内N−gramテーブルに記憶されている確率値を再計算して更新する。図7のステップS4およびS10における処理がこれに相当する。図4に示した、ケース1およびケース2の重みベクトルはその値が不変であるので、ベクトル値そのものの変更によって単語終端N−gramテーブルおよび単語内N−gramテーブルの更新が必要になることはない。単語終端N−gramテーブルおよび単語内N−gramテーブルにおける制御フラグで選択を切り替えるだけで、ケースの切り替えを行うことができる。一方で、ケースXでは重みベクトルの値が変更され得るため、変更された場合には、統合辞書管理部8が、変更後のベクトル値を用いて単語終端N−gramテーブルおよび単語内N−gramテーブル内の確率値を再計算する。   If the weight vector stored in the weight vector storage unit 10 has been changed by the manual setting unit 11 or the automatic setting unit 12, the integrated dictionary management unit 8 may change the word end N-gram table and the word The probability value stored in the N-gram table is recalculated and updated. The processing in steps S4 and S10 in FIG. 7 corresponds to this. Since the weight vectors of case 1 and case 2 shown in FIG. 4 are unchanged, it is necessary to update the word end N-gram table and the intra-word N-gram table by changing the vector value itself. Absent. Cases can be switched simply by switching the selection with the control flags in the word end N-gram table and the intra-word N-gram table. On the other hand, since the value of the weight vector can be changed in case X, when it is changed, the integrated dictionary management unit 8 uses the changed vector value to change the word end N-gram table and the intra-word N-gram. Recalculate the probability values in the table.

言い換えれば、統合辞書管理部8は、単語終端N−gramテーブルおよび単語内N−gramテーブルにおける、複数の言語モデルに対応する単語出現確率値を、重みベクトル記憶部10から取得した重み値を用いて加重平均することにより、複数の言語モデルを合成して得られる新たな言語モデル(ケースXに相当)の単語出現確率値を算出し、算出された単語出現確率値で単語終端N−gramテーブルおよび単語内N−gramテーブルを更新する、なお、このテーブル更新のきっかけとなるのは、初期において重みベクトルが設定されていたとき、または発話間ポーズにおいて重みベクトルが変更されていたときである。   In other words, the integrated dictionary management unit 8 uses the weight values obtained from the weight vector storage unit 10 for word appearance probability values corresponding to a plurality of language models in the word end N-gram table and the intra-word N-gram table. By calculating the weighted average, a word appearance probability value of a new language model (corresponding to case X) obtained by combining a plurality of language models is calculated, and the word end N-gram table is calculated using the calculated word appearance probability value. The intra-word N-gram table is updated. This table update is triggered when the weight vector is initially set or when the weight vector is changed during the utterance pause.

図7のステップS4は、入力音声の読み込みを開始する前の処理であるため、テーブル更新に関する特別の時間制約はない。一方で、ステップS10の処理は、発話間ポーズ中の処理であるため、次の発話始端の前にテーブル更新処理を終える必要がある。そのため、統合辞書管理部8は、発話間ポーズの時間内に確率値の再計算が完了しない場合には、そのときには単語終端N−gramテーブルおよび単語内N−gramテーブルを更新せず、バックグラウンド処理で確率値の再計算を継続する。この場合、次の発話では、正解単語探索部3は、更新前の単語終端N-gramテーブルおよび単語内N-gramテーブルの値をそのまま利用して正解単語を探索することとなる。また、次の発話間ポーズのときに、統合辞書管理部8は、再計算された確率値を用いてこれらのテーブルを更新する。このような制御により、音声認識処理が中断あるいは遅滞されることを防ぐことができる。   Step S4 in FIG. 7 is a process before starting the reading of the input voice, and therefore there is no special time constraint regarding the table update. On the other hand, since the process of step S10 is a process during pause between utterances, it is necessary to finish the table update process before the start of the next utterance. Therefore, if the recalculation of the probability value is not completed within the time between pauses, the integrated dictionary management unit 8 does not update the word end N-gram table and the intra-word N-gram table at that time, Continue recalculating probability values in the process. In this case, in the next utterance, the correct word search unit 3 searches for the correct word using the values of the word end N-gram table and the intra-word N-gram table before update as they are. In the next utterance pause, the integrated dictionary management unit 8 updates these tables using the recalculated probability values. Such control can prevent the speech recognition processing from being interrupted or delayed.

以上述べた音声認識装置1の構成により、次の効果が得られる。
複数の言語モデルを切り替えたり、重みベクトルによる線形和を取って合成したりするためことができるため、複数の話題にまたがる入力音声に対しても認識精度が上がる。
複数の言語モデルを統合する際に、音素列および単語に関する情報が重複することなくメモリ上に展開するため、メモリ消費を抑制することができる。ひいては、装置規模を小さくすることができる。
また、制御フラグの切り替えのみで、認識に使用する言語モデルを切り替えることができるため、認識処理中にオンラインで迅速に話題の変化に追従できる。
また、単語内N−gramテーブルを用いた探索を行なう際に、可能性の低い候補を枝刈り処理できるため、正解単語の探索のための計算量を減らすことができる。
このように、使用メモリ量を抑えつつ、リアルタイムに、高精度な音声認識を実現できる。
The following effects can be obtained by the configuration of the speech recognition apparatus 1 described above.
Since it is possible to switch between a plurality of language models and to synthesize them by taking a linear sum of weight vectors, the recognition accuracy is improved even for input speech over a plurality of topics.
When integrating a plurality of language models, information about phoneme strings and words is developed on the memory without duplication, so that memory consumption can be suppressed. As a result, the apparatus scale can be reduced.
Moreover, since the language model used for recognition can be switched only by switching the control flag, it is possible to quickly follow changes in the topic online during the recognition process.
Moreover, when searching using the intra-word N-gram table, candidates with low possibility can be pruned, so that the amount of calculation for searching for correct words can be reduced.
In this way, highly accurate speech recognition can be realized in real time while reducing the amount of memory used.

なお、上述した実施形態における音声認識装置の機能を、コンピューターで実現するようにしても良い。その場合、各機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。   Note that the functions of the speech recognition apparatus in the above-described embodiment may be realized by a computer. In that case, a program for realizing each function may be recorded on a computer-readable recording medium, and the program recorded on the recording medium may be read into a computer system and executed. Here, the “computer system” includes an OS and hardware such as peripheral devices. The “computer-readable recording medium” refers to a storage device such as a flexible disk, a magneto-optical disk, a portable medium such as a ROM and a CD-ROM, and a hard disk incorporated in a computer system. Furthermore, a “computer-readable recording medium” dynamically holds a program for a short time, like a communication line when transmitting a program via a network such as the Internet or a communication line such as a telephone line. In this case, a volatile memory inside a computer system serving as a server or a client in that case may be included, and a program that holds a program for a certain period of time. The program may be a program for realizing a part of the above-described functions, or may be a program that can realize the above-described functions in combination with a program already recorded in a computer system.

以上、実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。
例えば、重み付き線形結合による言語モデルを使用する場合、単語連鎖の出現確率に対する重みベクトルが変更されると、統合辞書管理部8は、入力音声に対する前記正解単語探索において探索対象となった木構造化単語辞書上の単語内音素および単語終端のみについて、単語終端N−gramテーブルおよび単語内N−gramテーブルの出現確率の再計算および更新を行い、他の単語内音素および単語終端については更新を行なわないようにする。これにより、重みベクトルの変更に対してオンラインで迅速に対応でき、認識処理の遅延や中断を防ぐことができる。
Although the embodiment has been described above, the present invention can also be implemented in the following modified example.
For example, in the case of using a language model based on weighted linear combination, when the weight vector for the word chain appearance probability is changed, the integrated dictionary management unit 8 causes the tree structure to be searched in the correct word search for the input speech. The word end N-gram table and the intra-word N-gram table are recalculated and updated only for the intra-word phonemes and the end words in the generalized word dictionary, and the other intra-word phonemes and end words are updated. Do not do it. Thereby, it is possible to quickly respond to the change of the weight vector on-line and to prevent the recognition process from being delayed or interrupted.

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。   The embodiment of the present invention has been described in detail with reference to the drawings. However, the specific configuration is not limited to this embodiment, and includes designs and the like that do not depart from the gist of the present invention.

本発明は、音声認識処理全般に利用できる。例えば、放送番組の字幕データ作成に利用することができる。特に、話題が時間とともに推移していくような音声の認識処理に利用することができる。   The present invention can be used for voice recognition processing in general. For example, it can be used to create caption data for a broadcast program. In particular, it can be used for speech recognition processing in which the topic changes with time.

1 音声認識装置
2 音響分析部
3 正解単語探索部
4 統合辞書記憶部
6−1,6−2,・・・,6−M 言語モデル記憶部
7−1,7−2,・・・,7−M 発音辞書記憶部
8 統合辞書管理部
9 音響モデル記憶部
10 重みベクトル記憶部(重み値記憶部)
11 手動設定部
12 自動設定部
20,21 単語始端ノード
31〜43 音素ノード
51〜61 単語表記ノード
70,71 単語終端ノード
DESCRIPTION OF SYMBOLS 1 Speech recognition apparatus 2 Acoustic analysis part 3 Correct word search part 4 Integrated dictionary memory | storage parts 6-1, 6-2, ..., 6-M language model memory | storage parts 7-1, 7-2, ..., 7 -M Pronunciation dictionary storage unit 8 Integrated dictionary management unit 9 Acoustic model storage unit 10 Weight vector storage unit (weight value storage unit)
11 Manual setting unit 12 Automatic setting unit 20, 21 Word start node 31-43 Phoneme node 51-61 Word notation node 70, 71 Word end node

Claims (6)

音響特徴量に関する統計量である音響モデルに関連付けられた音素の列である音素列を表わす音素列データと、前記音素列データに関連付けられた単語表記を表わす単語表記データと、前記単語表記データに関連付けられ前記単語表記の出現確率を表わす単語出現確率値を複数の言語モデルの各々に対応して保持する単語出現確率値データとを記憶する統合辞書記憶部と、
入力音声を分析して音響特徴量を出力する音響分析部と、
前記音響分析部から出力された前記音響特徴量と前記音響モデルとの関係により前記音素列ごとの音響スコアを算出するとともに、前記音素列に対応する前記単語表記データについて所定言語モデルに対応する前記単語出現確率値を前記統合辞書記憶部から取得して前記単語表記ごとの言語スコアを算出し、算出された前記音響スコアおよび前記言語スコアにより、正解の単語表記を探索して出力する正解単語探索部と、
を具備することを特徴とする音声認識装置。
Phoneme string data representing a phoneme string that is a string of phonemes associated with an acoustic model that is a statistic relating to an acoustic feature, word notation data representing a word notation associated with the phoneme string data, and the word notation data An integrated dictionary storage unit that stores word appearance probability value data that holds word appearance probability values that are associated and represent word appearance probability values corresponding to each of a plurality of language models;
An acoustic analyzer that analyzes input speech and outputs acoustic features;
The acoustic score for each phoneme string is calculated based on the relationship between the acoustic feature value output from the acoustic analysis unit and the acoustic model, and the word notation data corresponding to the phoneme string corresponds to a predetermined language model. Correct word search for obtaining a word appearance probability value from the integrated dictionary storage unit, calculating a language score for each word notation, and searching for and outputting a correct word notation based on the calculated acoustic score and the language score And
A speech recognition apparatus comprising:
請求項1に記載の音声認識装置であって、
前記統合辞書記憶部が記憶する前記単語出現確率値データは、どの言語モデルが選択されているかを表わす言語モデル選択制御データを含むものであり、
設定に応じて前記言語モデル選択制御データを更新する統合辞書管理部を具備し、
前記正解単語探索部は、前記言語モデル選択制御データによって選択されていることが示されている前記所定言語モデルに対応する前記単語出現確率値を前記統合辞書記憶部から取得して前記単語表記ごとの言語スコアを算出する、
ことを特徴とする音声認識装置。
The speech recognition device according to claim 1,
The word appearance probability value data stored in the integrated dictionary storage unit includes language model selection control data indicating which language model is selected,
An integrated dictionary management unit that updates the language model selection control data according to settings,
The correct word search unit obtains the word appearance probability value corresponding to the predetermined language model indicated to be selected by the language model selection control data from the integrated dictionary storage unit, and stores each word notation Calculate the language score of
A speech recognition apparatus characterized by that.
請求項2に記載の音声認識装置であって、
言語モデルごとの重み値を記憶する重み値記憶部を具備し、
前記統合辞書管理部は、前記単語出現確率値データにおける複数の言語モデルに対応する前記単語出現確率値を、前記重み値記憶部から取得した前記重み値で加重平均することにより、前記複数の言語モデルを合成して得られる新たな単語出現確率値を算出し、算出された前記単語出現確率値で前記単語出現確率値データを更新する、
ことを特徴とする音声認識装置。
The speech recognition device according to claim 2,
A weight value storage unit for storing a weight value for each language model;
The integrated dictionary management unit performs weighted averaging of the word appearance probability values corresponding to a plurality of language models in the word appearance probability value data with the weight values acquired from the weight value storage unit, thereby the plurality of languages Calculating a new word appearance probability value obtained by synthesizing the model, and updating the word appearance probability value data with the calculated word appearance probability value;
A speech recognition apparatus characterized by that.
請求項2または3のいずれか一項に記載の音声認識装置であって、
前記統合辞書管理部は、
前記複数の言語モデルの各々に対応して、前記単語表記データと前記単語出現確率値と前記単語表記データの各々に対応する発音データとを取得し、
前記単語表記データごとに前記発音データを前記音素列データに展開して前記統合辞書記憶部に書き込み、
展開された前記音素列データに関連付けて前記単語表記データを前記統合辞書記憶部に書き込み、
前記単語表記データに関連付けた前記単語出現確率値を前記言語モデルに対応させて前記統合辞書記憶部の前記単語出現確率値データに書き込むとともに、
言語モデル間で単語表記が共通の単語が存在する場合には単一の前記単語表記データに関連付けるように言語モデルごとの前記単語出現確率値を前記単語出現確率値データに書き込み、言語モデル間で発音データが共通の単語が存在する場合には単一の音素列データに関連付けるように言語モデルごとの前記単語出現確率値を前記単語出現確率値データに書き込む、
ことを特徴とする音声認識装置。
The speech recognition device according to any one of claims 2 and 3,
The integrated dictionary management unit
Corresponding to each of the plurality of language models, the word notation data, the word appearance probability value, and pronunciation data corresponding to each of the word notation data,
For each word notation data, the pronunciation data is expanded into the phoneme string data and written to the integrated dictionary storage unit,
Write the word notation data in the integrated dictionary storage unit in association with the expanded phoneme string data,
The word appearance probability value associated with the word notation data is written in the word appearance probability value data of the integrated dictionary storage unit in association with the language model,
When there is a word having a common word notation among language models, the word appearance probability value for each language model is written in the word appearance probability value data so as to be associated with a single word notation data, When there is a common word in pronunciation data, the word appearance probability value for each language model is written to the word appearance probability value data so as to be associated with a single phoneme string data.
A speech recognition apparatus characterized by that.
請求項1から4までのいずれか一項に記載の音声認識装置であって、
前記統合辞書記憶部は、前記音素列データにおける単語始端から単語途中音素までの部分音素列に対応して、言語モデルごとに、前記部分音素列を共有する全ての前記単語表記データに関連付けられた前記単語出現確率値の最大値を、前記部分音素列に対応する単語内確率値として保持する単語内確率値データをも記憶するものであり、
前記正解単語探索部は、前記単語内確率値が所定閾値より低い場合には対応する前記部分音素列を共有する単語表記データを探索対象から除外する、
ことを特徴とする音声認識装置。
The speech recognition device according to any one of claims 1 to 4,
The integrated dictionary storage unit is associated with all the word notation data sharing the partial phoneme sequence for each language model corresponding to the partial phoneme sequence from the word start to the mid-word phoneme in the phoneme sequence data. In-word probability value data that holds the maximum value of the word appearance probability value as an in-word probability value corresponding to the partial phoneme sequence, is also stored.
The correct word search unit excludes word notation data sharing the corresponding partial phoneme sequence from search targets when the intra-word probability value is lower than a predetermined threshold,
A speech recognition apparatus characterized by that.
音響特徴量に関する統計量である音響モデルに関連付けられた音素の列である音素列を表わす音素列データと、前記音素列データに関連付けられた単語表記を表わす単語表記データと、前記単語表記データに関連付けられ前記単語表記の出現確率を表わす単語出現確率値を複数の言語モデルの各々に対応して保持する単語出現確率値データとを記憶する統合辞書記憶部と、
入力音声を分析して音響特徴量を出力する音響分析部と、
前記音響分析部から出力された前記音響特徴量を前記音響モデルとの関係により前記音素列ごとの音響スコアを算出するとともに、前記音素列に対応する前記単語表記データについての所定の言語モデルに対応する前記単語出現確率値データを前記統合辞書記憶部から取得して前記単語表記ごとの言語スコアを算出し、算出された前記音響スコアおよび前記言語スコアにより、正解の単語表記を探索して出力する正解単語探索部と、
を具備する音声認識装置としてコンピューターを機能させるためのプログラム。
Phoneme string data representing a phoneme string that is a string of phonemes associated with an acoustic model that is a statistic relating to an acoustic feature, word notation data representing a word notation associated with the phoneme string data, and the word notation data An integrated dictionary storage unit that stores word appearance probability value data that holds word appearance probability values that are associated and represent word appearance probability values corresponding to each of a plurality of language models;
An acoustic analyzer that analyzes input speech and outputs acoustic features;
The acoustic feature amount output from the acoustic analysis unit calculates an acoustic score for each phoneme string according to the relationship with the acoustic model, and corresponds to a predetermined language model for the word notation data corresponding to the phoneme string The word appearance probability value data to be obtained is obtained from the integrated dictionary storage unit, a language score is calculated for each word notation, and a correct word notation is searched and output based on the calculated acoustic score and the language score. A correct word search unit;
A program for causing a computer to function as a speech recognition apparatus.
JP2011273754A 2011-12-14 2011-12-14 Speech recognition device and program thereof Pending JP2013125144A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011273754A JP2013125144A (en) 2011-12-14 2011-12-14 Speech recognition device and program thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011273754A JP2013125144A (en) 2011-12-14 2011-12-14 Speech recognition device and program thereof

Publications (1)

Publication Number Publication Date
JP2013125144A true JP2013125144A (en) 2013-06-24

Family

ID=48776412

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011273754A Pending JP2013125144A (en) 2011-12-14 2011-12-14 Speech recognition device and program thereof

Country Status (1)

Country Link
JP (1) JP2013125144A (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017527846A (en) * 2015-04-16 2017-09-21 三菱電機株式会社 Speech recognition device and rescoring device
CN110795927A (en) * 2019-10-18 2020-02-14 北京声智科技有限公司 Method and device for reading n-gram language model, electronic equipment and storage medium
JP2020086437A (en) * 2018-11-21 2020-06-04 三星電子株式会社Samsung Electronics Co.,Ltd. Voice recognition method and voice recognition device
JP2022503255A (en) * 2019-09-09 2022-01-12 北京小米移動軟件有限公司 Voice information processing methods, devices, programs and recording media
JP2022509880A (en) * 2018-12-03 2022-01-24 グーグル エルエルシー Voice input processing
US11557286B2 (en) 2019-08-05 2023-01-17 Samsung Electronics Co., Ltd. Speech recognition method and apparatus

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017527846A (en) * 2015-04-16 2017-09-21 三菱電機株式会社 Speech recognition device and rescoring device
CN111292728B (en) * 2018-11-21 2024-05-28 三星电子株式会社 Speech recognition method and device
JP2020086437A (en) * 2018-11-21 2020-06-04 三星電子株式会社Samsung Electronics Co.,Ltd. Voice recognition method and voice recognition device
CN111292728A (en) * 2018-11-21 2020-06-16 三星电子株式会社 Speech recognition method and apparatus
JP7452968B2 (en) 2018-11-21 2024-03-19 三星電子株式会社 Speech recognition method and speech recognition device
US11935516B2 (en) 2018-11-21 2024-03-19 Samsung Electronics Co., Ltd. Speech recognition method and appratus using weighted scores
JP7230205B2 (en) 2018-12-03 2023-02-28 グーグル エルエルシー voice input processing
JP2022509880A (en) * 2018-12-03 2022-01-24 グーグル エルエルシー Voice input processing
US11557286B2 (en) 2019-08-05 2023-01-17 Samsung Electronics Co., Ltd. Speech recognition method and apparatus
US11955119B2 (en) 2019-08-05 2024-04-09 Samsung Electronics Co., Ltd. Speech recognition method and apparatus
JP7116088B2 (en) 2019-09-09 2022-08-09 北京小米移動軟件有限公司 Speech information processing method, device, program and recording medium
US11270693B2 (en) 2019-09-09 2022-03-08 Beijing Xiaomi Mobile Software Co., Ltd. Speech information processing method, device and storage medium
JP2022503255A (en) * 2019-09-09 2022-01-12 北京小米移動軟件有限公司 Voice information processing methods, devices, programs and recording media
CN110795927B (en) * 2019-10-18 2023-11-21 北京声智科技有限公司 n-gram language model reading method, device, electronic equipment and storage medium
CN110795927A (en) * 2019-10-18 2020-02-14 北京声智科技有限公司 Method and device for reading n-gram language model, electronic equipment and storage medium

Similar Documents

Publication Publication Date Title
US11545142B2 (en) Using context information with end-to-end models for speech recognition
US9934777B1 (en) Customized speech processing language models
US11270687B2 (en) Phoneme-based contextualization for cross-lingual speech recognition in end-to-end models
JP5172021B2 (en) Fit automatic speech recognition acoustic model
US5949961A (en) Word syllabification in speech synthesis system
Sainath et al. No need for a lexicon? evaluating the value of the pronunciation lexica in end-to-end models
EP4018437B1 (en) Optimizing a keyword spotting system
CN110675855A (en) Voice recognition method, electronic equipment and computer readable storage medium
JP2002258890A (en) Speech recognizer, computer system, speech recognition method, program and recording medium
US10515637B1 (en) Dynamic speech processing
JPWO2007097176A1 (en) Speech recognition dictionary creation support system, speech recognition dictionary creation support method, and speech recognition dictionary creation support program
KR20040076035A (en) Method and apparatus for speech recognition using phone connection information
JP6051004B2 (en) Speech recognition apparatus, error correction model learning method, and program
JP2013125144A (en) Speech recognition device and program thereof
Hu et al. Phoneme-based contextualization for cross-lingual speech recognition in end-to-end models
JP6031316B2 (en) Speech recognition apparatus, error correction model learning method, and program
CN112489638B (en) Voice recognition method, device, equipment and storage medium
Pellegrini et al. Automatic word decompounding for asr in a morphologically rich language: Application to amharic
JP2008026721A (en) Speech recognizer, speech recognition method, and program for speech recognition
KR20240096898A (en) grid voice correction
JPH10247194A (en) Automatic interpretation device
JP2005250071A (en) Method and device for speech recognition, speech recognition program, and storage medium with speech recognition program stored therein
Choueiter Linguistically-motivated sub-word modeling with applications to speech recognition.
WO2014035437A1 (en) Using character describer to efficiently input ambiguous characters for smart chinese speech dictation correction
Khosravani et al. Comparison of Subword Segmentation Methods for Open-vocabulary ASR using a Difficulty Metric