JP2006126730A - Method and system for optimizing phoneme unit set - Google Patents

Method and system for optimizing phoneme unit set Download PDF

Info

Publication number
JP2006126730A
JP2006126730A JP2004318208A JP2004318208A JP2006126730A JP 2006126730 A JP2006126730 A JP 2006126730A JP 2004318208 A JP2004318208 A JP 2004318208A JP 2004318208 A JP2004318208 A JP 2004318208A JP 2006126730 A JP2006126730 A JP 2006126730A
Authority
JP
Japan
Prior art keywords
basic unit
phoneme
unit set
subsets
calculating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004318208A
Other languages
Japanese (ja)
Other versions
JP2006126730A5 (en
JP4631076B2 (en
Inventor
Jinsong Zhang
勁松 張
Soong Frank
フランク・スーン
Satoru Nakamura
哲 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2004318208A priority Critical patent/JP4631076B2/en
Publication of JP2006126730A publication Critical patent/JP2006126730A/en
Publication of JP2006126730A5 publication Critical patent/JP2006126730A5/ja
Application granted granted Critical
Publication of JP4631076B2 publication Critical patent/JP4631076B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To make it possible to optimize a phoneme basic unit set for a specific ASR (Automatic Speech Recognition) task. <P>SOLUTION: A method for minimizing the phoneme basic unit set for the specific ASR task includes the steps of; preparing (100) a basic unit set in a machine readable format; creating (102) a plurality of basic subsets by applying a leave one out method to the basic unit set; computing (104) a prescribed measure of linguistic discrimination power for each of the basic unit subsets; replacing (106, 108, 112) the basic unit set with one of the basic unit subsets that has the highest linguistic discrimination power; repeating (110) the steps of creating, computing, and replacing until a prescribed criterion is satisfied. <P>COPYRIGHT: (C)2006,JPO&NCIPI

Description

この発明は自動音声認識(Automatic Speech Recognition:ASR)に関し、特に、ASRで用いられる音素セット等の音素単位セットの最適化に関する。   The present invention relates to automatic speech recognition (ASR), and more particularly to optimization of phoneme unit sets such as phoneme sets used in ASR.

ASRはマン−マシン−インタラクションにおける必須のツールである。ASRによって、コンピュータは自然言語によるオペレータの指令を理解することができ、オペレータはコンピュータのための複雑なコマンドシステムを学ぶ必要がなくなる。   ASR is an essential tool in man-machine interaction. ASR allows the computer to understand the operator's commands in natural language, eliminating the need for the operator to learn a complex command system for the computer.

図6は基本的なASRの機構を示す。図6を参照して、ASRシステム162は、入力音声X160をデコードし、認識された(デコードされた)単語^W164(文中「^」の記号は本来文字Wの上に付されるものである。)を、以下の式166を用いて出力する。   FIG. 6 shows the basic ASR mechanism. Referring to FIG. 6, ASR system 162 decodes input speech X160, and recognized (decoded) word ^ W164 (the symbol “^” in the sentence is originally added above letter W). .) Is output using Equation 166 below.

Figure 2006126730
ここでP(X|W)は音響モデル確率を示し、P(W)は言語モデル確率を示す。これらのモデルは対象となる言語の単語を、それぞれの音素のシーケンスと共に記載するレキシコンを用いて構築される。音素は予め定められた基本音素セットのうちから選択される。
Figure 2006126730
Here, P (X | W) represents the acoustic model probability, and P (W) represents the language model probability. These models are built using lexicons that describe the words of the language of interest along with their phoneme sequences. The phonemes are selected from a predetermined basic phoneme set.

大語彙連続音声認識(Large Vocabulary Continuous Speech Recognition:LVCSR)システムでは、広く受入れられた音素セットが用いられる。   In the Large Vocabulary Continuous Speech Recognition (LVCSR) system, a widely accepted phoneme set is used.

簡単なLVCSRタスクと、より複雑なLVCSRタスクとで同じ音素セットを用いるべきか、という問題がある。数字認識タスク等の小さな語彙のタスクでは、数字等の単語が基本単位として用いられる。同様に、簡単なLVCSRタスクでは、簡単な音素セットを用いることが有利かもしれない。   There is a question of whether the same phoneme set should be used for a simple LVCSR task and a more complex LVCSR task. In small vocabulary tasks such as number recognition tasks, words such as numbers are used as basic units. Similarly, for simple LVCSR tasks, it may be advantageous to use a simple phoneme set.

ASRに関する多くの研究では、いくつかの発見的手法により決定された音素セットが試され、ASR認識性能に基づいて、1セットが選択される。   In many studies on ASR, phone sets determined by several heuristics are tried and a set is selected based on ASR recognition performance.

音素セットにより多くの単位が含まれれば、音素学的により識別性のある情報を提供するであろう。しかしこれは、より詳細な音響的差異を使用するという意味でもある。音声認識の場合、より詳細な、またはより小さい音響差異をモデル化する必要が生じると、AM(Acoustic Model:音響モデル)の頑健性が低下する傾向がある。   If more units are included in a phoneme set, it will provide phonemeologically more discriminating information. However, this also means that a more detailed acoustic difference is used. In the case of speech recognition, if more detailed or smaller acoustic differences need to be modeled, the robustness of AM (Acoustic Model) tends to decrease.

音素セットに含まれる単位数が少なければ、より大きな音素セットに比べて、各音素AMは、より多くのトレーニングデータを有することが通常である。さらに、音素の数が少ない場合、音素間での差異は多くの音素間での差異より大きくなる傾向がある。この結果、音素セットが小さくなればAMはより頑健になり得る。しかし、音素セットサイズを小さくすると別の問題が生じる。すなわち、言語空間内における識別力が失われることである。例えば、日本語の長母音「A」と短母音「a」とが一つの母音にマージされるので、単語間の混同が増加するであろう。   If the number of units included in a phoneme set is small, each phoneme AM usually has more training data than a larger phoneme set. Furthermore, when the number of phonemes is small, the difference between phonemes tends to be larger than the difference between many phonemes. As a result, AM can be more robust if the phoneme set is smaller. However, reducing the phoneme set size creates another problem. That is, the discriminating power in the language space is lost. For example, Japanese long vowel “A” and short vowel “a” are merged into one vowel, so confusion between words will increase.

この点に関して、最新のASR最適化は以下の考え方により行なわれる。上述の式を以下の形に書くことができる。   In this regard, the latest ASR optimization is performed according to the following concept. The above equation can be written in the following form:

Figure 2006126730
ここでFは基本単位シーケンスを示し、P(X|F)は頑健な音響モデル化の優勢なトピックを示し、P(F|W)は発音モデル化の注目のトピックを示し、P(W)は顕著な言語モデル化を示す。多くの場合、Fは音素セットである。
Figure 2006126730
Where F represents the basic unit sequence, P (X | F) represents the dominant topic of robust acoustic modeling, P (F | W) represents the topic of interest for pronunciation modeling, and P (W) Indicates remarkable language modeling. In many cases, F is a phoneme set.

しかし、先行技術では、種々の基本単位のセットを用いた場合に関する比較についてはヒューリスティックな試みがいくつかあったものの、特に確率を用いたASRの枠組み全体を考慮して基本単位セットの最適化を行なうことはほとんど全くされていないといえる。   However, in the prior art, although there were some heuristic attempts for comparison with the case of using various basic unit sets, optimization of the basic unit set was particularly considered in consideration of the entire ASR framework using probability. It can be said that almost nothing has been done.

従って、この発明の目的の一つは、特定のASRタスクのための基本単位セットを最適化する方法と装置とを提供することである。   Accordingly, one object of the present invention is to provide a method and apparatus for optimizing the basic unit set for a particular ASR task.

この発明の別の目的は特定のASRタスクのための音素セットを最適化する方法と装置とを提供することである。   Another object of the present invention is to provide a method and apparatus for optimizing phoneme sets for specific ASR tasks.

この発明の一局面によれば、予め定められた言語の音素単位セットを最適化する方法は、コンピュータに、コンピュータ読出可能なフォーマットで基本単位セットを準備するステップと、基本単位セットにリーブ・ワン・アウト法を適用することによって複数個の基本単位サブセットを生成するステップと、基本単位サブセットの各々について言語的識別力の所定の尺度を計算するステップと、基本単位セットを、基本単位サブセットのうち最も高い言語的識別力を備えたもので置換えるステップと、生成するステップ、計算するステップ、及び置換えるステップを、所定の基準が満たされるまで繰返すステップとを実行させる。   According to one aspect of the present invention, a method for optimizing a phoneme unit set in a predetermined language includes: preparing a basic unit set in a computer readable format on a computer; and Generating a plurality of basic unit subsets by applying an out method; calculating a predetermined measure of linguistic discriminatory power for each of the basic unit subsets; The steps of replacing with the one with the highest linguistic discriminatory power, and the steps of generating, calculating, and repeating the replacement are repeated until a predetermined criterion is satisfied.

好ましくは、計算するステップは、基本単位セットと、基本単位サブセットの各々との間の相互情報を計算するステップを含む。   Preferably, the calculating step includes the step of calculating mutual information between the basic unit set and each of the basic unit subsets.

より好ましくは、置換えるステップは、基本単位セットを、基本単位サブセットのうち計算するステップで計算された相互情報の最も高い値を有するもので置換えるステップを含む。   More preferably, the step of replacing includes the step of replacing the basic unit set with the one having the highest value of mutual information calculated in the calculating step among the basic unit subsets.

さらに好ましくは、基本単位セットは予め定められた言語のための基本音素セットである。   More preferably, the basic unit set is a basic phoneme set for a predetermined language.

この発明の別の局面によれば、予め定められた言語の単位セットを最適化するシステムは、基本単位セットをコンピュータ読出可能なフォーマットで記憶するための記憶手段と、基本単位セットにリーブ・ワン・アウト法を適用することによって複数個の基本単位サブセットを生成するための生成手段と、基本単位サブセットの各々について言語的識別力の所定の尺度を計算するための計算手段と、記憶手段に記憶された基本単位セットを、最も高い言語的識別力を有する基本単位サブセットで置換えるための置換手段と、記憶手段、生成手段、計算手段及び置換手段を、所定の基準が満たされるまで繰返し動作するよう制御するための制御手段とを含む。   According to another aspect of the present invention, a system for optimizing a unit set of a predetermined language includes a storage means for storing a basic unit set in a computer-readable format, and a leave one for the basic unit set. A generating means for generating a plurality of basic unit subsets by applying the out method, a calculating means for calculating a predetermined measure of linguistic discriminatory power for each of the basic unit subsets, and storing in the storage means The replacement means for replacing the set of basic units with the basic unit subset having the highest linguistic discriminating power, the storage means, the generation means, the calculation means, and the replacement means are repeatedly operated until a predetermined criterion is satisfied. Control means for controlling the operation.

ASRの場合、二つの単語を識別するのに2種類の識別のための手段がある。一つは発音であり、他方は単語の文脈、すなわち言語モデル(Language Model:LM)である。一対の単語を音響スコアで識別することが困難な場合、例えば、同音語や類音語の場合、文脈的な単語情報があれば識別が容易になるであろう。例えば、「橋」と「箸」とは明らかに異なる文脈の単語である。   In the case of ASR, there are two types of identification means for identifying two words. One is pronunciation, and the other is a word context, that is, a language model (LM). When it is difficult to identify a pair of words by an acoustic score, for example, in the case of a homophone or a homolog, it will be easy to identify if there is contextual word information. For example, “bridge” and “chopsticks” are clearly different contextual words.

上述の議論に基づき、この実施例は特定のASRタスクのための音素セットの最適な設計、すなわちタスクに基づく音素設計を提案する。基本的な考え方は、ある大きな音素セットから1音素を削除しても言語的識別力が大きく減じられることがなければ、音素セットサイズを減じるためにその音素を削除してもよい、というものである。   Based on the above discussion, this example proposes an optimal design of a phoneme set for a particular ASR task, ie a task-based phoneme design. The basic idea is that deleting a phoneme from a large phoneme set may delete that phoneme to reduce the phoneme set size if the linguistic discriminatory power is not significantly reduced. is there.

この実施例では、最大相互情報(Mutual Information:MI)基準に基づく音素セット設計を採用する。すなわち、MIを基本単位サブセットの言語的識別力の尺度として用いる。この実施例は中国語の最適化された音素セットを設計することに関するものである。   In this embodiment, a phoneme set design based on the maximum mutual information (MI) standard is adopted. That is, MI is used as a measure of the linguistic discriminatory power of the basic unit subset. This example relates to designing an optimized phoneme set for Chinese.

基本単位セットΦは二つの具体的な局面で重要となる。すなわち、これは音響空間全体の主たる分類を規定し、さらに、言語空間の分類の重要な手がかりを提供する。   The basic unit set Φ is important in two specific aspects. That is, it defines the main classification of the entire acoustic space, and further provides important clues for language space classification.

図1は異なる基本単位セット、Φ={f,f,…f}及びΦ={p,p,…p}による直観的な影響力を示す。図1を参照して、Φの音素数MはΦの音素数Nよりはるかに大きいと仮定する(すなわち、N<<M)。Φは音響空間20をN個のサブスペースf,f,…fに分割し、Φは同じ音響空間22をより小さいサブスペースp,p,…pに分割する。従って、Φは頑健な音響モデルを提供することができるが、その一方で、識別力はΦのそれに比して弱い。 Figure 1 shows the different basic unit set, Φ 1 = {f 1, f 2, ... f N} and Φ 2 = {p 1, p 2, ... p M} intuitive influence due. Referring to FIG. 1, assume that the number of phonemes M of Φ 2 is much larger than the number of phonemes N of Φ 1 (ie, N << M). [Phi 1 is the acoustic space 20 N sub space f 1, f 2, ... it is divided into f N, [Phi 2 is smaller than the same acoustic space 22 subspaces p 1, p 2, is divided into ... p M. Therefore, [Phi 1 is able to provide a robust acoustic model, on the other hand, discrimination is weak compared to that of [Phi 2.

図2はこの実施例の単位セットのトレーニングのための構成全体を示す。図2を参照して、トレーニングシステムは、トレーニング用の最新のASRシステム40と、言語モデルのための記憶部42と、レキシコンベースのデコードシステム44とを含む。   FIG. 2 shows the overall configuration for unit set training in this embodiment. Referring to FIG. 2, the training system includes a state-of-the-art ASR system 40 for training, a storage unit 42 for a language model, and a lexicon-based decoding system 44.

トレーニング用ASRシステム40は、入力されたテキストWを音素シーケンスFに変換するための音声生成及びASRモジュール50と、音素シーケンスFによって形成される単語ラティス内のデコードされた単語テキストのうちで最も確率の高い単語テキスト^Wを、言語モデル42を参照しつつラティスの各経路をスコアリングすることによって選択するための単語ラティススコアリングモジュール52とを含む。   The training ASR system 40 is a speech generation and ASR module 50 for converting the input text W into a phoneme sequence F, and the most probable of the decoded word text in the word lattice formed by the phoneme sequence F. A word lattice scoring module 52 for selecting the high word text ^ W by scoring each path of the lattice with reference to the language model 42.

レキシコンベースのデコードシステム44は、見出し語の各々を、それぞれの音素セットΦ及びΦを用いて記述する辞書62及び64と、辞書62及び64をそれぞれ用いて、入力テキストWを音素シーケンスF及びFに変換するためのレキシコンベースの変換モジュール60と、音素シーケンスF及びFによって形成される単語ラティス内の単語テキストのうちで最も確率の高い単語テキストW及びWを、言語モデル42を参照しつつラティスの各経路をスコアリングすることによって選択するための単語ラティススコアリングモジュール66とを含む。図2では説明を簡潔にするため、二つの辞書のみを示す。この実施例は中国語のASRシステムに関し、音素セットΦは声調情報を含み、一方音素セットΦはこれを含まない。 Lexicon based decoding system 44, each entry word, a dictionary 62 and 64 described with respective phoneme set [Phi 1 and [Phi 2, respectively using the dictionary 62 and 64, the phoneme sequence F input text W 1 and a lexicon-based conversion module 60 for converting the F 2, the phoneme sequence F 1 and higher word text W 1 and W 2 the most probable among the word text in the word lattice formed by the F 2, And a word lattice scoring module 66 for selecting by scoring each path of the lattice with reference to the language model 42. In FIG. 2, only two dictionaries are shown for the sake of brevity. This example relates to a Chinese ASR system, phoneme set Φ 1 contains tone information, while phoneme set Φ 2 does not.

トレーニング用ASRシステム40はトレーニングテキストWのコーパスを受け、以下の最大化式に従って、デコードされた単語^Wを出力する。   The training ASR system 40 receives the corpus of the training text W and outputs a decoded word ^ W according to the following maximization formula.

Figure 2006126730
確率P(W|F)を最大にする音素セットが最適な音素セット^Φとして選択される。すなわち、
Figure 2006126730
The phoneme set that maximizes the probability P (W | F) is selected as the optimal phoneme set ^ Φ. That is,

Figure 2006126730
トレーニング用ASRシステム40とレキシコンベースのデコードシステム44との動作により、上述の式に従って、P(W|F)の要素を計算し、最適な音素セット^Φを選択することができる。
Figure 2006126730
By the operation of the training ASR system 40 and the lexicon-based decoding system 44, an element of P (W | F) can be calculated according to the above-described equation, and an optimal phoneme set ^ Φ can be selected.

図3はこの実施例の音素セット最適化システム80の全体構造を示す図である。図3を参照して、音素セット最適化システム80は、基本単位セット90の記憶装置と、トレーニングテキスト92の記憶装置と、基本単位セット90及びトレーニングテキスト92を用いて音素セットを最適化し、最適化された音素セット94を出力するための音素セット最適化モジュール96とを含む。   FIG. 3 is a diagram showing the overall structure of the phoneme set optimization system 80 of this embodiment. Referring to FIG. 3, the phoneme set optimization system 80 optimizes a phoneme set by using a storage device of a basic unit set 90, a storage device of a training text 92, a basic unit set 90, and a training text 92. A phoneme set optimizing module 96 for outputting the phoneme set 94.

音素セット最適化モジュール96は、コンピュータ上で実行されるソフトウェアで実現可能である。ソフトウェアの制御の流れを図4のフロー図で示す。図4を参照して、音素セット最適化モジュール96は以下のステップを実行する。初期音素セットΦ(すなわち基本単位セット90)で作業中の音素セットΦを置換える(ステップ100)。音素サブセットΦ(i=1からΦの要素数まで;Φ=Φ―{e};eはΦ中のi番目の音素)を生成する(ステップ102)。作業中のセットΦとサブセットΦの各々との間の相互情報MIを計算する(ステップ104)。以下の式を満たす指数Mを特定する(ステップ106)。 The phoneme set optimization module 96 can be realized by software executed on a computer. The flow of software control is shown in the flowchart of FIG. Referring to FIG. 4, the phoneme set optimization module 96 performs the following steps. The working phoneme set Φ is replaced with the initial phoneme set Φ 0 (ie, the basic unit set 90) (step 100). A phoneme subset Φ i (from i = 1 to the number of elements of Φ; Φ i = Φ− {e i }; e i is the i-th phoneme in Φ) is generated (step 102). Calculating a mutual information MI i between each set [Phi and subset [Phi i are working (step 104). An index M satisfying the following equation is specified (step 106).

Figure 2006126730
その後M番目の音素サブセットΦを選択し、選択されたサブセットΦ中の音素を用いてレキシコン及びテキストコーパスを作り変える(ステップ108)。作り変える過程において、レキシコンとテキストコーパスとは、レキシコンとテキストコーパス中で用いられている削除された音素を、それぞれ最も近い音素とマージするように更新される。
Figure 2006126730
Then select the M-th phoneme subset [Phi M, reshape lexicon and the text corpus with phonemes in the subset [Phi M selected (step 108). In the remake process, the lexicon and text corpus are updated to merge the deleted phonemes used in the lexicon and text corpus with the nearest phonemes, respectively.

音素セット最適化モジュール96はさらに、予め定められた停止条件が満たされたか否かを判断するステップを実行する(ステップ110)。もし条件が満たされれば、音素セット最適化モジュール96は動作を停止する。さもなければ、制御はステップ112に進み、ここで選択されたサブセットΦで作業中のセットΦを置換え、その後制御はステップ102に戻る。 The phoneme set optimization module 96 further executes a step of determining whether or not a predetermined stop condition is satisfied (step 110). If the condition is met, the phoneme set optimization module 96 stops operating. Otherwise, control proceeds to step 112 where the working subset Φ is replaced with the selected subset Φ M , after which control returns to step 102.

予め定められた数だけ繰返したあと、動作は停止する。これに代えて、相互情報の減少が予め定められたしきい値を超えた場合に動作を停止することもできる。   After repeating a predetermined number of times, the operation stops. Alternatively, the operation can be stopped when the decrease in mutual information exceeds a predetermined threshold.

音素セット最適化モジュール96は以下のように動作する。始めに、ステップ100で、基本単位セット90が作業用セットΦとして選択される。ステップ102で音素サブセットΦからΦまでが生成される。サブセットΦは作業中のセットΦから音素eを除くことで生成される。言換えれば、Φは作業中のセットΦにリーブ・ワン・アウト法を適用することによって生成される。 The phoneme set optimization module 96 operates as follows. First, in step 100, the basic unit set 90 is selected as the working set Φ. In step 102 the phoneme subset [Phi 1 until [Phi N is generated. The subset Φ i is generated by removing the phoneme e i from the working set Φ. In other words, Φ i is generated by applying a leave-one-out method to the working set Φ.

ステップ104で、作業中のセットΦとサブセットΦからΦの各々との間の相互情報MIが計算される。ステップ106で、相互情報MI中で対応の相互情報MIを最大にする指数Mが選択される。 In step 104, the mutual information MI i between each [Phi N from the set [Phi and subset [Phi 1 in operation is calculated. In step 106, an index M that maximizes the corresponding mutual information MI M among the mutual information MI i is selected.

ステップ108で、M番目の音素サブセット(サブセットΦ)が選択され、選択された音素サブセットΦを用いてレキシコンとテキストコーパスとが作り変えられる。 At step 108, the Mth phoneme subset (subset Φ M ) is selected and the lexicon and text corpus are recreated using the selected phoneme subset Φ M.

ステップ110で、停止条件が満たされたか否かが判断される。もし条件が満たされていなければ、制御はステップ112に進み、ここでΦがΦと置換される。その後、制御はステップ102に戻り、ステップ102から108までが繰返される。停止条件が満たされると、動作は停止する。 In step 110, it is determined whether the stop condition is satisfied. Unless if condition is satisfied, control proceeds to step 112, where [Phi is replaced with [Phi M. Thereafter, the control returns to step 102, and steps 102 to 108 are repeated. When the stop condition is met, the operation stops.

こうして、詳細な音素分類に基づいたものであってかつサイズの大きい初期単位セット90から始めて、音素セット最適化モジュール96は何らかの基準に従って繰返しながら音素セットを減じることができる。   Thus, starting with a large initial unit set 90 based on detailed phoneme classification, the phoneme set optimization module 96 can reduce phoneme sets while iterating according to some criteria.

図5はこの実施例の検証実験の結果を示す。この実験では、声調情報を含む元の203単位からなるセットを減少させる。声調情報を含まない59単位のセットを比較のために用いた。これら二つのセットは最新の中国語ASRシステムで広く用いられているものである。検証用テキストコーパスは1,614個の短文を含み、単語数は合計で9,484個である。   FIG. 5 shows the result of the verification experiment of this example. In this experiment, the original set of 203 units containing tone information is reduced. A set of 59 units without tone information was used for comparison. These two sets are widely used in the latest Chinese ASR system. The verification text corpus includes 1,614 short sentences, and the total number of words is 9,484.

図5を参照して、59の声調なしの単位セットC(ボックス132で示す)と比較して、元の203の声調付きセットは、ビット表現でより高い相互情報を有する。線130で示す削減過程で、同じ59単位の数を備えて生成された単位セットは、図5の点Aで示すように、声調なしの単位セットに比べてより高い相互情報を維持した。言換えれば、生成されたセットAは、数が同じであるにもかかわらず、伝統的な59の声調なし単位セットよりも良好な言語的識別力を有する。図5の点Bの単位セットは、声調なし単位セットCとほぼ同じ量の相互情報を維持しているが、単位数は遥かに少ない。数は47であり、従ってこれはCセットより効率が良い。   Referring to FIG. 5, compared to 59 toneless unit set C (indicated by box 132), the original 203 tone set has higher mutual information in bit representation. In the reduction process indicated by line 130, the unit set generated with the same number of 59 units maintained higher mutual information than the unit set without tone, as indicated by point A in FIG. In other words, the generated set A has better linguistic discriminatory power than the traditional 59 toneless unit set, despite the same number. The unit set at point B in FIG. 5 maintains the same amount of mutual information as the unit set C without tone, but the number of units is much smaller. The number is 47, so it is more efficient than C set.

上述の通り、この実施例のシステムと方法とは、相互情報を減じることなく、音素セット中の音素の数をうまく減じることができる。タスクを特定したテキストをトレーニングに用いれば、音素セットはそのタスク用に最適化でき、その音素セットを用いれば、そのタスクについて十分な識別力を有する頑健な音響モデルを得ることができる。また、十分に詳細な識別力を有する言語モデルを提供できる。   As described above, the system and method of this embodiment can successfully reduce the number of phonemes in a phoneme set without reducing mutual information. If the text specifying the task is used for training, the phoneme set can be optimized for the task, and if the phoneme set is used, a robust acoustic model having sufficient discrimination power for the task can be obtained. In addition, it is possible to provide a language model having sufficiently detailed discrimination power.

上述の実施例では音素セットを最適化したが、この発明は音素セットの最適化に限定されない。この発明は、ASRにおいて音素セットに置換可能ないずれの基本音素単位セットの最適化にも適用可能である。例えば、語彙が比較的小さい場合には、単位セットは語彙中の単語(単語発音)のセットであり得る。   In the above embodiment, the phoneme set is optimized, but the present invention is not limited to the optimization of the phoneme set. The present invention is applicable to optimization of any basic phoneme unit set that can be replaced with a phoneme set in ASR. For example, if the vocabulary is relatively small, the unit set can be a set of words (word pronunciations) in the vocabulary.

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。   The embodiment disclosed herein is merely an example, and the present invention is not limited to the embodiment described above. The scope of the present invention is indicated by each claim in the claims after taking into account the description of the detailed description of the invention, and all modifications within the meaning and scope equivalent to the wording described therein are intended. Including.

異なる基本単位セットからの直観的な影響力を示す図である。It is a figure which shows the intuitive influence from a different basic unit set. この実施例の単位セットのトレーニングの全体構成を示す図である。It is a figure which shows the whole structure of the training of the unit set of this Example. この実施例の音素セット最適化システム80の全体構造を例示する図である。It is a figure which illustrates the whole structure of the phoneme set optimization system 80 of this Example. この実施例の音素セット最適化モジュール96を実現するソフトウェアの制御フローを示す図である。It is a figure which shows the control flow of the software which implement | achieves the phoneme set optimization module 96 of this Example. この実施例の検証実験結果をグラフの形で示す図である。It is a figure which shows the verification experiment result of this Example in the form of a graph. 先行技術による基本ASRスキームを示す図である。FIG. 2 shows a basic ASR scheme according to the prior art.

符号の説明Explanation of symbols

40 トレーニング用ASRシステム
42 言語モデル
44 レキシコンベースのデコードシステム
50 ASRモジュール
52 単語ラティススコアリングモジュール
60 レキシコンベースの変換モジュール
62、64 辞書
66 単語ラティススコアリングモジュール
80 音素セット最適化システム
90 基本単位セット
92 トレーニングテキスト
94 最適化音素セット
96 音素セット最適化モジュール
40 Training ASR System 42 Language Model 44 Lexicon Based Decoding System 50 ASR Module 52 Word Lattice Scoring Module 60 Lexicon Based Transformation Module 62, 64 Dictionary 66 Word Lattice Scoring Module 80 Phoneme Set Optimization System 90 Basic Unit Set 92 Training text 94 Optimized phoneme set 96 Phoneme set optimization module

Claims (5)

予め定められた言語の音素単位セットを最適化する方法であって、コンピュータに、
コンピュータ読出可能なフォーマットで基本単位セットを準備するステップと、
前記基本単位セットにリーブ・ワン・アウト法を適用することによって複数個の基本単位サブセットを生成するステップと、
前記基本単位サブセットの各々について言語的識別力の所定の尺度を計算するステップと、
前記基本単位セットを、前記基本単位サブセットのうち最も高い言語的識別力を備えたもので置換えるステップと、
前記生成するステップ、計算するステップ、及び置換えるステップを、所定の基準が満たされるまで繰返すステップとを実行させる、予め定められた言語の音素単位セットを最適化する方法。
A method for optimizing a phoneme unit set of a predetermined language, comprising:
Preparing a basic unit set in a computer readable format;
Generating a plurality of basic unit subsets by applying a leave-one-out method to the basic unit set;
Calculating a predetermined measure of linguistic discriminatory power for each of said basic unit subsets;
Replacing the basic unit set with the highest linguistic discriminatory of the basic unit subsets;
A method for optimizing a phoneme unit set of a predetermined language, wherein the generating step, the calculating step, and the replacing step are repeated until a predetermined criterion is satisfied.
前記計算するステップが、前記基本単位セットと、前記基本単位サブセットの各々との間の相互情報を計算するステップを含む、請求項1に記載の方法。 The method of claim 1, wherein the calculating includes calculating mutual information between the basic unit set and each of the basic unit subsets. 前記置換えるステップが、前記基本単位セットを、前記基本単位サブセットのうち前記計算するステップで計算された相互情報の最も高い値を有するもので置換えるステップを含む、請求項2に記載の方法。 The method according to claim 2, wherein the replacing step includes the step of replacing the basic unit set with one of the basic unit subsets having the highest value of mutual information calculated in the calculating step. 前記基本単位セットは前記予め定められた言語のための基本音素セットである、請求項1〜請求項3のいずれかに記載の方法。 The method according to claim 1, wherein the basic unit set is a basic phoneme set for the predetermined language. 予め定められた言語の単位セットを最適化するシステムであって、
基本単位セットをコンピュータ読出可能なフォーマットで記憶するための記憶手段と、
前記基本単位セットにリーブ・ワン・アウト法を適用することによって複数個の基本単位サブセットを生成するための生成手段と、
前記基本単位サブセットの各々について言語的識別力の所定の尺度を計算するための計算手段と、
前記記憶手段に記憶された前記基本単位セットを、最も高い言語的識別力を有する基本単位サブセットで置換えるための置換手段と、
前記記憶手段、生成手段、計算手段及び置換手段を、所定の基準が満たされるまで繰返し動作するよう制御するための制御手段とを含む、システム。
A system for optimizing a unit set of a predetermined language,
Storage means for storing the basic unit set in a computer readable format;
Generating means for generating a plurality of basic unit subsets by applying a leave-one-out method to the basic unit set;
Calculating means for calculating a predetermined measure of linguistic discriminatory power for each of said basic unit subsets;
Replacement means for replacing the basic unit set stored in the storage means with a basic unit subset having the highest linguistic discriminatory power;
And a control means for controlling the storage means, the generating means, the calculating means, and the replacing means so as to repeatedly operate until a predetermined criterion is satisfied.
JP2004318208A 2004-11-01 2004-11-01 Method and system for optimizing phoneme unit sets Active JP4631076B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004318208A JP4631076B2 (en) 2004-11-01 2004-11-01 Method and system for optimizing phoneme unit sets

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004318208A JP4631076B2 (en) 2004-11-01 2004-11-01 Method and system for optimizing phoneme unit sets

Publications (3)

Publication Number Publication Date
JP2006126730A true JP2006126730A (en) 2006-05-18
JP2006126730A5 JP2006126730A5 (en) 2010-08-26
JP4631076B2 JP4631076B2 (en) 2011-02-16

Family

ID=36721513

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004318208A Active JP4631076B2 (en) 2004-11-01 2004-11-01 Method and system for optimizing phoneme unit sets

Country Status (1)

Country Link
JP (1) JP4631076B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009069276A (en) * 2007-09-11 2009-04-02 National Institute Of Information & Communication Technology Speech recognition device, automatic translation device, speech recognition method, program and data structure

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04295893A (en) * 1991-03-26 1992-10-20 Nippon Hoso Kyokai <Nhk> Pattern recognition system
JPH09288492A (en) * 1996-04-19 1997-11-04 Nec Corp Framing system of standard pattern using information quantity reference
JPH10501078A (en) * 1995-11-04 1998-01-27 インターナシヨナル・ビジネス・マシーンズ・コーポレーション Method and apparatus for adapting the size of a language model of a speech recognition system
JPH11272291A (en) * 1998-02-03 1999-10-08 Texas Instr Inc <Ti> Phonetic modeling method using acoustic decision tree
JPH11352994A (en) * 1998-06-12 1999-12-24 Atr Onsei Honyaku Tsushin Kenkyusho:Kk Statistical sequence model generator, statistical language model generator, and speech recognition system

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04295893A (en) * 1991-03-26 1992-10-20 Nippon Hoso Kyokai <Nhk> Pattern recognition system
JPH10501078A (en) * 1995-11-04 1998-01-27 インターナシヨナル・ビジネス・マシーンズ・コーポレーション Method and apparatus for adapting the size of a language model of a speech recognition system
JPH09288492A (en) * 1996-04-19 1997-11-04 Nec Corp Framing system of standard pattern using information quantity reference
JPH11272291A (en) * 1998-02-03 1999-10-08 Texas Instr Inc <Ti> Phonetic modeling method using acoustic decision tree
JPH11352994A (en) * 1998-06-12 1999-12-24 Atr Onsei Honyaku Tsushin Kenkyusho:Kk Statistical sequence model generator, statistical language model generator, and speech recognition system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009069276A (en) * 2007-09-11 2009-04-02 National Institute Of Information & Communication Technology Speech recognition device, automatic translation device, speech recognition method, program and data structure

Also Published As

Publication number Publication date
JP4631076B2 (en) 2011-02-16

Similar Documents

Publication Publication Date Title
JP6818941B2 (en) How to Train Multilingual Speech Recognition Networks, Speech Recognition Systems and Multilingual Speech Recognition Systems
JP6827548B2 (en) Speech recognition system and speech recognition method
JP6929466B2 (en) Speech recognition system
US7966173B2 (en) System and method for diacritization of text
JP6493866B2 (en) Information processing apparatus, information processing method, and program
US7480612B2 (en) Word predicting method, voice recognition method, and voice recognition apparatus and program using the same methods
JP6245846B2 (en) System, method and program for improving reading accuracy in speech recognition
JPWO2009078256A1 (en) Pronunciation variation rule extraction device, pronunciation variation rule extraction method, and pronunciation variation rule extraction program
JP2008262279A (en) Speech retrieval device
US8990126B1 (en) Copying human interactions through learning and discovery
JP2004341520A (en) Voice recognizing method
JP5180800B2 (en) Recording medium for storing statistical pronunciation variation model, automatic speech recognition system, and computer program
Neubig et al. Learning a language model from continuous speech
JP3364631B2 (en) Statistical language model generation apparatus and speech recognition apparatus
JP6001944B2 (en) Voice command control device, voice command control method, and voice command control program
JP4631076B2 (en) Method and system for optimizing phoneme unit sets
JP2011007862A (en) Voice recognition device, voice recognition program and voice recognition method
JP3088364B2 (en) Spoken language understanding device and spoken language understanding system
JP2006031278A (en) Voice retrieval system, method, and program
JP5137588B2 (en) Language model generation apparatus and speech recognition apparatus
Shen et al. Speech intent recognition for robots
JP2008242059A (en) Device for creating speech recognition dictionary, and speech recognition apparatus
US20220382973A1 (en) Word Prediction Using Alternative N-gram Contexts
JPS63153596A (en) Voice sentence input device
JP2000250581A (en) Language model generating device and voice recognition device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071012

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100427

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100525

A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A524

Effective date: 20100712

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101005

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101025

R150 Certificate of patent or registration of utility model

Ref document number: 4631076

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131126

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250