JP4631076B2 - Method and system for optimizing phoneme unit sets - Google Patents
Method and system for optimizing phoneme unit sets Download PDFInfo
- Publication number
- JP4631076B2 JP4631076B2 JP2004318208A JP2004318208A JP4631076B2 JP 4631076 B2 JP4631076 B2 JP 4631076B2 JP 2004318208 A JP2004318208 A JP 2004318208A JP 2004318208 A JP2004318208 A JP 2004318208A JP 4631076 B2 JP4631076 B2 JP 4631076B2
- Authority
- JP
- Japan
- Prior art keywords
- basic unit
- phoneme
- unit set
- calculating
- basic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
この発明は自動音声認識(Automatic Speech Recognition:ASR)に関し、特に、ASRで用いられる音素セット等の音素単位セットの最適化に関する。 The present invention relates to automatic speech recognition (ASR), and more particularly to optimization of phoneme unit sets such as phoneme sets used in ASR.
ASRはマン−マシン−インタラクションにおける必須のツールである。ASRによって、コンピュータは自然言語によるオペレータの指令を理解することができ、オペレータはコンピュータのための複雑なコマンドシステムを学ぶ必要がなくなる。 ASR is an essential tool in man-machine interaction. ASR allows the computer to understand the operator's commands in natural language, eliminating the need for the operator to learn a complex command system for the computer.
図6は基本的なASRの機構を示す。図6を参照して、ASRシステム162は、入力音声X160をデコードし、認識された(デコードされた)単語^W164(文中「^」の記号は本来文字Wの上に付されるものである。)を、以下の式166を用いて出力する。
FIG. 6 shows the basic ASR mechanism. Referring to FIG. 6,
大語彙連続音声認識(Large Vocabulary Continuous Speech Recognition:LVCSR)システムでは、広く受入れられた音素セットが用いられる。 In the Large Vocabulary Continuous Speech Recognition (LVCSR) system, a widely accepted phoneme set is used.
簡単なLVCSRタスクと、より複雑なLVCSRタスクとで同じ音素セットを用いるべきか、という問題がある。数字認識タスク等の小さな語彙のタスクでは、数字等の単語が基本単位として用いられる。同様に、簡単なLVCSRタスクでは、簡単な音素セットを用いることが有利かもしれない。 There is a question of whether the same phoneme set should be used for a simple LVCSR task and a more complex LVCSR task. In small vocabulary tasks such as number recognition tasks, words such as numbers are used as basic units. Similarly, for simple LVCSR tasks, it may be advantageous to use a simple phoneme set.
ASRに関する多くの研究では、いくつかの発見的手法により決定された音素セットが試され、ASR認識性能に基づいて、1セットが選択される。 In many studies on ASR, phone sets determined by several heuristics are tried and a set is selected based on ASR recognition performance.
音素セットにより多くの単位が含まれれば、音素学的により識別性のある情報を提供するであろう。しかしこれは、より詳細な音響的差異を使用するという意味でもある。音声認識の場合、より詳細な、またはより小さい音響差異をモデル化する必要が生じると、AM(Acoustic Model:音響モデル)の頑健性が低下する傾向がある。 If more units are included in a phoneme set, it will provide phonemeologically more discriminating information. However, this also means that a more detailed acoustic difference is used. In the case of speech recognition, if more detailed or smaller acoustic differences need to be modeled, the robustness of AM (Acoustic Model) tends to decrease.
音素セットに含まれる単位数が少なければ、より大きな音素セットに比べて、各音素AMは、より多くのトレーニングデータを有することが通常である。さらに、音素の数が少ない場合、音素間での差異は多くの音素間での差異より大きくなる傾向がある。この結果、音素セットが小さくなればAMはより頑健になり得る。しかし、音素セットサイズを小さくすると別の問題が生じる。すなわち、言語空間内における識別力が失われることである。例えば、日本語の長母音「A」と短母音「a」とが一つの母音にマージされるので、単語間の混同が増加するであろう。 If the number of units included in a phoneme set is small, each phoneme AM usually has more training data than a larger phoneme set. Furthermore, when the number of phonemes is small, the difference between phonemes tends to be larger than the difference between many phonemes. As a result, AM can be more robust if the phoneme set is smaller. However, reducing the phoneme set size creates another problem. That is, the discriminating power in the language space is lost. For example, Japanese long vowel “A” and short vowel “a” are merged into one vowel, so confusion between words will increase.
この点に関して、最新のASR最適化は以下の考え方により行なわれる。上述の式を以下の形に書くことができる。 In this regard, the latest ASR optimization is performed according to the following concept. The above equation can be written in the following form:
しかし、先行技術では、種々の基本単位のセットを用いた場合に関する比較についてはヒューリスティックな試みがいくつかあったものの、特に確率を用いたASRの枠組み全体を考慮して基本単位セットの最適化を行なうことはほとんど全くされていないといえる。 However, in the prior art, there have been some heuristic attempts to make comparisons with various sets of basic units, but optimization of the basic unit set has been particularly considered in consideration of the entire ASR framework using probability. It can be said that almost nothing has been done.
従って、この発明の目的の一つは、特定のASRタスクのための基本単位セットを最適化する方法と装置とを提供することである。 Accordingly, one object of the present invention is to provide a method and apparatus for optimizing the basic unit set for a particular ASR task.
この発明の別の目的は特定のASRタスクのための音素セットを最適化する方法と装置とを提供することである。 Another object of the present invention is to provide a method and apparatus for optimizing phoneme sets for specific ASR tasks.
この発明の一局面によれば、予め定められた言語の音素単位セットを最適化する方法は、コンピュータに、コンピュータ読出可能なフォーマットで基本単位セットを準備するステップと、基本単位セットにリーブ・ワン・アウト法を適用することによって複数個の基本単位サブセットを生成するステップと、基本単位サブセットの各々について言語的識別力の所定の尺度を計算するステップと、基本単位セットを、基本単位サブセットのうち最も高い言語的識別力を備えたもので置換えるステップと、生成するステップ、計算するステップ、及び置換えるステップを、所定の基準が満たされるまで繰返すステップとを実行させる。 According to one aspect of the present invention, a method for optimizing a phoneme unit set in a predetermined language includes: preparing a basic unit set in a computer readable format on a computer; and Generating a plurality of basic unit subsets by applying an out method; calculating a predetermined measure of linguistic discriminatory power for each of the basic unit subsets; The steps of replacing with the one with the highest linguistic discriminatory power, and the steps of generating, calculating, and repeating the replacement are repeated until a predetermined criterion is satisfied.
好ましくは、計算するステップは、基本単位セットと、基本単位サブセットの各々との間の相互情報量を計算するステップを含む。 Preferably, the step of calculating comprises calculating the basic unit set, a mutual information between each of the basic unit subsets.
より好ましくは、置換えるステップは、基本単位セットを、基本単位サブセットのうち計算するステップで計算された相互情報量の最も高い値を有するもので置換えるステップを含む。 More preferably, replaced step includes replacing at those having a basic unit set, the highest value of the mutual information amount calculated by the step of calculating of the basic units subset.
さらに好ましくは、基本単位セットは予め定められた言語のための基本音素セットである。 More preferably, the basic unit set is a basic phoneme set for a predetermined language.
この発明の別の局面によれば、予め定められた言語の単位セットを最適化するシステムは、基本単位セットをコンピュータ読出可能なフォーマットで記憶するための記憶手段と、基本単位セットにリーブ・ワン・アウト法を適用することによって複数個の基本単位サブセットを生成するための生成手段と、基本単位サブセットの各々について言語的識別力の所定の尺度を計算するための計算手段と、記憶手段に記憶された基本単位セットを、最も高い言語的識別力を有する基本単位サブセットで置換えるための置換手段と、記憶手段、生成手段、計算手段及び置換手段を、所定の基準が満たされるまで繰返し動作するよう制御するための制御手段とを含む。 According to another aspect of the present invention, a system for optimizing a unit set of a predetermined language includes storage means for storing a basic unit set in a computer-readable format, and leave one in the basic unit set. A generating means for generating a plurality of basic unit subsets by applying the out method, a calculating means for calculating a predetermined measure of linguistic discriminating power for each of the basic unit subsets, and storing in the storage means The replacement means for replacing the set of basic units with the basic unit subset having the highest linguistic discriminatory power, and the storage means, the generation means, the calculation means, and the replacement means are repeatedly operated until a predetermined criterion is satisfied. Control means for controlling the operation.
ASRの場合、二つの単語を識別するのに2種類の識別のための手段がある。一つは発音であり、他方は単語の文脈、すなわち言語モデル(Language Model:LM)である。一対の単語を音響スコアで識別することが困難な場合、例えば、同音語や類音語の場合、文脈的な単語情報があれば識別が容易になるであろう。例えば、「橋」と「箸」とは明らかに異なる文脈の単語である。 In the case of ASR, there are two types of identification means for identifying two words. One is pronunciation, and the other is a word context, that is, a language model (LM). When it is difficult to identify a pair of words by an acoustic score, for example, in the case of a homophone or a homolog, it will be easy to identify if there is contextual word information. For example, “bridge” and “chopsticks” are clearly different contextual words.
上述の議論に基づき、この実施例は特定のASRタスクのための音素セットの最適な設計、すなわちタスクに基づく音素設計を提案する。基本的な考え方は、ある大きな音素セットから1音素を削除しても言語的識別力が大きく減じられることがなければ、音素セットサイズを減じるためにその音素を削除してもよい、というものである。 Based on the above discussion, this example proposes an optimal design of a phoneme set for a particular ASR task, ie a task-based phoneme design. The basic idea is that deleting a phoneme from a large phoneme set may delete the phoneme to reduce the phoneme set size if the linguistic discriminatory power is not significantly reduced. is there.
この実施例では、最大相互情報量(Mutual Information:MI)基準に基づく音素セット設計を採用する。すなわち、MIを基本単位サブセットの言語的識別力の尺度として用いる。この実施例は中国語の最適化された音素セットを設計することに関するものである。 In this embodiment, the maximum mutual information (Mutual Information: MI) employing a phoneme set design based on the reference. That is, MI is used as a measure of the linguistic discriminatory power of the basic unit subset. This example relates to designing an optimized phoneme set for Chinese.
基本単位セットΦは二つの具体的な局面で重要となる。すなわち、これは音響空間全体の主たる分類を規定し、さらに、言語空間の分類の重要な手がかりを提供する。 The basic unit set Φ is important in two specific aspects. That is, it defines the main classification of the entire acoustic space, and further provides important clues for language space classification.
図1は異なる基本単位セット、Φ1={f1,f2,…fN}及びΦ2={p1,p2,…pM}による直観的な影響力を示す。図1を参照して、Φ2の音素数MはΦ1の音素数Nよりはるかに大きいと仮定する(すなわち、N<<M)。Φ1は音響空間20をN個のサブスペースf1,f2,…fNに分割し、Φ2は同じ音響空間22をより小さいサブスペースp1,p2,…pMに分割する。従って、Φ1は頑健な音響モデルを提供することができるが、その一方で、識別力はΦ2のそれに比して弱い。
Figure 1 shows the different basic unit set, Φ 1 = {f 1, f 2, ... f N} and Φ 2 = {p 1, p 2, ... p M} intuitive influence due. Referring to FIG. 1, assume that the number of phonemes M of Φ 2 is much larger than the number of phonemes N of Φ 1 (ie, N << M). [Phi 1 is the acoustic space 20 N sub space f 1, f 2, ... is divided into f N, [Phi 2 is smaller than the same
図2はこの実施例の単位セットのトレーニングのための構成全体を示す。図2を参照して、トレーニングシステムは、トレーニング用の最新のASRシステム40と、言語モデルのための記憶部42と、レキシコンベースのデコードシステム44とを含む。
FIG. 2 shows the overall configuration for unit set training in this embodiment. Referring to FIG. 2, the training system includes a state-of-the-
トレーニング用ASRシステム40は、入力されたテキストWを音素シーケンスFに変換するための音声生成及びASRモジュール50と、音素シーケンスFによって形成される単語ラティス内のデコードされた単語テキストのうちで最も確率の高い単語テキスト^Wを、言語モデル42を参照しつつラティスの各経路をスコアリングすることによって選択するための単語ラティススコアリングモジュール52とを含む。
The
レキシコンベースのデコードシステム44は、見出し語の各々を、それぞれの音素セットΦ1及びΦ2を用いて記述する辞書62及び64と、辞書62及び64をそれぞれ用いて、入力テキストWを音素シーケンスF1及びF2に変換するためのレキシコンベースの変換モジュール60と、音素シーケンスF1及びF2によって形成される単語ラティス内の単語テキストのうちで最も確率の高い単語テキストW1及びW2を、言語モデル42を参照しつつラティスの各経路をスコアリングすることによって選択するための単語ラティススコアリングモジュール66とを含む。図2では説明を簡潔にするため、二つの辞書のみを示す。この実施例は中国語のASRシステムに関し、音素セットΦ1は声調情報を含み、一方音素セットΦ2はこれを含まない。
Lexicon based
トレーニング用ASRシステム40はトレーニングテキストWのコーパスを受け、以下の最大化式に従って、デコードされた単語^Wを出力する。
The
図3はこの実施例の音素セット最適化システム80の全体構造を示す図である。図3を参照して、音素セット最適化システム80は、基本単位セット90の記憶装置と、トレーニングテキスト92の記憶装置と、基本単位セット90及びトレーニングテキスト92を用いて音素セットを最適化し、最適化された音素セット94を出力するための音素セット最適化モジュール96とを含む。
FIG. 3 is a diagram showing the overall structure of the phoneme set
音素セット最適化モジュール96は、コンピュータ上で実行されるソフトウェアで実現可能である。ソフトウェアの制御の流れを図4のフロー図で示す。図4を参照して、音素セット最適化モジュール96は以下のステップを実行する。初期音素セットΦ0(すなわち基本単位セット90)で作業中の音素セットΦを置換える(ステップ100)。音素サブセットΦi(i=1からΦの要素数まで;Φi=Φ−{ei};eiはΦ中のi番目の音素)を生成する(ステップ102)。作業中のセットΦとサブセットΦiの各々との間の相互情報量MIiを計算する(ステップ104)。以下の式を満たす指数Mを特定する(ステップ106)。
The phoneme
音素セット最適化モジュール96はさらに、予め定められた停止条件が満たされたか否かを判断するステップを実行する(ステップ110)。もし条件が満たされれば、音素セット最適化モジュール96は動作を停止する。さもなければ、制御はステップ112に進み、ここで選択されたサブセットΦMで作業中のセットΦを置換え、その後制御はステップ102に戻る。
The phoneme
予め定められた数だけ繰返したあと、動作は停止する。これに代えて、相互情報量の減少が予め定められたしきい値を超えた場合に動作を停止することもできる。 After repeating a predetermined number of times, the operation stops. Alternatively, the operation can be stopped when the decrease in the mutual information amount exceeds a predetermined threshold value.
音素セット最適化モジュール96は以下のように動作する。始めに、ステップ100で、基本単位セット90が作業用セットΦとして選択される。ステップ102で音素サブセットΦ1からΦNまでが生成される。サブセットΦiは作業中のセットΦから音素eiを除くことで生成される。言換えれば、Φiは作業中のセットΦにリーブ・ワン・アウト法を適用することによって生成される。
The phoneme
ステップ104で、作業中のセットΦとサブセットΦ1からΦNの各々との間の相互情報量MIiが計算される。ステップ106で、相互情報量MIi中で対応の相互情報量MIMを最大にする指数Mが選択される。
In
ステップ108で、M番目の音素サブセット(サブセットΦM)が選択され、選択された音素サブセットΦMを用いてレキシコンとテキストコーパスとが作り変えられる。
At
ステップ110で、停止条件が満たされたか否かが判断される。もし条件が満たされていなければ、制御はステップ112に進み、ここでΦがΦMと置換される。その後、制御はステップ102に戻り、ステップ102から108までが繰返される。停止条件が満たされると、動作は停止する。
In
こうして、詳細な音素分類に基づいたものであってかつサイズの大きい初期単位セット90から始めて、音素セット最適化モジュール96は何らかの基準に従って繰返しながら音素セットを減じることができる。
Thus, starting with a large initial unit set 90 based on detailed phoneme classification, the phoneme
図5はこの実施例の検証実験の結果を示す。この実験では、声調情報を含む元の203単位からなるセットを減少させる。声調情報を含まない59単位のセットを比較のために用いた。これら二つのセットは最新の中国語ASRシステムで広く用いられているものである。検証用テキストコーパスは1,614個の短文を含み、単語数は合計で9,484個である。 FIG. 5 shows the result of the verification experiment of this example. In this experiment, the original set of 203 units containing tone information is reduced. A set of 59 units without tone information was used for comparison. These two sets are widely used in the latest Chinese ASR system. The verification text corpus includes 1,614 short sentences, and the total number of words is 9,484.
図5を参照して、59の声調なしの単位セットC(ボックス132で示す)と比較して、元の203の声調付きセットは、ビット表現でより高い相互情報量を有する。線130で示す削減過程で、同じ59単位の数を備えて生成された単位セットは、図5の点Aで示すように、声調なしの単位セットに比べてより高い相互情報量を維持した。言換えれば、生成されたセットAは、数が同じであるにもかかわらず、伝統的な59の声調なし単位セットよりも良好な言語的識別力を有する。図5の点Bの単位セットは、声調なし単位セットCとほぼ同じ量の相互情報量を維持しているが、単位数は遥かに少ない。数は47であり、従ってこれはCセットより効率が良い。
Referring to FIG. 5, as compared to the unit set without tone of 59 C (indicated by box 132), tone with the original set of 203, has a higher mutual information in bit representation. In the reduction process indicated by the
上述の通り、この実施例のシステムと方法とは、相互情報量を減じることなく、音素セット中の音素の数をうまく減じることができる。タスクを特定したテキストをトレーニングに用いれば、音素セットはそのタスク用に最適化でき、その音素セットを用いれば、そのタスクについて十分な識別力を有する頑健な音響モデルを得ることができる。また、十分に詳細な識別力を有する言語モデルを提供できる。 As described above, the system and method of this embodiment can successfully reduce the number of phonemes in a phoneme set without reducing the amount of mutual information. If the text specifying the task is used for training, the phoneme set can be optimized for the task, and if the phoneme set is used, a robust acoustic model having sufficient discrimination power for the task can be obtained. In addition, it is possible to provide a language model having sufficiently detailed discrimination power.
上述の実施例では音素セットを最適化したが、この発明は音素セットの最適化に限定されない。この発明は、ASRにおいて音素セットに置換可能ないずれの基本音素単位セットの最適化にも適用可能である。例えば、語彙が比較的小さい場合には、単位セットは語彙中の単語(単語発音)のセットであり得る。 In the above embodiment, the phoneme set is optimized, but the present invention is not limited to the optimization of the phoneme set. The present invention is applicable to optimization of any basic phoneme unit set that can be replaced with a phoneme set in ASR. For example, if the vocabulary is relatively small, the unit set can be a set of words (word pronunciations) in the vocabulary.
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。 The embodiment disclosed herein is merely an example, and the present invention is not limited to the above-described embodiment. The scope of the present invention is indicated by each of the claims after taking into account the description of the detailed description of the invention, and all modifications within the meaning and scope equivalent to the wording described therein are intended. Including.
40 トレーニング用ASRシステム
42 言語モデル
44 レキシコンベースのデコードシステム
50 ASRモジュール
52 単語ラティススコアリングモジュール
60 レキシコンベースの変換モジュール
62、64 辞書
66 単語ラティススコアリングモジュール
80 音素セット最適化システム
90 基本単位セット
92 トレーニングテキスト
94 最適化音素セット
96 音素セット最適化モジュール
40
Claims (5)
コンピュータ読出可能なフォーマットで基本単位セットを準備するステップと、
前記基本単位セットにリーブ・ワン・アウト法を適用することによって複数個の基本単位サブセットを生成するステップと、
前記基本単位サブセットの各々について言語的識別力の所定の尺度を計算するステップと、
前記基本単位セットを、前記基本単位サブセットのうち最も高い言語的識別力を備えたもので置換えるステップと、
前記生成するステップ、計算するステップ、及び置換えるステップを、所定の基準が満たされるまで繰返すステップとを実行させる、予め定められた言語の音素単位セットを最適化する方法。 A method for optimizing a phoneme unit set of a predetermined language, comprising:
Preparing a basic unit set in a computer readable format;
Generating a plurality of basic unit subsets by applying a leave-one-out method to the basic unit set;
Calculating a predetermined measure of linguistic discriminatory power for each of said basic unit subsets;
Replacing the basic unit set with the highest linguistic discriminatory of the basic unit subsets;
A method for optimizing a phoneme unit set of a predetermined language, wherein the generating step, the calculating step, and the replacing step are repeated until a predetermined criterion is satisfied.
基本単位セットをコンピュータ読出可能なフォーマットで記憶するための記憶手段と、
前記基本単位セットにリーブ・ワン・アウト法を適用することによって複数個の基本単位サブセットを生成するための生成手段と、
前記基本単位サブセットの各々について言語的識別力の所定の尺度を計算するための計算手段と、
前記記憶手段に記憶された前記基本単位セットを、最も高い言語的識別力を有する基本単位サブセットで置換えるための置換手段と、
前記記憶手段、生成手段、計算手段及び置換手段を、所定の基準が満たされるまで繰返し動作するよう制御するための制御手段とを含む、システム。 A system for optimizing a unit set of a predetermined language,
Storage means for storing the basic unit set in a computer readable format;
Generating means for generating a plurality of basic unit subsets by applying a leave-one-out method to the basic unit set;
Calculating means for calculating a predetermined measure of linguistic discriminatory power for each of said basic unit subsets;
Replacement means for replacing the basic unit set stored in the storage means with a basic unit subset having the highest linguistic discriminatory power;
And a control means for controlling the storage means, the generating means, the calculating means, and the replacing means so as to repeatedly operate until a predetermined criterion is satisfied.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004318208A JP4631076B2 (en) | 2004-11-01 | 2004-11-01 | Method and system for optimizing phoneme unit sets |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004318208A JP4631076B2 (en) | 2004-11-01 | 2004-11-01 | Method and system for optimizing phoneme unit sets |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2006126730A JP2006126730A (en) | 2006-05-18 |
JP2006126730A5 JP2006126730A5 (en) | 2010-08-26 |
JP4631076B2 true JP4631076B2 (en) | 2011-02-16 |
Family
ID=36721513
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004318208A Active JP4631076B2 (en) | 2004-11-01 | 2004-11-01 | Method and system for optimizing phoneme unit sets |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4631076B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4962962B2 (en) * | 2007-09-11 | 2012-06-27 | 独立行政法人情報通信研究機構 | Speech recognition device, automatic translation device, speech recognition method, program, and data structure |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10501078A (en) * | 1995-11-04 | 1998-01-27 | インターナシヨナル・ビジネス・マシーンズ・コーポレーション | Method and apparatus for adapting the size of a language model of a speech recognition system |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3110478B2 (en) * | 1991-03-26 | 2000-11-20 | 日本放送協会 | Pattern recognition method and apparatus |
JP2982689B2 (en) * | 1996-04-19 | 1999-11-29 | 日本電気株式会社 | Standard pattern creation method using information criterion |
US6317712B1 (en) * | 1998-02-03 | 2001-11-13 | Texas Instruments Incorporated | Method of phonetic modeling using acoustic decision tree |
JP3004254B2 (en) * | 1998-06-12 | 2000-01-31 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | Statistical sequence model generation device, statistical language model generation device, and speech recognition device |
-
2004
- 2004-11-01 JP JP2004318208A patent/JP4631076B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10501078A (en) * | 1995-11-04 | 1998-01-27 | インターナシヨナル・ビジネス・マシーンズ・コーポレーション | Method and apparatus for adapting the size of a language model of a speech recognition system |
Also Published As
Publication number | Publication date |
---|---|
JP2006126730A (en) | 2006-05-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6827548B2 (en) | Speech recognition system and speech recognition method | |
JP6818941B2 (en) | How to Train Multilingual Speech Recognition Networks, Speech Recognition Systems and Multilingual Speech Recognition Systems | |
JP6929466B2 (en) | Speech recognition system | |
US7966173B2 (en) | System and method for diacritization of text | |
JP5072415B2 (en) | Voice search device | |
US7480612B2 (en) | Word predicting method, voice recognition method, and voice recognition apparatus and program using the same methods | |
JPWO2009078256A1 (en) | Pronunciation variation rule extraction device, pronunciation variation rule extraction method, and pronunciation variation rule extraction program | |
US20100100379A1 (en) | Voice recognition correlation rule learning system, voice recognition correlation rule learning program, and voice recognition correlation rule learning method | |
JP2004341520A (en) | Voice recognizing method | |
KR101424193B1 (en) | System And Method of Pronunciation Variation Modeling Based on Indirect data-driven method for Foreign Speech Recognition | |
JP5180800B2 (en) | Recording medium for storing statistical pronunciation variation model, automatic speech recognition system, and computer program | |
JP3364631B2 (en) | Statistical language model generation apparatus and speech recognition apparatus | |
JP4595415B2 (en) | Voice search system, method and program | |
JP4631076B2 (en) | Method and system for optimizing phoneme unit sets | |
JP6001944B2 (en) | Voice command control device, voice command control method, and voice command control program | |
JP3088364B2 (en) | Spoken language understanding device and spoken language understanding system | |
JP2011007862A (en) | Voice recognition device, voice recognition program and voice recognition method | |
JP5137588B2 (en) | Language model generation apparatus and speech recognition apparatus | |
Shen et al. | Speech intent recognition for robots | |
JP2008242059A (en) | Device for creating speech recognition dictionary, and speech recognition apparatus | |
Calderone et al. | Phonolette: a grapheme-to-phoneme converter for French | |
JP4299630B2 (en) | Model structure creation device, speech recognition device, and model structure creation program | |
WO2022250895A1 (en) | Word prediction using alternative n-gram contexts | |
KR20220121182A (en) | Method and system for predicting cognitive impairment based on document classification model and fluency tagging | |
JPS63153596A (en) | Voice sentence input device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20071012 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100427 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100525 |
|
A524 | Written submission of copy of amendment under article 19 pct |
Free format text: JAPANESE INTERMEDIATE CODE: A524 Effective date: 20100712 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20101005 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20101025 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4631076 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131126 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |