JP4037709B2 - Speech recognition method and speech recognition system - Google Patents
Speech recognition method and speech recognition system Download PDFInfo
- Publication number
- JP4037709B2 JP4037709B2 JP2002216493A JP2002216493A JP4037709B2 JP 4037709 B2 JP4037709 B2 JP 4037709B2 JP 2002216493 A JP2002216493 A JP 2002216493A JP 2002216493 A JP2002216493 A JP 2002216493A JP 4037709 B2 JP4037709 B2 JP 4037709B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- pattern
- registered
- speech recognition
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【0001】
【発明の属する技術分野】
本発明は、音声認識方法及び音声認識システムに係わり、特に、話者適応技術を用いた音声認識方法及び音声認識システムに関する。
【0002】
【従来の技術】
特定話者に対する音声認識性能を向上させるために、音声認識装置は該特定話者の音声を学習する話者適応技術を用いる。かかる話者適応技術は大別すると、教師あり、教師なしの2種類に分類可能である。ここでの教師とは入力発声の発声内容を表す音韻表記列を指す。教師あり適応化とは、入力発声に対する音韻表記列が既知の場合の適応化手法であり、適応化の際、未知話者に対し発声語彙を事前に指示する必要がある。
【0003】
一方、教師なし適応化とは、入力発声に対する音韻表記列が未知の場合の適応化手法であり、未知話者に対し入力発声の発声内容を限定しない、すなわち、未知話者に対し発声内容を指示をする必要がなく、実際に音声認識を使用中の入力音声を用いて、未知話者に意識させずに適応化を行なえるため、使用者にとって使いやすい方式である。
一般に、教師なし適応化は教師あり適応化に比べ、適応化後の認識性能が低いため、現在は教師あり適応化がよく使われている。
【0004】
以下、従来の教師あり適応化技術を用いた音声認識装置について図2を参照して説明する。
音声認識装置1に入力された話者の発声Sは、入力パターン作成部2に入力され、AD変換、音声分析などの過程を経て、ある時間長をもつフレームと呼ばれる単位ごとの特徴ベクトルの時系列に変換される。この特徴ベクトルの時系列を、ここでは入力パターンと呼ぶ。特徴ベクトルはその時刻における音声スペクトルの特徴量を抽出したもので、通常10次元から100 次元である。
【0005】
一方、標準パターン記憶部3には隠れマルコフモデル(HMM:Hidden Markov Model )が記憶されている。HMMは音声の情報源モデルの1つであり、話者の音声を用いてそのパラメータを学習することができる。HMMは通常所定の認識単位ごとに用意され、ここでは、認識単位として音素を例にとる。従って、標準パターン記憶部3には図3に示すように 音素HMMが標準パターンとして記憶される。音素HMMは、例えば、予め多くの話者の発声を用いて学習した不特定話者HMMが用いられる。
1000単語を認識対象とする場合、即ち1000単語の認識候補から1単語の正解を求める場合を想定する。単語認識に際して、語彙パターン作成部5は単語を構成する各音素のHMMを連結して、認識候補単語のHMM(単語MFF)を作成する。1000単語認識の場合には1000単語分の単語HMMを作成する。すなわち、語彙パターン作成部5は図4に示すように、1000語の単語を記憶する単語記憶部5aと音素HMMを連結して各単語の単語HMMを作成する単語HMM作成部5bを有している。
【0006】
認識部4では、語彙パターン作成部5で作成された1000単語の単語HMMを用いて入力パターンの認識を行なう。音素HMMは、音声の情報源のモデルであり、音声パターンの様々な揺らぎに対処するため、標準パターンの記述に統計的な考えが導入されている。音素HMMは、通常1から10個の状態とその間の状態遷移から構成される。通常は始状態と終状態が定義されており、単位時間ごとに、各状態からシンボルが出力され、状態遷移が行なわれる。音素の音声パターンは、始状態から終状態までの状態遷移の間に出力されるシンボルの時系列として表される。各状態にはシンボルの出現確率が、状態間の各遷移には遷移確率が定義されている。遷移確率パラメータは音声パターンの時間的な揺らぎを表現するためのパラメータである。出現確率パラメータは、音声パターンの声色の揺らぎを表現するものである。始状態の確率をある値に定め、状態遷移ごとに出現確率、遷移確率を入力パターンに掛けていくことにより、入力音声があるHMMから発生したと仮定した時のその発生確率を計算することができる。
【0007】
HMMによる音声認識では、1000個の認識候補単語に対して単語HMMを用意し、音声が入力されると、各々の認識候補単語の単語HMMにおいて、発生確率を求め、最大となる単語HMMを発生源と決定し、その単語HMMに対応する認識候補単語をもって認識結果とする。認識結果単語は、認識結果出力部6に送られる。認識結果出力部6は、認識結果を画面上に出力し、あるいは、認識結果に対応した制御命令を別の装置に送出するなどの処理を行なう。尚、以上では標準パターン記憶部3に音素に応じてHMMを記憶したが、図5に示すように単語に応じて単語HMMを保存することもできる。かかる場合には語彙パターン作成部5は不用になる。
【0008】
次に、音声認識装置1に対する教師あり話者適応化技術について説明する。教師あり話者適応化では、発声する単語を予め使用者に指示して、単語表記と入力音声を用いて音素HMMのパラメータの更新を行なう。このように予め発声に対する正解単語がわかっているという意味で教師あり適応化と呼ばれる。
【0009】
最初に認識時と同様に、入力パターン作成部7は入力音声から入力パターンを作成する。教師あり適応化の場合、正解単語は予めわかっているため、適応化用辞書作成部8は入力された正解単語表記(入力音声表記)から適応化用辞書を作成する。次に、教師あり適応化部9の語いパターン作成部9aは、適応化辞書の音素系列と適応化初期標準パターン記憶部9bに予め記憶されている音素毎の適応化初期HMMを用いて入力パターンに対応する単語HMMを作成する。そして、適応化部9cは入力パターンと適応化用単語HMMの間で尤度計算を行ない、1つ又は複数の入力パターンについて適応化処理を行った後、適応化後の平均ベクトルを計算して適応化後HMMを求め、適応化されたHMMを標準パターン記憶部3に入力し、それまでの標準HMMのかわりに記憶する。
以上の教師あり適応技術は周知であり、例えば、特開平7-230295合公報に詳細に記述されている。
【0010】
【発明が解決しようとする課題】
しかし、教師あり適応化方式では、本来の音声認識における音声の発生とは別に、トレーニングとして装置から指示された単語を発声しなければならず、負担が大きいという欠点がある。すなわち、ヒューマン・インタフェースを良くする(機器の操作をやりやすくする)という音声認識装置を搭載した本来の目的とは違う目的(音声認識の認識性能向上)の作業をする必要があり、煩雑であると共にユーザに負担を強いる問題がある。
以上から本発明の目的は、使用者に意識させずに、自動的に、教師あり適応化方式と同等の性能を備えるようにできる音声認識方法及び音声認識システムを提供することである。
本発明の別の目的は、簡易な構成で教師あり適応化方式と同等の性能を備えるようにできる音声認識方法及び音声認識システムを提供することである。
【0011】
【課題を解決するための手段】
本発明の第1は、複数の単語の登録音声パターンと入力音声パターンとを比較し、最も類似している登録音声パターンに基づいて音声入力された単語を認識する音声認識方法において、音素に対応させて登録されている標準パターン ( 音声パターン ) を用いて入力音声の音声認識をする音声認識エンジンを音声認識装置に設け、該音声認識エンジンによる音声認識結果と入力音声パターンとを外部の登録音声パターン改良装置に送るステップ、該登録音声パターン改良装置において、前記音声認識装置から送られてきた入力音声パターンに基づいて音声認識するステップ、該音声認識結果である入力音声表記を教師あり話者適応学習における教師信号とみなすステップ、該教師信号と前記音声認識装置から送られてきた前記入力音声パターンを用いて教師あり話者適応化処理を行ない、該教師信号と前記音声認識装置から送られてきた音声認識結果とを比較して異なる音素を求め、該異なる音素の登録音声パターンの改良データを前記話者適応化処理結果に基づいて生成するステップ、該登録音声パターンの改良データを前記音声認識装置に送信するステップ、前記音声認識装置において、前記送られてきた改良データにより前記音声認識エンジンに登録されている登録音声パターンを更新するステップを有している。
【0012】
又、本発明の第2は音声認識システムであり、複数の単語の登録音声パターンと入力音声パターンとを比較し、最も類似している登録音声パターンに基づいて音声入力された単語を認識する音声認識装置と、音声認識装置における前記登録音声パターンを改良する登録音声パターン改良装置を備え、音声認識装置は、音素に対応させて登録されている標準パターン ( 音声パターン ) を用いて入力音声の音声認識をする音声認識エンジンを備え、該音声認識エンジンによる音声認識結果と入力音声パターンとを外部の登録音声パターン改良装置に送り、該登録音声パターン改良装置は、前記音声認識装置から送られてきた入力音声パターンに基づいて音声認識し、該音声認識結果である入力音声表記を、教師あり話者適応学習における教師信号とみなし、該教師信号と前記音声認識装置から送られてきた前記入力音声パターンを用いて教師あり話者適応化処理を行ない、該教師信号と前記音声認識装置から送られてきた音声認識結果とを比較して異なる音素を求め、該異なる音素の登録音声パターンの改良データを前記話者適応化処理結果に基づいて生成し、該登録音声パターンの改良データを前記音声認識装置に送信し、前記音声認識装置は、前記送られてきた改良データにより前記音声認識エンジンに登録されている登録音声パターンを更新する。
本発明によれば、アンダーグラウンドで音声認識装置の教師あり話者適応学習を行うことが可能となるため、ユーザーは音声認識装置に教師信号を供給する必要がなくなり、又、学習自体は教師あり学習であるため、学習が誤った方向に進む恐れもなくなり、精度の高い学習が可能となり認識率を向上できる。
【0013】
【発明の実施の形態】
(A)音声認識システムの構成
図1は本発明の音声認識装置を含む音声認識システムの構成図であり、音声入力により制御される装置に取り付けられた音声認識装置11と、認識性能が向上するように、音声認識装置11の標準パターン記憶部に記憶されている標準パターンを特定するパラメータ類を更新する改良センター12が設けられている。音声認識装置11と改良センター12間は任意の通信方式、例えばLAN,携帯電話による無線通信等により自由に通信できるようになっている。
【0014】
音声認識装置11において、音声入力用マイクロホ21は話者が入力した音声を検出して出力し、ADコンバータ22は音声信号をディジタルに変換し、音声認識エンジン23は、図2の従来例(音声認識装置1)と同様の構成を備えて入力音声を認識する。音声データファイル・認識結果保存部24は入力音声の認識結果を保存すると共に入力音声パターンデータをWAV形式で記憶する。データ送信部25は保存部24に保存されている1以上の認識結果と入力音声パターンデータを対にして改良センターに送信する。データ受信部26は改良センタ12より改良データ(標準パターンを特定するパラメータ類)を受信し、インストーラー27は受信した改良データにより音声認識エンジン23の標準パターンデータを更新する。
【0015】
改良センター12において、データ受信部31は音声認識装置11から送られてくる複数組の認識結果・入力パターンデータを受信し、教師信号生成部32は、音声認識装置11の音声認識域エンジン23よりはるかに高性能の音声認識エンジンを備え、送られてきた各組の入力パターンデータに基づいて音声認識を行い、認識結果を入力パターンの入力音声表記(教師信号)として出力する。改良部33は、入力音声表記)と音声認識装置11より送られてきた入力パターンデータとを用いて図2の教師あり適応化部9と同様の適応化処理を行って適応化した音素のHMMを求める。しかる後、音声認識装置より送られてきた認識結果と教師信号(入力音声表記)とを比較して異なる音素を求め、該異なる音素の適応化されたHMMを出力する。改良データ記憶部34は改良部33より出力される改良データ(各音素の適応化されたHMM)を保存し、データ送信部35は該改良データを音声認識装置に送信する。
【0016】
(B)音声認識システムの全体の動作
▲1▼ユーザーが音声認識装置11を使ったとき、そのときの発話内容(音声パターン)と音声認識エンジン23が認識した認識結果をそれぞれ音声データファイル・認識結果保存部24に記録しておく。発話内容は例えばWAVファイル形式で保持し、IDコードを付与する。認識結果は該IDコードと対応して、例えばテキスト形式で記録する。
▲2▼一定期間(ユーザーの任意でも良いし、メーカー側で設定しても良い)が経過したとき、データ送信部25は音声データファイル・認識結果保存部24に記録されている音声データファイルと認識結果を対にして改良センター12に送信する。
【0017】
▲3▼改良センター12において、データ受信部31は音声認識装置11より受信した情報を内蔵のメモリに記憶すると共に順次、発話内容と認識結果を対にして教師信号生成部32と改良部33に入力する。教師信号生成部32は、入力された音声パターンデータに基づいて音声認識を行い、認識結果を入力音声パターンの入力音声表記として出力し、改良部33は、入力音声表記と入力音声パターンデータとを用いて適応化処理を行って適応化した音素のHMMを求める。しかる後、改良部33は音声認識装置11より送られてきた認識結果と教師信号(入力音声表記)とを比較して異なる音素を求め、該異なる音素の適応化されたHMMを出力する。改良データ記憶部34は改良部33より出力される改良データ(各音素の適応化されたHMM)を保存し、データ送信部35は該改良データを音声認識装置11に送信する。
【0018】
▲4▼改良データを受信したをインストーラー27は、改良データ(各音素の適応化されたHMM)を音声認識エンジン23内の標準パターン記憶部にインストールし、それまでの標準HMMのかわりに記憶する。
以上では、標準HMMは音素HMMであるが単語HMMであっても良い。
【0019】
【発明の効果】
以上本発明によれば、アンダーグラウンドで音声認識装置の教師あり話者適応学習を行うことが可能となるため、ユーザー(話者)が、音声認識装置に教師信号を供給する必要がなくなる。
また、本発明によれば、学習自体は教師あり学習であるため、学習が誤った方向に進む恐れもなくなり、精度の高い学習が可能となるため、個々のユーザが音声認識装置を使った場合に享受できる認識性能を向上させることができる。
また、本発明によれば、ユーザーの音声を高性能の音声認識エンジンを備えたセンター側に送って改良データを生成し、該改良データをユーザの音声認識装置の音声認識エンジンにインストールするため、不特定話者対応の認識率を向上した音声認識装置を提供できる。また、ユーザのーの音声認識エンジンに高性能のものは不要であり、安価で、小型な装置構成とすることができる。
【図面の簡単な説明】
【図1】本発明の音声認識装置を含む音声認識システムの構成図である。
【図2】従来の教師あり適応化技術を用いた音声認識装置である。
【図3】音素HMMを標準パターンとして記憶する例である。
【図4】語彙パターン作成部の構成図である。
【図5】単語HMMを標準パターンとして記憶する例である。
【符号の説明】
11 音声認識装置
12 改良センター
21 音声入力用マイクロホ
22 ADコンバータ
23 音声認識エンジン
24 音声データファイル・認識結果保存部
27 インストーラー
31 データ受信部
32 教師信号生成部
33 改良部
34 改良データ記憶部[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a speech recognition method and a speech recognition system , and more particularly to a speech recognition method and speech recognition system using speaker adaptation technology.
[0002]
[Prior art]
In order to improve speech recognition performance for a specific speaker, the speech recognition apparatus uses a speaker adaptation technique for learning the speech of the specific speaker. Such speaker adaptation techniques can be broadly classified into two types: supervised and unsupervised. The teacher here refers to a phoneme notation string representing the utterance content of the input utterance. The supervised adaptation is an adaptation method in the case where the phoneme notation sequence for the input utterance is known, and it is necessary to indicate the utterance vocabulary to the unknown speaker in advance at the time of adaptation.
[0003]
On the other hand, unsupervised adaptation is an adaptation method when the phoneme notation sequence for the input utterance is unknown, and does not limit the utterance content of the input utterance to the unknown speaker, that is, the utterance content for the unknown speaker. There is no need to give an instruction, and the adaptation can be performed without making the unknown speaker aware of the input speech that is actually being used for speech recognition.
In general, unsupervised adaptation has a lower recognition performance after adaptation than supervised adaptation, and thus supervised adaptation is often used.
[0004]
Hereinafter, a speech recognition apparatus using a conventional supervised adaptation technique will be described with reference to FIG.
The speaker's utterance S input to the speech recognition device 1 is input to the input
[0005]
On the other hand, the standard
Assume that 1000 words are to be recognized, that is, a correct answer for one word is obtained from 1000 word recognition candidates. At the time of word recognition, the vocabulary
[0006]
The recognition unit 4 recognizes an input pattern using the 1000-word word HMM created by the vocabulary
[0007]
In speech recognition by HMM, word HMMs are prepared for 1000 recognition candidate words, and when speech is input, the occurrence probability is obtained in the word HMM of each recognition candidate word, and the maximum word HMM is generated. The recognition candidate word corresponding to the word HMM is determined as a recognition result. The recognition result word is sent to the recognition
[0008]
Next, a supervised speaker adaptation technique for the speech recognition apparatus 1 will be described. In supervised speaker adaptation, a word to be uttered is instructed to a user in advance, and phoneme HMM parameters are updated using word notation and input speech. This is called supervised adaptation in the sense that the correct word for the utterance is known in advance.
[0009]
First, as in the case of recognition, the input pattern creation unit 7 creates an input pattern from the input voice. In the case of supervised adaptation, since the correct word is known in advance, the adaptation dictionary creation unit 8 creates an adaptation dictionary from the inputted correct word notation (input speech notation). Next, the vocabulary
The supervised adaptation technique described above is well known and is described in detail, for example, in Japanese Patent Laid-Open No. 7-230295.
[0010]
[Problems to be solved by the invention]
However, the supervised adaptation method has a drawback in that a word instructed from the apparatus must be uttered as training separately from the generation of speech in the original speech recognition, and the burden is large. In other words, it is necessary to work for a purpose (improving the recognition performance of speech recognition) different from the original purpose of installing the speech recognition device to improve the human interface (to make it easier to operate the device), which is complicated. In addition, there is a problem that imposes a burden on the user.
Accordingly, an object of the present invention is to provide a speech recognition method and a speech recognition system that can automatically have the same performance as a supervised adaptation method without making the user aware of it.
Another object of the present invention is to provide a speech recognition method and a speech recognition system capable of providing a performance equivalent to that of a supervised adaptation method with a simple configuration.
[0011]
[Means for Solving the Problems]
A first aspect of the present invention is a speech recognition method that compares registered speech patterns of a plurality of words with an input speech pattern and recognizes a speech input word based on the most similar registered speech pattern. A speech recognition engine for recognizing the input speech using the standard pattern ( speech pattern ) registered in the speech recognition device, and the speech recognition result by the speech recognition engine and the input speech pattern are externally registered speech A step of sending to a pattern improvement device; a step of recognizing speech based on an input speech pattern sent from the speech recognition device in the registered speech pattern improvement device; A step of considering as a teacher signal in learning, the teacher signal and the input speech pattern sent from the speech recognition device; And performing supervised speaker adaptation processing, comparing the teacher signal with the speech recognition result sent from the speech recognition apparatus to obtain different phonemes, and obtaining the improved speech data of the registered speech pattern of the different phonemes. A step of generating based on the result of the user adaptation processing, a step of transmitting the improved data of the registered voice pattern to the voice recognition device, and the voice recognition device being registered in the voice recognition engine by the sent improvement data. Updating the registered voice pattern .
[0012]
The second of the present invention is a speech recognition system, speech recognition word that is the voice input based on the registered voice patterns by comparing the plurality of words registered voice pattern and the input speech pattern, most similar a recognition device, provided with a registered voice pattern improved apparatus for improving the registered voice pattern in the voice recognition apparatus, the speech recognition apparatus, speech of the input speech using the reference pattern (voice patterns) registered in correspondence with the phoneme A speech recognition engine for recognizing the speech recognition result by the speech recognition engine and an input speech pattern are sent to an external registered speech pattern improvement device, and the registered speech pattern improvement device is sent from the speech recognition device Speech recognition is performed based on the input speech pattern, and the input speech notation that is the speech recognition result is used as a teacher signal in supervised speaker adaptive learning. None, a supervised speaker adaptation process is performed using the teacher signal and the input speech pattern sent from the speech recognition device, and the teacher signal and the speech recognition result sent from the speech recognition device are Comparing different phonemes, generating improved data of the registered speech pattern of the different phonemes based on the speaker adaptation processing result, transmitting the improved data of the registered speech pattern to the speech recognition device, and The recognizing device updates the registered speech pattern registered in the speech recognition engine with the received improved data .
According to the present invention, it is possible to perform supervised speaker adaptive learning of the speech recognition device in the underground, so that the user does not need to supply a teacher signal to the speech recognition device, and the learning itself is supervised. Since it is learning, there is no risk of learning going in the wrong direction, and highly accurate learning is possible and the recognition rate can be improved.
[0013]
DETAILED DESCRIPTION OF THE INVENTION
(A) Configuration of Speech Recognition System FIG. 1 is a configuration diagram of a speech recognition system including a speech recognition device according to the present invention, and the
[0014]
In the
[0015]
In the
[0016]
(B) Overall operation of the speech recognition system (1) When the user uses the
(2) When a certain period of time (which may be set by the user or set by the manufacturer) elapses, the
[0017]
(3) In the
[0018]
(4) Upon receiving the improved data, the
In the above, the standard HMM is a phoneme HMM, but it may be a word HMM.
[0019]
【The invention's effect】
As described above, according to the present invention, it is possible to perform supervised speaker adaptive learning of the speech recognition apparatus in the underground, so that it is not necessary for the user (speaker) to supply a teacher signal to the speech recognition apparatus.
Further, according to the present invention, since the learning itself is supervised learning, there is no risk of learning going in the wrong direction, and high-accuracy learning is possible, so that each user uses a speech recognition device. The recognition performance that can be enjoyed by the user can be improved.
Further, according to the present invention, the user's voice is sent to the center side equipped with a high-performance voice recognition engine to generate improved data, and the improved data is installed in the voice recognition engine of the user's voice recognition device. It is possible to provide a speech recognition apparatus with an improved recognition rate for unspecified speakers. In addition, the user's voice recognition engine does not require a high-performance engine, and can be inexpensive and have a small device configuration.
[Brief description of the drawings]
FIG. 1 is a configuration diagram of a voice recognition system including a voice recognition device of the present invention.
FIG. 2 is a speech recognition apparatus using a conventional supervised adaptation technique.
FIG. 3 is an example of storing a phoneme HMM as a standard pattern.
FIG. 4 is a configuration diagram of a vocabulary pattern creation unit.
FIG. 5 is an example of storing a word HMM as a standard pattern.
[Explanation of symbols]
DESCRIPTION OF
Claims (2)
音素に対応させて登録されている標準パターン ( 音声パターン ) を用いて入力音声の音声認識をする音声認識エンジンを音声認識装置に設け、該音声認識エンジンによる音声認識結果と入力音声パターンとを外部の登録音声パターン改良装置に送り、
該登録音声パターン改良装置において、
前記音声認識装置から送られてきた入力音声パターンに基づいて音声認識し、
該音声認識結果である入力音声表記を教師あり話者適応学習における教師信号とみなし、
該教師信号と前記音声認識装置から送られてきた前記入力音声パターンを用いて教師あり話者適応化処理を行ない、該教師信号と前記音声認識装置から送られてきた音声認識結果とを比較して異なる音素を求め、該異なる音素の登録音声パターンの改良データを前記話者適応化処理結果に基づいて生成し、
該登録音声パターンの改良データを前記音声認識装置に送信し、
前記音声認識装置において、前記送られてきた改良データにより前記音声認識エンジンに登録されている登録音声パターンを更新する、
ことを特徴とする音声認識方法。In a speech recognition method for comparing a registered speech pattern of a plurality of words and an input speech pattern and recognizing a speech input word based on the most similar registered speech pattern,
It provided a voice recognition engine to the speech recognition of the input speech using the reference pattern (voice patterns) registered in correspondence with the phoneme to the speech recognition device, an external speech recognition result by the voice recognition engine and the input speech pattern To the registered voice pattern improvement device
In the registered voice pattern improving apparatus,
Voice recognition based on the input voice pattern sent from the voice recognition device,
The input speech notation that is the speech recognition result is regarded as a teacher signal in supervised speaker adaptive learning,
Supervised speaker adaptation processing is performed using the teacher signal and the input speech pattern sent from the speech recognition device, and the teacher signal is compared with the speech recognition result sent from the speech recognition device. Obtaining different phonemes, and generating improved data of registered speech patterns of the different phonemes based on the speaker adaptation processing results,
Transmitting the improved data of the registered voice pattern to the voice recognition device;
In the voice recognition device, and it updates the registered voice pattern by improving data has the sent and registered in the voice recognition engine,
A speech recognition method characterized by the above.
音声認識装置は、音素に対応させて登録されている標準パターン ( 音声パターン ) を用いて入力音声の音声認識をする音声認識エンジンを備え、該音声認識エンジンによる音声認識結果と入力音声パターンとを外部の登録音声パターン改良装置に送り、
該登録音声パターン改良装置は、前記音声認識装置から送られてきた入力音声パターンに基づいて音声認識し、該音声認識結果である入力音声表記を、教師あり話者適応学習における教師信号とみなし、該教師信号と前記音声認識装置から送られてきた前記入力音声パターンを用いて教師あり話者適応化処理を行ない、該教師信号と前記音声認識装置から送られてきた音声認識結果とを比較して異なる音素を求め、該異なる音素の登録音声パターンの改良データを前記話者適応化処理結果に基づいて生成し、該登録音声パターンの改良データを前記音声認識装置に送信し、
前記音声認識装置は、前記送られてきた改良データにより前記音声認識エンジンに登録されている登録音声パターンを更新する、
ことを特徴とする音声認識システム。 A speech recognition device that compares a registered speech pattern of a plurality of words and an input speech pattern, recognizes a speech input word based on the most similar registered speech pattern, and improves the registered speech pattern in the speech recognition device In a speech recognition system provided with a registered speech pattern improvement device,
The speech recognition device includes a speech recognition engine that recognizes speech of an input speech using a standard pattern ( speech pattern ) registered in correspondence with phonemes, and obtains a speech recognition result and an input speech pattern by the speech recognition engine. Sent to an external registered voice pattern improvement device,
The registered speech pattern improvement device recognizes speech based on the input speech pattern sent from the speech recognition device, regards the input speech notation that is the speech recognition result as a teacher signal in supervised speaker adaptive learning, Supervised speaker adaptation processing is performed using the teacher signal and the input speech pattern sent from the speech recognition device, and the teacher signal is compared with the speech recognition result sent from the speech recognition device. Obtaining different phonemes, generating improved data of the registered speech pattern of the different phonemes based on the speaker adaptation processing result, and transmitting the improved data of the registered speech pattern to the speech recognition device,
The voice recognition device updates a registered voice pattern registered in the voice recognition engine with the improved data sent.
A speech recognition system characterized by that .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002216493A JP4037709B2 (en) | 2002-07-25 | 2002-07-25 | Speech recognition method and speech recognition system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002216493A JP4037709B2 (en) | 2002-07-25 | 2002-07-25 | Speech recognition method and speech recognition system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004061609A JP2004061609A (en) | 2004-02-26 |
JP4037709B2 true JP4037709B2 (en) | 2008-01-23 |
Family
ID=31938238
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002216493A Expired - Fee Related JP4037709B2 (en) | 2002-07-25 | 2002-07-25 | Speech recognition method and speech recognition system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4037709B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5376072B1 (en) * | 2013-01-09 | 2013-12-25 | 日本電気株式会社 | In-vehicle information system and speech recognition adaptation method |
-
2002
- 2002-07-25 JP JP2002216493A patent/JP4037709B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2004061609A (en) | 2004-02-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4546512B2 (en) | Speech recognition system using technology that implicitly adapts to the speaker | |
US7228276B2 (en) | Sound processing registering a word in a dictionary | |
KR101237799B1 (en) | Improving the robustness to environmental changes of a context dependent speech recognizer | |
KR100697961B1 (en) | Semi-supervised speaker adaptation | |
JP4103639B2 (en) | Acoustic model creation method, acoustic model creation device, and speech recognition device | |
CN1645477B (en) | Automatic speech recognition learning using user corrections | |
US10650802B2 (en) | Voice recognition method, recording medium, voice recognition device, and robot | |
JP6654611B2 (en) | Growth type dialogue device | |
CN110136692A (en) | Phoneme synthesizing method, device, equipment and storage medium | |
JP2002304190A (en) | Method for generating pronunciation change form and method for speech recognition | |
JP2002268675A (en) | Voice recognition device | |
JPH0962291A (en) | Pattern adaptive method using describing length minimum reference | |
JP4037709B2 (en) | Speech recognition method and speech recognition system | |
JP4461557B2 (en) | Speech recognition method and speech recognition apparatus | |
JP3039399B2 (en) | Non-native speech recognition device | |
KR20200090580A (en) | System and method for interpreting and translating using smart clothes | |
JPH11311994A (en) | Information processor, information processing method, and presentation media | |
JP2976795B2 (en) | Speaker adaptation method | |
JP3959540B2 (en) | Automatic translation device | |
JPWO2019030810A1 (en) | Speech recognition apparatus and speech recognition method | |
JP2009265567A (en) | Voice recognition device, voice recognition method, computer program, and command recognition device | |
JP2000276188A (en) | Device and method for recognizing voice, recording medium for recording control program for recognizing voice, communication terminal device, communicating method, recording medium for recording control program of voice recognizing communication, server device, data transmission and reception method for recognizing voice, recording medium recording data transmission and reception control program for voice recognition | |
JPH0822296A (en) | Pattern recognition method | |
JPH06175678A (en) | Voice recognizing device | |
JPH1097270A (en) | Speech recognition device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050328 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070619 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070724 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070912 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20071030 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20071101 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101109 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101109 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111109 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111109 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121109 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121109 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131109 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |