JP2001265383A - Voice recognizing method and recording medium with recorded voice recognition processing program - Google Patents

Voice recognizing method and recording medium with recorded voice recognition processing program

Info

Publication number
JP2001265383A
JP2001265383A JP2000077121A JP2000077121A JP2001265383A JP 2001265383 A JP2001265383 A JP 2001265383A JP 2000077121 A JP2000077121 A JP 2000077121A JP 2000077121 A JP2000077121 A JP 2000077121A JP 2001265383 A JP2001265383 A JP 2001265383A
Authority
JP
Japan
Prior art keywords
phoneme
model
state
path
certain time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2000077121A
Other languages
Japanese (ja)
Inventor
Yasunaga Miyazawa
康永 宮沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP2000077121A priority Critical patent/JP2001265383A/en
Publication of JP2001265383A publication Critical patent/JP2001265383A/en
Withdrawn legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To improve voice recognizing performance on hardware composed of a CPU which has a small memory and small processing capability. SOLUTION: Temporary phoneme speech continuing times T11, T12... by phonemes constituting an input voice are obtained, the voice section of the input voice data is divided by the mentioned phoneme speech continuing times, and the path from the 1st-stage phoneme model to the final-stage phoneme model of HMM is given limitations on some phoneme model in sections (other than the sections shown by thick-line arrows) from certain time to certain time based upon the temporary phoneme speech continuing times. The limitations of the path is the control for inhibiting the transition from the final state of one phoneme model to the initial state of the next phoneme model from certain time to certain time based upon the temporary phoneme speech continuing times.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は少ないメモリ容量や
演算能力の低いCPUで構成される安価なハードウエア
上で音声認識性能の向上を図った音声認識方法および音
声認識処理プログラムを記録した記録媒体に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a speech recognition method for improving speech recognition performance on inexpensive hardware constituted by a CPU having a small memory capacity and a low arithmetic capacity, and a recording medium for recording a speech recognition processing program. About.

【0002】[0002]

【従来の技術】音声認識技術は様々な分野で広く利用さ
れてきている。音声認識を行う際の問題点として、同じ
単語であっても、話者の違いや同じ話者でもそのときの
発話の仕方の違いによる音声パターンの変動、あるい
は、前後に存在する音韻環境による音声パターンの変動
(調音結合)、さらには、同じ単語でもそれを発話し終
わるまでに要する時間の長さの変動による音声パターン
の変動など、様々な要因による音声パターンの変動に対
応した認識処理を行う必要がある。
2. Description of the Related Art Voice recognition technology has been widely used in various fields. The problem with speech recognition is that even for the same word, the voice pattern changes due to the difference in the speaker or the way of speaking at the same speaker, or the voice due to the phonemic environment existing before and after. Recognition processing is performed in response to fluctuations in voice patterns due to various factors such as fluctuations in patterns (articulation coupling), and fluctuations in voice patterns due to fluctuations in the length of time required to finish speaking the same word. There is a need.

【0003】このような問題点を考慮し、高い音声認識
性能を得るための音素モデルとして、従来からHMM
( Hidden Markov Model)がよく知られている。
[0003] In consideration of such problems, HMMs have been conventionally used as phoneme models for obtaining high speech recognition performance.
(Hidden Markov Model) is well known.

【0004】このHMMにおいて、簡単な方法でより一
層の認識率を向上させるための手法として、各音素に対
する発話継続時間を継続時間分布として考え、音素発話
継続時間から得られた確からしさを、認識処理を行う過
程でその音素の確からしさ(HMMの出力尤度)に考慮
する方法が知られている。
In this HMM, as a technique for further improving the recognition rate by a simple method, the utterance duration for each phoneme is considered as a duration distribution, and the likelihood obtained from the phoneme utterance duration is recognized. There is known a method of considering the likelihood of the phoneme (the output likelihood of the HMM) in the process of performing the process.

【0005】[0005]

【発明が解決しようとする課題】しかしながら、このよ
うな方法は確かに認識率の向上につながるが、音素発話
継続時間から得られた確からしさを得るための計算が必
要となり、そのような計算を行うための処理能力を持っ
たCPUやメモリを搭載するなどハードウエアを充実さ
せる必要がる。しかし、玩具など小型・軽量・安価が要
求される製品に音声認識技術を用いる場合には、使用さ
れるハードウエア規模も大きな制約があるため、上述し
た計算を可能とするCPUやメモリを搭載できないのが
現状である。
However, although such a method certainly leads to an improvement in the recognition rate, a calculation for obtaining the certainty obtained from the phoneme utterance duration is required, and such a calculation is required. It is necessary to enhance the hardware by mounting a CPU or a memory having a processing capability for performing the processing. However, when speech recognition technology is used for products requiring small size, light weight, and low cost, such as toys, the scale of hardware used is also greatly restricted, so that a CPU or memory capable of performing the above calculations cannot be mounted. is the current situation.

【0006】しかし一方で、音素の発話継続時間を考慮
した音声認識は、認識率の向上に寄与できることは確か
であるので、大きな計算量を必要とせずに音素の発話継
続時間を考慮した音声認識を可能とすることが望まれ
る。
On the other hand, however, it is certain that speech recognition taking into account the duration of phoneme utterance can contribute to an improvement in the recognition rate. Therefore, speech recognition taking into account the duration of phoneme utterance without requiring a large amount of calculation is required. It is desired to make it possible.

【0007】そこで本発明は、少ないメモリ容量や演算
能力の低いCPUで構成される安価なハードウエア上で
音声認識性能の向上を図ることができるようにすること
を目的とする。
SUMMARY OF THE INVENTION It is an object of the present invention to improve the speech recognition performance on inexpensive hardware including a small memory capacity and a low CPU.

【0008】[0008]

【課題を解決するための手段】上述した目的を達成する
ために、本発明の音声認識方法は、認識可能な単語を構
成する音素ごとの音素モデルを組み合わせて当該単語の
音素連結モデルを構成し、その音素連結モデルに対し、
入力音声の時系列音声データを与えることで、当該音素
連結モデルを構成する第1段の音素モデルから最終段の
音素モデルに至る状態遷移アルゴリズムにおける所定の
パスを通過して最終段に存在する音素モデルの最終状態
から出力尤度を得て、その出力尤度の大きさから音声認
識を行う音声認識方法であって、前記入力音声の時系列
音声データから当該入力音声を構成するそれぞれの音素
に対し、それぞれの音素の発話継続時間を個々の音素に
対する標準データに基づいて仮の音素発話継続時間とし
て得て、その入力音声を構成する音素ごとの仮の音素発
話継続時間に基づいて当該入力音声データの音声区間を
分割し、前記第1段の音素モデルから最終段の音素モデ
ルにおける状態遷移アルゴリズムにおけるパスにおい
て、ある音素に対する音素モデルに対し、前記仮の音素
発話継続時間に基づくある時刻からある時刻までの区間
にパスの制限を設けるようにしている。
In order to achieve the above-mentioned object, a speech recognition method according to the present invention comprises combining a phoneme model for each phoneme constituting a recognizable word to form a phoneme connection model of the word. , For that phoneme concatenation model,
By providing the time-series speech data of the input speech, the phonemes existing in the final stage after passing through a predetermined path in the state transition algorithm from the first stage phoneme model to the final stage phoneme model constituting the phoneme connection model. A speech recognition method for obtaining an output likelihood from the final state of the model and performing speech recognition from the magnitude of the output likelihood, wherein each of the phonemes constituting the input speech is obtained from time-series speech data of the input speech. On the other hand, the utterance duration of each phoneme is obtained as a tentative phoneme utterance duration based on standard data for each phoneme, and the input speech is determined based on the tentative phoneme utterance duration of each phoneme constituting the input speech. The voice section of the data is divided, and a certain phoneme is passed from the first-stage phoneme model to the last-stage phoneme model in the path in the state transition algorithm. To phoneme models, so that a limit of path section up to a certain time from a certain time based on the phoneme speech duration of the temporary.

【0009】このような音声認識方法において、 前記
仮の音素発話継続時間に基づくある時刻からある時刻ま
での区間に行うパスの制限は、ある音素モデルの最終状
態から次の音素モデルの最初の状態への遷移を前記仮の
音素発話継続時間に基づくある時刻からある時刻までの
間を禁止する制御である。
In such a speech recognition method, the restriction of a path to be performed in a section from a certain time to a certain time based on the tentative phoneme utterance continuation time is determined from the last state of a certain phoneme model to the first state of the next phoneme model. Is a control for prohibiting the transition to the period from a certain time to a certain time based on the temporary phoneme utterance duration.

【0010】また、本発明の音声認識処理プログラムを
記録した記録媒体は、認識可能な単語を構成する音素ご
との音素モデルを組み合わせて当該単語の音素連結モデ
ルを構成し、その音素連結モデルに対し、入力音声の時
系列音声データを与えることで、当該音素連結モデルを
構成する第1段の音素モデルから最終段の音素モデルに
至る状態遷移アルゴリズムにおける所定のパスを通過し
て最終段に存在する音素モデルの最終状態から出力尤度
を得て、その出力尤度の大きさから音声認識を行う音声
認識処理プログラムを記録した記録媒体であって、その
音声認識処理プログラムは、前記入力音声の時系列音声
データから当該入力音声を構成するそれぞれの音素に対
し、それぞれの音素の発話継続時間を個々の音素に対す
る標準データに基づいて仮の音素発話継続時間として得
る手順と、その入力音声を構成する音素ごとの仮の音素
発話継続時間に基づいて当該入力音声データの音声区間
を分割する手順と、前記第1段の音素モデルから最終段
の音素モデルにおける状態遷移アルゴリズムにおけるパ
スにおいて、ある音素に対する音素モデルに対し、前記
仮の音素発話継続時間に基づくある時刻からある時刻ま
での区間にパスの制限を設ける手順とを含むものであ
る。
Further, the recording medium storing the speech recognition processing program of the present invention forms a phoneme connection model of the word by combining the phoneme models of the phonemes constituting the recognizable word. By providing the time-series speech data of the input speech, it passes through a predetermined path in the state transition algorithm from the first-stage phoneme model to the last-stage phoneme model constituting the phoneme connection model, and exists at the last stage. A recording medium on which a speech recognition processing program for obtaining an output likelihood from the final state of the phoneme model and performing speech recognition based on the magnitude of the output likelihood is recorded, wherein the speech recognition processing program is used for the input speech. For each phoneme composing the input speech from the sequence speech data, the utterance duration of each phoneme is based on the standard data for each phoneme. Obtaining a tentative phoneme utterance duration, dividing a voice section of the input voice data based on the tentative phoneme utterance duration for each phoneme constituting the input voice, and From the path in the state transition algorithm in the phoneme model of the last stage to the phoneme model for a certain phoneme, the procedure of setting a path restriction in a section from a certain time to a certain time based on the temporary phoneme utterance duration. .

【0011】このような音声認識処理プログラムを記録
した記録媒体における音声認識処理プログラムにおい
て、前記仮の音素発話継続時間に基づくある時刻からあ
る時刻までの区間に行うパスの制限は、ある音素モデル
の最終状態から次の音素モデルの最初の状態への遷移を
前記仮の音素発話継続時間に基づくある時刻からある時
刻までの間を禁止する制御である。
[0011] In the speech recognition processing program in the recording medium on which such a speech recognition processing program is recorded, the restriction on the path to be performed in a section from a certain time to a certain time based on the provisional phoneme utterance duration is limited to a certain phoneme model. This is control for prohibiting transition from the final state to the first state of the next phoneme model from a certain time to a certain time based on the provisional phoneme utterance duration.

【0012】このように本発明は、入力音声を構成する
音素ごとの仮の音素発話継続時間を各音素ごとの標準デ
ータに基づいて求め、当該入力音声データの音声区間に
対し、その入力音声を構成する音素ごとの仮の音素発話
継続時間で分割し、HMMにおける第1段の音素モデル
から最終段の音素モデルまでの間のパスにおいて、ある
音素モデルに対し、前記仮の音素発話継続時間に基づく
ある時刻からある時刻までの区間にパスの制限を設ける
ようにしている。そして、仮の音素発話継続時間に基づ
いて行うパスの制限というのは、ある音素モデルの最終
状態から次の音素モデルの最初の状態への遷移を前記仮
の音素発話継続時間に基づくある時刻からある時刻まで
の間を禁止する制御である。
As described above, according to the present invention, the tentative phoneme utterance duration for each phoneme constituting the input speech is obtained based on the standard data for each phoneme, and the input speech is converted into the speech section of the input speech data. It is divided by the provisional phoneme utterance duration for each constituent phoneme, and in the path from the first-stage phoneme model to the final-stage phoneme model in the HMM, for a certain phoneme model, The path is restricted in a section from a certain time to a certain time based on the path. The restriction of the path performed based on the temporary phoneme utterance duration means that the transition from the final state of a certain phoneme model to the first state of the next phoneme model is performed at a certain time based on the temporary phoneme utterance duration. This is control to prohibit until a certain time.

【0013】このように、パスに制限を設けることによ
って、入力音声に対する時系列音声データに対する状態
遷移アルゴリズムは、制限のかかっていない範囲のパス
を通過して最終的な状態に到達するようなアルゴリズム
となる。このため、入力音声に対し適正な出力尤度が得
られ、誤認識を少なくすることができる。
As described above, by providing a restriction on the path, the state transition algorithm for the time-series audio data for the input audio is such that the final state can be reached through a path in an unrestricted range. Becomes For this reason, an appropriate output likelihood is obtained for the input speech, and erroneous recognition can be reduced.

【0014】たとえば、ある単語に対して高い出力尤度
の得られるように設定されたHMMの音素連結モデル
に、その単語に類似する音素を多く含むような単語の音
声データが入力された場合、その音声は、制限のかかっ
ていない範囲のパスを通過せざるを得ないので、パスに
制限が与えられていない場合に比べると、最終的な出力
尤度を小さく抑えることができる。つまり、パスに制限
が与えられていない場合には、ある音素モデル部分のあ
る仮の音素発話継続時間において、高い状態確率が得ら
れ、それが、最終段に存在する音素モデルの最終状態に
おける出力尤度に影響を与えて、結果的に、最終状態に
おける出力尤度を高い値としてしまい、誤認識を生じさ
せる原因にもなっていたが、本発明のように、パスに制
限をかけることによって、このような不具合を解消する
ことができ、認識率の向上に寄与できる。
For example, when speech data of a word containing many phonemes similar to the word is input to the phoneme connection model of the HMM set to obtain a high output likelihood for a certain word, Since the sound has to pass through a path in an unrestricted range, the final output likelihood can be reduced as compared with a case where the path is not restricted. In other words, when the path is not restricted, a high state probability is obtained for a certain temporary phoneme utterance duration of a certain phoneme model part, which is the output of the final state of the phoneme model existing at the final stage. Affecting the likelihood and consequently setting the output likelihood in the final state to a high value, causing misrecognition. However, by limiting the path as in the present invention, Such a problem can be solved and the recognition rate can be improved.

【0015】[0015]

【発明の実施の形態】以下、本発明の実施の形態につい
て説明する。なお、この実施の形態で説明する内容は、
本発明の音声認識方法についての説明であるとともに、
本発明の音声認識処理プログラムを記録した記録媒体に
おける音声認識処理プログラムの具体的な処理手順をも
含むものである。
Embodiments of the present invention will be described below. The contents described in this embodiment are as follows.
A description of the speech recognition method of the present invention,
It also includes a specific processing procedure of the voice recognition processing program on the recording medium storing the voice recognition processing program of the present invention.

【0016】本発明は類似した音声パターンを有する単
語の認識性能を高めるために、音素の音素発話継続時間
を考慮した音声認識を行う。なお、この実施の形態で
は、HMMによる音声認識を行うものとする。
The present invention performs speech recognition in consideration of the phoneme utterance duration of phonemes in order to improve the recognition performance of words having similar speech patterns. In this embodiment, it is assumed that speech recognition by HMM is performed.

【0017】まず、それぞれの音素に対する音素発話継
続時間を求める。これは、各音素について各音素に対す
る標準データから、平均的な音素発話継続時間を求め
る。たとえば、音素「a」の発話継続時間の平均が100m
sec、音素「i」の発話継続時間の平均が120msec、
音素「u」の発話継続時間の平均が100msec、音素
「e」の発話継続時間の平均が110msecというようにそ
れぞれの音素について平均の発話継続時間を求めてお
く。
First, the phoneme utterance duration for each phoneme is determined. In this method, an average phoneme utterance duration is obtained for each phoneme from standard data for each phoneme. For example, the average utterance duration of phoneme "a" is 100m
sec, the average of the utterance duration of the phoneme “i” is 120 msec,
The average utterance duration of each phoneme is determined such that the average of the utterance duration of the phoneme "u" is 100 msec and the average of the utterance duration of the phoneme "e" is 110 msec.

【0018】そして、システムが認識可能な幾つかの単
語について、その単語を構成する音素ごとの発話継続時
間の比を求める。たとえば、認識可能単語に「さとう」
という単語があるとすれば、その「さとう」を構成する
音素「s」、「a」、「t」、「o」について、それぞ
れの音素発話継続時間の比を求める。たとえば、図1
(a)のような「さとう(sato)」の音声データが
あったとする。この音声データの音声区間が370msec
であったとし、音声特徴分析処理における個々のフレー
ム長が20msecでフレームシフト長が10msecであった
とすると、この音声データは36フレームで構成されて
いることになる。
Then, for some words recognizable by the system, the ratio of the utterance duration for each phoneme constituting the word is determined. For example, the recognizable word "Sato"
If there is the word “sato”, the ratio of the phoneme utterance durations of the phonemes “s”, “a”, “t”, and “o” constituting the “sato” is obtained. For example, FIG.
It is assumed that there is audio data of "sato" as shown in FIG. The voice section of this voice data is 370 msec
If the individual frame length in the audio feature analysis processing is 20 msec and the frame shift length is 10 msec, this audio data is composed of 36 frames.

【0019】そして、上述の標準音声データから得られ
た「s」、「a」、「t」、「o」の各音素の発話継続
時間によって、それぞれの音素発話継続時間の比が、
1:2:1:2と求められたとすれば、図1(b)に示
すように、36個のフレームを1番目〜6番目のフレー
ム(フレーム数は6個)、7番目〜18番目のフレーム
(フレーム数は12個)、19番目〜24番目のフレー
ム(フレーム数は6個)、25番目〜36番目のフレー
ム(フレーム数は12個)に区切ることができ、このよ
うに区切られて得られたそれぞれのフレーム数からそれ
ぞれの音素に対するおおよその発話継続時間を求めるこ
とができる。
According to the speech duration of each phoneme of "s", "a", "t", and "o" obtained from the above-described standard voice data, the ratio of each phoneme speech duration is
Assuming that 1: 2: 1: 2 is obtained, as shown in FIG. 1B, 36 frames are divided into the first to sixth frames (the number of frames is six) and the seventh to eighteenth frames. It can be divided into frames (12 frames), 19th to 24th frames (6 frames), and 25th to 36th frames (12 frames). An approximate utterance duration for each phoneme can be obtained from the obtained number of frames.

【0020】このおおよその発話継続時間をここでは仮
の音素発話継続時間と呼ぶ。また、このようにして得ら
れた仮の音素発話継続時間によって、それぞれの音素の
仮の境界(仮の音素境界という)を求めることができ
る。この場合、図1(b)に示すように、音素「s」の
仮の音素発話継続時間はT1、音素「a」の仮の音素発
話継続時間は2T1、音素「t」の仮の音素発話継続時
間はT1、音素「o」の仮の音素発話継続時間は2T1
であり、それぞれの音素の境界(仮の音素境界)は、p
1,p2,p3として求められる。
This approximate utterance duration is referred to herein as a temporary phoneme utterance duration. Further, a temporary boundary of each phoneme (referred to as a temporary phoneme boundary) can be obtained from the temporary phoneme utterance duration obtained in this way. In this case, as shown in FIG. 1B, the provisional phoneme utterance duration of the phoneme "s" is T1, the provisional phoneme utterance duration of the phoneme "a" is 2T1, and the provisional phoneme utterance of the phoneme "t". The duration is T1, and the temporary phoneme utterance duration of the phoneme "o" is 2T1.
And the boundary of each phoneme (temporary phoneme boundary) is p
1, p2, and p3.

【0021】次に、HMMにおけるトレリスまたはビタ
ビ演算時に、ある音素モデルの最終状態から次の音素モ
デルの最初の状態への遷移を、前記仮の音素継続時間に
基づくある時刻からある時刻までの間を禁止する制限を
設ける。
Next, at the time of trellis or Viterbi calculation in the HMM, the transition from the final state of a certain phoneme model to the first state of the next phoneme model is performed between a certain time based on the temporary phoneme duration and a certain time. Restrictions are set to prohibit

【0022】今、「さとう」いう単語について、この単
語を構成する音素「s」,「a」,「t」,「o」の音
素モデルが図2(a)〜(d)に示すように、それぞれ
4状態3ループで表されるとする。そして、これら、
「s」の音素モデル、「a」の音素モデル、「t」の音
素モデル、「o」の音素モデルをそれぞれ連結すると、
図2(e)のようになる。
Now, for the word "Sato", the phoneme models of the phonemes "s", "a", "t" and "o" constituting this word are as shown in FIGS. 2 (a) to 2 (d). Are represented by four states and three loops, respectively. And these,
When the phoneme model of "s", the phoneme model of "a", the phoneme model of "t", and the phoneme model of "o" are respectively connected,
The result is as shown in FIG.

【0023】なお、この図2(e)からもわかるよう
に、「s」、「a」、「t」のそれぞれの音素モデルに
ついては、それぞれ最終段の状態、つまり、ループを持
たない状態(図2(a)〜(d)で示すように、「s」の音素
モデルでは状態S14、「a」の音素モデルでは状態S
24、「t」の音素モデルでは状態S34)を除去して
結合し、「o」の音素モデルはその最終段にループを持
たない状態S44が存在したものとなる。
As can be seen from FIG. 2 (e), each of the phoneme models "s", "a", and "t" has a final stage, that is, a state without a loop ( As shown in FIGS. 2A to 2D, the state of the phoneme model “s” is state S14, and the state of the phoneme model of “a” is state S14.
24, in the phoneme model of "t", the state S34) is removed and combined, and the phoneme model of "o" has a state S44 having no loop at the final stage.

【0024】すなわち、この「さとう」という単語に対
する音素連結モデルは、図2(e)に示すように、ルー
プを有する12個の状態S11,S12,S13,S2
1,S22,S23,S31,S32,S33, S4
1,S42,S43と最終段のループを持たない状態S
44から構成されていると考えることができる。
That is, as shown in FIG. 2E, the phoneme connection model for the word "Sato" has 12 states S11, S12, S13, S2 having a loop.
1, S22, S23, S31, S32, S33, S4
1, S42, S43 and state S without loop at the last stage
44 can be considered.

【0025】これにより、この音素連結モデルは、ビタ
ビまたはトレリスのアルゴリズムによって、第1番目の
状態から最終段に存在する音素モデルまでの間における
パスを通過して最終段に存在する状態S44の時刻tn
から最終的な状態確率としての出力尤度が求められる。
この場合の最終的な出力尤度は、図2(e)のような音
素連結モデルに対し、ある入力音声に対する時系列の音
声データを与えることによって得られるもので、その最
終的な出力尤度の値の大きさによって、入力音声が何で
あるかが判定される。この場合、図2(e)の音素連結
モデルは「さとう(sato)」に対する音素連結モデ
ルであるため、「さとう」という音声が入力された場合
には高い出力尤度が得られることになる。
Thus, the phoneme connection model passes through the path from the first state to the phoneme model existing at the last stage, and the time of the state S44 existing at the last stage by the Viterbi or trellis algorithm. tn
, The output likelihood as the final state probability is obtained.
The final output likelihood in this case is obtained by giving time-series speech data for a certain input speech to the phoneme connection model as shown in FIG. Is determined by the magnitude of the value of. In this case, since the phoneme connection model of FIG. 2E is a phoneme connection model for "sato", a high output likelihood is obtained when the speech "sato" is input.

【0026】ここで、本発明では、仮の音素発話継続時
間に基づき、ある時刻からある時刻までの間、ある音素
モデルの最終状態から次の音素モデルにおける最初の状
態へのパスに制限を設ける。たとえば、図2(e)に示
す音素連結モデルの例では、「s」の音素モデルの最終
状態S13から「a」の音素モデルの最初の状態S2
1、「a」の音素モデルの最終状態S23から「t」の
音素モデルの最初の状態S31などにおいて、仮の音素
発話継続時間に基づくある時刻からある時刻までの間で
パスに制限を設けることで、認識率の向上を図ろうとす
るものである。以下、簡単な例を参照しながら説明す
る。
Here, in the present invention, based on the tentative phoneme utterance duration, a limit is imposed on the path from the final state of a certain phoneme model to the first state of the next phoneme model from a certain time to a certain time. . For example, in the example of the phoneme connection model shown in FIG. 2E, the initial state S2 of the phoneme model “a” is changed from the final state S13 of the phoneme model “s”.
1. From the final state S23 of the phoneme model “a” to the first state S31 of the phoneme model “t”, etc., the path is restricted from a certain time based on the temporary phoneme utterance duration to a certain time. Thus, an attempt is made to improve the recognition rate. Hereinafter, description will be made with reference to a simple example.

【0027】これまでの説明では、個々の音素モデル
は、4状態3ループの音素モデルを例にして説明した
が、ここでは、図面が複雑化するのを防ぐためと、説明
を簡略化するために、3状態2ループの音素モデルを連
結した音素連結モデルを用いて説明を行う。
In the above description, each phoneme model has been described by taking a phoneme model of four states and three loops as an example, but here, in order to prevent the drawing from becoming complicated and to simplify the description. A description will be given using a phoneme connection model obtained by connecting three-state two-loop phoneme models.

【0028】図3は3音素で構成されるある単語に対す
るHMMにおける音素連結モデルの状態遷移アルゴリズ
ムを説明する図である。この音素連結モデルは、図4に
示すように、ループを有する6個の状態S1,S2,S
3,S4,S5,S6と最終段に接続されたループを持
たない状態S7で構成されている。なお、図4におい
て、S1,S2が第1段の音素、S3,S4が第2段の
音素、S5,S6,S7が第3段の音素にそれぞれ対応
している。また、a11は状態S1におけるループの遷
移確率、a12は状態S1から状態S2への遷移確率、
a22は状態S2におけるループの遷移確率、a23
は状態S2から状態S3への遷移確率、a33は状態S
3におけるループの遷移確率、a34は状態S3から状
態S4への遷移確率、 a44は状態S4におけるルー
プの遷移確率、a45は状態S4から状態S5への遷移
確率、 a55は状態S5におけるループの遷移確率、
a56は状態S5から状態S6への遷移確率、 a66
は状態S6におけるループの遷移確率、a67は状態S
6から状態S7への遷移確率を表している。
FIG. 3 is a diagram for explaining a state transition algorithm of a phoneme connection model in the HMM for a certain word composed of three phonemes. As shown in FIG. 4, the phoneme connection model includes six states S1, S2, S
3, S4, S5, S6 and a state S7 without a loop connected to the last stage. In FIG. 4, S1 and S2 correspond to the first-stage phonemes, S3 and S4 correspond to the second-stage phonemes, and S5, S6 and S7 correspond to the third-stage phonemes, respectively. A11 is the transition probability of the loop in the state S1, a12 is the transition probability from the state S1 to the state S2,
a22 is the transition probability of the loop in the state S2, a23
Is the transition probability from the state S2 to the state S3, and a33 is the state S
3, a34 is the transition probability from state S3 to state S4, a44 is the transition probability of the loop in state S4, a45 is the transition probability from state S4 to state S5, and a55 is the transition probability of the loop in state S5. ,
a56 is the transition probability from state S5 to state S6, a66
Is the transition probability of the loop in the state S6, and a67 is the state S
6 represents the transition probability from state 6 to state S7.

【0029】ここで、これら各音素に対する標準データ
に基づいて、仮の音素発話継続時間が求められていると
する。たとえば、図3に示すように、その単語を構成す
る音素のうち、時刻t0〜t5が第1段の音素に対する
仮の音素発話継続時間T1、時刻t6〜t10がその単
語の第2段の音素に対する仮の音素発話継続時間T2、
時刻t11〜t17がその単語の第3段の音素に対する
仮の音素発話継続時間T3とする。また、図3におい
て、p1,p2は仮の音素境界を示している。
Here, it is assumed that a provisional phoneme utterance duration is obtained based on the standard data for each phoneme. For example, as shown in FIG. 3, among the phonemes constituting the word, times t0 to t5 are provisional phoneme utterance durations T1 for the phonemes of the first row, and times t6 to t10 are phonemes of the second row of the word. Tentative phoneme utterance duration T2 for
Times t11 to t17 are provisional phoneme utterance durations T3 for the phonemes of the third row of the word. In FIG. 3, p1 and p2 indicate temporary phoneme boundaries.

【0030】このような状態遷移アルゴリズムにおい
て、今、斜線部分の状態確率が0となるようなパスの制
限を与えたとする。つまり、この場合は、仮の音素発話
継続時間T1(時刻t0からt5)においては、第2段
の音素における状態S4から第3段の音素における状態
S5への遷移確率a45=0とし、仮の音素発話継続時
間T3(時刻t11からt17)においては、第1段の
音素における状態S2から第2段の音素における状態S
3への遷移確率a23=0とする。これによって、仮の
音素発話継続時間(時刻t0からt5)における状態S
5の状態確率S5(t)=0、仮の音素発話継続時間
(t11からt17)における状態S3の状態確率S3
(t)=0となる。
It is assumed that in such a state transition algorithm, a path is restricted so that the state probability of the hatched portion becomes zero. That is, in this case, during the provisional phoneme utterance duration T1 (from time t0 to t5), the transition probability a45 = 0 from the state S4 of the second-stage phoneme to the state S5 of the third-stage phoneme is set to 0, and the provisional During the phoneme utterance duration T3 (from time t11 to t17), the state S2 in the first-stage phoneme changes to the state S in the second-stage phoneme.
The transition probability a23 to 3 is set to 0. As a result, the state S in the provisional phoneme utterance continuation time (time t0 to t5) is obtained.
5, the state probability S5 (t) = 0, the state probability S3 of the state S3 in the temporary phoneme utterance duration (t11 to t17)
(T) = 0.

【0031】このようなパスの制限を設けることによ
り、時刻t0から時刻t17でなる時系列の入力音声デ
ータがこのアルゴリズムに与えられたとき、図4に示さ
れるような音素連結モデルの第1段の音素モデルから最
終段に存在する音素モデルまでの間におけるパスを通過
して最終段に存在する音素モデルの状態FS(図3参
照)から出力尤度を求める際、パスが制限されているの
で、その制限されたパスを通ることはなくなり、その制
限のかけられたパスによる状態確率が最終の状態FSの状
態確率(この音素モデルの出力尤度)には影響を与えな
いことになる。
By providing such a path restriction, when time-series input speech data from time t0 to time t17 is given to this algorithm, the first stage of the phoneme connection model as shown in FIG. When the output likelihood is obtained from the state FS (see FIG. 3) of the phoneme model existing at the final stage after passing through the path from the phoneme model of the second stage to the phoneme model existing at the last stage, the path is restricted. Therefore, the state probability due to the restricted path does not affect the state probability of the final state FS (output likelihood of this phoneme model).

【0032】ちなみに、図3で示したようなパスの制限
を設けない場合であっても、結果的には、図5に示すよ
うに、パスの制限は自ずとかかってはいる。つまり、最
終段の状態FSから最終的な出力尤度を得るのに何等寄
与しないパス(図5において、網掛けを施した部分)が
もともと存在するが、本発明では、この図5に示される
ようなもともと最終的な出力尤度を得るのに何等寄与し
ないパスに加えて、図6に示すように、斜線部分のパス
の制限を加えている。
By the way, even if the path restriction as shown in FIG. 3 is not provided, as a result, the path restriction is naturally applied as shown in FIG. That is, there is originally a path that does not contribute to obtaining the final output likelihood from the state FS of the last stage (the shaded portion in FIG. 5), but in the present invention, it is shown in FIG. In addition to the paths that do not contribute to obtaining the final output likelihood in the first place as described above, restrictions on the paths indicated by oblique lines are added as shown in FIG.

【0033】つまり、図6の網掛け部分は、もともと最
終的な出力尤度を得るのに何等寄与しないパス(図5で
示したものと同じ)であり、これは自ずから制限のかか
っているパスであるといえる。そして、これに加えて、
図3で説明したような本発明のパスの制限を加えること
によって、結果的に、図6の斜線部分と網掛けを施した
部分のパスに制限がかけられたものとなる。
That is, the shaded portion in FIG. 6 is a path which does not contribute to obtaining the final output likelihood (same as that shown in FIG. 5), and is a path which is naturally restricted. You can say that. And in addition to this,
By adding the path restriction of the present invention as described with reference to FIG. 3, as a result, the path of the hatched portion and the hatched portion in FIG. 6 is restricted.

【0034】ここで、図5に示す本発明のような制限を
与えないアルゴリズムと、本発明によるパスの制限を与
えたアルゴリズム(図6)とで、ビタビアルゴリズムで
得られたパスの例について図7および図8を参照して説
明する。図7は図5に対応するもので、制限のかけかた
は図5と全く同じである。また、図8は図6に対応する
もので、制限のかけかたは図6と全く同じである。
FIG. 5 shows an example of a path obtained by the Viterbi algorithm between the algorithm that does not impose the restriction as shown in FIG. 5 and the algorithm that restricts the path according to the present invention (FIG. 6). 7 and FIG. FIG. 7 corresponds to FIG. 5, and the way of limiting is exactly the same as FIG. FIG. 8 corresponds to FIG. 6, and the way of limiting is exactly the same as that of FIG.

【0035】図5の例は積極的なパスの制限をかけたも
のではなく、パスの制限がゆるいので、極端な例を示せ
ば、図7の太線で示すようなパスを通過する可能性があ
る。すなわち、この場合は、第2段の音素に対する仮の
音素発話継続時間T2付近から第3段の音素に対する仮
の音素発話継続時間T3付近で、それぞれ第1段の音素
モデルにおける状態確率が大きな値となって現れた例
で、誤認識を生じた例である。
The example of FIG. 5 does not impose an active restriction on the path, and the restriction on the path is loose. Therefore, in an extreme example, there is a possibility of passing the path shown by the thick line in FIG. is there. That is, in this case, the state probabilities in the first-stage phoneme model are large values around the temporary phoneme utterance duration T2 for the second-stage phoneme and near the temporary phoneme utterance duration T3 for the third-stage phoneme. This is an example in which erroneous recognition has occurred.

【0036】つまり、たとえば、「あき」という単語の
音素モデルがあって、その音素モデルに「あき」という
音声を入力させたときは、その音素モデルの最終的な出
力尤度は高い値となる。つまり、図7に示す音素連結モ
デルが「あき」という単語を認識するための音素連結モ
デルであるとすれば、「あき」という入力音声の時系列
データが与えられた場合には、その最終の状態FSから
は高い出力尤度が得られ、それによって、入力音声は
「あき」であるとの認識がなされる。
That is, for example, when there is a phoneme model of the word "Aki" and a speech "Aki" is input to the phoneme model, the final output likelihood of the phoneme model becomes a high value. . That is, if the phoneme connection model shown in FIG. 7 is a phoneme connection model for recognizing the word “Aki”, if the time series data of the input voice “Aki” is given, the final From the state FS, a high output likelihood is obtained, whereby the input speech is recognized as being "vacant".

【0037】一方、この音素連結モデルに、たとえば
「あか」という音声を与えたときは、その「あき」の音
素モデルの最終の状態FSからは、「あき」を入力した
ときよりも低い出力尤度が得られなければならない。と
ころが、図7に示すような制限の緩やかなパスでは、
「あか」を構成する音素「a」、「k」、「a」に多く
含まれる「a」の音素部分が、「あき」の「a」の音素
モデルにおいて高い状態確率が得られてしまい、それ
が、最終の状態FSにおける出力尤度にも影響を残し
て、出力尤度を高いものとしてしまうおそれがある。
On the other hand, when a voice such as "Aka" is given to this phoneme connection model, the output likelihood lower than when "Aki" is input is obtained from the final state FS of the "Aki" phoneme model. Degree must be obtained. However, in a path with a moderate restriction as shown in FIG.
The phoneme part of “a” that is included in the phonemes “a”, “k”, and “a” that make up “red” has a high state probability in the phoneme model of “a” of “aki”, This may increase the output likelihood while leaving the output likelihood in the final state FS unaffected.

【0038】これを防ぐために本発明では、図3に示す
ようにパスに制限をかけ、これによって、結果的に図6
のような制限のかかったパスが形成される。これによれ
ば、「あか」と発話した場合、その音声は、制限を与え
られていない範囲のパスを通過せざるを得ないので、
「あか(aka)」という音声データに対するそれぞれ
の音素のうち、特に、第2段の音素に対する仮の音素発
話継続時間T2付近から第3段の音素に対する仮の音素
発話継続時間T3付近における状態確率は、図5に比べ
て低い値となり、それが最終の状態FSにおける出力尤
度にも影響して、その出力尤度を低く抑えることができ
る。
In order to prevent this, according to the present invention, the paths are restricted as shown in FIG.
Thus, a restricted path is formed. According to this, when uttering "red", the voice has to pass through an unrestricted range path,
Among the respective phonemes for the voice data "aka", the state probability in the vicinity of the provisional phoneme utterance duration T2 for the second stage phoneme and the vicinity of the provisional phoneme utterance duration T3 for the third stage phoneme Has a lower value than that in FIG. 5, which also affects the output likelihood in the final state FS, and can reduce the output likelihood.

【0039】これに対して、このような「あき」の音素
モデルに対し、「あき」と発話した場合には、制限を加
える加えないにかかわらず、図8に示すようなパスを通
過する可能性が高くなるので、制限に対しては大きな影
響を受けないで、それぞれの音素に対する仮の音素発話
継続時間において最適な状態確率が得られ、それによっ
て、最終の状態FSからは高い出力尤度を得ることがで
きる。
On the other hand, if "Aki" is uttered to such an "Aki" phoneme model, it is possible to pass through a path as shown in FIG. , The optimal state probabilities are obtained at the tentative phoneme utterance duration for each phoneme without being significantly affected by the restriction, thereby increasing the output likelihood from the final state FS. Can be obtained.

【0040】このように、パスに制限を設けることで認
識率の向上が図れる。1つの具体例として、たとえば、
図9に示すように、「おはよう」の音声に対して、その
音声の時系列データ(時刻t0からtn)を前述したよ
うに、それぞれの音素に対する標準データに基づいて、
それぞれの音素「o」、「h」、「a」、「y」、
「o」ごとに仮の音素発話継続時間T11,T12,T
13,T14,T15で区切り、仮の音素境界p0,p
1,p2,・・・,p5が求められたとする。
As described above, the recognition rate can be improved by providing restrictions on the paths. As one specific example, for example,
As shown in FIG. 9, the time series data (time t0 to tn) of the voice of “Good morning” is based on the standard data for each phoneme as described above.
Each phoneme "o", "h", "a", "y",
Temporary phoneme utterance duration T11, T12, T for each "o"
13, T14, T15, temporary phoneme boundaries p0, p
1, p2,..., P5 are determined.

【0041】そして、この場合は、それぞれの音素
「o」、「h」、「a」、「y」、「o」の音素モデル
において、音素「o」の音素モデルの最終状態から音素
「h」の最初の状態への遷移は、仮の音素境界p0から
仮の音素境界p2までの間のパス(太線矢印部分)は通
過を許容し、それ以外のパス(細線矢印部分)には制限
を与える(その間の状態確率を0とする)。また、音素
「h」の音素モデルの最終状態から音素「a」の最初の
状態への遷移は、仮の音素境界p0とp1の中間点から
仮の音素境界p3までの間のパス(太線矢印部分)は通
過を許容し、それ以外のパス(細線矢印部分)には制限
を与える(その間の状態確率を0とする)。また、音素
「a」の音素モデルの最終状態から音素「y」の最初の
状態への遷移は、仮の音素境界p1とp2の中間点から
仮の音素境界p4までの間のパス(太線矢印部分)は通
過を許容し、それ以外のパス(細線矢印部分)には制限
を与える(その間の状態確率を0とする)。また、音素
「y」の音素モデルの最終状態から音素「o」の最初の
状態への遷移は、仮の音素境界p2とp3の中間点から
仮の音素境界p5までの間のパス(太線矢印部分)は通
過を許容し、それ以外のパス(細線矢印部分)には制限
を与える(その間の状態確率を0とする)。
In this case, in the phoneme models of the phonemes “o”, “h”, “a”, “y”, and “o”, the phoneme “h” is changed from the final state of the phoneme model of the phoneme “o”. To the first state, the path between the provisional phoneme boundary p0 and the provisional phoneme boundary p2 (portion indicated by a thick line) is allowed to pass, and the other path (portion indicated by a thin line arrow) is restricted. (The state probability between them is set to 0). Further, the transition from the final state of the phoneme model of the phoneme “h” to the first state of the phoneme “a” is performed by a path (the thick arrow) from the intermediate point between the temporary phoneme boundaries p0 and p1 to the temporary phoneme boundary p3. Part) is allowed to pass, and the other paths (fine arrow parts) are restricted (state probability between them is 0). Further, the transition from the final state of the phoneme model of the phoneme “a” to the first state of the phoneme “y” is performed by a path (the thick arrow) from the intermediate point between the temporary phoneme boundaries p1 and p2 to the temporary phoneme boundary p4. Part) is allowed to pass, and the other paths (fine arrow parts) are restricted (state probability between them is 0). Further, the transition from the final state of the phoneme model of the phoneme “y” to the first state of the phoneme “o” is performed by a path (the thick arrow) between the intermediate point between the temporary phoneme boundaries p2 and p3 and the temporary phoneme boundary p5. Part) is allowed to pass, and the other paths (fine arrow parts) are restricted (state probability between them is 0).

【0042】このようなパスの制限を与えたところ、良
好な認識結果がえられることが実験により確認された。
Experiments have confirmed that good recognition results can be obtained when such path restrictions are applied.

【0043】なお、以上の説明はビタビアルゴリズムで
の説明であったがトレリスアルゴリズムにおいても同様
の考え方で実施できる。
Although the above description is based on the Viterbi algorithm, the same concept can be applied to the trellis algorithm.

【0044】また、以上説明した本発明の処理を行う音
声認識処理プログラムは、フロッピィディスク、光ディ
スク、ハードディスクなどの記録媒体に記録させておく
ことができ、本発明はその記録媒体をも含むものであ
る。また、ネットワークから処理プログラムを得るよう
にしてもよい。
The above-described speech recognition processing program for performing the processing of the present invention can be recorded on a recording medium such as a floppy disk, an optical disk, or a hard disk. The present invention also includes the recording medium. Further, the processing program may be obtained from a network.

【0045】[0045]

【発明の効果】以上説明したように本発明によれば、入
力音声を構成する音素ごとの仮の音素発話継続時間を各
音素ごとの標準データに基づいて求め、当該入力音声デ
ータの音声区間に対し、その入力音声を構成する音素ご
との仮の音素発話継続時間で分割し、HMMにおける第
1段の音素モデルから最終段の音素モデルまでの間のパ
スにおいて、ある音素モデルに対し、前記仮の音素発話
継続時間に基づくある時刻からある時刻までの区間にパ
スの制限を設けるようにしている。そして、仮の音素発
話継続時間に基づいて行うパスの制限というのは、ある
音素モデルの最終状態から次の音素モデルの最初の状態
への遷移を前記仮の音素発話継続時間に基づくある時刻
からある時刻までの間を禁止する制御である。
As described above, according to the present invention, the tentative phoneme utterance duration for each phoneme constituting the input voice is obtained based on the standard data for each phoneme, and the tentative phoneme utterance duration is set in the voice section of the input voice data. On the other hand, the input speech is divided by the provisional phoneme utterance duration for each phoneme constituting the input speech, and in the path from the first-stage phoneme model to the last-stage phoneme model in the HMM, the temporary Is limited in a section from a certain time to a certain time based on the phoneme utterance continuation time. The restriction of the path performed based on the temporary phoneme utterance duration means that the transition from the final state of a certain phoneme model to the first state of the next phoneme model is performed at a certain time based on the temporary phoneme utterance duration. This is control to prohibit until a certain time.

【0046】このように、パスに制限を設けることによ
って、入力音声に対する時系列音声データに対する状態
遷移アルゴリズムは、制限のかかっていない範囲のパス
を通過して最終的な状態に到達するようなアルゴリズム
となる。このため、入力音声に対し適正な出力尤度が得
られ、誤認識を少なくすることができる。
As described above, by providing a restriction on the path, the state transition algorithm for the time-series audio data for the input audio can be such that the final state is reached through a path in an unrestricted range. Becomes For this reason, an appropriate output likelihood is obtained for the input speech, and erroneous recognition can be reduced.

【0047】たとえば、ある単語に対して高い出力尤度
の得られるように設定されたHMMの音素連結モデル
に、その単語に類似する音素を多く含むような単語の音
声データが入力された場合、その音声は、制限のかかっ
ていない範囲のパスを通過せざるを得ないので、パスに
制限が与えられていない場合に比べると、最終的な出力
尤度を小さく抑えることができる。つまり、パスに制限
が与えられていない場合には、ある音素モデル部分のあ
る仮の音素発話継続時間において、高い状態確率が得ら
れ、それが、最終段に存在する音素モデルの最終状態に
おける出力尤度に影響を与えて、結果的に、最終状態に
おける出力尤度を高い値としてしまい、誤認識を生じさ
せる原因にもなっていたが、本発明のように、パスに制
限をかけることによって、このような不具合を解消する
ことができ、認識率の向上に寄与できる。
For example, when speech data of a word including many phonemes similar to the word is input to the phoneme connection model of the HMM set to obtain a high output likelihood for a certain word, Since the sound has to pass through a path in an unrestricted range, the final output likelihood can be reduced as compared with a case where the path is not restricted. In other words, when the path is not restricted, a high state probability is obtained for a certain temporary phoneme utterance duration of a certain phoneme model part, which is the output of the final state of the phoneme model existing at the final stage. Affecting the likelihood and consequently setting the output likelihood in the final state to a high value, causing misrecognition. However, by limiting the path as in the present invention, Such a problem can be solved and the recognition rate can be improved.

【図面の簡単な説明】[Brief description of the drawings]

【図1】ある入力音声データに対しその入力音声を構成
する音素ごとの仮の発話継続時間を求める例を説明する
図である。
FIG. 1 is a diagram illustrating an example of obtaining temporary utterance duration for each phoneme included in an input voice data with respect to certain input voice data.

【図2】ある単語を構成する複数の音素に対する複数の
音素モデル(4状態3ループ)を連結して得られたた音
素連結モデルの状態遷移を模式的に示す図である。
FIG. 2 is a diagram schematically showing a state transition of a phoneme connection model obtained by connecting a plurality of phoneme models (four states and three loops) to a plurality of phonemes constituting a certain word;

【図3】3状態2ループの音素モデルを連結してなる3
音素単語の音素連結モデルに対し、本発明のパスの制限
を与えた例を説明する図である。
FIG. 3 is a diagram showing a state in which three-state two-loop phoneme models are connected.
It is a figure explaining the example which gave the restriction of the pass of the present invention to the phoneme connection model of the phoneme word.

【図4】3状態2ループの音素モデルを連結してなる3
音素単語の音素連結モデルを模式的に示す図である。
FIG. 4 is a diagram showing a concatenation of three-state two-loop phoneme models.
It is a figure which shows the phoneme connection model of a phoneme word typically.

【図5】3状態2ループの音素モデルを連結してなる3
音素単語の音素連結モデルに対し、最終の状態における
出力尤度に影響を与えないパスの存在について説明する
図である。
FIG. 5 is a diagram showing a concatenation of three-state two-loop phoneme models.
FIG. 11 is a diagram illustrating the existence of a path that does not affect the output likelihood in the final state for a phoneme link model of phoneme words.

【図6】図3で示した本発明のパスの制限を設けること
によって、結果的に最終の状態における出力尤度に影響
を与えないパスについて説明する図である。
FIG. 6 is a diagram illustrating a path which does not affect the output likelihood in the final state by providing the path restriction of the present invention shown in FIG. 3;

【図7】図5で示した音素連結モデルにおけるアルゴリ
ズムで得られたパスの一例を示すもので誤認識を生じた
例を説明する図である。
FIG. 7 is a diagram illustrating an example of a path obtained by an algorithm in the phoneme connection model illustrated in FIG. 5 and illustrating an example in which erroneous recognition has occurred.

【図8】図6で示した音素連結モデルにおけるアルゴリ
ズムで得られたパスの一例を示すもので適正な認識を行
った例を説明する図である。
FIG. 8 is a diagram illustrating an example of a path obtained by an algorithm in the phoneme connection model illustrated in FIG. 6, and illustrating an example in which proper recognition is performed.

【図9】ある単語に対して適正な認識が可能となるパス
の制限の一例を説明する図である。
FIG. 9 is a diagram illustrating an example of a restriction on a path that enables proper recognition of a certain word.

【符号の説明】[Explanation of symbols]

p0,p1,・・・ 仮の音素境界 T1,T2,・・・ 仮の音素発話継続時間 FS 最終段の音素モデルにおける最終の状態 p0, p1, ... provisional phoneme boundary T1, T2, ... provisional phoneme utterance duration FS Final state in phoneme model at final stage

Claims (4)

【特許請求の範囲】[Claims] 【請求項1】 認識可能な単語を構成する音素ごとの音
素モデルを組み合わせて当該単語の音素連結モデルを構
成し、その音素連結モデルに対し、入力音声の時系列音
声データを与えることで、当該音素連結モデルを構成す
る第1段の音素モデルから最終段の音素モデルに至る状
態遷移アルゴリズムにおける所定のパスを通過して最終
段に存在する音素モデルの最終状態から出力尤度を得
て、その出力尤度の大きさから音声認識を行う音声認識
方法であって、 前記入力音声の時系列音声データから当該入力音声を構
成するそれぞれの音素に対し、それぞれの音素の発話継
続時間を個々の音素に対する標準データに基づいて仮の
音素発話継続時間として得て、その入力音声を構成する
音素ごとの仮の音素発話継続時間に基づいて当該入力音
声データの音声区間を分割し、前記第1段の音素モデル
から最終段の音素モデルにおける状態遷移アルゴリズム
におけるパスにおいて、ある音素に対する音素モデルに
対し、前記仮の音素発話継続時間に基づくある時刻から
ある時刻までの区間にパスの制限を設けることを特徴と
する音声認識方法。
1. A phoneme connection model of a word is constructed by combining phoneme models for each phoneme constituting a recognizable word, and time-series speech data of an input speech is given to the phoneme connection model to provide the phoneme connection model. The output likelihood is obtained from the final state of the phoneme model existing at the final stage through a predetermined path in the state transition algorithm from the first stage phoneme model to the final stage phoneme model constituting the phoneme connection model. A speech recognition method for performing speech recognition based on the magnitude of output likelihood, wherein for each phoneme constituting the input speech from time-series speech data of the input speech, the utterance duration of each phoneme is determined for each phoneme. Of the input speech data based on the provisional phoneme utterance duration of each phoneme constituting the input speech. In the path of the state transition algorithm in the first-stage phoneme model to the last-stage phoneme model from the first-stage phoneme model, the phoneme model for a certain phoneme is at a certain time based on the temporary phoneme utterance duration. A speech recognition method, wherein a path is restricted in a section up to a time.
【請求項2】 前記仮の音素発話継続時間に基づくある
時刻からある時刻までの区間に行うパスの制限は、ある
音素モデルの最終状態から次の音素モデルの最初の状態
への遷移を前記仮の音素発話継続時間に基づくある時刻
からある時刻までの間を禁止する制御であることを特徴
とする請求項1記載の音声認識方法。
2. The method according to claim 1, wherein the restriction of a path to be performed in a section from a certain time to a certain time based on the temporary phoneme utterance continuation time is based on a transition from a final state of a certain phoneme model to a first state of the next phoneme model. 2. The speech recognition method according to claim 1, wherein control is performed to prohibit a period from a certain time to a certain time based on the phoneme utterance continuation time.
【請求項3】 認識可能な単語を構成する音素ごとの音
素モデルを組み合わせて当該単語の音素連結モデルを構
成し、その音素連結モデルに対し、入力音声の時系列音
声データを与えることで、当該音素連結モデルを構成す
る第1段の音素モデルから最終段の音素モデルに至る状
態遷移アルゴリズムにおける所定のパスを通過して最終
段に存在する音素モデルの最終状態から出力尤度を得
て、その出力尤度の大きさから音声認識を行う音声認識
処理プログラムを記録した記録媒体であって、その音声
認識処理プログラムは、 前記入力音声の時系列音声データから当該入力音声を構
成するそれぞれの音素に対し、それぞれの音素の発話継
続時間を個々の音素に対する標準データに基づいて仮の
音素発話継続時間として得る手順と、 その入力音声を構成する音素ごとの仮の音素発話継続時
間に基づいて当該入力音声データの音声区間を分割する
手順と、 前記第1段の音素モデルから最終段の音素モデルにおけ
る状態遷移アルゴリズムにおけるパスにおいて、ある音
素に対する音素モデルに対し、前記仮の音素発話継続時
間に基づくある時刻からある時刻までの区間にパスの制
限を設ける手順と、 を含むことを特徴とする音声認識処理プログラムを記録
した記録媒体。
3. A phoneme concatenation model of the word is constructed by combining phoneme models for each phoneme constituting a recognizable word, and time-series speech data of an input speech is given to the phoneme concatenation model. The output likelihood is obtained from the final state of the phoneme model existing at the final stage through a predetermined path in the state transition algorithm from the first stage phoneme model to the final stage phoneme model constituting the phoneme connection model. A recording medium that stores a speech recognition processing program that performs speech recognition from the magnitude of output likelihood, and the speech recognition processing program stores, for each phoneme constituting the input speech from time-series speech data of the input speech. On the other hand, the procedure for obtaining the utterance duration of each phoneme as a temporary phoneme utterance duration based on the standard data for each phoneme, A step of dividing a speech section of the input speech data based on a provisional phoneme utterance duration for each phoneme to be composed; A step of providing a path restriction for a section from a certain time to a certain time based on the provisional phoneme utterance duration with respect to the phoneme model corresponding to.
【請求項4】 前記仮の音素発話継続時間に基づくある
時刻からある時刻までの区間に行うパスの制限は、ある
音素モデルの最終状態から次の音素モデルの最初の状態
への遷移を前記仮の音素発話継続時間に基づくある時刻
からある時刻までの間を禁止する制御であることを特徴
とする請求項3記載の音声認識処理プログラムを記録し
た記録媒体。
4. Limiting a path to be performed in a section from a certain time to a certain time based on the tentative phoneme utterance continuation time is performed by changing a transition from a final state of a certain phoneme model to a first state of the next phoneme model. 4. A recording medium storing a speech recognition processing program according to claim 3, wherein the control is for prohibiting a period from a certain time to a certain time based on the phoneme utterance continuation time.
JP2000077121A 2000-03-17 2000-03-17 Voice recognizing method and recording medium with recorded voice recognition processing program Withdrawn JP2001265383A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000077121A JP2001265383A (en) 2000-03-17 2000-03-17 Voice recognizing method and recording medium with recorded voice recognition processing program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000077121A JP2001265383A (en) 2000-03-17 2000-03-17 Voice recognizing method and recording medium with recorded voice recognition processing program

Publications (1)

Publication Number Publication Date
JP2001265383A true JP2001265383A (en) 2001-09-28

Family

ID=18594739

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000077121A Withdrawn JP2001265383A (en) 2000-03-17 2000-03-17 Voice recognizing method and recording medium with recorded voice recognition processing program

Country Status (1)

Country Link
JP (1) JP2001265383A (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005096271A1 (en) * 2004-03-30 2005-10-13 Pioneer Corporation Speech recognition device and speech recognition method
US7647224B2 (en) 2004-11-24 2010-01-12 Kabushiki Kaisha Toshiba Apparatus, method, and computer program product for speech recognition
US8352265B1 (en) 2007-12-24 2013-01-08 Edward Lin Hardware implemented backend search engine for a high-rate speech recognition system
US8463610B1 (en) 2008-01-18 2013-06-11 Patrick J. Bourke Hardware-implemented scalable modular engine for low-power speech recognition
US8639510B1 (en) 2007-12-24 2014-01-28 Kai Yu Acoustic scoring unit implemented on a single FPGA or ASIC

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005096271A1 (en) * 2004-03-30 2005-10-13 Pioneer Corporation Speech recognition device and speech recognition method
US7647224B2 (en) 2004-11-24 2010-01-12 Kabushiki Kaisha Toshiba Apparatus, method, and computer program product for speech recognition
US8352265B1 (en) 2007-12-24 2013-01-08 Edward Lin Hardware implemented backend search engine for a high-rate speech recognition system
US8639510B1 (en) 2007-12-24 2014-01-28 Kai Yu Acoustic scoring unit implemented on a single FPGA or ASIC
US8463610B1 (en) 2008-01-18 2013-06-11 Patrick J. Bourke Hardware-implemented scalable modular engine for low-power speech recognition

Similar Documents

Publication Publication Date Title
US5515475A (en) Speech recognition method using a two-pass search
Lee et al. Acoustic modeling for large vocabulary speech recognition
US5388183A (en) Speech recognition providing multiple outputs
JPS62246097A (en) Word base form synthesizer for voice recognition
US20080059168A1 (en) Speech recognition using discriminant features
JPH09212188A (en) Voice recognition method using decoded state group having conditional likelihood
EP0903730B1 (en) Search and rescoring method for a speech recognition system
US5812974A (en) Speech recognition using middle-to-middle context hidden markov models
JP2001265383A (en) Voice recognizing method and recording medium with recorded voice recognition processing program
US7464033B2 (en) Decoding multiple HMM sets using a single sentence grammar
JP2001296885A (en) Oral uttering denial which uses label function having grammar restriction
JP2002358097A (en) Voice recognition device
JP2003208195A5 (en)
US20030061044A1 (en) Method of calculating HMM output probability and speech recognition apparatus
JP4442211B2 (en) Acoustic model creation method
JP4732030B2 (en) Information processing apparatus and control method thereof
JP4391179B2 (en) Speaker recognition system and method
JP3316352B2 (en) Voice recognition method
JPH05232989A (en) Method for adapting speaker to acoustic model
JP3315565B2 (en) Voice recognition device
JP3532248B2 (en) Speech recognition device using learning speech pattern model
JP2001265382A (en) Method and device for voice recognition and recording medium with recorded voice recognition processing program
JPS59172696A (en) Voice pattern analogy computing system
JPH10198394A (en) Voice recognition method
JP2785939B2 (en) Continuous speech recognition device

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20070605