JPH0962290A - Speech recognition device - Google Patents

Speech recognition device

Info

Publication number
JPH0962290A
JPH0962290A JP7213429A JP21342995A JPH0962290A JP H0962290 A JPH0962290 A JP H0962290A JP 7213429 A JP7213429 A JP 7213429A JP 21342995 A JP21342995 A JP 21342995A JP H0962290 A JPH0962290 A JP H0962290A
Authority
JP
Japan
Prior art keywords
hmm
cumulative score
phoneme
reject
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP7213429A
Other languages
Japanese (ja)
Other versions
JP3315565B2 (en
Inventor
清治 ▲濱▼口
Seiji Hamaguchi
Koichi Yamaguchi
耕市 山口
Toshio Akaha
俊夫 赤羽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP21342995A priority Critical patent/JP3315565B2/en
Publication of JPH0962290A publication Critical patent/JPH0962290A/en
Application granted granted Critical
Publication of JP3315565B2 publication Critical patent/JP3315565B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To find the maximum generation probability for reject judging with the reduced processing amount and the reduced memorizing amount by giving HMM linkage limitation. SOLUTION: A phoneme environmental dependent type phoneme HMM to which phoneme environmental linkage limiting information and language linkage limiting information are added is registered in an HMM data memory 9. A likelihood table preparing part 4 prepares a likelihood table. A reject judging reference cumulative score calculating part 5 calculates a reject judging reference cumulative score along a Viterbi path set on the likelihood table according to the limiting information. A recognition task cumulative score calculating part 6 calculates a recognition task cumulative score. A judging part 7 finds a reject judging maximum reference cumulative score and a recognition task maximum cumulative score to perform reject judgement. As a result, the computing amount of the reject judging maximum reference cumulative score in using the phoneme HMM jointly having a state is reduced, and the memorizing amount of the reject judging maximum reference cumulative score is also reduced.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】この発明は、サブワード単位
のHMM(隠れマルコフモデル)を用いた音声認識装置
に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a speech recognition apparatus using a subword unit HMM (Hidden Markov Model).

【0002】[0002]

【従来の技術】従来より、音声認識の一手法としてHM
Mに基づく方法が知られている。このHMMに基づく音
声認識方法については、「中川聖一:“確率モデルによ
る音声認識",電子情報通信学会刊行」等に詳細に述べ
られている。上記HMMは状態遷移ネットワークの一種
であり、初期状態となる確率,状態から状態への遷移確
率および各状態におけるシンボルの出力確率が定義され
ている。
2. Description of the Related Art Conventionally, HM has been used as a method of speech recognition.
Methods based on M are known. The speech recognition method based on this HMM is described in detail in "Seiichi Nakagawa:" Speech recognition by probabilistic model ", published by The Institute of Electronics, Information and Communication Engineers". The HMM is a kind of state transition network, and the probability of becoming an initial state, the transition probability from state to state, and the output probability of symbols in each state are defined.

【0003】ここで、上記サブワード単位のHMMと
は、音素や半音節等のように単語より小さな単位でのH
MMのことである。これらのサブワード単位のHMM
は、単語音声認識や連続音声認識等に応用することがで
きるのである。例えば、音素HMMを単語音声認識に用
いる場合には、単語を音素列とみなして、音素HMMを
連結したものが各単語の特徴系列であると考える。そし
て、音声パターンが入力された場合に、音素HMMを用
いたビタビアルゴリズムによって各単語の特徴系列生成
確率を求め、その確率の最も高い単語を認識結果とする
のである。一方、音素HMMを連続音声認識に用いる場
合には、図7に示すような、単語の有向グラフで構成さ
れた有限状態オートマンの構文ネットワークを用意す
る。この構文ネットワークは、各単語を音素列とみなす
ことによって音素列のネットワークであると考えること
ができる。そこで、音素HMMを用いた探索処理によっ
て上記構文ネットワークが許可する音素列のなかで最も
生成確率が高い音素列を認識結果として出力するのであ
る。
Here, the HMM in subword units is the HMM in units smaller than words, such as phonemes and syllabics.
It is MM. HMM for these subword units
Can be applied to word voice recognition, continuous voice recognition, and the like. For example, when the phoneme HMM is used for word speech recognition, the word is regarded as a phoneme string, and it is considered that the concatenation of the phoneme HMM is the feature series of each word. Then, when a voice pattern is input, the characteristic sequence generation probability of each word is obtained by the Viterbi algorithm using the phoneme HMM, and the word with the highest probability is used as the recognition result. On the other hand, when the phoneme HMM is used for continuous speech recognition, a finite state automan syntax network composed of a directed graph of words as shown in FIG. 7 is prepared. This syntactic network can be thought of as a network of phoneme sequences by considering each word as a phoneme sequence. Therefore, the phoneme string having the highest generation probability among the phoneme strings permitted by the syntax network is output as the recognition result by the search process using the phoneme HMM.

【0004】上述のような単語音声認識や連続音声認識
を行うに際しては、通常は、フレーム毎に上記音素HM
Mあるいは構文ネットワークにおける各状態のシンボル
出力確率を予め算出してテーブル化しておく。そして、
各単語等の最大生成率を求めるための累積スコアを計算
する場合には、上述のようにして予め作成された尤度テ
ーブルを参照するという方法をとる。
When performing word speech recognition or continuous speech recognition as described above, the phoneme HM is usually used for each frame.
The symbol output probability of each state in M or the syntax network is calculated in advance and tabulated. And
When calculating the cumulative score for obtaining the maximum generation rate of each word or the like, a method of referring to the likelihood table created in advance as described above is used.

【0005】ここで、音声認識処理動作には、認識対象
語彙に含まれない音声(未知発話)が入力された場合には
認識結果を出力しないリジェクト機能が必要である。H
MM音声認識装置での未知発話のリジェクト方法につい
ては、例えば「渡辺隆夫,塚田 聡:“音声認識を用い
たゆう度補正による未知発話のリジェクション",電子
情報通信学会論文誌,D−II,Vol.J75−D−II,N
o.12,pp.2002−2009,1992年12月」に紹介されてい
る。この論文においては、半音節HMMを用いており、
認識対象ネットワークとは独立して、図8に示すような
音節ネットワークを有している。そして、上記音節ネッ
トワークから得られる最大の生成確率と認識対象ネット
ワークから得られる最大の生成確率とを比較し、その差
が一定値以上である場合には発声内容が未知発話である
と判定してリジェクトするようにしている。
Here, the voice recognition processing operation requires a reject function which does not output the recognition result when a voice (unknown utterance) not included in the recognition target vocabulary is input. H
For example, "Takao Watanabe, Satoshi Tsukada:" Rejection of unknown utterances by likelihood correction using voice recognition "", The Institute of Electronics, Information and Communication Engineers, D-II, Vol.J75-D-II, N
o.12, pp.2002-2009, December 1992 ”. In this paper, we use semi-syllabic HMM,
It has a syllable network as shown in FIG. 8 independent of the recognition target network. Then, the maximum generation probability obtained from the syllable network and the maximum generation probability obtained from the recognition target network are compared, and if the difference is a certain value or more, it is determined that the utterance content is an unknown utterance. I try to reject it.

【0006】[0006]

【発明が解決しようとする課題】音声認識処理動作にお
ける上記未知発話のリジェクト判定の際に必要な処理量
や記憶量は、なるべく少ない方が処理速度やコストの点
で有利になる。ここで、上述したような音節ネットワー
クを参照した未知発話のリジェクト方法は確かに効果的
ではある。しかしながら、上記音節ネットワークと認識
対象ネットワークというの2つのネットワークを記憶し
ておく必要があり、大きな記憶容量を必要とする。ま
た、半音節HMMを用いているために1つの音節を構成
する2つの半音節に係る前半分の半音節HMMの次には
後半分の半音節HMMが接続しなければならないという
制約はあるものの、図8に示すように音節同士の接続に
関しては何等制約は無い。したがって、上記音節ネット
ワークからリジェクト判定用の最大生成確率を算出する
際には、状態を共有する半音節HMMの有無に拘わらず
上記音節ネットワークの全探索を繰り返して行わなけれ
ばならず、多くの演算処理と多くの記憶量を必要とする
という問題がある。
It is advantageous in terms of processing speed and cost that the processing amount and the storage amount necessary for the rejection determination of the unknown utterance in the voice recognition processing operation are as small as possible. Here, the method of rejecting an unknown utterance with reference to the syllable network as described above is certainly effective. However, it is necessary to store two networks, the syllabic network and the recognition target network, which requires a large storage capacity. Further, since the semi-syllabic HMM is used, there is a constraint that the semi-syllabic HMM for the latter half must be connected next to the semi-syllabic HMM for the first half of the two semi-syllabic parts constituting one syllable. As shown in FIG. 8, there is no restriction on the connection between syllables. Therefore, when calculating the maximum generation probability for reject determination from the syllable network, it is necessary to repeatedly perform a full search of the syllable network regardless of the presence / absence of a semi-syllable HMM that shares a state. The problem is that it requires processing and a large amount of storage.

【0007】尚、上記渡辺等の論文には、上述した音節
ネットワークを参照した未知発話のリジェクト判定法に
加えて、処理量を少なくしたより簡便なリジェクト判定
法として、各フレームでの各状態の局所シンボル出力確
率の最大値を入力の全区域にわたって累積し、この累積
値を上記音節ネットワークを参照して得られる最大の生
成確率の代わりとして扱う方法が紹介されている。そし
て、この簡易法では、各半音節HMM間の連結制約どこ
ろか各状態の遷移にも何等制約を設けないうえに、状態
遷移確率や半音節間の接続条件(VC型の半音節のあと
にはCV型の半音節のみが接続され得る等)を無視して
いるために、状態遷移の制約や言語的な連結制約を付与
した音節ネットワークを参照するリジェクト判定法に比
べて性能的に劣るとも報告されている。
In addition to the rejection judgment method for unknown utterances referring to the syllable network described above, the paper by Watanabe et al. Describes a simpler rejection judgment method with a smaller amount of processing for each state in each frame. A method is introduced in which the maximum value of the local symbol output probability is accumulated over the entire area of the input, and the accumulated value is treated as a substitute for the maximum generation probability obtained by referring to the syllable network. In addition, this simple method does not place any constraint on the transition of each state, let alone the connection constraint between each semi-syllable HMM, and the state transition probability and the connection condition between semi-syllables (after the VC-type semi-syllable It is also reported that the performance is inferior to the reject judgment method that refers to the syllabic network with the state transition constraint and the linguistic connection constraint because it ignores CV type semi-syllables only). Has been done.

【0008】すなわち、上記HMMは、図9に示すよう
に、幾つかの状態の連結で構成されており、ある状態か
らは特定の状態にしか遷移しないという制約がある。し
たがって、上述の如く各フレームでの各状態の局所シン
ボル出力確率の最大値を入力の全区域にわたって累積す
るという方法では、上記HMMの状態遷移の制約を全く
無視することになり、上記状態遷移の制約を考慮したリ
ジェクト判定方法に比べて性能的には劣るという問題が
付きまとうのである。
That is, as shown in FIG. 9, the HMM is composed of a number of states connected to each other, and there is a restriction that only a certain state transits to a specific state. Therefore, in the method of accumulating the maximum value of the local symbol output probability of each state in each frame as described above, the constraint of the state transition of the HMM is completely ignored, and the state transition This is accompanied by the problem that the performance is inferior to that of the reject determination method considering the constraints.

【0009】そこで、この発明の目的は、HMM内での
状態遷移制約に加えてHMMの連結制約を付与して、リ
ジェクト判定用の最大生成確率を少ない処理量と少ない
記憶量で求めることができる音声認識装置を提供するこ
とにある。
Therefore, an object of the present invention is to add a connection constraint of the HMM in addition to the state transition constraint in the HMM so that the maximum generation probability for reject determination can be obtained with a small processing amount and a small storage amount. It is to provide a voice recognition device.

【0010】[0010]

【課題を解決するための手段】上記目的を達成するた
め、請求項1に係る発明は、入力音声から音響パラメー
タを抽出する音響分析部と、状態遷移制約情報を有する
サブワード単位のHMMが蓄積されているHMMデータ
メモリと、上記抽出された音響パラメータと上記蓄積さ
れているHMMに基づいて,全HMMを構成している総
ての状態の局所尤度を算出して尤度テーブルを作成する
尤度テーブル作成部と、上記HMMの状態遷移制約情報
に基づく制約に従って上記尤度テーブル上に経路を設定
し,この経路に沿った最大参照累積スコアをビタビアル
ゴリズムによって算出するリジェクト判定用参照累積ス
コア算出部と、上記尤度テーブル上における上記HMM
および各認識タスクに従った経路に沿った最大累積スコ
アを算出する認識タスク累積スコア算出部と、上記リジ
ェクト判定用参照累積スコア算出部で算出された最大参
照累積スコアと上記認識タスク累積スコア算出部で算出
された最大累積スコアとの差を算出し,この差の値が所
定値以上であれば発声内容は認識対象外の未知発話であ
ると判定してリジェクトするリジェクト判定部を備えた
ことを特徴としている。
In order to achieve the above object, the invention according to claim 1 accumulates an acoustic analysis unit for extracting an acoustic parameter from an input speech and a subword unit HMM having state transition constraint information. Based on the HMM data memory, the extracted acoustic parameters and the stored HMM, the likelihood of creating a likelihood table by calculating the local likelihoods of all the states forming all the HMMs. A probability table creating unit and a route on the likelihood table according to the constraint based on the state transition constraint information of the HMM, and the maximum reference cumulative score along this route is calculated by the Viterbi algorithm. Section and the HMM on the likelihood table
And a recognition task cumulative score calculation unit that calculates a maximum cumulative score along the route according to each recognition task, a maximum reference cumulative score calculated by the reject determination reference cumulative score calculation unit, and the recognition task cumulative score calculation unit The difference between the maximum cumulative score calculated in step 2 is calculated, and if the difference is greater than or equal to a predetermined value, the utterance content is judged to be an unknown utterance that is not recognized and rejected. It has a feature.

【0011】上記構成において、上記音響分析部によっ
て入力音声から音響パラメータが抽出されると、尤度テ
ーブル作成部によって、上記抽出された音響パラメータ
とHMMデータメモリに蓄積されているHMMに基づい
て上記尤度テーブルが作成される。そして、リジェクト
判定用参照累積スコア算出部によって、上記尤度テーブ
ル上に、上記HMMの状態遷移制約情報に基づく制約に
従って経路が設定されて、この経路に沿った最大参照累
積スコアがビタビアルゴリズムで算出される。一方、認
識タスク累積スコア算出部によって、上記尤度テーブル
上における上記HMMおよび各認識タスクに従った経路
に沿って最大累積スコアが算出される。 そうすると、上記リジェクト判定部によって、両最大累
積スコアの差が算出され、この差の値が所定値以上であ
れば発声内容は認識対象外の未知発話であると判定され
てリジェクトされる。
In the above structure, when the acoustic analysis unit extracts acoustic parameters from the input voice, the likelihood table creation unit uses the extracted acoustic parameters and the HMMs stored in the HMM data memory. A likelihood table is created. Then, the reject determination reference cumulative score calculation unit sets a route on the likelihood table according to the constraint based on the state transition constraint information of the HMM, and calculates the maximum reference cumulative score along the route by the Viterbi algorithm. To be done. On the other hand, the recognition task cumulative score calculation unit calculates the maximum cumulative score along the route according to the HMM and each recognition task on the likelihood table. Then, the reject determination unit calculates the difference between the two maximum cumulative scores, and if the value of the difference is equal to or greater than a predetermined value, the utterance content is determined to be an unknown utterance that is not a recognition target and is rejected.

【0012】その際に、上記リジェクト判定用の最大参
照累積スコアは上記尤度テーブル上に設定されたビタビ
経路に沿って求められるので、同一フレームにおいて複
数HMMの状態が共有される場合には、上記複数HMM
に係るリジェクト判定用の最大累積スコアの演算経路は
上記共有状態で1つに収束される。したがって、上記リ
ジェクト判定用の最大参照累積スコアは少ない演算量と
少ない記憶量で求められる。
At this time, since the maximum reference cumulative score for reject determination is obtained along the Viterbi path set on the likelihood table, when a plurality of HMM states are shared in the same frame, Multiple HMMs above
The calculation path of the maximum cumulative score for reject determination according to is converged into one in the shared state. Therefore, the maximum reference cumulative score for reject determination can be obtained with a small amount of calculation and a small amount of storage.

【0013】また、請求項2に係る発明は、請求項1に
係る発明の音声認識装置において、上記HMMデータメ
モリに蓄積されているHMMの状態遷移制約情報は、H
MM境界での認識対象言語による連結制約情報を含むこ
とを特徴としている。
The invention according to claim 2 is the speech recognition apparatus according to claim 1, wherein the state transition constraint information of the HMM stored in the HMM data memory is H.
It is characterized in that it includes connection constraint information according to the recognition target language at the MM boundary.

【0014】上記構成によれば、上記尤度テーブル上に
設定される経路には認識対象言語による連結制約情報に
従った制約が付与されているので、リジェクト判定用の
最大参照累積スコアの演算量が更に少なくなると共に、
連結されるHMMが認識対象言語に応じて限定されてリ
ジェクト判定用の最大参照累積スコアが精度良く演算さ
れる。
According to the above configuration, the route set in the likelihood table is given a constraint in accordance with the connection constraint information according to the recognition target language. Therefore, the maximum reference cumulative score calculation amount for reject determination is calculated. Is even less,
The concatenated HMMs are limited according to the recognition target language, and the maximum reference cumulative score for reject determination is accurately calculated.

【0015】また、請求項3に係る発明は、請求項1に
係る音声認識装置において、上記HMMデータメモリに
蓄積されているHMMは音素環境依存型の音素HMMで
あり、上記HMMデータメモリに蓄積されているHMM
の状態遷移制約情報は,HMM境界での音素環境による
連結制約情報を含むことを特徴としている。
According to a third aspect of the present invention, in the voice recognition apparatus according to the first aspect, the HMM stored in the HMM data memory is a phoneme environment-dependent phoneme HMM, and the HMM data memory stores the HMM. HMM
The state transition constraint information of is characterized in that it includes connection constraint information due to the phoneme environment at the HMM boundary.

【0016】上記構成によれば、上記HMMデータメモ
リに蓄積されているHMMは音素環境依存型の音素HM
Mであり、上記尤度テーブル上に設定される経路には音
素環境による連結制約情報に従った制約が付与されてい
るので、リジェクト判定用の最大参照累積スコアの演算
量が更に少なくなると共に、連結される音素HMMが音
素環境によって特定されてリジェクト判定用の最大参照
累積スコアが非常に精度良く演算される。
According to the above configuration, the HMM stored in the HMM data memory is the phoneme environment-dependent phoneme HM.
M, and the route set on the likelihood table is given a constraint according to the connection constraint information due to the phoneme environment, so that the calculation amount of the maximum reference cumulative score for reject determination is further reduced, and The phoneme HMMs to be concatenated are specified by the phoneme environment, and the maximum reference cumulative score for reject determination is calculated very accurately.

【0017】[0017]

【発明の実施の形態】以下、この発明を図示の実施の形
態により詳細に説明する。図1は本実施の形態の音声認
識装置におけるブロック図である。この音声認識装置
は、音素HMMと音響パラメータとから求められたHM
M尤度テーブル上にHMMの各状態遷移制約に沿ったビ
タビ経路を設定し、この経路上の最大参照累積スコアに
基づいて未知発話のリジェクト判定を行うものである。
BEST MODE FOR CARRYING OUT THE INVENTION The present invention will be described in detail below with reference to the embodiments shown in the drawings. FIG. 1 is a block diagram of the speech recognition apparatus according to the present embodiment. This speech recognition device uses an HM obtained from a phoneme HMM and acoustic parameters.
A Viterbi route according to each state transition constraint of the HMM is set on the M likelihood table, and rejection determination of an unknown utterance is performed based on the maximum reference cumulative score on this route.

【0018】以下、本実施の形態の音声認識装置につい
て説明するに先立って、上記HMM尤度テーブル上に設
定されたビタビ経路に沿った最大累積スコア算出法につ
いて述べる。図4は、上記HMM尤度テーブルからビタ
ビアルゴリズムによって最大累積スコアを求める様子を
示す。ここで、図4(a)は、図9に示す状態遷移におけ
る中間状態jあるいは最終状態mでの累積スコアを更新
する際の状態遷移の経路図である。また、図4(b)は、
図9における初期状態cでの累積スコアを更新する際の
状態遷移の経路図である。尚、縦軸は各状態を示し、横
軸はフレーム番号を示す。
Before describing the speech recognition apparatus of this embodiment, a maximum cumulative score calculation method along the Viterbi path set on the HMM likelihood table will be described below. FIG. 4 shows how the maximum cumulative score is obtained from the HMM likelihood table by the Viterbi algorithm. Here, FIG. 4A is a path diagram of the state transition when updating the cumulative score in the intermediate state j or the final state m in the state transition shown in FIG. In addition, FIG.
FIG. 10 is a route diagram of state transition when updating the cumulative score in the initial state c in FIG. 9. The vertical axis represents each state, and the horizontal axis represents the frame number.

【0019】音声スペクトルのあるフレームにおける各
状態へは、その直前のフレームにおける幾つかの状態か
ら遷移する。そして、この状態遷移の経路は、HMMの
状態遷移制約に基づいた経路だけである。また、HMM
間で状態の共有がないとすれば、図9のようにHMMに
おける中間状態と最終状態とに遷移する経路は2本だけ
である。図4において、図4(a)におけるiフレーム上
の状態jへは、直前の(i−1)フレーム上の状態cと状
態jとから遷移している。そして、(i−1)フレームか
らiフレーム上における状態jに至る上記両経路の累積
スコア中で、最大の累積スコアがiフレーム上における
状態jの累積スコアとなる。尚、上記累積スコアは式
(1)に示すビタビアルゴリズムによって算出される。
Each state in a frame of the speech spectrum transits from some states in the frame immediately before that. The state transition route is only the route based on the state transition constraint of the HMM. Also, HMM
Assuming that there is no state sharing between them, there are only two routes that transit to the intermediate state and the final state in the HMM as shown in FIG. In FIG. 4, the state j on the i frame in FIG. 4A is transited from the state c and the state j on the immediately preceding (i−1) frame. The maximum cumulative score among the cumulative scores of both routes from the (i-1) frame to the state j on the i frame is the cumulative score of the state j on the i frame. The above cumulative score is the formula
It is calculated by the Viterbi algorithm shown in (1).

【数1】 [Equation 1]

【0020】上述したように、各フレーム毎に、式(1)
によって各状態の累積スコアを計算するのであるが、そ
の際に、当該状態まで辿ってきた経路を記憶しておく必
要はない。また、各状態における累積スコアの計算は、
直前フレーム上の各状態における累積スコアが保持され
ていれば可能である。したがって、記憶するのは直前フ
レーム上の各状態における累積スコアだけでよく、必要
な記憶量を少なくできるのである。
As described above, for each frame, equation (1)
The cumulative score of each state is calculated by, but at that time, it is not necessary to store the route that has reached the state. In addition, the calculation of the cumulative score in each state is
It is possible if the cumulative score in each state on the immediately preceding frame is held. Therefore, only the cumulative score in each state on the immediately preceding frame needs to be stored, and the required storage amount can be reduced.

【0021】図9に示すように、上記HMMは、初期状
態から中間状態を経て最終状態へ至る。そして、上記最
終状態を脱した後は、新たに別のHMMの初期状態ある
いは同じHMMの初期状態から状態の遷移が開始される
ことになる。ここで、先行の音素や音節あるいは後続の
音素や音節に依存しないタイプのHMMの場合には、前
HMMの最終状態からつながり得る次HMMの初期状態
の数は多い。図4(b)は、iフレーム上の初期状態c
に、(i−1)フレーム上における同じHMMの初期状態
cと他のHMMの最終状態a,f,m,pとからの遷移し
ている様子を示している。その場合に、言語的に考え
て、特定の音素と音素あるいは音節と音節等の連結に制
限を設けることができる。例えば、日本語の場合には子
音と子音とは連結しないことが多いと考えられ、音素/
m/から音素/h/への遷移経路は設けない等の認識対象
言語による連結制約(以下、言語的連結制約と言う)を設
定できるのである。
As shown in FIG. 9, the HMM goes from an initial state to an intermediate state to a final state. Then, after leaving the final state, the state transition is newly started from the initial state of another HMM or the initial state of the same HMM. Here, in the case of an HMM of a type that does not depend on the preceding phoneme or syllable or the subsequent phoneme or syllable, the number of initial states of the next HMM that can be connected from the final state of the previous HMM is large. FIG. 4B shows an initial state c on the i frame.
FIG. 7 shows a transition from the initial state c of the same HMM and the final states a, f, m, p of another HMM on the (i-1) frame. In that case, in terms of language, it is possible to set restrictions on the connection of specific phonemes and phonemes or syllables and syllables. For example, in Japanese, it is considered that consonants and consonants are often not connected.
It is possible to set a connection constraint (hereinafter referred to as a linguistic connection constraint) depending on the recognition target language such as not providing a transition path from m / to phoneme / h /.

【0022】図5および図6は、上記言語的連結制約で
ある日本語における音素間の連結制約例を示し、左側の
音素HMMにおける最終状態から右側の音素HMMにお
ける初期状態に遷移し得ることを意味している。但し、
音素表記はヘボン式ローマ字綴りに従っており、/q/は
促音を/N/は撥音を表している。したがって、図5に示
す例では、音素/h/に接続可能な音素は/a/,/i/,/u
/,/e/,/o/,/N/,/q/の7音素であるから、音素/h/
の初期状態に遷移し得る経路は7本存在することにな
る。こうして、認識言語に特化することにより、より正
確に上記累積スコアを求めることが可能になるのであ
る。
FIG. 5 and FIG. 6 show examples of connection constraints between phonemes in Japanese, which is the above-mentioned linguistic connection constraint, and show that the final state in the left phoneme HMM can transit to the initial state in the right phoneme HMM. I mean. However,
The phoneme notation follows the Hebon-type Roman spelling, where / q / represents consonant and / N / represents sound repellency. Therefore, in the example shown in FIG. 5, the phonemes connectable to the phoneme / h / are / a /, / i /, / u.
Since there are 7 phonemes of /, / e /, / o /, / N /, / q /, the phoneme / h /
There are seven routes that can transit to the initial state of. In this way, by specializing in the recognition language, it becomes possible to more accurately obtain the cumulative score.

【0023】また、音素環境依存型の音素HMMは、各
音素に係る先行音素や後続音素を特定化したものであ
る。例えば、同じ音素/a/であっても、先行音素が/k/
である音素/a/と先行音素が/m/である音素/a/とは異
なる音素のように扱われ、夫々別々の音素HMMで表現
されるのである。音素環境依存型の音素HMMは、音素
環境に依存しない音素HMMに比べて必要なモデル数が
多くなるものの、性能的に有利である。このように、音
素環境依存型の音素HMMの場合には、音素HMM間の
連結制約が状態間の遷移制約と同様に重要であるため
に、リジェクト判定用の累積スコアの計算に際して音素
環境による音素HMM間の連結制約(以下、音素環境連
結制約と言う)を付与することが上記累積スコア算出の
正確性と容易性から特に有効であるといえる。
The phoneme environment-dependent phoneme HMM is a specification of the preceding phoneme and the subsequent phoneme related to each phoneme. For example, even if the same phoneme / a /, the preceding phoneme is / k /
The phoneme / a / is a phoneme different from the phoneme / a / in which the preceding phoneme is / m /, and each phoneme is represented by a different phoneme HMM. The phoneme environment-dependent phoneme HMM requires more models than the phoneme environment-independent phoneme HMM, but is advantageous in performance. As described above, in the case of the phoneme environment-dependent phoneme HMM, since the connection constraint between the phoneme HMMs is as important as the transition constraint between states, the phoneme environment-dependent phoneme is used in the calculation of the cumulative score for reject determination. It can be said that giving a connection constraint between HMMs (hereinafter referred to as a phoneme environment connection constraint) is particularly effective in terms of accuracy and ease of calculation of the cumulative score.

【0024】尚、最終的にリジェクト判定の際に参照さ
れる累積スコアは、最終フレームにおいて最大値を呈す
る累積スコアが用いられる。その際に、初期状態や中間
状態を除外して、最終状態に係る累積スコアの中から最
大値を呈する累積スコアを求めるようにしてもよい。
As the cumulative score finally referred to in the rejection judgment, the cumulative score which exhibits the maximum value in the final frame is used. At that time, the initial state and the intermediate state may be excluded, and the cumulative score having the maximum value may be obtained from the cumulative scores related to the final state.

【0025】以下、上述した最大累積スコア算出法を適
用した音声認識装置の具体例を、図1に従って説明す
る。図1において、マイクロホン1から入力された音声
信号は、A/Dコンバータ2でA/D変換されて音響分析
部3に送出される。そして、音響分析部3によって、デ
ィジタルの音声データに基づいて1フレーム毎に音響パ
ラメータが抽出される。尤度テーブル作成部4は、上記
抽出された音響パラメータとHMMデータメモリ9に蓄
積されている総ての音素HMMとから、全音素HMMを
構成している互いに異なる総ての状態のシンボル出力確
率oを算出して尤度テーブルを作成する。そうすると、
リジェクト判定用参照累積スコア算出部5は、上記作成
された尤度テーブルおよび上記音素HMMを用いて、上
述のようにして、上記言語的連結制約および音素環境連
結制約が付与された図4に示すような経路上の各状態に
おけるリジェクト判定用参照累積スコアをフレーム毎に
計算し、リジェクト判定用参照累積スコア格納部10の
内容を更新する。一方、認識タスク累積スコア算出部6
は、上記尤度テーブル,HMMデータメモリ9の各音素
HMMおよび認識タスク辞書12を用いて、認識タスク
の生成確率の累積値である認識タスク累積スコアをフレ
ーム毎に計算し、認識タスク累積スコア格納部11の内
容を更新する。判定部7は、最終フレームに対する上述
の処理が終了すると、リジェクト判定用参照累積スコア
格納部10に格納されているリジェクト判定用参照累積
スコアの最大値と認識タスク累積スコア格納部11に格
納されている認識タスク累積スコアの最大値との差の正
規化値に基づいて、認識結果の出力あるいはリジェクト
を行うのである。音声認識制御部8は、上記A/Dコン
バータ2,音響分析部3,尤度テーブル作成部4,リジェ
クト判定用参照累積スコア算出部5,認識タスク累積ス
コア算出部6および判定部7を制御して、音声認識処理
を行う。
A specific example of the voice recognition device to which the above-described maximum cumulative score calculation method is applied will be described below with reference to FIG. In FIG. 1, the audio signal input from the microphone 1 is A / D converted by the A / D converter 2 and sent to the acoustic analysis unit 3. Then, the acoustic analysis unit 3 extracts acoustic parameters for each frame based on the digital audio data. The likelihood table creation unit 4 uses the extracted acoustic parameters and all the phoneme HMMs stored in the HMM data memory 9 to generate the symbol output probabilities of all the different states forming the whole phoneme HMM. o is calculated and a likelihood table is created. Then,
The reject determination reference cumulative score calculation unit 5 is shown in FIG. 4 in which the linguistic connection constraint and the phoneme environment connection constraint are added as described above using the created likelihood table and the phoneme HMM. The reference cumulative score for reject determination in each state on such a route is calculated for each frame, and the content of the reference cumulative score for reject determination storage unit 10 is updated. On the other hand, the recognition task cumulative score calculation unit 6
Uses the likelihood table, each phoneme HMM in the HMM data memory 9 and the recognition task dictionary 12 to calculate a recognition task cumulative score which is a cumulative value of the recognition task generation probability for each frame, and stores the recognition task cumulative score. Update the contents of section 11. When the above-mentioned processing for the final frame is completed, the determination unit 7 stores the maximum value of the reference cumulative score for reject determination stored in the reference cumulative score for rejection determination 10 and the stored value in the recognition task cumulative score storage unit 11. The recognition result is output or rejected based on the normalized value of the difference from the maximum value of the accumulated recognition task score. The voice recognition control unit 8 controls the A / D converter 2, the acoustic analysis unit 3, the likelihood table creation unit 4, the reject determination reference cumulative score calculation unit 5, the recognition task cumulative score calculation unit 6, and the determination unit 7. Voice recognition processing.

【0026】ここで、上記HMMデータメモリ9に蓄積
されている音素HMMは音素環境依存型の音素HMMで
あり、HMM境界には音素環境連結制約情報と図5およ
び図6に示すような言語的連結制約情報が付加されてい
る。
Here, the phoneme HMMs stored in the HMM data memory 9 are phoneme environment dependent phoneme HMMs, and phoneme environment connection constraint information and linguistics as shown in FIGS. 5 and 6 are provided at the HMM boundaries. Connection constraint information is added.

【0027】図2は、上記音声認識制御部8の制御の下
に、上記A/Dコンバータ2,音響分析部3,尤度テーブ
ル作成部4,リジェクト判定用参照累積スコア算出部5,
認識タスク累積スコア算出部6および判定部7によって
実行される、音声認識処理動作のフローチャートであ
る。以下、図2に従って、本実施の形態における音声認
識処理動作について説明する。
FIG. 2 shows that, under the control of the voice recognition control section 8, the A / D converter 2, the acoustic analysis section 3, the likelihood table creation section 4, the reject decision reference cumulative score calculation section 5,
6 is a flowchart of a voice recognition processing operation executed by a recognition task cumulative score calculation unit 6 and a determination unit 7. Hereinafter, the voice recognition processing operation according to the present embodiment will be described with reference to FIG.

【0028】ステップS1で、上記リジェクト判定用参
照累積スコア格納部10に格納されているリジェクト判
定用参照累積スコア(以下、単にリジェクト累積スコア
と言う)grj(j:状態番号)が初期化される。ステップ
S2で、上記認識タスク累積スコア格納部11に格納さ
れている認識タスク累積スコア(以下、単に認識累積ス
コアと言う)gtK(k:認識タスク番号)が初期化され
る。ステップS3で、フレーム番号iおよびフレーム数
Iが“0"に初期化される。 ステップS4で、上記フレーム番号iがインクリメント
される。ステップS5で、上記マイクロホン1から入力
された音声信号のi番目のフレームの音声信号が取り込
まれる。ステップS6で、上記A/Dコンバータ2によっ
て、当該フレームiの音声信号がA/D変換されてディ
ジタル化される。ステップS7で、上記音響分析部3に
よって、ディジタル音声信号から当該フレームiの音響
パラメータが抽出される。
In step S1, the reject determination reference cumulative score (hereinafter simply referred to as reject cumulative score) gr j (j: state number) stored in the reject determination reference cumulative score storage unit 10 is initialized. It In step S2, a recognition task cumulative score (hereinafter simply referred to as a recognition cumulative score) gt K (k: recognition task number) stored in the recognition task cumulative score storage unit 11 is initialized. In step S3, the frame number i and the frame number I are initialized to "0". In step S4, the frame number i is incremented. In step S5, the audio signal of the i-th frame of the audio signal input from the microphone 1 is captured. In step S6, the audio signal of the frame i is A / D converted and digitized by the A / D converter 2. In step S7, the acoustic analysis unit 3 extracts the acoustic parameter of the frame i from the digital audio signal.

【0029】ステップS8で、上記尤度テーブル作成部
4によって、上記抽出された当該フレームの音響パラメ
ータとHMMデータメモリ9の音素HMMのデータとか
ら、HMMデータメモリ9に蓄積されている全音素HM
Mを構成している互いに異なる総ての状態jのシンボル
出力確率oj(i)が算出される。ここで、上記音素HMM
のデータは、多数話者の音素バランス単語を用いたタス
クに独立な学習によって作成したものである。ステップ
S9で、上記尤度テーブル作成部4によって、上記算出
された各状態のシンボル出力確率oj(i)に対して正規化
や対数変換が行われて当該状態の尤度が求められ、尤度
テーブルの当該フレーム分が作成される。ここで、上記
尤度テーブルは図3のような構成になっており、各フレ
ームにおける各状態毎に尤度が格納されている。実際に
は、この尤度テーブルを他の記憶部に記憶しておく必要
はなく、当該フレーム分を尤度テーブル作成部4の内部
メモリ等に保持しておき、当該フレームiにおけるリジ
ェクト累積スコアgrj(i)と認識累積スコアgtk(i)の計
算が終了した後に消去すればよい。こうして、音声認識
処理動作に必要な記憶量の低減化を図るのである。
In step S8, the likelihood table creating unit 4 uses the extracted acoustic parameters of the frame and the phoneme HMM data of the HMM data memory 9 to extract all phonemes HM stored in the HMM data memory 9.
The symbol output probabilities o j (i) of all the different states j forming M are calculated. Here, the above phoneme HMM
The data of is generated by the task-independent learning using the phoneme-balanced words of many speakers. In step S9, the likelihood table creation unit 4 performs normalization or logarithmic transformation on the calculated symbol output probability o j (i) of each state to obtain the likelihood of the state. The corresponding frame of the frequency table is created. Here, the likelihood table has a configuration as shown in FIG. 3, and the likelihood is stored for each state in each frame. Actually, it is not necessary to store this likelihood table in another storage unit, but the relevant frame is held in the internal memory of the likelihood table creation unit 4 or the like, and the reject cumulative score gr in the relevant frame i is stored. It may be deleted after the calculation of j (i) and the recognition cumulative score gt k (i) is completed. In this way, the amount of memory required for the voice recognition processing operation is reduced.

【0030】ステップS10で、上記リジェクト判定用参
照累積スコア算出部5によって、リジェクト判定用参照
累積スコア格納部10に格納されている直前フレーム
(i−1)の各状態jにおけるリジェクト累積スコアgrj
(i-1)が読み出され、HMMデータメモリ9に格納され
た各音素HMMと上記尤度テーブルを用いて、上記各音
素HMMに基づく図4に示すような状態遷移の経路に従
って、当該フレームiの各状態jにおけるリジェクト累
積スコアgrj(i)が式(1)によって算出される。そし
て、こうして算出されたリジェクト累積スコアgrj(i)
によって、リジェクト判定用参照累積スコア格納部10
の内容が更新される。
In step S10, the immediately preceding frame stored in the reject determination reference cumulative score storage unit 10 by the reject determination reference cumulative score calculation unit 5
Reject cumulative score gr j in each state j of (i-1)
(i-1) is read out, and each phoneme HMM stored in the HMM data memory 9 and the likelihood table are used to follow the state transition path based on each phoneme HMM as shown in FIG. The reject cumulative score gr j (i) in each state j of i is calculated by the equation (1). Then, the reject cumulative score gr j (i) thus calculated
Accordingly, the reference cumulative score storage unit 10 for reject determination
Is updated.

【0031】換言すれば、上記リジェクト判定用参照累
積スコア算出部5は、上記尤度テーブル上に上記音素H
MMに従って設定されたビタビ経路に沿って、各状態j
毎にリジェクト累積スコアgrj(i)を算出するのであ
る。その際に、上記HMMデータメモリ9に蓄積されて
いる音素HMMは音素環境依存型の音素HMMであり、
HMM境界には音素環境連結制約情報と言語的連結制約
情報が付加されている。したがって、上記尤度テーブル
上に各音素HMMに基づいて設定される状態遷移の経路
は限定されることになり、ビタビアルゴリズムによるリ
ジェクト累積スコアgrj(i)の算出処理件数が減少され
るのである。
In other words, the reject determination reference cumulative score calculation unit 5 adds the phoneme H to the likelihood table.
Each state j along the Viterbi path set according to MM
The reject cumulative score gr j (i) is calculated for each. At that time, the phoneme HMM stored in the HMM data memory 9 is a phoneme environment-dependent phoneme HMM,
Phoneme environment connection restriction information and linguistic connection restriction information are added to the HMM boundary. Therefore, the state transition paths set on the likelihood table based on each phoneme HMM are limited, and the number of calculation processes of the reject cumulative score gr j (i) by the Viterbi algorithm is reduced. .

【0032】ステップS11で、上記認識タスク累積スコ
ア算出部6によって、認識タスク累積スコア格納部11
に格納されている直前フレーム(i−1)における各認識
タスクkの認識累積スコアgtk(i-1)が読み出され、H
MMデータメモリ9に格納されている各音素HMM,上
記尤度テーブルおよび認識タスク辞書12を用いて認識
累積スコアgtk(i)が算出される。そして、こうして算
出された認識累積スコアgtk(i)によって、認識タスク
累積スコア格納11の内容が更新される。ここで、上記
認識タスクは音素HMMの連結により表現される。そこ
で、上記前フレーム(i−1)における各認識タスクkの
認識累積スコアgtk(i-1)に、当該フレームiにおける
シンボル出力確率ok(i)と状態遷移確率pk(i)とを累積
することによって当該フレームiの認識累積スコアgtk
(i)を算出するのである。
In step S11, the recognition task cumulative score storage unit 11 is operated by the recognition task cumulative score calculation unit 6.
The recognition cumulative score gt k (i-1) of each recognition task k in the immediately preceding frame (i-1) stored in
The recognition cumulative score gt k (i) is calculated by using each phoneme HMM stored in the MM data memory 9, the likelihood table and the recognition task dictionary 12. Then, the content of the recognition task cumulative score storage 11 is updated with the recognition cumulative score gt k (i) thus calculated. Here, the recognition task is represented by concatenation of phoneme HMMs. Therefore, the symbol output probability o k (i) and the state transition probability p k (i) in the frame i are added to the recognition cumulative score gt k (i-1) of each recognition task k in the previous frame (i-1). By accumulating the recognition cumulative score gt k of the frame i.
(i) is calculated.

【0033】換言すれば、上記認識タスク累積スコア算
出部6は、上記尤度テーブル上に上記音素HMMと認識
タスクに従って設定されたビタビ経路に沿って、各認識
タスクk毎に認識累積スコアgtk(i)を算出するのであ
る。
In other words, the recognition task cumulative score calculation unit 6 recognizes the recognition cumulative score gt k for each recognition task k along the Viterbi path set according to the phoneme HMM and the recognition task on the likelihood table. (i) is calculated.

【0034】ステップS12で、当該フレームiは最終フ
レームであるか否かが判別される。その結果、最終フレ
ームでなければ,上記ステップS4に戻って次のフレー
ム(i+1)の処理に移行する。一方、最終フレームであ
ればステップS13に進む。ステップS13で、上記フレー
ム数Iにフレーム番号iがセットされる。ステップS14
で、上記判定部7によって、リジェクト判定用参照累積
スコア格納部10に格納されているリジェクト累積スコ
アgrj(I)の中から最大値が検索されてリジェクト判定
用最大参照累積スコアLrとされる。同様に、認識タス
ク累積スコア格納部11に格納されている認識累積スコ
アgtk(I)の中から最大値が検索されて認識タスク最大
累積スコアLtとされる。
In step S12, it is judged whether or not the frame i is the final frame. As a result, if it is not the final frame, the process returns to the step S4 to shift to the processing of the next frame (i + 1). On the other hand, if it is the final frame, the process proceeds to step S13. In step S13, the frame number i is set to the frame number I. Step S14
Then, the judging unit 7 searches the reject accumulating score gr j (I) stored in the reject judging reference accumulative score storing unit 10 for the maximum value and sets it as the reject judging maximum reference accumulating score Lr. . Similarly, the maximum value is retrieved from the recognition cumulative score gt k (I) stored in the recognition task cumulative score storage unit 11 and set as the recognition task maximum cumulative score Lt.

【0035】ステップS15で、上記判定部7によって、
上記検索されたリジェクト判定用最大参照累積スコアL
rと認識タスク最大累積スコアLtとから、正規化リジェ
クト判定値L'が式(2)によって算出される。 L'=(Lr−Lt)/I …(2) ここで、上記リジェクト判定用最大参照累積スコアLr
と認識タスク最大累積スコアLtとの差はフレーム数I
に比例して大きくなる。したがって、両累積スコアLr,
Ltの差をフレーム数Iで正規化するのである。ステッ
プS16で、上記判定部7によって、上記算出された正規
化リジェクト判定値L'の値が閾値より小さいか否かが
判別される。その結果、閾値よりの小さい場合にはステ
ップS18に進み、閾値以上である場合にはステップS17
に進む。 ステップS17で、上記判定部7によって、発声内容が未
知発語であると判定されて、認識タスク最大参照累積ス
コアLtを呈する音素列がリジェクトされて音声認識処
理動作を終了する。ステップS18で、上記判定部7によ
って、発声内容が認識語彙に含まれているものと判定さ
れて、認識タスク最大参照累積スコアLtを呈する音素
列が認識結果として出力されて音声認識処理動作を終了
する。
In step S15, the judging section 7
The maximum reference cumulative score L for reject judgment retrieved above
From r and the recognition task maximum cumulative score Lt, the normalized reject determination value L ′ is calculated by the equation (2). L '= (Lr-Lt) / I (2) Here, the maximum reference cumulative score Lr for reject determination is given.
And the recognition task maximum cumulative score Lt is the number of frames I
It increases in proportion to. Therefore, both cumulative scores Lr,
The difference in Lt is normalized by the number of frames I. In step S16, the determining unit 7 determines whether the calculated normalized reject determination value L'is smaller than a threshold value. As a result, if it is smaller than the threshold value, the process proceeds to step S18, and if it is equal to or larger than the threshold value, step S17.
Proceed to. In step S17, the determination unit 7 determines that the utterance content is an unknown utterance, rejects the phoneme sequence having the maximum recognition task reference score Lt, and ends the voice recognition processing operation. In step S18, the determination unit 7 determines that the utterance content is included in the recognition vocabulary, outputs the phoneme sequence having the maximum recognition task reference score Lt as the recognition result, and ends the voice recognition processing operation. To do.

【0036】上述のように、本実施の形態においては、
上記HMMデータメモリ9には、HMM境界に音素環境
連結制約情報と言語的連結制約情報を付加した音素環境
依存型の音素HMMを登録している。そして、1フレー
ム毎に取り込まれた音声信号に基づく音響パラメータと
HMMデータメモリ9の音素HMMから、尤度テーブル
作成部4によって尤度テーブルを作成する。そうする
と、リジェクト判定用参照累積スコア算出部5は、音素
環境連結制約および言語的連結制約が付与された音素H
MMに従って上記尤度テーブル上に設定された経路に沿
ってビタビアルゴリズムによってリジェクト累積スコア
grj(i)を算出して、リジェクト判定用参照累積スコア
格納部10の内容を更新する。一方、認識タスク累積ス
コア算出部6は、上記尤度テーブル上に上記音素HMM
および認識タスクに従って設定された経路に沿って各認
識タスクk毎に認識累積スコアgtk(i)を算出して、認
識タスク累積スコア格納部11の内容を更新する。上記
判定部7は、上述の処理が最終フレームまで終了する
と、その時点でリジェクト判定用参照累積スコア格納部
10および認識タスク累積スコア格納部11に格納され
ている両累積スコアgrj(i),gtk(i)の最大値を検索し
て、リジェクト判定用最大参照累積スコアLrと認識タ
スク最大累積スコアLtとを得る。そして、両最大累積
スコアLr,Ltに基づいて求めた正規化リジェクト判定
値L'によって認識結果のリジェクト判定を行う。
As described above, in the present embodiment,
In the HMM data memory 9, a phoneme environment-dependent phoneme HMM in which phoneme environment connection constraint information and linguistic connection constraint information are added to HMM boundaries is registered. Then, the likelihood table creating unit 4 creates a likelihood table from the acoustic parameters based on the audio signal captured for each frame and the phoneme HMM in the HMM data memory 9. Then, the reject determination reference cumulative score calculation unit 5 causes the phoneme H to which the phoneme environment connection constraint and the linguistic connection constraint are added.
The reject cumulative score gr j (i) is calculated by the Viterbi algorithm along the route set on the likelihood table according to the MM, and the content of the reject determination reference cumulative score storage unit 10 is updated. On the other hand, the recognition task cumulative score calculation unit 6 adds the phoneme HMM on the likelihood table.
Then, the recognition cumulative score gt k (i) is calculated for each recognition task k along the route set according to the recognition task, and the contents of the recognition task cumulative score storage unit 11 are updated. When the above process is completed up to the final frame, the judgment unit 7 determines that both cumulative scores gr j (i), stored in the reject judgment reference cumulative score storage unit 10 and the recognition task cumulative score storage unit 11 at that time. The maximum value of gt k (i) is searched to obtain the maximum reference cumulative score Lr for reject determination and the maximum cumulative score Lt of the recognition task. Then, the rejection judgment of the recognition result is performed by the normalized reject judgment value L ′ obtained based on both the maximum cumulative scores Lr, Lt.

【0037】このように、本実施の形態における上記リ
ジェクト判定用参照累積スコア算出部5は、上記尤度テ
ーブル上に音素HMMに従って設定されたビタビ経路に
沿って各状態j毎にリジェクト累積スコアgrj(i)を算
出している。したがって、当該フレームにおいてある状
態jが例えば2つの音素HMMによって共有されている
場合には、上記2つの音素HMMにおける直前フレーム
での異なる状態から当該フレームにおける共有された状
態jに遷移する2つの経路の一方(リジェクト累積スコ
アの小さい方)は、ビタビアルゴリズムによって当該フ
レームで断ち切られることになる。その結果、次フレー
ム以降においては上記断ち切られた音素HMMに関する
リジェクト累積スコアgrj(i)の演算を行う必要がなく
なり、その分だけ演算量を削減できるのである。これに
対して、従来の技術の項で述べた渡辺等の論文に記載さ
れている「音節認識を用いたゆう度補正法」において
は、図8に示すような音節ネットワークを用いて生成確
率を算出している。したがって、各音節HMM間で部分
的な状態共有があっても各音節HMM毎に互いに独立し
て累積スコアが求められる。したがって、累積スコアの
演算量は削減されないのである。すなわち、本実施の形
態によれば、用いる音素HMMに状態共有音素HMMが
存在する場合には、リジェクト判定の際の処理量を大幅
に削減されるのである。
As described above, the reject determination reference cumulative score calculation unit 5 in the present embodiment, reject cumulative score gr for each state j along the Viterbi path set according to the phoneme HMM on the likelihood table. j (i) is calculated. Therefore, when a certain state j in the frame is shared by, for example, two phoneme HMMs, two paths that transit from a different state in the immediately preceding frame in the two phoneme HMMs to a shared state j in the frame. One of them (the one with the smaller reject cumulative score) is cut off at the frame by the Viterbi algorithm. As a result, it is not necessary to calculate the reject cumulative score gr j (i) for the disconnected phoneme HMM in the subsequent frames, and the amount of calculation can be reduced accordingly. On the other hand, in the “likelihood correction method using syllable recognition” described in the paper of Watanabe et al. Described in the section of the conventional art, the generation probability is calculated using a syllable network as shown in FIG. It is calculated. Therefore, even if there is partial state sharing among the syllable HMMs, the cumulative score is obtained independently for each syllable HMM. Therefore, the amount of calculation of the cumulative score is not reduced. That is, according to the present embodiment, when the phoneme HMM to be used includes the state-shared phoneme HMM, the processing amount at the time of reject determination is significantly reduced.

【0038】また、上記音素HMMの境界には音素環境
連結制約情報と言語的連結制約情報が付加されているの
で、連結される音素HMMを限定することによって演算
処理量を更に縮小できる。さらに、あり得ない経路を事
前に削除して正確にリジェクト累積スコアgrj(i)を算
出でき、リジェクト判定精度を高めることができる。
Further, since the phoneme environment connection constraint information and the linguistic connection constraint information are added to the boundary of the phoneme HMM, the amount of calculation processing can be further reduced by limiting the phoneme HMMs to be connected. Furthermore, it is possible to accurately calculate the reject cumulative score gr j (i) by deleting the impossible route in advance, and to improve the rejection determination accuracy.

【0039】また、リジェクト累積スコアgrj(i)の算
出および認識累積スコアgtk(i)の算出は、共にHMM
データメモリ9に蓄積された音素HMMのデータに基づ
いて作成している。したがって、従来のように、リジェ
クト判定用と認識タスク用の2つのネットワークを格納
しておく必要がなく、記憶量を低減できる。また、上記
実施の形態においては、上記HMMデータメモリ9に蓄
積されている音素HMMからリジェクト累積スコアgrj
(i)および認識累積スコアgtk(i)を算出するのであるか
ら、上述のリジェクト判定処理は、認識タスクが単語で
あろうと構文ネットワークを用いた連続音声認識であろ
うと適用可能である。
The calculation of the reject cumulative score gr j (i) and the calculation of the recognition cumulative score gt k (i) are both performed by the HMM.
It is created based on the phoneme HMM data accumulated in the data memory 9. Therefore, unlike the prior art, it is not necessary to store two networks for reject determination and recognition task, and the storage amount can be reduced. Further, in the above embodiment, the reject cumulative score gr j is calculated from the phoneme HMM stored in the HMM data memory 9.
Since (i) and the cumulative recognition score gt k (i) are calculated, the above-described reject determination process can be applied regardless of whether the recognition task is a word or continuous speech recognition using a syntactic network.

【0040】尚、上記実施の形態においては、上記HM
Mデータメモリ9には音素環境依存型の音素HMMを登
録し、HMM境界には制約情報として音素環境連結制約
情報と言語的連結制約情報を付加している。しかしなが
ら、この発明はこれに限定されるものではなく、上記制
約情報として音素環境連結制約情報のみを付加してもよ
い。また、非音素環境依存型の音素HMMをHMMデー
タメモリに登録し、HMM境界には言語的連結制約情報
のみを付加しても何等差し支えない。但し、その場合に
は、リジェクト累積スコアgrj(i)の算出精度は低くな
る。
In the above embodiment, the HM
A phoneme environment-dependent phoneme HMM is registered in the M data memory 9, and phoneme environment connection restriction information and linguistic connection restriction information are added to the HMM boundaries as restriction information. However, the present invention is not limited to this, and only the phoneme environment connection constraint information may be added as the constraint information. In addition, it does not matter even if the non-phoneme environment-dependent phoneme HMM is registered in the HMM data memory and only the linguistic connection constraint information is added to the HMM boundary. However, in that case, the accuracy of calculating the reject cumulative score gr j (i) becomes low.

【0041】[0041]

【発明の効果】以上より明らかなように、請求項1に係
る発明の音声認識装置は、音響パラメータとサブワード
単位のHMMに基づいて尤度テーブル作成部によって尤
度テーブルを作成し、リジェクト判定用参照累積スコア
算出部によって、上記HMMの状態遷移制約情報に基づ
く制約に従って上記尤度テーブル上に設定した経路に沿
った最大参照累積スコアをビタビアルゴリズムで算出
し、認識タスク累積スコア算出部によって、上記尤度テ
ーブル上における上記HMMおよび各認識タスクに従っ
た経路に沿った最大累積スコアを算出し、リジェクト判
定部によって、上記両最大累積スコアの差に基づいて発
声内容のリジェクトを判定するので、リジェクト判定用
の最大参照累積スコアの演算に際して同一フレームで複
数HMMの状態を共有する場合には、上記最大参照累積
スコアの演算量が大幅に少なくなる。その結果、上記最
大参照累積スコアの記憶量を少なくできる。また、上記
リジェクト判定用の最大参照累積スコアおよび認識タス
ク用の最大累積スコアは、同じサブワード単位のHMM
に基づく尤度テーブルから算出されるので、リジェクト
判定用と認識タスク用のネットワークを独立して設ける
必要がなく、記憶容量を小さくできる。
As is apparent from the above, the speech recognition apparatus of the invention according to claim 1 creates a likelihood table by the likelihood table creating section based on the acoustic parameter and the HMM in units of subwords for reject judgment. The reference cumulative score calculation unit calculates the maximum reference cumulative score along the route set on the likelihood table by the Viterbi algorithm according to the constraint based on the state transition constraint information of the HMM, and the recognition task cumulative score calculation unit calculates the maximum reference cumulative score. The maximum cumulative score along the route according to the HMM and each recognition task on the likelihood table is calculated, and the reject determination unit determines the rejection of the utterance content based on the difference between the maximum cumulative scores. When calculating the maximum reference cumulative score for judgment, multiple HMM states are shared in the same frame. When the operation amount of the maximum reference cumulative score is greatly reduced. As a result, the storage amount of the maximum reference cumulative score can be reduced. In addition, the maximum reference cumulative score for reject judgment and the maximum cumulative score for recognition task are the same for HMM in the same subword unit.
Since it is calculated from the likelihood table based on, it is not necessary to separately provide networks for reject determination and recognition tasks, and the storage capacity can be reduced.

【0042】また、請求項2に係る発明の音声認識装置
におけるHMMの状態遷移制約情報はHMM境界での認
識対象言語による連結制約情報を含むので、上記尤度テ
ーブル上に設定される経路には上記言語的連結制約が付
与されている。したがって、この発明によれば、請求項
1に係る発明の効果に加えて、リジェクト判定用の最大
参照累積スコアの演算量が更に少なくなると共に、連結
されるHMMが認識対象言語に応じて限定されてリジェ
クト判定用の最大参照累積スコアの算出精度が良くな
る。
Further, since the state transition constraint information of the HMM in the speech recognition apparatus according to the second aspect includes the connection constraint information depending on the recognition target language at the HMM boundary, the route set on the likelihood table is The above linguistic connection constraint is added. Therefore, according to the present invention, in addition to the effect of the invention according to claim 1, the operation amount of the maximum reference cumulative score for reject determination is further reduced, and the concatenated HMMs are limited according to the recognition target language. Therefore, the accuracy of calculation of the maximum reference cumulative score for reject determination is improved.

【0043】また、請求項3に係る発明の音声認識装置
におけるHMMデータメモリに蓄積されているHMMは
音素環境依存型の音素HMMであり、上記HMMの状態
遷移制約情報はHMM境界での音素環境による連結制約
情報を含むので、上記尤度テーブル上に設定される経路
には上記音素環境連結制約が付与されている。したがっ
て、この発明によれば、請求項1に係る発明の効果に加
えて、リジェクト判定用の最大参照累積スコアの演算量
が更に少なくなると共に、連結される音素HMMが音素
環境によって特定されてリジェクト判定用の最大参照累
積スコアの算出精度が非常に良くなる。
The HMM stored in the HMM data memory in the speech recognition apparatus according to the third aspect is a phoneme environment-dependent phoneme HMM, and the state transition constraint information of the HMM is the phoneme environment at the HMM boundary. Since the connection constraint information is included, the phoneme environment connection constraint is given to the route set on the likelihood table. Therefore, according to the present invention, in addition to the effect of the invention according to claim 1, the operation amount of the maximum reference cumulative score for reject determination is further reduced, and the concatenated phoneme HMM is identified by the phoneme environment and rejected. The accuracy of calculation of the maximum reference cumulative score for determination becomes very good.

【図面の簡単な説明】[Brief description of drawings]

【図1】この発明の音声認識装置におけるブロック図で
ある。
FIG. 1 is a block diagram of a speech recognition apparatus according to the present invention.

【図2】図1における音声認識制御部の制御の下に行わ
れる音声認識処理動作のフローチャートである。
FIG. 2 is a flowchart of a voice recognition processing operation performed under the control of a voice recognition control unit in FIG.

【図3】尤度テーブルの一例を示す図である。FIG. 3 is a diagram showing an example of a likelihood table.

【図4】尤度テーブルからビタビアルゴリズムによって
累積スコアを求める際の経路の一例を示す図である。
FIG. 4 is a diagram showing an example of a route for obtaining a cumulative score from a likelihood table by a Viterbi algorithm.

【図5】音素間の連結制約の一例を示す図である。FIG. 5 is a diagram showing an example of a connection constraint between phonemes.

【図6】図5に続く音素間の連結制約の一例を示す図で
ある。
FIG. 6 is a diagram showing an example of a connection constraint between phonemes subsequent to FIG. 5;

【図7】構文ネットワークの一例を示す図である。FIG. 7 is a diagram showing an example of a syntax network.

【図8】従来の未知発話リジェクションにおいて使用さ
れる音節ネットワークを示す図である。
FIG. 8 is a diagram showing a syllable network used in conventional unknown speech rejection.

【図9】HMMの説明図である。FIG. 9 is an explanatory diagram of an HMM.

【符号の説明】[Explanation of symbols]

3…音響分析部、 4…尤度テーブル
作成部、5…リジェクト判定用参照累積スコア算出部、
6…認識タスク累積スコア算出部、 7…判定部、8…
音声認識制御部、 9…HMMデータメモ
リ、10…リジェクト判定用参照累積スコア格納部、1
1…認識タスク累積スコア格納部。
3 ... Acoustic analysis unit, 4 ... Likelihood table creation unit, 5 ... Rejection determination reference cumulative score calculation unit,
6 ... Recognition task cumulative score calculation unit, 7 ... Judgment unit, 8 ...
Speech recognition control unit, 9 ... HMM data memory, 10 ... Reject judgment reference cumulative score storage unit, 1
1 ... Recognition task cumulative score storage unit.

Claims (3)

【特許請求の範囲】[Claims] 【請求項1】 入力音声から音響パラメータを抽出する
音響分析部と、 状態遷移制約情報を有するサブワード単位のHMMが蓄
積されているHMMデータメモリと、 上記抽出された音響パラメータと上記蓄積されているH
MMに基づいて、全HMMを構成している総ての状態の
局所尤度を算出して尤度テーブルを作成する尤度テーブ
ル作成部と、 上記HMMの状態遷移制約情報に基づく制約に従って上
記尤度テーブル上に経路を設定し、この経路に沿った最
大参照累積スコアをビタビアルゴリズムによって算出す
るリジェクト判定用参照累積スコア算出部と、 上記尤度テーブル上における上記HMMおよび各認識タ
スクに従った経路に沿った最大累積スコアを算出する認
識タスク累積スコア算出部と、 上記リジェクト判定用参照累積スコア算出部で算出され
た最大参照累積スコアと上記認識タスク累積スコア算出
部で算出された最大累積スコアの差を算出し、この差の
値が所定値以上であれば発声内容は認識対象外の未知発
話であると判定してリジェクトするリジェクト判定部を
備えたことを特徴とする音声認識装置。
1. An acoustic analysis unit for extracting an acoustic parameter from an input voice, an HMM data memory in which a sub-word unit HMM having state transition constraint information is accumulated, the extracted acoustic parameter and the accumulated acoustic parameters. H
A likelihood table creation unit that creates a likelihood table by calculating local likelihoods of all the states that compose all HMMs based on the MM, and the likelihood table creation unit according to the constraint based on the state transition constraint information of the HMM. A reference determination score calculation unit for reject determination that sets a route on the frequency table and calculates the maximum reference accumulation score along this route by the Viterbi algorithm, and a route that follows the HMM and each recognition task on the likelihood table. Of the recognition task cumulative score calculation unit that calculates the maximum cumulative score according to, the maximum reference cumulative score calculated by the reference cumulative score calculation unit for reject determination, and the maximum cumulative score calculated by the recognition task cumulative score calculation unit The difference is calculated, and if the value of this difference is greater than or equal to a predetermined value, it is determined that the utterance content is an unknown utterance that is not a recognition target and rejected. Speech recognition apparatus comprising the object determination unit.
【請求項2】 請求項1に記載の音声認識装置におい
て、 上記HMMデータメモリに蓄積されているHMMの状態
遷移制約情報は、HMM境界での認識対象言語による連
結制約情報を含むことを特徴とする音声認識装置。
2. The voice recognition device according to claim 1, wherein the HMM state transition constraint information stored in the HMM data memory includes connection constraint information in a recognition target language at an HMM boundary. Voice recognition device.
【請求項3】 請求項1に記載の音声認識装置におい
て、 上記HMMデータメモリに蓄積されているHMMは、音
素環境依存型の音素HMMであり、 上記HMMデータメモリに蓄積されているHMMの状態
遷移制約情報は、HMM境界での音素環境による連結制
約情報を含むことを特徴とする音声認識装置。
3. The speech recognition apparatus according to claim 1, wherein the HMM stored in the HMM data memory is a phoneme environment-dependent phoneme HMM, and the state of the HMM stored in the HMM data memory. The speech recognition apparatus, wherein the transition constraint information includes connection constraint information depending on a phoneme environment at an HMM boundary.
JP21342995A 1995-08-22 1995-08-22 Voice recognition device Expired - Fee Related JP3315565B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP21342995A JP3315565B2 (en) 1995-08-22 1995-08-22 Voice recognition device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP21342995A JP3315565B2 (en) 1995-08-22 1995-08-22 Voice recognition device

Publications (2)

Publication Number Publication Date
JPH0962290A true JPH0962290A (en) 1997-03-07
JP3315565B2 JP3315565B2 (en) 2002-08-19

Family

ID=16639088

Family Applications (1)

Application Number Title Priority Date Filing Date
JP21342995A Expired - Fee Related JP3315565B2 (en) 1995-08-22 1995-08-22 Voice recognition device

Country Status (1)

Country Link
JP (1) JP3315565B2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1185188A (en) * 1997-09-12 1999-03-30 Nippon Telegr & Teleph Corp <Ntt> Speech recognition method and its program recording medium
WO2002091358A1 (en) * 2001-05-08 2002-11-14 Intel Corporation Method and apparatus for rejection of speech recognition results in accordance with confidence level
JP2010175807A (en) * 2009-01-29 2010-08-12 Kddi Corp Speech recognition method and device

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1185188A (en) * 1997-09-12 1999-03-30 Nippon Telegr & Teleph Corp <Ntt> Speech recognition method and its program recording medium
WO2002091358A1 (en) * 2001-05-08 2002-11-14 Intel Corporation Method and apparatus for rejection of speech recognition results in accordance with confidence level
JP2010175807A (en) * 2009-01-29 2010-08-12 Kddi Corp Speech recognition method and device

Also Published As

Publication number Publication date
JP3315565B2 (en) 2002-08-19

Similar Documents

Publication Publication Date Title
JP4465564B2 (en) Voice recognition apparatus, voice recognition method, and recording medium
US10176802B1 (en) Lattice encoding using recurrent neural networks
US5719997A (en) Large vocabulary connected speech recognition system and method of language representation using evolutional grammer to represent context free grammars
JP3672595B2 (en) Minimum false positive rate training of combined string models
JP4322815B2 (en) Speech recognition system and method
US5983177A (en) Method and apparatus for obtaining transcriptions from multiple training utterances
JP2000122691A (en) Automatic recognizing method for spelling reading type speech speaking
US5873061A (en) Method for constructing a model of a new word for addition to a word model database of a speech recognition system
JPH0422276B2 (en)
JPH08278794A (en) Speech recognition device and its method and phonetic translation device
WO2001065541A1 (en) Speech recognition device and speech recognition method, and recording medium
JP2004170765A (en) Apparatus and method for speech processing, recording medium, and program
JP2003208195A5 (en)
JP2003208195A (en) Device, method and program for recognizing consecutive speech, and program recording medium
JP4595415B2 (en) Voice search system, method and program
JP4528540B2 (en) Voice recognition method and apparatus, voice recognition program, and storage medium storing voice recognition program
JPH0962290A (en) Speech recognition device
JP3914709B2 (en) Speech recognition method and system
JP3559479B2 (en) Continuous speech recognition method
JP3532248B2 (en) Speech recognition device using learning speech pattern model
JP4600705B2 (en) Voice recognition apparatus, voice recognition method, and recording medium
JPH0822296A (en) Pattern recognition method
JP3231365B2 (en) Voice recognition device
JP4696400B2 (en) Voice recognition apparatus, voice recognition method, program, and recording medium
JP2002082688A (en) Device and method for adapting speaker, computer readable recording medium which records speaker adaptive program, device and method for voice recognition and computer readable recording medium which records voice recognition program

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090607

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees