JPH08202384A - Speech recognizing method and apparatus therefor - Google Patents

Speech recognizing method and apparatus therefor

Info

Publication number
JPH08202384A
JPH08202384A JP7024521A JP2452195A JPH08202384A JP H08202384 A JPH08202384 A JP H08202384A JP 7024521 A JP7024521 A JP 7024521A JP 2452195 A JP2452195 A JP 2452195A JP H08202384 A JPH08202384 A JP H08202384A
Authority
JP
Japan
Prior art keywords
trellis
recognition
processing
node
directed graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7024521A
Other languages
Japanese (ja)
Inventor
Nobuyuki Saito
伸行 斎藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP7024521A priority Critical patent/JPH08202384A/en
Publication of JPH08202384A publication Critical patent/JPH08202384A/en
Pending legal-status Critical Current

Links

Abstract

PURPOSE: To form a directed graph at a-high speed with high accuracy and eventually to enable real time processing as well by consolidatively executing processing to recognize the system of recognition candidates and processing to form the directed graph in synchronization in time. CONSTITUTION: The arithmetic processing in an arithmetic means 13 is interrupted in mid-way for the recognition candidate system of low cumulative scores. A trellis forming means 12 executes commonage processing to successively integrate chains to the form of a graph in a manner as to prevent the formation of overlapped part trees in synchronization in time as well while developing the succeeding trellis to a tree form. The processing to express the intermediate results of recognition (series of the recognition candidates) as the graph of the trellis at each time executed in the trellis forming means 12, the processing to develop the trellis of the recognition candidates at each time to the trees, the processing to make the freshly added trellis common with the already developed trellis, etc., are progressed in synchronization in time with the arithmetic processing of the cumulative scores and start time at each point on the trellis executed by the arithmetic means 13.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、認識の途中または最終
結果として得られる音素、音節、単語等の認識候補系列
を有向グラフ型のデータ構造を用いて表現する音声認識
方法及び装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a speech recognition method and apparatus for expressing recognition candidate sequences of phonemes, syllables, words, etc. obtained during or as a final result of recognition using a directed graph type data structure.

【0002】[0002]

【従来の技術】連続的に発話された音声を装置で自動的
に認識する音声認識の技術においては、音声の信号とし
ての処理(音声処理)と記号としての処理(言語処理)
とをどのように結びつけるかということが重要な課題と
なっている。従来では、連続した音声信号の中からスポ
ッティングの技術を用いて音素、音節、単語等として尤
もらしい認識候補を複数個抽出し、これら認識候補のラ
ティスを作成したり、或いは、比較的低次の言語的制約
を用いて複数個の単語候補の系列(N−best解)を
求める等といった処理を音声処理として行い、その結果
をもとに、より高次の言語的な処理を行うといった手法
が主に採られていた。
2. Description of the Related Art In a voice recognition technology for automatically recognizing continuously uttered voices by a device, a process as a voice signal (voice process) and a process as a symbol (language process)
How to connect and is an important issue. Conventionally, a plurality of likely recognition candidates such as phonemes, syllables, and words are extracted from a continuous speech signal using a spotting technique, and a lattice of these recognition candidates is created, or a relatively low-order recognition candidate is created. A method of performing a process such as obtaining a sequence of a plurality of word candidates (N-best solution) using a linguistic constraint as a voice process and performing a higher-order linguistic process based on the result. It was mainly used.

【0003】しかしながら、このような従来の手法で
は、音声処理の不確実性を出来るだけ回避しようとする
と、ラティスやN−bestの”N”をかなり大きくす
る必要があるため、認識候補系列のデータが莫大なもの
となって言語処理へのデータ受渡の際に過大なオーバー
ヘッドが生じるという不具合がある。これに対し、近年
では、音声処理と言語処理を有向グラフ型のデータ構造
を用いて結びつける手法が提案されている。有向グラフ
型のデータ構造は、莫大な数の音素、音節、単語等の認
識候補の系列をコンパクトに表現できるため、上記した
従来の手法における不具合を解決することができる。
However, in such a conventional method, in order to avoid the uncertainty of voice processing as much as possible, it is necessary to make the "N" of the lattice or N-best considerably large. However, there is a problem in that an excessive amount of overhead occurs when data is passed to the language processing. On the other hand, in recent years, a method of connecting speech processing and language processing using a directed graph type data structure has been proposed. Since the directed graph type data structure can represent a huge number of recognition candidate sequences such as phonemes, syllables, and words in a compact manner, it is possible to solve the above-mentioned problems in the conventional method.

【0004】図3には、有向グラフの一例として音節の
認識候補系列を表現した有向グラフを示してある。一般
に、グラフは、ノード(節点)の集合と、二つのノード
を結ぶアーク(枝)の集合として定義され、アークに向
きのついているものが特に有向グラフと呼ばれる。そし
て、音声処理と言語処理とのインターフェースとして有
向グラフ型のデータ構造を用いる場合には、通常、ノー
ドは時刻又は時刻と状態の組を属性として持ち、アーク
は認識候補の音素、音節、単語等を示すラベル(o、m
o、si、ro、i、無音を表す#等)とそのスコア
(確からしさ)という属性を持つ。なお、各アークの始
まりを表すノードはそのアークのインノード、各アーク
の終わりを表すノードはアウトノードと呼ばれ、発話開
始時刻のノードを開始ノード、発話終了(或いは、発話
の区切り)時刻のノードは終了ノードと呼ばれる。
FIG. 3 shows a directed graph representing a syllable recognition candidate sequence as an example of the directed graph. In general, a graph is defined as a set of nodes (nodes) and a set of arcs (branches) that connect two nodes, and a graph in which arcs are oriented is called a directed graph. When a directed graph type data structure is used as an interface between speech processing and language processing, a node usually has a time or a set of time and state as an attribute, and an arc has phonemes, syllables, words, etc. as recognition candidates. Labels (o, m
o, si, ro, i, # indicating silence, etc.) and its score (probability). The node that represents the beginning of each arc is called the in node of that arc, and the node that represents the end of each arc is called the out node. The node at the utterance start time is the start node, and the node at the utterance end (or utterance break) time. Is called an end node.

【0005】有向グラフでは、隣り合ったアークをアー
クの向きに従ってつないでいくことで、ノードとノード
を結ぶ経路(パス)を考えることができる。グラフが音
声処理の結果を表している時には、アークとノードの属
性から、一つのパスには認識候補の系列、この系列に対
する累積スコア(そのパス上のアークのスコアの和)及
びこの系列がいつからいつまで存在するかというデータ
が一意に対応している。特に、開始ノードと終了ノード
を結ぶパスは一つの音声認識結果を表すものとして重要
であり、このようなパスが複数存在する場合には、各パ
スを累積スコアにより順序付けることで、対応する音
素、音節、単語等の認識候補の系列の中から認識結果と
して妥当なものを求めることができる。
In a directed graph, by connecting adjacent arcs according to the direction of the arcs, it is possible to consider a path connecting the nodes. When the graph represents the result of speech processing, from the attributes of arcs and nodes, the sequence of recognition candidates in one path, the cumulative score for this series (sum of the scores of arcs on that path) and when The data of how long it exists exists uniquely. Particularly, the path connecting the start node and the end node is important as one speech recognition result, and when there are multiple such paths, by ordering each path by the cumulative score, the corresponding phoneme A valid recognition result can be obtained from a series of recognition candidates such as syllables and words.

【0006】なお、有向グラフは特殊な形態としてツリ
ー状であることもあり、このようなツリー形態の有向グ
ラフでは、異なったアークが共通のアウトノードを持た
ない構造となっている。また、有向グラフの特殊な場合
として、開始ノードと終了ノードを結ぶパスが一つしか
ないということもある。
Since the directed graph may have a tree shape as a special form, such a tree-shaped directed graph has a structure in which different arcs do not have a common out node. Also, as a special case of a directed graph, there may be only one path connecting the start node and the end node.

【0007】ここで、従来より、音声処理の結果を上記
のような有向グラフとして表現する方法がいくつか提案
されている。第1の方法は、単語の単位で音声を認識し
て有向グラフを作成するものであり、単語仮説を生成す
る処理と有向グラフを最適化する処理を分離して処理を
二段階のものとしている。そして、単語仮説をつなげて
単語列仮説とする処理、単語間の最適な境界位置を見つ
ける処理、同じ時刻に相当する単語境界を一つのノード
としてまとめる処理、同じ単語候補の系列を含む部分的
なグラフを一つにまとめる処理を、全て最適化処理の中
で行なっている。(M.Oerder and H.Ney, "Word graphs
: An efficient interface between continuous-speec
h recognitionand language understanding", Proc. IC
ASSP-93, vol.II, pp.119-122)
Heretofore, there have been proposed some methods for expressing the result of voice processing as a directed graph as described above. The first method is to recognize speech in word units and create a directed graph, and separate the process of generating a word hypothesis and the process of optimizing a directed graph into two steps. Then, the process of connecting the word hypotheses into a word string hypothesis, the process of finding the optimal boundary position between words, the process of grouping the word boundaries corresponding to the same time as one node, and the partial process including the same word candidate sequence. The process of combining the graphs into one is all performed in the optimization process. (M.Oerder and H.Ney, "Word graphs
: An efficient interface between continuous-speec
h recognitionand language understanding ", Proc. IC
ASSP-93, vol.II, pp.119-122)

【0008】また、第2の方法は、スポッティングの技
術により抽出したモーラ(言語のリズムの単位)を基に
モーラグラフを作成するものであり、各モーラ(実施例
では半モーラ)が或る時刻で終了すると仮定した場合
の、その時刻までの累積スコアとそのモーラの開始時刻
を時間的に同期して計算し、発話の終了後、得られたデ
ータテーブルを発話の開始時刻方向に後戻りしながら、
認識候補として確からしい複数個のモーラ系列をグラフ
型のデータ構造としてまとめている。(特開平5−26
5483号公報)
The second method is to create a mora graph based on the mora (unit of language rhythm) extracted by the spotting technique, and each mora (half mora in the embodiment) is at a certain time. If it is assumed that the utterance ends, the cumulative score up to that time and the start time of the mora are calculated in time synchronization, and after the end of the utterance, the obtained data table is moved back toward the utterance start time. ,
A plurality of mora sequences that are likely to be recognized as recognition candidates are summarized as a graph-type data structure. (JP-A-5-26
No. 5483)

【0009】また、第3の方法は、単語単位の有向グラ
フを作成するための処理を三段階にしたものである。ま
ず、発話の終了後、発話の開始方向に向かって、各音素
が次に或る音素が続くという条件の下で或る時刻から始
まるとした時の累積スコアとその存在区間を計算する。
その後、今度は発話の開始から終了方向に向かって、各
単語がどのような音素の並びになっているかという知識
と、単語の接続に関する知識を用いて、時間とは非同期
で(単語に同期で)単語単位の有向グラフを作成する。
最後に、再び発話の終了から開始方向に向かって、単語
に同期して有向グラフの最適化を行う。(P.Kenny,et a
l. "New graph search techniques forspeech recognit
ion", Proc. ICASSP-94, vol.I, pp.553-556)
The third method is a three-step process for creating a directed graph in word units. First, after the end of the utterance, the cumulative score and its existence section are calculated when each phoneme starts at a certain time under the condition that a certain phoneme continues next in the direction of the start of the utterance.
Then, this time, from the beginning to the end of the utterance, using the knowledge of how phonemes are arranged in each word and the knowledge of connecting the words, asynchronously with time (synchronized with the words). Create a word-wise directed graph.
Finally, the directed graph is optimized in synchronization with the words from the end of the utterance toward the start. (P.Kenny, et a
l. "New graph search techniques for speech recognit
ion ", Proc. ICASSP-94, vol.I, pp.553-556)

【0010】[0010]

【発明が解決しようとする課題】有向グラフ型のデータ
構造は、莫大な数の音素、音節、単語等の認識候補系列
をコンパクトな形で表現できるため、音声処理と言語処
理とを効率的に結び付けることができる。しかしなが
ら、音声処理の結果を有向グラフとして表現する従来の
方法にあっては、有向グラフの作成に要する処理量が多
く迅速な処理が行えないという問題や、作成された有向
グラフの精度が不十分なものとなってしまうという問題
があった。
Since the directed graph type data structure can represent a huge number of recognition candidate sequences of phonemes, syllables, words, etc. in a compact form, it efficiently links speech processing and language processing. be able to. However, in the conventional method of expressing the result of voice processing as a directed graph, there is a problem that a large amount of processing is required to create a directed graph and rapid processing cannot be performed, and the accuracy of the created directed graph is insufficient. There was a problem of becoming.

【0011】すなわち、上記の第1の方法は、単語仮説
をつなげて単語列仮説とする処理、単語間の最適な境界
位置を見つける処理、同じ時刻に相当する単語境界を一
つのノードとしてまとめる処理、同じ単語候補の系列を
含む部分的なグラフを一つにまとめる処理を、全て最適
化処理の中で行なっているため、生成される仮説の数が
増えた場合には、最適化処理の負担がかなり重くなって
しまうものであった。また、上記の第2の方法は、認識
候補のモーラをスポッティング技術で抽出するものであ
るため、各モーラ間の境界位置の検出精度が不十分なも
のとなる危険性があり、これに基づいて作成された有向
グラフの精度が不十分なものとなってしまう虞がある。
また、上記の第3の方法では、認識候補間の境界位置の
検出精度を上げるためには、発話終了後の処理量をかな
り多くしなければならなかった。
That is, the first method is a process of connecting word hypotheses to form a word string hypothesis, a process of finding an optimum boundary position between words, and a process of combining word boundaries corresponding to the same time as one node. , The process of combining partial graphs containing the same word candidate sequence into one is all performed in the optimization process, so if the number of generated hypotheses increases, the optimization process load will increase. Was very heavy. Further, since the second method described above extracts the recognition candidate moras by the spotting technique, there is a risk that the detection accuracy of the boundary position between the respective moras becomes insufficient, and based on this, There is a possibility that the accuracy of the created directed graph may be insufficient.
Further, in the above third method, in order to improve the detection accuracy of the boundary position between the recognition candidates, the amount of processing after the utterance has to be considerably increased.

【0012】本発明は上記従来の事情に鑑みなされたも
ので、音声処理結果としての有向グラフを、高速且つ高
精度に作成し、延いては、実時間処理をも可能ならしめ
る音声認識方法を提供することを目的とする。また、本
発明は、アークのスコアや、各ノードから開始ノードや
終了ノードに至る最適な(最もスコアの高い)パスのス
コア等をデータ構造に加えることで、従来では困難な課
題とされてきた、大量の語彙や未知の単語等を含む言語
的に多様な発話に対しても、高速且つ高精度な認識を可
能ならしめる音声認識方法を提供することを目的とす
る。また、本発明は、このような音声認識方法を実施す
るための音声認識装置を提供することを目的とする。
The present invention has been made in view of the above-mentioned conventional circumstances, and provides a voice recognition method that enables a directed graph as a voice processing result to be created at high speed and with high accuracy, and in turn enables real-time processing. The purpose is to do. Further, the present invention has been made difficult in the past by adding the score of arc, the score of the optimum (highest score) path from each node to the start node and the end node to the data structure. An object of the present invention is to provide a speech recognition method that enables high-speed and high-accuracy recognition even for linguistically diverse utterances including a large amount of vocabulary and unknown words. Another object of the present invention is to provide a voice recognition device for implementing such a voice recognition method.

【0013】[0013]

【課題を解決するための手段】上記目的を達成するた
め、本発明では、有向グラフ型のデータ構造を作成する
処理の内の、音素、音節、単語等の認識候補を生成する
処理、認識候補をつないで音素、音節、単語等の系列と
そのスコアを生成する処理、認識候補間の境界位置を最
適化する処理、同じ時刻(又は、時刻と状態の組)に相
当する境界位置を一つのノードにまとめる処理を、時間
的に同期して統合的に行う。すなわち、本発明では、有
向グラフ型のデータ構造を作成するための処理の大部分
を時間に同期した処理で行う。
In order to achieve the above object, according to the present invention, a process of generating a recognition candidate of a phoneme, a syllable, a word, etc., and a recognition candidate among the processes of creating a directed graph type data structure are performed. The process of connecting sequences of phonemes, syllables, words, etc. and their scores, the process of optimizing the boundary position between recognition candidates, the boundary position corresponding to the same time (or a set of time and state) as one node The processing to be summarized in 1) is performed in an integrated manner by synchronizing in time. That is, in the present invention, most of the processing for creating the directed graph type data structure is performed by time-synchronized processing.

【0014】また、本発明では、有向グラフを作成した
後に後戻り処理を行って当該有向グラフを確定させる。
すなわち、発話の区切り(又は、発話の終了)が検出さ
れた後に後戻り処理を行って、認識候補間の境界位置を
時間に同期した処理で求められたものの中から最も確か
らしいものを選択して確定する。そして、有向グラフの
各認識候補に対応するアークのスコアを、確定した認識
候補間の境界位置と、有向グラフの作成時に求められて
いる認識候補系列の累積スコアとから簡単な計算により
求める。
Further, in the present invention, after the directed graph is created, the backward processing is performed to fix the directed graph.
That is, after detecting the utterance break (or the end of the utterance), the backtracking process is performed, and the most probable one is selected from those obtained by the process of synchronizing the boundary position between the recognition candidates with the time. Determine. Then, the score of the arc corresponding to each recognition candidate of the directed graph is obtained by a simple calculation from the boundary position between the confirmed recognition candidates and the cumulative score of the recognition candidate series obtained when the directed graph is created.

【0015】すなわち、請求項1の音声認識方法は、音
声信号を音素、音節、単語等の認識候補の系列として認
識し、その途中又は最終結果を有向グラフ型のデータ構
造を用いて表現する音声認識方法において、前記認識候
補の系列を認識する処理と前記有向グラフを生成する処
理とを時間的に同期して統合的に行うことを特徴とす
る。
That is, the voice recognition method according to claim 1 recognizes a voice signal as a sequence of recognition candidates such as phonemes, syllables, and words, and expresses the middle or final result thereof using a directed graph type data structure. In the method, the process of recognizing the series of recognition candidates and the process of generating the digraph are performed in a synchronized manner in time.

【0016】また、請求項2の音声認識方法は、請求項
1の音声認識方法において、前記有向グラフを生成する
処理では隠れマルコフモデルを用いて認識候補毎のトレ
リスを連鎖的に作成し、前記認識候補の系列を認識する
処理ではトレリスが示す認識候補の開始時刻とトレリス
の連鎖に沿った累積スコアを求めることを特徴とする。
The speech recognition method according to claim 2 is the speech recognition method according to claim 1, wherein a trellis for each recognition candidate is concatenated using a hidden Markov model in the process of generating the directed graph, and the recognition is performed. The process of recognizing a sequence of candidates is characterized in that the start time of the recognition candidate indicated by the trellis and the cumulative score along the chain of the trellis are obtained.

【0017】また、請求項3の音声認識方法は、請求項
1又は請求項2の音声認識方法において、前記時間的に
同期して統合的に行われる認識候補の系列の認識処理と
有向グラフの生成処理とが発話の区切りに到達した後、
有向グラフの認識候補間のノードの確定及びアーク毎の
スコア演算を有向グラフの発話の区切り側から発話の開
始側へ向う後戻り処理で順次行い、当該有向グラフのデ
ータ構造を確定することを特徴とする。
A speech recognition method according to a third aspect is the speech recognition method according to the first or second aspect, in which the recognition processing of a sequence of recognition candidates and the generation of a digraph are performed in an integrated manner in synchronization with time. After processing and process reach the boundary of utterance,
The data structure of the directed graph is characterized by sequentially determining nodes between recognition candidates of the directed graph and performing score calculation for each arc in a backtracking process from the punctuation side of the directed graph to the utterance start side.

【0018】また、請求項4の音声認識方法は、請求項
3の音声認識方法において、前記時間的に同期して統合
的に行われる処理の過程では単一の認識候補として扱っ
た認識候補であっても、前記後戻り処理の過程でその存
在区間が異なる候補が複数存在し得る場合には、これら
候補を別々の認識候補として有向グラフのデータ構造を
確定することを特徴とする。
The speech recognition method according to claim 4 is the speech recognition method according to claim 3, which is a recognition candidate treated as a single recognition candidate in the process of the processing which is performed in a synchronized manner temporally. Even if there is a plurality of candidates having different existence intervals in the process of the backtracking, the data structure of the directed graph is determined by using these candidates as different recognition candidates.

【0019】また、請求項5の音声認識方法は、請求項
3又は請求項4の音声認識方法において、前記後戻り処
理の過程で、発話開始に対応するノードから有向グラフ
中の各ノードまでの最適経路のスコアと、有向グラフ中
の各ノードから発話の区切りに対応するノードまでの最
適経路のスコアとを求め、これらスコアを有向グラフ型
のデータ構造に保持させることを特徴とする。
The speech recognition method according to claim 5 is the speech recognition method according to claim 3 or 4, wherein, in the process of the backtracking, the optimum path from the node corresponding to the utterance start to each node in the directed graph. And the score of the optimum path from each node in the digraph to the node corresponding to the utterance break, and these scores are held in a digraph-type data structure.

【0020】また、請求項6の音声認識方法は、請求項
5の音声認識方法において、前記最適経路のスコアが、
認識候補の系列の音響的尤度、又は当該音響的尤度と認
識候補の連鎖に関する言語的尤度との組合せにより求め
られていることを特徴とする。
A speech recognition method according to claim 6 is the speech recognition method according to claim 5, wherein the score of the optimum route is
It is characterized in that it is obtained by the acoustic likelihood of a sequence of recognition candidates, or a combination of the acoustic likelihood and a linguistic likelihood concerning a chain of recognition candidates.

【0021】また、請求項7の音声認識装置は、音声信
号を音素、音節、単語等の認識候補の系列として認識
し、その途中又は最終結果を有向グラフ型のデータとし
て構成する音声認識装置において、入力された音声信号
を分析して特徴パラメータ系列を得る音響分析手段と、
音響モデル及び音響モデルの連鎖に関するモデルを保持
するモデル保持手段と、特徴パラメータ系列に対して前
記モデルを用いて認識候補に対応するトレリスを生成す
るトレリス作成手段と、トレリスに対する累積スコア及
び開始時刻を時間的に同期して演算する演算手段と、ト
レリスに対応して累積スコア及び開始時刻を格納するグ
ラフデータ格納手段と、前記グラフデータ格納手段に格
納されている開始時刻及び累積スコアに基づいて認識候
補間のノードの確定及び認識候補に対応するアーク毎の
スコア演算を行う後戻り処理手段と、を備え、前記トレ
リス作成手段は更に前記演算手段の演算結果に基づいて
後続するトレリスを順次同期して作成し、前記後戻り処
理手段は発話の区切りまで前記累積スコア及び開始時刻
が前記グラフデータ格納手段に格納されたところで前記
処理を行って当該処理結果をグラフデータ格納手段に格
納することを特徴とする。
A speech recognition apparatus according to claim 7 recognizes a speech signal as a series of recognition candidates such as a phoneme, a syllable, and a word, and configures the middle or final result thereof as directed graph type data. Acoustic analysis means for analyzing the input voice signal to obtain a characteristic parameter series,
A model holding unit that holds a model related to an acoustic model and a chain of acoustic models, a trellis creating unit that generates a trellis corresponding to a recognition candidate by using the model for a feature parameter sequence, and a cumulative score and a start time for the trellis. Calculating means for calculating in synchronization with time, graph data storing means for storing the cumulative score and start time corresponding to the trellis, and recognition based on the starting time and cumulative score stored in the graph data storing means Backtracking processing means for determining a node between candidates and performing score calculation for each arc corresponding to a recognition candidate, wherein the trellis creating means further sequentially synchronizes subsequent trellis based on the calculation result of the calculating means. The backtracking processing means creates the cumulative score and the start time until the break of the utterance. Performing the process at which is stored in the storage means, characterized in that stores the processing result in the graph data storage means.

【0022】[0022]

【作用】有向グラフ型のデータ構造を作成する処理は、
音素、音節、単語等の認識候補とそのスコアを生成する
処理、認識候補をつないだ系列とそのスコアを生成する
処理、認識候補間の最適な境界位置を見つける処理、同
じ時刻(又は、時刻と状態の組)に相当する境界を一つ
のノードとしてまとめる処理、同じ系列を表す部分的な
グラフを一つにまとめる処理に大きくわけることができ
るが、請求項1の発明では、これらの部分的な処理を時
間に同期して統合的に行う。
Operation: The process of creating a directed graph data structure is
Phonemes, syllables, processing to generate recognition candidates such as words and their scores, processing to connect recognition candidates and their scores, processing to find the optimal boundary position between recognition candidates, same time (or time The process can be roughly divided into a process of collecting boundaries corresponding to a set of states) as one node and a process of collecting partial graphs representing the same series into one node. Processes are integrated in synchronization with time.

【0023】音声信号を音響的な特徴から音素、音節、
単語等の認識候補として認識し、認識候補及びその系列
の確からしさ(スコア)を求めるために、HMM(隠れ
マルコフモデル)に基づく方法が一般によく用いられ
る。HMM法では、音素、音節、単語等の認識候補毎に
モデルの状態と時間とを二軸とする、トレリスと呼ばれ
る二次元の作業空間を使用する。特に、音声信号を認識
候補の系列として認識する連続音声認識においては、こ
れらのトレリスをお互いに接続して連鎖させ、認識候補
の系列を表現した大きな作業空間が設定される。
From the acoustic characteristics of a voice signal, phonemes, syllables,
A method based on an HMM (Hidden Markov Model) is generally used in order to recognize a word or the like as a recognition candidate and obtain the likelihood (score) of the recognition candidate and its sequence. The HMM method uses a two-dimensional work space called a trellis, which has a model state and time as two axes for each recognition candidate such as a phoneme, a syllable, and a word. In particular, in continuous speech recognition in which a speech signal is recognized as a series of recognition candidates, these trellis are connected to each other and chained together to set a large work space expressing the series of recognition candidates.

【0024】請求項2の発明では、トレリス上の各点
(時刻、トレリス番号、状態)における発話開始からそ
の点までの累積スコアや、そのトレリスが示す音素、音
節、単語等の認識候補(ラベル)の開始時刻を、トレリ
スの連鎖に沿って求めていくことによって有向グラフの
作成処理を行う。これら累積スコアや開始時刻の演算処
理は各トレリス系列の間で時間的に同期して進められ
る。なお、トレリスが互いに接続されているときには、
この処理の過程で各トレリスが示す認識候補間の境界位
置は最適化される。また、発話終了時刻で各トレリス連
鎖の最終状態における累積スコアの値を比較すれば、認
識結果として確からしい認識候補の系列を求めることが
できる。
According to the second aspect of the present invention, the cumulative score from the start of utterance at each point (time, trellis number, state) on the trellis, and the recognition candidates (labels such as phonemes, syllables, and words indicated by the trellis). ) Is performed along the trellis chain to create a directed graph. The calculation process of the cumulative score and the start time is advanced in time synchronization between the trellis sequences. If the trellis are connected to each other,
In the process of this processing, the boundary position between the recognition candidates indicated by each trellis is optimized. Further, by comparing the cumulative score values in the final state of each trellis chain at the utterance end time, a series of probable recognition candidates can be obtained as a recognition result.

【0025】上記のような処理で求めたトレリスのグラ
フは、未だ、これを音声処理の結果とするには不十分で
ある。例えば、生成されたグラフの中には、発話終了時
刻における累積スコアがかなり低いトレリスが含まれて
いることもあり得るし、また、トレリスに対応する各ア
ークのスコアも未確定である。そこで、請求項3の発明
では、発話の区切り(発話の終了)を検出した後に、後
戻り処理を行って有向グラフの型のデータ構造を確定す
る。後戻り処理では、認識候補間の境界位置(ノード)
の確定と、各アークのスコア計算が行われ、有向グラフ
型のデータ構造としてまとめられる。
The trellis graph obtained by the above-mentioned processing is still insufficient to make it the result of the voice processing. For example, the generated graph may include a trellis whose cumulative score at the utterance end time is considerably low, and the score of each arc corresponding to the trellis is undetermined. Therefore, in the invention of claim 3, after detecting the utterance delimiter (end of utterance), the backward processing is performed to determine the data structure of the directed graph type. In the backtracking process, the boundary position (node) between recognition candidates
Is determined and the score of each arc is calculated and summarized as a directed graph type data structure.

【0026】なお、時間に同期した処理の過程では単一
のトレリス(認識候補)であっても、後戻り処理の過程
で、その存在区間が異なる複数の認識候補系列が現れる
ことがある。請求項4の発明では、このような場合に、
これら認識候補系列のスコアを正しく評価するために、
これらトレリスを別々のアークとする有向グラフを確定
する。
Even in the case of a single trellis (recognition candidate) in the process synchronized with time, a plurality of recognition candidate sequences having different existence intervals may appear in the process of backtracking. According to the invention of claim 4, in such a case,
In order to correctly evaluate the scores of these recognition candidate series,
Determine a directed graph with these trellises as separate arcs.

【0027】また、請求項5の発明では、上記の後戻り
処理において、有向グラフの発話開始に対応するノード
から各ノードまでの最適経路のスコア、及び、各ノード
から発話の区切りに対応するノードまでの最適経路のス
コアを求め、これらスコアを有向グラフ型のデータ構造
に保持させて、後の言語処理での利用に供する。また、
請求項6の発明では、これら最適経路のスコアを認識候
補間の連鎖に関する言語的知識を反映させて求める。上
記のような後戻り処理で演算するデータ量は、通常、時
間的に同期して有向グラフを作成する処理のデータ量に
比べてはるかに小さいため、時間的に同期した処理を発
話中に終えることができれば、発話の区切りとほとんど
同時に認識結果としての確定した有向グラフ型データを
得ることができる。
According to the invention of claim 5, in the above-mentioned backtracking process, the score of the optimum route from the node corresponding to the utterance start of the directed graph to each node, and the node from each node to the node corresponding to the utterance break. The scores of the optimum routes are obtained, and these scores are held in a directed graph type data structure for use in later language processing. Also,
In the invention of claim 6, the scores of these optimum routes are obtained by reflecting the linguistic knowledge about the chain between the recognition candidates. Since the amount of data calculated by the above-described backtracking process is usually much smaller than the amount of data for the process of creating a directed graph in time synchronization, it is possible to end the process in time synchronization during utterance. If possible, it is possible to obtain the fixed directed graph data as the recognition result almost at the same time as the utterance break.

【0028】請求項7の音声認識装置では、認識候補に
対応するトレリスを作成してこのトレリスに対する累積
スコア及び開始時刻を時間的に同期して演算する。ま
た、このトレリスには後続する認識候補に対応する複数
のトレリスが時間に同期して接続され、認識候補に対応
してグラフ或いはツリー状に連鎖されたトレリス系列が
順次構成される。これらトレリス系列に対しても累積ス
コア及び開始時刻の演算は同様に時間的に同期して行わ
れる。したがって、認識候補系列に対応したトレリス系
列を設定して行く処理と、トレリス系列に対応した有向
グラフ型のデータを生成して行く処理とが、総じて時間
的に同期して進められる。そして、このようにして得ら
れた各データはグラフデータ格納手段に格納されるが、
上記の処理が発話の終了等に該当する発話の区切りに達
したところで、これら格納した開始時刻及び累積スコア
に基づいて認識候補間のノードの確定及び認識候補に対
応するアーク毎のスコア演算を後戻り処理して求め、有
向グラフ型のデータ構造を確定する。
In the speech recognition apparatus according to the seventh aspect, a trellis corresponding to the recognition candidate is created, and the cumulative score and start time for this trellis are calculated in time synchronization. In addition, a plurality of trellis corresponding to subsequent recognition candidates are connected to this trellis in synchronization with time, and a trellis sequence chained in a graph or tree shape is sequentially formed corresponding to the recognition candidates. With respect to these trellis sequences, the calculation of the cumulative score and the start time is similarly performed in time synchronization. Therefore, the process of setting the trellis sequence corresponding to the recognition candidate sequence and the process of generating directed graph type data corresponding to the trellis sequence are generally time-synchronized. Then, each data thus obtained is stored in the graph data storage means,
When the above processing reaches the utterance break corresponding to the end of utterance, etc., based on the stored start time and cumulative score, the node between recognition candidates is determined, and the score calculation for each arc corresponding to the recognition candidate is returned. It is obtained by processing and the directed graph type data structure is determined.

【0029】[0029]

【実施例】本発明の実施例を図面を参照して説明する。
本実施例はHMM法を用いたものであり、音響モデル及
び認識単位を音節としたものである。まず、本実施例に
係る音声認識装置を図1及び図2を参照して説明する。
本実施例の音声認識装置は、大まかに分けて、音声信号
を入力するための入力手段1と、入力手段1からの音声
信号を分析して特徴パラメータ系列を得る音響分析手段
2と、音響分析手段2からの特徴パラメータ系列を音節
の認識候補系列として認識して、認識結果を有向グラフ
型のデータ構造にまとめる認識グラフ化手段3と、認識
グラフ化手段3による認識結果を格納するグラフデータ
格納手段4と、発話の区切りを検出してグラフデータ格
納手段4に格納されている認識結果のデータ構造を確定
する処理を行う後戻り処理手段5と、を備えている。な
お、得られた有向グラフ型の認識結果は、言語処理手段
6で文法的な制約等に基づいた言語処理が施されて出力
される。
An embodiment of the present invention will be described with reference to the drawings.
In this embodiment, the HMM method is used, and the acoustic model and the recognition unit are syllables. First, a voice recognition apparatus according to this embodiment will be described with reference to FIGS. 1 and 2.
The speech recognition apparatus of this embodiment is roughly divided into an input unit 1 for inputting a voice signal, an acoustic analysis unit 2 for analyzing a voice signal from the input unit 1 to obtain a characteristic parameter sequence, and an acoustic analysis. A recognition graphing means 3 for recognizing the feature parameter series from the means 2 as a syllable recognition candidate series and collecting the recognition result in a directed graph type data structure, and a graph data storage means for storing the recognition result by the recognition graphing means 3. 4 and a backtracking processing means 5 for performing processing for detecting the utterance delimiter and determining the data structure of the recognition result stored in the graph data storage means 4. The obtained directed graph type recognition result is subjected to language processing by the language processing means 6 based on grammatical constraints and the like, and is output.

【0030】認識グラフ化手段3は、音節の音響モデル
としてHMM及び音響モデルの連鎖に関するモデルを保
持したモデル保持手段11と、音響分析手段2からの特
徴パラメータ系列に対してモデル保持手段11のHMM
を用いて認識候補に対応するトレリスを設定するトレリ
ス作成手段12と、設定されたトレリスに対する累積ス
コア及び開始時刻を時間的に同期して演算する演算手段
13と、を備えており、演算して得た各トレリスに対応
した累積スコア及び開始時刻等の認識結果をグラフデー
タ格納手段4に順次格納する。
The recognition graphing means 3 includes a model holding means 11 holding a model relating to an HMM and a chain of acoustic models as an acoustic model of a syllable, and an HMM of the model holding means 11 for the characteristic parameter series from the acoustic analysis means 2.
Is provided with a trellis creating means 12 for setting a trellis corresponding to a recognition candidate by using, and a calculating means 13 for calculating a cumulative score and a start time for the set trellis in time synchronization. The recognition results such as the cumulative score and the start time corresponding to each obtained trellis are sequentially stored in the graph data storage means 4.

【0031】トレリス作成手段12は、発話開始時刻で
の無音を示すトレリスを設定した後、音声信号(特徴パ
ラメータ系列)の入力に同期して後続する認識候補を示
すトレリスを順次設定する。この際、トレリス作成手段
12は、演算手段13の演算結果を利用して、累積スコ
アの高い認識候補系列に対応するトレリスには新しいト
レリスをツリー状乃至グラフ状に後続させる一方、累積
スコアの低い認識候補系列に対してはそれ以上のトレリ
ス連鎖を展開させない。すなわち、累積スコアの低い認
識候補系列に対しては演算手段13での演算処理を途中
で打ち切らせる。また、トレリス作成手段12は、後続
するトレリスをツリー状に展開しながら、重複した部分
ツリーが生成されることのないように連鎖をグラフの形
にまとめていく共有化処理も時間に同期して行う。
The trellis creating means 12 sets a trellis indicating silence at the utterance start time and then sequentially sets a trellis indicating subsequent recognition candidates in synchronization with the input of the voice signal (feature parameter series). At this time, the trellis creating unit 12 uses the calculation result of the calculating unit 13 to cause a new trellis to follow the trellis corresponding to the recognition candidate sequence having a high cumulative score in a tree shape or a graph shape, while having a low cumulative score. No further trellis chain is developed for the recognition candidate sequence. That is, for the recognition candidate series having a low cumulative score, the calculation processing by the calculation means 13 is terminated halfway. Further, the trellis creating means 12 expands the subsequent trellis into a tree shape, and at the same time, performs a sharing process of collecting the chains in the form of a graph so that overlapping partial trees are not generated. To do.

【0032】これらトレリス作成手段12で行われる、
各時刻において認識の途中結果(認識候補の系列)をト
レリスのグラフとして表現する処理、各時刻における認
識候補のトレリスをツリーに展開する処理、新たに付け
加えられるトレリスを既に展開されているものと共有化
する処理等は、演算手段13で行われるトレリス上の各
点における累積スコアや開始時刻の演算処理と時間的に
同期して進められる。
These trellis creating means 12 carry out:
The process of expressing the intermediate result of recognition (series of recognition candidates) as a graph of the trellis at each time, the process of expanding the trellis of the recognition candidates at each time into a tree, and sharing the newly added trellis with already expanded ones. The conversion processing and the like are carried out in time synchronization with the calculation processing of the cumulative score and the start time at each point on the trellis performed by the calculation means 13.

【0033】後戻り処理手段5はグラフデータ格納手段
4に格納されている有向グラフ型データに基づいて認識
候補間のノードの確定及び認識候補に対応するアーク毎
のスコア演算を行うものであり、所定のトレリス(アー
ク)を検索するトレリス検索手段15と、所定のノード
を確定するノード確定手段16と、アーク毎のスコア演
算等を行う演算手段17とを備えている。すなわち、後
戻り処理手段5は、発話の区切りに達した時点でトレリ
ス検索手段15が発話の区切りに対応するアークを検索
し、そのインノードをノード確定手段16が確定させ、
当該インノードをアウトノードとするアークをトレリス
検索手段15が発話開始の方向へ検索して調べ、検索さ
れたアークのインノードをノード確定手段16が確定さ
せるという処理を発話開始のノードに至るまで繰り返し
行う。そして、この処理に同期して演算手段17が個々
のアークのスコア等を演算し、この演算結果をグラフデ
ータ格納手段4に格納する。
The backtracking processing means 5 determines the nodes between the recognition candidates based on the directed graph type data stored in the graph data storage means 4 and calculates the score for each arc corresponding to the recognition candidates. A trellis searching means 15 for searching a trellis (arc), a node determining means 16 for determining a predetermined node, and a calculating means 17 for performing score calculation for each arc are provided. That is, in the backtracking processing means 5, when the utterance break is reached, the trellis search means 15 searches for an arc corresponding to the utterance break, and the node deciding means 16 decides the in-node,
The trellis search means 15 searches for an arc having the in-node as an out-node in the direction of utterance start, and the node deciding means 16 decides the in-node of the searched arc until the utterance start node is repeated. . Then, in synchronization with this processing, the calculation means 17 calculates the score or the like of each arc, and the calculation result is stored in the graph data storage means 4.

【0034】ここで、音節の音響モデルとして用いるH
MM(隠れマルコフモデル)の説明をしておく。図4に
は音節HMMの一例を示してあり、HMMの状態1〜3
が矢印実線で示すように遷移する様子を表している。こ
のHMMは状態間の遷移と音声信号の特徴パラメータの
受理を繰り返すというように動作する。状態遷移と特徴
パラメータの受理は確率的であり、状態遷移確率am i、j
と特徴パラメータを受理する確率bm j(Ok)で表され
る。HMMは各音節毎に設定され、各音節HMMの確率
の値は、それぞれが対応する音節の特徴パラメータ系列
を最もよく受理するように、学習用の音声データにより
予め求められている。なお、未知の音節は、その特徴パ
ラメータ系列を最もよく受理する音節HMMを求めるこ
とで認識することができる。
Here, H used as an acoustic model of a syllable
The MM (Hidden Markov Model) will be explained. FIG. 4 shows an example of the syllable HMM, and states 1 to 3 of the HMM.
Represents the transition as indicated by the solid arrow. The HMM operates so as to repeat transitions between states and acceptance of characteristic parameters of a voice signal. The state transition and the acceptance of the characteristic parameter are probabilistic, and the state transition probability a m i, j
And the probability of accepting the feature parameter b m j (O k ). The HMM is set for each syllable, and the value of the probability of each syllable HMM is previously obtained from the learning voice data so as to best accept the characteristic parameter series of the corresponding syllable. The unknown syllable can be recognized by finding the syllable HMM that best accepts the characteristic parameter sequence.

【0035】なお、上記の記号及び図4中の記号で、O
iは、音声信号の特徴パラメータ系列(ここに、i=
1,2,・・・,I)、am i、jは、音節mのHMMで状
態iから状態jへ遷移する確率の対数値(ここに、i=
1,2,・・・,S、j=1,2,・・・,S+1、m
=1,2,・・・,Mであり、J=S+1は次の音節へ
の遷移に対応している)、bm j(Ok)は、音節mのH
MMで状態jにおいて特徴パラメータOkを受理する確
率の対数値(ここに、j=1,2,・・・,S、m=
1,2,・・・,M、k=1,2,・・・,I)、Sy
lLabel(j)は、トレリスjが示す音節、をそれ
ぞれ表している。
In the above symbols and symbols in FIG. 4, O
i is the characteristic parameter sequence of the audio signal (where i =
1, 2, ..., I), a m i, j are logarithmic values of the probability of transition from the state i to the state j in the HMM of the syllable m (here, i =
1, 2, ..., S, j = 1, 2, ..., S + 1, m
, 1, 2, ..., M, J = S + 1 corresponds to the transition to the next syllable), b m j (O k ) is H of syllable m.
The logarithmic value of the probability of accepting the feature parameter O k in the state j in MM (where j = 1, 2, ..., S, m =
1, 2, ..., M, k = 1, 2, ..., I), Sy
lLabel (j) represents the syllable indicated by trellis j, respectively.

【0036】次に、認識グラフ化手段3で行われる音節
列の認識及びグラフ化の処理を説明する。まず、認識及
びグラフ化の処理は発話の開始時刻で起こり得る音節に
対するトレリスを設定することから始まるが、本実施例
では発話を無音(#)によって挟まれた区間であると扱
って、まず、無音を示すトレリスを設定する。そして、
以下の演算処理で使用する変数を初期化して、 トレリス番号j=0 ・・・(式1)、 SylLabel(j)=”#” ・・・(式2)、 AccumScore(i,j,k)={0.0:(i,j,k)=(0,0 ,0)の場合、−∞:それ以外の場合} ・・・(式3)、 InitFrame(i,j,k)={1:(i,j,k)=(0,0,0) の場合、−1:それ以外の場合} ・・・(式4)、とする。
Next, the recognition and graphing processing of the syllable string performed by the recognition graphing means 3 will be described. First, the recognition and graphing process starts by setting a trellis for a syllable that can occur at the start time of utterance, but in the present embodiment, the utterance is treated as a section sandwiched by silence (#), and first, Set the trellis to indicate silence. And
Variables used in the following arithmetic processing are initialized, and trellis number j = 0 ... (Equation 1), SylLabel (j) = “#” ... (Equation 2), AccumScore (i, j, k) = {0.0: (i, j, k) = (0, 0, 0), -∞: otherwise} (Equation 3), InitFrame (i, j, k) = { 1: (i, j, k) = (0,0,0), −1: other than that} (Equation 4).

【0037】なお、AccumScore(i,j,
k)は、照合開始点(フレーム0,トレリス番号0,状
態0)から(フレームi,トレリス番号j,状態k)に
至るまでの累積スコア(Viterbiスコア)、In
itFrame(i,j,k)は、或る点(フレーム
i,トレリス番号j,状態k)から見たときのトレリス
jが示す音節SylLabel(j)の開始フレーム、
をそれぞれ表している。ここに、フレームとは特徴パラ
メータが抽出された時刻である。
Note that AccumScore (i, j,
k) is a cumulative score (Viterbi score) from the matching start point (frame 0, trellis number 0, state 0) to (frame i, trellis number j, state k), In
itFrame (i, j, k) is the start frame of the syllable SylLabel (j) indicated by trellis j when viewed from a certain point (frame i, trellis number j, state k),
Respectively. Here, the frame is the time when the characteristic parameter is extracted.

【0038】すなわち、初期状態では、累積スコア(対
数表示の確率)は式3において”0”、それ以外ではエ
ラー(−∞)に設定し、開始フレーム(開始時刻)は式
4において”1”、それ以外ではエラー(−1)に設定
する。
That is, in the initial state, the cumulative score (probability of logarithmic display) is set to "0" in the expression 3, otherwise it is set to error (-∞), and the start frame (start time) is set to "1" in the expression 4. , Otherwise, set to error (-1).

【0039】次いで、トレリスが設定されている音節と
特徴パラメータ系列との照合をViterbiサーチに
よって行う。一般的には、フレームi=1,2,・・
・,I、トレリス番号j=1,2,・・・,M、状態k
=1,2,・・・,S、について下記の式5及び式6を
演算することとなるが、ここでは、上記によって無音の
トレリスのみが設定されているので、j=0として当該
無音のトレリスの上で式5及び式6の演算を行う。
Next, the syllable for which the trellis is set and the characteristic parameter series are collated by the Viterbi search. Generally, frame i = 1, 2, ...
., I, trellis number j = 1, 2, ..., M, state k
= 1, 2, ..., S, the following equations 5 and 6 are calculated. Here, since only the trellis of silence is set by the above, j = 0 and the silence of the silence is set. The calculations of Equations 5 and 6 are performed on the trellis.

【0040】 AccumScore(i,j,k)=max{AccumScore(i− 1,j,k−1)+aSylLabel(j) k-1、k、AccumScore(i−1,j, k)+aSylLabel(j) k、k}+bSylLabel(j) k(Oi) ・・・(式5)、 InitFrame(i,j,k)=InitFrame(i−1,j,k− 1)又はInitFrame(i−1,j,k) ・・・(式6)、 但し、AccumScore(i,j,k)=Accu
mScore(i−1,j,k−1)+aSylLabel(j)
k-1、k+bSylLabel(j) k(Oi)の場合にはInitFr
ame(i,j,k)=InitFrame(i−1,
j,k−1)、 AccumScore(i,j,k)=AccumSc
ore(i−1,j,k)+aSylLabel(j) k、k+b
SylLabel(j) k(Oi)の場合にはInitFrame
(i,j,k)=InitFrame(i−1,j,
k)である。
AccumScore (i, j, k) = max {AccumScore (i-1, j, k-1) + a SylLabel (j) k-1, k , AccumScore (i-1, j, k) + a SylLabel ( j) k, k } + b SylLabel (j) k (O i ) ... (Formula 5), InitFrame (i, j, k) = InitFrame (i−1, j, k−1) or InitFrame (i−) 1, j, k) (Equation 6), where AccumScore (i, j, k) = Accu
mScore (i-1, j, k-1) + a SylLabel (j)
In the case of k-1, k + b SylLabel (j) k (O i ), InitFr
ame (i, j, k) = InitFrame (i-1,
j, k-1), AccumScore (i, j, k) = AccumSc
ore (i-1, j, k) + a SylLabel (j) k, k + b
In the case of SylLabel (j) k (O i ), InitFrame
(I, j, k) = InitFrame (i-1, j,
k).

【0041】例えば、図5に示すトレリスjにおいて、
AccumScore(3,j,2)及びInitFr
ame(3,j,2)を求める場合に、点(3,j,
2)ではAccumScore(2,j,1)+a
SylLabel(j) 1、2>AccumScore(2,j,2)
+aSylLabel(j) 2、2とすると、 AccumScore(3,j,2)=AccumSc
ore(2,j,1)+aSylLabel(j) 1、2+b
SylLabel(j) 2(O3)、 InitFrame(3,j,2)=InitFram
e(2,j,1)、となる。すなわち、状態遷移確率及
び特徴パラメータ受理確率の高い経路(図5中では太い
矢印線)に沿って順次スコアを累積してAccumSc
oreを演算し、この処理を当該トレリスjの最終点
(6,j,3)まで行う。
For example, in trellis j shown in FIG.
AccumScore (3, j, 2) and InitFr
When determining ame (3, j, 2), the point (3, j,
In 2) AccumScore (2, j, 1) + a
SylLabel (j) 1, 2 > AccumScore (2, j, 2)
+ A SylLabel (j) 2,2 , AccumScore (3, j, 2) = AccumSc
ore (2, j, 1) + a SylLabel (j) 1, 2 + b
SylLabel (j) 2 (O 3 ), InitFrame (3, j, 2) = InitFrame
e (2, j, 1). That is, AccumSc is obtained by sequentially accumulating scores along a path having a high state transition probability and characteristic parameter acceptance probability (thick arrow line in FIG. 5).
ore is calculated, and this processing is performed up to the final point (6, j, 3) of the trellis j.

【0042】上記のような音節の照合処理は、設定され
ているトレリスの各点における値(AccumScor
e(i,j,k)とInitFrame(i,j,
k))を、時間に同期して求めていくことで進められ
る。従って、或る程度時間がたつと、照合開始点から無
音HMMの最終点(i,j,S)に至る経路のスコアA
ccumScore(i,j,S)が高くなる。
The syllable matching process as described above is performed by setting the value (AccumScor) at each point of the set trellis.
e (i, j, k) and InitFrame (i, j,
It is possible to proceed by obtaining k)) in synchronization with time. Therefore, after a certain amount of time, the score A of the route from the matching start point to the final point (i, j, S) of the silent HMM
ccumScore (i, j, S) becomes high.

【0043】このように無音を示すトレリスの最終点に
おけるスコアが高くなると、図6に示すように、この無
音を示すトレリス(j=0)に認識候補としての次の音
節(”X”と”Y”)を示すトレリス(j=1、2)を
接続する。なお、一般的には認識候補は多数考えられ、
接続するトレリスもそれに応じた数(M個)設定される
が、図6には簡単のため二つの音節(”X”と”Y”)
のみを示してある。
When the score at the final point of the trellis showing silence is thus high, as shown in FIG. 6, the trellis showing silence (j = 0) has the next syllable (“X” and “X”) as recognition candidates. Connect the trellis (j = 1, 2) indicating Y ″). In general, many recognition candidates are considered,
The number of connected trellis (M) is set accordingly, but in FIG. 6 there are two syllables (“X” and “Y”) for simplicity.
Only is shown.

【0044】次いで、増加した全てのトレリス上におけ
る最終点までの経路のスコア及び開始フレームを式5及
び式6と同様にして演算する。但し、新しく接続された
トレリスの上で音節照合する場合には、AccumSc
ore(i,j,k)とInitFrame(i,j,
k)の値はその前のトレリスにおける値を反映させる必
要がある。図6に示す場合であれば、新しく接続された
トレリスの初期状態(k=1)での値を、フレームi=
1,2,・・・,I、トレリス番号j=1,2,・・
・,M、について式7及び式8に基づいて演算すればよ
い。なお、状態k=2,・・・,S、については式5及
び式6と同様にして演算する。
Then, the score and the start frame of the path to the final point on all the increased trellises are calculated in the same manner as in the equations (5) and (6). However, when performing syllable matching on the newly connected trellis, AccumSc
ore (i, j, k) and InitFrame (i, j,
The value of k) should reflect the value in the previous trellis. In the case shown in FIG. 6, the value in the initial state (k = 1) of the newly connected trellis is set to the frame i =
1, 2, ..., I, trellis number j = 1, 2, ...
., M may be calculated based on Equations 7 and 8. It should be noted that the states k = 2, ..., S are calculated in the same manner as Equations 5 and 6.

【0045】 AccumScore(i,j,k)=max{AccumScore(i− 1,0,S)+aSylLabel(j) S、S+1、AccumScore(i−1,j,k) +aSylLabel(j) k、k}+bSylLabel(j) k(Oi) ・・・(式7)、 InitFrame(i,j,k)=i又はInitFrame(i−1,j ,k) ・・・(式8)、 但し、AccumScore(i,j,k)=Accu
mScore(i−1,0,S)+aSylLabel(j) S、S+1
+bSylLabel(j) k(Oi)の場合にはInitFram
e(i,j,k)=i、AccumScore(i,
j,k)=AccumScore(i−1,j,k)+
SylLabel(j) k、k+bSylLabel(j) k(Oi)の場合には
InitFrame(i,j,k)=InitFram
e(i−1,j,k)である。
AccumScore (i, j, k) = max {AccumScore (i−1,0, S) + a SylLabel (j) S, S + 1 , AccumScore (i−1, j, k) + a SylLabel (j) k, k} + b SylLabel ( j) k (O i) ··· ( wherein 7), InitFrame (i, j , k) = i or InitFrame (i-1, j, k) ··· ( equation 8) , Where AccumScore (i, j, k) = Accu
mScore (i-1,0, S) + a SylLabel (j) S, S + 1
+ B SylLabel (j) k (O i ) then InitFrame
e (i, j, k) = i, AccumScore (i,
j, k) = AccumScore (i-1, j, k) +
In the case of a SylLabel (j) k, k + b SylLabel (j) k (O i ), InitFrame (i, j, k) = InitFrame
e (i-1, j, k).

【0046】なお、音響的なスコアに言語的なスコア
(音節間の遷移確率)を加える場合には、式7及び式8
に加えて、トレリス番号j=1,2,・・・,M、につ
いて式9及び式10の演算を行えばよい。 LangScore(0)=0 ・・・(式9)、 LangScore(j)=LangScore(0)+SylBigram (SylLabel(0)、SylLabel(j)) ・・・(式10)、 この結果、累積スコアはAccumScore(i,
j,k)+wLangScore(j)となる。ここ
に、LangScore(j)は、最初の音節からトレ
リスjが示す音節SylLabel(j)までの言語的
スコア、SylBigram(i,j)は、音節iから
音節jに遷移する確率、wは、言語的スコアに対して付
けられた重み、をそれぞれ表す。
When a linguistic score (transition probability between syllables) is added to the acoustic score, equations 7 and 8 are used.
In addition to the above, the calculations of Equations 9 and 10 may be performed for trellis numbers j = 1, 2, ..., M. LangScore (0) = 0 ... (Equation 9), LangScore (j) = LangScore (0) + SylBigram (SylLabel (0), SylLabel (j)) ... (Equation 10) As a result, the cumulative score is AccumScore. (I,
j, k) + wLangScore (j). Here, LangScore (j) is the linguistic score from the first syllable to the syllable SylLabel (j) indicated by trellis j, SylBigram (i, j) is the probability of transition from syllable i to syllable j, and w is the language. Each of the weights assigned to the dynamic scores.

【0047】上記のように認識候補毎にトレリスを設定
して連鎖させ、スコア及び開始フレームを演算する処理
を続けると、図7に示すように、音節連鎖に対応したツ
リー状のトレリスが形成される。なお、ツリーの枝を伸
ばしていく過程で、認識スコアの低い音節列に対応する
ツリー上にあるトレリスは以後の照合処理の対象から外
す枝刈りの操作を行ってもよい。
When the trellis is set and chained for each recognition candidate as described above and the process of calculating the score and the start frame is continued, a tree-shaped trellis corresponding to the syllable chain is formed as shown in FIG. It Incidentally, in the process of extending the branches of the tree, the trellis on the tree corresponding to the syllable string having a low recognition score may be pruned to remove it from the target of the subsequent matching process.

【0048】このように後続するトレリスを順次ツリー
状に連鎖させて行く処理において、トレリスの最終状態
におけるスコアが十分高く、且つ、このトレリスに未だ
後続するトレリスが接続されていない時でも、新しいト
レリスを後続させて設定しない場合がある。例えば、既
に生成されているトレリスのツリーの内で、後続するト
レリスを既に接続したトレリスが示す音節が、後続する
トレリスを未だ接続していないトレリスが示す音節と同
一であり、且つ、これら音節が同一時刻に始まっている
と仮定できる場合には、後者のトレリスに新しいトレリ
スを後続させて設定しない。そして、この後者のトレリ
スに後続するトレリスには、前者のトレリスに後続する
トレリスを共通して接続させ、演算処理の対象となるト
レリスを減らして処理の迅速化を図る。
In the process of successively chaining subsequent trellis in a tree-like manner in this way, even when the trellis has a sufficiently high score in the final state and no subsequent trellis is connected to this trellis, a new trellis is created. May not be set after it. For example, in a tree of trellis that has already been generated, the syllable represented by the trellis that has already connected the following trellis is the same as the syllable represented by the trellis that has not yet connected the following trellis, and these syllables are If it can be assumed that they start at the same time, the latter trellis is not followed by a new trellis. Then, the trellis succeeding the latter trellis is commonly connected to the trellis succeeding the former trellis, and the trellis to be subjected to the arithmetic processing is reduced to speed up the processing.

【0049】例えば、図7に示す連鎖構造の後、或るフ
レームiで番号6のトレリスの最終状態におけるスコア
が十分高くなった場合を考える。通常は、図8に示すよ
うに、番号6のトレリスに後続するトレリス(番号9’
〜11’)が新しく設定される。ところが、番号6のト
レリスに後続するトレリスが示す音節(SylLabe
l(6))と同じ音節”X”を示す番号3のトレリスが
既に設定されていて、且つ、番号3のトレリスは後続す
るトレリス(番号9〜11)を持っている。更に加え
て、番号3のトレリスが示す音節の開始フレームIni
tFrame(i,3,S)と、番号6のトレリスが示
す音節の開始フレームInitFrame(i,6,
S)とが等しい。このような場合には、番号6のトレリ
スは自身に後続するトレリスとして、図9に示すよう
に、番号3のトレリスに後続するトレリス(番号9〜1
1)を示すようにし、番号3のトレリスと番号6のトレ
リスとで後続するトレリスを共通化する。
For example, consider a case in which after the chain structure shown in FIG. 7, the score in the final state of the trellis numbered 6 at a certain frame i is sufficiently high. Normally, as shown in FIG. 8, the trellis (number 9 '
~ 11 ') are newly set. However, the syllable (SylLabe) indicated by the trellis following the trellis with the number 6
The trellis with the number 3 indicating the same syllable "X" as that of l (6)) has already been set, and the trellis with the number 3 has the following trellis (numbers 9 to 11). In addition, the start frame Ini of the syllable indicated by the trellis number 3
tFrame (i, 3, S) and the start frame of the syllable indicated by the trellis number 6 InitFrame (i, 6,6)
S) is equal to. In such a case, the trellis with the number 6 is the trellis following the trellis with the trellis (numbers 9 to 1) following the trellis with the number 3 as shown in FIG.
As shown in 1), the trellis of number 3 and the trellis of number 6 share the succeeding trellis.

【0050】このような共通化処理は所定の条件を満た
す時に随時行われ、これによって、認識処理の途中にお
いてトレリス連鎖の形態は動的に変化する。なお、共通
化する条件としては、上記した音節の同一性及び音節の
同一時刻性の両方を要求せずとも、音節の同一時刻性だ
けであっても可能である。
Such common processing is carried out at any time when a predetermined condition is satisfied, whereby the form of the trellis chain dynamically changes during the recognition processing. It should be noted that as a common condition, it is possible to use only the same time property of the syllable without requiring both the same time property of the syllable and the same time property of the syllable.

【0051】ここで、上記のように後続トレリスを共有
化した場合には、音節照合処理を若干修正しなければな
らない。トレリスがツリー状に展開される通常の場合に
は、各トレリスに先行するトレリスは一つしかないが、
後続するトレリスが共通化される場合には、共通化され
たトレリスに先行するトレリスは複数個(n)存在する
ことになる。したがって、具体的には、共通化されたト
レリスjの初期状態での値を、先行するトレリスがn個
(=1,2,・・・,N)のときは、フレームi=1,
2,・・・,I、状態k=1、について式11及び式1
2に基づいて演算し、先行するトレリスの内の最大スコ
アを継承させるようにすればよい。
Here, when the subsequent trellis is shared as described above, the syllable matching process must be slightly modified. In the usual case where the trellis is expanded into a tree, there is only one trellis preceding each trellis,
When the subsequent trellis is shared, there will be a plurality (n) of trellis preceding the shared trellis. Therefore, specifically, when the number of preceding trellis is n (= 1, 2, ..., N), the value of the commonized trellis j in the initial state is set to frame i = 1, 1.
2, ..., I, state k = 1, equation 11 and equation 1
The calculation may be performed based on 2, and the maximum score of the preceding trellis may be inherited.

【0052】 AccumScore(i,j,k)=max{max{AccumScor e(i−1,n,S)}|N n=1+aSylLabel(j) S、S+1、AccumScore( i−1,j,k)+aSylLabel(j) k、k}+bSylLabel(j) k(Oi) ・・・( 式11)、 InitFrame(i,j,k)=i又はInitFrame(i−1,j ,k) ・・・(式12)、 但し、AccumScore(i,j,k)=max
{AccumScore(i−1,n,S)}|N n=1
SylLabel(j) S、S+1+bSylLabel(j) k(Oi)の場合に
はInitFrame(i,j,k)=i、Accum
Score(i,j,k)=AccumScore(i
−1,j,k)+aSylLabel(j) k、k+b
SylLab el(j) k(Oi)の場合にはInitFrame
(i,j,k)=InitFrame(i−1,j,
k)である。なお、max{AccumScore}|
N n=1は、n=1〜Nの間の最大のAccumScore
を示す。
AccumScore (i, j, k) = max {max {AccumScor e (i-1, n, S)} | N n = 1 + a SylLabel (j) S, S + 1 , AccumScore (i-1, j, k) + a SylLabel (j) k, k } + b SylLabel (j) k (O i ) ... (Equation 11), InitFrame (i, j, k) = i or InitFrame (i-1, j, k) (Equation 12), where AccumScore (i, j, k) = max
{AccumScore (i-1, n, S)} | N n = 1 +
In the case of a SylLabel (j) S, S + 1 + b SylLabel (j) k (O i ), InitFrame (i, j, k) = i, Accum
Score (i, j, k) = AccumScore (i
-1, j, k) + a SylLabel (j) k, k + b
In the case of SylLab el (j) k (O i ), InitFrame
(I, j, k) = InitFrame (i-1, j,
k). Note that max {AccumScore} |
N n = 1 is the maximum AccumScore between n = 1 and N
Indicates.

【0053】上記のような音節照合処理とトレリスを連
鎖させるグラフ化処理は、発話の区切りが検出されるま
で、フレームに同期して進められ、発話の最終フレーム
までに形成された有向グラフは例えば図10に示すよう
なものとなる。そして、グラフデータ格納手段4には上
記の一連の処理で得られた、各トレリスの番号、そのト
レリスに先行するトレリスの番号、認識候補名(ラベ
ル)SylLabel、累積スコアAccumScor
e、開始フレームInitFrame、等が互いに対応
付けて格納される。しかしながら、このようなして形成
されたトレリスのグラフであっても、累積スコアがかな
り小さい部分を含んでいる、各トレリスに対応する各ア
ークのスコアが求められていない等、音声処理の結果と
するには十分とはいえない点もある。
The syllable matching process and the graphing process for chaining the trellis as described above proceed in synchronization with the frame until the utterance break is detected, and the directed graph formed by the last frame of the utterance is, for example, as shown in FIG. As shown in FIG. Then, in the graph data storage means 4, the number of each trellis, the number of the trellis preceding the trellis, the recognition candidate name (label) SylLabel, and the cumulative score AccumScor obtained by the series of processes described above.
e, start frame InitFrame, and the like are stored in association with each other. However, even the graph of the trellis formed in this way has the result of the audio processing such as including a part where the cumulative score is considerably small, the score of each arc corresponding to each trellis is not found, and the like. There are some points that are not enough.

【0054】そこで、形成された有向グラフのデータに
基づいて、後戻り処理手段5によってグラフの余分な部
分を削除するとともに、認識候補間の境界位置(ノー
ド)の確定及びアークのスコア演算、更には、各ノード
と開始ノード及び終了ノードとの間の最適経路のスコア
演算を行い、有向グラフとしてのデータ構造を確定させ
る。
Therefore, based on the data of the formed directed graph, the backward processing means 5 deletes an extra part of the graph, determines the boundary position (node) between the recognition candidates and calculates the arc score, and further, The score of the optimum route between each node and the start node and the end node is calculated, and the data structure as a directed graph is fixed.

【0055】なお、以下に説明する後戻り処理で用いる
記号を説明すると、TrellisID(p)は、アー
クpに対応するトレリス番号、ArcLabel(p)
は、アークpが示す音節名、ArcInNode(p)
は、アークpのインノード、ArcoOutNode
(p)は、アークpのアウトノード、ArcScore
(p)は、アークpのスコア、NodeTime(q)
は、ノードqが示すフレーム、FwScore(q)
は、開始ノードからノードqまでの最適経路のスコア、
BwScore(q)は、ノードqから終了ノードまで
の最適経路のスコア、をそれぞれ表す。
The symbols used in the backtracking process described below will be explained. TrellisID (p) is the trellis number corresponding to arc p, ArcLabel (p).
Is the syllable name indicated by arc p, ArcInNode (p)
Is the in-node of arc p, ArcoOutNode
(P) is an out node of Arc p, ArcScore
(P) is the score of arc p, NodeTime (q)
Is the frame indicated by the node q, FwScore (q)
Is the score of the optimal path from the start node to node q,
BwScore (q) represents the score of the optimum route from the node q to the end node.

【0056】後戻り処理は、まず、図11に示すように
有向グラフの終了ノード(番号=0)を設定するところ
から始まる。なお、このノードでは、BwScore
(0)=0となり、グラフデータ格納手段4に格納され
る。次いで、形成されたトレリスの有向グラフから、こ
の終了ノードをアウトノードとするトレリスを選び出
す。この選択処理では、最終フレームIで設定されてい
る全てのトレリスjについて、その最終状態Sにおける
累積スコアAccumScore(I,j,S)の高い
ものを選択すればよい。また、発話が無音によって区切
られる時には、更に、そのトレリスが示す音節が無音で
あるという制約を加えればよい。
The backtracking process begins by setting the end node (number = 0) of the directed graph as shown in FIG. In this node, BwScore
(0) = 0, which is stored in the graph data storage means 4. Next, a trellis having this end node as an out node is selected from the formed directed graph of the trellis. In this selection process, for all the trellis j set in the final frame I, the one with a high cumulative score AccumScore (I, j, S) in the final state S may be selected. When the utterance is divided by silence, a constraint that the syllable indicated by the trellis is silence may be further added.

【0057】そして、選択されたトレリスが示す音節の
ラベルをアークの属性として継承し、アークのインノー
ドとアウトノードを設定し、インノードの属性であるフ
レームの値を設定する処理を行う。具体的には、選択さ
れたN個のトレリスの番号をj、対応するN個のアーク
の番号をp=0,1,・・N−1、各アークのインノー
ドをq(=p+1)とすると、例えば次のようになる。 TrellisID(p)=j、 ArcLabel(p)=SylLabel(j)
(=”#”)、 ArcInNode(p)=q、 ArcOutNod
e(p)=0、 NodeTime(q)=InitFrame(i,
j,S)、
Then, the syllable label indicated by the selected trellis is inherited as the attribute of the arc, the in-node and the out-node of the arc are set, and the value of the frame which is the attribute of the in-node is set. Specifically, if the number of the selected N trellis is j, the number of the corresponding N arcs is p = 0, 1, ... N-1, and the in-node of each arc is q (= p + 1). , For example: TrellisID (p) = j, ArcLabel (p) = SylLabel (j)
(= “#”), ArcInNode (p) = q, ArcOutNod
e (p) = 0, NodeTime (q) = InitFrame (i,
j, S),

【0058】この結果、図11に例示すように、終了ノ
ードにアークが接続され、各アークに対応したTrel
lisID、ArcLabel、ArcInNode、
ArcOutNodeがグラフデータ格納手段4に格納
される。すなわち、このようにアークが確定すると、こ
れに対応したインノード等も確定する。なお、図11に
示す例では、図10に示したトレリスの連鎖の内の、番
号13と番号16のトレリスだけが選択されている。
As a result, as shown in the example of FIG. 11, the arcs are connected to the end nodes, and the Trel corresponding to each arc is
lisID, ArcLabel, ArcInNode,
ArcOutNode is stored in the graph data storage means 4. That is, when the arc is determined in this manner, the in-node and the like corresponding to the arc are also determined. In the example shown in FIG. 11, only the trellis numbered 13 and 16 in the trellis chain shown in FIG. 10 are selected.

【0059】また、このように終了ノードに接続するア
ークが確定したことで、開始ノードから終了ノードまで
のパスのスコアの最大値を確定することができ、このス
コアFwScore(0)を次式に基づいて演算する。 FwScore(0)=max{AccumScore
(I,TrellisID(p),S)}|N-1 p=0、 すなわち、N個のアークの内の最大の累積スコアを有す
るものをFwScore(0)とする。なお、FwSc
ore(0)の値は上記した有向グラフを作成する処理
において既に求められているため、発話の区切りが検出
された時点でこれを設定してもよい。
Since the arc connecting to the end node is fixed, the maximum value of the score of the path from the start node to the end node can be fixed, and this score FwScore (0) is given by Calculate based on FwScore (0) = max {AccumScore
(I, TrellisID (p), S)} | N-1 p = 0 , that is, the one having the largest cumulative score of the N arcs is FwScore (0). In addition, FwSc
Since the value of ore (0) has already been obtained in the process of creating the directed graph described above, it may be set when the utterance break is detected.

【0060】なお、音響的なスコアに言語的なスコアを
加えた場合には、FwScore(0)の値は例えば次
式のようにして演算することができる。 FwScore(0)=max{AccumScore
(I,TrellisID(p),S)+wLangS
core(TrellisID(p))}|N-1 p=0
When a linguistic score is added to the acoustic score, the value of FwScore (0) can be calculated by the following equation, for example. FwScore (0) = max {AccumScore
(I, TrellisID (p), S) + wLangS
core (TrellisID (p))} | N-1 p = 0 ,

【0061】次いで、アークの確定により既に確定され
たインノードの中から、未だアウトノードになっていな
いものを一つ選び、これをアウトノードとするトレリス
を求める。図11に示した例では、例えば番号1のノー
ドが選択され、図10に示した対応するトレリスのグラ
フから番号11と番号14のトレリスが求められる。
Next, from the in-nodes already determined by the arc determination, one that has not become an out-node is selected, and a trellis having this as an out-node is obtained. In the example shown in FIG. 11, for example, the node with number 1 is selected, and the trellis with numbers 11 and 14 are obtained from the corresponding trellis graph shown in FIG.

【0062】次いで、求めたトレリスについて、上記と
同様な処理を行って、アークとノードを確定する。具体
的には、上記と同様に、選択されたノードの番号をq、
これまでに確定されたアークとノードの数をそれぞれL
とK、ノードqをアウトノードに持つアークをr=L,
L+1,・・,L+N−1、このアークのインノードを
s=K,K+1,・・,K+N−1、対応するトレリス
をjとすると、次のようになる。 TrellisID(r)=j、 ArcLabel(r)=SylLabel(j)、 ArclnNode(r)=s、 ArcOutNod
e(r)=q 、 NodeTime(s)=InitFrame(Nod
eTime(q)−1、TrellisID(r)、
S)、
Then, the obtained trellis is subjected to the same processing as above to determine the arc and the node. Specifically, the number of the selected node is q,
The number of arcs and nodes confirmed so far is L
And K, an arc having a node q as an out node is r = L,
L + 1, ..., L + N-1, the in node of this arc is s = K, K + 1, ..., K + N-1, and the corresponding trellis is j. TrellisID (r) = j, ArcLabel (r) = SylLabel (j), ArclnNode (r) = s, ArcOutNod
e (r) = q, NodeTime (s) = InitFrame (Nod
eTime (q) -1, TrellisID (r),
S),

【0063】このようにして、ノードqをアウトノード
とするアークが求められたことで、ノードqをインノー
ドに持つアークpの属性と、ノードqの持つフレーム以
外の属性の設定を行うことができる。すなわち、アーク
pのスコアArcScore(p)、開始ノードからノ
ードqまでの経路(パス)のスコアの最大値FwSco
re(q)、ノードqから終了ノードまでの経路(パ
ス)のスコアの最大値BwScore(q)、を次式に
基づいた演算によって求めてグラフデータ格納手段4に
格納する。 FwScore(q)=max{AccumScore
(NodeTime(q)−1,TrellisID
(r),S)}|N r=1、 ArcScore(p)=AccumScore(No
deTime(ArcOutNode(p))−1,T
rellisID(p),S)−FwScore
(q)、 BwScore(q)=ArcScore(p)+Bw
Score(ArcOutNode(p))、 なお、これらの属性が既に設定されている場合(後述す
る、別々のアークが同一のインノードを持つ場合)に
は、上記のようにして設定し直す必要はない。
As described above, since the arc having the node q as the out node is obtained, the attribute of the arc p having the node q as the in node and the attribute other than the frame of the node q can be set. . That is, the score ArcScore (p) of the arc p and the maximum value FwSco of the score of the route (path) from the start node to the node q.
Re (q), the maximum value BwScore (q) of the score of the path (path) from the node q to the end node, is calculated by an operation based on the following equation and stored in the graph data storage means 4. FwScore (q) = max {AccumScore
(NodeTime (q) -1, TrellisID
(R), S)} | N r = 1 , ArcScore (p) = AccumScore (No
deTime (ArcOutNode (p))-1, T
rellisID (p), S) -FwScore
(Q), BwScore (q) = ArcScore (p) + Bw
Score (ArcOutNode (p)) If these attributes are already set (described later, when different arcs have the same in-node), it is not necessary to set them again as described above.

【0064】なお、音響的なスコアに言語的なスコアを
加えた場合には、FwScore(q)とBwScor
e(q)の値はそれぞれ次のようになる。 FwScore(q)=max{AccumScore
(NodeTime(q)−1,TrellisID
(r),S)+wLangScore(Trellis
ID(r))}|N r=1、 BwScore(q)=ArcScore(p)+wS
ylBigram(SylLabel(Trellis
ID(r))、SylLabel(TrellisID
(p)))+BwScore(ArcOutNode
(p))、
When the linguistic score is added to the acoustic score, FwScore (q) and BwScor
The values of e (q) are as follows. FwScore (q) = max {AccumScore
(NodeTime (q) -1, TrellisID
(R), S) + wLangScore (Trellis
ID (r))} | N r = 1 , BwScore (q) = ArcScore (p) + wS
ylBigram (SylLabel (Trellis
ID (r)), SylLabel (TrellisID
(P))) + BwScore (ArcOutNode
(P)),

【0065】ここで、上記の後戻り処理において、確定
処理を行おうとするアークに対応するトレリスと有向グ
ラフを作成する処理の中で同時に展開されたトレリスに
対応するアークが、既にアークとして確定していること
もある。このような時には、既に確定しているアークの
インノードに対応するフレームと、確定しようとするア
ークのインノードに対応するフレームが同じという条件
の下に、新たに確定しようとするアークのインノードを
既に確定しているアークのインノードと同じになるよう
にする必要がある。
Here, in the above-described backtracking process, the trellis corresponding to the arc for which the confirmation process is to be performed and the arc corresponding to the trellis developed at the same time in the process of creating the directed graph are already confirmed as the arc. Sometimes. In such a case, under the condition that the frame corresponding to the arc inode already determined and the frame corresponding to the arc innode to be determined are the same, the arc innode to be newly determined is already determined. It must be the same as the arc's innode.

【0066】すなわち、条件を満たす場合には、図12
に示すように、番号1のノードに接続する番号3のアー
ク(対応するトレリス番号は14)のインノードを、ア
ーク番号1(対応するトレリス番号は13)のインノー
ドと等しくする。上記のアーク及びノードの確定処理
は、このようなインノードの統一化を図りつつ進めら
れ、図13に示すように発話開始の方向へ向けて順次ア
ーク及びノードを確定して行く。
That is, when the condition is satisfied, FIG.
As shown in, the in node of the arc of number 3 (corresponding trellis number is 14) connected to the node of number 1 is made equal to the in node of arc number 1 (corresponding trellis number is 13). The above-described arc and node determination processing proceeds while unifying such in-nodes, and as shown in FIG. 13, the arcs and nodes are sequentially determined toward the utterance start direction.

【0067】一方、同時に展開されたトレリスであって
も上記の条件が満たされない時(すなわち、その音節が
異なったフレームで始まる時)には、別々のインノード
を設定する。例えば、図13に示す番号4のノードに接
続するアークは図10のトレリスグラフから番号2のト
レリスに対応し、この番号2のトレリスはグラフ作成処
理において番号0のトレリスから番号1のトレリスと同
時に展開されたものである。したがって、通常の確定処
理では、図14に破線で示すようなアークができること
になる。しかしながら、これらのトレリス(番号1と番
号2)が示す音節の開始時刻InitFrame(No
deTime(5)−1,1,S)とInitFram
e(NodeTime(4)−1,2,S)が等しくな
い時には、図15に示すように、それぞれのアーク(番
号7と番号8)のインノード(番号6と番号7)は二つ
に分けて確定処理を行う。
On the other hand, when the above conditions are not satisfied even with trellises developed simultaneously (that is, when the syllable starts in a different frame), different innodes are set. For example, the arc connected to the node of number 4 shown in FIG. 13 corresponds to the trellis of number 2 from the trellis graph of FIG. 10, and the trellis of number 2 is at the same time as the trellis of number 0 to number 1 in the graph creation process. It has been deployed. Therefore, in the normal confirmation process, an arc as shown by the broken line in FIG. 14 is generated. However, the start time of the syllable indicated by these trellises (number 1 and number 2) InitFrame (No
deTime (5) -1,1, S) and InitFrame
When e (NodeTime (4) -1, 2, S) is not equal, the innodes (number 6 and number 7) of each arc (number 7 and number 8) are divided into two as shown in FIG. Perform confirmation processing.

【0068】このようにノードが二つに分けられる場合
には、これらのノードをアウトノードに持つアークも対
応するトレリスを分割する形で確定される。すなわち、
時間的に同期して統合的に行われるグラフ作成処理の過
程では単一のトレリス(認識候補)として扱った場合で
あっても、後戻り処理の過程でその存在区間が異なるア
ーク(認識候補)が複数存在し得る時には、図16に示
すように、これらアークを別々のアークとして有向グラ
フのデータ構造を確定する。このように存在し得る認識
候補に応じてアークを複数に分割することで、音節境界
の違う音節列のスコアを正しく評価することができる。
When the nodes are divided into two in this way, the arc having these nodes as the out nodes is also determined by dividing the corresponding trellis. That is,
Even in the case of treating as a single trellis (recognition candidate) in the process of graph creation processing that is performed synchronously in time, arcs (recognition candidates) whose existence sections are different in the process of backtracking are recognized. When there are a plurality of arcs, as shown in FIG. 16, these arcs are defined as separate arcs and the data structure of the directed graph is determined. By dividing the arc into a plurality of arcs according to the possible recognition candidates in this way, the scores of syllable strings having different syllable boundaries can be correctly evaluated.

【0069】上記の後戻り処理によるアーク及びノード
の確定処理はスコアの高い経路を選択して行われるた
め、結果として確定される有向グラフは図17に太線で
示すトレリスに対応したスコアの高い部分だけとなり、
更に、この確定処理においてアークのスコアや最適経路
のスコアも求められることから、大量の語彙や未知の単
語等を含む言語的に多様な発話に対しても後の言語処理
等を迅速に行わしめることができる。
Since the arc and node determination processing by the above-mentioned backtracking processing is performed by selecting the route with a high score, the directed graph determined as a result is only the portion with a high score corresponding to the trellis shown by the bold line in FIG. ,
Furthermore, since the score of the arc and the score of the optimum route are also obtained in this confirmation processing, the subsequent language processing etc. can be quickly performed even for linguistically diverse utterances including a large amount of vocabulary and unknown words. be able to.

【0070】なお、上記の実施例では音節を認識候補の
単位とした例を示したが、本発明は音素や単語を認識候
補の単位とした場合にも勿論適用することができる。ま
た、上記の実施例ではHMM法を用いた例を示したが、
本発明ではDPマッチング法やニューラルネットワーク
法等の他の認識方法を用いることもできる。なお、この
場合には、HMM法のトレリスの代わりに標準パターン
又は単位素子(ニューロン)と未知音声の時間を二軸と
する作業空間を設定し、確率に関する(最大値)演算を
距離に関する(最小値)演算や素子出力に関する(最大
値)演算に置き換える等の変更を行えばよい。
In the above embodiment, an example in which a syllable is used as a recognition candidate unit is shown, but the present invention can be applied to a case where a phoneme or a word is used as a recognition candidate unit. In addition, although the example using the HMM method is shown in the above embodiment,
In the present invention, other recognition methods such as the DP matching method and the neural network method can be used. In this case, instead of the trellis of the HMM method, a standard pattern or a work space having two axes of unit element (neuron) and unknown voice is set, and the probability (maximum value) calculation is related to the distance (minimum value). It is sufficient to make changes such as replacement with (value) calculation or (maximum value) calculation regarding element output.

【0071】[0071]

【発明の効果】以上説明したように、本発明によれば、
従来では困難な課題とされてきた大量の語彙や未知の単
語等を含む言語的に多様な発話に対しても、高速且つ高
精度な音声認識を可能ならしめることができる。特に、
請求項1或いは請求項2の発明によれば、認識候補の系
列を認識する処理と前記有向グラフを生成する処理とを
時間的に同期して統合的に行うようにしたため、有向グ
ラフを高速且つ高精度に作成し、延いては、実時間処理
をも可能ならしめることができる。
As described above, according to the present invention,
High-speed and high-accuracy speech recognition can be performed even for linguistically diverse utterances including a large amount of vocabulary, unknown words, etc., which have been difficult problems in the past. In particular,
According to the invention of claim 1 or 2, since the process of recognizing the sequence of recognition candidates and the process of generating the directed graph are performed in a timely synchronized manner, the directed graph can be processed at high speed and with high accuracy. It can be created for real-time processing.

【0072】また、請求項3の発明によれば、上記の効
果に加え、有向グラフの認識候補間のノードの確定及び
アーク毎のスコア演算を後戻り処理で行い、当該有向グ
ラフのデータ構造を確定するようにしたため、余分な部
分を削除した利用価値の高い有向グラフを得ることがで
きる。また、請求項4の発明によれば、上記の効果に加
え、有向グラフの作成処理では単一の認識候補として扱
った認識候補であっても、後戻り処理の過程で異なる候
補が存在し得る場合には、これら候補を別々の認識候補
として有向グラフのデータ構造を確定するようにしたた
め、境界の違う認識候補列のスコアを正しく評価するこ
とができる。
According to the third aspect of the present invention, in addition to the above effect, the node between the recognition candidates of the digraph is determined and the score calculation for each arc is performed by the backtracking process to determine the data structure of the digraph. Therefore, it is possible to obtain a highly useful directed graph in which the extra part is deleted. According to the invention of claim 4, in addition to the above effect, even if a recognition candidate treated as a single recognition candidate in the process of creating a directed graph can have different candidates in the process of the backtracking process. Uses the candidates as separate recognition candidates to determine the data structure of the directed graph, so that the scores of the recognition candidate sequences having different boundaries can be correctly evaluated.

【0073】また、請求項5の発明によれば、上記の効
果に加え、後戻り処理の過程で最適経路のスコアを求
め、これらスコアを有向グラフ型のデータ構造に保持さ
せるようにしたため、後の言語的処理等を高速且つ高精
度に実現することができる。また、請求項6の発明によ
れば、上記の効果に加え、最適経路のスコアを認識候補
の系列の音響的尤度又は当該音響的尤度と認識候補の連
鎖に関する言語的尤度との組合せにより求めるようにし
たため、後の言語的処理等を種々な条件に応じて高速且
つ高精度に実現することができる。また、請求項7の発
明によれば、音声認識方法を実施して、上記のような有
用な効果を得ることができる。
Further, according to the invention of claim 5, in addition to the above effect, the score of the optimum route is obtained in the process of the backtracking process, and these scores are held in the data structure of the directed graph type. It is possible to realize the dynamic processing and the like with high speed and high accuracy. According to the invention of claim 6, in addition to the above effects, the score of the optimum route is the acoustic likelihood of the sequence of recognition candidates, or a combination of the acoustic likelihood and the linguistic likelihood of the chain of recognition candidates. Therefore, the subsequent linguistic processing and the like can be realized at high speed and with high accuracy according to various conditions. According to the invention of claim 7, the voice recognition method can be implemented to obtain the above-mentioned useful effects.

【図面の簡単な説明】[Brief description of drawings]

【図1】 本発明の一実施例に係る音声認識装置の構成
図である。
FIG. 1 is a configuration diagram of a voice recognition device according to an embodiment of the present invention.

【図2】 本発明の一実施例に係る音声認識装置の構成
図である。
FIG. 2 is a configuration diagram of a voice recognition device according to an embodiment of the present invention.

【図3】 音節有向グラフの一例を示す概念図である。FIG. 3 is a conceptual diagram showing an example of a syllable directed graph.

【図4】 音節HMMの一例を示す概念図である。FIG. 4 is a conceptual diagram showing an example of a syllable HMM.

【図5】 トレリスとHMMスコア計算の演算を説明す
る概念図である。
FIG. 5 is a conceptual diagram illustrating the calculation of trellis and HMM score calculation.

【図6】 トレリス連鎖が時間的に発展する様子を示す
概念図である。
FIG. 6 is a conceptual diagram showing how a trellis chain evolves with time.

【図7】 トレリス連鎖が時間的に発展する様子を示す
概念図である。
FIG. 7 is a conceptual diagram showing how a trellis chain evolves with time.

【図8】 トレリス連鎖が時間的に発展する様子を示す
概念図である。
FIG. 8 is a conceptual diagram showing how a trellis chain evolves with time.

【図9】 トレリス連鎖が時間的に発展する様子を示す
概念図である。
FIG. 9 is a conceptual diagram showing how a trellis chain evolves with time.

【図10】 トレリス連鎖が時間的に発展する様子を示
す概念図である。
FIG. 10 is a conceptual diagram showing how a trellis chain evolves with time.

【図11】 有向グラフの確定経過を説明する概念図で
ある。
FIG. 11 is a conceptual diagram illustrating the progress of confirmation of a directed graph.

【図12】 有向グラフの確定経過を説明する概念図で
ある。
FIG. 12 is a conceptual diagram illustrating a process of establishing a directed graph.

【図13】 有向グラフの確定経過を説明する概念図で
ある。
FIG. 13 is a conceptual diagram illustrating a process of finalizing a directed graph.

【図14】 有向グラフの確定経過を説明する概念図で
ある。
FIG. 14 is a conceptual diagram illustrating a process of finalizing a directed graph.

【図15】 有向グラフの確定経過を説明する概念図で
ある。
FIG. 15 is a conceptual diagram illustrating a process of finalizing a directed graph.

【図16】 有向グラフの確定経過を説明する概念図で
ある。
FIG. 16 is a conceptual diagram illustrating the progress of confirmation of a directed graph.

【図17】 有向グラフとして確定されたトレリス連鎖
を説明する概念図である。
FIG. 17 is a conceptual diagram illustrating a trellis chain determined as a directed graph.

【符号の説明】[Explanation of symbols]

2 音響分析手段、 3 認識グラフ化手段、 4 グ
ラフデータ格納手段、5 後戻り処理手段、 11 モ
デル保持手段、 12 トレリス作成手段、13 演算
手段、 15 トレリス検索手段、 16 ノード確定
手段、17 演算手段、
2 acoustic analysis means, 3 recognition graphing means, 4 graph data storage means, 5 backtracking processing means, 11 model holding means, 12 trellis creating means, 13 computing means, 15 trellis searching means, 16 node determining means, 17 computing means,

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 庁内整理番号 FI 技術表示箇所 G10L 9/10 301 C ─────────────────────────────────────────────────── ─── Continuation of the front page (51) Int.Cl. 6 Identification code Internal reference number FI technical display location G10L 9/10 301 C

Claims (7)

【特許請求の範囲】[Claims] 【請求項1】 音声信号を音素、音節、単語等の認識候
補の系列として認識し、その途中又は最終結果を有向グ
ラフ型のデータ構造を用いて表現する音声認識方法にお
いて、前記認識候補の系列を認識する処理と前記有向グ
ラフを生成する処理とを時間的に同期して統合的に行う
ことを特徴とする音声認識方法。
1. A speech recognition method for recognizing a speech signal as a sequence of recognition candidates such as phonemes, syllables, words, etc., and expressing the middle or final result thereof by using a directed graph type data structure. A voice recognition method, characterized in that the recognition process and the process for generating the directed graph are integrated in a timely synchronized manner.
【請求項2】 前記有向グラフを生成する処理では隠れ
マルコフモデルを用いて認識候補毎のトレリスを連鎖的
に作成し、前記認識候補の系列を認識する処理ではトレ
リスが示す認識候補の開始時刻とトレリスの連鎖に沿っ
た累積スコアを求めることを特徴とする請求項1に記載
の音声認識方法。
2. In the process of generating the directed graph, a hidden Markov model is used to create a trellis for each recognition candidate in a chained manner, and in the process of recognizing a sequence of the recognition candidates, the start time and trellis of the recognition candidate indicated by the trellis. The speech recognition method according to claim 1, wherein a cumulative score along the chain is obtained.
【請求項3】 前記時間的に同期して統合的に行われる
認識候補の系列の認識処理と有向グラフの生成処理とが
発話の区切りに到達した後、有向グラフの認識候補間の
ノードの確定及びアーク毎のスコア演算を有向グラフの
発話の区切り側から発話の開始側へ向う後戻り処理で順
次行い、当該有向グラフのデータ構造を確定することを
特徴とする請求項1又は請求項2に記載の音声認識方
法。
3. After the recognition processing of the recognition candidate sequence and the generation processing of the directed graph, which are integrated in synchronization with each other in time, reach the boundary of utterances, a node between the recognition candidates of the directed graph is determined and an arc is generated. The speech recognition method according to claim 1 or 2, wherein the score calculation for each is performed sequentially in a backtracking process from the utterance delimiter side of the digraph to the utterance start side to determine the data structure of the digraph. .
【請求項4】 前記時間的に同期して統合的に行われる
処理の過程では単一の認識候補として扱った認識候補で
あっても、前記後戻り処理の過程でその存在区間が異な
る候補が複数存在し得る場合には、これら候補を別々の
認識候補として有向グラフのデータ構造を確定すること
を特徴とする請求項3に記載の音声認識方法。
4. Even if the recognition candidates are treated as a single recognition candidate in the process of the processing which is performed synchronously in time, there are a plurality of candidates having different existence sections in the process of the backtracking process. 4. The voice recognition method according to claim 3, wherein if they can exist, the data structure of the directed graph is determined by using these candidates as separate recognition candidates.
【請求項5】 前記後戻り処理の過程で、発話開始に対
応するノードから有向グラフ中の各ノードまでの最適経
路のスコアと、有向グラフ中の各ノードから発話の区切
りに対応するノードまでの最適経路のスコアとを求め、
これらスコアを有向グラフ型のデータ構造に保持させる
ことを特徴とする請求項3又は請求項4に記載の音声認
識方法。
5. The score of the optimum route from the node corresponding to the utterance start to each node in the digraph and the optimum route from each node in the digraph to the node corresponding to the utterance break in the process of the backtracking. Find the score and
The voice recognition method according to claim 3 or 4, wherein these scores are held in a directed graph data structure.
【請求項6】 前記最適経路のスコアが、認識候補の系
列の音響的尤度、又は当該音響的尤度と認識候補の連鎖
に関する言語的尤度との組合せにより求められているこ
とを特徴とする請求項5に記載の音声認識方法。
6. The score of the optimum route is obtained by acoustic likelihood of a sequence of recognition candidates, or a combination of the acoustic likelihood and a linguistic likelihood of a chain of recognition candidates. The voice recognition method according to claim 5.
【請求項7】 音声信号を音素、音節、単語等の認識候
補の系列として認識し、その途中又は最終結果を有向グ
ラフ型のデータとして構成する音声認識装置において、 入力された音声信号を分析して特徴パラメータ系列を得
る音響分析手段と、音響モデル及び音響モデルの連鎖に
関するモデルを保持するモデル保持手段と、特徴パラメ
ータ系列に対して前記モデルを用いて認識候補に対応す
るトレリスを生成するトレリス作成手段と、トレリスに
対する累積スコア及び開始時刻を時間的に同期して演算
する演算手段と、トレリスに対応して累積スコア及び開
始時刻を格納するグラフデータ格納手段と、前記グラフ
データ格納手段に格納されている開始時刻及び累積スコ
アに基づいて認識候補間のノードの確定及び認識候補に
対応するアーク毎のスコア演算を行う後戻り処理手段
と、を備え、 前記トレリス作成手段は更に前記演算手段の演算結果に
基づいて後続するトレリスを順次同期して作成し、 前記後戻り処理手段は発話の区切りまで前記累積スコア
及び開始時刻が前記グラフデータ格納手段に格納された
ところで前記処理を行って当該処理結果をグラフデータ
格納手段に格納することを特徴とする音声認識装置。
7. A speech recognition apparatus that recognizes a speech signal as a sequence of recognition candidates such as phonemes, syllables, words, etc., and configures the middle or final result thereof as directed graph data to analyze the inputted speech signal. Acoustic analysis means for obtaining a characteristic parameter sequence, model holding means for holding a model relating to an acoustic model and a chain of acoustic models, and trellis creating means for generating a trellis corresponding to a recognition candidate using the model for the characteristic parameter series. A calculation means for calculating a cumulative score and a start time for the trellis in time synchronization; a graph data storage means for storing the cumulative score and the start time corresponding to the trellis; and a graph data storage means for storing the graph data storage means. Based on the start time and cumulative score, the nodes between recognition candidates are determined and each arc corresponding to the recognition candidate The trellis creating means further creates sequentially subsequent trellis on the basis of the calculation result of the calculating means, and the backtracking processing means makes the cumulative score until the break of the utterance. And a start time is stored in the graph data storage means, the processing is performed and the processing result is stored in the graph data storage means.
JP7024521A 1995-01-20 1995-01-20 Speech recognizing method and apparatus therefor Pending JPH08202384A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7024521A JPH08202384A (en) 1995-01-20 1995-01-20 Speech recognizing method and apparatus therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7024521A JPH08202384A (en) 1995-01-20 1995-01-20 Speech recognizing method and apparatus therefor

Publications (1)

Publication Number Publication Date
JPH08202384A true JPH08202384A (en) 1996-08-09

Family

ID=12140478

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7024521A Pending JPH08202384A (en) 1995-01-20 1995-01-20 Speech recognizing method and apparatus therefor

Country Status (1)

Country Link
JP (1) JPH08202384A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007233148A (en) * 2006-03-02 2007-09-13 Nippon Hoso Kyokai <Nhk> Device and program for utterance section detection
JP2015121709A (en) * 2013-12-24 2015-07-02 株式会社東芝 Decoder, decoding method, and program

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007233148A (en) * 2006-03-02 2007-09-13 Nippon Hoso Kyokai <Nhk> Device and program for utterance section detection
JP2015121709A (en) * 2013-12-24 2015-07-02 株式会社東芝 Decoder, decoding method, and program

Similar Documents

Publication Publication Date Title
CN108305634B (en) Decoding method, decoder and storage medium
US5515475A (en) Speech recognition method using a two-pass search
US6243679B1 (en) Systems and methods for determinization and minimization a finite state transducer for speech recognition
JP5310563B2 (en) Speech recognition system, speech recognition method, and speech recognition program
Kenny et al. A*-admissible heuristics for rapid lexical access
JP2002082689A (en) Recognition system using lexical tree
JPH10105189A (en) Sequence taking out method and its device
Ney A comparative study of two search strategies for connected word recognition: Dynamic programming and heuristic search
JPH08248980A (en) Voice recognition device
JPH08202384A (en) Speech recognizing method and apparatus therefor
JPH06266386A (en) Word spotting method
JP3440840B2 (en) Voice recognition method and apparatus
US20040148163A1 (en) System and method for utilizing an anchor to reduce memory requirements for speech recognition
JP3559479B2 (en) Continuous speech recognition method
JP3873418B2 (en) Voice spotting device
JPH10161693A (en) Method and device for recognizing voice
JP3583299B2 (en) Search device for continuous speech recognition and search method for continuous speech recognition
JP3369121B2 (en) Voice recognition method and voice recognition device
JPH10198392A (en) Voice recognition method
JP3818154B2 (en) Speech recognition method
JP4600705B2 (en) Voice recognition apparatus, voice recognition method, and recording medium
JPH11288297A (en) Voice recognition device
JPH086588A (en) Voice recognition method
JP2005241811A (en) Speech processor and speech processing method, and program and recording medium
JPH0962290A (en) Speech recognition device