JP2010204274A - Speech recognition device and method and program therefore - Google Patents
Speech recognition device and method and program therefore Download PDFInfo
- Publication number
- JP2010204274A JP2010204274A JP2009048035A JP2009048035A JP2010204274A JP 2010204274 A JP2010204274 A JP 2010204274A JP 2009048035 A JP2009048035 A JP 2009048035A JP 2009048035 A JP2009048035 A JP 2009048035A JP 2010204274 A JP2010204274 A JP 2010204274A
- Authority
- JP
- Japan
- Prior art keywords
- search
- network
- node
- speech recognition
- compression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、音声認識装置、その方法及びそのプログラムに関する。 The present invention relates to a speech recognition apparatus, a method thereof, and a program thereof.
従来より、単語単位でクラスタリングを行い、クラスタ内でスコアの初期値が一番大きい単語(代表単語)に対してマッチング処理を行った後、クラスタ内の他の単語の再評価を行う技術が提案されている(特許文献1参照)。 Conventionally, a technique has been proposed in which clustering is performed on a word-by-word basis, matching processing is performed on the word with the largest initial score (representative word) in the cluster, and then other words in the cluster are reevaluated. (See Patent Document 1).
音声認識において、認識語彙数が多いと探索ネットワークが大きくなり、探索に多くの計算量が必要となる。探索の計算量を削減する方法は、非特許文献1に示されるようなビームサーチが用いられる。ビームサーチでは、探索の各ステップで探索ネットワーク上のノードの探索と枝狩りを交互に繰り返すことにより、探索空間を狭め計算量を削減している。しかし、文頭付近や単語境界付近などでは探索ネットワークが多くの分岐を持つため、ビームサーチを用いた場合でも探索対象となるノード数が多くなり、多くの計算量を必要とする。
In speech recognition, if the number of recognized vocabulary is large, the search network becomes large, and a large amount of calculation is required for the search. As a method for reducing the calculation amount of the search, a beam search as shown in Non-Patent
これに対し特許文献2では、次の3つの方法を提案している。
On the other hand,
第1の方法は、1回目の探索では語頭付近で予め類似した音素をマージすることにより小さくした探索ネットワークを用いて探索を行う。次に、音素マージにより探索結果が一意に定まらなかった場合に1回目の探索結果から音素をマージしないで探索ネットワークを構成し、2回目の探索を行うことにより計算量を削減する。 In the first method, in the first search, a search is performed using a search network that has been reduced by merging similar phonemes in the vicinity of the beginning of the word. Next, when the search result is not uniquely determined by phoneme merging, a search network is configured without merging phonemes from the first search result, and the amount of calculation is reduced by performing the second search.
第2の方法は、粗い標準パターンを用いて、少ない計算量で絞り込まれた認識候補のみに対して、精密な標準パターンを用いて再照合する。 In the second method, only a recognition candidate narrowed down with a small amount of calculation using a rough standard pattern is re-matched using a precise standard pattern.
第3の方法は、第2の方法に対して精密な標準パターンを用いず、再照合も行わないものである。 The third method does not use a precise standard pattern as compared to the second method, and does not perform rematching.
しかし、上記各従来技術においても、音声認識のための計算量が十分に削減されず、また、削減された場合には認識精度が劣化するという問題点がある。 However, each of the above prior arts has a problem in that the amount of calculation for speech recognition is not sufficiently reduced, and when it is reduced, recognition accuracy deteriorates.
本発明は、上記問題点を解決するためになされたものであって、少ない計算量で、かつ、精度の高い音声認識結果が得られる音声認識装置、その方法及びそのプログラムを提供することを目的とする。 The present invention has been made to solve the above-described problems, and it is an object of the present invention to provide a speech recognition apparatus, a method thereof, and a program thereof that can obtain a highly accurate speech recognition result with a small amount of calculation. And
本発明は、入力音声からフレーム毎に音響特徴量を抽出する特徴抽出部と、探索ネットワーク中の隣接した複数のノードをマージすることにより生成された少なくとも1つの圧縮ネットワーク上で前記音響特徴量に対して探索及び枝狩りを行い、前記圧縮ネットワークの前記枝狩りされたノードに対応する前記探索ネットワークのノードを探索対象から除外して、前記入力音声の終端まで探索及び枝狩りを行って、音声認識する探索部と、を有することを特徴とする音声認識装置である。 The present invention provides a feature extraction unit that extracts an acoustic feature amount from an input speech for each frame, and the acoustic feature amount on at least one compression network generated by merging a plurality of adjacent nodes in a search network. Search and branch hunting, exclude nodes of the search network corresponding to the branch-pruned nodes of the compression network from search targets, perform search and branch hunting to the end of the input speech, And a search unit for recognizing the speech recognition apparatus.
本発明によれば、少ない計算量で、かつ、精度の高い音声認識結果が得られる。 According to the present invention, a highly accurate speech recognition result can be obtained with a small amount of calculation.
以下、本発明の一実施形態の音声認識装置について添付図面を参照して説明する。 Hereinafter, a speech recognition apparatus according to an embodiment of the present invention will be described with reference to the accompanying drawings.
(第1の実施形態)
第1の実施形態の音声認識装置について図1〜図4及び図11を参照して説明する。
(First embodiment)
A speech recognition apparatus according to a first embodiment will be described with reference to FIGS.
本実施形態の音声認識装置の構成について図1を参照して説明する。図1は、本実施形態に係る音声認識装置を示すブロック図である。 The configuration of the speech recognition apparatus of this embodiment will be described with reference to FIG. FIG. 1 is a block diagram showing a speech recognition apparatus according to this embodiment.
音声認識装置は、特徴抽出部111、探索ネットワーク101、圧縮ネットワーク102、探索部112とを備えている。
The speech recognition apparatus includes a
特徴抽出部111は、入力音声からフレーム毎に音響特徴量を抽出する。
The
探索ネットワーク101は、特徴抽出部111から音響特徴量が入力される。
The
圧縮ネットワーク102は、探索ネットワーク101中の隣接する類似度の大きいノードをマージすることにより生成される。
The
探索部112は、探索ネットワーク101と、圧縮ネットワーク102とを用いて探索を行い、認識結果を出力する。
The
なお、この音声認識装置は、例えば、汎用のコンピュータを基本ハードウェアとして用いることでも実現することが可能である。このとき、音声認識装置は、上記のプログラムをコンピュータに予めインストールすることで実現してもよいし、CD−ROMなどの記憶媒体に記憶して、あるいはネットワークを介して上記のプログラムを配布して、このプログラムをコンピュータに適宜インストールすることで実現してもよい。 Note that this voice recognition device can also be realized, for example, by using a general-purpose computer as basic hardware. At this time, the voice recognition apparatus may be realized by installing the above program in a computer in advance, or may be stored in a storage medium such as a CD-ROM or distributed through the network. This program may be realized by appropriately installing it on a computer.
まず、探索ネットワーク101と、探索ネットワーク101を用いた探索方法について図11を参照して説明する。
First, the
図11は、各音素を3状態left−to−right HMMでモデル化し、認識対象語彙が「サトー」、「シバタ」、「ヒライ」、「ホンダ」、「キタムラ」、「カタヤマ」、「タカハシ」、「ナカイ」、「マキ」の9単語である孤立単語認識における探索ネットワーク101の例を示す。黒丸は始端ノード、白丸は通常のノード、二重丸は終端ノードを表し、四角の中の単語は点線で結び付けられたアークに貼り付けられた単語ラベルである。
In FIG. 11, each phoneme is modeled by a three-state left-to-right HMM, and the recognition target words are “Sato”, “Shibata”, “Hirai”, “Honda”, “Kitamura”, “Katayama”, “Takahashi” The example of the
探索方法には、さまざまなものが提案されている。本実施形態では、「token passing」と呼ばれる方法について説明する。 Various search methods have been proposed. In the present embodiment, a method called “token passing” will be described.
token passingでは、ノードにトークンが割り当てられ、入力フレームが与えられる毎にアークに沿って次のノードに伝播される。このトークンは、累積スコアと、トークンが伝播されてきた経路上の単語ラベルの履歴を保持している。 In token passing, a token is assigned to a node, and every time an input frame is given, the token is propagated along the arc to the next node. This token holds a cumulative score and a history of word labels on the path through which the token has been propagated.
まず探索開始前に始端ノードにトークンが割り当てられる。入力フレームが与えられると、アークに沿ってトークンを次のノードに伝播する。ここで、一つのノードに複数のトークンが伝播されてきた場合には、最も累積スコアの良いトークンが選択される。そして、トークンの存在するノードのスコアを評価し、各トークンの累積スコアに加算される。最後に、音声入力終了時に終端ノードに割り当てられたトークンが保持している単語ラベルの履歴を認識結果として出力する。 First, a token is assigned to the start node before the search starts. Given an input frame, propagate the token along the arc to the next node. Here, when a plurality of tokens are propagated to one node, the token having the best cumulative score is selected. Then, the score of the node where the token exists is evaluated and added to the cumulative score of each token. Finally, the history of the word label held in the token assigned to the terminal node at the end of voice input is output as the recognition result.
そして、N−best探索を行う場合には、一つのノードに複数のトークンが伝播されてきたときに、最も累積スコアの良いトークンを選択する代わりに,上位N個のトークン(単語ラベルの履歴と対応する累積スコア)を保持する。 When performing an N-best search, when a plurality of tokens are propagated to one node, instead of selecting the token with the best cumulative score, the top N tokens (word label history and Corresponding cumulative score).
なお、後から説明する圧縮ネットワーク102上での探索においては、認識結果を出力する必要がない。これは、探索ネットワーク101上での探索により認識結果を得るからである。そのため、圧縮ネットワーク102上での探索においては、単語ラベルの履歴を保持する必要はなく、またN−best認識においても複数のトークン(単語ラベルの履歴と対応する累積スコア)の管理などの特別な処理をする必要はない。
In the search on the
次に、圧縮ネットワーク102の生成方法について説明する。この生成方法としては、次のような方法がある。
Next, a method for generating the
第1の方法は、類似度が所定の値よりも大きい隣接するノードをマージする方法である。なお、あるノードに隣接するノードとは、典型的には同じ親ノード又は子ノードを持つ兄弟ノードである。しかし、アークで直接接続された親ノードや子ノードを含んでもよい。 The first method is a method of merging adjacent nodes whose similarity is greater than a predetermined value. Note that a node adjacent to a certain node is typically a sibling node having the same parent node or child node. However, it may include a parent node and a child node that are directly connected by an arc.
第2の方法は、下記の(1)式で与えられる圧縮率が所定の値よりも大きくなるまで、類似度が最も大きい隣接するノードのマージを繰り返す方法である。 The second method is a method of repeatedly merging adjacent nodes having the highest degree of similarity until the compression rate given by the following equation (1) becomes larger than a predetermined value.
圧縮率=圧縮後のネットワークのノード数/圧縮前のネットワークのノード数
・・・(1)
しかし、これら方法に限るものではない。
Compression rate = number of network nodes after compression / number of network nodes before compression (1)
However, it is not restricted to these methods.
音声認識装置の動作について図1と図2を参照して説明する。図2は、音声認識装置において1つの圧縮ネットワーク102を用いた場合の動作を示すフローチャートである。
The operation of the speech recognition apparatus will be described with reference to FIGS. FIG. 2 is a flowchart showing the operation when one
ステップS1111において、特徴抽出部111は、入力音声から一定時間間隔のフレーム毎に特徴抽出を行い、音響特徴量を求める。
In step S <b> 1111, the
ステップS1121において、探索部112は、特徴抽出部111で求められた音響特徴量を用い、まず圧縮ネットワーク102上で探索を行う。
In step S <b> 1121, the
ステップS1122において、探索部112は、圧縮ネットワーク102上で枝狩りを行う。
In step S <b> 1122, the
ステップS1123において、探索部112は、探索ネットワーク101上で探索を行う。この際、圧縮ネットワーク102上で枝狩りされたノードに対応するノードは、探索対象から除外することにより、探索部112は、探索にかかる計算量を削減する。
In step S <b> 1123, the
ステップS1124において、探索部112は、探索ネットワーク101上で枝狩りを行う。
In step S <b> 1124, the
ステップS1125において、探索部112は、以上の各ステップを繰り返し(Nの場合)、入力音声の終端に到達すると、認識結果を出力する(Yの場合)。
In step S1125, the
上記ステップS1121〜S1125が、探索部112が行う探索ステップとなる。 次に、ステップS1121〜S1123の動作について、従来の音声認識装置の動作と比較して、図3と図4を参照して説明する。
The above steps S1121 to S1125 are search steps performed by the
図3は、探索ネットワーク101の例である。丸はネットワークのノード、丸の中の数字はノード番号、矢印はアーク、「単語1」から「単語6」はアークに付与されている単語ラベルをそれぞれ示している。
FIG. 3 is an example of the
図4は、図3に示される探索ネットワーク101中の類似度の大きい隣接ノードをマージすることにより生成された圧縮ネットワーク102の例である。圧縮ネットワーク102は、ノード−1は探索ネットワーク101のノード1、2を、ノード−2は探索ネットワーク101のノード3、4、5をそれぞれマージすることにより生成されている。また、ノード−0及びノード−3は、それぞれ探索ネットワーク101のノード0及びノード6に対応し、ノードのマージを行っていないため、それぞれノード0及びノード6と同等である。
FIG. 4 is an example of the
以下の説明では、従来の音声認識装置と本実施形態の音声認識装置によって、探索ネットワーク101のノード0及びこれに対応する圧縮ネットワーク102のノード−0から探索する場合について説明する。
In the following description, a case where a search is performed from the
従来の音声認識装置では、圧縮ネットワーク102を用いず探索ネットワーク101のみに対して探索を行う。そのため、ノード0から探索を行う場合には、ノード1からノード6までの6ノードに対して探索を行う必要がある。ここで探索とは、各ノードでの音響特徴量に対する尤度計算と、各ノードに到達するまでの累積尤度計算、及び単語履歴の管理からなる。
In the conventional speech recognition apparatus, the search is performed only on the
次に、本実施形態の音声認識装置について図2、図3、図4を参照して説明する。 Next, the speech recognition apparatus of this embodiment will be described with reference to FIGS. 2, 3, and 4. FIG.
ステップS1121において、探索部112は、図4の圧縮ネットワーク102上で探索を行う。ノード−0から探索を行う場合には、ノード−1、ノード−2、ノード−3の3つのノードに対して探索を行う。ここで、圧縮ネットワーク102のアークには単語ラベルが付与されていないため、圧縮ネットワーク102上の探索においては単語履歴の管理を行う必要はない。また、N−best探索では上位N個の単語履歴の管理を行う必要があるが、圧縮ネットワーク102の探索においては単語履歴の管理を行わないため、N−best探索でも特別な処理を行う必要はない。
In step S1121, the
ステップS1122において、探索部112は、ステップS1121で探索が行われたノード−1、ノード−2、ノード−3に対して枝狩りを行う。
In step S1122, the
ステップS1123において、探索部112は、圧縮ネットワーク102の枝狩りされなかったノードに対応する探索ネットワーク101のノードのみに対して探索を行う。
In step S <b> 1123, the
例えば、ステップS1122で、探索部112が、ノード−2とノード−3を枝狩りし、ノード−1を枝狩りしなかった場合には、ステップS1123では探索部112は、ノード−2に対応するノード3からノード5及びノード−3に対応するノード6を探索対象から除外し、ノード−1に対応するノード1及びノード2に対してのみ探索を行う。このとき、圧縮ネットワーク102で3ノード、探索ネットワーク101で2ノードの、合計5ノードに対して探索が行われる。
For example, in step S1122, when the
これにより、本実施形態の音声認識装置は、従来の音声認識装置と比べて探索ノード数を削減でき、少ない計算量で認識結果を得ることができる。 As a result, the speech recognition apparatus according to the present embodiment can reduce the number of search nodes as compared with the conventional speech recognition apparatus, and can obtain a recognition result with a small amount of calculation.
また、ステップS1122で探索部112が、ノード−1とノード−2を枝狩りし、ノード−3を枝狩りしなかった場合には、ステップS1123では探索部112は、ノード−1及びノード−2に対応するノード1からノード5を探索対象から除外し、ノード−3に対応するノード6のみに対して探索が行われる。このとき、圧縮ネットワーク102で3ノード、探索ネットワーク101で1ノードの、合計4ノードの探索が行われる。
In addition, when the
これにより、本実施形態の音声認識装置は、従来の音声認識装置と比べて探索ノード数を削減でき、少ない計算量で認識結果を得ることができる。また、圧縮ネットワーク102のノード−3と探索ネットワーク101のノード6は同等のため、ノード6における音響特徴量に対する尤度はノード−3における尤度と同じであり、新たに計算しなおす必要はないため、さらに計算量を削減することができる。
As a result, the speech recognition apparatus according to the present embodiment can reduce the number of search nodes as compared with the conventional speech recognition apparatus, and can obtain a recognition result with a small amount of calculation. In addition, since the node-3 of the
さらに、ステップS1122でノード−1とノード−3が枝狩りされ、ノード−2が枝狩りされなかった場合には、ステップS1123では探索部112は、ノード−1に対応するノード1、ノード2及びノード−3に対応するノード6を探索対象から除外し、ノード3からノード5のみに対して探索が行われる。このとき、圧縮ネットワーク102で3ノード、探索ネットワーク101で3ノードの、合計6ノードの探索が行われる。この場合、合計の探索ノード数は通常の音声認識装置と同じであるが、圧縮ネットワーク102上での探索では単語履歴の管理を行わない。そのため、合計の探索ノード数が同じであっても通常の音声認識装置よりも計算量を削減できる。
Furthermore, when node-1 and node-3 are pruned in step S1122, and node-2 is not pruned, in step S1123, the
本実施形態の音声認識装置によれば、圧縮ネットワーク102上で探索及び枝狩りを行い、圧縮ネットワーク102上で枝狩りされたノードに対応する探索ネットワーク101のノードを探索対象から除外することで、計算量を削減できる。
According to the speech recognition apparatus of the present embodiment, search and branch hunting are performed on the
また、各フレームで、圧縮ネットワーク102上での探索、枝狩りだけではなく、探索ネットワーク101上での探索、枝狩りも行っているため、発話終了後直ちに認識結果と、探索ネットワーク101上で計算される入力音声に対する累積尤度を得ることができる。
In addition, since each frame is searched not only on the
(変更例)
なお、圧縮ネットワーク102は複数用いることも可能である。
(Example of change)
A plurality of
この場合には、例えば、第1の圧縮ネットワーク102と第k+1の圧縮ネットワーク102を用いる。但し、k=1,・・・,K−1である。
In this case, for example, the
第1の圧縮ネットワーク102は、探索ネットワーク101と、探索ネットワーク101の隣接する類似度の大きいノードをマージすることにより生成された圧縮ネットワーク102である。第k+1の圧縮ネットワーク102は、探索ネットワーク101と、第kの圧縮ネットワーク102の隣接する類似度の大きいノードをマージすることにより生成される。
The
次に、第Kの圧縮ネットワーク102上で探索及び枝狩りを行い、第k+1の圧縮ネットワーク102上で枝狩りされたノードに対応する第kの圧縮ネットワーク102のノードを探索対象から除外する。次に、第kの圧縮ネットワーク102上で探索を行う。
Next, search and branch hunting are performed on the
そして、これら枝狩りと探索をk=K−1からk=1まで繰り返す。 These branch hunting and searching are repeated from k = K−1 to k = 1.
最後に、第1の圧縮ネットワーク102上で枝狩りされたノードに対応する探索ネットワーク101のノードを探索対象から除外して、探索ネットワーク101上で探索を行う。
Finally, a search is performed on the
(第2の実施形態)
第2の実施形態の音声認識装置について図5〜図6を参照して説明する。
(Second Embodiment)
A speech recognition apparatus according to a second embodiment will be described with reference to FIGS.
本実施形態の音声認識装置の構成について図5を参照して説明する。図5は、音声認識装置を示すブロック図である。 The configuration of the speech recognition apparatus of this embodiment will be described with reference to FIG. FIG. 5 is a block diagram showing the speech recognition apparatus.
音声認識装置は、特徴抽出部211、探索ネットワーク201、部分圧縮ネットワーク202、探索部212とを備えている。
The speech recognition apparatus includes a
特徴抽出部211は、入力音声からフレーム毎に音響特徴量を抽出する。
The
部分圧縮ネットワーク202は、特徴抽出部211から音響特徴量が入力されると探索ネットワーク201の部分ネットワークに対して、隣接する類似度の大きいノードをマージすることにより生成される。
The
探索部212は、探索ネットワーク201と、部分圧縮ネットワーク202を用いて探索処理を行い、認識結果を出力する。
The
次に、探索ネットワーク201の部分ネットワークの選択方法について説明する。
Next, a method for selecting a partial network of the
第1の選択方法は、分岐数が所定の値より大きい部分ネットワークを選択する。 In the first selection method, a partial network whose branch number is larger than a predetermined value is selected.
第2の選択方法は、(1)式で与えられる圧縮率が所定の値よりも大きい部分ネットワークを選択する。 In the second selection method, a partial network whose compression rate given by equation (1) is larger than a predetermined value is selected.
しかし、これら方法に限るものではない。 However, it is not restricted to these methods.
次に、部分圧縮ネットワーク202の生成方法について説明する。
Next, a method for generating the
第1の生成方法は、類似度が所定の値よりも隣接する大きいノードをマージする方法である。 The first generation method is a method of merging large nodes whose similarity is adjacent to a predetermined value.
第2の生成方法は、(1)式で与えられる圧縮率が所定の値よりも大きくなるまで類似度が最も大きい隣接するノードのマージを繰り返す方法である。 The second generation method is a method in which merging of adjacent nodes having the highest similarity is repeated until the compression ratio given by equation (1) becomes larger than a predetermined value.
しかし、これら方法に限るものではない。 However, it is not restricted to these methods.
なお、探索ネットワーク201全体も部分ネットワークに含まれており、探索ネットワーク201全体に対して生成された圧縮ネットワークも部分圧縮ネットワーク202に含まれる。
The
音声認識装置の動作について図5と図6を参照して説明する。ここで、図6は、音声認識装置の動作を示すフローチャートである。 The operation of the speech recognition apparatus will be described with reference to FIGS. Here, FIG. 6 is a flowchart showing the operation of the speech recognition apparatus.
ステップS2111において、特徴抽出部211は、入力音声から一定時間間隔のフレーム毎に特徴抽出を行い、音響特徴量を求める。
In step S <b> 2111, the
ステップS2121において、探索部212は、特徴抽出部211で求められた音響特徴量を用い、まず探索ネットワーク201の探索部分に対応する部分圧縮ネットワーク202が存在するかを判定する。部分圧縮ネットワーク202が存在する場合には、ステップS2122に進み(Yの場合)、存在しなければステップS2124に進む(Nの場合)。
In step S <b> 2121, the
ステップS2122において、探索部212は、部分圧縮ネットワーク202上で探索を行い、ステップS2123において枝狩りを行う。
In step S2122, the
ステップS2124において、探索部212は、探索ネットワーク201上で探索を行う。この際、探索対象に含まれる探索ネットワーク201の部分ネットワークに対応する部分圧縮ネットワーク202が存在する場合には、部分圧縮ネットワーク202上で枝狩りされたノードに対応するノードを探索の対象から除外する。これにより探索にかかる計算量を削減する。
In step S2124, the
ステップS2125において、探索部212は、探索ネットワーク201上で枝狩りを行う。
In step S <b> 2125, the
ステップS2126において、探索部212は、以上の各ステップを繰り返し(Nの場合)、入力音声の終端に到達すると認識結果を出力する(Yの場合)。
In step S2126, the
本実施形態の音声認識装置によれば、部分圧縮ネットワーク202で探索及び枝狩りを行う。次に、部分圧縮ネットワーク202で枝狩りされたノードに対応する探索ネットワーク201のノードを探索対象から除外する。これにより、部分ネットワークでの計算量の増加を抑制し、より効率的に計算量を削減できる。
According to the speech recognition apparatus of this embodiment, search and branch hunting are performed in the
(変更例)
なお、本実施形態においても、第1の実施形態と同様に、それぞれの部分ネットワークに対して複数の部分圧縮ネットワーク202を生成して用いてもよい。
(Example of change)
In the present embodiment, a plurality of
また、部分圧縮ネットワーク202の部分ネットワークに対して部分圧縮ネットワーク202を生成して用いてもよい。
Further, the
(第3の実施形態)
第3の実施形態の音声認識装置について図7と図8を参照して説明する。
(Third embodiment)
A speech recognition apparatus according to a third embodiment will be described with reference to FIGS.
本実施形態の音声認識装置の構成について図7を参照して説明する。図7は、本実施形態に係る音声認識装置を示すブロック図である。 The configuration of the speech recognition apparatus of this embodiment will be described with reference to FIG. FIG. 7 is a block diagram showing the speech recognition apparatus according to the present embodiment.
音声認識装置は、特徴抽出部311、探索ネットワーク301、圧縮ネットワーク生成部312、探索部313とを備えている。
The speech recognition apparatus includes a
特徴抽出部311は、音声認識装置は、入力音声からフレーム毎に音響特徴量を抽出する。
In the
圧縮ネットワーク生成部312は、探索ネットワーク301の部分ネットワークに対して隣接する類似度の大きいノードをマージすることにより、部分圧縮ネットワーク302を生成する。
The compressed
探索部313は、特徴抽出部311から音響特徴量が入力されると、探索ネットワーク301と、部分圧縮ネットワーク302を用いて探索処理を行い、認識結果を出力する。
When the acoustic feature amount is input from the
本実施形態の音声認識装置の動作について図7と図8を参照して説明する。図8は、音声認識装置の動作を示すフローチャートである。 The operation of the speech recognition apparatus of this embodiment will be described with reference to FIGS. FIG. 8 is a flowchart showing the operation of the speech recognition apparatus.
ステップS3121において、圧縮ネットワーク生成部312は、探索ネットワーク301の部分ネットワークに対して隣接する類似度の大きいノードをマージすることにより部分圧縮ネットワーク302を生成する。なお、探索ネットワーク304における部分ネットワークの選択方法は、第2の実施形態と同様である。また、部分圧縮ネットワーク302の生成方法も第2の実施形態と同様である。
In step S <b> 3121, the compressed
ステップS3111において、特徴抽出部311は、入力音声から一定時間間隔のフレーム毎に特徴抽出を行い、音響特徴量を求める。
In step S <b> 3111, the
ステップS3131において、探索部313は、特徴抽出部311で求められた音響特徴量を用い、まず探索ネットワーク101の探索部分に対応する部分圧縮ネットワーク102が存在するかを判定する。存在する場合はステップS3132に進み、存在しない場合はステップS3134に進む。
In step S <b> 3131, the
ステップS3132において、探索部313は、部分圧縮ネットワーク102が存在するので、部分圧縮ネットワーク102上で探索し、ステップS3133において、枝狩りを行う。
In step S3132, since the
ステップS3134において、探索部313は、探索ネットワーク101上で探索を行う。この際、探索対象に含まれる探索ネットワーク101の部分ネットワークに対応する部分圧縮ネットワーク102が存在する場合には、部分圧縮ネットワーク102上で枝狩りされたノードに対応するノードを探索の対象から除外する。これにより探索にかかる計算量を削減する。
In step S3134, the
ステップS3135において、探索部313は、探索ネットワーク101上で枝狩りを行う。
In step S <b> 3135, the
ステップS3136において、探索部313は、以上の各ステップを繰り返し(Nの場合)、入力音声の終端に到達すると認識結果を出力する(Yの場合)。
In step S3136, the
本実施形態の音声認識装置によれば、予め圧縮ネットワーク102を生成することなく、探索ネットワーク101の部分ネットワークに対応する部分圧縮ネットワーク102を生成する。そして、部分圧縮ネットワーク102で探索及び枝狩りを行い、次に、部分圧縮ネットワーク102で枝狩りされたノードに対応する探索ネットワーク101のノードを探索対象から除外する。これにより、計算量を削減できる。
According to the speech recognition apparatus of this embodiment, the
(第4の実施形態)
第4の実施形態の音声認識装置について図9と図10を参照して説明する。この音声認識装置は、連続音声認識に適用したものである。
(Fourth embodiment)
A voice recognition device according to a fourth embodiment will be described with reference to FIGS. 9 and 10. This speech recognition apparatus is applied to continuous speech recognition.
本実施形態の音声認識装置の構成について図9を参照して説明する。図9は、本実施形態に係る音声認識装置を示すブロック図である。 The configuration of the speech recognition apparatus of this embodiment will be described with reference to FIG. FIG. 9 is a block diagram showing the speech recognition apparatus according to the present embodiment.
音声認識装置は、特徴抽出部411、音響モデル401、単語辞書402、言語モデル403、探索ネットワーク生成部412、圧縮ネットワーク生成部413、探索部414とを備えている。
The speech recognition apparatus includes a
特徴抽出部411は、入力音声からフレーム毎に音響特徴量を抽出する。
The
探索ネットワーク生成部412は、音響モデル401、単語辞書402及び言語モデル403から単語仮説を展開して探索ネットワーク101を生成する。
The search
圧縮ネットワーク生成部413は、生成された探索ネットワーク101の部分ネットワークに対して、隣接する類似度の大きいノードをマージすることにより、部分圧縮ネットワーク102を生成する。
The compressed
探索部414は、特徴抽出部411から音響特徴量が入力されると探索ネットワーク101と、部分圧縮ネットワーク102を用いて探索処理を行い、認識結果を出力する。
When an acoustic feature amount is input from the
本実施形態に係る音声認識装置の動作について図9と図10を参照して説明する。図10は、本実施形態に係る音声認識装置の動作を示すフローチャートである。 The operation of the speech recognition apparatus according to this embodiment will be described with reference to FIGS. FIG. 10 is a flowchart showing the operation of the speech recognition apparatus according to this embodiment.
ステップS4111において、特徴抽出部411は、入力音声から一定時間間隔のフレーム毎に特徴抽出を行い、音響特徴量を求める。
In step S <b> 4111, the
ステップS4121において、探索ネットワーク生成部412は、音響モデル401、単語辞書402及び言語モデル403を用いて探索の途中結果に従って単語仮説を展開し、探索ネットワーク404を生成する。
In step S <b> 4121, the search
ステップS4131において、圧縮ネットワーク生成部413は、上記生成された探索ネットワーク404の部分ネットワークに対して、隣接する類似度の大きいノードをマージすることにより、部分圧縮ネットワーク405を生成する。なお、探索ネットワーク404における部分ネットワークの選択方法は、第2の実施形態と同様である。また、部分圧縮ネットワーク405の生成方法も第2の実施形態と同様である。
In step S4131, the compressed
以下のステップS4141〜S4146は、第2の実施形態における図6のステップS2121〜S2126と同様である。 The following steps S4141 to S4146 are the same as steps S2121 to S2126 of FIG. 6 in the second embodiment.
従来の連続音声認識においては、単語境界で多数の単語仮説が展開され、分岐数が非常に大きい部分ネットワークを含む探索ネットワークが作成されるため、多数のノードの探索が必要となる。 In conventional continuous speech recognition, a large number of word hypotheses are developed at word boundaries, and a search network including a partial network having a very large number of branches is created. Therefore, it is necessary to search a large number of nodes.
しかし、このような場合にも、本実施形態の音声認識装置によれば、生成された探索ネットワーク404の部分ネットワークに対応する部分圧縮ネットワーク405を生成して探索及び枝狩りを行い、部分圧縮ネットワーク405で枝狩りされたノードに対応する探索ネットワーク404のノードを探索対象から除外することで、計算量を削減できる。 However, even in such a case, according to the speech recognition apparatus of the present embodiment, the partial compression network 405 corresponding to the generated partial network of the search network 404 is generated to perform search and branch hunting, and the partial compression network By excluding the node of the search network 404 corresponding to the node hunted in 405 from the search target, the amount of calculation can be reduced.
(変更例)
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
(Example of change)
Note that the present invention is not limited to the above-described embodiment as it is, and can be embodied by modifying the constituent elements without departing from the scope of the invention in the implementation stage. In addition, various inventions can be formed by appropriately combining a plurality of components disclosed in the embodiment. For example, some components may be deleted from all the components shown in the embodiment. Furthermore, constituent elements over different embodiments may be appropriately combined.
例えば、上記各実施形態では、圧縮ネットワーク102を作成するために、マージする隣接するノードとは、共通の親ノードを持つ子ノードと定義していたが、これに代えて、親ノードとそれに繋がる子ノードをマージしてもよい。
For example, in each of the above embodiments, in order to create the
これにより、「共通の親ノードを持つ子ノード」が、空間(語彙)方向に圧縮するのに対し、親ノードと子ノードとをマージすると時間方向に圧縮することができる。例えば、「おじさん/o−j−i−s−a−n」と「おじいさん/o−j−i−i−s−a−n」のように、母音の長さが異なる単語同士を一つにまとめることができる。 As a result, “child node having a common parent node” compresses in the space (vocabulary) direction, whereas when the parent node and child node are merged, it can be compressed in the time direction. For example, one word with different vowel lengths, such as “Uncle / o-jis-a-n” and “Grandfather / o-j-i-s-a-n”. Can be summarized.
101・・・探索ネットワーク
102・・・圧縮ネットワーク
111・・・特徴抽出部
112・・・探索部
101 ...
Claims (7)
探索ネットワーク中の隣接した複数のノードをマージすることにより生成された少なくとも1つの圧縮ネットワーク上で前記音響特徴量に対して探索及び枝狩りを行い、前記圧縮ネットワークの前記枝狩りされたノードに対応する前記探索ネットワークのノードを探索対象から除外して、前記入力音声の終端まで探索及び枝狩りを行って、音声認識する探索部と、
を有することを特徴とする音声認識装置。 A feature extraction unit that extracts an acoustic feature amount from the input speech for each frame;
Search and branch hunting is performed for the acoustic feature on at least one compression network generated by merging a plurality of adjacent nodes in the search network, and corresponds to the branch-hunted node of the compression network The search network node to be excluded from search targets, search and branch hunting to the end of the input speech, and a speech recognition search unit,
A speech recognition apparatus comprising:
ことを特徴とする請求項1に記載の音声認識装置。 The compressed network is generated with a partial network that is part of the search network.
The speech recognition apparatus according to claim 1.
ことを特徴とする請求項1に記載の音声認識装置。 The compressed network is a network that is generated by merging a number of branches from one parent node in the search network larger than an arbitrary number.
The speech recognition apparatus according to claim 1.
ことを特徴とする請求項1に記載の音声認識装置。 The compression network is a network generated by merging child nodes of the search network and having a compression ratio larger than an arbitrary value.
The speech recognition apparatus according to claim 1.
ことを特徴とする請求項1に記載の音声認識装置。 A plurality of adjacent nodes for merging refers to a parent node in the search network and a child node connected to the parent node,
The speech recognition apparatus according to claim 1.
探索部が、探索ネットワーク中の隣接した複数のノードをマージすることにより生成された少なくとも1つの圧縮ネットワーク上で前記音響特徴量に対して探索及び枝狩りを行い、前記圧縮ネットワークの前記枝狩りされたノードに対応する前記探索ネットワークのノードを探索対象から除外して、前記入力音声の終端まで探索及び枝狩りを行って、音声認識する探索ステップと、
を含むことを特徴とする音声認識方法。 A feature extraction unit for extracting an acoustic feature amount for each frame from the input speech; and
A search unit searches and branches the acoustic feature on at least one compression network generated by merging a plurality of adjacent nodes in the search network, and the branch of the compression network is picked. A search step for recognizing speech by excluding a node of the search network corresponding to the selected node from a search target, performing search and branch hunting to the end of the input speech,
A speech recognition method comprising:
入力音声からフレーム毎に音響特徴量を抽出する特徴抽出機能と、
探索ネットワーク中の隣接した複数のノードをマージすることにより生成された少なくとも1つの圧縮ネットワーク上で前記音響特徴量に対して探索及び枝狩りを行い、前記圧縮ネットワークの前記枝狩りされたノードに対応する前記探索ネットワークのノードを探索対象から除外して、前記入力音声の終端まで探索及び枝狩りを行って、音声認識する探索機能と、
を実現させるための音声認識プログラム。 On the computer,
A feature extraction function that extracts acoustic features from the input speech for each frame;
Search and branch hunting is performed for the acoustic feature on at least one compression network generated by merging a plurality of adjacent nodes in the search network, and corresponds to the branch-hunted node of the compression network A search function for recognizing speech by excluding nodes of the search network to be searched and performing search and branch hunting to the end of the input speech;
A speech recognition program for realizing
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009048035A JP2010204274A (en) | 2009-03-02 | 2009-03-02 | Speech recognition device and method and program therefore |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009048035A JP2010204274A (en) | 2009-03-02 | 2009-03-02 | Speech recognition device and method and program therefore |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010204274A true JP2010204274A (en) | 2010-09-16 |
Family
ID=42965842
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009048035A Pending JP2010204274A (en) | 2009-03-02 | 2009-03-02 | Speech recognition device and method and program therefore |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010204274A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022152029A1 (en) * | 2021-01-12 | 2022-07-21 | 腾讯科技(深圳)有限公司 | Speech recognition method and apparatus, computer device, and storage medium |
CN118553249A (en) * | 2024-07-29 | 2024-08-27 | 科大讯飞股份有限公司 | Audio identification method, system and related device |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0252278B2 (en) * | 1982-06-19 | 1990-11-13 | Fujitsu Ltd | |
JP2000122693A (en) * | 1998-10-19 | 2000-04-28 | Toshiba Corp | Speaker recognizing method and speaker recognizing device |
JP3569981B2 (en) * | 1994-10-26 | 2004-09-29 | ソニー株式会社 | Search method and speech recognition device |
WO2008108232A1 (en) * | 2007-02-28 | 2008-09-12 | Nec Corporation | Audio recognition device, audio recognition method, and audio recognition program |
-
2009
- 2009-03-02 JP JP2009048035A patent/JP2010204274A/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0252278B2 (en) * | 1982-06-19 | 1990-11-13 | Fujitsu Ltd | |
JP3569981B2 (en) * | 1994-10-26 | 2004-09-29 | ソニー株式会社 | Search method and speech recognition device |
JP2000122693A (en) * | 1998-10-19 | 2000-04-28 | Toshiba Corp | Speaker recognizing method and speaker recognizing device |
WO2008108232A1 (en) * | 2007-02-28 | 2008-09-12 | Nec Corporation | Audio recognition device, audio recognition method, and audio recognition program |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022152029A1 (en) * | 2021-01-12 | 2022-07-21 | 腾讯科技(深圳)有限公司 | Speech recognition method and apparatus, computer device, and storage medium |
CN118553249A (en) * | 2024-07-29 | 2024-08-27 | 科大讯飞股份有限公司 | Audio identification method, system and related device |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10210862B1 (en) | Lattice decoding and result confirmation using recurrent neural networks | |
JP5310563B2 (en) | Speech recognition system, speech recognition method, and speech recognition program | |
US8321218B2 (en) | Searching in audio speech | |
US9043209B2 (en) | Language model creation device | |
US20140025379A1 (en) | Method and System for Real-Time Keyword Spotting for Speech Analytics | |
JP4757936B2 (en) | Pattern recognition method and apparatus, pattern recognition program and recording medium therefor | |
KR20120038198A (en) | Apparatus and method for recognizing speech | |
JP5276610B2 (en) | Language model generation apparatus, program thereof, and speech recognition system | |
US20110218802A1 (en) | Continuous Speech Recognition | |
US8682668B2 (en) | Language model score look-ahead value imparting device, language model score look-ahead value imparting method, and program storage medium | |
JP2010204274A (en) | Speech recognition device and method and program therefore | |
KR20120052591A (en) | Apparatus and method for error correction in a continuous speech recognition system | |
CA2882664A1 (en) | Method and system for real-time keyword spotting for speech analytics | |
Rybach et al. | On lattice generation for large vocabulary speech recognition | |
JP4528540B2 (en) | Voice recognition method and apparatus, voice recognition program, and storage medium storing voice recognition program | |
KR20160000218A (en) | Languange model clustering based speech recognition apparatus and method | |
JP2004191705A (en) | Speech recognition device | |
JP4478088B2 (en) | Symbol string conversion method, speech recognition method, symbol string converter and program, and recording medium | |
JP6276516B2 (en) | Dictionary creation apparatus and dictionary creation program | |
JP5344396B2 (en) | Language learning device, language learning program, and language learning method | |
JP4972660B2 (en) | Speech learning apparatus and program | |
KR20140051519A (en) | Method for continuous speech recognition and apparatus thereof | |
Natori et al. | Entropy-based false detection filtering in spoken term detection tasks | |
Hannemann | Weighted Finite State Transducers in Automatic Speech Recognition | |
Bona et al. | Syllabification with Frequent Sequence Patterns-A Language Independent Approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110915 |
|
A977 | Report on retrieval |
Effective date: 20120824 Free format text: JAPANESE INTERMEDIATE CODE: A971007 |
|
A131 | Notification of reasons for refusal |
Effective date: 20120828 Free format text: JAPANESE INTERMEDIATE CODE: A131 |
|
A02 | Decision of refusal |
Effective date: 20130115 Free format text: JAPANESE INTERMEDIATE CODE: A02 |