JPH06282295A - Adaptive search system - Google Patents

Adaptive search system

Info

Publication number
JPH06282295A
JPH06282295A JP5069746A JP6974693A JPH06282295A JP H06282295 A JPH06282295 A JP H06282295A JP 5069746 A JP5069746 A JP 5069746A JP 6974693 A JP6974693 A JP 6974693A JP H06282295 A JPH06282295 A JP H06282295A
Authority
JP
Japan
Prior art keywords
search
neural network
adaptive
hypothesis
control function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP5069746A
Other languages
Japanese (ja)
Other versions
JPH0782357B2 (en
Inventor
Koichi Yamaguchi
耕市 山口
Shigeki Sagayama
茂樹 嵯峨山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
A T R JIDO HONYAKU DENWA KENKYUSHO KK
ATR JIDO HONYAKU DENWA
Original Assignee
A T R JIDO HONYAKU DENWA KENKYUSHO KK
ATR JIDO HONYAKU DENWA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by A T R JIDO HONYAKU DENWA KENKYUSHO KK, ATR JIDO HONYAKU DENWA filed Critical A T R JIDO HONYAKU DENWA KENKYUSHO KK
Priority to JP5069746A priority Critical patent/JPH0782357B2/en
Publication of JPH06282295A publication Critical patent/JPH06282295A/en
Publication of JPH0782357B2 publication Critical patent/JPH0782357B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

PURPOSE:To shorten recognition processing time by trimming branches efficiently while securing a certain degree of a recognition rate in a search system in voice recognition or the like. CONSTITUTION:In an HMM-LR continuous voice recognizing system composed nearly of an HMM phoneme checking part 1 and an LR purger part 2, a neural network 6 is used as a control function. A recursion factor, a present depth of an LR analytic tree, a difference between the first place hypothetic score at present search time and the first place hypothetic score at right before search time are inputted to the neural network 6, and is learnt so as to output order of a hypothesis of a correct answer. Preferably, in order to prevent useless search by overevaluation, output of this neural network 6 and output by a variable beam search are compared with each other, and the one having a smaller value is selected.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】この発明は適応的探索方式に関
し、さらに詳しくは、音声認識、自然言語理解、情報検
索などの分野において、多数存在する候補の中から正解
候補を絞る探索方式に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an adaptive search method, and more particularly to a search method for narrowing down correct answer candidates from a large number of candidates in the fields of speech recognition, natural language understanding, information retrieval and the like.

【0002】[0002]

【従来の技術】従来より、問題の状態空間が木で表現さ
れる場合の探索には以下のような手法が提案されてい
る。
2. Description of the Related Art Conventionally, the following methods have been proposed for searching when the problem state space is represented by a tree.

【0003】[縦型探索]深さ優先探索とも呼ばれ、探
索木の深い接点を先に調べる。縦型探索は解への道が多
くあり、その道が長い場合に特に有効である。
[Vertical Search] Also called depth-first search, deep contact points of the search tree are checked first. Vertical search has many paths to solutions, and is especially effective when the path is long.

【0004】[横型探索]幅優先探索とも呼ばれ、探索
木の浅い接点を先に調べる。一般に、目標とする解の接
点が探索木の深いところにあれば前述した縦型探索が適
しているが、浅いところにあればこの横型探索が適して
いる。
[Horizontal search] Also called breadth-first search, the shallow contact of the search tree is checked first. In general, the vertical search described above is suitable if the contact point of the target solution is deep in the search tree, but this horizontal search is suitable if it is shallow.

【0005】これらの探索手法は、木の深さと、1つの
接点から出ている枝の数の平均(有効枝別れ数)とがあ
る程度以上になると、いずれの方法でも探索しなければ
ならない木の接点の数は非常に大きくなる。このため、
極めて簡単な問題を除いて、時間または記憶空間の限界
をはみ出してしまうのが通常である。これを探索におけ
る組合せ的爆発といい、これらの手法は盲目的探索と呼
ばれる。
In these search methods, when the depth of the tree and the average number of branches (effective branching number) from one contact point exceed a certain level, the tree that must be searched by any method. The number of contacts is very large. For this reason,
Except for very simple problems, it is usual to push the limits of time or storage space. This is called combinatorial explosion in search, and these methods are called blind search.

【0006】そこで、この組合せ的爆発を回避するた
め、特別な問題領域固有の情報を利用した探索が用いら
れることが多い。このような探索はヒューリスティック
探索と呼ばれる。以下、ヒューリスティック探索を例示
する。
Therefore, in order to avoid this combinatorial explosion, a search utilizing information unique to a special problem area is often used. Such a search is called a heuristic search. The heuristic search will be exemplified below.

【0007】[最良優先探索]常に、現時点までに得ら
れているすべての接点の中から、最も目標に近い接点を
選んで展開する。
[Best-priority search] The contact point closest to the target is always selected and developed from all the contact points obtained up to the present time.

【0008】[A* 探索]最良優先探索において、接点
nから目標までのコストh(n)が予測できる場合、評
価関数f(n)として、接点nまでの道の実際にかかっ
たコストg(n)と、上記接点nから目標までのコスト
の予測値h* (n)との和を採用する。この場合、評価
関数も近似値f* (n)となり、次式で表わされる。こ
の評価関数の近似値f* (n)が小さい接点から順に展
開する。
[A * Search] In the best-priority search, when the cost h (n) from the contact point n to the target can be predicted, the actual cost g (() of the road to the contact point n is used as the evaluation function f (n). n) and the predicted value h * (n) of the cost from the contact point n to the target are adopted. In this case, the evaluation function also has an approximate value f * (n) and is represented by the following equation. The evaluation function is expanded in order from a contact point having a small approximate value f * (n).

【0009】f* (n)=g(n)+h* (n) [ビーム探索]横型探索のように水平に探索するが、各
レベルでは、ある接点を探索木から切り捨てる。すなわ
ち、枝刈りすべきか否かを決定するのにヒューリスティ
ックな情報を用いる。
F * (n) = g (n) + h * (n) [Beam search] A horizontal search like a horizontal search is performed, but at each level, a certain contact is truncated from the search tree. That is, heuristic information is used to determine whether to prune.

【0010】[0010]

【発明が解決しようとする課題】たとえば音声認識の分
野では、認識語彙が増えたり、連続音声を対象としたり
すると、探索空間が膨大になる。その結果、認識処理時
間や記憶空間が極めて大きくなり、場合によっては天文
学的な処理時間や記憶空間を要することがあり得る。し
たがって、上述した盲目的探索では対処することができ
ない。
For example, in the field of speech recognition, when the recognition vocabulary is increased or continuous speech is targeted, the search space becomes huge. As a result, the recognition processing time and storage space become extremely large, and in some cases, astronomical processing time and storage space may be required. Therefore, the blind search described above cannot be dealt with.

【0011】一方、上述したヒューリスティック探索に
よればこのような組合せ的爆発を回避することができる
が、ヒューリスティックな情報として主に仮説のスコア
だけを用いているため、場合によっては無駄な探索を行
なっていることがあり、また、場合によっては正解候補
が得られないこともある。
On the other hand, according to the above-mentioned heuristic search, such combinatorial explosion can be avoided. However, since only the hypothesis score is mainly used as heuristic information, an unnecessary search is performed in some cases. In some cases, the correct answer may not be obtained.

【0012】この発明はこれらの問題を解決するために
なされたもので、より効率的に枝刈りなどを行なうこと
によって探索空間を削減し、ある程度の正解率を確保し
ながら探索時間を短縮することを目的とする。
The present invention has been made to solve these problems, and it is possible to reduce the search space by more efficiently performing pruning, etc., and to shorten the search time while securing a certain correct answer rate. With the goal.

【0013】[0013]

【課題を解決するための手段】この発明に係る適応的探
索方式の要旨とするところは、観測可能な特徴量を入力
とする制御関数を用いて探索範囲を適応的に変化させる
ことにある。
The gist of the adaptive search method according to the present invention is to adaptively change the search range by using a control function having an observable feature quantity as an input.

【0014】また、上記適応的探索方式において、上記
制御関数としてニューラルネットワークを用いることに
ある。
In the adaptive search method, a neural network is used as the control function.

【0015】また、上記適応的探索方式において、上記
制御関数として重回帰分析を用いることにある。
In the adaptive search method, multiple regression analysis is used as the control function.

【0016】また、上記適応的探索方式において、上記
観測可能な特徴量として各仮説のスコアの分布を表わす
回帰係数を用いることにある。
In the adaptive search method, a regression coefficient representing the distribution of the score of each hypothesis is used as the observable feature amount.

【0017】また、上記適応的探索方式において、上記
観測可能な特徴量として探索木の深さを用いることにあ
る。
In the adaptive search method, the depth of the search tree is used as the observable feature quantity.

【0018】また、上記適応的探索方式において、上記
観測可能な特徴量として、現在の探索時点における第1
位仮説のスコアとその直前の探索時点における第1位仮
説のスコアとの差を用いることにある。
Further, in the adaptive search method, the first observable feature quantity at the current search time is used as the observable feature quantity.
The difference between the score of the first-order hypothesis and the score of the first-order hypothesis at the time of the search immediately before that is used.

【0019】さらに、上記適応的探索方式において、上
記制御関数として複数種類のものを用い、それら制御関
数の出力値を組合せることによって探索範囲を決定する
ことにある。
Further, in the above adaptive search method, a plurality of types of control functions are used, and a search range is determined by combining output values of the control functions.

【0020】[0020]

【作用】一般に、正解仮説を含む最小の探索空間Θ
(d)が得られれば、探索の効率は最もよくなる。これ
は、たとえばビーム探索の場合であれば正解仮説の順位
がわかっているので、そのビーム幅を正解仮説の順位に
設定することに相当する。
[Operation] Generally, the minimum search space Θ including the correct hypothesis
If (d) is obtained, the efficiency of the search becomes the best. This is equivalent to setting the beam width to the rank of the correct answer hypothesis because the rank of the correct answer hypothesis is known in the case of beam search, for example.

【0021】そこで、観測可能な特徴量Oi を変数とす
るm次の制御関数φ()を用いて、この最小の探索空間
Θ(t)を次の式(1)のように近似する。
Therefore, this minimum search space Θ (t) is approximated by the following equation (1) using the m-th order control function φ () having the observable feature quantity O i as a variable.

【0022】 Θ* (t)=φ(O1 (t),O2 (t),…Om (t)) (1) ここで、{Oi (t)}(i=1,2,…m)は、時刻
tにおける観測可能な特徴量の集合を表わす。
Θ * (t) = φ (O 1 (t), O 2 (t), ... O m (t)) (1) where {O i (t)} (i = 1, 2, ... m) represents a set of observable feature quantities at time t.

【0023】なお、上述した従来のビーム探索の場合、
次の式(2)のように、近似の模索空間Θ* (t)は定
数関数となる。
In the case of the conventional beam search described above,
As in the following expression (2), the approximated search space Θ * (t) is a constant function.

【0024】 Θ* (t)=const. (2) 従来から用いられてきたヒューリスティック探索では、
主として仮説のスコアのみをヒューリスティックな情報
として用いてきた。それに対し、本発明では従来のヒュ
ーリスティック情報に加え、各仮説のスコアの分布状況
などの観測可能な特徴量を入力とする制御関数φ()を
基に枝刈りをすべきか否かを決定する。すなわち、探索
範囲を適応的に変化させる。この制御関数φ()は、ニ
ューラルネットワークまたは重回帰分析で構成され、認
識実験で得られる観測可能な特徴量と正解仮説の順位の
サンプルを使って予め学習しておく。
Θ * (t) = const. (2) In the conventionally used heuristic search,
I have mainly used only hypothetical scores as heuristic information. On the other hand, in the present invention, in addition to the conventional heuristic information, it is determined whether or not pruning should be performed based on a control function φ () that receives an observable feature amount such as the distribution of scores of each hypothesis as an input. That is, the search range is adaptively changed. This control function φ () is configured by a neural network or multiple regression analysis, and is learned in advance using the observable feature amount obtained in the recognition experiment and the sample of the rank of the correct answer hypothesis.

【0025】なお、予備実験の結果、正解仮説の順位と
観測可能な特徴量との間には何らかの相関関係が認めら
れており、制御関数φ()は精度よく正解仮説の順位を
予測できることが期待される。
As a result of the preliminary experiment, some correlation is recognized between the rank of the correct hypothesis and the observable feature amount, and the control function φ () can predict the rank of the correct hypothesis with high accuracy. Be expected.

【0026】[0026]

【実施例】次に、本発明に係る適応的探索方式の実施例
について図面に基づき詳しく説明する。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Next, an embodiment of the adaptive search system according to the present invention will be described in detail with reference to the drawings.

【0027】図1は、本発明に係る適応的探索方式の一
実施例を利用した音声認識システムの構成を示すブロッ
ク図である。
FIG. 1 is a block diagram showing the configuration of a voice recognition system using an embodiment of the adaptive search system according to the present invention.

【0028】このシステムはHMM−LRと呼ばれるも
ので、言語モデルとしてLRパーザを用いたHMMベー
スの連続音声認識システムである。なお、この方式の詳
細は文献「北研二、川端豪、斉藤博昭:“HMM音韻認
識と拡張LR構文解析法を用いた連続音声認識”,情報
処理学会論文誌,Vol.31,No.3,pp.472-479(1990.3)」に
開示されているので、ここではこれを援用する。
This system is called HMM-LR and is an HMM-based continuous speech recognition system using an LR parser as a language model. The details of this method are described in "Kenji Kita, Go Kawabata, Hiroaki Saito:" Continuous Speech Recognition Using HMM Phoneme Recognition and Extended LR Parsing Method ", IPSJ Transactions, Vol. 31, No. 3, pp.472-479 (1990.3) ", which is hereby incorporated by reference.

【0029】図1に示すように、このHMM−LR連続
音声認識システムは、概略、HMM音素の照合部1とL
Rパーザ部2とから構成される。またこのシステムに
は、HMMの格納部3、LRテーブルの格納部4、文脈
自由文法(CFG)の格納部5などが含まれる。
As shown in FIG. 1, this HMM-LR continuous speech recognition system is roughly similar to the HMM phoneme collating unit 1 and L.
It is composed of an R parser unit 2. The system also includes an HMM storage unit 3, an LR table storage unit 4, a context-free grammar (CFG) storage unit 5, and the like.

【0030】この音声認識システムによれば、まず構文
解析動作表(LRテーブル)に基づいて、入力された音
声データ中の次の音素を予測し、その予測された次の音
素の尤度をHMM音素照合で調べることによって、音声
認識と言語処理とを同時に進行させる。そして、このよ
うな処理が進むにつれて解析木は徐々に広がり続け、そ
のため何らかの枝刈りが必要となる。
According to this speech recognition system, first, the next phoneme in the input speech data is predicted based on the syntax analysis operation table (LR table), and the likelihood of the predicted next phoneme is calculated by the HMM. By performing the phoneme verification, the speech recognition and the language processing are simultaneously advanced. Then, as such processing progresses, the parse tree continues to spread gradually, and therefore some pruning is necessary.

【0031】ところで、従来のHMM−LRシステムで
は、仮説の上位N個までを残すビーム探索が採用されて
いた。すなわち、ヒューリスティックな情報としてN個
という固定的な値が用いられていた。しかしながら、現
在では音素モデルの性能が向上し、正解候補の順位は1
0位以内に入っていることが多い。その一方、音声認識
が完璧に行なわれるわけではないので、正解候補の順位
はしばしば100位を越えることもある。したがって、
高い認識性能を得るためには大きなビーム幅が必要であ
った。その結果、無駄な探索を行なっていることが多か
った。
By the way, in the conventional HMM-LR system, a beam search that leaves up to the upper N hypotheses has been adopted. That is, N fixed values have been used as heuristic information. However, the performance of the phoneme model is now improved, and the rank of correct answer candidates is 1
It is often in the 0th place. On the other hand, since the voice recognition is not performed perfectly, the rank of the correct answer candidate often exceeds 100. Therefore,
A large beam width was required to obtain high recognition performance. As a result, there are many cases where the search is useless.

【0032】そこで、この発明による音声認識システム
では、以下の手法により枝刈りが行なわれる。
Therefore, in the voice recognition system according to the present invention, pruning is performed by the following method.

【0033】仮説のスコアの分布は、次の式(3),
(4)のように回帰分析によってなされる。
The distribution of hypothetical scores is expressed by the following equation (3),
It is done by regression analysis as in (4).

【0034】 y=a1 x+a0 (3) y=b2 2 +b1 x+b0 (4) ここで、xは仮説の順位、yはスコアの近似値である。
便宜上、xは{1,2,…10}に制限されている。観
測可能な特徴量、すなわち制御関数φ()への入力{O
1 ,O2 ,…O5 }として、次の5つの観測量を使用す
る。
Y = a 1 x + a 0 (3) y = b 2 x 2 + b 1 x + b 0 (4) Here, x is the rank of the hypothesis, and y is the approximate value of the score.
For convenience, x is limited to {1, 2, ... 10}. Observable features, that is, input to control function φ () {O
The following five observables are used as 1 , O 2 , ... O 5 }.

【0035】・回帰係数:a1 ,b2 ,b1 ・LR解析木の現在の深さ:n ・現在の探索時点(深さn)における第1位仮説のスコ
アと、その直前の探索時点(深さn−1)における第1
位仮説のスコアとの差:Δscore この実施例では、制御関数φ()としてニューラルネッ
トワーク6が用いられる。このニューラルネットワーク
6の役割を図2に示す。同図から明らかなように、この
ニューラルネットワーク6は、5つの入力ユニット6a
と1つの出力ユニット6bとを含み、回帰係数a1 ,b
1 ,b2 、現在の深さn、および現在の第1位仮説のス
コアと直前の第1位仮説のスコアとの差Δscoreか
ら構成される5つの入力に基づいて、正解仮説の順位を
出力するように学習されている。
Regression coefficient: a 1 , b 2 , b 1・ Current depth of LR analytic tree: n ・ Score of the 1st place hypothesis at the current search time (depth n) and search time immediately before it First at (depth n-1)
Difference from the score of the position hypothesis: Δscore In this embodiment, the neural network 6 is used as the control function φ (). The role of the neural network 6 is shown in FIG. As is clear from the figure, this neural network 6 has five input units 6a.
And one output unit 6b, the regression coefficients a 1 , b
Outputs the rank of the correct hypothesis based on 5 inputs consisting of 1 , b 2 , the current depth n, and the difference Δscore between the current 1st hypothesis score and the immediately preceding 1st hypothesis score. Have been learned to.

【0036】このHMM−LRシステムにおいて、ビー
ム探索は音素同期で動作する。すなわち、解析木の深さ
が1つ進むたびに枝刈りを実行する。したがって、前述
した式(1)において、時刻tは解析木の深さnで代用
される。
In this HMM-LR system, beam search operates in phoneme synchronization. That is, pruning is executed each time the depth of the analytic tree advances. Therefore, in the above formula (1), the time t is substituted by the depth n of the parse tree.

【0037】このように、本実施例は回帰係数a1 ,b
1 ,b2 などの観測可能な特徴量を入力とするニューラ
ルネットワーク6からなる制御関数を用いて探索範囲を
適応的に変化させているので、ビーム幅の制御をきめ細
かく行なうことができる。したがって、従来よりも少な
い音素照合回数で常に安定した音声認識率が得られる。
Thus, in this embodiment, the regression coefficients a 1 and b
Since the search range is adaptively changed by using the control function made up of the neural network 6 that receives observable feature quantities such as 1 and b 2 , the beam width can be finely controlled. Therefore, it is possible to obtain a stable speech recognition rate with a smaller number of phoneme collations than ever before.

【0038】また本実施例では、制御関数が学習により
得られているので、タスクや音素モデルの性能に応じて
ビーム幅の制御を最適に行なうことができる。さらに、
制御関数を学習し直すことによって、異なる問題領域に
対処することも可能である。すなわち、探索アルゴリズ
ム自体を変えることなく同じアルゴリズムで、さまざま
な問題に対応できるなど、汎用性に富む。
Further, in this embodiment, since the control function is obtained by learning, the beam width can be optimally controlled according to the performance of the task or the phoneme model. further,
It is also possible to deal with different problem areas by re-learning the control function. In other words, the same algorithm can be used for a variety of problems without changing the search algorithm itself, which makes it highly versatile.

【0039】以上、この発明の一実施例を詳述したが、
この発明は上述した実施例に限定されることなく、その
他の態様でも実施することができる。
The embodiment of the present invention has been described in detail above.
The present invention is not limited to the above-described embodiments, but can be implemented in other modes.

【0040】たとえば前述した実施例において、ニュー
ラルネットワーク6はしばしば真の順位よりもかなり大
きい値を出力することがある。このような過大評価は、
逆に無駄な探索につながることになる。
For example, in the above-described embodiment, the neural network 6 often outputs a value much larger than the true rank. Such overestimation is
On the contrary, it leads to useless search.

【0041】そこで、ニューラルネットワークほどきめ
細かいビーム幅の制御はできないが、課題評価に陥る危
険が少ない、つまりロバスト性のある制御関数を用いて
正解仮説の順位に上限値を設定してもよい。すなわち、
複数種類の制御関数を用い、それらの出力値を組合せる
ことによってビーム幅を決定してもよい。
Therefore, although the beam width cannot be controlled as finely as a neural network, the upper limit value may be set in the rank of the correct answer hypothesis by using a control function having a low risk of falling into task evaluation, that is, robustness. That is,
The beam width may be determined by using a plurality of types of control functions and combining their output values.

【0042】ここでは、ニューラルネットワークおよび
可変ビーム探索から構成される2種類の制御関数を用い
た場合について説明する。可変ビーム探索については、
文献「北,川端,森元;“HMM−LR連続音声認識シ
ステムにおける計算量削減の一検討”,日本音響学会講
演論文集3-6-4(1989.3) 」に開示されているので、ここ
ではこれを援用する。
Here, a case where two types of control functions composed of a neural network and a variable beam search are used will be described. For variable beam search,
It is disclosed in the document "Kita, Kawabata, Morimoto;" A Study on Reduction of Computational Complexity in HMM-LR Continuous Speech Recognition System ", Proceedings of Acoustical Society of Japan 3-6-4 (1989.3)". Is used.

【0043】この実施例によれば、次の式(5)のよう
に、各深さnでニューラルネットワークの出力と可変ビ
ーム探索による出力とを比較し、値の小さい方を選択す
る。ただし、過小評価の防止対策として小さな値のマー
ジン(margin)を用いる。
According to this embodiment, the output of the neural network is compared with the output of the variable beam search at each depth n as shown in the following equation (5), and the smaller value is selected. However, a small margin is used as a measure to prevent underestimation.

【0044】 φ(n) =min( φV (n),φN (O1 (n),O2 (n), …O5 (n))+margin) (5) ここで、φV ()は可変ビーム探索、φN ()はニュー
ラルネットワーク、φ(n) は本実施例による適応的ビー
ム探索である。
Φ (n) = min (φ V (n), φ N (O 1 (n), O 2 (n), ... O 5 (n)) + margin) (5) where φ V ( ) Is a variable beam search, φ N () is a neural network, and φ (n) is an adaptive beam search according to this embodiment.

【0045】本発明者らは、この実施例である適応的ビ
ーム探索法と2つの従来法との比較実験を行なった。図
3は、これら3つの探索方式についての比較実験の結果
を示すグラフで、縦軸はビーム幅を表わし、横軸はLR
探索木の深さを表わす。
The present inventors conducted a comparative experiment between the adaptive beam search method of this embodiment and two conventional methods. FIG. 3 is a graph showing the results of comparative experiments on these three search methods, where the vertical axis represents the beam width and the horizontal axis represents LR.
Indicates the depth of the search tree.

【0046】図3から明らかなように、可変ビーム探索
によれば従来の固定ビーム探索に比べてグラフ上で山状
になっている部分の両側の探索空間が削減されたが、本
実施例である適応的ビーム探索によればさらに細かく探
索空間が削減された。このため、HMM音素の照合回数
は平均して3分の1以下に減少した。とりわけ、継続時
間の長い入力音声に対しては、探索が進むにつれてビー
ム幅が小さくなるという可変ビーム探索の絞り込み作用
によって、探索空間の削減効果がより大きくなった。
As is apparent from FIG. 3, the variable beam search reduces the search space on both sides of the mountainous portion on the graph as compared with the conventional fixed beam search. An adaptive beam search reduces the search space even more finely. For this reason, the number of times of matching the HMM phoneme was reduced to one third or less on average. In particular, for input speech with a long duration, the narrowing effect of the variable beam search, in which the beam width decreases as the search progresses, the effect of reducing the search space becomes greater.

【0047】さらに、制御関数としてニューラルネット
ワークの代わりに重回帰分析を用いてもよい。重回帰分
析の場合も同様に、回帰係数などを入力して正解仮説の
順位を出力する。ニュラルネットワークと重回帰分析と
の相違は、前者が非線形システムであるのに対し、後者
は線形システムであることである。
Further, multiple regression analysis may be used as the control function instead of the neural network. Similarly, in the case of multiple regression analysis, the regression coefficient is input and the rank of the correct hypothesis is output. The difference between the neural network and the multiple regression analysis is that the former is a nonlinear system, while the latter is a linear system.

【0048】その他、本発明は当業者の知識に基づき種
々の改良、修正、変形を加えた態様で実施することが可
能である。
In addition, the present invention can be carried out in variously modified, modified, and modified modes based on the knowledge of those skilled in the art.

【0049】[0049]

【発明の効果】この発明に係る適応的探索方式は、各候
補のスコアなどの観測可能な特徴量を入力とする制御関
数を用いて探索範囲を適応的に変化させているので、ビ
ーム幅の制御をきめ細かく行なうことができる。このた
め、比較的少量の探索で、常に安定した正解率を確保す
ることができる。
The adaptive search method according to the present invention adaptively changes the search range by using the control function that inputs the observable feature amount such as the score of each candidate, so that the beam width Fine control is possible. Therefore, it is possible to always secure a stable correct answer rate with a relatively small amount of search.

【0050】また、制御関数としてニューラルネットワ
ークを用いれば、学習によってタスクや音素モデルなど
の性能に応じてビーム幅の制御を最適に行なうことがで
きる。さらに、制御関数を学習し直すことによって、異
なる問題領域に対処することも可能である。すなわち、
本発明は探索アルゴリズム自体を変えることなく同じア
ルゴリズムで、様々な問題に対応できる汎用性に富んだ
探索方式である。
Further, if a neural network is used as the control function, the beam width can be optimally controlled by learning according to the performance of the task or the phoneme model. Further, it is possible to deal with different problem areas by re-learning the control function. That is,
The present invention is a versatile search method that can deal with various problems with the same algorithm without changing the search algorithm itself.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明に係る適応的探索方式の一実施例を利用
したHMM−LR連続音声認識システムの構成を示すブ
ロック図である。
FIG. 1 is a block diagram showing a configuration of an HMM-LR continuous speech recognition system using an embodiment of an adaptive search method according to the present invention.

【図2】図1に示したニューラルネットワークの役割を
示す説明図である。
FIG. 2 is an explanatory diagram showing the role of the neural network shown in FIG.

【図3】本発明に係る適応的探索方式の他の実施例であ
る適応的ビーム探索方式について、従来の探索方式との
比較実験を行なった結果を示すグラフである。
FIG. 3 is a graph showing the results of a comparison experiment with an existing search method for an adaptive beam search method that is another embodiment of the adaptive search method according to the present invention.

【符号の説明】[Explanation of symbols]

1 HMM音素の照合 2 LRパーザ 6 ニューラルネットワーク 7 回帰分析 1 HMM phoneme matching 2 LR parser 6 Neural network 7 Regression analysis

Claims (7)

【特許請求の範囲】[Claims] 【請求項1】 観測可能な特徴量を入力とする制御関数
を用いて探索範囲を適応的に変化させることを特徴とす
る適応的探索方式。
1. An adaptive search method characterized by adaptively changing a search range using a control function having an observable feature quantity as an input.
【請求項2】 前記制御関数として、ニューラルネット
ワークを用いることを特徴とする請求項1に記載の適応
的探索方式。
2. The adaptive search method according to claim 1, wherein a neural network is used as the control function.
【請求項3】 前記制御関数として、重回帰分析を用い
ることを特徴とする請求項1に記載の適応的探索方式。
3. The adaptive search method according to claim 1, wherein multiple regression analysis is used as the control function.
【請求項4】 前記観測可能な特徴量として、各仮説の
スコアの分布を表わす回帰係数を用いることを特徴とす
る請求項1ないし請求項3のいずれかに記載の適応的探
索方式。
4. The adaptive search method according to claim 1, wherein a regression coefficient representing a distribution of scores of each hypothesis is used as the observable feature amount.
【請求項5】 前記観測可能な特徴量として、探索木の
深さを用いることを特徴とする請求項1ないし請求項3
のいずれかに記載の適応的探索方式。
5. The depth of a search tree is used as the observable feature quantity.
An adaptive search method described in any one of 1.
【請求項6】 前記観測可能な特徴量として、現在の探
索時点における第1位仮説のスコアと、その直前の探索
時点における第1位仮説のスコアとの差を用いることを
特徴とする請求項1ないし請求項3のいずれかに記載の
適応的探索方式。
6. The difference between the score of the first-place hypothesis at the current search time point and the score of the first-place hypothesis at the search time immediately before that is used as the observable feature amount. The adaptive search method according to any one of claims 1 to 3.
【請求項7】 前記制御関数として複数種類のものを用
い、それら制御関数の出力値を組合わせることによって
探索範囲を決定することを特徴とする請求項1に記載の
適応的探索方式。
7. The adaptive search method according to claim 1, wherein a plurality of types of control functions are used, and a search range is determined by combining output values of the control functions.
JP5069746A 1993-03-29 1993-03-29 Adaptive search method Expired - Fee Related JPH0782357B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5069746A JPH0782357B2 (en) 1993-03-29 1993-03-29 Adaptive search method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5069746A JPH0782357B2 (en) 1993-03-29 1993-03-29 Adaptive search method

Publications (2)

Publication Number Publication Date
JPH06282295A true JPH06282295A (en) 1994-10-07
JPH0782357B2 JPH0782357B2 (en) 1995-09-06

Family

ID=13411680

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5069746A Expired - Fee Related JPH0782357B2 (en) 1993-03-29 1993-03-29 Adaptive search method

Country Status (1)

Country Link
JP (1) JPH0782357B2 (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011083528A1 (en) * 2010-01-06 2011-07-14 日本電気株式会社 Data processing apparatus, computer program therefor, and data processing method
JP2013114202A (en) * 2011-11-30 2013-06-10 Nippon Telegr & Teleph Corp <Ntt> Speech recognition method, device for the same and program
WO2013125203A1 (en) * 2012-02-21 2013-08-29 日本電気株式会社 Speech recognition device, speech recognition method, and computer program
WO2020246033A1 (en) * 2019-06-07 2020-12-10 日本電信電話株式会社 Learning device, speech recognition device, methods therefor, and program
JP2022539138A (en) * 2019-07-02 2022-09-07 サービスナウ, インコーポレイテッド Systems and methods for performing semantic search using a natural language understanding (NLU) framework
WO2023162133A1 (en) * 2022-02-25 2023-08-31 日本電信電話株式会社 Learning device, learning method, and learning program

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03116100A (en) * 1989-09-29 1991-05-17 Fujitsu Ltd Large vocabulary voice recognizing device
JPH04115297A (en) * 1990-09-05 1992-04-16 Matsushita Electric Ind Co Ltd Word voice recognizing method

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03116100A (en) * 1989-09-29 1991-05-17 Fujitsu Ltd Large vocabulary voice recognizing device
JPH04115297A (en) * 1990-09-05 1992-04-16 Matsushita Electric Ind Co Ltd Word voice recognizing method

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011083528A1 (en) * 2010-01-06 2011-07-14 日本電気株式会社 Data processing apparatus, computer program therefor, and data processing method
US9047562B2 (en) 2010-01-06 2015-06-02 Nec Corporation Data processing device, information storage medium storing computer program therefor and data processing method
JP5786717B2 (en) * 2010-01-06 2015-09-30 日本電気株式会社 Data processing apparatus, computer program thereof, and data processing method
JP2013114202A (en) * 2011-11-30 2013-06-10 Nippon Telegr & Teleph Corp <Ntt> Speech recognition method, device for the same and program
WO2013125203A1 (en) * 2012-02-21 2013-08-29 日本電気株式会社 Speech recognition device, speech recognition method, and computer program
WO2020246033A1 (en) * 2019-06-07 2020-12-10 日本電信電話株式会社 Learning device, speech recognition device, methods therefor, and program
JPWO2020246033A1 (en) * 2019-06-07 2020-12-10
JP2022539138A (en) * 2019-07-02 2022-09-07 サービスナウ, インコーポレイテッド Systems and methods for performing semantic search using a natural language understanding (NLU) framework
WO2023162133A1 (en) * 2022-02-25 2023-08-31 日本電信電話株式会社 Learning device, learning method, and learning program

Also Published As

Publication number Publication date
JPH0782357B2 (en) 1995-09-06

Similar Documents

Publication Publication Date Title
Gopalakrishnan et al. A tree search strategy for large-vocabulary continuous speech recognition
US6292779B1 (en) System and method for modeless large vocabulary speech recognition
US20040186714A1 (en) Speech recognition improvement through post-processsing
US5241619A (en) Word dependent N-best search method
EP0635820B1 (en) Minimum error rate training of combined string models
US7031915B2 (en) Assisted speech recognition by dual search acceleration technique
US7035802B1 (en) Recognition system using lexical trees
KR20010034367A (en) System for using silence in speech recognition
Demuynck Extracting, modelling and combining information in speech recognition
Nocera et al. Phoneme lattice based A* search algorithm for speech recognition
Bahl et al. A fast match for continuous speech recognition using allophonic models
US20040148169A1 (en) Speech recognition with shadow modeling
US20040158464A1 (en) System and method for priority queue searches from multiple bottom-up detected starting points
Jo et al. Modified Viterbi Scoring for HMM-Based Speech Recognition.
US20040158468A1 (en) Speech recognition with soft pruning
JPH06282295A (en) Adaptive search system
US5444817A (en) Speech recognizing apparatus using the predicted duration of syllables
Kasper et al. Charting the depths of robust speech parsing
Fosler-Lussier et al. Not just what, but also when: Guided automatic pronunciation modeling for broadcast news
Paul et al. The Lincoln large-vocabulary stack-decoder HMM CSR
US20040148163A1 (en) System and method for utilizing an anchor to reduce memory requirements for speech recognition
JPH07104780A (en) Continuous voice recognizing method for unspecified number of people
JPH04307664A (en) Voice comprehending system
Bisani et al. Breadth-first search for finding the optimal phonetic transcription from multiple utterances.
Obradovic et al. A Robust Speaker-Independent CPU-Based ASR System

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19960227

LAPS Cancellation because of no payment of annual fees