JP4565768B2 - Voice recognition device - Google Patents
Voice recognition device Download PDFInfo
- Publication number
- JP4565768B2 JP4565768B2 JP2001120777A JP2001120777A JP4565768B2 JP 4565768 B2 JP4565768 B2 JP 4565768B2 JP 2001120777 A JP2001120777 A JP 2001120777A JP 2001120777 A JP2001120777 A JP 2001120777A JP 4565768 B2 JP4565768 B2 JP 4565768B2
- Authority
- JP
- Japan
- Prior art keywords
- probability
- word
- input
- speech
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【0001】
【発明の属する技術分野】
本発明は音声認識装置に係わり、特に、各候補単語が音声入力された単語である確率を算出し、確率が最大の候補単語を音声入力単語であると認識する音声認識装置に関する。
【0002】
【従来の技術】
カーナビゲーションシステムの入力手段としてリモコンや音声認識装置が使われており、これらにより、ユーザーは目的地の設定、周辺施設の検索など、ナビゲーション操作の大半を実現することができる。特に、音声入力はリモコンのように画面を見る必要がなく、しかも、キー操作が不要であり、有効な手段である。
音声認識方式には、尤もらしい候補単語のうち音声入力された単語である確率が最大となる候補単語を認識結果とする方法(確率モデルによる音声認識方法)がある。しかし、音声認識率は、音声入力時における車室内のノイズやオーディオ音の有無、話者の違い、前後に接続する音素の違い(調和結合)などにより大きく影響を受け、100%の認識率を達成することができず、誤認識が発生している。
【0003】
【発明が解決しようとする課題】
従来の確率モデルによる音声認識方法では、ユーザーが音声入力をした際、誤認識しても候補単語群の中でも最も確率の高い単語をカーナビゲーションシステムに入力する。カーナビゲーションシステムは、この誤った認識単語をユーザーからのコマンドとして受け取り、該認識単語を画面表示あるいは音声ガイドでユーザに通知するが、正誤の確認をせず該コマンドを実行する。そのため、ナビゲーションシステムは誤った動作をしてしまい、一つ前の元の状態に戻す作業や再入力する必要が頻繁に生じ、使い勝手が悪い問題がある。一方、音声入力のたびに毎回音声ガイドにより認識単語が正しいか否かの確認をする方法もある。かかる方法によれば、誤ってコマンドを実行することはないが、ユーザーの入力ステップ数(スイッチあるいはキー操作回数)が増えてしまい、操作性が悪い問題がある。
以上から本発明の目的は、ユーザーの入力ステップ数を減小でき、しかも、正しいコマンドを指示できるようにすることである。
【0004】
【課題を解決するための手段】
本発明は、各候補単語が音声入力された単語である確率を算出し、確率が最大の候補単語を音声入力単語であると認識する音声認識装置であり、音声入力された単語の候補単語を検索すると共に、各候補単語が音声入力された単語である確率を算出し、確率が最大の候補単語とその最大確率を出力する音声認識部、前記最大確率と予め設定されている設定確率とを比較し、該最大確率が設定確率より大きいとき、前記認識された単語に応じたコマンドの実行を被制御装置に指示すると共に、該設定確率の変更制御を行う音声ガイド制御部を備え、該音声ガイド制御部は、前記被制御装置において前記指示により実行したコマンドの取消し操作があったとき、前記設定確率を増大し、コマンドの取消し操作がないとき、前記設定確率を減小する。
以上のようにすれば、ユーザーの入力ステップ数(キーまたはスイッチ操作回数)を減小でき、しかも、正しいコマンドをナビゲーションシステムに指示することができる。
【0005】
【発明の実施の形態】
(A)システム構成
図1は本発明の音声認識システムよりナビゲーションシステムに音声でコマンドを入力する場合のシステム構成図である。
音声認識システム10において、マイクロホン11は話者音声を検出し、音響分析部12はマイクロホンより入力された音声波形データの分析、変換を行なって、たとえば短時間スペクトル等の時系列データ(ベクトル系列)を発生する。
音声辞書データベース13は、単語IDに対応させて単語文字列及び該単語のスペクトル時系列データ(音声パターン)を保持する。音響モデル記憶部14は、各候補単語が音声入力された単語である確率を算出するための音響モデルを記憶するものであり、たとえばHMM(Hidden Markov Model)法に基づいて各単語や音素を標準的な確率状態遷移機械(マルコフモデル)で表現する。音声認識エンジン15は、(1) パターンマッチングにより入力音声と類似する複数の候補単語を検索すると共に、(2) 各候補単語が音声入力された単語である確率を算出し、最大確率の候補音声を音声入力単語であると認識し、(3) 該認識された単語と最大確率とを音声ガイド制御部16に入力する。音声ガイド制御部16は後述する認識単語のナビゲーションシステムへの出力及び設定確率αの変更制御を行なう。
【0006】
ナビゲーションシステム20において、プロセッサ(CPU)21は、入力機器(たとえばリモコン)22あるいは音声認識システム10からの指示にしたがって所定のナビゲーション制御を行ない、車輌周辺の地図、誘導経路、交差点拡大図等を表示部23に表示したり、交差点までの距離や交差点での進行方向をスピーカ24より出力する。又、プロセッサ21は音声認識システム10から最大確率の高い単語が入力されて該単語に応じたコマンドを実行した場合において、戻しボタンが操作された時、コマンド実行前の状態に戻すと共に該戻しボタンが操作されたことを音声認識システム10に通知する。又、プロセッサ21はナビゲーションシステム10から最大確率の低い単語が入力されたとき、入力された単語の正誤を問うために該単語の表示あるいは音声出力を行ない、正誤入力に応じた処理を実行する。正誤入力、戻し入力は入力機器に設けたボタンを使用しても良いし、表示部23に正誤入力メニュー、戻しメニューを表示し、メニュー選択することにより行なってもよい。
【0007】
(B)確率モデルによる音声認識方法
図2は確率モデルによる音声認識方法の概略説明図であり、
一般に音声認識システムは、図2に示すように、音響分析部12とそれに続く音声認識エンジン15から成り、音声検出部(マイクロホン)11と音響分析部12を一つの音響チャネルとしてモデル化している。話者は入力すべき単語wから、その話者の発話習慣に従って音声波形sを生成して出力し、音声検出部11は該話者音声を検出して音響分析部12に入力し、音響分析部12は音声波形データの分析・変換を行って、たとえば短時間スペクトルなどの時系列データ(ベクトル系列)を取得して音声認識エンジン15に入力する。
音声認識エンジン15は入力されたスペクトル時系列データから複数の候補単語yを決定し、候補単語のうち確率が最大となる候補単語を入力単語として推定し、推定値w∧を出力する。w∧はベイズ則(Bayes theorem)によって、次式を満たすように推定される。
【0008】
P(w∧|y)=max[P(y|w)P(w)/P(y)] (1)
上式において、P(y|w)は候補単語yが入力単語wである確率(条件つき確率)、P(w)は単語wが発声される事前確率である。上式において、P(y)はwに無関係であるので無視することができ、条件つき確率P(y|w)は音響モデルより得られ、事前確率 P(w)は言語モデルにより得られる。すなわち、音声認識エンジン15は、(1) パターンマッチングにより入力音声と類似する複数の候補単語yを検索すると共に、(2) 各候補単語yが入力単語wである確率P(y|w)を算出し、最大確率の候補単語yを入力単語であると推定して推定値w∧を出力する。
【0009】
(1)式の条件つき確率P(y|W)を求めるための音響モデルとして隠れマルコフモデル(Hidden Markov Model:HMM)があり、HMM法では、各単語を標準的な確率状態遷移機械(マルコフモデル)で表現する。音声認識に用いられるHMMは、left-to- right型で一つの初期状態と一つの最終状態がある構造が多く、図3は最もよく用いられるベイキス(Bakis)モデルとよばれる型の例である。
図3の状態遷移のアークに付けられた数値aijは、状態qiから状態qjへの状態遷移確率を表し、状態数をSとするとS×Sの行列で表現できる。通常、音声パターンには、時間的な非可逆性の性質があるから、i>jならaij=0であり、又、状態qiから全状態qj(j=1,2,..)に移る状態遷移確率aij(j=1,2,..)の和は1.0である。bij(k)は状態qiから状態qjへの遷移で種々のスペクトルパターンがそれぞれ観測(出力)される出現確率で、{bij(k)}は出現確率行列とよばれ、出現確率行列を構成する行列要素の和は1.0となる。
【0010】
図3における数値例は、以後の説明のために特に簡略化したものであり、出力シンボル(音素)を{a,b}の二つに限り、図の[ ]内にa,bそれぞれの出現確率を示している。この例では、遷移確率行列は、
【数1】
となり、初期状態確率π1=1、πi=0 (i>1),F={q4}である。
y=y1,y2,・・・,yrを候補単語yの出力シンボルの観測系列、具体的にはスペクトルの時系列パターンとする。このとき、各HMMモデルによって候補単語yが音声入力された単語である確率P(y|M)(MはHMMによって表現される入力単語)を求め、最大確率を与える候補単語を選んで、これを認識結果とする。
【0011】
図3の例ついて、候補単語yのシンボル系列"abb"が出力される確率を求める。状態遷移系列は時間を横に状態を縦に並べた図4の平面で左上隅から右下隅に至る経路に対応し、次の7通りである。
q1→q1→q2→q4 P1=0.008640
q1→q1→q3→q4 P2=0.006912
q1→q2→q2→q4 P3=0.029400
q1→q2→q3→q4 P4=0.012600
q1→q2→q4→q4 P5=0.075600
q1→q3→q3→q4 P6=0.001728
q1→q3→q4→q4 P7=0.038880
それぞれの確率P1〜P7は上に示す通りとなるので、y=“abb”が入力単語である確率は次式
P(abb|M)=P1+P2+P3+P4+P5+P6+P7=0.17376
となる。同様に、候補単語y′のシンボル系列"aab"が出力される確率を求めると図5に示すように
P(aab|M)=0.11598
となる。2つの候補y,y′のうち、確率が大きな候補単語yを入力単語であると認識する。
【0012】
(C)本発明の音声認識処理
図6は本発明の音声認識処理フローであり、点線内はナビゲーションシステムが実行する処理である。
ユーザが音声入力すると(ステップ101)、マイクロホン11はユーザが発した音声を検出して音響分析部12に入力し、音響分析部12は入力された音声波形データの分析、変換を行なってスペクトル時系列データ(音声パターン)を音声認識エンジン15に入力する。音声認識エンジン15は音声辞書データベース13を参照して入力された音声パターンと類似する音声パターンを有する複数の候補を検索する(ステップ102)。
ついで、音声認識エンジン15は隠れマルコフモデル(HMM)14を用いて各候補単語が入力単語である確率を演算し、最大確率の候補単語を入力単語であると認識し、該単語と最大確率を音声ガイド制御部16に入力する(ステップ103)。音声ガイド制御部16は最大確率と設定確率αの大小を比較し(ステップ104)、最大確率≧αであれば、認識単語をナビゲーションシステム20に入力すると共に該単語に応じたコマンドを実行するよう指示する。これによりナビゲーションシステムは入力された単語に応じたコマンドを実行する(ステップ105)。
【0013】
ユーザはナビゲーションシステムが音声指示した通りの制御を行なえば戻しボタンの操作をせず、一方、音声指示と異なる制御を行なえば戻しボタン操作を行なう。したがって、プロセッサ21は、コマンド実行後所定時間内に戻しボタン操作があるかチェックし(ステップ106)、戻しボタン操作があれば、コマンド実行前の状態に戻すと共に(ステップ107)、戻しボタン操作があったことを音声ガイド制御部16に通知する。又、プロセッサ21はステップ106において戻しボタン操作がなければその旨を音声ガイド制御部16に通知する。
音声ガイド制御部16は戻しボタン操作がなければ、設定確率αを所定値Δα減小し(ステップ108)、次の音声入力を待つ。このように、設定確率αを小さくすれば、ステップ104において最大確率が設定確率αより大きくなるケースが多くなり、音声入力だけでコマンドを実行することができるようになる。
一方、音声ガイド制御部16は戻しボタン操作があったことが通知されれば、設定確率を所定値Δα増加し(ステップ109)、次の音声入力を待つ。このようにすれば、該設定確率αがステップ108で小さくなり過ぎても、適正な値になるように補正することができる。
【0014】
ステップ104において、最大確率が設定確率αより小さければ、音声ガイド制御部16は認識単語をナビゲーションシステム20に入力すると共に該単語を表示あるいは音声出力するよう指示する。これによりナビゲーションシステムのプロセッサ21は入力された単語を表示部23に表示し、あるいは音声出力し、認識単語の正誤入力を待つ(ステップ110)。
正誤入力があれば、認識単語が誤りであったのか、正しかったのかチェックし(ステップ111)、認識単語の誤りが入力されれば、プロセッサ21は音声ガイド制御部16に認識単語の誤りを通知する。これにより、音声ガイド制御部16は設定確率αを所定値Δα増加し(ステップ109)、次の音声入力を待つ。
このようにすれば、設定確率が小さすぎる傾向にある場合でも該設定確率αを増加して適正値に補正できる。
【0015】
一方、認識単語が正しければ、プロセッサ21は該認識単語に応じたコマンドを実行すると共に、音声ガイド制御部16に認識単語が正しいことを通知する (ステップ112)。これにより、音声ガイド制御部16は設定確率αを所定値Δα減小し(ステップ108)、次の音声入力を待つ。このようにすれば、以後ステップ104において「YES」となってステップ105でコマンドを実行する機会が多くなり、音声入力だけでコマンドを実行することができるようになる。
以上では、音声認識結果に基づいてナビゲーションシステムを制御する場合について説明したが、本発明の音声認識方法は任意の装置を音声入力制御する場合に適用できる。
【0016】
【発明の効果】
以上本発明によれば、各候補単語が音声入力された単語である確率を算出し、確率が最大の候補単語を音声入力単語であると認識する音声認識方法において、最大確率が設定確率より大きいとき、前記認識された単語に応じたコマンドの実行を指示し、実行されたコマンドの取消しが指示されなければ前記設定確率を減小し、該実行されたコマンドの取消しが指示されれば前記設定確率を増大するようにしたから、ユーザーの入力ステップ数(キーまたはスイッチ操作回数)を減小でき、しかも、音声入力単語を正しく認識して認識単語に応じたコマンドを指示することができる。
また、本発明によれば、最大確率が設定確率より小さいとき、認識単語を表示し、あるいは音声出力し、認識結果の誤りが入力されれば前記設定確率を増大し、認識結果の正しさが入力されれば認識単語に応じたコマンドの実行を指示すると共に、前記設定確率を減小するようにしたから、ますますユーザーの入力ステップ数を減小でき、しかも、音声入力単語を正しく認識して認識単語に応じたコマンドを指示することができる。
【図面の簡単な説明】
【図1】本発明の音声認識システムよりナビゲーションシステムに音声でコマンドを入力する場合のシステム構成図である。
【図2】確率モデルによる音声認識方法の概略説明図である。
【図3】音声認識に用いられるHMMにおけるベイキス(Bakis)モデルの例である。
【図4】候補単語y=“abb”の確率算出説明図である。
【図5】候補単語y′=“aab”の確率算出説明図である。
【図6】本発明の音声認識処理フローである。
【符号の説明】
10・・音声認識システム
11・・マイクロホン
12・・音響分析部
13・・音声辞書データベース
14・・音響モデル記憶部
15・・音声認識エンジン
16・・音声ガイド制御部
20・・ナビゲーションシステム
21・・プロセッサ(CPU)[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a speech recognition apparatus, in particular, each candidate word to calculate the probability that a word is speech input, a speech recognition apparatus recognizes that the probability is voice input word up candidate words.
[0002]
[Prior art]
A remote controller or a voice recognition device is used as an input means of the car navigation system, and the user can realize most of navigation operations such as setting a destination and searching for nearby facilities. In particular, voice input is an effective means that does not require viewing the screen as with a remote controller, and does not require key operations.
As a speech recognition method, there is a method (a speech recognition method based on a probability model) in which a candidate word having a maximum probability of being a speech input word among likely candidate words is used as a recognition result. However, the speech recognition rate is greatly affected by the presence or absence of noise in the passenger compartment or audio sound at the time of speech input, differences in speakers, differences in phonemes connected in the front and rear (harmonic coupling), etc., and the recognition rate is 100%. It cannot be achieved and misrecognition has occurred.
[0003]
[Problems to be solved by the invention]
In a conventional speech recognition method based on a probability model, when a user performs speech input, a word with the highest probability in the candidate word group is input to the car navigation system even if it is erroneously recognized. The car navigation system receives the erroneously recognized word as a command from the user, and notifies the user of the recognized word through a screen display or a voice guide, but executes the command without confirming correctness. For this reason, the navigation system malfunctions, and it is frequently necessary to return to the previous state or to re-input, resulting in poor usability. On the other hand, there is a method of confirming whether or not the recognized word is correct by voice guidance every time voice is input. According to such a method, the command is not executed by mistake, but the number of user input steps (the number of switches or key operations) increases, and there is a problem that the operability is poor.
As described above, an object of the present invention is to reduce the number of user input steps and to be able to designate a correct command.
[0004]
[Means for Solving the Problems]
The present invention is a speech recognition device that calculates a probability that each candidate word is a word input by speech and recognizes a candidate word having the highest probability as a speech input word. Searching, calculating a probability that each candidate word is a word input by voice, a candidate word having the maximum probability and a voice recognition unit for outputting the maximum probability, the maximum probability and a preset set probability Comparing, when the maximum probability is greater than the set probability, the control unit instructs the controlled device to execute a command according to the recognized word, and includes a voice guide control unit that performs change control of the set probability. The guide control unit increases the setting probability when there is a command canceling operation executed by the instruction in the controlled device, and decreases the setting probability when there is no command canceling operation.
By doing so, the number of user input steps (number of key or switch operations) can be reduced, and a correct command can be instructed to the navigation system.
[0005]
DETAILED DESCRIPTION OF THE INVENTION
(A) System Configuration FIG. 1 is a system configuration diagram when a voice command is input to the navigation system by the voice recognition system of the present invention.
In the
The speech dictionary database 13 stores a word character string and spectrum time-series data (speech pattern) of the word corresponding to the word ID. The acoustic model storage unit 14 stores an acoustic model for calculating the probability that each candidate word is a speech input word. For example, each word or phoneme is standardized based on the HMM (Hidden Markov Model) method. It is expressed by a typical stochastic state transition machine (Markov model). The speech recognition engine 15 (1) searches for a plurality of candidate words similar to the input speech by pattern matching, and (2) calculates the probability that each candidate word is a speech input word, and has the maximum probability of the candidate speech Is recognized as a voice input word, and (3) the recognized word and the maximum probability are input to the voice
[0006]
In the
[0007]
(B) Speech recognition method based on probability model FIG. 2 is a schematic explanatory diagram of a speech recognition method based on a probability model,
In general, as shown in FIG. 2, the speech recognition system includes an
The
[0008]
P (w ∧ | y) = max [P (y | w) P (w) / P (y)] (1)
In the above equation, P (y | w) is a probability (conditional probability) that the candidate word y is the input word w, and P (w) is a prior probability that the word w is uttered. In the above equation, P (y) is irrelevant to w and can be ignored, the conditional probability P (y | w) is obtained from the acoustic model, and the prior probability P (w) is obtained from the language model. That is, the speech recognition engine 15 (1) searches for a plurality of candidate words y similar to the input speech by pattern matching, and (2) determines the probability P (y | w) that each candidate word y is the input word w. Calculate, estimate the candidate word y with the highest probability as an input word, and output the estimated value w ∧ .
[0009]
There is a Hidden Markov Model (HMM) as an acoustic model for obtaining the conditional probability P (y | W) of Eq. (1). In the HMM method, each word is represented by a standard stochastic state transition machine (Markov model). Model). Many HMMs used for speech recognition have a left-to-right type structure with one initial state and one final state, and Fig. 3 shows an example of a type called the Bakis model that is most often used. .
The numerical value a ij attached to the arc of the state transition in FIG. 3 represents the state transition probability from the state q i to the state q j , and can be expressed as an S × S matrix where S is the number of states. Usually, since a speech pattern has a time irreversible property, if i> j, a ij = 0, and from state q i to all states q j (j = 1, 2,...) The sum of the state transition probabilities a ij (j = 1, 2,...) Going to is 1.0. b ij (k) is an appearance probability that various spectrum patterns are observed (output) at the transition from the state q i to the state q j , and {b ij (k)} is called an appearance probability matrix. The sum of the matrix elements constituting the matrix is 1.0.
[0010]
The numerical example in FIG. 3 is particularly simplified for the following explanation. The output symbols (phonemes) are limited to two {a, b}, and each of a and b appears in [] in the figure. Probability is shown. In this example, the transition probability matrix is
[Expression 1]
The initial state probabilities π 1 = 1, π i = 0 (i> 1), and F = {q 4 }.
y = y 1 , y 2 ,..., y r are observation sequences of output symbols of the candidate word y, specifically, a time series pattern of the spectrum. At this time, the probability P (y | M) (M is an input word expressed by HMM) that the candidate word y is a voice input word by each HMM model is obtained, and the candidate word that gives the maximum probability is selected, Is the recognition result.
[0011]
For the example of FIG. 3, the probability that the symbol series “abb” of the candidate word y is output is obtained. The state transition series correspond to the route from the upper left corner to the lower right corner on the plane of FIG.
q 1 → q 1 → q 2 → q 4 P 1 = 0.008640
q 1 → q 1 → q 3 → q 4 P 2 = 0.006912
q 1 → q 2 → q 2 → q 4 P 3 = 0.029400
q 1 → q 2 → q 3 → q 4 P 4 = 0.012600
q 1 → q 2 → q 4 → q 4 P 5 = 0.075600
q 1 → q 3 → q 3 → q 4 P 6 = 0.001728
q 1 → q 3 → q 4 → q 4 P 7 = 0.038880
Since the respective probabilities P 1 to P 7 are as shown above, the probability that y = “abb” is an input word is expressed by the following equation: P (abb | M) = P 1 + P 2 + P 3 + P 4 + P 5 + P 6 + P 7 = 0.17376
It becomes. Similarly, when the probability that the symbol series “aab” of the candidate word y ′ is output is obtained, P (aab | M) = 0.11598 as shown in FIG.
It becomes. Of the two candidates y and y ′, the candidate word y having a high probability is recognized as the input word.
[0012]
(C) Voice Recognition Processing of the Present Invention FIG. 6 is a flowchart of the voice recognition processing of the present invention. The dotted line is the processing executed by the navigation system.
When the user inputs voice (step 101), the
Next, the
[0013]
The user does not operate the return button if the navigation system performs the control as instructed by voice, while the user performs the return button operation if the control different from the voice instruction is performed. Therefore, the
If there is no return button operation, the
On the other hand, when notified that the return button operation has been performed, the voice
[0014]
In
If there is a correct / incorrect input, it is checked whether the recognized word is correct or correct (step 111). If the recognized word error is input, the
In this way, even when the setting probability tends to be too small, the setting probability α can be increased and corrected to an appropriate value.
[0015]
On the other hand, if the recognized word is correct, the
The case where the navigation system is controlled based on the voice recognition result has been described above, but the voice recognition method of the present invention can be applied to the case where voice input control is performed on an arbitrary device.
[0016]
【The invention's effect】
As described above, according to the present invention, in the speech recognition method for calculating the probability that each candidate word is a word input by speech and recognizing the candidate word having the maximum probability as a speech input word, the maximum probability is greater than the set probability. Instructing the execution of the command according to the recognized word, the setting probability is reduced if the cancellation of the executed command is not instructed, and the setting is performed if the cancellation of the executed command is instructed Since the probability is increased, the number of input steps (keys or switch operations) of the user can be reduced, and a command corresponding to the recognized word can be designated by correctly recognizing the voice input word.
Further, according to the present invention, when the maximum probability is smaller than the set probability, the recognition word is displayed or output as a voice, and if the recognition result error is input, the set probability is increased, and the correctness of the recognition result is If it is input, the command execution according to the recognized word is instructed and the set probability is reduced, so that the number of input steps of the user can be further reduced, and the voice input word is recognized correctly. A command corresponding to the recognized word can be instructed.
[Brief description of the drawings]
FIG. 1 is a system configuration diagram when a voice command is input to a navigation system by the voice recognition system of the present invention.
FIG. 2 is a schematic explanatory diagram of a speech recognition method based on a probability model.
FIG. 3 is an example of a Bakis model in an HMM used for speech recognition.
FIG. 4 is an explanatory diagram of probability calculation of a candidate word y = “abb”.
FIG. 5 is an explanatory diagram of probability calculation of a candidate word y ′ = “aab”.
FIG. 6 is a speech recognition processing flow of the present invention.
[Explanation of symbols]
10.
Claims (2)
音声入力された単語の候補単語を検索すると共に、各候補単語が音声入力された単語である確率を算出し、確率が最大の候補単語とその最大確率を出力する音声認識部、
前記最大確率と予め設定されている設定確率とを比較し、該最大確率が設定確率より大きいとき、前記認識された単語に応じたコマンドの実行を被制御装置に指示すると共に、該設定確率の変更制御を行う音声ガイド制御部、
を備え、該音声ガイド制御部は、前記被制御装置において前記指示により実行したコマンドの取消し操作があったとき、前記設定確率を増大し、コマンドの取消し操作がないとき、前記設定確率を減小することを特徴とする音声認識装置。In the speech recognition device that calculates the probability that each candidate word is a word input by speech and recognizes the candidate word having the maximum probability as a speech input word,
A speech recognition unit that searches for candidate words of words input by speech, calculates a probability that each candidate word is a word input by speech, and outputs a candidate word having the maximum probability and its maximum probability,
The maximum probability is compared with a preset probability, and when the maximum probability is greater than the preset probability, the controlled device is instructed to execute a command according to the recognized word, and the set probability is A voice guide control unit for performing change control,
The voice guide control unit increases the setting probability when there is a command canceling operation executed by the instruction in the controlled device, and decreases the setting probability when there is no command canceling operation. A speech recognition apparatus characterized by:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001120777A JP4565768B2 (en) | 2001-04-19 | 2001-04-19 | Voice recognition device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001120777A JP4565768B2 (en) | 2001-04-19 | 2001-04-19 | Voice recognition device |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2002311991A JP2002311991A (en) | 2002-10-25 |
JP2002311991A5 JP2002311991A5 (en) | 2007-06-21 |
JP4565768B2 true JP4565768B2 (en) | 2010-10-20 |
Family
ID=18970763
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001120777A Expired - Fee Related JP4565768B2 (en) | 2001-04-19 | 2001-04-19 | Voice recognition device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4565768B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105895093A (en) * | 2015-11-02 | 2016-08-24 | 乐视致新电子科技(天津)有限公司 | Voice information processing method and device |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5945499A (en) * | 1982-09-09 | 1984-03-14 | 株式会社日立製作所 | Voice recognition system |
JPS6232500A (en) * | 1985-08-06 | 1987-02-12 | 日本電気株式会社 | Voice recognition equipment with rejecting function |
JPH0432900A (en) * | 1990-05-29 | 1992-02-04 | Ricoh Co Ltd | Sound recognizing device |
JPH04152397A (en) * | 1990-10-16 | 1992-05-26 | Sanyo Electric Co Ltd | Voice recognizing device |
JPH11249688A (en) * | 1998-03-05 | 1999-09-17 | Mitsubishi Electric Corp | Device and method for recognizing voice |
-
2001
- 2001-04-19 JP JP2001120777A patent/JP4565768B2/en not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5945499A (en) * | 1982-09-09 | 1984-03-14 | 株式会社日立製作所 | Voice recognition system |
JPS6232500A (en) * | 1985-08-06 | 1987-02-12 | 日本電気株式会社 | Voice recognition equipment with rejecting function |
JPH0432900A (en) * | 1990-05-29 | 1992-02-04 | Ricoh Co Ltd | Sound recognizing device |
JPH04152397A (en) * | 1990-10-16 | 1992-05-26 | Sanyo Electric Co Ltd | Voice recognizing device |
JPH11249688A (en) * | 1998-03-05 | 1999-09-17 | Mitsubishi Electric Corp | Device and method for recognizing voice |
Also Published As
Publication number | Publication date |
---|---|
JP2002311991A (en) | 2002-10-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106796786B (en) | Speech recognition system | |
JP5089955B2 (en) | Spoken dialogue device | |
US9812125B2 (en) | Speech recognition device, vehicle having the same, and speech recognition method | |
JP4131978B2 (en) | Voice recognition device controller | |
US20140372120A1 (en) | System and Method for Recognizing Speech | |
JP4859982B2 (en) | Voice recognition device | |
JP6654611B2 (en) | Growth type dialogue device | |
EP0965978A1 (en) | Non-interactive enrollment in speech recognition | |
EP1355295B1 (en) | Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded | |
JP2004061576A (en) | Speech control unit | |
EP1376537B1 (en) | Apparatus, method, and computer-readable recording medium for recognition of keywords from spontaneous speech | |
US20030216918A1 (en) | Voice recognition apparatus and voice recognition program | |
CN106537489B (en) | Method and system for recognizing speech comprising word sequences | |
JP2006208486A (en) | Voice inputting device | |
WO2000010160A1 (en) | Speech recognizing device and method, navigation device, portable telephone, and information processor | |
JP4604377B2 (en) | Voice recognition device | |
KR20220073513A (en) | Dialogue system, vehicle and method for controlling dialogue system | |
JP4565768B2 (en) | Voice recognition device | |
JP2003163951A (en) | Sound signal recognition system, conversation control system using the sound signal recognition method, and conversation control method | |
JP3718088B2 (en) | Speech recognition correction method | |
JP2004301875A (en) | Speech recognition device | |
JP2004029354A (en) | Speech recognition device, speech recognition method, and speech recognition program | |
JP4212947B2 (en) | Speech recognition system and speech recognition correction / learning method | |
KR101875440B1 (en) | Vehicle and control method for the same | |
KR20170089670A (en) | Vehicle and control method for the same |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070508 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070508 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100302 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100325 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100803 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100803 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130813 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130813 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140813 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |