JP2002132293A - Speech recognizer - Google Patents
Speech recognizerInfo
- Publication number
- JP2002132293A JP2002132293A JP2000328747A JP2000328747A JP2002132293A JP 2002132293 A JP2002132293 A JP 2002132293A JP 2000328747 A JP2000328747 A JP 2000328747A JP 2000328747 A JP2000328747 A JP 2000328747A JP 2002132293 A JP2002132293 A JP 2002132293A
- Authority
- JP
- Japan
- Prior art keywords
- word
- similarity
- speech
- unit
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
Description
【0001】[0001]
【発明の属する技術分野】本発明は、入力音声を認識
し、認識結果を出力する音声認識装置に関する。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a speech recognition device for recognizing an input speech and outputting a recognition result.
【0002】[0002]
【従来の技術】従来より、マイク等を介して入力される
音声を認識し、認識した内容を、例えばディスプレイ等
の表示手段に出力したり、自動車に搭載されるナビゲー
ションシステムに行き先情報として出力する音声認識装
置が知られている。2. Description of the Related Art Conventionally, a voice input through a microphone or the like is recognized, and the recognized content is output to a display means such as a display, or is output as a destination information to a navigation system mounted on an automobile. Speech recognition devices are known.
【0003】音声認識法としては、予め発声者の発声し
た単語を登録して認識単語辞書を作成する特定話者認識
方式と、発声者の発声した単語を登録するのではなく、
テキスト文書等から認識単語辞書を作成する不特定話者
認識方式がある。何れの方式も、予め決められた単語を
発声者が発声することにより入力音声を認識するもので
ある。従来の音声認識装置では、発声者による発声を検
出してから一定の期間内に入力される音声に基づいて単
語辞書に登録している単語の内、最も類似するものを選
択する。[0003] As a speech recognition method, a specific speaker recognition method in which words uttered by a speaker are registered in advance and a recognition word dictionary is created, and a word uttered by the speaker is registered instead of a specific speaker recognition method.
There is an unspecified speaker recognition method for creating a recognition word dictionary from a text document or the like. In each of these methods, the input voice is recognized by the speaker uttering a predetermined word. In a conventional speech recognition device, the most similar word is selected from words registered in a word dictionary based on a speech input within a certain period after detecting a speech by a speaker.
【0004】[0004]
【発明が解決しようとする課題】しかし、上記従来の音
声認識装置では、発声者が「えー」や「あのー」といっ
た認識とは無関係な不要語を発した後に辞書に登録して
ある単語を発した場合には、該辞書に登録してある単語
を正しく認識することができない。However, in the above-mentioned conventional speech recognition apparatus, the speaker utters unnecessary words irrelevant to the recognition, such as "er" or "ano", and then utters words registered in the dictionary. In this case, words registered in the dictionary cannot be correctly recognized.
【0005】この不都合を解決する音声認識の1つの手
法としてワードスポッティング法が知られている。ワー
ドスポッティング法は、逐次、ある時間単位で標準辞書
内の単語との照合を行い、類似度が所定のしきい値を超
えた単語について出力を行い、そうでない場合には照合
を継続するものである。なお、上記ワードスポッティン
グ法を用いた音声認識法としては、例えば、「継続時間
制御形状態遷移モデルを用いた単語音声認識法」(電子
情報通信学会論文誌、vol.J72-D-II,No.11,pp.1769〜p
p.1777,1989年11月)が知られている。当該音声認識法
は、認識対象となる辞書に含まれる音素に継続時間情報
を付加して演算量を減らしながらも良好な認識性能を得
るものである。[0005] A word spotting method is known as one method of speech recognition that solves this inconvenience. The word spotting method is to sequentially collate words in the standard dictionary in a certain time unit, output words whose similarity exceeds a predetermined threshold, and continue collation otherwise. is there. Examples of the speech recognition method using the word spotting method include, for example, a “word speech recognition method using a duration control type state transition model” (Transactions of the Institute of Electronics, Information and Communication Engineers, vol. J72-D-II, No. .11, pp.1769-p
p. 1777, November 1989). This speech recognition method obtains good recognition performance while reducing the amount of computation by adding duration information to phonemes included in a dictionary to be recognized.
【0006】上記のワードスポッティング法では、発声
者が「えー」や「あのー」といった認識とは無関係な不
要語を発した後に辞書に登録してある単語を発した場合
でも必要な単語を正確に認識することができる。しか
し、本人の発声の有無に関係無く常に辞書内の単語との
照合を行うため、本人以外の第三者の発声音をも認識し
てしまういわゆる湧き出しの現象が起るといった問題が
ある。In the word spotting method described above, even if the speaker utters an unnecessary word such as "Eh" or "Ah" unrelated to recognition and then utters a word registered in the dictionary, the necessary word can be accurately detected. Can be recognized. However, since the collation is always performed with words in the dictionary irrespective of the presence / absence of the utterance of the person, there is a problem that a so-called swelling phenomenon occurs in which the utterance sound of the third person other than the person is recognized.
【0007】本発明は、より正確に音声認識を行うこと
のできる音声認識装置を提供することを目的とする。An object of the present invention is to provide a speech recognition device capable of performing speech recognition more accurately.
【0008】[0008]
【課題を解決するための手段】本発明の第1の音声認識
装置は、音声認識用の単語辞書データベースと、入力さ
れる音声から音声特徴量を演算する音声入力部と、上記
演算した音声特徴量と、上記辞書データベースに記憶し
てある各単語との類似度を求める照合部と、上記照合部
において求められる類似度が最大となった単語の内、後
に類似度が最大となる他の単語がない単語を特定する特
定手段と、特定手段により特定された単語を認識単語と
して出力する出力手段とで構成されることを特徴とす
る。According to a first aspect of the present invention, there is provided a speech recognition apparatus comprising: a word dictionary database for speech recognition; a speech input unit for calculating a speech feature amount from inputted speech; A matching unit for calculating the amount and the similarity with each word stored in the dictionary database; and, among the words having the largest similarity determined by the matching unit, other words having the largest similarity later It is characterized by comprising a specifying means for specifying a word having no word, and an output means for outputting the word specified by the specifying means as a recognized word.
【0009】本発明の第2の音声認識装置は、上記第1
の音声認識装置であって、上記単語特定手段は、上記演
算手段により求められる類似度が所定のしきい値以上で
かつ最大となった単語の内、他に類似度が所定のしきい
値以上でかつ最大となる単語がない単語を特定すること
を特徴とする。[0009] The second speech recognition device of the present invention comprises the first speech recognition device.
The word recognition means, wherein the similarity calculated by the calculation means is equal to or greater than a predetermined threshold and the other words whose similarity is equal to or greater than a predetermined threshold And a word having no maximum word.
【0010】本発明の第3の音声認識装置は、上記何れ
かの音声認識装置であって、発声者の発声音量を測定す
る音量測定手段を備え、上記出力手段は、上記単語特定
手段により特定された単語であって、上記音量測定手段
による測定値が所定のしきい値を超えている単語を認識
単語として出力する出力手段とで構成されることを特徴
とする。A third speech recognition apparatus according to the present invention is any one of the above speech recognition apparatuses, further comprising a sound volume measuring means for measuring a sound volume of a speaker, and the output means being specified by the word specifying means. And output means for outputting, as a recognized word, words for which the measured value of the sound volume measuring means exceeds a predetermined threshold value.
【0011】[0011]
【発明の実施の形態】以下、添付の図面を用いて本発明
の音声認識装置の実施の形態について説明する。図1
は、音声認識装置100の構成図である。音声認識装置
100は、中央演算処理装置(以下、CPUという)1
を中心に、音声を収集するマイク3、マイク3により収
集されたアナログ信号を認識処理用にディジタル信号に
変換するA/D変換器2、音声認識処理プログラムが格
納されているROM4、音声認識処理の実行時に上記プ
ログラムが展開されるRAM5、音声認識処理の結果を
出力する例えばディスプレイ等の出力装置6、及び、所
定の単語について構成された標準辞書データベース7と
で構成される。なお、出力装置6の代わりに自動車等に
搭載されるナビゲーションシステムを接続し、音声認識
結果を当該ナビゲーションシステムの行き先情報として
出力する構成も考えられる。BRIEF DESCRIPTION OF THE DRAWINGS FIG. 1 is a block diagram showing a speech recognition apparatus according to an embodiment of the present invention. FIG.
1 is a configuration diagram of the voice recognition device 100. The voice recognition device 100 includes a central processing unit (hereinafter referred to as a CPU) 1
, A microphone 3 for collecting voice, an A / D converter 2 for converting an analog signal collected by the microphone 3 into a digital signal for recognition processing, a ROM 4 storing a voice recognition processing program, a voice recognition process And a RAM 5 on which the above-mentioned program is developed at the time of execution of the program, an output device 6 such as a display for outputting the result of the speech recognition processing, and a standard dictionary database 7 for predetermined words. Note that a configuration is also conceivable in which a navigation system mounted on an automobile or the like is connected instead of the output device 6, and the result of voice recognition is output as destination information of the navigation system.
【0012】図2は、CPU1により実行される音声認
識処理の処理ブロックを示す図である。マイク3により
収音された音声は、A/D変換器2においてディジタル
信号に変換された後に特徴抽出部50及び音量検知部5
1に出力される。特徴抽出部50では、入力された音声
から音声認識に必要な音声特徴量を抽出する。具体的に
は、フレームと呼ばれる所定の時間単位(例えば20m
s)毎に10次のメルーケプストラムを求める。FIG. 2 is a diagram showing processing blocks of a speech recognition process executed by the CPU 1. The sound picked up by the microphone 3 is converted into a digital signal in the A / D converter 2 and then converted into a digital signal.
1 is output. The feature extraction unit 50 extracts a speech feature amount necessary for speech recognition from the input speech. Specifically, a predetermined time unit called a frame (for example, 20 m
s) A 10th order Meru cepstrum is determined every time.
【0013】標準辞書データベース7は、各単語毎に、
単語の音素列(文字列)から生成される各音素毎の平均
的なメルーケプストラムベクトル、各音素の継続時間、
及び、各音素の状態遷移を示すオートマトン等の情報を
記憶している。例えば、上述するように、音声認識結果
をナビゲーションシステムの行き先情報として用いる場
合、標準辞書データベース7は、地名や建物の名前等の
単語で構成される。The standard dictionary database 7 stores, for each word,
Average melu-cepstral vector for each phoneme generated from a phoneme string (character string) of a word, duration of each phoneme,
Further, information such as an automaton indicating a state transition of each phoneme is stored. For example, as described above, when the speech recognition result is used as destination information of the navigation system, the standard dictionary database 7 includes words such as place names and building names.
【0014】照合部52は、上記標準辞書データベース
7内に格納されている各単語の上記情報と特徴抽出部5
0で求めた特徴量との比較演算を行い、各単語の音素の
状態遷移を判断しながら距離ベクトル(以下、類似度と
いう)Sを求め、求めた各単語毎の類似度Sを当該単語
の識別番号(例えばJISコード)と供に結果判断出力
部54に出力する。The collating unit 52 includes the information of each word stored in the standard dictionary database 7 and the feature extracting unit 5.
0, a distance vector (hereinafter referred to as similarity) S is determined while judging the state transition of the phoneme of each word, and the calculated similarity S of each word is determined. The data is output to the result determination output unit 54 together with the identification number (for example, JIS code).
【0015】一方、音量検知部51は、フレーム(20
ms)毎に、入力された音声の最大音量Vを求め、求め
た音量値Vを結果判断出力部54に出力する。On the other hand, the volume detecting section 51 detects the frame (20
Every ms), the maximum volume V of the input voice is obtained, and the obtained volume value V is output to the result determination output unit 54.
【0016】図3は、発声者本人が発声した場合の類似
度Sと音量最大値Vの遷移と、第三者が発声した場合の
類似度Sと音量最大値Vの遷移を表す図である。図示す
るように、音量最大値Vは、一般に音声が意識して発声
されたときには大きな値になる。また、無意識に発した
音声、周囲雑音や、発声者以外の第三者による発声の場
合には、音量最大値Vは比較的小さくなる。FIG. 3 is a diagram showing the transition between the similarity S and the maximum volume value V when the speaker himself speaks, and the transition between the similarity S and the maximum volume value V when a third person speaks. . As shown in the figure, the maximum sound volume value V generally becomes large when the voice is consciously uttered. In the case of unconsciously uttered voice, ambient noise, or utterance by a third party other than the speaker, the maximum sound volume value V is relatively small.
【0017】結果判断出力部54では、類似度の最大に
なった単語(類似度が上昇した後に降下し始めた単語)
の検出を行い、当該単語の類似度が最大になってから所
定の応答時間Tthが経過するまでの間に、他に類似度の
最大になった単語がないか調べる。この応答時間Tthの
間に他に類似度の最大になった単語が検出されない場合
には、この時点での音量最大値Vが所定のしきい値Vth
を超えていることを条件として、当該類似度の最大にな
った単語を認識単語として出力する。In the result judgment output unit 54, the word having the maximum similarity (the word that has started to fall after the similarity has increased)
Is detected, and it is checked whether or not there is another word having the maximum similarity between the time when the predetermined response time T th elapses after the similarity of the word becomes maximum. If no other word having the maximum similarity is detected during the response time Tth , the volume maximum value V at this time is set to the predetermined threshold value Vth.
The word having the maximum similarity is output as a recognized word on condition that the number of words exceeds the threshold.
【0018】一方、上記応答時間Tthの経過前に他に類
似度の最大になった単語が検出された場合には、当該単
語の検出時より再び応答時間Tthが経過するまでの間
に、他に類似度の最大になった単語がないか調べる。Meanwhile, if prior to the expiration of the response time T th word in which the maximum similarity to the other is detected, until again the response time from the time of detecting T th of the word has passed , And whether there is any other word having the highest similarity.
【0019】また、上記応答時間Tthの間に他に類似度
の最大になった単語が検出されない場合であっても音量
最大値Vが所定のしきい値Vthを超えていない場合に
は、当該単語が第三者により発声され湧き出した単語で
あると判断して類似度及び音量の測定値を初期化した後
に、上記処理をやり直す。Even when no other word having the maximum similarity is detected during the response time Tth , if the maximum sound volume value V does not exceed the predetermined threshold value Vth , Then, after determining that the word is a word uttered and spouted by a third party and initializing the measured values of the similarity and the volume, the above process is repeated.
【0020】図4は、上記CPU1の実行する音声認識
処理のフローチャートである。また、図5は、結果判断
出力部54において「しんよこはま」と「しんよこはま
きた」の2つの単語の類似度の遷移を示す図である。以
下、図4を参照しつつ音声認識処理の手順について説明
する。FIG. 4 is a flowchart of the voice recognition process executed by the CPU 1. FIG. 5 is a diagram showing the transition of the degree of similarity between the two words “Shinyokohama” and “Shinyokohama” in the result determination output section 54. Hereinafter, the procedure of the voice recognition processing will be described with reference to FIG.
【0021】まず、フレーム(20ms)毎に入力され
る音声の類似度及び最大音量の値を初期化する(ステッ
プS1)。音声の入力を受け付ける(ステップS2)。
特徴量の抽出を行う(ステップS3)。標準辞書データ
ベース7内に記憶している各単語毎に類似度Sを求める
(ステップS4)。類似度Sが最大Smaxになった単
語、例えば、図5に示すように「しんよこはま」がある
場合(ステップS5でYES)、応答時間タイマーを初
期化する(ステップS6)。ここで、類似度Sma xがし
きい値Sthを超えていることを確認した後に(ステップ
S7でYES)、タイマーをスタート、あるいは、既に
スタートしている場合には継続動作させる(ステップS
8)。類似度Smaxがしきい値Sthを超えていない場合
(ステップS7でNO)、上記ステップS2に戻り、次
に類似度が最大となる単語の検出を行う。First, the values of the similarity and the maximum volume of the voice input for each frame (20 ms) are initialized (step S1). A voice input is accepted (step S2).
The feature amount is extracted (step S3). A similarity S is obtained for each word stored in the standard dictionary database 7 (step S4). If there is a word whose similarity S has reached the maximum Smax , for example, "Shinyokohama" as shown in FIG. 5 (YES in step S5), the response time timer is initialized (step S6). Here, after confirming that the similarity S ma x exceeds the threshold value S th (YES at step S7), and starts a timer, or to already continue operation if you started (step S
8). If the similarity S max does not exceed the threshold value S th (NO in step S7), the process returns to step S2, and the next word having the maximum similarity is detected.
【0022】類似度Smaxがしきい値Sthを超えている
が(ステップS7でYES)、応答時間タイマーの値t
がしきい値Tthを超えていない場合には(ステップS9
でNO)、上記ステップS2に戻り、他に類似度が最大
となる単語の検出を行う。ここで、応答時間タイマーの
値tがしきい値Tthを経過する前に、他に類似度Sが最
大Smaxとなった単語、例えば、図5に示すように「し
んよこはまきた」が検出された場合(ステップS5でY
ES)、応答時間タイマーを再度初期化する(ステップ
S6)。他に類似度Sが最大Smaxとなる単語が検出さ
れること無く、応答時間タイマーの値tがしきい値Tth
を経過した場合(ステップS9でYES)、最大音量値
Vが所定のしきい値Vthを超えていることを条件として
(ステップS10でYES)、上記認識した単語、図5
の例では「しんよこはまきた」を確定し(ステップS1
1)、これを出力する(ステップS12)。Although the similarity S max exceeds the threshold value S th (YES in step S7), the response time timer value t
Does not exceed the threshold value Tth (step S9).
NO), the process returns to step S2, and another word having a maximum similarity is detected. Here, before the response time timer value t exceeds the threshold value T th , another word having a similarity S of the maximum S max , for example, “Shinyokohamakita” as shown in FIG. 5 is detected. (Yes in step S5)
ES), the response time timer is initialized again (step S6). The value t of the response time timer is set to the threshold value T th without detecting any other word having the maximum similarity S at the maximum S max.
Has elapsed (YES in step S9), the condition is determined on the condition that the maximum volume value V exceeds a predetermined threshold value Vth (YES in step S10).
In the example of (1), “Shinyokohama Kita” is determined (step S1
1) This is output (step S12).
【0023】[0023]
【発明の効果】本発明の第1の音声認識装置では、類似
度が最大となった単語が検出された場合、直ちに当該単
語を認識した単語の内、後に他に類似度が最大になる単
語がないか調べる。当該処理を行うことで、例えば、
「しんよこはま」と「しんよこはまきた」を正確に認識
することができる。According to the first speech recognition apparatus of the present invention, when a word having the highest similarity is detected, another word having the highest similarity later is immediately recognized from the words that have been recognized. Check for any. By performing the processing, for example,
"Shinyokohama" and "Shinyokohama" can be accurately recognized.
【0024】本発明の第2の音声認識装置では、上記第
1の音声認識装置であって、類似度が所定のしきい値よ
りも大きな単語を出力する。これにより、より正確な認
識処理を実現することができる。According to a second speech recognition apparatus of the present invention, in the first speech recognition apparatus, a word having a similarity greater than a predetermined threshold is output. Thereby, more accurate recognition processing can be realized.
【0025】また、本発明の第3の音声認識装置では、
上記何れかの音声認識装置において、類似度の他に、入
力音声の音量に基づいて発声者が発声した言葉であるの
か、又は、周囲に入る第三者が発声した言葉であるのか
の判断を行う。これにより、湧き出しによる誤認識を防
止することができる。Also, in the third speech recognition device of the present invention,
In any of the above speech recognition devices, in addition to the degree of similarity, it is determined whether the word is a word spoken by the speaker based on the volume of the input voice or a word spoken by a third party who is in the vicinity. Do. Thereby, erroneous recognition due to the source can be prevented.
【図1】 実施の形態1に係る画像処理システムの構成
図である。FIG. 1 is a configuration diagram of an image processing system according to a first embodiment.
【図2】 システム構成図である。FIG. 2 is a system configuration diagram.
【図3】 ある単語についての類似度Sと音量最大値V
との関係を示す図である。FIG. 3 shows a similarity S and a maximum sound volume V for a certain word.
FIG.
【図4】 CPUの実行する音声認識処理のフローチャ
ートである。FIG. 4 is a flowchart of a voice recognition process executed by a CPU.
【図5】 2つの単語「しんよこはま」、「しんよこは
まきた」に対して実行される音声認識処理の様子を示す
図である。FIG. 5 is a diagram illustrating a state of a voice recognition process performed on two words “Shinyokohama” and “Shinyokohama”.
1 CPU、2 A/D変換器、3 マイク、4 RO
M、5 RAM、6 出力装置、7 単語辞書データベ
ース、50 特徴抽出部、51 音量検知部、52 照
合部、53 標準辞書、54 結果判断出力部。1 CPU, 2 A / D converter, 3 microphone, 4 RO
M, 5 RAM, 6 output devices, 7 word dictionary database, 50 feature extraction unit, 51 volume detection unit, 52 collation unit, 53 standard dictionary, 54 result judgment output unit.
Claims (3)
と、 上記演算した音声特徴量と、上記辞書データベースに記
憶してある各単語との類似度を求める照合部と、 上記照合部において求められる類似度が最大となった単
語の内、後に類似度が最大となる他の単語がない単語を
特定する特定手段と、 特定手段により特定された単語を認識単語として出力す
る出力手段とで構成されることを特徴とする音声認識装
置。1. A word dictionary database for voice recognition, a voice input unit for calculating a voice feature amount from an input voice, a voice input unit for calculating the voice feature amount, and each word stored in the dictionary database. A matching unit that determines the similarity, a specifying unit that specifies a word that has no other word that has the highest similarity later, and a specifying unit that specifies a word that has the highest similarity calculated by the matching unit. And an output unit that outputs the recognized word as a recognized word.
られる類似度が所定のしきい値以上でかつ最大となった
単語の内、後に類似度が所定のしきい値以上でかつ最大
となる単語がない単語を特定する請求項1に記載の音声
認識装置。2. The method according to claim 1, wherein the identifying unit determines that the similarity obtained by the matching unit is equal to or more than a predetermined threshold value and is the maximum, and then the similarity is equal to or more than the predetermined threshold value and is the maximum. The speech recognition device according to claim 1, wherein a word having no word is specified.
装置であって、 発声者の発声音量を測定する音量測定手段を備え、 上記出力手段は、上記特定手段により特定された単語の
内、上記音量測定手段による測定値が所定のしきい値を
超えている単語を認識単語として出力する出力手段とで
構成される音声認識装置。3. The voice recognition device according to claim 1, further comprising: a sound volume measuring unit that measures a sound volume of a speaker, wherein the output unit outputs a word of the word specified by the specifying unit. Output means for outputting, as a recognition word, a word whose measured value by the volume measurement means exceeds a predetermined threshold value.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000328747A JP2002132293A (en) | 2000-10-27 | 2000-10-27 | Speech recognizer |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000328747A JP2002132293A (en) | 2000-10-27 | 2000-10-27 | Speech recognizer |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2002132293A true JP2002132293A (en) | 2002-05-09 |
Family
ID=18805560
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000328747A Pending JP2002132293A (en) | 2000-10-27 | 2000-10-27 | Speech recognizer |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2002132293A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010091962A (en) * | 2008-10-10 | 2010-04-22 | Denso Corp | Information processing apparatus, interface providing method, and program |
JP2012252026A (en) * | 2011-05-31 | 2012-12-20 | Ntt Docomo Inc | Voice recognition device, voice recognition method, and voice recognition program |
-
2000
- 2000-10-27 JP JP2000328747A patent/JP2002132293A/en active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010091962A (en) * | 2008-10-10 | 2010-04-22 | Denso Corp | Information processing apparatus, interface providing method, and program |
JP2012252026A (en) * | 2011-05-31 | 2012-12-20 | Ntt Docomo Inc | Voice recognition device, voice recognition method, and voice recognition program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6192337B1 (en) | Apparatus and methods for rejecting confusible words during training associated with a speech recognition system | |
JP3004883B2 (en) | End call detection method and apparatus and continuous speech recognition method and apparatus | |
EP1301922B1 (en) | System and method for voice recognition with a plurality of voice recognition engines | |
US5913192A (en) | Speaker identification with user-selected password phrases | |
US7058573B1 (en) | Speech recognition system to selectively utilize different speech recognition techniques over multiple speech recognition passes | |
US6618702B1 (en) | Method of and device for phone-based speaker recognition | |
JP4433704B2 (en) | Speech recognition apparatus and speech recognition program | |
US20020091522A1 (en) | System and method for hybrid voice recognition | |
US20070038453A1 (en) | Speech recognition system | |
CN103971685A (en) | Method and system for recognizing voice commands | |
EP1734509A1 (en) | Method and system for speech recognition | |
US8874438B2 (en) | User and vocabulary-adaptive determination of confidence and rejecting thresholds | |
JP3876703B2 (en) | Speaker learning apparatus and method for speech recognition | |
KR100930587B1 (en) | Confusion Matrix-based Speech Verification Method and Apparatus | |
JP3496706B2 (en) | Voice recognition method and its program recording medium | |
JP2996019B2 (en) | Voice recognition device | |
JP3444108B2 (en) | Voice recognition device | |
JP2000250593A (en) | Device and method for speaker recognition | |
KR20130068621A (en) | Apparatus and method for automated processing the large speech data based on utterance verification | |
JP3633254B2 (en) | Voice recognition system and recording medium recording the program | |
JP2002132293A (en) | Speech recognizer | |
EP1067512B1 (en) | Method for determining a confidence measure for speech recognition | |
JP4749990B2 (en) | Voice recognition device | |
JP4281369B2 (en) | Voice recognition device | |
JP4391031B2 (en) | Voice recognition device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040825 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060425 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060626 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070206 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070409 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20070529 |