JP2001195082A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JP2001195082A
JP2001195082A JP2000002096A JP2000002096A JP2001195082A JP 2001195082 A JP2001195082 A JP 2001195082A JP 2000002096 A JP2000002096 A JP 2000002096A JP 2000002096 A JP2000002096 A JP 2000002096A JP 2001195082 A JP2001195082 A JP 2001195082A
Authority
JP
Japan
Prior art keywords
distance
word
similarity
unit
phoneme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000002096A
Other languages
English (en)
Other versions
JP4393648B2 (ja
Inventor
Chiharu Kawai
千晴 河合
Hiroshi Katayama
浩 片山
Takehiro Nakai
丈裕 中井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2000002096A priority Critical patent/JP4393648B2/ja
Priority to US09/699,777 priority patent/US6701292B1/en
Publication of JP2001195082A publication Critical patent/JP2001195082A/ja
Application granted granted Critical
Publication of JP4393648B2 publication Critical patent/JP4393648B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates

Abstract

(57)【要約】 【課題】 入力音声と標準パターンの比較にフレーム間
距離を用いた場合に雑音の影響を抑制して認識率を向上
させる音声認識装置を提供する。 【解決手段】 入力された音声を認識する音声認識装置
であって、入力音声のフレーム毎に特徴ベクトルを算出
する分析部と、補正距離を予め記憶する補正値記憶部
と、フレームの特徴ベクトルと各音素特徴ベクトルとの
ベクトル間距離を各音素毎に計算するベクトル間距離計
算部と、全ての音素についての距離の平均値を算出する
平均値計算部と、各音素標準パターンについて、(各ベ
クトル距離−平均値+補正距離)で得られる補正された
ベクトル間距離を計算する補正部と、補正されたベクト
ル間距離を累積して、累積ベクトル間距離と各単語標準
パターンとを比較して、音声認識する識別部とを具備し
て構成する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識装置に関
する。特に、雑音環境下での認識率の改善及び音声認識
における演算量の削減に関する。
【0002】
【従来の技術】近年、音声認識を用いた製品の提供が盛
んになりつつある。現状の音声認識技術では、静かな環
境で使うなどの様々な制約が課せられないと、良い性能
が得られないという問題がある。これらの制約は、音声
認識の普及を妨げる大きな要因になっており、雑音下の
音声認識率の向上が求められている。
【0003】従来、雑音環境下での認識率を改善する音
声認識方法の1つとして、特開平5−210396号公
報に記載された方法(従来例1)がある。この従来例1
は、ベクトル間類似度を同じフレームにおける最大類似
度で補正する方法である。以下、この方法について説明
をする。入力された音声信号の特徴分析を行い、特徴ベ
クトルの時系列に変換する。特徴ベクトル時系列の1フ
レームの特徴ベクトルと予め登録しておいた標準パター
ンを構成する特徴ベクトルとのベクトル間の距離から確
率分布に従って、ベクトル間類似度を求める。各フレー
ムについてのベクトル間類似度の最大値を求める。
【0004】各フレームについて、ベクトル間類似度の
最大値から、補正値を求めて、該補正値で補正して、フ
レーム補正類似度を求める。フレーム補正類似度を累積
した累積補正類似度を算出する。累積補正類似度と閾値
とを比較して、累積類似度が閾値よりも大きい時に、累
積類似度に該当する音声が入力されたものと診断する。
このように、各フレームについてベクトル間類似度を最
大類似度に従って補正するため、雑音の影響が相殺され
て認識率が向上する。
【0005】また、ワードスポッティングにおける認識
率を改善する音声認識方法の1つとして、特開昭63−
254498公報に記載された方法(従来例2)があ
る。この従来例2は、類似度の1位と2位との差もしく
は1位と2位の比を用いる方法である。以下、この方法
の説明をする。入力音声から特徴パラメータを抽出す
る。特徴パラメータと各標準パターンを構成する特徴パ
ラメータとの類似度を求める。類似度を累積した標準パ
ターン毎の累積類似度を算出する。
【0006】このとき、累積区間の開始時点と終了時点
を少しずつずらすワードスポッティングにより累積類似
度を求める。累積類似度を大きい順にソートし、第1
位、第2位を決定する。第1位と第2位との差もしくは
第1位と第2位の比(第1位/第2位)と、閾値との比
較を行い、類似度間の計算結果が閾値を越える場合に、
入力音声が第1位の累積類似度に対応する単語であると
判断する。このように、類似度間の計算結果と閾値とを
比較することにより、確からしい認識結果のみを単語と
して認識するので、認識率が向上する。
【0007】
【発明が解決しようとする課題】従来例1では、入力音
声と標準パターンの比較に、確率分布により求められる
フレーム間類似度を用いており、この場合は最大類似度
により雑音をある程度推定することができる。しかし、
フレーム間類似度の代わりに、ベクトル間距離を使用し
た場合、ベクトル間距離の最小値は音素の種類等により
異なるので、ベクトル間距離の最小値により雑音による
影響を推定することが難しい。そのため、入力音声と標
準パターンとの比較に、フレーム間距離を用いた場合に
従来例1を適用できないという問題点がある。
【0008】従来例2では、雑音を音声と誤って判断し
ないように閾値が厳しく設定されるため、雑音などの影
響で入力音声と標準パターンの類似度が低くなる場合、
音声を検出できないことが多い。
【0009】図14は、ワードスポティングの問題点を
示す図である。図14に示すように、ワードスポティン
グでは、音声が存在する可能性のある様々な始端及び終
端からなるA1,A2,A3,A4やB1,B2,B
3,B4やC1,C2,C3,C4等の全ての音声区間
について、フレーム間累積類似度やフレーム間距離の累
積演算を、DP(Dynamic Programming)マッチング法や
HMM法等を用いて行う。例えば、図14では、入力音
声と一致する音声区間C2の類似度が最大となる。しか
し、音声が存在する可能性のある全ての音声区間に対し
て、累積演算を行うため、ワードスポティングでは、演
算量が多いという問題点がある。この問題点を回避する
ために終端フリーの方法がある。しかし、終端フリーで
は、以下の問題点がある。
【0010】図15は、終端フリーの問題点を示す図で
ある。図15に示すように、終端フリーの場合は、始端
を特定して、始端から一定時間長までの区間に対して、
始端から該区間に含まれる区間までを各音声区間とし
て、累積演算が行われる。例えば、ワードスポティング
では、音声区間A1…A4,B1…B4,C1…C4に
対して、終端フリーでは、音声区間A,B,Cとなり演
算量を削減することできる。しかし、始端から一定時間
長の音声が入力されるまでは、音声区間が確定しないた
めに遅延が生じるという問題点がある。例えば、音声区
間Cでは、遅延τが生じる。
【0011】本発明の目的は、入力音声と標準パターン
の比較にフレーム間距離を用いた場合に雑音の影響を抑
制して認識率を向上させる音声認識装置を提供すること
である。
【0012】本発明の他の目的は、雑音などの影響で入
力音声と標準パターンのフレーム間類似度が低く又はフ
レーム間距離が大きくなった場合にも音声を検出できる
音声認識装置を提供することである。
【0013】更に、本発明の他の目的は、ワードスポテ
ィング時の演算量を減らすと共に終端フリー時の遅延量
を少なくすることのできる音声認識装置を提供すること
である。
【0014】
【課題を解決するための手段】本発明の側面によれば、
入力された音声を認識する音声認識装置であって、複数
の音素標準パターンの音素特徴ベクトルを予め記憶する
音素標準特徴パターン記憶部と、入力音声のフレーム毎
に特徴ベクトルを算出する分析部と、前記フレームの前
記特徴ベクトルと前記各音素特徴ベクトルとのベクトル
間距離を音素毎に計算するベクトル間距離計算部と、前
記全ての音素についての前記ベクトル間距離の平均値を
前記フレーム毎に算出する平均値計算部と、前記音素毎
に計算されたベクトル距離から前記フレーム毎に算出さ
れた前記平均値を減算し、その減算したベクトル距離を
補正する補正部と、前記音素の並び情報を定義する単語
標準パターンを記憶する単語標準パターン記憶部と、前
記補正されたベクトル間距離を累積して、累積ベクトル
間距離と前記単語標準パターンとを比較して、音声認識
する識別部と、を具備したことを特徴とする音声認識装
置が提供される。
【0015】本発明の他の側面によれば、入力された音
声を認識する音声認識装置であって、入力音声の特徴ベ
クトルを算出する分析部と、単語標準パターンの特徴ベ
クトルを予め記憶する単語標準パターン記憶部と、前記
入力音声の各区間の前記特徴ベクトルと前記単語標準パ
ターンとを比較して、前記各区間の入力音声について、
前記各単語標準パターンとの各第1類似度を計算する類
似度算出部と、前記各第1類似度又は第1類似度間の計
算結果と第1閾値とを比較して、該第1類似度に該当す
る単語標準パターンの単語が入力音声に該当する単語で
あるか否かを判定する第1判定部と、第2類似度又は第
2類似度間の計算結果を記憶する候補記憶部と、前記第
1判定部により該当する単語であると判定されなかった
前記第1類似度又は第1類似度間の計算結果が前記第1
閾値よりも小さな値である第2閾値よりも大きく且つ前
記第2類似度又は第2類似度間の計算結果よりも大きい
とき、第1類似度又は第1類似度間の計算結果を前記第
2類似度又は第2類似度間の計算結果として、前記候補
記憶部に記憶する候補判定部と、前記第1判定部により
所定時間内に該当する単語であると判定されなかった場
合、前記候補記憶部に記憶された第2類似度又は第2類
似度間の計算結果に基いて、第2類似度に該当する単語
標準パターンの単語が入力音声に該当する単語であると
判定する第2判定部とを具備したことを特徴とする音声
認識装置が提供される。
【0016】本発明の更に他の側面によれば、入力され
た音声を認識する音声認識装置であって、複数の音素の
音素標準特徴ベクトルを予め記憶する音素標準パターン
記憶部と、入力音声のフレーム毎に特徴ベクトルを計算
する分析部と、各フレームについて、各音素とのベクト
ル間距離を記憶する距離記憶部と、前記フレームの前記
特徴ベクトルと前記各音素標準特徴ベクトルとの間のベ
クトル間距離を各音素毎に算出して、前記距離記憶部に
記憶するベクトル間距離計算部と、各単語について前記
音素の並び情報を定義する単語標準パターンを記憶する
単語標準パターン記憶部と、最新ベクトル間距離から旧
ベクトル間距離へと後ろ向きに前記距離記憶部から前記
ベクトル間距離を読み出して、前記各単語について、後
ろ向きに累積距離を計算する累積距離計算部と、前記累
積距離計算部が計算した累積距離に基いて、該累積距離
に該当する単語が入力された音声であるかを判定する判
定部とを具備したことを特徴とする音声認識装置が提供
される。
【0017】
【発明の実施の形態】本発明の実施形態の説明をする前
に本発明の原理を説明する。図1は、本発明の原理図で
ある。図1に示すように、音声認識装置は、分析部2、
音素標準特徴パターン記憶部4、ベクトル間距離計算部
6、平均値計算部8、補正値記憶部10、補正部12、
単語標準パターン記憶部14及び識別部16を具備す
る。
【0018】環境雑音下で音声が入力される。分析部2
は入力された音声の各フレームの特徴ベクトルを算出し
て、ベクトル間距離計算部6に出力する。音素標準特徴
パターン記憶部4には、各音素の音素標準特徴ベクトル
が記憶されている。ベクトル間距離計算部6は、特徴ベ
クトルと音素標準特徴ベクトルとの間のベクトル間距離
を計算する。平均値計算部8は、各音声フレームについ
て、各音素のベクトル間距離の平均値を算出する。この
平均値は、環境雑音がない状態で音声が入力された場合
の平均値と環境雑音による平均値とが加算されたもので
ある。
【0019】例えば、環境雑音がない状態でのベクトル
間距離の平均値が補正距離として補正部記憶部10に記
憶されている。補正部12は、(各音素のベクトル間距
離−平均値計算部8が計算した平均値+補正距離)を計
算する。(平均値計算部8が計算した平均値−補正距
離)は、環境雑音による平均値の推定値である。よっ
て、(各音素のベクトル間距離−平均値計算部8が計算
した平均値+補正距離)は、雑音による影響がある程度
除去されたものとなる。識別部16は、補正部12によ
り補正されたベクトル間距離を累積して、累積距離と単
語標準パターン記憶部14に記憶された各単語標準パタ
ーンとを比較して、音声認識する。このとき、補正部1
2により補正されたベクトル間距離は雑音による影響が
ある程度除去されたものなので、音声認識率が向上す
る。
【0020】第1実施形態 図2は、本発明の第1実施形態による音声認識装置の構
成図である。図2に示すように、音声認識装置は、マイ
ク20、音声入力部22、分析部24、音素標準パター
ンファイル26、ベクトル間距離計算部28、補正値計
算部30、補正値記憶部32、平均距離計算部34、距
離補正部36、単語標準パターンファイル38、距離累
積部40、識別部42及び音声検出部44を具備する。
【0021】マイク20は、音声を入力する入力部であ
る。音声入力部22は、マイク20より入力された音声
信号の増幅とA/D変換を行なう。分析部24は、一定
時間、例えば、10〜20msの音声フレーム毎に、入
力音声信号に対して、ケプストラム分析等の信号処理を
施して、所定次元、例えば、34次元の特徴ベクトルを
算出する。音素標準パターンファイル26は、母音など
の音素に対して、分析部24と同様の信号処理を施して
得られた音素特徴ベクトルが音素標準パターンとして予
め登録されたファイルである。ベクトル間距離計算部2
8は、分析部24により算出された各音声フレームの特
徴ベクトルと各音素標準パターンとのユークリッド距離
を計算する。
【0022】図3は、環境雑音による影響を示す図であ
る。この図は、環境雑音無し場合と環境雑音有りの場合
に、「ア」が入力されたときの、入力音声「ア」と各音
素標準パターン「ア」…とのベクトル間距離を縦軸に、
時間を横軸にそれぞれ示している。尚、音素標準パター
ンは環境雑音無しの状態で入力された音声に基いて算出
されたものである。
【0023】例えば、環境雑音無しの場合では、入力音
声「ア」と音素標準パターン「ア」とのベクトル間距離
の最小は、例えば、0.1である。ここで、ベクトル間
距離の最小が0でないのは、同一音でも話者等により相
違するため、音素標準パターンと入力音声の特徴ベクト
ルが一致するとは限らないことを考慮したものである。
また、例えば、入力音声「ア」と音素標準パターン
「ア」とのベクトル間距離が最小のときの、入力音声
「ア」と音素標準パターン「イ」,「ウ」…との音素ベ
クトル間距離は、0.5,0.8…である。
【0024】一方、環境雑音有りの場合は、入力音声
「ア」と音素標準パターン「ア」とのベクトル間距離の
最小は、例えば、0.5である。環境雑音無しの場合の
対応するベクトル間距離は、上述のしたように、0.1
であるので、雑音による影響が0.4である。また、例
えば、入力音声「ア」と音素標準パターン「ア」とのベ
クトル間距離が最小のときの、入力音声「ア」と音素標
準パターン「イ」,「ウ」…との音素ベクトル間距離
は、0.7,1.1…なので、雑音による影響が0.
2,0.3…である。
【0025】このように、雑音による影響は、音素標準
パターン及び入力音声により異なる。しかし、入力音声
のベクトルと音素標準パターンとのベクトル間距離の雑
音による影響を全音素標準パターンについて平均を取る
と、入力音声の違いによらず略一定の値を取ることが推
測される。この雑音による影響の平均値は、(入力音声
のベクトルと各音素標準パターンとのベクトル間距離の
平均値−環境雑音無しで入力された入力音声のベクトル
と各音素標準パターンとのベクトル間距離の平均値(補
正距離))であると推定される。
【0026】そこで、補正値計算部28は、環境雑音下
で入力された音声の雑音による影響を推定するための上
記補正距離を予め計算して、補正値記憶部32に格納す
る。補正値記憶部32は、補正距離を記憶するメモリで
ある。平均距離計算部34は、ベクトル間距離計算部2
8により計算された入力音声フレームと各音素標準パタ
ーンとのベクトル間距離の全音素標準パターンについて
の平均値を計算し、距離補正部36に出力する。距離補
正部36は、ベクトル間距離計算部28により計算され
た入力音声フレームと各音素標準パターンとのベクトル
間距離と平均値計算部34より出力された平均値と補正
値記憶部32に記憶された補正距離より(各ベクトル間
距離−平均値+補正距離)を計算して、補正ベクトル間
距離を距離累積部40に出力する。
【0027】単語標準パターンファイル38は、各単語
を構成する音素の並び情報が格納されたファイルであ
る。距離累積部40は、ワードスポティング等により入
力音声の始点と終点とより単語区間を設定して、単語標
準パターンファイル38に格納された各単語の音素の並
び情報に従って、距離補正部36により出力される該単
語区間に含まれる補正ベクトル間距離をDPマッチング
法やHMM法を用いて累積加算して、各単語標準パター
ンの累積距離を算出する。識別部42は、各単語標準パ
ターンの累積距離と閾値とを比較して、単語標準パター
ンの累積距離<閾値ならば、入力音声が該単語標準パタ
ーンの単語に該当するものと判断する。音声検出部44
は、識別部42が音声認識した単語を図示しないスピー
カなどの出力装置に出力する。
【0028】以下、図2の音声認識装置の動作説明をす
る。
【0029】(a) 補正距離の計算 図4は、図2中の補正値計算部30のフローチャートで
ある。ステップS2において、環境雑音無しの状態で音
素に該当する音声をマイク20より入力する。音声入力
部22は、入力された音声を増幅してA/D変換する。
分析部24は、A/D変換された音声からケプストラム
等の特徴ベクトルを算出する。ステップS4において、
ベクトル間距離計算部28は、入力された音声のフレー
ムの特徴ベクトルと音素標準パターンファイル26に格
納されている各音素標準パターンとのベクトル間距離を
計算する。ステップS6において、補正値計算部30
は、その音素標準パターンについて、ベクトル間距離の
最小値を算出すると共に該最小値となるフレームを求め
る。ステップS8において、補正値計算部30は、次の
音素標準パターンが有るか否かを判定する。次の音素標
準パターンが有れば、ステップS4に戻る。次の音素標
準パターンが無ければ、ステップS10に進む。
【0030】ステップS10において、補正値計算部3
0は次の音素が有るか否かを判定する。次の音素が有れ
ば、ステップS2に戻る。次の音素が無ければ、ステッ
プS12に進む。ステップS12において、補正値計算
部30は、入力された各音素に該当する入力音声に対し
て、全て音素標準パターンについてのベクトル間距離の
最小値となるフレームにおける全音素標準パターンとの
ベクトル間距離を求める。このベクトル間距離を全ての
音素に該当する入力音声について、求める。そして、こ
れら全てのベクトル間距離の平均値を求めて、これを補
正距離とする。ステップS14において、補正値計算部
30は、補正距離を補正値記憶部32に格納する。
【0031】(b) 音声認識 空調音等の機械音や人間等の背景雑音などの環境雑音下
で、音声がマイク20より入力されたとする。例えば、
「KAWAI」と入力されたとする。マイク20は、入
力された音声を電気信号に変換する。音声入力部22
は、マイク20より入力された音声信号を増幅してA/
D変換する。分析部24は、一定時間、例えば、10〜
20msの音声フレーム毎に、入力音声信号に対して、
ケプストラム分析等の信号処理を施して、所定次元、例
えば、34次元の特徴ベクトルを算出する。
【0032】図5は、図2中のベクトル間距離計算部2
8、平均距離計算部34及び距離補正部36及び距離累
積部の処理結果を示す図である。ベクトル間距離計算部
28は、分析部24により算出された各音声フレームの
特徴ベクトルと各音素標準パターンとのベクトル間距離
(ユークリッド距離)を計算する。例えば、「KA」,
「WA」,「I」の音声入力に対して、「KA」,「W
A」,「I」に該当する音素標準パターンとのベクトル
間距離は、図5中の補正前ベクトル間距離(a)に示す
ようになる。このとき、各音素標準パターンとのベクト
ル間距離は、環境雑音による影響を受けている。
【0033】平均距離計算部34は、各音声フレームに
ついて、ベクトル間距離計算部28により計算された入
力音声フレームと各音素標準パターンとのベクトル間距
離の全音素標準パターンについての平均ベクトル間距離
を計算して、距離補正部36に出力する。距離補正部3
6は、ベクトル間距離計算部28により計算された入力
音声フレームと各音素標準パターンとのベクトル間距離
と、平均値計算部34より出力された平均値と補正値記
憶部32に記憶された補正距離より(ベクトル間距離−
平均値+補正距離)を計算して、補正後ベクトル間距離
を距離累積部40に出力する。
【0034】この計算結果は、例えば、「KA」,「W
A」,「I」に該当する音素標準パターンについては、
図5中の補正後ベクトル間距離(b)に示すようにな
る。これにより、環境雑音下で入力された音声について
は、雑音の影響が除去されたベクトル間距離となってい
る。また、環境雑音が無い状態で音声が入力される場合
があるが、この場合は、平均ベクトル間距離と補正距離
とが略等しくなるので、補正後ベクトル間距離と補正前
ベクトル間距離が略等しくなり、音声認識率が低下する
ことがない。
【0035】距離累積部40は、ワードスポティング等
により入力音声単語の始端と終端とより単語区間を設定
して、単語標準パターンファイル38に格納された各単
語の音素の並び情報に従って、距離補正部36により出
力される該単語区間に含まれる補正ベクトル間距離をD
Pマッチング法やHMM法を用いて累積加算して、各単
語標準パターンの累積距離を算出する。
【0036】例えば、単語「KAWAI」に該当する累
積ベクトル間距離については、図5中の累積ベクトル間
距離に示すようになる。識別部42は、各単語標準パタ
ーンの累積距離と閾値とを比較して、単語標準パターン
の累積距離<閾値ならば、入力音声が単語標準パターン
の単語に該当するものと判断する。
【0037】例えば、環境雑音下で入力された「KAW
AI」の入力音声は、補正前ベクトル間距離の累積距離
では環境雑音によりベクトル間距離が大きくなり、閾値
を越えてしまうことがある。しかし、この場合でも、補
正後ベクトル距離の累積距離では環境雑音による影響が
ある程度除去されているので、閾値以下となることがあ
り、環境雑音下での音声認識率が向上する。しかも、環
境雑音が無しの状態で音声入力された場合であっても、
音声認識率が低下することがない。音声検出部44は、
識別部42が音声認識した単語を図示しないスピーカな
どの出力装置に出力する。
【0038】以上説明した第1実施形態によれば、距離
ベクトルを使用した場合でも、環境雑音下での音声認識
率が向上する。
【0039】第2実施形態 図6は、本発明の第2実施形態による音声認識装置の構
成図であり、図2中の構成要素と実質的に同一の構成要
素には同一の符号を付している。図6に示すように、音
声認識装置は、マイク20、音声入力部22、分析部2
4、ベクトル間類似度計算部50、音素標準パターンフ
ァイル52、累積類似度計算部54、単語標準パターン
ファイル56、判定部58、閾値レジスタ60、候補閾
値レジスタ62、候補判定部64、候補バッファ66、
制御部68、音声応答部70、タイマ72及びスピーカ
74を具備する。
【0040】ベクトル間類似度計算部50は、音素標準
パターンファイル52に登録されている各音素標準パタ
ーンに対して定義された確率密度関数を音声フレームの
特徴ベクトルに適用して、各音素標準パターンのベクト
ル間類似度を計算する。例えば、ベクトル間類似度は、
0〜1までの実数であり、1に近い程、音声フレームが
音素標準パターンに類似していることを示す。尚、本実
施形態では、ベクトル間類似度を計算しているが、第1
実施形態と同様にベクトル間距離を計算しても勿論良
い。
【0041】音素標準パターンファイル52は、各音素
標準パターンの特徴ベクトル空間における確率密度関数
が予め登録されたファイルである。累積類似度計算部5
4は、単語標準パターンファイル56に登録された各単
語標準パターンを参照して、各単語を構成する音素情報
から累積類似度を計算する。単語標準パターンファイル
56は、各単語標準パターンの音素の並び情報が予め格
納されたファイルである。
【0042】判定部58は、閾値レジスタ60に予め格
納された第1閾値と、α=(単語標準パターンの第1位
累積類似度又は第1位累積類似度と第2位累積類似度と
の差や比等の累積類似度間の計算結果)とを比較する。
そして、第1閾値<αならば、制御部68に音声認識で
きた旨及び音声認識した単語を通知する。また、判定部
58は第1閾値≧αならば、候補判定部64にαを出力
する。尚、累積類似度の代わりに累積距離を使用する場
合は、累積距離又は累積距離間の計算結果<閾値なら
ば、制御部68に音声認識できた旨及び音声認識した単
語を通知する。
【0043】候補閾値レジスタ62は、候補閾値を格納
するレジスタである。候補閾値は、第1閾値よりも小さ
く且つ環境雑音の影響により累積類似度が小さくなって
音声認識率が低下することを防止することを考慮して予
め設定された値である。候補判定部64は、(判定部5
8より入力されたα)>候補閾値且つ(α>β=(候補
バッファ66に格納されている第1位累積類似度又は第
1位累積類似度と第2位累積類似度との差や比等の累積
類似度間の計算結果)のとき、候補バッファ66に格納
されているβを削除して、判定部58より入力されたα
を候補バッファ66にβとして格納する。これは、環境
雑音の影響により、判定部58が音声認識できなかった
場合でも、候補閾値を越える第1位累積類似度の単語を
音声認識して、音声認識率を向上させるためである。
【0044】制御部68は、ユーザ等の話者に対する音
声入力要求をするよう音声応答部70に行うこと、音声
入力要求を行ったときタイマ72を起動すると共に候補
バッファ66をクリアすること、判定部58から音声認
識の通知を受けると、判定部58により音声認識された
単語を出力するよう音声応答部70に要求すること、タ
イマ72がタイムアウトすると候補バッファ66にβが
格納されていれば、該βを有する第1位累積類似度に該
当する単語を出力するよう要求することを実行する。音
声応答部70は、制御部68により指示された音声をス
ピーカ74に出力する。タイマ72は、制御部68の指
示に従って、計時を開始して、一定時間経過(例えば、
話者が単語の入力を完了するまでの時間)するとタイム
アウトする。
【0045】図7は、図6中の判定部58及び候補判定
部64のフローチャートである。図8は、図6中の制御
部68のフローチャートである。以下、これらの図面を
参照して、図6の音声認識装置の動作説明をする。本例
では、自動販売機等に搭載される音声認識装置に適用し
た場合を例に説明する。
【0046】(a) 音声入力 図8中のステップS40において、制御部68は、音声
応答部70に音声入力の要求をするよう指示する。音声
応答部70は、制御部68の指示に従って、話者に対し
て、例えば、「ご希望のものを入力して下さい」等の音
声入力要求をスピーカ74を通して出力する。ステップ
S42において、制御部68は、タイマ72をセットす
る。タイマ72は計時を開始する。ステップS44にお
いて、制御部68は、候補バッファ66をクリアする。
話者は、音声入力要求に応じて、音声、例えば、「コー
ヒー」とマイク20より入力する。このとき、話者の環
境により、環境雑音が入力した音声に混入することがあ
る。マイク20は、入力された音声を電気信号に変換す
る。音声入力部22は、マイク20より入力された音声
信号を増幅してA/D変換する。
【0047】(b) 音声認識 分析部24は、一定時間、例えば、10〜20msの音
声フレーム毎に、入力音声信号に対して、ケプストラム
分析等の信号処理を施して、所定次元、例えば、34次
元の特徴ベクトルを算出する。ベクトル間類似度計算部
50は、音声フレームの特徴ベクトルに音素標準パター
ンファイル52に登録されている各音素標準パターンの
確率密度関数を適用して、各音素標準パターンのベクト
ル間類似度を計算する。このベクトル間類似度は、例え
ば、0〜1までの実数であって、1に近い程、音声フレ
ームが音素標準パターンに類似する。累積類似度計算部
54は、単語標準パターンファイル56に登録された各
単語標準パターンを参照して、各単語を構成する音素情
報から累積類似度を計算する。
【0048】図7中のステップS20において、判定部
58は、累積類似度を累積類似度計算部54より入力し
て、累積類似度を大きい順にソートして、第1位累積類
似度,第2位累積類似度を決定する。ステップS22に
おいて、判定部58は、α=(第1位累積類似度、第1
位累積類似度と第2位累積類似度との差、あるいは第1
位累積類似度と第2位累積類似度との比)と、閾値レジ
スタ60に格納されている閾値との比較を行う。α≧閾
値の場合、ステップS24に進む。α<閾値の場合、α
を候補判定部64に出力して、ステップS26に進む。
ステップS24において、判定部58は、制御部68に
音声認識できた旨及び音声認識した単語を通知する。
【0049】ステップS26において、候補判定部64
は、αと候補閾値レジスタ62に格納されている候補閾
値との比較を行う。α≧候補閾値ならば、ステップS2
8に進む。α<候補閾値ならば、ステップS20に戻
る。ステップS28において、候補判定部64は、候補
バッファ66にβ=(第1位累積類似度、第1位累積類
似度と第2位累積類似度との差、あるいは第1位累積類
似度と第2位累積類似度との比)が格納されているか否
かを判定する。
【0050】βが格納されていれば、ステップS30に
進む。βが格納されていなければ、ステップS32に進
む。ステップS30において、候補判定部64は、α,
βを比較する。α>βならば、ステップS32に進む。
α≦βならば、ステップS20に戻る。ステップS32
において、候補判定部64は、判定部58より入力され
たαをβとして、候補バッファ66に格納して、ステッ
プS20に戻る。これにより、候補バッファ66には時
間の経過と共に第1位累積類似度に関するβが格納され
る。
【0051】図8中のステップS46において、制御部
68は、判定部58が音声認識できたか否かを判別す
る。判定部58が音声認識できたならば、ステップS5
4に進む。判定部58は音声認識できていない場合は、
ステップS46に戻る。ステップS48において、制御
部68は、タイマ72がタイムアウトしたか否かを判別
する。タイマ72がタイムアウトしたならば、ステップ
S50に進む。タイマ72がタイムウウトしていなけれ
ば、ステップS46に戻る。
【0052】ステップS50において、制御部68は、
候補バッファ66にβが格納されているか否かを判別す
る。累積類似度が格納されていれば、ステップS52に
進む。βが格納されていなければ、音声が認識できなか
ったものとして終了する。ステップS52において、制
御部68は、候補バッファ66に格納されているβに該
当する第1位累積類似度の単語を出力するよう音声応答
部70に指示する。音声応答部70は、制御部68の指
示に従って、該当する単語をスピーカ74より出力す
る。
【0053】これにより、環境雑音の影響等に起因し
て、タイマ72がセットされてからタイムアウトするま
での一定時間内に判定部58が音声認識できなかった場
合は、候補閾値を越える最大の累積類似度に該当する単
語がスピーカ74より出力される。一方、判定部58が
音声認識できたならば、ステップS54において、制御
部68は、タイマ72を停止する。ステップS56にお
いて、αに該当する第1位累積類似度の単語を出力する
よう音声応答部70に指示する。音声応答部70は、制
御部68の指示に従って、該当する単語をスピーカ74
より出力する。
【0054】図9は、環境雑音下で話者が「コーヒー」
と入力したとき、累積類似度と閾値とを比較して音声認
識する場合の音声認識結果を示す図である。この図の場
合、入力された音声「コーヒー」が環境雑音の影響によ
り、累積類似度<第1閾値=0.85よりも小さく判定
部58により音声認識することはできない。環境雑音の
影響により、最初は、「コーラ」の累積類似度の方が
「コーヒー」の累積類似度よりも大きく且つ候補閾値
0.5を越えるので、「コーラ」の累積類似度が候補バ
ッファ66に格納される。しかし、最終的には、「コー
ヒー」の累積類似度の最大値が「コーラ」の累積類似度
の最大値を越えるので、「コーヒー」の累積類似度が候
補バッファ66に格納される。そして、候補バッファ6
6に格納された累積類似度に該当する「コーヒー」が認
識結果となる。
【0055】以上説明した第2実施形態によれば、環境
雑音等により判定部が音声認識をできない場合であって
も、一定時間内で一定の閾値を越える最大類似度の単語
を音声認識するので、環境雑音下での音声認識率が向上
する。
【0056】第3実施形態 図10は、本発明の第3実施形態による音声認識装置の
構成図であり、図2中の構成要素と実質的に同一の構成
要素には同一の符号を付している。図10に示すよう
に、音声認識装置は、マイク20、音声入力部22、分
析部24、音素標準パターンファイル26、ベクトル間
距離計算部80、距離バッファ81、累積距離計算部8
2、単語標準パターンファイル84及び判定部86を具
備する。
【0057】ベクトル間距離計算部80は、各音声フレ
ームの特徴ベクトルと音素標準パターンファイル26に
登録されている各音素標準パターンとの各ベクトル間距
離を計算して、距離バッファ81に書き込む。本実施形
態では、ベクトル間距離を計算する構成としているが、
勿論、ベクトル間類似度を計算してもよい。
【0058】図11は、図10中の距離バッファ81の
説明図である。図11に示すように、N個の音声フレー
ムについて、各音素標準パターンのベクトル間距離を格
納する領域が確保されている。Nは単語の認識に必要と
される最大音声フレーム数である。例えば、音素標準パ
ターンがM個であるとすると、距離バッファ81には、
N×M個のベクトル間距離を格納する領域90#ij
(i=1〜N,j=1〜M)が距離バッファ82に確保
される。例えば、添え字iが1からNまで、時間の新し
い順に距離ベクトルが対応するとすると、距離バッファ
81には、領域90#ij((i=N,j=1〜M),
(i=N−1,j=1〜M),…,(i=1,j=1〜
M))の順に距離ベクトルが書き込まれて、最新の領域
90#1jから90#Njの順にベクトル間距離が読み
出される。
【0059】図12は、単語標準パターンファイル84
の説明図である。各単語標準パターン84は、各単語標
準パターンの音素情報が音声の発生の順とは逆の順に格
納されている。例えば、単語標準パターン「KAWA
I」について、単語標準パターンファイル84には、
「I」の音素情報、「WA」の音素情報、「KA」の音
素情報といった具合に、音声の発生の順とは逆の並びの
順になっている。
【0060】累積距離計算部82は、各フレーム周期毎
に、最新フレームをマッチングの始端フレーム、始端フ
レームから最大フレーム数までの区間に含まれる区間を
各音声区間とする。各音声区間について、単語標準パタ
ーンファイル84に登録されている単語標準パターンの
各音素の並び情報に対応する各音素標準パターンのベク
トル間距離を最新フレームから順に読み出す。つまり、
距離バッファ81の領域90#ik(j)(j=1…,1
≦k(j)≦M)より時間的に後ろ向きに順次読み出
す。そして、各音声区間に応じて、DPマッチング法や
HMM法を用いて、読み出したベクトル間距離及び単語
標準パターンに対して、累積距離を計算する。
【0061】このとき、単語標準パターンファイル84
には、単語標準パターンの発生の順とは逆に音声情報が
並べられているので、累積距離計算部82は、最新フレ
ームから順に距離ベクトルを読み出して累積計算を行っ
ても、正しい累積距離が計算される。判定部86は、累
積距離計算部82から出力される累積距離と閾値とを比
較して、累積距離が閾値よりも小さい場合に、該累積距
離に該当する単語が入力された音声であると認識する。
【0062】次に、図10の音声認識装置の動作説明を
する。
【0063】マイク20は、入力された音声を電気信号
に変換する。音声入力部22は、マイク20より入力さ
れた音声信号を増幅してA/D変換する。分析部24
は、一定時間、例えば、10〜20msの音声フレーム
毎に、入力音声信号に対して、ケプストラム分析等の信
号処理を施して、所定次元、例えば、34次元の特徴ベ
クトルを算出する。ベクトル間距離計算部80は、分析
部24により算出された各音声フレームの特徴ベクトル
と各音素標準パターンとのベクトル間距離(ユークリッ
ド距離)を計算する。そして、最新フレームのベクトル
間距離を距離バッファ81に書き込む。
【0064】累積距離計算部82は、各フレーム周期毎
に、最新フレームをマッチングの始端フレーム、始端フ
レームから最大フレーム数までの区間に含まれる区間を
各音声区間とする。各音声区間について、単語標準パタ
ーンファイル84に登録されている各単語標準パターン
に対して定義された音素の並びに対応する音素標準パタ
ーンのベクトル間距離を最新フレームから順に読み出
す。つまり、距離バッファ81の領域90#ik(j)
(j=1…,1≦k(j)≦M)より時間的に後ろ向き
に順次読み出す。そして、各音声区間に応じて、DPマ
ッチング法やHMM法を用いて、読み出したベクトル間
距離及び単語標準パターンに対して、累積距離を計算す
る。
【0065】このとき、図13に示すように、最新フレ
ームを始端として始端を固定して、終端フリーで逆時間
方向に累積距離を計算するので、音声が存在する可能な
区間を音声区間とする図14に示した普通のワードスポ
ットティングに比べて、演算量を削減できる。また、図
15に示す最大フレーム数の音声が入力されないと音声
区間が確定されない終端フリーのように遅延τが発生す
ることがない。判定部86は、各単語標準パターンの累
積距離と閾値とを比較して、単語標準パターンの累積距
離<閾値ならば、入力音声が単語標準パターンの単語に
該当するものと判断する。
【0066】以上説明した第3実施形態によれば、ワー
ドスポティングに比べて演算量を削減できる。しかも、
終端フリーの場合のように遅延が生じることがない。
【0067】
【発明の効果】以上説明したように本発明によれば、入
力音声と標準パターンの比較にフレーム間距離を用いた
場合に雑音の影響を抑制して認識率を向上させることが
できる。また、雑音などの影響で入力音声と標準パター
ンのフレーム間類似度が低く又はフレーム間距離が大き
くなった場合にも音声を検出できる。更に、ワードスポ
ティング時の演算量を減らすと共に終端フリーでの遅延
量を少なくすることができる。
【図面の簡単な説明】
【図1】本発明の原理図である。
【図2】本発明の第1実施形態による音声認識装置の構
成図である。
【図3】環境雑音による影響を示す図である。
【図4】補正値計算部のフローチャートである。
【図5】図2中のベクトル間距離計算部、距離補正部及
び距離累積部の処理結果を示す図である。
【図6】本発明の第2実施形態による音声認識装置の構
成図である。
【図7】図6中の判定部及び候補判定部のフローチャー
トである。
【図8】図6中の制御部のフローチャートである。
【図9】図6の音声認識結果を示す図である。
【図10】本発明の第3実施形態による音声認識装置の
構成図である。
【図11】図10中の距離バッファの説明図である。
【図12】図10中の単語標準パターンの説明図であ
る。
【図13】図10中の累積距離計算部の動作説明図であ
る。
【図14】普通のワードスポッティングの問題点を説明
する図である。
【図15】終端フリーの問題点を説明する図である。
【符号の説明】
2 分析部 4 音素標準特徴パターン記憶部 6 ベクトル間距離計算部 8 平均値計算部 10 補正値記憶部 12 補正部 14 単語標準パターン記憶部 16 識別部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 中井 丈裕 神奈川県川崎市中原区上小田中4丁目1番 1号 富士通株式会社内 Fターム(参考) 5D015 BB02 HH04 HH15 LL02

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 入力された音声を認識する音声認識装置
    であって、 複数の音素標準パターンの音素特徴ベクトルを予め記憶
    する音素標準特徴パターン記憶部と、 入力音声のフレーム毎に特徴ベクトルを算出する分析部
    と、 前記フレームの前記特徴ベクトルと前記各音素特徴ベク
    トルとのベクトル間距離を音素毎に計算するベクトル間
    距離計算部と、 前記全ての音素についての前記ベクトル間距離の平均値
    を前記フレーム毎に算出する平均値計算部と、 前記音素毎に計算されたベクトル距離から前記フレーム
    毎に算出された前記平均値を減算し、その減算したベク
    トル距離を補正する補正部と、 前記音素の並び情報を定義する単語標準パターンを記憶
    する単語標準パターン記憶部と、 前記補正されたベクトル間距離を累積して、累積ベクト
    ル間距離と前記単語標準パターンとを比較して、音声認
    識する識別部と、 を具備したことを特徴とする音声認識装置。
  2. 【請求項2】 入力された音声を認識する音声認識装置
    であって、 入力音声の特徴ベクトルを算出する分析部と、 単語標準パターンの特徴ベクトルを予め記憶する単語標
    準パターン記憶部と、 前記入力音声の各区間の前記特徴ベクトルと前記単語標
    準パターンとを比較して、前記各区間の入力音声につい
    て、前記各単語標準パターンとの各第1類似度を計算す
    る類似度算出部と、 前記各第1類似度又は第1類似度間の計算結果と第1閾
    値とを比較して、該第1類似度に該当する単語標準パタ
    ーンの単語が入力音声に該当する単語であるか否かを判
    定する第1判定部と、 第2類似度又は第2類似度間の計算結果を記憶する候補
    記憶部と、 前記第1判定部により該当する単語であると判定されな
    かった前記第1類似度又は第1類似度間の計算結果が前
    記第1閾値よりも小さな値である第2閾値よりも大きく
    且つ前記第2類似度又は第2類似度間の計算結果よりも
    大きいとき、第1類似度又は第1類似度間の計算結果を
    前記第2類似度又は第2類似度間の計算結果として、前
    記候補記憶部に記憶する候補判定部と、 前記第1判定部により所定時間内に該当する単語である
    と判定されなかった場合、前記候補記憶部に記憶された
    第2類似度又は第2類似度間の計算結果に基いて、第2
    類似度に該当する単語標準パターンの単語が入力音声に
    該当する単語であると判定する第2判定部と、 を具備したことを特徴とする音声認識装置。
  3. 【請求項3】 入力された音声を認識する音声認識装置
    であって、 入力音声の特徴ベクトルを算出する分析部と、 単語標準パターンの特徴ベクトルを予め記憶する単語標
    準パターン記憶部と、 前記入力音声の各区間の前記特徴ベクトルと前記単語標
    準パターンの特徴ベクトルとを比較して、前記各区間の
    入力音声について、前記各単語標準パターンととの間の
    各第1距離を計算する距離算出部と、 前記各第1距離又は第1距離間の計算結果と第1閾値と
    を比較して、該第1距離に該当する単語標準パターンの
    単語が入力音声に該当する単語であるか否かを判定する
    第1判定部と、 第2距離又は第2距離間の計算結果を記憶する候補記憶
    部と、 前記第1判定部により該当する単語であると判定されな
    かった前記第1距離又は第1距離間の計算結果が前記第
    1閾値よりも大きな値である第2閾値よりも小さく且つ
    前記第2距離又は第2距離間の計算結果よりも小さいと
    き、第1距離又は第1距離間の計算結果を前記第2距離
    又は第2距離間の計算結果として、前記候補記憶部に記
    憶する候補判定部と、 前記第1判定部により所定時間内に該当する単語である
    と判定されなかった場合、前記候補記憶部に記憶された
    第2距離又は第2距離間の計算結果に基いて、第2距離
    に該当する単語標準パターンの単語が入力音声に該当す
    る単語であると判定する第2判定部と、 を具備したことを特徴とする音声認識装置。
  4. 【請求項4】 入力された音声を認識する音声認識装置
    であって、 複数の音素標準パターンの音素特徴ベクトルを予め記憶
    する音素標準パターン記憶部と、 入力音声のフレーム毎に特徴ベクトルを計算する分析部
    と、 各フレームについて、各音素とのベクトル間距離を記憶
    する距離記憶部と、 前記フレームの前記特徴ベクトルと前記各音素特徴ベク
    トルとの間のベクトル間距離を各音素毎に算出して、前
    記距離記憶部に記憶するベクトル間距離計算部と、 各単語について前記音素の並び情報を定義する単語標準
    パターンを記憶する単語標準パターン記憶部と、 最新ベクトル間距離から旧ベクトル間距離へと後ろ向き
    に前記距離記憶部から前記ベクトル間距離を読み出し
    て、前記各単語について、後ろ向きに累積距離を計算す
    る累積距離計算部と、 前記累積距離計算部が計算した累積距離に基いて、該累
    積距離に該当する単語が入力された音声であるかを判定
    する判定部と、 を具備したことを特徴とする音声認識装置。
  5. 【請求項5】 入力された音声を認識する音声認識装置
    であって、 複数の音素標準パターンの音素特徴ベクトルを予め記憶
    する音素標準パターン記憶部と、 入力音声のフレーム毎に特徴ベクトルを計算する分析部
    と、 各フレームについて、各音素との類似度を記憶する類似
    度記憶部と、 前記フレームの前記特徴ベクトルと前記各音素特徴ベク
    トルとの間の類似度を各音素毎に算出して、前記類似度
    記憶部に記憶する類似度計算部と、 各単語について前記音素の並び情報を定義する単語標準
    パターンを記憶する単語標準パターン記憶部と、 最新類似度から旧類似度へと後ろ向きに前記類似度記憶
    部から前記類似度を読み出して、前記各単語について、
    後ろ向きに累積類似度を計算する累積類似度計算部と、 前記累積類似度計算部が計算した累積類似度に基いて、
    該累積類似度に該当する単語が入力された音声であるか
    を判定する判定部と、 を具備したことを特徴とする音声認識装置。
JP2000002096A 2000-01-11 2000-01-11 音声認識装置 Expired - Fee Related JP4393648B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2000002096A JP4393648B2 (ja) 2000-01-11 2000-01-11 音声認識装置
US09/699,777 US6701292B1 (en) 2000-01-11 2000-10-30 Speech recognizing apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000002096A JP4393648B2 (ja) 2000-01-11 2000-01-11 音声認識装置

Publications (2)

Publication Number Publication Date
JP2001195082A true JP2001195082A (ja) 2001-07-19
JP4393648B2 JP4393648B2 (ja) 2010-01-06

Family

ID=18531242

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000002096A Expired - Fee Related JP4393648B2 (ja) 2000-01-11 2000-01-11 音声認識装置

Country Status (2)

Country Link
US (1) US6701292B1 (ja)
JP (1) JP4393648B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011075973A (ja) * 2009-10-01 2011-04-14 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置とその方法と、プログラム
JP2013190473A (ja) * 2012-03-12 2013-09-26 Brother Ind Ltd 発声特定装置、プログラム
KR101398639B1 (ko) 2007-10-08 2014-05-28 삼성전자주식회사 음성 인식 방법 및 그 장치

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE112006002989T5 (de) * 2005-12-14 2009-02-19 Mitsubishi Electric Corp. Spracherkennungsvorrichtung
FR2940497B1 (fr) * 2008-12-23 2011-06-24 Voxler Procede de pilotage d'une application a partir d'un signal de voix et dispositif associe pour sa mise en oeuvre.
EP2509005A1 (en) * 2009-12-04 2012-10-10 Sony Corporation Search device, search method, and program
US9110510B2 (en) * 2011-06-03 2015-08-18 Apple Inc. Motion pattern classification and gesture recognition
US20150336786A1 (en) * 2014-05-20 2015-11-26 General Electric Company Refrigerators for providing dispensing in response to voice commands
CN105653517A (zh) * 2015-11-05 2016-06-08 乐视致新电子科技(天津)有限公司 一种识别率确定方法及装置
EP3786945B1 (en) * 2018-04-12 2023-07-19 Spotify AB Voice-based authentication

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5614381A (en) 1979-07-13 1981-02-12 Nec Corp Pattern recognizing system
US4897878A (en) * 1985-08-26 1990-01-30 Itt Corporation Noise compensation in speech recognition apparatus
JPS6338995A (ja) 1986-08-04 1988-02-19 松下電器産業株式会社 音声認識ダイアル電話装置
JPS63254498A (ja) 1987-04-13 1988-10-21 日本電気株式会社 音声認識応答装置
JP2808906B2 (ja) * 1991-02-07 1998-10-08 日本電気株式会社 音声認識装置
JP3039095B2 (ja) 1992-01-30 2000-05-08 日本電気株式会社 音声認識装置
JPH0863183A (ja) 1994-08-18 1996-03-08 Matsushita Electric Ind Co Ltd 音声認識方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101398639B1 (ko) 2007-10-08 2014-05-28 삼성전자주식회사 음성 인식 방법 및 그 장치
JP2011075973A (ja) * 2009-10-01 2011-04-14 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置とその方法と、プログラム
JP2013190473A (ja) * 2012-03-12 2013-09-26 Brother Ind Ltd 発声特定装置、プログラム

Also Published As

Publication number Publication date
US6701292B1 (en) 2004-03-02
JP4393648B2 (ja) 2010-01-06

Similar Documents

Publication Publication Date Title
JP4295118B2 (ja) パターン認識
US7003456B2 (en) Methods and systems of routing utterances based on confidence estimates
JP4531166B2 (ja) 信頼性尺度の評価を用いる音声認識方法
US9002709B2 (en) Voice recognition system and voice recognition method
US20130054236A1 (en) Method for the detection of speech segments
US9031841B2 (en) Speech recognition apparatus, speech recognition method, and speech recognition program
US9147133B2 (en) Pattern recognition device, pattern recognition method and computer program product
JP2001195082A (ja) 音声認識装置
US20100076759A1 (en) Apparatus and method for recognizing a speech
US5040213A (en) Method of renewing reference pattern stored in dictionary
US7509257B2 (en) Method and apparatus for adapting reference templates
CN101123090A (zh) 通过使用平方根折扣的统计语言的语音识别
CN109155128B (zh) 声学模型学习装置、声学模型学习方法、语音识别装置和语音识别方法
JP3625002B2 (ja) 音声認識装置
JP2002366192A (ja) 音声認識方法及び音声認識装置
US4984275A (en) Method and apparatus for speech recognition
JP2008309945A (ja) パターンマッチング方法および装置ならびにその特徴量正規化方法および装置
US5062137A (en) Method and apparatus for speech recognition
JP2996925B2 (ja) 音素境界検出装置及び音声認識装置
US7912715B2 (en) Determining distortion measures in a pattern recognition process
JP2000356997A (ja) 統計的言語モデル生成装置及び音声認識装置
JP2979999B2 (ja) 音声認識装置
JP3007357B2 (ja) 音声認識装置の辞書更新方式
JP2961916B2 (ja) 音声認識装置
JP3144203B2 (ja) ベクトル量子化装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060302

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080908

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081007

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081202

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091013

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091014

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121023

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121023

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131023

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees