JPH08248988A - 音声認識方法 - Google Patents

音声認識方法

Info

Publication number
JPH08248988A
JPH08248988A JP7052707A JP5270795A JPH08248988A JP H08248988 A JPH08248988 A JP H08248988A JP 7052707 A JP7052707 A JP 7052707A JP 5270795 A JP5270795 A JP 5270795A JP H08248988 A JPH08248988 A JP H08248988A
Authority
JP
Japan
Prior art keywords
acoustic
grammatical
recognition result
processing unit
evaluation value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7052707A
Other languages
English (en)
Inventor
Tatsuo Matsuoka
達雄 松岡
Maikeru Baarou
マイケル バーロウ
Sadahiro Furui
貞煕 古井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP7052707A priority Critical patent/JPH08248988A/ja
Publication of JPH08248988A publication Critical patent/JPH08248988A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 音響処理によって得られた複数の認識結果候
補から文法的あるいは意味的に確率の高い認識結果を得
ることにより、認識処理全体としてより高い認識率/意
味理解率が得られる方法を提供する。 【構成】 入力音声の音響的な特徴からその認識結果を
判定する音響処理部と、文法的な特徴から認識結果を判
定する言語処理部を具備し、前記音響処理部は音響的な
評価値に従って上位複数個の認識結果候補を出力し、前
記言語処理部は該認識結果候補を音響的評価値とともに
入力として、単語連鎖の確率的な発生しやすさを確率的
なモデルにより表現しておき、音響処理部から受け取っ
た認識結果候補に対して文法的あるいは意味的な評価値
を与え、先に音響処理部によって与えられた音響的評価
値と文法的評価値を適当な重みづけを行なった線形和を
総合的な評価値とし、総合的評価値の高い候補を認識結
果とすることを特徴とする。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、音声認識方法に関し、
特に、連続発声された音声を認識あるいは理解するため
の装置に用いられる音声認識方法に関する。
【0002】
【従来の技術】音声の音響的特徴を確率的、統計的にモ
デル化する手法である隠れマルコフモデル(Hidden Mar
kov Model:HMM)を用いた音声認識システムでは、一認
識対象カテゴリ、つまり音素、音節、単語などの語彙
(あるいは認識対象単位)ごとに、一つ、あるいは複数
の隠れマルコフモデルを設定し、学習用音声を用いて学
習する。認識時には、音声認識システムの入力音声がそ
れらのモデルから観測される確率を計算し、尤度(尤も
らしさ)の最も高い順に認識結果候補としている。隠れ
マルコフモデルは、統計的なモデルであるから学習用音
声中に現われた頻度に従って、ある音響的特徴量とある
カテゴリとを関連づける強さを内部に確率分布として表
現する。
【0003】連続音声認識では調音結合の影響などによ
り音響的な特徴量が変動しやすく音響的な特徴パラメー
タだけから正確な音声認識を行なうことが困難である。
そのため、文脈によってより出現しやすい単語により重
みをおいて評価するなどの言語的な処理により認識精度
を向上する手法が取られる。
【0004】
【発明が解決しようとする課題】上述した従来の手法で
は、音響モデルから得られる尤度(スコア)に対して簡
単な文法モデル(単語Bigramなど)を用いてペナルティ
を加えたものを評価値として、評価値の高い認識候補
(仮説)から順に上位N位までの候補を認識結果として
出力していたが、文法的な制約が緩いため出力結果中に
は文法的あるいは意味的に適切でないもの(例えば、雑
音があるためにたまたま非常に高い尤度を示したモデル
を含んだ仮説)が含まれてしまうという問題があった。
したがって、より高度な文法的あるいは意味的制約を用
いて音響的処理による認識結果に対して再評価を行なう
方法が必要であった。
【0005】本発明は上述したような従来の技術が有す
る問題点に鑑みてなされたものであって、その目的は、
確率的なモデルにより文法的あるいは意味的な制約を導
入することにより、音響処理によって得られた複数の認
識結果候補から文法的あるいは意味的に確率の高い認識
結果を得、認識処理全体としてより高い認識率/意味理
解率が得られる方法を提供することにある。
【0006】
【課題を解決するための手段】本発明の音声認識方法
は、入力音声の音響的な特徴からその認識結果を判定す
る音響処理部と、文法的な特徴から認識結果を判定する
言語処理部を具備し、前記音響処理部は音響的な評価値
に従って上位複数個の認識結果候補を出力し、前記言語
処理部は該認識結果候補を音響的評価値とともに入力と
して、単語連鎖の確率的な発生しやすさを確率的なモデ
ルにより表現しておき、音響処理部から受け取った認識
結果候補に対して文法的あるいは意味的な評価値を与
え、先に音響処理部によって与えられた音響的評価値と
文法的評価値を適当な重みづけを行なった線形和を総合
的な評価値とし、総合的評価値の高い候補を認識結果と
することを特徴とする。
【0007】この場合、言語処理部が、単語をいくつか
の文法的あるいは意味的なクラスに分類し、そのクラス
間の連鎖を確率的なモデルにより表現しておき、文法的
あるいは意味的な評価値を注目する単語のクラスと前後
の単語のクラスとの連鎖確率に基づいて求めることとし
てもよい。
【0008】また、言語処理部が、単語をいくつかの文
法的あるいは意味的なクラスに分類し、注目する単語と
前後の単語のクラスの連鎖を確率的なモデルにより表現
しておき、文法的あるいは意味的な評価値を注目する単
語と前後の単語のクラスとの連鎖確率に基づいて求める
こととしてもよい。
【0009】
【作用】本発明は、連続音声認識において、音響処理部
が出力した複数の認識結果候補に対して、言語処理部に
おいて確率的な言語モデルを用いて再評価するので、従
来、文法的あるいは意味的に確からしいが音響的な尤度
が低いことから低い順位に評価されていた候補を上位と
することができる。
【0010】
【実施例】次に、本発明の実施例について図面を参照し
て説明する。
【0011】図1は本発明による音声理解システムの一
実施例の構成を示すブロック図、図2は、本実施例によ
る音声認識の処理手順を示す図である。
【0012】本実施例による音声理解システムは、図1
に示すように、文章が連続音声による音声入力Aであ
り、認識部は大きく分類して音響処理部1と言語処理部
3からなり、音響処理部1は音響モデル2を持ち、言語
処理部3は言語モデル4を持つものであって、これらに
よる認識結果Bを出力するものである。
【0013】上記構成の本実施例における音声認識は、
図2に示すように、まず、音声認識部1により音響モデ
ル2を用いた音声認識による仮説スコアと仮説リストと
が生成される。言語処理部3では、言語モデル4を用い
て上記の仮説リストから言語モデルによる仮説スコアを
生成し、さらに、音声認識による仮説スコア、仮説リス
ト、言語モデルによる仮説スコアから再評価を行なって
仮説スコアを生成する。
【0014】上述した仮説リストや仮説スコアの生成に
ついて、米国のARPA(AdvancedResearch Program A
gency)による航空情報旅行案内システム〔以下、AT
IS(Air Travel Information System)と称する〕タ
スクの場合を例として説明する。
【0015】認識対象である音声入力は、特徴量分析に
より音響パラメータベクトルの時系列にされ、音声認識
部において音響モデルにより尤度が計算される。ここで
は、上位N個の文仮説を得るためにNベストツリートレ
リス(N-best tree trellis)ベースの認識を行なう。
NベストツリートレリスについてはFrank K.Soong and
Eng-Huangによる"A Tree-Trellis Based Fast Search f
or Finding the N Best Sentence Hypotheses in Conti
nuous Speech Recognition" Proceedings of Internati
onal Conferencn on Acoustic, Speech and Signal Pro
cessing, Vol,1, pp.705-708, 1991やW.Chou, T. Matsu
oka, B.-H. Juang and C.-H. Leeによる"An Algorithm
of High Resolution and Efficient Multiple String H
ypothesization for Continuous Speech Recognition u
sing Inter-World Models" Proceedings of Internatio
nal Conferencn on Acoustic, Speech and Signal Proc
essing, Vol, 2, pp-II-153-156, 1994に定義されてい
る。音声認識部から出力されたN個の仮説が言語処理部
において評価される。入力音声と意味的に同じである文
仮説は正解として受け付けることとしてもよい。例え
ば、 "Find flights from Pittsburgh to ..." "Find flights Pittsburgh to ..." "Find a flight for Pittsburgh to ..." などは同じ意味内容であるとする。
【0016】言語処理部の確率的言語モデルとしてはマ
ルコフモデル、あるいは隠れマルコフモデルなどを用い
ることが可能である。これら確率的モデルは、学習用テ
キストを用いて学習する。マルコフモデルを学習する場
合には学習用テキストに文法的あるいは意味的クラスの
ラベル付けが必要である。
【0017】本実施例では、各単語の意味的な機能を基
準に53のクラスを設定し、人手によりラベル付けを行
なった912文を学習データとして用いた。この53の
クラスは大まかには次の三つのクラスに分類できる。す
なわち、制約条件(航空会社、出発時刻など)、属性
(料金、飛行機の種類など)、発動や動作(Give me
...、Reserve a limousine...など)である。
【0018】これらのクラスは53の状態を持ったエル
ゴディックマルコフモデルの各状態に割り付けられる。
学習データが限られているので、いくつかのクラスを一
状態にまとめた、状態数が少ないマルコフモデルについ
ても検討した。隠れマルコフモデルも同じ学習データを
用いて学習した。ここでも、学習データが少ないことを
考慮して状態数の少ないモデルについて検討した。
【0019】認識部の辞書の項目数は1279語であ
る。各単語はその品詞とATIS文法におけるクラスに
関してラベル付けした。結果として得られるカテゴリ数
は18である。
【0020】連続入力される単語の連鎖確率であるbigr
am確率は次の形で表される。
【0021】P(<word>|<前の単語のカテゴリ>)
さらに、(w1,w2,w3,...,wN)を単語の系列、
(p1,p2,p3,...,pN)を単語系列に対応する単
語のカテゴリの系列、(c1,c2,c3,...,cN)を
単語系列に対応する単語の意味カテゴリの系列とする
と、P(wi|pi-1,ci)が出力確率となり、P(ci
|ci-1)が遷移確率となる。
【0022】ラベル付けされた学習データを用いて上記
確率を求める。
【0023】本実施例においては、音声認識を行う際の
確率として、1つ前の単語のカテゴリが与えられたとき
の連鎖確率であるpseudo bigram確率P(wi|pi-1
i)に加えて、連続入力された単語が連鎖を考慮する
ことなく、単に意味だけを考えるunigram確率(P(wi
|ci)や、カテゴリ間の連鎖を考慮したbigram確率
(P(pi|pi-1,ci)についても検討した。
【0024】さらに、次の方法により平滑化を行なって
いる。
【0025】α・P(wi|ci.pi-1)+(1−α)
・P(wi|pi-1) β・πi+(1−β)/NS ここで、αは出力平滑化係数、βは初期状態平滑化係数
で、NSはモデルの状態数である。
【0026】本実施例においては、音声認識部1におい
て音響モデルにより尤度が計算され、言語処理部3にお
いては、音声認識部1にて計算された尤度に対して上述
したように、文法的な評価値または意味的な評価値であ
るbigram確率、pseudo bigram確率およびunigram確率に
よる重み付けを行い、これらの線形和である再生による
仮説スコアを総合的な評価値とし、最も総合的評価値の
高い候補を認識結果とするものである。
【0027】上記構成の本実施例により得られた音声認
識結果の評価を、455の入力音声を用いて行なった。
各入力に対して音響的処理による認識部の出力である上
位25仮説を言語処理部の入力とした。これらの仮説は
次の式により言語的な容認性を評価した。
【0028】
【数1】 ここで、hiはi番目の仮説、PR(hi)は音声認識部
の示した確率(スコア)、PG N(hi)は正規化した文
法的(言語モデル)確率、wは重み係数である。
【0029】表1はATISタスクにおける評価結果を
示したものである。表1においてAT&T社、CMU
(Carnegie Mellon University)、SRI(Stanford R
esearch Institute)により収録されたデータによるも
のであり、ALLはそれらすべての機関の総合データに
対する結果である。
【0030】ここで、AT&T社のデータに対しては、
文法から外れた発声が多いため認識率が低くなってい
る。表1より、マルコフモデルによりわずかではあるが
有意な改善が得られていることがわかる。
【0031】
【表1】
【0032】
【発明の効果】本発明によれば、音響処理部の出力する
複数の仮説のうち、音響的な尤度が低いため低い順位に
評価されていたもののうち、確率的な言語モデルにより
再評価することにより文法的あるいは意味的に尤もらし
い仮説の順位を上位にすることにより音響的特徴が曖昧
で誤認識されていた入力音声を正しく認識することがで
き、それにより認識率を改善することができるという効
果がある。
【図面の簡単な説明】
【図1】本発明による音声認識システムの一般的構成を
示すブロツク図である。
【図2】本発明の処理手順を示す図である。
【符号の説明】
1 音声認識部 2 音響モデル 3 言語処理部 4 言語モデル

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 入力音声の音響的な特徴からその認識結
    果を判定する音響処理部と、 文法的な特徴から認識結果を判定する言語処理部を具備
    し、 前記音響処理部は音響的な評価値に従って上位複数個の
    認識結果候補を出力し、 前記言語処理部は該認識結果候補を音響的評価値ととも
    に入力として、単語連鎖の確率的な発生しやすさを確率
    的なモデルにより表現しておき、音響処理部から受け取
    った認識結果候補に対して文法的あるいは意味的な評価
    値を与え、先に音響処理部によって与えられた音響的評
    価値と文法的評価値を適当な重みづけを行なった線形和
    を総合的な評価値とし、総合的評価値の高い候補を認識
    結果とすることを特徴とする音声認識方法。
  2. 【請求項2】 請求項1記載の音声認識方法において、 言語処理部が、単語をいくつかの文法的あるいは意味的
    なクラスに分類し、そのクラス間の連鎖を確率的なモデ
    ルにより表現しておき、文法的あるいは意味的な評価値
    を注目する単語のクラスと前後の単語のクラスとの連鎖
    確率に基づいて求めることを特徴とする音声認識方法。
  3. 【請求項3】 請求項1記載の音声認識方法において、 言語処理部が、単語をいくつかの文法的あるいは意味的
    なクラスに分類し、注目する単語と前後の単語のクラス
    の連鎖を確率的なモデルにより表現しておき、文法的あ
    るいは意味的な評価値を注目する単語と前後の単語のク
    ラスとの連鎖確率に基づいて求めることを特徴とする音
    声認識方法。
JP7052707A 1995-03-13 1995-03-13 音声認識方法 Pending JPH08248988A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7052707A JPH08248988A (ja) 1995-03-13 1995-03-13 音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7052707A JPH08248988A (ja) 1995-03-13 1995-03-13 音声認識方法

Publications (1)

Publication Number Publication Date
JPH08248988A true JPH08248988A (ja) 1996-09-27

Family

ID=12922375

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7052707A Pending JPH08248988A (ja) 1995-03-13 1995-03-13 音声認識方法

Country Status (1)

Country Link
JP (1) JPH08248988A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10116094A (ja) * 1996-10-01 1998-05-06 Lucent Technol Inc 音声認識方法および音声認識装置
JPH10319989A (ja) * 1997-05-16 1998-12-04 Nippon Telegr & Teleph Corp <Ntt> 統計的言語モデル及びその作成方法
JP2000099080A (ja) * 1998-09-16 2000-04-07 Koninkl Philips Electronics Nv 信頼性尺度の評価を用いる音声認識方法
JP2001092488A (ja) * 1999-09-17 2001-04-06 Atr Interpreting Telecommunications Res Lab 統計的言語モデル生成装置及び音声認識装置
US7016835B2 (en) * 1999-10-29 2006-03-21 International Business Machines Corporation Speech and signal digitization by using recognition metrics to select from multiple techniques
CN111951808A (zh) * 2019-04-30 2020-11-17 深圳市优必选科技有限公司 语音交互方法、装置、终端设备及介质

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10116094A (ja) * 1996-10-01 1998-05-06 Lucent Technol Inc 音声認識方法および音声認識装置
JPH10319989A (ja) * 1997-05-16 1998-12-04 Nippon Telegr & Teleph Corp <Ntt> 統計的言語モデル及びその作成方法
JP2000099080A (ja) * 1998-09-16 2000-04-07 Koninkl Philips Electronics Nv 信頼性尺度の評価を用いる音声認識方法
JP4531166B2 (ja) * 1998-09-16 2010-08-25 ニュアンス コミュニケーションズ,インコーポレイテッド 信頼性尺度の評価を用いる音声認識方法
JP2001092488A (ja) * 1999-09-17 2001-04-06 Atr Interpreting Telecommunications Res Lab 統計的言語モデル生成装置及び音声認識装置
US7016835B2 (en) * 1999-10-29 2006-03-21 International Business Machines Corporation Speech and signal digitization by using recognition metrics to select from multiple techniques
CN111951808A (zh) * 2019-04-30 2020-11-17 深圳市优必选科技有限公司 语音交互方法、装置、终端设备及介质
CN111951808B (zh) * 2019-04-30 2023-09-08 深圳市优必选科技有限公司 语音交互方法、装置、终端设备及介质

Similar Documents

Publication Publication Date Title
US9672815B2 (en) Method and system for real-time keyword spotting for speech analytics
US9646605B2 (en) False alarm reduction in speech recognition systems using contextual information
Chase Error-responsive feedback mechanisms for speech recognizers
Siniscalchi et al. Experiments on cross-language attribute detection and phone recognition with minimal target-specific training data
US10170107B1 (en) Extendable label recognition of linguistic input
Lee et al. An information-extraction approach to speech processing: Analysis, detection, verification, and recognition
US20180137109A1 (en) Methodology for automatic multilingual speech recognition
Deshmukh Comparison of hidden markov model and recurrent neural network in automatic speech recognition
Aggarwal et al. Integration of multiple acoustic and language models for improved Hindi speech recognition system
Razavi et al. Acoustic data-driven grapheme-to-phoneme conversion in the probabilistic lexical modeling framework
Robinson The 1994 ABBOT hybrid connectionist-HMM large-vocabulary recognition system
Chen et al. Automatic pronunciation assessment for Mandarin Chinese
Najafian Acoustic model selection for recognition of regional accented speech
Aggarwal Improving hindi speech recognition using filter bank optimization and acoustic model refinement
EP3309778A1 (en) Method for real-time keyword spotting for speech analytics
Lin et al. Improving pronunciation erroneous tendency detection with multi-model soft targets
JPH08248988A (ja) 音声認識方法
Chang Near-miss modeling: A segment-based approach to speech recognition
Kosaka et al. Acoustic model adaptation for emotional speech recognition using Twitter-based emotional speech corpus
JP6199994B2 (ja) コンテキスト情報を使用した音声認識システムにおける誤警報低減
Scharenborg et al. 'Early recognition'of words in continuous speech
Meng Discriminative and adaptive training for robust speech recognition and understanding.
Ben Ayed A new SVM kernel for keyword spotting using confidence measures
Morris A study on the use of conditional random fields for automatic speech recognition
Lin et al. A Multi-modal Soft Targets Approach for Pronunciation Erroneous Tendency Detection