JP3494338B2 - 音声認識方法 - Google Patents

音声認識方法

Info

Publication number
JP3494338B2
JP3494338B2 JP00483597A JP483597A JP3494338B2 JP 3494338 B2 JP3494338 B2 JP 3494338B2 JP 00483597 A JP00483597 A JP 00483597A JP 483597 A JP483597 A JP 483597A JP 3494338 B2 JP3494338 B2 JP 3494338B2
Authority
JP
Japan
Prior art keywords
hypotheses
hypothesis
word
phoneme
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP00483597A
Other languages
English (en)
Other versions
JPH10198392A (ja
Inventor
喜昭 野田
昭一 松永
茂樹 嵯峨山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP00483597A priority Critical patent/JP3494338B2/ja
Publication of JPH10198392A publication Critical patent/JPH10198392A/ja
Application granted granted Critical
Publication of JP3494338B2 publication Critical patent/JP3494338B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】 【0001】 【発明の属する技術分野】本発明は、音声認識におい
て、与えられた文法によって生成可能な数多くの仮説か
ら、入力された音声に最も近い仮説を効率的に見つける
仮説の探索技術の分野に属する。 【0002】 【従来の技術】図2に示す音声認識処理において、入力
音声11は、分析処理部12により、特徴パラメータの
ベクトルデータ時系列に変換され、探索処理部13によ
り文法/言語モデル16の許容する仮説と照合される。
仮説の照合結果の評価値であるスコアは、仮説に対応す
る音響モデル15と入力音声11の尤もらしさを示す音
響スコアと仮説の存在する確率に対応した言語スコアか
らなり、最も高いスコアを持つ仮説が認識結果14とし
て出力される。 【0003】分析処理部12における信号処理として、
よく用いられるのは、線形予測分析(Linear Predictiv
e Coding,LPCと呼ばれる)であり、特徴パラメータ
としては、LPCケプストラム、LPCデルタケプスト
ラム、メルケプストラム、対数パワーなどがある。 【0004】音響モデル15としては確率・統計理論に
基づいてモデル化された隠れマルコフモデル法(Hidden
Markov Model ,以後HMM法と呼ぶ)が主流である。
このHMM法の詳細は、例えば、社団法人電子情報通信
学会編、中川聖一著『確率モデルによる音声認識』に開
示されている。 【0005】文法/言語モデル16は、認識対象とする
文を定義するための単語の連結関係を規定したものであ
り、単語を枝とした単語ネットワークや言語の確率モデ
ル等が用いられる。言語の確率モデルは、単語単体の存
在確率、2つ以上の単語の連結する確率が用いられる。
この言語の確率モデルの詳細は、例えば、社団法人電子
情報通信学会編、中川聖一著『確率モデルによる音声認
識』に開示されている。 【0006】探索処理部13は、文法で規定された単語
の接続関係を示す単語ネットワーク上の単語系列に対応
した音響モデル15と特徴パラメータのベクトルデータ
時系列を照合し、音響的な尤もらしさを示す音響スコア
を求める一方、その単語系列に対応した言語モデル16
から言語スコアを求め、音響スコアと言語スコアからな
る仮説のスコアを時刻毎に求め、スコアの低い仮説を捨
て、スコアの高い仮説を残し、次の時刻では前の時刻で
残された仮説に対し、必要であれば単語の拡張を行い、
再び音響モデル15、言語モデル16に基づいて評価を
行う。 【0007】 次に、この照合計算の詳細について、図
3を用いて説明する。文法で規定された単語の接続関係
を示す単語ネットワークは、音響モデル15との照合を
行うために、音響モデル15の最小構成単位である図3
に示すような状態のネットワークに展開される。21,
22,23は状態を示し、24,25,26は遷移を示
し、31,32,33のそれぞれの箱は1つの仮説を示
している。仮説は1つの状態に0個以上複数配置可能で
ある。1つの仮説の中には、その仮説における過去の単
語系列、仮説のスコアの情報が格納されている。ある時
刻tでの状態22での照合計算の説明において、1つ前
の時刻t−1での仮説が図3のように配置されていたと
する。 【0008】状態22の遷移元の状態である状態21,
22,23での時刻t−1での仮説は、それぞれ遷移2
4,25,26を経て、状態22に移る。この際、遷移
24を経た仮説は、時刻tでの特徴パラメータのベクト
ルデータに対する遷移24の音響スコアが加算される。
遷移25,26を経た仮説も、それぞれ遷移25,26
に対応した音響スコアが加算される。もし、状態21が
ある1つの単語の最終状態であれば、仮説が遷移24を
経る際に言語スコアも加算され、仮説の過去の単語系列
情報が更新される。 【0009】状態22に遷移した仮説のうち、過去の単
語系列が同一の仮説が複数ある場合は、スコアの最大の
仮説のみ残し、また、スコアの低い仮説は棄却する。こ
の時刻tの状態22での計算は、他の全ての状態につい
ても同様に行われ、この計算は、入力音声の全ての時刻
で行われる。なお、時刻0では、過去の単語系列なし、
スコア0の1つ仮説を状態ネットワークの開始状態に配
置する。この照合計算の結果、終了時刻での状態ネット
ワークの終了状態に配置された0以上の複数の仮説が、
認識結果であり、各仮説の過去の単語系列、スコア情報
が、認識候補の単語系列、スコアとなる。 【0010】以上、説明したように従来の方法では計算
量が多く、大きな文法では照合計算に時間がかかるた
め、仮説に格納する過去の単語系列情報は、1つ前の単
語情報のみ格納するという近似手法があり、単語対近似
(Word Pair Approximation )と呼ばれている。単語対
近似では、ある状態に遷移した仮説のうち、1つ前の単
語が同一の仮説が複数ある場合は、スコアの最大の仮説
のみ残すことに相当する。単語対近似の詳細は、IEE
Eの国際会議ICASSP’91のR.Schwartz,S.Austi
n著、"A Comparison of Several Approximate Algorith
ms for FindingMultiple(N-best)Sentence Hypotheses"
に開示されている。 【0011】また、別の近似手法として、単語の先頭音
素環境が同一の複数の仮説のうちスコアの最大の仮説の
み残す近似手法が、電子情報通信学会技術研究報告[音
声]のSP95−88、清水徹、山本博史、松永昭一、
匂坂芳典著、“単語グラフを用いた自由発話音声認識”
に開示されている。この近似手法は、ある状態に遷移し
た仮説のうち、1つ前の単語が同一の仮説が複数ある場
合は、スコアの最大の仮説のみ残すことに相当し、単語
対近似手法に比べ近似誤差は大きい。 【0012】 【発明が解決しようとする課題】しかしながら、上述し
た単語対近似では、1乃至2音素程度の短い単語の場合
に、単語対近似では近似誤りが大きくなり、単語リスト
の中に音素数の少ない単語が含まれる場合に認識誤りが
生じやすくなるという問題があった。 【0013】本発明は、上記課題に鑑みてなされたもの
で、単語リストの中に音素数の少ない単語が含まれる場
合でも、近似誤りの少ない近似演算処理を含む高速かつ
高精度の音声認識方法を提供することを目的とする。 【0014】 【課題を解決するための手段】前述した目的を達成する
ために、本発明のうちで請求項1記載の発明は、認識の
単位である単語と入力音声との近さを示す音響スコアを
求めるための音響モデルと、単語間の接続関係を規定す
る文法あるいは言語モデルとを用いて、上記文法の許容
する入力音声の発声内容に関する1つあるいは複数の仮
説の尤もらしさを、上記音響モデルと言語モデルに基づ
いて、時刻毎にスコアとして評価することで全ての音声
が入力された時点で、最もスコアの高い1つないし複数
の仮説をもって認識結果とする音声認識方法において、
仮説の尤もらしさを時刻毎にスコアとして評価する過程
の中で仮説を同一状態に合流する際に、過去の複数の音
素履歴が同一の仮説はスコアの高い仮説のみを保持し、
過去の複数の音素履歴が異なる仮説は別々に保持するこ
とにより単語仮説の絞り込みを行うことを要旨とする。 【0015】 請求項1記載の本発明では、各状態の照
合計算の中で、過去の複数の音素履歴が同一の仮説が複
数個ある場合、最もスコアの高い仮説のみを残す。従っ
て、仮説に格納する情報は、過去の複数の音素履歴、仮
説のスコアとなる。 【0016】 【発明の実施の形態】以下、図面を用いて本発明の実施
の形態について説明する。 【0017】図1は本発明の一実施の形態に係る状態ネ
ットワークを示す図である。尚、図中、図3で示したも
のと同一のものは同一の記号を付して詳細な説明を省略
した。 【0018】以下、この実施形態を図1を基に説明す
る。従来法である単語対近似では、仮説に格納する情報
は、1つ前の単語と仮説のスコアであるが、それに対
し、本実施の形態では仮説に格納する情報は、過去k
個、例えば4〜6音素程度の規模の音素履歴と仮説のス
コアとなる。例えば、図1における状態22での照合計
算の例において、状態21が単語の最終状態の場合、状
態21にはその単語の音素系列情報を前もって格納して
おく。状態21から状態22に遷移する仮説27には、
遷移24に対応する音響スコア、言語スコアが加えら
れ、状態21の音素系列情報から各仮説内の音素履歴情
報を更新する。 【0019】具体的には、状態21に格納されている音
素系列情報を仮説の音素履歴情報に連結し、過去k個だ
けの音素が保存されるようにする。状態22に遷移して
きた仮説に対し、仮説に格納している過去k個の音素履
歴情報が同一の仮説が複数ある場合に、スコアの最も高
い仮説のみ残す。 【0020】本実施形態では、音素数の少ない短い単語
の場合でも、単語の範囲を越えて過去k個の音素履歴を
考慮して仮説の選択を行っているため、近似誤りを抑え
ることができる。また、例えば1つ前の単語が「強化す
る」と「消化する」のように単語の語尾が共通の仮説が
複数ある場合でも、それらの仮説を統合して1つにまと
めることができるので、探索効率を高めることができ
る。 【0021】上述してきたように、従来の単語対近似で
は、音素数の少ない短い単語の場合に近似誤りが大きく
なるのに対し、本実施形態では、過去の一定個数の音素
履歴を考慮して仮説の選択を行うため、履歴音素数があ
る程度大きい場合に、短い単語での近似誤りを抑制する
ことができる。また、音素数の多い長い単語について
は、単語対近似以上に近似演算効率を高めることができ
る。 【0022】つまり、認識を行っている文中に含まれる
単語の長さに関係なく、一定の長さの履歴を考慮しなが
ら仮説の選択を行うため、近似精度の局所的な低下や、
探索効率の局所的な低下を抑えることができる。また、
履歴音素数の値を増やすことで、近似精度を高めかつ認
識精度を高めることができ、また履歴音素数の値を減ら
すことで、効率を高めかつ探索処理速度を速めることが
できるので、目的に応じて認識精度と探索処理量のバラ
ンスを自由に設定することができる。 【0023】 【発明の効果】以上説明したように、本発明は、過去の
一定個数の音素履歴を考慮して仮説の選択を行うように
したので、短い単語での近似誤りを抑制することができ
るという効果を奏する。
【図面の簡単な説明】 【図1】本発明に係る状態ネットワークを示す図であ
る。 【図2】音声認識処理の概要を示す図である。 【図3】従来の状態ネットワークを示す図である。 【符号の説明】 11 入力音声 12 分析処理部 13 探索処理部 14 認識結果 15 音響モデル 16 文法/言語モデル 21,22,23 状態 24,25,26 遷移 27,28,29 仮説
フロントページの続き (56)参考文献 特開 平8−123479(JP,A) 特開 平8−221090(JP,A) 清水, 山本, 政瀧, 松永, 匂 坂,大語い連続音声認識のための単語仮 説数削減,電子情報通信学会論文誌 D −II,日本,1996年12月25日,Vo l.J79−D−II, No.12,Pa ges 2117−2124 野田, 松永, 嵯峨山,単語グラフ を用いた大語彙連続音声認識における近 似演算手法の検討,電子情報通信学会技 術研究報告[音声],日本,1997年 1 月17日,Vol.96, No.449, SP96−102,Pages 53−58 野田, 松永, 嵯峨山,単語グラフ を用いた大語彙連続音声認識における近 似演算法,日本音響学会平成9年度春季 研究発表会講演論文集,日本,1997年 3月17日,2−6−6,Pages 55 −56 (58)調査した分野(Int.Cl.7,DB名) G10L 15/0 - 15/28 JICSTファイル(JOIS)

Claims (1)

  1. (57)【特許請求の範囲】 【請求項1】 認識の単位である単語と入力音声との近
    さを示す音響スコアを求めるための音響モデルと、前記
    単語間の接続関係を規定する文法あるいは言語モデルと
    を用いて、上記文法の許容する入力音声の発声内容に関
    する1つあるいは複数の仮説の尤もらしさを、上記音響
    モデルと言語モデルに基づいて、時刻毎にスコアとして
    評価することで全ての音声が入力された時点で、最もス
    コアの高い1つないし複数の仮説をもって認識結果とす
    る音声認識方法において、 前記仮説の尤もらしさを時刻毎にスコアとして評価する
    過程の中で仮説を同一状態に合流する際に、過去の複数
    の音素履歴が同一の仮説はスコアの高い仮説のみを保持
    し、過去の複数の音素履歴が異なる仮説は別々に保持す
    ることにより単語仮説の絞り込みを行うことを特徴とす
    る音声認識方法。
JP00483597A 1997-01-14 1997-01-14 音声認識方法 Expired - Lifetime JP3494338B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP00483597A JP3494338B2 (ja) 1997-01-14 1997-01-14 音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP00483597A JP3494338B2 (ja) 1997-01-14 1997-01-14 音声認識方法

Publications (2)

Publication Number Publication Date
JPH10198392A JPH10198392A (ja) 1998-07-31
JP3494338B2 true JP3494338B2 (ja) 2004-02-09

Family

ID=11594760

Family Applications (1)

Application Number Title Priority Date Filing Date
JP00483597A Expired - Lifetime JP3494338B2 (ja) 1997-01-14 1997-01-14 音声認識方法

Country Status (1)

Country Link
JP (1) JP3494338B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9384730B2 (en) 2013-05-30 2016-07-05 International Business Machines Corporation Pronunciation accuracy in speech recognition

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5016218B2 (ja) * 2005-12-22 2012-09-05 パナソニック株式会社 情報信号伝送装置
JP6404564B2 (ja) 2013-12-24 2018-10-10 株式会社東芝 デコーダ、デコード方法およびプログラム
CN112242144A (zh) * 2019-07-17 2021-01-19 百度在线网络技术(北京)有限公司 基于流式注意力模型的语音识别解码方法、装置、设备以及计算机可读存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
清水, 山本, 政瀧, 松永, 匂坂,大語い連続音声認識のための単語仮説数削減,電子情報通信学会論文誌 D−II,日本,1996年12月25日,Vol.J79−D−II, No.12,Pages 2117−2124
野田, 松永, 嵯峨山,単語グラフを用いた大語彙連続音声認識における近似演算手法の検討,電子情報通信学会技術研究報告[音声],日本,1997年 1月17日,Vol.96, No.449, SP96−102,Pages 53−58
野田, 松永, 嵯峨山,単語グラフを用いた大語彙連続音声認識における近似演算法,日本音響学会平成9年度春季研究発表会講演論文集,日本,1997年 3月17日,2−6−6,Pages 55−56

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9384730B2 (en) 2013-05-30 2016-07-05 International Business Machines Corporation Pronunciation accuracy in speech recognition
US9978364B2 (en) 2013-05-30 2018-05-22 International Business Machines Corporation Pronunciation accuracy in speech recognition

Also Published As

Publication number Publication date
JPH10198392A (ja) 1998-07-31

Similar Documents

Publication Publication Date Title
CN108305634B (zh) 解码方法、解码器及存储介质
US6856956B2 (en) Method and apparatus for generating and displaying N-best alternatives in a speech recognition system
US6266634B1 (en) Method and apparatus for generating deterministic approximate weighted finite-state automata
KR100612839B1 (ko) 도메인 기반 대화 음성인식방법 및 장치
US6961701B2 (en) Voice recognition apparatus and method, and recording medium
EP1128361B1 (en) Language models for speech recognition
US5884259A (en) Method and apparatus for a time-synchronous tree-based search strategy
JP4802434B2 (ja) 音声認識装置及び音声認識方法、並びにプログラムを記録した記録媒体
US6178401B1 (en) Method for reducing search complexity in a speech recognition system
US20050256715A1 (en) Language model generation and accumulation device, speech recognition device, language model creation method, and speech recognition method
JP2002507010A (ja) 同時に起こるマルチモード口述のための装置及び方法
Szöke et al. Phoneme based acoustics keyword spotting in informal continuous speech
US20050159953A1 (en) Phonetic fragment search in speech data
Lee et al. Real-time word confidence scoring using local posterior probabilities on tree trellis search
JPH1185188A (ja) 音声認識方法及びそのプログラム記録媒体
JP3494338B2 (ja) 音声認識方法
Duchateau et al. Confidence scoring based on backward language models
Cernocky et al. Search in speech for public security and defense
JP3104900B2 (ja) 音声認識方法
US20040148163A1 (en) System and method for utilizing an anchor to reduce memory requirements for speech recognition
JP3042455B2 (ja) 連続音声認識方式
JP2938865B1 (ja) 音声認識装置
Bahl et al. Constructing groups of acoustically confusable words
JP3550350B2 (ja) 音声認識方法及びプログラム記録媒体
JPH1097275A (ja) 大語彙音声認識装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071121

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081121

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091121

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101121

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101121

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111121

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111121

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121121

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121121

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131121

Year of fee payment: 10

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term