JPH04362699A - 音声認識方法及び装置 - Google Patents
音声認識方法及び装置Info
- Publication number
- JPH04362699A JPH04362699A JP3139092A JP13909291A JPH04362699A JP H04362699 A JPH04362699 A JP H04362699A JP 3139092 A JP3139092 A JP 3139092A JP 13909291 A JP13909291 A JP 13909291A JP H04362699 A JPH04362699 A JP H04362699A
- Authority
- JP
- Japan
- Prior art keywords
- word
- voice
- score
- length
- standard pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000006243 chemical reaction Methods 0.000 abstract description 2
- 230000007547 defect Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 11
- 239000013598 vector Substances 0.000 description 11
- 230000000694 effects Effects 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 238000007796 conventional method Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/12—Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
め要約のデータは記録されません。
Description
法を用いて入力音声における単語区間の検出と単語の認
識を同時に行う音声認識方法及び装置に関する。
法のような、音声区間の検出と認識処理とを同時に行う
ワードスポッティング法が提唱されている。
ル等の音声の特徴からなる単語標準パタンを1フレーム
ずつ入力音声に対してスライドさせながらマッチング処
理を行い、各標準パタンにおいてマッチング処理の演算
結果であるスコアが最小値をとる点により、その単語の
存在すると思われる区間が検出され、あとは全ての標準
パタンのスコアの最小値を比較して認識結果を得る方法
である。
行われていたワードスポッティング法では、ある標準パ
タンを構成する音韻列が、より音韻数の多い他の標準パ
タンの音韻列の一部と完全に一致する場合には、原理的
に誤認識を避けられないという欠点がある。例えば、標
準パタンとして/ku/の他に/roku/がある場合
、入力音声が/roku/ならば、標準パタン/ku/
も標準パタン/roku/も入力音声の一部又は全部と
完全に一致するので、マッチング処理の結果、両パタン
は残りの標準パタンよりも高いスコアを示すが、入力音
声が正常に発声されている限り、両パタンの示すスコア
に明確な差はなく、入力音声の僅かな変動により/ro
ku/が第一位になったり、/ku/が第一位になった
るする。すなわち、従来例では、ワードスポッティング
法の原理的な欠陥により、入力音声が正常に発声されて
いても、誤認識を避けられないという欠点があった。
、本発明は音声標準パタンを記憶する標準パタン記憶手
段と、音声情報を入力する音声入力手段と、前記音声入
力手段により入力した音声情報と前記標準パタン記憶手
段に記憶される音声標準パタンの相違度を演算する演算
手段と、前記演算手段による相違度に音声標準パタンの
長さの重みを付加する相違度修正手段とを有することを
特徴とする音声認識装置を提供する。
標準パタンを記憶し、音声情報を入力し、前記音声入力
する音声情報と前記音声標準パタンの相違度を演算し、
前記相違度に音声標準パタンの長さの重みを付加するこ
とを特徴とする音声認識方法を提供する。
くは前記演算結果に付加する音声標準パタンの長さの重
みは、長さが長いほど相違度が小さくなるようにする。
くは前記演算手段はワードスポッティングを用いる。
、1は音声の入力端子、2はA/D変換部、3は特徴パ
ラメータ分析部、4は認識部、5は認識部4が認識処理
の際使用する単語辞書、6は本発明に係わるスコア修正
部、7は補助記憶装置、8は認識結果の出力端子である
。
変換部2でA/D変換された後分析部3においてフレー
ム周期10msで分析され、LPCケプストラム係数ベ
クトルの時系列に変換される。認識部4では、補助記憶
装置7を使いながら上記LPCケプストラム係数ベクト
ルの時系列と、単語辞書5に収納されている単語標準パ
タンとのマッチングを行う。本実施例においては、図2
に示す17個の単語の認識を目的とする例について述べ
るので、単語辞書5には、図2で示す17個の単語の標
準パタンが可変長で収納されている。なお、この単語辞
書5に格納しておけば、本発明の実施は、この17個の
単語に限るものではないとは言うまでもない。本実施例
は不特定話者対象の音声認識装置で、距離尺度としてマ
ハラノビス距離を使用するので、単語辞書5に格納され
る各単語標準パタンは、図3で示すように、複数話者の
発声した単語音声をフレーム周期10msで分析してL
PCケプストラム係数ベクトルに変換し、フレーム数を
正規化した後フレーム毎に平均ベクトルmiと分散共分
散行列Σ−1jとを求めたものである。
ッティング法について説明する。
ストラム係数ベクトルの時系列{xi}と単語辞書5内
の単語標準パタンとのマッチングが、認識部4によって
連続DPを用いた以下の手順で行われる。
示す。
ムにおける平均ベクトルΣ−1j:jフレームにおける
分散共分散行列
順でワードスポッティングが行われる。なお、DPパス
の形状は図4に示すとおりである。1)式(1)に従い
入力ベクトルxiと標準パタンの平均ベクトルmjとの
マハラノビス距離d(i,j)を求める。 2)式(2)に従い、累積距離p(i,j)を求める。 3)式(3)に従い、最適経路長c(i,j)を求める
。 4)1)から3)までを、単語標準パタンの先頭フレー
ムから最終フレームまで繰り返す。 5)式(4)により、入力ベクトルxiと、単語標準パ
タンとのDP値D(i)を求める。 但しJは、各単語標準パタンの最終フレーム番号を示す
。 6)1)から5)までを、入力音声の先頭フレームから
最終フレームまで繰り返す。 7)各単語標準パタン毎にDP値の最小値を求め、入力
音声に対する各単語標準パタンのスコアとする。
、手順の(7)で説明した、各標準パタンのDP値D(
i)が最小値をとったところからバックトラックにより
DPパスを決定することによって検出される。
ティング法であるが、本実施例ではこの従来の方法の原
理的な欠陥を改善するために、スコア修正部6において
検出された音声区間の長さを利用したスコアの修正を行
う。
入力音声/roku/に対する単語標準パタンのマッチ
ングスコアを、ワードスポッティングにより決定された
単語区間と共に示したものであり、スコアの修正の行わ
れていない従来の方法である。リジェクトするか否かを
決定する閾値は、4.00であり、この値よりも小さな
スコアの単語がない場合は、リジェクトとする。図6に
よれば、単語標準パタン/roku/はワードスポッテ
ィングにより入力音声中から/roku/の音声区間を
正しく検出し、スコアも閾値以下の3.51を示してい
るにもかかわらず、単語標準パタン/ku/が入力音声
/roku/の一部/ku/とマッチングして第1位の
スコア3.34を示しているために、従来例では正解と
して/ku/が選択され、結果は誤認識になる。しかし
、ワードスポッティングの結果切り出された音声区間に
着目すると、音節数の多い単語標準パタン/roku/
の方が1音節の単語標準パタン/ku/より音声区間長
が長い。本実施例ではこの点に着目し、スコア第1位の
音声区間長を基準とし、第2位以下のスコアを各単語標
準パタンの検出した音声区間長に逆比例する方向で修正
する。即ち、検出した音声区間長の長いものほどスコア
が良くなるように修正する。
部6によるスコア修正処理の手順を説明する。但し、i
は補助変数、aは決定されたスコア修正係数、liは第
i位の音声区間長、cは音声区間長調整係数、diは第
i位の修正前スコア、d′iは第i位の修正後のスコア
を表し、補助記憶装置7を用いて処理が行われる。 S1)補助変数iに、数値2を設定する。 S2)スコア第1位の音声区間長liをスコア第i位の
音声区間長liと音声区間長調整係数cとの乗算結果で
除算し、結果をaに入れる。 S3)第i位のスコアdiに修正係数aを乗じ、結果を
d′iに入れる。 S4)補助係数iに数値1を加える。 S5)補助係数iが数値17より大きいかどうか調べ、
大きくなかったらS2に戻る。大きければ、処理を終了
する。
識部4からの出力に対し、スコア修正部6が図7のフロ
ーチャートに基づき行った修正処理の結果を示している
。処理の詳細を図7のフローチャートに基づき説明する
。ここで音声区間長調整係数cは、十分長い音声区間を
有する単語標準パタンのスコアを改善するために設けた
もので、ここではc=0.60とし、音声区間長がスコ
ア第1位のものの5/3以上の時スコア改善の効果が現
れるように設定されている。 S1)で、補助変数iに数値2を設定する。 S2)で、a=70/(165×0.60)より、修正
係数としてa=0.71を得る。 S3)で、d′2=3.51×0.71より、第2位に
対する修正スコアd′2を得る。
計算すると図8の「修正後のスコア」欄で示す結果とな
り、スコア修正後の順位は、単語標準パタン/roku
/がスコア2.48で第1位である。この結果によりス
コア修正部6は、第1位のスコア2.48で第1位であ
る。この結果によりスコア修正部6は、第1位のスコア
を示す単語標準パタン/roku/の単語番号10を出
力端子9から出力して認識処理は完了する。即ち、従来
例での誤認識は本発明により防ぐことができる。
て説明する。図9は、横軸を時間、縦軸をスコアとし、
入力音声/ku/に対する単語標準パタンのマッチング
スコアを、ワードスポッティングにより決定された単語
区間と共に示したものである。リジェクトの閾値はやは
り4.00である。図10によれば、単語標準パタン/
ku/はワードスポッティングにより入力音声中から/
ku/の音声区間を正しく検出し、スコアも閾値以下の
3.84を示している。このマッチング処理の結果に対
し、スコア修正部6が図7に示すフローチャートに従っ
て行ったスコア修正作業の結果を図10に示す。入力音
声の継続時間長が短いので、ワードスポッティングの結
果決定された音声区間長は何れも十分な長さを持たず、
修正後も第1位と第2位以下とのスコアの逆転は生じて
いない。即ち入力音声の音節数が多い場合に限り、音声
区間長を手掛かりとしたスコア修正の効力を発揮するこ
とになる。
た音声認識装置について本発明の効果を説明したが、本
発明は特定話者対象の音声認識装置についても同様の効
果を発揮する。すなわち、図1における単語辞書5に収
納する単語標準パタンを図11に示す様に特定話者音声
のスペクトルを表すベクトル時系列とし、距離尺度とし
て(5)式で示すユークリッド距離や(6)式で示す市
街地距離を、(1)式で示すマハラノビス距離の代りに
使用すれば、第一の実施例とまったく同じ手順で特定話
者に対するワードスポッティング法の改善が実現できる
。
メータとしてLPCケプストラス係数を使用したが、本
発明の効果は音声の特徴を表すパラメータであれば種類
の如何を問わず有効である事は明らかである。
準パタンによるワードスポッティングの結果検出された
音声区間の長さに対応して、マッチングのスコアを標準
パタンの長さが長い程を高くするように修正することに
より、ワードスポッティングの原理的な欠陥を改善し、
音声認識の認識率を高めるという効果が得られる。
コアを示す図。
フローチャート。
アを示す図。
示する図。
Claims (6)
- 【請求項1】 音声標準パタンを記憶する標準パタン
記憶手段、音声情報を入力する音声入力手段、前記音声
入力手段より入力した音声情報と前記標準パタン記憶手
段に記憶される音声標準パタンの相違度を演算する演算
手段、前記演算手段による相違度に音声標準パタンの長
さの重みを付加する相違度修正手段を有することを特徴
とする音声認識装置。 - 【請求項2】 前記相違度修正手段が演算結果に付加
する音声標準パタンの長さの重みは、長さが長いほど相
違度が小さくなるようにすることを特徴とする請求項1
に記載の音声認識装置。 - 【請求項3】 前記演算手段はワードスポッティング
を用いることを特徴とする請求項1に記載の音声認識装
置。 - 【請求項4】 音声標準パタンを記憶し、音声情報を
入力し、前記音声入力する音声情報と前記音声標準パタ
ンの相違度を演算し、前記相違度に音声標準パタンの長
さの重みを付加することを特徴とする音声認識方法。 - 【請求項5】 前記演算結果に付加する音声標準パタ
ンの長さの重みは、長さが長いほど相違度が小さくなる
ようにすることを特徴とする請求項4に記載の音声認識
方法。 - 【請求項6】 前記相違度の演算はワードスポッティ
ングを用いることを特徴とする請求項4に記載の音声認
識方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP3139092A JP3066920B2 (ja) | 1991-06-11 | 1991-06-11 | 音声認識方法及び装置 |
US08/371,494 US5621849A (en) | 1991-06-11 | 1995-01-11 | Voice recognizing method and apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP3139092A JP3066920B2 (ja) | 1991-06-11 | 1991-06-11 | 音声認識方法及び装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH04362699A true JPH04362699A (ja) | 1992-12-15 |
JP3066920B2 JP3066920B2 (ja) | 2000-07-17 |
Family
ID=15237308
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP3139092A Expired - Fee Related JP3066920B2 (ja) | 1991-06-11 | 1991-06-11 | 音声認識方法及び装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US5621849A (ja) |
JP (1) | JP3066920B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5974381A (en) * | 1996-12-26 | 1999-10-26 | Ricoh Company, Ltd. | Method and system for efficiently avoiding partial matching in voice recognition |
US7792667B2 (en) | 1998-09-28 | 2010-09-07 | Chaney Garnet R | Method and apparatus for generating a language independent document abstract |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3311460B2 (ja) * | 1994-01-28 | 2002-08-05 | 富士通株式会社 | 音声認識装置 |
JP3397568B2 (ja) * | 1996-03-25 | 2003-04-14 | キヤノン株式会社 | 音声認識方法及び装置 |
JPH1097276A (ja) * | 1996-09-20 | 1998-04-14 | Canon Inc | 音声認識方法及び装置並びに記憶媒体 |
JP3962445B2 (ja) | 1997-03-13 | 2007-08-22 | キヤノン株式会社 | 音声処理方法及び装置 |
JPH10254486A (ja) | 1997-03-13 | 1998-09-25 | Canon Inc | 音声認識装置および方法 |
US6017219A (en) * | 1997-06-18 | 2000-01-25 | International Business Machines Corporation | System and method for interactive reading and language instruction |
US6327343B1 (en) | 1998-01-16 | 2001-12-04 | International Business Machines Corporation | System and methods for automatic call and data transfer processing |
US6219407B1 (en) | 1998-01-16 | 2001-04-17 | International Business Machines Corporation | Apparatus and method for improved digit recognition and caller identification in telephone mail messaging |
JP2000047696A (ja) | 1998-07-29 | 2000-02-18 | Canon Inc | 情報処理方法及び装置、その記憶媒体 |
US7263484B1 (en) | 2000-03-04 | 2007-08-28 | Georgia Tech Research Corporation | Phonetic searching |
JP3728177B2 (ja) * | 2000-05-24 | 2005-12-21 | キヤノン株式会社 | 音声処理システム、装置、方法及び記憶媒体 |
EP1326164A4 (en) * | 2000-10-11 | 2005-12-28 | Canon Kk | INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING AND STORAGE MEDIUM |
JP2002268681A (ja) * | 2001-03-08 | 2002-09-20 | Canon Inc | 音声認識システム及び方法及び該システムに用いる情報処理装置とその方法 |
JP3542578B2 (ja) * | 2001-11-22 | 2004-07-14 | キヤノン株式会社 | 音声認識装置及びその方法、プログラム |
GB0224806D0 (en) * | 2002-10-24 | 2002-12-04 | Ibm | Method and apparatus for a interactive voice response system |
JP4476733B2 (ja) * | 2004-07-30 | 2010-06-09 | 株式会社東芝 | パターン評価方法、プログラムおよびパターン評価装置 |
US8700399B2 (en) | 2009-07-06 | 2014-04-15 | Sensory, Inc. | Systems and methods for hands-free voice control and voice search |
CN104751856B (zh) * | 2013-12-31 | 2017-12-22 | 中国移动通信集团公司 | 一种语音语句识别方法及装置 |
CN109785846B (zh) * | 2019-01-07 | 2024-05-28 | 平安科技(深圳)有限公司 | 单声道的语音数据的角色识别方法及装置 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS58102298A (ja) * | 1981-12-14 | 1983-06-17 | キヤノン株式会社 | 電子機器 |
JPS5945583A (ja) * | 1982-09-06 | 1984-03-14 | Nec Corp | パタンマッチング装置 |
JPS5997200A (ja) * | 1982-11-26 | 1984-06-04 | 株式会社日立製作所 | 音声認識方式 |
US4712243A (en) * | 1983-05-09 | 1987-12-08 | Casio Computer Co., Ltd. | Speech recognition apparatus |
US4817159A (en) * | 1983-06-02 | 1989-03-28 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus for speech recognition |
JPS59226400A (ja) * | 1983-06-07 | 1984-12-19 | 松下電器産業株式会社 | 音声認識装置 |
US5131043A (en) * | 1983-09-05 | 1992-07-14 | Matsushita Electric Industrial Co., Ltd. | Method of and apparatus for speech recognition wherein decisions are made based on phonemes |
US4821325A (en) * | 1984-11-08 | 1989-04-11 | American Telephone And Telegraph Company, At&T Bell Laboratories | Endpoint detector |
US4802224A (en) * | 1985-09-26 | 1989-01-31 | Nippon Telegraph And Telephone Corporation | Reference speech pattern generating method |
US4885791A (en) * | 1985-10-18 | 1989-12-05 | Matsushita Electric Industrial Co., Ltd. | Apparatus for speech recognition |
US4856067A (en) * | 1986-08-21 | 1989-08-08 | Oki Electric Industry Co., Ltd. | Speech recognition system wherein the consonantal characteristics of input utterances are extracted |
JPH0760318B2 (ja) * | 1986-09-29 | 1995-06-28 | 株式会社東芝 | 連続音声認識方式 |
JPH07104952B2 (ja) * | 1989-12-28 | 1995-11-13 | シャープ株式会社 | パターンマッチング装置 |
-
1991
- 1991-06-11 JP JP3139092A patent/JP3066920B2/ja not_active Expired - Fee Related
-
1995
- 1995-01-11 US US08/371,494 patent/US5621849A/en not_active Expired - Lifetime
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5974381A (en) * | 1996-12-26 | 1999-10-26 | Ricoh Company, Ltd. | Method and system for efficiently avoiding partial matching in voice recognition |
US7792667B2 (en) | 1998-09-28 | 2010-09-07 | Chaney Garnet R | Method and apparatus for generating a language independent document abstract |
US8005665B2 (en) | 1998-09-28 | 2011-08-23 | Schukhaus Group Gmbh, Llc | Method and apparatus for generating a language independent document abstract |
Also Published As
Publication number | Publication date |
---|---|
JP3066920B2 (ja) | 2000-07-17 |
US5621849A (en) | 1997-04-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH04362699A (ja) | 音声認識方法及び装置 | |
JPH11143346A (ja) | 語学練習用発話評価方法およびその装置並びに発話評価処理プログラムを記憶した記憶媒体 | |
JPH07506198A (ja) | 複合エキスパート | |
CN112750445B (zh) | 语音转换方法、装置和系统及存储介质 | |
US7072750B2 (en) | Method and apparatus for rejection of speech recognition results in accordance with confidence level | |
JP2955297B2 (ja) | 音声認識システム | |
JPH09325798A (ja) | 音声認識装置 | |
JP3100180B2 (ja) | 音声認識方法 | |
JP3090204B2 (ja) | 音声モデル学習装置及び音声認識装置 | |
JPH08314490A (ja) | ワードスポッティング型音声認識方法と装置 | |
JP2005091758A (ja) | 話者認識システム及び方法 | |
JP2655902B2 (ja) | 音声の特徴抽出装置 | |
Diwakar et al. | Repetition detection in dysarthric speech | |
JP3438293B2 (ja) | 音声認識における単語テンプレートの自動作成方法 | |
JPH0772899A (ja) | 音声認識装置 | |
JPH07210197A (ja) | 話者識別方法 | |
JPH02275499A (ja) | 発音評価法 | |
WO2024161230A1 (en) | Identifying optimal articulatory event-types for computer analysis of speech | |
JPH07104782A (ja) | 音声認識装置 | |
JPH05197397A (ja) | 音声認識方法及びその装置 | |
JP3009962B2 (ja) | 音声認識装置 | |
JPH0289098A (ja) | 音節パターン切り出し装置 | |
JPS6136797A (ja) | 音声セグメンテ−シヨン法 | |
JPH04233599A (ja) | 音声認識方法及び装置 | |
JPH0667695A (ja) | 音声認識方法および音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 19991116 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20000418 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090519 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100519 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100519 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110519 Year of fee payment: 11 |
|
LAPS | Cancellation because of no payment of annual fees |