JP3069531B2 - 音声認識方法 - Google Patents

音声認識方法

Info

Publication number
JP3069531B2
JP3069531B2 JP9060237A JP6023797A JP3069531B2 JP 3069531 B2 JP3069531 B2 JP 3069531B2 JP 9060237 A JP9060237 A JP 9060237A JP 6023797 A JP6023797 A JP 6023797A JP 3069531 B2 JP3069531 B2 JP 3069531B2
Authority
JP
Japan
Prior art keywords
speech
voice
recognition
likelihood
length
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP9060237A
Other languages
English (en)
Other versions
JPH10254475A (ja
Inventor
泰浩 南
達雄 松岡
貞▲煕▼ 古井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP9060237A priority Critical patent/JP3069531B2/ja
Publication of JPH10254475A publication Critical patent/JPH10254475A/ja
Application granted granted Critical
Publication of JP3069531B2 publication Critical patent/JP3069531B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は,音声の始端と終
端を自動的に検出して音声を認識する音声認識方法にお
いて,単語間に存在する長い無発声区間に対処する音声
認識方法に関する。
【0002】
【従来の技術】従来までの音声認識方法を図3を参照し
て説明する。図3において,30は入力音声の音声始端
を検出する始端検出部,31は入力音声の音声終端を検
出する終端検出部,32は検出された音声始端と音声終
端間の音声信号について音声認識を行う音声認識部,3
3は音声認識時に音声信号から抽出した特徴量とマッチ
ングするための参照パターン,34は音声終端を検出す
るときの閾値である無発声区間長を表す。
【0003】入力された音声は,始端検出部30で音声
始端の検出が行われる。音声始端の検出後に無発声区間
が検出されると,終端検出部31では,あらかじめ設定
された無発声区間長34と比較し,入力音声の無発声区
間の長さが所定の無発声区間長34よりも長いときに,
その無発声区間が始まった時点を音声終端として検出す
る。音声認識部32において,この音声始端から音声終
端までの音声に対して,あらかじめ参照パターン33と
して用意された各音声モデルとの類似度が計算され,そ
の値に基づいた認識結果が,音声認識部32から出力さ
れる。
【0004】
【発明が解決しようとする課題】従来技術による音声認
識方法では,音声始端と音声終端を検出した音声に対し
て音声認識を行っていた。このとき,終端検出では,あ
る一定長の長さの無発声区間が観測された場合に,音声
がもう発声されていないと判断し,音声の終端としてい
た。しかし,この方法では,考えながら発声している場
合や躊躇した発声の場合などのように,単語の間に長い
無発声区間が挿入されると,発声の途中を音声の終端と
して検出してしまうため,精度のよい音声認識結果が得
られないという問題があった。
【0005】この発明は,上述の問題を解消する音声認
識方法を提供するものである。
【0006】
【課題を解決するための手段】この発明によれば,音声
始端と音声終端を検出後,音声認識部で認識が行われ,
その結果に対して,認識結果確認部で認識された単語の
信頼度が計算される。計算した信頼度がある条件を満た
せば結果を出力する。もし,一部の単語の信頼度だけが
高い場合には,無発声区間の閾値の長さを増やして,再
度音声の終端検出を行う。その結果を音声認識部で再度
認識する。また,どの単語の信頼度も十分でない場合に
は,音声の始端検出に戻って再度上記操作を繰り返す。
【0007】以上の操作を全ての単語の信頼度が十分に
なるか,あるいは無発声区間の閾値がある一定の長さを
越えるまで繰り返す。無発声区間の閾値がある一定の長
さを越えた場合には,音声の始端検出に戻る。
【0008】
【発明の実施の形態】図1は,本発明の構成例を示すブ
ロック図である。図中,10は入力音声の音声始端を検
出する始端検出部,11は入力音声の音声終端を検出す
る終端検出部,12は検出された音声始端と音声終端間
の音声信号について音声認識を行う音声認識部,13は
音声認識時に音声信号から抽出した特徴量とマッチング
するための参照パターン,14は認識結果の信頼度を計
算して認識結果を確認する認識結果確認部,15は認識
結果の確認に用いる単語の長さ,16は音声終端を検出
するときの閾値である無発声区間長を表す。
【0009】ここでは4桁の数字の認識を行う場合の例
について説明する。最初に入力された音声は,始端検出
部10で音声始端の検出が行われる。この手法として,
例えば以下の尤度がある閾値を越えた場合を音声の始端
とする方法を用いる。
【0010】 D= logP(Ot|音声)− logP(Ot|環境雑音) ここで,P(Ot|音声)は時刻tに入力された音声の
特徴量Otが音声である尤度,P(Ot|環境雑音)は
入力された音声の特徴量Otが環境雑音である尤度であ
る。
【0011】第1の尤度P(Ot|音声)は,全ての語
彙に対応する音声HMM(Hidden Markov Model)に対す
る尤度である。このモデルは,対象語彙の全てを含む音
声を用いて学習され,対象語彙の音声信号に対しては高
い尤度を示すが,それ以外の信号には低い尤度を示すこ
とが期待される。第2の尤度P(Ot|環境雑音)は,
無音区間など認識対象語彙外の信号区間を用いて学習さ
れた非音声HMMに対する尤度で,無音区間で高い尤度
を示し音声信号には低い尤度を示すことが期待される。
それぞれのHMMは非常に簡単な構造のモデルでよく,
尤度計算は高速に行うことが可能である。
【0012】この他にも,音声始端および音声終端の検
出に,音声のパワーの閾値を使う手法も考えられる。こ
の後,終端検出部11では,無発声区間長16の閾値よ
り,無発声と判断された区間が長いときに,その無発声
と判断された区間の先頭を音声の終わりとして検出す
る。すなわち,上記の尤度Dが所定の閾値以下である場
合の区間が,無発声区間長16の閾値より長いときに,
その区間の先頭を音声終端とする。なお,検出された音
声始端と音声終端部分における信号情報の取りこぼしを
なくすために,実際に検出された音声始端から一定の長
さ分だけ音声始端を前にずらし,検出された音声終端か
ら一定の長さ分だけ音声終端を後にずらすようにしても
よい。
【0013】この音声始端と音声終端により切り出され
た音声は,音声認識部12に渡され,参照モデルとして
あらかじめ設定されている参照パターン13と比較され
る。音声認識部12では,認識結果と,参照モデルと入
力音声との尤度,および単語の長さが出力される。
【0014】認識結果確認部14では,この尤度と単語
の長さから,認識された単語の信頼度をチェックして,
数字を“良”,“可”,“不可”の3段階に分類する。
ここでは,この信頼度として以下の3つを使っている。
【0015】・数字の長さ 数字の長さがある閾値より短い数字は「不可」と分類す
る。 ・入力音声と環境雑音モデルとの尤度と入力音声と数字
モデルとの尤度の差 入力音声と環境雑音モデルとの尤度と,入力音声と数字
モデルとの尤度の差が0以下であれば,その数字を「不
可」とする。
【0016】・入力音声と音声モデルとの尤度と入力音
声と数字モデルとの尤度の差 入力音声と音声モデルとの尤度と,入力音声と数字モデ
ルとの尤度の差より,数字を「不可」,「可」,「良」
とラベル付けする。
【0017】この結果を使った認識結果確認部14での
処理手順を図2に示す。図2において,ステップS4〜
S8が,認識結果確認部14での処理手順である。始端
検出部10により入力音声から音声始端を検出し(S
1),また終端検出部11により音声終端を検出し(S
2),その間の音声信号について,音声認識部12によ
り音声認識を行う(S3)。音声認識部12から認識結
果,参照モデルと入力音声との尤度,単語の長さが認識
結果確認部14へ通知される。
【0018】認識結果確認部14は,認識の結果から数
字が4つとも「可」以上であれば(S4),その認識結
果を出力する(S5)。もし,認識結果中に「可」以上
が4つなく,また「良」の数字が1つもなければ(S
6),この切り出された音声の中には数字が存在しない
として認識結果を棄却し(S7),ステップS1へ戻
り,音声の始端検出からもう一度行う。少なくとも1つ
以上の数字が「良」であれば(S6),音声の中に長い
無発声区間が存在すると仮定して,無発声区間長の閾値
を大きくして(S8),もう一度音声終端の検出を行
う。この例では,ステップS8で無発声区間長の現在の
閾値に320msを加えている。この操作は無発声区間
長の閾値がある値以上になるまで続けられる。
【0019】認識結果の信頼度としては,ここに挙げた
例の他に,音声パワーなどによる信頼度が挙げられる。
【0020】
【実施例】この発明の効果を調べるために数字音声認識
実験を行った。評価用データには話者27人の発声した
4桁数字の音声を使用した。この結果,従来手法では1
9.2%の誤り率であったのに対し,本発明の実施例で
は誤り率が11.4%まで改善された。
【0021】
【発明の効果】以上の通りであって,この発明によれば
発声中に躊躇したり戸惑ったりした場合の長い無発声区
間が存在しても,音声認識を行うことができ,高い音声
認識率を達成することができる。
【図面の簡単な説明】
【図1】本発明の構成例を示すブロック図である。
【図2】本発明の実施の形態のフローチャートである。
【図3】従来例を示すブロック図である。
【符号の説明】
10 始端検出部 11 終端検出部 12 音声認識部 13 参照パターン 14 認識結果確認部 15 単語の長さ 16 無発声区間長
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 昭61−156100(JP,A) 特開 昭59−147396(JP,A) 特開 平6−43895(JP,A) 特開 平9−34484(JP,A) 特公 昭61−18199(JP,B2) (58)調査した分野(Int.Cl.7,DB名) G10L 15/00 - 17/00 G10L 11/02 JICSTファイル(JOIS)

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】 入力信号中から音声区間を検出して音声
    認識を行う音声認識装置における音声認識方法におい
    て,音声の入力信号から音声始端を検出する過程と,無
    発声区間長の閾値を用いて,音声の入力信号から音声終
    端を検出する過程と,検出された音声始端から音声終端
    までの音声を認識する過程と,認識された結果の信頼度
    に応じて,前記音声終端を検出するための無発声区間長
    の閾値を大きくし,再度音声終端の検出を行わせる過程
    とを有することを特徴とする音声認識方法。
JP9060237A 1997-03-14 1997-03-14 音声認識方法 Expired - Lifetime JP3069531B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9060237A JP3069531B2 (ja) 1997-03-14 1997-03-14 音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9060237A JP3069531B2 (ja) 1997-03-14 1997-03-14 音声認識方法

Publications (2)

Publication Number Publication Date
JPH10254475A JPH10254475A (ja) 1998-09-25
JP3069531B2 true JP3069531B2 (ja) 2000-07-24

Family

ID=13136374

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9060237A Expired - Lifetime JP3069531B2 (ja) 1997-03-14 1997-03-14 音声認識方法

Country Status (1)

Country Link
JP (1) JP3069531B2 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6327564B1 (en) * 1999-03-05 2001-12-04 Matsushita Electric Corporation Of America Speech detection using stochastic confidence measures on the frequency spectrum
EP1193686B1 (en) * 2000-09-29 2003-05-21 TELEFONAKTIEBOLAGET LM ERICSSON (publ) Method and device for analyzing a spoken sequence of numbers
JP3826032B2 (ja) 2001-12-28 2006-09-27 株式会社東芝 音声認識装置、音声認識方法及び音声認識プログラム
JP5621783B2 (ja) * 2009-12-10 2014-11-12 日本電気株式会社 音声認識システム、音声認識方法および音声認識プログラム
US20170069309A1 (en) * 2015-09-03 2017-03-09 Google Inc. Enhanced speech endpointing
US10269341B2 (en) 2015-10-19 2019-04-23 Google Llc Speech endpointing
KR101942521B1 (ko) 2015-10-19 2019-01-28 구글 엘엘씨 음성 엔드포인팅
JP6834634B2 (ja) * 2017-03-15 2021-02-24 ヤマハ株式会社 情報提供方法および情報提供システム
CN112581982B (zh) 2017-06-06 2024-06-25 谷歌有限责任公司 询问结束检测
US10929754B2 (en) 2017-06-06 2021-02-23 Google Llc Unified endpointer using multitask and multidomain learning
JP2019008274A (ja) * 2017-06-26 2019-01-17 フェアリーデバイセズ株式会社 音声情報処理システム、音声情報処理システムの制御方法、音声情報処理システムのプログラム及び記録媒体
JP7096707B2 (ja) * 2018-05-29 2022-07-06 シャープ株式会社 電子機器、電子機器を制御する制御装置、制御プログラムおよび制御方法
CN112382285B (zh) * 2020-11-03 2023-08-15 北京百度网讯科技有限公司 语音控制方法、装置、电子设备和存储介质
CN113362827B (zh) * 2021-06-24 2024-02-13 上海风和雨网络科技有限公司 语音识别方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
JPH10254475A (ja) 1998-09-25

Similar Documents

Publication Publication Date Title
JP3180655B2 (ja) パターンマッチングによる単語音声認識方法及びその方法を実施する装置
Bourlard et al. Optimizing recognition and rejection performance in wordspotting systems
JP3004883B2 (ja) 終話検出方法及び装置並びに連続音声認識方法及び装置
EP1355295B1 (en) Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded
JP3069531B2 (ja) 音声認識方法
JPS62217295A (ja) 音声認識方式
US7181395B1 (en) Methods and apparatus for automatic generation of multiple pronunciations from acoustic data
Boite et al. A new approach towards keyword spotting.
JP3119510B2 (ja) 音声認識装置
JP2996019B2 (ja) 音声認識装置
JPH11184491A (ja) 音声認識装置
JP3523382B2 (ja) 音声認識装置及び音声認識方法
JP2002091467A (ja) 音声認識システム
JPH0997095A (ja) 音声認識装置
JP3110025B2 (ja) 発声変形検出装置
JP4391031B2 (ja) 音声認識装置
JP3583930B2 (ja) 音声認識装置及びその方法
JP3357752B2 (ja) パターンマッチング装置
JPH11184492A (ja) 話者認識装置及びその方法
JPH09212190A (ja) 音声認識装置及び文認識装置
JPS61260299A (ja) 音声認識装置
JP2891259B2 (ja) 音声区間検出装置
JPS59149400A (ja) 音声入力装置
JP2901976B2 (ja) パターン照合予備選択方式
JPS6027000A (ja) パタンマツチング方法

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090519

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090519

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100519

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100519

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110519

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120519

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130519

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140519

Year of fee payment: 14

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term