JP2002073061A - 音声認識装置及びその方法 - Google Patents

音声認識装置及びその方法

Info

Publication number
JP2002073061A
JP2002073061A JP2000268269A JP2000268269A JP2002073061A JP 2002073061 A JP2002073061 A JP 2002073061A JP 2000268269 A JP2000268269 A JP 2000268269A JP 2000268269 A JP2000268269 A JP 2000268269A JP 2002073061 A JP2002073061 A JP 2002073061A
Authority
JP
Japan
Prior art keywords
ratio
voice
maximum
recognition
detecting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000268269A
Other languages
English (en)
Inventor
Maki Yamada
麻紀 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2000268269A priority Critical patent/JP2002073061A/ja
Publication of JP2002073061A publication Critical patent/JP2002073061A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 本発明は音声認識技術に関するものであり、
非定常騒音環境下であっても正しく音声区間検出を行う
ことを目的とする。 【解決手段】 音声認識装置において、音声パワーとノ
イズパワーの比であるSN比が一定の閾値を超えるか否か
で音声スイッチのON/OFFを切り替え、音声スイッチが最
後にONになってからT1秒以上経過し、かつ最後にOFFに
なってからT2秒以上経過し、かつ認識開始後T6秒以内で
あって、かつ最大SN比がαdB以上であり、かつ認識対象
語彙に対する最大尤度がβ以上であるときに、終了検出
する手段をもつ音声認識装置。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、非定常な雑音環境
下でも正しく音声区間検出を行い認識する音声認識装置
及びその方法に関する。
【0002】
【従来の技術】雑音環境下での音声認識において、従
来、次のような方法で音声区間検出を行っていた。
【0003】図6に示すフローチャートに従って従来の
方法の動作について説明する。基本的な考え方は、ノイ
ズレベルと現在のパワーの比(SN比)がある一定の閾
値Θ以上であるときには音声区間、ΘdB未満のときは
ノイズ区間とみなし、音声スイッチが最後にOFFにな
ってから一定時間以上たったときに、終了検出し認識結
果を表示する。
【0004】図6において、Sは各処理ステップを表
す。ユーザが認識開始ボタンを押下することにより以下
の処理を開始する。まず、最初にS1で音声スイッチを
OFFにしておく。そして、以下の処理を一定時間ごと
に繰り返す。この一定時間をフレームと呼び、ここでは
1フレーム=10msとする。音声スイッチのON/O
FFや認識処理はこのフレームごとに行い、終了検出が
行われた時点で認識結果を出力する。
【0005】入力フレームIについて、S2でリジェク
ト判定を行う。認識開始ボタンの押下による認識開始後
T5秒以上経過していれば、端子1へ飛びS10でリジ
ェクトメッセージを出力して処理を終了する。認識開始
後T5秒未満であればS3へ進む。
【0006】S3では、1つ前のフレームでの音声スイ
ッチのON/OFFを判定し、OFFの場合にはS4で
ノイズレベルの更新を行う。これは、音声スイッチがO
FFのときにはノイズ区間であるとの考え方に基づき、
以下のようにしてノイズレベルを更新する。フレームI
の入力のパワーをP(I)とし、それまでのノイズレベ
ルをNoldとするとき、更新後のノイズレベルNne
wは(数1)で表される。なおノイズレベルの初期値は
0としておく。
【0007】
【数1】
【0008】S3で音声スイッチがONの場合には音声
区間であるとみなし、ノイズレベルの更新は行わない。
【0009】次に、S5で現在のパワーレベルとノイズ
レベルの比であるSN比を求める。これは現在のパワー
P(I)とノイズレベルN0から(数2)で定義する。
【0010】
【数2】
【0011】次にS6で求まったSN比の値と閾値Θと
の比較を行い、SN比がΘdB以上であれば音声区間で
あるとみなし、S7へ進む。ここでSN比がΘdB未満
であればノイズ区間であるとみなし、S11へ進む。
【0012】S7では、音声スイッチをONにし、S9
でリジェクト判定を行う。ONの継続時間がT3秒以上
である場合には端子1へ飛びS10でリジェクトメッセ
ージを出力して処理を終了する。ここでリジェクトされ
なかった場合には、S19へ進み認識処理を続行する。
S19では、認識対象語彙辞書にしたがって音響モデル
と照合を行い、フレームIを終端とするときの認識対象
語彙に対する尤度を計算し、現在までの最大単語尤度を
保存しておく。(認識対象語彙は単語とする。)ここで
は、T1を0.7秒、T2を0.3秒、T3を3秒、T
4を4秒、T5を5秒とする。
【0013】一方S11では音声スイッチをOFFに
し、S12でリジェクト判定を行う。認識開始後T4秒
以上たっても一度もONになったことがなければ、端子
1へ飛びリS10でリジェクトメッセージを出力して処
理を終了する。ここでリジェクトされなかった場合に
は、S13、S14のステップで終了検出判定を行う。
【0014】最後にONになってからT1秒以上経過し
ており、かつ、最後にOFFになってからT2秒以上経
過している場合には、S18へ進み、認識結果を出力し
処理を終了する。
【0015】上記終了検出判定の条件を満たさなかった
場合には、S19へ進み認識処理を続行する。
【0016】終了検出判定の様子を示したイメージ図が
図7である。図7は認識開始ボタンを押して認識処理を
開始した後、「あさって」と発声したときの、音声パワ
ーと音声スイッチのON/OFF状態を示している。ノ
イズレベルに対しΘdB以上になったときに音声スイッ
チがONとなり、ΘdB未満になったときにOFFとな
る。音声スイッチが最後にONになってからT1秒以上
経過しており、かつ、最後にOFFになってからT2秒
以上経過している場合に、その時点で終了検出とする。
【0017】
【発明が解決しようとする課題】しかしながら、上記従
来例では、認識時の環境騒音が非定常騒音であった場
合、発声ボタン押下後まだ発声していないにもかかわら
ず、周囲の非定常雑音をひろって音声スイッチが働き、
終了検出してしまうという課題があった。
【0018】この原因は、ノイズレベルと現在のパワー
の比(SN比)がある一定の閾値Θ以上であるときには
音声区間、ΘdB未満のときはノイズ区間とみなし、音
声スイッチが最後にOFFになってから一定時間以上た
ったときに、終了検出し認識結果を表示するため、実際
に発声していないにもかかわらず認識処理が終了してし
まうことが多発していた。
【0019】図8は、そのようなケースを示した図であ
る。これは、「うえ」と発声する前に終了検出が行われ
認識処理が終了してしまった例を表している。非定常騒
音の場合、雑音に反応して音声スイッチがONとなり、
その後OFFとなってその状態が続いた場合に、終了検
出され、処理が終了してしまうことが起きる。この時点
で単語尤度が低かったりSN比が低かったりすれば、認
識結果をリジェクトにすることは可能であるが、その時
点では音の取り込みが終了しているため、その後に発声
された「うえ」という単語と照合を行うことができな
い。
【0020】これを解決するために閾値Θの値を十分大
きく取る方法がある。その場合、雑音に反応して音声ス
イッチがONになることは減少するものの、音声の始端
で音声スイッチがONになりにくくなり、始端検出性能
が悪くなるという問題点があった。
【0021】本発明は、非定常騒音環境下であっても正
しく音声区間検出を行い、音声認識することを目的とす
る。
【0022】
【課題を解決するための手段】この課題を解決するため
に、本発明は上記従来の方法に加え、閾値Θの値は変え
ずに、SN比の最大値を記憶しておき、認識開始後一定
時間内では最大SN比が閾値α以上で、かつ、認識処理
によって得られる最大尤度が閾値β以上でなければ終了
検出しないとする。これにより、始端検出の性能を落と
さずに、非定常騒音環境下であっても正しく終了検出で
きるようになる。また、最大SN比と最大尤度による条
件を、認識開始後一定時間内のみに適用することによっ
て、発声後認識結果が出力されるまでのレスポンスの劣
化を防ぐことができる。
【0023】
【発明の実施の形態】本発明の請求項1に記載の発明
は、音声区間を検出し音声認識を行う装置において、ノ
イズレベルを学習する学習手段と、前記ノイズレベルと
現在のパワーの比であるSN比を求めるSN比演算手段
手段と、前記SN比の最大値を保存しておく最大SN比
保存手段と、認識対象語彙に対する尤度を求める尤度演
算手段と、前記認識対象語彙に対する最大尤度を保存し
ておく最大尤度保存手段と、前記SN比が一定の閾値を
超えるか否かで音声スイッチのON/OFFを検出する
音声スイッチ検出手段と、前記音声スイッチの状態と前
記認識対象語彙に対する最大尤度と前記最大SN比とか
ら終了検出することで音声区間を検出する音声区間検出
手段とを備えたものであり、音声区間の終了判定を音声
スイッチの状態だけでなく音声スイッチの状態と前記認
識対象語彙に対する最大尤度と前記最大SN比とから終
了検出することで、始端検出の性能を落とさずに、非定
常騒音環境下であっても正しく終了検出できるようにな
るという作用を有する。
【0024】請求項2に記載の発明は、請求項1記載の
音声認識装置において、音声区間検出手段の終了検出
は、前記音声スイッチが最後にONになってからT1秒
以上経過しかつ最後にOFFになってからT2秒以上経
過しかつ認識開始後T6秒以内であって、かつ最大SN
比がαdB以上でありかつ認識対象語彙に対する最大尤
度がβ以上であるときに、終了検出することで音声区間
を検出することを特徴とするもので、音声区間の終了検
出判定に、認識開始後一定時間内では、最大SN比が閾
値α以上で、かつ、認識処理によって得られる認識対象
語彙に対する最大尤度が閾値β以上でなければ終了検出
しないとすることにより、始端検出の性能を落とさず
に、非定常騒音環境下であっても正しく終了検出できる
ようになるという作用を有する。また、最大SN比と最
大尤度による条件を認識開始後一定時間内のみに適用す
ることによって、認識結果のレスポンスの劣化を防ぐこ
とができるという作用を有する。
【0025】本発明の請求項3に記載の発明は、音声区
間を検出し音声認識を行う方法において、ノイズレベル
を学習するステップと、前記ノイズレベルと現在のパワ
ーの比であるSN比を求めるステップと、前記SN比の
最大値を保存しておくステップと、認識対象語彙に対す
る尤度を求めるステップと、前記認識対象語彙に対する
最大尤度を保存しておくステップと、前記SN比が一定
の閾値を超えるか否かで音声スイッチのON/OFFを
検出するステップと、前記音声スイッチの状態と前記認
識対象語彙に対する最大尤度と前記最大SN比とから終
了検出することにより音声区間を検出するステップとを
備えたものであり、音声区間の終了判定を音声スイッチ
の状態だけでなく音声スイッチの状態と前記認識対象語
彙に対する最大尤度と前記最大SN比とから終了検出す
ることで、始端検出の性能を落とさずに、非定常騒音環
境下であっても正しく終了検出できるようになるという
作用を有する。
【0026】請求項4に記載の発明は、請求項3記載の
音声認識方法において、音声区間を検出するステップの
終了検出は、前記音声スイッチが最後にONになってか
らT1秒以上経過しかつ最後にOFFになってからT2
秒以上経過しかつ認識開始後T6秒以内であってかつ最
大SN比がαdB以上でありかつ認識対象語彙に対する
最大尤度がβ以上であるときに、終了検出することで音
声区間を検出することを特徴とするもので、音声区間の
終了検出判定に、認識開始後一定時間内では、最大SN
比が閾値α以上で、かつ、認識処理によって得られる認
識対象語彙に対する最大尤度が閾値β以上でなければ終
了検出しないとすることにより、始端検出の性能を落と
さずに、非定常騒音環境下であっても正しく終了検出で
きるようになるという作用を有する。また、最大SN比
と最大尤度による条件を認識開始後一定時間内のみに適
用することによって、認識結果のレスポンスの劣化を防
ぐことができるという作用を有する。
【0027】請求項5に記載の発明は、プログラムされ
たコンピュータによって音声認識を行うプログラムを記
録した記録媒体であって、ノイズレベルを学習するステ
ップと、前記ノイズレベルと現在のパワーの比であるS
N比を求めるステップと、前記SN比の最大値を保存し
ておくステップと、認識対象語彙に対する尤度を求める
ステップと、前記認識対象語彙に対する最大尤度を保存
しておくステップと、前記SN比が一定の閾値を超える
か否かで音声スイッチのON/OFFを検出するステッ
プと、前記音声スイッチの状態と前記認識対象語彙に対
する最大尤度と前記最大SN比とから終了検出すること
により音声区間を検出するステップとを備えたコンピュ
ータに実行させるためのプログラムをコンピュータに読
み込み実行させることにより、音声区間の終了判定を音
声スイッチの状態だけでなく音声スイッチの状態と前記
認識対象語彙に対する最大尤度と前記最大SN比とから
終了検出することで、始端検出の性能を落とさずに、非
定常騒音環境下であっても正しく終了検出できるように
なるという作用を有する。
【0028】請求項6に記載の発明は、請求項1または
2記紗の音声認識装置において、発声された入力に対す
る最大SN比と最大尤度の値に応じた表示を、時間に同
期して表示装置に表示する表示手段を備えたものであ
り、発声された入力に対する最大SN比と最大尤度の値
の様子を時間に同期して表示することにより、ユーザは
自分の発声が小さすぎないか、発声があいまいでないか
等の様子を知ることができ、次回からの発声の仕方に反
映させ認識しやすいようにすることができるという作用
を有する。
【0029】以下、本発明の実施の形態について、図を
用いて説明する。
【0030】(実施の形態1)図1に、本発明の実施の
形態1における音声認識装置をコンピュータシステムで
実現した構成図を示し、以下に説明する。
【0031】図1において、101はメモリ、102は
CPU、103はキーボード/ディスプレイ、104は
CPUバス、105は認識対象語彙辞書、106は音響
モデルである。
【0032】本実施の形態では、図1の構成のもとに、
図2に示したフローチャートに従って音声認識を行う。
図2において、Sは各処理ステップを表す。従来例のフ
ローチャートである図6と異なるのは、S8およびS1
5〜S17である。図6と同じ動作をするステップには
同じステップ番号を付してある。ここでは従来例と異な
る部分についてのみ説明を行う。
【0033】本実施例では、S7で音声スイッチをON
にしたら、S8で現在までの最大SN比を保存してお
く。
【0034】本実施例における終了検出判定は、従来例
がS13、S14の条件だけであるのに対し、さらにS
15〜S17の条件を追加し、これら全てを満たしたと
きに終了検出を行う。すなわちS14、S15の条件を
満たした後、認識開始後T6秒以内であって、かつ、S
8で保存しておいた現在までの最大SN比が閾値αdB
以上であり、かつ、S19で保存しておいた現在までの
最大単語尤度が閾値β以上である場合に、終了検出し、
S18で認識結果を出力し処理を終了する。
【0035】ここで、最大SN比がαdB未満ならば終
了検出しないため、閾値αを大きい値に設定することに
よって、確実に音声があると思われる区間(パワーが十
分に大きい区間)がなければ、終了検出せず認識処理を
継続するようにすることができる。したがって、非定常
騒音環境下において発声していないにもかかわらず終了
検出してしまうという誤動作を防ぐことができる。
【0036】また、最大単語尤度がβ未満ならば終了検
出しないため、閾値βについても大きい値に設定するこ
とによって、確実に認識辞書とマッチする区間がなけれ
ば終了検出しないようにすることができる。したがっ
て、SN比がαdBを超えてしまうような大きなレベル
の騒音があっても、発声前に終了検出してしまうという
誤動作を防ぐことができる。
【0037】S16とS17の条件だけの場合には、確
実に発声があったとみなされなければ終了検出が行われ
ないため、発声が弱かったり、発声があいまいであって
尤度が低かったりした場合に、終了検出がいつまでたっ
ても行われず、発声したあと出力が得られるまでの時間
(レスポンス)が遅くなるという問題が出てくる。
【0038】そこで、最大SN比および最大単語尤度に
よる判定を、認識開始後T6秒以内に限定する(S1
5)ことによって、このレスポンスが遅くなることを回
避することができる。
【0039】本実施の形態における終了検出判定の様子
を示したイメージ図が図3である。図3は認識開始ボタ
ンを押して認識処理を開始した後、「あさって」と発声
したときの、音声パワーと音声スイッチのON/OFF
状態および最大SN比、最大単語尤度を示している。ノ
イズレベルに対し入力音声パワーがΘdB以上になった
ときに音声スイッチがONとなり、ΘdB未満になった
ときにOFFとなる。図3では、S13〜S17の条件
を満たした時点で終了検出がなされ、従来例と同様に正
しく終了検出を行うことができる。
【0040】これに対し、従来例では正しく終了検出で
きないが、本実施の形態では正しく終了検出できるとき
の、終了検出判定の様子を示したイメージ図が図4であ
る。図4は認識開始ボタンを押して認識処理を開始した
後、「うえ」と発声したときの、音声パワーと音声スイ
ッチのON/OFF状態および最大SN比、最大単語尤
度を示している。音声スイッチが最後にONになってか
らT1秒以上経過しており、かつ、最後にOFFになっ
てからT2秒以上経過している場合であっても、認識開
始後T6秒以内であれば、それまでの最大SN比が低い
か(α未満)または最大単語尤度が低い(β未満)場合
には、終了検出をせずに認識処理を先へ進める。その
後、正しい発声がなされれば最大単語尤度もSN比も十
分大きくなり、終了検出が行われる。このとき、もし発
声が弱いためSN比が小さかったりあいまいな発声のた
めに単語尤度が低かったりしてα,βの条件で正しく終
了検出されなかった場合にも、T6秒後には従来例と同
じ判定条件で終了検出がなされ、認識結果を出力する。
【0041】T6の値は、実際にユーザーが認識開始ボ
タンを押してから発声し始めるまでの時間によって最適
な値は変わってくる。T6を長くしすぎると認識結果が
出るまでのレスポンスが長くなる可能性がでてくる。T
6が短すぎると発声前に終了検出して処理を終了してし
まうケースが多くなり本発明の利点が活かされない。例
えば、相手先名を発声することによって電話のダイヤリ
ングを行う音声ダイヤルのような用途では、現実的には
2秒程度が妥当と考えられる。
【0042】このような条件を加えることにより、非定
常な騒音環境下であっても、ユーザーは、発声前に認識
処理が終了してしまったり、発声してから認識結果が得
られるまでに時間がかかるというような不快感を覚える
ことなく、音声認識を行うことができるようになる。
【0043】なお、本実施の形態では単語発声で説明し
たが、文などの他の発話単位でも同様に実施することが
できる。
【0044】また、本実施の形態では、ユーザが認識開
始ボタンを押下した時点から認識処理を開始し、音声区
間検出後、認識結果を出力またはリジェクトメッセージ
を出力して終了したが、認識装置の電源を入れた時点で
認識処理を開始し、ユーザが認識開始ボタンを押下する
ことなく、認識結果出力後、再び認識処理を開始するよ
うにすることも可能である。
【0045】(実施の形態2)本実施の形態2では、実
施の形態1に加え、表示装置であるディスプレイに、発
声された入力に対する最大SN比と最大尤度の値の様子
を時間に同期して表示するものである。
【0046】図5はその表示の様子を示した図である。
【0047】図5において、横軸は時間を表し縦軸は入
力のSN比を表す。入力時間と同期して棒グラフ状にS
N比を表示する。SN比が閾値αを超えたとき、図5
(A)のように、その超えた部分の色を変えて表示す
る。また最大単語尤度が閾値βを超えたとき、図5
(B)の顔マークのようにユーザにとってわかりやすい
マークを表示する。またマークではなく全体の色を淡い
色から濃い色に変えるなどしても良い。この表示は終了
検出がなされるまで(図5(C))続ける。
【0048】ユーザはこれを見て、自分の発声が小さす
ぎないか、発声があいまいでないか等の様子を知ること
ができ、次回からの発声の仕方に反映させ認識しやすい
ようにすることができる。
【0049】
【発明の効果】以上のように本発明は、SN比の最大値
を記憶しておき、認識開始後一定時間内のみであれば、
このSN比が閾値α以上で、かつ、認識処理によって得
られる最大単語尤度が閾値β以上でなければ終了検出し
ないとすることにより、始端検出の性能を落とさずに、
非定常騒音環境下であっても正しく終了検出できるよう
になる。
【0050】さらに最大SN比と最大尤度の条件を、認
識開始後一定時間内のみに適用することによって、発声
後認識結果が出力されるまでのレスポンスの劣化を防ぐ
ことができる。
【0051】また、発声された入力に対する最大SN比
と最大尤度の値の様子を時間に同期して表示することに
より、ユーザは自分の発声が小さすぎないか、発声があ
いまいでないか等の様子を知ることができ、次回からの
発声の仕方に反映させ認識しやすいようにすることがで
きる。
【図面の簡単な説明】
【図1】本発明の実施の形態1における音声認識装置の
構成図
【図2】本発明の実施の形態1における音声認識方法を
表すフローチャート
【図3】本発明の実施の形態1における終了判定の従来
技術でも正常に動作する例を表した図
【図4】本発明の実施の形態1における終了判定の従来
技術では誤動作する例を表した図
【図5】本発明の実施の形態2における表示の様子を示
した図
【図6】従来例の音声認識方法を表すフローチャート
【図7】従来例における終了判定の正常動作例を表した
【図8】従来例における終了判定の誤動作例をを表した
【符号の説明】
101 メモリ 102 CPU 103 キーボード/ディスプレイ 104 CPUバス 105 認識対象語彙辞書 106 音響モデル

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 音声区間を検出し音声認識を行う装置に
    おいて、ノイズレベルを学習する学習手段と、前記ノイ
    ズレベルと現在のパワーの比であるSN比を求めるSN
    比演算手段手段と、前記SN比の最大値を保存しておく
    最大SN比保存手段と、認識対象語彙に対する尤度を求
    める尤度演算手段と、前記認識対象語彙に対する最大尤
    度を保存しておく最大尤度保存手段と、前記SN比が一
    定の閾値を超えるか否かで音声スイッチのON/OFF
    を検出する音声スイッチ検出手段と、前記音声スイッチ
    の状態と前記認識対象語彙に対する最大尤度と前記最大
    SN比とから終了検出することで音声区間を検出する音
    声区間検出手段とを備えたことを特徴とする音声認識装
    置。
  2. 【請求項2】 音声区間検出手段の終了検出は、前記音
    声スイッチが最後にONになってからT1秒以上経過し
    かつ最後にOFFになってからT2秒以上経過しかつ認
    識開始後T6秒以内であって、かつ最大SN比がαdB
    以上でありかつ認識対象語彙に対する最大尤度がβ以上
    であるときに、終了検出することで音声区間を検出する
    ことを特徴とする請求項1記載の音声認識装置。
  3. 【請求項3】 音声区間を検出し音声認識を行う方法に
    おいて、ノイズレベルを学習するステップと、前記ノイ
    ズレベルと現在のパワーの比であるSN比を求めるステ
    ップと、前記SN比の最大値を保存しておくステップ
    と、認識対象語彙に対する尤度を求めるステップと、前
    記認識対象語彙に対する最大尤度を保存しておくステッ
    プと、前記SN比が一定の閾値を超えるか否かで音声ス
    イッチのON/OFFを検出するステップと、前記音声
    スイッチの状態と前記認識対象語彙に対する最大尤度と
    前記最大SN比とから終了検出することにより音声区間
    を検出するステップとを備えたことを特徴とする音声認
    識方法。
  4. 【請求項4】 音声区間を検出するステップの終了検出
    は、前記音声スイッチが最後にONになってからT1秒
    以上経過しかつ最後にOFFになってからT2秒以上経
    過しかつ認識開始後T6秒以内であってかつ最大SN比
    がαdB以上でありかつ認識対象語彙に対する最大尤度
    がβ以上であるときに、終了検出することで音声区間を
    検出することを特徴とする請求項3記載の音声認識方
    法。
  5. 【請求項5】 プログラムされたコンピュータによって
    音声認識を行うプログラムを記録した記録媒体であっ
    て、ノイズレベルを学習するステップと、前記ノイズレ
    ベルと現在のパワーの比であるSN比を求めるステップ
    と、前記SN比の最大値を保存しておくステップと、認
    識対象語彙に対する尤度を求めるステップと、前記認識
    対象語彙に対する最大尤度を保存しておくステップと、
    前記SN比が一定の閾値を超えるか否かで音声スイッチ
    のON/OFFを検出するステップと、前記音声スイッ
    チの状態と前記認識対象語彙に対する最大尤度と前記最
    大SN比とから終了検出することにより音声区間を検出
    するステップとを備えたコンピュータに実行させるため
    のプログラムを記憶したコンピュータ読み取り可能な記
    憶媒体。
  6. 【請求項6】 発声された入力に対する最大SN比と最
    大尤度の値に応じた表示を、時間に同期して表示装置に
    表示する表示手段を備えたことを特徴とする請求項1ま
    た2記載の音声認識装置。
JP2000268269A 2000-09-05 2000-09-05 音声認識装置及びその方法 Pending JP2002073061A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000268269A JP2002073061A (ja) 2000-09-05 2000-09-05 音声認識装置及びその方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000268269A JP2002073061A (ja) 2000-09-05 2000-09-05 音声認識装置及びその方法

Publications (1)

Publication Number Publication Date
JP2002073061A true JP2002073061A (ja) 2002-03-12

Family

ID=18755071

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000268269A Pending JP2002073061A (ja) 2000-09-05 2000-09-05 音声認識装置及びその方法

Country Status (1)

Country Link
JP (1) JP2002073061A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040035150A (ko) * 2002-10-18 2004-04-29 현대모비스 주식회사 차량용 음성인식 장치의 작동방법
JP2004302196A (ja) * 2003-03-31 2004-10-28 Nec Corp 音声認識装置、音声認識方法及び音声認識プログラム
JP2005257748A (ja) * 2004-03-09 2005-09-22 Nippon Telegr & Teleph Corp <Ntt> 収音方法、収音装置、収音プログラム
JP2005300958A (ja) * 2004-04-13 2005-10-27 Mitsubishi Electric Corp 話者照合装置
EP1681670A1 (en) * 2005-01-14 2006-07-19 Dialog Semiconductor GmbH Voice activation
WO2007017993A1 (ja) * 2005-07-15 2007-02-15 Yamaha Corporation 発音期間を特定する音信号処理装置および音信号処理方法
JP2008170806A (ja) * 2007-01-12 2008-07-24 Yamaha Corp 発音期間を特定する音信号処理装置およびプログラム
JP2019174784A (ja) * 2018-03-29 2019-10-10 パナソニック株式会社 音声翻訳装置、音声翻訳方法及びそのプログラム

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040035150A (ko) * 2002-10-18 2004-04-29 현대모비스 주식회사 차량용 음성인식 장치의 작동방법
JP2004302196A (ja) * 2003-03-31 2004-10-28 Nec Corp 音声認識装置、音声認識方法及び音声認識プログラム
JP2005257748A (ja) * 2004-03-09 2005-09-22 Nippon Telegr & Teleph Corp <Ntt> 収音方法、収音装置、収音プログラム
JP4518817B2 (ja) * 2004-03-09 2010-08-04 日本電信電話株式会社 収音方法、収音装置、収音プログラム
JP2005300958A (ja) * 2004-04-13 2005-10-27 Mitsubishi Electric Corp 話者照合装置
EP1681670A1 (en) * 2005-01-14 2006-07-19 Dialog Semiconductor GmbH Voice activation
WO2007017993A1 (ja) * 2005-07-15 2007-02-15 Yamaha Corporation 発音期間を特定する音信号処理装置および音信号処理方法
US8300834B2 (en) 2005-07-15 2012-10-30 Yamaha Corporation Audio signal processing device and audio signal processing method for specifying sound generating period
JP2008170806A (ja) * 2007-01-12 2008-07-24 Yamaha Corp 発音期間を特定する音信号処理装置およびプログラム
JP2019174784A (ja) * 2018-03-29 2019-10-10 パナソニック株式会社 音声翻訳装置、音声翻訳方法及びそのプログラム
JP7223561B2 (ja) 2018-03-29 2023-02-16 パナソニックホールディングス株式会社 音声翻訳装置、音声翻訳方法及びそのプログラム

Similar Documents

Publication Publication Date Title
KR101417975B1 (ko) 오디오 레코드의 엔드포인트를 자동 감지하는 방법 및 시스템
US11037574B2 (en) Speaker recognition and speaker change detection
CN111797632B (zh) 信息处理方法、装置及电子设备
JP2006351028A (ja) 音声認識中に可変数の代替ワードを表示する方法及びシステム
US10229701B2 (en) Server-side ASR adaptation to speaker, device and noise condition via non-ASR audio transmission
US10861447B2 (en) Device for recognizing speeches and method for speech recognition
US20160012819A1 (en) Server-Side ASR Adaptation to Speaker, Device and Noise Condition via Non-ASR Audio Transmission
CN108847243B (zh) 声纹特征更新方法、装置、存储介质及电子设备
CN111739534B (zh) 一种辅助语音识别的处理方法、装置、电子设备及存储介质
US20170270923A1 (en) Voice processing device and voice processing method
JP2001075580A (ja) 音声認識方法および音声認識装置
JP2002073061A (ja) 音声認識装置及びその方法
KR100567828B1 (ko) 향상된 음성인식 장치 및 방법
JP3625002B2 (ja) 音声認識装置
US20190147887A1 (en) Audio processing
CN112820281B (zh) 一种语音识别方法、装置及设备
CN110164431A (zh) 一种音频数据处理方法及装置、存储介质
CN114898755A (zh) 语音处理方法及相关装置、电子设备、存储介质
JP2011039434A (ja) 音声認識装置およびその特徴量正規化方法
CN114743546A (zh) 降低智能语音误唤醒率的方法及装置、电子设备
JP6966374B2 (ja) 音声認識システム及びコンピュータプログラム
US20200168221A1 (en) Voice recognition apparatus and method of voice recognition
JP2017201348A (ja) 音声対話装置、音声対話装置の制御方法、および制御プログラム
JP2010230994A (ja) 受付装置
JPH02103599A (ja) 音声認識装置