JP2002278581A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JP2002278581A
JP2002278581A JP2001080970A JP2001080970A JP2002278581A JP 2002278581 A JP2002278581 A JP 2002278581A JP 2001080970 A JP2001080970 A JP 2001080970A JP 2001080970 A JP2001080970 A JP 2001080970A JP 2002278581 A JP2002278581 A JP 2002278581A
Authority
JP
Japan
Prior art keywords
volume
result
feature
feature amount
threshold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001080970A
Other languages
English (en)
Other versions
JP4391031B2 (ja
Inventor
Masaru Kuroda
勝 黒田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2001080970A priority Critical patent/JP4391031B2/ja
Publication of JP2002278581A publication Critical patent/JP2002278581A/ja
Application granted granted Critical
Publication of JP4391031B2 publication Critical patent/JP4391031B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 音声認識装置の誤認識を少なくする。 【解決手段】 入力された音声から特徴量を抽出する特
徴抽出部と、その特徴量と予め作成されている標準辞書
との照合を行ない照合類似度を算出する照合部と、入力
された音声の音量パワーを検出する音量検知部と、予め
設定された一つ又は複数の照合類似度閾値と予め設定さ
れた一つ又は複数の音量閾値とを利用して結果出力に係
る判断を行なう結果判断出力部とを有し、照合類似度が
第1の照合類似度閾値を越えたときに、音量パワーが第
1の音量閾値を越えているならば、結果出力を行なわ
ず、音量パワーが第2の音量閾値を下回っているなら
ば、結果出力を行なう、音声認識装置を提供する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、コンピュータ技術
を利用した音声認識装置に関する。
【0002】
【従来の技術】コンピュータ技術を利用した音声認識装
置は、予め認識される単語を音声認識システムに登録し
て認識単語辞書を作成する特定話者認識装置と、認識さ
れる単語を予め登録せず、例えばテキスト文字列から認
識単語辞書を作成する不特定話者認識装置とに、大別さ
れる。いずれの場合も、予め決められた単語(群)を発
声者が発声を行ない、それによる入力音声が認識される
装置である。
【0003】しかし、一般的に発声者は、発声を行なう
際に「えー」または「あのー」というような、本来の認
識対象とは無関係な不要語を発することが多い。認識の
対象となる単語に対して照合させる辞書は、音声区間の
始端から照合を始めるため、「えー」や「あのー」とい
うような発声が混入してしまう。すると、生成される類
似度の精度が著しく下落し誤認識処理を生じてしまう。
【0004】上記欠点を解消する技術として、ワードス
ポッティング法が挙げられる。ワードスポッティング法
は、「音声区間検出」の方法を使わないで、ある決めら
れた時間内に発声した音声の中から認識対象となる単語
を認識する技術である。こうすると、不要語が混入して
いても発声全体から不要語を取り除いて認識結果を出力
するため、良好な認識結果を得ることができる。ワード
スポッティング法の実現方法が、例えば、「継続時間制
御型状態遷移モデルを用いた単語音声認識法」(電子情
報通信学会論文誌 vol.J72−D−II No.
11 pp.1769−1777 1989年11月)
にて示されている。この方法は、認識対象となる辞書に
含まれる音素に、継続時間情報を付加し、演算量を減ら
しつつ良好な認識性能を得る方法である。
【0005】しかし、ワードスポッティング法にも以下
のような問題点がある。従来技術の音声認識(装置)の
場合は、図7(1)に示すように、認識処理を開始した
後、音声区間検出を行ない(ステップS106、ステッ
プS108)、その後、辞書との照合を行ない(ステッ
プS110)、最も類似度の高い辞書単語を結果出力す
る(ステップS112、ステップS114)。発声者か
らみると認識処理の開始をした後、ある発声を行なった
ときに結果が返されてくる。さらに認識処理を行なおう
とするならば、再び認識処理の開始のための起動処理を
行なう必要がある。これに対して、ワードスポッティン
グ法では、図7(2)に示すように音声区間検出がない
ので、逐次、所定の時間単位の経過毎に標準辞書との照
合処理を行なう。照合結果は数値化される。よって、こ
の照合結果がある閾値を越える場合に結果出力し、そう
でない場合は照合を継続する。この方法によると、発声
者の意図に関係なく照合処理が続けられていることがあ
り得るため、発声者が認識させようとする単語を発声し
ていないにもかかわらず結果出力されること(即ち、湧
き出しされること)がある。
【0006】例えば、発声者が音声認識装置に対して発
声しているのではなく、隣の人と会話しているときなど
に上記のような現象が生じる。また、入力マイクから離
れて位置する発声者以外の第三者の発声によっても、照
合処理による類似度の上昇が起き得るため、湧き出しが
生じてしまうことがある。
【0007】また、自動車で走行中に音声認識装置を利
用すると、走行時の風切り音や、タイヤ音などの車騒音
により、著しく音声認識の性能が落ちてしまう。この場
合にも、走行音の音声特徴量パターンが認識用辞書の特
徴量パターンに類似しているならば、湧き出しが生じて
しまうことになる。
【0008】以上のような問題点を踏まえつつ、コンピ
ュータ技術を利用する音声認識装置の誤認識を減少させ
る発明が開示されている。
【0009】(1)特開平6−301397号では、音
声認識における誤認識を減らす方法として、認識の状態
を結果出力の一部として出力することで結果出力後の利
用者への情報掲示を行ない、利用者に認識結果の判断を
行なわせるものを示す。
【0010】(2)特開平10−97283号では、誤
認識したときにその内容をフィードバックし、エラー回
数を踏まえて出力候補をもっともらしいものにする、と
いう発明を示す。
【0011】(3)特開平9−44183号などでは、
入力された音声が、発声者の音声なのか、または、周囲
騒音なのかを区別するために、予め発声者が発声する前
に周囲騒音を記憶しておいて、認識照合時に周囲騒音を
考慮した演算を行なう方式を示す。
【0012】(4)特開平6−296196号などで
は、予め装置に登録されたノイズ信号と入力された音声
信号とを比較し、入力信号から音声を抽出することで誤
認識を減らす装置について、開示している。
【0013】(5)特開平7−72895号では、音声
区間検出手段と、音声区間検出開始後に起動されるタイ
ムアウト検出手段を使用して、音声入力区間を限定する
ことにより音声認識性能を上げようとする装置を示して
いる。
【0014】上記の(複数の)従来技術では、利用者
(発声者)が音声発声後に認識候補を選択したり判断し
たりするなど、様々な作業を行なうことが必要な場合が
ある。また、周囲騒音を考慮する発明においても、その
取り込まれた周囲騒音が、発声者の発声時の背景騒音と
類似するとは限らない。更に、発声者の音声を正確に抽
出している、とも限らない。
【0015】
【発明が解決しようとする課題】本発明は、誤認識の少
ない音声認識装置を提供することを目的とする。
【0016】
【課題を解決するための手段】本発明は、上記目的を達
成するためになされたものである。本発明に係る請求項
1に記載の音声認識装置は、入力された音声から特徴量
を抽出する特徴抽出部と、その特徴量と予め作成されて
いる標準辞書との照合を行ない照合類似度を算出する照
合部と、入力された音声の音量パワーを検出する音量検
知部と、予め設定された一つ又は複数の照合類似度閾値
と、予め設定された一つ又は複数の音量閾値とを利用し
て、結果出力に係る判断を行なう結果判断出力部とを有
し、照合類似度が第1の照合類似度閾値を越えたとき
に、音量パワーが第1の音量閾値を越えているならば、
結果出力を行なわず、音量パワーが第2の音量閾値を下
回っているならば、結果出力を行なう、音声認識装置で
ある。
【0017】本発明に係る請求項2に記載の音声認識装
置は、入力された音声から特徴量を抽出する特徴抽出部
と、その特徴量と予め作成されている標準辞書との照合
を行ない照合類似度を算出する照合部と、ある時点にお
ける特徴量とそれ以前の特徴量を比較し、ある特徴量が
どれだけの期間継続したかを算出する特徴量継続時間演
算部と、予め設定された一つ又は複数の照合類似度閾値
と、予め設定された一つ又は複数の特徴量継続時間閾値
とを利用して、結果出力に係る判断を行なう結果判断出
力部とを有し、照合類似度が第1の照合類似度閾値を越
えたときに、特徴量継続時間演算部で算出された特徴量
継続時間が第1の特徴量継続時間閾値を越えているなら
ば、結果出力を行ない、上記特徴量継続時間が第2の特
徴量継続時間閾値を下回っているならば、結果出力を行
なわない、音声認識装置である。
【0018】本発明に係る請求項3に記載の音声認識装
置は、入力された音声から特徴量を抽出する特徴抽出部
と、その特徴量と予め作成されている標準辞書との照合
を行ない照合類似度を算出する照合部と、ある時点にお
ける特徴量とそれ以前の特徴量を比較し、ある特徴量が
どれだけの期間継続したかを算出する特徴量継続時間演
算部と、入力された音声の音量パワーを検出する音量検
知部と、予め設定された一つ又は複数の照合類似度閾
値、予め設定された一つ又は複数の特徴量継続時間閾
値、及び、予め設定された一つ又は複数の音量閾値を利
用して、結果出力に係る判断を行なう結果判断出力部と
を有し、照合類似度が第1の照合類似度閾値を越えたと
きに、特徴量継続時間演算部で算出された特徴量継続時
間が第1の特徴量継続時間閾値を越え、且つ音量パワー
が第2の音量閾値を下回っているならば、結果出力を行
ない、上記特徴量継続時間が第2の特徴量継続時間閾値
を下回っている、または、音量パワーが第1の音量閾値
を越えているならば、結果出力を行なわない、音声認識
装置である。
【0019】
【発明の実施の形態】以下、図面を参照して、本発明に
係る好適な実施の形態を説明する。
【0020】図1は、本発明の好適な実施の形態に係
る、音声認識装置2のブロック図である。図示されてい
ないが、本発明は、一般的なコンピュータ技術を利用す
るものである。
【0021】図1の音声認識装置2は、特徴抽出部4、
音量検知部6、特徴量継続時間演算部8、照合部10、
標準辞書部12、及び結果判断出力部14を含む。
【0022】特徴抽出部4においては、入力された音声
から音声認識に必要な音声特徴量を演算する。照合部1
0においては、標準辞書部12に格納される標準辞書
と、求められた音声特徴量との、距離ベクトル(類似
度)を求める。
【0023】一方、上記の照合部10とは別に、入力さ
れた音声の音量パワーを求める音量検知部6が設定され
ている。また、特徴量継続時間演算部8においては、あ
る時点における音声特徴量が、その後、どれくらい連続
するか(したか)を演算する。
【0024】照合部10で求められた類似度と、音量検
知部6で求められた音量パワー値と、特徴量継続時間演
算部8で求められた特徴量継続時間(類似フレーム継続
数)とを、結果判断出力部14にて、それぞれの閾値と
比較し、認識結果出力を行なう。
【0025】特徴抽出部4においては、フレームと呼ば
れるある時間単位(例えば20ms)ごとに音声特徴量
を求める。ここで求められる音声特徴量は、例えば10
次のメル-ケプストラム(mel-cepstrum)である。ま
た、標準辞書部12に格納されている情報は、認識単語
の音素列(文字列)から生成される各音素ごとの平均的
なメル-ケプストラムベクトルおよび、その音素の継続
時間、さらには、各音素の状態遷移を示すオートマトン
などである。照合部10においては、入力された音声特
徴量と、標準辞書部10に格納された上記情報との比較
演算を行ない、標準辞書部10内の各音素の状態遷移を
判断しながら、類似度を標準辞書部10内の各単語ごと
に求めていく。従って、結果判断出力部14には、標準
辞書部10に含まれる単語の数だけの類似度とその単語
の番号(認識番号)が送られる。
【0026】一方、音量検知部6においても、フレーム
単位(例えば20ms)ごとにその音声のパワー値が求
められる。このときの音声パワー値は、そのフレームの
パワー値で表す場合もあるし、そのフレームの数フレー
ム前からの平均パワー値で表す場合もある。
【0027】また、図2に示すように、特徴量継続時間
演算部8においては、フレーム単位で求められた特徴量
を保持し、入力された特徴量が、ぞれ以前のフレームと
比較して類似するかどうかを判定し、類似性が認められ
れば、類似フレーム継続数をインクリメントする。類似
性が認められない場合は、類似フレーム継続数を初期値
に戻す。このようにして求められた類似フレーム継続数
が、特徴量継続時間である。
【0028】結果判断出力部14においては、前に説明
したように、類似度情報、音量パワー値、特徴量継続時
間(類似フレーム継続数)が入力される。これらを以下
に示す判断手順により判断し、結果出力するかどうかを
決める。
【0029】≪第1の実施の形態≫図4は、本発明の第
1の実施の形態に係る音声認識装置の認識手順を示すフ
ローチャートである。第1の実施の形態においては、音
量パワー値と類似度情報を利用する。
【0030】類似度情報は、各フレーム毎に求められる
単語類似度である。結果判断出力部14においては、そ
の単語類似度が最大値を記録したかどうかをまず判断す
る。この最大値は、図3におけるピーク類似度に相当す
る。このピーク類似度の検出処理では、ある応答時間を
経た後に次の処理に移る。これは、類似度のピークを確
実に検出する目的と、部分一致した標準辞書単語を検出
する目的のためである。例えば、「しんよこはま(新横
浜)」と「しんよこはまきた(新横浜北)」を弁別する
ために、応答時間を適度に大きな値に設定することがあ
る。
【0031】また、音量パワー値は、発声者の発声が完
全に終わったかどうかの判定のために利用する。例え
ば、「しんよこはまきた」と言ったのか「しんよこはま
です」と言ったのかを類似度情報だけでは正確に検出で
きないため、音量がある程度小さな値に収まった時点
を、発声者の発声終了と判断して、その発声終了時に最
も類似度が高い単語を正解単語として結果出力する。
【0032】したがって、図3に示すように、結果判断
出力部14では、類似度閾値がある閾値を越えたところ
で、応答時間を待って、その閾値がピークであることを
判断する(ステップS26)。また、結果判断出力部1
4では、類似度ピーク値を結果出力するにあたり、音量
パワー値が第1の閾値(閾値1)を越えているかどうか
を判断する(ステップS28)。もし、閾値1より大き
ければ発声者がまだ発声している最中であると判断して
結果出力をしないこととする。また、閾値1より小さい
若しくは同じである、第2の閾値(閾値2)と比較して
(ステップS30)、音量パワー値が小さいときは、発
声者の発声が終了したと判断し、結果出力を行なう(ス
テップS32)。こうすることにより、発声者の発声が
終わらないうちには結果出力されないし、確実に発声が
終わったところで結果出力が行なわれる。よって自然な
ユーザインタフェースが実現される。
【0033】≪第2の実施の形態≫図5は、本発明の第
2の実施の形態に係る音声認識装置の認識手順を示すフ
ローチャートである。第2の実施の形態においては、特
徴量継続時間と類似度情報を利用する。
【0034】類似度情報は、各フレーム毎に求められる
単語類似度である。結果判断出力部14においては、そ
の単語類似度が最大値を記録したかどうかをまず判断す
る。この最大値は、図3におけるピーク類似度に相当す
る。このピーク類似度の検出処理では、ある応答時間を
経た後に次の処理に移る。これは、類似度のピークを確
実に検出する目的と、部分一致した標準辞書単語を検出
する目的のためである。
【0035】また、騒音環境下においては、発声が終わ
ったとしても、背景に騒音がある。よって、音量による
制御の他に、特徴量の変化により発声であるかないかを
判断することが望ましい。その判断は、抽出した特徴量
がどれくらい継続したかを判定することである。例え
ば、走行する車両の内部の背景雑音は、風切り音やタイ
ヤ走行摩擦音などであり、それらはある程度時間幅を持
って存在する雑音である。一方、すれ違う対向車などか
ら雑音が発生することがあるが、それらの雑音の発生時
間は、人が発声する音声に比べて短い。
【0036】上記のような背景雑音の特性を考慮する
と、背景雑音と類似する特徴量成分が相当に長く継続し
た場合は、該特徴量に係る音は音声でないと判断するこ
とができ、よって発声終了と見なせる。このときに音声
認識結果を出力する。
【0037】図5に示すように、結果判断出力部14で
は、類似度閾値がある閾値を越えたところで、応答時間
を待って、その閾値がピークであることを判断する(ス
テップS46)。また、結果判断出力部14では、類似
度ピーク値を結果出力するにあたり、類似度継続時間演
算部8より得られた特徴量継続時間を第4の閾値(閾値
4)と比較する(ステップS48)。もし、閾値4より
小さければ、発声者がまだ発声しているか、何か入力音
声の特徴量の変化があるということなので、結果出力を
行なわず照合を続ける。また、閾値4より大きい若しく
は同じである、第3の閾値(閾値3)を、特徴量継続時
間が上回った場合(ステップS50)は、発声者の発声
が終了し且つ背景騒音が継続して入力されていると判断
して、結果出力を行なう(ステップS52)。
【0038】≪第3の実施の形態≫図6は、本発明の第
3の実施の形態に係る音声認識装置の認識手順を示すフ
ローチャートである。第3の実施の形態は、概略、第1
の実施の形態と第2の実施の形態とを組み合わせて形成
されている。第3の実施の形態においては、類似度情
報、音量パワー値、及び特徴量継続時間を利用する。
【0039】類似度情報は、各フレーム毎に求められる
単語類似度である。結果判断出力部14においては、そ
の単語類似度が最大値を記録したかどうかをまず判断す
る。この最大値は、図3におけるピーク類似度に相当す
る。このピーク類似度の検出処理では、ある応答時間を
経た後に次の処理に移る。これは、類似度のピークを確
実に検出する目的と、部分一致した標準辞書単語を検出
する目的のためである。
【0040】音量パワー値は、発声者の発声が終了した
かどうかの判定に利用する。音量がある程度小さな値に
収まった時点を、発声者の発声終了と判断し、その発声
終了時点にて最も類似度が高い単語を正解単語として結
果出力の候補とする。
【0041】また、騒音環境下においては、発声が終わ
ったとしても、背景に騒音がある。よって、音量による
制御の他に、特徴量の変化により発声であるかないかを
判断することが望ましい。その判断は、抽出した特徴量
がどれくらい継続したかを判定することである。例え
ば、走行する車両の内部の背景雑音は、風切り音やタイ
ヤ走行摩擦音などであり、それらはある程度時間幅を持
って存在する雑音である。一方、すれ違う対向車などか
ら雑音が発生することがあるが、それらの雑音の発生時
間は、人が発声する音声に比べて短い。
【0042】上記のような背景雑音の特性を考慮する
と、背景雑音と類似する特徴量成分が相当に長く継続し
た場合は、該特徴量に係る音は音声でないと判断するこ
とができ、よって発声終了と見なせる。このときに音声
認識結果を出力し、それを出力候補とする。
【0043】図6に示すように、結果判断出力部14で
は、類似度閾値がある閾値を越えたところで、応答時間
を待って、その閾値がピークであることを判断する(ス
テップS66)。また、結果判断出力部14では、類似
度ピーク値を結果出力するにあたり、類似度継続時間演
算部8より得られた特徴量継続時間を第4の閾値(閾値
4)と比較する(ステップS68)。もし、閾値4より
小さければ、発声者がまだ発声しているか、何か入力音
声の特徴量の変化があるということなので、結果出力を
行なわず照合を続ける。また、閾値4より大きい若しく
は同じである、第3の閾値(閾値3)を、特徴量継続時
間が上回った場合(ステップS70)は、発声者の発声
が終了し且つ背景騒音が継続して入力されていると判断
して、第1の結果出力候補を形成する。
【0044】また、結果判断出力部14では、類似度ピ
ーク値を結果出力するにあたり、音量パワー値が第1の
閾値(閾値1)を越えているかどうかを判断する(ステ
ップS72)。もし、閾値1より大きければ発声者がま
だ発声している最中であると判断して結果出力しないこ
ととする。また、閾値1より小さい若しくは同じであ
る、第2の閾値(閾値2)と比較して(ステップS7
4)、音量パワーが小さいときは、発声者の発声が終了
したと判断し、第2の結果出力候補を形成する。
【0045】上記第1の結果出力候補、および、第2の
結果出力候補がそろったところで、結果出力を行なう
(ステップS76)。両候補ともにそろわなかったとき
には、結果出力を行なわない。
【0046】
【発明の効果】以上のように構成された、本発明に係る
音声認識装置では、類似度情報、音量パワー値、及び特
徴量継続時間について、それぞれ閾値を設定し、それら
閾値に達したか否かを判断することで、結果出力をコン
トロールできる。さらに、そのように結果出力をコント
ロールすることにより、誤認識(例えば、湧き出し、発
声中の結果出力など)を減らせることが可能となる。従
って、音声ユーザインタフェースをより自然で、使いや
すいものとすることができる。
【図面の簡単な説明】
【図1】 本発明の好適な実施の形態に係る音声認識装
置のブロック図である。
【図2】 特徴量継続時間を算出するフローチャートで
ある。
【図3】 類似度及び音量の、時間変動の例を示すグラ
フである。
【図4】 本発明の第1の実施の形態に係る音声認識装
置の認識手順を示すフローチャートである。
【図5】 本発明の第2の実施の形態に係る音声認識装
置の認識手順を示すフローチャートである。
【図6】 本発明の第3の実施の形態に係る音声認識装
置の認識手順を示すフローチャートである。
【図7】 従来の音声認識装置における音声認識のフロ
ーチャートである。
【符号の説明】
2・・・音声認識装置、 4・・・特徴抽出部、 6・・・音量検知部、 8・・・特徴量継続時間演算部、 10・・・照合部、 12・・・標準辞書部、 14・・・結果判断出力部。

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 入力された音声から特徴量を抽出する特
    徴抽出部と、その特徴量と予め作成されている標準辞書
    との照合を行ない照合類似度を算出する照合部と、 入力された音声の音量パワーを検出する音量検知部と、 予め設定された一つ又は複数の照合類似度閾値と、予め
    設定された一つ又は複数の音量閾値とを利用して、結果
    出力に係る判断を行なう結果判断出力部とを有し、 照合類似度が第1の照合類似度閾値を越えたときに、音
    量パワーが第1の音量閾値を越えているならば、結果出
    力を行なわず、音量パワーが第2の音量閾値を下回って
    いるならば、結果出力を行なう、音声認識装置。
  2. 【請求項2】 入力された音声から特徴量を抽出する特
    徴抽出部と、 その特徴量と予め作成されている標準辞書との照合を行
    ない照合類似度を算出する照合部と、 ある時点における特徴量とそれ以前の特徴量を比較し、
    ある特徴量がどれだけの期間継続したかを算出する特徴
    量継続時間演算部と、 予め設定された一つ又は複数の照合類似度閾値と、予め
    設定された一つ又は複数の特徴量継続時間閾値とを利用
    して、結果出力に係る判断を行なう結果判断出力部とを
    有し、 照合類似度が第1の照合類似度閾値を越えたときに、特
    徴量継続時間演算部で算出された特徴量継続時間が第1
    の特徴量継続時間閾値を越えているならば、結果出力を
    行ない、上記特徴量継続時間が第2の特徴量継続時間閾
    値を下回っているならば、結果出力を行なわない、 音声認識装置。
  3. 【請求項3】 入力された音声から特徴量を抽出する特
    徴抽出部と、 その特徴量と予め作成されている標準辞書との照合を行
    ない照合類似度を算出する照合部と、 ある時点における特徴量とそれ以前の特徴量を比較し、
    ある特徴量がどれだけの期間継続したかを算出する特徴
    量継続時間演算部と、 入力された音声の音量パワーを検出する音量検知部と、 予め設定された一つ又は複数の照合類似度閾値、予め設
    定された一つ又は複数の特徴量継続時間閾値、及び、予
    め設定された一つ又は複数の音量閾値を利用して、結果
    出力に係る判断を行なう結果判断出力部とを有し、 照合類似度が第1の照合類似度閾値を越えたときに、特
    徴量継続時間演算部で算出された特徴量継続時間が第1
    の特徴量継続時間閾値を越え、且つ音量パワーが第2の
    音量閾値を下回っているならば、結果出力を行ない、上
    記特徴量継続時間が第2の特徴量継続時間閾値を下回っ
    ている、または、音量パワーが第1の音量閾値を越えて
    いるならば、結果出力を行なわない、 音声認識装置。
JP2001080970A 2001-03-21 2001-03-21 音声認識装置 Expired - Fee Related JP4391031B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001080970A JP4391031B2 (ja) 2001-03-21 2001-03-21 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001080970A JP4391031B2 (ja) 2001-03-21 2001-03-21 音声認識装置

Publications (2)

Publication Number Publication Date
JP2002278581A true JP2002278581A (ja) 2002-09-27
JP4391031B2 JP4391031B2 (ja) 2009-12-24

Family

ID=18937152

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001080970A Expired - Fee Related JP4391031B2 (ja) 2001-03-21 2001-03-21 音声認識装置

Country Status (1)

Country Link
JP (1) JP4391031B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010124509A (ja) * 2005-06-22 2010-06-03 Nec Corp 迷惑電話呼の交換接続を遮断する方法および装置
CN115547312A (zh) * 2022-11-30 2022-12-30 深圳时识科技有限公司 带活动检测的预处理器、芯片和电子设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010124509A (ja) * 2005-06-22 2010-06-03 Nec Corp 迷惑電話呼の交換接続を遮断する方法および装置
CN115547312A (zh) * 2022-11-30 2022-12-30 深圳时识科技有限公司 带活动检测的预处理器、芯片和电子设备
CN115547312B (zh) * 2022-11-30 2023-03-21 深圳时识科技有限公司 带活动检测的预处理器、芯片和电子设备

Also Published As

Publication number Publication date
JP4391031B2 (ja) 2009-12-24

Similar Documents

Publication Publication Date Title
US9354687B2 (en) Methods and apparatus for unsupervised wakeup with time-correlated acoustic events
US7610199B2 (en) Method and apparatus for obtaining complete speech signals for speech recognition applications
KR100655491B1 (ko) 음성인식 시스템에서의 2단계 발화 검증 방법 및 장치
JP3826032B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
JP3004883B2 (ja) 終話検出方法及び装置並びに連続音声認識方法及び装置
US6134527A (en) Method of testing a vocabulary word being enrolled in a speech recognition system
US9335966B2 (en) Methods and apparatus for unsupervised wakeup
US20020161581A1 (en) Robust word-spotting system using an intelligibility criterion for reliable keyword detection under adverse and unknown noisy environments
US7050973B2 (en) Speaker recognition using dynamic time warp template spotting
JP6827536B2 (ja) 音声認識装置および音声認識方法
Dey et al. Exploiting sequence information for text-dependent speaker verification
EP3195314B1 (en) Methods and apparatus for unsupervised wakeup
JP2996019B2 (ja) 音声認識装置
JPH11184491A (ja) 音声認識装置
JP2013083796A (ja) 男女声識別方法、男女声識別装置及びプログラム
JP2000250593A (ja) 話者認識装置及び方法
JP4391031B2 (ja) 音声認識装置
JP3428805B2 (ja) 音声認識のための音声区間始端補正方法及び装置並びに音声認識方法
JPH10274993A (ja) 音声認識装置および音声認識方法
JP2006313261A (ja) 音声認識装置並びに音声認識プログラム及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体
KR100669244B1 (ko) 음성인식 시스템에서의 svm 기반 멀티플 반모델을사용한 발화검증 장치 및 방법
KR20020045960A (ko) 음성인식에서 핵심어 검출 성능 개선 방법
JP2019191477A (ja) 音声認識装置及び音声認識方法
KR100449912B1 (ko) 음성인식시스템의 핵심어 검출을 위한 후처리방법
US11195545B2 (en) Method and apparatus for detecting an end of an utterance

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050916

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080507

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080527

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080728

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090707

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090901

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090929

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091007

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121016

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131016

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees