JP2001134275A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JP2001134275A
JP2001134275A JP31415499A JP31415499A JP2001134275A JP 2001134275 A JP2001134275 A JP 2001134275A JP 31415499 A JP31415499 A JP 31415499A JP 31415499 A JP31415499 A JP 31415499A JP 2001134275 A JP2001134275 A JP 2001134275A
Authority
JP
Japan
Prior art keywords
voice
section
speech
unit
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP31415499A
Other languages
English (en)
Inventor
Yutaka Kaneda
豊 金田
Masafumi Tanaka
雅史 田中
Sumitaka Sakauchi
澄宇 阪内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP31415499A priority Critical patent/JP2001134275A/ja
Publication of JP2001134275A publication Critical patent/JP2001134275A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

(57)【要約】 【課題】音響エコーキャンセラーを備えた音声認識装置
において、音声認識の対象となる音声区間をスピーカか
らマイクロホンに回り込むエコーに影響されずに決定す
る。 【解決手段】発声者の音声を入力するマイクロホンとマ
イクロホンの出力信号から認識対象音声の時間区間を検
出する音声区間検出ユニットと音声区間検出ユニットで
検出された認識対象音声の時間区間に基づいて音声認識
を実行する音声認識ユニットと音声を出力するスピーカ
とスピーカからマイクロホンにエコーとして回り込んだ
音声を低減する音響エコーキャンセラーから構成される
音声認識装置において、前記音声認識装置は前記音声エ
コーキャンセラーの入力信号と出力信号とのレベル差を
所定レベルと比較することにより認識対象とする音声が
存在するか判定するレベル比較部と前記レベル比較部の
出力に基づいて前記認識対象とする音声が存在する時間
区間を決定する時間区間決定部を備える。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は音声コントロール
や音声ダイヤルなどの目的に用いる音声認識装置に関す
るものである。
【0002】
【従来の技術】図1は従来の音声認識装置の概念図であ
る。図1において、1は音声認識装置を表す。音声認識
装置1は、内部にガイダンス音声合成ユニット11、音声
区間検出ユニット12、音声認識ユニット13を持つ。ガイ
ダンス音声合成ユニット11は、音声認識に必要なガイダ
ンス音声信号x(k)を合成する。例えば、飲食店などにお
ける音声認識装置では、「ご注文は?」などの、注文を
促すガイダンス音声信号を合成する。合成された音声信
号はスピーカ2によって音として放射され、発声者3に
ガイダンスとして伝えられる。
【0003】発声者3認識対象となる音声s(k)を発声
する。この図1の例では、「ジュース」と発声する。こ
の発声者3の音声s(k)はマイクロホン4で受音され
る。受音された音声は音声認識装置1の内部に含まれる
音声区間検出ユニット12に入力される。音声区間検出ユ
ニット12では、認識対象となる音声の時間区間を検出す
る。図2に音声区間検出の考え方を示す。
【0004】図2の横軸は時間、縦軸は信号の短時間パ
ワーを表している。21は、認識対象となる音声の短時間
パワー包絡を表している。22は、一定の大きさで継続し
ている背景雑音のパワーを表している。音声区間検出と
は、このような図を元に、認識対象とする音声が存在す
る時間区間を検出することである。代表的な音声区間検
出方法は短時間パワーに基づく方法である。この方法で
は、ある閾値Th23を設け、信号の短時間パワーがThの値
を超えた区間を音声区間として検出する。図2において
は、Thを越える時間区間として認識対象音声「ジュー
ス」の音声区間24が検出されている。音声区間検出を精
度良く行うことは、音声認識を行う上で大変重要であ
る。高性能な音声認識アルゴリズムであっても、検出結
果が不正確であると、その性能を発揮することは出来な
い。
【0005】最後に、図1において、音声区間検出ユニ
ット12において検出された音声区間に含まれる音声信号
は、音声認識ユニット13に入力され、音声認識が実行さ
れる。
【0006】
【発明が解決しようとする課題】以上はこの音声認識装
置の理想的な動作である。しかし、現実的には、次のよ
うな問題が発生する。この問題を図3を用いて説明す
る。図に示したように、ガイダンス音声が発声者3に聞
こえるだけでなく、エコー5としてマイクロホン4に受
音されてしまう。受音されるエコー5をy(k)と表す。こ
のエコーy(k)はガイダンス音声信号x(k)に部屋の反響特
性が付加されたものである。
【0007】受音されたガイダンス音声のエコーy(k)
は、音声認識装置1に入力される。音声区間検出ユニッ
トは、このエコーを認識対象音声として検出し、音声認
識ユニットに転送する。その結果、音声認識ユニットは
エコー信号を認識してしまうという問題が発生する。図
3の例では、「ご注文は?」というガイダンスを、発声
者の注文と間違えて音声認識してしまうのである。この
問題を解決する従来の手段として音響エコーキャンセラ
ーの利用が知られている。図4を用いて説明する。図に
おいて音声認識装置1は、音響エコーキャンセラーユニ
ット8、適応フィルタ9を含む。適応フィルタ9は、ス
ピーカ2とマイクロホン4の間の音響伝達特性を推定・
模擬する。従って、この適応フィルタ9に、スピーカ2
に入力されるガイダンス音声x(k)を入力すれば、エコー
y(k)を模擬した疑似エコー信号y′(k)が合成される。音
響エコーキャンセラーユニット8は、マイクロホン受音
信号から、この疑似エコー信号y′(k)を減算する。
【0008】適応フィルタが音響伝達特性を良好に推定
することができれば、y′(k)≒y(k)となるので、減算に
よってエコーy(k)を消去することができ、発声者3の音
声s(k)のみが音声認識装置に入力される。そしてその場
合、上記減算によって、ある程度エコーのレベルは低減
するが、完全に消去することはできない。図4の例で
は、「ご注文は?」というガイダンス音声のエコーは、
音響エコーキャンセラーユニット8によって、ある程度
は小さくなるが、完全に消し去ることはできず、音声区
間検出ユニット12に入力される。そしてその結果、音声
区間検出ユニット12は、ガイダンス音声のエコーの一
部、または全部を認識対象音声として検出して音声認識
ユニット13に送出し、誤った音声認識を行うという問
題を完全に解決することはできない。
【0009】
【課題を解決するための手段】この発明は、音響エコー
キャンセラーの入出力信号を利用して認識対象音声の時
間区間を決定することで、上記問題点の解決を図るもの
である。図5にこの発明の概要を示す。この発明におい
ては、音声認識装置1は、音響エコーキャンセラーユニ
ット8、ガイダンス音声合成ユニット11、音声区間検出
ユニット12、音声認識ユニット13を含む。音声区間検出
ユニット12に対しては、音響エコーキャンセラーユニッ
ト8の出力信号u(k)に加えて、音響エコーキャンセラー
ユニット8に対する入力信号v(k)を入力する。
【0010】
【作用】エコーキャンセラーがある程度の性能で動作し
ていると仮定する。すると、エコーキャンセラーユニッ
ト8に対する入力信号v(k)がエコー信号である場合に
は、エコー信号は抑圧される。従って、入力信号v(k)と
出力信号u(k)とを比較した場合にはu(k)の方がレベルの
小さな信号となっている。一方、入力信号v(k)がエコー
信号でない場合には抑圧されないので、入力信号v(k)と
出力信号u(k)とは同じ大きさになる。
【0011】音声区間検出ユニット12では、この性質を
利用して、u(k)に含まれる信号がエコー信号であるか否
かを判定し、エコー信号の部分を排除することができ
る。その結果、上記したガイダンス音声が回り込んだエ
コーが音声認識に及ぼす問題点を解決することができ
る。
【0012】
【実施例】図6はこの発明における音声区間検出ユニッ
ト12の実施例を示すものである。図6において、31は音
声区間候補検出部、32はレベル比較部、33は音声区間決
定部を表している。まず、音声区間候補検出部31には、
エコーキャンセラーユニット8の出力信号u(k)が入力さ
れる。音声区間候補検出部31は、従来の音声区間検出方
法と同様の原理で、認識対象とすべき音声区間の候補を
検出し、認識対象候補の音声信号c(k)を出力する。
【0013】従来の代表的な音声区間検出方法の動作を
図7(a)に模式図で示した。図7(a)は、エコーキャンセ
ラーユニットの出力信号u(k)のパワー変化を表してい
る。この図において、横軸は時間、縦軸は信号の短時間
パワーを表している。41はエコー信号を、42は認識対象
とする音声を模式化している。信号のパワーが閾値Th 4
3を越えた時間区間を音声区間の候補として検出する。
この図においては、44は音声区間候補1および45の音声
区間候補2が検出される。このように、従来の音声区間
検出方法を用いた音声区間候補検出部31では、必要な音
声区間45も検出されるが、同時に、不必要な音声区間44
をも、認識すべき対象として検出してしまう。
【0014】この発明では、図6に示すように、エコー
キャンセラーユニット8の出力信号u(k)、および、エコ
ーキャンセラーユニット8への入力信号v(k)をレベル比
較部32に入力する。このレベル比較部32においては、信
号u(k)およびv(k)のパワーの比較を行う。レベル比較部
32の一実施例を図8に示す。図8において、51は第1短
時間パワー計算部、52は第2の短時間パワー計算部、53
は短時間減算部を表している。
【0015】レベル比較部32に入力された信号u(k)、v
(k)は、それぞれ、短時間パワー計算部51および短時間
パワー計算部52に入力し、それぞれの短時間パワーを計
算し、短時間パワー減算部53でそれらの間の差(v(k)−
u(k))を計算し、閾値Th2と比較する。その結果はレベ
ル比較結果の信号w(k)として出力される。この減算は、
真数値で行っても、また、対数値で行っても良い。以上
の動作を図7を用いて説明する。
【0016】図7(a)(b)は、それぞれ、エコーキャンセ
ラーユニット8の出力信号u(k)、および、エコーキャン
セラーユニットの入力信号v(k)の短時間パワーを表して
いる。認識対象音声42は、u(k)、v(k)においてパワーレ
ベルが等しいのに対して、エコー信号41は、エコーキャ
ンセラーユニットの出力信号u(k)においては、エコーキ
ャンセラーユニットの入力信号v(k)よりレベルが低下し
ている。従って、これらの差分v(k)−u(k)を計算する
と、図7(c)のようになる。すなわち、レベルの等しい
認識対象音声の区間では減算結果がほぼゼロとなり、エ
コーキャンセラーユニットの入力信号v(k)が大きいエコ
ーの区間では減算結果は正の値をとる。レベル比較結果
w(k)としては、この減算結果が閾値Th2(すなわち、所
定レベル)を超えた場合には、正の値を、越えない場合
には負の値をw(k)として出力する。このレベル比較部の
出力w(k)は、その値が正の場合にはエコー信号と判定で
きる。
【0017】図6において、音声区間候補検出部31の出
力c(k)とレベル比較部32の出力w(k)は、音声区間決定部
33に入力する。音声区間決定部で音声区間候補検出部31
から入力された候補音声信号c(k)に対して、レベル比較
部32からの信号w(k)が正の値であれば、これをエコー信
号として判定し、音声認識ユニット13に出力しない。一
方、レベル比較部32からの信号w(k)が正の値でなけれ
ば、これはエコー信号ではないので、認識対象とすべき
音声の区間であると決定し、その音声信号c(k)を音声区
間検出ユニット11の出力z(k)として音声認識ユニット13
に出力し、認識対象とする音声が存在する時間区間を決
定できる。
【0018】この出力z(k)は、図5に示すように、音声
認識ユニット13に入力される。この信号z(k)からはエコ
ー信号は除去されているので、ガイダンス音声を誤認識
するという問題点は解決される。なお、上記実施例にお
いては、ガイダンス音声合成ユニット11により音声を合
成し、スピーカ2より音声を出力しているが、発声者か
らのガイダンス音声をマイクロホンに入力してスピーカ
からガイダンス音声を出力してもよい。さらに、上記実
施例においては、音声区間候補検出部31で音声区間の候
補を検出し、レベル比較部32によりエコー信号であるか
どうかを検出し、レベル比較部によりエコー信号でない
と検出された場合に音声区間決定部33において音声区間
候補検出部31で検出した音声区間候補から認識対象とす
る音声の時間区間を決定しているが、レベル比較部32の
エコー信号であるかどうかの検出信号により音声区間検
出部を停止あるいは動作させて認識対象とする音声が存
在する時間区間を決定してもよい。
【0019】図9は、この発明の第2の実施例を示す。
図9において、音響エコーキャンセラーユニット8の内
部にエコー消去量計算部61が設けられている。このエコ
ー消去量計算部61は、エコー消去を行う減算器62の前後
の信号のパワー差(すなわち、音響エコーキャンセラー
ユニットの入力信号と出力信号とのレベル差)を計算
し、エコー消去量を計算するものである。このエコー消
去量の計算結果は適応フィルタ9の動作制御などに利用
される。
【0020】このエコー消去量は図8に示したレベル比
較部32での計算結果w(k)とほぼ等価の量である。従っ
て、図9に示すように、このエコー消去量を音声区間検
出ユニット12に入力して、w(k)の代わりとして、これを
利用することが可能である。以上の説明では、音響エコ
ーキャンセラーユニットの入出力信号のレベル差は、短
時間パワーの差として説明してきたが、振幅の絶対値の
平均値など、信号の大きさを表す量の差であれば、この
発明は実現できる。
【0021】この他にも、この発明の主旨を踏まえた各
種の構成を実現できる。
【0022】
【発明の効果】以上説明したように、この発明において
は、音響エコーキャンセラーユニットの入力信号と出力
信号とのレベル差を所定レベルと比較しすることにより
音声区間を検出し、この音声区間に基づき音声認識の対
象とする時間区間を決定しているのでスピーカからマイ
クロホンにエコーとして回り込んだ音声のエコーの影響
を除去できるので、精度の高い音声認識動作を実現する
ことができる。
【図面の簡単な説明】
【図1】音声認識装置の概念図。
【図2】音声区間検出の考え方を示す図。
【図3】音声認識におけるエコーの問題を説明する図。
【図4】音響エコーキャンセラーを利用した問題の解決
を示す図。
【図5】この発明の概要を示す構成図。
【図6】この発明における音声区間検出ユニットの構成
図。
【図7】音声区間検出の考え方を示す図。
【図8】この発明におけるレベル比較部の構成図。
【図9】この発明の第2の実施例を示す構成図。
【符号の説明】
1 音声認識装置 2 スピーカ 3 発声者 4 マイクロホン 8 音響エコーキャンセラーユニット 9 適応フィルタ 11 ガイダンス音声合成ユニット 12 音声区間検出ユニット 13 音声認識ユニット 31 音声区間候補検出部 32 レベル比較部 33 音声区間決定部 51 短時間パワー計算部1 52 短時間パワー計算部2 53 短時間パワー減算部 61 エコー消去量計算部 62 減算器
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) // G10L 101:065 (72)発明者 阪内 澄宇 東京都千代田区大手町二丁目3番1号 日 本電信電話株式会社内 Fターム(参考) 5D015 CC14 DD03 EE05 5D020 CC06 9A001 HH17 KK46

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】発声者の音声を入力するマイクロホンとマ
    イクロホンの出力信号から認識対象音声の時間区間を検
    出する音声区間検出ユニットと音声区間検出ユニットで
    検出された認識対象音声の時間区間に基づいて音声認識
    を実行する音声認識ユニットと音声を出力するスピーカ
    とスピーカからマイクロホンにエコーとして回り込んだ
    音声を低減する音響エコーキャンセラーから構成される
    音声認識装置において、 前記音声認識装置は前記音声エコーキャンセラーの入力
    信号と出力信号とのレベル差を所定レベルと比較するこ
    とにより認識対象とする音声が存在するか判定するレベ
    ル比較部と前記レベル比較部の出力に基づいて前記認識
    対象とする音声が存在する時間区間を決定する時間区間
    決定部を備えたことを特徴とする音声認識装置。
  2. 【請求項2】請求項1記載の音声認識装置において、 前記音声区間検出ユニットは音声区間候補検出部と音声
    区間決定部から構成され、 前記音声区間候補検出部は前記マイクロホンの出力信号
    から認識対象音声区間候補を検出し、 前記音声区間決定部は、前記レベル比較部の出力に基づ
    いて前記認識対象音声区間候補から前記認識対象とする
    音声が存在する時間区間を決定することを特徴とする音
    声認識装置。
  3. 【請求項3】請求項1又は請求項2記載の音声認識装置
    において、 前記レベル比較部は前記音響エコーキャンセラーの入力
    信号のレベルから出力信号のレベルを減算し、このレベ
    ル差が正である場合に前記認識対象とする音声が存在す
    る時間区間ではないと判定することを特徴とする音声認
    識装置。
  4. 【請求項4】請求項1、2又は3のいずれか1項記載に
    音声認識装置において、 前記音響エコーキャンセラーの入力信号および出力信号
    とのレベル差は前記音響エコーキャンセラーの入力信号
    および出力信号の短時間パワーを減算する短時間パワー
    減算部により算出することを特徴とする音声認識装置。
  5. 【請求項5】請求項1記載の音声認識装置において、 前記レベル比較部は前記音響エコーキャンセラーに備え
    たエコー消去量計算部で構成し、 前記エコー消去量計算部はエコー消去量を計算し、エコ
    ー消去量を所定レベルと比較し所定レベルより大きいレ
    ベルを検出した場合は前記認識対象とすべき時間区間で
    はないと判定することを特徴とする音声認識装置。
JP31415499A 1999-11-04 1999-11-04 音声認識装置 Pending JP2001134275A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP31415499A JP2001134275A (ja) 1999-11-04 1999-11-04 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP31415499A JP2001134275A (ja) 1999-11-04 1999-11-04 音声認識装置

Publications (1)

Publication Number Publication Date
JP2001134275A true JP2001134275A (ja) 2001-05-18

Family

ID=18049896

Family Applications (1)

Application Number Title Priority Date Filing Date
JP31415499A Pending JP2001134275A (ja) 1999-11-04 1999-11-04 音声認識装置

Country Status (1)

Country Link
JP (1) JP2001134275A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019024160A (ja) * 2017-07-24 2019-02-14 日本電信電話株式会社 抽出発生音補正装置、抽出発生音補正方法、プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019024160A (ja) * 2017-07-24 2019-02-14 日本電信電話株式会社 抽出発生音補正装置、抽出発生音補正方法、プログラム

Similar Documents

Publication Publication Date Title
KR101444100B1 (ko) 혼합 사운드로부터 잡음을 제거하는 방법 및 장치
US9313572B2 (en) System and method of detecting a user's voice activity using an accelerometer
US7945442B2 (en) Internet communication device and method for controlling noise thereof
US9438985B2 (en) System and method of detecting a user's voice activity using an accelerometer
US7412382B2 (en) Voice interactive system and method
JP2004226656A (ja) マイクロホンアレイを用いた話者距離検出装置及び方法並びに当該装置を用いた音声入出力装置
US7536006B2 (en) Method and system for near-end detection
US20140270231A1 (en) System and method of mixing accelerometer and microphone signals to improve voice quality in a mobile device
KR101340520B1 (ko) 잡음을 제거하는 장치 및 방법
JP6545419B2 (ja) 音響信号処理装置、音響信号処理方法、及びハンズフリー通話装置
JP2005084253A (ja) 音響処理装置、方法、プログラム及び記憶媒体
EP3289586A1 (en) Impulsive noise suppression
US20170365249A1 (en) System and method of performing automatic speech recognition using end-pointing markers generated using accelerometer-based voice activity detector
US9378755B2 (en) Detecting a user's voice activity using dynamic probabilistic models of speech features
JP3524370B2 (ja) 音声起動システム
JP2009094802A (ja) 通信装置
JP6878776B2 (ja) 雑音抑圧装置、雑音抑圧方法及び雑音抑圧用コンピュータプログラム
JPH09252268A (ja) 音声および雑音の除去装置、音声認識装置
US11977855B2 (en) System and method for automatic speech translation based on zero user interface
JP2001134275A (ja) 音声認識装置
JP2005338454A (ja) 音声対話装置
CN111201568A (zh) 现场性的检测
JP2001343985A (ja) 音声スイッチ方法及び音声スイッチ
KR20220063715A (ko) Zero UI 기반 자동 통역 시스템 및 방법
JP3466049B2 (ja) 通話機の音声スイッチ

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040309

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040706