JP2000039900A - 自己診断機能付き音声対話装置 - Google Patents

自己診断機能付き音声対話装置

Info

Publication number
JP2000039900A
JP2000039900A JP10208809A JP20880998A JP2000039900A JP 2000039900 A JP2000039900 A JP 2000039900A JP 10208809 A JP10208809 A JP 10208809A JP 20880998 A JP20880998 A JP 20880998A JP 2000039900 A JP2000039900 A JP 2000039900A
Authority
JP
Japan
Prior art keywords
speech
voice
recognition
self
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10208809A
Other languages
English (en)
Inventor
Takeshi Sugihara
岳 杉原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP10208809A priority Critical patent/JP2000039900A/ja
Publication of JP2000039900A publication Critical patent/JP2000039900A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 音声認識部の認識性能を自己診断し、周囲雑
音に応じた最適処理が選択できるようにする。 【解決手段】 演算処理部23から既知の合成音声を出
力させ、この合成音声と音声認識部7による認識結果と
を照合し、周囲雑音が許容限界を越えるか否かを自己診
断する構成としたから、自己診断用に用意された既知の
合成音声を出力して音声認識することで、音声認識部7
にとって外乱となる周囲雑音の影響力を正確に把握する
ことができ、周囲雑音が許容限界を越える場合は、音声
認識自体を中断したり、或いは周囲雑音が許容限界以下
になるまで待機したりできる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】木発明は、音声認識とその認
識結果を踏まえた合成音声による対話を行う自己診断機
能付き音声対話装置に関する。
【0002】
【従来の技術】図2に示す従来の音声対話装置1は、事
前に学習した話者音声に基づいて話者が発した音声内容
を認識し、合成音声をもって応答する装置であり、話者
音声を認識する音声認識系と認識結果に基づいて合成音
声を発声して話者と対話する音声合成系とから構成され
る。音声認識系は、話者音声を集音したマイクロフォン
2の音声出力を入力アンプ回路3とゲイン可変型の可変
アンプ回路4により増幅し、音声帯域のうちの必要帯域
だけを濾波する帯域濾波回路5を介してA/D変換器6
に供給する。さらに、A/D変換器6のアナログ/ディ
ジタル変換出力を音声認識部7に供給し、音声認識エン
ジンを内蔵する音声認識部7にて音声認識する。
【0003】音声認識部7には、読み書き自在のメモリ
手段として音声認識辞書部8や音素データメモリ9が接
続してある。音声認識辞書部8は、音声認識部7による
音声認識結果を索引とする辞書であり、事前に登録済み
或いは学習済みの辞書データが格納されており、例えば
音声認識の結果として話者が人名を発声したと認識した
ときに、辞書データのなかから当該人名に関して予め登
録済みの電話番号を読み出すといった利用がなされる。
また、音素データメモリ9は、話者に特有の音節の繋が
りを出現頻度に応じた順位で格納してあり、音声認識の
学習効果を活かすべく最新データをもって記憶内容が更
新されるようにしてある。
【0004】音声合成系は、音声認識部7と同じマイク
ロプロセッサ内に設けられており、音声認識エンジンと
は別に用意された音声合成エンジンに従って動作する。
この音声合成系は、音声認識結果を受けて所要音声を合
成する演算処理部10が中枢部を占めており、音声認識
部7と演算処理部10は相互に制御信号を送受する関係
にある。演算処理部10の出力は、音声合成部11に供
給されて合成音声に変換され、出力アンプ回路12を介
してスピーカ13に供給される。また、演算処理部10
には、半音節の組み合わせを学習する学習部14が接続
してあり、この学習部14の学習結果の一部又は全部が
音素データメモリ9に書き込めるようにしてある。さら
に、演算処理部10には、入力アンプ回路3の出力から
入力ゲインを監視する入力ゲイン監視部15が接続して
あり、本例の場合、この入力ゲイン監視部15の出力に
応じて演算処理部10が可変アンプ回路4のゲインを適
応調整するようになっている。
【0005】マイクロフォン2に入力された周囲雑音入
りの音声信号は、入力アンプ回路3と入力ゲイン監視部
15とに供給される。入力アンプ回路3に供給された周
囲雑音入りの音声信号は、さらに音声認識部7が認識可
能なレベルにまで可変アンプ回路4において増幅され、
帯域遮波回路5にて必要帯域外の信号を減衰させた後、
A/D変換器6にてアナログ信号からディジタル信号に
変換される。ディジタル信号に変換された周囲雑音入り
の音声信号は、音声認識エンジンを搭載する音声認識部
7において音声認識される。この音声認識は、ディジタ
ル信号として入力された話者音声に対し、過去の学習結
果等を参照しながら最も妥当であると考えられる単語の
選択をもって行われる。演算処理部10は、音声認識部
7からの音声認識結果に応答して例えば音声入力案内を
実施し、音声合成部11に対し音声合成を命ずる。その
結果、音声合成部11により合成された音声が出力アン
プ回路12にて増幅されてスピーカ13から発声され、
話者との対話が逐次進行する。
【0006】ところで、音声認識中は、入力アンプ回路
3から出力された周囲雑音入りの音声信号のレベルが入
力ゲイン監視部15により監視されており、その監視結
果は演算処理部10へと供給される。入力ゲインを供給
された演算処理部10は、これを基準ゲインと比較して
しきい値判別し、入力ゲインが不足する場合は可変アン
プ回路4のゲインを増大させ、また入力ゲインが過剰な
場合は、可変アンプ回路4のゲインを抑制する。
【0007】
【発明が解決しようとする課題】上記従来の音声対話装
置1は、周囲雑音の混じった話者音声の信号レベルを入
力ゲイン監視部15にて監視し、入力音声レベルが過大
である場合には演算処理部10の出力をもって可変アン
プ回路4のゲインを抑制する構成としてあるため、入力
音声レベルが許容入力上限を逸脱してしまうサチレーシ
ョンに起因する誤認識は防止できる。しかしながら、話
者音声レベルに比べて周囲雑音レベルが数段高いような
場合、可変アンプ回路4のゲインを周囲雑音レベルに合
わせて適応調整してしまうため、実際には、周囲雑音に
邪魔されて正確な音声認識が阻害されてしまい、徒に誤
認識率を高める結果を招く等の課題を抱えるものであっ
た。特に、過去の音声認識結果を学習して最新の音声認
識に活かす学習型の音声認識方式を採用したときに、初
期認識時の誤認識が累積して徒に認識率を低下させてし
まう等の課題を抱えるものであった。
【0008】本発明は、上記課題を解決したものであ
り、音声認識部の認識性能を自己診断し、周囲雑音に応
じた最適処理が選択できるようにすることを目的とする
ものである。
【0009】
【課題を解決するための手段】上記目的を達成するた
め、本発明は、入力音声信号を音声認識する音声認識手
段と、該音声認識手段による認識結果に基づき、合成音
声をもって応答する合成音声出力手段と、該合成音声出
力手段から既知の合成音声を出力させ、該合成音声と前
記音声認識手段による認識結果とを照合し、周囲雑音が
許容限界を越えるか否かを自己診断する診断手段とを具
備することを特徴とするものである。
【0010】また、前記診断手段が、前記合成音声と前
記音声認識手段による認識結果とのずれに基づき、前記
音声認識手段による音声認識に与える周囲雑音の影響を
学習し、学習結果を該音声認識手段に帰還すること、或
いは前記診断手段が、話者音声を取り込む前に周囲雑音
レベルを検出し、前記音声認識手段への入力ゲインを適
応制御すること等を特徴とするものである。
【0011】
【発明の実施の形態】以下、本発明の実施形態について
図1を参照して説明する。図1は、本発明の自己診断機
能付き音声対話装置の一実施形態を示すブロック構成図
である。
【0012】図1に示す自己診断機能付き音声対話装置
21は、使用環境下における音声認識部7の認識性能を
自己診断し、周囲雑音の影響を的確に排除できるよう構
成したものであり、入力ゲインを監視する従来の入力ゲ
イン監視部15を用いる代わりに、自己診断信号として
合成音声を可変アンプ回路4に入力し、この合成音声に
与える周囲雑音の影響を割り出す構成としてある。従っ
て、自己診断用の合成音声を音声合成部11から可変ア
ンプ回路4に供給する必要があり、本実施形態では、音
声合成部11と出力アンプ回路12との間に、1入力2
切り替え出力型のアナログスイッチ部22を配設し、こ
のアナログスイッチ部22を演算処理部23の出力をも
って切り替え制御するようにしてある。
【0013】可変アンプ回路4は、合成音声を周囲雑音
に加算して帯域濾波回路5に供給し、同時にまた演算処
理部23からの制御信号を受けてゲインを可変制御され
るようになっている。また、演算処理部23がA/D変
換器6の出力を直接監視できるよう、A/D変換器6の
出力を音声認識部7と演算処理部23の両方に供給する
ようにしてある。すなわち、自己診断機能付き音声対話
装置21は、入力ゲイン監視部15の廃止と、音声認識
部7に供給するデータの演算処理部23による直接監視
とにより、装置全体の回路規模を効果的に縮小してあ
る。
【0014】さらにまた、上記自己診断機能付き音声対
話装置21は、話者音声を入力する前に周囲雑音のレベ
ルを取り込むようにしており、その場合は、アナログス
イッチ部22を音声合成部11と出力アンプ回路12と
を接続する状態に切り替えておく。これにより、入力ア
ンプ回路3と可変アンプ回路4と帯域濾波回路5とA/
D変換器6を介して演算処理部23に周囲雑音だけを取
り込むことができる。演算処理部23は、ここで取り込
まれた周囲雑音をレベル測定し、このレベルが規定レベ
ル以下となるよう可変アンプ回路4のゲインを調整す
る。
【0015】その結果、サチレーションを起こさずに周
囲雑音レベルに比して十分大きな音声信号入力が可能と
なり、音声認識率に大きく影響する次式(1),(2)
に示すSNRをダイナミックレンジ内で十分得ることが
で、同時にまた周囲雑音が小さいときには大きな声を出
さなくても済むようにできる。 SNR=10log[(Ps−Pn)/Pn] ・・・(1) SNR=20log[(OP−NP)/NP] ・・・(2) ただし、 Ps;音声として検出された区間の音声パワーの平均値 Pn;音声が検出される直前/直後の雑音パワーの平均
値 OP;音声として検出された区間の音レベルの平均値 NP;音声が検出される直前/直後の音レベルの平均値
【0016】ところで、前に述べたように、上記自己診
断機能付き音声対話装置21は、演算処理部23からの
指令により音声合成部11に合成音声を発声させ、この
合成音声により自己診断を行うことができる。この場
合、アナログスイッチ部22は音声合成部11の出力を
可変アンプ回路4に供給する状態に切り替える。これに
より、可変アンプ回路4に入力されている周囲雑音に合
成音声が重畳し、周囲雑音に重畳させた合成音声が音声
認識部7にて音声認識される。ただし、合成音声に関し
ては、音声合成部11から出力した時点で音声認識部7
にとって音声内容そのものについて既知であるため、音
声認識部7による認識結果のずれ、すなわち認識の程度
を正確に把握することができる。
【0017】従って、使用時の雑音環境下において現実
に音声認識が可能かどうかの判定が即座に可能である。
また、認識結果と合成音声との間に隔たりがある場合
は、周囲雑音が合成音声に与えた影響を定量的或いは定
性的に検出し、雑音環境を特定することができる。そし
て、特定された雑音環境において話者音声を補正して音
声認識する手法が学習できるため、実際に話者音声を音
声認識する段において、的確な補正を施し、音声認識率
を高めることができる。
【0018】このように、上記自己診断機能付き音声対
話装置21によれば、演算処理部23から既知の合成音
声を出力させ、この合成音声と音声認識部7による認識
結果とを照合し、周囲雑音が許容限界を越えるか否かを
自己診断する構成としたから、自己診断用に用意された
既知の合成音声を出力して音声認識することで、音声認
識部7にとって外乱となる周囲雑音の影響力を正確に把
握することができ、周囲雑音が許容限界を越える場合
は、音声認識自体を中断したり、或いは周囲雑音が許容
限界以下になるまで待機したりできる。このため、特に
過去の音声認識結果を学習して最新の音声認識に活かす
学習型の音声認識方式を採用したときに、初期認識時の
誤認識が累積して徒に認識率を低下させてしまう不都合
を未然に防止することができる。
【0019】また、演算処理部23が、合成音声と音声
認識部7による認識結果とのずれに基づき、音声認識部
7による音声認識に与える周囲雑音の影響を学習し、学
習結果を音声認識部7に帰還する構成としたから、周囲
雑音と話者音声とが共存する環境下において、周囲雑音
が音声認識に与える影響を話者音声の特質或いは音声認
識の学習結果に融合させて継続的に取り込み続けること
で、音声認識精度の不断の向上が可能である。
【0020】また、演算処理部23が、話者音声を取り
込む前に周囲雑音レベルを検出し、音声認識部7への入
力ゲインを適応制御する構成としたから、実際の音声入
力を開始する直前に周囲雑音を取り込み、雑音レベルが
一定基準値以下になるよう入力ゲインを調整すること
で、サチレーションを招くことなく周囲雑音レベルに対
して十分大きな話者音声を入力させることができる。
【0021】
【発明の効果】以上説明したように、本発明によれば、
音声認識手段の認識結果を受けて合成音声をもって応答
する合成音声出力手段から、既知の合成音声を出力さ
せ、この合成音声と音声認識手段による認識結果とを照
合し、周囲雑音が許容限界を越えるか否かを自己診断す
る構成としたから、自己診断用に用意された既知の合成
音声を出力して音声認識することで、音声認識手段にと
って外乱となる周囲雑音の影響力を正確に把握すること
ができ、周囲雑音が許容限界を越える場合は、音声認識
自体を中断したり、或いは周囲雑音が許容限界以下にな
るまで待機したりできるため、特に過去の音声認識結果
を学習して最新の音声認識に活かす学習型の音声認識方
式を採用したときに、初期認識時の誤認識が累積して徒
に認識率を低下させてしまう不都合を未然に防止するこ
とができる等の優れた効果を奏する。
【0022】また、診断手段が、合成音声と音声認識手
段による認識結果とのずれに基づき、音声認識手段によ
る音声認識に与える周囲雑音の影響を学習し、学習結果
を音声認識手段に帰還する構成としたから、周囲雑音と
話者音声とが共存する環境下において、周囲雑音が音声
認識に与える影響を話者音声の特質或いは音声認識の学
習結果に融合させて継続的に取り込み続けることで、音
声認識精度の不断の向上が可能である等の効果を奏す
る。
【0023】また、診断手段が、話者音声を取り込む前
に周囲雑音レベルを検出し、前記音声認識手段への入力
ゲインを適応制御する構成としたから、実際の音声入力
を開始する直前に周囲雑音を取り込み、雑音レベルが一
定基準値以下になるよう入力ゲインを調整することで、
サチレーションを招くことなく周囲雑音レベルに対して
十分大きな話者音声を入力させることができる等の効果
を奏する。
【図面の簡単な説明】
【図1】本発明の自己診断機能付き音声対話装置の一実
施形態を示すブロック構成図である。
【図2】従来の音声対話装置の一例を示すブロック構成
図である。
【符号の説明】
2 マイクロフォン 3 入力アンプ回路 4 可変アンプ回路 5 帯域濾波回路 6 A/D変換器 7 音声認識部 8 音声認識辞書部 9 音素データメモリ 11 音声合成部 12 出力アンプ回路 13 スピーカ 14 学習部 21 自己診断機能付き音声対話装置 22 アナログスイッチ部 23 演算処理部

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 入力音声信号を音声認識する音声認識手
    段と、該音声認識手段による認識結果に基づき、合成音
    声をもって応答する合成音声出力手段と、該合成音声出
    力手段から既知の合成音声を出力させ、該合成音声と前
    記音声認識手段による認識結果とを照合し、周囲雑音が
    許容限界を越えるか否かを自己診断する診断手段とを具
    備することを特徴とする自己診断機能付き音声対話装
    置。
  2. 【請求項2】 前記診断手段は、前記合成音声と前記音
    声認識手段による認識結果とのずれに基づき、前記音声
    認識手段による音声認識に与える周囲雑音の影響を学習
    し、学習結果を該音声認識手段に帰還することを特徴と
    する請求項1記載の自己診断機能付き音声対話装置。
  3. 【請求項3】 前記診断手段は、話者音声を取り込む前
    に周囲雑音レベルを検出し、前記音声認識手段への入力
    ゲインを適応制御することを特徴とする請求項1記載の
    自己診断機能付き音声対話装置。
JP10208809A 1998-07-24 1998-07-24 自己診断機能付き音声対話装置 Pending JP2000039900A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10208809A JP2000039900A (ja) 1998-07-24 1998-07-24 自己診断機能付き音声対話装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10208809A JP2000039900A (ja) 1998-07-24 1998-07-24 自己診断機能付き音声対話装置

Publications (1)

Publication Number Publication Date
JP2000039900A true JP2000039900A (ja) 2000-02-08

Family

ID=16562490

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10208809A Pending JP2000039900A (ja) 1998-07-24 1998-07-24 自己診断機能付き音声対話装置

Country Status (1)

Country Link
JP (1) JP2000039900A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040035150A (ko) * 2002-10-18 2004-04-29 현대모비스 주식회사 차량용 음성인식 장치의 작동방법
KR100810275B1 (ko) 2006-08-03 2008-03-06 삼성전자주식회사 차량용 음성인식 장치 및 방법
JP2009244721A (ja) * 2008-03-31 2009-10-22 Fujitsu Ltd 使用判断プログラム、情報提供装置および使用判断方法
JP2011170266A (ja) * 2010-02-22 2011-09-01 Secom Co Ltd 識別装置及び発声検出装置
US8793128B2 (en) 2011-02-04 2014-07-29 Nec Corporation Speech signal processing system, speech signal processing method and speech signal processing method program using noise environment and volume of an input speech signal at a time point

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040035150A (ko) * 2002-10-18 2004-04-29 현대모비스 주식회사 차량용 음성인식 장치의 작동방법
KR100810275B1 (ko) 2006-08-03 2008-03-06 삼성전자주식회사 차량용 음성인식 장치 및 방법
JP2009244721A (ja) * 2008-03-31 2009-10-22 Fujitsu Ltd 使用判断プログラム、情報提供装置および使用判断方法
JP2011170266A (ja) * 2010-02-22 2011-09-01 Secom Co Ltd 識別装置及び発声検出装置
US8793128B2 (en) 2011-02-04 2014-07-29 Nec Corporation Speech signal processing system, speech signal processing method and speech signal processing method program using noise environment and volume of an input speech signal at a time point

Similar Documents

Publication Publication Date Title
US4558459A (en) Speech recognition system for an automotive vehicle
US4610023A (en) Speech recognition system and method for variable noise environment
EP0077194B1 (en) Speech recognition system
US4538295A (en) Speech recognition system for an automotive vehicle
US20080249779A1 (en) Speech dialog system
JPH08185196A (ja) 音声区間検出装置
EP0233718B1 (en) Speech processing apparatus and methods
JP2019184809A (ja) 音声認識装置、音声認識方法
JP2000039900A (ja) 自己診断機能付き音声対話装置
GB2526980A (en) Sensor input recognition
US7043427B1 (en) Apparatus and method for speech recognition
JP2701431B2 (ja) 音声認識装置
JPH03208099A (ja) 音声認識装置及び方法
EP0100773B1 (en) Speech recognition system for an automotive vehicle
JPS58181099A (ja) 音声識別装置
WO1994002936A1 (en) Voice recognition apparatus and method
JP4143487B2 (ja) 時系列情報制御システム及びその方法並びに時系列情報制御プログラム
JP3588929B2 (ja) 音声認識装置
KR20000032269A (ko) 음향 기기의 음성인식장치
JPH03160499A (ja) 音声認識装置
JPH07101853B2 (ja) 雑音低減方法
JP3846500B2 (ja) 音声認識対話装置および音声認識対話処理方法
KR20010004832A (ko) 음성인식을 이용한 기기 제어장치
JP3003130B2 (ja) 音声認識装置
JPH02103599A (ja) 音声認識装置