JP2001265368A

JP2001265368A - 音声認識装置および認識対象検出方法

Info

Publication number: JP2001265368A
Application number: JP2000075046A
Authority: JP
Inventors: Masaki Ida; 政樹伊田
Original assignee: Omron Corp; Omron Tateisi Electronics Co
Current assignee: Omron Corp
Priority date: 2000-03-17
Filing date: 2000-03-17
Publication date: 2001-09-28

Abstract

(57)【要約】【課題】劣化のない信号を、認識対象区間で切出し、
音声認識処理を実行する。【解決手段】原信号は、区間検出ブロック５１と音声
認識用データ抽出ブロック５２に入力され、検出用特徴
抽出部６１で、処理対象区間の検出のために必要なデー
タが抽出されたり、処理対象区間の検出に適した状態に
処理される。処理対象区間検出部６２は、検出用特徴抽
出部６１から入力された信号を基に、処理対象区間の開
始点および終了点を検出し、信号取り出し部６３に出力
する。信号取り出し部６３は、入力された原信号を、開
始点および終了点で切り出し、処理対象区間の原信号を
生成して、本処理用特徴抽出部６４に出力する。本処理
用特徴抽出部６４は、入力された信号から、音声認識に
必要なデータを抽出したり、入力された信号を音声認識
に適した状態に処理して出力する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識装置およ
び認識対象検出方法に関し、特に、処理対象の検出処理
と、音声認識処理用のデータの生成処理を、それぞれ独
立させることにより、簡単な構成で、計算量の増加や音
質の低下を起こすことなく音声認識を行うことができる
音声認識装置および認識対象検出方法に関する。

【０００２】

【従来の技術】図１は、従来の音声認識装置の第１の構
成を示すブロック図である。音声入力部１は、マイクロ
ホン１１とＡ／Ｄ変換部１２から構成されている。マイ
クロホン１１から入力された音声のアナログ信号は、Ａ
／Ｄ変換部１２でデジタルデータに変換され、比較判定
部２に入力される。標準パターン格納部３には、音声認
識のための標準パターンが記録されている。比較判定部
２は、入力された音声データと、標準パターン格納部３
に格納されている標準パターンとを、例えば、それぞれ
の音声スペクトルを比較することにより、音声データの
内容を判定し、判定結果を結果出力部４に出力する。結
果出力部４は、音声データの判定結果を図示しない情報
処理装置などに出力する。

【０００３】図２は、従来の音声認識装置の第２の構成
を示すブロック図である。なお、図２の音声認識装置に
おいて、図１における場合と対応する部分には同一の符
号を付してあり、その説明は適宜省略する（以下、同
様）。すなわち、図２の音声認識装置は、音声区間検出
部２１が更に備えられている以外は、基本的に、図１の
音声認識装置と同様の構成を有する。

【０００４】音声入力部１のマイクロホン１１で集音さ
れ、Ａ／Ｄ変換部１２でデジタル化された音声データ
は、音声区間検出部２１に入力される。音声区間検出部
２１は、入力された音声データのパワーと、所定の閾値
とを比較することにより、音声区間を検出し、音声区間
に対応する音声データだけを比較判定部２に出力する。

【０００５】通常、音声入力部１に入力される音声信号
には、雑音が混入されている。雑音のみの区間を除去
し、認識したい音声を含む音声区間を検出するために、
一定の閾値以上のパワーを有する音声信号が、一定時間
入力された場合、その音声信号の入力開始の時点を、音
声区間の開始点とする。そして、一定の閾値以上のパワ
ーを有する音声信号が、一定時間入力されなかった場
合、最後に一定の閾値以上のパワーを有する音声信号が
入力された時点を、音声区間の終了点とする。音声区間
の開始点と終了点の間の音声信号は、認識したい音声を
含んでいると判断され、その音声区間のみが抽出され、
音声認識に関する処理が行われる。

【０００６】図３を用いて、音声区間の検出について説
明する。比較的静寂な環境における音声区間の検出にお
いては、図３（Ａ）に示すように、一定の閾値Ａを用い
て、入力された音声のパワーを比較することによって、
音声区間を検出することが可能である。しかしながら、
雑音が混入する環境における音声区間の検出において
は、図３（Ｂ）に示すように、閾値Ａを用いて入力され
た音声のパワーを比較した場合、雑音のみが入力されて
いる区間も、音声区間として検出してしまう恐れがあ
る。この場合、更に、閾値Ｂを設け、閾値Ｂを用いて入
力された音声のパワーを比較することにより、より精度
良く音声区間を検出することができる。このように、一
般的に、複数の閾値を用いて、その組み合わせにより音
声区間が検出されている。

【０００７】例えば、特開平６−１３０９８４に開示さ
れているように、音声区間の検出の前に、入力データか
ら雑音を除去することにより、図３を用いて説明した音
声区間の検出の精度を向上させることができる。図４
は、従来の音声認識装置の第３の構成を示すブロック図
である。図４の音声認識装置は、雑音除去部３１が更に
備えられている以外は、基本的に、図２を用いて説明し
た音声認識装置と同様の構成を有する。

【０００８】音声入力部１のマイクロホン１１で集音さ
れ、Ａ／Ｄ変換部１２でデジタル化された音声データ
は、雑音除去部３１に入力される。雑音除去部３１は、
入力された音声データから、一定サンプリングごとに雑
音パラメータを抽出して、入力された音声データから雑
音成分を除去し、雑音が除去された音声信号を、音声区
間検出部２１に入力する。雑音除去方法については、例
えば、入力された音声スペクトルから、推定雑音スペク
トル（例えば、予め採取された雑音スペクトル等）を減
算するスペクトル減算処理等を用いることもできる。そ
して、音声区間検出部２１は、雑音が除去された音声信
号を基に、音声区間を検出するので、より精度良く、音
声区間を検出することができる。

【０００９】また、従来、雑音の除去のために、複数の
マイクロホン（マイクロホンアレー）を用いて、信号の
到来方向を考慮することにより、空間的なフィルタリン
グを施して雑音スペクトルを推定する方法も用いられて
きた。図５は、マイクロホンアレーを用いた、従来の音
声入力装置の第４の構成を示すブロック図である。

【００１０】図５の音声入力装置は、音声入力部１に代
わって、マイクロホン１１−１乃至マイクロホン１１−
ｎおよびＡ／Ｄ変換部１２−１乃至Ａ／Ｄ変換部１２−
ｎを有する音声入力部４１が備えられ、新たに、マイク
ロホンアレー処理部４２が備えられている以外は、基本
的に、図４における場合と同様の構成を有している。

【００１１】すなわち、音声入力部４１のマイクロホン
１１−１乃至マイクロホン１１−ｎが集音した音声デー
タは、Ａ／Ｄ変換部１２−１乃至Ａ／Ｄ変換部１２−ｎ
でデジタルデータに変換され、それぞれマイクロホンア
レー処理部４２に入力される。マイクロホンアレー処理
部４２は、複数のマイクロホン入力に対して遅延和を算
出する遅延和処理を行う。すなわち、マイクロホンアレ
ー処理部４２では、Ａ／Ｄ変換部１２−１乃至Ａ／Ｄ変
換部１２−ｎから入力されたｎ種類の音声信号を、例え
ば、デジタルフィルタやサンプルシフトといった手法を
用いて、それぞれ遅延させた後に、全てを加算し、音量
を調節して、１つの音声信号にまとめるという処理が実
行される。

【００１２】

【発明が解決しようとする課題】しかしながら、音声区
間の検出精度を高めるために、雑音を除去することによ
り、入力された音声データの音質が低下してしまうの
で、音声区間が精度良く検出できたとしても、音声認識
の精度が低下してしまう恐れがある。また、音質の低下
を生じないような、高精度の雑音除去方法を用いた場
合、雑音除去は、音声区間検出前の全ての音声データに
対して行われるため、不必要な雑音のみの音声データに
対しても、雑音除去のための演算がなされてしまい、音
声認識のための計算量が増加してしまう。

【００１３】本発明はこのような状況に鑑みてなされた
ものであり、処理対象の検出処理と、音声認識処理用の
データの生成処理を、それぞれ独立させることにより、
簡単な構成で、計算量の増加や音質の低下を起こすこと
なく音声認識を行うことができるようにするものであ
る。

【００１４】

【課題を解決するための手段】本発明の音声認識装置
は、音声信号の入力を制御する音声入力制御手段と、音
声入力制御手段により入力が制御された音声信号を基
に、認識対象を検出するための特徴量を抽出する抽出手
段と、抽出手段により抽出された特徴量を基に、認識対
象の開始点と終了点を検出する検出手段と、検出手段に
より検出された開始点と終了点に従って、音声入力制御
手段により入力が制御された音声信号から、認識対象と
なる音声信号を切出す音声信号切出し手段と、音声信号
切出し手段により切出された音声信号に対して音声認識
処理を実行する音声認識手段とを備えることを特徴とす
る。

【００１５】前記認識対象とは、例えば、入力された音
声信号のうち、雑音のみの区間を除いた、音声認識する
べき音声信号を含んだ区間である音声区間のことであ
る。

【００１６】前記音声入力制御手段は、例えば、図７の
音声入力部１により、前記抽出手段は、例えば、図７も
しくは図８の検出用信号生成部７１により、前記検出手
段は、例えば、図７もしくは図８の音声区間始終端検出
部７２により、前記音声信号切出し手段は、例えば、図
７の音声区間切出し部７３により、前記音声認識手段
は、例えば、図７もしくは図８の比較判定部２、標準パ
ターン格納部３、および認識用信号生成部７４によりそ
れぞれ構成することができる。

【００１７】また、音声認識手段は、マイクロホンアレ
ーを用いた音声入力を制御することができ、抽出手段
は、マイクロホンアレーを用いた音声入力のうちの所定
の１入力を用いて認識対象を検出するための特徴量を抽
出することができる。

【００１８】本発明の音声認識装置においては、音声信
号の入力が制御され、入力が制御された音声信号を基
に、認識対象を検出するための特徴量が抽出され、抽出
された特徴量を基に、認識対象の開始点と終了点が検出
され、検出された開始点と終了点に従って、入力が制御
された音声信号から、認識対象となる音声信号が切出さ
れ、切出された音声信号に対して音声認識処理が実行さ
れるようにしたので、簡単な構成で、計算量の増加や音
質の低下を起こすことなく音声認識を行うことができ
る。

【００１９】本発明の認識対象検出方法は、音声信号の
入力を制御する音声入力制御ステップと、音声入力制御
ステップの処理により入力が制御された音声信号を基
に、認識対象を検出するための特徴量を抽出する抽出ス
テップと、抽出ステップの処理により抽出された特徴量
を基に、認識対象の開始点と終了点を検出する検出ステ
ップと、検出ステップの処理により検出された開始点と
終了点に従って、音声入力制御ステップの処理により入
力が制御された音声信号から、認識対象となる音声信号
を切出す音声信号切出しステップとを含むことを特徴と
する。

【００２０】前記音声入力ステップは、例えば、図７の
音声入力部１、もしくは図８の音声入力部４１が行う処
理であり、前記抽出ステップは、例えば、図７もしくは
図８の検出用信号生成部７１が行う処理であり、前記検
出ステップは、例えば、図７もしくは図８の音声区間始
終端検出部が行う処理であり、前記音声信号切出しステ
ップは、例えば、図７の音声区間切出し部７３、もしく
は図８の音声区間切出し部８１が行う処理である。

【００２１】本発明の認識対象検出方法においては、音
声信号の入力が制御され、入力が制御された音声信号を
基に、認識対象を検出するための特徴量が抽出され、抽
出された特徴量を基に、認識対象の開始点と終了点が検
出され、検出された開始点と終了点に従って、入力が制
御された音声信号から、認識対象となる音声信号が切出
されるようにしたので、計算量を増加させることなく音
質の低下のない認識対象を検出することができる。

【００２２】

【発明の実施の形態】以下、図を参照して、本発明の実
施の形態について説明する。

【００２３】図６は、本発明を適応した音声認識装置
の、音声認識の認識対象を検出する機能に関連する部分
の機能ブロック図を示す。

【００２４】音声認識の認識対象を検出する機能は、区
間検出ブロック５１と、音声認識用データ抽出ブロック
５２に分けられる。区間検出ブロック５１は、区間検出
のための特徴量を抽出するための検出用特徴抽出部６１
と、検出用特徴抽出部６１により抽出された検出用特徴
量系列を用いて、音声認識処理を実行する処理対象区間
を検出する処理対象区間検出部６２で構成される。音声
認識用データ抽出ブロック５２は、入力された処理前の
音声信号である原信号から処理区間の信号のみを取り出
す信号取り出し部６３と、信号取り出し部６３から入力
された処理対象区間の原信号を用いて、音声認識のため
の特徴量を抽出し、本処理用特徴量系列を出力する本処
理用特徴抽出部６４により構成されている。

【００２５】原信号は、区間検出ブロック５１の検出用
特徴抽出部６１と、音声認識用データ抽出ブロック５２
の信号取り出し部６３に入力される。検出用特徴抽出部
６１は、処理対象区間の検出のために必要なデータを原
信号から抽出する（例えば、音声信号から抑揚情報を抽
出する）処理を行ったり、原信号を、処理対象区間の検
出に適した状態に処理したり（例えば、スペクトル減算
処理により雑音成分を除去する）、もしくは、それらの
処理を並列もしくは直列に複数実行することにより、検
出用特徴量系列のデータを生成し、処理対象区間検出部
６２に出力する。処理対象区間検出部６２は、原信号か
ら処理対象区間を切出すのではなく、検出用特徴抽出部
６１から入力された信号を基に、処理対象区間の開始
点、および終了点を検出し、音声認識用データ抽出ブロ
ック５２の信号取り出し部６３に出力する。

【００２６】信号取り出し部６３は、入力された原信号
を、処理対象区間検出部６２から入力された開始点およ
び終了点で切り出し、処理対象区間の原信号を生成し
て、本処理用特徴抽出部６４に出力する。すなわち、本
処理用特徴抽出部６４に入力される信号は、ノイズ除去
等により音質が低下した信号ではなく、処理対象区間で
切出された原信号である。本処理用特徴抽出部６４は、
入力された信号から、音声認識に必要なデータを抽出す
る処理を行ったり、入力された信号を音声認識に適した
状態に処理したり、もしくは、それらの処理を並列もし
くは直列に複数実行することにより、本処理用特徴量系
列のデータを生成して出力する。

【００２７】すなわち、検出用特徴量系列と、本処理用
特徴系列は、原信号を基に、それぞれ独立して抽出され
るため、より少ない演算量で、音声劣化のないデータに
対しての音声認識処理が実行される。また、検出用特徴
量系列と、本処理用特徴系列が独立しているため、音声
区間の検出方法を、音声認識処理を考慮して選択しなく
てもよいし、音声認識処理方法を、音声区間の検出方法
を考慮して選択しなくてもよい。すなわち、それぞれの
特徴量抽出に最も適した方法を選択することができる。

【００２８】図７は、本発明を適応した音声認識装置の
第１の実施の形態を示すブロック図である。図７の音声
認識装置は、図４の音声認識装置の雑音除去部３１およ
び音声区間検出部２１に代わり、検出用信号生成部７
１、音声区間始終端検出部７２、音声区間切出し部７
３、および認識用信号生成部７４が備えられている以外
は、基本的に、図４の音声認識装置と同様の構成であ
る。

【００２９】すなわち、検出用信号生成部７１は、図６
の検出用特徴抽出部６１にあたり、音声区間始終端検出
部７２は、図６の処理対象区間検出部６２にあたり、音
声区間切出し部７３は、図６の信号取り出し部６３にあ
たり、認識用信号生成部７４は、図６の本処理用特徴抽
出部６４にあたる。

【００３０】音声入力部１で集音された音声は、検出用
信号生成部７１および音声区間切出し部７３に供給され
る。検出用信号生成部７１は、例えば、スペクトル減算
処理などによる雑音除去、音声データの抑揚情報の抽
出、音声データのパワー情報の抽出、周波数成分の特徴
抽出、母音系列の取り出し、話速情報の抽出、音程や音
の揺らぎの抽出、あるいは、音声データの入力方向に関
する情報の抽出などから、少なくとも１つの方法を選択
し、直列的、あるいは並列的に組み合わせて処理を実行
することにより、音声区間の検出に用いられる検出用の
信号を生成し、音声区間始終端検出部７２に出力する。

【００３１】音声区間始終端検出部７２は、入力された
信号を基に、例えば、抽出された音声データのパワー情
報を、所定の閾値と比較することなどにより、音声区間
の開始点および終了点を検出し、音声区間切出し部７３
に出力する。

【００３２】音声区間切出し部７３は、音声区間始終端
検出部７２から入力された信号を基に、音声入力部１か
ら入力された入力データ（すなわち、図６における原
音）を音声区間で切出して、認識用信号生成部７４に出
力する。

【００３３】認識用信号生成部７４は、音声区間の検出
と同様に、例えば、スペクトル減算処理などによる雑音
除去、音声データの抑揚情報の抽出、音声データのパワ
ー情報の抽出、周波数成分に分解して特徴抽出、母音系
列の取り出し、話速情報の抽出、音程や音の揺らぎの抽
出、あるいは、音声データの入力方向に関する情報の抽
出などから、少なくとも１つの方法を選択し、直列的、
あるいは並列的に組み合わせて処理を実行することによ
り、音声認識のための信号を生成して、比較判定部２に
出力する。ここで、認識用信号生成部７４に入力される
信号は、音声区間のみであるため、音声区間の検出時よ
り、歪の少ない、高精度の処理（すなわち、演算量の大
きな処理）を実行しても、余分なデータに対する演算を
行うことはなく、無駄な演算量が増加してしまうような
ことはない。

【００３４】比較判定部２は、入力された認識データ
と、標準パターン格納部３に格納されている標準パター
ンとを、例えば、それぞれの音声スペクトルを比較する
ことなどにより、音声データの内容を判定し、判定結果
を結果出力部４に出力する。結果出力部４は、音声デー
タの判定結果を図示しない情報処理装置などに出力す
る。

【００３５】図７を用いて説明した音声入力装置におい
ては、検出用特徴量系列と、認識用特徴量系列が独立し
て処理されるため、検出用信号生成部７１と認識用信号
生成部７４において、異なる信号処理方法を選択するこ
とが可能になり、音声認識装置の音声認識性能や演算量
などの要求スペックに対応する処理方法を、それぞれ独
立して選択することができる。

【００３６】図８に、本発明を適応した音声認識装置の
第２の実施の形態のブロック図を示す。図８の音声認識
装置は、図７の音声認識装置の音声入力部１に代わっ
て、図５を用いて説明した音声入力部４１が備えられ、
音声区間切出し部７３に代わって、複数の音声データを
指定された区間で切出すことができる音声区間切出し部
８１が備えられ、更に、図５を用いて説明したマイクロ
ホンアレー処理部４２が備えられているほかは、基本的
に、図７の音声認識装置と同様の構成を有している。

【００３７】音声入力部４１の複数のマイクロホン１１
−１乃至１１−ｎのうち、１つのマイクロホン（ここで
はマイクロホン１１−ｎ）を主マイクロホンとする。主
マイクロホンであるマイクロホン１１−ｎで集音され、
Ａ／Ｄ変換部１２−ｎでデジタル信号に変換された主マ
イクロホンの入力データは、検出用信号生成部７１に供
給される。そして、マイクロホン１１−１乃至１１−ｎ
で集音され、Ａ／Ｄ変換部１２−１乃至１２−ｎでデジ
タル信号に変換されたｎ種類のマイクロホンアレーの入
力データは、音声区間切出し部７３に供給される。

【００３８】検出用信号生成部７１および音声区間始終
端検出部７２は、入力された主マイクロホン１１−ｎの
入力データを基に、図７を用いて説明した場合と同様の
処理により、音声区間の開始点と終了点を検出して、音
声区間切出し部８１に出力する。音声区間切出し部８１
は、入力されたｎ種類のマイクロホンアレーの入力デー
タを、音声区間始終端検出部７２より入力された開始点
と終了点でそれぞれ切出し、マイクロホンアレー処理部
４２に出力する。マイクロホンアレー処理部４２は、図
５を用いて説明した場合と同様に、複数のマイクロホン
入力に対して遅延和を算出する遅延和処理を行い、生成
した信号を認識用信号生成部７４に供給する。

【００３９】認識用信号生成部７４は、図７を用いて説
明した場合と同様の処理により、音声認識のための信号
を生成して、比較判定部２に出力する。ここでも、認識
用信号生成部７４に入力される信号は、音声区間のみで
あるため、音声区間の検出時より、歪の少ない、高精度
の処理を実行しても、余分なデータに対する演算を行う
ことはなく、無駄な演算量が増加してしまうようなこと
はない。

【００４０】比較判定部２は、入力された認識データ
と、標準パターン格納部３に格納されている標準パター
ンとを、例えば、それぞれの音声スペクトルを比較する
ことなどにより、音声データの内容を判定し、判定結果
を結果出力部４に出力する。結果出力部４は、音声デー
タの判定結果を図示しない情報処理装置などに出力す
る。

【００４１】図８を用いて説明した音声認識装置におい
ては、マイクロホンアレー処理部４２が実行する遅延和
演算処理や、認識用信号生成部７４が実行する雑音除去
などの認識データの生成処理を、必要な音声区間に対し
てのみ実行させることができるため、無駄な演算を増加
させることなく、高精度の音声認識結果を得ることがで
きる。

【００４２】なお、図７および図８を用いて説明した音
声認識装置においては、認識対象として、雑音のみの区
間を除去した音声区間を検出して切出したが、認識対象
として、音声区間以外の、例えば、特定の音（言葉）を
抽出したり、特定の話者が話した内容のみを抽出するよ
うな場合においても、同様に、検出用特徴量系列と、本
処理用特徴量系列を独立させることにより、無駄な演算
を増加させることなく、高精度の音声認識結果を得るこ
とができる。

【００４３】

【発明の効果】本発明の音声認識装置によれば、簡単な
構成で、計算量の増加や音質の低下を起こすことなく精
度の良い音声認識を行うことができる。

【００４４】本発明の認識対象検出方法によれば、計算
量を増加させることなく音質の低下のない認識対象を精
度良く検出することができる。

【図面の簡単な説明】

【図１】従来の音声認識装置を説明するための図であ
る。

【図２】従来の音声認識装置を説明するための図であ
る。

【図３】音声区間の切出しについて説明するための図で
ある。

【図４】従来の音声認識装置を説明するための図であ
る。

【図５】従来の音声認識装置を説明するための図であ
る。

【図６】本発明を適応した音声認識装置の認識対象を検
出する機能に関する部分の機能ブロック図である。

【図７】本発明を適応した音声認識装置の第１の実施の
形態を説明するためのブロック図である。

【図８】本発明を適応した音声認識装置の第２の実施の
形態を説明するためのブロック図である。

【符号の説明】

６１検出用特徴抽出部６２処理対象区間検出部６３信号取り出し部６４本処理用特徴抽出部７１検出用信号生成部７２音声区間始終端検出部７３音声区間切出し部７４認識用信号生成部８１音声区間切出し部

Claims

【特許請求の範囲】

【請求項１】音声信号の入力を制御する音声入力制御
手段と、前記音声入力制御手段により入力が制御された前記音声
信号を基に、認識対象を検出するための特徴量を抽出す
る抽出手段と、前記抽出手段により抽出された前記特徴量を基に、前記
認識対象の開始点と終了点を検出する検出手段と、前記検出手段により検出された前記開始点と前記終了点
に従って、前記音声入力制御手段により入力が制御され
た前記音声信号から、前記認識対象となる音声信号を切
出す音声信号切出し手段と、前記音声信号切出し手段により切出された前記音声信号
に対して音声認識処理を実行する音声認識手段とを備え
ることを特徴とする音声認識装置。
【請求項２】前記音声認識手段は、マイクロホンアレ
ーを用いた音声入力を制御し、前記抽出手段は、前記マイクロホンアレーを用いた音声
入力のうちの所定の１入力を用いて前記認識対象を検出
するための前記特徴量を抽出することを特徴とする請求
項１に記載の音声認識装置。
【請求項３】音声信号の入力を制御する音声入力制御
ステップと、前記音声入力制御ステップの処理により入力が制御され
た前記音声信号を基に、認識対象を検出するための特徴
量を抽出する抽出ステップと、前記抽出ステップの処理により抽出された前記特徴量を
基に、前記認識対象の開始点と終了点を検出する検出ス
テップと、前記検出ステップの処理により検出された前記開始点と
前記終了点に従って、前記音声入力制御ステップの処理
により入力が制御された前記音声信号から、前記認識対
象となる音声信号を切出す音声信号切出しステップとを
含むことを特徴とする認識対象検出方法。