JP2002258882A - 音声認識システム及び情報記録媒体 - Google Patents

音声認識システム及び情報記録媒体

Info

Publication number
JP2002258882A
JP2002258882A JP2001059813A JP2001059813A JP2002258882A JP 2002258882 A JP2002258882 A JP 2002258882A JP 2001059813 A JP2001059813 A JP 2001059813A JP 2001059813 A JP2001059813 A JP 2001059813A JP 2002258882 A JP2002258882 A JP 2002258882A
Authority
JP
Japan
Prior art keywords
voice
signal
noise
section
voice section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2001059813A
Other languages
English (en)
Inventor
Shinji Wakizaka
新路 脇坂
Seiji Miyazaki
誠治 宮崎
Akio Amano
明雄 天野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2001059813A priority Critical patent/JP2002258882A/ja
Publication of JP2002258882A publication Critical patent/JP2002258882A/ja
Withdrawn legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 騒音レベルが急激に変動する環境でも音声区
間検出精度を上げて音声認識を行なうことができるシス
テムを提供する。 【解決手段】 入力信号(1)から着目する騒音成分を
減ずる第1フィルタ手段(2)と、前記入力信号から着
目する騒音成分を取り出す第2フィルタ手段(3)と、
前記双方のフィルタ手段の出力に基づいて前記入力信号
の音声区間を検出する音声区間検出手段(7)を有す
る。音声区間検出手段は、第1フィルタ手段の出力に基
づいて得られる第1の信号情報と閾値とを比較して音声
区間を検出し、認識手段(15)がその音声区間で音声
認識を行なう。音声区間検出手段は、第2フィルタ手段
の出力に基づいて得られる第2の信号情報の変動に応じ
て前記閾値を変更するから、音声区間検出のための閾値
を騒音環境の変化に追従させて変更する事ができる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識技術、特
にそのための音声区間検出技術に係り、例えば、カーナ
ビゲーションシステムや車載用PC(Personal Compute
r)、カーエレクトロニクスに代表されるカーマルチメ
ディア分野における騒音環境下での音声認識に適用して
音声認識率向上に有効な技術に関する。
【0002】
【従来の技術】近年、音声認識技術を用いた小型情報シ
ステムが普及しつつある。カーナビゲーションシステム
をはじめとして、PDA(Personal Digital Assistan
t)に代表される小型情報機器、携帯情報端末等であ
る。
【0003】しかしながら音声認識技術の向上は目覚し
いものの、それらが搭載されたシステムが実際に使用さ
れる環境全てにおいて、満足されているとは言い難い。
特に、騒音環境下における認識率においては、まだまだ
改善しなければならない点が多いと考えられる。
【0004】音声認識システムの改善例として、特開平
2−232697号公開公報には、音声認識装置とし
て、音声区間検出の精度を高め、音声認識率を向上させ
るための音声認識装置に関する技術が開示されている。
【0005】上記公報の記載に代表されるような従来技
術にかかわる音声認識装置の概要を説明する。一連の音
声認識手段を備えた従来の音声認識装置は、音声でない
区間と、音声である区間を識別するための音声区間検出
部と、音声区間検出された音声に対して、音声の分析と
分析された結果に対してあらかじめ登録された音声デー
タと照合して、認識結果を判定出力するための音声分析
・照合部とを有する。また、前記音声区間検出部には、
その前段に騒音カットフィルタが用意されている。騒音
カットフィルタは騒音と音声からなる音声信号から、周
波数帯域の低域側の騒音を除去し、これを音声区間検出
部に与える。音声区間検出部はその入力信号を用いて、
音声でない区間と、音声の区間を識別する音声区間検出
を行なう。
【0006】また、音声分析・照合部には、その前段に
バンドパスフィルタが用意されている。このバンドパス
フィルタは音声の周波数帯域である200Hz〜4kH
z以外の成分をカットする。音声分析・照合部はバンド
パスフィルタを通過した信号を用いて、一連の音声認識
処理を行なう。
【0007】
【発明が解決しようとする課題】本発明者は、従来の音
声認識技術、特に従来の音声区間検出技術について検討
した。これによれば、従来の音声区間検出技術では、音
声が発声される騒音環境下で、特に、短時間の間に騒音
のレベル、例えば、背景ノイズパワーが音声の始端付近
と終端付近で変動する場合に、音声のパワーを用いた音
声区間検出では、特に、終端検出の精度が劣化して、認
識率を悪くする原因の一つになっていることを見出し
た。即ち、信号の音声パワーが所定の閾値を超えた地点
を音声区間の始点として検出し、音声パワーが閾値以下
になった地点を音声区間の終点として検出するとき、背
景ノイズを考慮して前記閾値が設定されているなら、そ
の背景ノイズが大きく変動すると最早その閾値では信号
と騒音の区間を精度良く弁別できなくなる。そのような
事態は、例えば、カーナビゲーションシステムで音声認
識を行なっている最中に自動車の窓を明けたり、或は路
面状態が突然変化したときに生ずる。
【0008】また、騒音の種類によっても、認識率に大
きな影響を与えるため、音声認識のための音響モデルを
騒音種類別に作成し、使用環境の騒音に応じて切替える
のが好ましいということが本発明者により明らかにされ
た。
【0009】本発明の目的は、騒音環境の変化に対して
音声区間検出を良好に追従させることができる音声区間
検出技術を提供することにある。
【0010】本発明の別の目的は、音声を発声する環境
の、特に、騒音レベルが短時間の間に変動する環境で
も、音声区間検出精度を上げて、精度良く音声認識を行
なうことができる音声認識システム並びにデータ処理シ
ステムを提供することにある。
【0011】本発明の前記並びにその他の目的と新規な
特徴は本明細書の記述及び添付図面から明らかになるで
あろう。
【0012】
【課題を解決するための手段】本願において開示される
発明のうち代表的なものの概要を簡単に説明すれば下記
の通りである。
【0013】〔1〕本発明に係る音声認識システムは、
入力信号から着目する騒音成分を減ずる第1フィルタ手
段と、前記入力信号から着目する騒音成分を取り出す第
2フィルタ手段と、前記第1フィルタ手段及び第2フィ
ルタ手段の出力に基づいて前記入力信号の音声区間を検
出する音声区間検出手段と、前記入力信号から音声の特
徴を抽出し抽出された音声の特徴情報に対して音声区間
で音声認識を行なう認識手段とを含む。前記音声区間検
出手段は、前記第1フィルタ手段の出力に基づいて得ら
れる第1の信号情報と閾値とを比較して音声区間の検出
を行なう。例えば、前記第1の信号情報が前記閾値を一
方から他方に向けて超える状態に基づいて音声区間の始
点を検出し、前記第1の信号情報が閾値を他方から一方
に向けて超える状態に基づいて音声区間の終点を検出す
る。更に前記音声区間検出手段は、前記第2フィルタ手
段の出力に基づいて得られる第2の信号情報に変動に応
じて前記閾値を変更するものである。上記夫々の手段に
ついては専用ハードウェアで構成し、或はマイクロコン
ピュータなどを用いてソフトウェア的に構成してもよ
い。
【0014】上記音声区間検出手段により音声区間検出
のための閾値を騒音環境の変化に追従させて変更する事
ができる。したがって、騒音環境の変化に対して音声区
間検出を良好に追従させることができる。その結果とし
て、騒音レベルが短時間の間に変動する環境でも、精度
良く音声認識を行なうことができる。
【0015】前記閾値の初期設定に関し、前記音声区間
検出手段は、着目する雑音成分を含み認識対象とする音
声信号を含まない信号が前記入力信号として前記第1フ
ィルタ手段に与えられたとき、前記第1フィルタ手段の
出力に基づいて得られる信号情報を基準に前記閾値を初
期設定するようにしてよい。これにより、音声区間検出
のための閾値の初期値を比較的精度良くしかも容易に設
定することが可能になる。
【0016】本発明の更に具体的な態様として、例え
ば、前記認識手段については入力信号から音声の周波数
帯域の信号をバンドパスフィルタ手段で取り出して音声
の特徴を抽出するものとし、前記第1フィルタ手段につ
いてはハイパスフィルタ手段とし、前記第2フィルタ手
段についてはローパスフィルタ手段としてよい。これ
は、騒音成分が比較的低い周波数領域に存在する場合を
想定している。
【0017】また、前記第1の信号情報は、前記第1フ
ィルタ手段の出力に対する単位時間毎のパワー値情報と
してよい。同様に前記第2の信号情報は、前記第2フィ
ルタ手段の出力に対する単位時間毎のパワー値情報とし
てよい。第2の信号情報は騒音成分に関する別の特徴情
報であってもよい。
【0018】尚、音声認識部では、騒音の種類によって
騒音種類別音響モデルを切替えて音声認識処理を行なう
ようにしてよい。また、騒音カットフィルタとしての第
1フィルタ手段、騒音監視フィルタとしての第2フィル
タ手段の特性を制御するパラメータは、騒音種類に応じ
て変更するようにしてよい。
【0019】〔2〕本発明に係る情報記録媒体は、入力
信号から抽出された音声の特徴情報に対して音声区間で
音声認識を行なうために、コンピュータに、前記入力信
号から着目する騒音成分を減ずる騒音カット処理と、前
記入力信号から着目する騒音成分を取り出す騒音監視処
理と、前記騒音カット処理の結果に基づいて得られる第
1の信号情報と閾値とを比較して音声区間を検出する音
声区間検出処理と、前記騒音監視処理の結果の基づいて
得られる第2の信号情報の変動に応じて前記閾値を変更
する閾値変更処理と、を実行せるためのプログラムをコ
ンピュータ読み取り可能に記録したものである。
【0020】前記情報記録媒体により、そこに記録され
たプログラムをカーナビゲーションシステムなどの音声
認識システムに読取らせて実行させることにより、騒音
レベルが短時間の間に変動する環境でも、音声区間検出
精度を上げて、精度良く音声認識を行なうことができる
音声認識システムの実現が容易になる。
【0021】閾値の初期設定に関して、前記プログラム
は、着目する雑音成分を含み認識対象とする音声信号を
含まない信号から騒音成分を減ずる信号処理を行ない、
その信号処理結果に基づいて得られる信号情報から前記
閾値を初期設定する閾値初期設定処理を更に実行させる
ものであってよい。
【0022】前記騒音カット処理は例えばソフトウェア
的に実現されるハイパスフィルタ処理であり、前記騒音
監視処理は例えばソフトウェア的に実現されるローパス
フィルタ処理である。
【0023】〔3〕前記プログラムを実行して前記音声
認識システムを実現するデータ処理システムの観点によ
る発明は、マイクロコンピュータ、メモリ及び入出力回
路を有し、入出力回路へ入力される入力信号から音声の
特徴情報を抽出し、抽出した特徴情報に対して音声区間
で音声認識を行なうデータ処理システムとして位置付け
られる。前記マイクロコンピュータは、前記メモリが保
有するプログラムを実行して、前記入力信号から着目す
る騒音成分を減ずる騒音カット手段、前記入力信号から
着目する騒音成分を取り出す騒音監視手段、前記騒音カ
ット手段及び騒音監視手段の出力に基づいて前記入力信
号の音声区間を検出する音声区間検出手段、及び前記入
力信号から音声の特徴を抽出し抽出された音声の特徴情
報に対して音声区間で音声認識を行なう認識手段を実現
する。前記音声区間検出手段は、前記騒音カット手段の
出力に基づいて得られる第1の信号情報と閾値とを比較
して音声区間を検出し、前記騒音監視手段の出力に基づ
いて得られる第2の信号情報の変動に応じて前記閾値を
変更する。
【0024】〔4〕前記記録媒体に格納されない状態の
プログラムに着目する発明は、入力信号から抽出された
音声の特徴情報に対して音声区間で音声認識を行なうた
めに、コンピュータを、前記入力信号から着目する騒音
成分を減ずる騒音カット手段、前記入力信号から着目す
る騒音成分を取り出す騒音監視手段、及び前記騒音カッ
ト手段及び騒音監視手段の出力に基づいて前記入力信号
の音声区間を検出する音声区間検出手段、として機能さ
せることが可能な音声区間検出制御プログラムとして位
置付けられる。前記音声区間検出手段は、前記騒音カッ
ト手段の出力に基づいて得られる第1の信号情報と閾値
とを比較して音声区間を検出し、前記騒音監視手段の出
力に基づいて得られる第2の信号情報の変動に応じて前
記閾値を変更する。
【0025】そのようなプログラムは特定のコンピュー
タに向けてコンパイルされたオブジェクトプログラムで
あっても、或はC言語のような高級言語で記述されたソ
ースプログラムであってもよい。そのようなプログラム
をソースプログラムレベルで提供すれば、目的とするコ
ンピュータに応じたオブジェクトプログラムを容易に得
ることができ、上記音声認識システムの開発期間短縮に
寄与することができる。
【0026】
【発明の実施の形態】図1には本発明に係る音声認識シ
ステムの概略が示される。特に制限されないが、ここで
説明する音声認識システムは、情報の音声入力若しくは
音声による操作指示を行なうことができるカーナビゲー
ションシステムに適用され、その騒音環境は当該システ
ムを塔載する車両の運行状況や車内の操作環境に依存
し、突然変化することも多い。
【0027】図1において音声信号1は、音声認識シス
テムにおいて、マイクやアンプやAD変換器などを通過
して得られたデジタル音声信号である。また、予め用意
されたデジタル音声信号であっても、アナログ信号であ
ってもよい。この音声信号1には、発声された使用環境
の騒音も含まれている。この音声信号1は、騒音カット
フィルタ2、騒音監視フィルタ3、バンドパスフィルタ
4にそれぞれ入力される。
【0028】騒音カットフィルタ2は、例えば、ハイパ
スフィルタ(HPF)で構成されて、音声信号の低域の
周波数をカットする特性を持ち、特に、低域の周波数帯
に存在する騒音の周波数成分を取り除くことで、音声で
ない区間と、音声の区間の識別がある程度可能な状態に
している。騒音カットフィルタ2から出力された音声信
号5は、音声区間検出部7へ入力される。
【0029】騒音監視フィルタ3は、例えば、騒音カッ
トフィルタ2とは逆に、騒音の情報が得られるようなフ
ィルタ特性をもち、例えば、ローパスフィルタ(LP
F)で構成されて、音声の影響を極力受けずに、背景騒
音だけを監視可能にする。但し、この前提は一つのマイ
クからの入力の場合においてであり、二つのマイクの場
合は、片方のマイクに音声が入らなければ、騒音カット
フィルタ2でも代用できる。しかしながら、マイクの設
置場所などが、音声入力用マイクの設置場所から離れる
ため、多少の音声の影響を受けるのと、音声入力用マイ
クに入っている背景騒音とは異なってしまう。騒音監視
フィルタ3から出力された音声信号6は、音声区間検出
部7へ入力される。
【0030】バンドパスフィルタ4は、通常の一定した
騒音レベルで、且つ、S/Nが10dB程度確保されて
いる音声信号1において、騒音の周波数帯域が低域にピ
ークを持ち、音声の帯域以外であれば騒音の帯域を外し
て、例えば、音声帯域300Hz〜5kHzの周波数帯
域だけの成分を取り込み、音声分析部8へ出力する。こ
のバンドパスフィルタ4からの音声信号36は、音声区
間検出7に用いられる音声信号5,6に比べて、音声帯
域の成分が削られていないことから、本来の音声認識処
理に用いて、悪影響はない。
【0031】音声分析部8は、バンドパスフィルタ4か
らの音声信号36に対して、特徴パラメータを抽出し
て、音声照合部15にその抽出データを渡す。音声照合
部15は照合部12と辞書連結部13を有する。
【0032】辞書連結部12に接続される騒音種類別の
音響モデル10は、音声データベースと、騒音種類別に
収集した雑音データベースとから作成された音響モデル
であり、騒音の種類に応じて切替えが可能なように、複
数のモデルを持ってる。実用化されている一般的な音声
認識システムでは、予め音声を登録しなくても、誰が話
し手でもその声を認識できる、いわゆる不特定話者対応
が主流になっている。このような音声認識に用いられる
音響モデルとしては、例えば、隠れマルコフモデル(H
MM:Hidden Markov Model)を用い
ることができる。
【0033】対象辞書13は、ユーザシステムにおける
認識対象の辞書であり、いわゆるテキストコードのみで
構成されている。例えば、駅名で構成された一つの辞書
であれば、「東京」、「神田」、「お茶の水」などで構
成されている。アプリケーション側で複数用意している
辞書を状況に応じて差し替えている。
【0034】辞書連結部12は、音響モデル10と、認
識対象辞書13から、辞書が示すテキスト情報に音響情
報を連結してテーブル化し、図示を省略するシステムの
ワークメモリに展開する。
【0035】照合部9では、辞書連結部12によって展
開された辞書と音響モデルの連結情報に対して、実際に
入力された音声の音声分析部8からの特徴情報を照合す
る。展開された辞書と音響モデルの連結情報の中から、
照合結果のスコアが一番よい単語を、その音声に対する
認識結果14として出力する。
【0036】前記照合部9による照合は音声区間に対し
て行なう。即ち、音声分析部8から時系列的に供給され
る特徴情報の内、音声区間検出部7で検出された音声区
間の特徴情報に対してだけ音声照合を行なう。音声区間
の指示は信号16で照合部9に与えられる。
【0037】音声区間検出部7は、前記騒音カットフィ
ルタ2の出力信号5と騒音監視フィルタ3の出力6に基
づいて音声区間の始点と終点を検出し、検出された音声
区間を信号16にて照合部9に与える。このとき、音声
区間の始点と終点の検出には、後で詳述するように、背
景雑音に相関する閾値を用いており、背景雑音の変化に
追従してその閾値を変化させることができるようになっ
ている。
【0038】図1に示す音声認識システムは、マイクロ
コンピュータ上で動作するソフトウェア(ミドルウェ
ア)で構成してもよいし、複数のLSIやICにより構
成してもよい。或は、ASIC(Application Specific
Integrated Curcuits)等の一つの半導体素子上に構成
してもよい。要するに、図1の構成は、マイクロコンピ
ュータなどを用いてソフトウェア的に実現してもよい
し、専用ハードウェアで実現してもよい。
【0039】図2には図1に示す音声認識システムをマ
イクロコンピュータを用いたデータ処理システムで実現
した例を示す。一連の音声認識処理は全て、マイクロコ
ンピュータ(MPU)46上のソフトウエアで行なう。
MPU46、フラッシュッメモリ47、ランダムアクセ
スメモリ(RAM)48、インタフェース(I/F)ロ
ジック44、入出力(I/O)ロジック45,50は、
システム制御、アドレス、データから構成されたシステ
ムバス49に接続されている。
【0040】マイク41は、単一指向性のコンデンサマ
イク等であり、アンプ42は、抵抗、コンデンサなどの
電子部品で構成されたアンプであり、雑音を除去するた
めのハイパスフィルタや、バンドパスフィルタを含んで
いる。それらフィルタは、図1で説明したソフトウェア
で実現する騒音カットフィルタ(ハイパスフィルタ)
2、騒音監視フィルタ(ローパスフィルタ)3、及びバ
ンドパスフィルタ4とは異なる。
【0041】A/D変換器43は、アンプ42を経由し
てマイク41から入力された音声や雑音のアナログ信号
をデジタル信号に変換する。A/D変換機43は、I/
Fロジック44に接続され、I/Fロジック44は、A
/D変換器43に対するサンプリング等の制御や、MP
U46との間のI/Oとして、デジタル信号に変換され
た音声データを一時的に貯えておく音声バッファとして
機能する。
【0042】I/Oロジック45は、音声認識システム
へ起動をかけたり、認識結果を受けて次のアプリケーシ
ョンを動作させるためのインタフェースである。
【0043】I/Oロジック50はATAPI(AT Att
achment Packet Interface)若しくはATA(AT Attac
hment)などのディスクインタフェース回路であり、例
えばDVDドライブ51に接続される。DVD(Digita
l Video Disk)ドライブ51はDVDディスク52が挿
入されると、そこに記録されている情報を読取って再生
し、再生した情報をMPU46などに向けて出力する。
DVDディスク52は、音声、画像、プログラムなどの
情報がコンピュータ読み取り可能に記録された情報記録
媒体の一例とされ、DVD−ROM、DVD−RAM、
或はCD−ROM等のディスクであってもよい。
【0044】MPU46は、図1で説明した一連の音声
認識処理や、アプリケーションをソフトウェアで実現す
るための中央処理装置(CPU)及びその周辺回路を含
んで構成される。
【0045】RAM48は、例えば、一連の音声認識、
辞書登録など全ての処理をソフトウエアで実行するため
のプログラムやデータ等が展開されて高速アクセス可能
に保持する。また、RAM48はMPU46によるプロ
グラム実行中に必要なワークエリアを確保するためのメ
モリとしても利用される。
【0046】フラッシュッメモリ47には、音声認識シ
ステムの初期化、一連の音声認識、及び辞書登録など、
全ての処理をソフトウェアで実行するためのプログラム
が、電気的に書き換え可能に書き込まれている。また、
音声認識に必要な音響モデルや辞書、文法情報なども格
納されている。フラッシュッメモリ47に格納されるプ
ログラムのバージョンアップなどに際して、プログラム
はDVDディスク52から供給されてよい。即ち、バー
ジョンアッププログラムを格納したDVDディスク52
をDVDドライブ51に装着するとき適宜の手段によっ
てMPU46にプログラムモードを設定すると、MPU
46は書換え制御プログラムをDVDディスク52から
RAM48に転送し、RAM48上の書換え制御プログ
ラムを実行してフラッシュメモリ47のプログラムをD
VDディスク52が保有するプログラムに書き換える制
御を行なう。
【0047】図3には音声認識システムのさらに詳細な
構成が示される。これを基に、前記音声区間検出部7を
説明する。
【0048】音声区間検出部7は環境適応部20、区間
検出部21、音声分析部22を、及びセレクタ23有す
る。36はセレクタ23の出力である。
【0049】前記音声分析部22はセレクタ23を介し
て入力される音声信号1のノイズ成分を解析し、そのノ
イズの特徴から、ノイズが認識率に与える影響を少なく
するように、騒音監視フィルタ3、騒音カットフィルタ
2、バンドパスフィルタ4の特性を制御するパラメータ
を信号31,32,34を介して設定する。
【0050】また、前記音声分析部22はセレクタ23
を介してHPF2の出力5を入力し、入力音声信号5に
対する音声信号パワーを計算する。音声信号パワーの計
算は、音声認識処理の音声分析に必要なフレーム単位、
例えば、20m秒間にサンプリングされた音声信号1に
対して一つのパワー値情報を計算する。計算されたパワ
ー値情報(第1の信号情報)33は区間検出部21に与
えられる。
【0051】区間検出部21はパワー値情報33を閾値
35と比較して音声区間の検出を行なう。例えば、順次
入力されてくるパワー値情報33が音声でない区間の情
報か、音声である区間の情報かを、入力音声信号1に対
応するパワー値情報33が閾値25を下から超えれば、
音声区間の開始及び音声の途中であると判定し、閾値3
5を所定時間以上下回れば、その時点が音声の終了であ
ると判定する。音声区間の検出結果は信号16で音声照
合部15に与えられる。バンドパスフィルタ(BPF)
4を通過した信号36は、音声区間であるフレーム単位
に、一連の音声認識処理を行なうために音声分析部8で
解析され、音声の特徴パラメータ毎の結果37が、音声
照合部15に転送される。特徴パラメータ毎の解析結果
37の内、前記信号16で指定される音声区間の解析結
果に対し、音響モデル10並びに認識対象辞書13から
作成された照合テーブルを照合し、照合結果のスコア
(近似する度合い)が登録単語毎に計算され、照合結果
のスコアが一番高い単語がその音声区間の語であること
が確からしいとして、その語に関するコード情報などが
認識結果14として出力される。
【0052】前記環境適応部20は、音声区間検出のた
めの閾値35を設定する。閾値35の初期設定は音声照
合を開始する前、即ち、音声認識対象とされる信号情報
の入力直前に行なわれ、着目する雑音成分を含み認識対
象とする音声信号を含まない信号が前記音声信号1とし
て前記HPF2に与えられたとき、前記環境適応部20
は、そのときのHPF2の出力5を入力し、これに基づ
いて前述と同様に信号パワー値を計算し、数フレーム分
の信号パワー値の平均を計算し、それにある程度のマー
ジンを加えた信号パワー値を、前記閾値35として初期
設定する。
【0053】更に前記音声分析部22は騒音監視用フィ
ルタ(WPF)3を通過した信号6を入力し、その信号
パワー値をフレーム毎に計算して、そのパワー値情報
(第2の信号情報)30をモニタする。要するに、音声
信号1に含まれる背景ノイズ若しくはノイズ成分の変動
をモニタする。パワー値以外の特徴パラメータによって
背景ノイズの変動をモニタするように構成することも可
能である。
【0054】発声の途中で、背景騒音ノイズが急激に変
化した場合を想定すると、その急変を伝える音声信号1
が騒音監視用フィルタ3を通過し、その通過信号6が音
声分析部22へ入力されており、その変動は、音声分析
部22でモニタされている。このままの状態で、その後
に音声が終了すると、音声の終端を検出できなくなる場
合があり、直ちに、音声分析部22はパワー値情報30
を環境適応部20へ伝える。
【0055】前記環境適応部20は、先に設定した音声
区間検出のためのパワー値の閾値35を、パワー値の変
動情報としてのパワー値情報30に基いて、閾値を再計
算して、閾値35の再設定を行ない、再設定されたパワ
ー値の閾値35が音声区間検出部21へ伝達される。音
声区間検出部21は、再設定された閾値に対して、音声
区間検出を実行し、音声パワー値情報33が、再設定さ
れた閾値35をある一定区間以上下回ったら、音声が終
了しているものとして、その下回った時点を音声の終端
として検出する。その終端検出結果情報は信号16にて
音声照合部15へ伝達され、音声照合部15は音声照合
処理を終了して、認識結果14を出力する。
【0056】次に、図3の音声認識システムによる音声
認識処理手順を更に詳細に説明する。
【0057】図4には図3の構成を信号の流れ若しくは
処理順を追えるように表現してある。音声信号1は、音
声認識システムにおいて、マイクやアンプやAD変換器
などを通過して得られたデジタル音声信号である。ま
た、あらかじめ用意されたデジタル音声信号であって
も、アナログ信号であってもよい。この音声信号は、発
声された使用環境の騒音も含まれている。この音声信号
1は、騒音監視用フィルタWPF3および騒音カットフ
ィルタHPF2および音声認識処理用バンドパスフィル
タBPF4に入力されている。
【0058】図5にはフィルタ2,3,4に対するパラ
メータ設定処理に着目した手順が例示される。このパラ
メータ設定処理は、入力される音声信号1のノイズ成分
を分析し、そのノイズの特徴から、ノイズの認識率への
影響が少なくなるように、騒音監視フィルタ3、騒音カ
ットフィルタ2、バンドパスフィルタ4のフィルタ特性
を制御するパラメータの設定を行なう処理である。即
ち、音声信号1は、そのままの信号として、セレクタ2
3で選択され、音声分析部22に入力される。音声分析
部22は、音声信号1のノイズ成分を分析し、その結果
に基いて、騒音監視フィルタ3、騒音カットフィルタ
2、バンドパスフィルタ4の特性を最適に制御するパラ
メータ32、31、34、30を設定する。
【0059】図6には音声区間検出のための閾値を初期
設定する処理に着目した手順が例示される。閾値は、実
際に認識対象とされる音声の始まりと終わりを検出する
ために、音声でない区間か、音声である区間かを、入力
される音声信号1の短時間毎のパワー値に対して判定す
るための参照レベルとされる。設定された閾値に対し
て、実際に入力される音声信号のパワー値が閾値を超え
れば、音声の開始及び音声の途中であり、閾値をある時
間以上下回れば、その時点が音声の終了であるというよ
うにして、音声区間が検出されることになる。
【0060】図6に従えば、前記閾値を初期設定するた
めに、音声認識対象とされる信号情報の入力直前に、着
目する雑音成分を含み認識対象とする音声信号を含まな
い信号が前記音声信号1として前記HPF2に与えら
れ、その信号がHPF2を通過することにより、そこか
ら雑音成分がある程度除去された信号5が環境適応部2
0に入力される。前記環境適応部20は、そのときのH
PF2の出力5を入力し、これに基づいて前述と同様に
信号パワー値を計算し、数フレーム分の信号パワー値の
平均を計算し、それにある程度のマージンを加えた信号
パワー値を、前記閾値35として初期設定し、これを区
間検出部21に与える。
【0061】図7には音声区間検出処理に着目した手順
が例示される。実際に発声入力された音声認識対処の音
声信号1は、騒音監視フィルタ(WPF)3、騒音カッ
トフィルタ(HPF)2、バンドパスフィルタ4に入力
される。騒音監視用フィルタ(WPF)3を通過した信
号6は、音声分析部22に入力され、例えば、フレーム
毎に音声信号6のパワー値が演算されて背景雑音のパワ
ー値情報(30)をモニタする。尚、パワー値以外の特
徴パラメータにより背景雑音の変動を併せてモニタして
もよい。
【0062】騒音カットフィルタ(HPF)2を通過し
た音声信号5は、セレクタ23で選択されて、音声分析
部22に入力されて、音声分析される。あくまで音声分
析部22によるその音声分析は、音声区間検出を目的と
する処理である。ここでは、フレーム毎にその音声信号
5のパワー値を演算し、これをパワー値情報33として
音声区間検出部21に転送する。音声区間検出部21
は、そのパワー値情報33と前記閾値35とを比較し
て、前述のように、音声区間の検出を行なう。
【0063】バンドパスフィルタ(BPF)4を通過し
た信号36は、音声区間であるフレーム単位に、一連の
音声認識処理を行なうため、音声分析部8に入力され
る。音声分析部8では音声の特徴パラメータ毎の分析結
果37が得られ、これが音声照合部15に転送される。
音声照合部15は、音響モデル10及び認識対象辞書1
3から作成された照合テーブルの内容と前記分析結果3
7を照合し、照合結果のスコアが最も高い候補を認識結
果14として出力する。
【0064】図8には閾値変更処理に着目した手順が例
示される。発声の途中で、背景騒音が急激に変化した場
合を想定する。その急変を伝える音声信号1は、騒音監
視用フィルタ(WPF)3に入力され、そこを通過した
音声信号6は音声分析部22へ入力される。音声分析部
22は前述の通り、背景雑音の変動を音声信号6からモ
ニタしている。音声分析部22はは畏敬雑音の変動を検
出すると、直ちに、モニタしたパワー値情報30を環境
適応部20へ伝達する。
【0065】環境適応部20は、先に設定した音声区間
検出のための閾値35を、その変動情報であるパワー値
情報30に基いて、再計算して、閾値35の再設定を行
なう。その後、音声区間検出部21は、再設定された閾
値35を用いて音声区間検出処理を行なう。音声区間検
出部21は、再設定された閾値35に対して、音声区間
検出を実行し、認識対象音声のパワー値情報33が、閾
値35をある一定区間以上下回ったら、音声が終了して
いるものとして、その下回った時点を音声の終端として
検出する。その検出結果は情報16により音声照合部1
5へ伝達され、音声照合部15は、音声照合処理を終了
して、認識結果14を出力する。
【0066】図5乃至図8の手順より明らかなように、
発話音声の直前、直後、あるいは、発声途中で急激に変
動する背景騒音が存在しても、音声区間検出の精度を劣
化させることなく、認識率の面で、良好な認識性能を発
揮することができ、音声認識インタフェースの向上を期
待することができる。
【0067】図9には図5乃至図8に基づいて説明した
一連の音声認識処理において、発声の前後、或は、発声
の途中においても、背景騒音レベルが一定に保たれてい
る場合における音声区間検出のための各信号の様子が例
示される。
【0068】図9の(A)は音声信号1を示し、横軸は
時間t、縦軸は音声の振幅(例えば電圧V)である。発
声直前の音声信号1は、まだ音声ではない区間Eであ
り、例えば、Eで示す区間のパワーレベル(信号パワー
値)の平均を計算し、その値にマージンを加えたものを
音声区間検出用パワー閾値(Pth)即ち前記閾値35
とする。閾値35は図9の(B),(C)に示される。
【0069】図9の(B)に音声信号1をパワー値でプ
ロットしたパワー値情報33を示し、縦軸はパワーP、
横軸は時間tである。パワー値情報33が前記閾値(P
th)35を上回っている部分が発声された音声の部分
で、下回っている部分が背景ノイズの部分である。この
音声の部分を正しく検出することが音声認識における認
識率向上に不可欠であり、騒音下の認識率を低下させな
いためには、この音声区間検出の精度が問題となる。
【0070】尚、実際の音声認識処理については、検出
された音声区間の前後に続く音声でない区間のフレーム
まで音声区間として検出して音声照合し、また、実際の
ノイズには、非常に短い時間内で発声する突発性のノイ
ズなどもあり、パワーが急峻に立ち上がり、立ち下がる
場合などで、厳密には、それは音声ではないと判別する
処理など必要になるが、この点については本発明とは直
接関係ないので詳細な説明は省略する。
【0071】図9の(C)は音声信号1の背景ノイズの
パワー値情報30を例示する。ここでは、パワー値情報
30は環境適応部20で設定された閾値(Pth)35
に対して、常に下回っている。これは、ノイズ変動があ
る程度定常的であることを表している。このような状況
では従来の音声認識処理の音声区間検出方法でも支障な
い。
【0072】図10には図5乃至図8に基づいて説明し
た一連の音声認識処理において発声の途中で、背景騒音
レベルが急激に変動した場合における音声区間検出のた
めの各信号の様子が例示される。
【0073】図10の(A)は音声信号1を示し、横軸
は時間t、縦軸は音声の振幅(例えば電圧V)である。
発声直前の音声信号1は、まだ音声ではない区間E0で
あり、例えば、E0で示す区間のパワーレベル(信号パ
ワー値)の平均を計算し、その値にマージンを加えたも
のを音声区間検出用パワー閾値(Pth)即ち前記閾値
35とする。図10の(B),(C)には一旦設定しさ
れたパワー閾値35をそのまま維持する場合が示され、
図10の(D),(E)は一旦設定されたパワー閾値3
5を再設定する場合が示される。
【0074】図10の(B)には、音声信号1をパワー
値でプロットしたパワー値情報33が示され、縦軸はパ
ワーP、横軸は時間tである。パワー閾値情報33が前
記閾値(Pth)35を上回っている部分が発声された
音声の部分で、下回っている部分が背景ノイズの部分で
ある。
【0075】ここで、図10の(C)に示すように、発
声の途中から背景ノイズのパワー値情報30が発声の直
前に比べて、高くなったものとする。このパワー値情報
30は、発声の直前のE0の区間で設定した閾値(Pt
h)35の値を超えるレベルになっており、その背景ノ
イズの変化は図10の(B)のパワー値情報33の波形
に反映され、図10の(B)においてパワー値情報33
のレベルは途中から閾値35を下回らなくなっている。
このままの状態では、発声された音声の終端を検出でき
ず、背景ノイズが閾値35を下回るまで、発声された音
声区間が継続しているという誤った判断がなされること
になる。このままでは、正しく音声の終端が検出でき
ず、音声認識率を低下させる原因になる。
【0076】図10の(D)にはそのような背景ノイズ
の変動に対して閾値35を再設定した場合の音声区間検
出作用が例示される。例えば、図10の(A)のE1の
音声区間において、その区間の背景ノイズのパワー値を
用いて、閾値(Pth)35を再設定したものとする。
この閾値の再設定によって、背景ノイズのレベル変動を
含む音声信号に関するパワー値情報33は、発声された
音声の終了時点において、再設定された閾値35を下回
り、音声の終端を検出することが可能になる。
【0077】図10の(E)には音声信号1の背景ノイ
ズのパワー値情報30と、再設定処理された閾値35が
示されており、背景ノイズのパワー値情報30は、T1
時点で再設定された閾値(Pth)35に対して下回っ
ている。これにより、発声途中の変動ノイズに対して
も、音声の終端が検出可能になり、音声区間検出精度を
向上できる。
【0078】図11には騒音監視フィルの出力パワー値
と背景ノイズだけのパワー値との相違に着目したときに
閾値の変化の様子を例示する。図11の(A)には図3
に示した騒音監視フィルタ3のフィルタ特性の一例が示
される。横軸は周波数[kHz]で、縦軸は電圧利得
[dB]である。例えば、騒音の分析を行なった結果、
60で示したような300Hz付近にピークを持った騒
音が背景に存在したとすると、その騒音の帯域だけを通
過させてモニタできるように、騒音監視フィルタ(WP
F)3の特性が制御され、61で示されるような特性に
され、60の騒音を通過させることができる。要する
に、騒音監視フィルタ3の特性は騒音の種類に応じて制
御されることになる。
【0079】騒音監視フィルタ3の特性を61に示す特
性とした場合、音声区間検出用閾値が、実際に、どのよ
うに再設定されるかを以下に説明する。
【0080】図11の(B)には騒音カットフィルタで
あるハイパスフィルタ(HPF)2を通過した音声信号
5に関するパワー値5Aが例示される。このパワー値5
Aは前記パワー値33と等価であると考えて差し支えな
い。
【0081】図11の(C)には上記の特性を持つ騒音
監視フィルタ(WPF)3を通過した音声信号6に関す
るパワー値6Aを例示する。このパワー値6Aは背景ノ
イズのパワー値として音声解析部22で生成されるパワ
ー値30と等価であると考えてよい。同図に示されるパ
ワー値6Aは音声区間の発声音声の影響を受けて変動し
ているが、図11の(B)に示すHPF2通過後のパワ
ー値5Aに比べて変動は小さく、音声分析部22で背景
ノイズの変動をモニタするにはその変動が問題にならな
い。
【0082】図11の(D)には前記パワー値5Aに対
する閾値35の変化の様子が例示される。閾値35は前
記パワー値6Aの変化の傾向に追従して変化されてい
る。62で示される波形は背景ノイズのみのパワー値を
仮想的にプロットした波形である。波形には音声区間に
ける発生の影響が完全に除去されており、パワー値6A
の傾向とは多少相違して当然である。このような相違が
あっても、実際には、閾値35は、音声区間検出に用い
ているHPF2通過後の発話音声区間のパワー値5Aを
超えることはないため、音声区間で多少高めに再設定さ
れてしまう区間が存在するが、音声が終了した時点で
は、音声の終端を検出可能なレベルに再設定されている
ので、音声の終端検出には全く影響なく、高精度な区間
終端検出を保証することができる。
【0083】以上本発明者によってなされた発明を実施
形態に基づいて具体的に説明したが、本発明はそれに限
定されるものではなく、その要旨を逸脱しない範囲にお
いて種々変更可能であることは言うまでもない。
【0084】例えば、騒音監視フィルタ(WPF)6の
出力に基づいて把握する変動情報は信号パワー値に限る
ことはなく、ある周波数に限定した特徴パラメータなど
を用いてもよい。また、音声認識システムにおいて、騒
音カットフィルタ及び騒音監視フィルタの特性を制御す
るパラメータは、騒音種類に応じて変更するようにして
よい。また、マイクロコンピュータはディジタル信号処
理ユニットや浮動小数点演算ユニットなどの演算部を備
えてよい。
【0085】また、記録媒体はCD−ROM、DVD−
RAMに限定されず、FD(FloppyDisk)、CD―R
(Compact Disk - Recordable)、CR−RW(Compact
Disk- Rewritable)、DVD−ROM(Digital Video
Disk Read Only Memory)等、コンピュータ読み取り
可能なその他の記録媒体であってよい。
【0086】本発明は、カーナビゲーションシステム、
車載用PC、カーエレクトロニクスや、PDA、ハンド
ヘルドPCに代表される小型情報機器、携帯電話、携帯
型音声翻訳機、並びに、ゲーム機器、家電機器に用いる
音声認識システム等に広く適用することができる。
【0087】
【発明の効果】本願において開示される発明のうち代表
的なものによって得られる効果を簡単に説明すれば下記
の通りである。
【0088】音声区間検出手段により音声区間検出のた
めの閾値を騒音環境の変化に追従させて変更する事がで
きる。これにより、本発明に係る音声認識システム及び
データ処理システムは騒音環境の変化に対して音声区間
検出を良好に追従させることができ、騒音レベルが短時
間の間に変動する環境でも、精度良く音声認識を行なう
ことを可能にする。
【0089】コンピュータに前記音声認識システムやデ
ータ処理システムを実現させるためのプログラムをコン
ピュータ読み取り可能に記録した記録媒体を提供するこ
とにより、そこに記録されたプログラムをカーナビゲー
ションシステムなどの音声認識システムに読取らせて実
行させることにより、騒音レベルが短時間の間に変動す
る環境でも、音声区間検出精度を上げて、精度良く音声
認識を行なうことができる音声認識システムの実現が容
易になる。
【0090】そのようなプログラムを高級言語で記述さ
れたソースプログラムレベルで提供すれば、目的とする
コンピュータに応じたオブジェクトプログラムを容易に
得ることができ、上記音声認識システムの開発期間短縮
に寄与することができる。
【図面の簡単な説明】
【図1】本発明に係る音声認識システムの概略ブロック
図である。
【図2】図1に示す音声認識システムをマイクロコンピ
ュータを用いたデータ処理システムで実現した例を示す
ブロック図である。
【図3】音声認識システムのさらに詳細な構成を例示す
るブロック図である。
【図4】図3の構成を信号の流れ若しくは処理順を追え
るように表現した説明図である。
【図5】騒音カットフィルタ、騒音監視フィルタ、及び
バンドパスフィルタに対するパラメータ設定処理に着目
した手順を例示する説明図である。
【図6】音声区間検出のための閾値を初期設定する処理
に着目した手順を例示する説明図である。
【図7】音声区間検出処理に着目した手順を例示する説
明図である。
【図8】閾値変更処理に着目した手順を例示する説明図
である。
【図9】図5乃至図8に基づいて説明した一連の音声認
識処理において、発声の前後、或は、発声の途中におい
ても、背景騒音レベルが一定に保たれている場合におけ
る音声区間検出のための各信号の様子を例示する信号波
形図である。
【図10】図5乃至図8に基づいて説明した一連の音声
認識処理において発声の途中で、背景騒音レベルが急激
に変動した場合における音声区間検出のための各信号の
様子を例示する信号波形図である。
【図11】騒音監視フィルの出力パワー値と背景ノイズ
だけのパワー値との相違に着目したときに閾値の変化の
様子を例示する信号波形図である。
【符号の説明】
1 音声信号 2 騒音カットフィルタ(HPF) 3 騒音監視フィルタ(WPF) 4 バンドパスフィルタ(BPF) 7 音声区間検出部 8 音声分析部 9 照合部 10 音響モデル 12 辞書連結部 13 対象辞書 14 認識結果 15 音声照合部 20 環境適応部 21 音声区間検出部 22 音声分析部(1) 23 セレクタ 41 マイク 42 アンプ 43 A/D変換機 44 I/Fロジック 45,50 I/Oロジック 46 マイクロコンピュータ(MPU) 47 ROM 48 RAM 49 システムバス 51 DVDドライブ 52 DVDディスク
───────────────────────────────────────────────────── フロントページの続き (72)発明者 天野 明雄 東京都国分寺市東恋ケ窪一丁目280番地 株式会社日立製作所中央研究所内 Fターム(参考) 5D015 CC02 DD04 DD05 EE05

Claims (13)

    【特許請求の範囲】
  1. 【請求項1】 入力信号から着目する騒音成分を減ずる
    第1フィルタ手段と、前記入力信号から着目する騒音成
    分を取り出す第2フィルタ手段と、前記第1フィルタ手
    段及び第2フィルタ手段の出力に基づいて前記入力信号
    の音声区間を検出する音声区間検出手段と、前記入力信
    号から音声の特徴を抽出し抽出された音声の特徴情報に
    対して音声区間で音声認識を行なう認識手段とを含み、 前記音声区間検出手段は、前記第1フィルタ手段の出力
    に基づいて得られる第1の信号情報と閾値とを比較して
    音声区間を検出し、前記第2フィルタ手段の出力に基づ
    いて得られる第2の信号情報の変動に応じて前記閾値を
    変更するものであることを特徴とする音声認識システ
    ム。
  2. 【請求項2】 前記音声区間検出手段は、前記第1の信
    号情報が前記閾値を一方から他方に向けて超える状態に
    基づいて音声区間の始点を検出し、前記第1の信号情報
    が前記閾値を他方から一方に向けて超える状態に基づい
    て音声区間の終点を検出して、音声区間の検出を行なう
    ものであることを特徴とする請求項1記載の音声認識シ
    ステム。
  3. 【請求項3】 前記音声区間検出手段は、着目する雑音
    成分を含み認識対象とする音声信号を含まない信号が前
    記入力信号として前記第1フィルタ手段に与えられたと
    き、前記第1フィルタ手段の出力に基づいて得られる信
    号情報を基準に前記閾値を初期設定するものであること
    を特徴とする請求項1記載の音声認識システム。
  4. 【請求項4】 前記認識手段は入力信号から音声の周波
    数帯域の信号をバンドパスフィルタ手段で取り出して音
    声の特徴を抽出するものであり、前記第1フィルタ手段
    はハイパスフィルタ手段であり、前記第2フィルタ手段
    はローパスフィルタ手段であることを特徴とする請求項
    1記載の音声認識システム。
  5. 【請求項5】 前記第1の信号情報は、前記第1フィル
    タ手段の出力に対する単位時間毎のパワー値情報である
    ことを特徴とする請求項1記載の音声認識システム。
  6. 【請求項6】 前記第2の信号情報は、前記第2フィル
    タ手段の出力に対する単位時間毎のパワー値情報である
    ことを特徴とする請求項1記載の音声認識システム。
  7. 【請求項7】 入力信号から抽出された音声の特徴情報
    に対して音声区間で音声認識を行なうために、コンピュ
    ータに、前記入力信号から着目する騒音成分を減ずる騒
    音カット処理と、前記入力信号から着目する騒音成分を
    取り出す騒音監視処理と、前記騒音カット処理の結果に
    基づいて得られる第1の信号情報と閾値とを比較して音
    声区間を検出する音声区間検出処理と、前記騒音監視処
    理の結果に基づいて得られる第2の信号情報の変動に応
    じて前記閾値を変更する閾値変更処理と、を実行せるた
    めのプログラムをコンピュータ読み取り可能に記録した
    情報記録媒体。
  8. 【請求項8】 前記プログラムは、着目する雑音成分を
    含み認識対象とする音声信号を含まない信号から騒音成
    分を減ずる信号処理を行ない、その信号処理結果に基づ
    いて得られる信号情報から前記閾値を初期設定する閾値
    初期設定処理を更に実行させるものであることを特徴と
    する請求項7記載の情報記録媒体。
  9. 【請求項9】 前記騒音カット処理はハイパスフィルタ
    処理であり、前記騒音監視処理はローパスフィルタ処理
    であることを特徴とする請求項7記載の情報記録媒体。
  10. 【請求項10】 マイクロコンピュータ、メモリ及び入
    出力回路を有し、入出力回路へ入力される入力信号から
    音声の特徴情報を抽出し、抽出した特徴情報に対して音
    声区間で音声認識を行なうデータ処理システムであっ
    て、 前記マイクロコンピュータは、前記メモリが保有するプ
    ログラムを実行して、前記入力信号から着目する騒音成
    分を減ずる騒音カット手段、前記入力信号から着目する
    騒音成分を取り出す騒音監視手段、前記騒音カット手段
    及び騒音監視手段の出力に基づいて前記入力信号の音声
    区間を検出する音声区間検出手段、及び前記入力信号か
    ら音声の特徴を抽出し抽出された音声の特徴情報に対し
    て音声区間で音声認識を行なう認識手段を実現し、 前記音声区間検出手段は、前記騒音カット手段の出力に
    基づいて得られる第1の信号情報と閾値とを比較して音
    声区間を検出し、前記騒音監視手段の出力に基づいて得
    られる第2の信号情報の変動に応じて前記閾値を変更す
    ることを特徴とするデータ処理システム。
  11. 【請求項11】 入力信号から抽出された音声の特徴情
    報に対して音声区間で音声認識を行なうために、コンピ
    ュータを、前記入力信号から着目する騒音成分を減ずる
    騒音カット手段、前記入力信号から着目する騒音成分を
    取り出す騒音監視手段、及び前記騒音カット手段及び騒
    音監視手段の出力に基づいて前記入力信号の音声区間を
    検出する音声区間検出手段、として機能させることが可
    能な音声区間検出制御プログラムであって、 前記音声区間検出手段は、前記騒音カット手段の出力に
    基づいて得られる第1の信号情報と閾値とを比較して音
    声区間を検出し、前記騒音監視手段の出力に基づいて得
    られる第2の信号情報の変動に応じて前記閾値を変更す
    ることを特徴とする音声区間検出制御プログラム。
  12. 【請求項12】 入力信号から第1成分を減ずる第1フ
    ィルタ手段と、前記入力信号から第2成分を取り出す第
    2フィルタ手段と、前記第1フィルタ手段及び第2フィ
    ルタ手段の出力に基づいて前記入力信号の音声区間を検
    出する音声区間検出手段と、前記入力信号から音声の特
    徴を抽出し抽出された音声の特徴情報に基づいて音声区
    間で音声認識を行なう認識手段とを含み、 前記音声区間検出手段は、前記第1フィルタ手段の出力
    に基づいて得られる第1の信号情報と閾値とを比較して
    音声区間を検出し、前記第2フィルタ手段の出力に基づ
    いて得られる第2の信号情報の変動に応じて前記閾値を
    変更するものであることを特徴とする音声認識システ
    ム。
  13. 【請求項13】 前記第1成分及び第2成分は、騒音成
    分であることを特徴とする請求項12記載の音声認識シ
    ステム。
JP2001059813A 2001-03-05 2001-03-05 音声認識システム及び情報記録媒体 Withdrawn JP2002258882A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001059813A JP2002258882A (ja) 2001-03-05 2001-03-05 音声認識システム及び情報記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001059813A JP2002258882A (ja) 2001-03-05 2001-03-05 音声認識システム及び情報記録媒体

Publications (1)

Publication Number Publication Date
JP2002258882A true JP2002258882A (ja) 2002-09-11

Family

ID=18919321

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001059813A Withdrawn JP2002258882A (ja) 2001-03-05 2001-03-05 音声認識システム及び情報記録媒体

Country Status (1)

Country Link
JP (1) JP2002258882A (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004326612A (ja) * 2003-04-25 2004-11-18 Nec Corp オーダリングシステム
JP2005031632A (ja) * 2003-06-19 2005-02-03 Advanced Telecommunication Research Institute International 発話区間検出装置、音声エネルギ正規化装置、コンピュータプログラム及びコンピュータ
JP2005241717A (ja) * 2004-02-24 2005-09-08 Kawai Musical Instr Mfg Co Ltd 自然楽器の楽音判定装置におけるモデル作成装置およびモデル作成用プログラム
JP2005338286A (ja) * 2004-05-25 2005-12-08 Yamaha Motor Co Ltd 対象音処理装置およびこれを用いた輸送機器システム、ならびに対象音処理方法
JP2006304125A (ja) * 2005-04-25 2006-11-02 V-Cube Inc 音声信号補正装置および音声信号補正方法
WO2008114448A1 (ja) * 2007-03-20 2008-09-25 Fujitsu Limited 音声認識システム、音声認識プログラムおよび音声認識方法
JP2011107715A (ja) * 2005-06-15 2011-06-02 Qnx Software Systems (Wavemakers) Inc スピーチエンドポインタ
JP2013235032A (ja) * 2012-05-02 2013-11-21 Nintendo Co Ltd 情報処理プログラム、情報処理装置、情報処理システム及び情報処理方法
KR101437830B1 (ko) * 2007-11-13 2014-11-03 삼성전자주식회사 음성 구간 검출 방법 및 장치
WO2015141180A1 (en) * 2014-03-17 2015-09-24 Sharp Kabushiki Kaisha Voice activity detection method and bioacoustic sensor
US10553219B2 (en) 2015-09-23 2020-02-04 Samsung Electronics Co., Ltd. Voice recognition apparatus, voice recognition method of user device, and non-transitory computer readable recording medium
CN111540342A (zh) * 2020-04-16 2020-08-14 浙江大华技术股份有限公司 一种能量阈值调整方法、装置、设备及介质

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004326612A (ja) * 2003-04-25 2004-11-18 Nec Corp オーダリングシステム
JP4521673B2 (ja) * 2003-06-19 2010-08-11 株式会社国際電気通信基礎技術研究所 発話区間検出装置、コンピュータプログラム及びコンピュータ
JP2005031632A (ja) * 2003-06-19 2005-02-03 Advanced Telecommunication Research Institute International 発話区間検出装置、音声エネルギ正規化装置、コンピュータプログラム及びコンピュータ
JP2005241717A (ja) * 2004-02-24 2005-09-08 Kawai Musical Instr Mfg Co Ltd 自然楽器の楽音判定装置におけるモデル作成装置およびモデル作成用プログラム
JP4530199B2 (ja) * 2004-02-24 2010-08-25 株式会社河合楽器製作所 自然楽器の楽音判定装置におけるモデル作成装置およびモデル作成用プログラム
JP2005338286A (ja) * 2004-05-25 2005-12-08 Yamaha Motor Co Ltd 対象音処理装置およびこれを用いた輸送機器システム、ならびに対象音処理方法
JP2006304125A (ja) * 2005-04-25 2006-11-02 V-Cube Inc 音声信号補正装置および音声信号補正方法
JP2011107715A (ja) * 2005-06-15 2011-06-02 Qnx Software Systems (Wavemakers) Inc スピーチエンドポインタ
JPWO2008114448A1 (ja) * 2007-03-20 2010-07-01 富士通株式会社 音声認識システム、音声認識プログラムおよび音声認識方法
WO2008114448A1 (ja) * 2007-03-20 2008-09-25 Fujitsu Limited 音声認識システム、音声認識プログラムおよび音声認識方法
US7991614B2 (en) 2007-03-20 2011-08-02 Fujitsu Limited Correction of matching results for speech recognition
JP4836290B2 (ja) * 2007-03-20 2011-12-14 富士通株式会社 音声認識システム、音声認識プログラムおよび音声認識方法
KR101437830B1 (ko) * 2007-11-13 2014-11-03 삼성전자주식회사 음성 구간 검출 방법 및 장치
JP2013235032A (ja) * 2012-05-02 2013-11-21 Nintendo Co Ltd 情報処理プログラム、情報処理装置、情報処理システム及び情報処理方法
WO2015141180A1 (en) * 2014-03-17 2015-09-24 Sharp Kabushiki Kaisha Voice activity detection method and bioacoustic sensor
US9530433B2 (en) 2014-03-17 2016-12-27 Sharp Laboratories Of America, Inc. Voice activity detection for noise-canceling bioacoustic sensor
US10553219B2 (en) 2015-09-23 2020-02-04 Samsung Electronics Co., Ltd. Voice recognition apparatus, voice recognition method of user device, and non-transitory computer readable recording medium
CN111540342A (zh) * 2020-04-16 2020-08-14 浙江大华技术股份有限公司 一种能量阈值调整方法、装置、设备及介质
CN111540342B (zh) * 2020-04-16 2022-07-19 浙江大华技术股份有限公司 一种能量阈值调整方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
US10824391B2 (en) Audio user interface apparatus and method
JP5331784B2 (ja) スピーチエンドポインタ
JP4587160B2 (ja) 信号処理装置および方法
EP3210205B1 (en) Sound sample verification for generating sound detection model
EP0077194B1 (en) Speech recognition system
JP3726448B2 (ja) 認識対象音声検出方法およびその装置
JP6844608B2 (ja) 音声処理装置および音声処理方法
JP2002258882A (ja) 音声認識システム及び情報記録媒体
JPH10508389A (ja) 音声検出装置
JP2008256802A (ja) 音声認識装置および音声認識方法
CN104157284A (zh) 语音命令检测方法和系统,以及信息处理系统
JP3611223B2 (ja) 音声認識装置及び方法
JP2701431B2 (ja) 音声認識装置
JP2020134887A (ja) 音信号処理プログラム、音信号処理方法及び音信号処理装置
KR100574883B1 (ko) 비음성 제거에 의한 음성 추출 방법
JPS6367197B2 (ja)
JP2006010739A (ja) 音声認識装置
JP2004029215A (ja) 音声認識装置の音声認識精度評価方法
JP2666296B2 (ja) 音声認識装置
JPH03138698A (ja) 車載用音声認識装置の入力方式
JPS6127758B2 (ja)
JPS63278100A (ja) 音声認識装置
JPH05197385A (ja) 音声認識装置
JP3533773B2 (ja) 時系列パターン認識処理におけるリジェクト方法およびそれを実装した時系列パターン認識装置
JPS59170894A (ja) 音声区間の切り出し方式

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20080513