JP3526911B2 - 音声認識装置及び音声認識方法 - Google Patents

音声認識装置及び音声認識方法

Info

Publication number
JP3526911B2
JP3526911B2 JP10216494A JP10216494A JP3526911B2 JP 3526911 B2 JP3526911 B2 JP 3526911B2 JP 10216494 A JP10216494 A JP 10216494A JP 10216494 A JP10216494 A JP 10216494A JP 3526911 B2 JP3526911 B2 JP 3526911B2
Authority
JP
Japan
Prior art keywords
voice
correction coefficient
signal
noise
component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP10216494A
Other languages
English (en)
Other versions
JPH075895A (ja
Inventor
弘文 矢島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Faurecia Clarion Electronics Co Ltd
Original Assignee
Clarion Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Clarion Co Ltd filed Critical Clarion Co Ltd
Priority to JP10216494A priority Critical patent/JP3526911B2/ja
Publication of JPH075895A publication Critical patent/JPH075895A/ja
Application granted granted Critical
Publication of JP3526911B2 publication Critical patent/JP3526911B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、音声を認識する装置
で、特に、騒音環境下で音声を認識する音声認識装置及
び騒音環境での音声認識方法に関する。
【0002】
【従来の技術】従来の音声認識装置においては、このよ
うな騒音環境下で音声認識の認識率の低下を防止するた
めに、LMS法やスペクトル・サブトラクション法(以
下「S.S法」という)等が採られていた。LMS法と
は、適応フィルタ法により、発声音声と騒音成分が混在
したマイク入力信号であるメイン信号から、既知騒音信
号をリファレンス信号として騒音成分を除去する方法で
ある。また、S.S法とは、発声音声に含まれる騒音成
分を定常雑音とみなして除去する方法である。
【0003】図21はS.S法を適用した従来の音声認
識装置のブロック図である。この図において、1は発声
者(図示せず)からの音声、及び、オーディオ装置等の
別の発生源からの音楽騒音であるオーディオ信号による
音を受けて、電気信号のメイン信号maとして送出する
マイクである。2はこのメイン信号maを増幅するアン
プである。3は増幅されたメイン信号maを、周波数分
割して複数のチャンネル信号を生成し、その一つのチャ
ンネル信号を択一的に送出するフィルタバンクである。
【0004】フィルタバンク3は、メイン信号maの全
帯域をチャンネル信号mo として通過させるオールパス
フィルタ3a、メイン信号maを所定帯域ごとに分割し
て複数(n個)のチャンネル信号m1 ,m2 ,…,mn
を送出するバンドパスフィルタ群3b,3c、チャンネ
ル信号ma,m1 ,m2 ,…,mnのうちの一つのチャ
ンネル信号m(CH)(CH=0,1,2,…, n)を選択す
るマルチプレクサ3d、この選択されたチャンネル信号
m(CH)をデジタル信号に変換してチャンネル信号M
(CH)を送出するA/Dコンバータ3eで構成され
る。
【0005】4はフィルタバンク3から送出されるメイ
ン音声データであるチャンネル信号M(CH)を音声認
識するCPUであり、図には示さないが、演算部、プロ
グラム格納用のROM、データ格納用のRAM等により
構成される。5は予め登録された比較音声データを格納
し、音声解析時にCPU4にその比較音声データを供給
するする登録辞書である。
【0006】次に、上記従来の音声認識装置の動作につ
いて説明する。オーディオ騒音成分を含むメイン信号m
aは、フィルタバンク3を経た後、各チャンネルごとに
デジタル信号に変換され、音声認識すべきメイン音声デ
ータとしてCPU4に取り込まれる。その後、オーディ
オ騒音成分が既知騒音成分として除去されて、登録辞書
に予め登録されている比較音声データとパターンマッチ
ングされ音声認識される。
【0007】
【発明が解決しようとする課題】しかしながら上記従来
の音声認識装置においては、LMS法すなわち適応フィ
ルタ法の場合には、オーディオ騒音成分のような非定常
雑音に対しては、あまり急激な変化に対応できず、急激
な騒音の変化がない場合でも、フィルタの収束時間が長
くなるという問題があった。さらに、DSP等の高速演
算処理が可能な処理装置を必要とするため、音声認識装
置のコストアップの要因になるという問題もあった。
【0008】また、S.S法の場合も、オーディオ騒音
成分のような急激な変化を伴う騒音に対しては、正確な
雑音除去ができないので、認識率を高めることができな
いという問題があった。
【0009】本発明による音声認識装置は、このような
従来の問題を解決するものであり、DSP等の高価な高
速演算処理装置を必要とすることなく、急激な変化を伴
う騒音成分を正確に除去し、音声認識率を向上すること
ができる優れた音声認識を行なうことを目的とする。
【0010】また、本発明による音声認識方法は、ファ
ジィ推論を用いることにより、さらに適応型S・S方式
の効果を向上させることを目的とする。
【0011】
【課題を解決するための手段】本発明による音声認識装
置は上記目的を達成するために、発声者からの音声信号
に騒音成分が混在したメイン信号から前記騒音成を除
去して予め登録した比較音声信号と照合して前記音声信
号の認識を行う音声認識装置であって、音源から基準信
号を抽出する手段と、前記メイン信号に前記音声信号が
含まれる音声区間か含まれない非音声区間かを判別する
音声区間判別手段と、前記非音声区間において前記メイ
ン信号に基づいて補正係数を生成しかつ更新する補正係
数更新手段と、前記音声区間において前記基準信号に前
記補正係数を乗じた値を前記メイン信号から減算する演
算手段と、該演算手段から得られる演算結果と前記比較
音声信号とを照合して音声認識を行う認識手段と、前記
メイン信号から前記基準信号に更新前の補正係数を乗じ
た値を減算した減算結果が所定値より大となるときを前
記音声信号の暫定音声始端とする音声始端検出手段と、
一定時間前の過去のメイン信号及び基準信号から遅延メ
イン信号及び遅延基準信号を生成する手段と、前記遅延
メイン信号に基づいて確定音声始端を決定して前記音声
区間を判別する音声区間判別手段と、前記遅延メイン信
号及び遅延基準信号の過去一定時間の累計値の比から補
正係数を生成しかつ更新する補正係数更新手段と、前記
音声区間において前記遅延基準信号に前記補正係数を乗
じた値を前記遅延メイン信号から減算する演算手段と、
を備えたことを特徴とする。
【0012】また、本発明による音声認識方法は上記目
的を達成するために、発声者からの音声信号成分に騒音
成分が混在した入力信号から当該騒音成分を除去して前
記発声者の音声を認識する声認識方法であって、前記
入力信号からファジィ推論により音声区間を検出し、こ
の音声区間に前記騒音成分が混在しているか否かを判別
して、当該判別結果に応じて前記音声信号成分を予測す
る補正数の更新を行い、当該更新した補正数の調整
を行い、当該調整された補正数に基づいて減算処理を
行い、当該減算結果を前記音声信号成分として音声認識
を行うことを特徴とする。
【0013】また、発声者からの音声信号成分に音響騒
音成分及び走行騒音成分が混在した入力信号から当該騒
音成分を除去して前記発声者の音声を認識する声認識
方法であって、前記入力信号から音声区間を検出し、こ
の音声区間に前記走行騒音成分が混在しているか否かを
ファジィ推論により判別して、当該判別結果に応じて前
記音声信号成分を予測する補正数の更新を行い、当該
更新した補正数の調整を行い、当該調整された補正
数に基づいて減算処理を行い、当該減算結果を前記音声
信号成分として音声認識を行うことを特徴とす
【0014】またさらに、発声者からの音声信号成分に
騒音成分が混在した入力信号から当該騒音成分を除去し
て前記発声者の音声を認識する音声認識方法であって、
前記入力信号から音声区間を検出し、この音声区間に前
記騒音成分が混在しているか否かを判別して、当該判別
結果に応じて前記音声信号成分を予測する補正数の更
新を行い、ファジィ推論により当該更新した補正数の
調整を行い、当該調整された補正数に基づいて減算処
理を行い、当該減算結果を前記音声信号成分として音声
認識を行うことを特徴とする。
【0015】
【作用】したがって本発明による音声認識装置は、音声
区間において基準信号に補正係数を乗じた値をメイン信
号から減算する演算において、補正係数を更新しつつ演
算を行うので、急激な変化を伴う騒音成分を正確に除去
し、音声認識率を向上することができる。
【0016】また、本発明による音声認識方法は、音声
トリガレベルの決定方法、走行騒音判定レベルの決定方
法、及び、補正係数の調整量の決定方法をファジィ推論
により行うことにより、さらに適応型S・S方式の効果
を向上させることができる。
【0017】
【実施例】以下、第1ないし第7の発明の実施例につい
て図を参照して詳細に説明する。
【0018】1.第1の発明の実施例について説明す
る。
【0019】図1は本発明の第1の実施例の音声認識装
置のブロック図である。図1において、11は発声者
(図示せず)からの音声、及び、オーディオ装置等の別
の発生源からのオーディオ信号(これについては後述す
る)による音を受けて、電気信号のメイン信号maとし
て送出するマイクである。12はこのメイン信号maを
増幅するアンプである。13は増幅されたメイン信号m
aを、周波数分割して複数のチャンネル信号を生成し、
その一つのチャンネル信号を択一的に送出するフィルタ
バンクである。
【0020】フィルタバンク13は、メイン信号maの
全帯域をチャンネル信号mo として通過させるオールパ
スフィルタ13a、メイン信号maを所定帯域ごとに分
割して複数(n個)のチャンネル信号m1 ,m2 ,…,
mnを送出するバンドパスフィルタ群13b,13c、
チャンネル信号ma,m1 ,m2 ,…,mnのうちの一
つのチャンネル信号m(CH)(CH=0,1,2,…, n)
を選択するマルチプレクサ13d、この選択されたチャ
ンネル信号m(CH)をデジタル信号に変換してチャン
ネル信号M(CH)を送出するA/Dコンバータ13e
で構成される。
【0021】14はフィルタバンク13から送出される
メイン音声データであるチャンネル信号M(CH)を保
持するラッチ回路である。15は制御手段としてのCP
Uであり、演算手段である演算部15a、補正係数格納
部15b、その他、図には示さないが、プログラム格納
用のROM、データ格納用のRAM等により構成され
る。
【0022】16はオーディオ装置であり、オーディオ
信号oaを送出する。17は電気信号のオーディオ信号
oaを音に変換するスピーカである。もっとも、このス
ピーカ17から送出されるオーディオ信号は、上記した
発声者からの音声にとっては、除去されるべき音楽騒音
となる。
【0023】18はオーディオ装置16からのオーディ
オ信号oaを増幅して基準信号であるリファレンス信号
raとして出力するアンプである。19はこのリファレ
ンス信号raを、周波数分割して複数のチャンネル信号
を生成し、その一つのチャンネル信号を択一的に送出す
るフィルタバンクである。
【0024】フィルタバンク19は、リファレンス信号
raの全帯域をチャンネル信号roとして通過させるオ
ールパスフィルタ19a、リファレンス信号raを所定
帯域ごとに分割して複数(n個)のチャンネル信号r1
,r2 ,…,rnを送出するバンドパスフィルタ群1
9b,19c、チャンネル信号ra,r1 ,r2 ,…,
rnのうちの一つのチャンネル信号r(CH)(CH=
0,1,2,…, n)を選択するマルチプレクサ19d、この
選択されたチャンネル信号r(CH)をデジタル信号に
変換してチャンネル信号R(CH)を送出するA/Dコ
ンバータ19eで構成される。
【0025】20はフィルタバンク19から送出される
チャンネル信号R(CH)を保持するラッチ回路であ
る。21はCPU15で演算され出力されるチャンネル
信号S(CH)の音声解析データを認識する認識手段と
しての音声認識部であり、チャンネル信号を選択するた
めのチャンネル選択信号CSを、CPU15並びにマル
チプレクサ13d及び19dに供給する。22は予め登
録された比較音声データを格納し、音声解析時に、音声
認識部21にその比較音声データを供給するする登録辞
書である。
【0026】23はメイン信号maに含まれる発者か
らの音声信号の音声区間の始端を検出して始端信号(ト
リガ信号)TRを発生し、CPU15に供給する音声区
間判別手段としての音声トリガ回路である。
【0027】次に、補正係数格納部15bに格納される
補正係数について説明する。
【0028】マイク11から入力されるメイン信号ma
は、下記の(数1)で表される。
【0029】
【数1】ma=sa+oa・g ここで、saは発者からの音声をうけて、マイク11
で電気信号として出力される音声信号であり、マイク1
1の変換特性が加わったものである。また、oaはオー
ディオ装置16から送出されるオーディオ信号である。
さらに、gはオーディオ信号oaがスピーカ17の変換
特性により音に変換され、その発生た音が伝播してマ
イク11に到達するまでに受ける伝送特性である。
【0030】オーディオ信号oaはオーディオ装置16
より直接得ることができるので、伝送特性gが解れば、
下記の(数2)より音声信号saを求めることが可能で
ある。
【0031】
【数2】 しかしながら、この伝送特性gを得るためには、高精度
測定を必要とし、しかもその正確な値を得ることは非常
に困難である。
【0032】そこで、本実施例においては、メイン信号
ma及びオーディオ信号oaを周波数解析し、デジタル
化したデータを用いて音声信号saを求める手法を採
る。
【0033】図1のA/Dコンバータ13e及び19e
から送出されるデジタル信号M(CH)及びR(CH)
の間には、次の(数3)の関係が成立する。
【0034】
【数3】 もっともこの(数3)は、アナログ信号をデジタル化し
たために生ずる誤差により、左項と右項とは必ずしも完
全に等しくはならない。この(数3)において、S(C
H)は音声信号saをデジタル化したデータであり、G
(CH)はR(CH)に乗じてメイン信号M(CH)に
含まれる音声信号成分S(CH)を予測するための補正
係数である。
【0035】この(数3)により、音声信号S(CH)
は次に示す(数4)で表される。
【0036】
【数4】 この(数4)により、メイン信号M(CH)に含まれる
音声信号S(CH)が予測できる。
【0037】この補正係数G(CH)は、周波数分解能
であるチャンネル数nが大であるならば、音声が発生
ていないときのM(CH)とR(CH)との比により推
測可能である。すなわち、S(CH)=0とすると、M
(CH)=R(CH)・G(CH)となり、補正係数G
(CH)は、M(CH)/R(CH)と表すことができ
るからである。非音声区間において算出された補正係数
G(CH)は、補正係数格納部15bに格納される。
【0038】図2は図1に示す音声認識装置のCPU1
5の動作を示すフローチャートである。以下、この動作
を説明する。この場合の補正係数は、非音声区間のM
(CH)及びR(CH)の各々数秒間(ここでは1秒間
とする)の累計値をΣM(CH)及びΣR(CH)と
し、次に示す(数5)により、その比を補正係数とす
る。
【0039】
【数5】 図2において、音声認識部21からチャンネル選択信号
CSを取り込み、ラッチ回路14及び19へ出力し(ス
テップS11)、ラッチタイミング及びラッチ回路14
及び19からデータを取り込むタイミングをつくる。そ
の後、ラッチ回路14及び19からデータM(CH)及
びR(CH)を取り込むとともに、音声トリガ回路23
からのトリガ信号TRを取り込む(ステップS12)。
このトリガ信号TRすなわち始端信号を受けた時点を音
声始端とし、その時点からタイマをセットして、1.6
秒間(この区間は、音声認識部21の最大許容音声区間
長である)を音声区間とする。
【0040】データM(CH)及びR(CH)を取り込
むごとに音声区間か否かを判別し(ステップS13)、
音声区間でない区間が1秒以上継続した場合には、現在
より過去1秒間のストックデータM(CH)及びR(C
H)の更新を行い、その累計値ΣM(CH)及びΣR
(CH)を計算して、式(3)により最新の補正係数を
作成して、補正係数格納部15bの補正係数の値を更新
する(ステップS14)。
【0041】一方、音声区間である場合には、補正係数
格納部15bに格納されている(最新の)補正係数G
(CH)のデータを読出して、取り込んだデータR(C
H)に乗じて、オーディオ騒音成分であるR(CH)・
G(CH)を求め、(数4)によりメイン信号M(C
H)のデータからオーディオ騒音成分の減算を行う(ス
テップS15)。この減算の結果である減算データを音
声信号S(CH)のデータとして出力する(ステップS
16)。
【0042】このように、上記第1の発明の実施例によ
れば、非音声区間のメイン信号及びリファレンス信号か
ら、常に最新の補正係数を求めることにより、急激に変
化するオーディオ騒音等の非定常雑音にも対応すること
ができ、さほど急激なオーディオ騒音の変化がない場合
には、フィルタの収束時間を短くすることができる。ま
た、DSP等のような高速演算処理を可能とする高価な
処理装置を必要とすることもない。
【0043】さらに、リファレンス信号に音声信号が含
まれることがないので、推定誤差を少なくすることがで
き、オーディオ騒音環境下においても高い音声認識が可
能となる。
【0044】2.第2の発明の実施例について説明す
る。
【0045】この発明の特徴は、第1の発明の実施例で
行っている補正係数の作成及び更新の際に、過去のデー
タを利用した遅延データを用いて作成・更新を行う点に
ある。
【0046】図3は本発明の第1の実施例の音声認識装
置のブロック図である。図3において、図1に示す第1
の発明の実施例の構成と同じ構成のものは、同一の符号
で表しその説明は省略する。図3に示すように、この実
施例の構成には、音声トリガ回路は設けられていない。
ただし、CPU15内に、データの演算及び遅延処理を
行う演算手段とともに音声区間の検出を行う音声区間判
別手段である音声検出部15cを備えた構成となってい
る。
【0047】この音声検出部15cにおいては、音声信
号の暫定的な始端を定めた後、その暫定的な始端から一
定時間過去の時点を確定的な始端とみなして音声区間を
定める。そのために、以下に記述するデータ遅延処理を
行う。
【0048】図4は図3における音声認識装置の音声始
端を検出する様子を示す図であり、データ遅延の様子を
示す図である。図4(a)及び(b)において、DPは
オーディオ騒音成分除去後の音声波形の現在値データを
示すものである。実際はデジタル信号であるが、ここで
は説明の便宜上アナログ信号として表すことにする。t
sはこの音声始端の暫定的な検出位置であり、後述する
所定のスレッショルドレベル以上になる点を検出位置と
する。
【0049】DDはこの現在値データDPを一定時間だ
け遅延させた音声波形のデータ、すなわち過去値データ
である。この実施例の場合、現在値データDPと過去値
データDDとの遅延時間Tdは1秒間である。したがっ
て、過去値データDDは、現在値データDPを図示せぬ
RAMに格納した後、1秒後に読み出すことにより得ら
れる。遅延時間Tdを1秒間としたのは、音声信号の真
の始端と暫定的な始端との間の最大誤差時間が1秒間で
あると推定できるからである。
【0050】T0 は音声信号の真の音声区間であり、こ
の場合1.6秒とする。T1 はCPU15が判断する音
声区間であり、この場合2.6秒とする。したがって、
図4(a)の場合は、音声信号の暫定的な始端tsが、
真の始端から1秒間(最大誤差時間)遅れている場合で
ある。また、図4(b)の場合は、音声信号の暫定的な
始端tsが、真の始端から僅かな時間だけ遅れている場
合である。いずれの場合も、CPU15の判断する音声
区間内には、真の音声区間が含まれることになる。
【0051】図5は第2の発明の第1の実施例における
音声認識装置におけるCPU15の動作を表すフローチ
ャートである。以下、図5を参照しつつ本発明の第1の
実施例の動作について説明する。
【0052】まず、音声認識部21から供給されるチャ
ンネル選択信号CSを監視して、ラッチ回路14及び2
0へラッチタイミングの信号を出力し(ステップS2
1)、ラッチ回路14及び20よりデータM(CH)及
びR(CH)を取り込む(ステップS22)。
【0053】次に、取り込んだデータにより音声区間の
検出を行う(ステップS23)。この音声区間の始端t
sの検出は以下のようにして行う。フィルタバンク13
のオールパスフィルタ13aから得られた更新前の補正
係数(これをG0(0)とする)を利用し、下記に示す
(数6)により、音声信号のレベルが所定のスレッショ
ルドレベルTHより大となる点(時間)すなわち始端t
sを検出する。
【0054】
【数6】 この(数6)で、M(0)及びR(0)は、オールパス
フィルタ13aから得られるメイン信号及びリファレン
ス信号である。上記したように、音声区間T1はこの始
端tsから2.6秒間とする。
【0055】さらに、始端tsから過去1秒間のストッ
クデータを更新する。すなわち、過去1秒前の遅延デー
タMD(CH),RD(CH)をRAMから取り出す
(ステップS24)。この遅延データを得ることによ
り、音声区間T1 内に1.6秒間の真の音声区間T0 を
包含することができる。また、音声データの遅延データ
を利用するのは、遅延データの音声始端よりも数ミリ早
く補正係数を更新しておくことにより、音声始端以前の
推定誤差によるオーディオ信号の残留成分を少なくし、
音声始端のトリガが早くかかり過ぎるのを防ぐという2
次的効果もある。
【0056】次に、音声区間か否かを判別し(ステップ
S25)、音声区間でない場合には、遅延データMD
(CH),RD(CH)を補正係数計算用データとし
て、補正係数計算用ストックデータを更新する(ステッ
プS26)。更新した遅延データMD(CH),RD
(CH)を1秒間累計したΣMD(CH),ΣRD(C
H)は、音声成分を含んでいない遅延データの過去1秒
間の累計値である。この累計値を下記の(数7)に代入
して補正係数G(CH)を更新する。
【0057】
【数7】 一方、ステップS25において、音声区間である場合に
は、更新された補正係数G(CH)と遅延データMD
(CH),RD(CH)を用いて、次の(数8)により
オーディオ騒音成分の減算を行い(ステップS27)、
減算データすなわち遅延音声信号SD(CH)を得る。
【0058】
【数8】 この減算データである遅延音声信号SD(CH)を音声
認識部21に出力する(ステップS28)。
【0059】このように、メイン信号及びリファレンス
信号の現在値データと、更新前の補正係数を利用した音
声区間の検出、並びに、メイン信号及びリファレンス信
号の過去値データを利用することにより、以下に示す効
果を得ることができる。
【0060】1)オーディオ騒音が大きい場合でも、更
新前補正係数を利用した減算データによって、予めある
程度のオーディオ騒音成分を除去しているので、音声信
号の始端の検出誤差を小さくすることができる。
【0061】2)音声区間を自動的に検出するので、ユ
ーザが発声のたびにキー入力等の操作を行う負担を解消
することができる。
【0062】3)音声信号のレベルが小さいために推定
誤りによるオーディオ騒音成分の残留成分が存在する場
合でも、音声信号を検出するスレッショルドレベルを大
きく設定することにより、オーディオ騒音による音声区
間の誤検出を少なくすることができ、補正係数の適正値
を求めることができる。したがって、音声認識部のスレ
ッショルドレベルに依存することがない。
【0063】4)極めて単純な方法であるため、リアル
タイム処理が可能となる。
【0064】本発明の第2の実施例の音声認識装置のブ
ロック図は、図3に示す第2の発明の実施例の構成と同
じ構成であり、その説明は省略する。
【0065】この実施例の特徴は、適応型S.S法にお
ける補正係数の更新を発声ごとに毎回行うのではなく、
一定時間ごとに行うことにある。音声認識部にある程度
の定常雑音除去機能を有する場合、毎回ごとの補正係数
の更新を行うと、特にオーディオ成分の変動が大きい
と、減算量が毎回変動してしまう。その結果、推定誤差
によるオーディオ騒音の残留成分が毎回変動するため、
音声認識部の定常雑音除去機能が有効に働かない。図6
(a)は発声のたびに毎回補正係数を更新した場合のオ
ーディオ騒音の残留成分を示す図である。かかる場合に
は、音声認識部で音声区間の誤検出が起こり易いという
現象が生じる。すなわち、この第2の実施例は上記誤検
出を回避するためになされたものである。
【0066】図7はこの第2の発明の第2の実施例の音
声認識装置のCPU15の動作を示すフローチャートで
ある。このフローチャート及び図3に基づいて、この第
3の実施例の動作を説明する。
【0067】まず、音声認識部21からのチャンネル選
択信号CSをモニタし、ラッチ回路14及び20へラッ
チタイミング信号を供給し(ステップS31)、並び
に、ラッチ回路14及び20からCPU15への取り込
みタイミングをつくり、データM(CH),R(CH)
を取り込む(ステップS32)。
【0068】この取り込んだデータより音声区間の検出
を行う(ステップS33)。この検出は、オールパスフ
ィルタ13aから得られた更新前の補正係数G0(0)
を利用し、(数6)を満たすデータにより、音声の始端
とする。
【0069】
【数6】音声区間はこの音声始端から2.6秒間(音声
認識装置の最大音声区間長)とする。
【0070】次に、データのストックと遅延データの取
り出しを行う(ステップS34)。現在より過去数秒間
(この場合1秒間とする)のストックデータを更新し、
これにより遅延データMD(CH),RD(CH)を得
る。その後、音声区間か否かを判別し(ステップS3
5)、音声区間でない場合には、この遅延データをスト
ックして補正係数の候補を作成する(ステップS3
6)。具体的には、音声区間でないときに、得られた遅
延データMD(CH),RD(CH)を補正係数計算用
データとして、補正係数計算用ストックデータを更新す
る。そして、音声成分が含まれていない過去1秒間分の
累計値ΣMD(CH),ΣRD(CH)を用いて下記の
(数9)により、補正係数候補Gc(CH)を求める。
【0071】
【数9】 補正係数候補Gc(CH)を求めた後、一定時間ごとに
補正係数の更新を行う(ステップS37)。すなわち、
カウンタを設定して、音声区間でないときにこのカウン
タをインクリメントし、一定時間(この場合、0.5
秒)ごとに補正係数候補Gc(CH)を補正係数G(C
H)として更新する。
【0072】一方、音声区間でない場合には、S36,
S37は省く。次に、音声区間の有無に関わらず、オー
ディオ騒音成分の減算処理を行う(ステップS38)。
この減算処理は、更新された補正係数G(CH)と遅延
データMD(CH),RD(CH)とを用いて、(数
8)により音声信号SD(CH)を抽出し、その減算デ
ータを出力する(ステップS39)。
【0073】
【数8】図6(b)は一定時間(0.5秒)ごとに補正
係数を更新した場合のオーディオ騒音の残留成分を示す
図である。この図で明らかなように、残留成分の変動が
少なくなるので、音声認識部の定常雑音除去機能によ
り、残留成分を除去することができる。
【0074】次に、本発明の第3の実施例について説明
する。
【0075】この実施例の音声認識装置のブロック図
も、図3に示す第2の発明の実施例の構成と同じ構成で
あるので、その説明は省略し、図8に示す動作フローチ
ャートに基づいてその動作について説明する。図8はこ
の第2の発明の第3の実施例の音声認識装置のCPU1
5の動作を表すフローチャートである。
【0076】音声認識部21から供給されるチャンネル
選択信号CSを監視して、ラッチ回路14及び20へラ
ッチタイミングの信号を出力し(ステップS41)、ラ
ッチ回路14及び20よりデータM(CH)及びR(C
H)を取り込む(ステップS42)。
【0077】次に、取り込んだデータにより音声区間の
検出を行う(ステップS43)。この音声区間の始端t
sの検出は以下のようにして行う。フィルタバンク13
のオールパスフィルタ13aから得られた更新前の補正
係数(これをG0(0)とする)を利用し、下記に示す
(数6)により、音声信号のレベルが所定のスレッショ
ルドレベルTHより大となる点(時間)すなわち始端t
sを検出する。
【0078】
【数6】この(数6)で、M(0)及びR(0)は、オ
ールパスフィルタ13aから得られるメイン信号及びリ
ファレンス信号である。上記したように、音声区間T1
はこの始端tsから2.6秒間とする。
【0079】さらに、始端tsから過去1秒間のストッ
クデータを更新する。すなわち、過去1秒前の遅延デー
タMD(CH),RD(CH)をRAMから取り出す
(ステップS44)。この遅延データをストックすると
ともに、補正係数候補を作成する(ステップS45)。
すなわち、遅延データMD(CH),RD(CH)を補
正係数計算用データとして、補正係数計算用ストックデ
ータを更新する。そして、遅延データの過去1秒分の累
計値ΣMD(CH),ΣRD(CH)を計算し、補正係
数の候補Gc(CH)を(数9)により求める。
【0080】
【数9】次に、音声始端を検出したか否かを判別し(ス
テップS46)、音声始端を検出した場合には、Gc
(CH)=G(CH)として補正係数を更新する(ステ
ップS47)。
【0081】図9はこの実施例における音声認識装置の
音声始端を検出する様子を示す図である。この音声始端
の検出により補正係数の更新を行うものである。すなわ
ち、かかる方法による補正係数の更新は、図9における
音声始端であるa点の2秒前(c点)から1秒前(b
点)のデータの累計値の比が補正係数となる。したがっ
て、出力データは遅延データであるため、b点から補正
係数が更新されることになる。
【0082】よって、毎回の発声ごとに補正係数を更新
するときも、オーディオ騒音の残留成分の変動が少なく
なり、図6(b)に示すような波形が得られるので、音
声認識部21がある程度の定常雑音除去機能を有する場
合には、残留成分は定常雑音として除去される可能性が
高くなる。
【0083】この方式の場合、更新前の補正係数は前回
の発声の際に決定されるので、例えば、「ボイスコント
ロール」というような特定の単語の発声で音声認識装置
が音声起動し、その後コントロールワードを認識させる
ようなシステムの場合に有効となる。
【0084】ステップS46において音声始端でない場
合には、オーディオ騒音成分の減算を行い(ステップS
48)、更新された補正係数G(CH)と遅延データM
D(CH),RD(CH)を用いて、(数8)により遅
延音声信号のデータSD(CH)を抽出してデータの出
力を行う(ステップS49)。
【0085】
【数8】この第3の実施例によれば、音声始端検出位置
で補正係数を更新することにより、毎回の発声ごとに補
正係数を更新する場合でも、音声始端の誤検出が起こり
にくくなる。
【0086】また、音声の発声間隔は通常2秒以上ある
ので、図9に示すc点からb点までは音声データが含ま
れないことか予想され、音声成分の有無を判定する必要
がなくなるという利点もある。
【0087】3.第3の発明の実施例について説明す
る。
【0088】この発明の特徴は、更新した補正係数に対
して、さらに所定の調整量を乗ずることにある。
【0089】以下に述べるこの発明の第1及び第2の実
施例の音声認識装置のブロック図は、図3に示す第2の
発明の実施例の構成と同じ構成であり、その説明は省略
する。
【0090】図10はこの第3の発明の実施例における
音声認識装置のCPU15の動作を表すフローチャート
である。このフローチャート及び図3に基づいて、この
第3の発明の第1の実施例の動作を説明する。
【0091】まず、音声認識部21からのチャンネル選
択信号CSをモニタし、ラッチ回路14及び20へラッ
チタイミング信号を供給し(ステップS51)、並び
に、ラッチ回路14及び20からCPU15への取り込
みタイミングをつくり、データM(CH),R(CH)
を取り込む(ステップS52)。
【0092】この取り込んだデータより音声区間の検出
を行う(ステップS53)。この検出は、オールパスフ
ィルタ13aから得られた更新前の補正係数G0(0)
を利用し、(数6)を満たすデータにより、音声の始端
とする。
【0093】
【数6】音声区間はこの音声始端から2.6秒間(音声
認識装置の最大音声区間長)とする。
【0094】次に、データのストックと遅延データの取
り出しを行う(ステップS54)。現在より過去数秒間
(この場合1秒間とする)のストックデータを更新し、
これにより遅延データMD(CH),RD(CH)を得
る。そして音声区間か否かを判別して(ステップS5
5)、音声区間でない場合には、遅延音声成分を含まな
い遅延データをストックして補正係数の候補を作成する
(ステップS56)。具体的には、音声区間でないとき
に、得られた遅延データMD(CH),RD(CH)を
補正係数計算用データとして、補正係数計算用ストック
データを更新する。そして、音声成分が含まれていない
過去1秒間分の累計値ΣMD(CH),ΣRD(CH)
を用いて下記の(数9)により、補正係数候補Gc(C
H)を求める。
【0095】
【数9】補正係数候補Gc(CH)を求めた後、0.5
秒ごとに補正係数の更新を行う(ステップS57)。す
なわち、カウンタを設定して、音声区間でないときにこ
のカウンタをインクリメントし、0.5秒ごとに補正係
数候補Gc(CH)を補正係数G(CH)として更新す
る。さらに更新した補正係数の調整を行う(ステップS
58)。この調整は、遅延音声成分を含まない遅延デー
タMD(CH)の累計値ΣMD(CH)を利用して、調
整量αを調整量決定ルールより求め、オールパスフィル
タ(CH0)13aの補正係数をG′(0)(=G
(0)・α)とする。
【0096】図11は第3及び後述する第4の発明の音
声認識装置における補正係数の調整量決定ルールを表す
図である。図11において、横軸は遅延データMD(C
H)の累計値ΣMD(CH)の数であり、縦軸は調整量
αである。累計値の数が200まではαは1であり、2
00から400まではαは1.3となり、累計値に応じ
てαの値が増加する。このように、図11に示す調整量
決定ルールにおけるαの値は常に1以上であり、次の処
理である調整量の修正のため、予め減算量が多めになる
ように設定されている。
【0097】補正係数の修正処理(ステップS59)に
おいては、CH0のオーディオ成分の減算時に、減算結
果が負となった場合に、減算量が多すぎることを示す減
算量過多フラグを立て、音声区間以外の過去一定時間
(この場合3秒間とする)の累計値を計算する。例え
ば、1フレーム10msとした場合、累計値が300で
あれば完全に減算のし過ぎであるということが解る。こ
のような場合には、調整量αをディクリメントして修正
することにより減算のし過ぎを回避できる。
【0098】この場合のルールは、 累計値>285 ならば 調整量のディクリメント 累計値<250 ならば 調整量のインクリメント とし、累計データが3秒間データであるため、この判断
も3秒ごとに行う。
【0099】ステップS55において音声区間でない場
合には、オーディオ騒音成分の減算処理を行う(ステッ
プS60)。この減算処理は、更新された補正係数G
(CH)と遅延データMD(CH),RD(CH)とを
用いて、(数8)により音声信号SD(CH)を抽出
し、その減算データを出力する(ステップS61)。
【0100】この実施例による効果は、オーディオ騒音
レベルの変動に応じて補正係数を更新できることであ
る。
【0101】通常、オーディオ騒音レベルが大きくなる
と推定誤差が生じるため、オーディオ騒音の残留データ
が多く残ってしまい、音声認識部における音声区間の検
出誤りが多くなる。そこで、本実施例の発明を適用する
ことにより、オーディオ騒音レベルが大きいときは上記
調整量決定ルールに従い、オールパスフィルタにおいて
多めに減算することにより、音声区間の検出誤りを少な
くすることができる。
【0102】一方、オーディオ騒音レベルが小さいとき
には、オーディオ騒音の残留レベルは少ないので、多く
減算し過ぎると音声区間が狭まるために類似度が低下す
る。かかる場合には、調整量決定ルールに従い、オール
パスフィルタにおいて少なめになるように減算すること
により、類似度を高くすることができる。
【0103】次にこの発明の第2の実施例について説明
する。
【0104】第2の実施例の特徴は、第1の実施例と同
様に、更新した補正係数に対して、さらに所定の調整量
を乗ずることにある。もっともこの実施例の場合には補
正係数の修正は行わない点が第1の実施例と異なる。
【0105】図12はこの第3の発明の第2の実施例に
おける音声認識装置のCPU15の動作を示すフローチ
ャートである。このフローチャート及び図3に基づい
て、この第2の実施例の動作を説明する。
【0106】まず、音声認識部21からのチャンネル選
択信号CSをモニタし、ラッチ回路14及び20へラッ
チタイミング信号を供給し(ステップS71)、並び
に、ラッチ回路14及び20からCPU15への取り込
みタイミングをつくり、データM(CH),R(CH)
を取り込む(ステップS72)。
【0107】この取り込んだデータより音声区間の検出
を行う(ステップS73)。この検出は、オールパスフ
ィルタ13aから得られた更新前の補正係数G0(0)
を利用し、(数6)を満たすデータにより、音声の始端
とする。
【0108】
【数6】音声区間はこの音声始端から2.6秒間(音声
認識装置の最大音声区間長)とする。
【0109】次に、データのストックと遅延データの取
り出しを行う(ステップS74)。現在より過去数秒間
(この場合1秒間とする)のストックデータを更新し、
これにより遅延データMD(CH),RD(CH)を得
る。そして音声区間か否かを判別して(ステップS7
5)、音声区間でない場合には、遅延音声成分を含まな
い遅延データをストックして補正係数の候補を作成する
(ステップS76)。具体的には、音声区間でないとき
に、得られた遅延データMD(CH),RD(CH)を
補正係数計算用データとして、補正係数計算用ストック
データを更新する。そして、音声成分が含まれていない
過去1秒間分の累計値ΣMD(CH),ΣRD(CH)
を用いて下記の(数9)により、補正係数候補Gc(C
H)を求める。
【0110】
【数9】補正係数候補Gc(CH)を求めた後、0.5
秒ごとに補正係数の更新を行う(ステップS77)。す
なわち、カウンタを設定して、音声区間でないときにこ
のカウンタをインクリメントし、0.5秒ごとに補正係
数候補Gc(CH)を補正係数G(CH)として更新す
る。さらに更新した補正係数の調整を行う(ステップS
78)。この調整は、遅延音声成分を含まない遅延デー
タMD(CH)の累計値ΣMD(CH)を利用して、調
整量αを調整量決定ルールより求め、オールパスフィル
タ(CH0)13aの補正係数をG′(0)(=G
(0)・α)とする。調整量決定ルールは第4の実施例
と同じく図9に示す通りである。
【0111】ステップS75において音声区間でない場
合には、オーディオ騒音成分の減算処理を行う(ステッ
プS79)。この減算処理は、更新された補正係数G
(CH)と遅延データMD(CH),RD(CH)とを
用いて、(数8)により音声信号SD(CH)を抽出
し、その減算データを出力する(ステップS80)。
【0112】
【数8】この実施例による効果は、オーディオ騒音レベ
ルの変動に応じて補正係数を更新できることである。
【0113】通常、オーディオ騒音レベルが大きくなる
と推定誤差が生じるため、オーディオ騒音の残留データ
が多く残ってしまい、音声認識部における音声区間の検
出誤りが多くなる。そこで、本実施例の発明を適用する
ことにより、オーディオ騒音レベルが大きいときは上記
調整量決定ルールに従い、オールパスフィルタにおいて
多めに減算することにより、音声区間の検出誤りを少な
くすることができる。
【0114】一方、オーディオ騒音レベルが小さいとき
には、オーディオ騒音の残留レベルは少ないので、多く
減算し過ぎると音声区間が狭まるために類似度が低下す
る。かかる場合には、調整量決定ルールに従い、オール
パスフィルタにおいて少なめになるように減算すること
により、類似度を高くすることができる。
【0115】4.第4の発明の実施例について説明す
る。
【0116】この発明の特徴は、特に車両等の移動体内
に設置された音声認識装置において、オーディオ騒音環
境下における音声認識装置の認識率の低下を防ぐため
に、既知オーディオ信号を基準信号として適応的にオー
ディオ騒音成分を除去する方式での、車両の走行騒音の
重畳時における対策を行うことにある。
【0117】この実施例の音声認識装置のブロック図
も、図3に示す第2の発明の実施例の構成と同じ構成で
あり、その説明は省略する。
【0118】図3において、マイク11から入力される
メイン信号maは、下記の(数10)で表される。
【0119】
【数10】ma=sa+oa・g+na ここで、saは発者からの音声をうけて、マイク11
で電気信号として出力される音声信号であり、マイク1
1の変換特性が加わったものである。また、oaはオー
ディオ装置16から送出されるオーディオ信号である。
さらに、gはオーディオ信号oaがスピーカ17の変換
特性により音に変換され、その発生た音が伝播してマ
イク11に到達するまでに受ける伝送特性である。ま
た、naは車両の走行騒音成分である。
【0120】入力信号(ma,oa)を周波数解析しデ
ジタル化したデータ、M(CH),R(CH)を用いる
と、(数10)は次の(数11)で表すことができる。
【0121】
【数11】 もっともこの(数11)はアナログ信号をデジタル化し
てるために生ずる誤差により、左項と右項とは必ずしも
完全に等しくはならない。この式において、S(CH)
は音声信号saをデジタル化したデータであり、G(C
H)はR(CH)に乗じてメイン信号M(CH)に含ま
れる音声信号成分S(CH)を予測するための補正係数
である。また、N(CH)は走行騒音成分naをデジタ
ル化したデータである。
【0122】この(数11)により、走行音声成分N
(CH)を含む音声信号S(CH)は次に示す(数1
2)で表される。
【0123】
【数12】 この(数12)により、メイン信号M(CH)に含まれ
る音声信号S(CH)及び走行騒音成分N(CH)の合
成成分が予測できる。
【0124】この補正係数G(CH)は、周波数分解能
であるチャンネル数nが大であるならば、音声が発生
ていないとき、かつ、走行騒音がゼロのときのM(C
H)とR(CH)との比により推測可能である。すなわ
ち、S(CH)=0、N(CH)=0とすると、M(C
H)=R(CH)・G(CH)となり、補正係数G(C
H)は、M(CH)/R(CH)と表すことができるか
らである。
【0125】ここで、変動騒音及び基準信号に含まれな
い定常騒音の環境下において、G(CH)をいかに精度
良く推定できるかが重要となる。
【0126】この場合、音声認識部21が定常騒音を除
去する機能を有するとすると、音声成分に定常騒音であ
る走行騒音を含んでいても良いので、音声認識部21に
供給するデータは、S(CH)+N(CH)で良い。な
お、音声認識部が定常騒音を除去する方式は、単一マイ
クによるS.S法とする。
【0127】図13は第4の発明の実施例における音声
認識装置のCPU15の動作を表すフローチャートであ
る。このフローチャート及び図3に基づいて、この第4
の発明の実施例の動作を説明する。
【0128】まず、音声認識部21からのチャンネル選
択信号CSをモニタし、ラッチ回路14及び20へラッ
チタイミング信号を供給し(ステップS81)、並び
に、ラッチ回路14及び20からCPU15への取り込
みタイミングをつくり、データM(CH),R(CH)
を取り込む(ステップS82)。
【0129】この取り込んだデータより音声区間の検出
を行う(ステップS83)。この検出は、オールパスフ
ィルタ13aから得られた更新前の補正係数G0(0)
を利用し、(数6)を満たすデータにより、音声の始端
とする。なおこの場合のトリガレベルは固定値である。
【0130】
【数6】音声区間はこの音声始端から2.6秒間(音声
認識装置の最大音声区間長)とする。
【0131】次に、データのストックと遅延データの取
り出しを行う(ステップS84)。現在より過去数秒間
(この場合1秒間とする)のストックデータを更新し、
これにより遅延データMD(CH),RD(CH)を得
る。そして音声区間か否かを判別して(ステップS8
5)、音声区間でない場合には、遅延音声成分を含まな
い遅延データをストックして補正係数の候補を作成する
(ステップS86)。具体的には、音声区間でないとき
に、得られた遅延データMD(CH),RD(CH)を
補正係数計算用データとして、補正係数計算用ストック
データを更新する。そして、音声成分が含まれていない
過去1秒間分の累計値ΣMD(CH),ΣRD(CH)
を用いて下記の(数9)により、補正係数候補Gc(C
H)を求める。
【0132】
【数9】次に、各種フラグの設定を行う(ステップS8
7)。この場合のフラグとしては、走行騒音環境下であ
るかどうかのフラグ(N−FLAG)、及び、音楽騒音
環境下であるかどうかのフラグ(M−FLAG)を設定
する。
【0133】N−FLAGの設定は、ステップS86で
得られたCH1の遅延音声成分を含まないデータの累計
値ΣMD(1),ΣRD(1)と、走行音声成分を含ま
ない30秒間の累計値ΣMD(1),ΣRD(1)のさ
らに累計値ΣΣMD(1),ΣΣRD(1)(これにつ
いては後述する)を用い、次の(数13)を満たす場合
にN−FLAGをたてる。
【0134】
【数13】 M−FLAGの設定は、ステップS86で得られたCH
0リファレンス信号の遅延音声成分を含まないデータの
累計値ΣRD(0)を用い、次の(数14)を満たす場
合にM−FLAGをたてる。
【0135】
【数14】 以下、N−FLAGがたっている場合をNF=1、たっ
ていない場合をNF=0と表し、M−FLAGがたって
いる場合をMF=1、たっていない場合をMF=0と表
す。
【0136】その後、これら2つのフラグを判定して、
補正係数の更新(ステップS88)、補正係数の調整
(ステップS89)、補正係数の修正(ステップS9
0)を行う。補正係数の更新については、NF=0,M
F=1の場合には、カウンタを設定し、音声区間でない
ときにカウンタをインクリメントし、一定時間(この場
合、0.5秒)おきにG(CH)=Gc(CH)として
補正係数を更新する。
【0137】さらに、30秒平均補正係数の計算を行
う。すなわち、ステップS86で得られた遅延音声成分
を含まないデータの累計値ΣMD(CH),ΣRD(C
H)を一定時間(この場合、0.5秒間)ごとにストッ
クし、同時に過去30秒間のさらなる累計値ΣΣMD
(CH),ΣΣRD(CH)を求める。ここで求めたC
H0の累計値が(数13)に用いられるデータとなる。
【0138】NF=1,MF=1の場合には、次の(数
15)により補正係数を決定する。
【0139】
【数15】 補正係数の調整についても2つのフラグの値によってそ
れぞれ異なる調整を行い、NF=0,MF=1の場合に
は、メイン信号の遅延音声成分を含まないデータの累計
値ΣMD(0)を利用して、調整量αを図9の調整量決
定ルールより求め、オールパスフィルタ(CH0)13
aの補正係数をG′(0)(=G(0)・α)とする。
ここで調整量決定ルールは、次の調整量の修正のため予
め減算量が多めになるように設定されている。
【0140】一方、NF=1,MF=1の場合には、メ
イン信号の遅延音声成分を含まないデータの累計値ΣM
D(0)には走行騒音成分が含まれるため、次の(数1
6)によりΣMD(0)の推定値ΣMD inf(0)を求
める。
【0141】
【数16】 その後、NF=0,MF=1の場合と同様に、調整量α
を図9の調整量決定ルールより求め、オールパスフィル
タ(CH0)13aの補正係数をG′(0)(=G
(0)・α)とする。
【0142】次に、補正係数の修正については、M−F
LAGのみに注目し、MF=1の場合に調整量の修正を
行う。CH0のオーディオ成分の減算時に、減算結果が
負となった場合に、減算量が多すぎることを示す減算量
過多フラグを立て、音声区間以外の過去一定時間(この
場合3秒間とする)の累計値を計算する。例えば、1フ
レーム10msとした場合、累計値が300であれば完
全に減算のし過ぎであるということが解る。このような
場合には、調整量αをディクリメントして修正すること
により減算のし過ぎを回避できる。
【0143】この場合のルールは、 累計値>285 ならば 調整量のディクリメント 累計値<250 ならば 調整量のインクリメント とし、累計データが3秒間データであるため、この判断
も3秒ごとに行う。
【0144】ステップS85において音声区間でない場
合には、フラグの設定をして(ステップS91)、オー
ディオ騒音成分の減算処理を行う(ステップS92)。
この減算処理は、更新された補正係数G(CH)と遅延
データMD(CH),RD(CH)とを用いて、(数
8)により音声信号SD(CH)を抽出し、その減算デ
ータを出力する(ステップS93)。
【0145】この第4の発明の実施例によれば、既知雑
音環境下の適応型S.S法において、音声成分に走行騒
音が重畳した場合であっても、適正な補正係数でオーデ
ィオ騒音成分を除去し、走行騒音除去に対しては音声認
識部の機能をそのまま利用することができる。
【0146】第2の発明の第3の実施例における音声認
識装置の音声始端を検出する様子を示す図である。
【0147】5.第5ないし第7の発明の実施例につい
て説明する。
【0148】第5ないし第7の発明は、それぞれ、上記
第1ないし第4の発明における音声トリガレベルの決定
方法、走行騒音判定レベルの決定方法、及び、補正係数
の調整量の決定方法をファジィ推論により行うものであ
る。
【0149】なお、これらの実施例のシステム構成は図
3のブロック図と同一であるのでその説明は省略する。
図14は第5ないし第7の発明における音声トリガレベ
ルの決定方法、走行騒音判定レベルの決定方法、及び、
補正係数の調整量の決定方法をファジィ推論により行っ
た場合の、CPU15の動作を表すフローチャートであ
る。
【0150】図3及び図14において、音声認識部21
のCH信号をモニタし、それからラッチ回路14及び2
0のラッチタイミングとCPU15の取り込みタイミン
グをつくり、データ(M(CH),R(CH))を取り
込む(ステップS101)。次に、ファジィ推論によ
り、音声トリガレベルを決定して音声区間を検出する
(ステップS102)。この場合、更新前の補正係数を
G0(CH)としてこれをを利用し、
【0151】
【数6】を音声の始端とする。音声区間は音声始端から
2.6秒間(これは音声認識装置の最大音声区間長)と
する。この場合、上記第2ないし第4の発明と同様、音
声始端からすなわち現在から過去数秒間(この場合1秒
間)のストックデータをRAMから読み出して、遅延デ
ータMD(CH)、RD(CH)を得る。そして音声区
間かどうかを判別し(ステップS103)、音声区間で
ない場合には、遅延データMD(CH)、RD(CH)
を補正係数の計算用データとして補正係数計算用ストッ
クデータを更新する。そして音声成分未含有の遅延デー
タの過去1秒間の累計値であるΣMD(CH)とΣRD
(CH)とを計算し、補正係数の候補Gc(CH)を、
【0152】
【数9】より作成する。
【0153】そして音響騒音すなわちオーディオ騒音成
分があるかどうかを判別する(ステップS104)。そ
の判別結果に応じて音響騒音環境下であるかどうかのフ
ラグ(これを「M FLAG」と称する)を設定する。
この設定は、CH0リファレンス信号の遅延音声成分未
含有データの累計値ΣRD(1)を用い、
【0154】
【数14】の条件を満たしたときにM FLAGをたて
る。
【0155】オーディオ騒音成分があるときは走行騒音
があるかどうかを、ファジィ推論により判別する(ステ
ップS105)。その判別結果に応じて走行騒音環境下
であるかどうかのフラグ(これを「N FLAG」と称
する)を設定する。この設定において、走行騒音判定レ
ベルはファジィ推論により判別するが(ステップS10
5)、このとき、前回求めた音響騒音レベルΣMD
(0)を用いて決定する。そして、CH1の遅延音声成
分未含有データの累計値ΣMD(1)、ΣRD(1)
と、走行騒音成分の含まれない30秒間の累計値(これ
については後述する)を用い、
【0156】
【数13】の条件を満たしたときにN FLAGをたて
る。
【0157】M FLAGがたっていて、N FLAG
がたっていない場合には、適応的に補正係数を更新する
(ステップS106)。具体的には、カウンタを設定
し、音声区間でないときにこのカウンタを進ませ、かつ
数ミリ秒(この場合、0.5秒)おきにG(CH)=G
c(CH)として補正係数を更新する。さらにステップ
S103で得られた遅延音声成分未含有データの累積値
(ΣMD(CH),ΣRD(CH))を数秒間毎(ここ
では0.5秒)にストックし、同時に過去30秒間の更
なる累積値(ΣΣMD(CH),ΣΣRD(CH))を
求める。そしてファジィ推定により調整量の決定及び修
正を行い(ステップS107)、さらに決定あるいは修
正した調整量により減算処理を行い(ステップS10
8)、その減算結果を出力する(ステップS109)。
【0158】一方、M FLAG及びN FLAGがと
もにたっている場合には、ステップS106で求めた遅
延音声成分未含有データの過去30秒間の累計値である
ΣΣMD(CH)、ΣΣRD(CH)を用いて、次式、
【数15】により補正係数を更新する(ステップS11
0)。その更新した補正係数によりパラメータを推定し
(ステップS111)、ファジィ推論により調整量の決
定と修正を行い(ステップS107)、その決定あるい
は修正した調整量により減算処理を行い(ステップS1
08)、その減算結果を出力する(ステップS10
9)。なお、、ステップS103において音声区間であ
る場合、及びステップS104においてオーディオ騒音
成分がない場合には、調整量の決定及び修正を行うこと
なくステップS108に移行して減算処理を行う。
【0159】第5の発明による音声トリガレベル決定方
法を説明する。図15にステップS102における音声
トリガレベルを決定するためのファジィ推論方法を示
す。すなわち、第4の発明の実施例においては、固定値
の音声トリガレベルにより音声区間を検出したが、本発
明においては、図15のファジィルールに基づいて音声
トリガレベルを決定する。
【0160】適応型S.S.方式は、前処理的に減算を
行った結果に基づいて音声始端を決定する方式であるた
め、前処理的に減算を行った結果を参照して、本方式の
音声トリガレベル決定のファジィルールを作成した。こ
のファジィルールは、MAX−MIN重心法による方法
である。この重心法とは、各ルール(この場合、ルール
1ないし6)ごとに推論結果を求め、各ルールにおける
推論結果を総合して、その重心としてルール全体の推論
結果を得る方法である。図16は、図15のファジィル
ールに対応した減算結果を示すものであり、ルール1〜
6が各々図16(a)〜(f)の場合を想定している。
すなわち、残留レベルに応じて音声トリガレベルを調整
している。
【0161】本発明のファジィ推論による音声トリガレ
ベル決定方法により、次にような効果が得られる。
【0162】1.音響騒音レベルと走行騒音レベルに応
じて音声トリガレベルを決定することが可能となり、残
留成分が大きい時にはその残留成分でトリガが掛かる事
の無いようにトリガレベルを大きくし、残留成分が少な
い時には比較的発声レベルが低い発声者に対して発声音
に音声トリガが掛かり難くなることの無いようトリガレ
ベルを小さくする事により、適応型S.S.方式の効果
を向上させることが可能となった。
【0163】2.ファジィ推論を利用することにより、
通常の制御では難しかった複数のパラメータ(ここでは
音響騒音レベルと走行騒音レベルの2パラメータ)によ
る制御ルールの作成、調整が容易となった。
【0164】3.該発明のファジィルールは6つのルー
ルで示されるが、ファジィ推論による補間効果により、
中間的な値に対しても適切な制御が可能となり、きめ細
かい制御が可能となった。
【0165】4.ロンバート効果を考えると、騒音レベ
ルが低い状態(結果として本方式による騒音の残留レベ
ルが小さい場合、例えば図16(d))では同一話者で
も発声レベルは低くなる。又、その逆の場合にはロンバ
ート効果により発声レベルは高くなる。よって、ロンバ
ート効果による音声レベルの変動にも本方式はマッチし
ている。
【0166】次に、第6の発明である走行騒音判定レベ
ル決定方法について説明する。図17に図14のステッ
プS105における走行騒音の有無を判定するための、
走行騒音判定フラグのしきい値決定ルールを示す。ルー
ル全体の推論結果の計算はMAX−MIN重心法によ
る。
【0167】図13におけるフラグ設定においては、走
行騒音を判定してフラグを立てるしきい値が固定であっ
た。この固定値は、音響騒音レベルが有る程度小さい時
に、走行騒音が音響騒音よりも支配的になる走行騒音レ
ベルの手前の走行騒音レベルを採用していた。しかし実
際には、音響騒音レベルがかなり大きいと、走行騒音が
音響騒音よりも支配的となる走行騒音レベルは上方にシ
フトする。
【0168】そのため、必要以上に走行騒音レベルが低
い位置で補正係数の更新及び学習がなされなくなり、適
応的な処理の効果が低減してしまった。そこで、ファジ
ィ推論により、音響レベルに応じて走行騒音判定フラグ
のしきい値を決定する。
【0169】このルールは音響騒音と走行騒音とがどち
らが支配的となるかを考慮している。つまり、音響騒音
レベルが「かなり大きい」時には全般的に音響騒音が支
配的となり易く、走行騒音が支配的となる走行騒音レベ
ルはかなり上方に位置するため、走行騒音判定フラグの
しきい値も「かなり大きい」とする。
【0170】逆に、音響騒音レベルが「有る程度小さ
い」時には、走行騒音が支配的となり易く、その走行騒
音レベルは低いレベルに位置されるため、走行騒音判定
フラグのしきい値は「小さい」とする。
【0171】この第6の発明によれば、ファジィ推論に
より、音響騒音レベルに応じて走行騒音判定フラグのし
きい値を決定することが可能となり、適応型S.S.方
式の効果を向上させることができる。
【0172】また、この発明の調整量決定ルールは音響
騒音レベルに応じて2つのルールで示されるが、ファジ
ィ推論による補間効果により、中間的な値に対しても適
切な制御が可能となり、きめ細かい制御が可能となっ
た。
【0173】次に、第7の発明であるファジィ推論によ
る調整量決定方法について説明する。図18は図14の
ステップS108における調整量を決定するための調整
量決定ルールを示す。また、図19は走行騒音レベルに
より減算量を変化させた場合の減算結果を示す図であ
る。図19(a)は走行騒音レベルが「かなり大きい」
時の通常の減算量の場合の減算結果を示し、図19
(b)は走行騒音レベルが「ある程度大きい」時に減算
量を少な目にした場合の減算結果を示し、図19(c)
は走行騒音レベルが「ある程度大きい」時に減算量を多
目にした場合の減算結果を示す。また、図20は走行騒
音レベル及び音響騒音レベルと調整量との関係の概略を
示す図である。この図20でaは走行騒音レベルが「小
さい」時の図18におけるルール1及びルール2による
もので、bは走行騒音レベルが「ある程度大き」い時の
ルール1及びルール3によるもので、cは走行騒音レベ
ルが「かなり大きい」時のルール1及びルール4による
ものである。
【0174】図18における調整量決定ルールの方式は
第3及び第4の発明における調整量決定ルールをさらに
改良したものである。このファジィルールは、MAX−
MIN重心法による方法である。
【0175】ルール1は走行騒音レベルにかかわらず、
音響騒音レベルが「かなり小さい」時には、調整量を
「小さい」に設定する。
【0176】ルール2は走行騒音レベルが「小さい」時
で、且つ、音響騒音レベルが「大き目」の時には、調整
量を「大きい」に設定する。
【0177】ルール3は走行レベルが「ある程度大き
い」時で、且つ、音響騒音レベルが「大き目」の時に
は、調整量を「かなり大きい」に設定する。
【0178】ルール4は走行騒音レベルが「かなり大き
い」時で、且つ、音響騒音レベルが「大き目」の時に
は、調整量を「大き目」に設定する。
【0179】このファジィルールは以下のような効果を
期待して作成されたものである。
【0180】1.走行騒音が「ある程度大きい」が、音
響騒音に対して余り支配的でない程度の環境下では、走
行騒音レベルが「小さい」時より調整量を大き目に設定
することで騒音成分を多目に減算した方が効果がある。
これは、騒音成分の推定誤差が大きい走行騒音重畳時に
は音響騒音成分が残り易い為、少な目に減算し走行騒音
成分+音響騒音の残留成分を残すよりも(図19(b)
参照)、多目に減算し走行騒音成分も減算してしまい走
行騒音の残留成分を残した方が、図20−cに示すよう
に、認識部での音声トリガが掛かり難くなるためであ
る。
【0181】2.走行騒音が「かなり大きい」状態で、
音響騒音よりも支配的である環境下では、音響騒音が走
行騒音に埋もれる状態となるために(図19(a)参
照)、減算量は少な目でよい。
【0182】結局、走行騒音レベルに応じた音響騒音レ
ベルと調整量との関係は図20に示すごとく設定され、
上記の効果が期待できる。
【0183】
【発明の効果】上記各実施例で明らかなように、第1の
発明ないし第7の発明により、以下のような効果を得る
ことができる。
【0184】1.第1の発明の効果 この発明によれば、非音声区間のメイン信号及びリファ
レンス信号から、常に最新の補正係数を求めることによ
り、急激に変化するオーディオ騒音等の非定常雑音にも
対応することができ、さほど急激なオーディオ騒音の変
化がない場合には、フィルタの収束時間を短くすること
ができる効果がある。また、DSP等のような高速演算
処理を可能とする高価な処理装置を必要とすることもな
い。
【0185】さらに、リファレンス信号に音声信号が含
まれることがないので、推定誤差を少なくすることがで
き、オーディオ騒音環境下においても高い音声認識が可
能となる。
【0186】2.第2の発明の効果 第2の発明の効果としては以下に述べるものがある。
【0187】1)オーディオ騒音が大きい場合でも、更
新前補正係数を利用した減算データによって、予めある
程度のオーディオ騒音成分を除去しているので、音声信
号の始端の検出誤差を小さくすることができる。
【0188】2)音声区間を自動的に検出するので、ユ
ーザが発声のたびにキー入力等の操作を行う負担を解消
することができる。
【0189】3)音声信号のレベルが小さいために推定
誤りによるオーディオ騒音成分の残留成分が存在する場
合でも、音声信号を検出するスレッショルドレベルを大
きく設定することにより、オーディオ騒音による音声区
間の誤検出を少なくすることができ、補正係数の適正値
を求めることができる。したがって、音声認識部のスレ
ッショルドレベルに依存することがない。
【0190】4)極めて単純な方法であるため、リアル
タイム処理が可能となる。
【0191】3.第3の発明の効果 この発明の効果は、オーディオ騒音レベルの変動に応じ
て補正係数を更新できることである。
【0192】通常、オーディオ騒音レベルが大きくなる
と推定誤差が生じるため、オーディオ騒音の残留データ
が多く残ってしまい、音声認識部における音声区間の検
出誤りが多くなる。そこで、本実施例の発明を適用する
ことにより、オーディオ騒音レベルが大きいときは上記
調整量決定ルールに従い、オールパスフィルタにおいて
多めに減算することにより、音声区間の検出誤りを少な
くすることができる。
【0193】一方、オーディオ騒音レベルが小さいとき
には、オーディオ騒音の残留レベルは少ないので、多く
減算し過ぎると音声区間が狭まるために類似度が低下す
る。かかる場合には、調整量決定ルールに従い、オール
パスフィルタにおいて少なめになるように減算すること
により、類似度を高くすることができる。
【0194】4.第4の発明の効果 この発明によれば、既知雑音環境下の適応型スペクトル
・サブトラクション方式において、音声成分に走行騒音
が重畳した場合であっても、適正な補正係数でオーディ
オ騒音成分を除去し、走行騒音除去に対しては音声認識
部の機能をそのまま利用することができるという効果が
ある。
【0195】5.第5の発明の効果 第5の発明によれば次のような効果がある。
【0196】1)該発明のファジィ推論により、音響騒
音レベルと走行騒音レベルに応じて音声トリガレベルを
決定することが可能となり、残留成分が大きい時にはそ
の残留成分でトリガが掛かる事の無いようにトリガレベ
ルを大きくし、残留成分が少ない時には比較的発声レベ
ルが低い発声者に対して発声音に音声トリガが掛かり難
くなることの無いよう、トリガレベルを小さくする事に
より、適応型S.S.方式の効果を向上させることがで
きた。
【0197】2)ファジィ推論を利用することにより、
通常の制御では難しかった複数のパラメータ(ここでは
音響騒音レベルと走行騒音レベルの2パラメータ)によ
る制御ルールの作成、調整が容易となった。
【0198】3)該発明のファジィルールは6つのルー
ルで示されるが、ファジィ推論による補間効果により、
中間的な値に対しても適切な制御が可能となり、きめ細
かい制御が可能となった。
【0199】4)ロンバート効果を考えると、騒音レベ
ルが低い状態(結果として本方式による騒音の残留レベ
ルが小さい場合(例えば第2図−d))では同一話者で
も発声レベルは低くなる。又、その逆の場合にはロンバ
ート効果により発声レベルは高くなる。よって、ロンバ
ート効果による音声レベルの変動にも本方式はマッチし
ている。
【0200】6.第6の発明の効果 第6の発明によれば次のような効果がある。
【0201】1)該発明のファジイ推論により、音響騒
音レベルに応じて走行騒音判定フラグのしきい値を決定
することが可能となり、従来方式よりも適応型S.S.
方式の効果を向上させることが出来た。
【0202】2)該発明の調整量決定ルールは音響騒音
レベルに応じて2つのルールで示されるが、ファジィ推
論による補間効果により、中間的な値に対しても適切な
制御が可能となり、きめ細かい制御が可能となった。
【0203】7.第7の発明の効果 第7の発明によれば次のような効果がある。
【0204】1)ファジィ推論により、音響騒音レベル
と走行騒音レベルに応じて調整量を決定することが可能
となり、ある程度走行騒音がある時には通常よりも調整
量を大き目にすることにより多めに減算し、走行騒音が
大きい時には通常よりも調整量を小さ目にすることによ
り少な目に減算する事により、従来方式よりも適応型
S.S.方式の効果を向上させることが出来た。
【0205】2)ファジィ推論を利用することにより、
通常の制御では難しかった複数のパラメータ(ここでは
音響騒音レベルと走行騒音レベルの2パラメータ)によ
る制御ルールの作成、調整が容易となった。
【0206】3)該発明の調整量決定ルールは音響騒音
レベルが「大き目」の場合には3つのルールで示される
が、ファジィ推論による補間効果により、中間的な値に
対しても適切な制御が可能となり、きめ細かい制御が可
能となった。
【図面の簡単な説明】
【図1】第1の発明の実施例における音声認識装置のブ
ロック図である。
【図2】図1に示す音声認識装置のCPU15の動作を
表すフローチャートである。
【図3】第2の発明の第1の実施例における音声認識装
置のブロック図である。
【図4】図3に示す音声認識装置の音声始端を検出する
様子を示す図である。
【図5】第2の発明の第1の実施例における音声認識装
置のCPU15の動作を表すフローチャートである。
【図6】(a)は発声のたびに毎回補正係数を更新した
場合のオーディオ成分の残留分を示す図である。(b)
は一定時間ごとに補正係数を更新した場合のオーディオ
成分の残留分を示す図である。
【図7】第2の発明の第2の実施例における音声認識装
置の動作を表すフローチャートである。
【図8】第2の発明の第3の実施例における音声認識装
置のCPU15の動作を表すフローチャートである。
【図9】
【図10】第3の発明の第1の実施例における音声認識
装置のCPU15の動作を表すフローチャートである。
【図11】第3及び第4の発明の音声認識装置における
補正係数の調整量決定ルールを表す図である。
【図12】第3の発明の第2の実施例における音声認識
装置のCPU15の動作を表すフローチャートである。
【図13】第4の発明の実施例における音声認識装置の
CPU15の動作を表すフローチャートである。
【図14】第5ないし第7の発明における音声トリガレ
ベルの決定方法、走行騒音判定レベルの決定方法、及
び、補正係数の調整量の決定方法をファジィ推論により
行った場合の、CPU15の動作を表すフローチャート
である。
【図15】図14のステップS102における音声トリ
ガレベルを決定するためのファジィ推論方法を示す図で
ある。
【図16】図15のファジィルールに対応した減算結果
を示す図である。
【図17】図14のステップS105における走行騒音
の有無を判定するための走行騒音判定フラグのしきい値
決定ルールを示す図である。
【図18】図14のステップS108における調整量を
決定するための調整量決定ルールを示す図である。
【図19】走行騒音レベルにより減算量を変化させた場
合の減算結果を示す図である。
【図20】走行騒音レベル及び音響騒音レベルと調整量
との関係の概略を示す図である。
【図21】従来の音声認識装置のブロック図である。
【符号の説明】
11 マイク 13 フィルタバンク 15 CPU 16 オーディオ装置 18 アンプ 19 フィルタバンク 21 音声認識部(認識手段) 22 登録辞書
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI G10L 21/02 (56)参考文献 特開 昭60−103400(JP,A) 特開 平3−274099(JP,A) 特開 平3−274098(JP,A) 特開 平3−80298(JP,A) 特開 平4−318795(JP,A) 実開 平5−66699(JP,U) 特許2797861(JP,B2) 特許3342740(JP,B2) (58)調査した分野(Int.Cl.7,DB名) G10L 11/00 - 11/02 G10L 15/00 - 15/28 G10L 21/00 - 21/02 JICSTファイル(JOIS)

Claims (6)

    (57)【特許請求の範囲】
  1. 【請求項1】 発声者からの音声信号に騒音成分が混在
    したメイン信号から前記騒音成分を除去して予め登録し
    た比較音声信号と照合して前記音声信号の認識を行う音
    声認識装置であって、音源 から基準信号を抽出する手段と、 前記メイン信号に前記音声信号が含まれる音声区間か、
    含まれない非音声区間かを判別する音声区間判別手段
    と、 前記非音声区間において前記メイン信号に基づいて補正
    係数を生成しかつ更新する補正係数更新手段と、 前記音声区間において前記基準信号に前記補正係数を乗
    じた値を前記メイン信号から減算する演算手段と、 該演算手段から得られる演算結果と前記比較音声信号と
    を照合して音声認識を行う認識手段と、前記メイン信号から前記基準信号に更新前の補正係数を
    乗じた値を減算した減算結果が所定値より大となるとき
    を前記音声信号の暫定音声始端とする音声始端検出手段
    と、 一定時間前の過去のメイン信号及び基準信号から遅延メ
    イン信号及び遅延基準信号を生成する手段と、 前記遅延メイン信号に基づいて確定音声始端を決定して
    前記音声区間を判別する音声区間判別手段と、 前記遅延メイン信号及び遅延基準信号の過去一定時間の
    累計値の比から補正係数を生成しかつ更新する補正係数
    更新手段と、 前記音声区間において前記遅延基準信号に前記補正係数
    を乗じた値を前記遅延メイン信号から減算する演算手段
    と、 を備えたことを特徴とする音声認識装置。
  2. 【請求項2】 前記遅延メイン信号及び遅延基準信号の
    過去一定時間の累計値の比から補正係数候補を生成する
    手段と、 一定時間ごとに前記補正係数候補を更新する補正係数更
    手段と、遅延音声信号を含まない遅延メイン信号を利用して所定
    の調整量決定ルールに基づいて前記補正係数を調整する
    補正係数調整 手段と、調整された補正係数を修正する補正係数修正 手段と、を
    備えたことを特徴とする請求項1記載の音声認識装置。
  3. 【請求項3】 前記遅延メイン信号及び遅延基準信号の
    過去一定時間の累計値の比から補正係数候補を生成する
    手段と、前記騒音成分が音楽騒音を含むか否かをかつ前記騒音成
    分が車両の走行騒音を含むか否かを判別する騒音成分判
    手段と、前記騒音成分が前記音楽騒音のみを含むときは、一定時
    間ごとに前記補正係数候補の値を補正係数として更新
    し、前記騒音成分が前記音楽騒音及び走行騒音を含むと
    きは、前記遅延メイン信号及び遅延基準信号の累計値の
    過去一定時間の累計値の比を補正係数とする補正係数更
    手段と、前記騒音成分が前記音楽騒音のみを含むときは、所定の
    調整量決定ルールに基づいて前記補正係数を調整し、前
    記騒音成分が前記音楽騒音及び走行騒音を含むときは、
    前記演算手段から得られる推定メイン信号を利用して前
    記所定の調整量決定ルールに基づいて前記補正係数を調
    整する補正係数調整 手段と、前記騒音成分が前記音楽騒音を含むときは、調整された
    補正係数を修正する補正係数修正手段と、 を備えたこと
    を特徴とする請求項記載の音声認識装置。
  4. 【請求項4】 発声者からの音声信号成分に騒音成分が
    混在した入力信号から当該騒音成分を除去して前記発声
    者の音声を認識する音声認識方法であって、 前記入力信号からファジィ推論により音声区間を検出
    し、この音声区間に前記騒音成分が混在しているか否か
    を判別して、当該判別結果に応じて前記音声信号成分を
    予測する補正係数の更新を行い、当該更新した補正係数
    の調整を行い、当該調整された補正係数に基づいて減算
    処理を行い、当該減算結果を前記音声信号成分として音
    声認識を行う ことを特徴とする声認識方法
  5. 【請求項5】 発声者からの音声信号成分に音響騒音成
    及び走行騒音成分が混在した入力信号から当該騒音成
    分を除去して前記発声者の音声を認識する音声認識方法
    であって、 前記入力信号から声区間を検出し、この音声区間に前
    走行騒音成分が混在しているか否かをファジィ推論に
    より判別して、当該判別結果に応じて前記音声信号成分
    を予測する補正係数の更新を行い、当該更新した補正係
    数の調整を行い、当該調整された補正係数に基づいて減
    算処理を行い、当該減算結果を前記音声信号成分として
    音声認識を行うことを特徴とする音声認識方法。
  6. 【請求項6】 発声者からの音声信号成分に音成分
    混在した入力信号から当該騒音成分を除去して前記発声
    者の音声を認識する音声認識方法であって、 前記入力信号から音声区間を検出し、この音声区間に前
    音成分が混在しているか否かを別して、当該判別
    結果に応じて前記音声信号成分を予測する補正係数の更
    新を行い、ファジィ推論により当該更新した補正係数の
    調整を行い、当該調整された補正係数に基づいて減算処
    理を行い、当該減算結果を前記音声信号成分として音声
    認識を行うことを特徴とする音声認識方法。
JP10216494A 1993-04-20 1994-04-15 音声認識装置及び音声認識方法 Expired - Fee Related JP3526911B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10216494A JP3526911B2 (ja) 1993-04-20 1994-04-15 音声認識装置及び音声認識方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP5-115265 1993-04-20
JP11526593 1993-04-20
JP10216494A JP3526911B2 (ja) 1993-04-20 1994-04-15 音声認識装置及び音声認識方法

Publications (2)

Publication Number Publication Date
JPH075895A JPH075895A (ja) 1995-01-10
JP3526911B2 true JP3526911B2 (ja) 2004-05-17

Family

ID=26442899

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10216494A Expired - Fee Related JP3526911B2 (ja) 1993-04-20 1994-04-15 音声認識装置及び音声認識方法

Country Status (1)

Country Link
JP (1) JP3526911B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101804765B1 (ko) * 2016-01-08 2018-01-10 현대자동차주식회사 차량 및 그 제어방법

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100652645B1 (ko) 2004-07-23 2006-12-06 엘지전자 주식회사 푸시 투 토크형 이동 통신 단말기의 음성 검출 및 인식을이용한 발언권 관리 장치와 방법
JP4941966B2 (ja) * 2006-09-22 2012-05-30 国立大学法人 東京大学 感情の判別方法、感情判別装置、雰囲気情報通信端末
WO2010061505A1 (ja) * 2008-11-27 2010-06-03 日本電気株式会社 発話音声検出装置
JP5561195B2 (ja) * 2011-02-07 2014-07-30 株式会社Jvcケンウッド ノイズ除去装置およびノイズ除去方法
CN113240121B (zh) * 2021-05-08 2022-10-25 云南中烟工业有限责任公司 一种非破坏性爆珠破碎声音的预测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2797861B2 (ja) 1992-09-30 1998-09-17 松下電器産業株式会社 音声検出方法および音声検出装置
JP3342740B2 (ja) 1993-04-14 2002-11-11 クラリオン株式会社 雑音環境下で使用する音声認識装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2797861B2 (ja) 1992-09-30 1998-09-17 松下電器産業株式会社 音声検出方法および音声検出装置
JP3342740B2 (ja) 1993-04-14 2002-11-11 クラリオン株式会社 雑音環境下で使用する音声認識装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101804765B1 (ko) * 2016-01-08 2018-01-10 현대자동차주식회사 차량 및 그 제어방법

Also Published As

Publication number Publication date
JPH075895A (ja) 1995-01-10

Similar Documents

Publication Publication Date Title
AU740951C (en) Method for Noise Reduction, Particularly in Hearing Aids
JP2974423B2 (ja) ロンバード音声認識方法
US5854999A (en) Method and system for speech recognition with compensation for variations in the speech environment
JP3451146B2 (ja) スペクトルサブトラクションを用いた雑音除去システムおよび方法
US5201004A (en) Speech recognition method with noise reduction and a system therefor
JP3526911B2 (ja) 音声認識装置及び音声認識方法
JP2002535708A (ja) 音声認識方法及び音声認識装置
JP4393648B2 (ja) 音声認識装置
US7292974B2 (en) Method for recognizing speech with noise-dependent variance normalization
CN111508512A (zh) 语音信号中的摩擦音检测
JPH05119792A (ja) 音声認識装置
KR20120098211A (ko) 음성 인식 방법 및 그에 따른 음성 인식 장치
JP2817429B2 (ja) 音声認識装置
JPH0449952B2 (ja)
JPH0430040B2 (ja)
EP1079370A2 (en) Method for training a speech recognition system with detection of confusable words
JP3026855B2 (ja) 音声認識装置
JP3360978B2 (ja) 音声認識装置
JPH056193A (ja) 音声区間検出方式及び音声認識装置
JP2705061B2 (ja) 音声認識方法
JPH09247800A (ja) 左右音像方向抽出方法
KR0135878B1 (ko) 음성 데이타 시종점 검출 방법 및 그 장치
JPS6039695A (ja) 自動音声アクチビテイ検出方法および装置
JPH1185200A (ja) 音声認識のための音響分析方法
JP3342740B2 (ja) 雑音環境下で使用する音声認識装置

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040217

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040218

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090227

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090227

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100227

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees