JP2000310993A - 音声検出装置 - Google Patents

音声検出装置

Info

Publication number
JP2000310993A
JP2000310993A JP11121457A JP12145799A JP2000310993A JP 2000310993 A JP2000310993 A JP 2000310993A JP 11121457 A JP11121457 A JP 11121457A JP 12145799 A JP12145799 A JP 12145799A JP 2000310993 A JP2000310993 A JP 2000310993A
Authority
JP
Japan
Prior art keywords
voice
threshold value
level
signal
feature information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11121457A
Other languages
English (en)
Inventor
Ikuo Fujita
育雄 藤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pioneer Corp
Original Assignee
Pioneer Electronic Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pioneer Electronic Corp filed Critical Pioneer Electronic Corp
Priority to JP11121457A priority Critical patent/JP2000310993A/ja
Publication of JP2000310993A publication Critical patent/JP2000310993A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】雑音の無い音声信号を検出・抽出して音声認識
する。 【解決手段】 マイクロフォン2で集音し、対数パワー
演算部4が音声データDiに基づいて対数パワーP
(t)を生成する。音声区間決定部5が、周囲環境の雑
音レベルより高レベルの第1の閾値と、雑音レベルより
若干高く且つ第1の閾値より低レベルの第2の閾値に基
づいて対数パワーP(t)のレベルを比較し、第2の閾
値より高レベルの対数パワーP(t)のうち、時間的に
連続して第1の閾値より高レベルに変化する対数パワー
P(t)が得られたときの音声データDiを発話音声と
して検出する。そして、特徴抽出部6が、発話音声とし
て検出された音声データDiに基づいて特徴抽出を行
い、特徴ベクトルV(t)のデータを記憶部7に記憶さ
せ、更に、音声認識部8が、特徴ベクトルV(t)のデ
ータに基づいて音声認識し、その認識結果DJを信号処
理部9へ出力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、発話された音声を
検出し雑音を除去して抽出する音声検出装置に関する。
【0002】
【従来の技術】近年、高速な信号処理を可能とする集積
回路装置が開発され、かかる集積回路装置を用いた音声
認識システムが電子機器に適用されつつある。一般の音
声認識システムでは、発話された音声の特徴を特徴抽出
し、その抽出した特徴情報に基づいて語彙を認識するこ
とで、所謂音声認識が行われている。ここで、音声認識
率を高めるために、各種の文献において様々な音声認識
アルゴリズムが開示されているが、これらのアルゴリズ
ムを適用するための前提として、発話された音声を忠実
に検出し、且つ雑音を取り除いて抽出する必要がある。
また、話者に対してリアルタイムの応答を可能にするマ
ンマシンシステムを実現する場合には、音声を高速に検
出して抽出する必要がある。
【0003】図8は、従来の音声検出方法を示した模式
図である。同図(a)において、発話された音声(以
下、単に音声という)をマイクロフォンで集音し、これ
によって得られる電気信号(音声信号)を所定周期毎に
積算すると共に、その積算値の対数を求めることによ
り、音声信号の上記所定期間毎における対数パワーP
(t)を生成している。
【0004】そして、上記所定周期毎に生成される対数
パワーP(t)の変化を所定の閾値THDと比較し、対
数パワーP(t)のレベルが閾値THDより大きくなる
区間を音声区間、閾値THDより低レベルとなる区間を
雑音区間と判定することにより、音声成分と雑音成分を
判別し、音声区間内の音声信号のみを発話された音声成
分として抽出している。
【0005】すなわち、集音によって得られる音声信号
のうち、対数パワーP(t)のレベルが閾値THDより
高くなった区間において得られる音声信号を真の音声成
分として判別し、対数パワーP(t)のレベルが閾値T
HDより低くなった区間において得られる音声信号は雑
音成分であるとして除去するようにしていた。
【0006】
【発明が解決しようとする課題】しかしながら、上記従
来の音声検出方法では、音声成分と雑音成分との判別精
度が十分ではなかった。このため、音声成分を忠実に検
出して抽出することが困難であった。
【0007】例えば図8(b)に示すように、閾値TH
Dを低く設定して音声区間の開始時点tsと終了時点te
の間隔を広げるようにすると、音声成分の欠落を回避す
ることに寄与することになるが、その反面で、雑音を含
んだ対数パワーP(t)の判定基準が下がることになっ
てしまうため、音声信号中の雑音を音声成分と誤判定し
て抽出してしまうという問題があった。
【0008】一方、図8(c)に示すように、音声信号
中の雑音を誤って抽出するのを回避するために閾値TH
Dを高くすると、音声区間(音声の切り出し区間)が狭
まってしまうため、音声信号中の必要な音声成分を忠実
に抽出できなくなるという問題があった。
【0009】本発明は上記従来の問題点を克服するため
になされたものであり、雑音を除去して音声成分を精度
よく検出・抽出すると共に、検出と抽出を高速に行う音
声検出装置を提供することを目的とする。
【0010】
【課題を解決するための手段】上記目的を達成するため
本発明は、音を音声信号に変換して出力する音検知手段
と、上記音声信号の電力成分信号を生成する電力変換手
段と、所定レベルよの第1の閾値と、上記第1の閾値よ
り低レベルの第2の閾値に基づいて上記電力成分信号の
レベルを比較し、上記第2の閾値より高レベルの電力成
分信号を検出すると、上記音声信号のうち、時間的に連
続して第1の閾値より高レベルに変化する音声信号を発
話音声として検出して抽出する音声区間決定手段と、上
記音声区間決定手段において発話音声として検出される
上記音声信号に基づいて音声の特徴情報を抽出する特徴
抽出手段とを具備する構成とした。
【0011】かかる構成によると、電力成分信号が第2
の閾値より低レベルとなった場合には、その電力成分信
号を生成するための元になった音声信号を雑音として除
去し、電力成分信号が第2の閾値より高レベル又は第1
の閾値より高レベルとなった場合には、その電力成分信
号を生成するための元になる音声信号を発話された音声
成分として検出して抽出する。
【0012】ここで、電力成分信号が第2の閾値より高
レベルとなった後に再び第2の閾値より低レベルとなっ
た場合には、そのときの音声信号は雑音として除去す
る。すなわち、第2の閾値より高レベルとなった電力成
分信号が時間的に連続して第1の閾値より高レベルとな
った場合に、その連続した時間範囲内の音声信号を本来
の発話音声として検出して抽出する。そして、本来の発
話音声として検出・抽出された音声信号に基づいて、特
徴抽出手段が音声の特徴情報を抽出する。
【0013】また、上記特徴抽出手段が抽出する上記特
徴情報を記憶する記憶手段を備え、上記音声区間決定部
は、上記記憶手段に記憶された特徴情報のうち、上記電
力成分信号のレベルが上記第1の閾値を最初に超えた時
点より前の所定時点以降の特徴情報を、上記発話音声の
特徴情報として設定する構成とした。
【0014】かかる構成によれば、第2の閾値より高レ
ベルとなった電力成分信号中に第2の閾値より高レベル
の雑音が含まれていて、その雑音の含まれた電力成分信
号が第2の閾値より低レベルにならないまま時間的に連
続して第1の閾値より高レベルとなった場合を検出す
る。そして、電力成分信号が第1の閾値より最初に高レ
ベルとなった時点を基準として、それより以前の所定時
点以降の音声信号を最終的に発話信号とする。この結
果、発話音声の前縁に雑音が混入する場合でも、雑音の
混入を最小限度に抑えて、本来の発話音声を抽出するこ
とができる。
【0015】また、上記特徴抽出手段が抽出する上記特
徴情報を記憶する記憶手段を備え、上記音声区間決定部
は、上記記憶手段に記憶された特徴情報のうち、上記電
力成分信号のレベルが上記第1の閾値を最初に下回った
時点より以後の所定時点より前の特徴情報を、最終的に
上記発話音声の特徴情報として設定する構成とした。
【0016】かかる構成によれば、第1の閾値より高レ
ベルとなった電力成分信号が再び第1の閾値より低レベ
ル(但し、第2の閾値より高レベル)となった場合にお
いて、そのときの音声信号に雑音が混入した場合を検出
する。そして、電力成分信号が第1の閾値より最初に低
レベルとなった時点を基準として、それより以降の所定
時点を設定して、その時点より前の音声信号を最終的に
発話信号とする。この結果、発話音声の後縁に雑音が混
入する場合でも、雑音の混入を最小限度に抑えて、本来
の発話音声を抽出する。
【0017】また、上記特徴抽出手段が抽出する上記特
徴情報を記憶する記憶手段を備え、上記音声区間決定部
は、上記記憶手段に記憶された上記特徴情報のうち、上
記電力成分信号のレベルが上記第1の閾値を最初に超え
た時点より前の所定時点以降の特徴情報であって、且つ
上記電力成分信号のレベルが上記第1の閾値を最初に下
回った時点より以後の所定時点より前の特徴情報を、最
終的に上記発話音声の特徴情報として設定する構成とし
た。
【0018】かかる構成によれば、話者の発声による音
声信号の前縁と後縁に雑音が混入した場合を検出し、雑
音の混入を最小限度に抑えて音声信号を抽出する。
【0019】また、上記発話音声の特徴情報に基づいて
音声認識を行う音声認識手段を備える構成とした。ま
た、上記音声区間決定手段は、予め決められた所定周期
に同期して上記電力成分信号を生成し、上記音声認識手
段は、上記音声区間決定手段が上記発話音声の特徴情報
を設定するのに同期して、上記音声認識を行う構成とし
た。これらの構成によれば、発話音声の特徴情報を抽出
する度に音声認識が行われる。これによって、高速の音
声認識を可能にする。
【0020】
【発明の実施の形態】以下、本発明の実施の形態を図1
ないし図8を参照して説明する。尚、一実施形態とし
て、音響機器やGPS(Global Positioning System)
航法を用いた車載用ナビゲーションシステム等において
音声操作を可能にする音声検出装置について説明する。
【0021】(第1の実施の形態)図1は、本実施形態
の音声検出装置1の構成を示すブロック図である。本音
声検出装置1は、集音用のマイクロフォン2、前置処理
部3、対数パワー演算部4、音声区間決定部5、特徴抽
出部6、記憶部7及び音声認識部8を備えて構成されて
いる。音声認識部8が、認識結果を上記音響機器等を操
作するための信号処理部9へ出力するようになってい
る。尚、対数パワー演算部4と音声区間決定部5と特徴
抽出部6及び音声認識部8は、予め設定されたシステム
プログラムに従って動作するディジタリシグナルプロセ
ッサ(Digital signal Processor:DSP)によって形
成されている。
【0022】ここで、前置処理部3は、マイクロフォン
2から出力される電気信号(生の音声信号)を信号処理
可能なレベルに増幅して出力するプリアンプと、プリア
ンプから出力される上記音声信号のうち音声帯域(例え
ば、50Hz〜4kHzの範囲)内の周波数成分を通過
させるバンドパスフィルタと、バンドパスフィルタを通
過した音声信号をナイキスト周波数以上のサンプリング
周波数f(例えば、f≒11.025kHz)に同期し
てディジタルの音声データDiに変換するA/D変換器
が備えられ、この音声データDiが対数パワー演算部4
に供給されている。
【0023】対数パワー演算部4は、サンプリング周期
δT(=1/f)に同期して生じる音声データDiを所
定の期間Ts(例えば、10msec)毎に積算し、そ
の積算値を対数演算することによって、上記音声信号の
所定期間Ts毎の対数パワーP(t)を電力成分信号と
して生成して出力する。この期間Tsをフレーム期間と
呼ぶこととし、次数(1)に示されるように、各フレー
ム期間Ts内で得られるTs×f個(整数個)の音声デ
ータDiの2乗加算値の対数値を、各フレーム期間Ts
における対数パワーP(t)としている。
【0024】
【数1】
【0025】尚、対数パワーP(t)の符号tは、各フ
レーム期間Tsの時間経過方向における順番1,2,3
…等を示す整数の係数である。
【0026】音声区間決定部5は、対数パワーP(t)
中に含まれる雑音成分の対数パワーと音声成分の対数パ
ワー(以下、雑音成分のパワーを雑音パワー、音声成分
のパワーを音声パワーという)とを2個の閾値THD
1,THD2に基づいて判別する。そして、その判別結
果を特徴抽出部6に供給することにより、音声パワーの
生じるフレーム期間Tsと雑音パワーの生じるフレーム
期間Tsを知らせる。また、各フレーム周期Tsにおい
て生成される各対数パワーP(t)のデータを、後述す
る記憶部7の所定記憶領域に記憶させるようになってい
る。
【0027】特徴抽出部6は、音声区間決定部5からの
上記判定結果に基づいて、音声パワーの生じるフレーム
期間Ts内に存在するTs×f個の音声データDiを抽
出し(切り出し)、これらの音声データDiを信号処理
することによって音声成分の特徴抽出を行う。尚、本実
施形態では、線形予測法の一つであるLPCケプストラ
ム(Linear Predictive coding Cepstrum)法に基づい
て特徴抽出を行っている。つまり、20次元程度の線形
係数を有するディジタルフィルタによって予め設定して
おいた音声生成モデルに音声データDiを導入し、その
線形結合で予測される20次元程度のベクトル成分を、
音声成分のスペクトル包絡の特徴データ(以下、特徴ベ
クトルという)V(t)として特徴抽出している。そし
て、この特徴ベクトルV(t)を各フレーム期間Tsに
同期して記憶部7へ供給する。
【0028】また、雑音パワーの生じるフレーム期間T
s内に存在するTs×f個の音声データDiについては
上記の切り出し処理を停止すると共に、上記の特徴抽出
の処理も停止する。したがって、雑音成分の発生期間で
は、特徴ベクトルV(t)を出力しないようになってい
る。
【0029】つまり、音声区間決定部5が対数パワーP
(t)に基づいて音声成分の発生区間を判別すると、そ
の判別結果に基づいて特徴抽出部6が特徴ベクトルV
(t)を生成して出力し、音声区間決定部5が対数パワ
ーP(t)に基づいて雑音成分の発生区間を判別する
と、その判別結果に基づいて特徴抽出部6が特徴ベクト
ルV(t)を生成しないことにしているので、記憶部7
には、音声成分の特徴ベクトルV(t)だけが供給さ
れ、雑音成分は供給されないようになっている。
【0030】記憶部7は、再記憶可能なランダムアクセ
スメモリ(RAM)と、照合データが予め記憶された読
み出し専用メモリ(ROM)を備えて構成されている。
【0031】上記のRAMには、特徴抽出部6からフレ
ーム周期Tsに同期して転送されてくる特徴ベクトルV
(t)を順番に記憶する記憶領域MEMと、音声認識処
理の際に各種データを一時的に格納したり、上記の対数
パワーP(t)のデータを記憶するための作業領域等が
割り当てられている。
【0032】上記のROMには、認識結果を照合するた
めの複数の語彙情報が照合データとして予め記憶されて
いる。例えば、話者が音声操作を行うための「スイッチ
オン」「スイッチオフ」「再生開始」「停止」等の各種
の語彙情報が記憶されている。また、本音声記憶装置1
が車載用ナビゲーシンシステムに適用される場合には、
地名や駅名等の地理に関する語彙情報も記憶されてい
る。
【0033】音声認識部8は、RAM中の憶領域MEM
に記憶される特徴ベクトルV(t)とROM中の照合デ
ータとを照合することにより、発話された音声の音声情
報を認識する。そして、その認識結果のデータDJを信
号処理部9へ出力する。
【0034】次に、かかる構成を有する音声検出装置1
の詳細な動作を図2に示すフローチャートと図4に示す
波形図及び図5に示すメモリマップを参照して説明す
る。尚、図4は、対数パワーP(t)の変化を模式的に
示し、図5は記憶領域MEMのメモリマップを示してい
る。
【0035】図2において、音声検出装置1が起動する
と、話者による発話の有無に拘わらず、マイクロフォン
2が集音を開始する(ステップS100)。そして、マ
イクロフォン2からの音声信号を前置処理部3が音声デ
ータDiに変換し、更に対数パワー演算部4がフレーム
周期Ts毎に対数パワーP(t)を生成して音声区間決
定部5に供給する。
【0036】音声区間決定部5は、ステップS102,
S104において、話者による音声認識開始の指示がな
されるまで、各フレーム周期Ts毎の対数パワーP
(t)を周囲環境の雑音レベルとして逐一計測する。そ
して、各対数パワーP(t)を基準として、それより僅
かに高いレベルを第2の閾値THD2、更に、閾値TH
D2を基準としてそれより高い所定レベルを第1の閾値
THD1とすると共に、新たな対数パワーP(t)が供
給される度に、第1,第2の閾値THD1,THD2を
更新する。
【0037】尚、対数パワーP(t)に対する第1,第
2の閾値THD1,THD2の設定値は、マイクロフォ
ン2や前置処理部3の電気特性を考慮して予め実験的に
決められている。具体例として、閾値THD2は対数パ
ワーP(t)より5dB程度高く、閾値THD1は対数
パワーP(t)より10dB程度高く設定することとし
ている。
【0038】音声認識開始の指示がなされると(ステッ
プS104)、最新に求められた第1,第2の閾値TH
D1,THD2を確定して、音声認識処理を開始する
(ステップS106)。
【0039】次に、ステップS108において、音声区
間決定部5が、サンプリング周期δT毎に入力する対数
パワーP(t)の順番を規定するための係数(正の整
数)tと、記憶領域MEMのアドレスを規定するための
係数(正の整数)kとを、t=1、k=1に設定する。
これにより、記憶領域MEMの先頭アドレスが指定され
る。
【0040】次に、音声区間決定部5が、対数パワー演
算部4からの対数パワーP(t)を入力し(ステップS
110)、対数パワーP(t)の値と第2の閾値THD
2とを比較する(S112)。
【0041】ここで、P(t)<THD2の場合(「Y
ES」の場合)には、係数tを1カウントアップした後
(ステップS113)、ステップS110に戻って次の
対数パワーP(t)を入力する。一方、P(t)≧TH
D2の場合(「NO」の場合)には、ステップS114
へ移行する。すなわち、ステップS110〜S112に
より、未だ話者が発話していないときに生じる対数パワ
ーP(t)を処理対象から除外している。
【0042】次に、ステップS114において、上記入
力した対数パワーP(t)を第1の閾値THD1と比較
する。ここで、P(t)<THD1のとき(「NO」の
とき)には、ステップS116に移行して、対数パワー
P(t)を第2の閾値THD2と比較する。
【0043】ステップS116において、P(t)≧T
HD2の場合(「YES」の場合)にはステップS11
7に移行する。ここで、特徴抽出部6が、P(t)≧T
HD2の条件に該当するフレーム期間Ts内の音声デー
タDiに基づいて特徴ベクトルV(t)を演算し、その
特徴ベクトルV(t)を記憶領域MEM(k)に記憶さ
せる(ステップS118)。すなわち、最初に第2の閾
値THD2を超えた対数パワーP(t)に該当するフレ
ーム期間Tsでの特徴ベクトルV(1)が先頭アドレス
の記憶領域MEM(1)に記憶される。
【0044】次に、係数t,kをそれぞれ1カウントア
ップし(ステップS120)、次の対数パワーP(t)
を入力した後(ステップS122)、ステップS114
〜S122の処理を繰り返す。これにより、フレーム期
間Ts毎に求まる特徴ベクトルV(t)が記憶領域ME
M(k)に記憶される。
【0045】ただし、このステップS114〜S122
の繰り返し処理の途中に、ステップS122において第
2の閾値THD2より低レベルの対数パワーP(t)を
入力した場合には、ステップS116において、P
(t)<THD2と判定することになる。つまり、雑音
成分を判定することになり、ステップS116の判定
「NO」を通ってステップS124に移行し、係数tを
1カウントアップすると共に、係数kを1にリセットし
た後、ステップS110からの処理を実質的に再開す
る。
【0046】このように、ステップS108〜S124
の処理を行うと、第2の閾値THD2より高レベルの対
数パワーP(t)を入力した場合であっても、第1の閾
値THD1より高レベルの対数パワーP(t)を入力す
る以前に、第2の閾値THD2より低レベルの対数パワ
ーP(t)を再び入力した場合には、図4中の期間τns
で示すように、記憶領域MEM(k)中の全ての特徴ベ
クトルV(t)を雑音に基づいて生成されたものである
と判定して、これらの特徴ベクトルV(t)を全て消去
する。この結果、雑音を適切に除去することができる。
【0047】また、上記のステップS114〜S122
の処理を繰り返す間に、ステップS116において雑音
が判定されずに、第1の閾値THD1より高レベルの対
数パワー(t)を入力した場合(第1の場合という)
や、上記のステップS110からの実質的な処理の再開
後に、ステップS116において雑音有りの判定がなさ
れずに、第1の閾値THD1より高レベルの対数パワー
P(t)を入力した場合(第2の場合という)には、ス
テップS114において、この対数パワーP(t)を、
P(t)≧THD1として判定(「YES」と判定)す
ることになる。そして、「YES」と判定すると、ステ
ップS126の処理に移行する。
【0048】このように、上記の第1,第2の場合を伴
ってステップS126の処理に移行することになると、
それまでの処理によって、例えば図4中の「音声切り出
し区間」の開始時点Aから途中の時点Bまでの特徴ベク
トルV(t)が記憶領域MEM(k)の先頭アドレスか
ら順番に記憶されることになる。
【0049】更に、開始時点Aは話者が発話した時点に
なることから、音声成分を欠落することなく抽出して記
憶領域MEM(k)に記憶することができる。更に、こ
れら記憶された全ての特徴ベクトルV(t)は、周囲環
境における平均的な雑音レベルより高く、且つ期間τns
に示した比較的高レベルの雑音も含んでいないため、雑
音を含まないデータとなる。
【0050】尚、ステップS114において最初に第1
の閾値THD1より高いと判定した対数パワーP(t)
が第n番目のものであった場合には、図5のメモリマッ
プに示すように、第1番目から第n−1番目のアドレス
の特徴ベクトルV(1)〜V(n−1)が、THD2≦
P(t)<THD1の条件を満足するデータになる。
【0051】次に、ステップS126に移行すると、対
数パワーP(t)を第2の閾値THD2と比較する。こ
こで、P(t)≧THD2の場合(「YES」の場合)
には、ステップS127に移行して、特徴抽出部6が、
P(t)≧THD2の条件に該当するフレーム期間Ts
内の音声データDiに基づいて第n番目の特徴ベクトル
V(t)を演算する。次に、ステップS128に移行し
て、上記のt=n番目の特徴ベクトルV(n)を、図5
に示すようにk=n番目のアドレスの記憶領域MEM
(n)に記憶する。
【0052】次に、ステップS130において係数t,
kをそれぞれ1カウントアップし、更にステップS13
2において次の対数パワーP(t)を入力した後、ステ
ップS126に戻ってステップS126〜S132の処
理を繰り返す。
【0053】このようにステップS126〜S132の
処理を繰り返すと、図4に示した時点Bから終端時点D
までの期間内に求められた特徴ベクトルV(n)〜V
(n+N)が、図5に示す記憶領域MEM(n)〜ME
M(n+N)に順番に記憶される。そして、記憶領域M
EM(n+N)の特徴ベクトルV(n+N)は、ステッ
プS126において最後にP(t)≧THD2と判定さ
れたときのデータとなる。したがって、特徴ベクトルV
(1)〜V(n+N)には雑音成分が含まれないことに
なる。
【0054】次に、ステップS134において、音声認
識部8が、記憶領域MEM(1)〜MEM(n+N)に
記憶した特徴データV(1)〜V(n+N)の総数とサ
ンプリング周期δTに基づいて音声切り出し区間の時間
間隔を確定した後、ステップS136及びS138にお
いて、特徴ベクトルV(1)〜V(n+N)とROM中
の照合データとを照合することにより、話者の発声した
言葉の意味を認識する。
【0055】次に、その認識結果のデータDJを信号処
理部9へ出力して、音声認識処理を終了する。尚、一の
音声認識処理を終了すると、再びステップS100に戻
って上記同様の処理を繰り返すようになっている。
【0056】以上に述べたように本実施形態によれば、
周囲環境の平均的な雑音レベルより若干高レベルに設定
した第2の閾値THD2と、第2の閾値THD2より高
レベルの第1の閾値THD1を基準として、対数パワー
P(t)中の雑音と本来の音声成分を判別するようにし
たので、音声成分を高精度で抽出することができる。
【0057】また、短時間のフレーム期間Ts毎に特徴
ベクトルV(t)を抽出するので、リアルタイムで音声
認識することが可能となり、マンマシンシステムへの適
用が可能である。
【0058】(第2の実施の形態)次に、図6に示すフ
ローチャートを参照して第2の実施形態を説明する。
尚、本実施形態の音声検出装置は、図1に示した構成と
同様であるので、構成についての説明を省略する。ま
た、図6において、図2と同一又は相当する動作ステッ
プについては同一の符号を付して示している。
【0059】本実施形態と第1の実施形態との差異を述
べると、本実施形態は、図6中のステップS118とS
120の間にステップS119a及びS119bを設け
ると共に、ステップS128とS130の間にステップ
S129a及びS129bを設けた点にある。
【0060】まず、第1の実施形態で説明したように、
ステップS118において、特徴ベクトルV(t)を記
憶領域MEM(k)に記憶すると、次に、ステップS1
19a,S19bにおいて、今までに記憶領域MEM
(k)に記憶された全ての特徴ベクトルV(t)とRO
M中の照合データとを照合して音声認識を行い、その認
識結果のデータDJを信号処理部9に出力する。その
後、係数t,kをそれぞれ1カウントアップし(ステッ
プS120)、更に次の対数パワーP(t)を入力して
から(ステップS122)、ステップS114に移行す
る。
【0061】更に、第1の実施形態で説明したように、
ステップS128において、特徴ベクトルV(t)を記
憶領域MEM(k)に記憶すると、次に、ステップS1
29a,S129bにおいて、今までに記憶領域MEM
(k)に記憶された全ての特徴ベクトルV(t)とRO
M中の照合データとを照合して音声認識を行い、その認
識結果のデータDJを信号処理部9に出力する。その
後、係数t,kをそれぞれ1カウントアップし(ステッ
プS130)、更に次の対数パワーP(t)を入力して
から(ステップS132)、ステップS126に移行す
る。
【0062】このように、記憶領域MEM(k)に特徴
ベクトル(t)を記憶する度に、照合データとの照合に
よって音声認識を行うので、ステップS126において
音声成分の終端を検出した時点で、音声認識が完了す
る。
【0063】例えば、話者が「目黒駅へ行きたい」と発
声した場合に、ステップS119a,S119bとS1
19a,S119bにおいて、「め」「ぐ」「ろ」
「え」「き」「へ」「い」「き」「た」「い」という語
を順番に認識することになり、処理が「終了」となった
時点で、話者の発声した言葉の意味が確定する。この結
果、本実施形態によれば、極めて高速に音声成分の検出
と抽出及び音声認識を行うことができる。
【0064】(第3の実施の形態)次に、図7に示すフ
ローチャートと図8に示す波形図を参照して第3の実施
形態を説明する。尚、本実施形態の音声検出装置は、図
1に示した構成と同様であるので、構成についての説明
を省略する。また、図7において、図2と同一又は相当
する動作ステップについては同一の符号を付して示して
いる。更に、図8は図4に対応付けて示した波形図であ
る。
【0065】本実施形態と第1の実施形態との差異を述
べると、本実施形態は、図7中のステップS114とS
126の間にステップS125を設けると共に、ステッ
プS132からステップS126に戻る経路中にステッ
プS133aとS133bを設けた点にある。更に、ス
テップS126とS136の間に、ステップS135a
とS135bを設けた点を特徴としている。
【0066】まず、第1の実施形態で説明したように、
ステップS114において第1の閾値THD1より高レ
ベルの対数パワーP(t)を判定すると、ステップS1
25において、この対数パワーP(t)のデータと、そ
の順番tをフラグデータFORWARDとしてRAM中の作業
領域に記憶した後、ステップS126の処理に移行す
る。したがって、図8に示す時点Bで検出した対数パワ
ーP(t)と、その順番tをフラグデータFORWARDとし
て記憶することになる。
【0067】更に、図4中のステップS133aでは、
音声区間決定部5が、現時点tよりも1つ前の時点t−
1においてRAM中の作業領域に記憶させた対数パワー
P(t−1)を読み出して、その対数パワーP(t−
1)と第1の閾値THD1とを比較する。ここで、P
(t−1)≧THD1の場合(「YES」の場合)に
は、ステップS133bにおいて、その時点t−1に相
当する順番t−1をフラグデータBACKWARDとしてRAM
中の作業領域に記憶させた後、ステップS126の処理
に移行する。一方、P(t−1)<THD1の場合
(「NO」の場合)には、フラグデータBACKWARDを設定
することなく、ステップS126の処理に移行する。
【0068】かかる処理を行うと、図4中に示した時点
C、すなわち対数パワーP(t)が再び第1の閾値TH
D1より低レベルになった時の1つ前の時点Cにおける
対数パワーP(t−1)の順番t−1をフラグデータBA
CKWARDとして記憶することになる。
【0069】そして、ステップS126からステップS
135aに処理が移ると、ステップS135aでは、フ
ラグデータFORWARDから所定値(正の整数値)τaを減算
し、その減算結果(=FORWARD−τa)を音声成分の推定
開始時点taとする。更に、フラグデータBACKWARDから
所定値(正の整数値)τdを減算し、その減算結果(=B
ACKWARD−τd)を音声成分の推定終了時点tdとする。
【0070】ここで、所定値τa,τdは共に、閾値TH
D2より高レベルの対数パワーP(t)のみを対象にし
て決めている。
【0071】次に、ステップS135bでは、図8に示
すように、推定開始時点taから推定終了時点td間で
の期間を最終切り出し区間Tcと確定する。そして、ス
テップS136において、最終切り出し区間Tc内に該
当する特徴ベクトルV(t)を記憶領域MEM(k)か
ら読み出して照合データと照合した後、ステップS13
8において話者の発声した意味を認識し、更に、ステッ
プS140において、その認識結果のデータDJを信号
処理部9へ出力する。
【0072】このように、第1の閾値THD1より高レ
ベルの対数パワーP(t)が得られた最初の時点FORWAR
Dと終了時点BACKWARDを基準にして、所定値τa,τdの
区間分広げた区間を最終切り出し区間Tcとして求め、
この区間Tc内の特徴ベクトルV(t)を抽出して音声
認識をすると次の効果が得られる。
【0073】図8において、閾値THD2より高レベル
の雑音が閾値THD2より低くならずに閾値THD1に
なった場合には、この雑音を音声成分の対数パワーP
(t)と判定してし、雑音による特徴ベクトルが記憶領
域MEMに記憶される。しかし、時点FORWARDに基づい
て求めた推定開始時点taを基準として、それ以降の対
数パワーP(t)を音声成分のパワーとして判定するの
で、雑音による特徴ベクトルを音声認識の対象から除外
することができ、雑音成分の混入を最小限に抑えること
ができる。
【0074】更に、図8中の時点Dの近傍において、閾
値THD2より高レベルの雑音が混入する場合にも、こ
の雑音を音声成分の対数パワーP(t)として判定し、
雑音による特徴ベクトルが記憶領域MEMに記憶され
る。しかし、時点BACKWARDに基づいて求めた推定終了時
点tdを基準として、それ以前の対数パワーP(t)を
音声成分とするので、雑音による特徴ベクトルを音声認
識の対象から除外することができ、雑音成分の混入を最
小限に抑えることができる。
【0075】このように本実施形態によれば、雑音の多
い周囲環境であっても、雑音の混入を最小限に抑制し
て、音声認識率を高めることができる。特に、実用に即
応した音声検出及び抽出が可能となる。
【0076】
【発明の効果】以上説明したように本発明によれば、音
声信号から生成される電力成分信号のレベルを、第1の
閾値と、第1の閾値より低レベルの第2の閾値とに基づ
いて比較し、電力成分信号のうち第2の閾値より高レベ
ルで且つ時間的に連続して第1の閾値より高レベルに変
化する電力成分信号が生じる期間を検出して、その期間
中の音声信号を発話音声として検出して抽出することと
したので、雑音の混入を抑えることができると共に、発
話音声を忠実に検出して抽出することができる。
【0077】また、音声信号のうち、第1の閾値を超え
る電力成分信号の前縁部分若しくは後縁部分、又は前縁
部分及び後縁部分より所定期間幅拡大した範囲内に存在
する音声信号を、最終的な発話音声の音声信号としたの
で、雑音が生じた場合でも高い精度で本体の発話音声を
検出して抽出することができる。
【0078】また、上記音声区間決定手段が上記発話音
声の音声信号を抽出するのに同期して、その抽出された
音声信号に基づいて特徴抽出手段が音声の特徴抽出を行
うようにしたので、高速の音声認識を行うことができ
る。
【図面の簡単な説明】
【図1】本実施形態に係る音声検出装置の構成を示すブ
ロック図である。
【図2】第1の実施形態における動作を説明するための
フローチャートである。
【図3】対数パワーの生成方法を説明するための波形図
である。
【図4】対数パワーの時間的変化を模式的に示した波形
図である。
【図5】記憶部のメモリマップを示す説明図である。
【図6】第2の実施形態における動作を説明するための
フローチャートである。
【図7】第3の実施形態における動作を説明するための
フローチャートである。
【図8】第3の実施形態における対数パワーの時間的変
化を模式的に示した波形図である。
【図9】従来技術の問題点を説明するための波形図であ
る。
【符号の説明】
1…音声検出装置 2…マイクロフォン 3…前置処理部 4…対数パワー演算部 5…音声区間決定部 6…特徴抽出部 7…記憶部 8…音声認識部 RAM…再記憶可能メモリ ROM…読み出し専用メモリ

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 音を音声信号に変換して出力する音検知
    手段と、 前記音声信号の電力成分信号を生成する電力変換手段
    と、 所定レベルよの第1の閾値と、前記第1の閾値より低レ
    ベルの第2の閾値に基づいて前記電力成分信号のレベル
    を比較し、前記第2の閾値より高レベルの電力成分信号
    を検出すると、前記音声信号のうち、時間的に連続して
    第1の閾値より高レベルに変化する音声信号を発話音声
    として検出して抽出する音声区間決定手段と、 前記音声区間決定手段において発話音声として検出され
    る前記音声信号に基づいて音声の特徴情報を抽出する特
    徴抽出手段とを具備することを特徴とする音声検出装
    置。
  2. 【請求項2】 前記第1の閾値は、周囲環境の雑音レベ
    ルより高レベル、前記第2の閾値は、前記雑音レベルよ
    り若干高く且つ前記第1の閾値より低レベルに設定され
    ることを特徴とする請求項1に記載の音声検出装置。
  3. 【請求項3】 前記特徴抽出手段が抽出する前記特徴情
    報を記憶する記憶手段を備え、 前記音声区間決定部は、前記記憶手段に記憶された特徴
    情報のうち、前記電力成分信号のレベルが前記第1の閾
    値を最初に超えた時点より前の所定時点以降の特徴情報
    を、前記発話音声の特徴情報とすることを特徴とする請
    求項1又は2に記載の音声検出装置。
  4. 【請求項4】 前記特徴抽出手段が抽出する前記特徴情
    報を記憶する記憶手段を備え、 前記音声区間決定部は、前記記憶手段に記憶された特徴
    情報のうち、前記電力成分信号のレベルが前記第1の閾
    値を最初に下回った時点より以後の所定時点より前の特
    徴情報を、最終的に前記発話音声の特徴情報とすること
    を特徴とする請求項1又は2に記載の音声検出装置。
  5. 【請求項5】 前記特徴抽出手段が抽出する前記特徴情
    報を記憶する記憶手段を備え、 前記音声区間決定部は、前記記憶手段に記憶された前記
    特徴情報のうち、前記電力成分信号のレベルが前記第1
    の閾値を最初に超えた時点より前の所定時点以降の特徴
    情報であって、且つ前記電力成分信号のレベルが前記第
    1の閾値を最初に下回った時点より以後の所定時点より
    前の特徴情報を、最終的に前記発話音声の特徴情報とす
    ることを特徴とする請求項1又は2に記載の音声検出装
    置。
  6. 【請求項6】 前記発話音声の特徴情報に基づいて音声
    認識を行う音声認識手段を備えることを特徴とする請求
    項1〜5のいずれか1項に記載の音声検出装置。
  7. 【請求項7】 前記音声区間決定手段は、予め決められ
    た所定周期に同期して前記電力成分信号を生成し、前記
    音声認識手段は、前記音声区間決定手段が前記発話音声
    の特徴情報を設定するのに同期して、前記音声認識を行
    うことを特徴とする請求項6に記載の音声検出装置。
JP11121457A 1999-04-28 1999-04-28 音声検出装置 Pending JP2000310993A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11121457A JP2000310993A (ja) 1999-04-28 1999-04-28 音声検出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11121457A JP2000310993A (ja) 1999-04-28 1999-04-28 音声検出装置

Publications (1)

Publication Number Publication Date
JP2000310993A true JP2000310993A (ja) 2000-11-07

Family

ID=14811618

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11121457A Pending JP2000310993A (ja) 1999-04-28 1999-04-28 音声検出装置

Country Status (1)

Country Link
JP (1) JP2000310993A (ja)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002244697A (ja) * 2001-02-16 2002-08-30 Casio Comput Co Ltd 音声認証装置、音声認証方法、及びプログラム
US6847930B2 (en) * 2002-01-25 2005-01-25 Acoustic Technologies, Inc. Analog voice activity detector for telephone
KR100677396B1 (ko) * 2004-11-20 2007-02-02 엘지전자 주식회사 음성인식장치의 음성구간 검출방법
JP2008158315A (ja) * 2006-12-25 2008-07-10 Yamaha Corp 音信号処理装置およびプログラム
JP2008158316A (ja) * 2006-12-25 2008-07-10 Yamaha Corp 音信号処理装置およびプログラム
JP2009157406A (ja) * 2009-04-15 2009-07-16 Yamaha Corp 音信号処理装置およびプログラム
JP2010136035A (ja) * 2008-12-04 2010-06-17 Sony Corp 音楽再生システムおよび情報処理方法
JP2011107715A (ja) * 2005-06-15 2011-06-02 Qnx Software Systems (Wavemakers) Inc スピーチエンドポインタ
US8069039B2 (en) 2006-12-25 2011-11-29 Yamaha Corporation Sound signal processing apparatus and program
JP2012112570A (ja) * 2010-11-24 2012-06-14 Hitachi Appliances Inc 空気調和機
JP2018156044A (ja) * 2017-03-21 2018-10-04 株式会社東芝 音声認識装置、音声認識方法及び音声認識プログラム

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002244697A (ja) * 2001-02-16 2002-08-30 Casio Comput Co Ltd 音声認証装置、音声認証方法、及びプログラム
US6847930B2 (en) * 2002-01-25 2005-01-25 Acoustic Technologies, Inc. Analog voice activity detector for telephone
US7620544B2 (en) 2004-11-20 2009-11-17 Lg Electronics Inc. Method and apparatus for detecting speech segments in speech signal processing
KR100677396B1 (ko) * 2004-11-20 2007-02-02 엘지전자 주식회사 음성인식장치의 음성구간 검출방법
JP2011107715A (ja) * 2005-06-15 2011-06-02 Qnx Software Systems (Wavemakers) Inc スピーチエンドポインタ
JP2008158316A (ja) * 2006-12-25 2008-07-10 Yamaha Corp 音信号処理装置およびプログラム
JP2008158315A (ja) * 2006-12-25 2008-07-10 Yamaha Corp 音信号処理装置およびプログラム
US8069039B2 (en) 2006-12-25 2011-11-29 Yamaha Corporation Sound signal processing apparatus and program
JP2010136035A (ja) * 2008-12-04 2010-06-17 Sony Corp 音楽再生システムおよび情報処理方法
US8315406B2 (en) 2008-12-04 2012-11-20 Sony Corporation Music reproducing system and information processing method
JP2009157406A (ja) * 2009-04-15 2009-07-16 Yamaha Corp 音信号処理装置およびプログラム
JP4506896B2 (ja) * 2009-04-15 2010-07-21 ヤマハ株式会社 音信号処理装置およびプログラム
JP2012112570A (ja) * 2010-11-24 2012-06-14 Hitachi Appliances Inc 空気調和機
JP2018156044A (ja) * 2017-03-21 2018-10-04 株式会社東芝 音声認識装置、音声認識方法及び音声認識プログラム
US10579327B2 (en) 2017-03-21 2020-03-03 Kabushiki Kaisha Toshiba Speech recognition device, speech recognition method and storage medium using recognition results to adjust volume level threshold

Similar Documents

Publication Publication Date Title
JP4868999B2 (ja) 音声認識方法、音声認識装置及びコンピュータプログラム
JP4729927B2 (ja) 音声検出装置、自動撮像装置、および音声検出方法
EP1355296B1 (en) Keyword detection in a speech signal
US6721699B2 (en) Method and system of Chinese speech pitch extraction
JP3451146B2 (ja) スペクトルサブトラクションを用いた雑音除去システムおよび方法
JPH0968994A (ja) パターンマッチングによる単語音声認識方法及びその方法を実施する装置
JP2002091466A (ja) 音声認識装置
JP2000310993A (ja) 音声検出装置
JP4791857B2 (ja) 発話区間検出装置及び発話区間検出プログラム
EP0474496B1 (en) Speech recognition apparatus
JP2016042152A (ja) 音声認識装置及びプログラム
JP2002366192A (ja) 音声認識方法及び音声認識装置
JP2000163098A (ja) 音声認識装置
JP2008058876A (ja) 音声信号区間推定方法、及びその装置とそのプログラムとその記憶媒体
JP4325044B2 (ja) 音声認識システム
JPH11327593A (ja) 音声認識システム
JP4659556B2 (ja) 音源方向検出装置
JP2502880B2 (ja) 音声認識方法
JP2004341340A (ja) 話者認識装置
JPH09127982A (ja) 音声認識装置
JP2001083978A (ja) 音声認識装置
JP3484559B2 (ja) 音声認識装置および音声認識方法
CN111226278A (zh) 低复杂度的浊音语音检测和基音估计
JPH11154000A (ja) 雑音抑圧装置及び該装置を用いた音声認識システム
JP2001265368A (ja) 音声認識装置および認識対象検出方法