JPH1097269A

JPH1097269A - 音声検出装置及び方法

Info

Publication number: JPH1097269A
Application number: JP8250632A
Authority: JP
Inventors: Osamu Mizuno; 理水野; Kiyoaki Aikawa; 清明相川; Shigeki Sagayama; 茂樹嵯峨山
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1996-09-20
Filing date: 1996-09-20
Publication date: 1998-04-14

Abstract

(57)【要約】【課題】雑音耐性に優れ，音声信号の音素数に依存しな
い音声検出を行う音声検出装置及び方法を提供する．【解決手段】入力信号の音響的特徴量を抽出する音響的
特徴量検出部13と，雑音信号の音響的特微量の分布を学
習して求め，特徴量分布メモリ18に記憶する雑音特徴量
分布学習部17と，記憶した分布と入力信号の音響的特微
量の存在領域との距離を表す確率値を求め，入力信号の
音響的特徴量と予め記憶された雑音信号の音響的特微量
とを比較する確率計算部14と，その比較結果に基づいて
音声信号を含んだ信号の区間を検出する音声区間検出部
15とから構成されている．

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は，音声信号を含む区
間を，入力信号の中から検出する信号処理装置及び方法
に関するものである．本発明による音声信号の検出は，
音声認識のための音声区間検出や，音声によって機器を
制御するボイススイッチ等に利用できる．

【０００２】

【従来の技術】以下では，従来の３つの技術について音
声検索技術について説明する．はじめに，音声の振幅
（パワー）に基づいた音声検出技術について説明する．
ここで，パワーとは入力信号の単位時間あたりの２乗和
である．入力信号の中で入力信号のパワーがある閾値以
上に達したフレームを音声の母音のフレームと仮定し，
その前後数フレームを含めて音声区間として検出する．
パワーによる検出方法では，音声のパワーが周囲の雑音
のパワーより大きいことを仮定するために，周囲の雑音
が大きくなると音声を検出できなくなるという問題があ
る．

【０００３】つぎに，音声の基本周波数（ピッチ周波
数）に基づいた音声検出技術について説明する．母音定
常部のピッチ周波数は50Hzから500Hzであるので，入力
信号のピッチ周波数を調べ，これが50Hzから500Hzの範
囲内にあるフレームを母音のフレームと仮定し，その前
後数フレームを含めて音声区間として検出している．ピ
ッチ周波数は，倍ピッチや半ピッチなどの要因により安
定して抽出することが難しいという問題がある．また，
周波数が50Hzから500Hz以内である場合を音声とみなす
ため，この周波数範囲内にピッチ周波数を持つ信号は雑
音であっても音声と誤検出してしまうという問題があ
る．母音部の波形のピッチ周期での相関性が高いことを
利用してピッチ周波数を求めているため，雑音が音声に
重畳すると高い相関値が得られなくなり，音声を検出で
きなくなるという問題もある．

【０００４】つぎに，音声のスペクトル変化に基づいた
音声検出方法について説明する．話し言葉などの言語音
声の場合，音素は固有のスペクトルパターンを持ってい
るため，音素と音素の境界においてスペクトル変化量が
大きくなる．スペクトル変化量のピークは，およそ音素
の間隔で観測される．この点では定常音や緩やかに流れ
る音楽，そして歌声のスペクトル変化は異なる．入力さ
れた信号のスペクトル変化の単位時間あたりの頻度を調
べ，これが言語音声にみられる特徴と一致する場合を言
語音声として検出する．スペクトル変化の頻度を調べる
ため音素数の少ない音声信号であったり，冗長性があっ
て時間あたりのスペクトルの変化頻度の少ないものは検
出が難しいという問題がある．

【０００５】

【発明が解決しようとする課題】従来のパワーによる検
出方法では，周囲の雑音のパワーが大きくなると音声の
パワーと区別できず誤って雑音を音声として誤検出する
場合がある．ピッチ周波数による検出方法では，雑音が
定常的であるとは限らないため安定してピッチ周波数が
得られなくなり音声を全く検出できない場合や雑音を音
声として誤検出する場合がある．スペクトル変化に基づ
いた方法では，１音素からなる単語のようにスペクトル
変化の頻度が少ない音声信号では誤検出する場合があ
る．雑音環境下で音声認識のための音声区間検出やボイ
ススイッチを実現するためには，雑音耐性に優れ，音声
信号の音素数に依存しない音声検出技術が必要である．
本発明の目的は，雑音環境下においても入力信号から音
声を含む信号を検出するこのような技術を提供すること
にある．

【０００６】

【課題を解決するための手段】上記課題を解決するた
め，請求項１記載の音声検出装置は，音声が雑音環境下
で発せられた信号の中から音声の部分のみを検出する信
号処理装置において，入力信号の音響的特徴量を抽出す
る音響的特徴量検出手段と，音響的特徴量検出手段によ
って抽出された入力信号の音響的特徴量と予め記憶され
た雑音信号の音響的特微量とを比較する比較手段と，そ
の比較結果に基づいて音声信号を含んだ信号の区間を検
出する音声区間検出手段とを備えることを特徴としてい
る．

【０００７】また，請求項２記載の音声検出装置は，上
記比較手段が，雑音信号の音響的特微量の分布を学習し
て記憶し，その分布と入力信号の音響的特微量の存在領
域との距離を表す確率値を求め，その確率値と所定の閾
値と比較することによって入力信号の音響的特徴量と雑
音信号の音響的特微量とを比較することを特徴としてい
る．

【０００８】また，請求項３記載の音声検出装置は，上
記音響的特微量が，ＬＰＣケプストラム，またはＦＦＴ
ケプストラムであることを特徴としている．

【０００９】また，請求項４記載の音声検出方法は，音
声が雑音環境下で発せられた信号の中から，声の部分の
みを検出する信号処理方法において，音声の発せられる
雑音環境下での雑音信号の音響的特微量をもとめ，その
特微量と入力信号の特徴量とが異なっている場合に，そ
の区間を音声信号を含んだ信号として検出することを特
徴としている．

【００１０】また，請求項５記載の音声検出方法は，上
記雑音信号の音響的特微量と入力信号の音響的特微量と
の比較の過程において，雑音信号の特微量の分布を学習
し，その分布と入力信号の特微量の存在領域との距離を
確率的に表現することを特徴としている．

【００１１】また，請求項６記載の音声検出方法は，上
記信号を表現する特微量が，ＬＰＣケプストラム，また
はＦＦＴケプストラムであることを特徴している．

【００１２】本発明では雑音信号の音響的特微量が入力
信号の音響的特微量と異なる信号を音声信号を含んだ信
号として検出している．従って，パワーやピッチ周波数
による検出方法と比べ雑音耐性が高く，動的尺度による
検出方法のように音素数に依存しない検出ができる．

【００１３】

【発明の実施の形態】以下，図面を参照して，本発明の
一実施形態について説明する．図１は本発明による音声
検出装置を示すブロック図である．信号入力端子11から
入力された入力信号は，Ａ／Ｄ変換部12でアナログ／デ
ィジタル変換されて，音響特徴量抽出部13へ入力され
る．音響的特徴量抽出部13は，入力されたディジタル信
号に基づいて，時刻ｔにおける次元数Ｎの音響的特徴量
ベクトルｃ_k(ｔ)を求める．ここで，ｋは次元数であ
り，音響的特徴量ベクトルｃ_k(ｔ)は，ＬＰＣ（線形予
測符号化）ケプストラムあるいはＦＦＴ（高速フーリエ
変換）ケプストラムとすることができる．なお，音響的
特徴量ベクトルｃ_k(ｔ)を求める計算方法については，
例えば，文献「デジタル音声信号処理」，著者古井，東
海大学出版会発行に記載されているような周知の手法を
用いることができる．信号入力端子11から入力された入
力信号が検出対象の信号である場合は，音響的特徴量抽
出部13で求められた音響的特徴量ベクトルｃ_k(ｔ)は，
直接，確率計算部14へ入力される．

【００１４】本音声検出装置においては，音声信号を検
出を行うに先立ち予め検出対象の音声が発せられる雑音
環境下での雑音信号の音響的特微量を用意しておく必要
がある．これは，所定の雑音信号を検出対象の信号と同
様に信号入力端子11に入力して行うことができる．この
場合，入力された雑音信号は，Ａ／Ｄ変換部12，音響的
特徴量抽出部13，及び所定の切り替え手段を経て，雑音
特徴量分布学習部17へ供給される．雑音特徴量分布学習
部17は，入力された雑音信号に基づいて，雑音環境下で
の特微量の分布を学習して求め，それを特徴量分布メモ
リ18に格納する．特徴量の分布は，平均μk，分散σkに
よって表すことができる．特微量の分布の学習は，例え
ば，予め所定の記憶手段に記憶しておいた複数種類の音
声信号の特徴量と複数種類の雑音信号の特徴量とを合成
する等して行うことができる．

【００１５】確率計算部14は，入力信号の音響的特徴量
ベクトルｃ_k(ｔ)と，予め特徴量分布メモリ18に記憶さ
れている雑音信号の音響的特微量の分布とを用いて，入
力信号の音響的特徴量と雑音信号の音響的特徴量の比較
を行う．次元間の相関がないとすると時刻ｔの入力信号
と雑音との距離を表す確率値Ｐ(ｔ)は，

【００１６】

【数１】

【００１７】によって表現できる．確率計算部14は，求
めた確率値Ｐ(ｔ)に対してハミング窓によってスムージ
ングをかけ，その結果と所定の閾値とを比較する．これ
は雑音のスペクトル平均と音声のスペクトル平均の差分
をとる動的尺度（「音声の動的尺度に含まれる個人性情
報」，著者嵯峨山および板倉，日本音響学会昭和54年度
春季研究発表会講演論文集，3-2-7，pp．589-590（197
9）参照）を発展させた窓関数と考えることができる．
つまり，音声区間であれば，音声信号を含むスペクトル
と学習した雑音のスペクトルとの距離が大きくなり，Ｐ
(ｔ)の値が小さく（すなわち−logＰ(ｔ)が大きく）な
る．従つて，−logＰ(ｔ)について閾値を設けることで
音声／非音声の判別ができる．

【００１８】つぎに確率計算部14における入力信号の音
響的特徴量と雑音信号の音響的特徴量の比較結果は，音
声区間検出部15へ供給される．音声区間検出部15は，確
率値の対数の負の値−logＰ(ｔ)が所定の閾値より大き
いと判別された区間の始端及び終端を検出する．そし
て，音声検出区間出力部16が，検出した音声区間を示す
信号を出力装置あるいは後段の信号処理装置へ出力す
る．

【００１９】本発明の音声検出装置の構成は，図１に示
す構成に限定されることなく，例えば，雑音特徴量分布
学習部17へ直接雑音信号を入力して特徴量の分布を学習
する等の変更が可能である．

【００２０】本発明の他の応用例としてパラメータ時系
列から特定のパターンを検出するのにも応用できる．医
療用スペクトル等に用いれば不整脈検出にも使うことが
できる．

【００２１】

【実施例】本発明による音声検出方法の実施例を説明す
る．ＡＴＲ（国際電気通信基礎技術研究所）音声データ
ベースの216単語セット男女計４名分に前後１秒間のポ
ーズを付け，その信号全区間に電子協の騒音データベー
スより「自動車走行音」，「人混み」の２種類を0dB，1
0dBで重畳させる．雑音を重畳した信号から雑音の確率
分布を求めるため前から数十フレーム間の音響的特微量
を求め，各次元毎の平均と分散を求める．音響的特微量
は，ＬＰＣケプストラムの分析条件を窓幅32ms，シフト
幅8ms，分析次数16次でもとめ，△ケプストラムの分析
窓幅は19フレームとする．続けて入力信号の音響的特微
量を求め，雑音の確率分布から上記(２)式により各時刻
の確率値Ｐ(ｔ)を求める．確率値の時系列の数フレーム
間に関してハミング窓によつてスムージングし最終的に
得られた確率値から予め決定した閾値によって音声区間
を決定する．

【００２２】図２に本手法と動的尺度による検出方法と
の比較を行った結果を示す．雑音学習フレーム数は30フ
レームである．動的尺度による検出方法の分析条件は分
析窓400ms，フレーム周期200msである．そのため，±20
0ms，±300msの範囲で評価を行った．動的尺度による方
法と比べて本手法は誤差範囲を厳しくした場合での検出
率が高いことが分かる．また，「人混み」雑音0dBでは
許容誤差を±300msにしても動的尺度による結果を上回
っている．図３に本手法による音声境界からの平均誤差
と標準偏差を示す．この図からも分かるように「人混
み」0dBを除いた検出結果に対して，始終端ともに高い
精度で検出していることが分かる．

【００２３】

【発明の効果】以上の通りであって，この発明は雑音信
号と音声信号を含んだ信号の音響的特微量の比較によっ
て検出を行うために，パワーの大きい雑音が重畳してい
る音声であっても，音声を含む信号を安定に検出でき
る．そして，単位時間あたりのスペクトルの変化頻度の
少ない音声信号であっても精度よく検出できる．よっ
て，背景雑音の大きい環境であっても，音声認識の前処
理として認識すべき音声区間を検出したり，ボイススイ
ッチとして利用することができる．また，さらに，雑音
を統計的に表現しているため，ＮＯＶＯ合成（「Recogn
ition of Noisy Speech by Composition of Hidden Mar
kov Models」F.Martin著,信学会音声研資,SP92-96（199
2-12)参照）にそのまま適用でき,音声認識の雑音耐性を
高められるという利点もある.

【図面の簡単な説明】

【図１】本発明による音声検出装置の一実施形態例を
示すブロック図である．

【図２】本発明の実施例による音声検出結果を示す図
である．

【図３】本発明の実施例の効果を示す図である．

【符号の説明】

13 音響的特徴量抽出部 14 確率値計算部 15 音声区間検出部 17 雑音特徴量分布学習部 18 特徴量分布メモリ

Claims

【特許請求の範囲】

【請求項１】音声が，雑音環境下で発せられた信号の中
から，音声の部分のみを検出する信号処理装置におい
て，入力信号の音響的特徴量を抽出する音響的特徴量検
出手段と，音響的特徴量検出手段によって抽出された入
力信号の音響的特徴量と予め記憶された雑音信号の音響
的特微量とを比較する比較手段と，その比較結果に基づ
いて音声信号を含んだ信号の区間を検出する音声区間検
出手段とを備えることを特徴とする音声検出装置．
【請求項２】上記比較手段が，雑音信号の音響的特微量
の分布を学習して記憶し，その分布と入力信号の音響的
特微量の存在領域との距離を表す確率値を求め，その確
率値と所定の閾値と比較することによって入力信号の音
響的特徴量と雑音信号の音響的特微量とを比較すること
を特徴とする請求項１記載の音声検出装置．
【請求項３】上記音響的特微量が，ＬＰＣケプストラ
ム，またはＦＦＴケプストラムであることを特徴とする
請求項１又は２記載の音声検出装置．
【請求項４】音声が，雑音環境下で発せられた信号の中
から，音声の部分のみを検出する信号処理方法におい
て，音声の発せられる雑音環境下での雑音信号の音響的
特微量をもとめ，その特微量と入力信号の特徴量とが異
なっている場合に，その区間を音声信号を含んだ信号と
して検出することを特徴とする音声検出方法．
【請求項５】上記雑音信号の音響的特微量と入力信号の
音響的特微量との比較の過程において，雑音信号の特微
量の分布を学習し，その分布と入力信号の特微量の存在
領域との距離を確率的に表現することを特徴とする請求
項４記載の音声検出方法．
【請求項６】上記信号を表現する特微量が，ＬＰＣケプ
ストラム，またはＦＦＴケプストラムであることを特徴
とする請求項４又は５記載の音声検出方法．