JPH0990974A

JPH0990974A - 信号処理方法

Info

Publication number: JPH0990974A
Application number: JP7246418A
Authority: JP
Inventors: Osamu Mizuno; 理水野; Satoshi Takahashi; 敏高橋; Shigeki Sagayama; 茂樹嵯峨山
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1995-09-25
Filing date: 1995-09-25
Publication date: 1997-04-04
Also published as: EP0764937B1; EP0764937A2; US5732392A; EP0764937A3; DE69613646T2; DE69613646D1

Abstract

(57)【要約】【課題】パワーの大きい雑音が重畳している音声であ
っても安定して音声区間のみを検出することができ、パ
ワーパターンが音声と類似している雑音に対してこれを
非音声として判別することができる信号処理方法を提供
する。【解決手段】音声が雑音環境下において発せられた信
号の内から音声の区間のみを検出する信号処理方法にお
いて、入力信号のスペクトルの単位時間あたりの変化量
を計算し、スペクトルが変化する頻度が音声区間中の頻
度と類似している区間を音声として検出する信号処理方
法。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、信号処理方法に
関し、特に、音声が含まれている信号の内から音声区間
のみを検出する信号処理方法に関する。

【０００２】

【従来の技術】音声区間検出技術の従来例を説明する。
先ず、音声のパワーである振幅に基づいて音声区間を検
出する技術について説明する。ここで、パワーとは単位
時間あたりの入力信号の２乗和である。入力信号中の入
力信号のパワーが或る閾値以上に達するフレームを音声
の母音のフレームであるものと仮定し、その前後数フレ
ームを含めて音声区間として検出する。しかし、この方
法によると、単語の継続時間長程度続くパワーの大きな
信号はすべて音声として誤検出するという問題が生ず
る。例えば電話のベル或はドアの閉まる音の如きパワー
の大きな音は音声として検出されることとなる。また、
この方法には、周囲雑音のパワーが大きくなる程、音声
のパワー区間を検出するのが困難になるという問題もあ
る。

【０００３】次に、音声の基本周波数であるピッチ周波
数に基づいて音声区間を検出する技術について説明す
る。この方法は、母音定常部のピッチ周波数が５０Ｈｚ
から５００Ｈｚ程度の範囲内にあることを利用する。入
力信号のピッチ周波数を調べてこれが上述の範囲内にあ
るフレームを母音のフレームと仮定し、その前後数フレ
ームを含めて音声区間として検出する。しかし、この方
法によると、ピッチ周波数がこの周波数範囲内にある信
号は雑音であっても音声として誤検出されることにな
る。また、ピッチ周波数の検出方法は、波形がピッチ周
期で相関が強いことを利用するものが多いところから、
雑音が音声に重畳するとこれに災いされて高い相関値が
得られなくなり、正しいピッチ周波数が求められず、音
声を検出することができなくなるという問題もある。

【０００４】

【発明が解決しようとする課題】以上の信号処理方法に
おける音声区間検出技術の従来例である音声のパワーに
よる音声区間検出方法には、周囲の雑音のパワーが大き
いとこれを音声区間のパワーと区別することができず、
雑音を誤って音声として検出する問題がある。そして、
ピッチ周波数による音声区間検出方法は、雑音が音声に
重畳した場合に安定したピッチ周波数が得られなくな
り、音声を検出することができなくなる場合がある。

【０００５】この発明は、音声に特徴的な情報を利用し
て雑音環境下においても安定に入力信号から音声区間を
検出することができる信号処理方法を提供するものであ
る。

【０００６】

【課題を解決するための手段】音声が雑音環境下におい
て発せられた信号の内から音声の区間のみを検出する信
号処理方法において、入力信号のスペクトルの単位時間
あたりの変化量を計算し、スペクトルが変化する頻度が
音声区間中の頻度と類似している区間を音声として検出
する信号処理方法を構成した。

【０００７】そして、先の信号処理方法において、スペ
クトルの変化量を計算する過程において初めに各時点の
スペクトルを表現する特徴量ベクトルの時系列を求め、
次に複数の時点の特徴量ベクトルを使用して動的特徴量
を計算し、動的特徴量のノルムからスペクトル変化量を
計算する信号処理方法を構成した。また、先の信号処理
方法において、動的特徴量は複数の時点の特徴量ベクト
ルの多項式展開係数である信号処理方法を構成した。

【０００８】更に、先の信号処理方法において、スペク
トルの単位時間あたりの変化量を計算し、スペクトルが
変化する頻度を、入力信号と予め音声から得られた頻度
を比較する過程において、音声に対して上記単位時間よ
り長い時間窓でスペクトルの変化量の和を計算してお
き、入力信号に対して同様にスペクトルの変化量の和を
計算し、その和の値が音声で得られた値の範囲内にある
場合にその区間を音声として検出する信号処理方法を構
成した。

【０００９】そして、先の信号処理方法において、スペ
クトルを表現する特徴量はＬＰＣケプストラム或はＦＦ
Ｔケプストラムである信号処理方法を構成した。また、
先の信号処理方法において、検出された区間のスペクト
ル特徴量が音声のスペクトル特徴量の存在し得る領域に
ある場合にその区間を音声区間として検出する信号処理
方法を構成した。

【００１０】更に、先の信号処理方法において、検出さ
れた区間の信号の振幅値、零交差数、基本周波数の内の
何れか一つ或は複数の特徴量が音声の区間で得られる値
の範囲にある場合にその区間を音声区間として検出する
信号処理方法を構成した。

【００１１】

【発明の実施の形態】この発明は、入力信号のスペクト
ル変化量をスペクトルの特徴量時系列から求め、スペク
トルが変化する頻度が音声区間で求められる頻度と類似
している区間を音声区間として検出することを要旨とす
るものである。スペクトルの変化を捉えるには、先ず、
入力信号の各時点におけるスペクトルの特徴量ベクトル
を求め、次に、複数の時点の特徴量ベクトルからスペク
トルの動的特徴量を求め、動的特徴量ベクトルのノルム
からスペクトルの変化量を求める。音声区間におけるス
ペクトルの変化の頻度或は時間的なパターンを予め求め
ておき、入力信号においてこれと類似したスペクトルの
変化を示す区間を音声区間として出力する。スペクトル
の特徴量は、ＦＦＴスペクトル或はそのケプストラム係
数、フィルタバンクの出力値、その他のスペクトル概形
を表現する特徴量であれば何れであっても差し支えない
（「デジタル音声信号処理」、古井著、東海大学出版
会発行、参照）。また、動的特徴量は、特徴量時系列
の差分或は多項式展開係数、その他、スペクトル変化を
捉える特徴量であれば何れであっても差し支えない。ス
ペクトルの変化の頻度は、或る窓時間幅においてスペク
トル変化量のピークを数えたり、変化量の積分値を計算
したりしてスペクトル変化の度合いを捉えることができ
る方法を採用する。

【００１２】スペクトル変化により検出した音声区間
は、更に、スペクトルの包絡を表現する特徴量、ピッチ
周波数、振幅値、零交差数その他の音声の特徴量情報を
も使用して、これら一つ或は複数の数値が音声区間で得
られる値の範囲内にあるか否かを検証することにより、
音声区間検出精度を高めることができる。音声の内の特
に言語音声は、音素の連接であり、それぞれの音素に
は、特徴的なスペクトル包絡が存在する。したがって、
音素と音素の境界では、スペクトル変化量が大きくな
る。そこで、スペクトル変化に着目すると、音声信号は
音素長程度を単位とするスペクトル変化を伴う信号であ
ると特徴づけることができる。よって、予め、音声区間
にみられるスペクトル変化の頻度のとり得る範囲を求め
ておけば、入力信号のスペクトル変化の頻度が、その範
囲内に入った場合にその区間を音声区間として検出する
ことができる。

【００１３】この発明は、言語音声に特徴的なスペクト
ル変化の頻度に着目するので、パワーが大きな雑音で
も、音声と同じ頻度でスペクトル変化をしなければ、こ
れを音声と区別することができる。従って、定常的な雑
音、緩やかに流れる音楽その他のパワーの大きい未知入
力信号に対しても、これらを音声であるか否かを判別す
ることができる。また、音声信号に雑音が重畳している
場合であっても、入力信号のスペクトル変化量は正確、
且つ安定に捉えることができるので、高い精度の音声検
出をすることができる。更に、ゆるやかな歌声その他の
スペクトル変化頻度の相対的に低い信号を除去すること
ができる。

【００１４】以上はスペクトル変化の頻度に着目するも
のであるが、これに更に、入力信号の各時点のスペクト
ル包絡を表現する特徴量、ピッチ周波数、振幅値、零交
差数情報の一つ或は複数をも併用して音声であるか否か
を総合的に判定することにより、検出精度をより高める
ことができる。

【００１５】

【実施例】この発明の実施例を図を参照して説明する。
図１において、信号入力端子１１から入力される信号は
Ａ／Ｄ変換部１２においてディジタル信号に変換され
る。音響特徴量抽出部１３は、この変換されたディジタ
ル信号について音響特徴量、例えばＬＰＣケプストラム
或はＦＦＴケプストラムを計算する。動的尺度計算部１
４は、この音響特徴量に基づいてスペクトルの変化量を
計算する。時刻ｔにおける動的尺度Ｄ（ｔ）は、式
（１）のように計算される（「音声の動的尺度に含まれ
る個人性情報」、著者嵯峨山および板倉、日本音響学
会昭和５４年度春季研究発表会講演論文集、３−２−
７，ｐｐ．５８９−５９０（１９７９）参照）。

【００１６】ここで、Δｃ_tiは時刻ｔにおける第ｉ次のΔケプストラ
ム（ケプストラムの時系列の一次微係数）を示す（参照
文献「デジタル音声信号処理」、著者古井、東海大学
出版会発行、参照）。即ち、ケプストラムによりスペ
クトル包絡の特徴を表現し、Δケプストラムにより動的
特徴量を表現する。よって、動的尺度はスペクトルの変
化の大きさを表現することができる。

【００１７】音声区間検出部１５は、スペクトルの変化
の頻度、即ち動的尺度の変化の頻度に基づいて音声区間
を検出する。スペクトルの変化の頻度は、例えば音素を
複数個含むと考えられる４００ｍｓｅｃ程度のフレーム
区間内において、動的尺度のピークの数を数えたり、或
は動的尺度の総和を計算したりして調べる。音声区間に
おけるスペクトルの変化の頻度を予め計算しておき、閾
値を設けておく。この閾値の範囲内に入った入力信号の
フレームを音声のフレームとして検出する。最後に、音
声区間検出結果は音声検出区間出力部１６から出力す
る。

【００１８】図２は音声信号波形、およびこれに対する
動的尺度の変化のパターンの例を示す図である。音声デ
ータは、単語“けいかい（／ｋｅｉｋａｉ／）”と“さ
すが（／ｓａｓｕｇａ／）”を男性が発声したものであ
る。入力信号の動的尺度を求めるためのＬＰＣケプスト
ラムの分析条件は、窓幅２０ｍｓ、シフト幅１０ｍｓで
ある。そして、１００ｍｓの窓幅でΔケプストラムを計
算した。無音の部分或は音声の定常部においては動的尺
度は余り変化せず、音声の始終端或は音素の境界におい
てピークが現れているのが判る。

【００１９】図３は雑音が重畳した音声の検出結果の例
を説明する図である。入力信号波形は、２名の話者が発
生した単語“あいかわらず”を、５秒間の無音区間を間
にいれて連結した信号に、自動車走行音をＳ／Ｎ比０ｄ
Ｂで重畳させたものである。図３の上から２段目は、音
声が存在する区間を示す正解音声区間を示している。図
３の最下段は、入力信号に対する動的尺度の変化を示
す。上から３段目は、この動的尺度の変化に基づいて自
動的に決定した音声区間検出結果を示す。動的尺度は図
２で求めた条件と同じである。よって、動的尺度は１０
ｍｓ毎に得られ、これをフレーム長４００ｍｓ、シフト
幅２００ｍｓとしてその区間の動的尺度の総和を求め
た。ここにおいては、この和の値が４．０を超えるフレ
ームを音声区間であるとして検出した。なお、第２段、
第３段共に、網がけの区間が音声区間を示す。Ｓ／Ｎ比
が低いために、入力信号波形上においては音声区間が明
確に見えないが、この発明の方法によれば、全ての音声
区間が検出されていることがわかる。この発明が音声の
スペクトル変化の頻度を捉えるために、雑音中の音声を
検出できることを示している。

【００２０】図４はこの発明の他の実施例を説明する図
である。この実施例は、動的尺度とスペクトル包絡の情
報の双方を使用して音声区間を検出する。先の実施例と
同様に、信号入力端子１１から入力される信号は、Ａ／
Ｄ変換部１２においてディジタル信号に変換される。音
響特徴量抽出部１３は、この変換されたディジタル信号
について音響特徴量、例えばＬＰＣケプストラム或はＦ
ＦＴケプストラムを計算する。動的尺度計算部１４はこ
の音響特徴量に基づいて動的尺度を計算する。また、ベ
クトル量子化器１７は、ベクトル量子化符号帳メモリを
参照して、これから予め計算しておいた音声の特徴量の
代表ベクトルを読み出し、入力信号の特徴量ベクトルと
の間の量子化歪みを計算する。音声区間検出部１５は、
動的尺度の変化の頻度が音声区間にみられる範囲内に入
っており、且つ、音声の代表特徴量ベクトルとの量子化
歪みが小さいことを調べ、総合的に判定する。この実施
例はスペクトル包絡の特徴を調べるためにベクトル量子
化歪みを使用したが、ベクトル量子化符号の時系列から
それが音声に特徴的な系列であるか否かを調べることに
依ることもできる。また、スペクトル特徴量空間におい
て音声の判別空間を求める方法を採用することもある。

【００２１】ここで、動的尺度と音声の特徴量ベクトル
の双方の情報を組み合わせて音声を検出する実験例につ
いて述べる。この例は、音声と鳥の鳴き声が交互に発せ
られている入力信号に対する音声検出実験の例である。
実験は、大量の音声データから予めベクトル量子化符号
帳を求めた。音声データとしては、ＡＴＲ音声データベ
ースから５０単語、２５文章をそれぞれ２０名分使用し
た。量子化点数は５１２点である。特徴量ベクトルは、
１６次のＬＰＣケプストラム係数であり、窓幅は３０ｍ
ｓ、シフト幅は１０ｍｓである。１０ｍｓｅｃ毎に得ら
れる特徴量の量子化歪みの和をフレーム長４００ｍｓｅ
ｃ、シフト幅２００ｍｓｅｃで求めた。動的尺度につい
ても、同様に、フレーム長４００ｍｓｅｃ、シフト幅２
００ｍｓｅｃで和を求めた。動的尺度と量子化歪みに対
して、学習用音声から音声区間で取り得る値の範囲を予
め設定しておき、入力音声がこの範囲に入る場合に音声
区間として検出する。

【００２２】評価用の入力信号には、日本音響学会の連
続音声データベースから選んだ約５秒間の音声８文と約
５秒間程度の鳥の鳴き声８種類を交互に連結したものを
使用した。ここで、この実施例の性能を評価するために
次の様な尺度を設ける。フレーム検出率＝（正しく判別した音声のフレーム数）
／（評価データ中の音声のフレーム数）フレーム正答率＝（正しく判別した音声のフレーム数）
／（システムが音声として出力したフレーム数）正答率は、システムが音声のフレームであると示した結
果がどの程度正しいかを示す。検出率は、入力信号中に
存在する全ての音声のフレームをシステムがどの程度検
出することができたかを示す。評価データに対する音声
検出結果を、この尺度を使用して図５に示す。鳥の鳴き
声のスペクトル変化速度は音声のスペクトル変化速度に
非常に類似しているので、動的尺度のみに依っては、鳥
の鳴き声も音声として誤検出するところから、正答率は
低い。ベクトル量子化歪みを組み合わせて使用すると、
鳥の鳴き声のスペクトル包絡と音声のスペクトル包絡を
区別することができるので、正答率は向上する。

【００２３】この発明の音声区間の検出方法は、音声に
よって機器をＯＮ／ＯＦＦするボイススイッチ或は音声
認識のための音声区間検出に利用することができる。ま
た、ビデオ情報或はＣＤの音響情報データ中から音声が
発せられている部分だけを検索する様な音声検索にも利
用することができる。

【００２４】

【発明の効果】以上の通りであって、この発明は、音声
に特徴的なスペクトル変化の頻度を捉えて音声区間検出
を行なうため、パワーの大きい雑音が重畳している音声
であっても、安定して音声区間のみを検出することがで
きる。そして、パワーパタンが音声と類似している雑音
に対しても、スペクトル変化の速度が音声の音素の切り
替わる速度と異なる場合、非音声として判別することが
できる。よって、背景雑音の大きい環境下で音声認識装
置を使用する際に、前処理として認識すべき音声区間を
検出したり、音楽或は様々な音が入ったＴＶ、映画の如
きメディアの音響データから、人が話しをしている場面
を検索して、映像の編集や内容の要約をする技術に利用
することができる。また、この発明は音声の他の特徴で
あるパワー値、零交差数、或は基本周波数と組み合わせ
て音声区間を検出することにより、より高い精度の音声
区間の検出をすることができる。

【図面の簡単な説明】

【図１】実施例を説明する図。

【図２】実施例の途中結果として得られる動的尺度の変
化を示す図。

【図３】実施例による音声検出結果を示す図。

【図４】他の実施例を説明する図。

【図５】効果を示す図。

【符号の説明】

１１信号入力端子１２Ａ／Ｄ変換部１３音響特徴量抽出部１４動的尺度計算部１５音声区間検出部１６音声検出区間出力部１７ベクトル量子化器１８ベクトル量子化符号帳メモリ

Claims

【特許請求の範囲】

【請求項１】音声が雑音環境下において発せられた信
号の内から音声の区間のみを検出する信号処理方法にお
いて、入力信号のスペクトルの単位時間あたりの変化量を計算
し、スペクトルが変化する頻度が音声区間中の頻度と類
似している区間を音声として検出することを特徴とする
信号処理方法。
【請求項２】請求項１に記載される信号処理方法にお
いて、スペクトルの変化量を計算する過程において、初めに各
時点のスペクトルを表現する特徴量ベクトルの時系列を
求め、次に複数の時点の特徴量ベクトルを使用して動的
特徴量を計算し、動的特徴量のノルムからスペクトル変
化量を計算することを特徴とする信号処理方法。
【請求項３】請求項１および請求項２の内の何れかに
記載される信号処理方法において、動的特徴量は複数の
時点の特徴量ベクトルの多項式展開係数であることを特
徴とする信号処理方法。
【請求項４】請求項１ないし請求項３の内の何れかに
記載される信号処理方法において、スペクトルの単位時間あたりの変化量を計算し、スペク
トルが変化する頻度を、入力信号と予め音声から得られ
た頻度を比較する過程において、音声に対して上記単位
時間より長い時間窓でスペクトルの変化量の和を計算し
ておき、入力信号に対して同様にスペクトルの変化量の
和を計算し、その和の値が音声で得られた値の範囲内に
ある場合にその区間を音声として検出することを特徴と
する信号処理方法。
【請求項５】請求項１ないし請求項４の内の何れかに
記載される信号処理方法において、スペクトルを表現する特徴量はＬＰＣケプストラム或は
ＦＦＴケプストラムであることを特徴とする信号処理方
法。
【請求項６】請求項１ないし請求項５の内の何れかに
記載される信号処理方法において、検出された区間のスペクトル特徴量が音声のスペクトル
特徴量の存在し得る領域にある場合にその区間を音声区
間として検出することを特徴とする信号処理方法。
【請求項７】請求項１ないし請求項６の内の何れかに
記載される信号処理方法において、検出された区間の信号の振幅値、零交差数、基本周波数
の内の何れか一つ或は複数の特徴量が音声の区間で得ら
れる値の範囲にある場合にその区間を音声区間として検
出することを特徴とする信号処理方法。