JP2000515987A

JP2000515987A - 音声活性度検出器

Info

Publication number: JP2000515987A
Application number: JP10504909A
Authority: JP
Inventors: ガーナー、ニール・ロバート; バレット、ポール・アレキサンダー
Original assignee: British Telecommunications PLC
Current assignee: British Telecommunications PLC
Priority date: 1996-07-03
Filing date: 1997-07-02
Publication date: 2000-11-28
Anticipated expiration: 2017-07-02
Also published as: EP0909442A1; US6427134B1; DE69716266D1; CN1225736A; WO1998001847A1; AU3352997A; DE69716266T2; KR20000022285A; EP0909442B1; JP4307557B2

Abstract

(57)【要約】移動電話装置に配置するのに適した音声活性度検出器を開示した。この音声活性度検出器の長所は、入力信号(19)がノイズから成る（送信に適していない）か、またはとくに騒々しい環境で、言語または情報トーン（送信に適している）を含むかに関して判断部(79)でより良く判断できることである。音声活性度検出器は多数の構成要素、とくに補助音声活性度検出器(3)を含む。補助音声活性度検出器(3)は、ノイズのスペクトルよりも一層迅速に言語のスペクトルが変化することに基いてノイズと言語とを区別する。したがって、補助音声活性度検出器(3)は言語信号をノイズ信号と間違えることは殆どない。こうして非常に信頼できるノイズテンプレート(421)が得られる。このために、補助検出器(3)はノイズ低減応用においても有益である。この音声活性度検出器はさらにニューラルネットワーク分類器(7)も使用する。

Description

【発明の詳細な説明】音声活性度検出器本発明は、音声活性度検出器に関する。音声活性度検出器は、主音声活性度検出器内に備えられた補助音声活性度検出器との関連で、またノイズ低減装置装置内に備えられるときに、とくに有益である。このような補助音声検出器を含む主音声活性度検出器はとくに、騒々しい環境で動作することが必要なことがある移動電話において使用するのに適している。セルラ無線システムを使用できる電磁スペクトル領域が限られているので、最近１０年間で移動電話のユーザ数が著しく増加したために、セルラ無線装置の供給者は実効電磁スペクトルの利用効率を高める方法を発見しなければならなくなった。この目的を達成できる１つの方法は、セルラ無線システム内のセルの大きさを小さくすることである。しかしながら、隣のセルからの干渉レベル（同一チャンネル（コチャンネル）干渉）が許容範囲以上に高くなる前にのみ、セルの大きさをそのように小さくできることが分かっている。同一チャンネルインターフェイスを小さくするために、不連続送信(discontinuous-transmission)と呼ばれる方法が使用されている。この方法は、移動電話のユーザが話をしでいるときのみ言語表示信号を送るように移動電話を構成することを含む。この方法は所定の会話では１度に当事者の一方のみが話をするのが普通であるという観察に基いている。不連続送信を実行することによって、同一チャンネル干渉の平均レベルを下げることができる。したがって、システム内のセルの大きさを小さくできること、したがってシステムがより多くの加入者をサポートできることを意味している。移動電話のユーザが話をしているときに音表示信号のみを送ると、別の長所として移動電話のハンドセット内のバッテリの寿命が長くなる。音声活性度検出器は不連続送信ができるようにするために使われる。この検出器の目的は、所定の信号がノイズのみから成るか、または信号が言語を含むかを示すことである。送られることになる信号がノイズのみから成ると音声活性度検出器が示すときは、信号は送られない。今日の多くの移動電話は、欧州特許出願第335521号に記載された音声活性度検出器に類似したものを使用している。本明細書に記載された音声活性度検出器では、入力音表示信号のスペクトルとノイズ信号のスペクトルとの間の類似性を測定する。この比較で使用するノイズスペクトルは、ノイズであると判断された入力信号の初期部分から得られる。この判断は、主音声検出器の構成要素である補助音声活性度検出器が行なう。言語を含む信号が移動電話によって送られことが重要であり、かつ主音声活性度検出器の判断が補助音声検出器によってノイズとして識別された信号に基いているので、補助音声検出器は、判断し難い状況では信号が言語を含んでいると判断する傾向があることが望ましい。音声活性度検出器によって言語として識別される会話の割合は、検出器の音声活性度ファクタ（または単に“活性度”）と呼ばれている。実際に言語を含む会話の割合は、通常３５乃至４０％である。したがって、主音声活性度検出器はこの範囲内またはこれよりも僅かに高い活性度をもち、一方で補助音声活性度検出器は著しく高い活性度をもてることが理想的である。周知の活性度検出器は種々の環境で良好な動作を示すが、騒々しい環境ではこの動作が不十分であることが分かっている。移動電話は、車の中、街路、せわしいオフィス、列車の駅、または空港で動作できることが要求されている。したがって騒々しい環境で確実に動作できる音声活性度検出器が要求されている。本発明の第１の態様にしたがって次の音声活性度検出器、すなわち：動作中に信号の１対の時間セグメントにおけるスペクトルの類似度、すなわち該１対の時間セグメントの一方が第１の時間間隔だけ他方の時間セグメントより遅れていることと示す少なくとも１つの第１のスペクトル差測度を計算するようにされている手段と；動作中に少なくとも１つの第２のスペクトル差測度を計算し、信号の１対の時間セグメントにおけるスペクトルの類似度を、１対の時間セグメントの一方が、前記第１の時間間隔とは異なる第２の時間間隔だけ遅れていると示すようにされている手段と；動作中に少なくとも前記第１と第２のスペクトル差測度に基いてスペクトルの不規則さの測度を計算するようにされている手段と；動作中に前記スペクトルの不規則さの測度と閾値の測度とを比較するようにされている手段とを含む音声活性度検出器を提供する。この音声活性度検出器は、入力信号がノイズから成ることを確実に判断するという長所をもつ。上述のように、これは信号を識別するのに使用する補助音声活性度検出器の望ましい特性であり、装置は別のプロセスを実行するとき、この信号をノイズテンプレートとして使用する。さらに異なる時間間隔に関係して導き出されるスペクトル差測度を結合することによって、本発明の音声活性度検出器は、異なる時間間隔で信号の安定性の程度を考慮に入れる。例えば、第１のスペクトル差測度を第１の比較的に長い時間間隔に対して計算し、第２のスペクトル差測度を比較的に短い時間間隔に対して計算するとすると、短い期間と長い期間の両方の信号の安定性が、第１と第２のスペクトル差測度を結合するスペクトルの不規則さの測度に影響を与えることになる。ノイズのスペクトルは、言語とは異なり、８０ミリ秒乃至１秒の範囲の時間間隔では少なくとも安定しているので、本発明の音声活性度検出器は騒々しい環境で確固たる性能を示す。所定の長さの時間は４００ミリ秒乃至１秒の範囲がよい。比較的迅速に時間にしたがって変化する言語スペクトルの特徴は、比較的に緩慢に時間にしたがって変化するノイズスペクトルの特徴から最も良く区別することができる。好ましいのは、前記スペクトルの不規則さの測度を計算する手段が、動作中に前記スペクトルの異なる測度の加重（重み付け）した和を計算するようにされていることである。この長所は、言語／ノイズを判断するとき、言語スペクトルとノイズスペクトルとの間の安定性の差が一番明らかである時間間隔についてそこから求めたスペクトル差測度に対してより大きい加重を与えることができることである。本発明の第２の態様にしたがって：補助音声活性度検出器として動作可能な本発明の第１の態様の音声活性度検出器を含む音声検出器を提供する。補助ノイズ検出器は活性度が高いので、入力信号がノイズから成るという判断が正しいと信頼できる。さらに、補助音声活性度検出器がノイズ信号を正しく識別することを頼みとして、主音声活性度検出器は正しく動作するので、本発明の第２の態様にしたがう音声活性度検出器は、信号が言語を含むかまたはノイズのみから成るかを確実に判断する。本発明の第３の態様にしたがって：本発明の第１の態様の音声活性度検出器と；動作中に前記音声活性度検出器によってノイズから成ると判断された各時間セグメントから１または複数のスペクトルを得て、このスペクトルに基いて推定ノイズスペクトルを与えるようにされている手段と；動作中に前記信号の次の時間セグメントから得られるスペクトルから前記推定ノイズスペクトルを差引くようにされている手段とを含むノイズ低減装置を提供する。当業者に知られているように、スペクトル減算方法は、強められる信号から減算されるノイズが本質的に安定しているときのみ十分に機能する。したがって、スペクトル減算装置と本発明の第１の態様にしたがう音声活性度検出器との組合せにより、とくに効果的なノイズ低減装置を形成する。その理由は本発明の第１の態様の音声活性度検出器の動作は、ノイズ信号が所定の時間長において十分に安定しているときのみ、入力信号がノイズから成ると判断するからである。一般的に、確実なノイズテンプレートを必要とする装置は、本発明の第１の態様の音声活性度検出器を含むことによって恩恵を受けることになる。本発明の第４の態様にしたがって、動作中に入力信号から特徴値を抽出するようにされている手段、および動作中に複数の前記特徴値を処理して、前記入力信号がノイズから成るか否かを示す値を出力するようにされているニューラルネットワーク手段を含む音声活性度検出器を提供する。この装置の長所は、ニューラルネットワークを一旦トレーニングすると、入力パラメータと、解析的に簡単に決められない出力判断との間の関係をモデル化できることである。ニューラルネットワークをトレーニングするプロセスは大きな労力が必要であるが、ニューラルネットワークをトレーニングしてしまえば、アルゴリズムの計算の複雑さは既知のアルゴリズムで見付かっている複雑さよりも簡単である。これはもちろん、大量生産されそうな音声活性度検出器のような製品について見れば長所となる。好ましいのは、ニューラルネットワークへの入力パラメータは送られる信号から導き出されるセプトラル係数を含む。これらは言語とノイズを区別するのに有益なパラメータであることが分かっている。本発明の第５の態様にしたがって、音声活性度検出方法であり、次の段階、すなわち：信号の１対の時間セグメントのスペクトルの類似度、すなわち該対の時間セグメントの一方が第１の時間間隔だけ他方の時間セグメントよりも遅れていることを示す少なくとも１つの第１のスペクトル差測度を計算する段階と；信号の１対の時間セグメントのスペクトルの類似度、すなわち該対の時間セグメントの一方が前記第1の時間間隔とは異なる第２の時間間隔だけ他方の時間セグメントよりも遅れていることを示す少なくとも１つの第２のスペクトル差測度を計算する段階と；少なくとも前記第１および第２のスペクトル差測度に基いて、スペクトル不規則さ測度を計算する段階と；前記スペクトル不規則さ測度と閾値の測度とを比較する段階と；前記信号が比較に基いて前記信号がノイズから成るか否かを判断する段階とを含む音声活性度検出方法を提供する。この方法は、ノイズ信号と言語信号との間の差を確固たるものにする(robust) という長所をもつ。本発明の第６の態様にしたがって、一連の所定の周波数のスペクトル特性の値を表示するスペクトル強化方法を提供し、それは信号を強めるのに次の段階、すなわち：前記所定の各周波数で、前記周波数の前記スペクトル特性値と隣合う周波数の前記特性値とを比較し、前記所定の周波数のスペクトル値の調整を計算し、前記計算は、前記所定の周波数のスペクトル値が前記隣接する周波数スペクトル値の何れよりも大きいときに調整が大きくなり、前記所定の周波数のスペクトル値が前記隣合う周波数のスペクトル値の何れよりも小さいときに調整が小さくなるものである段階と；前記計算された調整にしたがってスペクトル内の前記スペクトル値のそれぞれを調整する段階とを含むスペクトル強化方法である。ここで、本発明の特定の実施形態を例示的に添付の図面に関係付けて記載することにする。図１は、第１の実施形態を構成している音声活性度検出器の動作を示すブロック図である。図２は、図１の音声活性度検出器の構成要素を形成している補助音声活性度検出器の動作を示すブロック図である。図３は、スペクトル減算部品の構成要素の動作を示すブロック図である。図４は、分類器の構成要素の動作を示す模式図である。図５は、周知の音声活性度検出器のブロック図である。図１に示した音声活性度検出器は移動電話装置で使用するように構成されており、信号19を入力して、この信号に対して一連のプロセス２、３、４、５、６、７（それぞれ長方形で表されている）を実行し、判断部79に到達して、入力信号がノイズのみから成っているか否かを判断する。各プロセス２、３、４、５、６、７を終了すると、パラメータまたはパラメータの組29、39、49、59、69、79（それぞれ楕円形で表されている）を生成する。これらのプロセス２、３、４、５、６、７のそれぞれは適切なディジタル信号処理集積回路（ＤＳＰＩＣ）、例えばＡＴ＆ＴＤＳＰ３２Ｃ浮動小数点３２ビットプロセッサによって実行することができる。音声／情報のトーンおよび／またはノイズを表すディジタル信号19を音声活性度検出器へ入力する。信号19は、８ｋＨｚのレートでアナログ信号から導き出され、各サンプルは１３ビットで表される。信号19は音声活性度検出器へ２０ミリ秒のフレームで入力され、各フレームは１６０サンプルから成る。信号19はフィルタバンクプロセス２へ入力され、各入力フレームに対して２５６ポイントの高速フーリエ変換を実行する。このプロセス２は３２の周波数帯域エネルギ29を出力し、３２の周波数帯域エネルギ29は、次の値と結合した３２の各周波数帯域内に含まれる入力信号フレームの電力の一部を表している（周波数はＨｚで表されている）： 100,143,188,236,286,340,397,457,520,588,659,735,815,900,990,1085,1186, 1292,1405,1525,1625,1786,1928,2078,2237,2406,2584,2774,2974,3186,3410,36 4 8,3900。したがって第１の周波数は１００Hz乃至１４３Hzであり、第２の周波数は１４３Hzから１８８Hzであり、などである。低い周波数帯域は、高い周波数帯域と比較して比較的に狭いことが分かるであろう。フィルタバンク２によって出力される周波数帯域エネルギ29は、補助音声活性度検出器（補助ＶＡＤ）３およびスペクトル減算プロセス４へ入力される。ここで図２を参照すると、補助音声活性度検出器３は周波数帯域エネルギ29を入力し、一連のプロセス31,32,33,34を実行し、補助判断部39で信号フレーム19 がノイズのみから成っているか否かを判断する。補助判断39を実行するのに使用する第１のプロセスはプロセス31である。プロセス31は、各周波数帯域エネルギ29の基数を１０とする対数をとること、およびその結果を１０で乗算して、３２の周波数帯域ログエネルギ311を与えることを含む。先の３０の入力エネルギ信号フレームからのログエネルギは、ＤＳＰＩＣに設けられたメモリの適切な領域に記憶される。スペクトルの不規則さを計算するプロセス32は最初に、現在の入力信号フレーム19からのログエネルギ311と、第１、第２、および第３の信号フレームからのログエネルギ314,313,312とを一緒に入力する。第１、第２、および第３のフレームは、それぞれ現在の入力信号フレームの前に３０フレーム（すなわち、６００ミリ秒）、２０フレーム（すなわち、４００ミリ秒）、１０フレーム（すなわち、２００ミリ秒）を生じている。現在のフレームの各周波数帯域内のログエネルギ311と第３のフレーム内の対応する各周波数帯域内のログエネルギ312との差の大きさが分かる。こうして得られた３２の差の大きさを加算して、第１のスペクトル差の測度を得る。同様のやり方で、第２、第３、および第４のスペクトル差の測度が分かり、これらはそれぞれ、第２および第３のフレームからのログエネルギ313,312、第１および第２のフレームからのログエネルギ314,313、および第１および現在のフレームからのログエネルギ314,311の間の差を示すものである。第１、第２、第３のスペクトル差測度は、２００ミリ秒ずつ離れているフレーム間の差の測度であることが分かる。第４のスペクトル差測度は、６００ミリ秒ずつはなれているフレーム間の差の測度である。故に第１乃至第４のスペクトル差測度を一緒に加算して、スペクトルの不規則さの測度321を準備する。したがってスペクトルの不規則さの測度は、２００ミリ秒間隔の信号の安定性と６００ミリ秒を越える信号の安定性の両方を反映している。この実施形態では、スペクトルの不規則さの測度は、４つのスペクトル差測度の単純な和から構成されてはいるが、その代りに加重して加算できることが認識されるべきである。例えば、第１、第２、および第３のスペクトル差測度に、第４の差の測度よりも大きな加重値を与えるか、またはその逆も可能である。当業者には、２００ミリ秒間隔の３つの測度と６００ミリ秒間隔の１つのみの測度とをもつということの効果は、より短い間隔で生ずるスペクトルの差についてより大きな重みが加えられるようなスペクトルの不規則さの測度を与えることになることが認識されるであろう。次にスペクトルの不規則さの測度321は閾値設定プロセス33へ入力され、そこで測度321が所定の定数Ｋを越えるか否かを判断する。このプロセスの出力はノイズ状態であり、測度321が所定の定数よりも小さいときは真であり、そうでなければ偽である。先の２つのフレームに基いて得られるノイズの状態は、ＤＳＰＩＣに設けられたメモリ内の適切な場所に記憶される。ノイズ状態はハングオーバ（未決）プロセス34へ入力され、補助判断部39へ出力され、ノイズ状態が真であることが分かったとき、および先の２つのフレームから導き出されたときのノイズ状態が同じく真であったときには、現在の信号フレームがノイズのみから成ることを示す。さもなければ、補助判断部は現在のフレームが言語を含むことを示す。本発明の発明者は、ノイズから成る信号のスペクトル特性が言語を含む信号のスペクトル特性よりも変化がより遅いことを発見した。とくに４００ミリ秒乃至１秒間隔のノイズ信号のスペクトル特性間の差は、同様の間隔の言語信号についての対応する差よりも著しく小さい。補助音声活性度検出器（図２参照）はこの差を使用して、ノイズから成る入力信号と言語を含む入力信号とを区別する。この音声活性度検出器は種々の応用、とくにノイズ低減方法に使用できると考えられる。ノイズ低減方法では、信号が現在ノイズであるという表示を出して、ノイズ信号の現在の推定値を形成し、次に入力信号から減算する。図１に戻って、補助音声活性度検出器（図２参照）によって出力される補助判断部39は周波数帯域エネルギ29と共にスペクトル減算プロセス４へ入力される。スペクトル減算プロセスは、図３により詳しく示されている。第１に、周波数帯域エネルギ29は圧縮プロセス41でそれらを幕(power)５／７まで乗羃することによって圧縮する。次に圧縮された周波数帯域エネルギはノイズテンプレートプロセス42へ入力される。現在の入力信号フレームＮ1から導き出した圧縮された周数帯域エネルギ、および先の３つのフレームから導き出した圧縮された周波数帯域エネルギはＮ2、Ｎ3、Ｎ4は、ＤＳＰＩＣのメモリ内の４つのフィールド内のフレームに対する補助判断と一緒に記憶される。現在のフレームおよび先の３つの入力フレームがノイズとして示されるとき、４つの圧縮された周波数帯域エネルギＮ1、Ｎ2、Ｎ3、Ｎ4の平均をとって、ノイズテンプレート421を準備する。ノイズテンプレート421を更新する度に、それをスペクトル強化プロセス43へ入力する。スペクトル強化プロセスは、多数の強化段階を含む。ｎ番目の強化段階ではｎ倍に強化したスペクトルを生成する。したがって、第１の強化段階は最初のノイズテンプレートを１回強化したノイズテンプレートに変換し、次に第２の段階に入力して、２回強化したノイズテンプレートを準備し、８番目の最後の段階で８回強化したノイズテンプレートが生成されるまで、同様のことを行なう。スペクトル強化プロセスで実行される段階を表す疑似コードは次式の通りであり、ここでｎは考慮している周波数帯域、Ｘ（ｎ）は第ｎ周波数帯域のエネルギ値を示す。下方減少量(downward decrease amount)はαの被乗数である。 x(n)>x(n-1)のとき、x(n)=x(n)+α(x(n)-x(n-1)) x(n)>x(n+1)のとき、x(n)=x(n)+α(x(n)-x(n+1)) x(n)<x(n-1)のとき、x(n)=x(n)-α(x(n-1)-x(n)) x(n)<x(n+1)のとき、x(n)=x(n)-α(x(n+1)+n)-x(n)) 最初に、最低の（第１の）周波数帯域に対する圧縮されたエネルギ値と第２の周波数帯域に対する圧縮されたエネルギ値との間の差を計算する。その後、第２の周波数帯域と第３の周波数帯域のそれぞれに対する圧縮されたエネルギ値の差を計算する。対応する差を３１番目の周波数帯域と３２番目の周波数帯域間の差までそれぞれ計算する。これらの差は、ＤＳＰＩＣのメモリ内の適切な場所に記憶される。各強化段階では、入力ノイズテンプレートの各周波数帯域の入力エネルギ値を調整して、エネルギ値と、隣合う周波数帯域に関係するエネルギ値との間の差を大きくする。この計算で使用する差は、現在の強化段階中に生成された調整された値ではなく、入力エネルギ値に基く差である。より詳しくは、各強化段階で調整された第１の周波数帯域エネルギ値を生成するには、入力された第１の周波数帯域エネルギ値と入力された第２の周波数帯域エネルギ値との間の差の大きさの５％だけを入力された第１の周波数帯域エネルギ値を調整する。この調整では、２つのエネルギ帯域値間の差を大きくするのに効果を出すために、増加するか低減するかを選択する。入力された第２の周波数帯域エネルギ値に対する調整は２つの隣合う周波数帯域エネルギ値に依存するので、調整は２つの段階で計算される。第１に、部分的に調整した第２の周波数帯域エネルギ値を得るのに、第２と第３の周波数帯域エネルギ値間の差に基いて５％の調整を行なう。次に第２の周波数帯域エネルギ値の第２の調整を、第２および第３の周波数帯域エネルギ値間の差に基いて同様のやり方で行なう。３２番目の周波数帯域のエネルギ値を除いて、他の各周波数帯域に対してこのプロセスを繰返す。３２番目の周波数帯域のエネルギ値は、１つのみの隣合う周波数帯域エネルギ値をもつ。この場合の調整は第１の周波数帯域エネルギ値に類似する。調整された周波数帯域エネルギ値よりも隣合う周波数帯域エネルギ値の一方が高く、他方が低いとき、２つの調整は互いに打消すことになる。スペクトル強化プロセス43の第２の段階では、同様の調整プロセスを行なって、１回強化したノイズテンプレートに基いて２回強化したノイズテンプレートを準備する。８つ全ての強化段階を実行すると、各周波数帯域エネルギ値をスケーリングファクタ、例えば０．９で乗算する。本発明の発明者は、スペクトル強化プロセス43の取入れることは、“ミュージカル(musical)”スペクトル減算ノイズを取入れずに、ノイズ低減応用の通常の値（例えば、１．１）からスケーリングファクタを低減できることを発見した。スペクトル強化プロセス43によって出力される調整されたノイズテンプレート 431は、修正していないノイズテンプレート421で調べられたものよりも一層明らかな高調波を示す。このやり方でスペクトル強化プロセス43は、人間の聴覚皮質 (auditory cortex)で発生する“ラテラルインヒビション（側音抑制）(lateral inhibition)（眼の網膜に投じられた画像の縁を人間の脳が知覚に至るプロセス）”として知られるプロセスをモデル化する。この調整により、信号対背景雑音比が１０ｄＢよりも大きい状況で主音声活性度検出器（図１参照）の動作が向上することが分かっている。減算プロセス44では、現在の入力信号フレームから導き出した周波数帯域の圧縮されたエネルギ411の対応する値から、調整されたノイズテンプレート431を差引いて、圧縮された修正エネルギ441を出力する。次に圧縮された修正エネルギ441は制限プロセス45に入力され、ここでは単に、１対１よりも小さい圧縮された修正エネルギ値を設定する。このやり方で小さい制限値を採入れると、圧縮された修正エネルギ値のぞれぞれを拡大段階46でパワー１．４（すなわち、段階41の圧縮指数の逆数）まで増加して、修正周波数帯域エネルギ39を準備する。図１を再び参照すると、メル周波数セプストラル係数(Mel Frequency Cepstra l Coefficients）では計算プロセス５では修正周波数帯域エネルギ49を入力されると、現在の入力信号フレームの修正周波数帯域エネルギ49に基いて現在の入力信号フレームに対する１６のメル周波数セプストラル係数を計算する。対数取りプロセス６では、プロセス31で行なったのと類似した動作を修正周波数帯域エネルギ49で実行して、対数どりした修正周波数帯域エネルギ69を準備する。分類プロセス７は、完全に接続した多層パーセプトロンアルゴリズムを使用して実行される。このアルゴリズムで使用する加重値は、片側半分がノイズであり、残りの半分が言語である６５４５のフレームを使用して、モーメント（α＝１００，ε＝０．０５）をもつ後方伝搬アルゴリズムを使用するアルゴリズムをトレーニングして得られる。各加重値を更新する前にトレーニングデータの１００のサンプルが送られ、トレーニングデータが２００回通される。図４を参照すると、多層パーセプトロンは４８の入力ノード71をもつ。１６のメル周波数セプストラル係数（ＭＦＣＦ）59および３２の対数どりされた修正周波数帯域エネルギ69は、図面には示されていない手段によって０と１の間に位置するように正規化されて、各入力ノードへ入力される。各入力ノード71は、接続 72（図面には１つのみが参照符号を記載されている）を介して２０の第１ノード 73（同じく、図面には１つのみが参照符号を記載されている）各１つにそれぞれ接続される。各接続72は、トレーニングプロセスによって設定される関係付けられた加重ファクタｘをもつ。各第１ノードの値は、各入力ノード値と関係付けられた加重ファクタの積を加算することによって計算される。各第１ノードから出力される値は、第１のノード値に関する非線形関数を実行することによって得られる。この場合、この非線形関数はシグモイド（Ｓ字形）である。各第１ノード73からの出力は、接続74（再び、各接続は関係付けられた加重ファクタをもつ）を介して８つの第２のノード75の１つに接続される。第２のノード値は、入力ノード値に基いて第１ノード値を計算するのに使用した方法に類似した方法を使用して、第１ノード値に基いて計算する。再び第２のノードの出力は、シグモイド関数を使用して変更される。８つの第２のノード75はそれぞれ、各接続76を介して出力ノード77に接続される。出力ノードの値は、第１のノードからの出力に基いて第２のノードを計算する方法に類似した方法で、第２のノード75からの出力に基いて計算する。出力ノードの値は、０と１の間に位置する単一の浮動小数点である。この値が0．５よりも大きいときは音声活性度検出器によって出力される判断79は、現在の入力信号フレームが言語を含むか、さもなければ入力信号フレームがノイズのみから成っていることを示す。判断79が主音声活性度検出器の出力を形成していることが分かるであろう（図１参照）。代りの実施形態では、多層パーセプトロンは第２の出力ノードを準備して、入力信号のフレームが情報トーン（例えばダイヤルトーン、話中音、またはＤＴＭＦシグナリングトーン）を含むことを示す。言語のクリッピング（一部の音を落とすこと）を減らすために、出力判断は、出力ノード値が現在の入力信号フレームに対して０．５超えていて、かつ先の入力信号フレームに対して０．５超えていたときは、入力信号フレームがノイズから成ることを示すことだけができる。幾つかの実施形態では、入力信号フレームは最初の短かい期間（例えば、１秒）はノイズから成るという趣旨で、音声活性度検出器は判断を出力することをディスエーブルすることができる。本発明の第２の実施形態は、基準文献で規定された改良型の補助音声検出器を提供する。基準文献には:"European Digital Cellular Telecommunications（ph ase 2）;Voice Activity Detector（VAD）(GSM(Global System for Mobile Comm unication)06.32)ETS300 580-6"がある。これは、図５に示した我々の欧州特許第0 335 521号に記載した音声活性度検出器(Voice Activity Detector)に対応している。ノイズを含む言語信号は入力601で受信される。メモリ602はノイズの周波数スペクトルの推定値またはモデルを定めるデータを含む；このデータと現在の信号のスペクトルとの間で比較(603)を行ない、閾値と比較して(604)、類似性の測度を得る。ノイズ成分の変化を追跡するために、言語が存在しないときのみノイズモデルを入力から更新する。さらに、閾値を調節することができる（アダプタ60 6）。誤った判断にしたがって次第に調節が不正確になる危険性を無くして、ノイズのみの期間だけ調節を行なうことを確実にするために、無声音検出器608と有声音検出器609を備えた補助検出器607の制御のもとで調節を行なう：検出器607は、該検出器の何れかが言語を認識し、主検出器の更新および閾値の調節を抑制するときに言語が存在すると考える。無声音検出器608は、信号に対して１組のＬＰＣ(Linear Predictive Coding)係数を得て、連続するフレーム期間の間でこれらの係数の自己相関関数を比較し、一方で有声音検出器609はＬＰＣの残りの自動相関の変形を調べる。無声音検出器608では、信号スペクトルの安定性の測度を使用して、入力信号が無声音を含むか否かに関する判断を形成する。とくに、入力信号の隣の８０ミリ秒のブロック間のスペクトル差測度のフレームの変化を閾値と比較して、ブールの安定性の判断を行なう。使用されるスペクトル差測度はItakura-Saitoの歪み測度の変数であり、各８０ミリ秒のブロックのスペクトル表示は、それを構成している２０ミリ秒のフレームの自己相関関数の平均をとることによって導き出される。本発明の第２の実施形態は、この判断の確実性を向上する。本発明の第２の実施形態にしたがって、解析される信号ブロックを多数の小ブロックに、例えば１６０ミリ秒のブロックを８つの２０ミリ秒の小ブロックに分割する。次に無声音／ノイズの判断は、小ブロックの対の全ての組合わせ（この例では、₈Ｃ₂＝２８の比較）間のスペクトル差測度を計算し、個々の距離を加算して、単一の測定基準を形成することによって決定される。得られた測定基準は、解析されるブロックのスペクトルの安定性の測度である。この安定性測度は、上述のＧＳＭ基準で記載した基準よりも一層正確である。その理由は、この安定性測度は小ブロックの対の間のスペクトルの類似性、すなわち隣合うブロック間の単なる類似性ではなく、異なる間隔（２０ミリ秒、４０ミリ秒、６０ミリ秒、 …１４０ミリ秒）で間隔をおいた構成要素を考慮しているからである。Itakura- Saitoの歪み測度(Itakura-Saito Distortion Measure)の変形では、各２０ミリ秒の信号フレームに対して使用可能な自動相関関数から計算できるので、この方法は上述のＧＳＭＶＡＤと簡単に合成できる。当業者は他のスペクトル測度、例えばＦＦＴ応用方法も使用できることが分かるであろう。さらに、上述の単一の測定基準を導き出すときに、歪み測度の加重して組合わせたものを使用することができる。例えば、導き出すときに使用する小ブロック間の間隔に比例して、歪み測度を加重することができる。

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｈ０４Ｂ 7/26 (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＤＥ，ＤＫ，ＥＳ，ＦＩ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ)，ＯＡ(ＢＦ，ＢＪ，ＣＦ，ＣＧ，ＣＩ，ＣＭ，ＧＡ，ＧＮ，ＭＬ，ＭＲ，ＮＥ，ＳＮ，ＴＤ，ＴＧ)，ＡＰ(ＧＨ，ＫＥ，ＬＳ，ＭＷ，ＳＤ，ＳＺ，ＵＧ，ＺＷ)，ＥＡ(ＡＭ，ＡＺ，ＢＹ，ＫＧ，ＫＺ，ＭＤ，ＲＵ，ＴＪ，ＴＭ)，ＡＬ，ＡＭ，ＡＴ，ＡＵ，ＡＺ，ＢＡ，ＢＢ，ＢＧ，ＢＲ，ＢＹ，ＣＡ，ＣＨ，ＣＮ，ＣＵ，ＣＺ，ＤＥ，ＤＫ，ＥＥ，ＥＳ，ＦＩ，ＧＢ，ＧＥ，ＧＨ，ＨＵ，ＩＬ，ＩＳ，ＪＰ，ＫＥ，ＫＧ，ＫＰ，ＫＲ，ＫＺ，ＬＣ，ＬＫ，ＬＲ，ＬＳ，ＬＴ，ＬＵ，ＬＶ，ＭＤ，ＭＧ，ＭＫ，ＭＮ，ＭＷ，ＭＸ，ＮＯ，ＮＺ，ＰＬ，ＰＴ，ＲＯ，ＲＵ，ＳＤ，ＳＥ，ＳＧ，ＳＩ，ＳＫ，ＳＬ，ＴＪ，ＴＭ，ＴＲ，ＴＴ，ＵＡ，ＵＧ，ＵＳ，ＵＺ，ＶＮ，ＹＵ，ＺＷ (72)発明者バレット、ポール・アレキサンダーイギリス国、アイピー２・７エックスワイ、イプスウィッチ、ケスグレイブ、フレッチャーズ・レーン 18

Claims

【特許請求の範囲】１．音声活性度検出器において：動作中に信号の１対の時間セグメントにおけるスペクトルの類似度、すなわち該１対の時間セグメントの一方が第１の時間間隔だけ他方の時間セグメントより遅れていることと示す少なくとも１つの第１のスペクトル差測度を計算するようにされている手段と；動作中に少なくとも１つの第２のスペクトル差測度を計算し、信号の１対の時間セグメントにおけるスペクトルの類似度を、１対の時間セグメントの一方が、前記第１の時間間隔とは異なる第２の時間間隔だけ遅れていると示すようにされている手段と；動作中に少なくとも前記第１と第２のスペクトル差測度に基いてスペクトルの不規則さの測度を計算するようにされている手段と；動作中に前記スペクトルの不規則さの測度と閾値の測度とを比較するようにされている手段とを含む音声活性度検出器。２．前記所定の長さの時間が８０ミリ秒乃至１秒の範囲である請求項１記載の音声活性度検出器。３．前記スペクトルの不規則さの測度計算手段が、動作中に前記スペクトルの差の測度の加重した和を計算するようにされている請求項１または２記載の音声活性度検出器。４．補助音声活性度検出器として動作可能な請求項１乃至３の何れか１項記載の音声活性度検出器を含む音声検出器。５．動作中に前記補助音声活性度検出器によってノイズから成ると判断された各時間セグメントから得られる１または複数のスペクトルに基いで、推定ノイズスペクトルを準備するようにされている手段と；動作中に前記信号の次の時間セグメントから得たスペクトルから前記推定されたノイズスペクトルを差引くようにされている手段とをさらに含む請求項４記載の音声活性度検出器。６．請求項１乃至３の何れか１項記載の音声活性度検出器と；動作中に前記音声活性度検出器によってノイズから成ると判断された各時間セグメントから１または複数のスペクトルを得て、このスペクトルに基いて推定ノイズスペクトルを与えるようにされている手段と；動作中に前記信号の次の時間セグメントから得られるスペクトルから前記推定ノイズスペクトルを差引くようにされている手段とを含むノイズ抑制装置。７．動作中に入力信号から特性値を抽出するようにされている手段と；動作中に複数の前記特性値を処理して、前記入力信号がノイズから成るか否かを示す値を出力するようにされているニューラルネットワーク手段とを含む音声活性度検出器。８．前記抽出手段が、動作中に前記信号スペクトル内の複数の各周波数帯域においてパワーを表すフィルタバンク値を与えるようにされているフィルタバンクをさらに含む請求項７記載の音声活性度検出器。９．前記抽出手段が、動作中に前記フィルタバンク値を処理して、セプストラル係数を含む特性値を得るようにされている手段をさらに含む請求項８記載の音声活性度検出器。１０．前記抽出手段がさらに、動作中に前記フィルタバンク値を処理して、フィルタバンク値の対数を含む特性値を得るようにされている手段をさらに含む請求項８または９記載の音声活性度検出器。１１．前記ニューラルネットワーク手段が別の出力をもち、その値が前記信号が情報トーンであるか否かを示す請求項７乃至１０の何れか１項記載の音声活性度検出器。１２．補助音声活性度検出器として動作する請求項１乃至３の何れか１項記載の音声活性度検出器と；動作中に、前記音声活性度検出器によってノイズから成ると判断された各時間セグメントから得られた１または複数のスペクトルに基いて、推定ノイズスペクトルを準備するようにされている手段と；動作中に前記信号の次の時間セグメントから得られるスペクトルから前記推定ノイズスペクトルを差引くようにされている手段ととをさらに含む請求項７乃至１１の何れか１項記載の音声活性度検出器。１３．請求項１乃至１２の何れか１項記載の音声活性度検出器を含む移動無線装置。１４．音声活性度検出方法であり、次の段階、すなわち：信号の１対の時間セグメントのスペクトルの類似度、すなわち該対の時間セグメントの一方が第１の時間間隔だけ他方の時間セグメントよりも遅れていることを示す少なくとも１つの第１のスペクトル差測度を計算する段階と；信号の１対の時間セグメントのスペクトルの類似度、すなわち該対の時間セグメントの一方が前記第１の時間間隔とは異なる第２の時間間隔だけ他方の時間セグメントよりも遅れていることを示す少なくとも１つの第２のスペクトル差測度を計算する段階と；少なくとも前記第１および第２のスペクトル差測度に基いて、スペクトル不規則さ測度を計算する段階と；前記スペクトル不規則さ測度と閾値の測度とを比較する段階と；前記信号が比較に基いて前記信号がノイズから成るか否かを判断する段階とを含む音声活性度検出方法。１５．前記所定の長さの時間が８０ミリ秒乃至１秒の範囲である請求項１４記載の方法。１６．前記スペクトルの不規則さの測度計算段階が、前記スペクトルの差の測度の加重した和を形成することを含む請求項１４または１５の何れか１項記載の方法。１７．一連の所定の周波数のスペクトル特性値を表示するスペクトル強化方法であり、信号を強めるのに次の段階、すなわち：前記所定の各周波数で、前記周波数の前記スペクトル特性値と隣合う周波数の前記特性値とを比較し、前記所定の周波数のスペクトル値の調整を計算し、前記計算において、前記所定の周波数のスペクトル値が前記隣接する周波数スペクトル値の何れよりも大きいときに調整が大きくなり、前記所定の周波数のスペクトル値が前記隣合う周波数のスペクトル値の何れよりも小さいときに調整が小さくなる段階と；前記計算された調整にしたがってスペクトル内の前記スペクトル値のそれぞれを調整する段階とを含むスペクトル強化方法。１８．前記比較において：前記所定の周波数スペクトル値を得ること；隣合うより低い周波数で前記特性値を得ること；隣合うより高い周波数で前記特性値を得ること；前記より低い周波数スペクトル値を越える前記所定の周波数スペクトル値について下方減少量を計算すること；前記より高い周波数スペクトル値を越える前記所定の周波数スペクトル値について上方減少量を計算すること；前記より低い周波数スペクトル値よりも少ない前記所定の周波数スペクトル値を次第に減少していく増加量を計算すること；前記より高い周波数スペクトル値よりも少ない前記所定の周波数スペクトル値を次第に増していく増加量を計算すること；および、前記調節計算は、前記調整が、計算した低減量に基いて増加されるか、あるいは計算した増加量に基いて低減されること含む請求項１７記載の方法。１９．前記調節段階が：計算した低減量に非線形に比例する量だけ前記所定の周波数値を増加すること；または、計算した増加量に非線形に比例する量だけ前記所定の周波数値を低減することを含む請求項１８記載の方法。２０．請求項１７、請求項１８、または請求項１９の方法を複数回繰返すことを含む請求項１７乃至１９の何れか１項記載の方法。２１．請求項１７乃至２０の何れか１項にしたがうスペクトルの強化を含む音声活性度検出方法。２２．信号の時間セグメントに基いてスペクトルを計算する手段であり、動作中に信号の第１の時間セグメントに基づいて第１のスペクトルを、また信号の第２の時間セグメントに基づいて第２のスペクトルを計算するようにされていて、前記第２のセグメントが前記第１のセグメントよりも所定の長さの時間だけ遅れているようにする、スペクトルを計算する手段と；スペクトル間のスペクトル差測度を計算する手段であり、動作中に前記第１と第２のスペクトル間のスペクトルの差を示すスペクトル差測度を計算するようにされている計算する手段と；動作中に少なくとも前記スペクトル差測度に基いてスペクトルの不規則さの測度を計算するようにされているスペクトルの不規則さの測度を計算する手段と；前記スペクトルの不規則さの測度を閾値の測度と比較する手段と；前記比較に基いて前記信号がノイズから成るか否かを判断する手段とを含み；前記所定の長さの時間が、言語信号スペクトルの時間にしたがって変化する特性を明らかにするのに十分な大きさであり；前記スペクトルを計算する手段がさらに、動作中に前記所定の長さの時間内に含まれる前記信号の時間セグメントに基いて１または複数の中間スペクトルを計算するようにされており；前記スペクトルの差測度を計算する手段がさらに、動作中に前記中間スペクトルの幾つかまたは全てと前記第１および第２のスペクトルとの間の中間スペクトルの差の測度を計算するようにされており；前記スペクトルの不規則さの測度を計算する手段が、動作中に前記スペクトルの差の測度および前記中間スペクトルの差の測度に基いてスペクトルの不規則さの測度を計算するようにされている音声活性度検出器。２３．実質的に、図１を引用して上述に記載して示された音声活性度検出器。２４．上述で実質的に記載された音声活性度検出方法。