JPH11500277A

JPH11500277A - 音声活性度検出

Info

Publication number: JPH11500277A
Application number: JP8524768A
Authority: JP
Inventors: ブリッジイズ、ジェイムズ・アンソニー
Original assignee: British Telecommunications PLC
Current assignee: British Telecommunications PLC
Priority date: 1995-02-15
Filing date: 1996-02-15
Publication date: 1999-01-06
Also published as: DE69612480D1; ES2157420T3; EP0809841B1; EP0809841A1; CA2212658C; US5978763A; HK1005520A1; NO973756L; NO973756D0; WO1996025733A1; MX9706033A; NZ301329A; FI973329A0; AU4672196A; CN1174623A; FI973329A; CA2212658A1; AU707896B2; DE69612480T2; KR19980701943A

Abstract

(57)【要約】音声活性度検出器（２６）は言語システム（２）から使用者へ送られる送出される言語信号を受ける入力と、使用者から到来する信号を受ける入力とを含んでいる。手段（２６３）は到来する信号の各フレームからの特徴を計算し、計算した特徴としきい値との関数を作るために備えられている。この関数に基いて、到来する信号が言語を含んでいるかいないかを判定する。対話形言語システムから送り出される言語の間にエコーリターンロスを判断し、かつ測定されたエコーリターンロスに依存してしきい値を制御するための手段が備えられている。

Description

【発明の詳細な説明】音声活性度検出この発明は音声活性度検出に関する。動作のためには言語検出に依存している自動化システムが多数存在し、例えば、自動言語システムやセルラ無線符号化システムがある。この種のシステムは言語の発生について使用者の装置からの伝送経路を監視して、言語発生時には適切な動作をとる。不運なことに、伝送経路は雑音がないということは稀である。そこで経路上の活性度を検出するために簡単に設置されるようなシステムは、雑音があるとすると正しくない動作をしてしまう。通常存在する雑音はライン雑音（すなわち、信号が伝送されていると否とに無関係に存在する雑音）と、電話会社からの背景雑音であり、犬の鳴き声、テレビジョンの音響、車のエンジンの雑音などである。通信システム内の別の雑音源はエコーである。例えば、公衆交換電話網（ＰＳＴＮ）内のエコーは、本質的には電気的及び／又は音響的接続、例えば通常の交換機ボックスの４線と２線とのインターフェースにおけるもの；あるいは受話器からマイクロホンへの電話ハンドセット内での音響的接続が原因している。音響的エコーは空中経路の変動が原因してある呼の中でも時間とともに変動する。すなわち、話者がその者の頭の位置をマイクロホン及びラウドスピーカの間で変えると変る。同じように、電話ボックス（キオスク）内では、ボックスの内部が制限されたダンピング特性をもち、かつ反響性があり、それが共鳴性質をもたらしている。これがまた話者がボックス内を動き回ったり、実際に空気の動きをもたらすときは、音響的エコー経路を変動させる。音響的エコーは、手を使わない電話機の使用が増大したことがあって、今日ではそれがますます重要な問題となってきている。全体のエコーもしくは反射経路のもたらす効果は信号を減衰させ、遅延させ、かつフィルタをかけることになっている。エコー経路はライン、スイッチングルート及び電話の形式に依存する。この意味は、反射経路の伝達関数を呼毎に違えることができるということであり、その理由は、ライン、スイッチングルート及びハンドセットのいずれかを、接続をするために選ばれるスイッチ機械を呼ごとに違えることにより、変えてよいことになるからである。人間同志の言語通信システムでのエコー制御を改良するためのいろいろな技術が知られている。三つの主な技術がある。第１に、挿入損失を話者の伝送経路に加えて、出て行く信号のレベルを減らすようにする。しかし、挿入損失は受けた信号が聴者には許容できないほど低いものとしてしまう原因となる。第２に、エコーサプレッサを送り用経路と受け用経路内の信号レベルを検出する原理に従って動作させ、次に、レベルを比較して切換え可能な挿入損失パッドをどのように動作させるかを決めるのである。言語が受け経路内で検出されたときに大減衰量が送り経路内に加えられる。エコーサプレッサは通常は長い方の遅延を有する接続で使用され、例えば国際電話リンクのような適当な固定挿入損失では十分でない場合に使われる。エコーキャンセラは音声で作動する装置であり、適応性信号処理を用いて、エコー経路伝達関数を推定することによってエコーを低減または除去する。送り出される信号がこの装置に加えられて、結果として得られた出力信号が受けた信号から差し引かれる。このモデルが実際のエコー経路を表わしているとすれば、エコーは理論的には打消されるはずである。しかし、エコーキャンセラは安定性問題をかかえていて、計算上は高価なものとなる。エコーキャンセラは学習中には雑音バーストに非常に敏感なものでもある。自動言語システムの一例は、電話応答機であり、これは呼者が残したメッセージを記録する。一般に、使用者が自動言語システムを呼出すと、助言（プロンプト）が使用者に働きかけ、この助言は普通は答えを求めるものである。こうして、言語システムから出て行く信号は伝送ラインに沿って使用者の電話機のラウドスピーカへ送られる。そこで使用者は助言への応答を用意し、それが言語システムに送られて、次にそこでは適切な動作が行なわれる。自動言語システムへの呼者に、システムから発せられる助言に割込をかけることを許すことは、このシステムの言葉使いに親しんでいる呼者達にとってシステムの使い勝手をよくするとして提案されてきた。この機能はときに“バージ・イン（会話への割込み、口出し；barge in）”とか“オーバーライダブル・ガイダンス(自動装置に対する人手の補助的誘導；over-ridable guidance)”とか呼ばれている。助言の間に使用者が話をすると、発声された単語が送出する助言のエコーによって先行され、もしくは変造されうるし、また本質的には、使用者からの隔離された（前後が静寂の）汚れ（エコーによる変造）のない単語の話声が埋め込まれた用語発声に変換される（基本的には言語システムへの入力は使用者の話した単語と送出助言とエコーとで成り、用語発声は言語システムの信号入力に埋め込まれている）。自動言語認識を含む自動言語システムでは、現状の言語認識技術のもつ制約の故に、この結果は認識性能の低下をもたらす。もし使用者が自動言語システムによって用意されるサービスを全く使ったことがなければ、使用者は言語生成器によって用意された助言をその全部について聞く必要があろう。しかし、使用者がサービスと各段階で必要とされる情報とに慣れてしまうと、使用者は助言が終る前に求められている応答を提供したくなることがある。言語認識機器又は記録手段が助言が完了するまでは同調が外れていると、使用者がする早い応答を認識しないことになる。これに対して、もし言語認識機器又は記録手段がいつも同調していると、入力は送出される助言と使用者により提供された応答との両方を含むことになる。このような信号は言語認識器によって認識できそうもない。音声活性度検出器(ＶＡＤ：Voice Activity Detect or)はそこで経路上の音声活性度を検出するために開発された。既知の音声活性度検出器は到来信号内の雑音の推定を生成し、その推定（固定とするか、話声のない期間内で更新するかのいずれか）と到来する信号とを比較することに依存している。この種の音声活性化システムは米合衆国特許No．５，１５５，７６０及び同４，４１０，７６３に記載されている。音声活性度検出器は到来する信号内の言語を検出するためと、そのような言語が検出されるときは送出される助言に割込みをかけて認識器をオンに切換えるためとに使用される。使用者が割込み（バージ・イン）をした場合にこれはよしとされる。しかし、もし音声活性度検出器が誤って言語を検出した場合は使用者はクリップ（切除）された助言を聞くことになり、このシステムをどのように進行させるかについての何の指示も受けないことになる。これは明らかに望ましくないことである。この発明は言語システムと一緒に使用するための音声活性度検出器を提供する。この音声活性度検出器は、言語システムから使用者へ送られる送出（出て行く）言語信号を受けるための入力と、その使用者からの到来信号を受けるための入力とを含み、出て行く信号と到来する信号との両方は限定されたフレーム内に分けられており、また到来する信号の各フレームからの特徴を計算するための手段と、計算された特徴としきい値との関数を作るための手段と、この関数に基づいて到来する信号が言語を含むか含まないかを判断するための手段とを備え、さらに対話形言語システムからの送出される言語信号の間にエコーリターンロスを判断して、測定されたエコーリターンロスに依存して前記しきい値を制御するための手段を備えていることを特徴とする。エコーリターンロスは送出される信号のレベルと、音声活性度検出器によって受けられた送出される信号のエコーのレベルとの差から求められる。エコーリターンロスは伝送経路による送出されている助言の減衰の尺度である。測定されたエコーリターンロスに基づいたしきい値を制御することはエコーが原因で音声活性度検出器によりトリガされる誤りの数を減らすだけでなく、使用者が大量のエコーを有するライン上で応答する場合に音声活性度検出器をトリガする数も減らしている。これは魅力あるものでないように見えるが、評価したいことは、音声活性度検出器にとっては使用者が割込むときにトリガしない方が、使用者が割込まなかったときにトリガする（これは切除した助言を使用者に残し、それ以上の援助をしないことになる）よりも望ましいことである。しきい値はエコーリターンロスと送出されている信号の最大可能パワー（電力）との関係であってよい。この両者はラインの長期間特性である（もっともエコーリターンロスを適時測定することができることではある）。好ましいのは、しきい値が最大パワーとエコーリターンロスとの差であることである。しきい値はエコーリターンロスと送出されている言語信号の各フレームから計算された特徴との関数であるのが好ましい（すなわち、しきい値が送出されている信号の各フレームの減衰を表わしているのが好ましい）。フレームエネルギーといった他の特徴を使うこともできるが、できれば、計算された特徴が信号の各フレームの平均パワーであるとよい。到来する信号の１つならず複数の特徴を計算して各種の機能を作ることができる。音声活性度検出器は、さらに、実質的に雑音のない言語と雑音をもつ信号とを含む少くとも１つの信号に対する計算された特徴を表わす統計的なモデルに関するデータを含むことができ、計算された特徴としきい値との関数がこの統計的モデルと比較される。この雑音をもつ統計的なモデルはライン雑音、及び／又は典型的な背景雑音、及び／又は送出されている信号のエコーを表わすことができる。この発明によると、音声活性度検出の方法も用意されており、その構成は、言語システムから使用者へ送られる出て行く言語信号を受け、また使用者から到来する信号を受ける段階と；ここでは出て行く信号と到来する信号とが時間制限されたフレームに分けられており、到来する信号の各フレームから特徴を計算する段階と；この計算された特徴としきい値との関数を形成する段階と；この関数に基づいて到来する信号が言語を含むか否かを判断する段階と；さらに特徴として言語システムから出て行く言語信号の間にエコーリターンロスを測定する段階と、測定したエコーリターンロスに依存してしきい値を制御する段階とを備えている。しきい値はエコーリターンロスと出て行く信号の最大可能パワー（電力）との関数であるのがよい。上述のように、しきい値はエコーリターンロスと、出て行く言語信号のフレームから計算された同じ特徴との関数であってよい。この計算された特徴は信号の各フレームの平均パワーであってもよい。この発明は添付の図面を参照して例についてさらに記述して行く。図１はこの発明の音声活性度検出器を含む自動言語システムを示す；図２はこの発明の音声活性度検出器の部品を示す；図１は自動言語システム２を示し、そこにはこの発明による音声活性度検出器を含み、それが公衆交換電話網（ＰＳＴＮ）を経て普通は電話機４である使用者端末に接続されている。自動言語システム２は送出用ライン８と到来用ライン１０とを経てハイブリッド変成器６に接続されている。使用者の電話は２ウエイライン１２を経てハイブリッドに接続されている。ＰＳＴＮ内のエコーは本質的には電気的及び／又は音響的接続、例えば４線と２線とのハイブリッド変成器６におけるインターフェース（矢印７で示す）である。音響的接続で、受話器からマイクロホン（送話器）への電話機４のハンドセット内のものは音響的エコー（矢印９で示す）を生じさせる。自動言語システム２は言語生成器２２、言語認識器２４及び音声活性度検出器（ＶＡＤ）２６で成る。言語生成器２２と言語認識器２４とはこの発明の部品を構成するものではないからこれ以上は触れない。当業者であれば、適当な言語生成器で例えば言語技術向けのテキストを用いたり、予め記録したメッセージを用いるものを使用できることは分ると思われる。さらに、言語認識器２４の適当な形式のものを使うこともできる。使用にあたっては、使用者が自動化された言語システムを呼出すときは、言語生成器２２が使用者に対する助言の役割をつとめ、助言は応答を通常は求める。したがって、言語システムから送り出される言語信号は伝送ライン８を通ってハイブリッド変成器６を通って送られ、変成器６はこの信号を使用者の電話４のラウドスピーカへ切換える。助言の終りには、使用者は応答を用意し、それがハイブリッド６と到来ライン１０を通って言語認識器２４へ送られる。言語認識器２４は次に応答を認識して、その結果に応じて適当な動作をとるようにする。ある使用者がこれまでに自動言語システムによって提供されたサービスを使ったことがないときは、この使用者は言語生成器２２によって提供された助言を全部聞きとる必要があろう。しかし、ある使用者が一度このサービスと各段階で必要とされる情報とに親しんでしまうと、使用者は助言が終る前に必要とされる応答を用意したいとすることになる。言語認識器２４が助言が終わるまでにオフにされると、使用者の先にした応答を認識するための試みがされないことになる。これに対して、もし言語認識器２４が常にオンとされていると、言語認識器への入力は送り出される助言と、使用者により用意された応答との両方のエコーを含むことになる。このような信号は言語認識器によっては認識できるものとはなりそうもない。音声活性度検出器２６は到来する信号内にある言語（すなわち使用者からの言語）を直接検出するために用意されている。言語認識器２４は、言語が音声活性度検出器２６によって検出されるまでは不動作モードで維持される。音声活性度検出器２６からの出力信号は言語生成器２２へ送られ、そこでは次に割込みがかけられ（助言が切除され）て、言語認識器２４は応答して活性となる。図２は音声活性度検出器２６でこの発明のものをもっと詳細に示している。この音声活性度検出器２６は言語生成器２２から送り出される助言信号を受けるための入力２６０と到来ライン１０を経て受ける信号を受けるための入力２６１とを備えている。各信号に対して、音声活性度検出器はフレームシーケンサ２６２を含み、そこで到来する信号が２５６の連続するサンプルで成るデータのフレームに分けられる。言語のエネルギーは１５ミリ秒の間、比較的定常であるから、３２ｍｓのフレームが望まれ、隣接するフレーム間で１６ｍｓの重なりをもつようにする。これはＶＡＤをインパルス性雑音に対して一層丈夫なものとする効果がある。データのフレームは次に特徴生成器２６３に送られ、そこで各フレームの平均パワーが計算される。ある信号のフレームの平均パワーは次の式で判断される。ここでＮはあるフレーム内のサンプル数で、今の場合は２５６である。エコーリターンロスは減衰の尺度であり、言い換えれば送り出される信号と反射した信号との間の差（デシベル表示）である。このエコーリターンロス（ＥＲＬ）は送り出される助言と戻って来るエコーとに対して計算された特徴の間の差であり、言い換えると、ここでＮは平均パワーＰｉが計算されることになるサンプルの数である。Ｎはできるだけ大きくするのが実用的である。図２から分るように、エコーリターンロスは送り出される助言の１フレームの平均パワーを到来するエコーの１フレームの平均パワーから減算して決定される。これは伝送経路８，１０をシステムからのある助言、例えば歓迎の助言で励起することで行なわれる。送り出される助言と戻って来るエコーとの信号レベルは次にフレームシーケンサ２６２と特徴生成器２６３とによって上述のように計算される。結果として得られる信号レベルは減衰器２６４によって減算されてエコーリターンロスを生じさせる。エコーリターンロスは次に減衰器２６５で伝送経路に対する最大可能パワーから差し引かれる。すなわち減衰器２６５はしきい値信号を計算する：典型的なエコーリターンロスは、その範囲は６〜３０ｄＢではあるが、約１２ｄＢである。Ａ法則信号に対する電話ライン上の最大可能パワーは約７２ｄＢである。ＥＲＬは最初の５０くらいの送出される助言のフレームから計算されるが、フレーム数としてその前後の値を使うこともできる。ひとたびＥＲＬが計算されると、スイッチ２６７が到来ラインに関するデータを減算器２６６に送るように切換える。しきい値信号が、次に、呼の残りの間に減算器２６６によって到来する信号の各フレームの平均パワーから減算される。こうして減算器２６６の出力は減算器２６６の出力は比較器２６８に送られ、そこでこの結果としきい値とが比較される。もしこの結果がしきい値を超えていると、到来する信号は使用者からの直接の言語を含んでいると思われ、またある信号が音声活性度検出器から出力されて言語生成器２２を不活性とし、かつ言語認識器２４を活性化する。もし結果がしきい値よりも下であれば、音声活性度検出器からは何も信号が出力されず、かつ言語認識器は不動作状態のままである。この発明の別な実施例では、減算器２６６の出力は分類器（図示せず）に送られ、そこでは到来する信号を言語か非言語かに分類する。これは減算器２６６の出力を統計的モデルで典型的な言語と非言語とについての同じ特徴を表わしているものと比較して行なわれる。さらに別な実施例では、しきい値信号は次式に従って作られる：結果として得られるしきい値信号は減算器２６６に入力されて次の結果を得る：エコーリターンロスはともかくも言語システムからの最初の助言の始まりで計算される。エコーリターンロスは必要であれば単一のフレームから計算でき、その理由は、エコーリターンロスがフレームごとに計算されることによる。こうして、使用者がほとんどすぐに話をする場合でもなおエコーリターンロスが計算できることになる。フレームシーケンサ２６２と特徴生成器２６３とは音声活性度検出器の一体化された部分として記述してきた。当業者であればこのことが発明の本質的な特徴でないことは当然のことと分るであろうし、これらの一方又は両方を別個部品とすることができる。同様に各信号を送出するためには分離されたフレームシーケンサと特徴生成器とを必要とすることもない。一個のフレームシーケンサ兼特徴生成器でも各信号から特徴を生成するのは十分である。

───────────────────────────────────────────────────── フロントページの続き (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＤＥ，ＤＫ，ＥＳ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ)，ＯＡ(ＢＦ，ＢＪ，ＣＦ，ＣＧ，ＣＩ，ＣＭ，ＧＡ，ＧＮ，ＭＬ，ＭＲ，ＮＥ，ＳＮ，ＴＤ，ＴＧ)，ＡＰ(ＫＥ，ＬＳ，ＭＷ，ＳＤ，ＳＺ，ＵＧ)，ＵＡ(ＡＺ，ＢＹ，ＫＧ，ＫＺ，ＲＵ，ＴＪ，ＴＭ )，ＡＬ，ＡＭ，ＡＴ，ＡＵ，ＡＺ，ＢＢ，ＢＧ，ＢＲ，ＢＹ，ＣＡ，ＣＨ，ＣＮ，ＣＺ，ＤＥ，ＤＫ，ＥＥ，ＥＳ，ＦＩ，ＧＢ，ＧＥ，ＨＵ，ＩＳ，ＪＰ，ＫＥ，ＫＧ，ＫＰ，ＫＲ，ＫＺ，ＬＫ，ＬＲ，ＬＳ，ＬＴ，ＬＵ，ＬＶ，ＭＤ，ＭＧ，ＭＫ，ＭＮ，ＭＷ，ＭＸ，ＮＯ，ＮＺ，ＰＬ，ＰＴ，ＲＯ，ＲＵ，ＳＤ，ＳＥ，ＳＧ，ＳＩ，ＳＫ，ＴＪ，ＴＭ，ＴＲ，ＴＴ，ＵＡ，ＵＧ，ＵＳ，ＵＺ，ＶＮ

Claims

【特許請求の範囲】１．言語システムとともに使用される音声活性度検出器であって、言語システムから送られた送出言語信号を受ける入力と使用者から到来する信号を受ける入力とを備え、ここで前記送出及び到来信号は時間制限されたフレームに分けられており、また到来信号の各フレームから特徴を計算するための手段と、計算された特徴としきい値の関数を作り、この関数に基づいて到来信号が言語を含むか否かを判断するための手段とを含み、言語システムからの送出言語信号の間にエコーリターンロスを判断し、判断したエコーリターンロスに依存してしきい値を制御するための手段を備えたことを特徴とする音声活性度検出器。２．前記しきい値がエコーリターンロスと送出信号の最大可能パワーとの関数である請求項１記載の音声活性度検出器。３．前記しきい値がエコーリターンロスと送出言語信号のフレームから計算された特徴との関数である請求項１記載の音声活性度検出器。４．前記計算された特徴は信号の各フレームの平均パワーである請求項１、２、３のいずれか一つに記載の音声活性度検出器。５．前記音声活性度検出器は、実質的に雑音のない言語と雑音性信号とを含む信号に対する計算された特徴を表わす統計的モデルに関するデータを備えており、計算された特徴としきい値との関数はこの統計的モデルと比較されるようにされている請求項１ないし４のいずれか１記載の音声活性度検出器。６．前記雑音性信号統計的モデルはライン雑音、一般的な背景雑音又は送出信号のエコーのいずれかもしくはそれらの組合せを表わすものである請求項５記載の音声活性度検出器。７．音声活性度検出の方法であって、言語システムから使用者へ送られた送出信号を受け、また使用者から到来信号を受け、この送出及び到来両信号は時間制限されたフレームに分けられており、また到来信号の各フレームから特徴を計算し、この計算された特徴としきい値との関数を作り、この関数に基づいて到来信号が言語を含むか否かを判断し、さらに言語システムからの送出言語信号の間にエコーリターンロスを測定し、測定したエコーリターンロスに依存してしきい値を制御することを特徴とする方法。８．前記しきい値はエコーリターンロスと送出信号の最大可能パワーとの関数であることを特徴とする請求項７記載の方法。９．前記しきい値はエコーリターンロスと送出言語信号のフレームから計算された同じ特徴の関数であることを特徴とする請求項７記載の方法。１０．前記計算された特徴は信号の各フレームの平均パワーである請求項７ないし９のいずれか１記載の方法。