JP2838859B2 - 通信線における音声存在の検出方法 - Google Patents
通信線における音声存在の検出方法Info
- Publication number
- JP2838859B2 JP2838859B2 JP4265552A JP26555292A JP2838859B2 JP 2838859 B2 JP2838859 B2 JP 2838859B2 JP 4265552 A JP4265552 A JP 4265552A JP 26555292 A JP26555292 A JP 26555292A JP 2838859 B2 JP2838859 B2 JP 2838859B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- block
- current
- current block
- determined
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000004891 communication Methods 0.000 title claims description 26
- 238000000034 method Methods 0.000 title claims description 26
- 238000012360 testing method Methods 0.000 description 6
- 230000004044 response Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04J—MULTIPLEX COMMUNICATION
- H04J3/00—Time-division multiplex systems
- H04J3/17—Time-division multiplex systems in which the transmission channel allotted to a first user may be taken away and re-allotted to a second user if the first user becomes inactive, e.g. TASI
- H04J3/175—Speech activity or inactivity detectors
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Networks & Wireless Communication (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Monitoring And Testing Of Exchanges (AREA)
- Time-Division Multiplex Systems (AREA)
Description
【0001】
【産業上の利用分野】本発明は広くはテレコミュニケー
ションに関し、詳しくは通信線上における音声存在の検
出方法に関する。
ションに関し、詳しくは通信線上における音声存在の検
出方法に関する。
【0002】
【従来の技術】被呼側が電話に応答するときを検出する
能力は自動音声情報,音声メッセージ,テレマーケッテ
ィング等のような電話網中に使用可能な多くの適用業務
及びサービスが必要である。電話を切ったときに被呼側
の前置メッセージの開始及び終了が正しく検出される
と、伝送メッセージの効率は最適化される。しかし、か
かる検出は技術的に達成困難であり、現在応答の検出が
正しくないことにより、いまだ電話の所有者及び使用者
に対し相当な費用の負担となっている。
能力は自動音声情報,音声メッセージ,テレマーケッテ
ィング等のような電話網中に使用可能な多くの適用業務
及びサービスが必要である。電話を切ったときに被呼側
の前置メッセージの開始及び終了が正しく検出される
と、伝送メッセージの効率は最適化される。しかし、か
かる検出は技術的に達成困難であり、現在応答の検出が
正しくないことにより、いまだ電話の所有者及び使用者
に対し相当な費用の負担となっている。
【0003】1924年8月31日出願の米国特許第
4,672,669号は、受信信号エネルギ対最適しき
い値をチェックし、多数の受信信号対第2の固定しきい
値の連続20ms順次に対するスペクトル・パラメータ
(自己相関係数)の変化率を試験するという2工程から
成る判別アルゴリズムを特徴とする音声活動検知器を記
述している。
4,672,669号は、受信信号エネルギ対最適しき
い値をチェックし、多数の受信信号対第2の固定しきい
値の連続20ms順次に対するスペクトル・パラメータ
(自己相関係数)の変化率を試験するという2工程から
成る判別アルゴリズムを特徴とする音声活動検知器を記
述している。
【0004】この検知器は電話による会話の半2重効果
を利用し、全チャンネル容量の2倍まで(多重電話チャ
ンネル・アプリケーション)追加送話者を挿入しうるよ
う設計されている。それは高レベルの相関関係のない又
は相関関係のある背景雑音の低レベル“通話”セグメン
トでさえ検出することができるが、トーンの存在下にお
ける呼進行音は含まれない(検出器は既に設定された通
信のために設計されている)。
を利用し、全チャンネル容量の2倍まで(多重電話チャ
ンネル・アプリケーション)追加送話者を挿入しうるよ
う設計されている。それは高レベルの相関関係のない又
は相関関係のある背景雑音の低レベル“通話”セグメン
トでさえ検出することができるが、トーンの存在下にお
ける呼進行音は含まれない(検出器は既に設定された通
信のために設計されている)。
【0005】
【発明が解決しようとする課題】通信線上の音声を検出
するため、トーン存在の場合においてさえ、いまだ多数
の連続20ms順次を使用するスペクトル・パラメータ
の使用を考察することはできる。しかし、それはトーン
期間と20ms計算ウィンドウ長との間の差異のため、
あるトーン信号(リングバック音及びSIT音を含み)
に対するそれらの自己相関係数の変動が第2のしきい値
の設定を、不可能ではないにしても、困難にするような
ことが起るかもしれない。その上、音声通話の場合(ト
ーンのような通話“サウンディング”)、音声活動検知
器に実施する方法はあまり感度がよくないように思われ
る。
するため、トーン存在の場合においてさえ、いまだ多数
の連続20ms順次を使用するスペクトル・パラメータ
の使用を考察することはできる。しかし、それはトーン
期間と20ms計算ウィンドウ長との間の差異のため、
あるトーン信号(リングバック音及びSIT音を含み)
に対するそれらの自己相関係数の変動が第2のしきい値
の設定を、不可能ではないにしても、困難にするような
ことが起るかもしれない。その上、音声通話の場合(ト
ーンのような通話“サウンディング”)、音声活動検知
器に実施する方法はあまり感度がよくないように思われ
る。
【0006】従って、本発明の目的は、トーン信号の存
在下においてさえ、ディジタル通信線における音声存在
の開始及び終了を正確に検出する方法を提供することで
ある。
在下においてさえ、ディジタル通信線における音声存在
の開始及び終了を正確に検出する方法を提供することで
ある。
【0007】
【課題を解決するための手段】本発明は、スペクトル・
パラメータの計算に基づく方法を含むが、リングバック
音が起呼側に受信されない場合(短時間で電話を切る場
合)を含み、信号受信のすべての場合に、既知のすべて
のタイプのダイヤル確認音と共に、全通信時中に存在す
る音声存在を適切に検出する多くの決定工程から成るよ
り感度のよい機能を有する。
パラメータの計算に基づく方法を含むが、リングバック
音が起呼側に受信されない場合(短時間で電話を切る場
合)を含み、信号受信のすべての場合に、既知のすべて
のタイプのダイヤル確認音と共に、全通信時中に存在す
る音声存在を適切に検出する多くの決定工程から成るよ
り感度のよい機能を有する。
【0008】本発明方法は、又被呼側の応答の終了の検
出を可能にする。計算に使用する電力及びメモリー要求
は非常に低い。音声の存在は200msより短い時間で
検出される。本発明は、又雑音の或る無しに拘らず、無
音で結合された100個以上の音声ファイルの呼進行音
(ダイヤル,話中,リオーダ,リングバック,空,待
ち,代行受信)のような多数の典型的な通信及び電話信
号と比較して試験され、実証された。
出を可能にする。計算に使用する電力及びメモリー要求
は非常に低い。音声の存在は200msより短い時間で
検出される。本発明は、又雑音の或る無しに拘らず、無
音で結合された100個以上の音声ファイルの呼進行音
(ダイヤル,話中,リオーダ,リングバック,空,待
ち,代行受信)のような多数の典型的な通信及び電話信
号と比較して試験され、実証された。
【0009】本発明方法は、20msのブロックにより
ディジタル通信入力信号を解析し、如何なる現行ブロッ
クでもその定常状態及び非定常状態を定義することを含
む。そこで、M個の最後の20msブロックの状態の解
析により音声が存在するか否かの最終決定を与えること
を可能にする。
ディジタル通信入力信号を解析し、如何なる現行ブロッ
クでもその定常状態及び非定常状態を定義することを含
む。そこで、M個の最後の20msブロックの状態の解
析により音声が存在するか否かの最終決定を与えること
を可能にする。
【0010】本発明は、特に通信データ・サンプルの入
力ブロックを連続的に構成するため、通信データを一連
の連続2進サンプルの形式で入力し、そのN個を記憶す
るシステムにおいて、通信線における音声の存在を検出
する方法であって、各ブロックの入力の後、現行ブロッ
クが定常状態か非定常状態かを判別し、現行ブロックを
含むM個の最終入力ブロック内にM3より多い非定常状
態が確認された場合、入力通信データに音声が存在する
と決定し、現行ブロックを含むM個の最終入力ブロック
内に非定常状態が確認されなかった場合、音声存在の終
了と決定する各工程からなる音声存在の検出方法を含
む。
力ブロックを連続的に構成するため、通信データを一連
の連続2進サンプルの形式で入力し、そのN個を記憶す
るシステムにおいて、通信線における音声の存在を検出
する方法であって、各ブロックの入力の後、現行ブロッ
クが定常状態か非定常状態かを判別し、現行ブロックを
含むM個の最終入力ブロック内にM3より多い非定常状
態が確認された場合、入力通信データに音声が存在する
と決定し、現行ブロックを含むM個の最終入力ブロック
内に非定常状態が確認されなかった場合、音声存在の終
了と決定する各工程からなる音声存在の検出方法を含
む。
【0011】
【実施例】以下、添付図面を参照して本発明の一実施例
を詳細に説明する。図1は、本発明方法を如何に適用す
るか、その適用例を説明するための適用例説明図であ
る。
を詳細に説明する。図1は、本発明方法を如何に適用す
るか、その適用例を説明するための適用例説明図であ
る。
【0012】図1において、1は端末、2はコンピュー
タ・システム、3はリンク、4は操作員ネットワーク、
5は私用電話である。端末1は操作員がコンピュータ・
システム2を介して制御することを可能にする。コンピ
ュータ・システムは数個のディジタル通信を搬送するデ
ィジタル・リンクであるリンク3とインターフェースす
る機能を含む。かかる通信はT1,CEPT,又はISDN(基
本又は本来の速度)のような公知の形式に従いリンクに
編成される。リンクはネットワーク4を操作する電話会
社によって提供される。私用電話5は例えば同一ネット
ワークに接続される。
タ・システム、3はリンク、4は操作員ネットワーク、
5は私用電話である。端末1は操作員がコンピュータ・
システム2を介して制御することを可能にする。コンピ
ュータ・システムは数個のディジタル通信を搬送するデ
ィジタル・リンクであるリンク3とインターフェースす
る機能を含む。かかる通信はT1,CEPT,又はISDN(基
本又は本来の速度)のような公知の形式に従いリンクに
編成される。リンクはネットワーク4を操作する電話会
社によって提供される。私用電話5は例えば同一ネット
ワークに接続される。
【0013】コンピュータ・システムは被呼側5に対す
る呼進行の操作、記録メッセージの伝送、及び呼に対す
る正しい終了の操作等を要求する自動応答メッセージの
ような適用業務を走行することができる。本発明は、記
録メッセージの伝送前に、電話を切ったこと、及び被呼
側による紹介メッセージ(“こちらはスミスです…
…”)の終了を正しく検出し、そのため、例えば、記録
メッセージが一部聞かれずに残るようなことがないよう
な方法を提供する。
る呼進行の操作、記録メッセージの伝送、及び呼に対す
る正しい終了の操作等を要求する自動応答メッセージの
ような適用業務を走行することができる。本発明は、記
録メッセージの伝送前に、電話を切ったこと、及び被呼
側による紹介メッセージ(“こちらはスミスです…
…”)の終了を正しく検出し、そのため、例えば、記録
メッセージが一部聞かれずに残るようなことがないよう
な方法を提供する。
【0014】図2は本発明の一実施例による方法の一連
の工程を示す流れ図である。ステップ19は本方法で使
用され、後に詳細に説明する全パラメータに対する初期
化工程である。
の工程を示す流れ図である。ステップ19は本方法で使
用され、後に詳細に説明する全パラメータに対する初期
化工程である。
【0015】例えば、リンク3を介して行われるディジ
タル通信は通信ネットワークの帯域幅による速度(典型
的に8kHz)で入力する一連の2進サンプル(典型的
に8ビット・サンプル)x(j)の形式で行われる。こ
れらサンプルx(j)の連続する数Nは、ステップ20
において、20msブロックiを形成するため適当なコ
ンピュータ・システム・メモリーに記憶される。各ブロ
ックにおいて、次の3つのパラメータSi ,Ci ,VP
i が使用される。
タル通信は通信ネットワークの帯域幅による速度(典型
的に8kHz)で入力する一連の2進サンプル(典型的
に8ビット・サンプル)x(j)の形式で行われる。こ
れらサンプルx(j)の連続する数Nは、ステップ20
において、20msブロックiを形成するため適当なコ
ンピュータ・システム・メモリーに記憶される。各ブロ
ックにおいて、次の3つのパラメータSi ,Ci ,VP
i が使用される。
【0016】入力信号の非定常状態が現行ブロックiに
対して検出された場合においてのみ、Si は1と判別さ
れる。Ci は現行ブロックiを含むM個の最終入力ブロ
ックに対するM個の最後の状態Si の和のカウントであ
る。
対して検出された場合においてのみ、Si は1と判別さ
れる。Ci は現行ブロックiを含むM個の最終入力ブロ
ックに対するM個の最後の状態Si の和のカウントであ
る。
【0017】VPi は、ディジタル通信入力信号に音声
が存在することが決定されたときのみ、本発明方法によ
り1に設定されるフラグである。音声存在の決定は、各
新たなブロックの入力後に再評価される(音声存在の終
了が検出されたときに、そのフラグは0に設定され
る)。
が存在することが決定されたときのみ、本発明方法によ
り1に設定されるフラグである。音声存在の決定は、各
新たなブロックの入力後に再評価される(音声存在の終
了が検出されたときに、そのフラグは0に設定され
る)。
【0018】状態Siは、例えば図3において詳細に説
明する方法により(他の方法も可能)、ステップ21に
おいて、現行ブロックiに対して判別され、コンピュー
タ・システム・バッファBUF(i)に記憶される。そ
して、ステップ22において、現行ブロックiに対する
カウントCiが計算される。
明する方法により(他の方法も可能)、ステップ21に
おいて、現行ブロックiに対して判別され、コンピュー
タ・システム・バッファBUF(i)に記憶される。そ
して、ステップ22において、現行ブロックiに対する
カウントCiが計算される。
【0019】ステップ23において、状態に応じてCi
の値の試験が異なるため、最後の入力ブロック(VP
i-1 )の後、音声存在フラグが活動化されたか否かに従
って分岐が行われる。音声存在フラグが活動化されなか
った場合、被呼側の応答の実際の開始の後(同時に、誤
って行われないように、十分保護して)できるだけ早く
音声存在の決定(フラグが1に設定)を行なうことが望
ましい。それにも拘らず、音声存在フラグが活動化され
た場合、被呼側による紹介メッセージの終了を決定する
べき“急進(rush) はない”。
の値の試験が異なるため、最後の入力ブロック(VP
i-1 )の後、音声存在フラグが活動化されたか否かに従
って分岐が行われる。音声存在フラグが活動化されなか
った場合、被呼側の応答の実際の開始の後(同時に、誤
って行われないように、十分保護して)できるだけ早く
音声存在の決定(フラグが1に設定)を行なうことが望
ましい。それにも拘らず、音声存在フラグが活動化され
た場合、被呼側による紹介メッセージの終了を決定する
べき“急進(rush) はない”。
【0020】故に、VPi-1 が0の場合、VPi は0に
設定され(ステップ26において、現行ブロックiの後
音声存在の決定はない)、和Ci が値M3より少ない場
合(ステップ24)、すなわち、M3より少いと、M個
の最後の入力ブロックにおいて非定常状態がカウントさ
れる。他の場合、VPi は1に設定される(ステップ2
5において、現行ブロックiの後音声存在の決定が行わ
れる)。
設定され(ステップ26において、現行ブロックiの後
音声存在の決定はない)、和Ci が値M3より少ない場
合(ステップ24)、すなわち、M3より少いと、M個
の最後の入力ブロックにおいて非定常状態がカウントさ
れる。他の場合、VPi は1に設定される(ステップ2
5において、現行ブロックiの後音声存在の決定が行わ
れる)。
【0021】対照的に、VPi-1 が1であると、VPi
は0に設定され(ステップ29において、現行ブロック
iの後音声存在の決定はない)、和Ci が0であると
(ステップ27)、M個すべての前の状態は定常であ
る。他の場合、VPi は1に設定される(ステップ28
において、現行ブロックiの後音声存在決定が行われ
る)。両場合とも、新たに設定されたVPi は、ステッ
プ20に分岐が行われた後、次の解析入力ブロックに対
する次のVPi-1 となる。
は0に設定され(ステップ29において、現行ブロック
iの後音声存在の決定はない)、和Ci が0であると
(ステップ27)、M個すべての前の状態は定常であ
る。他の場合、VPi は1に設定される(ステップ28
において、現行ブロックiの後音声存在決定が行われ
る)。両場合とも、新たに設定されたVPi は、ステッ
プ20に分岐が行われた後、次の解析入力ブロックに対
する次のVPi-1 となる。
【0022】再評価されたVPフラグは通信線上の音声
の開始及び終了を正しく知ることを要求する適用業務に
よって常にポーリングすることができる。図3は図2に
示す本発明方法の一実施例のステップ21に含まれてい
る詳細な一連のステップを示す。
の開始及び終了を正しく知ることを要求する適用業務に
よって常にポーリングすることができる。図3は図2に
示す本発明方法の一実施例のステップ21に含まれてい
る詳細な一連のステップを示す。
【0023】ステップ30において、現行入力ブロック
に対するエネルギ・レベルEi が計算される。このコン
ピュータ・システムに、それに使用する数理プロセッサ
が含まれているか否かに拘らず、かかるエネルギ・レベ
ルの計算方法は公知である。
に対するエネルギ・レベルEi が計算される。このコン
ピュータ・システムに、それに使用する数理プロセッサ
が含まれているか否かに拘らず、かかるエネルギ・レベ
ルの計算方法は公知である。
【0024】次に、得られた値は、ステップ31におい
て、そのレベル以下のリンク3の信号すべてを無視する
特定のレベルを表わすしきい値M1と比較される。それ
以下のレベルでは、現行ブロックにおいて音声が存在で
きないものと推定される。そしてステップ39に分岐が
行われる。
て、そのレベル以下のリンク3の信号すべてを無視する
特定のレベルを表わすしきい値M1と比較される。それ
以下のレベルでは、現行ブロックにおいて音声が存在で
きないものと推定される。そしてステップ39に分岐が
行われる。
【0025】他の場合、入力信号の処理は幾分手が込ん
でいる。現行ブロックに対する最初の2つの自己相関係
数Ri (0),Ri (1)がステップ32で計算され、
同様に、ステップ33において両係数の比率が計算され
て値Ki (Ki :現行ブロックiに対するPARCOR係数)
が得られる。
でいる。現行ブロックに対する最初の2つの自己相関係
数Ri (0),Ri (1)がステップ32で計算され、
同様に、ステップ33において両係数の比率が計算され
て値Ki (Ki :現行ブロックiに対するPARCOR係数)
が得られる。
【0026】ステップ34で行われる試験は高レベル雑
音から音声を弁別すること、及び追加的にR1トーン
(50msのように低い律動及び1600Hzのように
高い周波数)から音声を弁別することを意図するもので
ある。一般に、最初のPARCOR絶対値が雑音信号の存在の
場合より音声の存在の場合のiがより高い(>0.1
5)という事実を活用しないとすれば、上記両方の場合
は実際に誤った音声存在の決定に導くおそれがある。
音から音声を弁別すること、及び追加的にR1トーン
(50msのように低い律動及び1600Hzのように
高い周波数)から音声を弁別することを意図するもので
ある。一般に、最初のPARCOR絶対値が雑音信号の存在の
場合より音声の存在の場合のiがより高い(>0.1
5)という事実を活用しないとすれば、上記両方の場合
は実際に誤った音声存在の決定に導くおそれがある。
【0027】この試験は、高雑音(又はR1トーン)を
音声として誤って識別することと、すべての場合におけ
る音声の存在を正しく決定することとの間の良い妥協で
あることを証明する。それは、システムがR1トーンに
機能せずにネットワーク4に取付けられるべき場合、又
は雑音レベルが制御可能限界以内にある場合には除去す
ることができ、その場合はステップ33からステップ3
5に直接分岐が行われる。
音声として誤って識別することと、すべての場合におけ
る音声の存在を正しく決定することとの間の良い妥協で
あることを証明する。それは、システムがR1トーンに
機能せずにネットワーク4に取付けられるべき場合、又
は雑音レベルが制御可能限界以内にある場合には除去す
ることができ、その場合はステップ33からステップ3
5に直接分岐が行われる。
【0028】次に、ステップ35において、現Ki 値に
対する先行入力ブロックのKi 値の変動(絶対値)が計
算され、現行値Ki とp1の積と比較される。その変動
がより高い場合は現行ブロックは非定常状態と決定され
る(ステップ38)。そうでない場合、第2の試験が行
われる(ステップ36)。
対する先行入力ブロックのKi 値の変動(絶対値)が計
算され、現行値Ki とp1の積と比較される。その変動
がより高い場合は現行ブロックは非定常状態と決定され
る(ステップ38)。そうでない場合、第2の試験が行
われる(ステップ36)。
【0029】ステップ36において、エネルギ・レベル
Ei の値に対する先行入力ブロックのEi 値(絶対値)
が計算され、現行値Ei とp2の積と比較される。その
変動がより高い場合は現行ブロックは非定常状態と決定
される(ステップ38)。そうでない場合、第3の試験
が行われる(ステップ37)。
Ei の値に対する先行入力ブロックのEi 値(絶対値)
が計算され、現行値Ei とp2の積と比較される。その
変動がより高い場合は現行ブロックは非定常状態と決定
される(ステップ38)。そうでない場合、第3の試験
が行われる(ステップ37)。
【0030】ステップ37に達したときはトーンの存在
又は“定常”音声通話においてのみ曖昧さが存在する。
その曖昧さはCi-1 (最終入力ブロックにおいて総和し
た非定常状態の数)の値と値M2とを比較することによ
って除去される。M2より多い非定常状態がカウントさ
れた場合、音声通話とみなされ、現行ブロックは非定常
状態と決定され、ステップ38に分岐する。他の場合、
定常ブロックとみなされ、ステップ39に分岐される。
又は“定常”音声通話においてのみ曖昧さが存在する。
その曖昧さはCi-1 (最終入力ブロックにおいて総和し
た非定常状態の数)の値と値M2とを比較することによ
って除去される。M2より多い非定常状態がカウントさ
れた場合、音声通話とみなされ、現行ブロックは非定常
状態と決定され、ステップ38に分岐する。他の場合、
定常ブロックとみなされ、ステップ39に分岐される。
【0031】有効と証明されたパラメータの値を下記に
示す。 M=10 M1=−43(dbm) M2=5 M3=7 N=160 p1=2% p2=25%
示す。 M=10 M1=−43(dbm) M2=5 M3=7 N=160 p1=2% p2=25%
【0032】これらの値は、他のすべてのパラメータに
対する開始値の設定と共に、初期化ステップ19におい
て設定される。それら他の値は、コンピュータ・システ
ム及び通信環境に従って考慮されるということは明らか
である。
対する開始値の設定と共に、初期化ステップ19におい
て設定される。それら他の値は、コンピュータ・システ
ム及び通信環境に従って考慮されるということは明らか
である。
【0033】ブロックの所要時間は20ms以外に短く
又は長く選ぶことができる(実行する信号解析の型式の
ため、30ms又は40msを越えないこと)ことも明
らかであり、従って、その場合、パラメータNの値は調
節しなければならない。
又は長く選ぶことができる(実行する信号解析の型式の
ため、30ms又は40msを越えないこと)ことも明
らかであり、従って、その場合、パラメータNの値は調
節しなければならない。
【0034】図4は本発明方法によるパラメータの展開
を示す。第1行は各新たな入力ブロックに対して判別さ
れる模擬Si 状態を示す。第2行は各ブロックの入力の
後に計算したCi を示す。第3行は音声存在の決定(フ
ラグは1である)、又は音声存在の終了(フラグは0で
ある)を表わすフラグVPi を示す。以上、本発明の一
実施例を説明したが、その説明に従い、本発明を他のコ
ンピュータ・システム及び通信環境においても容易に実
施することができることは明らかである。
を示す。第1行は各新たな入力ブロックに対して判別さ
れる模擬Si 状態を示す。第2行は各ブロックの入力の
後に計算したCi を示す。第3行は音声存在の決定(フ
ラグは1である)、又は音声存在の終了(フラグは0で
ある)を表わすフラグVPi を示す。以上、本発明の一
実施例を説明したが、その説明に従い、本発明を他のコ
ンピュータ・システム及び通信環境においても容易に実
施することができることは明らかである。
【0035】
【発明の効果】本発明は、以上説明した如く構成したこ
とにより、既知のすべてのタイプのダイヤル確認音等と
共にディジタル通信線における全通信時中に存在するす
べての受信信号の音声信号を適切に検出することがで
き、音声信号の開始及び終了を正確に検出することによ
って、起呼側に対する応答メッセージの中断を防ぎ、効
率良く通信ネットワークを使用することができる。
とにより、既知のすべてのタイプのダイヤル確認音等と
共にディジタル通信線における全通信時中に存在するす
べての受信信号の音声信号を適切に検出することがで
き、音声信号の開始及び終了を正確に検出することによ
って、起呼側に対する応答メッセージの中断を防ぎ、効
率良く通信ネットワークを使用することができる。
【図1】本発明方法の適用例を示す説明図
【図2】本発明方法の実施例による一連の工程を示す流
れ図
れ図
【図3】図2の流れ図のステップ21に含まれている詳
細な一連の工程を示す流れ図
細な一連の工程を示す流れ図
【図4】本発明の一実施例によるパラメータ展開の例を
示す図
示す図
1 端末 2 コンピュータ・システム 3 リンク 4 操作員ネットワーク 5 私用電話
フロントページの続き (56)参考文献 特開 平2−85898(JP,A) 特開 平3−33800(JP,A) 特開 平2−267599(JP,A) 特開 平3−111898(JP,A)
Claims (3)
- 【請求項1】通信データ・サンプルの入力ブロックを連
続的に構成するため、通信データを一連の連続2進サン
プルの形式で入力し、そのN個を記憶するシステムにお
いて、通信線における音声の存在を検出する方法であっ
て、各ブロックの入力後、音声の存在を決定する工程
と、音声の終了を決定する工程とを有し、 ここで前記音声の存在を決定する工程は、 その前の入力ブロックにおいて音声存在フラグが1に設
定され、及び現行ブロックを含む先行するM個のブロッ
クの内で少くとも1つの非定常状態が確認されたか、又
はその前の入力ブロックにおいて前記音声存在フラグが
0に設定されたが非定常状態と判別されたブロックの数
がM3個を越えた場合、前記音声存在フラグを1に設定
する工程を含み、及び、 前記音声存在の終了を決定する工程は、 その前の入力ブロックにおいて前記音声存在フラグが1
に設定され、及び現行ブロックを含み先行するM個のブ
ロックの内で定常状態のみが確認されたか、又はその前
の入力ブロックにおいて前記音声存在フラグが0に設定
されたが非定常状態と判別されたブロックの数がM3個
に等しいか少い場合、前記音声存在フラグを0に設定す
る工程を含み、 前記現行ブロックiの定常状態又は非定常状態を判別す
る工程は、 現行ブロックに対する現行信号のエネルギを計算し、 前記現行信号のエネルギがしきい値M1より低い場合、
前記現行ブロックは定常であると判別し、他の場合、前
記現行ブロックに対する現行PARCOR係数を計算し、 前記現行PARCOR係数とその前の入力ブロックにおいて計
算した係数との間の差異の絶対値が前記現行PARCOR係数
とp1の積より等しいか小さく、前記現行信号エネルギ
とその前の入力ブロックにおいて計算した信号エネルギ
との間の差異の絶対値が前記現行信号エネルギとp2の
積より等しいか小さく、現行ブロックを含まない先行す
るM個のブロックの内で非定常状態と確認されたブロッ
クの数がM2個より等しいか小さい場合、前記現行ブロ
ックを定常と判別し、前記p1、p2、M2は任意に選
ばれたパラメータであり、他の場合、前記現行ブロック
を非定常と判別する各工程を含むことを特徴とする通信
線における音声存在の検出方法。 - 【請求項2】前記現行PARCOR係数の絶対値が0.15より低
い場合、前記現行ブロックを定常と判別する行程を含む
ことを特徴とする請求項1記載の通信線における音声存
在の検出方法。 - 【請求項3】前記2進サンプルは速度8kHz,Nが1
60、M3が7、及びMが10で入力することを特徴と
する請求項1又は2記載の通信線における音声存在の検
出方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP91480162A EP0538536A1 (en) | 1991-10-25 | 1991-10-25 | Method for detecting voice presence on a communication line |
FR91480162.6 | 1991-10-25 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH05227332A JPH05227332A (ja) | 1993-09-03 |
JP2838859B2 true JP2838859B2 (ja) | 1998-12-16 |
Family
ID=8208722
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP4265552A Expired - Lifetime JP2838859B2 (ja) | 1991-10-25 | 1992-09-09 | 通信線における音声存在の検出方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US5255340A (ja) |
EP (1) | EP0538536A1 (ja) |
JP (1) | JP2838859B2 (ja) |
CA (1) | CA2076606C (ja) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5450484A (en) * | 1993-03-01 | 1995-09-12 | Dialogic Corporation | Voice detection |
SE501305C2 (sv) * | 1993-05-26 | 1995-01-09 | Ericsson Telefon Ab L M | Förfarande och anordning för diskriminering mellan stationära och icke stationära signaler |
WO1996034382A1 (en) * | 1995-04-28 | 1996-10-31 | Northern Telecom Limited | Methods and apparatus for distinguishing speech intervals from noise intervals in audio signals |
US6175634B1 (en) | 1995-08-28 | 2001-01-16 | Intel Corporation | Adaptive noise reduction technique for multi-point communication system |
US5598466A (en) * | 1995-08-28 | 1997-01-28 | Intel Corporation | Voice activity detector for half-duplex audio communication system |
US5844994A (en) * | 1995-08-28 | 1998-12-01 | Intel Corporation | Automatic microphone calibration for video teleconferencing |
US5819217A (en) * | 1995-12-21 | 1998-10-06 | Nynex Science & Technology, Inc. | Method and system for differentiating between speech and noise |
KR20000022285A (ko) | 1996-07-03 | 2000-04-25 | 내쉬 로저 윌리엄 | 음성 액티비티 검출기 및 검출 방법 |
US6023674A (en) * | 1998-01-23 | 2000-02-08 | Telefonaktiebolaget L M Ericsson | Non-parametric voice activity detection |
US6556967B1 (en) | 1999-03-12 | 2003-04-29 | The United States Of America As Represented By The National Security Agency | Voice activity detector |
US6381568B1 (en) | 1999-05-05 | 2002-04-30 | The United States Of America As Represented By The National Security Agency | Method of transmitting speech using discontinuous transmission and comfort noise |
EP2984650B1 (en) * | 2013-04-10 | 2017-05-03 | Dolby Laboratories Licensing Corporation | Audio data dereverberation |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4028496A (en) * | 1976-08-17 | 1977-06-07 | Bell Telephone Laboratories, Incorporated | Digital speech detector |
EP0127718B1 (fr) * | 1983-06-07 | 1987-03-18 | International Business Machines Corporation | Procédé de détection d'activité dans un système de transmission de la voix |
US4742537A (en) * | 1986-06-04 | 1988-05-03 | Electronic Information Systems, Inc. | Telephone line monitoring system |
AU612737B2 (en) * | 1987-12-08 | 1991-07-18 | Sony Corporation | A phoneme recognition system |
FR2631147B1 (fr) * | 1988-05-04 | 1991-02-08 | Thomson Csf | Procede et dispositif de detection de signaux vocaux |
JPH0285898A (ja) * | 1988-09-22 | 1990-03-27 | Sekisui Chem Co Ltd | 音声検出方式 |
JP2573352B2 (ja) * | 1989-04-10 | 1997-01-22 | 富士通株式会社 | 音声検出装置 |
US4979214A (en) * | 1989-05-15 | 1990-12-18 | Dialogic Corporation | Method and apparatus for identifying speech in telephone signals |
JPH07113840B2 (ja) * | 1989-06-29 | 1995-12-06 | 三菱電機株式会社 | 音声検出器 |
JPH03111898A (ja) * | 1989-09-26 | 1991-05-13 | Sekisui Chem Co Ltd | 音声検出方式 |
US5023906A (en) * | 1990-04-24 | 1991-06-11 | The Telephone Connection | Method for monitoring telephone call progress |
-
1991
- 1991-10-25 EP EP91480162A patent/EP0538536A1/en not_active Withdrawn
-
1992
- 1992-08-10 US US07/927,049 patent/US5255340A/en not_active Expired - Fee Related
- 1992-08-21 CA CA002076606A patent/CA2076606C/en not_active Expired - Fee Related
- 1992-09-09 JP JP4265552A patent/JP2838859B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
CA2076606C (en) | 1996-07-23 |
US5255340A (en) | 1993-10-19 |
EP0538536A1 (en) | 1993-04-28 |
JPH05227332A (ja) | 1993-09-03 |
CA2076606A1 (en) | 1993-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2838859B2 (ja) | 通信線における音声存在の検出方法 | |
US5796811A (en) | Three way call detection | |
US5805685A (en) | Three way call detection by counting signal characteristics | |
JP3066213B2 (ja) | 制御信号検出方法 | |
US5070526A (en) | Signal analyzing system | |
JP2597817B2 (ja) | 音声信号検出方法 | |
CA1210541A (en) | Conferencing system adaptive signal conditioner | |
US5239574A (en) | Methods and apparatus for detecting voice information in telephone-type signals | |
JPH07212480A (ja) | 切断シグナリング検出装置 | |
GB2487734A (en) | An Answer Machine Detection (AMD) system using Network Level Binary Matching | |
US6535844B1 (en) | Method of detecting silence in a packetized voice stream | |
US5311575A (en) | Telephone signal classification and phone message delivery method and system | |
US5692040A (en) | Method of and apparatus for exchanging compatible universal identification telephone protocols over a public switched telephone network | |
US5642428A (en) | Method and apparatus for determining playback volume in a messaging system | |
US4251881A (en) | Centralized automatic gain control circuit | |
US6574334B1 (en) | Efficient dynamic energy thresholding in multiple-tone multiple frequency detectors | |
US5910976A (en) | Method and apparatus for testing customer premises equipment alert signal detectors to determine talkoff and talkdown error rates | |
US20020172349A1 (en) | Neural net-call progress tone detector | |
US6748059B2 (en) | Apparatus and method for unified tone detection | |
JP4918118B2 (ja) | 通話区間検出装置、その方法、プログラム | |
US6590974B1 (en) | Howling controller | |
US6438224B1 (en) | Tone detection | |
KR100368596B1 (ko) | 언 피.비.엑스 시스템의 아날로그 호응답 신호 판단방법및 그 장치 | |
JP3231699B2 (ja) | 音声検出器と音声検出方法および高能率端局装置 | |
CN113689862A (zh) | 一种客服坐席语音数据的质检方法和系统 |