JPH0226901B2 - - Google Patents

Info

Publication number
JPH0226901B2
JPH0226901B2 JP59047325A JP4732584A JPH0226901B2 JP H0226901 B2 JPH0226901 B2 JP H0226901B2 JP 59047325 A JP59047325 A JP 59047325A JP 4732584 A JP4732584 A JP 4732584A JP H0226901 B2 JPH0226901 B2 JP H0226901B2
Authority
JP
Japan
Prior art keywords
block
vadth
ambiguity
signal
xmax
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP59047325A
Other languages
English (en)
Other versions
JPS603240A (ja
Inventor
Depuratsushu Andore
Gyaran Kuroodo
Berumoogooshii Robeeru
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JPS603240A publication Critical patent/JPS603240A/ja
Publication of JPH0226901B2 publication Critical patent/JPH0226901B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04JMULTIPLEX COMMUNICATION
    • H04J3/00Time-division multiplex systems
    • H04J3/16Time-division multiplex systems in which the time allocation to individual channels within a transmission cycle is variable, e.g. to accommodate varying complexity of signals, to vary number of channels transmitted
    • H04J3/1682Allocation of channels according to the instantaneous demands of the users, e.g. concentrated multiplexers, statistical multiplexers
    • H04J3/1688Allocation of channels according to the instantaneous demands of the users, e.g. concentrated multiplexers, statistical multiplexers the demands of the users being taken into account after redundancy removal, e.g. by predictive coding, by variable sampling
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04JMULTIPLEX COMMUNICATION
    • H04J3/00Time-division multiplex systems
    • H04J3/17Time-division multiplex systems in which the transmission channel allotted to a first user may be taken away and re-allotted to a second user if the first user becomes inactive, e.g. TASI
    • H04J3/175Speech activity or inactivity detectors

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Time-Division Multiplex Systems (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Description

【発明の詳細な説明】 〔発明の技術的分野〕 本発明は音声のデイジタル伝送、更に詳細に説
明すれば、音声信号を効率的に処理してチヤンネ
ル帯域幅の効果的な使用を可能にする装置に係
る。
〔先行技術の説明〕
伝送チヤンネルの費用は比較的高いので、多数
の電話使用者のトラヒツクを同一チヤンネルに集
信化するように音声の特性を利用することが望ま
しい。
電話で会話をしている間、各々の電話加入者が
話す時間は、その電話が接続している時間の半分
よりも少ない。残りの遊休時間は、聴取、語と音
節の間のとぎれ、および休止に当てられる。この
遊休時間を利用する多くのシステムが既に提案さ
れている。例えば、TASIシステム(J.
Campanella“DigitalTASI”、Comsat Technical
Revue of1975参照)では、全体のチヤンネル容
量の2倍まで、追加の使用者が同一チヤンネルに
割当てられる。これらのシステムが、使用者が使
用していないことを検出して別の使用者にチヤン
ネルを割当てることができる装置を必要とするこ
とは明らかである。あいにく、音声活動を決定す
ることは簡単なことではない。一般に、所定の話
し手の音声活動を検出する方法は、短時間にわた
る音声信号エネルギーの測定に基づく。そして測
定されたエネルギーは、所定のしきい値レベルと
比較される。もし測定されたエネルギーがしきい
値を越えれば、音声が存在すると判断され、さも
なければ、その期間は遊休と判断される。すなわ
ち、この期間中、該当する話し手は沈黙している
と見なされる。このような方法にはしきい値の決
定に関する問題が存在するが、その理由は個々の
話し手がふつう互いに異なるレベルで話すという
点、および伝送線毎に損失が異なるという点にあ
る。しきい値の設定が高すぎると、音声信号はク
リツプされ、受信された音声信号はいくらか品質
が劣るようになる。しきい値が低いと、TASIシ
ステムの効率が低下することは明白である。更
に、音声信号から弁別すべき雑音の存在も考慮し
なければならない。
〔発明の概要〕 本発明の目的は、高レベルの背景雑音の生じる
環境下でも、話し手の低レベルの音声活動を確実
に検出する方法を提供することにある。
本発明は、入力チヤンネルを介して音声源によ
つて供給される少なくとも一つの音声信号は、所
定の期間のN個のサンプルx(n)のブロツクお
よび短期間の電力スペクトル情報を得るように符
号化されるシステムにおいて、活動音声ブロツク
と非活動音声ブロツクとを弁別するための音声活
動検出方法であつて、各サンプルのブロツク毎
に、 (a) 振幅しきい値VADTHを設定するステツプ
と、 (b) ブロツク内の最大サンプルの振幅XMAXで
近似される信号エネルギーを表わす情報XMを
得るように前記x(n)値のブロツクを処理す
るステツプと、 (c) 前記XMと前記VADTHとを比較し、それに
応じて前記振幅しきい値VADTHを調整する
ステツプと、 (d) 前記XMとk・VADTH(ただし、kは所定
の数値、VADTHは調整されたしきい値)と
を比較し、前記XMがk・VADTHより大きい
場合はチヤンネル活動の指示を得て、前記XM
がk・VADTHよりも小さい場合は曖昧性の
指示を得て、それによりハングオーバタイマ
が、音声活動検出動作の際または曖昧性が検出
される時実行されるべきである曖昧性解決動作
の際設定されるステツプと含んでいるものより
なる。
〔詳細な説明〕
第1図にはTASI型のシステムのブロツク図が
示されている。P使用者、すなわち音声ターミナ
ル・ソースは、ポート(ポート1、ポート2、
…、ポートP)に接続されたコーダ(コーダ1、
コーダ2、…、コーダP)を介して個々の入力チ
ヤンネルにそれぞれ接続されている。各コーダ
は、使用者からポートを介して供給されたアナロ
グ音声信号をデイジタル・データへ変換するため
のものである。そしてデイジタル・データは、単
一の出力チヤンネルLに集信化され、離れた受信
場所(図示せず)に送られ、それぞれが割当てら
れている指定されたターミナル(図示せず)に再
配分される。集信動作は、時分割マルチプレクサ
(TDM―MPX)10によつて実行される。ふつ
うのTDM条件の下では、Pソースによつて与え
られた全ビツト数/秒が出力線路の伝送能力(速
度)に釣合うように、使用者の数が選択される。
しかし、このような配列はTASIシステムが利用
しているような、多数の音声の特性、例えば無声
を十分に利用していない。TASIの動作の場合、
システムに接続された使用者の数Pは、通常のマ
ルチプレツクス・システムにおける使用者の数よ
りも、意図的に多くしてある。換言すれば、所定
の瞬時にすべての使用者が通話中であるものとす
ると、マルチプレクサ、更に詳細に説明すれば出
力線路は、その結果生じたデータのトラヒツク
を、前述の無声または他の非活動を考慮せずには
処理することができない。これが、各々のコーダ
の出力に音声活動検出器(VAD)12を接続す
る理由である。音声活動検出器12は常にコーダ
の出力を走査するように構成されており、アクテ
イブとみなしうるコーダを検出して、それらの出
力をゲートG1,G2,…,GPを介して時分割
マルチプレクサ10に送る。また、音声活動検出
器12はマルチプレクサ10に対しアクテイブな
コーダ・アドレス指示を供給する。この指示はマ
ルチプレツクスされたメツセージのなかに挿入さ
れ、時間フレーム毎に出力線路を介して伝送され
る。音声活動検出器12にプリセツトされたしき
い値レベルよりも出力レベルが高いときはいつ
も、音声ターミナルはアクテイブとみなされる。
ここでは、しきい値を話し手の環境条件に対し
て適切に調整するだけではなく、コーダの特性を
十分に利用することもできる音声活動検出器が提
案されている。既に述べたように、音声活動検出
にはエネルギーの測定を必要とする。提案された
音声活動検出器は、エネルギー測定動作を行なう
ために、コーダ内で既に使用可能なデータを用い
て高い費用対効果を実現する。これは、全極
(all―pole)フイルタによる線形音声期間
(linear vocal tract)のモデリングを仮定する線
形予測理論に基づいた多数のコーダに当てはま
る。この問題については、J.MARKEL et al、
“Linear Prediction of Speech”、Springer
Verlag、New York、1976において論及されて
いる。
このモデリングは、デイジタル音声圧縮システ
ムの広範囲、すなわち適応予測コーダ(APC)、
音声励起予測コーダ(VEPC)、線形予測ボコー
ダ(LPC)に適用される。これらのコーダにつ
いては下記の刊行物を参照されたい: B.S.ATAL et al、“Adaptive Predictive
Coding of Speech Signals”、Bell Syst.Tech.
Journal、Vol.49、October1970、PP1973―1986 D.ESTEBAN、et al、“9.6/7.2Kbps Voice
Excited Predictive Coder(VEPC)”、IEEE
ICASSP、Tulsa、April1978(Kbpsはキロビツ
ト/秒を表わす) J.D.MARKEL et al、“A Linear
Prediction Vocoder Simulation Based on the
Autocorrelation Method”、IEEE Trans.on
Acoust.、Speech and Signal Processing、Vol.
ASSP―22、No.2、April1974、PP124―134APC
コーダでは、音声信号は最適予測器によつて逆フ
イルタされて、いわゆる励振信号を生じる。この
信号は最子化され、伝送されて、合成位置におい
て全極フイルタを励振するために使用される。逆
フイルタおよび全極フイルタの特性はどちらも音
声信号特性から取出される。
第2図には、APCコーダの基本的な素子を要
約したブロツク図が示されている。N個のサンプ
ルのブロツク(BCPCMすなわちブロツク圧縮さ
れたPCM技術を参照されたい)によつて供給さ
れた音声信号サンプルx(n)は、予測器1のフ
イルタに供給され、その係数K(i)は係数装置2で
音声信号分析から取出される。そして、励振(残
留)信号は参照番号3で取出され、コーダ4で
EX情報にコード化される。このように、最終的
には、音声信号はK(i)およびEX/コード化情報
に変換される。
VEPCコーダでは、元の励振信号の最も低い周
波数帯、すなわちベースバンドBB(例えば、0
〜1KHz)だけを考慮することによつて、励振信
号が近似される。VEPCコーダの機能を要的する
ブロツク図が第3図に示されている。APCコー
ダとの差異は、最終的にベースバンドがBBコー
ダ5でコード化されるという事実にある。一方、
上位バンド合成、例えば1〜3KHzはそのエネル
ギーによつて表わされる。
上位バンド成分は、必要な場合(すなわち図示
しない受信局で)、非線形歪、高域フイルタおよ
びエネルギー整合によつて合成される。また、
VEPCコーデイングの付加情報は米国特許第
4216354号にまた開示されている。
LPCコーダのブロツク図は第4図に示されて
いる。この場合、励振信号は、V/UV6におけ
る有声/無声の判断(1ビツト)、ピツチ手段7
でコード化されたピツチ期間表示(例えば、5ビ
ツト)およびエネルギー手段8でコード化された
エネルギー指示(例えば、4ビツト)によつて表
わされる。
LPCデコーダで、かつ図示されない合成のた
め、励振は、有声信号の場合、ピツチ周波数のパ
ルス列、または無声信号の場合、白色雑音のいず
れかによつて近似される。
前述の3つの引用技術に基づいたコーダの分析
部分の共通ブロツク図が第5図に示されている。
入力音声信号はN個のサンプルx(n)のブロツ
クによつて分析される。但し、各々のブロツク内
で信号が静止しているものと仮定する。分析器の
上部の経路には、自己相関関数決定装置DAF1
4が含まれ、この装置によつて、自己相関係数に
基づいたスペクトル情報R(i)が入力信号から抽出
される。そして、このスペクトル情報は、予測係
数K(i)を決定するため予測係数決定装置DPC1
6で処理され、この係数は対応する受信装置に伝
送されて合成のために用いられる。DAF14お
よびDPC16は、結局第2図乃至第4図の係数
装置2に含まれる。更に、R(i)からK(i)への変
換、またはその逆の変換のアルゴリズムは公知技
術である。第5図の下部の部分では、励振データ
EXの抽出が励振データ抽出装置EEP18で実行
される。コーダの種類によつて励振データEXの
内容は異なる。適応予測コーダ(APC)を使用
する場合、EXパラメータはコード化励振信号を
含む。線形予測ボコーダ(LPC)については、
EXパラメータは、ピツチ期間表示、有声/無声
決定指示およびブロツク・エネルギー指示を含
む。音声励起予測コーダ(VEPC)では、EXパ
ラメータは、前記米国特許第3216354号に開示さ
れた、符号化されたベースバンド信号および高周
波エネルギー指示を含む。
前記3つの技術、すなわちAPC、LPCおよび
VEPCのための合成装置の共通ブロツク図が第6
図に示されている。受信されたEXパラメータは
励振信号発生装置GES20で励振信号を発生す
るのに用いられる。この励振信号はモデルのデイ
ジタル・フイルタ(以下、フイルタ22という)
を励振するのに用いられ、該フイルタの係数は受
取つた予測係数K(i)によつて調整される。再構成
された音声サンプルx〜(n)はフイルタ22によ
つて供給される。
前述のコーダは、元々64Kbps(CCITTPCM)
でコード化された音声信号を2.4Kbps乃至
32Kbpsに圧縮するのに用いることができる。そ
の結果生じる品質は、合成品質(2.4Kbps)から
通信品質(16Kbps)および市外品質(16Kbps)
の範囲にわたる。前述の説明を十分に理解するに
は、J.L.FLANAGAN、M.R.SCHROEDER et
al、“Speech Coding”、IEEE Trans.on
Communications、Vol.COM―27、No4、
April1979、PP710〜737を参照されたい。前記の
ような圧縮はより効率的な通信チヤンネルの使用
を可能にする。TASI技術の使用は、いつさいの
実質的余分の費用を掛けずに前述の効率を大体2
倍にするものであり、それはこのすぐれた音声活
動検出方法を使用する場合、特に当てはまる。
もちろん、各音声コーダ(第1図のコーダ1、
…、コーダP参照)出力における活動の決定は、
N入力の音声サンプルのブロツクごとに、信号エ
ネルギーの評価、およびこのエネルギと活動しき
い値との比較に基づいている。
通常の環境に存在しうる背景雑音の特性も、ま
た、前記雑音の電力スペクトルを連続評価するこ
とによつて考慮される。
更に、本明細書で提案された方法は、線形予測
に基づいた音声コードに関連してこれまで要求さ
れてきた処理作業負荷を、著しく低くする。
実際、サンプルのブロツクにおける信号の短期
間の電力スペクトルは、この信号の自己相関関数
に直接関係しており、そしてこの信号のエネルギ
ーはブロツク内の最大のサンプルの大きさによつ
てよく近似される。これらの情報はコーダ内で既
に使用可能である。これらの情報のうち1つは予
測係数の計算に既に使用され、他は固定小数点形
式の実施形態における中間信号のスケーリングに
使用される。例えば、ブロツク圧伸PCM技術に
より作動するコーダでは、即に使用可能なブロツ
ク特性項(C)またはスケーリング係数は、ブロツク
内の最大のサンプルの大きさに、直接関係する。
換言すれば、N個のサンプルx(n)のブロツク
(n=1、2、…、N)が与えられると、最大サ
ンプルの大きさXMAXは通常は音声活動検出要
求と無関係にコーダ内で、決定される。
C=XMAX=MAX(|x(n)|) 実際には、C係数は自己相関係数の決定を実行
する前に入力信号を正規化するのに用いられ、か
くてC係数は音声活動の決定と関係なくコーダ内
で既に使用可能である。
各々のサンプル・ブロツクの持続期間(例え
ば、20ms)のため、そして測定された各々の
XMAX値に基づいて、音声活動検出(VAD)動
作が次の原理により実行される。もしXMAXが
所定のしきい値レベルよりも小さければ、しきい
値はXMAXに迅速に調整されなければならない。
さもなければ、しきい値の調整は信号サンプルの
1つのブロツクから次のブロツクに段々に行なわ
れる。このしきい値の調整は増加するエネルギー
レベルを有する背景雑音を追跡するのに役立つ。
第2の原理は、現在のしきい値に関する
XMAXの測定に基づくものである。もしXMAX
がしきい値よりもかなり大きければ(XMAX>
K(しきい値)、K>1)、処理されているサンプ
ル・ブロツクは音声信号から取出されているとみ
なされる、すなわち対応するチヤンネルは「アク
テイブ」とみなされる。さもなければ、解決すべ
き曖昧性がまだ残つている。
また、信号エネルギーを表わすXMは、
XMAXによつて近似される。
曖昧性の解決は2つの仮定に基づく。最初に、
もし、現在処理されているサンプルのブロツク
と、考慮されたチヤンネルによつて与えられた
「アクテイブ」なブロツクとの間の時間遅延が、
所定のハングオーバ遅延よりも小さければ、この
ブロツクは、「アクテイブ」なブロツクであるも
のとして分類される(すなわちアクテイブ・チヤ
ンネルによつて供給される)。さもなければ、シ
ステムは、信号のスペクトル分析に基づいた追加
のテストに依存する。換言すれば、システムは、
この信号の関数(R(i))に直接関連するサンプ
ル・ブロツクにある信号の短期間の電力スペクト
ルに依存する、R(i)関数の変動が著しく大きいも
のとすると、ブロツクは「アクテイブ」とみなさ
れ、さもなければ、ブロツクは「非アクテイブ」、
すなわち無声に等しいとみなされる。
ハングオーバ遅延の考慮は、短かい音節間の無
声(例えば、0.1〜1秒)をブリツジするのを助
けるが、一方、音声活動を著しく増加させない
(5%よりも少ない)。このハングオーバは、起こ
りうる音節間の不快なクリツピングの回避を可能
にする。
スペクトル変動の分析と結合されたしきい値調
整は、大きな定常的背景雑音の除去を可能にす
る。例えば、話し手が白色雑音環境で動作するも
のと仮定した場合、もし送風機が回され、高音響
エネルギーを発生すれば、音声活動検出器は、そ
れ自体を適応させ、音声の発出における摩擦音の
ような低いエネルギーの有声セグメントを検出
し、無声セグメントを拒否する。
第7図および第8図は、各サンプルのブロツク
が処理される方法による音声活動検出方法の種々
のステツプを要約する。現在の自己相関係数R(i)
ならびにXMAXは既に記憶されている。先ず、
XMAXが経験的にセツトれた所定のしきい値レ
ベルVADTHと比較される。そして、この
XMAX対VADTHのテストに基づいて、前記し
きい値レベルが動的に調整される。もしXMAX
がVADTHよりも小さければ、しきい値は速か
にXMAX値に更新される。さもなければ、新し
いVADTHをVADTH+1にセツトすることに
よつて小さい増分だけXMAXが更新される。前
記増分「1」の10進値は211分の1、つなわち1/2
048に等しい。
次のテストでは、XMAXがVADTHよりも十
分に大きいかどうかが決定される。そのため、
XMAXはk・VADTHと比較される。ここで、
第8図に関連して表示されているように、k=2
または4である。もしXMAXがVADTHよりも
十分に大きい、すなわちXMAX>k・VADTH
ならば、該ブロツクはアクテイブである、すなわ
ち音声信号に属すると言われ、フラグ
(VADFLAG)が1にセツトされる。同時に、ハ
ングオーバ・カウンタ、すなわちタイマ
VADTOUTは、所定の遅延時間値RT、例えば
3〜50ブロツク長の期間(おのおの20ms)にセ
ツトされる。もしXMAXがV・ADTHよりも十
分に大きくなければ、曖昧さが存続する。このこ
とは当該ブロツクがアクテイブであるかも知れな
いしまたは非アクテイブであるかも知れないこと
を意味する。現在処理されているブロツクについ
て、ハングオーバ・カウンタは1単位だけ減少さ
れる。カウンタ内容が正である限り、該ブロツク
はアクテイブ・ブロツクとして分類される。
ここで、ハングオーバ時間が経過したと仮定す
ると、短期間の電力スペクトル関数の変動は、次
の式のSOMを測定することによつて計算される。
SOM=7i=1 |R(i)−Rpld(i)| ただし、Σは加算演算を表わし、| |絶対値
を表わす。もしSOMが経験的にセツトされた所
定の値RX、例えば10進値1280/2048または640/2
048よりも大きければ、該ブロツクは再びアクテ
イブとみなされる。さもなければ、該ブロツクは
「非アクテイブ」と分類される、すなわち話し手
の無声に相当する。そしてVADFLAGは0にセ
ツトされる。
短期間の電力スペクトル情報は前記とは異なる
様式で、たとえばR(i)ではなく予測係数にK(i)を
使用して導くこともできる。
第7図は、音声活動検出方法の主要なステツプ
を要約するが、短期間の電力スペクトル情報計算
方法および種々のパラメータの更新は第8図で更
に詳細に示されている。第8図に従つて、いくつ
かのテストが実行される。第1のテスト
(VADTOUT>=−3?)によつて、kを2ま
たは4にセツトし、10進値RXを0.3または0.6に
セツトすることができる。
第2のテストは、後にR(i)pld項を更新するのに
用いられる自己相関関数のスナツプシヨツトをと
るべき時機を決定するためのものである。例え
ば、第25番目の非アクテイブ(無声)ブロツク
で、換言すれば非アクテイブ・ブロツクを連続25
回検出した後に、更新動作を実行することができ
る。しかし、有効なR(i)pldの更新動作は、追加さ
れた連続5ブロツクの曖昧なブロツクだけ遅延さ
れる。また、これに続いて曖昧なブロツクが更に
検出されると仮定すると、VADTOUTはカウン
タのオーバフローを回避するために任意の一定の
値にセツトされる。
音声活動検出方法を実施するシステムのブロツ
ク図が第9図に示されている。入力バツフア
BUF24はN個サンプルx(n)のブロツクを記
憶する。入力信号が8KHzでサンプリングされ、
かつ各々のサンプルのブロツクが20msの長さの
信号セグメントを表わすものと仮定すると、各々
のブロツクは160サンプルを含む。これらのサン
プルは、各サンプルのブロツク毎にXMAX情報
を取出すために、XMAX26で分類される。固
定小数点で実行すると、XMAXの決定はサンプ
ルをスケーリングするコーダ内で既に実行されて
おり、音声活動検出(VAD)のために繰返す必
要はない。
次いで、XMAXはしきい値調整装置28に送
られ、そこで以前に設定されたしきい値
VADTHと比較される。前記比較の結果に基づ
いて、VADTHをいくらか増分するか、または
これを強制的にXMAX値にすることにより、
VADTHの調整が行われる。
次に、XMAX―k・VADTH<0、k=2ま
たは4 のテストが比較器30で実行される。
前記テストの結果が負の場合、ビツトS1が1
にセツトされる。ビツトS1はVADFLAGラツチ
32をセツトするためと、VADTOUTタイマ3
4を、例えば3単位(すなわち、60ms)にセツ
トするために使用される。S1=0のときはいつ
も、VADTOUTタイマは1単位(すなわち、
20ms)だけ減分される。
タイマ内容が−25に等しいときはいつでも、
VADTOUTタイマ34はゲート・ビツトを供給
する。このゲート・ビツトは、ゲート36を開い
て自己相関メモリ38の内容を更新するのに使用
される。自己相関メモリ38に送られるべき正規
化された自己相関係数R(i)/R(0)は、自己相
関関数決定装置DAF14に属する装置40によ
つて、供給される。この更新は、BUF24のR
(i)RSV1によつて行なわれ、VADTOUTタイマ3
4のカウンタが−30に等しいときに確認される。
音声活動検出動作のために特にR(i)係数を計算す
る必要はない。各サンプルのブロツク毎に、コー
ダ内でそれらは既に計算されている。
VADTOUTタイマ34の内容が0に等しいと
きはいつでも、SOMの装置42でR(i)関数の変
動の計算が開始される。自己相関メモリ38およ
び装置40に接続されている前記装置42は、 SOM=7i=1 |R(i)/R(0)−R(i)pld/R(0)pld| を計算し、短期間の電力スペクトル特性の変動の
大きさを決定する。
また、装置42は、短期間電力スペクトル変動
基準値RTとSOMを比較する。SOM>RTのテス
ト結果が正のとき、ビツトS2は論理レベル1
(アクテイブ・チヤンネル)にセツトされる。こ
の論理レベルはVADFLAGを1にセツトするの
に用いられる。VADFLAG=1の指示は時分割
マルチプレクサ10(第1図)にも送られ、その
ポートの出所が識別される。
さもなければ、S2=0となり、前記S2ビツト
はインバータ44で反転されて、VADFLAGを
0にリセツトするのに用いられる。その場合、該
チヤンネルは非アクテイブすなわちアイドルとみ
なされる。
本発明の効果は、高レベルの背景雑音のある環
境下でも、話し手の低レベルの音声信号の活動を
検出でき、その検出音声信号が有声であるか無声
であるかを指示し、音声活動動作の曖昧性をも解
決できることにある。
【図面の簡単な説明】
第1図はTASIシステムのブロツク図、第2図
〜第4図は線形予測理論に基づいた先行技術のコ
ーダのブロツク図、第5図および第6図はそれぞ
れ本発明に用いられる線形予測コーダおよびデコ
ーダの特性を要約したブロツク図、第7図および
第8図は本発明の方法の個々のステツプを要約し
た流れ図、第9図は本発明を実施する装置のブロ
ツク図である。 1……予測器、2……係数装置、4……コー
ダ、5……BBコーダ、6……V/UV、7……
ピツチ、8……エネルギ、10……時分割マルチ
プレクサ、12……音声活動検出器、14……
DAF、16……DPC、18……EEP、20……
GES、2……フイルタ、24……BUF、26…
…XMAX、28……しきい値調整装置、30…
…比較器、32……VADFLAGラツチ、34…
…VADTOUTタイマ、36……ゲート、38…
…自己相関メモリ、40,42……装置、44…
…インバータ。

Claims (1)

  1. 【特許請求の範囲】 1 入力チヤンネルを介して音声源によつて供給
    される少なくとも一つの音声信号は、所定の期間
    のN個のサンプルx(n)のブロツクおよび短期
    間の電力スペクトル情報を得るように符号化され
    るシステムにおいて、活動音声ブロツクと非活動
    音声ブロツクとを弁別するための音声活動検出方
    法であつて、各サンプルのブロツク毎に、 (a) 振幅しきい値VADTHを設定するステツプ
    と、 (b) ブロツク内の最大サンプルの振幅XMAXで
    近似される信号エネルギーを表わす情報XMを
    得るように前記x(n)値のブロツクを処理す
    るステツプと、 (c) 前記XMと前記VADTHとを比較し、それに
    応じて前記振幅しきい値VADTHを調整する
    ステツプと、 (d) 前記XMとk・VADTH(ただし、kは所定
    の数値、VADTHは調整されたしきい値)と
    を比較し、前記XMがk・VADTHより大きい
    場合はチヤンネル活動の指示を得て、前記XM
    がk・VADTHよりも小さい場合は曖昧性の
    指示を得て、それによりハングオーバータイマ
    が、音声活動検出動作の際または曖昧性が検出
    される時実行されるべきである曖昧性解決動作
    の際設定されるステツプとを含み、前記曖昧性
    解決動作は、 前記タイマの内容を減少し、テストし、それ
    により前記タイマの内容が正の場合は活動音声
    ブロツクであることを指示し、前記タイマの内
    容が負の場合は依然として曖昧性状態であるこ
    とを指示し、 現在処理されたブロツクと少なくとも1つ前
    に処理されたブロツク間の短期間の電力スペト
    ル情報の変動を計算し、 前記短期間電力スペクトル情報の変動と予め
    設定された基準レベルとを比較し、それにより
    現在処理された曖昧なブロツクは前記比較の指
    示に基づいて非活動であるかまたは活動である
    かが考察されることを含んでいることを特徴と
    する音声活動検出方法。
JP59047325A 1983-06-07 1984-03-14 音声活動検出方法 Granted JPS603240A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP83430018A EP0127718B1 (fr) 1983-06-07 1983-06-07 Procédé de détection d'activité dans un système de transmission de la voix
EP83430018.8 1983-06-07

Publications (2)

Publication Number Publication Date
JPS603240A JPS603240A (ja) 1985-01-09
JPH0226901B2 true JPH0226901B2 (ja) 1990-06-13

Family

ID=8191498

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59047325A Granted JPS603240A (ja) 1983-06-07 1984-03-14 音声活動検出方法

Country Status (5)

Country Link
US (1) US4672669A (ja)
EP (1) EP0127718B1 (ja)
JP (1) JPS603240A (ja)
CA (1) CA1231473A (ja)
DE (1) DE3370423D1 (ja)

Families Citing this family (78)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4764966A (en) * 1985-10-11 1988-08-16 International Business Machines Corporation Method and apparatus for voice detection having adaptive sensitivity
DE68929442T2 (de) * 1988-03-11 2003-10-02 British Telecomm Vorrichtung zur Erfassung von Sprachlauten
US5276765A (en) * 1988-03-11 1994-01-04 British Telecommunications Public Limited Company Voice activity detection
FR2631147B1 (fr) * 1988-05-04 1991-02-08 Thomson Csf Procede et dispositif de detection de signaux vocaux
FR2643523A1 (fr) * 1989-02-22 1990-08-24 Applic Electro Tech Avance Discriminateur pour transmissions numeriques
CA1290868C (en) * 1989-09-28 1991-10-15 Maurizio Cecarelli Voice data discriminator
US5226108A (en) * 1990-09-20 1993-07-06 Digital Voice Systems, Inc. Processing a speech signal with estimated pitch
US5216747A (en) * 1990-09-20 1993-06-01 Digital Voice Systems, Inc. Voiced/unvoiced estimation of an acoustic signal
FR2670065B1 (fr) * 1990-11-30 1993-01-22 Lmt Radio Professionelle Procede pour la transmission numerique de la parole dans un reseau asynchrone.
DE69232202T2 (de) * 1991-06-11 2002-07-25 Qualcomm Inc Vocoder mit veraendlicher bitrate
EP0538536A1 (en) * 1991-10-25 1993-04-28 International Business Machines Corporation Method for detecting voice presence on a communication line
US5410632A (en) * 1991-12-23 1995-04-25 Motorola, Inc. Variable hangover time in a voice activity detector
SE501305C2 (sv) * 1993-05-26 1995-01-09 Ericsson Telefon Ab L M Förfarande och anordning för diskriminering mellan stationära och icke stationära signaler
US5559832A (en) * 1993-06-28 1996-09-24 Motorola, Inc. Method and apparatus for maintaining convergence within an ADPCM communication system during discontinuous transmission
IN184794B (ja) * 1993-09-14 2000-09-30 British Telecomm
US5586126A (en) * 1993-12-30 1996-12-17 Yoder; John Sample amplitude error detection and correction apparatus and method for use with a low information content signal
JP3484757B2 (ja) * 1994-05-13 2004-01-06 ソニー株式会社 音声信号の雑音低減方法及び雑音区間検出方法
TW271524B (ja) * 1994-08-05 1996-03-01 Qualcomm Inc
US5742734A (en) * 1994-08-10 1998-04-21 Qualcomm Incorporated Encoding rate selection in a variable rate vocoder
US5497337A (en) * 1994-10-21 1996-03-05 International Business Machines Corporation Method for designing high-Q inductors in silicon technology without expensive metalization
AU696092B2 (en) * 1995-01-12 1998-09-03 Digital Voice Systems, Inc. Estimation of excitation parameters
US5822726A (en) * 1995-01-31 1998-10-13 Motorola, Inc. Speech presence detector based on sparse time-random signal samples
US5701390A (en) * 1995-02-22 1997-12-23 Digital Voice Systems, Inc. Synthesis of MBE-based coded speech using regenerated phase information
US5754974A (en) * 1995-02-22 1998-05-19 Digital Voice Systems, Inc Spectral magnitude representation for multi-band excitation speech coders
JPH08263099A (ja) * 1995-03-23 1996-10-11 Toshiba Corp 符号化装置
GB2317084B (en) * 1995-04-28 2000-01-19 Northern Telecom Ltd Methods and apparatus for distinguishing speech intervals from noise intervals in audio signals
US6175634B1 (en) 1995-08-28 2001-01-16 Intel Corporation Adaptive noise reduction technique for multi-point communication system
US5844994A (en) * 1995-08-28 1998-12-01 Intel Corporation Automatic microphone calibration for video teleconferencing
US5598466A (en) * 1995-08-28 1997-01-28 Intel Corporation Voice activity detector for half-duplex audio communication system
FI100840B (fi) * 1995-12-12 1998-02-27 Nokia Mobile Phones Ltd Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin
US5774849A (en) * 1996-01-22 1998-06-30 Rockwell International Corporation Method and apparatus for generating frame voicing decisions of an incoming speech signal
US5765130A (en) * 1996-05-21 1998-06-09 Applied Language Technologies, Inc. Method and apparatus for facilitating speech barge-in in connection with voice recognition systems
DE69716266T2 (de) 1996-07-03 2003-06-12 British Telecomm Sprachaktivitätsdetektor
US5751901A (en) * 1996-07-31 1998-05-12 Qualcomm Incorporated Method for searching an excitation codebook in a code excited linear prediction (CELP) coder
US5864793A (en) * 1996-08-06 1999-01-26 Cirrus Logic, Inc. Persistence and dynamic threshold based intermittent signal detector
US6708146B1 (en) 1997-01-03 2004-03-16 Telecommunications Research Laboratories Voiceband signal classifier
US6236970B1 (en) * 1997-04-30 2001-05-22 Nippon Hoso Kyokai Adaptive speech rate conversion without extension of input data duration, using speech interval detection
US6023674A (en) * 1998-01-23 2000-02-08 Telefonaktiebolaget L M Ericsson Non-parametric voice activity detection
JP3273599B2 (ja) * 1998-06-19 2002-04-08 沖電気工業株式会社 音声符号化レート選択器と音声符号化装置
US6453285B1 (en) 1998-08-21 2002-09-17 Polycom, Inc. Speech activity detector for use in noise reduction system, and methods therefor
US6351731B1 (en) 1998-08-21 2002-02-26 Polycom, Inc. Adaptive filter featuring spectral gain smoothing and variable noise multiplier for noise reduction, and method therefor
US6691084B2 (en) 1998-12-21 2004-02-10 Qualcomm Incorporated Multiple mode variable rate speech coding
US6556967B1 (en) 1999-03-12 2003-04-29 The United States Of America As Represented By The National Security Agency Voice activity detector
US6618701B2 (en) * 1999-04-19 2003-09-09 Motorola, Inc. Method and system for noise suppression using external voice activity detection
US6381568B1 (en) 1999-05-05 2002-04-30 The United States Of America As Represented By The National Security Agency Method of transmitting speech using discontinuous transmission and comfort noise
US7161931B1 (en) * 1999-09-20 2007-01-09 Broadcom Corporation Voice and data exchange over a packet based network
US6757301B1 (en) * 2000-03-14 2004-06-29 Cisco Technology, Inc. Detection of ending of fax/modem communication between a telephone line and a network for switching router to compressed mode
GB0007655D0 (en) * 2000-03-29 2000-05-17 Simoco Int Ltd Digital transmission
JP4201470B2 (ja) * 2000-09-12 2008-12-24 パイオニア株式会社 音声認識システム
JP4201471B2 (ja) * 2000-09-12 2008-12-24 パイオニア株式会社 音声認識システム
KR100591350B1 (ko) * 2001-03-06 2006-06-19 가부시키가이샤 엔.티.티.도코모 오디오 데이터 보간장치 및 방법, 오디오 데이터관련 정보작성장치 및 방법, 오디오 데이터 보간 정보 송신장치 및방법, 및 그 프로그램 및 기록 매체
CN100380441C (zh) * 2001-05-11 2008-04-09 皇家菲利浦电子有限公司 检测给定类型节目的方法和设备、无声检测器和接收器
US7941313B2 (en) * 2001-05-17 2011-05-10 Qualcomm Incorporated System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system
US7203643B2 (en) * 2001-06-14 2007-04-10 Qualcomm Incorporated Method and apparatus for transmitting speech activity in distributed voice recognition systems
US7746797B2 (en) * 2002-10-09 2010-06-29 Nortel Networks Limited Non-intrusive monitoring of quality levels for voice communications over a packet-based network
US20040234067A1 (en) * 2003-05-19 2004-11-25 Acoustic Technologies, Inc. Distributed VAD control system for telephone
US7269252B2 (en) * 2003-08-06 2007-09-11 Polycom, Inc. Method and apparatus for improving nuisance signals in audio/video conference
US8315865B2 (en) * 2004-05-04 2012-11-20 Hewlett-Packard Development Company, L.P. Method and apparatus for adaptive conversation detection employing minimal computation
US7752050B1 (en) * 2004-09-03 2010-07-06 Stryker Corporation Multiple-user voice-based control of devices in an endoscopic imaging system
US8443279B1 (en) 2004-10-13 2013-05-14 Stryker Corporation Voice-responsive annotation of video generated by an endoscopic camera
JP2008538166A (ja) * 2005-01-21 2008-10-09 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ デジタルテレビ信号の存在を検出する方法及び機器
WO2006104555A2 (en) * 2005-03-24 2006-10-05 Mindspeed Technologies, Inc. Adaptive noise state update for a voice activity detector
WO2006105275A2 (en) * 2005-03-29 2006-10-05 Sonim Technologies, Inc. Push to talk over cellular (half-duplex) to full-duplex voice conferencing
US7962340B2 (en) * 2005-08-22 2011-06-14 Nuance Communications, Inc. Methods and apparatus for buffering data for use in accordance with a speech recognition system
JP5530720B2 (ja) * 2007-02-26 2014-06-25 ドルビー ラボラトリーズ ライセンシング コーポレイション エンターテイメントオーディオにおける音声強調方法、装置、およびコンピュータ読取り可能な記録媒体
WO2008108239A1 (ja) * 2007-02-27 2008-09-12 Nec Corporation 音声認識システム、方法およびプログラム
EP2107553B1 (en) * 2008-03-31 2011-05-18 Harman Becker Automotive Systems GmbH Method for determining barge-in
EP2148325B1 (en) * 2008-07-22 2014-10-01 Nuance Communications, Inc. Method for determining the presence of a wanted signal component
GB0919672D0 (en) 2009-11-10 2009-12-23 Skype Ltd Noise suppression
US8762150B2 (en) * 2010-09-16 2014-06-24 Nuance Communications, Inc. Using codec parameters for endpoint detection in speech recognition
WO2013187932A1 (en) 2012-06-10 2013-12-19 Nuance Communications, Inc. Noise dependent signal processing for in-car communication systems with multiple acoustic zones
US9805738B2 (en) 2012-09-04 2017-10-31 Nuance Communications, Inc. Formant dependent speech signal enhancement
WO2014070139A2 (en) 2012-10-30 2014-05-08 Nuance Communications, Inc. Speech enhancement
US9530433B2 (en) * 2014-03-17 2016-12-27 Sharp Laboratories Of America, Inc. Voice activity detection for noise-canceling bioacoustic sensor
CN105321528B (zh) * 2014-06-27 2019-11-05 中兴通讯股份有限公司 一种麦克风阵列语音检测方法及装置
US9467569B2 (en) 2015-03-05 2016-10-11 Raytheon Company Methods and apparatus for reducing audio conference noise using voice quality measures
CN106599110A (zh) * 2016-11-29 2017-04-26 百度在线网络技术(北京)有限公司 基于人工智能的语音搜索方法及装置
CN110767236A (zh) * 2018-07-10 2020-02-07 上海智臻智能网络科技股份有限公司 一种语音识别方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4351983A (en) * 1979-03-05 1982-09-28 International Business Machines Corp. Speech detector with variable threshold
CA1130920A (en) * 1979-03-05 1982-08-31 William G. Crouse Speech detector with variable threshold

Also Published As

Publication number Publication date
US4672669A (en) 1987-06-09
JPS603240A (ja) 1985-01-09
EP0127718A1 (fr) 1984-12-12
EP0127718B1 (fr) 1987-03-18
DE3370423D1 (en) 1987-04-23
CA1231473A (en) 1988-01-12

Similar Documents

Publication Publication Date Title
JPH0226901B2 (ja)
US6889187B2 (en) Method and apparatus for improved voice activity detection in a packet voice network
RU2146394C1 (ru) Способ и устройство вокодирования переменной скорости при пониженной скорости кодирования
US5812965A (en) Process and device for creating comfort noise in a digital speech transmission system
JP4870313B2 (ja) 可変レート音声符号器におけるフレーム消去補償方法
JP4659314B2 (ja) 音声符号器用のスペクトル・マグニチュード量子化
EP1229520A2 (en) Silence insertion descriptor (sid) frame detection with human auditory perception compensation
EP0786760A2 (en) Speech coding
JP2007534020A (ja) 信号符号化
US6330532B1 (en) Method and apparatus for maintaining a target bit rate in a speech coder
US20010034601A1 (en) Voice activity detection apparatus, and voice activity/non-activity detection method
JPH10187197A (ja) 音声符号化方法及び該方法を実施する装置
US9373342B2 (en) System and method for speech enhancement on compressed speech
KR100752797B1 (ko) 음성 코더에서 선 스펙트럼 정보 양자화법을 인터리빙하는 방법 및 장치
WO2006113029A1 (en) Bandwidth efficient digital voice communication system and method
US6434519B1 (en) Method and apparatus for identifying frequency bands to compute linear phase shifts between frame prototypes in a speech coder
CA2139628A1 (en) Discriminating between stationary and non-stationary signals
EP1557820B1 (en) Voice activity detection operating with compressed speech signal parameters
KR0175250B1 (ko) 보코더의 톤 검출회로 및 방법
KR100399057B1 (ko) 이동통신 시스템의 음성 활성도 측정 장치 및 그 방법
KR100263296B1 (ko) G.729 음성 부호화기를 위한 음성 활성도 측정 방법
JPH07135490A (ja) 音声検出器及び音声検出器を有する音声符号化器
Atal Influence of pitch on formant frequencies and bandwidths obtained by linear prediction analysis
Ferrer-Ballester et al. Efficient adaptive vector quantization of LPC parameters
Chandra et al. Experimental evaluation of a linear predictive speech compression system based on phonetically balanced (PB) words and sentences