JPS603240A - 音声活動検出方法 - Google Patents
音声活動検出方法Info
- Publication number
- JPS603240A JPS603240A JP59047325A JP4732584A JPS603240A JP S603240 A JPS603240 A JP S603240A JP 59047325 A JP59047325 A JP 59047325A JP 4732584 A JP4732584 A JP 4732584A JP S603240 A JPS603240 A JP S603240A
- Authority
- JP
- Japan
- Prior art keywords
- block
- vadth
- timer
- voice
- active
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 15
- 230000004913 activation Effects 0.000 title 1
- 230000000694 effects Effects 0.000 claims description 25
- 230000005236 sound signal Effects 0.000 claims description 16
- 238000001514 detection method Methods 0.000 claims description 9
- 206010019133 Hangover Diseases 0.000 claims description 8
- 108091006146 Channels Proteins 0.000 claims 2
- 238000010586 diagram Methods 0.000 description 13
- 230000005284 excitation Effects 0.000 description 11
- 238000012360 testing method Methods 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000005311 autocorrelation function Methods 0.000 description 4
- 230000004907 flux Effects 0.000 description 4
- 230000001755 vocal effect Effects 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 244000144730 Amygdalus persica Species 0.000 description 2
- 235000006040 Prunus persica var persica Nutrition 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 101100008636 Caenorhabditis elegans daf-14 gene Proteins 0.000 description 1
- 241000364021 Tulsa Species 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- JBWKIWSBJXDJDT-UHFFFAOYSA-N triphenylmethyl chloride Chemical compound C=1C=CC=CC=1C(C=1C=CC=CC=1)(Cl)C1=CC=CC=C1 JBWKIWSBJXDJDT-UHFFFAOYSA-N 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04J—MULTIPLEX COMMUNICATION
- H04J3/00—Time-division multiplex systems
- H04J3/16—Time-division multiplex systems in which the time allocation to individual channels within a transmission cycle is variable, e.g. to accommodate varying complexity of signals, to vary number of channels transmitted
- H04J3/1682—Allocation of channels according to the instantaneous demands of the users, e.g. concentrated multiplexers, statistical multiplexers
- H04J3/1688—Allocation of channels according to the instantaneous demands of the users, e.g. concentrated multiplexers, statistical multiplexers the demands of the users being taken into account after redundancy removal, e.g. by predictive coding, by variable sampling
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04J—MULTIPLEX COMMUNICATION
- H04J3/00—Time-division multiplex systems
- H04J3/17—Time-division multiplex systems in which the transmission channel allotted to a first user may be taken away and re-allotted to a second user if the first user becomes inactive, e.g. TASI
- H04J3/175—Speech activity or inactivity detectors
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Time-Division Multiplex Systems (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔発明の技術的分野〕
本発明は音声のディジタル伝送、更に詳細に説明すれば
、音声信号を効率的に処理してチャンネル帯域幅の効果
的な使用を可能にする装置に係る。
、音声信号を効率的に処理してチャンネル帯域幅の効果
的な使用を可能にする装置に係る。
伝送チャンネルの費用は比較的高いので、多数の電話使
用者のトラヒックを同一チャンネルに集信化するように
音声の特徴を利用することが望ましい。
用者のトラヒックを同一チャンネルに集信化するように
音声の特徴を利用することが望ましい。
電話で会話をしている間、各々の電話加入者が話す時間
は、その電話が接続している時間の半分よりも少ない。
は、その電話が接続している時間の半分よりも少ない。
残りの遊休時間は、聴取、語と音節の間の合い間、およ
び休止に残りの時間が当てられる。この遊休時間を利用
する多くのシステムが既に提案されている。例えば、T
ASIシステム(J 、 Campanella1’
D 1g1talTAsI “、Comsat T e
chnical Revue of1975参照)では
、全体のチャンネル容量の2倍まで、追加の使用者が同
一チャンネルに割当てられる。これらのシステムが、所
与の使用者の非活動を検出して別の使用者にチャンネル
を割当てることができる装置を必要とすることは明らか
である。あいに(、音声活動を決定することは簡単 −
なことではない。一般に、所与の話し手の音声活動を検
出する方法は、短期間の音声信号エネルギを測定するこ
とに基づく。そして測定されたエネルギは、所定のしき
い値レベルと比較される。もし測定されたエネルギがし
きい値を越えれば、音声が存在すると判断され、さもな
ければ、その期間は遊休と判断される。すなわち、この
期間中、該当する話し手は沈黙していると見なされる。
び休止に残りの時間が当てられる。この遊休時間を利用
する多くのシステムが既に提案されている。例えば、T
ASIシステム(J 、 Campanella1’
D 1g1talTAsI “、Comsat T e
chnical Revue of1975参照)では
、全体のチャンネル容量の2倍まで、追加の使用者が同
一チャンネルに割当てられる。これらのシステムが、所
与の使用者の非活動を検出して別の使用者にチャンネル
を割当てることができる装置を必要とすることは明らか
である。あいに(、音声活動を決定することは簡単 −
なことではない。一般に、所与の話し手の音声活動を検
出する方法は、短期間の音声信号エネルギを測定するこ
とに基づく。そして測定されたエネルギは、所定のしき
い値レベルと比較される。もし測定されたエネルギがし
きい値を越えれば、音声が存在すると判断され、さもな
ければ、その期間は遊休と判断される。すなわち、この
期間中、該当する話し手は沈黙していると見なされる。
このような方法にはしきい値の決定に関する問題が存在
するが、その理由は個々の話し手がふつう互いに異なる
レベルで話すという点、および伝送線路ごとに損失が異
なるという点にある。しきい値の設定が高すぎると、音
声信号はクリップされ、受信された音声信号はいくらか
品質が劣るようになる。しきい値が低いと、TASIシ
ステムの効率が低下することは明白である。更に、音声
信号から弁別すべき雑音の存在も考慮しなげればならな
い。
するが、その理由は個々の話し手がふつう互いに異なる
レベルで話すという点、および伝送線路ごとに損失が異
なるという点にある。しきい値の設定が高すぎると、音
声信号はクリップされ、受信された音声信号はいくらか
品質が劣るようになる。しきい値が低いと、TASIシ
ステムの効率が低下することは明白である。更に、音声
信号から弁別すべき雑音の存在も考慮しなげればならな
い。
本発明の目的は、すぐれた音声活動の検出方法を提供す
ることである。
ることである。
本発明の他の目的は、高レベルの背景雑音のなかで低レ
ベルの音声活動を検出する装置を提供することである。
ベルの音声活動を検出する装置を提供することである。
音声信号を伝送し、各音声信号のサンプリングおよびコ
ード化を行なって該音声信号からサンプル・ブロックお
よび各プロ、ツクの短期間電カスベクトル特性を取出す
ようにした伝送システムにおいて、エネルギを表わす情
報を各々のサンプル・ブロックから取出して所定のしき
い値と比較し、それに従って前記しきい値を調整する昔
時活動検出方法が提案されている。そして、調整された
しき(・値に関するエネルギ情報の相対的大きさに基づ
いて、アクティブな決定または曖昧な決定が行なわれ、
曖昧さは、もしあるならば、短期間電カスベクトル特性
の変動の大きさの分析によって解決される。
ード化を行なって該音声信号からサンプル・ブロックお
よび各プロ、ツクの短期間電カスベクトル特性を取出す
ようにした伝送システムにおいて、エネルギを表わす情
報を各々のサンプル・ブロックから取出して所定のしき
い値と比較し、それに従って前記しきい値を調整する昔
時活動検出方法が提案されている。そして、調整された
しき(・値に関するエネルギ情報の相対的大きさに基づ
いて、アクティブな決定または曖昧な決定が行なわれ、
曖昧さは、もしあるならば、短期間電カスベクトル特性
の変動の大きさの分析によって解決される。
第1図にはTAS I型のシステムのブロック図が示さ
れている。P使用者、すなわち音声ターミナル・ソース
は、ポート(ポート1、ポート2、・・・、ポートP)
に接続されたコーグ(コーグ1、コーグ2、・・・、コ
ーグP)を介して個々の入力チャンネルにそれぞれ接続
されている。各コーグは、使用者からポートを介して供
給されたアナログ音声信号をディジタル・データへ変換
するだめのものである。そしてディジタル・データは、
単一の出力チャンネルLに集信化され、離れた受信場所
(図示せず)に送られ、それぞれが割当てられている指
定されたターミナル(図示せず)に再配分される。集信
動作は、時分割マルチプレクサ(TDM−MPX)10
によって実行される。
れている。P使用者、すなわち音声ターミナル・ソース
は、ポート(ポート1、ポート2、・・・、ポートP)
に接続されたコーグ(コーグ1、コーグ2、・・・、コ
ーグP)を介して個々の入力チャンネルにそれぞれ接続
されている。各コーグは、使用者からポートを介して供
給されたアナログ音声信号をディジタル・データへ変換
するだめのものである。そしてディジタル・データは、
単一の出力チャンネルLに集信化され、離れた受信場所
(図示せず)に送られ、それぞれが割当てられている指
定されたターミナル(図示せず)に再配分される。集信
動作は、時分割マルチプレクサ(TDM−MPX)10
によって実行される。
ふつうのTDM条件の下では、Pソースによって与えら
れた全ビット数7秒が出力線路の伝送能力(速度)に釣
合つ」=つに、使用者の数が選択される。しかし、この
ような配列は、TASニジステムが利用しているような
、いくつかの音声の特性、例えば沈黙を十分に利用して
いない。TAS Iの動作の場合、システムに接続され
た使用者の数Pは、通常のマルチプレックス・システム
における使用者の数よりも、意図的に多くしである。換
言すれば、一定の瞬間にすべての使用者が通話中である
ものとすると、マルチプレクサ、更に詳細に説明すれば
出力線路は、その結果生じたデータのトラヒックを、前
述の沈黙または他の非活動を考慮せずには処理すること
が、できない。これが、各々のコーグの出力に音声活動
検出器(VAD)12を接続する理由である。音声活動
検出器12は接続的にコーグの出力を走査するように構
成されており、アクティブとみなしうるコーグを検出し
て、それらの出力をゲートG1、G2、・・・、GP”
<介して時分割マルチプレクサ10に送る。
れた全ビット数7秒が出力線路の伝送能力(速度)に釣
合つ」=つに、使用者の数が選択される。しかし、この
ような配列は、TASニジステムが利用しているような
、いくつかの音声の特性、例えば沈黙を十分に利用して
いない。TAS Iの動作の場合、システムに接続され
た使用者の数Pは、通常のマルチプレックス・システム
における使用者の数よりも、意図的に多くしである。換
言すれば、一定の瞬間にすべての使用者が通話中である
ものとすると、マルチプレクサ、更に詳細に説明すれば
出力線路は、その結果生じたデータのトラヒックを、前
述の沈黙または他の非活動を考慮せずには処理すること
が、できない。これが、各々のコーグの出力に音声活動
検出器(VAD)12を接続する理由である。音声活動
検出器12は接続的にコーグの出力を走査するように構
成されており、アクティブとみなしうるコーグを検出し
て、それらの出力をゲートG1、G2、・・・、GP”
<介して時分割マルチプレクサ10に送る。
また、音声活動検出器12はマルチプレクサ10に対し
アクティブなコーグ・アドレス標識を供給する。この標
識はマルチプレックスされたメツセージのなかに挿入さ
れ、各々のタイム・フレームごとに出力線路を介して伝
送される。音声活動検出器12にプリセットされたしき
い値レベルよりも出力レベルが高いときはいつも、音声
ターミナルはアクティブとみなされる。
アクティブなコーグ・アドレス標識を供給する。この標
識はマルチプレックスされたメツセージのなかに挿入さ
れ、各々のタイム・フレームごとに出力線路を介して伝
送される。音声活動検出器12にプリセットされたしき
い値レベルよりも出力レベルが高いときはいつも、音声
ターミナルはアクティブとみなされる。
ここでは、しきい値を話し手の環境条件に適切に調整す
るだけではなく、コーグの特性を十分に利用することも
できる音声活動検出器が提案されている。既に述べたよ
うに、音声活動検出にはエネルギの測定を必要とする。
るだけではなく、コーグの特性を十分に利用することも
できる音声活動検出器が提案されている。既に述べたよ
うに、音声活動検出にはエネルギの測定を必要とする。
提案された音声活動検出器は、エネルギ測定動作を遂行
するために、コーダ内で既に使用可能なデータを用いて
高い費用対性能費を実現する。これは、全極(all−
pole)フィルタによる線形音声期間(1inear
vocaltract )のモデリングを仮定する線
形予測理論に基づいた多数のコーグに尚てはまる。この
問題については、J 、MARKEL e−t al、
!” L 1nearPrediction of 5
peech″1、SprlngerVerlag、Ne
w York、1976にお℃1て論及されている。
するために、コーダ内で既に使用可能なデータを用いて
高い費用対性能費を実現する。これは、全極(all−
pole)フィルタによる線形音声期間(1inear
vocaltract )のモデリングを仮定する線
形予測理論に基づいた多数のコーグに尚てはまる。この
問題については、J 、MARKEL e−t al、
!” L 1nearPrediction of 5
peech″1、SprlngerVerlag、Ne
w York、1976にお℃1て論及されている。
前記モデリングは、ディジタル音声圧縮システムの広範
囲、ずなわち適応予測コーグ(APC)、音声励振予測
コーグ(VEPC)、線形予測ボコーダ(LPG)に、
当てはまる。これらのコーグについては下記の刊行物を
参照された(・:B、S、ATAL et al、’A
daptive PredictiveCoding
of 5peech Signals′N、Be1lS
yst、Tech、Journal、Vol、49.0
ctober1970、PP1973L−1986 1)、ESTEBAN、et al、’ 9.6/7.
2KbpsVoice Excited Pr・edi
ctive Coder(VEPC)“、I EEEI
CAS S P、 Tulsa。
囲、ずなわち適応予測コーグ(APC)、音声励振予測
コーグ(VEPC)、線形予測ボコーダ(LPG)に、
当てはまる。これらのコーグについては下記の刊行物を
参照された(・:B、S、ATAL et al、’A
daptive PredictiveCoding
of 5peech Signals′N、Be1lS
yst、Tech、Journal、Vol、49.0
ctober1970、PP1973L−1986 1)、ESTEBAN、et al、’ 9.6/7.
2KbpsVoice Excited Pr・edi
ctive Coder(VEPC)“、I EEEI
CAS S P、 Tulsa。
April 197B(Kbpsはキロビット/秒を表
わす) J、D、MARKEL et al、’ A Line
arPrediction Vocoder Simu
lationBased on the Autoco
rrelation Method ″、IEEE T
rans、on Acoust、)Speechand
Signal Processing、Vol、AS
SP −22、N002、April 1974、PP
124−134APCコーダでは、音声信号は最適の予
測器によって逆フィルタされて、いわゆる励振信号を生
じる。この信号は量子化され、伝送されて、合成場所に
おいて全極フィルタを励振するために使用される。逆フ
ィルタおよび全極フィルタの特性はどちらも音声信号特
性から取出される。
わす) J、D、MARKEL et al、’ A Line
arPrediction Vocoder Simu
lationBased on the Autoco
rrelation Method ″、IEEE T
rans、on Acoust、)Speechand
Signal Processing、Vol、AS
SP −22、N002、April 1974、PP
124−134APCコーダでは、音声信号は最適の予
測器によって逆フィルタされて、いわゆる励振信号を生
じる。この信号は量子化され、伝送されて、合成場所に
おいて全極フィルタを励振するために使用される。逆フ
ィルタおよび全極フィルタの特性はどちらも音声信号特
性から取出される。
第2図には、APCコーダの基本的な素子を要約したブ
ロック図が示されている。Nサンプルのブロック(BC
PCMすなわちブロック圧縮されたPCM技術を参照さ
れたい)によって供給された音声信号サンプルx (n
)は、予測器1のフィルタに供給され、その係数K (
i)は係数装置2で音声信号分析から取出される。そし
て、励振(残留)信号は参照数字3の箇所で取出され、
コーグ4でEX信号にコード化される。このように、最
終的に音声信号はK(1)およびEX/コード化情報に
変換される。
ロック図が示されている。Nサンプルのブロック(BC
PCMすなわちブロック圧縮されたPCM技術を参照さ
れたい)によって供給された音声信号サンプルx (n
)は、予測器1のフィルタに供給され、その係数K (
i)は係数装置2で音声信号分析から取出される。そし
て、励振(残留)信号は参照数字3の箇所で取出され、
コーグ4でEX信号にコード化される。このように、最
終的に音声信号はK(1)およびEX/コード化情報に
変換される。
VEPCコーダコー、原始励振信号の最も低い周波数バ
ンド、ずなわちベースバンドBB(例えば、0〜1KH
z)だけを考慮することによって、励振信号が近似され
る。VEPCコーダコー能を要約するブロック図が第6
図に示されている。最終的にベースバンドはBB?−ダ
5でコード化されるが、上位バンド合成、例えば1〜3
KHzはそのエネルギによって表わされるという点に、
APCコーコーの差異がある。
ンド、ずなわちベースバンドBB(例えば、0〜1KH
z)だけを考慮することによって、励振信号が近似され
る。VEPCコーダコー能を要約するブロック図が第6
図に示されている。最終的にベースバンドはBB?−ダ
5でコード化されるが、上位バンド合成、例えば1〜3
KHzはそのエネルギによって表わされるという点に、
APCコーコーの差異がある。
上位バンド成分は、必要に応じて(すなわち図示しない
受信ステーションで)、非線形歪、高域フィルタおよび
エネルギ整合によって合成される。
受信ステーションで)、非線形歪、高域フィルタおよび
エネルギ整合によって合成される。
また、VEPCコーディングの詳細は米国特許第421
6354号に開示されている。
6354号に開示されている。
L P 、Cコーグのブロック図は第4図に示されてい
る。この場合、励振信号を表わすものとして、V/UV
6における有声/無声の判断(1ビツト)、ピッチ手段
7でコード化されたピッチ期間表示(例工ば、5ビツト
)およびエネルギ手段8でコード化されたエネルギ表示
(例えば、4ビツト)が生ぜられ、る。
る。この場合、励振信号を表わすものとして、V/UV
6における有声/無声の判断(1ビツト)、ピッチ手段
7でコード化されたピッチ期間表示(例工ば、5ビツト
)およびエネルギ手段8でコード化されたエネルギ表示
(例えば、4ビツト)が生ぜられ、る。
LPCデコーダで、かつ合成(図示せず)のため、有声
信号の場合にはピンチ周波数のパルス列によ−って、ま
たは無声信号の場合には白色雑音によって励振が近似さ
れる。
信号の場合にはピンチ周波数のパルス列によ−って、ま
たは無声信号の場合には白色雑音によって励振が近似さ
れる。
前述の3つの技術に基づいたコーグの分析部分の共通ブ
ロック図が第5図に示されている。入力音声信号はNサ
ンプルx (n)のブロックによって分析される。但し
、各々のブロック内で信号が静止しているものと仮定す
る。分析器の上部の経路には、自己相関関数決定装置D
AF 14が含まれ、この装置によって、自己相関係数
に基づし・たスペクトル情報R(i)が入力信号から抽
出される。そして、このスペクトル情報は、予測係数K
(1)を決定するため予測係数決定装置D P C1’
6で処理され、この係数は対応する受信装置に伝送され
て合成のために用いられる。DAF14およびDPC1
6は、最後には第2図乃至第4図の係数装置2に含まれ
る。更に、R(])からK (ilへの変換、またはそ
の逆の変換のアルゴリズムは公知技術である。第5図の
下部の部分では、励振データEXの抽出カー励振データ
抽出装置EEP 18で実行される。コーグのタイプに
よって励振データEXの内容(ま異なる。適応予報コー
グ(APC)を使用する場合、EXパラメータはコード
化された励振信号を含む。
ロック図が第5図に示されている。入力音声信号はNサ
ンプルx (n)のブロックによって分析される。但し
、各々のブロック内で信号が静止しているものと仮定す
る。分析器の上部の経路には、自己相関関数決定装置D
AF 14が含まれ、この装置によって、自己相関係数
に基づし・たスペクトル情報R(i)が入力信号から抽
出される。そして、このスペクトル情報は、予測係数K
(1)を決定するため予測係数決定装置D P C1’
6で処理され、この係数は対応する受信装置に伝送され
て合成のために用いられる。DAF14およびDPC1
6は、最後には第2図乃至第4図の係数装置2に含まれ
る。更に、R(])からK (ilへの変換、またはそ
の逆の変換のアルゴリズムは公知技術である。第5図の
下部の部分では、励振データEXの抽出カー励振データ
抽出装置EEP 18で実行される。コーグのタイプに
よって励振データEXの内容(ま異なる。適応予報コー
グ(APC)を使用する場合、EXパラメータはコード
化された励振信号を含む。
線形予測ボコーダ(LPC)につ(・てGま、EX)く
ラメータは、ピッチ期間表示、有声/無声決定表示オ6
よびブロック・エネルギ表示を含む。音声励起子」リコ
ーダ(VFJPC)では、EXノくラメータは、前記米
国特許第3216354号に開示されり、符号化された
ベースノくンド信号および高周波エネルギ表示を含む。
ラメータは、ピッチ期間表示、有声/無声決定表示オ6
よびブロック・エネルギ表示を含む。音声励起子」リコ
ーダ(VFJPC)では、EXノくラメータは、前記米
国特許第3216354号に開示されり、符号化された
ベースノくンド信号および高周波エネルギ表示を含む。
前記6つの技術、すなわちAPClLPCおよびV E
i) Cに共通する合成装置のブロック図が第6図に
示されている。受信されたEXノくラメータは励4B信
号発生装置GES20で励振信号を発生ずるのに用いら
れる。この励振信号はモデルのディジタル・フィルタ(
以下、フィルタ22という)を励振するのに用いられ、
該フィルタの係数は受取った予測係数K (ilによっ
て調整される。再構成された音声サンプル?(nlはフ
ィルタ22によって供給される。
i) Cに共通する合成装置のブロック図が第6図に
示されている。受信されたEXノくラメータは励4B信
号発生装置GES20で励振信号を発生ずるのに用いら
れる。この励振信号はモデルのディジタル・フィルタ(
以下、フィルタ22という)を励振するのに用いられ、
該フィルタの係数は受取った予測係数K (ilによっ
て調整される。再構成された音声サンプル?(nlはフ
ィルタ22によって供給される。
前述のコーグは、最初に64 K bps(CCI T
TPCM)でコード化された音声信号を2,4Kbps
乃至32Kbpsに圧縮するのに用いることができる。
TPCM)でコード化された音声信号を2,4Kbps
乃至32Kbpsに圧縮するのに用いることができる。
その結果生じる品質は、合成品質(2,4−Kbps)
から通信品質(16KbpS)および市外品質(16K
bps)の範囲にわたる。前述の説明を十分に理解する
には、J、L、FLANAGAN、M、R。
から通信品質(16KbpS)および市外品質(16K
bps)の範囲にわたる。前述の説明を十分に理解する
には、J、L、FLANAGAN、M、R。
5CHROEDERet a11’ S peech
Coding“、IEEE Trans、on Com
munications、Vol。
Coding“、IEEE Trans、on Com
munications、Vol。
C0M−27、No4、Apri11979、PP71
0〜767を参照されたい。前記のような圧縮はより効
率的な通信チャンネルの使用を可能にする。TAS■技
術の使用は、余分の費用を掛けずに前述の効率を大体2
倍にするものであり、それはこのすぐれた音声活動検出
方法を使用する場合、特に当てはまる。
0〜767を参照されたい。前記のような圧縮はより効
率的な通信チャンネルの使用を可能にする。TAS■技
術の使用は、余分の費用を掛けずに前述の効率を大体2
倍にするものであり、それはこのすぐれた音声活動検出
方法を使用する場合、特に当てはまる。
もちろん、各音声コーグ(第1図のコーグ1、・・・、
コーグP参照)の出力において活動を決定することは、
N入力の音声サンプルのブロックごとに、信号エネルギ
を評価すること、およびこのエネルギと活動しきい値の
比較することに基づ見・て℃・る。
コーグP参照)の出力において活動を決定することは、
N入力の音声サンプルのブロックごとに、信号エネルギ
を評価すること、およびこのエネルギと活動しきい値の
比較することに基づ見・て℃・る。
通常の環境に存在しつる背景雑音の特性も、前記雑音の
電カスベクトルを連続評価することによって考慮される
。
電カスベクトルを連続評価することによって考慮される
。
更に、本明細書で提案された方法は、線形予測に基づい
た音声コーグに関連してこれまで要求されてきた処理作
業負荷を、かなり低い状態に保つ。
た音声コーグに関連してこれまで要求されてきた処理作
業負荷を、かなり低い状態に保つ。
事実、サンプルのブロックにおける信号の短期間の電カ
スベクトルは、この信号の自己相関関数に直接関係して
おり、そしてこの信号のエネルギはブロック内の最大の
サン6プルの大きさによってよく近似される。これらの
情報はコーダ内で既に使用可能である。これらの情報の
うち1つは予測係数の計算に既に使用され、他は固定小
数点形式の実施形態における中間信号のスケーリングに
使用される。例えば、ブロック圧縮PCM技術によって
動作するコーグでは、既に使用可能な特性項(C)また
はスケーリング係数は、゛゛ブロツク内最大のサンプル
の大きさに、直接関係する。換言すれば、n = 1.
2、・・・、NのNサンプルx(n)のブロックが与え
られると、最大サンプルの大きさXMAXは通常は音声
活動検出要求と無関係にコーダ内で、決定される。
スベクトルは、この信号の自己相関関数に直接関係して
おり、そしてこの信号のエネルギはブロック内の最大の
サン6プルの大きさによってよく近似される。これらの
情報はコーダ内で既に使用可能である。これらの情報の
うち1つは予測係数の計算に既に使用され、他は固定小
数点形式の実施形態における中間信号のスケーリングに
使用される。例えば、ブロック圧縮PCM技術によって
動作するコーグでは、既に使用可能な特性項(C)また
はスケーリング係数は、゛゛ブロツク内最大のサンプル
の大きさに、直接関係する。換言すれば、n = 1.
2、・・・、NのNサンプルx(n)のブロックが与え
られると、最大サンプルの大きさXMAXは通常は音声
活動検出要求と無関係にコーダ内で、決定される。
C−XMAX=MAX(l x(n)l )実際には、
C係数は自己相関係数の決定を実行する前に入力信号を
正規化するのに用いられ、か(てC係数は音声活動の決
定と関係なくコーダ内で既に使用可能である。
C係数は自己相関係数の決定を実行する前に入力信号を
正規化するのに用いられ、か(てC係数は音声活動の決
定と関係なくコーダ内で既に使用可能である。
各々のサンプル・ブロックの持続期間(例えば、20m
5)について、そして測定された各々のXMAX値に基
づいて、音声活動検出(VAD)動作が次の原理により
実行される。もしXMAXが所定のしきい値レベルより
も小さければ、しきい値はXMAXに迅速に調整されな
げればならない。さもなければ、′シきい値の調整は信
号サンプルの1つのブロックから次のブロックに前進的
に行なわれる。このしき(・値の調整はエネルギ・レベ
ルを増加する背景雑音の追跡を容易にする。
5)について、そして測定された各々のXMAX値に基
づいて、音声活動検出(VAD)動作が次の原理により
実行される。もしXMAXが所定のしきい値レベルより
も小さければ、しきい値はXMAXに迅速に調整されな
げればならない。さもなければ、′シきい値の調整は信
号サンプルの1つのブロックから次のブロックに前進的
に行なわれる。このしき(・値の調整はエネルギ・レベ
ルを増加する背景雑音の追跡を容易にする。
2番目の原理は、現在のしきい値に関するXMAXの測
定に基づ(ものである。もしXMAXがしきい値よりも
かなり大きければ(XMAX)’K。
定に基づ(ものである。もしXMAXがしきい値よりも
かなり大きければ(XMAX)’K。
K>1)、処理されているサンプルφブロックは音声信
号から取出されているとみなされる、すなわち対応する
チャンネルは「アクティブ」とみなされる。さもなけれ
ば、解決すべき曖昧さがまだ残っている。
号から取出されているとみなされる、すなわち対応する
チャンネルは「アクティブ」とみなされる。さもなけれ
ば、解決すべき曖昧さがまだ残っている。
XMAXO代りに、ブロック・エネルギを表わず情報X
Mを考慮することがある。
Mを考慮することがある。
曖昧さの解決は2つの仮定に基づ(。最初に、もし、現
在処理されているサンプルのブロックと、考慮されたチ
ャンネルによって与えられた「アクティブ」なブロック
との間の時間遅延が、所与のハングオーバ遅延よりも小
さければ、このブロックは、「アクティブ」なブロック
であるものとして分類される(すなわちアクティブ・チ
ャンネルによって供給される)。さもなければ、システ
ムは、信号のスペクトル分析に基づいた追加の検査に依
存する。換言すれば、システムは、この信号の関数(R
(i))に直接関連するサンプル・ブロックにある信号
の短期間の電カスベクトルに依存する。R(i)関数の
変動がかなり太きいものとすると、°ブロックは「アク
ティブ」とみなされ、さもなければ、ブロックは「非ア
クティブ」、すなわち沈黙に等しいとみなされる。
在処理されているサンプルのブロックと、考慮されたチ
ャンネルによって与えられた「アクティブ」なブロック
との間の時間遅延が、所与のハングオーバ遅延よりも小
さければ、このブロックは、「アクティブ」なブロック
であるものとして分類される(すなわちアクティブ・チ
ャンネルによって供給される)。さもなければ、システ
ムは、信号のスペクトル分析に基づいた追加の検査に依
存する。換言すれば、システムは、この信号の関数(R
(i))に直接関連するサンプル・ブロックにある信号
の短期間の電カスベクトルに依存する。R(i)関数の
変動がかなり太きいものとすると、°ブロックは「アク
ティブ」とみなされ、さもなければ、ブロックは「非ア
クティブ」、すなわち沈黙に等しいとみなされる。
ハングオーバ遅延の考慮は、短かい音節間の沈黙(例え
ば、01〜1秒)をブリッジするのを助けるが、音声活
動をそれほど増加させない(5チよりも少ない)。この
ハングオーバは、起こりうる音節間の不快なりリッピン
グの回避を可能にする。
ば、01〜1秒)をブリッジするのを助けるが、音声活
動をそれほど増加させない(5チよりも少ない)。この
ハングオーバは、起こりうる音節間の不快なりリッピン
グの回避を可能にする。
スペクトル変動の分析と組合わされたしきい値調整は、
大きな定常的背景雑音の除去を可能にする。例えば、話
し手が白色雑音環境で動作するものと仮定した場合、も
し送風機が回され、高い音のエネルギを発生すれば、音
声活動検出器は、それ自体を適応させ、発生アタックに
おける摩擦音のような低いエネルギの有声部分を検出し
、無声部分を除去する。
大きな定常的背景雑音の除去を可能にする。例えば、話
し手が白色雑音環境で動作するものと仮定した場合、も
し送風機が回され、高い音のエネルギを発生すれば、音
声活動検出器は、それ自体を適応させ、発生アタックに
おける摩擦音のような低いエネルギの有声部分を検出し
、無声部分を除去する。
第7図および第8図は、各サンプル・ブロックを処理す
るために実行される音声活動検出方法の種々のステップ
を要約する。現在の自己相関係数R(i)ならびにXM
AXは既に記憶されている。先ず、XMAXが経験的に
セットされた所定のしきい値レベルVADTHと比較さ
れる。そして、このXMAX対VADTHの検査に基づ
いて、前記しきい値レベルが動的に調整される。もしX
MAXがVADTHよりも小さければ、しきい値は速か
にXMAX値に更新される。さもなければ、新しいVA
DTHをVADTH+1にセットすることによって小さ
い増分だけXMAXが更新される。
るために実行される音声活動検出方法の種々のステップ
を要約する。現在の自己相関係数R(i)ならびにXM
AXは既に記憶されている。先ず、XMAXが経験的に
セットされた所定のしきい値レベルVADTHと比較さ
れる。そして、このXMAX対VADTHの検査に基づ
いて、前記しきい値レベルが動的に調整される。もしX
MAXがVADTHよりも小さければ、しきい値は速か
にXMAX値に更新される。さもなければ、新しいVA
DTHをVADTH+1にセットすることによって小さ
い増分だけXMAXが更新される。
前記増分「1」の10進値は2 分の1、すなわち1/
2048に等しい。
2048に等しい。
次の検査では、XMAI)−VADTH,]:りも十分
に大きいかどうかが決定される。そのため、XMAXは
k −VADTHと比較される。ここで、第8図に関連
して表示されているように、k=2または4である。も
しXMAXがVADTHよりも十分に太きい、すなわち
XMAX)k −VADTHならば、該ブロックはアク
ティブである、すなわち音声信号に属すると言われ、フ
ラグ(VADFLAG)が1にセットされる。同時に、
ハングオーバ・カウンタ、すなわちタイマVADTOU
Tは、所定の遅延時間値RT、例えば6〜50ブロツク
長の期間(おのおの20m5)にセントされる。もしX
MAXがVADTHよりも十分に大きくなげれば、曖昧
さが存続する。このことは当該ブロックがアクティブで
あるかも知れないしまたは非アクティブであるかも知れ
ないことを意味する。現在処理されているブロックにつ
いて、ハングオーバ・カウンタは1単位だけ減小される
。
に大きいかどうかが決定される。そのため、XMAXは
k −VADTHと比較される。ここで、第8図に関連
して表示されているように、k=2または4である。も
しXMAXがVADTHよりも十分に太きい、すなわち
XMAX)k −VADTHならば、該ブロックはアク
ティブである、すなわち音声信号に属すると言われ、フ
ラグ(VADFLAG)が1にセットされる。同時に、
ハングオーバ・カウンタ、すなわちタイマVADTOU
Tは、所定の遅延時間値RT、例えば6〜50ブロツク
長の期間(おのおの20m5)にセントされる。もしX
MAXがVADTHよりも十分に大きくなげれば、曖昧
さが存続する。このことは当該ブロックがアクティブで
あるかも知れないしまたは非アクティブであるかも知れ
ないことを意味する。現在処理されているブロックにつ
いて、ハングオーバ・カウンタは1単位だけ減小される
。
カウンタ内容が正である限り、該ブロックはアクティブ
9ブロツクとして分類される。
9ブロツクとして分類される。
ここで、ハングオーバ時間が経過したと仮定すると、短
期間の電カスベクトル関数の変動は、次の式のSOMを
測定することによって計算される。
期間の電カスベクトル関数の変動は、次の式のSOMを
測定することによって計算される。
SOM−Σ l R(it −Rold(il li
=ま ただし、Σは総計記号を表わし、1 1は絶対値を表わ
す。もしSOMが経験的にセットされた所定の値RX、
例えば10進値1280/2048または640/20
48よりも大きければ、該ブロックは再びアクティブと
みなされる。さもなければ、該ブロックは[非アクティ
ブ」と分類される、すなわち話し手の沈黙に相当する。
=ま ただし、Σは総計記号を表わし、1 1は絶対値を表わ
す。もしSOMが経験的にセットされた所定の値RX、
例えば10進値1280/2048または640/20
48よりも大きければ、該ブロックは再びアクティブと
みなされる。さもなければ、該ブロックは[非アクティ
ブ」と分類される、すなわち話し手の沈黙に相当する。
そしてVADFLAGはOにセントされる。
短期間の電カスベクトル情報は前記とは異なる様式で、
たとえばR(i)ではなく予測係数にK (i)を使用
して導くこともできる。
たとえばR(i)ではなく予測係数にK (i)を使用
して導くこともできる。
第7図は、音声活動検出一方法の主要なステップを要約
するが、短期間の電カスベクトル情報を計算する方法お
よび種々のパラメータの更新は第8図で更に詳細に/J
<されている。第8図に従って、いくつかの検査が実行
される。第1の検査(VADTOUT)=−3’i’
)によって、kを2または4にセントし、10進値RX
を06またはO6にセットすることができる。
するが、短期間の電カスベクトル情報を計算する方法お
よび種々のパラメータの更新は第8図で更に詳細に/J
<されている。第8図に従って、いくつかの検査が実行
される。第1の検査(VADTOUT)=−3’i’
)によって、kを2または4にセントし、10進値RX
を06またはO6にセットすることができる。
第2の検査は、後にR(i) 項を更新するのld
に用いられる自己相関関数のスナップンヨソトをとるべ
き時機を決定するだめのものである。例えば、第25番
目の非アクティブ(沈黙)ブロックで、換言すれば非ア
クティブ・ブロックを連続25回検出した後に、更新動
作を実行することができる。しかし、有効なR(1)
の更新動作は、ld 追加された連続5ブロツクの曖昧なブロックだけ遅延さ
れる。また、これに続いて曖昧なブロックが更に検出さ
れると仮定すると、VADTOUTはカウンタのオーバ
フローを回避するために任意の一定の値にセントされる
。
き時機を決定するだめのものである。例えば、第25番
目の非アクティブ(沈黙)ブロックで、換言すれば非ア
クティブ・ブロックを連続25回検出した後に、更新動
作を実行することができる。しかし、有効なR(1)
の更新動作は、ld 追加された連続5ブロツクの曖昧なブロックだけ遅延さ
れる。また、これに続いて曖昧なブロックが更に検出さ
れると仮定すると、VADTOUTはカウンタのオーバ
フローを回避するために任意の一定の値にセントされる
。
音声活動検出方法を実施するシステムのブロック図が第
9図に示されている。入カバソファBUF24はサンプ
ルX(n)のブロックを記憶する。入力信号が8KHz
でサンプリングされ、かつ各々のサンプル・ブロックが
20msの長さの信号セグメントを表わすものと仮定す
ると、各々のブロックは160サンプルを含む。これら
のサンプルは、各サンプル・ブロックごとにXMAX情
報を取出すために、XMAX26で分類される。固定小
数点の実現形態では、XMAXの決定はサンプルをスケ
ーリングするコーダ内で既に実行されており、音声活動
検出(VAD)のために繰返す必要はない。
9図に示されている。入カバソファBUF24はサンプ
ルX(n)のブロックを記憶する。入力信号が8KHz
でサンプリングされ、かつ各々のサンプル・ブロックが
20msの長さの信号セグメントを表わすものと仮定す
ると、各々のブロックは160サンプルを含む。これら
のサンプルは、各サンプル・ブロックごとにXMAX情
報を取出すために、XMAX26で分類される。固定小
数点の実現形態では、XMAXの決定はサンプルをスケ
ーリングするコーダ内で既に実行されており、音声活動
検出(VAD)のために繰返す必要はない。
次いで、XMAXはしきい値調整装置28に送られ、そ
こで前にセットされたしきい値VADTHと比較される
。前記比較の結果に基づいて、■A D T Hをい(
らか増分するか、またはこれをXMAX値に強制するこ
とにより、VAD、THの調整が行われる。
こで前にセットされたしきい値VADTHと比較される
。前記比較の結果に基づいて、■A D T Hをい(
らか増分するか、またはこれをXMAX値に強制するこ
とにより、VAD、THの調整が行われる。
次に、XMAX−k @VADTH(0、k=2または
4 の検査が比較器60で実行される。
4 の検査が比較器60で実行される。
前記検査の結果が否定の場合、ピッ)81が1にセント
される。ビットS1はVADFLAGラッチ32をセッ
トするためと、VADTOUTタイマ64を、例えば6
単位(すなわち、60m5)にセットするために使用さ
れる。51=4oのときはいつも、■ADTOUTタイ
マは1ユニツト(すなわち、2・0m5)だけ減分され
る。
される。ビットS1はVADFLAGラッチ32をセッ
トするためと、VADTOUTタイマ64を、例えば6
単位(すなわち、60m5)にセットするために使用さ
れる。51=4oのときはいつも、■ADTOUTタイ
マは1ユニツト(すなわち、2・0m5)だけ減分され
る。
タイマ内容が−25に等しいときはいつでも、V A
D 、T OU T タイマ64はゲート・ビットを供
給する。このゲート・ピントは、ゲート66を開いて自
己相関メモリ′58の内容を更新するのに使用される。
D 、T OU T タイマ64はゲート・ビットを供
給する。このゲート・ピントは、ゲート66を開いて自
己相関メモリ′58の内容を更新するのに使用される。
自己相関メモリ68に送られるべき正規化された自己相
関係数R(i)/RID)は、自己相関関数決定装置I
)AF14に属する装置40によって、供給される。こ
の更新は、BUF24のR”R3VIによって行なわれ
、VADTOUTタイマ64のカウンタが−60に等し
いときに確認される。音声活動検出動作のために特にR
(i)係数を計算する必要はなし・。サンプル・ブロッ
クごとに、コーダ内でそれらは既に計算されている。
関係数R(i)/RID)は、自己相関関数決定装置I
)AF14に属する装置40によって、供給される。こ
の更新は、BUF24のR”R3VIによって行なわれ
、VADTOUTタイマ64のカウンタが−60に等し
いときに確認される。音声活動検出動作のために特にR
(i)係数を計算する必要はなし・。サンプル・ブロッ
クごとに、コーダ内でそれらは既に計算されている。
■ADTOUTタイマ54の内容がOに等しいときはい
つでも、SOMの装置42でR(il関数の変動の計算
が開始される。自己相関メモリ38および装置40に接
続されている前記装置42は、を計算ニジ、短期間の電
カスベクトル特性の変動の大きさを決定する。
つでも、SOMの装置42でR(il関数の変動の計算
が開始される。自己相関メモリ38および装置40に接
続されている前記装置42は、を計算ニジ、短期間の電
カスベクトル特性の変動の大きさを決定する。
また、装置42は、短期間型カスベクトル変動基準値R
TとSOMを比較する。SOM)RTの検査結果が肯定
のとき、ビットS2は論理レベル1(アクティブ・チャ
ンネル)にセットされる。
TとSOMを比較する。SOM)RTの検査結果が肯定
のとき、ビットS2は論理レベル1(アクティブ・チャ
ンネル)にセットされる。
この論理レベルはVADFLAGを1にセットするのに
用いられる。VADFLAG= 1の標識は時分割マル
チプレクサ10(第1図)にも送られ、その原始ポート
が識別される。
用いられる。VADFLAG= 1の標識は時分割マル
チプレクサ10(第1図)にも送られ、その原始ポート
が識別される。
さもなければ、52−0となり、前記82ビツトはイン
バータ44で反転されて、VADFLAGをOにリセッ
トするのに用いられる。その場合、該チャンネルは非ア
クティブすなわち遊休とみなされる。
バータ44で反転されて、VADFLAGをOにリセッ
トするのに用いられる。その場合、該チャンネルは非ア
クティブすなわち遊休とみなされる。
第1図はTAS Iシステムのブロック図、第2図〜第
4図は線形予測理論に基づいた先行技術のコーグのブロ
ック図、 第5図および第6図はそれぞれ本発明に用いられる線形
予測コーグおよびデコーダの特性を要約したブロック図
、 第7図および第8図は本発明の方法の個々のステップを
要約した流れ図、 第9図は本発明を実施する装置のブロック図である。 1・・・・予測器、2・・・・係数装置、4・・・・コ
ーグ、5・・・・BBココー、6・・・・V/UV17
・・・・ピッチ、8・・・・エネルギ、10・・・・時
分割マルチプレクサ、12・・・・音声活動検出器、1
4・・・・DAF116・・・・DPC,18・・・・
EEP、20・・・・GBS、2 ・・・・フィルタ、
24・・・・BUF、26・・・・XMAX、28・・
・・しき(・値調整装置、60・・・・比較器、62・
・・・VADFLAGラッチ、34・・・・VADTO
UTタイマ、66・・・・ゲート、38・・・・自己相
関メモリ、40.42・・・・装置、44・・・・イン
バータ。 FIG、1 FIG、2 づ FIG、3 FIG、5 FIG、6 FIG、7
4図は線形予測理論に基づいた先行技術のコーグのブロ
ック図、 第5図および第6図はそれぞれ本発明に用いられる線形
予測コーグおよびデコーダの特性を要約したブロック図
、 第7図および第8図は本発明の方法の個々のステップを
要約した流れ図、 第9図は本発明を実施する装置のブロック図である。 1・・・・予測器、2・・・・係数装置、4・・・・コ
ーグ、5・・・・BBココー、6・・・・V/UV17
・・・・ピッチ、8・・・・エネルギ、10・・・・時
分割マルチプレクサ、12・・・・音声活動検出器、1
4・・・・DAF116・・・・DPC,18・・・・
EEP、20・・・・GBS、2 ・・・・フィルタ、
24・・・・BUF、26・・・・XMAX、28・・
・・しき(・値調整装置、60・・・・比較器、62・
・・・VADFLAGラッチ、34・・・・VADTO
UTタイマ、66・・・・ゲート、38・・・・自己相
関メモリ、40.42・・・・装置、44・・・・イン
バータ。 FIG、1 FIG、2 づ FIG、3 FIG、5 FIG、6 FIG、7
Claims (1)
- 【特許請求の範囲】 入力チャンネルを介して供給された少なくとも1つの音
声信号をコード化することにより、該音声信号から所定
の持続期間を有するサンスル・ブロックx (ni、お
よび短期間型カスベクトル情報を取出−tようにしたシ
ステムにおいて、アクティブな音声ブロック欠非アクテ
ィブな音声ブロックから弁別するための音声活動検出方
法であって、各サンプル・ブロックごとに、 (at 振幅しきい値VADTHをセットし、(bl
サンスル・ブロックx(n)の値を処理して、そこから
信号エネルギーを表わす情報XMを取出し、(cl X
MとVADTHケ比較し、それに応じて前記しきい値を
調整し、 (dlXMをに奢VADTH(但し、kは所定の数値、
VADTHは調整されたしきい値)と比較し、XMがk
・VADTHよりも大きいときにはチャンネル活動標識
を取出すとともにハングオーバ・タイマをセットし、X
Mがk @VADTHよ)も小さいときには曖昧さの標
識を取出すとともに曖昧さ解決動作を実行する ステップを含み、 前記曖昧さ解決動作には、 前記タイマの内容を減小して検査することによシ、前記
タイマの内容が正である場合はアクティブな音声ブロッ
クを表示し、前記タイマの内容が負である場合は依然と
して曖昧な状況を表示し、現に処理されたブロックと少
なくとも1つ前に処理されたブロックの間の短期間型カ
スベクトル情報の変動を計算し、 前記短期間型カスベクトル情報の変動をプリセットされ
た基準レベルと比較し、この比較結果に応じて現に処理
された曖昧なブロックが非アクティブであるかまたはア
クティブであるかを決定する ステップを含むことを特徴とする音声活動検出方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP83430018.8 | 1983-06-07 | ||
EP83430018A EP0127718B1 (fr) | 1983-06-07 | 1983-06-07 | Procédé de détection d'activité dans un système de transmission de la voix |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS603240A true JPS603240A (ja) | 1985-01-09 |
JPH0226901B2 JPH0226901B2 (ja) | 1990-06-13 |
Family
ID=8191498
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP59047325A Granted JPS603240A (ja) | 1983-06-07 | 1984-03-14 | 音声活動検出方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US4672669A (ja) |
EP (1) | EP0127718B1 (ja) |
JP (1) | JPS603240A (ja) |
CA (1) | CA1231473A (ja) |
DE (1) | DE3370423D1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004531766A (ja) * | 2001-05-11 | 2004-10-14 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 無音検出 |
Families Citing this family (77)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4764966A (en) * | 1985-10-11 | 1988-08-16 | International Business Machines Corporation | Method and apparatus for voice detection having adaptive sensitivity |
US5276765A (en) * | 1988-03-11 | 1994-01-04 | British Telecommunications Public Limited Company | Voice activity detection |
EP0548054B1 (en) * | 1988-03-11 | 2002-12-11 | BRITISH TELECOMMUNICATIONS public limited company | Voice activity detector |
FR2631147B1 (fr) * | 1988-05-04 | 1991-02-08 | Thomson Csf | Procede et dispositif de detection de signaux vocaux |
FR2643523A1 (fr) * | 1989-02-22 | 1990-08-24 | Applic Electro Tech Avance | Discriminateur pour transmissions numeriques |
CA1290868C (en) * | 1989-09-28 | 1991-10-15 | Maurizio Cecarelli | Voice data discriminator |
US5226108A (en) * | 1990-09-20 | 1993-07-06 | Digital Voice Systems, Inc. | Processing a speech signal with estimated pitch |
US5216747A (en) * | 1990-09-20 | 1993-06-01 | Digital Voice Systems, Inc. | Voiced/unvoiced estimation of an acoustic signal |
FR2670065B1 (fr) * | 1990-11-30 | 1993-01-22 | Lmt Radio Professionelle | Procede pour la transmission numerique de la parole dans un reseau asynchrone. |
BR9206143A (pt) * | 1991-06-11 | 1995-01-03 | Qualcomm Inc | Processos de compressão de final vocal e para codificação de taxa variável de quadros de entrada, aparelho para comprimir im sinal acústico em dados de taxa variável, codificador de prognóstico exitado por córdigo de taxa variável (CELP) e descodificador para descodificar quadros codificados |
EP0538536A1 (en) * | 1991-10-25 | 1993-04-28 | International Business Machines Corporation | Method for detecting voice presence on a communication line |
US5410632A (en) * | 1991-12-23 | 1995-04-25 | Motorola, Inc. | Variable hangover time in a voice activity detector |
SE501305C2 (sv) * | 1993-05-26 | 1995-01-09 | Ericsson Telefon Ab L M | Förfarande och anordning för diskriminering mellan stationära och icke stationära signaler |
US5559832A (en) * | 1993-06-28 | 1996-09-24 | Motorola, Inc. | Method and apparatus for maintaining convergence within an ADPCM communication system during discontinuous transmission |
IN184794B (ja) * | 1993-09-14 | 2000-09-30 | British Telecomm | |
US5586126A (en) * | 1993-12-30 | 1996-12-17 | Yoder; John | Sample amplitude error detection and correction apparatus and method for use with a low information content signal |
JP3484757B2 (ja) * | 1994-05-13 | 2004-01-06 | ソニー株式会社 | 音声信号の雑音低減方法及び雑音区間検出方法 |
TW271524B (ja) | 1994-08-05 | 1996-03-01 | Qualcomm Inc | |
US5742734A (en) * | 1994-08-10 | 1998-04-21 | Qualcomm Incorporated | Encoding rate selection in a variable rate vocoder |
US5497337A (en) * | 1994-10-21 | 1996-03-05 | International Business Machines Corporation | Method for designing high-Q inductors in silicon technology without expensive metalization |
AU696092B2 (en) * | 1995-01-12 | 1998-09-03 | Digital Voice Systems, Inc. | Estimation of excitation parameters |
US5822726A (en) * | 1995-01-31 | 1998-10-13 | Motorola, Inc. | Speech presence detector based on sparse time-random signal samples |
US5701390A (en) * | 1995-02-22 | 1997-12-23 | Digital Voice Systems, Inc. | Synthesis of MBE-based coded speech using regenerated phase information |
US5754974A (en) * | 1995-02-22 | 1998-05-19 | Digital Voice Systems, Inc | Spectral magnitude representation for multi-band excitation speech coders |
JPH08263099A (ja) * | 1995-03-23 | 1996-10-11 | Toshiba Corp | 符号化装置 |
GB2317084B (en) * | 1995-04-28 | 2000-01-19 | Northern Telecom Ltd | Methods and apparatus for distinguishing speech intervals from noise intervals in audio signals |
US5598466A (en) * | 1995-08-28 | 1997-01-28 | Intel Corporation | Voice activity detector for half-duplex audio communication system |
US5844994A (en) * | 1995-08-28 | 1998-12-01 | Intel Corporation | Automatic microphone calibration for video teleconferencing |
US6175634B1 (en) | 1995-08-28 | 2001-01-16 | Intel Corporation | Adaptive noise reduction technique for multi-point communication system |
FI100840B (fi) * | 1995-12-12 | 1998-02-27 | Nokia Mobile Phones Ltd | Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin |
US5774849A (en) * | 1996-01-22 | 1998-06-30 | Rockwell International Corporation | Method and apparatus for generating frame voicing decisions of an incoming speech signal |
US5765130A (en) * | 1996-05-21 | 1998-06-09 | Applied Language Technologies, Inc. | Method and apparatus for facilitating speech barge-in in connection with voice recognition systems |
JP4307557B2 (ja) | 1996-07-03 | 2009-08-05 | ブリティッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー | 音声活性度検出器 |
US5751901A (en) * | 1996-07-31 | 1998-05-12 | Qualcomm Incorporated | Method for searching an excitation codebook in a code excited linear prediction (CELP) coder |
US5864793A (en) * | 1996-08-06 | 1999-01-26 | Cirrus Logic, Inc. | Persistence and dynamic threshold based intermittent signal detector |
US6708146B1 (en) | 1997-01-03 | 2004-03-16 | Telecommunications Research Laboratories | Voiceband signal classifier |
EP1944753A3 (en) * | 1997-04-30 | 2012-08-15 | Nippon Hoso Kyokai | Method and device for detecting voice sections, and speech velocity conversion method and device utilizing said method and device |
US6023674A (en) * | 1998-01-23 | 2000-02-08 | Telefonaktiebolaget L M Ericsson | Non-parametric voice activity detection |
JP3273599B2 (ja) * | 1998-06-19 | 2002-04-08 | 沖電気工業株式会社 | 音声符号化レート選択器と音声符号化装置 |
US6453285B1 (en) | 1998-08-21 | 2002-09-17 | Polycom, Inc. | Speech activity detector for use in noise reduction system, and methods therefor |
US6351731B1 (en) | 1998-08-21 | 2002-02-26 | Polycom, Inc. | Adaptive filter featuring spectral gain smoothing and variable noise multiplier for noise reduction, and method therefor |
US6691084B2 (en) | 1998-12-21 | 2004-02-10 | Qualcomm Incorporated | Multiple mode variable rate speech coding |
US6556967B1 (en) | 1999-03-12 | 2003-04-29 | The United States Of America As Represented By The National Security Agency | Voice activity detector |
US6618701B2 (en) * | 1999-04-19 | 2003-09-09 | Motorola, Inc. | Method and system for noise suppression using external voice activity detection |
US6381568B1 (en) | 1999-05-05 | 2002-04-30 | The United States Of America As Represented By The National Security Agency | Method of transmitting speech using discontinuous transmission and comfort noise |
US7161931B1 (en) * | 1999-09-20 | 2007-01-09 | Broadcom Corporation | Voice and data exchange over a packet based network |
US6757301B1 (en) * | 2000-03-14 | 2004-06-29 | Cisco Technology, Inc. | Detection of ending of fax/modem communication between a telephone line and a network for switching router to compressed mode |
GB0007655D0 (en) * | 2000-03-29 | 2000-05-17 | Simoco Int Ltd | Digital transmission |
JP4201470B2 (ja) * | 2000-09-12 | 2008-12-24 | パイオニア株式会社 | 音声認識システム |
JP4201471B2 (ja) * | 2000-09-12 | 2008-12-24 | パイオニア株式会社 | 音声認識システム |
WO2002071389A1 (fr) * | 2001-03-06 | 2002-09-12 | Ntt Docomo, Inc. | Procede et dispositif d'interpolation de donnees sonores, procede et dispositif de creation d'informations relatives aux donnees sonores, procede et dispositif de transmission des informations d'interpolation des donnees sonores, et programme et support d'enregistrement correspondants |
US7941313B2 (en) * | 2001-05-17 | 2011-05-10 | Qualcomm Incorporated | System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system |
US7203643B2 (en) * | 2001-06-14 | 2007-04-10 | Qualcomm Incorporated | Method and apparatus for transmitting speech activity in distributed voice recognition systems |
US7746797B2 (en) * | 2002-10-09 | 2010-06-29 | Nortel Networks Limited | Non-intrusive monitoring of quality levels for voice communications over a packet-based network |
US20040234067A1 (en) * | 2003-05-19 | 2004-11-25 | Acoustic Technologies, Inc. | Distributed VAD control system for telephone |
US7269252B2 (en) * | 2003-08-06 | 2007-09-11 | Polycom, Inc. | Method and apparatus for improving nuisance signals in audio/video conference |
US8315865B2 (en) * | 2004-05-04 | 2012-11-20 | Hewlett-Packard Development Company, L.P. | Method and apparatus for adaptive conversation detection employing minimal computation |
US7752050B1 (en) * | 2004-09-03 | 2010-07-06 | Stryker Corporation | Multiple-user voice-based control of devices in an endoscopic imaging system |
US8443279B1 (en) | 2004-10-13 | 2013-05-14 | Stryker Corporation | Voice-responsive annotation of video generated by an endoscopic camera |
JP2008538166A (ja) * | 2005-01-21 | 2008-10-09 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | デジタルテレビ信号の存在を検出する方法及び機器 |
EP1861846B1 (en) * | 2005-03-24 | 2011-09-07 | Mindspeed Technologies, Inc. | Adaptive voice mode extension for a voice activity detector |
WO2006105275A2 (en) * | 2005-03-29 | 2006-10-05 | Sonim Technologies, Inc. | Push to talk over cellular (half-duplex) to full-duplex voice conferencing |
US7962340B2 (en) * | 2005-08-22 | 2011-06-14 | Nuance Communications, Inc. | Methods and apparatus for buffering data for use in accordance with a speech recognition system |
US8195454B2 (en) | 2007-02-26 | 2012-06-05 | Dolby Laboratories Licensing Corporation | Speech enhancement in entertainment audio |
JP5229217B2 (ja) * | 2007-02-27 | 2013-07-03 | 日本電気株式会社 | 音声認識システム、方法およびプログラム |
EP2107553B1 (en) * | 2008-03-31 | 2011-05-18 | Harman Becker Automotive Systems GmbH | Method for determining barge-in |
EP2148325B1 (en) * | 2008-07-22 | 2014-10-01 | Nuance Communications, Inc. | Method for determining the presence of a wanted signal component |
GB0919672D0 (en) * | 2009-11-10 | 2009-12-23 | Skype Ltd | Noise suppression |
US8762150B2 (en) * | 2010-09-16 | 2014-06-24 | Nuance Communications, Inc. | Using codec parameters for endpoint detection in speech recognition |
WO2013187932A1 (en) | 2012-06-10 | 2013-12-19 | Nuance Communications, Inc. | Noise dependent signal processing for in-car communication systems with multiple acoustic zones |
WO2014039028A1 (en) | 2012-09-04 | 2014-03-13 | Nuance Communications, Inc. | Formant dependent speech signal enhancement |
US9613633B2 (en) | 2012-10-30 | 2017-04-04 | Nuance Communications, Inc. | Speech enhancement |
US9530433B2 (en) * | 2014-03-17 | 2016-12-27 | Sharp Laboratories Of America, Inc. | Voice activity detection for noise-canceling bioacoustic sensor |
CN105321528B (zh) * | 2014-06-27 | 2019-11-05 | 中兴通讯股份有限公司 | 一种麦克风阵列语音检测方法及装置 |
US9467569B2 (en) | 2015-03-05 | 2016-10-11 | Raytheon Company | Methods and apparatus for reducing audio conference noise using voice quality measures |
CN106599110A (zh) * | 2016-11-29 | 2017-04-26 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音搜索方法及装置 |
CN110767236A (zh) * | 2018-07-10 | 2020-02-07 | 上海智臻智能网络科技股份有限公司 | 一种语音识别方法和装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA1130920A (en) * | 1979-03-05 | 1982-08-31 | William G. Crouse | Speech detector with variable threshold |
US4351983A (en) * | 1979-03-05 | 1982-09-28 | International Business Machines Corp. | Speech detector with variable threshold |
-
1983
- 1983-06-07 DE DE8383430018T patent/DE3370423D1/de not_active Expired
- 1983-06-07 EP EP83430018A patent/EP0127718B1/fr not_active Expired
-
1984
- 1984-03-14 JP JP59047325A patent/JPS603240A/ja active Granted
- 1984-05-18 CA CA000454771A patent/CA1231473A/en not_active Expired
- 1984-05-31 US US06/616,021 patent/US4672669A/en not_active Expired - Lifetime
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004531766A (ja) * | 2001-05-11 | 2004-10-14 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 無音検出 |
Also Published As
Publication number | Publication date |
---|---|
DE3370423D1 (en) | 1987-04-23 |
CA1231473A (en) | 1988-01-12 |
EP0127718A1 (fr) | 1984-12-12 |
EP0127718B1 (fr) | 1987-03-18 |
JPH0226901B2 (ja) | 1990-06-13 |
US4672669A (en) | 1987-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPS603240A (ja) | 音声活動検出方法 | |
US6889187B2 (en) | Method and apparatus for improved voice activity detection in a packet voice network | |
JP4870313B2 (ja) | 可変レート音声符号器におけるフレーム消去補償方法 | |
RU2146394C1 (ru) | Способ и устройство вокодирования переменной скорости при пониженной скорости кодирования | |
US7269561B2 (en) | Bandwidth efficient digital voice communication system and method | |
JPH10187197A (ja) | 音声符号化方法及び該方法を実施する装置 | |
US9373342B2 (en) | System and method for speech enhancement on compressed speech | |
KR20010093210A (ko) | 가변 속도 음성 코딩 | |
KR19990037291A (ko) | 음성합성방법 및 장치 그리고 음성대역 확장방법 및 장치 | |
Gibson | Multimedia communications: directions and innovations | |
KR20030041169A (ko) | 무성 음성의 코딩 방법 및 장치 | |
De Lamare et al. | Strategies to improve the performance of very low bit rate speech coders and application to a variable rate 1.2 kb/s codec | |
PT1554717E (pt) | Pré-processamento de dados digitais áudio para codificadores/descodificadores de áudio móveis | |
US8144862B2 (en) | Method and apparatus for the detection and suppression of echo in packet based communication networks using frame energy estimation | |
JPH11513813A (ja) | 反復的な音の圧縮システム | |
EP1111586B1 (en) | Method and apparatus for voiced/unvoiced determination | |
BRPI0012543B1 (pt) | método e codificador de fala para dividir o espectro de freqüência de um protótipo de um frame | |
JP2861889B2 (ja) | 音声パケット伝送システム | |
Al-Heeti et al. | Voice encoding for wireless communication based on LPC, RPE, and CELP | |
Kang et al. | Improving the transcoding capability of speech coders | |
İlk et al. | Adaptive time scale modification of speech for graceful degrading voice quality in congested networks for VoIP applications | |
Sunder et al. | Evaluation of narrow band speech codecs for ubiquitous speech collection and analysis systems | |
Lindblom et al. | Error protection and packet loss concealment based on a signal matched sinusoidal vocoder | |
Tosun et al. | Dynamically adding redundancy for improved error concealment in packet voice coding | |
Atal | Influence of pitch on formant frequencies and bandwidths obtained by linear prediction analysis |