JPH09204199A - 非活性音声の効率的符号化のための方法および装置 - Google Patents
非活性音声の効率的符号化のための方法および装置Info
- Publication number
- JPH09204199A JPH09204199A JP9008589A JP858997A JPH09204199A JP H09204199 A JPH09204199 A JP H09204199A JP 9008589 A JP9008589 A JP 9008589A JP 858997 A JP858997 A JP 858997A JP H09204199 A JPH09204199 A JP H09204199A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- inactive
- frame
- active
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 25
- 230000005284 excitation Effects 0.000 claims description 22
- 239000013598 vector Substances 0.000 claims description 17
- 238000004891 communication Methods 0.000 claims description 15
- 230000005540 biological transmission Effects 0.000 claims description 13
- 230000003595 spectral effect Effects 0.000 claims description 10
- 230000005236 sound signal Effects 0.000 claims description 8
- 230000008859 change Effects 0.000 claims description 5
- 238000001228 spectrum Methods 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 description 13
- 238000013139 quantization Methods 0.000 description 6
- 230000006835 compression Effects 0.000 description 5
- 238000007906 compression Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000009977 dual effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013016 damping Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 239000002023 wood Substances 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Time-Division Multiplex Systems (AREA)
Abstract
(57)【要約】
【課題】 非活性音声フレームが検出されると、必要な
場合背景雑音に関する何らかの情報を間欠的に送って全
体的な音声の質を高める。 【解決手段】 (a)音声符号化器、(b)通信チャネ
ルおよび(c)音声復号化器とを備える音声通信システ
ムのための非活性音声期間を効率的に符号化するための
方法であって、非活性音声フレームの符号化効率はわず
か15ビットでフレームのエネルギおよびそのスペクト
ルを符号化することにより達成することができる。これ
らのビットは非活性音声が検出されるたびに自動的に伝
送されるのではなく、むしろ最も最近非活性音声フレー
ムが送られた時点に対して評価可能な変化が検出された
場合にのみ伝送される(220)。本発明によれば、通
常の音声会話の間に平均4kb/sという低いレートで
全体的に良好な品質が達成できる。
場合背景雑音に関する何らかの情報を間欠的に送って全
体的な音声の質を高める。 【解決手段】 (a)音声符号化器、(b)通信チャネ
ルおよび(c)音声復号化器とを備える音声通信システ
ムのための非活性音声期間を効率的に符号化するための
方法であって、非活性音声フレームの符号化効率はわず
か15ビットでフレームのエネルギおよびそのスペクト
ルを符号化することにより達成することができる。これ
らのビットは非活性音声が検出されるたびに自動的に伝
送されるのではなく、むしろ最も最近非活性音声フレー
ムが送られた時点に対して評価可能な変化が検出された
場合にのみ伝送される(220)。本発明によれば、通
常の音声会話の間に平均4kb/sという低いレートで
全体的に良好な品質が達成できる。
Description
【0001】
【関連出願】本発明は、本件と同日出願で同一譲受人の
「音声通信システムにおいてフレーム音声決定を生成す
るための方法および装置」と題する係属中の米国特許出
願連続番号第08/589509号に関連し、同関連出
願の開示をここに引用により援用する。
「音声通信システムにおいてフレーム音声決定を生成す
るための方法および装置」と題する係属中の米国特許出
願連続番号第08/589509号に関連し、同関連出
願の開示をここに引用により援用する。
【0002】
【発明の分野】本発明は、通信システムにおける音声符
号化に関連し、かつ特に、デュアルモード音声符号化方
式に関連する。
号化に関連し、かつ特に、デュアルモード音声符号化方
式に関連する。
【0003】
【技術的背景】今日の通信システムは一般にデジタル音
声処理に大きく依存しかつ特にデジタル音声圧縮に依存
している。そのような通信システムの例には、デジタル
電話幹線、ボイスメール、音声注釈、自動応答装置、デ
ータリンクによるデジタル音声の伝送等がある。
声処理に大きく依存しかつ特にデジタル音声圧縮に依存
している。そのような通信システムの例には、デジタル
電話幹線、ボイスメール、音声注釈、自動応答装置、デ
ータリンクによるデジタル音声の伝送等がある。
【0004】図1に示すとおり、音声通信システムは典
型的には音声符号化器110、通信チャネル150およ
び音声復号化器155から構成される。符号化器110
側には、音声175を復元するために使用される3つの
機能部分、すなわち非活性音声符号化器115、活性音
声符号化器120、および音声活性度検出ユニット12
5がある。復号化器155側には、非活性音声復号化器
165と活性音声復号化器170がある。
型的には音声符号化器110、通信チャネル150およ
び音声復号化器155から構成される。符号化器110
側には、音声175を復元するために使用される3つの
機能部分、すなわち非活性音声符号化器115、活性音
声符号化器120、および音声活性度検出ユニット12
5がある。復号化器155側には、非活性音声復号化器
165と活性音声復号化器170がある。
【0005】当業者においては、「非活性音声」は一般
に伝送における「無音」または「無音の際の背景雑音」
を指し、「活性音声」はその伝送の実際の「音声」部分
を指すことが理解されるはずである。
に伝送における「無音」または「無音の際の背景雑音」
を指し、「活性音声」はその伝送の実際の「音声」部分
を指すことが理解されるはずである。
【0006】音声符号化器110はビットストリームの
形に既にデジタル化されている音声105を変換する。
ビットストリームは通信チャネル150(たとえば記憶
媒体などが可能)上を伝送され、復号化器155によっ
て再びデジタル化された音声175へ変換される。この
デジタル化された音声を表わすために必要なビット数と
ビットストリームにおけるビット数との比率が圧縮率で
ある。復元される音声を高品質に保ちながら12から1
6の圧縮率が達成可能である。
形に既にデジタル化されている音声105を変換する。
ビットストリームは通信チャネル150(たとえば記憶
媒体などが可能)上を伝送され、復号化器155によっ
て再びデジタル化された音声175へ変換される。この
デジタル化された音声を表わすために必要なビット数と
ビットストリームにおけるビット数との比率が圧縮率で
ある。復元される音声を高品質に保ちながら12から1
6の圧縮率が達成可能である。
【0007】正常な音声のかなりの部分は非活性音声の
期間から構成されており、双方向の会話においてはこれ
は平均60%までに達する。これら非活性音声の期間の
間、マイクロフォン等の音声入力装置は背景雑音を拾
う。その雑音レベルと特性は、静かな部屋から雑音の多
い街頭や高速で移動する車までさまざまなに異なるが、
雑音源は音声よりも運ぶ情報が少ない場合が多いので非
活性音声期間においてはより高い圧縮率を達成すること
が可能である。
期間から構成されており、双方向の会話においてはこれ
は平均60%までに達する。これら非活性音声の期間の
間、マイクロフォン等の音声入力装置は背景雑音を拾
う。その雑音レベルと特性は、静かな部屋から雑音の多
い街頭や高速で移動する車までさまざまなに異なるが、
雑音源は音声よりも運ぶ情報が少ない場合が多いので非
活性音声期間においてはより高い圧縮率を達成すること
が可能である。
【0008】このような議論が通常「率可変符号化方
式」としても知られるデュアルモード音声符号化方式の
概念のもとになっている。入力信号の異なるモード(活
性または非活性音声)が音声活性度検出器(「VA
D」)152としても知られる信号類別装置により判別
される。この装置は音声符号化器110の外部または内
部で動作することができる。非活性音声符号化器115
を介する非活性音声信号の場合にはより少ない数のビッ
トを利用し、より高い平均圧縮率が得られる異なる符号
化方式を採用する。VAD125の出力は2値であり、
一般に「音声決定」140と呼ばれる。この音声決定を
利用してビットストリームのデュアルモード、すなわち
非活性音声ビットストリーム130であるかまたは活性
音声ビットストリーム135であるかを切換える。
式」としても知られるデュアルモード音声符号化方式の
概念のもとになっている。入力信号の異なるモード(活
性または非活性音声)が音声活性度検出器(「VA
D」)152としても知られる信号類別装置により判別
される。この装置は音声符号化器110の外部または内
部で動作することができる。非活性音声符号化器115
を介する非活性音声信号の場合にはより少ない数のビッ
トを利用し、より高い平均圧縮率が得られる異なる符号
化方式を採用する。VAD125の出力は2値であり、
一般に「音声決定」140と呼ばれる。この音声決定を
利用してビットストリームのデュアルモード、すなわち
非活性音声ビットストリーム130であるかまたは活性
音声ビットストリーム135であるかを切換える。
【0009】
【発明の要約】伝統的な音声コーダおよび復号化器では
非活性音声フレームにおける背景雑音を真似るために快
適雑音を使用する。背景雑音は変化することが多いの
で、そのような場合、快適雑音では元の背景雑音の自然
さが得られない。そこで非活性音声フレームが検出され
ると、必要な場合背景雑音に関する何らかの情報を間欠
的に送って質を高めることが望ましい。わずか15ビッ
トでそのフレームのエネルギとそのスペクトルを符号化
することによって非活性音声フレームの符号化効率が達
成され得る。これらのビットは非活性音声が検出される
たびに自動的に伝送されるわけではない。むしろ、最も
最近非活性音声フレームが送られた時点に対して評価可
能な変化が検出された場合のみ伝送される。本発明によ
れば、通常の音声会話の際に平均4kb/sという低い
レートで高品質が達成され得る。このような高品質は、
8kb/sのフルレートで動作が行なわれない限り非活
性音声期間の間への単純な快適雑音の挿入だけでは達成
され得ない。
非活性音声フレームにおける背景雑音を真似るために快
適雑音を使用する。背景雑音は変化することが多いの
で、そのような場合、快適雑音では元の背景雑音の自然
さが得られない。そこで非活性音声フレームが検出され
ると、必要な場合背景雑音に関する何らかの情報を間欠
的に送って質を高めることが望ましい。わずか15ビッ
トでそのフレームのエネルギとそのスペクトルを符号化
することによって非活性音声フレームの符号化効率が達
成され得る。これらのビットは非活性音声が検出される
たびに自動的に伝送されるわけではない。むしろ、最も
最近非活性音声フレームが送られた時点に対して評価可
能な変化が検出された場合のみ伝送される。本発明によ
れば、通常の音声会話の際に平均4kb/sという低い
レートで高品質が達成され得る。このような高品質は、
8kb/sのフルレートで動作が行なわれない限り非活
性音声期間の間への単純な快適雑音の挿入だけでは達成
され得ない。
【0010】(a)入来音声信号を受信して符号化し音
声復号化器へ伝送するためのビットストリームを生成す
るための音声符号化器、(b)伝送用通信チャネル、お
よび(c)音声符号化器からのビットストリームを受け
て復号化するための音声復号化器を備える音声通信シス
テムにおいて、本発明による非活性音声期間の効率的な
符号化のための方法を開示する。本発明の方法は、a)
フレームごとに入来音声信号から予め定められた組のパ
ラメータを抽出するステップと、b)この予め定められ
た組のパラメータのうち第1の組によりフレームごとに
入来音声信号のフレーム音声決定を行なうステップと、
c)フレーム音声決定が活性音声を示す場合、入来音声
信号を活性音声符号化器により符号化して活性音声ビッ
トストリームを生成し、これを連続的に連結してチャネ
ル上を伝送するステップと、d)フレーム音声決定が非
活性音声を示す場合には、非活性音声符号化器により符
号化されている入来音声信号を使用して非活性音声ビッ
トストリームを生成するステップとを含む。非活性ビッ
トストリームは各々幅2バイトの少なくとも1つのパケ
ットから構成され、かつ各パケットは非活性音声パラメ
ータを表わす複数の表に対する複数の指標を有し、e)
受信したビットストリームが活性音声フレームのもので
あれば、活性音声復号化器を呼出して復元された音声信
号を生成し、f)フレーム音声決定が非活性音声を示す
場合には、非活性音声ビットストリームの伝送は、予め
定められた比較基準が満たされた場合にのみ行なわれ、
g)フレーム音声決定が非活性音声を示す場合には、非
活性音声復号化器を呼出して復元された音声信号を生成
し、かつh)非活性音声ビットストリームが音声復号化
器により受信された場合には非活性音声復号化器を更新
し、それ以外の場合は以前に受信した非活性音声情報を
使用する。
声復号化器へ伝送するためのビットストリームを生成す
るための音声符号化器、(b)伝送用通信チャネル、お
よび(c)音声符号化器からのビットストリームを受け
て復号化するための音声復号化器を備える音声通信シス
テムにおいて、本発明による非活性音声期間の効率的な
符号化のための方法を開示する。本発明の方法は、a)
フレームごとに入来音声信号から予め定められた組のパ
ラメータを抽出するステップと、b)この予め定められ
た組のパラメータのうち第1の組によりフレームごとに
入来音声信号のフレーム音声決定を行なうステップと、
c)フレーム音声決定が活性音声を示す場合、入来音声
信号を活性音声符号化器により符号化して活性音声ビッ
トストリームを生成し、これを連続的に連結してチャネ
ル上を伝送するステップと、d)フレーム音声決定が非
活性音声を示す場合には、非活性音声符号化器により符
号化されている入来音声信号を使用して非活性音声ビッ
トストリームを生成するステップとを含む。非活性ビッ
トストリームは各々幅2バイトの少なくとも1つのパケ
ットから構成され、かつ各パケットは非活性音声パラメ
ータを表わす複数の表に対する複数の指標を有し、e)
受信したビットストリームが活性音声フレームのもので
あれば、活性音声復号化器を呼出して復元された音声信
号を生成し、f)フレーム音声決定が非活性音声を示す
場合には、非活性音声ビットストリームの伝送は、予め
定められた比較基準が満たされた場合にのみ行なわれ、
g)フレーム音声決定が非活性音声を示す場合には、非
活性音声復号化器を呼出して復元された音声信号を生成
し、かつh)非活性音声ビットストリームが音声復号化
器により受信された場合には非活性音声復号化器を更新
し、それ以外の場合は以前に受信した非活性音声情報を
使用する。
【0011】本発明の他の目的、特徴および利点につい
ては以下の説明から当業者にはより明らかになるであろ
う。
ては以下の説明から当業者にはより明らかになるであろ
う。
【0012】
【図面の詳細な説明】VADを利用して音声を効率的に
符号化する方法を開示する。以下の説明においては、本
発明は機能ブロック図とプロセスフローチャートの形で
記述されるが、これは通信のための音声符号化技術の当
業者の間では一般に行なわれているやり方である。当業
者であれば本発明の教示を実現する最も適切なやり方を
容易に決定できるので、本発明はいかなる特定のプログ
ラミング言語にも限定されない。
符号化する方法を開示する。以下の説明においては、本
発明は機能ブロック図とプロセスフローチャートの形で
記述されるが、これは通信のための音声符号化技術の当
業者の間では一般に行なわれているやり方である。当業
者であれば本発明の教示を実現する最も適切なやり方を
容易に決定できるので、本発明はいかなる特定のプログ
ラミング言語にも限定されない。
【0013】A.一般的説明 本発明に従い、VAD(図1、125)および間欠非活
性音声期間更新(Intermittent Non-active Voice Peri
od Update )(「INPU」)(図2、220)モジュ
ールはCELP(「符号励起線形予測」)(Code Excit
ed Linear Prediction)音声コーダおよび特に推奨され
るCS−ACELP8kbps音声コーダ(「G.72
9」)とともに動作するよう設計されている。快適雑音
を聞くために、INPUアルゴリズムは、平均ビットレ
ートを低く維持しながら非活性音声期間に関する連続的
かつ平滑な情報を提供する。活性音声フレームにおい
て、音声符号化器110はG.729音声符号化器12
0を使用し、対応するビットストリームは連続的に音声
復号化器155へ送られる。なおG.729仕様は国際
電気通信連合(ITU)により推奨される音声符号化仕
様を指す。
性音声期間更新(Intermittent Non-active Voice Peri
od Update )(「INPU」)(図2、220)モジュ
ールはCELP(「符号励起線形予測」)(Code Excit
ed Linear Prediction)音声コーダおよび特に推奨され
るCS−ACELP8kbps音声コーダ(「G.72
9」)とともに動作するよう設計されている。快適雑音
を聞くために、INPUアルゴリズムは、平均ビットレ
ートを低く維持しながら非活性音声期間に関する連続的
かつ平滑な情報を提供する。活性音声フレームにおい
て、音声符号化器110はG.729音声符号化器12
0を使用し、対応するビットストリームは連続的に音声
復号化器155へ送られる。なおG.729仕様は国際
電気通信連合(ITU)により推奨される音声符号化仕
様を指す。
【0014】各非活性音声フレームについて、INPU
モジュール(220)は、非活性音声信号における変化
を測定することによって非活性音声更新パラメータの組
を音声復号化器155に送るべきか否かを決定する。フ
レームエネルギおよびスペクトル歪み測定に関する絶対
および適応しきい値を使用して更新の決定を得る。更新
が必要な場合、非活性音声符号化器115は元の非活性
音声信号に知覚的に類似する信号を生成するのに必要な
情報を送る。この情報はエネルギレベルとスペクトル包
絡線の記述とを含み得る。更新が必要でない場合には非
活性音声信号は非活性音声フレームの最も最近に受信し
たエネルギおよびスペクトル形状情報に従い、非活性復
号化器により生成される。
モジュール(220)は、非活性音声信号における変化
を測定することによって非活性音声更新パラメータの組
を音声復号化器155に送るべきか否かを決定する。フ
レームエネルギおよびスペクトル歪み測定に関する絶対
および適応しきい値を使用して更新の決定を得る。更新
が必要な場合、非活性音声符号化器115は元の非活性
音声信号に知覚的に類似する信号を生成するのに必要な
情報を送る。この情報はエネルギレベルとスペクトル包
絡線の記述とを含み得る。更新が必要でない場合には非
活性音声信号は非活性音声フレームの最も最近に受信し
たエネルギおよびスペクトル形状情報に従い、非活性復
号化器により生成される。
【0015】本発明のVAD/INPUを組合せたプロ
セスの一般的なフローチャートを図2に示す。第1段
(200)では、音声パラメータが以下に説明するとお
り初期化される。次いで、VADおよびINPUに関連
するパラメータがブロック(205)において入来信号
から抽出される。その後、VADモジュール(210、
図1、135)により音声活性度決定が行なわれて音声
決定が生成され(図1、140)、それにより活性音声
符号化器/復号化器(図2、120、170)と非活性
符号化器/復号化器(図1、115、165)とが切換
えられる。2値音声決定は、活性音声については「1」
(真)または非活性音声については「0」(偽)のいず
れかに設定することが可能である。
セスの一般的なフローチャートを図2に示す。第1段
(200)では、音声パラメータが以下に説明するとお
り初期化される。次いで、VADおよびINPUに関連
するパラメータがブロック(205)において入来信号
から抽出される。その後、VADモジュール(210、
図1、135)により音声活性度決定が行なわれて音声
決定が生成され(図1、140)、それにより活性音声
符号化器/復号化器(図2、120、170)と非活性
符号化器/復号化器(図1、115、165)とが切換
えられる。2値音声決定は、活性音声については「1」
(真)または非活性音声については「0」(偽)のいず
れかに設定することが可能である。
【0016】非活性音声がVADにより決定される場合
(215)、INPUおよび非活性音声符号化器に関連
するパラメータが図3に示すように、量子化および伝送
目的のために変換される。
(215)、INPUおよび非活性音声符号化器に関連
するパラメータが図3に示すように、量子化および伝送
目的のために変換される。
【0017】B.パラメータの初期化(200) 当業者により理解されるとおり、適切な動作のためには
十分な初期化が必要である。これは、入力信号の第1の
フレームが処理される直前に1回限り行なわれる。この
初期化プロセスを以下のように要約する。
十分な初期化が必要である。これは、入力信号の第1の
フレームが処理される直前に1回限り行なわれる。この
初期化プロセスを以下のように要約する。
【0018】音声符号化の変数を以下のように設定す
る。
る。
【0019】
【数1】
【0020】C.パラメータの抽出および量子化(20
5、305) パラメータ抽出ブロック(205)では、全入力信号フ
レームに対して行なう線形予測(LP)分析によってフ
レームエネルギR(0)が得られかつ現在LPCで実現
される反射係数{Ki }、i=1,10.が得られる。
これらのパラメータは、まず特に入力音声信号の非活性
期間の符号化および復号化に用いられることになる。こ
れらはそれぞれE=10log10(R(0))で表わす
[dB]ドメインとLARi =log((1−ki )/
(1+ki ))で表わすLARドメインとに変換され
る。
5、305) パラメータ抽出ブロック(205)では、全入力信号フ
レームに対して行なう線形予測(LP)分析によってフ
レームエネルギR(0)が得られかつ現在LPCで実現
される反射係数{Ki }、i=1,10.が得られる。
これらのパラメータは、まず特に入力音声信号の非活性
期間の符号化および復号化に用いられることになる。こ
れらはそれぞれE=10log10(R(0))で表わす
[dB]ドメインとLARi =log((1−ki )/
(1+ki ))で表わすLARドメインとに変換され
る。
【0021】これら変換されたパラメータ(305)は
次に以下のように量子化される。エネルギEは現在5ビ
ット不均一スカラー量子化器を用いて符号化されてい
る。これに対しLARは現在各5ビットの2段ベクトル
量子化(「VQ」)を用いることによって量子化されて
いる。しかし、当業者であれば異なるドメインにおいて
および/または異なるやり方でスペクトル包絡線の情報
を容易に符号化することが可能である。さらに、Eまた
はLAR以外の情報を用いて非活性音声期間を符号化す
ることもできる。エネルギEの量子化は32エントリの
表のサーチを包含する。2乗平均という意味でエネルギ
Eに最も近いエントリを選択しこれをチャネルによって
送る。一方、LARベクトルの量子化は2段ベクトル量
子化において行なわれるとのと同様、各々異なるベクト
ル表から2つの最良の指標を決定することを含む。した
がって、これら3つの指標は非活性フレームに関する代
表的な情報を構成する。
次に以下のように量子化される。エネルギEは現在5ビ
ット不均一スカラー量子化器を用いて符号化されてい
る。これに対しLARは現在各5ビットの2段ベクトル
量子化(「VQ」)を用いることによって量子化されて
いる。しかし、当業者であれば異なるドメインにおいて
および/または異なるやり方でスペクトル包絡線の情報
を容易に符号化することが可能である。さらに、Eまた
はLAR以外の情報を用いて非活性音声期間を符号化す
ることもできる。エネルギEの量子化は32エントリの
表のサーチを包含する。2乗平均という意味でエネルギ
Eに最も近いエントリを選択しこれをチャネルによって
送る。一方、LARベクトルの量子化は2段ベクトル量
子化において行なわれるとのと同様、各々異なるベクト
ル表から2つの最良の指標を決定することを含む。した
がって、これら3つの指標は非活性フレームに関する代
表的な情報を構成する。
【0022】D.非活性音声パラメータ決定の伝送と補
間(310) 量子化された非活性音声パラメータ、すなわちEおよび
LARから、LPC利得と呼ばれるものを計算する。l
pc_gainは以下のとおり規定される。
間(310) 量子化された非活性音声パラメータ、すなわちEおよび
LARから、LPC利得と呼ばれるものを計算する。l
pc_gainは以下のとおり規定される。
【0023】
【数2】
【0024】ここで、{ki }は量子化されたLARか
ら得られる反射係数であり、かつEは量子化されたフレ
ームエネルギである。スペクトル静止度測定値も計算さ
れ、これは以下のとおり現在のフレームのLARと最も
最近伝送された非活性フレーム(lar_prev)の
LARとの間の2乗平均の差として以下のとおり定義さ
れる。
ら得られる反射係数であり、かつEは量子化されたフレ
ームエネルギである。スペクトル静止度測定値も計算さ
れ、これは以下のとおり現在のフレームのLARと最も
最近伝送された非活性フレーム(lar_prev)の
LARとの間の2乗平均の差として以下のとおり定義さ
れる。
【0025】
【数3】
【0026】図4は図3の310において行なわれるI
NPU決定のフローチャートを示す。前回のVAD決定
が「1」(すなわち前回のフレームが活性音声)であっ
たか否か、最も最近伝送された非活性音声エネルギと現
在の非活性音声エネルギとの間の差がしきい値T3 を超
えるか否か、LPC利得における変化のパーセンテージ
がしきい値T1 を超えるか否か、またはSSMがしきい
値T2 を超えるか否かのチェック(400)が行なわ
れ、パラメータ更新が活性化される(405)。なお、
しきい値は本発明を実施する特定のシステムおよび環境
によって修正することが可能である。
NPU決定のフローチャートを示す。前回のVAD決定
が「1」(すなわち前回のフレームが活性音声)であっ
たか否か、最も最近伝送された非活性音声エネルギと現
在の非活性音声エネルギとの間の差がしきい値T3 を超
えるか否か、LPC利得における変化のパーセンテージ
がしきい値T1 を超えるか否か、またはSSMがしきい
値T2 を超えるか否かのチェック(400)が行なわ
れ、パラメータ更新が活性化される(405)。なお、
しきい値は本発明を実施する特定のシステムおよび環境
によって修正することが可能である。
【0027】パラメータ更新(405)を活性化する
際、初期条件の補間および更新が次のように行なわれ
る。Eとenergy_prevとの間の線形補間を行
なって以下のようにサブフレームエネルギ{Ei }(i
=1,2)を計算する。(なお推奨されるG.729仕
様では「i」は1つのフレームを含む2つのサブフレー
ムを表わすが、各フレーム内にさまざまな数のサブフレ
ームを含む他の仕様も可能である。)
際、初期条件の補間および更新が次のように行なわれ
る。Eとenergy_prevとの間の線形補間を行
なって以下のようにサブフレームエネルギ{Ei }(i
=1,2)を計算する。(なお推奨されるG.729仕
様では「i」は1つのフレームを含む2つのサブフレー
ムを表わすが、各フレーム内にさまざまな数のサブフレ
ームを含む他の仕様も可能である。)
【0028】
【数4】
【0029】LARはまた以下のとおりフレームの境界
を横切って補間される。
を横切って補間される。
【0030】
【数5】
【0031】なお、モジュール405が、前回のVAD
決定が「1」であるという事実によって呼出される場合
には、補間は行なわれない。
決定が「1」であるという事実によって呼出される場合
には、補間は行なわれない。
【0032】E.非活性符号化器/復号化器、励起エネ
ルギ計算および平滑化(315) 音声信号を符号化するためのCELPアルゴリズムは合
成音声コーダによる分析のカテゴリに属する。したがっ
て、実際には復号化器のレプリカが符号化器に埋込まれ
る。各非活性音声フレームは2つのサブフレームに分割
される。次に、各サブフレームは復号化器で合成されて
元のフレームのレプリカを形成する。サブフレームの合
成は励起ベクトル、利得係数およびフィルタの決定を含
む。以下にこれら3つの決定方法について説明する。現
在非活性音声フレームを符号化するために使用される情
報はフレームエネルギEとLARとを含む。これらは上
記のとおり補間されて以下の式に従いサブフレームLP
C利得を計算するために使用される。
ルギ計算および平滑化(315) 音声信号を符号化するためのCELPアルゴリズムは合
成音声コーダによる分析のカテゴリに属する。したがっ
て、実際には復号化器のレプリカが符号化器に埋込まれ
る。各非活性音声フレームは2つのサブフレームに分割
される。次に、各サブフレームは復号化器で合成されて
元のフレームのレプリカを形成する。サブフレームの合
成は励起ベクトル、利得係数およびフィルタの決定を含
む。以下にこれら3つの決定方法について説明する。現
在非活性音声フレームを符号化するために使用される情
報はフレームエネルギEとLARとを含む。これらは上
記のとおり補間されて以下の式に従いサブフレームLP
C利得を計算するために使用される。
【0033】
【数6】
【0034】ここでi=1,2および{kj i }は補間
されたLARから得られるi番目のサブフレームのj番
目の反射係数である。
されたLARから得られるi番目のサブフレームのj番
目の反射係数である。
【0035】ここでブロック315をさらに説明する図
5を参照する。非活性音声サブフレームを合成するた
め、40次元(現在使用される)白色ガウスランダムベ
クトルを生成する(505)。このベクトルは正規化さ
れて単位ノルムを有する。この正規化されたランダムベ
クトルx(n)を利得係数でスケールする(510)。
得られたベクトルy(n)を逆LPCフィルタに通す
(515)。このフィルタの出力z(n)が合成された
非活性音声サブフレームである。
5を参照する。非活性音声サブフレームを合成するた
め、40次元(現在使用される)白色ガウスランダムベ
クトルを生成する(505)。このベクトルは正規化さ
れて単位ノルムを有する。この正規化されたランダムベ
クトルx(n)を利得係数でスケールする(510)。
得られたベクトルy(n)を逆LPCフィルタに通す
(515)。このフィルタの出力z(n)が合成された
非活性音声サブフレームである。
【0036】非活性符号化器はVAD決定によって活性
音声符号化器と交互に動作するので、切換えの間に平滑
なエネルギの移動を行なう必要がある。このため、励起
エネルギの移動平均(RG_ LPC)を非活性および
活性音声期間の両方で計算する。RG_ LPCを非活
性音声期間の間に更新する方法についてこのセクション
で説明することにする。まず、G_ LPCPを現在の
非活性音声フレームの直前の音声の第2のフレームの間
に計算されたRG_ LPCの値に規定する。したがっ
て、以下のように書き表すことができる。
音声符号化器と交互に動作するので、切換えの間に平滑
なエネルギの移動を行なう必要がある。このため、励起
エネルギの移動平均(RG_ LPC)を非活性および
活性音声期間の両方で計算する。RG_ LPCを非活
性音声期間の間に更新する方法についてこのセクション
で説明することにする。まず、G_ LPCPを現在の
非活性音声フレームの直前の音声の第2のフレームの間
に計算されたRG_ LPCの値に規定する。したがっ
て、以下のように書き表すことができる。
【0037】
【数7】
【0038】G_ LPCPはx(n)のスケールファ
クタにおいて使用されることになる。
クタにおいて使用されることになる。
【0039】移動平均RG_ LPCは、は、図6のフ
ローチャートに示されるスケーリングの前に更新され
る。
ローチャートに示されるスケーリングの前に更新され
る。
【0040】ブロック510の出力であるy(n)を得
るために、図7に示すようにブロック505の出力であ
る励起x(n)の利得スケーリングが行なわれる。非活
性音声サブフレームの励起の利得スケーリングが図7が
示す追加の減衰係数を必要とする点に留意されたい。実
際には、定数である減衰係数α=1/2.25が、前回
のフレームが活性音声フレームでなかった場合にx
(n)を多重化するために使用される。それ以外の場
合、以下の形式の線形減衰係数αj が使用される。
るために、図7に示すようにブロック505の出力であ
る励起x(n)の利得スケーリングが行なわれる。非活
性音声サブフレームの励起の利得スケーリングが図7が
示す追加の減衰係数を必要とする点に留意されたい。実
際には、定数である減衰係数α=1/2.25が、前回
のフレームが活性音声フレームでなかった場合にx
(n)を多重化するために使用される。それ以外の場
合、以下の形式の線形減衰係数αj が使用される。
【0041】
【数8】
【0042】ここでβ=1.25/79、jはサブフレ
ームのj番目のサンプルでありかつiはi番目のサブフ
レームである。
ームのj番目のサンプルでありかつiはi番目のサブフ
レームである。
【0043】ブロック520において、スケーリングさ
れた励起y(n)のエネルギが計算される。Ext_
R_ Energyで表わされかつ以下のように計算さ
れる。
れた励起y(n)のエネルギが計算される。Ext_
R_ Energyで表わされかつ以下のように計算さ
れる。
【0044】
【数9】
【0045】y(n)のエネルギの移動平均は以下のと
おり計算される。
おり計算される。
【0046】
【数10】
【0047】なお重み付け係数はシステムおよび環境に
より修正することができる。また、RextRP_En
ergyの初期化は活性音声コーダの動作の際にのみ行
なわれるが、更新は非活性および活性両方のコーダの動
作の際に行なわれる。
より修正することができる。また、RextRP_En
ergyの初期化は活性音声コーダの動作の際にのみ行
なわれるが、更新は非活性および活性両方のコーダの動
作の際に行なわれる。
【0048】F.G.729活性音声符号化器/復号化
器励起エネルギ計算および平滑化活性音声符号化器/復
号化器は推奨されるG.729仕様に従い動作し得る。
音声符号化器/復号化器の動作についてはここに詳しく
説明しないが、活性音声フレームの間、励起が生じて逆
LPCフィルタを駆動し、活性音声フレームのレプリカ
を合成する点を申し述べておく。この合成プロセスのブ
ロック図については図8に示す。
器励起エネルギ計算および平滑化活性音声符号化器/復
号化器は推奨されるG.729仕様に従い動作し得る。
音声符号化器/復号化器の動作についてはここに詳しく
説明しないが、活性音声フレームの間、励起が生じて逆
LPCフィルタを駆動し、活性音声フレームのレプリカ
を合成する点を申し述べておく。この合成プロセスのブ
ロック図については図8に示す。
【0049】ExtRP_Energyで表わされる励
起x(n)のエネルギは以下のとおり各サブフレームご
とに計算される。
起x(n)のエネルギは以下のとおり各サブフレームご
とに計算される。
【0050】
【数11】
【0051】このエネルギは励起エネルギRextRP
_Energyの移動平均を更新するために使用され
る。
_Energyの移動平均を更新するために使用され
る。
【0052】まず連続する活性音声フレームの数のカウ
ンタ(count_ marker)を使用してRex
tRP_Energyの更新をどのように行なうかを決
定する。図9はこのプロセスのフローチャートである。
活性音声励起エネルギを更新するためのこのプロセスフ
ローを以下の式に表わすことができる。
ンタ(count_ marker)を使用してRex
tRP_Energyの更新をどのように行なうかを決
定する。図9はこのプロセスのフローチャートである。
活性音声励起エネルギを更新するためのこのプロセスフ
ローを以下の式に表わすことができる。
【0053】
【数12】
【0054】なお重み係数については必要に応じて修正
することができる。励起x(n)は正規化されて単位ノ
ルムを有し、かつ
することができる。励起x(n)は正規化されて単位ノ
ルムを有し、かつ
【0055】
【数13】
【0056】でスケーリングされ、それ以外の場合発生
した状態のままブロック800に保持される。活性音声
部分と非活性音声部分との間の平滑な遷移において十分
な注意を払う。RG_ LPCも活性音声フレームの間
以下のとおり絶えず更新される。
した状態のままブロック800に保持される。活性音声
部分と非活性音声部分との間の平滑な遷移において十分
な注意を払う。RG_ LPCも活性音声フレームの間
以下のとおり絶えず更新される。
【0057】
【数14】
【0058】本発明のいくつかの例示的実施例のみにつ
いて詳細に説明したが、当業者においては、本発明の新
規な教示および利点から実質的に逸脱することなく、多
くの修正が例示の実施例において可能であることを理解
するであろう。したがって、そのような修正はすべて先
行の特許請求の範囲に規定される発明の範囲に包含され
るものとする。特許請求の範囲におけるミーンズ・プラ
ス・ファンクションの表現は記載の機能を行なうものと
して本明細書中に説明した構造を包含しかつ構造的等価
物を含むのみならず等価な構造物をも含むものとして意
図される。したがって、釘とねじとは、釘がその円筒状
の表面を用いて木片を互いに固定するのに対しねじが螺
旋状の表面を用いているという点で構造的等価物ではな
いかもしれないが、木片を固定するという条件下におい
ては釘とねじとは等価な構造物ということができる。
いて詳細に説明したが、当業者においては、本発明の新
規な教示および利点から実質的に逸脱することなく、多
くの修正が例示の実施例において可能であることを理解
するであろう。したがって、そのような修正はすべて先
行の特許請求の範囲に規定される発明の範囲に包含され
るものとする。特許請求の範囲におけるミーンズ・プラ
ス・ファンクションの表現は記載の機能を行なうものと
して本明細書中に説明した構造を包含しかつ構造的等価
物を含むのみならず等価な構造物をも含むものとして意
図される。したがって、釘とねじとは、釘がその円筒状
の表面を用いて木片を互いに固定するのに対しねじが螺
旋状の表面を用いているという点で構造的等価物ではな
いかもしれないが、木片を固定するという条件下におい
ては釘とねじとは等価な構造物ということができる。
【図1】VADを用いる典型的な音声通信システムを示
す図である。
す図である。
【図2】非活性音声検出のプロセスを示す図である。
【図3】非活性音声がVADにより検出された際のVA
D/INPUプロセスを示す図である。
D/INPUプロセスを示す図である。
【図4】図3の310で示すINPU決定動作を示す図
である。
である。
【図5】図3の315で示す非活性音声フレームを合成
するプロセスを示す図である。
するプロセスを示す図である。
【図6】「移動平均」を更新するプロセスを示す図であ
る。
る。
【図7】図5の510で示す励起の利得スケーリングの
プロセスを示す図である。
プロセスを示す図である。
【図8】活性音声フレームを合成するプロセスを示す図
である。
である。
【図9】活性音声励起エネルギを更新するプロセスを示
す図である。
す図である。
110 音声符号化器 115 非活性音声符号化器 155 音声復号化器 220 INPUモジュール
───────────────────────────────────────────────────── フロントページの続き (72)発明者 フアン−ユー・スー アメリカ合衆国、92673 カリフォルニア 州、サン・クレメンテ、カレ・フロンテー ラ、3009
Claims (9)
- 【請求項1】 (a)入来音声信号を受けかつ符号化し
て音声復号化器へ伝送するビットストリームを生成する
ための音声符号化器と、(b)伝送用通信チャネルと、
(c)前記音声符号化器からの前記ビットストリームを
受けて前記ビットストリームを復号化して復元された音
声信号を生成するための音声復号化器とを備える音声通
信システムにおいて、前記入来音声信号が活性音声と非
活性音声とからなる期間を含み、非活性音声の効率的符
号化の方法であって、 a) フレームごとに前記入来音声信号からスペクトル
の内容とエネルギとを含む予め定められた組のパラメー
タ抽出するステップと、 b) 前記予め定められた組のパラメータのうち第1の
組に従いフレームごとに入来音声信号のフレーム音声決
定を行なうステップと、 c) 前記フレーム音声決定が活性音声を示す場合に、
前記入来音声信号を活性音声符号化器により符号化して
活性音声ビットストリームを生成し、前記活性音声ビッ
トストリームを連続的に連結して前記チャネルにより伝
送するステップと、 d) 前記音声復号化器が前記活性音声ビットストリー
ムを受けた場合に、活性音声復号化器を呼出して復元さ
れた音声信号を生成するステップと、 e) 前記フレーム音声決定が非活性音声を示す場合
に、入来音声信号を非活性音声符号化器により符号化し
て非活性音声ビットストリームを生成するステップを含
み、前記非活性ビットストリームが各々幅2バイトの少
なくとも1つのパケットを含み、各パケットが非活性音
声パラメータを表わす複数の表に対する複数の指標を含
み、さらに f) 前記フレーム音声決定が非活性音声を示す場合
に、予め定められた比較基準が満たされる場合のみ前記
非活性音声ビットストリームを伝送するステップと、 g) 前記フレーム音声決定が非活性音声を示す場合
に、非活性音声復号化器を呼出して復元された音声信号
を生成するステップと、 h) 前記非活性音声ビットストリームが前記音声復号
化器により受信された場合に、前記非活性音声復号化器
を更新し、それ以外の場合には以前に受信された非活性
音声情報を使用するステップとを含む、方法。 - 【請求項2】 前記ステップ(e)において、前記非活
性ビットストリーム内の前記パケットが3つの指標を含
み、その3つのうち2つが前記スペクトルの内容を表わ
すために使用され、かつ前記3つのうちの1つが前記パ
ラメータからの前記エネルギを表わすために使用され
る、請求項1に記載の方法。 - 【請求項3】 フレームごとの前記予め定められた組の
パラメータのうちの1つがエネルギ、LPC利得、およ
びスペクトル静止度測定値(「SSM」)を含み、前記
予め定められた比較基準が、以下の条件、すなわち a) 最も最近伝送された非活性音声フレームと現在の
フレームとの間のエネルギの差が第1のしきい値以上で
ある場合、 b) 現在のフレームが活性音声フレームの後の最初の
フレームである場合、 c) 最も最近伝送された非活性音声フレームと現在の
フレームとの間のLPC利得における変化のパーセンテ
ージが第2のしきい値以上である場合、かつ d) SSMが第3のしきい値より大きい場合のうち少
なくとも1つの条件が満たされた場合に満たされる、請
求項1に記載の方法。 - 【請求項4】 フレームごとの前記予め定められた組の
パラメータのうち1つが、エネルギ、LPC利得、およ
びスペクトル静止度測定値(「SSM」)を含み、かつ
前記予め定められた比較基準が、以下の条件、すなわ
ち、 a) 最も最近伝送された非活性音声フレームと現在の
フレームとの間のエネルギの差が第1のしきい値以上で
ある場合、 b) 現在のフレームが活性音声フレーム後の最初のフ
レームである場合、 c) 最も最近伝送された非活性音声フレームと現在の
フレームとの間のLPC利得における変化のパーセンテ
ージが第2のしきい値以上である場合、かつ d) SSMが第3のしきい値より大きい場合のうち少
なくとも1つが満たされた場合に満たされる、請求項2
に記載の方法。 - 【請求項5】 活性音声および非活性音声フレーム間の
遷移を平滑化するために、 a) 活性および非活性音声フレーム双方の間に前記入
来音声信号の励起エネルギの移動平均を計算するステッ
プと、 b) 前記非活性音声符号化器および非活性音声復号化
器双方で利用可能な局部白色ガウス雑音発生器から励起
ベクトルを抽出するステップと、 c) 前記移動平均を使用して前記励起ベクトルの利得
スケーリングを行なうステップと、 d) 予め定められた係数を使用して前記励起ベクトル
を減衰するステップと、 e) 前記非活性音声のフレームに対応する第1の予め
定められた組の音声パラメータを使用することにより逆
LPCフィルタを発生させるステップと、 f) 前記非活性音声復号化器のための前記利得スケー
リングされた励起ベクトルを使用して前記逆LPCフィ
ルタを駆動し元の非活性音声期間を複製するようにさせ
るステップとを含む、請求項1に記載の方法。 - 【請求項6】 活性音声および非活性音声フレーム間の
遷移を平滑化するため、 a) 活性および非活性音声フレーム両方の間に前記入
来音声信号の励起エネルギの移動平均を計算するステッ
プと、 b) 前記非活性音声符号化器および非活性音声復号化
器両方で利用可能な局部白色ガウス雑音発生器から励起
ベクトルを抽出するステップと、 c) 前記移動平均を使用して前記励起ベクトルを利得
スケーリングするステップと、 d) 予め定められた係数を使用して前記励起ベクトル
を減衰するステップと、 e) 前記非活性音声のフレームに対応する第1の予め
定められた組の音声パラメータを利用することによって
逆LPCフィルタを発生するステップと、 f) 前記非活性音声復号化器のための前記利得スケー
リングされた励起ベクトルを使用して前記逆LPCフィ
ルタを駆動し元の非活性音声期間を複製するようにさせ
るステップとを含む、請求項2に記載の方法。 - 【請求項7】 (a)入来音声信号を受信しかつ符号化
して音声復号化器へ伝送するビットストリームを生成す
る音声符号化器と、(b)伝送用通信チャネルと、
(c)前記音声符号化器からの前記ビットストリームを
受信して前記ビットストリームを復号化して復元された
音声信号を生成するための音声復号化器とを備える音声
通信システムにおいて、前記入来音声信号が活性音声と
非活性音声の期間を含み、前記音声符号化器に結合され
る、非活性音声の効率的符号化のための装置であって、 a) フレームごとに前記入来音声信号からスペクトル
の内容とエネルギとを含む予め定められた組のパラメー
タを抽出するための抽出手段と、 b) 前記予め定められた組のパラメータのうちの第1
の組に従ってフレームごとに入来音声信号のフレーム音
声決定を行なうためのVAD手段と、 c) 前記フレーム音声決定が活性音声を示す場合に前
記入来音声信号を符号化して活性音声ビットストリーム
を生成し、前記活性ビットストリームを連続的に結合さ
せかつ前記チャネルにより伝送するための活性音声符号
化器手段と、 d) 前記音声復号化器により前記活性音声ビットスト
リームが受信された場合に復元された音声信号を生成す
るための活性音声復号化器手段と、 e) 前記フレーム音声決定が非活性音声を示す場合
に、前記入来音声信号を符号化して非活性音声ビットス
トリームを生成するための非活性音声符号化器手段とを
含み、前記非活性ビットストリームが、各々幅2バイト
の少なくとも1つのパケットを含み、各パケットが非活
性音声パラメータを表わす複数の表に対する複数の指標
を含み、前記非活性音声符号化手段が、予め定められた
比較基準が満たされた場合にのみ前記非活性音声ビット
ストリームを伝送し、さらに f) 前記フレーム音声決定が非活性音声を示す場合に
は、復元された音声信号を生成するための非活性音声復
号化器手段と、 g) 前記非活性音声ビットストリームが前記音声復号
化器により受信された場合に前記非活性音声復号化器を
更新するための更新手段とを含む、装置。 - 【請求項8】 前記非活性ビットストリーム内の前記パ
ケットが3つの指標を含み、前記3つの指標のうち2つ
が前記スペクトルの内容を表わすために使用され、かつ
前記3つのうちの1つが前記パラメータからの前記エネ
ルギを表わすために使用される、請求項7に記載の装
置。 - 【請求項9】 フレームごとの前記予め定められた組の
パラメータの1つがエネルギ、LPC利得、およびスペ
クトル静止度測定値(「SSM」)を含み、かつ前記予
め定められた比較基準が、以下の条件、すなわち a) 最も最近伝送された非活性音声フレームと現在の
フレームとの間のエネルギの差が第1のしきい値以上で
ある場合、 b) 現在のフレームが活性音声フレームの後の最初の
フレームである場合、 c) 最も最近伝送された非活性音声フレームと現在の
フレームとの間のLPC利得における変化のパーセンテ
ージが第2のしきい値以上である場合、かつ d) SSMが第3のしきい値より大きい場合のうち少
なくとも1つが満たされた場合に満たされる、請求項7
に記載の装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/589,132 US5689615A (en) | 1996-01-22 | 1996-01-22 | Usage of voice activity detection for efficient coding of speech |
US08/589132 | 1996-01-22 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH09204199A true JPH09204199A (ja) | 1997-08-05 |
Family
ID=24356733
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP9008589A Pending JPH09204199A (ja) | 1996-01-22 | 1997-01-21 | 非活性音声の効率的符号化のための方法および装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US5689615A (ja) |
EP (1) | EP0785541B1 (ja) |
JP (1) | JPH09204199A (ja) |
DE (1) | DE69720822D1 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010181892A (ja) * | 1998-08-24 | 2010-08-19 | Mindspeed Technologies Inc | 音声符号化用ゲイン平滑化 |
JP2013545136A (ja) * | 2010-10-25 | 2013-12-19 | クゥアルコム・インコーポレイテッド | 音声アクティビティ検出のための、システム、方法、および装置 |
US9165567B2 (en) | 2010-04-22 | 2015-10-20 | Qualcomm Incorporated | Systems, methods, and apparatus for speech feature detection |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FI100840B (fi) * | 1995-12-12 | 1998-02-27 | Nokia Mobile Phones Ltd | Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin |
SE507370C2 (sv) * | 1996-09-13 | 1998-05-18 | Ericsson Telefon Ab L M | Metod och anordning för att alstra komfortbrus i linjärprediktiv talavkodare |
US6269331B1 (en) * | 1996-11-14 | 2001-07-31 | Nokia Mobile Phones Limited | Transmission of comfort noise parameters during discontinuous transmission |
JP3575967B2 (ja) * | 1996-12-02 | 2004-10-13 | 沖電気工業株式会社 | 音声通信システムおよび音声通信方法 |
FR2761512A1 (fr) * | 1997-03-25 | 1998-10-02 | Philips Electronics Nv | Dispositif de generation de bruit de confort et codeur de parole incluant un tel dispositif |
US6240383B1 (en) * | 1997-07-25 | 2001-05-29 | Nec Corporation | Celp speech coding and decoding system for creating comfort noise dependent on the spectral envelope of the speech signal |
US6023674A (en) * | 1998-01-23 | 2000-02-08 | Telefonaktiebolaget L M Ericsson | Non-parametric voice activity detection |
JP4045003B2 (ja) * | 1998-02-16 | 2008-02-13 | 富士通株式会社 | 拡張ステーション及びそのシステム |
US7072832B1 (en) | 1998-08-24 | 2006-07-04 | Mindspeed Technologies, Inc. | System for speech encoding having an adaptive encoding arrangement |
US6314396B1 (en) * | 1998-11-06 | 2001-11-06 | International Business Machines Corporation | Automatic gain control in a speech recognition system |
US6959274B1 (en) | 1999-09-22 | 2005-10-25 | Mindspeed Technologies, Inc. | Fixed rate speech compression system and method |
EP1279164A1 (de) * | 2000-04-28 | 2003-01-29 | Deutsche Telekom AG | Verfahren zur berechnung einer sprachaktivitätsentscheidung (voice activity detector) |
US7130288B2 (en) * | 2001-01-24 | 2006-10-31 | Qualcomm Incorporated | Method for power control for mixed voice and data transmission |
JP3826032B2 (ja) * | 2001-12-28 | 2006-09-27 | 株式会社東芝 | 音声認識装置、音声認識方法及び音声認識プログラム |
US7630409B2 (en) * | 2002-10-21 | 2009-12-08 | Lsi Corporation | Method and apparatus for improved play-out packet control algorithm |
FI20021936A (fi) * | 2002-10-31 | 2004-05-01 | Nokia Corp | Vaihtuvanopeuksinen puhekoodekki |
US7574353B2 (en) * | 2004-11-18 | 2009-08-11 | Lsi Logic Corporation | Transmit/receive data paths for voice-over-internet (VoIP) communication systems |
MX2007012185A (es) | 2005-04-01 | 2007-12-11 | Qualcomm Inc | Metodo y aparato para cuantificacion de vector de una representacion de envoltura espectral. |
CN101199004B (zh) | 2005-04-22 | 2011-11-09 | 高通股份有限公司 | 用于增益因数平滑的系统、方法及设备 |
CN101149921B (zh) * | 2006-09-21 | 2011-08-10 | 展讯通信(上海)有限公司 | 一种静音检测方法和装置 |
ES2391228T3 (es) | 2007-02-26 | 2012-11-22 | Dolby Laboratories Licensing Corporation | Realce de voz en audio de entretenimiento |
CN101335000B (zh) * | 2008-03-26 | 2010-04-21 | 华为技术有限公司 | 编码的方法及装置 |
MY158977A (en) * | 2010-12-03 | 2016-11-30 | ERICSSON TELEFON AB L M (publ) | Source signal adaptive frame aggregation |
HUE053127T2 (hu) | 2010-12-24 | 2021-06-28 | Huawei Tech Co Ltd | Eljárás és berendezés hang aktivitás adaptív detektálására egy bemeneti audiójelben |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5410632A (en) * | 1991-12-23 | 1995-04-25 | Motorola, Inc. | Variable hangover time in a voice activity detector |
US5734789A (en) * | 1992-06-01 | 1998-03-31 | Hughes Electronics | Voiced, unvoiced or noise modes in a CELP vocoder |
US5509102A (en) * | 1992-07-01 | 1996-04-16 | Kokusai Electric Co., Ltd. | Voice encoder using a voice activity detector |
US5278944A (en) * | 1992-07-15 | 1994-01-11 | Kokusai Electric Co., Ltd. | Speech coding circuit |
JP3182032B2 (ja) * | 1993-12-10 | 2001-07-03 | 株式会社日立国際電気 | 音声符号化通信方式及びその装置 |
-
1996
- 1996-01-22 US US08/589,132 patent/US5689615A/en not_active Expired - Lifetime
-
1997
- 1997-01-20 DE DE69720822T patent/DE69720822D1/de not_active Expired - Lifetime
- 1997-01-20 EP EP97100812A patent/EP0785541B1/en not_active Expired - Lifetime
- 1997-01-21 JP JP9008589A patent/JPH09204199A/ja active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010181892A (ja) * | 1998-08-24 | 2010-08-19 | Mindspeed Technologies Inc | 音声符号化用ゲイン平滑化 |
US9165567B2 (en) | 2010-04-22 | 2015-10-20 | Qualcomm Incorporated | Systems, methods, and apparatus for speech feature detection |
JP2013545136A (ja) * | 2010-10-25 | 2013-12-19 | クゥアルコム・インコーポレイテッド | 音声アクティビティ検出のための、システム、方法、および装置 |
US8898058B2 (en) | 2010-10-25 | 2014-11-25 | Qualcomm Incorporated | Systems, methods, and apparatus for voice activity detection |
Also Published As
Publication number | Publication date |
---|---|
EP0785541B1 (en) | 2003-04-16 |
EP0785541A2 (en) | 1997-07-23 |
DE69720822D1 (de) | 2003-05-22 |
EP0785541A3 (en) | 1998-09-09 |
US5689615A (en) | 1997-11-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH09204199A (ja) | 非活性音声の効率的符号化のための方法および装置 | |
JP4658596B2 (ja) | 線形予測に基づく音声コーデックにおける効率的なフレーム消失の隠蔽のための方法、及び装置 | |
US5774849A (en) | Method and apparatus for generating frame voicing decisions of an incoming speech signal | |
EP0814458B1 (en) | Improvements in or relating to speech coding | |
JP2002533772A (ja) | 可変レートスピーチコーディング | |
JP2010170142A (ja) | ビットレートスケーラブルなオーディオデータストリームを生成する方法および装置 | |
JPH02155313A (ja) | 符号化方法 | |
JP2002530705A (ja) | 音声の無声セグメントの低ビットレート符号化 | |
EP0779732A2 (en) | Multi-point voice conferencing system over a wide area network | |
US20030065507A1 (en) | Network unit and a method for modifying a digital signal in the coded domain | |
JPH0644195B2 (ja) | エネルギ正規化および無声フレーム抑制機能を有する音声分析合成システムおよびその方法 | |
AU6203300A (en) | Coded domain echo control | |
EP1020848A2 (en) | Method for transmitting auxiliary information in a vocoder stream | |
WO1997015046A9 (en) | Repetitive sound compression system | |
AU7453696A (en) | Repetitive sound compression system | |
JP3496618B2 (ja) | 複数レートで動作する無音声符号化を含む音声符号化・復号装置及び方法 | |
Crochiere et al. | Frequency domain techniques for speech coding | |
JPH0786952A (ja) | 音声の予測符号化方法 | |
Viswanathan et al. | Medium and low bit rate speech transmission | |
KR940008741B1 (ko) | 음성부호/복호화 방법 | |
CA2235275C (en) | Repetitive sound compression system | |
Lee et al. | The speech enhancement of the G. 723.1 vocoder using multi-order formant postfilter | |
Hernandez-Gomez et al. | Short-time synthesis procedures in vector adaptive transform coding of speech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060711 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20061205 |