HU215620B - Eljárás adatok, különösen kódolt beszédhangjelek paramétereinek feldolgozására - Google Patents
Eljárás adatok, különösen kódolt beszédhangjelek paramétereinek feldolgozására Download PDFInfo
- Publication number
- HU215620B HU215620B HU9503181A HU9503181A HU215620B HU 215620 B HU215620 B HU 215620B HU 9503181 A HU9503181 A HU 9503181A HU 9503181 A HU9503181 A HU 9503181A HU 215620 B HU215620 B HU 215620B
- Authority
- HU
- Hungary
- Prior art keywords
- signal parameters
- bits
- quantization
- bit
- parameters
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 16
- 238000013139 quantization Methods 0.000 claims abstract description 18
- 230000005540 biological transmission Effects 0.000 claims abstract description 6
- 239000013598 vector Substances 0.000 claims description 13
- 230000007774 longterm Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/002—Dynamic bit allocation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/038—Vector quantisation, e.g. TwinVQ audio
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Abstract
A találmány tárgya eljárás adatők, különösen kódőlt beszédhangjel-paraméterek feldőlgőzására, átviteli célőkra. Adatőknak, különösenkódőlt beszédhangjel-paramétereknek kis bitsebességű átvi elhez valófeldőlgőzása végett az azőnős jellegű jelparamétereket kvantáltalakban szakaszőnként összefőglaljűk. Tővábbi bitcsökkentés végettlegalább két szakasz bitjeinek teljes számából biteket nyőműnk el. Azelnyőmandó bitkülönbséget a nem csökkentett bitek teljes számábólkiindűlva kettő következő nagyőbb atványáig képezzük. Ez a módszerjőbb minőségű beszédhangőt szőlgáltat, mint az a módszer, ami szerinta kvantálási főkőzatők számát 2 többszörösével váltőztatják. ŕ
Description
A találmány tárgya eljárás adatok, különösen kódolt beszédhangjelek paramétereinek feldolgozására, átviteli célokra.
Beszédhangjelek kódolása végett - különösen mobil rádiótelefonos alkalmazásokra - a beszédhangjelet letapogatják, és szakaszokra (időszakaszokra) osztják fel. Mindegyik szakaszhoz a különböző fajta jelparaméterekhez predikciós értékeket képeznek. Ilyen jelparaméterek például a beszédhangjel formánsszerkezetének (a beszédsáv rezonanciáinak) jellemzésére szolgáló rövid idejű paraméterek és a beszédhangjel pitchszerkezetének (hangmagasságának) jellemzésére szolgáló hosszú idejű paraméterek (ANT Nachrichtentechnische Berichte, Heft 5, Nov. 1988, 93-105. oldal). „Analízis szintézis útján” módszerrel végzett beszédhangkódoláskor a modelparamétereket és gerjesztési paramétereket kvantálják, kódolják és a vevőhöz átviszik. A bitátviteli sebesség további csökkentésére vektorkvantálást alkalmaznak (lásd fentebb; DE/EP0 266 620 TI; EP 504 627 A2; EP 294 020 A2).
Találmányunk célja a bevezetőleg leírt jellegű eljárás olyan továbbfejlesztése, hogy a bitátviteli sebesség további csökkentése mellett a kimeneti adatokat kielégítően lehessen visszaállítani.
Ezt a feladatot a találmány értelmében úgy oldjuk meg, hogy a kimeneti adatokat azonos jellegű jelparaméterek szempontjából elemezzük, az azonos jellegű jelparamétereket kvantált alakban szakaszonként összefoglaljuk, és a bitek teljes számát legalább kétfajta összefoglalt jelparaméterre úgy csökkentjük, hogy a kvantálási fokozatok nagyjából egyformán vannak elosztva az egyes szakaszokra, és a nem csökkentett bitek teljes számából kiindulva a bitkülönbséget kettő következő nagyobb hatványáig elnyomjuk.
Előnyös módon azokat a biteket nyomjuk el, amik a statisztikailag legkevésbé valószínű kvantálási fokozatoknak felelnek meg.
A bitek eredeti g teljes száma és előre adott n bitcsökkentés esetén az ekkor keletkező 2g n kvantálási fokozatot előnyös módon úgy osztjuk el, hogy minden szakaszra nagyjából tsl2s-n kvantálási fokozat jut, ahol m mindenkor az azonos fajta jelparaméterek száma.
Az adatok előnyös módon keretszerkezetbe vannak elrendezve, amiben mindenkor különböző fajta jelparaméterek képeznek keretszakaszokat.
Előnyös módon mindenkor különböző fajta jelparamétereket tartalmazó két keretszakaszt foglalunk össze és ezekben csökkentjük a bitek számát.
A beszédhangjel-paramétereknek 7 bit/vektorral és 8x12 vektoros szerkezettel végzett vektorkvantálása esetén a bitelnyomáshoz előnyös módon az alábbi összefüggéseket választjuk:
ha SÍ <7, akkor 0<S2< 10, és haSl>7, akkorO<S2<9, ahol SÍ és S2 a két keretszakasz vektorösszetevője.
A találmány szerinti eljárás fő előnye az átviteli hibákkal szembeni robusztussága. A találmány szerinti eljárás lehetővé teszi olyan beszédhangkódolók felépítését, amiknek a beszédhangminősége jobb, mint azoké a beszédhangkódolóké, amelyek a kvantálási fokozatokat 2 többszörösével csökkentik. Mivel az átviteli hibák általában halmozottan lépnek fel, ezért csökkentett ráfordítás mellett a hibajavítás nem romlik.
Találmányunkat annak példaképpeni kiviteli alakja kapcsán ismertetjük részletesebben ábráink segítségével, amelyek közül az
1. ábra a találmány szerinti eljárásnak megfelelően működő beszédhangkódoló kapcsolási blokksémája, a
2. ábra két, különböző fajta jelparaméterhez szolgáló keretszakasz keretfelépítése.
Ahogyan ez az 1. ábrán látható, egy beszédhangjelforrás beszédhangjeleit egy A/D analóg/digitális átalakító letapogatja, és egy A analizáló egység azonos fajta beszédhangjel-paraméterek szempontjából elemzi. Az A analizáló egység mindig egy csoport önmagában azonos fajta beszédhangjel-paramétert, például egy csoport, a formánsszerkezetre vonatkozó KP rövid idejű paramétert (geqesztési paramétert), egy csoport, a pitchszerkezetre vonatkozó LP hosszúidejű paramétert és egy csoport FP szűrősúlyozási paramétert szolgáltat. Ezekkel a paramétercsoportokkal a PRK, PRL, PRF prediktorban a szokványos módon, például az EP 364 647 számú európai szabadalmi leírás szerint predikciós értékeket kapunk, amiket VQ vektorkvantálásnak vetünk alá. A kvantált jelparamétereket az RA keretképző egységben összefoglaljuk, mégpedig úgy, hogy egy például 20 msec kerettartamú keret négy 5 msec tartamú keretszakaszból áll. Mindegyik keretszakaszban azonos fajta jelparaméterek vannak elhelyezve. Ezután legalább két ilyen keretszakaszból (a következőkben két keretszakasz kezelését íijuk le, de természetesen kettőnél több keretszakaszt is lehet együtt kezelni) biteket nyomunk el a BÜ bitelnyomó egységgel. A bitelnyomást a találmány értelmében nem egyenként végezzük mindegyik keretszakaszra, hanem összefoglalt, azonos fajta keretszakaszok legalább két fajtájából kapott bitek teljes számára, vagyis például egy 20 msec tartamú keretben lévő rövid idejű és hosszú idejű paraméterek bitjeinek teljes számára végezzük el. A bitelnyomáskor ügyelünk arra, hogy a kvantálási fokozatok egyenletesen legyenek elosztva a keretszakaszokra. Az ebtyomandó bitek n számát előnyös módon a ™!2'έ~η összefüggés szerint osztjuk el a keretszakaszokra, ahol m az azonos fajta jelparaméterek száma és g az eredeti bitek teljes száma. Ezzel kettő következő magasabb hatványáig nyomjuk el a nem csökkentett bitek g teljes számából kiindulva a bitkülönbséget.
A bitelnyomáshoz előnyös módon azokat a biteket választjuk ki, amik a statisztikailag legkevésbé valószínű kvantálási fokozatoknak felelnek meg. Ez a követelmény például úgy teljesíthető, hogy a kevésbé valószínű kvantálási fokozatokat előre tároljuk egy SP tárban, ami a BÜ bitelnyomó egységet vezérli. Mivel a kvantálási fokozatok valószínűsége általában feltételes, vagyis egy keretszakaszból választott jelparaméterhez a következő keretszakaszban van olyan jelparaméter, aminek a fellépése a választott jelparaméterhez csatlakozva valószínűbb, mint más jelparaméterek fellépése, ezért a bitelnyomás kiválasztásakor a 2. ábra szerint já2
HU 215 620 Β runk el, vagyis az ábrázolt szerkezetben elnyomunk minden bitet, aminek a mezőjében kereszt van.
A 2. ábrán 12 χ 12 vektorból álló szerkezet látható. Az SÍ keretszakasz tartalma 4 bittel van kvantálva azonos fajta amplitúdóértékekre. Ugyanez vonatkozik az S2 keretszakaszra is. A vektorra 7 bit adódik. A bitelnyomás az alábbi összefüggések szerint történik:
ha SÍ <7, akkor 0<S2< 10, és ha Sl>7, akkorO<S2<9, ahol SÍ és S2 a két keretszakasz vektorösszetevője. A jelen példára fennáll, hogy index=S2x 12 + SÍ < 127
A 2. ábrán ábrázolt sémát természetesen megfelelően más szerkezetekre, például a kvantálandó amplitúdóértékek más számára is át lehet vinni.
Eddig azonos fajta jelparaméterek keretszakaszokba való összefoglalását írtuk le. Azonos fajta jelparamétereket természetesen keretszakaszok helyett más módon is össze lehet foglalni. Mindössze arról kell gondoskodni, hogy a továbbfeldolgozáshoz összetartozókként felismerhetők legyenek.
Claims (6)
1. Eljárás adatok, különösen kódolt beszédhangjelek paramétereinek feldolgozására, átviteli célokra, azzal jellemezve, hogy a kimeneti adatokat azonos jellegű jelparaméterek szempontjából elemezzük, az azonos jellegű jelparamétereket kvantált alakban szakaszonként összefoglaljuk, és a bitek teljes számát legalább kétfajta összefoglalt jelparaméterre úgy csökkentjük, hogy a kvantálási fokozatok nagyjából egyformán vannak elosztva az egyes szakaszokra, és a nem csökkentett bitek teljes számából kiindulva a bitkülönbséget kettő következő nagyobb hatványáig elnyomjuk.
2. Az 1. igénypont szerinti eljárás, azzal jellemezve, hogy azokat a biteket nyomjuk el, amik a statisztikailag legkevésbé valószínű kvantálási fokozatoknak felelnek meg.
3. Az 1. vagy 2. igénypont szerinti eljárás, azzal jellemezve, hogy a bitek eredeti g teljes száma és előre adott n bitcsökkentés esetén az ekkor keletkező 2® n kvantálási fokozatot úgy osztjuk el, hogy minden szakaszra nagyjából ^2^ kvantálási fokozat jut, ahol m mindenkor az azonos fajta jelparaméterek száma.
4. Az 1-3. igénypontok bármelyike szerinti eljárás, azzal jellemezve, hogy az adatok keret szerkezetbe vannak elrendezve, amiben mindenkor különböző fajta jelparaméterek képeznek keretszakaszokat.
5. A 4. igénypont szerinti eljárás, azzal jellemezve, hogy mindenkor különböző fajta jelparamétereket tartalmazó két keretszakaszt foglalunk össze és ezekben csökkentjük a bitek számát.
6. Az 5. igénypont szerinti eljárás, azzal jellemezve, hogy a beszédhangjel-paramétereknek 7 bit/vektorral és 8x12 vektoros szerkezettel végzett vektorkvantálása esetén a bitelnyomáshoz az alábbi összefüggéseket választjuk :
ha SÍ <7, akkor 0<S2< 10, és ha Sl>7, akkor 0<S2<9, ahol SÍ és S2 a két keretszakasz vektorösszetevője.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE4315319A DE4315319C2 (de) | 1993-05-07 | 1993-05-07 | Verfahren zur Aufbereitung von Daten, insbesondere von codierten Sprachsignalparametern |
Publications (3)
Publication Number | Publication Date |
---|---|
HU9503181D0 HU9503181D0 (en) | 1995-12-28 |
HUT73532A HUT73532A (en) | 1996-08-28 |
HU215620B true HU215620B (hu) | 1999-01-28 |
Family
ID=6487542
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
HU9503181A HU215620B (hu) | 1993-05-07 | 1994-04-20 | Eljárás adatok, különösen kódolt beszédhangjelek paramétereinek feldolgozására |
Country Status (9)
Country | Link |
---|---|
US (1) | US5794183A (hu) |
EP (1) | EP0697123B1 (hu) |
AU (1) | AU679980B2 (hu) |
DE (2) | DE4315319C2 (hu) |
DK (1) | DK0697123T3 (hu) |
ES (1) | ES2136193T3 (hu) |
FI (1) | FI116598B (hu) |
HU (1) | HU215620B (hu) |
WO (1) | WO1994027284A1 (hu) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7729918B2 (en) * | 2001-03-14 | 2010-06-01 | At&T Intellectual Property Ii, Lp | Trainable sentence planning system |
US7046636B1 (en) | 2001-11-26 | 2006-05-16 | Cisco Technology, Inc. | System and method for adaptively improving voice quality throughout a communication session |
US20070286351A1 (en) * | 2006-05-23 | 2007-12-13 | Cisco Technology, Inc. | Method and System for Adaptive Media Quality Monitoring |
US8248953B2 (en) | 2007-07-25 | 2012-08-21 | Cisco Technology, Inc. | Detecting and isolating domain specific faults |
US7948910B2 (en) * | 2008-03-06 | 2011-05-24 | Cisco Technology, Inc. | Monitoring quality of a packet flow in packet-based communication networks |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE266620C (hu) * | ||||
IT1195350B (it) * | 1986-10-21 | 1988-10-12 | Cselt Centro Studi Lab Telecom | Procedimento e dispositivo per la codifica e decodifica del segnale vocale mediante estrazione di para metri e tecniche di quantizzazione vettoriale |
US4969192A (en) * | 1987-04-06 | 1990-11-06 | Voicecraft, Inc. | Vector adaptive predictive coder for speech and audio |
US4817157A (en) * | 1988-01-07 | 1989-03-28 | Motorola, Inc. | Digital speech coder having improved vector excitation source |
EP0364647B1 (en) * | 1988-10-19 | 1995-02-22 | International Business Machines Corporation | Improvement to vector quantizing coder |
JPH02272500A (ja) * | 1989-04-13 | 1990-11-07 | Fujitsu Ltd | コード駆動音声符号化方式 |
EP0422232B1 (en) * | 1989-04-25 | 1996-11-13 | Kabushiki Kaisha Toshiba | Voice encoder |
US5091945A (en) * | 1989-09-28 | 1992-02-25 | At&T Bell Laboratories | Source dependent channel coding with error protection |
JP3151874B2 (ja) * | 1991-02-26 | 2001-04-03 | 日本電気株式会社 | 音声パラメータ符号化方式および装置 |
US5233660A (en) * | 1991-09-10 | 1993-08-03 | At&T Bell Laboratories | Method and apparatus for low-delay celp speech coding and decoding |
-
1993
- 1993-05-07 DE DE4315319A patent/DE4315319C2/de not_active Expired - Lifetime
-
1994
- 1994-04-20 HU HU9503181A patent/HU215620B/hu unknown
- 1994-04-20 DE DE59408494T patent/DE59408494D1/de not_active Expired - Lifetime
- 1994-04-20 DK DK94912471T patent/DK0697123T3/da active
- 1994-04-20 AU AU65024/94A patent/AU679980B2/en not_active Expired
- 1994-04-20 WO PCT/DE1994/000433 patent/WO1994027284A1/de active IP Right Grant
- 1994-04-20 EP EP94912471A patent/EP0697123B1/de not_active Expired - Lifetime
- 1994-04-20 US US08/530,204 patent/US5794183A/en not_active Expired - Lifetime
- 1994-04-20 ES ES94912471T patent/ES2136193T3/es not_active Expired - Lifetime
-
1995
- 1995-11-06 FI FI955323A patent/FI116598B/fi not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
DE4315319A1 (de) | 1994-11-10 |
DE59408494D1 (de) | 1999-08-19 |
FI955323A0 (fi) | 1995-11-06 |
FI955323A (fi) | 1995-11-06 |
ES2136193T3 (es) | 1999-11-16 |
HU9503181D0 (en) | 1995-12-28 |
DK0697123T3 (da) | 1999-12-13 |
US5794183A (en) | 1998-08-11 |
EP0697123B1 (de) | 1999-07-14 |
FI116598B (fi) | 2005-12-30 |
EP0697123A1 (de) | 1996-02-21 |
WO1994027284A1 (de) | 1994-11-24 |
AU6502494A (en) | 1994-12-12 |
DE4315319C2 (de) | 2002-11-14 |
AU679980B2 (en) | 1997-07-17 |
HUT73532A (en) | 1996-08-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2964344B2 (ja) | 符号化/復号化装置 | |
KR100304682B1 (ko) | 음성 코더용 고속 여기 코딩 | |
JP4101957B2 (ja) | 音声パラメータの合同量子化 | |
US20020016161A1 (en) | Method and apparatus for compression of speech encoded parameters | |
US20100088090A1 (en) | Arithmetic encoding for celp speech encoders | |
KR20040028750A (ko) | 음성 코덱의 선스펙트럼 주파수 벡터 양자화 방법 및 시스템 | |
US6593872B2 (en) | Signal processing apparatus and method, signal coding apparatus and method, and signal decoding apparatus and method | |
JP3628268B2 (ja) | 音響信号符号化方法、復号化方法及び装置並びにプログラム及び記録媒体 | |
EP0954853B1 (en) | A method of encoding a speech signal | |
CN1199516A (zh) | 对诸语音频谱参数进行最小冗余检错和纠错的方法和诸设备 | |
US6480550B1 (en) | Method of compressing an analogue signal | |
HU215620B (hu) | Eljárás adatok, különösen kódolt beszédhangjelek paramétereinek feldolgozására | |
EP1121686B1 (en) | Speech parameter compression | |
KR100416363B1 (ko) | 선형 예측 분석 대 합성 엔코딩 방법 및 엔코더 | |
JP2523286B2 (ja) | 音声符号化及び復号化方法 | |
CN1256000A (zh) | 增强音调的方法和装置 | |
US5943644A (en) | Speech compression coding with discrete cosine transformation of stochastic elements | |
JP2774003B2 (ja) | コード励振線形予測符号化装置 | |
JP3453116B2 (ja) | 音声符号化方法及び装置 | |
KR100341398B1 (ko) | 씨이엘피형 보코더의 코드북 검색 방법 | |
JP3130834B2 (ja) | 移動電話機 | |
CN1239569A (zh) | 一种编码语音信号的方法 | |
JP2906596B2 (ja) | 音声符号化装置 | |
KR100392258B1 (ko) | Celp 보코더의 처리 지연시간을 감소하기 위한 인코딩및 디코딩 블럭 구조 및 그 구조를 이용한 인코딩 및디코딩 방법 | |
JP2521052B2 (ja) | 音声符号化方式 |