HU215620B - Eljárás adatok, különösen kódolt beszédhangjelek paramétereinek feldolgozására - Google Patents

Eljárás adatok, különösen kódolt beszédhangjelek paramétereinek feldolgozására Download PDF

Info

Publication number
HU215620B
HU215620B HU9503181A HU9503181A HU215620B HU 215620 B HU215620 B HU 215620B HU 9503181 A HU9503181 A HU 9503181A HU 9503181 A HU9503181 A HU 9503181A HU 215620 B HU215620 B HU 215620B
Authority
HU
Hungary
Prior art keywords
signal parameters
bits
quantization
bit
parameters
Prior art date
Application number
HU9503181A
Other languages
English (en)
Other versions
HU9503181D0 (en
HUT73532A (en
Inventor
Jörg-Martin Müller
Bertram Wächter
Original Assignee
Ant Nachrichtentechnik Gmbh.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=6487542&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=HU215620(B) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Ant Nachrichtentechnik Gmbh. filed Critical Ant Nachrichtentechnik Gmbh.
Publication of HU9503181D0 publication Critical patent/HU9503181D0/hu
Publication of HUT73532A publication Critical patent/HUT73532A/hu
Publication of HU215620B publication Critical patent/HU215620B/hu

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

A találmány tárgya eljárás adatők, különösen kódőlt beszédhangjel-paraméterek feldőlgőzására, átviteli célőkra. Adatőknak, különösenkódőlt beszédhangjel-paramétereknek kis bitsebességű átvi elhez valófeldőlgőzása végett az azőnős jellegű jelparamétereket kvantáltalakban szakaszőnként összefőglaljűk. Tővábbi bitcsökkentés végettlegalább két szakasz bitjeinek teljes számából biteket nyőműnk el. Azelnyőmandó bitkülönbséget a nem csökkentett bitek teljes számábólkiindűlva kettő következő nagyőbb atványáig képezzük. Ez a módszerjőbb minőségű beszédhangőt szőlgáltat, mint az a módszer, ami szerinta kvantálási főkőzatők számát 2 többszörösével váltőztatják. ŕ

Description

A találmány tárgya eljárás adatok, különösen kódolt beszédhangjelek paramétereinek feldolgozására, átviteli célokra.
Beszédhangjelek kódolása végett - különösen mobil rádiótelefonos alkalmazásokra - a beszédhangjelet letapogatják, és szakaszokra (időszakaszokra) osztják fel. Mindegyik szakaszhoz a különböző fajta jelparaméterekhez predikciós értékeket képeznek. Ilyen jelparaméterek például a beszédhangjel formánsszerkezetének (a beszédsáv rezonanciáinak) jellemzésére szolgáló rövid idejű paraméterek és a beszédhangjel pitchszerkezetének (hangmagasságának) jellemzésére szolgáló hosszú idejű paraméterek (ANT Nachrichtentechnische Berichte, Heft 5, Nov. 1988, 93-105. oldal). „Analízis szintézis útján” módszerrel végzett beszédhangkódoláskor a modelparamétereket és gerjesztési paramétereket kvantálják, kódolják és a vevőhöz átviszik. A bitátviteli sebesség további csökkentésére vektorkvantálást alkalmaznak (lásd fentebb; DE/EP0 266 620 TI; EP 504 627 A2; EP 294 020 A2).
Találmányunk célja a bevezetőleg leírt jellegű eljárás olyan továbbfejlesztése, hogy a bitátviteli sebesség további csökkentése mellett a kimeneti adatokat kielégítően lehessen visszaállítani.
Ezt a feladatot a találmány értelmében úgy oldjuk meg, hogy a kimeneti adatokat azonos jellegű jelparaméterek szempontjából elemezzük, az azonos jellegű jelparamétereket kvantált alakban szakaszonként összefoglaljuk, és a bitek teljes számát legalább kétfajta összefoglalt jelparaméterre úgy csökkentjük, hogy a kvantálási fokozatok nagyjából egyformán vannak elosztva az egyes szakaszokra, és a nem csökkentett bitek teljes számából kiindulva a bitkülönbséget kettő következő nagyobb hatványáig elnyomjuk.
Előnyös módon azokat a biteket nyomjuk el, amik a statisztikailag legkevésbé valószínű kvantálási fokozatoknak felelnek meg.
A bitek eredeti g teljes száma és előre adott n bitcsökkentés esetén az ekkor keletkező 2g n kvantálási fokozatot előnyös módon úgy osztjuk el, hogy minden szakaszra nagyjából tsl2s-n kvantálási fokozat jut, ahol m mindenkor az azonos fajta jelparaméterek száma.
Az adatok előnyös módon keretszerkezetbe vannak elrendezve, amiben mindenkor különböző fajta jelparaméterek képeznek keretszakaszokat.
Előnyös módon mindenkor különböző fajta jelparamétereket tartalmazó két keretszakaszt foglalunk össze és ezekben csökkentjük a bitek számát.
A beszédhangjel-paramétereknek 7 bit/vektorral és 8x12 vektoros szerkezettel végzett vektorkvantálása esetén a bitelnyomáshoz előnyös módon az alábbi összefüggéseket választjuk:
ha SÍ <7, akkor 0<S2< 10, és haSl>7, akkorO<S2<9, ahol SÍ és S2 a két keretszakasz vektorösszetevője.
A találmány szerinti eljárás fő előnye az átviteli hibákkal szembeni robusztussága. A találmány szerinti eljárás lehetővé teszi olyan beszédhangkódolók felépítését, amiknek a beszédhangminősége jobb, mint azoké a beszédhangkódolóké, amelyek a kvantálási fokozatokat 2 többszörösével csökkentik. Mivel az átviteli hibák általában halmozottan lépnek fel, ezért csökkentett ráfordítás mellett a hibajavítás nem romlik.
Találmányunkat annak példaképpeni kiviteli alakja kapcsán ismertetjük részletesebben ábráink segítségével, amelyek közül az
1. ábra a találmány szerinti eljárásnak megfelelően működő beszédhangkódoló kapcsolási blokksémája, a
2. ábra két, különböző fajta jelparaméterhez szolgáló keretszakasz keretfelépítése.
Ahogyan ez az 1. ábrán látható, egy beszédhangjelforrás beszédhangjeleit egy A/D analóg/digitális átalakító letapogatja, és egy A analizáló egység azonos fajta beszédhangjel-paraméterek szempontjából elemzi. Az A analizáló egység mindig egy csoport önmagában azonos fajta beszédhangjel-paramétert, például egy csoport, a formánsszerkezetre vonatkozó KP rövid idejű paramétert (geqesztési paramétert), egy csoport, a pitchszerkezetre vonatkozó LP hosszúidejű paramétert és egy csoport FP szűrősúlyozási paramétert szolgáltat. Ezekkel a paramétercsoportokkal a PRK, PRL, PRF prediktorban a szokványos módon, például az EP 364 647 számú európai szabadalmi leírás szerint predikciós értékeket kapunk, amiket VQ vektorkvantálásnak vetünk alá. A kvantált jelparamétereket az RA keretképző egységben összefoglaljuk, mégpedig úgy, hogy egy például 20 msec kerettartamú keret négy 5 msec tartamú keretszakaszból áll. Mindegyik keretszakaszban azonos fajta jelparaméterek vannak elhelyezve. Ezután legalább két ilyen keretszakaszból (a következőkben két keretszakasz kezelését íijuk le, de természetesen kettőnél több keretszakaszt is lehet együtt kezelni) biteket nyomunk el a BÜ bitelnyomó egységgel. A bitelnyomást a találmány értelmében nem egyenként végezzük mindegyik keretszakaszra, hanem összefoglalt, azonos fajta keretszakaszok legalább két fajtájából kapott bitek teljes számára, vagyis például egy 20 msec tartamú keretben lévő rövid idejű és hosszú idejű paraméterek bitjeinek teljes számára végezzük el. A bitelnyomáskor ügyelünk arra, hogy a kvantálási fokozatok egyenletesen legyenek elosztva a keretszakaszokra. Az ebtyomandó bitek n számát előnyös módon a ™!2'έ~η összefüggés szerint osztjuk el a keretszakaszokra, ahol m az azonos fajta jelparaméterek száma és g az eredeti bitek teljes száma. Ezzel kettő következő magasabb hatványáig nyomjuk el a nem csökkentett bitek g teljes számából kiindulva a bitkülönbséget.
A bitelnyomáshoz előnyös módon azokat a biteket választjuk ki, amik a statisztikailag legkevésbé valószínű kvantálási fokozatoknak felelnek meg. Ez a követelmény például úgy teljesíthető, hogy a kevésbé valószínű kvantálási fokozatokat előre tároljuk egy SP tárban, ami a BÜ bitelnyomó egységet vezérli. Mivel a kvantálási fokozatok valószínűsége általában feltételes, vagyis egy keretszakaszból választott jelparaméterhez a következő keretszakaszban van olyan jelparaméter, aminek a fellépése a választott jelparaméterhez csatlakozva valószínűbb, mint más jelparaméterek fellépése, ezért a bitelnyomás kiválasztásakor a 2. ábra szerint já2
HU 215 620 Β runk el, vagyis az ábrázolt szerkezetben elnyomunk minden bitet, aminek a mezőjében kereszt van.
A 2. ábrán 12 χ 12 vektorból álló szerkezet látható. Az SÍ keretszakasz tartalma 4 bittel van kvantálva azonos fajta amplitúdóértékekre. Ugyanez vonatkozik az S2 keretszakaszra is. A vektorra 7 bit adódik. A bitelnyomás az alábbi összefüggések szerint történik:
ha SÍ <7, akkor 0<S2< 10, és ha Sl>7, akkorO<S2<9, ahol SÍ és S2 a két keretszakasz vektorösszetevője. A jelen példára fennáll, hogy index=S2x 12 + SÍ < 127
A 2. ábrán ábrázolt sémát természetesen megfelelően más szerkezetekre, például a kvantálandó amplitúdóértékek más számára is át lehet vinni.
Eddig azonos fajta jelparaméterek keretszakaszokba való összefoglalását írtuk le. Azonos fajta jelparamétereket természetesen keretszakaszok helyett más módon is össze lehet foglalni. Mindössze arról kell gondoskodni, hogy a továbbfeldolgozáshoz összetartozókként felismerhetők legyenek.

Claims (6)

SZABADALMI IGÉNYPONTOK
1. Eljárás adatok, különösen kódolt beszédhangjelek paramétereinek feldolgozására, átviteli célokra, azzal jellemezve, hogy a kimeneti adatokat azonos jellegű jelparaméterek szempontjából elemezzük, az azonos jellegű jelparamétereket kvantált alakban szakaszonként összefoglaljuk, és a bitek teljes számát legalább kétfajta összefoglalt jelparaméterre úgy csökkentjük, hogy a kvantálási fokozatok nagyjából egyformán vannak elosztva az egyes szakaszokra, és a nem csökkentett bitek teljes számából kiindulva a bitkülönbséget kettő következő nagyobb hatványáig elnyomjuk.
2. Az 1. igénypont szerinti eljárás, azzal jellemezve, hogy azokat a biteket nyomjuk el, amik a statisztikailag legkevésbé valószínű kvantálási fokozatoknak felelnek meg.
3. Az 1. vagy 2. igénypont szerinti eljárás, azzal jellemezve, hogy a bitek eredeti g teljes száma és előre adott n bitcsökkentés esetén az ekkor keletkező 2® n kvantálási fokozatot úgy osztjuk el, hogy minden szakaszra nagyjából ^2^ kvantálási fokozat jut, ahol m mindenkor az azonos fajta jelparaméterek száma.
4. Az 1-3. igénypontok bármelyike szerinti eljárás, azzal jellemezve, hogy az adatok keret szerkezetbe vannak elrendezve, amiben mindenkor különböző fajta jelparaméterek képeznek keretszakaszokat.
5. A 4. igénypont szerinti eljárás, azzal jellemezve, hogy mindenkor különböző fajta jelparamétereket tartalmazó két keretszakaszt foglalunk össze és ezekben csökkentjük a bitek számát.
6. Az 5. igénypont szerinti eljárás, azzal jellemezve, hogy a beszédhangjel-paramétereknek 7 bit/vektorral és 8x12 vektoros szerkezettel végzett vektorkvantálása esetén a bitelnyomáshoz az alábbi összefüggéseket választjuk :
ha SÍ <7, akkor 0<S2< 10, és ha Sl>7, akkor 0<S2<9, ahol SÍ és S2 a két keretszakasz vektorösszetevője.
HU9503181A 1993-05-07 1994-04-20 Eljárás adatok, különösen kódolt beszédhangjelek paramétereinek feldolgozására HU215620B (hu)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE4315319A DE4315319C2 (de) 1993-05-07 1993-05-07 Verfahren zur Aufbereitung von Daten, insbesondere von codierten Sprachsignalparametern

Publications (3)

Publication Number Publication Date
HU9503181D0 HU9503181D0 (en) 1995-12-28
HUT73532A HUT73532A (en) 1996-08-28
HU215620B true HU215620B (hu) 1999-01-28

Family

ID=6487542

Family Applications (1)

Application Number Title Priority Date Filing Date
HU9503181A HU215620B (hu) 1993-05-07 1994-04-20 Eljárás adatok, különösen kódolt beszédhangjelek paramétereinek feldolgozására

Country Status (9)

Country Link
US (1) US5794183A (hu)
EP (1) EP0697123B1 (hu)
AU (1) AU679980B2 (hu)
DE (2) DE4315319C2 (hu)
DK (1) DK0697123T3 (hu)
ES (1) ES2136193T3 (hu)
FI (1) FI116598B (hu)
HU (1) HU215620B (hu)
WO (1) WO1994027284A1 (hu)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7729918B2 (en) * 2001-03-14 2010-06-01 At&T Intellectual Property Ii, Lp Trainable sentence planning system
US7046636B1 (en) 2001-11-26 2006-05-16 Cisco Technology, Inc. System and method for adaptively improving voice quality throughout a communication session
US20070286351A1 (en) * 2006-05-23 2007-12-13 Cisco Technology, Inc. Method and System for Adaptive Media Quality Monitoring
US8248953B2 (en) 2007-07-25 2012-08-21 Cisco Technology, Inc. Detecting and isolating domain specific faults
US7948910B2 (en) * 2008-03-06 2011-05-24 Cisco Technology, Inc. Monitoring quality of a packet flow in packet-based communication networks

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE266620C (hu) *
IT1195350B (it) * 1986-10-21 1988-10-12 Cselt Centro Studi Lab Telecom Procedimento e dispositivo per la codifica e decodifica del segnale vocale mediante estrazione di para metri e tecniche di quantizzazione vettoriale
US4969192A (en) * 1987-04-06 1990-11-06 Voicecraft, Inc. Vector adaptive predictive coder for speech and audio
US4817157A (en) * 1988-01-07 1989-03-28 Motorola, Inc. Digital speech coder having improved vector excitation source
EP0364647B1 (en) * 1988-10-19 1995-02-22 International Business Machines Corporation Improvement to vector quantizing coder
JPH02272500A (ja) * 1989-04-13 1990-11-07 Fujitsu Ltd コード駆動音声符号化方式
EP0422232B1 (en) * 1989-04-25 1996-11-13 Kabushiki Kaisha Toshiba Voice encoder
US5091945A (en) * 1989-09-28 1992-02-25 At&T Bell Laboratories Source dependent channel coding with error protection
JP3151874B2 (ja) * 1991-02-26 2001-04-03 日本電気株式会社 音声パラメータ符号化方式および装置
US5233660A (en) * 1991-09-10 1993-08-03 At&T Bell Laboratories Method and apparatus for low-delay celp speech coding and decoding

Also Published As

Publication number Publication date
DE4315319A1 (de) 1994-11-10
DE59408494D1 (de) 1999-08-19
FI955323A0 (fi) 1995-11-06
FI955323A (fi) 1995-11-06
ES2136193T3 (es) 1999-11-16
HU9503181D0 (en) 1995-12-28
DK0697123T3 (da) 1999-12-13
US5794183A (en) 1998-08-11
EP0697123B1 (de) 1999-07-14
FI116598B (fi) 2005-12-30
EP0697123A1 (de) 1996-02-21
WO1994027284A1 (de) 1994-11-24
AU6502494A (en) 1994-12-12
DE4315319C2 (de) 2002-11-14
AU679980B2 (en) 1997-07-17
HUT73532A (en) 1996-08-28

Similar Documents

Publication Publication Date Title
JP2964344B2 (ja) 符号化/復号化装置
KR100304682B1 (ko) 음성 코더용 고속 여기 코딩
JP4101957B2 (ja) 音声パラメータの合同量子化
US20020016161A1 (en) Method and apparatus for compression of speech encoded parameters
US20100088090A1 (en) Arithmetic encoding for celp speech encoders
KR20040028750A (ko) 음성 코덱의 선스펙트럼 주파수 벡터 양자화 방법 및 시스템
US6593872B2 (en) Signal processing apparatus and method, signal coding apparatus and method, and signal decoding apparatus and method
JP3628268B2 (ja) 音響信号符号化方法、復号化方法及び装置並びにプログラム及び記録媒体
EP0954853B1 (en) A method of encoding a speech signal
CN1199516A (zh) 对诸语音频谱参数进行最小冗余检错和纠错的方法和诸设备
US6480550B1 (en) Method of compressing an analogue signal
HU215620B (hu) Eljárás adatok, különösen kódolt beszédhangjelek paramétereinek feldolgozására
EP1121686B1 (en) Speech parameter compression
KR100416363B1 (ko) 선형 예측 분석 대 합성 엔코딩 방법 및 엔코더
JP2523286B2 (ja) 音声符号化及び復号化方法
CN1256000A (zh) 增强音调的方法和装置
US5943644A (en) Speech compression coding with discrete cosine transformation of stochastic elements
JP2774003B2 (ja) コード励振線形予測符号化装置
JP3453116B2 (ja) 音声符号化方法及び装置
KR100341398B1 (ko) 씨이엘피형 보코더의 코드북 검색 방법
JP3130834B2 (ja) 移動電話機
CN1239569A (zh) 一种编码语音信号的方法
JP2906596B2 (ja) 音声符号化装置
KR100392258B1 (ko) Celp 보코더의 처리 지연시간을 감소하기 위한 인코딩및 디코딩 블럭 구조 및 그 구조를 이용한 인코딩 및디코딩 방법
JP2521052B2 (ja) 音声符号化方式