CA2359411A1 - Procede de codage de la prosodie pour un codeur de parole a tres bas debit - Google Patents
Procede de codage de la prosodie pour un codeur de parole a tres bas debit Download PDFInfo
- Publication number
- CA2359411A1 CA2359411A1 CA002359411A CA2359411A CA2359411A1 CA 2359411 A1 CA2359411 A1 CA 2359411A1 CA 002359411 A CA002359411 A CA 002359411A CA 2359411 A CA2359411 A CA 2359411A CA 2359411 A1 CA2359411 A1 CA 2359411A1
- Authority
- CA
- Canada
- Prior art keywords
- coding
- energy
- recognized
- representatives
- decoding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims 11
- XOFYZVNMUHMLCC-ZPOLXVRWSA-N prednisone Chemical compound O=C1C=C[C@]2(C)[C@H]3C(=O)C[C@](C)([C@@](CC4)(O)C(=O)CO)[C@@H]4[C@@H]3CCC2=C1 XOFYZVNMUHMLCC-ZPOLXVRWSA-N 0.000 claims 2
- 241000284466 Antarctothoa delta Species 0.000 claims 1
- 238000012217 deletion Methods 0.000 claims 1
- 230000037430 deletion Effects 0.000 claims 1
- 238000003780 insertion Methods 0.000 claims 1
- 230000037431 insertion Effects 0.000 claims 1
- 230000007704 transition Effects 0.000 claims 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0018—Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Abstract
Procédé de codage-décodage de la parole utilisant un codeur à très bas débit comprenant une étape d'apprentissage permettant d'identifier des « représentants » du signal de parole et une étape de codage pour segmenter le signal de parole et déterminer le « meilleur représentant » associé à chaque segment reconnu. Le procédé comporte au moins une étape de codage-décodage d'un des paramètres au moins de la prosodie des segments reconnus, tel que l'énergie et/ou le pitch et/ou le voisement et/ou la longueur des segments, en utilisant une information de prosodie des « meilleurs représentants ». Application pour des débits inférieurs à 400 bits par seconde.
Claims (4)
1 - Procédé de codage-décodage de la parole utilisant un codeur à très bas débit comprenant une étape d'apprentissage permettant d'identifier des « représentants » du signal de parole et une étape de codage pour segmenter le signal de parole et déterminer le « meilleur représentant »
associé à chaque segment reconnu caractérisé en ce qu'il comporte au moins une étape de codage-décodage d'un des paramétres au moins de la prosodie des segments reconnus, tel que l'énergie et/ou le pitch et/ou le voisement et/ou la longueur des segments, en utilisant une information de prosodie des « meilleurs représentants ».
associé à chaque segment reconnu caractérisé en ce qu'il comporte au moins une étape de codage-décodage d'un des paramétres au moins de la prosodie des segments reconnus, tel que l'énergie et/ou le pitch et/ou le voisement et/ou la longueur des segments, en utilisant une information de prosodie des « meilleurs représentants ».
2 - Procédé selon la revendication 1 caractérisé en ce que l'information de prosodie des représentants utilisée est le contour d'énergie ou le voisement ou la longueur des segments ou le pitch.
3 - Procédé selon la revendication 1 caractérisé en ce qu'il comporte une étape de codage de la longueur des segments reconnus consistant à coder la différence de longueur entre la longueur d'un segment reconnu et la longueur du « meilleur représentant » multiplié par un facteur donné.
4 - Procédé selon la revendication 1 caractérisé en ce qu'il comporté une étape de codage de l'alignement temporel des meilleurs représentants en utilisant le chemin de DTW et en recherchant le plus proche voisin dans une table de formes.
- Procédé selon l'une des revendications 1 à 4 caractérisé en ce que l'étape de codage de l'énergie comporte une étape de détermination pour chaque début de « segment reconnu » de la différence .DELTA.E(j) entre la valeur d'énergie E rd(j) du « meilleur représentant » et la valeur d'énergie E sd(j) du début du « segment reconnu ».
6 - Procédé selon la revendication 5 caractérisé en ce que l'étape de décodage de l'énergie comporte pour chaque segment reconnu, une première étape consistant à translater le contour d'énergie du meilleur représentant d'une quantité .DELTA. E(j) pour faire coïncider la première énergie E rd(j) du << meilleur représentant >> avec la première énergie E sd(j+1) du segment reconnu d'indice j+1.
7 - Procédé selon l'une des revendications 1 à 4 caractérisé en ce que l'étape de codage de voisement comporte une étape de détermination des différences existantes .DELTA.T k pour chaque extrémité d'une zone de voisement d'indice k entre la courbe du voisement des segments reconnus et celle des meilleurs représentants.
8 - Procédé selon la revendication 7 caractérisé en ce que l'étape de décodage comporte pour chaque extrémité d'une zone de voisement d'indice k une étape de correction de la position temporelle de cette extrémité d'une valeur .DELTA. T k correspondante et/ou une étape de suppression ou d'insertion d'une transition.
9 - Système de codage-décodage de la parole comportant au moins une mémoire pour stocker un dictionnaire comprenant un ensemble de représentants du signal de parole, un microprocesseur adapté pour déterminer les segments reconnus, pour reconstruire la parole à partir des << meilleurs représentants >> et pour mettre en oeuvre les étapes du procédé
selon l'une des revendications 1 à 8.
- Système selon la revendication 9 caractérisé en ce que le dictionnaire des représentants est commun au codeur et au décodeur du système codage-décodage.
11 - Utilisation du procédé selon l'une des revendications 1 à 8 ou du système selon l'une des revendications 9 et 10 au codage-décodage de la parole peur des débits inférieurs à 800 bits/s et de préférence inférieurs à
400 bits/s.
- Procédé selon l'une des revendications 1 à 4 caractérisé en ce que l'étape de codage de l'énergie comporte une étape de détermination pour chaque début de « segment reconnu » de la différence .DELTA.E(j) entre la valeur d'énergie E rd(j) du « meilleur représentant » et la valeur d'énergie E sd(j) du début du « segment reconnu ».
6 - Procédé selon la revendication 5 caractérisé en ce que l'étape de décodage de l'énergie comporte pour chaque segment reconnu, une première étape consistant à translater le contour d'énergie du meilleur représentant d'une quantité .DELTA. E(j) pour faire coïncider la première énergie E rd(j) du << meilleur représentant >> avec la première énergie E sd(j+1) du segment reconnu d'indice j+1.
7 - Procédé selon l'une des revendications 1 à 4 caractérisé en ce que l'étape de codage de voisement comporte une étape de détermination des différences existantes .DELTA.T k pour chaque extrémité d'une zone de voisement d'indice k entre la courbe du voisement des segments reconnus et celle des meilleurs représentants.
8 - Procédé selon la revendication 7 caractérisé en ce que l'étape de décodage comporte pour chaque extrémité d'une zone de voisement d'indice k une étape de correction de la position temporelle de cette extrémité d'une valeur .DELTA. T k correspondante et/ou une étape de suppression ou d'insertion d'une transition.
9 - Système de codage-décodage de la parole comportant au moins une mémoire pour stocker un dictionnaire comprenant un ensemble de représentants du signal de parole, un microprocesseur adapté pour déterminer les segments reconnus, pour reconstruire la parole à partir des << meilleurs représentants >> et pour mettre en oeuvre les étapes du procédé
selon l'une des revendications 1 à 8.
- Système selon la revendication 9 caractérisé en ce que le dictionnaire des représentants est commun au codeur et au décodeur du système codage-décodage.
11 - Utilisation du procédé selon l'une des revendications 1 à 8 ou du système selon l'une des revendications 9 et 10 au codage-décodage de la parole peur des débits inférieurs à 800 bits/s et de préférence inférieurs à
400 bits/s.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR0013628A FR2815457B1 (fr) | 2000-10-18 | 2000-10-18 | Procede de codage de la prosodie pour un codeur de parole a tres bas debit |
FR0013628 | 2000-10-18 |
Publications (2)
Publication Number | Publication Date |
---|---|
CA2359411A1 true CA2359411A1 (fr) | 2002-04-18 |
CA2359411C CA2359411C (fr) | 2010-07-06 |
Family
ID=8855687
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CA2359411A Expired - Fee Related CA2359411C (fr) | 2000-10-18 | 2001-10-17 | Procede de codage de la prosodie pour un codeur de parole a tres bas debit |
Country Status (10)
Country | Link |
---|---|
US (1) | US7039584B2 (fr) |
EP (1) | EP1197952B1 (fr) |
JP (1) | JP2002207499A (fr) |
KR (1) | KR20020031305A (fr) |
AT (1) | ATE450856T1 (fr) |
CA (1) | CA2359411C (fr) |
DE (1) | DE60140651D1 (fr) |
ES (1) | ES2337020T3 (fr) |
FR (1) | FR2815457B1 (fr) |
IL (1) | IL145992A0 (fr) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2388439A1 (fr) * | 2002-05-31 | 2003-11-30 | Voiceage Corporation | Methode et dispositif de dissimulation d'effacement de cadres dans des codecs de la parole a prevision lineaire |
US20040166481A1 (en) * | 2003-02-26 | 2004-08-26 | Sayling Wen | Linear listening and followed-reading language learning system & method |
JP4256189B2 (ja) * | 2003-03-28 | 2009-04-22 | 株式会社ケンウッド | 音声信号圧縮装置、音声信号圧縮方法及びプログラム |
US20050091044A1 (en) * | 2003-10-23 | 2005-04-28 | Nokia Corporation | Method and system for pitch contour quantization in audio coding |
FR2861491B1 (fr) * | 2003-10-24 | 2006-01-06 | Thales Sa | Procede de selection d'unites de synthese |
KR101410230B1 (ko) * | 2007-08-17 | 2014-06-20 | 삼성전자주식회사 | 종지 정현파 신호와 일반적인 연속 정현파 신호를 다른방식으로 처리하는 오디오 신호 인코딩 방법 및 장치와오디오 신호 디코딩 방법 및 장치 |
US8374873B2 (en) * | 2008-08-12 | 2013-02-12 | Morphism, Llc | Training and applying prosody models |
US8670990B2 (en) * | 2009-08-03 | 2014-03-11 | Broadcom Corporation | Dynamic time scale modification for reduced bit rate audio coding |
CN107256710A (zh) * | 2017-08-01 | 2017-10-17 | 中国农业大学 | 一种基于动态时间伸缩算法的哼唱旋律识别方法 |
CN110265049A (zh) * | 2019-05-27 | 2019-09-20 | 重庆高开清芯科技产业发展有限公司 | 一种语音识别方法及语音识别系统 |
US11830473B2 (en) * | 2020-01-21 | 2023-11-28 | Samsung Electronics Co., Ltd. | Expressive text-to-speech system and method |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4802223A (en) * | 1983-11-03 | 1989-01-31 | Texas Instruments Incorporated | Low data rate speech encoding employing syllable pitch patterns |
US5305421A (en) * | 1991-08-28 | 1994-04-19 | Itt Corporation | Low bit rate speech coding system and compression |
US5233660A (en) * | 1991-09-10 | 1993-08-03 | At&T Bell Laboratories | Method and apparatus for low-delay celp speech coding and decoding |
US5682464A (en) * | 1992-06-29 | 1997-10-28 | Kurzweil Applied Intelligence, Inc. | Word model candidate preselection for speech recognition using precomputed matrix of thresholded distance values |
EP0706172A1 (fr) * | 1994-10-04 | 1996-04-10 | Hughes Aircraft Company | Codeur et décodeur de parole à faible débit binaire |
US6393391B1 (en) * | 1998-04-15 | 2002-05-21 | Nec Corporation | Speech coder for high quality at low bit rates |
US5933805A (en) * | 1996-12-13 | 1999-08-03 | Intel Corporation | Retaining prosody during speech analysis for later playback |
JPH10260692A (ja) * | 1997-03-18 | 1998-09-29 | Toshiba Corp | 音声の認識合成符号化/復号化方法及び音声符号化/復号化システム |
US6456965B1 (en) * | 1997-05-20 | 2002-09-24 | Texas Instruments Incorporated | Multi-stage pitch and mixed voicing estimation for harmonic speech coders |
FR2784218B1 (fr) * | 1998-10-06 | 2000-12-08 | Thomson Csf | Procede de codage de la parole a bas debit |
FR2786908B1 (fr) * | 1998-12-04 | 2001-06-08 | Thomson Csf | Procede et dispositif pour le traitement des sons pour correction auditive des malentendants |
WO2002027709A2 (fr) * | 2000-09-29 | 2002-04-04 | Lernout & Hauspie Speech Products N.V. | Systeme de traduction de prosodie base sur un corpus |
-
2000
- 2000-10-18 FR FR0013628A patent/FR2815457B1/fr not_active Expired - Fee Related
-
2001
- 2001-10-17 AT AT01402684T patent/ATE450856T1/de not_active IP Right Cessation
- 2001-10-17 CA CA2359411A patent/CA2359411C/fr not_active Expired - Fee Related
- 2001-10-17 ES ES01402684T patent/ES2337020T3/es not_active Expired - Lifetime
- 2001-10-17 DE DE60140651T patent/DE60140651D1/de not_active Expired - Lifetime
- 2001-10-17 EP EP01402684A patent/EP1197952B1/fr not_active Expired - Lifetime
- 2001-10-17 JP JP2001319231A patent/JP2002207499A/ja not_active Withdrawn
- 2001-10-17 IL IL14599201A patent/IL145992A0/xx unknown
- 2001-10-18 US US09/978,680 patent/US7039584B2/en not_active Expired - Fee Related
- 2001-10-18 KR KR1020010064436A patent/KR20020031305A/ko not_active Application Discontinuation
Also Published As
Publication number | Publication date |
---|---|
CA2359411C (fr) | 2010-07-06 |
FR2815457B1 (fr) | 2003-02-14 |
US20020065655A1 (en) | 2002-05-30 |
JP2002207499A (ja) | 2002-07-26 |
US7039584B2 (en) | 2006-05-02 |
EP1197952A1 (fr) | 2002-04-17 |
FR2815457A1 (fr) | 2002-04-19 |
ES2337020T3 (es) | 2010-04-20 |
KR20020031305A (ko) | 2002-05-01 |
ATE450856T1 (de) | 2009-12-15 |
DE60140651D1 (de) | 2010-01-14 |
IL145992A0 (en) | 2002-07-25 |
EP1197952B1 (fr) | 2009-12-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CA2359411A1 (fr) | Procede de codage de la prosodie pour un codeur de parole a tres bas debit | |
RU2326449C2 (ru) | Способ и устройство, предназначенные для эффективной передачи сигналов размерности и пачки в полосе частот и работы с максимальной половинной скоростью при широкополосном кодировании речи с переменной скоростью передачи битов для беспроводных систем мдкр | |
KR100711280B1 (ko) | 소스 제어되는 가변 비트율 광대역 음성 부호화 방법 및장치 | |
CN103548081B (zh) | 噪声稳健语音译码模式分类 | |
KR100895589B1 (ko) | 로버스트한 음성 분류를 위한 방법 및 장치 | |
US8032363B2 (en) | Adaptive postfiltering methods and systems for decoding speech | |
JP2019053326A (ja) | 時間領域デコーダにおける量子化雑音を低減するためのデバイスおよび方法 | |
BR9805989B1 (pt) | método e aparelho para decodificar um sinal codificado. | |
US6820052B2 (en) | Low bit-rate coding of unvoiced segments of speech | |
DE60231859D1 (de) | Verfahren und vorrichtung zur zusammenarbeit zwischen sprachübertragungssystemen während sprachinaktivität | |
DE602004007786D1 (de) | Verfahren und vorrichtung zur quantisierung des verstärkungsfaktors in einem breitbandsprachkodierer mit variabler bitrate | |
BRPI0311314B1 (pt) | Método e dispositivo para aperfeiçoamento da altura de som seletivo por freqüência de fala sintetizada | |
ATE393448T1 (de) | Verfahren und vorrichtung zur kodierung von stimmloser sprache | |
US6564182B1 (en) | Look-ahead pitch determination | |
US20040267525A1 (en) | Apparatus for and method of determining transmission rate in speech transcoding | |
KR20000026288A (ko) | 약전계에서 코드 분할 다중 접속 시스템의 코덱 잡음 제거 방법 | |
JPH08305388A (ja) | 音声区間検出装置 | |
Jang et al. | A novel rate selection algorithm for transcoding CELP-type codec and SMV. | |
KR0155807B1 (ko) | 저지연 가변 전송률 다중여기 음성 부호화장치 | |
KR101770301B1 (ko) | 부호화 모드를 이용한 음성신호의 부호화/복호화 장치 및 방법 | |
JPH10301593A (ja) | 音声区間検出方法およびその装置 | |
CA2491623C (fr) | Procede et dispositif d'information de signalisation dans la bande et de fonctionnement maximum en demi debit de codage vocal large bande a debit binaire variable pour des systemes cdma hertzien | |
Ramadas et al. | A phonetically switched ADPCM speech coder | |
JPS62164091A (ja) | 音声符号復号器 | |
강홍구 | A Speech Coder using the Simplified Multi-mode Method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
EEER | Examination request | ||
MKLA | Lapsed |
Effective date: 20181017 |