EP1267325A1 - Procede pour detecter l'activite vocale dans un signal, et codeur de signal vocal comportant un dispositif pour la mise en oeuvre de ce procede - Google Patents
Procede pour detecter l'activite vocale dans un signal, et codeur de signal vocal comportant un dispositif pour la mise en oeuvre de ce procede Download PDFInfo
- Publication number
- EP1267325A1 EP1267325A1 EP02290984A EP02290984A EP1267325A1 EP 1267325 A1 EP1267325 A1 EP 1267325A1 EP 02290984 A EP02290984 A EP 02290984A EP 02290984 A EP02290984 A EP 02290984A EP 1267325 A1 EP1267325 A1 EP 1267325A1
- Authority
- EP
- European Patent Office
- Prior art keywords
- frame
- voice
- decision
- noise
- energy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
Definitions
- the invention relates to a voice signal encoder comprising a device improved voice activity detection, and in particular an encoder conforming to the ITU-T G.729A standard, annex B.
- a voice signal has up to 60% silence or background noise.
- it is known to discriminate the voice signal portions that actually contain useful signals and the portions that contain only silence or noise; and code them respectively according to two different algorithms, each portion which contains that silence or noise being coded with very little information representing the characteristics of ambient noise.
- Such an encoder includes a device for voice activity detection which realizes this discrimination according to spectral characteristics and according to the energy of the voice signal to be coded (calculated on each signal frame).
- the voice signal is divided into digital frames corresponding to a duration of 10ms, for example.
- a set of parameters is extract the signal.
- the main parameters are auto coefficients correlation.
- a set of linear prediction coding coefficients, and a set of frequency parameters are then deduced from these auto coefficients correlation.
- One of the steps in the signal portion discrimination process voice that actually contain useful signals and portions that don't contain only silence or noise is to compare the energy of a signal frame with a threshold.
- a device for calculating the threshold value adapts the threshold value as a function of noise variations. Noise affecting the signal vocal is composed of noise of electrical origin and ambient noise. This last can increase or decrease significantly during the same communication.
- frequency noise filtering coefficients must also be adapted to variations in noise.
- the decoder responsible for decoding the coded voice signal must use alternately two corresponding decoding algorithms respectively to signal portions encoded as voice and to signal portions encoded like silence or background noise.
- the transition from one algorithm to another is synchronized by the information coding the periods of silence or noise.
- the object of the invention is to propose a more effective solution, which preserves the effectiveness of voice activity detection in terms of traffic, but which does not affect the quality of the signal reproduced after decoding.
- the process thus characterized avoids an undesirable “noise” transition towards “Voice” during an increase in transient energy during frame n only, because the smoothing function takes into account the final decision taken for frame n-1 preceding the current frame n, to decide on a transition from "noise” to "voice".
- the method according to the invention furthermore consists in preventing any final “noise” decision for frames n + 1 to n + i where i is an integer defining a duration of inertia.
- the process thus characterized avoids the phenomenon of loss of segments speech because the smoothing function has an inertia corresponding to the duration of i frames, for returning to a “noise” decision.
- the subject of the invention is also a voice signal coder comprising smoothing means for implementing the method according to the invention.
- FIG. 5 represents respectively the percentages of errors with the known method and with the method according to the invention, for different values of the signal to noise ratio.
- Figure 6 shows the percentages of speech loss with the known method and with the method according to the invention, for different values of the signal to noise ratio.
- the coder When the voice signal is a useful signal, the coder provides a frame every 10 ms. When the voice signal consists of silence (or noise), the encoder provides a single frame, at the start of the period of silence (or noise).
- such an encoder can be produced by means of a processor. suitably programmed.
- the method according to the invention can be implemented by software whose realization is within the reach of man art.
- FIG. 2 represents the flowchart of the decision making “voice” or “noise”, according to the coding method known by the standard G.729 appendix B, 11/96. The method is applied to digitized signal frames having a fixed duration of 10 ms.
- a first step 11 consists in extracting four parameters for the current frame of the signal to be coded: the energy of this frame in the whole band of frequencies, the energy of this frame in the low frequencies, a set of spectral coefficients, and the rate of zero crossings.
- the next step 12 consists in updating the minimum size of a buffer memory.
- the curves E1 and E2 respectively represent the percentages of errors with the known method and with the method according to the invention, for different values of the signal to noise ratio.
- the curves L1 and L2 respectively represent the percentages of speech losses with the known method and with the method according to the invention, for different values of the signal to noise ratio.
Abstract
- Prendre la décision « voix » sitôt qu'il y a une augmentation de l'énergie du signal par rapport à la trame précédant la trame courante, même si cette augmentation est faible.
- Prendre la décision « bruit » seulement si les caractéristiques du signal corespondent aux caractéristiques du bruit pendant au moins i trames de suite (i=6 par exemple).
Description
- la décision initiale pour la trame n est « voix » ;
- et la décision définitive pour la trame n-2 était « bruit » ;
- et l'énergie de la trame n-1 était supérieure à celle de la trame n-2 ;
- et l'énergie de la trame n est supérieure à l'énergie de la frame n-2.
- La figure 1 représente le schéma fonctionnel d'un exemple de réalisation de codeur pour la mise en oeuvre du procédé selon l'invention.
- La figure 2 représente l'organigramme de la prise de décision « voix » / « bruit » selon le procédé de codage connu par la norme G.729 annexe B, 11/96.
- La figure 3 représente de manière plus détaillée les opérations de lissage du signal de détection d'activité vocale, selon le procédé de codage connu par la norme G.729 annexe B, 11/96.
- La figure 4 représente l'organigramme d'un exemple de mise en oeuvre du lissage du signal de détection d'activité vocale, dans le procédé selon l'invention.
- une borne d'entrée 1 recevant, sous forme analogique, un signal vocal à coder ;
- un circuit 2 pour filtrer, échantillonner, quantifier, et mettre dans des trames, le signal vocal ;
- un commutateur 3 ayant une entrée reliée à la sortie du circuit 2, et deux sorties ;
- un circuit 4 de codage des trames considérées comme représentant véritablement un signal utile, ayant une entrée reliée à une première sortie du commutateur 3 ;
- un circuit 5 de codage des trames considérées comme représentant du silence ou du bruit, ayant une entrée reliée à une second sortie du commutateur 3;
- un second commutateur 6 ayant : une première et une seconde entrée reliées respectivement à une sortie du circuit 4 et à une sortie du circuit 5, et une borne de sortie 9 constituant la borne de sortie du codeur ;
- et un détecteur 7 d'activité vocal ayant une entrée reliée à la sortie du circuit 2 et une sortie reliée notamment à une entrée de commande de chacun des commutateurs 3 et 6, afin de sélectionner les trames codées correspondant au contenu reconnu dans le signal vocal : soit signal utile, soit silence (ou bruit).
- S'il est inférieur à Ni :
- L'étape suivante 14 consiste à initialiser les valeurs des moyennes glissantes des paramètres du signal à coder: Les coefficients spectraux ; l'énergie moyenne dans toute la bande ; l'énergie moyenne dans les fréquences basses ; et le taux moyen de passages à zéro.
- Puis une étape 15 consiste à comparer l'énergie de la trame à une valeur de seuil prédéterminée, pour décider que le signal est de la voix si l'énergie de la trame est supérieure à cette valeur, ou décider que le signal est du bruit si l'énergie de la trame est inférieure à cette valeur. Le traitement de la trame courante atteint alors sa fin 16.
- Si le numéro de trame n'est pas inférieur à Ni, une étape suivante 17
consiste à déterminer s'il est égal ou s'il est supérieur à Ni :
- s'il est égal à Ni, une étape suivante 18 consiste à initialiser la valeur de l'énergie moyenne du bruit dans toute la bande et la valeur de l'énergie moyenne du bruit dans les basses fréquences.
- S'il est supérieur à Ni :
- une étape suivante 19 consiste à calculer un jeu de paramètres différences, en soustrayant la valeur courante d'un paramètre de trame à la valeur moyenne glissante de ce paramètre de trame, cette dernière étant représentative du bruit. Ces paramètres différences sont: la distorsion spectrale, la différence d'énergie dans toute la bande, la différence d'énergie dans les basses fréquences, et la différence des taux de passage à zéro.
- Une étape suivante 20 consiste à comparer l'énergie de
la trame à une valeur de seuil prédéterminée :
- Si elle n'est pas inférieure à cette valeur, une étape 21 consiste à prendre une décision initiale («voix» ou « bruit ») basée sur une pluralité de critères, puis une étape 22 consiste à « lisser » cette décision pour éviter de trop nombreux changements de décision.
- Si elle est inférieure ou égale à cette valeur, une étape 23 consiste à décider que le signal est du bruit, puis l'étape 22 consiste à « lisser » cette décision.
- Après l'étape 22 de lissage, une étape suivante 24 consiste à
comparer l'énergie de la trame courante avec un seuil
adaptatif égal à la moyenne glissante de l'énergie dans toute la
bande, augmentée d'une constante :
- Si elle est supérieure à la valeur de seuil, une étape suivante 25 consiste à mettre à jour les valeurs des moyennes glissantes des paramètres représentatifs du bruit, puis le traitement de la trame courante atteint la fin 26.
- Si elle n'est pas supérieure à la valeur de seuil, le traitement de la trame courante atteint la fin 27.
- Une première étape consiste en un test 31 pour prendre la décision
« voix » si :
- la décision pour la trame précédente était « voix »,
- et l'énergie moyenne de la trame courante est supérieure à la moyenne glissante de l'énergie des trames précédentes, augmentée d'une constante, autrement dit si l'énergie de la trame courante est nettement supérieure à l'énergie moyenne du bruit.
- Une deuxième étape 32 à 35 consiste en un test 32 pour confirmer la
décision « voix » si :
- la décision pour les deux trames précédentes était « voix »,
- et l'énergie moyenne de la trame courante est supérieure à la moyenne glissante de l'énergie de la trame précédente, augmentée d'une constante, autrement dit si l'énergie n'a pas beaucoup diminué de la trame précédente à la trame courante.
- Une troisième étape 36 à 39 consiste en un test 36 pour prendre la
décision « bruit » 42 définitivement si :
- Une décision « bruit » a été prise pour les dix trames précédant la trame courante (la décision « voix » ayant été prise pour celle-ci dans les étapes 31-35).
- L'énergie de la trame courante est inférieure à l'énergie de la
trame précédente augmentée d'une constante, autrement dit
l'énergie n'a pas beaucoup augmenté de la trame précédente à la
trame courante.
Cette troisième étape consiste en outre à réinitialiser (opération 37) le test 36 en réinitialisant le comptage des trames (opération 39), si la trame courante est la dixième trame d'affilée pour laquelle la décision est « bruit » (test 38).
- Une quatrième étape consiste en un test 40 prendre la décision « bruit » 42 définitivement si l'énergie de la trame courante est inférieure à la somme de la moyenne glissante de l'énergie des trames précédentes, augmentée d'une constante égale à 614. Autrement dit, la décision « voix » n'est confirmée définitivement (opération 41) que si l'énergie de la trame est nettement supérieure à la moyenne glissante de l'énergie des trames précédentes. Dans le cas contraire, la décision « bruit» 42 est prise définitivement. Cette quatrième étape 40 (décision finale) fournit de mauvaises décisions « bruit » lorsque le signal est fortement bruité. En effet, cette étape 40 décide que le signal est du bruit sans tenir compte des décisions qui précédent, mais en se basant simplement sur la différence d'énergie entre la trame courante et le bruit de fond, représenté par la valeur de la moyenne glissante de l'énergie des trames précédentes, augmentée de la constante 614. En fait, lorsque le bruit de fond est élevé, le seuil constitué par cette constante 614 n'est plus valable.Le procédé selon l'invention se distingue du procédé connu par la norme G.279.1, Annexe B, 11/96, au niveau des étapes de lissage.La figure 4 représente l'organigramme d'un exemple de mise en oeuvre du lissage du signal de détection d'activité vocale, dans le procédé selon l'invention. Ce lissage comporte quatre étapes, qui suivent la prise de décision initiale 21 («voix» ou « bruit ») basée sur une pluralité de critères. Parmi ces quatre étapes, trois étapes (tests 131, 132, 136) sont analogues à trois étapes décrites ci-dessus (tests 31, 32, 36); la quatrième étape 40 décrite précédemment est supprimée ; et une étape dite préliminaire est rajoutée avant la première étape 31 décrite ci-dessus. Un comptage dit d'inertie est rajouté pour obtenir une inertie d'une durée égale à cinq fois la durée d'une trame, par exemple, avant de changer la décision « voix » en décision « bruit» lorsque l'énergie de la trame est devenue faible. Cette durée est donc égale à 50 ms dans cet exemple. Ce comptage d'inertie n'est actif que lorsque l'énergie moyenne du bruit devient supérieure à à 8000 échelons de l'échelle de quantification définie par la norme G.279.1, Annexe B, 11/96.
- L'étape préliminaire 101 à 104 rajoutée consiste à :
- Si la décision initiale de l'étape 21 est «voix», initialiser à 0 le compteur d'inertie (opérations 102) et enfin passer au test 131.
- Si la décision initiale de l'étape 21 est « bruit », déterminer si
l'énergie de la trame courante est supérieure à une valeur de seuil
fixée, et déterminer si le contenu du compteur d'inertie est inférieur
à 6 et supérieur à 1 (opération 103). Puis :
- Prendre la décision « voix » (en contradiction avec la décision initiale) si ces deux conditions sont remplies, puis incrémenter le compteur d'inertie d'une unité (opération 104) et enfin passer au test 131.
- Ou prendre la décision « bruit » 142 définitivement si l'une de ces conditions n'est pas remplie.
- La première étape consiste en un test 131 (analogue au test 31) qui consiste à maintenir la décision « voix » si la décision précédente était « voix » et l'énergie moyenne de la trame courante est supérieure à la moyenne glissante de l'énergie des trames précédentes, augmentée d'une constante fixée.
- La deuxième étape 132 à 135 (analogue à l'étape 32 à 35) consiste à
prendre la décision « voix » si :
- la décision pour les deux trames précédentes était « voix »,
- et l'énergie moyenne de la trame courante est supérieure à la
moyenne glissante de l'énergie de la trame précédente, augmentée
d'une constante, autrement dit si l'énergie n'a pas beaucoup
diminué de la trame précédente à la trame courante.
Cette deuxième étape 132 à 135 consiste en outre à désactiver ce test pour la prochaine trame, si la trame courante est la quatrième trame d'affilée pour laquelle la décision est «voix» (Incrémentation 133 d'un compteur, comparaison 134 de son contenu avec la valeur 4, et désactivation 135 si la valeur 4 est atteinte).
- La troisième étape 136 à 139, 143 (peu différente de l'étape 36 à 39)
consiste à prendre la décision « bruit » 142 définitivement si :
- Une décision « bruit » a été prise pour les dix dernières trames ;
- et l'énergie de la trame courante est inférieure à l'énergie de la
trame précédente augmentée d'une constante, autrement dit si
l'énergie n'a pas beaucoup augmenté de la trame précédente à la
trame courante.
Cette troisième étape consiste en outre à réinitialiser ce test 136 en réinitialisant le comptage des trames, si la trame courante est la dixième trame d'affilée pour laquelle la décision est « bruit » (Incrémentation 137 d'un compteur, comparaison 138 du contenu de ce compteur avec la valeur 10, réinitialisation 139 de ce compteur à 0 si la valeur 10 est atteinte). La troisième étape est modifié par rapport au procédé connu décrit précédemment, parce qu'elle consiste en outre à forcer le compteur d'inertie à la valeur 6 (opération 143) pour éviter toute interaction entre ce test 136 et le compteur d'inertie.
- Il n'y a pas de quatrième étape analogue à l'étape 40.
Claims (6)
- Procédé pour détecter l'activité vocale dans un signal, ce signal étant découpé en trames, et ce procédé comportant une étape de lissage d'une décision initiale, « voix » ou « bruit », prise pour chaque trame ; caractérisé en ce que cette étape de lissage comporte une étape qui consiste à prendre une décision définitive « voix », pour la n-ième trame, si :la décision initiale pour la trame n est « voix » ;et la décision définitive pour la frame n-2 était « bruit » ;et l'énergie de la trame n-1 était supérieure à celle de la trame n-2 ;et l'énergie de la trame n est supérieure à l'énergie de la trame n-2.
- Procédé selon la revendication 1, caractérisé en ce que, si une décision définitive « voix » a été prise pour la trame n, il consiste en outre à empêcher toute décision définitive « bruit » pour les trames n+1 à n+i où i est un nombre entier définissant une durée d'inertie.
- Procédé selon la revendication 1, caractérisé en ce que cette étape de lissage comporte une étape qui consiste, pour une trame n, à :Si la décision initiale est « voix », initialiser à 0 un compteur d'inertie (102).Si la décision initiale est « bruit », déterminer si l'énergie de la trame n est supérieure à une valeur de seuil, et déterminer si le contenu du compteur d'inertie est inférieur à un seuil fixé, et supérieur à un (103). Puis :Prendre la décision « voix » si ces trois conditions sont remplies, puis incrémenter le compteur d'inertie d'une unité (104).Ou prendre la décision « bruit » si l'une de ces conditions n'est pas remplie.
- Codeur de signal vocal comportant un dispositif de détection d'activité vocale, ce signal étant découpé en trames, et ce dispositif comportant des moyens de lissage d'une décision initiale, « voix » ou « bruit », prise pour chaque trame ; caractérisé en ce que ces moyens de lissage comportent des moyens pour prendre une décision définitive « voix », pour la n-ième trame, si :la décision initiale pour la trame n est « voix » ;et la décision définitive pour la trame n-2 était « bruit » ;et l'énergie de la trame n-1 était supérieure à celle de la trame n-2 ;et l'énergie de la trame n est supérieure à l'énergie de la trame n-2.
- Codeur selon la revendication 4, caractérisé en ce que les moyens de lissage comportent des moyens pour empêcher toute décision définitive « bruit » pour les trames n+1 à n+i où i est un nombre entier définissant une durée d'inertie, si une décision définitive « voix » a été prise pour la trame n.
- Codeur selon la revendication 4, caractérisé en ce que les moyens de lissage comportent des moyens pour :Si la décision initiale est « voix » pour la trame n, initialiser à 0 un compteur d'inertie (102).Si la décision initiale est « bruit », déterminer si l'énergie de la trame n est supérieure à une valeur de seuil, et déterminer si le contenu du compteur d'inertie est inférieur à un seuil fixé et est supérieur à un (103). Puis :Prendre la décision « voix » si ces trois conditions sont remplies, puis incrémenter le compteur d'inertie d'une unité (104).Ou prendre la décision « bruit » si l'une de ces conditions n'est pas remplie.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR0107585A FR2825826B1 (fr) | 2001-06-11 | 2001-06-11 | Procede pour detecter l'activite vocale dans un signal, et codeur de signal vocal comportant un dispositif pour la mise en oeuvre de ce procede |
FR0107585 | 2001-06-11 |
Publications (2)
Publication Number | Publication Date |
---|---|
EP1267325A1 true EP1267325A1 (fr) | 2002-12-18 |
EP1267325B1 EP1267325B1 (fr) | 2004-06-16 |
Family
ID=8864153
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
EP02290984A Expired - Lifetime EP1267325B1 (fr) | 2001-06-11 | 2002-04-18 | Procede pour detecter l'activite vocale dans un signal, et codeur de signal vocal comportant un dispositif pour la mise en oeuvre de ce procede |
Country Status (8)
Country | Link |
---|---|
US (1) | US7596487B2 (fr) |
EP (1) | EP1267325B1 (fr) |
JP (2) | JP3992545B2 (fr) |
CN (1) | CN1162835C (fr) |
AT (1) | ATE269573T1 (fr) |
DE (1) | DE60200632T2 (fr) |
ES (1) | ES2219624T3 (fr) |
FR (1) | FR2825826B1 (fr) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7756709B2 (en) * | 2004-02-02 | 2010-07-13 | Applied Voice & Speech Technologies, Inc. | Detection of voice inactivity within a sound stream |
GB0408856D0 (en) * | 2004-04-21 | 2004-05-26 | Nokia Corp | Signal encoding |
BRPI0418839A (pt) * | 2004-05-17 | 2007-11-13 | Nokia Corp | método para suportar e dispositivo eletrÈnico suportando uma codificação de um sinal de áudio, sistema de codificação de áudio, e, produto de programa de software |
DE102004049347A1 (de) * | 2004-10-08 | 2006-04-20 | Micronas Gmbh | Schaltungsanordnung bzw. Verfahren für Sprache enthaltende Audiosignale |
KR100657912B1 (ko) * | 2004-11-18 | 2006-12-14 | 삼성전자주식회사 | 잡음 제거 방법 및 장치 |
US20060241937A1 (en) * | 2005-04-21 | 2006-10-26 | Ma Changxue C | Method and apparatus for automatically discriminating information bearing audio segments and background noise audio segments |
KR20080059881A (ko) * | 2006-12-26 | 2008-07-01 | 삼성전자주식회사 | 음성 신호의 전처리 장치 및 방법 |
AU2010308597B2 (en) * | 2009-10-19 | 2015-10-01 | Telefonaktiebolaget Lm Ericsson (Publ) | Method and background estimator for voice activity detection |
CN102137194B (zh) * | 2010-01-21 | 2014-01-01 | 华为终端有限公司 | 一种通话检测方法及装置 |
EP2619753B1 (fr) * | 2010-12-24 | 2014-05-21 | Huawei Technologies Co., Ltd. | Procédé et appareil destinés à une détection adaptative de l'activité vocale dans un signal audio d'entrée |
WO2012152323A1 (fr) * | 2011-05-11 | 2012-11-15 | Robert Bosch Gmbh | Système et procédé destinés à émettre et à commander plus particulièrement un signal audio dans un environnement par mesure d'intelligibilité objective |
US20130090926A1 (en) * | 2011-09-16 | 2013-04-11 | Qualcomm Incorporated | Mobile device context information using speech detection |
CN103325386B (zh) * | 2012-03-23 | 2016-12-21 | 杜比实验室特许公司 | 用于信号传输控制的方法和系统 |
CN107978325B (zh) | 2012-03-23 | 2022-01-11 | 杜比实验室特许公司 | 语音通信方法和设备、操作抖动缓冲器的方法和设备 |
CN105681966B (zh) * | 2014-11-19 | 2018-10-19 | 塞舌尔商元鼎音讯股份有限公司 | 降低噪音的方法及电子装置 |
US10928502B2 (en) * | 2018-05-30 | 2021-02-23 | Richwave Technology Corp. | Methods and apparatus for detecting presence of an object in an environment |
CN109360585A (zh) * | 2018-12-19 | 2019-02-19 | 晶晨半导体(上海)股份有限公司 | 一种语音激活检测方法 |
CN113555025A (zh) * | 2020-04-26 | 2021-10-26 | 华为技术有限公司 | 一种静音描述帧发送、协商方法及装置 |
CN115132231B (zh) * | 2022-08-31 | 2022-12-13 | 安徽讯飞寰语科技有限公司 | 语音活性检测方法、装置、设备及可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5410632A (en) * | 1991-12-23 | 1995-04-25 | Motorola, Inc. | Variable hangover time in a voice activity detector |
US5649055A (en) * | 1993-03-26 | 1997-07-15 | Hughes Electronics | Voice activity detector for speech signals in variable background noise |
US5826230A (en) * | 1994-07-18 | 1998-10-20 | Matsushita Electric Industrial Co., Ltd. | Speech detection device |
FR2797343A1 (fr) * | 1999-08-04 | 2001-02-09 | Matra Nortel Communications | Procede et dispositif de detection d'activite vocale |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0240700A (ja) * | 1988-08-01 | 1990-02-09 | Matsushita Electric Ind Co Ltd | 音声検出装置 |
JPH0424692A (ja) * | 1990-05-18 | 1992-01-28 | Ricoh Co Ltd | 音声区間検出方式 |
US5583961A (en) * | 1993-03-25 | 1996-12-10 | British Telecommunications Public Limited Company | Speaker recognition using spectral coefficients normalized with respect to unequal frequency bands |
JP2897628B2 (ja) * | 1993-12-24 | 1999-05-31 | 三菱電機株式会社 | 音声検出器 |
JP3109978B2 (ja) * | 1995-04-28 | 2000-11-20 | 松下電器産業株式会社 | 音声区間検出装置 |
US5819217A (en) * | 1995-12-21 | 1998-10-06 | Nynex Science & Technology, Inc. | Method and system for differentiating between speech and noise |
JP3297346B2 (ja) * | 1997-04-30 | 2002-07-02 | 沖電気工業株式会社 | 音声検出装置 |
US6188981B1 (en) * | 1998-09-18 | 2001-02-13 | Conexant Systems, Inc. | Method and apparatus for detecting voice activity in a speech signal |
US6691084B2 (en) * | 1998-12-21 | 2004-02-10 | Qualcomm Incorporated | Multiple mode variable rate speech coding |
JP3759685B2 (ja) * | 1999-05-18 | 2006-03-29 | 三菱電機株式会社 | 雑音区間判定装置,雑音抑圧装置及び推定雑音情報更新方法 |
KR100566163B1 (ko) * | 2000-11-30 | 2006-03-29 | 마츠시타 덴끼 산교 가부시키가이샤 | 음성 복호화 장치, 음성 복호화 방법 및 프로그램을기록한 기록 매체 |
-
2001
- 2001-06-11 FR FR0107585A patent/FR2825826B1/fr not_active Expired - Fee Related
-
2002
- 2002-04-18 ES ES02290984T patent/ES2219624T3/es not_active Expired - Lifetime
- 2002-04-18 AT AT02290984T patent/ATE269573T1/de not_active IP Right Cessation
- 2002-04-18 DE DE60200632T patent/DE60200632T2/de not_active Expired - Lifetime
- 2002-04-18 EP EP02290984A patent/EP1267325B1/fr not_active Expired - Lifetime
- 2002-05-10 US US10/142,060 patent/US7596487B2/en not_active Expired - Fee Related
- 2002-05-29 CN CNB021217432A patent/CN1162835C/zh not_active Expired - Fee Related
- 2002-06-10 JP JP2002168375A patent/JP3992545B2/ja not_active Expired - Fee Related
-
2006
- 2006-03-28 JP JP2006087186A patent/JP2006189907A/ja active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5410632A (en) * | 1991-12-23 | 1995-04-25 | Motorola, Inc. | Variable hangover time in a voice activity detector |
US5649055A (en) * | 1993-03-26 | 1997-07-15 | Hughes Electronics | Voice activity detector for speech signals in variable background noise |
US5826230A (en) * | 1994-07-18 | 1998-10-20 | Matsushita Electric Industrial Co., Ltd. | Speech detection device |
FR2797343A1 (fr) * | 1999-08-04 | 2001-02-09 | Matra Nortel Communications | Procede et dispositif de detection d'activite vocale |
Non-Patent Citations (1)
Title |
---|
JONGSEO SOHN ET AL: "A statistical model-based voice activity detection", IEEE SIGNAL PROCESSING LETTERS, JAN. 1999, IEEE, USA, vol. 6, no. 1, pages 1 - 3, XP002189007, ISSN: 1070-9908 * |
Also Published As
Publication number | Publication date |
---|---|
FR2825826A1 (fr) | 2002-12-13 |
CN1162835C (zh) | 2004-08-18 |
US20020188442A1 (en) | 2002-12-12 |
ATE269573T1 (de) | 2004-07-15 |
FR2825826B1 (fr) | 2003-09-12 |
DE60200632T2 (de) | 2004-12-23 |
JP2006189907A (ja) | 2006-07-20 |
US7596487B2 (en) | 2009-09-29 |
DE60200632D1 (de) | 2004-07-22 |
JP2003005772A (ja) | 2003-01-08 |
CN1391212A (zh) | 2003-01-15 |
ES2219624T3 (es) | 2004-12-01 |
JP3992545B2 (ja) | 2007-10-17 |
EP1267325B1 (fr) | 2004-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1267325B1 (fr) | Procede pour detecter l'activite vocale dans un signal, et codeur de signal vocal comportant un dispositif pour la mise en oeuvre de ce procede | |
EP1016072B1 (fr) | Procede et dispositif de debruitage d'un signal de parole numerique | |
EP1316087B1 (fr) | Dissimulation d'erreurs de transmission dans un signal audio | |
FI110726B (fi) | Äänen aktiivisuuden ilmaisu | |
EP1051703B1 (fr) | Procede decodage d'un signal audio avec correction des erreurs de transmission | |
EP1320087A2 (fr) | Synthèse d'un signal d'excitation utilisé dans un générateur de bruit de confort | |
EP0109037B1 (fr) | Procédé et dispositif d'évaluation du niveau de bruit sur une voie téléphonique | |
EP2080195A1 (fr) | Synthèse de blocs perdus d'un signal audionumérique, avec correction de période de pitch | |
FR2520539A1 (fr) | Procede et systeme de traitement des silences dans un signal de parole | |
WO2011161362A1 (fr) | Controle d'une boucle de retroaction de mise en forme de bruit dans un codeur de signal audionumerique | |
EP0906613B1 (fr) | Procede et dispositif de codage d'un signal audiofrequence par analyse lpc "avant" et "arriere" | |
EP0506535B1 (fr) | Procédé et système de traitement des pré-échos d'un signal audio-numérique codé par transformée fréquentielle | |
WO2006114494A1 (fr) | Procede d’adaptation pour une interoperabilite entre modeles de correlation a cout terme de signaux numeriques | |
EP3192073B1 (fr) | Discrimination et atténuation de pré-échos dans un signal audionumérique | |
EP1039736A1 (fr) | Procédé et disposiif d'identification adaptive, et annuleur d'écho adaptive mettant en oeuvre un tel procédé | |
EP2203915B1 (fr) | Dissimulation d'erreur de transmission dans un signal numerique avec repartition de la complexite | |
EP2691953B1 (fr) | Traitement dans le domaine code d'un signal audio code par codage micda | |
EP1383109A1 (fr) | Procédé et dispositif d'encodage de la parole à bande élargie | |
EP0347307A2 (fr) | Procédé de codage et codeur de parole à prédiction linéaire | |
FR2885462A1 (fr) | Procede d'attenuation des pre-et post-echos d'un signal numerique audio et dispositif correspondant | |
EP2162883A2 (fr) | Limitation de distorsion introduite par un post-traitement au decodage d'un signal numerique | |
EP1383111A2 (fr) | Procédé et dispositif d'encodage de la parole à bande élargie | |
EP1383110A1 (fr) | Procédé et dispositif d'encodage de la parole à bande élargie, permettant en particulier une amélioration de la qualité des trames de parole voisée | |
EP0201401A1 (fr) | Procédé de codage MIC différentiel et installation de transmission d'information utilisant un tel codage | |
EP1383112A2 (fr) | Procédé et dispositif d'encodage de la parole à bande élargie, permettant en particulier une amélioration de la qualité des trames de parole voisée |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PUAI | Public reference made under article 153(3) epc to a published international application that has entered the european phase |
Free format text: ORIGINAL CODE: 0009012 |
|
AK | Designated contracting states |
Kind code of ref document: A1 Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE TR |
|
AX | Request for extension of the european patent |
Free format text: AL;LT;LV;MK;RO;SI |
|
17P | Request for examination filed |
Effective date: 20030618 |
|
AKX | Designation fees paid |
Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE TR |
|
GRAP | Despatch of communication of intention to grant a patent |
Free format text: ORIGINAL CODE: EPIDOSNIGR1 |
|
GRAS | Grant fee paid |
Free format text: ORIGINAL CODE: EPIDOSNIGR3 |
|
GRAA | (expected) grant |
Free format text: ORIGINAL CODE: 0009210 |
|
AK | Designated contracting states |
Kind code of ref document: B1 Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE TR |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: IE Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20040616 Ref country code: TR Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20040616 Ref country code: FI Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20040616 Ref country code: NL Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20040616 Ref country code: AT Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20040616 |
|
REG | Reference to a national code |
Ref country code: GB Ref legal event code: FG4D Free format text: NOT ENGLISH |
|
REG | Reference to a national code |
Ref country code: CH Ref legal event code: EP |
|
REF | Corresponds to: |
Ref document number: 60200632 Country of ref document: DE Date of ref document: 20040722 Kind code of ref document: P |
|
REG | Reference to a national code |
Ref country code: IE Ref legal event code: FG4D Free format text: FRENCH |
|
GBT | Gb: translation of ep patent filed (gb section 77(6)(a)/1977) |
Effective date: 20040714 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: DK Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20040916 Ref country code: GR Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20040916 Ref country code: SE Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20040916 |
|
NLV1 | Nl: lapsed or annulled due to failure to fulfill the requirements of art. 29p and 29m of the patents act | ||
REG | Reference to a national code |
Ref country code: ES Ref legal event code: FG2A Ref document number: 2219624 Country of ref document: ES Kind code of ref document: T3 |
|
REG | Reference to a national code |
Ref country code: IE Ref legal event code: FD4D |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: CY Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20050418 Ref country code: LU Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20050418 |
|
PLBE | No opposition filed within time limit |
Free format text: ORIGINAL CODE: 0009261 |
|
STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: MC Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20050430 Ref country code: BE Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20050430 |
|
26N | No opposition filed |
Effective date: 20050317 |
|
BERE | Be: lapsed |
Owner name: *ALCATEL Effective date: 20050430 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: LI Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20060430 Ref country code: CH Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20060430 |
|
REG | Reference to a national code |
Ref country code: CH Ref legal event code: PL |
|
REG | Reference to a national code |
Ref country code: FR Ref legal event code: CD |
|
BERE | Be: lapsed |
Owner name: *ALCATEL Effective date: 20050430 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: PT Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20041116 |
|
REG | Reference to a national code |
Ref country code: GB Ref legal event code: 732E Free format text: REGISTERED BETWEEN 20131114 AND 20131120 |
|
REG | Reference to a national code |
Ref country code: FR Ref legal event code: GC Effective date: 20140717 |
|
REG | Reference to a national code |
Ref country code: FR Ref legal event code: RG Effective date: 20141016 |
|
REG | Reference to a national code |
Ref country code: FR Ref legal event code: PLFP Year of fee payment: 14 |
|
REG | Reference to a national code |
Ref country code: FR Ref legal event code: PLFP Year of fee payment: 15 |
|
REG | Reference to a national code |
Ref country code: FR Ref legal event code: PLFP Year of fee payment: 16 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: GB Payment date: 20170419 Year of fee payment: 16 Ref country code: DE Payment date: 20170419 Year of fee payment: 16 Ref country code: FR Payment date: 20170419 Year of fee payment: 16 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: IT Payment date: 20170424 Year of fee payment: 16 Ref country code: ES Payment date: 20170517 Year of fee payment: 16 |
|
REG | Reference to a national code |
Ref country code: DE Ref legal event code: R119 Ref document number: 60200632 Country of ref document: DE |
|
GBPC | Gb: european patent ceased through non-payment of renewal fee |
Effective date: 20180418 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: DE Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20181101 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: GB Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20180418 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: FR Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20180430 Ref country code: IT Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20180418 |
|
REG | Reference to a national code |
Ref country code: ES Ref legal event code: FD2A Effective date: 20190912 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: ES Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20180419 |