ES2665944T3 - Aparato para realizar una detección de actividad de voz - Google Patents

Aparato para realizar una detección de actividad de voz Download PDF

Info

Publication number
ES2665944T3
ES2665944T3 ES10861113.8T ES10861113T ES2665944T3 ES 2665944 T3 ES2665944 T3 ES 2665944T3 ES 10861113 T ES10861113 T ES 10861113T ES 2665944 T3 ES2665944 T3 ES 2665944T3
Authority
ES
Spain
Prior art keywords
voice activity
activity detection
vad
voice
audio signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES10861113.8T
Other languages
English (en)
Inventor
Zhe Wang
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Application granted granted Critical
Publication of ES2665944T3 publication Critical patent/ES2665944T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • G10L2025/786Adaptive threshold

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)

Abstract

Un aparato de detección de actividad de voz (1) para determinar una decisión de detección de actividad de voz, VADD, para una señal de audio de entrada, en donde el aparato de detección de actividad de voz (1) comprende: un detector de estado (2), adaptado para determinar un estado de funcionamiento actual, WS, de entre al menos dos estados de funcionamiento diferentes del aparato de detección de actividad de voz (1), dependiente de la señal de audio de entrada, en donde cada uno de los al menos dos estados de funcionamiento diferentes, está asociado con un conjunto de decisión de parámetro de estado de funcionamiento correspondiente, WSPDS, que incluye al menos un parámetro de decisión de actividad de voz, VADP; y un dispositivo de cálculo de actividad de voz (3), adaptado para calcular un valor de parámetro de detección de actividad de voz para al menos un VADP del conjunto WSPDS asociado con el estado WS actual, y para determinar el VADD comparando el valor del parámetro de detección de actividad de voz calculado del VADP con respecto a un valor umbral, en donde: dicho VADP está basado en la relación señal a ruido segmental de sub-banda, SNR, comprendiendo dicho aparato de detección de actividad de voz (1) un estado de funcionamiento normal, NWS, y un estado de funcionamiento de desplazamiento, OWS, dicho aparato de detección de actividad de voz (1) se conmuta desde el estado NWS al estado OWS, si el VADD determinado por el dispositivo de cálculo de actividad de voz (3), de dicho aparato de detección de actividad de voz (1), en el estado NWS, utilizando un algoritmo de procesamiento de detección de actividad de voz y el conjunto de decisión de parámetro de estado de funcionamiento, NWSPDS, proporcionado para dicho estado NWS, indica una ausencia de voz en la señal de audio de entrada y un contador de resonancia suave, SHC, supera un valor umbral de contador predeterminado, y dicho aparato de detección de actividad de voz (1) se conmuta desde el estado OWS al estado NWS, si el contador SHC no supera un valor umbral de contador predeterminado.

Description

5
10
15
20
25
30
35
40
45
50
55
60
65
DESCRIPCION
Aparato para realizar una detección de actividad de voz EXPERIENCIA TÉCNICA
La invención se refiere a un método y un aparato para realizar una detección de actividad de voz y en particular, a un aparato de detección de actividad de voz que tiene al menos dos estados de funcionamiento diferentes, utilizando parámetros de relación de señal a ruido segmental de sub-banda procesada no linealmente.
La detección de actividad de voz (VAD) suele ser, en general, una técnica que se proporciona para detectar una actividad de voz en una señal. La detección de actividad de voz se conoce, además, como detección de actividad vocal o simplemente detección vocal. La función de detección VAD es la detección, en canales de comunicación, de la presencia de ausencia de señales activas tales como voz o música. Por lo tanto, las redes pueden decidir comprimir un ancho de banda de transmisión en períodos en donde señales activas están ausentes, o realizar otro procesamiento en función de si existe, o no, una señal activa. En la detección VAD, un parámetro de característica o un conjunto de parámetros de características, extraídos desde la señal de audio de entrada, se pueden comparar con los valores de umbral correspondientes con el fin de determinar si la señal de audio de entrada es una señal activa, o no lo es, sobre la base del resultado de comparación. Se han propuesto numerosos parámetros para la detección VAD. En general, parámetros basados en energía son conocidos por proporcionar un buen rendimiento. Por lo tanto, en los últimos años, los parámetros basados en SNR de sub-banda, como un tipo de parámetros basados en energía, se han utilizado ampliamente para la detección VAD. Sin importar qué parámetro de característica o parámetros de característica son utilizados por un detector de actividad de voz, estos parámetros presentan una característica de habla débil en los desplazamientos de ráfagas de voz, aumentando así la posibilidad de detectar, de forma errónea, los desplazamientos de voz. Habitualmente, con el fin de asegurar una detección correcta de los desplazamientos de voz, un detector de actividad de voz convencional realiza algún procesamiento especial en los desplazamientos de voz. Una forma convencional de poner en práctica este procesamiento especial es aplicar una resonancia "fuerte" a la decisión de VAD en desplazamientos de voz en donde el primer grupo de tramas detectadas como inactivas, por el detector de actividad de voz, en desplazamientos de voz, se fuerza para su activación. Otra posibilidad es aplicar una resonancia "suave" a la decisión de detección de actividad de voz en los desplazamientos de voz. Al aplicar una resonancia suave, el umbral de decisión de detección VAD, en los desplazamientos de voz, se ajusta para favorecer la detección de voz para las primeras varias tramas desplazadas de la señal de audio. En consecuencia, en este detector de actividad de voz convencional cuando la señal de entrada es una señal de desplazamiento no vocal, la decisión de VAD se realiza de forma normal mientras que en un estado de procesamiento la decisión de VAD se realiza de forma que favorezca la detección de voz.
Aunque la aplicación de un proceso de resonancia fuerte, con el fin de asegurar una detección correcta de los desplazamientos de voz, puede ayudar a disminuir la posibilidad de que, al producirse una detección errónea en los desplazamientos de voz, el sistema de resonancia fuerte carezca de eficiencia. Numerosas tramas inactivas reales se verán obligadas a activación de forma innecesaria, disminuyendo así el rendimiento general de la VAD. Por otro lado, aunque un sistema de procesamiento de resonancia suave, tal como el utilizado, a modo de ejemplo, por el detector de actividad de voz normalizado G.718 ITU-T, mejora la eficacia de la resonancia a un nivel más alto, el rendimiento de la VAD puede mejorarse aún más.
De conformidad con lo que antecede, un objetivo de la presente invención es dar a conocer un método y un aparato para la detección VAD que proporcionen un más alto rendimiento de VAD que los aparatos y métodos de VAD convencionales.
El documento US 2008/077400 A1 da a conocer un detector de duración de la voz que incluye una unidad de detección de final-iniciación, que detecta un final de iniciación de una primera duración en donde la característica supera un valor umbral tal como un final de iniciación de una duración de voz, cuando la primera duración continúa para una primera magnitud temporal; una unidad de detección de puesta en cola-final-candidato, que detecta un final de iniciación de una segunda duración, en donde la característica es inferior que el valor umbral como un punto candidato para un final de puesta en cola de la voz, cuando la segunda duración continúa para una segunda magnitud temporal; y una unidad de determinación de puesta en cola-final-candidato, que determina el punto candidato como un final de puesta en cola de la duración de la voz, cuando la segunda duración, en donde la característica supera el valor umbral no continúa para la primera magnitud temporal, mientras transcurre una tercera magnitud temporal desde la medición en el punto candidato.
El documento US 2001/014857 A1 da a conocer un detector de actividad de voz para analizar una energía promediada a corto plazo (STAE), una energía promediada a largo plazo (LTAE) y una relación de probabilidad de pico a valor medio (PMLR), con el fin de determinar si una trama de audio actual, que se está transmitiendo, representa voz o silencio. Lo anterior se consigue mediante la determinación de si una suma de STAE y un factor es mayor que LTAE. Si no es así, la trama de audio actual representa silencio. Si es así, se realiza un segundo conjunto de determinaciones. En este caso, se realiza una determinación en cuanto a si la diferencia entre LTAE y STAE es menor que un valor umbral predeterminado. Si es así, la trama de audio actual representa voz. De no ser
5
10
15
20
25
30
35
40
45
50
55
60
65
así, la relación PMLR se determina y se compara con un valor umbral seleccionado. Si la PMLR es mayor que el valor umbral seleccionado, la trama de audio actual representa una señal de voz. De lo contrario, representa silencio.
El documento US 4357491 A da a conocer que la presencia de la señal de voz se decide sobre la base de la señal de entrada que supere uno u otro de valores umbrales: uno, un valor umbral fijo (TF) establecido a un nivel arbitrario relativamente alto por encima del ruido previsto; el otro, un valor umbral adaptativo (TL) que ralentiza ligeramente el ruido anterior. Si la señal de entrada se eleva por encima del umbral de TL de ralentización, se indica la presencia de voz. Si la señal de entrada continúa aumentando (es decir, pendiente de amplitud-tiempo positiva), la indicación de presencia continua. Si falla el nivel de la señal de entrada, el valor umbral adaptativo se ajusta (TL=BT+D, en donde, a modo de ejemplo, B=1, D=5 y T=el valor promedio de la muestra de señal actual). La resonancia se controla por la cantidad de tiempo que la señal de entrada supera el valor umbral TL. La presencia de voz se indica, además, por la señal de entrada que supera un tercer valor umbral (TH) que también es adaptativo, y se inactiva en un nivel relativamente alto por encima del ruido.
SUMARIO DE LA INVENCIÓN
De conformidad con un primer aspecto de la presente invención, se da a conocer un aparato de detección de actividad de voz (VAD) para la determinación de una decisión de VAD (VADD) para una señal de audio de entrada,
en donde el aparato de VAD comprende
un detector de estado, adaptado para determinar un estado de funcionamiento actual (WS) de entre al menos dos estados de funcionamiento diferentes del aparato de VAD, que depende de la señal de audio de entrada,
en donde cada uno de los al menos dos estados de funcionamiento (WS) diferentes, está asociado con un conjunto de decisión de parámetro de estado de funcionamiento correspondiente (WSPDS) que incluye, al menos, un parámetro de VAD (VADP); y
un dispositivo de cálculo de actividad de voz, adaptado para calcular un valor de parámetro VAD, para el parámetro VAD (VADP) del conjunto de decisión de parámetro de estado de funcionamiento (WSPDS) asociado con el estado de funcionamiento actual (WS) y para determinar la decisión VAD (VADD) mediante la comparación del valor del parámetro VAD calculado con un valor umbral,
en donde:
el parámetro VADP es una relación señal a ruido segmental, SNR,
el aparato de detección de actividad de voz comprende un estado de funcionamiento normal, NWS, y un estado de funcionamiento de desplazamiento, OWS,
el aparato de detección de actividad de voz se conmuta desde el estado NWS al estado OWS, si la decisión VADD determinada por el dispositivo de cálculo de actividad de voz, del aparato de detección de actividad de voz, en el estado NWS, utilizando un algoritmo de procesamiento de detección de actividad de voz y el conjunto de decisiones de parámetro de estado de funcionamiento normal, NWSPDS, proporcionado para el estado NWS, indica una ausencia de voz en la señal de audio de entrada y un contador de resonancia suave, SHC, supera un valor de contador de valor umbral predeterminado, y
el aparato de detección de actividad de voz se conmuta desde el OWS al NWS, si el contador SHC no supera un valor de contador de umbral predeterminado.
En consecuencia, el aparato de VAD, de conformidad con el primer aspecto de la presente invención, comprende más de un estado de funcionamiento (WS). El aparato de VAD, de conformidad con el primer aspecto de la presente invención utiliza al menos dos parámetros diferentes o dos conjuntos de parámetros diferentes, para tomar decisiones de VAD para diferentes estados de funcionamiento.
En una manera de puesta en práctica posible, los parámetros VAD pueden tener la misma forma general, pero pueden comprender diferentes factores. En una forma de realización posible, los diferentes parámetros de VAD pueden comprender parámetros basados en la relación de señal a ruido segmental (SNR) de sub-banda modificada que se procesan de forma no lineal, en una manera diferente.
En una manera de puesta en práctica posible del aparato VAD de conformidad el primer aspecto de la presente invención, para cada estado de funcionamiento (WS) del aparato de VAD, se proporciona un conjunto de decisión de parámetro de estado de funcionamiento correspondiente (WSPDS), que comprende cada uno al menos un parámetro VAD (VADP). El número y tipo de parámetros de VAD (VADPs) puede variar para los diferentes conjuntos de decisión de parámetro de estado de funcionamiento (WSPDS), de los diferentes estados de funcionamiento
5
10
15
20
25
30
35
40
45
50
55
60
65
(WS), del aparato de VAD de conformidad con el primer aspecto de la presente invención.
En una manera de puesta en práctica posible del aparato de VAD, de conformidad con el primer aspecto de la presente invención, la decisión de VAD (VADD) determinada por dicho dispositivo de cálculo de actividad de voz, se determina o calcula utilizando una relación señal-ruido segmental (SNR) de sub-banda sobre la base de parámetros VAD (VADPs).
En una manera de puesta en práctica posible del aparato VAD, de conformidad con el primer aspecto de la presente invención, la decisión VAD (VADD) para dicha señal de audio de entrada se determina mediante dicho dispositivo de cálculo de actividad de voz sobre la base de al menos un parámetro VAD (VADP ) del conjunto de decisión de parámetro de funcionamiento (WSPDS), que se proporciona para el estado de funcionamiento actual (WS) de dicho aparato de VAD, utilizando un algoritmo de procesamiento de VAD predeterminado, que se proporciona para el estado de funcionamiento actual (WS) de dicho aparato de VAD. El algoritmo de procesamiento de VAD utilizado se puede reconfigurar o configurar a través de una interfaz, con lo que se proporciona más flexibilidad para el aparato de VAD de conformidad con el primer aspecto de la presente invención.
En una manera de puesta en práctica posible del aparato de VAD, de conformidad con la presente invención, se puede adaptar el algoritmo de procesamiento de VAD utilizado para determinar la decisión de VAD (VADD).
En una manera adicional de puesta en práctica posible del aparato VAD, de conformidad con el primer aspecto de la presente invención, el aparato de VAD es conmutable entre diferentes estados de funcionamiento (WS), en función de las condiciones de transición de estado de funcionamiento configurables. Esta conmutación se puede realizar en una manera de puesta en práctica posible bajo el control del detector de estado.
En una manera de puesta en práctica posible del aparato de VAD, de conformidad con el primer aspecto de la presente invención, el aparato de VAD comprende un estado de funcionamiento normal (NWS) y un estado de funcionamiento de desplazamiento (OWS) y se puede conmutar entre estos dos estados de funcionamiento diferentes, en función de condiciones de transición de estado de funcionamiento configurables.
En una manera de puesta en práctica posible del aparato de VAD, de conformidad con el primer aspecto de la presente invención, el aparato de VAD detecta un cambio desde la actividad de la voz presente a una actividad de la voz que está ausente y/o se conmuta desde un estado de funcionamiento normal (NWS) a un estado de funcionamiento de desplazamiento (OWS) en dicha señal de audio de entrada, si en el estado de funcionamiento normal (NWS) de dicho aparato de VAD, la decisión de VAD (VADD) se determina sobre la base del al menos un parámetro VAD (VADP) del conjunto de decisión de parámetro de estado de funcionamiento normal (NWSPDS), de dicho estado de funcionamiento normal (NWS), indica que está presente una actividad de voz para una trama anterior y una actividad de voz está ausente en una trama actual de dicha señal de audio de entrada. En una manera de puesta en práctica posible del aparato de VAD, de conformidad con el primer aspecto de la presente invención, la decisión VADD que el aparato VAD detecta en su estado de funcionamiento normal (NWS) forma una decisión VADD intermedia (VADDint), que puede formar la VADD o la salida de VADD final por el aparato VAD, en caso de que esta VAD intermedia indique que la actividad de voz está presente en la trama actual. Tal como se describió anteriormente, en caso de que esta VADD intermedia indique que no hay actividad de voz en la trama actual, esta VADD intermedia se puede utilizar para detectar una transición, o cambio, desde un estado de funcionamiento normal a un estado de funcionamiento de desplazamiento, y para conmutar al estado de funcionamiento de desplazamiento en donde el detector de actividad de voz calcula, para la trama actual, un parámetro de detección de actividad de voz del conjunto de decisión de parámetro de estado de funcionamiento de desplazamiento, para determinar la VADD o salida de VADD final, por el aparato de VAD.
En una manera de puesta en práctica posible del aparato de VAD, de conformidad con el primer aspecto de la presente invención, si dicho aparato de VAD detecta, en su estado de funcionamiento normal (NWS), que está presente una actividad de voz en una trama actual de dicha señal de audio de entrada, esta decisión VAD intermedia (VADDint) se proporciona, a la salida, como una decisión de VAD final (VADDfin).
En una manera posible de puesta en práctica adicional del aparato de VAD, de conformidad con el primer aspecto de la presente invención, en donde si dicho aparato de VAD detecta, en su estado de funcionamiento normal (NWS), que existe una actividad de voz presente en la trama anterior y que una actividad de voz está ausente en una trama actual de dicha señal de entrada, se cambia desde su estado de funcionamiento normal (NWS) a un estado de funcionamiento de desplazamiento (OWS), en el que la decisión de VAD (VADD) se determina sobre la base del al menos un parámetro VAD del conjunto de decisión de parámetro de estado de funcionamiento de desplazamiento (OWSPDS).
En una manera adicional de puesta en práctica posible del aparato de VAD, de conformidad con el primer aspecto de la presente invención, la decisión VAD (VADD), determinada en el estado de funcionamiento de desplazamiento (OWS), de dicho aparato de VAD forma la decisión VADD final o la decisión de VAD (VADD) que se proporciona, a la salida, por el aparato de VAD si la decisión VAD (VADD), determinada sobre la base del al menos un parámetro VAD (VADP), del conjunto de decisión de parámetro de estado de funcionamiento de desplazamiento (OWSPDS)
5
10
15
20
25
30
35
40
45
50
55
60
65
indica que existe una actividad de voz presente en la trama actual la señal de audio de entrada.
En otra posible manera de puesta en práctica adicional del aparato de VAD, de conformidad con el primer aspecto de la presente invención, la decisión de VAD (VADD), que se determina en el estado de funcionamiento de desplazamiento (OWS) de dicho aparato de VAD, forma una decisión VAD intermedia (VADint) si la decisión VAD (VADD), determinada sobre la base del al menos un parámetro VAD (VADP), del conjunto de decisión de parámetro de estado de funcionamiento de desplazamiento (OWSPDS), indica que una actividad de voz está ausente en la trama actual de la señal de audio de entrada.
En una manera de puesta en práctica posible del aparato de VAD, de conformidad con el primer aspecto de la presente invención, la decisión VAD intermedia (VADDint) se somete a un proceso de resonancia fuerte para proporcionar una decisión VAD final (VADDfin).
En una manera de puesta en práctica posible del aparato de VAD, de conformidad con el primer aspecto de la
presente invención, la señal de audio de entrada consiste en una secuencia de tramas de señal de audio y el
contador de resonancia suave (SHC) se disminuye en el estado de funcionamiento de desplazamiento (OWS), de dicho aparato de VAD, para cada trama de señal de audio recibida hasta que se alcanza el valor de contador de umbral predeterminado.
En una manera de puesta en práctica posible del aparato de VAD, de conformidad con el primer aspecto de la presente invención, si se detecta un número predeterminado de tramas de señal de audio activa consecutivas de la señal de audio de entrada, el contador de resonancia suave (SHC) se restablece a un valor de contador que depende de una relación de señal/ruido a largo plazo (lSNR) de la señal de audio de entrada.
En una manera de puesta en práctica posible del aparato de VAD, de conformidad con el primer aspecto de la
presente invención, se detecta una trama de señal de audio activa si una métrica de voz calculada, de la señal de
audio, supera un valor umbral de métrica de voz predeterminado y una estabilidad de tono, de dicha trama de señal de audio, está por debajo de un valor umbral de estabilidad predeterminado.
En una manera de puesta en práctica del aparato de VAD, de conformidad con el primer aspecto de la presente invención, los parámetros VAD de un conjunto de decisión de parámetro de estado de funcionamiento (WSPDS), de un estado de funcionamiento de dicho aparato de detección de actividad, comprenden parámetros de decisión basados en energía y/o parámetros basados en envolvente espectral y/o parámetros de decisión basados en entropía y/o parámetros de decisión basados en estadística.
En una manera adicional de puesta en práctica posible del aparato de VAD, de conformidad con el primer aspecto de la presente invención, una decisión VAD intermedia (VADDint), que se determina por dicho dispositivo de cálculo de actividad de voz, de dicho aparato de VAD, se aplica a una unidad de procesamiento de resonancia fuerte que realiza una resonancia fuerte de dicha decisión de VAD intermedia aplicada (VADDint).
Según un segundo aspecto de la presente invención, se da a conocer un dispositivo de procesamiento de señal de audio, que comprende un aparato de VAD, de conformidad con el primer aspecto de la presente invención, y que comprende una unidad de procesamiento de señal de audio controlada por una decisión VAD (VADD) generada por dicho aparato de VAD.
BREVE DESCRIPCIÓN DE LOS DIBUJOS
A continuación, puestas en práctica posibles de diferentes aspectos de la presente invención, se describen con referencia a las figuras adjuntas.
La Figura 1 ilustra un diagrama de bloques de un aparato de VAD de conformidad con una manera de puesta en práctica posible del aparato de VAD, de conformidad con el primer aspecto de la presente invención.
La Figura 2 ilustra un diagrama de bloques de una manera de puesta en práctica posible de un aparato de procesamiento de señal de audio, de conformidad con un segundo aspecto de la presente invención.
DESCRIPCIÓN DETALLADA DE LAS FORMAS DE REALIZACIÓN
La Figura 1 ilustra un diagrama de bloques de una manera de puesta en práctica posible de un aparato de VAD 1, de conformidad con un primer aspecto de la presente invención. Tal como se puede ver en la Figura 1, el aparato de VAD 1, de conformidad con el primer aspecto de la presente invención, comprende en la puesta en práctica a modo de ejemplo, un detector de estado 2 y un dispositivo de cálculo de actividad de voz 3. El aparato de VAD 1 se proporciona para determinar una decisión de VAD, VADD, para una señal de audio de entrada recibida aplicada a una entrada 4 del aparato de VAD 1. La decisión de VAD determinada VADD se envía a una salida 5 del aparato de VAD
1. El detector de estado 2 está adaptado para determinar un estado de funcionamiento actual WS, del aparato de
5
10
15
20
25
30
35
40
45
50
55
60
65
VAD 1, que depende de la señal de audio de entrada aplicada a la entrada 4. El aparato de VAD 1, de conformidad con el primer aspecto de la presente invención, comprende al menos dos estados de funcionamiento diferentes WS. En una manera de puesta en práctica posible, el aparato de VAD 1 comprende, a modo de ejemplo, dos estados de funcionamiento WS. Cada uno de los al menos dos estados de funcionamiento WS diferentes, está asociado con un correspondiente conjunto de decisión de parámetro de estado de funcionamiento WSPDS, que incluye al menos un parámetro de VAD, VADP.
El aparato de VAD 1 comprende, en la puesta en práctica ilustrada de la Figura 1, además, un dispositivo de cálculo de actividad de voz 3 que está adaptado para calcular un valor de parámetro VAD para el al menos un parámetro VAD, VADP, del conjunto de decisión de parámetro de estado de funcionamiento WSPDS, asociado con el estado de funcionamiento actual WS del aparato de VAD 1. Este cálculo se realiza con el fin de determinar una decisión VAD, VADD, mediante la comparación del valor del parámetro VAD calculado del al menos un parámetro VAD, con un valor umbral correspondiente.
El detector de estado 2, así como el dispositivo de cálculo de actividad de voz 3, del aparato de VAD 1, pueden ponerse en práctica mediante hardware o software. El aparato de VAD 1, según el primer aspecto de la presente invención, tiene más de un estado de funcionamiento. El aparato de VAD 1 utiliza al menos dos parámetros VAD diferentes, o dos conjuntos diferentes de parámetros VAD, para generar la decisión VAD, VADD, para diferentes estados de funcionamiento WS.
La decisión de VAD, VADD, determinada para dicha señal de audio de entrada, por dicho dispositivo de cálculo de actividad de voz 3, se determina en una manera de puesta en práctica posible, sobre la base del al menos un parámetro de VAD, VADP, del conjunto de decisión de parámetro de estado de funcionamiento WSPDS, que se proporciona para el estado de funcionamiento actual WS del aparato de VAD 1, utilizando un algoritmo de procesamiento de VAD predeterminado, que se proporciona para el estado de funcionamiento actual WS del aparato VAD 1. El detector de estado 2 detecta el estado de funcionamiento actual WS del aparato de VAD 1. Se realiza la determinación del estado de funcionamiento actual WS por el detector de estado 2, que depende de la señal de audio de entrada recibida. En una manera de puesta en práctica posible, el aparato de VAD 1 es conmutable entre diferentes estados de funcionamiento WS de conformidad con condiciones de transición de estado de funcionamiento configurables. En una manera de puesta en práctica posible, el aparato de VAD 1 comprende dos estados de funcionamiento, es decir, un estado de funcionamiento normal NWS y un estado de funcionamiento de desplazamiento OWS.
En una manera de puesta en práctica posible del aparato de VAD 1, de conformidad con el primer aspecto de la
presente invención, el aparato de VAD 1 detecta un cambio desde una actividad de voz presente a una actividad de
voz ausente en la señal de audio de entrada si se cumple una condición correspondiente. Si, en el estado de funcionamiento normal NWS de dicho aparato de VAD 1, la decisión de VAD, VADD, determinada por el dispositivo de cálculo de actividad de voz 3 de dicho aparato de VAD 1, sobre la base de al menos un parámetro VAD, VADP, del conjunto de decisión de parámetro de estado de funcionamiento normal NWSPDS, de dicho estado de funcionamiento normal NWS, indica que está presente una actividad de voz para una trama previa y falta actividad de voz en una trama actual de dicha señal de audio de entrada, el aparato de VAD 1 detecta un cambio desde la actividad de voz presente en la señal de audio de entrada, a una actividad de voz ausente en la señal de audio de entrada.
En una manera de puesta en práctica posible del aparato de VAD 1, de conformidad con el primer aspecto, si el
aparato de VAD 1 detecta, en su estado de funcionamiento normal NWS, que una actividad de voz está presente en
una trama actual de la señal de audio de entrada, esta decisión VAD intermedia VADDint se puede proporcionar, a la salida, como una decisión de VAD final VADDfin en la salida 5 del aparato de VAD 1 para su posterior procesamiento.
En una manera adicional de puesta en práctica posible del aparato de VAD 1, de conformidad con el primer aspecto de la presente invención, si dicho aparato de vAd 1 detecta, en su estado de funcionamiento normal NWS, que una actividad de voz está presente en la trama previa de la señal de audio de entrada, y que una actividad de voz está ausente en una trama actual de la señal de audio de entrada, se conmuta automáticamente desde su estado de funcionamiento normal NWS, a un estado de funcionamiento de desplazamiento OWS. En el estado de funcionamiento de desplazamiento OWS, la decisión de VAD, VADD, se determina por el dispositivo de cálculo de actividad de voz 3 sobre la base del al menos un parámetro de VAD, VADP, del conjunto de decisión de parámetro de estado de funcionamiento de desplazamiento OWSPDS. Los parámetros de VAD, VADPs, de los diferentes conjuntos de decisión de parámetro de estado de funcionamiento WSPDS se pueden memorizar, en una manera de puesta en práctica posible, en una memoria de configuración del aparato de vAd 1.
En una manera de puesta en práctica posible del aparato de VAD 1, de conformidad con el primer aspecto de la presente invención, la decisión VAD, VADD, que se determina por el dispositivo de cálculo de actividad de voz 3, en el estado de funcionamiento de desplazamiento OWS, forma una decisión intermedia VAD, VADD,int si la decisión VAD, VADD, determinada sobre la base del al menos un parámetro de VAD, VADP, del conjunto de decisión de parámetro de estado de desplazamiento OWSPDS, indica que una actividad de voz está ausente en la trama actual
5
10
15
20
25
30
35
40
45
50
55
60
65
de la señal de audio de entrada. En una manera de puesta en práctica posible, esta decisión de VAD intermedia generada se somete a un proceso de resonancia fuerte antes de que se emita como una decisión de VAD final VADDfin en la salida 5 del aparato de VAD 1.
En una manera de puesta en práctica posible del aparato de VAD 1, de conformidad con el primer aspecto de la presente invención, el aparato de VAD 1 se conmuta, automáticamente, desde el estado de funcionamiento normal NWS al estado de funcionamiento de desplazamiento OWS si la decisión de VAD, VADD, determinada por el dispositivo de cálculo de actividad de voz 3 del aparato de VAD 1, en el estado de funcionamiento normal NWS utilizando un algoritmo de procesamiento VAD y el conjunto de decisión de parámetro de estado de funcionamiento WSPDS, que se proporciona para este estado de funcionamiento normal NWS, indica una ausencia de voz en la señal de audio de entrada y, si un contador de resonancia suave SHC supera, al mismo tiempo, un valor umbral de contador predeterminado.
En una manera adicional de puesta en práctica posible del aparato de VAD 1, de conformidad con el primer aspecto de la presente invención, el aparato de VAD 1 se conmuta desde el estado de funcionamiento de desplazamiento OWS al estado de funcionamiento normal NWS si un contador de resonancia suave SHC no supera, al mismo tiempo, un valor umbral de contador predeterminado.
La señal de audio de entrada aplicada a la entrada 4 del aparato de VAD 1 consiste en una manera de puesta en práctica posible de una secuencia de tramas de señal de audio, en donde el contador de resonancia suave SHC, utilizado por el aparato de VAD 1, es objeto de disminución en el estado de funcionamiento de desplazamiento OWS de dicho aparato de VAD 1, para cada trama de señal de audio recibida, hasta que se alcanza el valor umbral de contador predeterminado. En una manera de puesta en práctica posible, si se detecta un número predeterminado de señales de audio activas consecutivas de la señal de audio de entrada, el contador de resbalamiento suave SHC se restablece a un valor de contador dependiendo de una relación señal a ruido a largo plazo (lSNR) de la señal de audio de entrada recibida. Esta relación señal a ruido a largo plazo (lSNR) se puede calcular mediante una unidad de estimación de relación señal a ruido a largo plazo del aparato de VAD 1. En una manera de puesta en práctica posible del aparato de VAD 1, de conformidad con el primer aspecto de la presente invención, se detecta una trama de señal de audio activa si una métrica de voz calculada de la trama de señal de audio supera un valor umbral de métrica de voz predeterminado y una estabilidad de tono de la trama de señal de audio está por debajo de un valor umbral de estabilidad predeterminado.
En una manera de puesta en práctica posible del aparato de VAD 1, según el primer aspecto de la presente invención, los parámetros VAD, VADP, de un conjunto de decisión de parámetro de estado de funcionamiento WSPDS, de un estado de funcionamiento WS del aparato de VAD 1, pueden comprender parámetros de decisión basados en energía y/o parámetros de decisión basados en envolvente espectral y/o parámetros de decisión basados en entropía y/o parámetros de decisión basados en estadística. En una manera de puesta en práctica específica del aparato de VAD 1, de conformidad con el primer aspecto de la presente invención, la decisión VAD, VADD, determinada por el dispositivo de cálculo de actividad de voz 3, utiliza parámetros de VAD, VADPs, basados en la relación de señal a ruido segmental (SNR) de sub-banda.
En una manera adicional de puesta en práctica posible del aparato de VAD 1, se puede aplicar una decisión de VAD intermedia, VADD, determinada por el dispositivo de cálculo de actividad de voz 3 del aparato de VAD 1, a otra unidad de procesamiento de resonancia fuerte, que realiza una resonancia fuerte de la decisión VAD intermedia aplicada, VADD.
El aparato de VAD 1, de conformidad con el primer aspecto de la presente invención, puede comprender en una manera de puesta en práctica posible, dos estados de funcionamiento, en los que el aparato de VAD 1 opera en un estado de funcionamiento normal NWS o en un estado de funcionamiento de desplazamiento OWS. Un desplazamiento de voz es un período corto al final de la ráfaga de voz dentro de la señal de audio recibida. De este modo, un desplazamiento de voz contiene energía vocal relativamente baja. Una ráfaga de voz es un período vocal de la señal de audio de entrada entre dos pausas de voz adyacentes. La longitud de un desplazamiento de voz se suele extender sobre varias tramas de señal continuas y puede ser dependiente de la muestra. El aparato de VAD 1, de conformidad con el primer aspecto de la presente invención, identifica de forma continua, los inicios de los desplazamientos de voz en la señal de audio de entrada y cambia del estado de funcionamiento normal NWS al estado de funcionamiento de desplazamiento OWS cuando se detecta un desplazamiento de voz, y cambia, de nuevo, al estado de funcionamiento normal NWS cuando finaliza el estado de desplazamiento de voz. El aparato de VAD 1 selecciona un parámetro de VAD, o un conjunto de parámetros para el estado de funcionamiento normal NWS y otro parámetro de VAD, o conjunto de parámetros, para el estado de funcionamiento de desplazamiento OWS. Por consiguiente, con un aparato de VAD 1, de conformidad con el primer aspecto de la presente invención, se realizan diferentes operaciones VAD para diferentes partes de la señal de audio recibida y se realizan operaciones específicas de VAD para cada estado de funcionamiento WS. El aparato de VAD 1, de conformidad con el primer aspecto de la presente invención, realiza una ráfaga de voz y detección de desplazamiento, en la señal de entrada de audio recibida, en donde la detección de desplazamiento se puede realizar de diferentes maneras según diferentes puestas en práctica del aparato de VAD 1.
5
10
15
20
25
30
35
40
45
En una manera de puesta en práctica posible del aparato de VAD 1, la señal de audio de entrada se segmenta en tramas de señal y se introduce en el aparato de VAD 1 en la entrada 4. La señal de audio de entrada puede comprender, a modo de ejemplo, tramas de señal de 20 ms de longitud. En una manera de puesta en práctica posible específica, para cada trama de señal de entrada se puede realizar un análisis de tono de bucle abierto dos veces, cada una para una sub-trama que tenga 10 ms. Los retardos de tono buscados para las dos sub-tramas de cada trama de entrada se indican como T(0), T(1), respectivamente, y las correlaciones correspondientes se indican, respectivamente, como sonorización(0) y sonorización(1). La métrica de sonorización(V) de la trama de señal de audio V(0) se calcula mediante:
V(0) = (sonorización(-l) + sonorización(O) + sonorización(1))/3 + corr_shift
en donde la sonorización(-1) representa la correlación correspondiente como un retardo de tono de la segunda subtrama, de la trama de señal de entrada anterior, y en donde que corr_shift es un valor de compensación que depende del nivel de ruido de fondo.
La estabilidad de tono(S) de dicha trama de señal de audio se puede calcular mediante:
Sr(0)=[abs(T(-1)-T(-2)) + abs(T(0)-T(-1)) + abs(T(1)-T(0)]/3
en donde T(-1), T(-2) son el primer y segundo retardos de tono de la trama de señal de entrada anterior y abs() significa el valor absoluto. En una manera de puesta en práctica posible específica, la trama de entrada se considera como una trama de voz o trama activa cuando se cumple la siguiente condición:
V(0)> 0.65 &&St(0)<14
En una manera de puesta en práctica posible, si se detectan tres tramas activas consecutivas, se detecta una ráfaga sonora de la señal de audio de entrada, y un contador de resonancia suave SHC se restablece a un valor distinto de cero, determinado en función de la señal SNR a largo plazo, lSNR. Cuando el aparato de VAD 1, de conformidad con el primer aspecto de la presente invención, opera en un estado de funcionamiento normal NWS y la decisión de VAD intermedia determinada VADD cae después de que las tramas anteriores hayan sido clasificadas o determinadas como activa a inactiva para un trama de señal actual, y si el contador de resonancia suave SHC es mayor que 0, se supone que la señal de audio de entrada entra en un desplazamiento de voz y el aparato de VAD 1 pasa desde el estado de funcionamiento normal NWS al estado de funcionamiento de desplazamiento OWS. La longitud del contador de resonancia suave SHC define la longitud de la VAD del estado de funcionamiento de desplazamiento OWS. En una manera de puesta en práctica posible, el contador de resonancia suave SHC se reduce o disminuye en uno en cada trama de señal dentro de la detección VAD del estado de funcionamiento de desplazamiento de voz OWS. El estado de funcionamiento de desplazamiento de voz OWS, del aparato de VAD 1, finaliza cuando el contador de resonancia suave SHC disminuye a un valor umbral predeterminado tal como 0, y el aparato de VAD 1 cambia de nuevo a su estado de funcionamiento normal NWS al mismo tiempo.
En una manera de puesta en práctica posible específica, se utilizan tres parámetros por el aparato de VAD 1 para realizar una decisión de VAD intermedia VADDint. Un parámetro es la métrica de sonorización(V-1) de la trama anterior y los otros dos parámetros vienen dados por:
imagen1
¿(w(/) + a)4
i
¿(.S7j/-(;) + a)IH
i
¿(w(/) + a)’-
i
Yj(snr(i) + a)9
snr(i) + a > 1 Jsnr > 18 snr(i) + a > 1,8 < Isnr < 18 snr(i) + a > 1, Isnr < 8 de otro modo
5
10
15
20
25
30
35
40
45
mssnro„
^(.ST7/-(/) + a+P)4
^(.S'«r(/)+a +P)10
i
£(í/ir(/)+a+P),s
i
£(.s«r(z')+a +P)9
snr(i)+a > 1 ,¡snr > 18 snr(í) + a > 1,8 < lsnr < 18 snr(i)+a > 1 ,/snr < 8 de otro modo
en donde snr(i) es la relación SNR de registro modificada de la i-ésima sub-banda espectral de la trama de señal de entrada,
N es el número de sub-bandas por trama, lsnr es la estimación de SNR a largo plazo y a, p son dos coeficientes configurables.
El primer coeficiente a puede determinarse en una manera de puesta en práctica posible mediante:
a = f(i,lsnr) = a(i) ■ lsnr + b(i)
en donde a(i) y b(i) son dos números reales o flotantes determinados por el índice de sub-banda i. El segundo coeficiente p puede determinarse mediante la métrica de sonorización V(-1), en la que si V(-1)> 0.65 p = 0.2 y si V (-1) < 0.65 p = 0.1. En una manera de puesta en práctica posible, el cálculo de la relación SNR de cada sub-banda snr(i) viene dada por:
f
snr(i) -- logKI ■
\
E(i)
EÁi),
en donde E(i) es la energía de la i-ésima sub-banda de la trama de entrada,
En(i) es la energía de la i-ésima sub-banda de la estimación de ruido de fondo.
En una manera de puesta en práctica posible, la energía de cada sub-banda de la estimación de ruido de fondo se puede estimar moviendo el promedio de las energías de cada sub-banda entre las tramas de ruido de fondo detectadas de la siguiente manera:
imagen2
en donde E(i) es la energía de la i-ésima sub-banda de la trama detectada como ruido de fondo,
A es un factor de olvido usualmente en un rango entre 0.9 - 0.99. El espectro de potencia relacionado en el cálculo anterior se puede obtener en una manera de puesta en práctica posible mediante una Transformación de Fourier Rápida FFT.
En el estado de funcionamiento normal NWS, el aparato de VAD 1, de conformidad con el primer aspecto de la presente invención, el aparato utiliza la relación SNR segmental modificada mssnrnor para realizar una decisión VAD intermedia VADDint. Esta decisión VAD intermedia VADDint, se puede realizar mediante la comparación de la relación SNR segmental modificada mssnrnor calculada con un valor umbral thr que puede determinarse por:
imagen3
La decisión de VAD intermedia VADDint está activa si la relación SNR modificada es msnrnor>thr, de lo contrario, la decisión intermedia de VAD, VADD,int está inactiva.
En el estado de desplazamiento de voz, el aparato de VAD 1 utiliza, en una manera de puesta en práctica posible,
5
10
15
20
25
30
35
40
45
50
tanto la relación SNR modificada msnroff como la métrica de voz V(-1) para tomar una decisión de VAD intermedia VADDint. La decisión de VAD intermedia VADDint se establece como activa si la relación SNR segmental modificada mssnroff>thr o la métrica de voz V(-1) > que un valor umbral configurable de, p.ej., 0.7, de no ser así, la decisión de VAD intermedia VADDint se establece como inactiva.
En una manera de puesta en práctica posible, una resonancia fuerte se puede aplicar, de forma opcional, a la decisión de VAD intermedia VADDint. En esta puesta en práctica específica, si un contador de resonancia fuerte HHC es mayor que un valor umbral predeterminado, tal como 0, y si la decisión de VAD intermedia VADDint está inactiva, la decisión final de VAD, VADDfin se fuerza a activarse y el contador de resonancia fuerte HHC se reduce en 1. En una manera de puesta en práctica posible, el contador de resonancia fuerte HHC se restablece a su valor máximo de conformidad con la misma regla aplicada al restablecimiento del contador de resonancia suave SHC.
En una manera de puesta en práctica posible adicional del aparato de VAD 1, de conformidad con el primer aspecto de la presente invención, el aparato de VAD 1 selecciona, en esta puesta en práctica específica, solamente dos parámetros VAD para su decisión VAD intermedia, es decir, mssnrnory mssnroff.
imagen4
en donde la relación SNR segmental modificada mssnrnor se utiliza en el estado de funcionamiento normal NWS y la SNR segmental modificada mssnroff se utiliza en el estado de funcionamiento de desplazamiento OWS. El coeficiente p se determina, en esta manera de puesta en práctica, no solamente por la métrica V(-1) sino también por el índice de sub-banda i, en donde para el índice de sub-banda i, mayor que un valor entero de m, si V(-1)> 0.65, el coeficiente p se establece en 0.2; de lo contrario, el coeficiente p se establece en 0.1. Además, para el índice de sub-banda i, que no sea mayor que m, si V(-1)> 0.65, el segundo coeficiente p se establece en p = 0.2 / + 1.5; de no ser así, el segundo coeficiente p se establece en 0.1 ■ 1,5. En esta forma de realización específica, se define otro conjunto de umbrales para que el estado de funcionamiento de desplazamiento OWS sea diferente del conjunto de umbrales para el estado de funcionamiento normal NWS.
La invención da a conocer, además, como un segundo aspecto, un aparato de procesamiento de señal de audio tal como se ilustra en la Figura 2 que comprende un aparato de VAD 1, que proporciona una decisión de VAD final, VADD, a una unidad de procesamiento de señal de audio 7 del aparato de procesamiento de señal de audio 6. En consecuencia, la unidad de procesamiento de señal de audio 7 se controla por una decisión de VAD, VADD, que se genera por el aparato de vAd 1. La unidad de procesamiento de señal de audio 7 puede realizar diferentes clases de procesamientos de señal de audio sobre la señal de audio aplicada, tal como una codificación de voz, dependiendo de la decisión de VAD.
De conformidad con un tercer aspecto, la presente invención da a conocer un método para realizar una detección VAD, en donde la decisión de VAD, VADD, se calcula mediante un aparato de VAD para una señal de audio de entrada utilizando al menos un parámetro de VAD, VADP, de un conjunto de decisión de parámetro de estado de funcionamiento WSPDS, de un estado de funcionamiento actual WS, que se detecta por un detector de estado de dicho aparato de VAD. De conformidad con una manera de puesta en práctica posible del método, se recibe una trama de entrada de la señal de audio de entrada aplicada. A continuación, se puede identificar un tipo de señal de la señal de entrada a partir de un conjunto de tipos de señal predefinidos. En una etapa posterior, se selecciona o elige un estado de funcionamiento WS del aparato de VAD entre varios estados de funcionamiento posibles WS de conformidad con el tipo de señal de entrada identificado. En una etapa adicional, los parámetros de VAD se seleccionan de conformidad con el estado de funcionamiento WS seleccionado del aparato de VAD entre un conjunto más grande de parámetros de decisión de VAD predefinidos. Por último, se realiza una decisión VAD, VADD, en función de los parámetros VAD elegidos o seleccionados.
En una manera de puesta en práctica posible del método de conformidad con un tercer aspecto de la presente invención, el conjunto de tipos de señal predefinidos puede estar constituido de un tipo de desplazamiento de voz y un tipo sin desplazamiento de voz. Varios estados de funcionamiento posibles WS pueden incluir un estado para 5 desplazamiento de voz definido como un período corto de la señal de audio aplicada al final de las ráfagas de voz. El desplazamiento de voz puede identificarse, en condiciones normales, mediante unas pocas tramas inmediatamente después de que la decisión intermedia del aparato de VAD que opera en el estado de funcionamiento sin desplazamiento de voz pase a inactivo, desde activo, en una ráfaga de voz. Se puede detectar una ráfaga de voz p.ej., cuando se detecta una señal de voz activa de más de 60 ms de longitud. En una manera de puesta en práctica 10 posible del método de conformidad con el tercer aspecto de la presente invención, el conjunto de parámetros de VAD predefinidos puede incluir parámetros basados en SNR segmental de sub-banda con diferentes formas. En una manera de puesta en práctica posible, los parámetros basados en la SNR segmental de sub-banda, con diferentes formas, son parámetros de SNR segmental de sub-banda, que se procesan por diferentes funciones no lineales.

Claims (8)

  1. 5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    55
    60
    65
    REIVINDICACIONES
    1. Un aparato de detección de actividad de voz (1) para determinar una decisión de detección de actividad de voz, VADD, para una señal de audio de entrada, en donde el aparato de detección de actividad de voz (1) comprende:
    un detector de estado (2), adaptado para determinar un estado de funcionamiento actual, WS, de entre al menos dos estados de funcionamiento diferentes del aparato de detección de actividad de voz (1), dependiente de la señal de audio de entrada, en donde cada uno de los al menos dos estados de funcionamiento diferentes, está asociado con un conjunto de decisión de parámetro de estado de funcionamiento correspondiente, WSPDS, que incluye al menos un parámetro de decisión de actividad de voz, VADP; y
    un dispositivo de cálculo de actividad de voz (3), adaptado para calcular un valor de parámetro de detección de actividad de voz para al menos un VADP del conjunto WSPDS asociado con el estado WS actual, y para determinar el VADD comparando el valor del parámetro de detección de actividad de voz calculado del VADP con respecto a un valor umbral,
    en donde:
    dicho VADP está basado en la relación señal a ruido segmental de sub-banda, SNR,
    comprendiendo dicho aparato de detección de actividad de voz (1) un estado de funcionamiento normal, NWS, y un estado de funcionamiento de desplazamiento, OWS,
    dicho aparato de detección de actividad de voz (1) se conmuta desde el estado NWS al estado OWS, si el VADD determinado por el dispositivo de cálculo de actividad de voz (3), de dicho aparato de detección de actividad de voz (1), en el estado NWS, utilizando un algoritmo de procesamiento de detección de actividad de voz y el conjunto de decisión de parámetro de estado de funcionamiento, NWSPDS, proporcionado para dicho estado NWS, indica una ausencia de voz en la señal de audio de entrada y un contador de resonancia suave, SHC, supera un valor umbral de contador predeterminado, y
    dicho aparato de detección de actividad de voz (1) se conmuta desde el estado OWS al estado NWS, si el contador SHC no supera un valor umbral de contador predeterminado.
  2. 2. El aparato de detección de actividad de voz según la reivindicación 1,
    en donde dicho VADD, para dicha señal de audio de entrada, se determina sobre la base del al menos un VADP del WSPDS que se proporciona para el estado WS actual de dicho aparato de detección de actividad de voz (1) utilizando un algoritmo de procesamiento de detección de actividad de voz predeterminado proporcionado para el estado WS actual de dicho aparato de detección de actividad de voz (1).
  3. 3. El aparato de detección de actividad de voz según la reivindicación 1 o 2,
    en donde dicho aparato de detección de actividad de voz (1) es conmutable entre diferentes estados de funcionamiento de conformidad con condiciones de transición de estado de funcionamiento configurables.
  4. 4. El aparato de detección de actividad de voz según una de las reivindicaciones precedentes 1 a 3, en donde dicha señal de audio de entrada consiste en una secuencia de tramas de señal de audio y dicho contador SHC se disminuye en el estado OWS de dicho aparato de detección de actividad de voz (1), para cada trama de señal de audio recibida hasta que se alcanza el valor umbral de contador predeterminado.
  5. 5. El aparato de detección de actividad de voz según una de las reivindicaciones precedentes 1 a 4, en donde si se detecta un número predeterminado de tramas de señal de audio activa consecutiva, de la señal de audio de entrada, dicho SHC se restablece a un valor de contador en función de una relación de señal a ruido a largo plazo, ISNR, de la señal de audio de entrada.
  6. 6. El aparato de detección de actividad de voz según una de las reivindicaciones precedentes 1 a 5, en donde se detecta una trama de señal de audio activa si una métrica de voz calculada V, de la trama de señal de audio, supera un valor umbral de métrica de voz predeterminado y una estabilidad de tono S, de dicha trama de señal de audio es inferior a un valor umbral de estabilidad predeterminado.
  7. 7. El aparato de detección de actividad de voz según una de las reivindicaciones precedentes 1 a 6, en donde una decisión de detección de actividad de voz intermedia, VADDint, determinada por dicho dispositivo de cálculo de actividad de voz (3), se aplica a una unidad de procesamiento de resonancia fuerte que realiza una resonancia fuerte de dicha VADDint aplicada.
  8. 8. Un dispositivo de procesamiento de señal de audio (6), que comprende un aparato de detección de actividad de
    voz (1), según una de las reivindicaciones precedentes 1 a 7, y una unidad de procesamiento de señal de audio (7), controlada por una decisión de detección de actividad de voz, VADD, generada por dicho aparato de detección de actividad de voz (1).
ES10861113.8T 2010-12-24 2010-12-24 Aparato para realizar una detección de actividad de voz Active ES2665944T3 (es)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2010/080222 WO2012083554A1 (en) 2010-12-24 2010-12-24 A method and an apparatus for performing a voice activity detection

Publications (1)

Publication Number Publication Date
ES2665944T3 true ES2665944T3 (es) 2018-04-30

Family

ID=46313052

Family Applications (2)

Application Number Title Priority Date Filing Date
ES17174901T Active ES2740173T3 (es) 2010-12-24 2010-12-24 Un método y un aparato para realizar una detección de actividad de voz
ES10861113.8T Active ES2665944T3 (es) 2010-12-24 2010-12-24 Aparato para realizar una detección de actividad de voz

Family Applications Before (1)

Application Number Title Priority Date Filing Date
ES17174901T Active ES2740173T3 (es) 2010-12-24 2010-12-24 Un método y un aparato para realizar una detección de actividad de voz

Country Status (5)

Country Link
US (2) US8818811B2 (es)
EP (2) EP3252771B1 (es)
CN (1) CN102971789B (es)
ES (2) ES2740173T3 (es)
WO (1) WO2012083554A1 (es)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2896126B1 (en) * 2012-09-17 2016-06-29 Dolby Laboratories Licensing Corporation Long term monitoring of transmission and voice activity patterns for regulating gain control
CN109119096B (zh) * 2012-12-25 2021-01-22 中兴通讯股份有限公司 一种vad判决中当前激活音保持帧数的修正方法及装置
CN106409310B (zh) 2013-08-06 2019-11-19 华为技术有限公司 一种音频信号分类方法和装置
CN104424956B9 (zh) * 2013-08-30 2022-11-25 中兴通讯股份有限公司 激活音检测方法和装置
CN103489454B (zh) * 2013-09-22 2016-01-20 浙江大学 基于波形形态特征聚类的语音端点检测方法
CN104916292B (zh) 2014-03-12 2017-05-24 华为技术有限公司 检测音频信号的方法和装置
US10134403B2 (en) * 2014-05-16 2018-11-20 Qualcomm Incorporated Crossfading between higher order ambisonic signals
CN105336344B (zh) * 2014-07-10 2019-08-20 华为技术有限公司 杂音检测方法和装置
CN105261375B (zh) 2014-07-18 2018-08-31 中兴通讯股份有限公司 激活音检测的方法及装置
WO2017119901A1 (en) * 2016-01-08 2017-07-13 Nuance Communications, Inc. System and method for speech detection adaptation
US11120795B2 (en) * 2018-08-24 2021-09-14 Dsp Group Ltd. Noise cancellation
US11955138B2 (en) * 2019-03-15 2024-04-09 Advanced Micro Devices, Inc. Detecting voice regions in a non-stationary noisy environment
US11451742B2 (en) 2020-12-04 2022-09-20 Blackberry Limited Speech activity detection using dual sensory based learning

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4357491A (en) * 1980-09-16 1982-11-02 Northern Telecom Limited Method of and apparatus for detecting speech in a voice channel signal
FI100840B (fi) * 1995-12-12 1998-02-27 Nokia Mobile Phones Ltd Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin
KR100215651B1 (ko) * 1996-04-12 1999-08-16 윤종용 A/v 기기의 음성 제어방법 및 장치
JP3255584B2 (ja) * 1997-01-20 2002-02-12 ロジック株式会社 有音検知装置および方法
US6415253B1 (en) * 1998-02-20 2002-07-02 Meta-C Corporation Method and apparatus for enhancing noise-corrupted speech
US6480823B1 (en) * 1998-03-24 2002-11-12 Matsushita Electric Industrial Co., Ltd. Speech detection for noisy conditions
US20010014857A1 (en) * 1998-08-14 2001-08-16 Zifei Peter Wang A voice activity detector for packet voice network
US6453285B1 (en) * 1998-08-21 2002-09-17 Polycom, Inc. Speech activity detector for use in noise reduction system, and methods therefor
US6188981B1 (en) * 1998-09-18 2001-02-13 Conexant Systems, Inc. Method and apparatus for detecting voice activity in a speech signal
US6691084B2 (en) * 1998-12-21 2004-02-10 Qualcomm Incorporated Multiple mode variable rate speech coding
US20020116186A1 (en) * 2000-09-09 2002-08-22 Adam Strauss Voice activity detector for integrated telecommunications processing
US6889187B2 (en) * 2000-12-28 2005-05-03 Nortel Networks Limited Method and apparatus for improved voice activity detection in a packet voice network
SG119199A1 (en) * 2003-09-30 2006-02-28 Stmicroelectronics Asia Pacfic Voice activity detector
JP4739219B2 (ja) * 2003-10-16 2011-08-03 エヌエックスピー ビー ヴィ 適応ノイズ下限トラッキングを伴う音声動作検出
EP1982324B1 (en) 2006-02-10 2014-09-24 Telefonaktiebolaget LM Ericsson (publ) A voice detector and a method for suppressing sub-bands in a voice detector
US8260609B2 (en) * 2006-07-31 2012-09-04 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of inactive frames
JP4282704B2 (ja) * 2006-09-27 2009-06-24 株式会社東芝 音声区間検出装置およびプログラム
US20100106490A1 (en) * 2007-03-29 2010-04-29 Jonas Svedberg Method and Speech Encoder with Length Adjustment of DTX Hangover Period
US8321217B2 (en) 2007-05-22 2012-11-27 Telefonaktiebolaget Lm Ericsson (Publ) Voice activity detector
CN101320559B (zh) * 2007-06-07 2011-05-18 华为技术有限公司 一种声音激活检测装置及方法
EP2162880B1 (en) * 2007-06-22 2014-12-24 VoiceAge Corporation Method and device for estimating the tonality of a sound signal
US8954324B2 (en) 2007-09-28 2015-02-10 Qualcomm Incorporated Multiple microphone voice activity detector
CN101236742B (zh) * 2008-03-03 2011-08-10 中兴通讯股份有限公司 音乐/非音乐的实时检测方法和装置
EP2491549A4 (en) * 2009-10-19 2013-10-30 Ericsson Telefon Ab L M DETECTOR AND METHOD FOR DETECTING VOICE ACTIVITY
EP2561508A1 (en) * 2010-04-22 2013-02-27 Qualcomm Incorporated Voice activity detection

Also Published As

Publication number Publication date
US20130282367A1 (en) 2013-10-24
US9390729B2 (en) 2016-07-12
EP2656341A4 (en) 2014-10-29
ES2740173T3 (es) 2020-02-05
US20140337020A1 (en) 2014-11-13
EP3252771A1 (en) 2017-12-06
EP2656341A1 (en) 2013-10-30
CN102971789A (zh) 2013-03-13
WO2012083554A1 (en) 2012-06-28
CN102971789B (zh) 2015-04-15
US8818811B2 (en) 2014-08-26
EP2656341B1 (en) 2018-02-21
EP3252771B1 (en) 2019-05-01

Similar Documents

Publication Publication Date Title
ES2665944T3 (es) Aparato para realizar una detección de actividad de voz
ES2733099T3 (es) Sistemas, procedimientos y aparatos para la detección de cambio de señal
ES2860986T3 (es) Método y aparato para detectar adaptivamente una actividad de voz en una señal de audio de entrada
ES2211057T3 (es) Sistema y metodo para el ajuste del umbral de ruido usado para detectar actividad vocal en ambientes ruidosos no estacionario.
KR101437830B1 (ko) 음성 구간 검출 방법 및 장치
KR100330478B1 (ko) 노이즈 상태 음성 검출 시스템
JP5712220B2 (ja) 音声活動検出のための方法および背景推定器
ES2959448T3 (es) Método y aparato de detección de actividad de voz
JP3878482B2 (ja) 音声検出装置および音声検出方法
CN109412763B (zh) 一种基于信号能熵比的数字信号存在性检测方法
CN107195313B (zh) 用于语音活动性检测的方法和设备
JP2010061151A (ja) 雑音環境のための音声活動検出器及び有効化器
CA2778343A1 (en) Method and voice activity detector for a speech encoder
CN107331386B (zh) 音频信号的端点检测方法、装置、处理系统及计算机设备
JP3310302B2 (ja) エコー測度計算方法及び装置
CN105513614B (zh) 一种基于噪声功率谱Gamma分布统计模型的有音区检测方法
ES2697423T3 (es) Estimación de ruido de fondo en señales de audio
US20160284364A1 (en) Voice detection method
US10522160B2 (en) Methods and apparatus to identify a source of speech captured at a wearable electronic device
JP2003529960A (ja) 背景エネルギ予測
JP4601970B2 (ja) 有音無音判定装置および有音無音判定方法
EP0770254B1 (en) Transmission system and method for encoding speech with improved pitch detection
JP6750469B2 (ja) 音声区間検出方法、音声区間検出装置および音声区間検出プログラム
KR101176207B1 (ko) 음성통신 시스템 및 음성통신 방법
KR100530261B1 (ko) 통계적 모델에 기초한 유성음/무성음 판별 장치 및 그 방법