ES2609958T3 - Método y aparato para realizar una detección de actividad vocal - Google Patents

Método y aparato para realizar una detección de actividad vocal Download PDF

Info

Publication number
ES2609958T3
ES2609958T3 ES10821452.9T ES10821452T ES2609958T3 ES 2609958 T3 ES2609958 T3 ES 2609958T3 ES 10821452 T ES10821452 T ES 10821452T ES 2609958 T3 ES2609958 T3 ES 2609958T3
Authority
ES
Spain
Prior art keywords
snr
background noise
hangover
noise
vad
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES10821452.9T
Other languages
English (en)
Inventor
Zhe Wang
Qing Zhang
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Application granted granted Critical
Publication of ES2609958T3 publication Critical patent/ES2609958T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Noise Elimination (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

La presente invención trata una nueva formulación de la pasta cerámica con que habitualmente se fabrican las membranas cerámicas, utilizando arcillas normalmente destinadas a la fabricación de piezas estructurales. La novedad reside en la adición de óxidos avanzados para mejorar la resistencia química, de la misma manera incorpora novedad en la conformación de esta pasta para fabricar las membranas siendo estas planas, además de las formas tubulares normalmente utilizadas en la actualidad para la membrana cerámica, finalmente aportamos a la técnica un método para la utilización de las mismas en la filtración de líquidos por el método de la filtración tangencial que permite apilar en muy poco espacio gran cantidad de piezas de filtración y por un sistema de modulación móvil la posibilidad de acceder fácilmente a arreglar o reponer una de estas piezas.

Description

5
10
15
20
25
30
35
40
45
50
55
60
65
DESCRIPCION
Metodo y aparato para realizar una deteccion de actividad vocal CAMPO DE LA INVENCION
La presente invencion se refiere a tecnologfas de comunicaciones y en particular, a un metodo y un aparato para Deteccion de Actividad Vocal (VAD).
ANTECEDENTES DE LA INVENCION
En un sistema de comunicaciones, en particular en un sistema de comunicaciones inalambricas o un sistema de comunicaciones moviles, el ancho de banda del canal es un recurso no frecuente. En conformidad con la estadfstica, en una llamada bidireccional, el tiempo de conversacion para ambas partes de la llamada solamente representa aproximadamente la mitad del tiempo de conversacion total, y la llamada en la otra mitad del tiempo de conversacion total esta en un estado de silencio. Puesto que el sistema de comunicaciones solamente transmite senales cuando una persona esta hablando e interrumpe la transmision de senales en el estado de silencio, pero no puede asignar el ancho de banda ocupado en el estado de silencio a otros servicios de comunicaciones, lo que hace que se desperdicie, en gran medida, los recursos de ancho de banda de canal limitados.
Para hacer pleno uso de los recursos del canal, en la tecnica anterior, el tiempo cuando las dos partes de la llamada comienzan a hablar y cuando dejan de hablar se detecta utilizando una tecnologfa de deteccion VAD, es decir, el momento cuando se activa la voz es objeto de adquisicion, con el fin de asignar el ancho de banda del canal a otros servicios de comunicaciones cuando la voz no esta activada. Con el desarrollo de la red de comunicaciones, la tecnologfa de deteccion VAD puede detectar tambien senales de entrada, tales como tonos de rellamada. En un sistema de deteccion VAD basado en la tecnologfa de VAD, se suele determinar que las senales de entrada son senales de primer plano o ruido de fondo en conformidad con el criterio de decision preestablecido que incluye parametros de decision y logica de decision. Las senales de primer plano incluyen senales vocales, senales musicales y senales de Multifrecuencia de Doble Tono (DTMF) y los ruidos de fondo no incluyen las senales. Dicho proceso de determinacion se denomina tambien una decision VAD.
En la etapa inicial del desarrollo de la tecnologfa VAD, se adopta un criterio de decision de caracter estatico, es decir, sin importar cuales sean las caractensticas de una senal de entrada, lo parametros de decision y la logica de decision de la VAD permanecen sin cambiar. A modo de ejemplo, en la tecnologfa VAD basada en la norma G.729, sea cual fuere el tipo de la senal de entrada, la relacion de senal a ruido (SNR) es, y las caractensticas del ruido de fondo, el mismo grupo de parametros de decision que se utilizan para realizar la decision VAD con el mismo grupo de logica de decision y umbrales de decision. Puesto que la tecnologfa VAD basada en la norma G.729 esta disenada y presentada sobre la base de una condicion de alta relacion SNR, el rendimiento de la tecnologfa VAD es peor en una condicion de relacion SNR baja. Con el desarrollo de la tecnologfa VAD, se ofrece un criterio de decision de caracter dinamico, en donde la tecnologfa VAD puede seleccionar diferentes parametros de decision y/o diferentes umbrales de decision en conformidad con caractensticas diferentes de la senal de entrada y determinar que la senal de entrada es una senal de primer plano o un ruido de fondo. Puesto que el criterio de decision de caracter dinamico se adopta para determinar los parametros de decision o la logica de decision en conformidad con las caractensticas espedficas de la senal de entrada, el proceso de decision se optimiza y se mejora la eficiencia de la decision y la exactitud de la decision, con lo que se mejora tambien el rendimiento de la decision de VAD. Ademas, si se adopta el criterio de decision de caracter dinamico, diferentes salidas de VAD pueden establecerse para la senal de entrada con diferentes caractensticas, en funcion de las demandas de aplicacion espedficas. A modo de ejemplo, cuando un operador espera transmitir informacion de fondo sobre algunas personas que hablan en el sistema VAD en alguna medida, una tendencia de decision de VAD puede establecerse en el caso de que el ruido de fondo contenga una mayor cantidad de informacion, con el fin de facilitar la determinacion de que el ruido de fondo que contiene una gran cantidad de informacion es tambien una estructura vocal. Actualmente, la decision dinamica se ha conseguido en un codificador vocal de tipo multi-tasa adaptativo (AMR, en forma abreviada). El codificador AMR puede ajustar dinamicamente el umbral de decision, la duracion de la resaca de voz y la condicion de iniciacion de resaca de la deteccion VAD en conformidad con el nivel de ruido de fondo en la senal de entrada.
Sin embargo, cuando el AMR existente realiza la decision de VAD, el AMR solamente puede ser adaptativo al nivel del ruido de fondo, pero no puede ser adaptativo para la fluctuacion del ruido de fondo. De este modo, el rendimiento de la decision de VAD para la senal de entrada que tiene diferentes tipos de ruido de fondo puede ser bastante diferente. A modo de ejemplo, bajo el nivel del mismo ruido de fondo, el AMR tiene mucho mas alto rendimiento de decision de VAD en el caso de que el ruido de fondo sea un ruido de vehfculo, pero el rendimiento de decision de VAD se reduce en gran medida en el caso de que el ruido de fondo sea un ruido de balbuceo, lo que da lugar a un gran desperdicio de los recursos de ancho de banda del canal.
El documento US6453291 B1 da a conocer un aparato y un metodo para deteccion de actividad vocal en un sistema de comunicaciones. Con el fin de que la decision del Detector de Actividad Vocal (VAD) supere el problema de ser hipersensible a la fluctuacion, las condiciones de ruido de fondo no estacionarias, se utiliza un factor de polarizacion
5
10
15
20
25
30
35
40
45
50
55
60
65
para aumentar el umbral en el que esta basada la decision de VAD. Este factor de sesgo se deriva de una estimacion de la variabilidad de la estimacion del ruido de fondo. La estimacion de variabilidad se basa, ademas, en valores negativos de la relacion SNR instantanea.
El documento EP2159788 da a conocer un metodo y dispositivo de deteccion de actividad vocal (VAD), de modo que el umbral de VAD pueda ser adaptativo para la variacion del ruido de fondo. El dispositivo VAD incluye: una unidad analizadora del ruido de fondo, adaptada para: analizar las caractensticas del ruido de fondo de una senal actual en conformidad con un resultado de determinacion de VAD de entrada, para obtener parametros relacionados con la variacion del ruido de fondo y proporcionar, a la salida, estos parametros; una unidad de ajuste de VAD, adaptada para: obtener un sesgo del umbral de VAD en conformidad con la salida de parametros proporcionada por la unidad analizadora del fondo y proporcionar el sesgo del umbral de VAD; y una unidad de determinacion de vAd, adaptada para: modificar un umbral de VAD para modificarse en conformidad con el sesgo del umbral de VAD proporcionado por la unidad de ajuste del umbral de VAD, determinar el ruido de fondo utilizando el umbral de VAD modificado, y proporcionar un resultado de determinacion de VAD.
El documento "Deteccion de actividad acustica independiente de codec basada en la entropfa con actualizacion del ruido adaptativa" (9TH IEEE INTERNATIONAL CONFERENCE ON SIGNAL PROCESSING (ICSP), 26 octubre 2008, paginas 549-552) da a conocer un metodo de deteccion de actividad acustica independiente de los codecs (codificador/decodificador) de audio. Una caractenstica de entropfa establecida con la actualizacion de estimacion del ruido adaptativa se ofrece para mejorar el rendimiento de la entropfa en la deteccion de la voz y de la musica. Un sistema de deteccion de actividad acustica independiente de codec se construye mediante la integracion de caractensticas basadas en la relacion SNR con la entropfa propuesta.
SUMARIO DE LA INVENCION
Las formas de realizacion de la presente invencion dan a conocer un metodo y un aparato para que la deteccion de actividad vocal VAD sea adaptativa para la fluctuacion de un ruido de fondo para realizar una decision de VAD, con lo que se mejora el rendimiento de la decision de VAD.
Una forma de realizacion de la presente invencion da a conocer un metodo para VAD, segun se establece en la reivindicacion independiente 1.
Una forma de realizacion de la presente invencion da a conocer un aparato para la deteccion VAD, segun se establece en la reivindicacion independiente 2. Otra forma de realizacion de la presente invencion da a conocer un soporte de memorizacion legible por ordenador, segun se establece en la reivindicacion independiente 4.
Sobre la base del metodo para la deteccion VAD y el aparato para VAD en conformidad con las formas de realizacion de la presente invencion, cuando un asen es un ruido de fondo, un valor de caractenstica fluctuante que se utiliza para representar la fluctuacion del ruido de fondo es objeto de adquisicion; se realiza un ajuste adaptativo sobre un parametro relacionado con el criterio de decision de VAD en conformidad con el valor de caractenstica fluctuacion y la decision de VAD se realiza sobre la senal de entrada utilizando el parametro relacionado con el criterio de decision sobre el que se realiza el ajuste adaptativo. En comparacion con la tecnica anterior, la solucion tecnica de la presente invencion puede conseguir un mas alto rendimiento de decision de VAD en el caso de diferentes tipos de ruido de fondo. Esta circunstancia mejora la eficiencia de decision de VAD y la exactitud de la decision.
La solucion tecnica de la presente invencion se describe, en mayor detalle, haciendo referencia a los dibujos adjuntos y a las formas de realizacion.
BREVE DESCRIPCION DE LOS DIBUJOS
Para ilustrar las soluciones tecnicas en conformidad con las formas de realizacion de la presente invencion o en la tecnica anterior, con mayor claridad, los dibujos adjuntos se introducen, de forma concisa, a continuacion. Evidentemente, los dibujos adjuntos en la descripcion siguiente son solamente algunas formas de realizacion de la presente invencion o sus ejemplos.
La Figura 1 es un diagrama de flujo de una forma de realizacion de un metodo para la deteccion VAD en conformidad con la presente invencion;
La Figura 2 es un diagrama de flujo de un ejemplo de adquisicion de un valor de caractenstica fluctuante de un ruido de fondo;
La Figura 3 es un diagrama de flujo de una forma de realizacion de la adquisicion del valor de caractenstica fluctuante del ruido de fondo en conformidad con la presente invencion;
La Figura 4 es un diagrama de flujo de otro ejemplo de adquisicion del valor de caractenstica fluctuante del ruido de
5
10
15
20
25
30
35
40
45
50
55
60
65
fondo;
La Figura 5 es un diagrama de flujo de un ejemplo de ajuste dinamico de un parametro relacionado con el criterio de decision de VAD, en conformidad con un nivel del ruido de fondo;
La Figura 6 es una vista estructural esquematica de una forma de realizacion de un aparato para la deteccion VAD en conformidad con la presente invencion;
La Figura 7 es una vista estructural esquematica de un ejemplo de un aparato para la deteccion VAD;
La Figura 8 es una vista estructural esquematica de otro ejemplo de un aparato para la deteccion VAD;
La Figura 9 es una vista estructural esquematica detallada de la forma de realizacion del aparato para la deteccion VAD en conformidad con la presente invencion;
La Figura 10 es una vista estructural esquematica de otro ejemplo de un aparato para la deteccion VAD;
La Figura 11 es una vista estructural esquematica de otro ejemplo de un aparato para la deteccion VAD;
La Figura 12 es una vista estructural esquematica de otro ejemplo de un aparato para la deteccion VAD;
La Figura 13 es otra vista estructural esquematica detallada de la forma de realizacion del aparato para la deteccion VAD con una unidad de control opcional adicional, en conformidad con la presente invencion;
La Figura 14 es una vista estructural esquematica de otro ejemplo de un aparato para la deteccion VAD;
La Figura 15 es una vista estructural esquematica de otro ejemplo de un aparato para la deteccion VAD; y
La Figura 16 es una vista estructural esquematica de otro ejemplo de un aparato para la deteccion VAD.
DESCRIPCION DETALLADA DE LAS FORMAS DE REALIZACION
La solucion tecnica de la presente invencion esta descrita, de forma clara y completa, a continuacion haciendo
referencia a los dibujos adjuntos. Es evidente que las formas de realizacion que se describen son solamente una
parte y no la totalidad de todas las formas de realizacion de la presente invencion.
La Figura 1 es un diagrama de flujo de una forma de realizacion de un metodo para la deteccion VAD en conformidad con la presente invencion. Segun se ilustra en la Figura 1, el metodo para la deteccion VAD en conformidad con esta forma de realizacion incluye las etapas siguientes:
Etapa 101: Adquirir un valor de caractenstica fluctuante de un ruido de fondo cuando una senal de entrada es el ruido de fondo, en donde el valor de caractenstica fluctuante se utiliza para representar la fluctuacion del ruido de fondo.
Etapa 102: Realizar un ajuste adaptativo sobre un parametro vinculado con el criterio de decision de deteccion VAD, en conformidad con el valor de caractenstica fluctuante del ruido de fondo.
Etapa 103: Realizar decision de deteccion VAD sobre la senal de entrada utilizando el parametro vinculado con el criterio de decision sobre el que se realiza el ajuste adaptativo.
Con el metodo para la deteccion VAD en conformidad con la forma de realizacion de la presente invencion, cuando una senal de entrada es un ruido de fondo, se adquiere un valor de caractenstica fluctuante utilizado para representar la fluctuacion del ruido de fondo, se realiza un ajuste adaptativo sobre un parametro vinculado con el criterio de decision de deteccion VAD en conformidad con el valor de caractenstica fluctuante, con el fin de hacer que el parametro vinculado con el criterio de decision de deteccion VAD sea adaptativo para la fluctuacion del ruido de fondo. De este modo, cuando se realiza una decision de deteccion VAD sobre la senal de entrada utilizando el parametro vinculado con el criterio de decision sobre el que se realiza el ajuste adaptativo, puede conseguirse un mas alto rendimiento de la decision de deteccion VAD en el caso de diferentes tipos de ruido de fondos, lo que mejora la eficiencia de decision de deteccion VAD y su exactitud de decision, aumentando asf la utilizacion de los recursos de ancho de banda de canal limitados.
El parametro vinculado con el criterio de decision de deteccion VAD puede incluir cualquiera o mas de un umbral de decision primario, una condicion de iniciacion del resaca, una longitud de resaca y una tasa de actualizacion de un parametro a largo plazo relacionado con el ruido de fondo.
Cuando el parametro vinculado con el criterio de decision de deteccion VAD incluye el umbral de decision primario,
5
10
15
20
25
30
35
40
45
50
55
60
65
en conformidad con una forma de realizacion de la presente invencion, la etapa 102 puede ponerse en practica concretamente en las formas siguientes:
Se busca un mapeado de correspondencia entre un valor de caractenstica fluctuante y un sesgo de fluctuacion del ruido del umbral de decision thr_bias_noise y se adquiere un sesgo de fluctuacion del ruido del umbral de decision thr_bias_noise correspondiente al valor de caractenstica fluctuante del ruido de fondo, en donde el sesgo de fluctuacion del ruido del umbral de decision thr_bias_noise se utiliza para representar un valor de sesgo del umbral bajo un ruido de fondo con diferente fluctuacion y el mapeado de correspondencia puede establecerse con anterioridad o actualmente, o puede adquirirse desde otras entidades de la red.
Un umbral de decision primario de VAD vad_thr se adquiere utilizando la formula vad_thr = f (snr) + f2 (snr) • thr_bias_noise, en donde fi(snr) es un umbral de referencia correspondiente a una relacion senal a ruido SNR snr de una trama de ruido de fondo actual, y f2(snr) es un coeficiente de ponderacion de un sesgo de fluctuacion del ruido del umbral de decision thr_bias_noise correspondiente a la relacion SNR snr de la trama de ruido de fondo actual. Mas concretamente, forma de funcion de fi(snr) y f2(snr) para snr puede establecerse en conformidad con valores empmcos.
El umbral de decision primario en el parametro vinculado con el criterio de decision de deteccion VAD se actualiza al umbral de decision primario adquirido vad_thr, con el fin de realizar un ajuste adaptativo sobre el umbral de decision primario de VAD vad_thr en conformidad con el valor de caractenstica fluctuante del ruido de fondo.
Cuando el parametro vinculado con el criterio de decision de deteccion VAD incluye la condicion de iniciacion de la denominada resaca vocal, en conformidad con una forma de realizacion de la presente invencion, la etapa 102 puede ponerse en practica concretamente en los modos siguientes:
Se busca un valor de la longitud de trama vocal sucesiva burst_cnt_noise_tbl[valor de caractenstica fluctuante] correspondiente al valor de caractenstica fluctuante del ruido de fondo a partir de una tabla de mapeado de correspondencia de fluctuacion de ruido de longitud de trama vocal sucesiva burst_cnt_noise_tbl[], y se busca un umbral vocal determinado burst_thr_noise_tbl[valor de caractenstica fluctuante] correspondiente al valor de caractenstica fluctuante del ruido de fondo a partir de una tabla de sesgo del umbral vocal determinado en conformidad con la fluctuacion del ruido burst_thr_noise_tbl[], en donde la tabla de mapeado de correspondencia de fluctuacion de ruido de longitud de trama vocal sucesiva burst_cnt_noise_tbl[] y la tabla de sesgo del umbral vocal determinado en conformidad con la fluctuacion del ruido burst_thr_noise_tbl[] puede establecerse tambien con anterioridad o actualmente o adquirirse a partir de otras entidades de la red.
Un umbral de magnitud de trama vocal sucesiva M se adquiere utilizando la formula M = f3(snr) + f4(snr) • burst_cnt_noise_tbl[valor de caractenstica fluctuante] y un umbral de trama vocal determinado burst_thr se adquiere utilizando la formula burst_thr = f5 (snr) + fe (snr)• burst_thr_noise_tbl[valor de caractenstica fluctuante], en donde f3(snr) es un umbral de magnitud de referencia correspondiente a una relacion SNR snr de una trama de ruido de fondo actual, f4(snr) es un coeficiente de ponderacion de la longitud de trama vocal sucesiva burst_cnt_noise_tbl[valor de caractenstica fluctuante] correspondiente a la relacion SNR snr de la trama de ruido de fondo actual, f5(snr) es un umbral de trama vocal de referencia correspondiente a la relacion SNR snr de la trama de ruido de fondo actual, y f6(snr) es un coeficiente de ponderacion del umbral vocal determinado burst_thr_noise_tbl[valor de caractenstica fluctuante] correspondiente a la relacion SNR snr de la trama de ruido de fondo actual. Mas concretamente, las formas funcionales de f3(snr), f4(snr), f5(snr), y f6(snr) a snr pueden establecerse en conformidad con valores empmcos. Como una forma de realizacion espedfica, las formas funcionales espedficas de f3(snr), f4(snr), f5(snr), y f6(snr) a snr pueden habilitar el umbral de magnitud de trama vocal sucesiva M y el umbral de trama vocal determinado burst_thr para aumentar con la reduccion del valor de caractenstica fluctuante adquirido.
La condicion de iniciacion de la resaca vocal en el parametro vinculado con el criterio de decision de deteccion VAD se actualiza en conformidad con el umbral de magnitud de trama vocal sucesiva M adquirido y el umbral de trama vocal determinado burst_thr, con el fin de realizar un ajuste adaptativo sobre la condicion de iniciacion de la resaca vocal de la deteccion VAD en conformidad con el valor de caractenstica fluctuante del ruido de fondo.
En conformidad con las formas de realizacion de la presente invencion establecidas en las reivindicaciones 1 y 2, el parametro vinculado con el criterio de decision de deteccion VAD incluye la longitud de la resaca vocal y la etapa 102 se realiza concretamente en la forma siguiente:
Se busca una longitud de la resaca vocal hangover_nosie_tbl[valor de caractenstica fluctuante] correspondiente al valor de caractenstica fluctuante del ruido de fondo a partir de una tabla de mapeado de correspondencia de la fluctuacion de ruido de longitud de resaca hangover_noise_tbl[], en donde la tabla de mapeado de correspondencia de la fluctuacion de ruido de longitud de resaca vocal hangover_noise_tbl[] puede establecerse con anterioridad o actualmente, o adquirirse desde otras entidades de la red.
Un valor maximo de reposicion del contador de resaca vocal hangover_max se busca utilizando la formula
5
10
15
20
25
30
35
40
45
50
55
60
hangover_max = f7 (snr) + f8(snr)hangover_nosie_tbl[valor de caractenstica fluctuante], en donde f7(snr) es un valor de reposicion de referencia correspondiente a una relacion SNR snr de una trama de ruido de fondo actual, y fs(snr) es un coeficiente de ponderacion de una longitud de resaca hangover_nosie_tbl[valor de caractenstica fluctuante] correspondiente a la relacion SNR snr de la trama de ruido de fondo actual. Mas concretamente, una forma de funcion de f7(snr) y fs(snr) a snr puede establecerse en conformidad con valores empmcos. La forma de funcion espedfica de f7(snr) y fs(snr) a snr puede permitir aumentar el valor maximo de reposicion del contador de resaca vocal hangover_max con el incremento del valor de caractenstica fluctuante adquirido.
La longitud de la resaca vocal en el parametro vinculado con el criterio de decision de deteccion VAD se actualiza al valor maximo de reposicion del contador de la resaca que se adquiere hangover_max, con el fin de realizar un ajuste adaptativo sobre la longitud de resaca sobre la deteccion vAd en conformidad con el valor de caractenstica fluctuante del ruido de fondo.
Una media movil a largo plazo hb_noise_mov de una entropfa espectral del ruido blanqueado de fondo puede adoptarse para representar la fluctuacion del ruido de fondo. La Figura 2 es un diagrama de flujo de un ejemplo de adquisicion de un valor de caractenstica fluctuante de un ruido de fondo. En este caso, el valor de caractenstica fluctuante es concretamente un valor cuantizado idx de la media movil a largo plazo hb_noise_mov de una entropfa espectral del ruido blanqueado de fondo. Segun se ilustra en la Figura 2, el proceso en conformidad con este ejemplo incluye las etapas siguientes:
Etapa 201: Recibir una trama actual de la senal de entrada.
Etapa 202: Dividir la trama actual de la senal de entrada en N sub-bandas en un dominio de la frecuencia, en donde N es un numero entero mayor que 1, a modo de ejemplo, N puede ser 32, y calcular las energfas enrg(i) (en donde i=0, 1, ..., N-1) de las N sub-bandas respectivamente.
Mas concretamente, las N sub-bandas pueden ser de anchura igual o de anchura desigual o cualquier numero de sub-bandas en las N sub-bandas puede ser de anchura igual.
Etapa 203: Decidir si la trama actual es una trama de ruido de fondo en conformidad con el criterio de decision de deteccion VAD. Si la trama actual es una trama de ruido de fondo, realizar la etapa 204; si la trama actual no es una trama de ruido de fondo, no realizar los procedimientos subsiguientes de este ejemplo.
Etapa 204: Calcular una energfa de media movil a largo plazo enrg_n(i) de la trama de ruido de fondo respectivamente en las N sub-bandas utilizando la formula enrg_n(i) = a • enrg_n + (1- a) • enrg(i), en donde a es coeficiente de olvido para controlar una tasa de actualizacion de la energfa de la media movil a largo plazo enrg_n(i) de la trama de ruido de fondo respectivamente de las N sub-bandas, y enrg_n es una energfa de la trama de ruido de fondo.
Etapa 205: Blanquear un espectro de la trama de ruido de fondo actual utilizando la formula enrg_w(i) = enrg(i)/enrg_n(i), y una energfa enrg_w(i) del ruido blanqueado de fondo en una i-esima sub-band se adquiere a este respecto.
Etapa 206: Adquirir una entropfa espectral del ruido blanqueado de fondo hb utilizando la formula
N-l N_,
hb - “X Pi' )o2 P> > en donde P, = enrgjvfi)/^ enrg_w(i).
j-0
Etapa 207: Adquirir una media movil a largo plazo hb_noise_mov de una entropfa espectral del ruido blanqueado de fondo utilizando la formula hb_noise_mov = p hb_noise_mov+(1-p) • hb, en donde p es un factor de olvido para controlar la tasa de actualizacion de la media movil a largo plazo hb_noise_mov de una entropfa espectral del ruido blanqueado de fondo-
En esta realizacion ejemplo, la media movil a largo plazo hb_noise_mov de una entropfa espectral del ruido blanqueado de fondo representa la fluctuacion del ruido de fondo. Cuanto mayor es el valor hb_noise_mov es, tanto menor sera la fluctuacion del ruido de fondo; por el contrario, cuanto mas pequeno es el valor hb_noise_mov es, tanto mayor sera la fluctuacion del ruido de fondo.
Etapa 208: Cuantizar la media movil a largo plazo hb_noise_mov de una entropfa espectral del ruido blanqueado de fondo utilizando la formula idx = \{hb_noise_mov - A) /B|, con el fin de adquirir un valor cuantizado idx, en donde A y B son valores preestablecidos, a modo de ejemplo, A puede ser un valor empmco 3.11, y B puede ser un valor emprnco 0.05.
En correspondencia con el ejemplo ilustrado en la Figura 2, cuando el valor de caractenstica fluctuante es concretamente el valor cuantizado idx de la media movil a largo plazo hb_noise_mov de una entropfa espectral del
5
10
15
20
25
30
35
40
45
50
55
60
65
ruido blanqueado de fondo, la tasa de actualizacion del parametro a largo plazo relacionado con el ruido de fondo puede incluir la tasa de actualizacion de una de media movil a largo plazo energy enrg_n(i) del ruido de fondo. En correspondencia, la etapa 102 puede realizarse concretamente en las formas siguientes:
Se consulta una tabla de tasa de actualizacion ruido de fondo alpha_tbl[] y un coeficiente de olvido a de la tasa de actualizacion de energfa de la media movil a largo plazo enrg_n(i) correspondiente al valor cuantizado idx del ruido de fondo se adquiere a este respecto. Mas concretamente, la tabla de tasa de actualizacion del ruido de fondo alpha_tbl[] puede establecerse con anterioridad o actualmente, o puede adquirirse desde otras entidades de la red. Como una forma de realizacion espedfica, el establecimiento de la tabla de tasa de actualizacion del ruido de fondo alpha_tbl[] puede permitir que el coeficiente de olvido a de la tasa de actualizacion se la energfa de la media movil a largo plazo enrg_n(i) para disminuir con la reduccion del valor cuantizado idx del ruido de fondo.
El coeficiente de olvido adquirido a se utiliza como un coeficiente de olvido para controlar la tasa de actualizacion de la energfa de la media movil a largo plazo enrg_n(i) de la trama de ruido de fondo respectivamente en las N sub- bandas, con el fin de realizar un ajuste adaptativo sobre la tasa de actualizacion de la energfa de media movil a largo plazo enrg_n(i) de la trama de ruido de fondo respectivamente en las N sub-bandas en conformidad con el valor de caractenstica fluctuante del ruido de fondo.
Ademas, en correspondencia con el ejemplo ilustrado en la Figura 2, cuando el valor de caractenstica fluctuante es concretamente el valor cuantizado idx de la media movil a largo plazo hb_noise_mov de una entropfa espectral del ruido blanqueado de fondo, la tasa de actualizacion del parametro a largo plazo relacionado con el ruido de fondo puede incluir tambien la tasa de actualizacion de la media movil a largo plazo hb_noise_mov de una entropfa espectral del ruido blanqueado de fondo. En correspondencia, la etapa 102 puede realizarse concretamente en las formas siguientes:
Se consulta una tabla de tasa de actualizacion de fluctuacion de ruido de fondo beta_tbl[], y un factor de olvido p de la tasa de actualizacion de la media movil a largo plazo hb_noise_mov correspondiente al valor cuantizado idx del ruido de fondo, se adquiere a este respecto. Mas concretamente, el tabla de tasa de actualizacion de fluctuacion de ruido de fondo beta_tbl[] puede establecerse con anterioridad o actualmente, o puede adquirirse a partir de otras entidades de la red. Como una forma de realizacion espedfica, el establecimiento espedfico de la tabla de tasa de actualizacion de fluctuacion de ruido de fondo beta_tbl[] puede permitir que el factor de olvido p de la tasa de actualizacion de la media movil a largo plazo hb_noise_mov aumente con la disminucion del valor cuantizado idx del ruido de fondo.
El factor de olvido adquirido p se utiliza como un factor de olvido para controlar la tasa de actualizacion de la media movil a largo plazo hb_noise_mov de una entropfa espectral del ruido blanqueado de fondo, con el fin de realizar el ajuste adaptativo sobre la tasa de actualizacion de la media movil a largo plazo hb_noise_mov de una entropfa espectral del ruido blanqueado de fondo en conformidad con el valor de caractenstica fluctuante del ruido de fondo.
Con respecto el ruido de fondo con diferentes valores de caractenstica fluctuantes, la energfa de la media movil a largo plazo enrg_n(i) de la trama de ruido de fondo respectivamente en las N sub-bandas y de la media movil a largo plazo hb_noise_mov de una entropfa espectral del ruido blanqueado de fondo se actualizan con diferentes tasas, lo que puede mejorar la tasa de deteccion para el ruido de fondo de forma efectiva.
En conformidad con el metodo para la deteccion VAD de la presente invencion, se utiliza una media movil a largo plazo de la relacion SNR de la trama de ruido de fondo snrn_mov como un valor de caractenstica fluctuante del ruido de fondo, con el fin de representar la fluctuacion del ruido de fondo. La Figura 3 es un diagrama de flujo de una forma de realizacion de la adquisicion del valor de caractenstica fluctuante del ruido de fondo en conformidad con la presente invencion. En esta forma de realizacion, el valor de caractenstica fluctuante del ruido de fondo es concretamente la media movil a largo plazo de la relacion SNR de la trama de ruido de fondo snrn_mov. Segun se ilustra en la Figura 3, el proceso en conformidad con la forma de realizacion establecida en la reivindicacion 1 incluye las etapas siguientes:
Etapa 301: Recibir una trama actual de la senal de entrada.
Etapa 302: Decidir si la trama actual es una trama de ruido de fondo en conformidad con el criterio de decision de deteccion VAD. Si la trama actual es una trama de ruido de fondo, realizar la etapa 303; si la trama actual no es una trama de ruido de fondo, no realizar los procedimientos subsiguientes de esta forma de realizacion.
Etapa 303: Adquirir una media movil a largo plazo de la relacion SNR de la trama de ruido de fondo snrn_mov utilizando la formula snrn_mov = k • snrn_mov + (1- k) • snr.
snr es una relacion SNR de la trama de ruido de fondo actual y k es un factor de olvido para controlar una tasa de actualizacion de la media movil a largo plazo de la relacion SNR de la trama de ruido de fondo snrn_mov.
En correspondencia con la forma de realizacion ilustrada en la Figura 3, cuando el valor de caractenstica fluctuante
5
10
15
20
25
30
35
40
45
50
55
del ruido de fondo es concretamente la media movil a largo plazo de la relacion SNR de trama de ruido de fondo snrn_mov, la tasa de actualizacion del parametro a largo plazo relacionado con el ruido de fondo puede incluir la tasa de actualizacion de la media movil a largo plazo snrn_mov. En correspondencia, la etapa 1O2 puede realizarse concretamente en las formas siguientes: establecimiento de valores diferentes para el factor de olvido k para controlar la tasa de actualizacion de la media movil a largo plazo de la relacion SNR de trama de ruido de fondo snrn_mov cuando la relacion SNR snr de la trama de ruido de fondo actual es mayor que un valor medio snrn de SNRs de las ultimas n tramas de ruido de fondos, y cuando la relacionj SNR snr de la trama de ruido de fondo actual es mas pequena que el valor medio snrn de la relacion SNR SNRs de las ultimas n trama de ruido de fondos. A modo de ejemplo, cuando snrn_mov<snr, k se establece para ser x, y cuando snrn_mov>snr, k se establece para ser y.
La una media movil a largo plazo de la relacion SNR de la trama de ruido de fondo snrn_mov se actualiza en sentido ascendente y descendente con diferentes tasas de actualizacion, lo que puede evitar que la media movil a largo plazo de la relacion SNR de trama de ruido de fondo snrn_mov sea afectada por un cambio brusco, con el fin de hacer que la media movil a largo plazo de la relacion SNR de la trama de ruido de fondo snrn_mov sea mas estable. Antes de la tasa de actualizacion del parametro a largo plazo relacionado con el ruido de fondo actualizado por la relacion SNR snr de la trama de ruido de fondo actual puede incluir la media movil a largo plazo snrn_mov, la relacion SNR snr de la trama de ruido de fondo actual puede limitarse a un margen preestablecido, a modo de ejemplo, cuando el valor de SNR snr de la trama de ruido de fondo actual sea menor que 10, la relacion SNR snr de la trama de ruido de fondo actual esta limitada a 10.
En conformidad con otro ejemplo del metodo para la deteccion VAD, una media movil a largo plazo fluxbgd de la relacion SNR segmental modificada a largo plazo de la trama de ruido de fondo (MSSNR) puede utilizarse como el valor de caractenstica fluctuante del ruido de fondo para representar la fluctuacion del ruido de fondo. La Figura 4 es un diagrama de flujo de otro ejemplo de adquisicion del valor de caractenstica fluctuante del ruido de fondo. En este ejemplo, el valor de caractenstica fluctuante del ruido de fondo es concretamente la media movil a largo plazo de la trama de ruido de fondo MSSNR fluxbgd. Segun se ilustra en la 4, el proceso en conformidad con esta realizacion ejemplo incluye las etapas siguientes:
Etapa 401: Recibir una trama actual de la senal de entrada.
Etapa 402: Decidir si la trama actual es una trama de ruido de fondo en conformidad con el criterio de decision de deteccion VAD. Si la trama actual es una trama de ruido de fondo, realizar etapa 403; si la trama actual no es una trama de ruido de fondo, no realizar los procedimientos subsiguientes de esta forma de realizacion.
Etapa 403: Dividir un espectro de la Transformada de Fourier Rapida (FFT) de la trama de ruido de fondo actual en H sub-bandas, en donde H es un numero entero mayor que 1, y calcular las energias de i sub-bandas Eband(i),
n h(i)
E^U)= Pf £ $ +(1 -p)E^_M(i),
siendo i=0, 1, H-1 respectivamente, utilizando la formula ^
en donde l(i) y h(i) representan un punto de frecuencia FFT con la mas baja frecuencia y un punto de frecuencia FFT con la mas alta frecuencia en una i-esima sub-banda respectivamente, Sj representa una energfa de un j-esimo punto de frecuencia en el impuesto de FFT, Eband_old(i) representa una energfa de la i-esima sub-banda en una trama anterior de la trama de ruido de fondo actual y P es una constante preestablecida. En una forma de realizacion, el valor de P es 0.55. Como una instancia de aplicacion espedfica de la presente invencion, el valor de H puede ser 16.
Etapa 404: Calcular una relacion SNR snr(i) de la i-esima sub-banda en la trama de ruido de fondo actual
.. . .... .... . w(0 = 101og(£w(i)/£w „(/)).
respectivamente, utilizando la formula ' ~
*'band
.(0
es una media movil a largo plazo del ruido de fondo que puede adquirirse concretamente actualizando la
media movil a largo plazo del ruido de fondo
de ruido de fondo anterior, utilizando la formula band- constante preestablecida. En una forma de realizacion, el valor q es 0.95
utilizando la energia de la i-esima sub-banda en una trama
band n 0) ^bartd (0
Eband „(0 =?A
, en donde q es una
Etapa 405: Modificar la relacion SNR snr(i) de la i-esima sub-banda en la trama de ruido de fondo actual respectivamente, utilizando la formula
5
10
15
20
25
30
35
40
45
50
55
60
msnr(i) =
MAX[MTN[—^ , I], 0]
i 6 primer conjunto i s segundo conjunto
en donde msnr(i) es la relacion SNR de la i-esima sub-banda modificada, C1 y C2 son constantes reales preestablecidas mayores que 0 y los valores en el primer conjunto y en el segundo conjunto forman un conjunto [0, H-1].
Il-L
MSSNR = YJmsnr(i).
Etapa 406: Adquirir una trama de ruido de fondo actual MSSNR utilizando la formula 1=0
Etapa 407: Calcular una media movil a largo plazo MSSNR de la trama de ruido de fondo actual fluxbgd utilizando la formula fluxbgd = r • fluxbgd + (1-r) ■ MSSNR, en donde r es un coeficiente de olvido para controlar una tasa de actualizacion de la media movil a largo plazo MSSNR de la trama de ruido de fondo actual fluxbgd.
En una forma de realizacion, el valor de r puede establecerse concretamente en las formas siguientes: en un periodo inicial preestablecido desde una primera trama de la senal de entrada y cuando se tiene MSSNR > fluxbgd, r=0.955; en el periodo inicial preestablecido de la primera trama de la senal de entrada y cuando MSSNR < fluxbgd, r=0.995; despues del periodo inicial preestablecido desde la primera trama a la senal de entrada y cuando se tiene MSSNR > fluxbgd, r=0.997; y despues del periodo inicial preestablecido de la primera trama de la senal de entrada y cuando se tiene MSSNR < fluxbgd, r=0.9997.
En correspondencia con el ejemplo ilustrado en la Figura 4, cuando el parametro vinculado con el criterio de decision de deteccion VAD incluye el umbral de decision primario, la etapa 102 puede realizarse concretamente en las formas siguientes:
Un mapeado de correspondencia entre un valor de caractenstica fluctuante y un sesgo de fluctuacion del ruido del umbral de decision thr_bias_noise es objeto de consulta, y un sesgo de fluctuacion del ruido del umbral de decision thr_bias_noise correspondiente al valor de caractenstica fluctuante del ruido de fondo es objeto de adquisicion, en donde el sesgo de fluctuacion del ruido del umbral de decision thr_bias_noise se utiliza para representar un valor de sesgo del umbral bajo un ruido de fondo con diferente fluctuacion, y el mapeado de correspondencia puede establecerse con anterioridad o actualmente, o puede adquirirse a partir de otras entidades de la red.
Un umbral de decision primario de VAD vad_thr se adquiere utilizando la formula vad_thr = fi(snr) + f2 (snr) ■ thr_bias_noise, en donde fi (snr) es un umbral de referencia correspondiente a una relacion SNR snr de una trama de ruido de fondo actual y f2(snr) es un coeficiente de ponderacion de la sesgo de fluctuacion del ruido del umbral de decision thr_bias_noise correspondiente a la relacion SNR snr de la trama de ruido de fondo actual. Mas concretamente, una forma de funcion de fi(snr) y f2(snr) a SNR puede establecerse en conformidad con un valor empmco.
El umbral de decision primario en el parametro vinculado con el criterio de decision de deteccion VAD se actualiza al umbral de decision primario vad_thr.
Ademas, en correspondencia con la realizacion ejemplo ilustrada en la Figura 4, cuando el parametro vinculado con el criterio de decision de deteccion VAD incluye el umbral de decision primario, la etapa 102 puede realizarse concretamente en las formas siguientes.
Un nivel de fluctuacion flux_idx correspondiente a la media movil a largo plazo de MSSNR de la trama de ruido de fondo actual fluxbgd es objeto de adquisicion y un nivel snr_idx correspondiente a la relacion SNR snr de la trama de ruido de fondo actual es tambien objeto de adquisicion.
Un umbral de decision primario thr_tbf[snr_idx][flux_idx] correspondiente al nivel de fluctuacion adquirido flux_idx y el nivel de relacion SNR lsnr_idx simultaneamente es objeto de busqueda.
El umbral de decision primario en el parametro vinculado con el criterio de decision se actualiza al umbral de decision primario buscado thr_tbl[snr_idx][flux_idx].
Despues de la media movil a largo plazo de MSSNR de la trama de ruido de fondo actual fluxbgd y la relacion SNR snr correspondan a niveles correspondientes, el aparato para la deteccion VAD solamente necesita memorizar el mapeado de correspondencia entre el nivel de fluctuacion, el nivel de relacion SNR y el umbral de decision primario. La cantidad de datos del nivel de fluctuacion y del nivel de SNR es mucho mas pequena que los datos de fluxbgd y snr que pueden cubrirse, con el fin de reducir el espacio de almacenamiento del aparato VAD ocupado por el mapeado de correspondencia en mayor medida y utilizar eficientemente el espacio de almacenamiento.
5
10
15
20
25
30
35
40
45
50
55
60
A modo de ejemplo, la media movil a largo plazo de MSSNR de la trama de ruido de fondo actual fluxbgd puede dividirse en tres niveles de fluctuacion en conformidad con valores, en los que flux_idx representa el nivel de fluctuacion de fluxbgd, y flux_idx puede establecerse a 0, 1, y 2, que representan una baja fluctuacion, fluctuacion media y alta fluctuacion, respectivamente. En conformidad con un ejemplo, el valor de flux_idx se determina en la forma siguiente:
Si fluxbgd<3.5, flux_idx=0.
Si 3.5<=fluxbgd<6, flux_idx=1.
Si fluxbgd>=6, flux_idx=2.
Analogamente, una relacion SNR snr de trama de ruido de fondo actual a largo plazo de la senal SNR snr se divide en cuatro niveles de relacion de SNR en conformidad con los valores, en donde snr_idx representa un nivel de relacion SNR snr, y snr_idx puede establecerse a 0, 1, 2, y 3 para representar SNR baja, SNR media, SNR alta y SNR mas alta, respectivamente.
Ademas, el nivel de fluctuacion flux_idx correspondiente a la media movil a largo plazo de MSSNR de la trama de ruido de fondo actual fluxbgd es objeto de adquisicion y una tendencia de decision op_idx correspondiente al rendimiento de trabajo actual del aparato para VAD que realiza la de decision de deteccion VAD sobre la senal de entrada puede adquirirse tambien cuando el nivel de SNR snr_idx correspondiente a la relacion SNR de la trama de ruido de fondo actual, es decir, con tendencia a decidir que la trama actual es una trama focal o una trama de ruido de fondo. Mas concretamente, el rendimiento de trabajo actual del aparato para VAD puede incluir la econoirna de ancho de banda por la calidad de codificacion vocal despues del inicio de VAD y la VAD propiamente dicha. En correspondencia, un umbral de decision primario vadjthr = thr_tbf[snrjdx][fluxjdx][opjdx] correspondiente al nivel de fluctuacion flux_idx, el nivel de SNR snr_idx, y el nivel de rendimiento op_idx pueden ser objeto de consulta y el umbral de decision primario en el parametro vinculado con el criterio de decision de deteccion vAd se actualiza para el umbral de decision primario vadjthr =thr_tbl[snrjdx][fluxjdx][opjdx].
La actualizacion adaptativa se realiza, ademas, sobre el umbral de decision primario en el parametro vinculado con el criterio de decision de deteccion VAD en combinacion con la tendencia de decision correspondiente al rendimiento de trabajo actual del aparato para VAD, con el fin de hacer el criterio de decision de deteccion VAD mas aplicable a un aparato espedfico para VAD, con lo que se adquiere un rendimiento de decision VAD mas alto que es mas aplicable a un entorno espedfico, mejorando todavfa mas la eficiencia de la decision de VAD y la exactitud de dicha decision y aumentando la utilizacion de recursos de ancho de banda de canal limitados.
Cualquiera o mas de los parametros vinculados con el criterio de decision de deteccion VADs: el umbral de decision primario, la longitud de resaca y la condicion de iniciacion de la resaca de voz pueden ser ajustados dinamicamente, ademas, en conformidad con el nivel de ruido de fondo en la senal de entrada. FIG. 5 es un diagrama de flujo de un ejemplo de ajuste dinamico de un parametro vinculado con el criterio de decision de deteccion VAD en conformidad con un nivel de ruido de fondo y este ejemplo puede realizarse concretamente por un AMR. Segun se ilustra en la Figura 5, el proceso incluye las etapas siguientes:
Etapa 501: Dividir la senal de entrada en N sub-bandas en el dominio de la frecuencia, y calcular los niveles level(i) (en donde i=0, 1, 2...N-1) en cada sub-banda respectivamente para cada senal de entrada de trama. Al mismo tiempo, los niveles bckr_level(i) (en donde i=0, 1, 2...N-1) del ruido de fondo en la senal de entrada en cada sub- banda se estiman de forma continua.
J w-i
noise _ level - — ^bckr _ level(i)
N i=o
Representa el nivel de la trama de ruido de fondo actual.
Etapa 502: Calcular una relacion SNR snr(i) de la trama actual en cada sub-banda utilizando la formula.
imagen1
Etapa 503: Adquirir una suma de SNR de la trama actual snr_sum utilizando la formula snjsum = 'Zsnr(i), y el valor SNR de la trama actual snr_sum es el parametro de decision primario de la deteccion VAD. Al mismo tiempo, la condicion de iniciacion de la resaca y la longitud de resaca sobre la deteccion VAD se ajustan en conformidad con el nivel de ruido de fondo noise_level.
Un resultado de la decision medio (o denominado un primer resultado de la decision) sobre la deteccion VAD puede adquirirse comparando la suma de SNR de la trama actual snr_sum con un umbral de decision preestablecido
5
10
15
20
25
30
35
40
45
50
55
60
65
vad_thr. Mas concretamente, si la suma de SNR de la trama actual snr_sum es mayor que el umbral de decision vad_thr, el resultado de decision medio de VAD es 1, es decir, la trama actual se decide como que es una trama vocal; si la suma de SNR de la trama actual snr_sum es mas pequena o igual al umbral de decision tvad_thr, el resultado de decision medio de VAD es 0, es decir, la trama actual se decide que es una trama de ruido de fondo.
El umbral de decision vad_thr se controla por el nivel de ruido de fondo noise_level, que se decide concretamente utilizando la formula vad_thr = [(VAD_THR_HIGH - VAD_THR_LOW)/(p2 - p1)] ■ (noise_level - p1) + VAD_THR_HIGH, en donde VAD_tHr_HIGH y VAD_THR_LOW son lfmites superiores e inferiores de una gama de valores del umbral de decision vad_thr respectivamente, y p2 y pi representan niveles de ruido de fondo correspondientes a los lfmites superior e inferior del umbral de decision vad_thr respectivamente. De este modo, resulta evidente que el umbral de decision vad_thr es interpolado entre los lfmites superior e inferior en conformidad con el valor de nivel de ruido de fondo l noise_level, y esta en una relacion lineal con el nivel de ruido noise_level. Cuanto mas alto sea el ruido de fondo noise_level, tanto menor sera el umbral de decision thr_vad, de modo que una exactitud de VAD suficiente puede garantizarse tambien en el caso de un ruido de fondo mayor.
La condicion de iniciacion de la resaca vocal de la VAD se controla tambien por el nivel de ruido de fondo noise_level. La asf denominada condicion de iniciacion de la resaca vocal significa que el contador de la resaca vocal puede establecerse para tener una longitud maxima de resaca cuando se satisfaga la condicion de iniciacion de la resaca vocal correspondiente. Cuando el resultado de decision medio es 0, si se realiza una resaca vocal se determina en funcion de si el contador de la resaca es mayor que 0. Si el contador es mayor que cero, una salida final del VAD se cambia desde 0 a 1 y el contador de resaca resta 1. Si el contador de resaca es menor o igual a 0, la salida final del VAD se mantiene como 0. En el VAD del AMR, la condicion de iniciacion de la resaca es si el numero N de tramas vocales sucesivas actuales es mayor que un umbral preestablecido. Si el numero N de tramas vocales sucesivas actuales es mayor que el umbral preestablecido, se satisface la condicion de reiniciacion de la resaca y es objeto de reposicion el contador de resaca. Cuando el nivel de ruido noise_level es mayor que otro umbral preestablecido, se considera que el ruido de fondo actual es mayor y N es la condicion de inicializacion que se establecer para ser un valor mas pequeno, de modo que permita una ocurrencia mas facil de la resaca de voz. De no ser asf, cuando el nivel de ruido noise_level no es mayor que el otro umbral preestablecido, se considera que el ruido de fondo actual es mas pequeno y N se establece para ser un valor mayor, lo que hace diffcil la ocurrencia de la resaca.
Ademas, la longitud de resaca, es decir, el valor maximo del contador de la resaca vocal, se controla tambien por el nivel de ruido de fondo noise_level. Cuando el nivel de ruido de fondo noise_level es mayor que otro umbral preestablecido, se considera que el ruido de fondo es mayor, y cuando se inicia una resaca vocal, el contador de resaca puede establecerse a un valor mayor. De no ser asf, cuando el nivel de ruido de fondo noise_level no es mayor que el umbral preestablecido adicional, se considera que el ruido de fondo es mas pequeno, y cuando se inicia una resaca vocal, el contador de resaca puede establecerse para ser un valor mas pequeno.
La Figura 6 es una vista estructural esquematica de una forma de realizacion de un aparato de VAD en conformidad con la presente invencion. El aparato para VAD en conformidad con esta forma de realizacion esta configurado para realizar el metodo para VAD en conformidad con la forma de realizacion de la presente invencion. Segun se ilustra en la Figura 6, el aparato para VAD en conformidad con esta forma de realizacion incluye un modulo de adquisicion 601, de modulo de ajuste 602 y un modulo de decision 603.
El modulo de adquisicion 601 esta configurado para adquirir un valor de caractenstica fluctuante de un ruido de fondo cuando una senal de entrada es el ruido de fondo, en donde el valor de caractenstica fluctuante se utiliza para representar la fluctuacion del ruido de fondo. El modulo de ajuste 602 esta configurado para realizar un ajuste adaptativo de un parametro vinculado con el criterio de decision de deteccion VAD en conformidad con el valor de caractenstica fluctuante adquirido por el modulo de adquisicion 601. El modulo de decision 603 esta configurado para realizar una decision de deteccion VAD sobre la senal de entrada utilizando el parametro vinculado con el criterio de decision en donde el ajuste adaptativo se realiza por el modulo de ajuste 602.
Ademas, haciendo referencia a la Figura 6, el aparato para VAD en conformidad con esta forma de realizacion de la presente invencion incluye tambien un modulo de memorizacion 604, configurado para memorizar el parametro vinculado con el criterio de decision de deteccion VAD, en donde el parametro vinculado con el criterio de decision puede incluir cualquiera o mas de un umbral de decision primario, una condicion de iniciacion del resaca, una longitud de resaca y una tasa de actualizacion de un parametro a largo plazo relacionado con el ruido de fondo. En correspondencia, el modulo de ajuste 602 esta configurado para realizar un ajuste adaptativo sobre el parametro vinculado con el criterio de decision de deteccion VAD memorizado en el modulo de memorizacion 604; y el modulo de decision 603 realiza una decision de deteccion VAD sobre la senal de entrada utilizando el parametro vinculado con el criterio de decision memorizado en el modulo de memorizacion 604 en el que se realiza el ajuste adaptativo.
La Figura 7 es una vista estructural esquematica de un ejemplo del aparato para VAD. En comparacion con la forma de realizacion ilustrada en la Figura 6, en el aparato ejemplo para VAD en conformidad con este ejemplo, cuando el parametro vinculado con el criterio de decision de deteccion VAD incluye el umbral de decision primario, el modulo de ajuste 602 incluye una primera unidad de memorizacion 701, una primera unidad de busqueda 702, una primera
5
10
15
20
25
30
35
40
45
50
55
60
65
unidad de adquisicion 703, y una primera unidad de actualizacion 704. La primera unidad de memorizacion 701 esta configurada para memorizar un mapeado de correspondencia entre un valor de caractenstica fluctuante y un sesgo de fluctuacion del ruido del umbral de decision thr_bias_noise. La primera unidad de busqueda 702 esta configurada para consultar el mapeado de correspondencia entre el valor de caractenstica fluctuante y el sesgo de fluctuacion del ruido del umbral de decision thr_bias_noise a partir de la primera unidad de memorizacion 701, y adquirir un sesgo de fluctuacion del ruido del umbral de decision thr_bias_noise correspondiente a un valor de caractenstica fluctuante de un ruido de fondo, en donde el sesgo de fluctuacion del ruido del umbral de decision thr_bias_noise se utiliza para representar un valor de sesgo del umbral bajo un ruido de fondo con diferente fluctuacion. La primera unidad de adquisicion 703 esta configurada para adquirir un umbral de decision primario vad_thr utilizando la formula vadjthr = f (snr) + f2(snr)thr_bias_noise, en donde fi(snr) es un umbral de referencia correspondiente a una relacion SNR snr de una trama de ruido de fondo actual, y f2(snr) es un coeficiente de ponderacion del sesgo de fluctuacion del ruido del umbral de decision thr_bias_noise correspondiente a la relacion SNR snr de la trama de ruido de fondo actual. La primera unidad de actualizacion 704 esta configurada para actualizar el umbral de decision primario en el parametro vinculado con el criterio de decision de deteccion VAD para el umbral de decision primario vad_thr adquirido por la primera unidad de adquisicion 703.
La Figura 8 es una vista estructural esquematica de otro ejemplo de un aparato para VAD. En comparacion con la forma de realizacion ilustrada en la Figura 6, en el aparato para VAD en conformidad con este ejemplo, cuando el parametro vinculado con el criterio de decision de deteccion VAD incluye la condicion de iniciacion del resaca, el modulo de ajuste 602 incluye un segundo modulo de memorizacion 711, una segunda unidad de busqueda 712, una segunda unidad de adquisicion 713 y una segunda unidad de actualizacion 714. El segundo modulo de memorizacion 711 esta configurado para memorizar una tabla de mapeado de correspondencia de fluctuacion de longitud de trama vocal sucesiva burst_cnt_noise_tbl[] y una tabla de valor de sesgo de fluctuacion del umbral vocal determinado burst_thr_noise_tbl[], en donde la tabla de mapeado de correspondencia de fluctuacion de longitud de trama burst_cnt_noise_tbl[] incluye un mapeado de correspondencia entre un valor de caractenstica fluctuante y una longitud de trama vocal sucesiva, y la tabla de valor de sesgo de fluctuacion del umbral vocal determinado burst_thr_noise_tbl[] incluye un mapeado de correspondencia entre un valor de caractenstica fluctuante y un umbral vocal determinado. La segunda unidad de busqueda 712 esta configurada para consultar una longitud de trama vocal sucesiva burst_cnt_noise_tbl[valor de caractenstica fluctuante] correspondiente al valor de caractenstica fluctuante del ruido de fondo a partir de la tabla de mapeado de correspondencia de fluctuacion de ruido de longitud de trama vocal sucesiva burst_cnt_noise_tbl[] memorizada por la segunda unidad de memorizacion 711 y se consulta un umbral vocal determinado burst_thr_noise_tbl[valor de caractenstica fluctuante] correspondiente al valor de caractenstica fluctuante del ruido de fondo a partir de la tabla de sesgo del umbral en conformidad con la fluctuacion del ruido burst_thr_noise_tbl[]. La segunda unidad de adquisicion 713 esta configurada para adquirir un umbral de magnitud de trama vocal sucesiva M utilizando la formula M = f3(snr) + f4(snr)burst_cnt_noise_tbl[valor de caractenstica fluctuante], y para adquirir un umbral de trama vocal determinado burst_thr utilizando la formula burst_thr = f5(snr)+f6(snr)burst_thr_noise_tbl[valor de caractenstica fluctuante], en donde f3(snr) es un umbral de magnitud de referencia correspondiente a la relacion SNR snr de la trama de ruido de fondo actual, f4(snr) es un coeficiente de ponderacion de la longitud de trama vocal sucesiva burst_cnt_noise_tbl[valor de caractenstica fluctuante] correspondiente a la relacion SNR snr de la trama de ruido de fondo actual, fs(snr) es un umbral de trama vocal de referencia correspondiente a la relacion SNR snr de la trama de ruido de fondo actual, y f6(snr) es un coeficiente de ponderacion del umbral vocal determinado burst_thr_noise_tbl[valor de caractenstica fluctuante] correspondiente a la relacion SNR snr de la trama de ruido de fondo actual. La segunda unidad de actualizacion 714 esta configurada para actualizar la condicion de iniciacion de la resaca vocal en el parametro vinculado con el criterio de decision de deteccion VAD en conformidad con el umbral de magnitud de trama vocal sucesiva My el umbral de trama vocal determinado burst_thr adquirido por la segunda unidad de adquisicion 713.
La Figura 9 es una vista estructural esquematica detallada de la forma de realizacion del aparato para VAD en conformidad con la presente invencion. El parametro vinculado con el criterio de decision de deteccion VAD incluye la longitud de resaca, y el modulo de ajuste 602 incluye una tercera unidad de memorizacion 721, una tercera unidad de busqueda 722, una tercera unidad de adquisicion 723 y una tercera unidad de actualizacion 724. La tercera unidad de memorizacion 721 esta configurada para memorizar una tabla de mapeado de correspondencia de la fluctuacion de ruido de longitud de resaca hangover_noise_tbl[], en donde la tabla de mapeado de correspondencia de la fluctuacion de ruido de longitud de resaca hangover_noise_tbl[] incluye un mapeado de correspondencia entre un valor de caractenstica fluctuante y a longitud de resaca. La tercera unidad de busqueda 722 esta configurada para consultar una longitud de resaca hangover_nosie_tbl[valor de caractenstica fluctuante] correspondiente al valor de caractenstica fluctuante del ruido de fondo a partir de la tabla de mapeado de correspondencia de la fluctuacion de ruido de longitud de resaca hangover_noise_tbl[] que se memoriza por la tercera unidad de memorizacion 721. La tercera unidad de adquisicion 723 esta configurada para adquirir un valor maximo de reposicion del contador de resaca hangover_max utilizando la formula hangover_max = f7(snr) + f8(snr) • hangover_nosie_tbl[valor de caractenstica fluctuante], en donde fz(snr) es un valor de reposicion de referencia correspondiente a la relacion SNR snr de la trama de ruido de fondo actual, y fs(snr) es un coeficiente de ponderacion de la longitud de resaca hangover_nosie_tbl[valor de caractenstica fluctuante] correspondiente a la relacion SNR snr de la trama de ruido de fondo actual. La tercera unidad de actualizacion 724 esta configurada para actualizar la longitud de resaca en el parametro vinculado con el criterio de decision de deteccion VAD para el valor maximo de reposicion del contador de resaca calculado hangover_max adquirido por la tercera unidad de adquisicion 723.
5
10
15
20
25
30
35
40
45
50
55
60
La Figura 10 es una vista estructural esquematica de otro ejemplo de un aparato para VAD. El aparato PA 223A VAD en conformidad con este ejemplo, puede configurarse para poner en practica el metodo para VAD del ejemplo ilustrado en la Figura 2. En este ejemplo, el valor de caractenstica fluctuante es concretamente un valor cuantizado idx de la media movil a largo plazo hb_noise_mov de una entrc^a espectral del ruido blanqueado de fondo. En correspondencia, el modulo de adquisicion 601 incluye una unidad de recepcion 731, una primera unidad de procesamiento de division 732, una unidad de decision 733, una primera unidad de calculo 734, una unidad de blanqueado 735, una cuarta unidad de adquisicion 736, una quinta unidad de adquisicion 737 y una unidad de procesamiento de cuantizacion 738. La unidad de recepcion 731 esta configurada para recibir una trama actual de la senal de entrada. La primera unidad de procesamiento de division 732 esta configurada para dividir la trama actual de la senal de entrada recibida por la unidad de recepcion 731 en N sub-bandas en un dominio de la frecuencia, en donde N es un numero entero mayor que 1, y las energfas enrg(i) (en donde i=0, 1,..., N-1) de las N sub-bandas se calculan respetivamente. La unidad de decision 733 esta configurada para decidir si la trama actual de la senal de entrada recibida por la unidad de recepcion 731 es una trama de ruido de fondo en conformidad con el criterio de decision de deteccion VAD. La primera unidad de calculo 734 esta configurada para calcular una energfa de media movil a largo plazo enrg_n(i) de la trama de ruido de fondo respectivamente en las N sub-bandas utilizando la formula enrg_n(i) = a • enrg_n + (1- a) • enrg(i) cuando la trama actual es una trama de ruido de fondo, en donde a es un coeficiente de olvido para controlar una tasa de actualizacion de la energfa de media movil a largo plazo enrg_n(i) de la trama de ruido de fondo respectivamente en las N sub-bandas y enrg_n es una energfa de la trama de ruido de fondo. La unidad de blanqueado 735 esta configurada para blanquear un espectro de la trama de ruido de fondo actual utilizando la formula enrg_w(i) = enrg(i) / enrg_n(i), y para adquirir una energfa enrg_w(i) del ruido blanqueado de fondo en una i-esima sub-banda. La cuarta unidad de adquisicion 736 esta configurada para adquirir
N-l
hb = P, ■ loS A ,
una entropia espectral del ruido blanqueado de fondo hb utilizando la formula i=0 en donde
N-l
pt = enrg w(i)/^enrg w(i) .
i=o La quinta unidad de adquisicion 737 esta configurada para adquirir una media movil a
largo plazo hb_noise_mov de una entropfa espectral del ruido blanqueado de fondo utilizando la formula hb_noise_mov = (5 • hb_noise_mov+ (1 - 5) • hb, en donde p es un factor de olvido para controlar una tasa de actualizacion de la media movil a largo plazo hb_noise_mov de una entropfa espectral del ruido blanqueado de fondo. La unidad de procesamiento de cuantizacion 738 esta configurada para cuantizar la media movil a largo plazo hb_noise_mov de una entropfa espectral del ruido blanqueado de fondo utilizando la formula idx = \(hb_noise_mov - A) / B\, con el fin de adquirir un valor cuantizado idx, en donde Ay B son valores preestablecidos y pueden ser valor empmcos seleccionados en conformidad con las demandas reales.
La Figura 11 es una vista estructural esquematica de otro ejemplo de un aparato para VAD. Cuando una tasa de actualizacion del parametro a largo plazo relacionado con el ruido de fondo incluye la tasa de actualizacion de una energfa media movil a largo plazo enrg_n(i) del ruido de fondo, en comparacion con el ejemplo ilustrado en la Figura 10, en el aparato para VAD en conformidad con este ejemplo, el modulo de ajuste 602 incluye una cuarta unidad de memorizacion 741, una cuarta unidad de busqueda 742 y una cuarta unidad de actualizacion 743. La cuarta unidad de memorizacion 741 esta configurada para memorizar una tabla de tasa de actualizacion de ruido de fondo alpha_tbl[], en donde la tabla de tasa de actualizacion del ruido de fondo alpha_tbl[] incluye un mapeado de correspondencia entre el valor cuantizado y el coeficiente de olvido de la tasa de actualizacion de la energfa de media movil a largo plazo enrg_n(i). La cuarta unidad de busqueda 742 esta configurada para consultar la tabla de tasa de actualizacion del ruido de fondo alpha_tbl[] desde la cuarta unidad de memorizacion 741, y para adquirir un coeficiente de olvido a de la tasa de actualizacion de la energfa de media movil a largo plazo enrg_n(i) correspondiente al valor cuantizado idx del ruido de fondo. La cuarta unidad de actualizacion 743 esta configurada para utilizar el coeficiente de olvido a adquirido por la cuarta unidad de busqueda 742 como un coeficiente de olvido para controlar la tasa de actualizacion de la energfa de media movil a largo plazo enrg_n(i) de la trama de ruido de fondo respectivamente en las N sub-bandas.
La Figura 12 es una vista estructural esquematica de otro ejemplo de un aparato para la VAD. Cuando la tasa de actualizacion del parametro a largo plazo relacionado con el ruido de fondo incluye una tasa de actualizacion de la media movil a largo plazo hb_noise_mov de una entropfa espectral del ruido blanqueado de fondo, en comparacion con el ejemplo ilustrado en la Figura 10, en el aparato para VAD en conformidad con este ejemplo, el modulo de ajuste 602 incluye una quinta unidad de memorizacion 744, una quinta unidad de busqueda 745 y una quinta unidad de actualizacion 746. La quinta unidad de memorizacion 744 esta configurada para memorizar una tabla de tasa de actualizacion de fluctuacion de ruido de fondo beta_tbl[], en donde el tabla de tasa de actualizacion de fluctuacion de ruido de fondo beta_tbl[] incluye un mapeado de correspondencia entre el valor cuantizado y el factor de olvido de la tasa de actualizacion de la media movil a largo plazo hb_noise_mov. La quinta unidad de busqueda 745 esta configurada para consultar la tabla de tasa de actualizacion de fluctuacion de ruido de fondo beta_tbl[] desde la quinta unidad de memorizacion 744, y para adquirir un factor de olvido p de la tasa de actualizacion de la media movil a largo plazo hb_noise_mov correspondiente al valor cuantizado idx del ruido de fondo. La quinta unidad de actualizacion 746 esta configurada para usar el factor de olvido p adquirido por la quinta unidad de busqueda 745 como un factor de olvido para controlar la tasa de actualizacion de la media movil a largo plazo hb_noise_mov de
5
10
15
20
25
30
35
40
45
50
55
una entrc^a espectral del ruido blanqueado de fondo.
La Figura 13 es una vista estructural esquematica de una octava forma de realizacion del aparato para VAD en conformidad con la presente invencion. El aparato para VAD en conformidad con esta forma de realizacion puede configurarse para poner en practica el metodo para VAD en la forma de realizacion ilustrada en la Figura 3 de la presente invencion. En esta forma de realizacion, el valor de caractenstica fluctuante es concretamente una media movil a largo plazo de la relacion SNR de la trama de ruido de fondo snrn_mov. En correspondencia, el modulo de adquisicion 601 incluye la unidad de recepcion 731, la unidad de decision 733 y una sexta unidad de adquisicion 751. La unidad de recepcion 731 esta configurada para recibir una trama actual de la senal de entrada. La unidad de decision 733 esta configurada para decidir si la trama actual de la senal de entrada recibida por la unidad de recepcion 731 es una trama de ruido de fondo en conformidad con el criterio de decision de deteccion VAD. La sexta unidad de adquisicion 751 esta configurada para adquirir una media movil a largo plazo de la relacion SNR de la trama de ruido de fondo snrn_mov en conformidad con la formula snrn_mov = k • snrn_mov + (1-k) • snr en funcion de un resultado de decision de la unidad de decision 733 cuando la trama actual es una trama de ruido de fondo, en donde snr es una relacion SNR de la trama de ruido de fondo actual, y k es un factor de olvido para controlar una tasa de actualizacion de la media movil a largo plazo de la relacion SNR de trama de ruido de fondo snrn_mov.
Ademas, haciendo referencia a la Figura 13, cuando la tasa de actualizacion del parametro a largo plazo relacionado con el ruido de fondo incluye la tasa de actualizacion de la media movil a largo plazo snrn_mov, el modulo de ajuste 602 puede incluir una unidad de control 752, configurada para establecer diferentes valores para el factor de olvido k para controlar la tasa de actualizacion de la media movil a largo plazo de la relacion SNR de la trama de ruido de fondo snrn_mov cuando la relacion SNR snr de la trama de ruido de fondo actual es mayor que una media snrn de SNRs de las ultimas n tramas de ruido de fondo y cuando la relacion SNR snr de la trama de ruido de fondo actual es menor que el valor medio snrn de SNRs de las ultimas n tramas de ruido de fondo.
La Figura 14 es una vista estructural esquematica de otro ejemplo de un aparato para VAD. El aparato para VAD en conformidad con este ejemplo puede configurarse para poner en practica el metodo para VAD en el ejemplo ilustrado en la Figura 4. En este ejemplo, el valor de caractenstica fluctuante es concretamente una trama de ruido de fondo MSSNR media movil a largo plazo fluxbgd. En correspondencia, el modulo de adquisicion 601 incluye la unidad de recepcion 731, la unidad de decision 733, una segunda unidad de procesamiento de division 761, una segunda unidad de calculo 762, una tercera unidad de calculo 763, una unidad de modificacion 764, una septima unidad de adquisicion 765 y una cuarta unidad de calculo 766. La unidad de recepcion 731 esta configurada para recibir una trama actual de la senal de entrada. La unidad de decision 733 esta configurada para decidir si la trama actual de la senal de entrada recibida por la unidad de recepcion 731 es una trama de ruido de fondo en conformidad con el criterio de decision de deteccion VAD. La segunda unidad de procesamiento de division 761 esta configurada para dividir el espectro de FFT de la trama de ruido de fondo actual espectro en H sub-bandas en conformidad con el resultado de decision de la unidad de decision 733 cuando la trama actual es una trama de ruido de fondo, en donde H es un numero entero mayor que 1 y para calcular las energias Eband(i) (en donde i=0, 1,..., H-1)
n i(i)
(0 ~ T7X 77. , 7 ^ Sj + (1 - p)Eba>lt! old (/),
«u)-/(n + l nr, *
de i sub-bandas respetivamente utilizando la formula ‘ w en
donde l(i) y h(i) representan un punto de secuencia de FFT con la mas baja frecuencia y un punto de frecuencia de FFT con la mas alta frecuencia en una i-esima sub-banda respectivamente, Sj representa una energfa de un j--esimo punto de frecuencia en el espectro de FFT, Eband_old(i) representa una energfa de la i-esima sub-banda en una trama anterior de la trama de ruido de fondo actual y P es una constante preestablecida, que puede establecerse concretamente en conformidad con valores empiricos. La segunda unidad de calculo 762 esta configurada para
~E (7)
actualizar una media movil a largo plazo de ruido de fondo ’ usando la energia de la i-esima sub-banda en
una trama de ruido de fondo anterior utilizando la formula ^-q-E^ n(i)+{\-q) Eimd{i) en ^^g q es una constante preestablecida y puede establecerse concretamente en funcion de valores empiricos. La tercera unidad de calculo 763 esta configurada calcular una relacion SNR snr(i) de i-esima sub-banda en la trama de ruido
de fondo actual respetivamente utilizando la formula snr(0 = 10 log( it w (/)/■£ w_,0» \_a unidad de modificacion 764 esta configurada para modificar la relacion snr(i) de la i-esima sub-banda en la trama de ruido de fondo actual respetivamente utilizando la formula
msnr(i) =
MAX\MIN[Snr® , 1], 0]
MAX[MIN[^^~, 11, 0]
l e primer conjunto
j
i e segundo conjunto
en donde msnr(i) es la relacion SNR snr de la i-esima sub-banda modificada, C1 y C2 son constantes reales preestablecidas mayores que 0 y los valores en el primer conjunto y en el segundo conjunto forman un conjunto [0,
5
10
15
20
25
30
35
40
45
50
55
60
H-1], La septima unidad de adquisicion 765 esta configurada para adquirir una trama de ruido de fondo actual
H-L
MSSNR =^msnr(i).
MSSNR utilizando la formula 1=0 La cuarta unidad de calculo 766 esta configurada para calcular
una media movil a largo plazo de MSSNR de la trama de ruido de fondo actual fluxbgd utilizando la formula fluxbgd = r• fluxbgd +(1- r)MSSNR, en donde r es un coeficiente de olvido para controlar una tasa de actualizacion de la media movil a largo plazo de MSSNR de la trama de ruido de fondo actual fluxbgd.
La Figura 15 es una vista estructural esquematica de otro ejemplo de un aparato para VAD. En comparacion con el aparato para VAD en el ejemplo ilustrado en la Figura 14, en el aparato para VAD en conformidad con este ejemplo, cuando el parametro vinculado con el criterio de decision de deteccion VAD incluye el umbral de decision primario, el modulo de ajuste 602 incluye la primera unidad de memorizacion 701, la primera unidad de busqueda 702, la primera unidad de adquisicion 703 y la primera unidad de actualizacion 704. La primera unidad de memorizacion 701 esta configurada para memorizar un mapeado de correspondencia entre un valor de caractenstica fluctuante y un sesgo de fluctuacion del ruido del umbral de decision thr_bias_noise. La primera unidad de busqueda 702 esta configurada para consultar el mapeado de correspondencia entre el valor de caractenstica fluctuante y el sesgo de fluctuacion del ruido del umbral de decision thr_bias_noise desde la primera unidad de memorizacion 701 y para adquirir un sesgo de fluctuacion del ruido del umbral de decision thr_bias_noise correspondiente a un valor de caractenstica fluctuante de un ruido de fondo, en donde el sesgo de fluctuacion del ruido del umbral de decision thr_bias_noise se utiliza para representar un valor de sesgo del umbral bajo un ruido de fondo con diferentes fluctuacion. La primera unidad de adquisicion 703 esta configurada para adquirir un umbral de decision primario vad_thr utilizando la formula vad_thr = f1(snr) + f2(snr)• thr_bias_noise, en donde f (snr) es un umbral de referencia correspondiente a una relacion SNR snr de una trama de ruido de fondo actual, y f2(snr) es un coeficiente de ponderacion de un sesgo de fluctuacion del ruido del umbral de decision thr_bias_noise correspondiente a la relacion SNR snr de la trama de ruido de fondo actual. La primera unidad de actualizacion 704 esta configurada para actualizar el umbral de decision primario en el parametro vinculado con el criterio de decision de deteccion VAD para el umbral de decision primario vad_thr adquirido por la primera unidad de adquisicion 703.
La Figura 16 es una vista estructural esquematica de otro ejemplo para un aparato para VAD. En comparacion con el aparato para VAD en el ejemplo ilustrado en la Figura 14, el aparato para VAD en conformidad con este ejemplo, cuando el parametro vinculado con el criterio de decision de deteccion VAD incluye el umbral de decision primario, el modulo de ajuste 602 incluye una sexta unidad de memorizacion 767, una octava unidad de adquisicion 768, una sexta unidad de busqueda 769 y una sexta unidad de actualizacion 770. La sexta unidad de memorizacion 767 esta configurada para memorizar una tabla de umbral de decision primario thr_tbl[], en donde la tabla de umbral de decision primario thr_tbl[] incluye un mapeado de correspondencia entre el nivel de fluctuacion, el nivel de SNR, y el umbral de decision primario vad_thr. La octava unidad de adquisicion 768 esta configurada para adquirir el nivel de fluctuacion flux_idx correspondiente a la media movil a largo plazo de MSSNR de la trama de ruido de fondo actual fluxbgd calculada por la cuarta unidad de calculo 766, y adquirir el nivel de SNR snr_idx correspondiente a la relacion SNR snr de la trama de ruido de fondo actual. La sexta unidad de busqueda 769 esta configurada para buscar un umbral de decision primario thr_tbf[snr_idx][flu_idx] que corresponde simultaneamente al nivel de fluctuacion flux_idx y el nivel SNR snr_idx a partir de la tabla del umbral de decision primario thr_tbl[] memorizada por la sexta unidad de memorizacion 767. La sexta unidad de actualizacion 770 esta configurada para actualizar el umbral de decision primario en el parametro vinculado con el criterio de decision para el umbral de decision primario thr_tbl[snr_idx][flux_idx] buscado por la sexta unidad de busqueda.
Ademas, en el aparato para VAD ilustrado en la Figura 16, la tabla del umbral de decision primario thr_tbl[] puede incluir concretamente un mapeado entre el nivel de fluctuacion, el nivel de SNR, la tendencia de la decision, y el umbral de decision primario vad_thr. En correspondencia, la octava unidad de adquisicion 768 esta configurada, ademas, para adquirir una tendencia de decision op_idx correspondiente al rendimiento de trabajo actual del aparato para VAD que realiza la decision de VAD, es decir, esta propenso a decidir la trama actual para ser una trama vocal o una trama de ruido de fondo. Mas concretamente, el rendimiento del trabajo actual del aparato para VAD puede incluir la econoirna de ancho de banda por la calidad de codificacion de voz despues del inicio de VAD y de la VAD propiamente dicha. La sexta unidad de busqueda 769 esta configurada concretamente para buscar un umbral de decision primario vad_thr =thr_tbl[snrjdx][flux_idx][op_idx] correspondiente al nivel de fluctuacion flux_idx, el nivel de snr_idx, y el nivel de rendimiento op_idx simultaneamente a partir de la tabla del umbral de decision primario thr_tbl[] memorizado por la sexta unidad de memorizacion 767. La sexta unidad de actualizacion 770 esta configurada concretamente para actualizar el umbral de decision primario en el parametro vinculado con el criterio de decision para el umbral de decision primario vad_thr = thr_tbl[snrjdx][flux_idx][opjdx] buscado por la sexta unidad de busqueda 769.
Ademas, en el aparato para VAD en conformidad con una forma de realizacion preferida de la presente invencion, esta incluido un modulo de control 605, configurado para ajustar dinamicamente el parametro vinculado con el criterio de decision de VAD que es: la longitud de resaca vocal en conformidad con el nivel de ruido de fondo en la serial de entrada. La Figura 16 ilustra una realizacion ejemplo. Mas concretamente, cualquiera o mas parametros vinculados con el criterio de decision de deteccion de VAD: el umbral de decision primario, la longitud de resaca vocal, y la condicion de iniciacion de resaca vocal pueden ajustarse dinamicamente con el proceso en la forma de
5
10
15
20
25
realizacion ilustrada en la Figura 5.
Un codificador puede incluir concretamente el aparato para VAD en conformidad con cualquier forma de realizacion ejemplo ilustrada en las Figuras 6 a 16 de la presente invencion.
Los expertos en esta tecnica deben entender que la totalidad o una parte de las etapas del metodo en conformidad con la forma de realizacion de la presente invencion pueden ponerse en practica mediante un programa que proporcione instrucciones a un hardware pertinente. El programa puede memorizarse en un soporte de memorizacion legible por ordenador. Cuando se ejecuta el programa se realizan las etapas del metodo en conformidad con la forma de realizacion de la presente invencion. El soporte de memorizacion puede ser cualquier soporte que sea capaz de memorizar codigos de programas, tales como una memoria ROM, una memoria RAM, un disco magnetico y un disco optico.
En conformidad con las formas de realizacion de la presente invencion, cuando una senal de entrada es un ruido de fondo, se adquiere un valor de caractenstica fluctuante utilizado para representar la fluctuacion del ruido de fondo, se realiza un ajuste adaptativo sobre un parametro vinculado con un criterio de decision de VAD en funcion del valor de caractenstica fluctuante, y se realiza una decision de VAD sobre la senal de entrada utilizando el parametro vinculado con el criterio de decision sobre el que se realiza el ajuste adaptativo. En comparacion con la tecnica anterior, se puede conseguir un mas alto rendimiento de la decision de VAD en el caso de diferentes tipos de ruidos de fondo, lo que mejora la eficiencia de decision de VAD y la exactitud de la decision, lo que permite aumentar la utilizacion de los recursos de ancho de banda de canal limitados.
Por ultimo, conviene senalar que las anteriores formas de realizacion y ejemplos se proporcionan simplemente para describir las soluciones tecnicas de la presente invencion, pero no estan previstas para limitar el alcance de la presente invencion.

Claims (4)

  1. 5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    55
    60
    65
    REIVINDICACIONES
    1. Un metodo para Deteccion de Actividad Vocal (VAD), que comprende:
    la adquisicion (101) de un valor de caractenstica fluctuante de un ruido de fondo cuando una senal de entrada es el ruido de fondo, en donde el valor de caractenstica fluctuante se utiliza para representar la fluctuacion del ruido de fondo;
    la realizacion (102) de un ajuste adaptativo sobre un parametro vinculado con el criterio de decision de deteccion VAD en conformidad con el valor de caractenstica fluctuante, en donde el parametro vinculado con el criterio de decision comprende una longitud de resaca vocal; y
    la realizacion (103) de una decision de deteccion VAD de la senal de entrada utilizando el parametro vinculado con el criterio de decision despues de que se realice el ajuste adaptativo,
    en donde el valor de la caractenstica fluctuante es concretamente una media movil a largo plazo de la relacion SNR de trama de ruido de fondo snrn_mov; y
    la adquisicion (101) del valor de caractenstica fluctuante del ruido de fondo cuando la senal de entrada es el ruido de fondo comprende:
    la recepcion (301) de una trama actual de la senal de entrada;
    la decision (302) de si la trama actual es una trama de ruido de fondo en conformidad con un criterio de decision de deteccion VAD; y
    la adquisicion (303) de una media movil a largo plazo de la relacion SNR de trama de ruido de fondo snrn_mov utilizando la formula snrn_mov = ksnrn_mov+(1-k)snr, cuando la trama actual es la trama de ruido de fondo, en donde snr es una Relacion de Senal a Ruido SNR, de una trama de ruido de fondo actual, y k es un factor de olvido para controlar una tasa de actualizacion de la media movil a largo plazo de la relacion SNR de la trama de ruido de fondo snrn_mov,
    en donde la realizacion (102) del ajuste adaptativo sobre el parametro vinculado con el criterio de decision de deteccion VAD en conformidad con el valor de caractenstica fluctuante comprende:
    la busqueda de una longitud de resaca vocal hangover_nosie_tbl[valor de caractenstica fluctuante] que corresponde al valor de la caractenstica fluctuante del ruido de fondo a partir de una tabla de mapeado de correspondencia de la fluctuacion de ruido de longitud de resaca hangover_noise_tb1[];
    la adquisicion de un valor maximo de reposicion del contador de resaca hangover_max utilizando la formula hangover_max = fy(snr)+f8(snr)^ hangover_nosie_tbl[valor de caractenstica fluctuante], en donde f7(snr) es un valor de reposicion de referencia correspondiente a una Relacion de Senal a Ruido, SNR, snr de una trama de ruido de fondo actual, y f8(snr) es un coeficiente de ponderacion de una longitud de resaca hangover_nosie_tbl[valor de caractenstica fluctuante] correspondiente a la relacion SNR snr de la trama de ruido de fondo actual; y
    la actualizacion de la longitud de resaca en el parametro vinculado con el criterio de decision para el valor maximo de reposicion del contador de resaca vocal adquirido hangover_max.
  2. 2. Un aparato para la Deteccion de Actividad Vocal (VAD), que comprende:
    un modulo de adquisicion (601), configurado para adquirir un valor de caractenstica fluctuante de un ruido de fondo cuando una senal de entrada es el ruido de fondo, en donde el valor de caractenstica fluctuante se utiliza para representar la fluctuacion del ruido de fondo;
    un modulo de ajuste (602), configurado para realizar un ajuste adaptativo en un parametro vinculado con el criterio de decision de deteccion VAD en conformidad con el valor de caractenstica fluctuante;
    un modulo de decision (603), configurado para realizar una decision de deteccion VAD sobre la senal de entrada utilizando el parametro vinculado con el criterio de decision despues de que se haya efectuado el ajuste adaptativo; y
    un modulo de memorizacion (604), configurado para memorizar el parametro vinculado con el criterio de decision de deteccion VAD, en donde el parametro vinculado con el criterio de decision comprende una longitud de resaca vocal,
    en donde el valor de caractenstica fluctuante es concretamente una media movil a largo plazo de la relacion SNR de la trama de ruido de fondo snrn_mov;
    5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    el modulo de adquisicion (601) comprende:
    una unidad de recepcion (731), configurada para recibir una trama actual de la senal de entrada;
    una unidad de decision (733), configurada para decidir si la trama actual de la senal de entrada es una trama de ruido de fondo en conformidad con un criterio de decision de deteccion VAD; y
    una sexta unidad de adquisicion (751), configurada para adquirir una media movil a largo plazo de la Relacion de Senal a Ruido, SNR, de la trama de ruido de fondo snrn_mov utilizando la formula snrn_mov = k • snrn_mov +(1-k)snr en funcion de un resultado de decision de la unidad de decision cuando la trama actual es una trama de ruido de fondo, en donde snr es una relacion SNR de la trama de ruido de fondo actual y en donde k representa un factor de olvido que permite controlar una tasa de actualizacion de la media movil a largo plazo de la relacion SNR de trama de ruido de fondo snrn_mov,
    en donde el modulo de ajuste comprende:
    una tercera unidad de memorizacion (721), configurada para memorizar una tabla de mapeado de correspondencia de la fluctuacion de ruido de longitud de resaca vocal hangover_noise_tbl[], en donde la tabla de mapeado de la fluctuacion de ruido de la longitud de resaca vocal hangover_noise_tbl[] comprende un mapeado de correspondencia entre el valor de caractenstica fluctuante y la longitud de resaca;
    una tercera unidad de busqueda (722), configurada para buscar una longitud de resaca vocal hangover_nosie_tbl[valor de caractenstica fluctuante] que corresponde al valor de caractenstica fluctuante del ruido de fondo a partir de la tabla de mapeado de correspondencia de la fluctuacion de ruido de longitud de resaca vocal hangover_noise_tbl[];
    una tercera unidad de adquisicion (723), configurada para adquirir un valor maximo de reposicion del contador de resaca vocal hangover_max utilizando la formula hangover_max = f7(snr)+ fs(snr) ■ hangover_nosie_tbl[valor de caractenstica fluctuante], en donde fz(snr) es un valor de reposicion de referencia correspondiente a una Relacion de Senal a Ruido, SNR, snr de la trama de ruido de fondo actual, y fs(snr) es un coeficiente de ponderacion de la longitud de resaca hangover_nosie_tbl[valor de caractenstica fluctuante] correspondiente a la relacion SNR snr de la trama de ruido de fondo actual; y
    una tercera unidad de actualizacion (724), configurada para actualizar la longitud de resaca en el parametro vinculado con el criterio de decision para el valor maximo de reposicion del contador de resaca vocal hangover_max adquirido por la tercera unidad de adquisicion.
  3. 3. El aparato segun la reivindicacion 2 que comprende, ademas:
    un modulo de control (605), configurado para ajustar dinamicamente el parametro vinculado con el criterio de decision que es la longitud de resaca vocal en conformidad con un nivel del ruido de fondo en la senal de entrada.
  4. 4. Un soporte de memorizacion legible por ordenador, que comprende codigos de programa informatico que cuando se ejecutan por un procesador de ordenador, hacen que el procesador de ordenador ejecute las etapas en conformidad con lo dispuesto en la reivindicacion 1.
ES10821452.9T 2009-10-15 2010-10-14 Método y aparato para realizar una detección de actividad vocal Active ES2609958T3 (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN200910207311A CN102044243B (zh) 2009-10-15 2009-10-15 语音激活检测方法与装置、编码器
CN200910207311 2009-10-15
PCT/CN2010/077726 WO2011044842A1 (zh) 2009-10-15 2010-10-14 语音激活检测方法与装置、编码器

Publications (1)

Publication Number Publication Date
ES2609958T3 true ES2609958T3 (es) 2017-04-25

Family

ID=43875847

Family Applications (2)

Application Number Title Priority Date Filing Date
ES10821452.9T Active ES2609958T3 (es) 2009-10-15 2010-10-14 Método y aparato para realizar una detección de actividad vocal
ES16152338.6T Active ES2684988T3 (es) 2009-10-15 2010-10-14 Método y aparato para realizar una detección de actividad vocal

Family Applications After (1)

Application Number Title Priority Date Filing Date
ES16152338.6T Active ES2684988T3 (es) 2009-10-15 2010-10-14 Método y aparato para realizar una detección de actividad vocal

Country Status (5)

Country Link
US (1) US7996215B1 (es)
EP (2) EP3142112B1 (es)
CN (1) CN102044243B (es)
ES (2) ES2609958T3 (es)
WO (1) WO2011044842A1 (es)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BRPI0807703B1 (pt) * 2007-02-26 2020-09-24 Dolby Laboratories Licensing Corporation Método para aperfeiçoar a fala em áudio de entretenimento e meio de armazenamento não-transitório legível por computador
US8374854B2 (en) * 2008-03-28 2013-02-12 Southern Methodist University Spatio-temporal speech enhancement technique based on generalized eigenvalue decomposition
US9838784B2 (en) 2009-12-02 2017-12-05 Knowles Electronics, Llc Directional audio capture
US8831937B2 (en) * 2010-11-12 2014-09-09 Audience, Inc. Post-noise suppression processing to improve voice quality
US8650029B2 (en) * 2011-02-25 2014-02-11 Microsoft Corporation Leveraging speech recognizer feedback for voice activity detection
CN102800322B (zh) * 2011-05-27 2014-03-26 中国科学院声学研究所 一种噪声功率谱估计与语音活动性检测方法
CN102592592A (zh) * 2011-12-30 2012-07-18 深圳市车音网科技有限公司 语音数据的提取方法和装置
CN112992188B (zh) * 2012-12-25 2024-06-18 中兴通讯股份有限公司 一种激活音检测vad判决中信噪比门限的调整方法及装置
US20140278393A1 (en) * 2013-03-12 2014-09-18 Motorola Mobility Llc Apparatus and Method for Power Efficient Signal Conditioning for a Voice Recognition System
CN106169297B (zh) * 2013-05-30 2019-04-19 华为技术有限公司 信号编码方法及设备
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
CN104347067B (zh) 2013-08-06 2017-04-12 华为技术有限公司 一种音频信号分类方法和装置
CN104424956B9 (zh) * 2013-08-30 2022-11-25 中兴通讯股份有限公司 激活音检测方法和装置
US9674607B2 (en) * 2014-01-28 2017-06-06 Mitsubishi Electric Corporation Sound collecting apparatus, correction method of input signal of sound collecting apparatus, and mobile equipment information system
CN107086043B (zh) 2014-03-12 2020-09-08 华为技术有限公司 检测音频信号的方法和装置
US20150378424A1 (en) * 2014-06-27 2015-12-31 Telefonaktiebolaget L M Ericsson (Publ) Memory Management Based on Bandwidth Utilization
CN105374352B (zh) * 2014-08-22 2019-06-18 中国科学院声学研究所 一种语音激活方法及系统
US9978388B2 (en) 2014-09-12 2018-05-22 Knowles Electronics, Llc Systems and methods for restoration of speech components
CN106816157A (zh) * 2015-11-30 2017-06-09 展讯通信(上海)有限公司 语音识别方法及装置
CN105654947B (zh) * 2015-12-30 2019-12-31 中国科学院自动化研究所 一种获取交通广播语音中路况信息的方法及系统
US9749733B1 (en) 2016-04-07 2017-08-29 Harman Intenational Industries, Incorporated Approach for detecting alert signals in changing environments
US9820042B1 (en) 2016-05-02 2017-11-14 Knowles Electronics, Llc Stereo separation and directional suppression with omni-directional microphones
WO2018169381A1 (en) * 2017-03-17 2018-09-20 Samsung Electronics Co., Ltd. Method and system for automatically managing operations of electronic device
US10861484B2 (en) * 2018-12-10 2020-12-08 Cirrus Logic, Inc. Methods and systems for speech detection
CN110047519B (zh) * 2019-04-16 2021-08-24 广州大学 一种语音端点检测方法、装置及设备
CN112270934B (zh) * 2020-09-29 2023-03-28 天津联声软件开发有限公司 一种nvoc低速窄带声码器的语音数据处理方法
CN112102818B (zh) * 2020-11-19 2021-01-26 成都启英泰伦科技有限公司 结合语音活性检测和滑动窗噪声估计的信噪比计算方法
CN113330513B (zh) * 2021-04-20 2024-08-27 华为技术有限公司 语音信息处理方法及设备
CN115472171A (zh) * 2021-06-11 2022-12-13 华为技术有限公司 编解码方法、装置、设备、存储介质及计算机程序

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5276765A (en) * 1988-03-11 1994-01-04 British Telecommunications Public Limited Company Voice activity detection
US5410632A (en) 1991-12-23 1995-04-25 Motorola, Inc. Variable hangover time in a voice activity detector
US5459814A (en) 1993-03-26 1995-10-17 Hughes Aircraft Company Voice activity detector for speech signals in variable background noise
DE69835048T2 (de) 1997-03-11 2007-05-03 Koninklijke Philips Electronics N.V. Fernsprechgerät mit einer digitalen Verarbeitungsschaltung für Sprachsignale und in diesem Gerät durchgeführtes Verfahren
EP0867856B1 (fr) 1997-03-25 2005-10-26 Koninklijke Philips Electronics N.V. "Méthode et dispositif de detection d'activité vocale"
US6480823B1 (en) * 1998-03-24 2002-11-12 Matsushita Electric Industrial Co., Ltd. Speech detection for noisy conditions
US6424938B1 (en) 1998-11-23 2002-07-23 Telefonaktiebolaget L M Ericsson Complex signal activity detection for improved speech/noise classification of an audio signal
US6453291B1 (en) * 1999-02-04 2002-09-17 Motorola, Inc. Apparatus and method for voice activity detection in a communication system
US6381570B2 (en) 1999-02-12 2002-04-30 Telogy Networks, Inc. Adaptive two-threshold method for discriminating noise from speech in a communication signal
US7031916B2 (en) * 2001-06-01 2006-04-18 Texas Instruments Incorporated Method for converging a G.729 Annex B compliant voice activity detection circuit
US7133327B2 (en) 2003-03-19 2006-11-07 Institute Of Acoustics, Chinese Academy Of Sciences Method and system for measuring the velocity of a vessel relative to the bottom using velocity measuring correlation sonar
CN100456356C (zh) * 2004-11-12 2009-01-28 中国科学院声学研究所 一种应用于语音识别系统的语音端点检测方法
CN101320559B (zh) * 2007-06-07 2011-05-18 华为技术有限公司 一种声音激活检测装置及方法

Also Published As

Publication number Publication date
US7996215B1 (en) 2011-08-09
EP2346027B1 (en) 2016-09-28
ES2684988T3 (es) 2018-10-05
CN102044243A (zh) 2011-05-04
US20110184734A1 (en) 2011-07-28
EP2346027A1 (en) 2011-07-20
EP3142112A1 (en) 2017-03-15
CN102044243B (zh) 2012-08-29
WO2011044842A1 (zh) 2011-04-21
EP3142112B1 (en) 2018-05-23
EP2346027A4 (en) 2012-03-07

Similar Documents

Publication Publication Date Title
ES2609958T3 (es) Método y aparato para realizar una detección de actividad vocal
ES2809677T3 (es) Método y sistema para codificar una señal de sonido estéreo utilizando parámetros de codificación de un canal primario para codificar un canal secundario
ES2733099T3 (es) Sistemas, procedimientos y aparatos para la detección de cambio de señal
US20200234724A1 (en) Classification Between Time-Domain Coding and Frequency Domain Coding for High Bit Rates
ES2959240T3 (es) Codificador de audio, decodificador de audio, método para proporcionar una información de audio codificada, método para proporcionar una información de audio decodificada, programa informático y representación codificada utilizando una ampliación de ancho de banda adaptada a la señal
ES2687249T3 (es) Decisión no sonora/sonora para el procesamiento de la voz
CN101681627B (zh) 使用音调规则化及非音调规则化译码的信号编码方法及设备
ES2347473T3 (es) Procedimiento y aparato de deteccion de componentes tonales de señales de audio.
ES2525427T3 (es) Un detector de voz y un método para suprimir sub-bandas en un detector de voz
TWI559298B (zh) 用於音訊信號之諧波頻寬延展之方法、裝置及電腦可讀儲存器件
RU2665889C2 (ru) Выбор процедуры маскирования потери пакета
EP2954524B1 (en) Systems and methods of performing gain control
MXPA06012579A (es) Seleccion de modelos de codificacion para codificar una senal de audio.
WO2009142466A2 (ko) 오디오 신호 처리 방법 및 장치
US9972334B2 (en) Decoder audio classification
TWI467979B (zh) 用於信號改變偵測之系統、方法及裝置
CN105765653B (zh) 自适应高通后滤波器
ES2533626T3 (es) Métodos y adaptaciones en una red de telecomunicaciones
KR20080095491A (ko) 오디오/스피치 신호 부호화 및 복호화 방법 및 장치
CN117223054A (zh) 经解码的声音信号中的多声道舒适噪声注入的方法及设备
CN116884423A (zh) 混响检测与抑制方法、系统、介质及设备