ES3036376T3

ES3036376T3 - Robustness/performance improvement for deep learning based speech enhancement against artifacts and distortion

Info

Publication number: ES3036376T3
Application number: ES22713495T
Authority: ES
Inventors: Jundai Sun; Lie Lu; Zhiwei Shuang
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2021-03-22
Filing date: 2022-03-17
Publication date: 2025-09-18
Anticipated expiration: 2042-03-17
Also published as: EP4315327A1; JP2025026831A; EP4621773A3; BR112023017453A2; KR20230138043A; JP2024510347A; US20240161766A1; EP4621773A2; WO2022203939A1; EP4315327B1; KR20250005554A; KR102749822B1; JP7562878B2

Abstract

Se describe un método para procesar una señal de audio. El método incluye un primer paso para aplicar mejora a un primer componente de la señal de audio y/o supresión a un segundo componente de la señal de audio con respecto al primer componente, y un segundo paso para modificar la salida del primer paso mediante la aplicación de un modelo basado en aprendizaje profundo a la salida del primer paso, con el fin de mejorar perceptualmente el primer componente de la señal de audio. También se describe un aparato para implementar el método, así como los programas correspondientes y los medios de almacenamiento legibles por computadora. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN

Mejora de robustez/rendimiento para potenciación de habla basada en aprendizaje profundo contra artefactos y distorsión

Campo técnico

La divulgación se refiere al campo de procesamiento de audio. En particular, la divulgación se refiere a técnicas para potenciación de audio (por ejemplo, potenciación de habla) usando modelos o sistemas de aprendizaje profundo, y a marcos para entrenar modelos o sistemas de aprendizaje profundo para potenciación de audio.Antecedentes

La potenciación de habla pretende potenciar o separar la señal de habla (componente de habla) de una señal de mezcla ruidosa. Se han desarrollado numerosos enfoques de potenciación de habla durante las últimas décadas. En los últimos años, la potenciación de habla se ha formulado como una tarea de aprendizaje supervisada, donde se aprenden patrones discriminativos de habla limpia y ruido de fondo a partir de datos de entrenamiento. Sin embargo, todos estos algoritmos sufren diferentes distorsiones de procesamiento cuando tratan con diferentes entornos acústicos. Distorsiones de procesamiento típicas incluyen pérdida de diana, interferencia y artefactos algorítmicos.

De este modo, existe una necesidad de métodos de procesamiento de audio basados en aprendizaje profundo mejorado, incluyendo potenciación de habla, que pueden reducir artefactos y/o distorsión.

El documento EP3716270 A1 describe un sistema de procesamiento de habla que comprende una entrada que recibe una señal de habla de entrada que comprende habla limpia e interferencia acústica; un primer circuito de red neuronal configurado para suprimir la interferencia acústica en la señal de habla de entrada y emitir una representación de una estimación de una señal de habla limpia; y un segundo circuito de red neuronal configurado para recibir la representación de la señal de habla limpia estimada y restaurar al menos un componente de habla del habla limpia en la señal de habla de entrada y emitir una señal de habla reconstruida. Se hace referencia también a Kim Minje et al: "Adaptive Denoising Autoencoders: A Fine-Tuning Scheme to Learn from Test Mixtures", Análisis de Variable Latente y Separación de Señal: 12.a Conferencia internacional, LVA/ICA 2015; y al documento US 2020/312343 A1 (HSIUNG WEI WEI [TW]) de 1 de octubre de 2020.

Sumario

En vista de lo anterior, de acuerdo con la invención, se proporciona un método de procesamiento de una señal de audio, así como un aparato, programa de ordenador y medio de almacenamiento legible por ordenador correspondientes, que tiene los rasgos de las respectivas reivindicaciones independientes.

Se apreciará que los rasgos del aparato y los pasos del método pueden intercambiarse de muchas maneras. En particular, los detalles del método o métodos divulgados pueden plasmarse mediante el aparato correspondiente, y viceversa, como apreciará el experto en la técnica. Además, cualquiera de las declaraciones anteriores hechas con relación al método o métodos (y, por ejemplo, sus pasos) se entiende que se aplican de igual modo al aparato correspondiente (y, por ejemplo, sus bloques, etapas, unidades), y viceversa.

Breve descripción de los dibujos

Se explican a continuación realizaciones de ejemplo de la divulgación con referencia a los dibujos que se acompañan, en los que:

<la figura>1<y la figura>2<ilustran esquemáticamente ejemplos de un aparato (por ejemplo, sistema o dispositivo)>que implementa métodos de procesamiento de audio de acuerdo con realizaciones de la divulgación, la figura 3 ilustra esquemáticamente un ejemplo de un bloque de procesamiento del aparato, de acuerdo con realizaciones de la divulgación,

<la figura 4, la figura 5, la figura>6<y la figura 7 ilustran esquemáticamente ejemplos adicionales de un aparato que>implementa métodos de procesamiento de audio de acuerdo con realizaciones de la divulgación,

<la figura>8<ilustra esquemáticamente un ejemplo de un marco para emplear un aparato que implementa métodos>de procesamiento de audio de acuerdo con realizaciones de la divulgación,

la figura 9 ilustra esquemáticamente otro ejemplo más de un aparato que implementa métodos de procesamiento de audio de acuerdo con realizaciones de la divulgación,

<la figura>10<es un diagrama de flujo que ilustra esquemáticamente un ejemplo de un método de procesamiento>de audio de acuerdo con realizaciones de la divulgación, y

<la figura>11<es un diagrama de flujo que ilustra esquemáticamente otro ejemplo de un método de procesamiento>de audio de acuerdo con realizaciones de la divulgación.

Descripción detallada

Las figuras y la siguiente descripción se refieren a realizaciones preferidas solo a modo de ilustración. Debe apreciarse que, a partir de la siguiente discusión, realizaciones alternativas de las estructuras y métodos divulgados en el presente documento serán reconocidas fácilmente como alternativas viables que pueden emplearse sin salirse de los principios de lo que se reivindica.

Se hará ahora referencia en detalle a varias realizaciones, ejemplos de las cuales se ilustran en las figuras que se acompañan. Se observa que, donde sea posible, pueden usarse números de referencia parecidos o similares en las figuras y pueden indicar funcionalidad parecida o similar. Las figuras representan realizaciones del sistema (o método) divulgado con propósitos de ilustración solamente. Un experto en la técnica reconocerá fácilmente a partir de la siguiente descripción que pueden emplearse realizaciones alternativas de las estructuras y métodos ilustrados en el presente documento sin salir de los principios descritos en el presente documento.

Como se ha observado anteriormente, la potenciación de habla basada en aprendizaje profundo convencional introduce típicamente distorsión y artefactos. Para aliviar este asunto, esta presente divulgación propuso un marco de potenciación de habla basada en aprendizaje profundo de múltiples etapas capaz de reducir artefactos y distorsión. El marco incluye dos bloques, es decir, un "separador" y un "mejorador", donde el separador se usa para realizar la primera ronda de eliminación de ruido y el mejorador subsiguiente ayuda a reducir distorsión y retirar artefactos introducidos por el separador. Además, el mejorador también puede trabajar como un "gestor" para fusionar y equilibrar la salida de un conjunto de separadores, para emitir finalmente un resultado exhaustivo. De manera notable, aunque la presente divulgación hace referencia frecuentemente a potenciación de habla (por ejemplo, en la primera etapa), se entiende que la presente divulgación se refiere en general a cualquier procesamiento de audio o potenciación de audio en la primera etapa que puede introducir distorsión y/o artefactos, tanto convencionales como basados en aprendizaje profundo.

Visión general del método

La potenciación de habla se ha formulado recientemente como una tarea de aprendizaje supervisada, donde patrones discriminativos de habla limpia y ruido de fondo se aprenden a partir de datos de entrenamiento. Actualmente, los algoritmos de potenciación de habla supervisados básicamente pueden categorizarse en dos grupos. Un grupo incluye modelos basados en el dominio de onda, y el otro grupo incluye modelos basados en el dominio transformado (dominio de transformada). La diana de los modelos basados en el dominio de onda es esencialmente la onda limpia, mientras que para los modelos basados en el dominio de transformada, la diana puede ser una máscara basada en contenedores (por ejemplo, máscara de magnitud, máscara sensible a la fase, máscara compleja, máscara binaria, etc.) o una máscara basada en bandas, dependiendo de los casos de uso respectivos.

Dada una mezcla y (por ejemplo, una señal de audio de entrada), que podría ser una señal mono, estéreo o incluso de múltiples canales, el objetivo de la potenciación de habla es separar el habla diana s (por ejemplo, componente de habla) del fondo n (por ejemplo, componente de fondo, de ruido o residual). La señal ruidosa y puede modelarse como

donde k es el índice de muestra de tiempo. La transformación del modelo anterior al dominio espectral (como un ejemplo no limitante del dominio de transformada) produce

donde Y, S, y N denotan las representaciones de tiempo-frecuencia (T-F) de y, s y n, respectivamente, mientras m y f denotan la trama de tiempo y el contenedor de frecuencia, respectivamente. La representación de T-F ó

del habla potenciada puede escribirse como

a _ „ p t a r g e t , p ínterf , p a r t i f

m ,f ~ ¿ m ,f+++ £ m , /

Ec.<( 3 )>

donde Etarget indica la distorsión diana causada por el algoritmo de potenciación de habla, mientras que Einterf y Eartif son respectivamente los términos de error de interferencias (por ejemplo, componentes residuales de T-F a partir del ruido) y artefactos (por ejemplo, artefactos de "burbujeo" o ruido musical).

Diferentes algoritmos de potenciación de habla tendrán diferentes clases de distorsiones, que también pueden correlacionarse con tipo de ruido y condición de señal a ruido. Para derivar un potenciador de habla que sea robusto contra artefactos de procesamiento, la presente divulgación propone un nuevo marco de modelo que comprende dos bloques: un bloque "separador" y un bloque "mejorador".

La figura 1 es un diagrama de bloques que ilustra esquemáticamente un aparato (por ejemplo, sistema o dispositivo) de acuerdo con este marco de modelo. El sistema 100 para potenciación de habla (o potenciación</procesamiento de audio en general) comprende el bloque separador (separador)>10<y el bloque mejorador>(mejorador) 20. Una señal de audio 5 (por ejemplo, que contiene la mezcla y mencionada anteriormente y) se introduce en el sistema 100. El separador 10 implementa una primera etapa o primer paso del marco de modelo propuesto. Se usa para realizar la primera ronda de eliminación de ruido de la señal de audio de entrada 5. Una salida 15 del separador 10 puede referirse a una versión modificada de la señal de audio de entrada 5, es decir, a una señal de audio del dominio de forma de onda (no abarcada por las reivindicaciones independientes), o a una máscara que puede aplicarse a la señal de audio en el dominio de transformada, como se describirá con más detalle más adelante.

El mejorador aguas abajo 20 implementa una segunda etapa o segundo paso del marco de modelo. Recibe y opera en la salida 15 del separador 10. El mejorador 20 procesa la salida 15 del separador 10 para reducir la distorsión diana, retirar o suprimir artefactos y/o retirar o suprimir ruido residual en la señal de audio. El mejorador 20 genera finalmente una salida 25, que puede referirse a una señal de forma de onda modificada (adicional) (no abarcada por las reivindicaciones independientes) o a una máscara modificada, como se describirá con más detalle a continuación. Debe apreciarse que el marco propuesto no se refiere a una concatenación de dos modelos separados, sino que se refiere en verdad a un único modelo unificado. El<separador>10<y el mejorador>20<son meramente dos bloques (conceptuales) en el modelo.>

Especialmente, aunque el separador 10 puede implementarse tanto como una red neuronal profunda (DNN)<como mediante un componente de procesamiento de audio tradicional, el mejorador>20<de acuerdo con la>presente divulgación se implementa mediante una red neuronal profunda, es decir, se basa en aprendizaje profundo.

Aunque hay muchos separadores 10 propuestos en la academia y la industria, la presente divulgación se<centrará principalmente en el mejorador>20<, incluyendo estructuras e implementaciones potenciales, colaboración con el separador>10<y estrategias de entrenamiento.>

En línea con lo anterior, un ejemplo de un método 1000 de procesamiento de audio (por ejemplo, potenciación de audio, tal como potenciación de habla) se ilustra esquemáticamente en el diagrama de flujo de la figura 10. El método 1000 puede ser un método de potenciación de habla, por ejemplo. Comprende los pasos S1010 y S1020.

El paso S1010 es un primer paso (por ejemplo, paso de potenciación o paso de separación) para aplicar potenciación a un primer componente de la señal de audio 5 (por ejemplo, habla) y/o aplicar supresión a un segundo componente de la señal de audio 5 (por ejemplo, ruido o fondo). Se entiende que la potenciación del primer componente puede ser relativa al segundo componente, y/o la supresión del segundo componente puede ser relativa al primer componente. Por ello, el primer paso aísla al menos parcialmente el primer componente de cualquier componente residual de la señal de audio 5. Como tal, también puede decirse que el primer paso realiza una operación de eliminación de ruido para la señal de audio 5.

Como se ha observado anteriormente, el primer paso puede ser un paso para aplicar potenciación de habla (no abarcada por las reivindicaciones independientes) a la señal de audio 5. En este caso, el primer componente es un componente de habla y el segundo componente es un componente de ruido, fondo o residual, o similar. Además, se entiende que el primer paso puede implementarse tanto mediante medios de procesamiento de audio tradicionales, como mediante una red neuronal profunda. Es decir, el primer paso puede ser un paso basado en aprendizaje profundo en algunas implementaciones, para potenciar el primer componente de la señal de audio y/o suprimir el segundo componente de la señal de audio con relación al primer componente.

El paso S1020 es un segundo paso (por ejemplo, paso de modificación o paso de mejora) de modificar una salida del primer paso aplicando un modelo basado en aprendizaje profundo a la salida del primer paso, para mejorar perceptualmente el primer componente de la señal de audio. Aquí, la mejora perceptual puede referirse a (o puede comprender) la retirada (o al menos supresión) de distorsión y/o artefactos introducidos por el primer paso, así como posiblemente cualquier componente restante no deseado (por ejemplo, ruido o fondo) no retirado por el primer paso.

Se entiende que el paso S1010 puede implementarse mediante el separador 10 mencionado anteriormente y que<el paso S>1020<puede implementarse mediante el mejorador>20<mencionado anteriormente.>

Los pasos primero y segundo (y de igual modo, el separador 10 y el mejorador 20) operan en el dominio de transformada. Un ejemplo no limitante del dominio de transformada es el dominio espectral. En general, la transformación que se traslada del dominio de forma de onda al dominio de transformada puede implicar una transformada de tiempo-frecuencia. Como tal, el dominio de transformada también puede denominarse dominio de frecuencia.

Cuando se opera en el dominio de forma de onda (no abarcado en las reivindicaciones independientes), el primer<paso (y de igual modo, el separador>10<) recibe una señal de audio del dominio de tiempo (dominio de forma de>onda) y aplica potenciación del primer componente y/o supresión del segundo componente con relación al primer componente modificando (directamente) la señal de audio del dominio del tiempo. En este caso, la salida del<primer paso (y de igual modo, del separador>10<) es una señal de audio en el dominio de la forma de onda en la>que se potencia el primer componente y/o se suprime el segundo componente.

La salida del primer paso (y de igual modo, del separador 10) es una máscara del dominio de transformada (por ejemplo, máscara basada en contenedores o máscara basada en bandas) que indica coeficientes de ponderación para contenedores o bandas individuales de la señal de audio. La aplicación de esta máscara a la señal de audio (dominio de transformada) tendría como resultado entonces la potenciación del primer componente y/o la supresión del segundo componente con relación al primer componente. Los contenedores (dominio de transformada) pueden ser contenedores de frecuencia de tiempo, por ejemplo. Además, la máscara puede ser una máscara de magnitud, una máscara sensible a fase, una máscara compleja, una máscara binaria, etc., por ejemplo. Se entiende que el método 1000 puede comprender opcionalmente un paso (inicial) de transformación de la señal de audio al dominio de transformada y/o un paso (final) para implementar la transformada inversa. De manera análoga, el aparato descrito en la presente divulgación puede incluir una etapa de transformada y una etapa de transformada inversa.

Volviendo a la figura 1, el mejorador 20 recibe la salida 15 del separador 10 como entrada. Puede tomar la salida<de una única trama o la salida de múltiples tramas desde el separador>10<.>

Para la primera opción, el mejorador 20 (y de igual modo, el segundo paso) puede trabajar en la única salida del separador 10, como se muestra en la figura 1. Por ejemplo, si la salida 15 del separador 10 es una máscara para una trama, el mejorador 20 se entrenaría en base a esta máscara de trama única. En el mismo, el separador 10<(si se implementa mediante una red neural profunda) y el mejorador>20<pueden entrenarse al mismo tiempo (es>decir, simultáneamente), o podría seguirse la estrategia de entrenamiento de dos etapas expuesta a continuación de primero entrenar el separador 10 y luego entrenar el mejorador 20. En general, puede decirse que, para la primera opción, tanto el entrenamiento como la operación del segundo paso (y de igual modo, del mejorador) pueden proceder en una premisa de trama a trama.

Para la segunda opción, el mejorador 220 (y de igual modo, el segundo paso) puede trabajar en múltiples salidas 215 del separador 210. Esta situación se ilustra esquemáticamente en la figura 2. Por ejemplo, la salida 215 del<separador>210<puede ser una máscara de una trama, y el mejorador>220<puede entrenarse en base a varias>salidas 215 del separador 210. En otras palabras, la salida 215 del separador 210 puede ser secuenciada/acumulada hasta que haya disponible un número suficientemente grande de tramas. Entonces, estas múltiples salidas 215 del separador 210 pueden alimentarse al mejorador 220 para entrenamiento. Cuando<se trabaja con esta opción, el separador>210<(si se implementa mediante una red neuronal profunda) puede>entrenarse primero.

En línea con lo anterior, puede decirse que para la segunda opción el segundo paso (y de igual modo, el mejorador) recibe una pluralidad de instancias de salida del primer paso (y de igual modo, del separador). Cada una de las instancias corresponde, por ejemplo, a una respectiva de una pluralidad de tramas de la señal de audio. Además, cada instancia puede corresponder a una máscara para una trama, o a una trama de audio. Entonces, el segundo paso aplica conjuntamente el modelo basado en aprendizaje automático a la pluralidad de instancias de salida, para mejorar perceptualmente el primer componente de la señal de audio en una o más de la pluralidad de tramas de la señal de audio. Como se ha observado anteriormente, el modelo basado en aprendizaje profundo del segundo paso puede haber sido entrenado en base a una pluralidad de instancias de la salida del primer paso y una correspondiente pluralidad de tramas de una señal de audio de referencia para la señal de audio.

En otra implementación del segundo paso, la operación y el entrenamiento del segundo paso pueden basarse en una ventana de desplazamiento de tramas que incluyen una trama dada. Como tal, el método puede mantener un historial de tramas anteriores que se han de tener en cuenta cuando se genera una salida para la trama dada. Específicamente, en esta implementación el segundo paso recibe, para procesar la trama dada de la señal de audio, una secuencia de instancias de salida del primer paso, donde cada una de las instancias corresponde a una respectiva en una secuencia de tramas de la señal de audio. Se entiende que la secuencia de tramas incluye la trama dada. Entonces, el segundo paso aplica conjuntamente el modelo basado en aprendizaje automático a la secuencia de instancias de salida, para mejorar perceptualmente el primer componente de la señal de audio en la trama dada. La trama dada puede ser la trama más reciente en la secuencia de tramas, por ejemplo.

Estructura de red de mejorador

La red de mejorador debe depender del diseño del separador y debe garantizar específicamente que la salida del separador coincide con la entrada del mejorador. Además, el mejorador también debe diseñarse en base a los asuntos específicos del separador que necesitan abordarse (por ejemplo, distorsión, artefactos, etc.). Se dispone de una amplia gama de implementaciones para el mejorador. Se ha encontrado que las siguientes implementaciones son ventajosas para los propósitos en cuestión: 1) una estructura de auto-codificador (AE) con<una capa de cuello de botella para generar una máscara blanda suave en el dominio de frecuencia,>2<) un modelo>de red neuronal recurrente (RNN)/memoria de corto a largo plazo (LSTM) que posibilita la salida de resultados suaves temporalmente, y 3) un modelo generativo para recuperar armónicos perdidos en el componente separador.

Mejorador basado en auto-codificador

La mayoría de los algoritmos de potenciación de habla basados en dominio espectral sufren artefactos causados por máscaras discontinuas, ruido residual fuerte/inestable bajo condiciones de baja SNR, y ruido residual dentro de segmentos que no son diálogo. Para abordar estos problemas, la presente divulgación propone el mejorador basado en AE mostrado esquemáticamente la figura 3. En consecuencia, el modelo basado en aprendizaje profundo que implementa el mejorador (o el segundo paso, para esa materia) comprende una arquitectura de auto-codificador. La estructura del auto-codificador tiene una etapa de codificador (o codificador) 340 y una etapa de descodificador (o descodificador) 360. Cada uno del codificador 340 y el descodificador 360 comprende una pluralidad respectiva de capas de filtro consecutivas 345, 365. El codificador 340 mapea una entrada 315 al mismo a una representación de espacio latente 350. La última capa del codificador 340 puede denominarse capa de cuello de botella. La salida de la capa de cuello de botella es la representación de espacio latente 350 mencionada anteriormente. El descodificador 360 mapea la representación de espacio latente 350 emitida por el codificador 340 de regreso al formato inicial, es decir, a una salida del descodificador 325 que tiene el mismo formato que la entrada 315 al codificador 340. De este modo, puede decirse que el codificador 340 reduce sucesivamente (es decir, de una capa a la siguiente) la dimensión de su entrada 315, y puede decirse que el descodificador 360 potencia sucesivamente la dimensión de su entrada (es decir, la representación de espacio latente 350) de regreso a la dimensión original. En consecuencia, el formato de la entrada/salida puede corresponder a una dimensión (dimensionalidad) de la entrada/salida. La entrada 315 al codificador 340 (es decir, la salida del primer paso) puede ser la máscara mencionada anteriormente y la salida 325 del descodificador 360 puede ser una máscara mejorada, por ejemplo.

En un ejemplo, el codificador 340 comprende una pluralidad de capas consecutivas 345 (por ejemplo, capas de DNN) con número de nodo sucesivamente decreciente, y el descodificador 360 también comprende una pluralidad de capas consecutivas 365 (por ejemplo, capas de DNN) con número de nodo sucesivamente creciente. Por ejemplo, el codificador 340 y el descodificador 360 pueden tener el mismo número de capas, la capa más exterior del codificador 340 puede tener el mismo número de nodos que la capa más exterior del descodificador 360, la capa siguiente a la más exterior del codificador 340 puede tener el mismo número de nodos que la capa siguiente a más la exterior del descodificador 360, y así sucesivamente, hasta las respectivas capas más interiores.

En tal estructura de auto-codificador, el codificador aprende representaciones de datos eficientes (es decir, representaciones de espacio latente) de la máscara estimada por el separador (como un ejemplo no limitante de la salida del separador) para retirar "ruido de máscara", y el descodificador genera una máscara mejorada a partir del espacio de representación latente, mapeando de regreso al espacio inicial. La máscara mejorada puede ser más suave y tener menos artefactos debido a la compresión de máscara ejecutada por el codificador. Además, tal reconstrucción de máscara mediante un mejorador basado en AE también ayudará a reparar distorsión de habla y tendrá una mejor discriminación entre habla y ruido, donde la mejor discriminación ayudará a retirar la mayoría del ruido residual dentro de los segmentos que no son de habla.

Un ejemplo no limitante específico de una implementación basada en AE del mejorador 420 se ilustra esquemáticamente en la figura 4. El separador 410 en este ejemplo se implementa mediante una red neuronal convolucional de múltiples escalas que trabaja en el dominio de T-F. Para una señal de audio 405 de 48 kHz, la entrada se transforma al dominio T-F usando 4096 transformadas de Fourier de tiempo corto (STFT) con un solapamiento del 50%. Entonces la magnitud de 2049 puntos se agrupa en 1025 bandas. Se alimentan ocho<tramas al separador 410 (es decir, la dimensión de entrada es>8<x 1025), y la diana es una máscara de magnitud>de una trama (es decir, dimensión 1 x 1025). El mejorador 420 basado en AE se implementa usando una serie de capas de DNN (por ejemplo, con 512, 256, 512 y 1025 nodos, respectivamente). El codificador de la estructura de AE aprende representaciones de 256 dimensiones de la máscara, y el descodificador reconstruye la máscara de 1025 dimensiones mejorada usando estas representaciones de 256 dimensiones. Se ha encontrado que tal mejorador puede reparar al menos parte de la distorsión diana, puede retirar además al menos parte del ruido residual, y puede aliviar al menos parte de los artefactos audibles. Generalmente, la calidad perceptual mejora significativamente mediante el mejorador basado en AE.

Mejorador basado en red neural recurrente

En vista de la discontinuidad temporal de algunos algoritmos de potenciación de habla basados en trama, el mejorador puede implementarse usando una arquitectura basada en RNN que usa múltiples salidas del separador.

Un ejemplo de tal implementación se ilustra esquemáticamente en la figura 5. El separador puede ser el mismo que para la implementación basada en AE, por ejemplo. El mejorador 520 comprende una pluralidad de capas consecutivas. En el ejemplo, estas capas son capas de unidades recurrentes de puerta (GRU) / LSTM. El separador 520 puede haber sido entrenado primero, por ejemplo con ocho tramas como entrada. En tiempo de ejecución, el separador es alimentado con 32 bloques, comprendiendo cada bloque ocho tramas y un desplazamiento de trama de una trama (de modo que se alimentan 39 tramas en total al separador 510). El separador 510 procesa 32 bloques y emite los resultados de 32 tramas en consecuencia. Estos resultados de 32 tramas se alimentan después al mejorador 520 como entrada. El mejorador 520 basado en GRU/LSTM opera en las salidas 515 del separador y ayuda a mejorar la calidad y consistencia de habla. Los nodos de la capa de salida GRU/LSTM pueden elegirse para generar el resultado final. Por ejemplo, se puede elegir una salida de una trama basada en 32 tramas de historial, o se puede elegir generar 32 tramas emitidas a la vez.

En general, el modelo basado en aprendizaje profundo del mejorador (y de igual modo, el segundo paso) puede implementar una arquitectura de red neuronal recurrente con una pluralidad de capas consecutivas. En el mismo, la pluralidad de capas pueden ser capas de tipo de memoria de corto a largo plazo o de tipo de unidad recurrente de puerta.

Mejorador basado en modelo generativo

Se ha encontrado que los métodos basados en máscaras a menudo realizan bien la separación de los componentes armónicos dominantes en el habla ruidosa, pero pueden no realizarla bien en aquellos componentes de habla que están enmascarados/degradados por ruido. Usando un modelo generativo, tal como waveNet o SampleRNN, por ejemplo, se puede ser capaz de reconstruir aquellos componentes de habla ausentes.

Un ejemplo de una implementación del mejorador usando un modelo generativo se ilustra esquemáticamente en<la figura>6<. En el ejemplo, se añade opcionalmente un transformador 630 (o ISTFT) para transformar la salida>615 del separador al dominio de forma de onda, si es necesario. El mejorador 620 usa entonces una serie de capas convolucionalmente dilatadas unidimensionales 640 con una conexión de salto 645 seguida de una capa convolucional unidimensional 660 para generar una señal de audio modificada 625 (por ejemplo, señal de diálogo modificada). Puede recuperar los componentes de habla degradados causados por el separador y también puede ayudar a retirar el ruido residual que no puede retirar el separador.

En general, el modelo basado en aprendizaje profundo del mejorador (y de igual modo, el segundo paso) puede implementar una arquitectura de modelo generativo con una pluralidad de capas convolucionales consecutivas. En el mismo, las capas convolucionales pueden ser capas convolucionales dilatadas, que comprenden opcionalmente una o más conexiones de salto.

Estrategia de entrenamiento

La presente divulgación propone dos estrategias de entrenamiento alternativas para el marco separadormejorador descrito en el presente documento. En el mismo, se supone que el separador y el mejorador comprenden o implementan cada uno un modelo basado en aprendizaje profundo, y que el entrenamiento del separador/mejorador corresponde al entrenamiento de sus respectivos modelos basados en aprendizaje profundo.

La primera estrategia de entrenamiento es una estrategia de entrenamiento de dos etapas. En una primera etapa de entrenamiento, el separador se entrena, y su pérdida correspondiente se optimizará mediante retropropagación. Una vez que el separador ha sido entrenado, todos sus parámetros son fijos (es decir, no entrenables), y la salida del separador entrenado se alimentará al mejorador. En una segunda etapa de entrenamiento, solo se entrenan los parámetros del mejorador, y la función de pérdida del mejorador se optimiza mediante retropropagación. Como tal, todo el marco puede usarse como un modelo completo mientras el separador y el mejorador se entrenan en dos etapas de entrenamiento por separado. En otras palabras, el mejorador puede considerarse como un bloque de posprocesamiento personalizado basado en aprendizaje profundo para el separador, lo que generalmente puede mejorar el rendimiento del separador.

De acuerdo con la segunda estrategia de entrenamiento, el separador y el mejorador pueden ser entrenados al mismo tiempo (es decir, simultáneamente). Un desafío y asunto importante al hacerlo puede ser garantizar que cada uno del separador y el mejorador realice su propia función respectiva, es decir, se espera que el separador extraiga la señal de habla y se espera que el mejorador mejore el rendimiento del separador. Con el fin de conseguir este objetivo, se propone una estrategia de entrenamiento "restringida", en la que la función de pérdida usada para el entrenamiento no solo considera la salida final del mejorador, sino también la salida intermedia del separador. La función de pérdida usada para el entrenamiento puede ser una función de pérdida común tanto para el modelo basado en aprendizaje profundo del separador como para el modelo de aprendizaje profundo del mejorador (respectivamente aplicado en el primer paso y el segundo paso del método de procesamiento correspondiente). Es decir, la función de pérdida se basa tanto en la salida del separador como en la salida del mejorador, además de los datos de referencia apropiados. Considerando tanto la pérdida del separador como la pérdida del mejorador, el separador puede ser entrenado hacia la separación de diálogos (o cualquier función de procesamiento de audio deseada en general), y la convergencia del mejorador se mejorará puesto que la salida del separador también converge hacia el objetivo final.

Extensiones de método

A continuación, se describirán generalizaciones, extensiones y modificaciones del aparato y métodos mencionados anteriormente.

Separadores múltiples

Un cierto número de algoritmos de potenciación de habla supervisados se han desarrollado en el pasado, cada uno con sus propias ventajas y desventajas. Por ejemplo, algunos métodos pueden trabajar bien sobre ruido estacionario, mientras que otros pueden trabajar bien sobre ruido no estacionario. Es difícil conseguir un rendimiento ideal para todos los casos de uso con sólo un modelo de potenciación de habla. Por lo tanto, la presente divulgación propone combinar múltiples potenciadores (es decir, separadores) en el marco en cuestión, como se ilustra esquemáticamente en la figura 7. El sistema 700 en esta implementación comprende una pluralidad de separadores 710-1, ..., 710-M que generan respectivas salidas output_s1, 715-1 hasta output_sM, 715-M. El mejorador 720 recibe estas salidas y puede actuar como un 'gestor' y ajustar finamente su rendimiento comparando e integrando las salidas 715-1, 715-2, ..., 715-M de los separadores 710-1, ..., 710-M. Finalmente, el mejorador 720 puede obtener una salida agregada 725 reconstruyendo y ponderando las salidas 715-1, 715-2, ..., 715-M de todos los separadores 710-1, ..., 710-M, en base a un mapeo de múltiples a uno aprendido durante el entrenamiento.

En general, el método anterior de procesamiento de audio puede comprender además uno o más primeros pasos adicionales para aplicar potenciación al primer componente de la señal de audio y/o aplicar supresión al segundo componente de la señal de audio con relación al primer componente. En el mismo, el primer paso descrita anteriormente y la uno o más primeros pasos adicionales generan salidas diferentes mutuamente (por ejemplo, por pares). Por ejemplo, estos pasos pueden usar diferentes modelos de procesamiento de audio (por ejemplo, potenciación de habla) y/o diferentes parámetros de modelo. Entonces, el segundo paso recibe una salida respectiva de cada una del uno o más primeros pasos adicionales además de la salida del primer paso, y aplica conjuntamente su modelo basado en aprendizaje profundo a la salida del primer paso y las salidas del uno o más primeros pasos adicionales, para mejorar perceptualmente el primer componente de la señal de audio. El segundo paso puede, entre otras cosas, aplicar ponderación y/o selección a las salidas del primer paso y la uno o más primeros pasos adicionales, por ejemplo. Se entiende que estas consideraciones se aplican de manera análoga a un aparato (por ejemplo, sistema o dispositivo), que comprende, además del separador y el mejorador, uno o más separadores adicionales.

Potenciación de habla tradicional con mejorador basado en aprendizaje profundo

En lo anterior se ha propuesto una estructura de modelo de aprendizaje profundo que comprende un separador y un mejorador. Los algoritmos de potenciación de habla tradicionales (por ejemplo, no basados en aprendizaje profundo) no pueden incrustarse directamente en un modelo de aprendizaje profundo. Para derivar un potenciador de habla que sea robusto frente a artefactos introducidos por métodos tradicionales, la presente<divulgación propone un marco modificado, como se muestra en la figura>8<. Este marco comprende un algoritmo>de potenciación de habla tradicional junto con un mejorador basado en aprendizaje profundo.

<Como puede verse en la figura>8<, se puede recurrir a una nueva estrategia de entrenamiento para posibilitar el>uso de métodos tradicionales como separador en el marco propuesto. Específicamente, pueden usarse uno o un conjunto de diferentes algoritmos tradicionales de potenciación de habla, y cada una de una pluralidad de señales ruidosas en un conjunto de entrenamiento 850 puede usarse como entrada 805 para procesamiento por cada uno de estos algoritmos (por ejemplo, separador o separadores 810). Posteriormente, todas las señales de habla potenciadas 815 así como las señales de habla ruidosas no procesadas originales se recopilan para formar un nuevo conjunto de entrenamiento exhaustivo 855, que entonces se usa para entrenar al mejorador basado en aprendizaje profundo 820, que genera la salida 825. En el mismo, una señal ruidosa no procesada y sus múltiples versiones potenciadas corresponden a la misma señal de habla diana. En otras palabras, el mejorador 820 tiende a aprender un mapeo de muchos a uno. Como una implementación, los métodos tradicionales pueden ser sustracción espectral o un filtro de Wiener en base a estimación de SNR a priori, etc., por ejemplo.

Mejorador usado para bandeado inteligente

Desde otro punto de vista, el mejorador basado en auto-codificador descrito anteriormente también puede considerarse relacionado con procesamiento de bandeado y desbandeado. En un algoritmo típico de procesamiento de señales, se conservarán más características de T-F para un número de bandas más alto, pero puede ser todavía necesario bandeado para reducir la complejidad del procesamiento. Sin embargo, hay muchos casos en los que no se puede conseguir un rendimiento aceptable usando bandas limitadas cuando se usan algoritmos de bandeado tradicionales (por ejemplo, banda de octava, banda de un tercio de octava, etc.). Además, es difícil evaluar con antelación qué número de bandas debe usarse con el fin de conseguir una buena nivelación entre complejidad y precisión.

Respecto al primer asunto, el mejorador basado en auto-codificador mencionado anteriormente puede usarse para implementar un esquema de bandeado automático. El marco correspondiente se ilustra esquemáticamente en la figura 9. Como tal, el mejorador se divide en dos partes, una primera parte (delantera) 920-1 para recibir una entrada 905 (por ejemplo, una señal de audio de entrada) y el bandeado automático de la misma, y una segunda parte (trasera) 920-2 para desbandeado automático. Aparte de la división, las mismas consideraciones que se hicieron anteriormente para el mejorador basado en auto-codificador también se aplican aquí. Es decir, el mejorador delantero 920-1 puede comprender una pluralidad de capas consecutivas 930 (por ejemplo, capas DNN) con número de nodos sucesivamente decreciente que finalmente se mapean a una representación de espacio latente 935 (código), y el mejorador trasero 920-2 también puede comprender una pluralidad de capas consecutivas 940 (por ejemplo, capas DNN) con número de nodos sucesivamente creciente. Por ejemplo, los mejoradores delantero y trasero 920-1, 920-2 pueden tener el mismo número de capas, la capa más exterior del mejorador delantero 920-1 puede tener el mismo número de nodos que la capa más exterior del mejorador trasero 920-2, la capa próxima a la más exterior del mejorador delantero 920-1 puede tener el mismo número de nodos que la capa próxima a la más exterior del mejorador trasero 920-2, y así sucesivamente, hasta las respectivas capas más interior. El separador 910 puede entrenarse en base al rasgo de banda inteligente aprendida por el mejorador delantero para obtener los rasgos de banda de ruido eliminado. Entonces los rasgos de banda con ruido eliminado (es decir, la representación de espacio latente 945) se alimentan al mejorador trasero para procesamiento de desbandeado, que finalmente producirá una salida basada en contenedores 925.

Respecto al segundo asunto, la dimensión del código (por ejemplo, representación latente) en el mejorador delantero (es decir, emitida mediante el mejorador delantero) puede modificarse para determinar el número de banda más apropiado. Modificando la dimensión de la representación latente, se puede evaluar el rendimiento para diferentes números de banda. En consecuencia, el número de bandas más apropiado puede seleccionarse para proporcionar una buena nivelación entre complejidad y precisión.

Como una implementación de ejemplo, puede usarse una serie de capas de DNN (por ejemplo, con 512 y 256 nodos, respectivamente) para que el mejorador delantero 920-1 agrupe una magnitud espectral de 1025 puntos (obtenida por una STFT de 2048 puntos con un solapamiento del 50%) y obtenga un rasgo de banda de 256 dimensiones. Para el mejorador trasero 920-2, se pueden usar capas de DNN con asignación de número de nodo inverso en comparación con el mejorador delantero 920-1 (por ejemplo, 256 y 512 nodos, respectivamente). El mejorador trasero 920-2 reconstruirá finalmente la salida basada en contenedores (por ejemplo, la máscara basada en contenedores) en base a la salida del separador (por ejemplo, rasgos de banda con ruido eliminado).

En general, partiendo por ejemplo del método 1000 en la figura 10, el método de procesamiento de audio mencionado anteriormente puede comprender además un tercer paso de aplicar un modelo basado en aprendizaje profundo a la señal de audio para bandeado de la señal de audio. El tercer paso se ha de realizar antes del primer paso, de modo que el orden de pasos es tercer paso - primer paso - segundo paso. El segundo paso modifica la salida del primer paso por desbandeado de la salida del primer paso. En esta configuración, el tercer y segundo paso implementan una estructura de auto-codificador para bandeado y desbandeado. Puede decirse que se basan en un único modelo basado en aprendizaje profundo o, alternativamente, puede decirse que sus modelos basados en aprendizaje profundo se han entrenado conjuntamente. Como se ha observado anteriormente, el segundo y tercer paso pueden implementar cada uno una pluralidad de capas consecutivas con número de nodos sucesivamente creciente y decreciente, respectivamente.

En línea con lo anterior, un ejemplo de un método 1100 de procesamiento de audio (por ejemplo, potenciación de audio, tal como potenciación de habla) que usa bandeado inteligente se ilustra esquemáticamente en el diagrama de flujo de la figura 11. El método 1100 puede ser un método de potenciación de habla, por ejemplo. Comprende los pasos S1110 a S1130.

En el paso S1110, se aplica un modelo basado en aprendizaje profundo a la señal de audio para bandeado de la señal de audio.

En el paso S1120, se aplica potenciación a un primer componente de la señal de audio bandeada y/o se aplica supresión con relación al primer componente a un segundo componente de la señal de audio en bandeada con relación al primer componente.

En el paso S1130, se modifica una salida de el paso de potenciación aplicando un modelo basado en aprendizaje profundo a la salida de el paso de potenciación para desbandeado de la salida del paso de potenciación, y para mejorar perceptualmente el primer componente de la señal de audio.

Se entiende que las consideraciones generales anteriores para el método de procesamiento de audio se aplican de manera análoga a un aparato (por ejemplo, sistema o dispositivo) para procesamiento de audio.

Generalización a redes neuronales generales de dos etapas

Como se ha descrito anteriormente, la segunda etapa en el marco propuesto para procesamiento de audio puede ser un mejorador para retirar artefactos y reparar la distorsión de habla. Sin embargo, la segunda etapa podría tener también otras funcionalidades, tales como implementar un detector de actividad de voz (VAD), por ejemplo. Tomando el algoritmo de VAD como ejemplo, todos los algoritmos de VAD conocidos pueden tener una precisión degradada cuando hay un ruido intenso. Es muy desafiante para estos algoritmos mostrar rendimiento robusto en la presencia de diversos tipos de ruido y/o para una baja SNR en general. Con el marco propuesto, el separador puede usarse para eliminar ruido de la mezcla (es decir, la señal de audio de entrada), y el mejorador puede usarse para realizar el VAD. Tal sistema de VAD puede realizar internamente la eliminación de ruido y de este modo será más robusto respecto a escenarios complicados (por ejemplo, ruidosos).

De este modo, el mejorador mencionado anteriormente puede sustituirse por un mejorador que realiza el VAD basado en aprendizaje profundo en la salida del separador, además de o como alternativa a retirar distorsión y/o artefactos, etc.

Además, el esquema de entrenamiento de dos pasos propuesto puede generalizarse a un cierto número de otras aplicaciones basadas en potenciación de habla, tales como ecualizadores o medidores de inteligibilidad, por ejemplo. El separador puede realizar potenciación de habla como se ha descrito anteriormente y retirar el fondo, y el mejorador puede entrenarse en base a requisitos específicos. Esto puede conseguir resultados más robustos y mejores en comparación con los resultados cuando solo se usa la entrada ruidosa original del separador. En consecuencia, el mejorador puede adaptarse específicamente de modo que el separador y el mejorador consigan conjuntamente la aplicación/operación deseada, tal como ecualizadores o medidores de inteligibilidad, por ejemplo.

Generalización a redes neuronales de múltiples etapas en cadenas de procesamiento de audio

Una cadena de tecnología de procesamiento de señales de audio madura incluye típicamente varios módulos (por ejemplo, módulos de procesamiento de audio), algunos de los cuales pueden usar métodos de procesamiento de señales tradicionales, y algunos de los cuales pueden basarse en aprendizaje profundo. Estos módulos están típicamente en cascada en serie para obtener la salida final deseada. En base al marco propuesto, cada módulo o parte del módulo en tal cadena de procesamiento de señales puede incrustarse en un modelo basado en aprendizaje profundo grande. Cuando se entrena, cada módulo puede entrenarse por turnos (es decir, separadamente y en secuencia) y su salida puede supervisarse para cumplir la conclusión deseada, hasta el final del último entrenamiento de módulo. Todo el modelo se convertirá en una cadena de tecnologías de procesamiento de audio en base a aprendizaje profundo, y los módulos trabajarán juntos como se esperaba en el modelo.

Dicho esto, la presente divulgación también se refiere a cualquier emparejamiento de un módulo de procesamiento de señales (por ejemplo, adaptado para realizar procesamiento de audio, potenciación de audio, etc.), seguido de un mejorador basado en aprendizaje profundo, entrenado para mejorar la salida del módulo de procesamiento de señales. Mejorar la salida del módulo de procesamiento de señales puede incluir uno o más de retirar artefactos, retirar distorsión y/o retirar ruido.

Dispositivo de computación de ejemplo

Un método de procesamiento de audio (por ejemplo, potenciación de habla) se ha descrito anteriormente. Adicionalmente, la presente divulgación también se refiere a un aparato (por ejemplo, sistema o dispositivo) para llevar a cabo este método. Un ejemplo de tal aparato se muestra en la figura 1. Además, en línea con el método 1000<ilustrado en la figura>10<, puede decirse que un aparato para procesar una señal de audio de acuerdo con la>presente divulgación comprende una primera etapa y una segunda etapa. La primera y segunda etapas pueden implementarse en hardware y/o software. La primera etapa está adaptada para aplicar potenciación a un primer componente de la señal de audio y/o aplicar supresión a un segundo componente de la señal de audio. La segunda etapa está adaptada para modificar una salida de la primera etapa aplicando un modelo basado en aprendizaje profundo a la salida de la primera etapa, para mejorar perceptualmente el primer componente de la señal de audio. Aparte de eso, cualquiera de las consideraciones hechas anteriormente puede aplicarse a la primera y segunda etapas.

En general, la presente divulgación se refiere a un aparato que comprende un procesador y una memoria acoplada al procesador, en el que el procesador está adaptado para llevar a cabo los pasos del método o métodos descritos en el presente documento. Por ejemplo, el procesador puede estar adaptado para implementar las etapas primera y segunda mencionadas anteriormente.

Estos aparatos mencionados anteriormente (y sus etapas) pueden implementarse mediante un ordenador servidor, un ordenador cliente, un ordenador personal (PC), un PC de tableta, un descodificador de sobremesa (STB), un asistente digital personal (PDA), un teléfono móvil, un teléfono inteligente, una aplicación web, un enrutador de red, conmutador o puente de red, o cualquier máquina capaz de ejecutar instrucciones (secuenciales o de otro modo) que especifican acciones que ha de tomar ese aparato. Además, aunque solo se ilustra un único aparato 1400 en las figuras, la presente divulgación se referirá a cualquier colección de aparatos que ejecutan individual o conjuntamente instrucciones para realizar una cualquiera o más de las metodologías discutidas en el presente documento.

La presente divulgación se refiere además a un programa (por ejemplo, programa de ordenador) que comprende instrucciones que, cuando se ejecutan por un procesador, hacen que el procesador lleve a cabo algunos o todos los pasos de los métodos descritos en el presente documento.

Aún más, la presente divulgación se refiere a un medio de almacenamiento legible por ordenador (o legible por máquina) que almacena el programa mencionado anteriormente. En este caso, la expresión "medio de almacenamiento legible por ordenador" incluye, pero no está limitado a, repositorios de datos en forma de memorias de estado sólido, medios ópticos y medios magnéticos, por ejemplo.

Interpretación y consideraciones de configuración adicionales

La presente divulgación se refiere a métodos de procesamiento de audio y aparatos (por ejemplo, sistemas o dispositivos) para procesamiento de audio. Se entiende que cualquier declaración hecha con relación a los métodos y sus pasos se aplica de igual modo y de manera análoga al aparato correspondiente y sus etapas / bloques / unidades, y viceversa.

A menos que se indique específicamente de otro modo, como es evidente a partir de las siguientes discusiones, se aprecia que a lo largo de las discusiones de la divulgación que utilizan términos tales como "procesamiento", "computación", "cálculo", "determinación", “análisis" o similares, se refieren a la acción y/o procesos de un ordenador o sistema de computación, o dispositivos de computación electrónicos similares, que manipulan y/o transforman datos representados como cantidades físicas, tales como electrónicas, en otros datos representados similarmente como cantidades físicas.

De manera similar, el término "procesador" puede referirse a cualquier dispositivo o porción de un dispositivo que procesa datos electrónicos, por ejemplo, de registros y/o memoria para transformar esos datos electrónicos en otros datos electrónicos que, por ejemplo, pueden almacenarse en registros y/o memoria. Un "ordenador" o una "máquina de computación" o una "plataforma de computación" pueden incluir uno o más procesadores.

Las metodologías descritas en el presente documento son realizables, en una realización de ejemplo, mediante uno o más procesadores que aceptan código legible por ordenador (también denominado legible por máquina) que contiene un conjunto de instrucciones que cuando se ejecutan por uno o más de los procesadores llevan a cabo al menos uno de los métodos descritos en el presente documento. Se incluye cualquier procesador capaz de ejecutar un conjunto de instrucciones (secuenciales o de otro modo) que especifiquen acciones a tomar. De este modo, un ejemplo es un sistema de procesamiento típico que incluye uno o más procesadores. Cada procesador puede incluir una o más de una CPU, una unidad de procesamiento de gráficos y una unidad de DSP programable. El sistema de procesamiento puede incluir además un subsistema de memoria que incluye una RAM principal y/o una RAM estática y/o una ROM. Puede incluirse un subsistema de bus para comunicación entre los componentes. El sistema de procesamiento puede ser además un sistema de procesamiento distribuido con procesadores acoplados por una red. Si el sistema de procesamiento requiere un visualizador, se puede incluir tal visualizador, por ejemplo, un visualizador de cristal líquido (LCD) o un visualizador de tubo de rayos catódicos (CRT). Si se requiere introducción manual de datos, el sistema de procesamiento también incluye un dispositivo de entrada tal como una o más de una unidad de entrada alfanumérica tal como un teclado, un dispositivo de control de apuntamiento tal como un ratón, y demás. El sistema de procesamiento también puede abarcar un sistema de almacenamiento tal como una unidad de disco. El sistema de procesamiento en algunas configuraciones puede incluir un dispositivo de salida de sonido, y un dispositivo de interfaz de red. El subsistema de memoria incluye de este modo un medio portador legible por ordenador que transporta código legible por ordenador (por ejemplo, software) que incluye un conjunto de instrucciones para hacer que se realicen, cuando se ejecuten por uno o más procesadores, uno o más de los métodos descritos en el presente documento. Obsérvese que cuando el método incluye varios elementos, por ejemplo varios pasos, no está implicado ningún ordenamiento de tales elementos, a menos que se indique específicamente. El software puede residir en el disco duro, o también puede residir, completamente o al menos parcialmente, dentro de la<r>A<m>y/o dentro del procesador durante la ejecución del mismo por el sistema de ordenador. De este modo, la memoria y el procesador también constituyen un medio portador legible por ordenador que transporta un código legible por ordenador. Además, un medio portador legible por ordenador puede formar, o incluirse en un producto de programa de ordenador.

En realizaciones de ejemplo alternativas, el uno o más procesadores operan como un dispositivo independiente o pueden conectarse, por ejemplo, en red a otro procesador o procesadores, en un despliegue en red, el uno o más procesadores pueden operar en la capacidad de un servidor o una máquina de usuario en un entorno de red de servidor-usuario, o como una máquina de pares en un entorno de red de par a par o distribuida. El uno o más procesadores pueden formar un ordenador personal (PC), un PC de tableta, un asistente digital personal (PDA), un teléfono móvil, una aplicación web, un enrutador, conmutador o puente de red, o cualquier máquina capaz de ejecutar un conjunto de instrucciones (secuenciales o de otro modo) que especifican acciones a tomar por esa máquina.

Obsérvese que el término "máquina" también se considerará que incluye cualquier colección de máquinas que ejecutan individual o conjuntamente un conjunto (o múltiples conjuntos) de instrucciones para realizar una cualquiera o más de las metodologías discutidas en el presente documento.

De este modo, una realización de ejemplo de cada uno de los métodos descritos en el presente documento tiene la forma de un medio portador legible por ordenador que transporta un conjunto de instrucciones, por ejemplo un programa de ordenador que es para su ejecución en uno o más procesadores, por ejemplo uno o más procesadores que son parte de la disposición de servidor web. De este modo, como apreciarán los expertos en la técnica, realizaciones de ejemplo de la presente divulgación pueden materializarse como un método, un aparato tal como un aparato de propósito especial, un aparato tal como un sistema de procesamiento de datos o un medio portador legible por ordenador, por ejemplo un producto de programa de ordenador. El medio portador legible por ordenador transporta código legible por ordenador que incluye un conjunto de instrucciones que cuando se ejecutan en uno o más procesadores hacen que el procesador o procesadores implementen un método. En consecuencia, aspectos de la presente divulgación pueden tomar la forma de un método, una realización de ejemplo completamente de hardware, una realización de ejemplo completamente de software o una realización de ejemplo que combina aspectos de software y hardware. Además, la presente divulgación puede tomar la forma de un medio portador (por ejemplo, un producto de programa de ordenador en un medio de almacenamiento legible por ordenador) que transporta un código de programa legible por ordenador materializado en el medio.

El software puede transmitirse o recibirse además a través de una red mediante un dispositivo de interfaz de red. Aunque el medio portador es en una realización de ejemplo un único medio, el término "medio portador" debe considerarse que incluye un único medio o múltiples medios (por ejemplo, una base de datos centralizada o distribuida, y/o memorias caché y servidores asociados) que almacenan el uno o más conjuntos de instrucciones. El término "medio portador" también se considerará que incluye cualquier medio que pueda almacenar, codificar o transportar un conjunto de instrucciones para su ejecución por uno o más de los procesadores y que causen que el uno o más procesadores realicen una cualquiera o más de las metodologías de la presente divulgación. Un medio portador puede adoptar muchas formas, incluyendo pero no limitado a, medios no volátiles, medios volátiles y medios de transmisión. Los medios no volátiles incluyen, por ejemplo, discos ópticos, magnéticos y discos magnetoópticos. Los medios volátiles incluyen memoria dinámica, tal como memoria principal. Los medios de transmisión incluyen cables coaxiales, hilo de cobre y fibra óptica, incluyendo los cables que comprenden un subsistema de bus. Los medios de transmisión también pueden tomar la forma de ondas acústicas o de luz, tales como las generadas durante comunicaciones de onda de radio y datos infrarrojos. Por ejemplo, el término "medio portador" se considerará, en consecuencia, que incluye, pero no está limitado a, memorias de estado sólido, un producto de ordenador materializado en medios ópticos y magnéticos; un medio que lleva una señal propagada detectable por al menos un procesador o uno o más procesadores y que representa un conjunto de instrucciones que, cuando se ejecutan, implementan un método; y un medio de transmisión en una red que lleva una señal propagada detectable por al menos un procesador del uno o más procesadores y que representa el conjunto de instrucciones.

Se entenderá que los pasos de los métodos discutidos se realizan en una realización de ejemplo mediante un procesador (o procesadores) apropiado de un sistema de procesamiento (por ejemplo, ordenador) que ejecuta instrucciones (código legible por ordenador) almacenadas en almacenamiento. También se entenderá que la divulgación no está limitada a ninguna implementación o técnica de programación particular y que la divulgación puede implementarse usando cualquier técnica apropiada para implementar la funcionalidad descrita en el presente documento. La divulgación no está limitada a ningún lenguaje de programación o sistema operativo particular.

La referencia a lo largo de esta divulgación a "una realización de ejemplo", "algunas realizaciones de ejemplo" o "una realización de ejemplo" significa que un rasgo, estructura o característica particular descrito en relación con la realización de ejemplo se incluye en al menos una realización de ejemplo de la presente divulgación. De este modo, las apariciones de las frases "en una realización de ejemplo", "en algunas realizaciones de ejemplo" o "en una realización de ejemplo" en diversos lugares a lo largo de esta divulgación no se refieren necesariamente todas a la misma realización de ejemplo. Además, los rasgos, estructuras o características particulares pueden combinarse de cualquier manera adecuada, como resultará evidente para un experto en la técnica a partir de esta divulgación, en una o más realizaciones de ejemplo.

Como se usa en el presente documento, a menos que se especifique de otro modo, el uso de los adjetivos ordinales "primero", "segundo", "tercero", etc., para describir un objeto común, meramente indican que se está haciendo referencia a diferentes instancias de objetos similares y no pretenden implicar que los objetos así descritos deben estar en una secuencia dada, ya sea temporalmente, espacialmente, en clasificación o de cualquier otra manera.

En las reivindicaciones siguientes y la descripción en el presente documento, uno cualquiera de los términos comprendiendo, comprendido o que comprende es un término abierto que significa que incluye al menos los elementos/rasgos que siguen, pero que no excluye otros. De este modo, el término que comprende, cuando se usa en las reivindicaciones, no debe interpretarse como limitante de los medios o elementos o pasos enumerados tras él. Por ejemplo, el alcance de la expresión un dispositivo que comprende A y B no debe estar limitado a dispositivos que consisten únicamente en los elementos A y B. Uno cualquiera de los términos incluyendo o el cual incluye o que incluye como se usa en el presente documento también es un término abierto que también significa que incluye al menos los elementos/rasgos que siguen al término, pero que no excluyen otros. De este modo, que incluye es sinónimo de y significa que comprende.

Debe apreciarse que, en la descripción anterior de realizaciones de ejemplo de la divulgación, diversos rasgos de la divulgación a veces se agrupan juntos en una única realización de ejemplo, figura o descripción de ella con el propósito de agilizar la divulgación y ayudar en la comprensión de uno o más de los diversos aspectos inventivos. Este método de divulgación, sin embargo, no debe interpretarse como que refleja una intención de que las reivindicaciones requieran más rasgos de los que se mencionan expresamente en cada reivindicación. Más bien, como reflejan las siguientes reivindicaciones, los aspectos inventivos se encuentran en menos que la totalidad de los rasgos de una única realización de ejemplo divulgada en lo que antecede. De este modo, las reivindicaciones que siguen a la descripción se incorporan por la presente expresamente en esta descripción, sosteniéndose por sí misma cada reivindicación como una realización de ejemplo separada de esta divulgación. Además, mientras algunas realizaciones de ejemplo descritas en el presente documento incluyen algunos pero no otros rasgos incluidos en otras realizaciones de ejemplo, combinaciones de rasgos de diferentes realizaciones de ejemplo pueden estar dentro del alcance de la invención como se define en las reivindicaciones adjuntas. En la descripción proporcionada en el presente documento, se exponen numerosos detalles específicos. Sin embargo, se entiende que las realizaciones de ejemplo de la divulgación pueden ponerse en práctica sin estos detalles específicos. En otras instancias, no se han mostrado en detalle métodos, estructuras y técnicas bien conocidos con el fin de no oscurecer la comprensión de esta descripción.

Claims

REIVINDICACIONES

1. Un método de procesamiento de una señal de audio, que comprende:

un primer paso para aplicar potenciación a un primer componente de la señal de audio y/o aplicar supresión a un segundo componente de la señal de audio con relación al primer componente, en el que la salida del primer paso es una máscara de dominio de transformada que indica coeficientes de ponderación para contenedores o bandas individuales, y en el que aplicar la máscara a la señal de audio tiene como resultado la potenciación del primer componente y/o la supresión del segundo componente con relación al primer componente; y

un segundo paso de modificación de la salida del primer paso mediante la aplicación de un modelo basado en aprendizaje profundo a la salida del primer paso, para mejorar perceptualmente el primer componente de la señal de audio mediante la retirada de artefactos y/o distorsiones introducidos en la señal de audio por el primer paso.

2. El método de acuerdo con la reivindicación 1, en el que el primer paso es un paso para aplicar potenciación de habla a la señal de audio.

3. El método de acuerdo con una cualquiera de las reivindicaciones 1 a 2, en el que el segundo paso recibe una pluralidad de instancias de salida del primer paso, correspondiendo cada una de las instancias a una respectiva de una pluralidad de tramas de la señal de audio, y en el que el segundo paso aplica conjuntamente el modelo basado en aprendizaje automático a la pluralidad de instancias de salida, para mejorar perceptualmente el primer componente de la señal de audio en una o más de la pluralidad de tramas de la señal de audio.

4. El método de acuerdo con una cualquiera de las reivindicaciones 1 a 3, en el que el segundo paso recibe, para una trama dada de la señal de audio, una secuencia de instancias de salida del primer paso, correspondiendo cada una de las instancias a una respectiva en una secuencia de tramas de la señal de audio, incluyendo la secuencia de tramas la trama dada, y en el que el segundo paso aplica conjuntamente el modelo basado en aprendizaje automático a la secuencia de instancias de salida, para mejorar perceptualmente el primer componente de la señal de audio en la trama dada.

5. El método de acuerdo con una cualquiera de las reivindicaciones 1 a 4, en el que el modelo basado en aprendizaje profundo del segundo paso implementa una arquitectura de auto-codificador con una etapa de codificador y una etapa de descodificador, comprendiendo cada etapa una respectiva pluralidad de capas de filtro consecutivas, y en el que la etapa de codificador mapea una entrada a la etapa de codificador a una representación de espacio latente, y la etapa de descodificador mapea la representación de espacio latente emitida por la etapa de codificador a una salida de la etapa de descodificador que tiene el mismo formato que la entrada a la etapa de codificador.

6<. El método de acuerdo con una cualquiera de las reivindicaciones 1 a 4, en el que el modelo basado en>aprendizaje profundo del segundo paso implementa una arquitectura de red neuronal recurrente con una pluralidad de capas consecutivas, en el que la pluralidad de capas son capas de tipo de memoria de corto a largo plazo o de tipo de unidad recurrente de puerta.

7. El método de acuerdo con una cualquiera de las reivindicaciones 1 a 4, en el que el modelo basado en aprendizaje profundo implementa una arquitectura de modelo generativo con una pluralidad de capas convolucionales consecutivas.

8<. El método de acuerdo con una cualquiera de las reivindicaciones 1 a 7, que comprende además uno o más>primeros pasos adicionales para aplicar potenciación al primer componente de la señal de audio y/o aplicar supresión al segundo componente de la señal de audio, generando el primer paso y el uno o más primeros pasos adicionales salidas mutuamente diferentes;

en el que el segundo paso recibe una salida de cada uno del uno o más primeros pasos adicionales además de la salida del primer paso; y

en el que el segundo paso aplica conjuntamente el modelo basado en aprendizaje profundo a la salida del primer paso y las salidas del uno o más primeros pasos adicionales, para mejorar perceptualmente el primer componente de la señal de audio.

9. El método de acuerdo con una cualquiera de las reivindicaciones anteriores, que comprende además un tercer paso de aplicación de un modelo basado en aprendizaje profundo a la señal de audio para bandeado de la señal de audio antes de la introducción al primer paso;

en el que el segundo paso modifica la salida del primer paso mediante desbandeado de la salida del primer paso;

y

en el que los modelos basados en aprendizaje profundo de los pasos segundo y tercero se han entrenado conjuntamente.

10. El método de acuerdo con la reivindicación 9, en el que los pasos segundo y tercero implementan cada uno una pluralidad de capas consecutivas con número de nodos sucesivamente creciente y decreciente, respectivamente.

11. El método de acuerdo con una cualquiera de las reivindicaciones 1 a 10, en el que el primer paso aplica un modelo basado en aprendizaje profundo para potenciar el primer componente de la señal de audio y/o suprimir el segundo componente de la señal de audio con relación al primer componente.

12. El método de acuerdo con la reivindicación 11, en el que los modelos de aprendizaje profundo del primer paso y el segundo paso se entrenan por separado mediante retropropagación; o

en el que los modelos de aprendizaje profundo del primer paso y del segundo paso se entrenan simultáneamente usando una función de pérdida común.

13. Un aparato para procesar una señal de audio, que comprende:

una primer etapa para aplicar potenciación a un primer componente de la señal de audio y/o aplicar supresión a un segundo componente de la señal de audio con relación al primer componente, en el que la salida de la primera etapa es una máscara de dominio de transformada que indica coeficientes de ponderación para contenedores o bandas individuales, y en el que aplicar la máscara a la señal de audio tiene como resultado la potenciación del primer componente y/o la supresión del segundo componente con relación al primer componente; y

una segunda etapa para modificar la salida de la primera etapa mediante la aplicación de un modelo basado en aprendizaje profundo a la salida de la primera etapa, para mejorar perceptualmente el primer componente de la señal de audio mediante la retirada de artefactos y/o distorsiones introducidos en la señal de audio por la primera etapa.

14. Un programa de ordenador que comprende instrucciones que, cuando son ejecutadas por un dispositivo de computación, hacen que el dispositivo de computación lleve a cabo los pasos del método de acuerdo con una<cualquiera de las reivindicaciones>1<a>12<.>

15. Un medio de almacenamiento legible por ordenador que almacena el programa de ordenador de acuerdo con la reivindicación 14.