ES2924180T3 - Dispositivo de cuantificación vectorial, dispositivo de codificación de habla, procedimiento de cuantificación vectorial y procedimiento de codificación de habla - Google Patents

Dispositivo de cuantificación vectorial, dispositivo de codificación de habla, procedimiento de cuantificación vectorial y procedimiento de codificación de habla Download PDF

Info

Publication number
ES2924180T3
ES2924180T3 ES18165452T ES18165452T ES2924180T3 ES 2924180 T3 ES2924180 T3 ES 2924180T3 ES 18165452 T ES18165452 T ES 18165452T ES 18165452 T ES18165452 T ES 18165452T ES 2924180 T3 ES2924180 T3 ES 2924180T3
Authority
ES
Spain
Prior art keywords
vector
polarity
parameter
section
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES18165452T
Other languages
English (en)
Inventor
Toshiyuki Morii
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Application granted granted Critical
Publication of ES2924180T3 publication Critical patent/ES2924180T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
    • G10L19/107Sparse pulse excitation, e.g. by using algebraic codebook
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0013Codebook search algorithms

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Optimization (AREA)
  • General Physics & Mathematics (AREA)
  • Algebra (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Se proporcionan un dispositivo de cuantificación vectorial, un dispositivo de codificación de voz, un método de cuantificación vectorial y un método de codificación de voz que permiten una reducción en la cantidad de cálculo del códec de voz sin deterioro de la calidad de la voz. En el dispositivo de cuantificación de vectores, una primera unidad de cálculo de vectores de referencia (201) calcula un primer vector de referencia multiplicando un vector objetivo (x) por un filtro de síntesis LPC de ponderación auditiva (H), y una segunda unidad de cálculo de vectores de referencia (202) calcula un segundo vector de referencia multiplicando un elemento del primer vector de referencia por un filtro que tiene una característica de paso alto. Una unidad de selección preliminar de polaridad (205) genera un vector polar al disponer un pulso unitario de polaridad positiva o negativa, que se selecciona en función de la polaridad de un elemento del segundo vector de referencia, en la posición de dicho elemento. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN
Dispositivo de cuantificación vectorial, dispositivo de codificación de habla, procedimiento de cuantificación vectorial y procedimiento de codificación de habla
Campo técnico
[0001] La presente invención se refiere a un aparato de cuantificación vectorial, un aparato de codificación del habla, un procedimiento de cuantificación vectorial y un procedimiento de codificación del habla.
Antecedentes de la técnica
[0002] Las comunicaciones móviles requieren esencialmente la codificación comprimida de información digital de habla e imágenes, para un uso eficaz de la banda de transmisión. Especialmente, las expectativas de las técnicas códec (codificación y decodificación) ampliamente usadas para los teléfonos móviles son altas, y existe una demanda de una mejora adicional de calidad del sonido para una codificación convencional de alta eficacia en funcionamiento con alta compresión. Además, desde que el público usa la comunicación mediante el habla, la normalización pública de la comunicación mediante el habla es esencial, y en la actualidad se está realizando una activa labor de investigación y desarrollo por parte de empresas comerciales de todo el mundo por el alto valor de los derechos de propiedad intelectual asociados derivados de la normalización.
[0003] En los últimos años, la normalización de un códec ampliable que tiene una estructura en varias capas ha sido estudiada por la ITU-T (Unión Internacional de Telecomunicación-Sector de Normalización de Telecomunicación) y el MPEG (Moving Picture Experts Group), y se ha buscado una técnica códec del habla de alta calidad.
[0004] Una tecnología de codificación del habla cuyo rendimiento ha sido mejorado ampliamente por CELP (Code Excited Linear Prediction, predicción lineal con excitación de código), que es un procedimiento básico para la modelización del sistema del tracto vocal del habla establecido hace 20 años y que adopta una cuantificación vectorial, se ha usado ampliamente como procedimiento estándar de las normas de la ITU-T G.729, G.722.2, las normas de la ETSI (European Telecommunications Standard Institute, instituto europeo de normas de telecomunicaciones) AMR (Adaptive Multi-Rate, velocidad múltiple adaptativa), AMR-WB (Wide Band, banda ancha), la norma 3GPP2 (Third Generation Partnership Project 2) VMR-WB (Variable Multi-Rate-Wide Band, velocidad múltiple adaptativa-banda ancha) o similares (véase por ejemplo la Bibliografía no de patentes 1).
[0005] En una búsqueda en un libro de códigos fijo de la Bibliografía no de patentes 1 anterior ("3.8 Libro de códigos fijo: estructura y búsqueda"), se describe una búsqueda de un libro de códigos fijo formado con un libro de códigos algebraico. En una búsqueda en un libro de códigos fijo, el vector (d(n)) usado para calcular un término del numerador de ecuación (53) se determina sintetizando una señal objeto (x'(i), ecuación (50) que usa un filtro de síntesis LPC de ponderación perceptual (ecuación (52)), adquiriéndose la señal objeto restando un vector de libro de códigos adaptativo (ecuación (44)) multiplicado por un filtro de síntesis LPC de ponderación perceptual de un habla de entrada a través de un filtro de ponderación perceptual, y de forma preliminar se selecciona una polaridad de pulso que corresponde a cada elemento según la polaridad (positiva/negativa) del elemento vectorial. A continuación, se busca una posición de pulso usando múltiples iteraciones. En este momento se omite la búsqueda de la polaridad.
[0006] Además, la Bibliografía de patentes 1 describe una preselección de la polaridad (positiva/negativa) y un preprocesamiento para ahorrarse la cantidad de cálculo descrita en la Bibliografía no de patentes 1. Usando la tecnología descrita en la Bibliografía de patentes 1, la cantidad de cálculo para la búsqueda en un libro de códigos algebraico se reduce significativamente. La tecnología descrita en la Bibliografía de patentes 1 se emplea para la norma de ITU-T G.729 y se usa de forma extensa.
Lista de citas
Bibliografía de patentes
[0007] PLT 1
Traducción al japonés publicada n. ° H11-501131 de la publicación internacional PCT
Bibliografía no de patentes
[0008]
NPL 1
ITU-T norma G.729
NPL 2
ITU-T norma G.718
Resumen de la invención
Problema técnico
[0009] Sin embargo, aunque la polaridad de pulso preseleccionada es idéntica a una polaridad de pulso en un caso en el que se buscan las posiciones y las polaridades en la mayoría de los casos, puede darse la situación de que se indique "una selección errónea" en la que dichas polaridades no puedan ajustarse entre sí. En tal caso, se selecciona una polaridad de pulso no óptima y esto lleva a la degradación de la calidad del sonido. Por otra parte, en una técnica códec de habla de banda ancha, un procedimiento para la preselección de polaridad de pulso de un libro de códigos fijo tiene un gran efecto para reducir la cantidad de cálculo anterior. Por consiguiente, se emplea un procedimiento para preselección de la polaridad de pulso de un libro de códigos fijo en diversos sistemas de normas internacionales de la norma de ITU-T G.729. Sin embargo, la degradación de calidad del sonido debida a un error en la selección de la polaridad sigue siendo un problema importante.
[0010] Un objeto de la presente invención es proporcionar un aparato de cuantificación vectorial, un aparato de codificación del habla, un procedimiento de cuantificación vectorial y un procedimiento de codificación del habla que puedan reducir la cantidad de cálculo de un códec de habla sin degradar la calidad del habla.
Solución al problema
[0011] Según la presente invención, se proporciona un aparato de cuantificación vectorial, un procedimiento de cuantificación vectorial y un producto de programa informático correspondiente, tal como se expone en las reivindicaciones 1, 7 y 9.
Efectos ventajosos de la invención
[0012] Según la presente invención, es posible proporcionar un aparato de cuantificación vectorial, un aparato de codificación del habla, un procedimiento de cuantificación vectorial y un procedimiento de codificación del habla que pueden reducir la cantidad de cálculo códec del habla sin degradación de la calidad del habla reduciendo la selección errónea en la preselección de una polaridad de pulso del libro de códigos fijo.
Breve descripción de los dibujos
[0013]
La FIG. 1 es un diagrama de bloques que muestra la configuración de un aparato de codificación CELP;
La FIG. 2 es un diagrama de bloques que muestra la configuración de un aparato de búsqueda de libro de códigos fijo; y
La FIG. 3 es un diagrama de bloques que muestra la configuración de un aparato de cuantificación vectorial según una realización de la presente invención.
Descripción de realización
[0014] A continuación se describirá en detalle una realización de la presente invención con referencia a los dibujos adjuntos.
[0015] La FIG. 1 es un diagrama de bloques que muestra la configuración básica de aparato de codificación CELP 100. Tal como se emplea en un gran número de sistemas de normalización, el aparato de codificación CELP 100 incluye un aparato de búsqueda en un libro de códigos adaptativo, un aparato de búsqueda de libro de códigos fijo y un aparato de búsqueda del libro de códigos de ganancias. La FIG. 1 muestra una estructura básica que simplifica conjuntamente estos aparatos.
[0016] En la FIG. 1, para una señal de habla que comprende información del tracto vocal e información de excitación, el aparato de codificación CELP 100 codifica la información del tracto vocal buscando un parámetro LPC (coeficientes predictivos lineales) y codifica la información de excitación buscando un índice que especifica si se usa uno de los modelos de habla almacenados previamente. Es decir, la información de excitación se codifica buscando un índice (código) que especifica qué clase de vector de excitación (vector de código) es generada por el libro de códigos adaptativo 103 y el libro de códigos fijo 104.
[0017] En la FIG. 1, el aparato de codificación CELP 100 incluye la sección de análisis LPC 101, la sección de cuantificación LPC 102, el libro de códigos adaptativo 103, el libro de códigos fijo 104, el libro de códigos de ganancias 105, el multiplicador 106, 107 y el filtro de síntesis LPC 109, el sumador 110, la sección de ponderación perceptual 111 y la sección de minimización de distorsión 112.
[0018] La sección de análisis LPC 101 ejecuta análisis predictivo lineal sobre una señal de habla, busca un parámetro LPC que es información de envolvente del espectro y envía el parámetro LPC encontrado a la sección de cuantificación LPC 102 y la sección de ponderación perceptual 111.
[0019] La sección de cuantificación LPC 102 cuantifica la salida del parámetro LPC de la sección de análisis LPC 101, y envía el parámetro LPC cuantificado adquirido al filtro de síntesis LPC 109. La sección de cuantificación LPC 102 envía un índice del parámetro LPC cuantificado al aparato de codificación CELP 100 externo.
[0020] El libro de códigos adaptativo 103 almacena las excitaciones usadas en el pasado por el filtro de síntesis LPC 109. El libro de códigos adaptativo 103 genera un vector de excitación de una subtrama a partir de las excitaciones almacenadas de acuerdo con un retardo de libro de códigos adaptativo correspondiente a un índice instruido por la sección de minimización de distorsión 112 que se describe más adelante en esta invención. Este vector de excitación se envía al multiplicador 106 como un vector de libro de códigos adaptativo.
[0021] El libro de códigos fijo 104 almacena de antemano una pluralidad de vectores de excitación de forma predeterminada. El libro de códigos fijo 104 envía un vector de excitación que corresponde al índice instruido por la sección de minimización de distorsión 112 al multiplicador 107 como un vector de libro de códigos fijo. En este caso, el libro de códigos fijo 104 es una excitación algebraica, y se describirá un caso de uso de un libro de códigos algebraico. Además, una excitación algebraica es una excitación adoptada para muchos códec estándar.
[0022] Por otra parte, el libro de códigos adaptativo 103 anterior se usa para representar componentes de periodicidad fuerte como el habla de voz, mientras que el libro de códigos fijo 104 se usa para representar componentes de periodicidad débil como el ruido blanco.
[0023] El libro de códigos de ganancias 105 genera una ganancia para un vector de libro de códigos adaptativo enviado desde el libro de códigos adaptativo 103 (ganancia de libro de códigos adaptativo) y una ganancia para un vector de libro de códigos fijo enviado desde el libro de códigos fijo 104 (ganancia de libro de códigos fijo) de acuerdo con una instrucción desde la sección de minimización de distorsión 112, y envía estas ganancias a los multiplicadores 106 y 107, respectivamente.
[0024] El multiplicador 106 multiplica el vector de libro de códigos adaptativo enviado desde el libro de códigos adaptativo 103 por la ganancia de libro de códigos adaptativo enviada desde el libro de códigos de ganancias 105, y envía el vector de libro de códigos adaptativo multiplicado al sumador 108.
[0025] El multiplicador 107 multiplica el vector de libro de códigos fijo enviado desde el libro de códigos fijo 104 por la ganancia de libro de códigos fijo enviada desde el libro de códigos de ganancias 105, y envía el vector de libro de códigos fijo multiplicado al sumador 108.
[0026] El sumador 108 suma el vector de libro de códigos adaptativo enviado desde el multiplicador 106 y el vector de libro de códigos fijo enviado desde el multiplicador 107, y envía el vector de excitación resultante al filtro de síntesis LPC 109 en forma de excitaciones.
[0027] El filtro de síntesis LPC 109 genera una función de filtro que incluye el parámetro LPC cuantificado enviado desde la sección de cuantificación LPC 102 como un coeficiente de filtro y un vector de excitación generado en el libro de códigos adaptativo 103 y el libro de códigos fijo 104 en forma de excitaciones. Es decir, el filtro de síntesis LPC 109 genera una señal sintetizada de un vector de excitación generado por el libro de códigos adaptativo 103 y el libro de códigos fijo 104 usando un filtro de síntesis LPC. Esta señal sintetizada se envía al sumador 110.
[0028] El sumador 110 calcula una señal de error restando la señal sintetizada generada en el filtro de síntesis LPC 109 a partir de una señal de habla, y envía esta señal de error a la sección de ponderación perceptual 111. En este caso, esta señal de error es equivalente a la distorsión de codificación.
[0029] La sección de ponderación perceptual 111 realiza ponderación perceptual para la distorsión de codificación enviada desde el sumador 110, y envía el resultado a la sección de minimización de distorsión 112.
[0030] La sección de minimización de distorsión 112 busca los índices (código) del libro de códigos adaptativo 103, el libro de códigos fijo 104 y el libro de códigos de ganancias 105 en una base de subtrama, de manera que se minimiza la distorsión de codificación enviada desde la sección de ponderación perceptual 111, y envía estos índices al aparato de codificación CELP 100 externo como una información codificada. Es decir, se usan respectivamente tres aparatos incluidos en el aparato de codificación CELP 100 en el orden de un aparato de búsqueda del libro de códigos adaptativo, un aparato de búsqueda del libro de códigos fijo y un aparato de búsqueda del libro de códigos de ganancias para encontrar códigos en una subtrama, y cada aparato realiza una búsqueda de manera que se minimiza la distorsión.
[0031] En este caso, una serie de etapas de procesamiento para generar una señal sintetizada basada en el libro de códigos adaptativo 103 y el libro de códigos fijo 104 anterior y buscar la distorsión de codificación de esta señal forman un control de bucle cerrado (control de retroalimentación). Por consiguiente, la sección de minimización de distorsión 112 busca en cada libro de códigos cambiando de forma variable los índices que designan a cada libro de códigos en una subtrama, y envía finalmente los índices adquiridos de cada libro de códigos que minimizan la distorsión de codificación.
[0032] Además, la excitación en la que se minimiza la distorsión de codificación se envía de nuevo al libro de códigos adaptativo 103 en una base de subtrama. El libro de códigos adaptativo 103 actualiza las excitaciones almacenadas por esta retroalimentación.
[0033] A continuación se describirá un procedimiento para buscar el libro de códigos adaptativo 103. En general, se busca un vector de libro de códigos adaptativo por medio de un aparato de búsqueda en un libro de códigos adaptativo y se busca un vector de libro de códigos fijo por medio de un aparato de búsqueda de libro de códigos fijo usando bucles abiertos (bucles separados), respectivamente. Se realiza una búsqueda de vector de excitación adaptativo y de derivación del índice (código) buscando un vector de excitación que minimiza la distorsión de codificación en la ecuación 1 mostrada a continuación.
[1]
Figure imgf000005_0001
E: distorsión de codificación, x: vector objeto (señal de habla de ponderación perceptual), p: vector de libro de códigos adaptativo, H: filtro de síntesis LPC de ponderación perceptual (matriz de respuesta de impulso), gp: ganancia ideal del libro de códigos adaptativo En este caso, si se supone que la ganancia gp es una ganancia ideal, gp puede eliminarse usando una ecuación resultante de la diferenciación parcial de la ecuación 1 anterior en la que gp se convierte en 0. Por consiguiente, la ecuación 1 anterior puede transformarse en la función de coste en la ecuación 2 mostrada a continuación. El sufijo t representa la transposición vectorial en la ecuación 2.
[2]
Figure imgf000005_0002
(Ecuación 2)
[0034] Es decir, el vector de libro de códigos adaptativo p que minimiza la distorsión de codificación E en la ecuación 1 anterior maximiza la función de coste en la ecuación 2 anterior. Sin embargo, para limitarse a un caso en el que el vector objeto x y el vector de libro de códigos adaptativo Hp (vector de libro de códigos adaptativo sintetizado) con el que se obtiene la convolución de la respuesta de impulso H tienen una correlación positiva, el término del numerador en la ecuación 2 no está al cuadrado, y se determina la raíz cuadrada del término del denominador. Es decir, el término del numerador en la ecuación 2 representa un valor de correlación entre el vector objeto x y el vector de libro de códigos adaptativo Hp sintetizado, y el término del denominador en la ecuación 2 representa una raíz cuadrada de la energía del vector de libro de códigos adaptativo Hp sintetizado.
[0035] En el momento de búsqueda de un libro de códigos adaptativo 103, el aparato de codificación CELP 100 busca un vector de libro de códigos adaptativo p que maximiza la función de coste mostrada en la ecuación 2, y envía un índice (código) de un vector de libro de códigos adaptativo que maximiza la función de coste en el aparato de codificación CELP 100 exterior.
[0036] A continuación se describirá un procedimiento para buscar en el libro de códigos fijo 104. La FIG. 2 es un diagrama de bloques que muestra la configuración de un aparato de búsqueda de libro de códigos fijo 150. Tal como se describe anteriormente, al codificar la subtrama objeto, después de la búsqueda en un aparato de búsqueda en un libro de códigos adaptativo (no mostrado), se realiza una búsqueda en el aparato de búsqueda de libro de códigos fijo 150. En la FIG. 2, las partes que configuran el aparato de búsqueda de libro de códigos fijo 150 se extraen del aparato de codificación CELp en la FIG. 1 y se describen adicionalmente los elementos de configuración específicos requeridos tras la configuración. A los elementos de configuración en la FIG. 2 idénticos a los de la FIG. 1 se les asignan los mismos números de referencia que en la FIG. 1, y en este caso se omiten las descripciones duplicadas de los mismos. En la siguiente descripción, se supone que el número de pulsos es dos, una longitud de subtrama (longitud de vector) tiene 64 muestras.
[0037] El aparato de búsqueda de libro de códigos fijo 150 incluye la sección de análisis LPC 101, la sección de cuantificación LPC 102, el libro de códigos adaptativo 103, el multiplicador 106, el filtro de síntesis LPC 109, la sección de cálculo de coeficientes de filtro de ponderación perceptual 151, el filtro de ponderación perceptual 152 y 153, el sumador 154, la sección de cálculo de coeficientes de filtro de síntesis LPC de ponderación perceptual 155, la tabla de correspondencia del libro de códigos fijo 156 y la sección de minimización de distorsión 157.
[0038] Una señal de habla introducida en el aparato de búsqueda de libro de códigos fijo 150 se recibe en la sección de análisis LPC 101 y el filtro de ponderación perceptual 152 como entrada. La sección de análisis LPC 101 ejecuta análisis predictivo lineal en una señal de habla, y busca un parámetro LPC que es información de envolvente del espectro. Sin embargo, en esta invención se emplea un parámetro LPC que se encuentra normalmente tras una búsqueda en un libro de códigos adaptativo. Este parámetro LPC se transmite a la sección de cuantificación LPC 102 y la sección de cálculo de coeficientes de filtro de ponderación perceptual 151.
[0039] La sección de cuantificación LPC 102 cuantifica el parámetro LPC de entrada, genera un parámetro LPC cuantificado, envía el parámetro LPC cuantificado al filtro de síntesis LPC 109 y envía el parámetro LPC cuantificado a la sección de cálculo de coeficientes de filtro de síntesis LPC de ponderación perceptual 155 como un parámetro de filtro de síntesis LPC.
[0040] El filtro de síntesis LPC 109 recibe como entrada una excitación adaptativa enviada desde el libro de códigos adaptativo 103 en asociación con un índice de libro de códigos adaptativo ya encontrado en una búsqueda en un libro de códigos adaptativo a través del multiplicador 106 que multiplica una ganancia. El filtro de síntesis LPC 109 realiza el filtrado para la excitación adaptativa de entrada multiplicado por una ganancia usando un parámetro LPC cuantificado, y genera una señal sintetizada de excitación adaptativa.
[0041] La sección de cálculo de coeficientes de filtro de ponderación perceptual 151 calcula los coeficientes de filtro de ponderación perceptual usando un parámetro LPC de entrada, y los envía al filtro de ponderación perceptual 152, 153 y la sección de cálculo de coeficientes de filtro de síntesis LPC de ponderación perceptual 155 como un parámetro de filtro de ponderación perceptual.
[0042] El filtro de ponderación perceptual 152 realiza un filtrado de ponderación perceptual para una señal de habla de entrada usando una entrada de parámetro de filtro de ponderación perceptual desde la sección de cálculo de coeficientes de filtro de ponderación perceptual 151, y envía la señal de habla ponderada perceptual al sumador 154.
[0043] El filtro de ponderación perceptual 153 realiza filtrado de ponderación perceptual para la señal sintetizada de vector de excitación adaptativa de entrada usando una entrada de parámetro de filtro de ponderación perceptual desde la sección de cálculo de coeficientes de filtro de ponderación perceptual 151, y envía la señal sintetizada ponderada perceptual al sumador 154.
[0044] El sumador 154 suma la señal de habla ponderada perceptual enviada desde el filtro de ponderación perceptual 152 y una señal en la que la polaridad de la señal sintetizada ponderada perceptual enviada desde el filtro de ponderación perceptual 153 se invierte, generando de este modo un vector objeto como un objeto de codificación y enviando el vector objeto a la sección de minimización de distorsión 157.
[0045] La sección de cálculo de coeficientes de filtro de síntesis LPC de ponderación perceptual 155 recibe un parámetro de filtro de síntesis LPC como entrada desde la sección de cuantificación LPC 102, mientras recibe un parámetro de filtro de ponderación perceptual desde la sección de cálculo de coeficientes de filtro de ponderación perceptual 151 como entrada, y genera un parámetro de filtro de síntesis LPC de ponderación perceptual usando estos parámetros y envía el resultado a la sección de minimización de distorsión 157.
[0046] La tabla de correspondencia del libro de códigos fijo 156 almacena información de la posición de impulso e información de la polaridad de pulso que forma un vector de libro de códigos fijo en asociación con un índice. Cuando se designa un índice desde la sección de minimización de distorsión 157, la tabla de correspondencia del libro de códigos fijo 156 envía información de la posición de impulso correspondiente al índice a la sección de minimización de distorsión 157.
[0047] La sección de minimización de distorsión 157 recibe como entrada un vector objeto del sumador 154 y recibe como entrada un parámetro de filtro de síntesis LPC de ponderación perceptual desde la sección de cálculo de coeficientes de filtro de síntesis LPC de ponderación perceptual 155. Además, la sección de minimización de distorsión 157 repite el envío de un índice a la tabla de correspondencia del libro de códigos fijo 156, y la recepción de información de la posición de impulso y de información de la polaridad de pulso correspondiente a un índice como entrada el número de iteraciones de búsqueda fijado con antelación. La sección de minimización de distorsión 157 adopta un vector objeto y un parámetro de síntesis LPC de ponderación perceptual, busca un índice (código) de un libro de códigos fijo que minimiza la distorsión de codificación por un bucle de búsqueda y envía el resultado. A continuación se describirá en detalle la configuración y el funcionamiento específicos de la sección de minimización de distorsión 157.
[0048] La FIG. 3 es un diagrama de bloques que muestra la configuración dentro de la sección de minimización de distorsión 157 según la presente realización. La sección de minimización de distorsión 157 es un aparato de cuantificación vectorial que recibe como entrada un vector objeto como un objeto de codificación y realiza la cuantificación.
[0049] La sección de minimización de distorsión 157 recibe el vector objeto x como entrada. Este vector objeto x se envía desde el sumador 154 en la FIG. 2. La ecuación de cálculo se representa mediante la siguiente ecuación 3.
[3]
x = W y-gpHp ... (Ecuación 3)
x: vector objeto (señal de habla de ponderación perceptual), y: habla de entrada (correspondiente a "una señal de habla" en la FIG. 1), gp: ganancia ideal del libro de códigos adaptativo (escalar), H: filtro de síntesis LPC de ponderación perceptual (matriz), p: excitación adaptativa (vector de libro de códigos adaptativo), W: filtro de ponderación perceptual (matriz)
[0050] Es decir, tal como se muestra en la ecuación 3, el vector objeto x se determina restando la excitación adaptativa p multiplicada por la ganancia ideal gp adquirida tras una búsqueda en un libro de códigos adaptativo y el filtro de síntesis LPC de ponderación perceptual H, a partir del habla de entrada y multiplicado por el filtro de ponderación perceptual W.
[0051] En la FIG. 3, la sección de minimización de distorsión 157 (un aparato de cuantificación vectorial) incluye una primera sección de cálculo vectorial de referencia 201, una segunda sección de cálculo vectorial de referencia 202, una sección de almacenamiento de coeficientes de filtro 203, una sección de preprocesamiento del término del denominador 204, una sección de preselección de polaridad 205 y una sección de búsqueda de posición de pulso 206. La sección de búsqueda de posición de pulso 206 está formada por una sección de cálculo del término del numerador 207, una sección de cálculo del término del denominador 208 y una sección de evaluación de distorsión 209 a modo de ejemplo.
[0052] La primera sección de cálculo vectorial de referencia 201 calcula el primer vector de referencia usando el vector objeto x y el filtro de síntesis LPC de ponderación perceptual H. La ecuación de cálculo está representada por la siguiente ecuación 4.
[4]
v1 = x 'H ,.. (Ecuación 4)
v: primer vector de referencia, sufijo t: transposición vectorial
Es decir, tal como se muestra en la ecuación 4, el primer vector de referencia se determina multiplicando el vector objeto x por el filtro de síntesis LPC de ponderación perceptual H.
La sección de preprocesamiento del término del denominador 204 calcula una matriz (en lo sucesivo, referida como "una matriz de referencia") para calcular el término del denominador de ecuación 2. La ecuación de cálculo está representada por la siguiente ecuación 5.
[5]
M = H ’H ...(Ecuación 5)
M: matriz de referencia
Es decir, tal como se muestra en la ecuación 5, una matriz de referencia se determina multiplicando las matrices de filtro de síntesis LPC de ponderación perceptual H. Esta matriz de referencia se usa para determinar la energía de un pulso que es el término del denominador de la función de coste.
La segunda sección de cálculo vectorial de referencia 202 multiplica el primer vector de referencia por un filtro usando coeficientes de filtro almacenados en la sección de almacenamiento de coeficientes de filtro 203. En este caso, se asume que el orden del filtro es cúbico, y los coeficientes de filtro se establecen como {-0,35, 1,0, -0,35}. Un algoritmo para calcular el segundo vector de referencia mediante este filtro está representado por la siguiente ecuación 6.
si ( i - 0) Uq = 1.0 -v0 -0.35-Vj
en caso contrario si (i ~ 63) u6} = -0.35 • V 62 + 1 -0 ' • ■ . (Ecuación 6) en caso contrario u¡ - -0.35 • v.4 1.0 • v, - 0.35 * v(+1
Uí: segundo vector de referencia, i: índice de elemento vectorial
Es decir, tal como se muestra en la ecuación 6, el segundo vector de referencia se determina multiplicando el primer vector de referencia por un filtro MA (Moving Average, media móvil). El filtro usado en este caso tiene una característica de paso alto. En esta realización, en el caso de que se use una porción que sobresale de un vector para el cálculo, se supone que el valor de la porción es 0.
La sección de preselección de polaridad 205 comprueba primero la polaridad de cada elemento del segundo vector de referencia y genera un vector de polaridad (es decir, un vector que incluye 1 y -1 como elemento). Es decir, la sección de preselección de polaridad 205 genera un vector de polaridad disponiendo pulsos unitarios en los que se selecciona una polaridad positiva o negativa en las posiciones de los elementos basándose en la polaridad de los segundos elementos del vector de referencia. Este algoritmo está representado por la siguiente ecuación 7.
[7]
si u, > 0 entonces s¡ = 1.0en caso contrario st - - 1.0 i - 0- • *63 ... (Ecuación 7)
sí: polaridad vector, i: índice de elemento vectorial
Es decir, tal como se muestra en la ecuación 7, el elemento de un vector de polaridad se determina como 1 si la polaridad de cada elemento del segundo vector de referencia es positiva o 0, y se determina como -1 si la polaridad de cada elemento del segundo vector de referencia es negativa.
La sección de preselección de polaridad 205 busca en segundo lugar "un primer vector de referencia ajustado" y "una matriz de referencia ajustada" multiplicando previamente cada uno del primer vector de referencia y la matriz de referencia por una polaridad usando el vector de polaridad adquirido. Este procedimiento de cálculo está representado por la siguiente ecuación 8.
[8]
Figure imgf000008_0001
.,. (Ecuación 8)
v i : primer vector de referencia ajustado, M i , j : matriz de referencia ajustada, i, j: índice
Es decir, tal como se muestra en la ecuación 8, el primer vector de referencia ajustado se determina multiplicando cada elemento del primer vector de referencia por los valores del vector de polaridad en las posiciones correspondientes a los elementos. Además, la matriz de referencia ajustada se determina multiplicando cada elemento de la matriz de referencia por los valores de vector de polaridad en las posiciones correspondientes a los elementos. Por este medio, se incorpora una polaridad de pulso preseleccionada en el primer vector de referencia ajustado y la matriz de referencia ajustada.
La sección de búsqueda de posición de pulso 206 busca un pulso usando el primer vector de referencia ajustado y la matriz de referencia ajustada. A continuación, la sección de búsqueda de posición de pulso 206 envía códigos correspondientes a una posición de pulso y una polaridad de pulso como resultado de la búsqueda. Es decir, la sección de búsqueda de la posición de pulso 206 busca la posición de pulso óptima que minimiza la distorsión de codificación. La bibliografía no de patentes 1 describe en detalle este algoritmo en la ecuación 58 y 59 en el capítulo 3.8.1. En la siguiente ecuación 9 se muestra una relación de correspondencia entre el vector y la matriz según la presente realización, y variables en la Bibliografía no de patentes 1.
[9]
Figure imgf000008_0002
...(Ecuación 9)
Bibliografía no de patentes 1 de la presente realización
[0053] Se describirá brevemente un ejemplo de este algoritmo usando la FIG. 3. La sección de búsqueda de posición de pulso 206 recibe como entrada un primer vector de referencia ajustado y una matriz de referencia ajustada desde la sección de preselección de polaridad 205, e introduce el primer vector de referencia ajustado en la sección de cálculo del término del numerador 207 e introduce la matriz de referencia ajustada en la sección de cálculo del término del denominador 208.
[0054] La sección de cálculo del término del numerador 207 aplica la entrada de información de posición de la tabla de correspondencia del libro de códigos fijo 156 en el primer vector de referencia ajustado de entrada y calcula el valor del término del numerador de ecuación 53 en la Bibliografía no de patentes 1. El valor calculado del término del numerador se envía a la sección de evaluación de distorsión 209.
[0055] La sección de cálculo del término del denominador 208 aplica la entrada de información de posición de la tabla de correspondencia del libro de códigos fijo 156 a la matriz de referencia ajustada de entrada y calcula el valor del término del denominador de ecuación 53 en la Bibliografía no de patentes 1. El valor calculado del término del denominador se envía a la sección de evaluación de distorsión 209.
[0056] La sección de evaluación de distorsión 209 recibe como entrada el valor de un término del numerador desde la sección de cálculo del término del numerador 207 y el valor de un término del denominador desde la sección de cálculo del término del denominador 208, y calcula la ecuación de evaluación de la distorsión (ecuación 53 en la Bibliografía no de patentes 1). La sección de evaluación de distorsión 209 envía índices a la tabla de correspondencia del libro de códigos fijo 156 el número de veces de iteración de búsqueda determinado con antelación. Cada vez que se introduce un índice desde la sección de evaluación de distorsión 209, la tabla de correspondencia del libro de códigos fijo 156 envía información de la posición de impulso correspondiente al índice a la sección de cálculo del término del numerador 207 y la sección de cálculo del término del denominador 208, y envía información de la posición de impulso correspondiente al índice a la sección de cálculo del término del denominador 208. Al realizar dicha iteración de búsqueda, la sección de búsqueda de posición de pulso 206 encuentra y envía un índice (código) del libro de códigos fijo que minimiza la distorsión de codificación.
[0057] A continuación se describirá un resultado de un experimento de simulación para verificar un efecto de la presente realización. La CELP empleada para el experimento es "ITU-T G.718" (véase Bibliografía no de patentes 2) que es el sistema de normas más reciente. El experimento se realiza aplicando respectivamente cada una de las preselecciones de polaridad convencionales de la Bibliografía no de patentes 1 y la Bibliografía de patentes 1 y la presente realización a un modo para buscar un libro de códigos algebraico de dos pulsos en este sistema de normas (véase el capítulo 6.8.4.1.5 en la Bibliografía no de patentes 2) y se examina cada efecto.
[0058] El modo de dos pulsos mencionado anteriormente de "ITU-T G.718" es la misma condición descrita como ejemplo en la presente realización, es decir, un caso en el que el número de pulsos es dos y una longitud de subtrama (longitud de vector) tiene 64 muestras. Como procedimiento de búsqueda de una posición y una polaridad en ITU-T G.718, la cantidad de cálculo es grande ya que se emplea un procedimiento para buscar todas las combinaciones que son óptimas simultáneamente.
[0059] A continuación, se adoptó el procedimiento de preselección de polaridad usado en la Bibliografía no de patentes 1 y en la Bibliografía de patentes 1. Se usó el habla 16 (japonés) a la que se añadieron varios ruidos para datos de prueba.
[0060] Como resultado, la cantidad de cálculo se reduce aproximadamente a la mitad mediante la preselección de polaridad usada en la Bibliografía no de patentes 1 y la Bibliografía de patentes 1. Sin embargo, un gran número de polaridades de las polaridades buscadas por la preselección de polaridad es diferente de las polaridades buscadas por la búsqueda completa usando un sistema de normas. En concreto, la media de selección errónea fue del 0,9 %. La selección errónea provoca directamente la degradación de la calidad del sonido.
[0061] Por el contrario, en caso de que se adopte preselección de polaridad según la presente realización, el grado de reducción en la cantidad de cálculo se reduce aproximadamente a la mitad en caso de que se adopte la preselección de polaridad usada en la Bibliografía no de patentes 1 y la Bibliografía de patentes 1. Cuando se adoptó la preselección de polaridad según la presente realización, la tasa de selección errónea se redujo a una media del 0,4 %. En el caso en que se adoptó la preselección de polaridad según la presente realización, la tasa de selección errónea se redujo a la mitad o menos que en el caso de adoptar la preselección de polaridad usada en la Bibliografía no de patentes 1 y la Bibliografía de patentes 1.
[0062] A la vista de lo anterior, se verificó que el procedimiento de preselección de polaridad según la presente realización puede reducir una gran cantidad de cálculo y además reduce significativamente la tasa de selección errónea en comparación con el procedimiento de preselección de polaridad convencional usado en la Bibliografía no de patentes 1 y la Bibliografía de patentes 1, mejorando así la calidad del habla.
[0063] Tal como se ha descrito anteriormente, según la presente realización, en un ejemplo que usa el aparato de codificación CELP 100, la primera sección de cálculo vectorial de referencia 201 calcula el primer vector de referencia multiplicando el vector objeto x por el filtro de síntesis LPC de ponderación perceptual H y la segunda sección de cálculo vectorial de referencia 202 calcula el segundo vector de referencia multiplicando un elemento del primer vector de referencia por un filtro que tiene una característica de paso alto. A continuación la sección de preselección de polaridad 205 selecciona una polaridad de pulso de cada posición de elemento basándose en el valor positivo y negativo de cada elemento del segundo vector de referencia.
[0064] Así, mediante la característica de la presente invención que calcula el segundo vector de referencia usando un filtro con una característica de paso alto, la polaridad del segundo elemento vectorial de referencia tiene una polaridad de pulso que cambia fácilmente a positiva o negativa. (Es decir, se reduce un componente de baja frecuencia mediante un filtro de paso alto y se prepara una "forma" con alta frecuencia). Como resultado del experimento básico, es evidente que se tiene una alta posibilidad de que se produzca una selección errónea de la polaridad de pulso "el caso en el que, cuando se seleccionan pulsos adyacentes entre sí, los pulsos que tienen polaridades diferentes son óptimos en la búsqueda completa, aun cuando las polaridades de estos pulsos sean las mismas en el primer vector de referencia”. Por consiguiente, "la intercambiabilidad de la polaridad" de la presente invención puede reducir la posibilidad de que tenga lugar la selección errónea anterior. A continuación, la sección de preselección de polaridad 205 selecciona la polaridad de pulso de cada posición de elemento basándose en el valor positivo o negativo de cada elemento del segundo vector de referencia, permitiendo así reducir la tasa de selección errónea. Por tanto, es posible reducir la cantidad de códec de habla sin degradación de la calidad del habla.
[0065] Debe observarse que, en la descripción anterior, aunque se supone que el número de pulsos es dos y que la longitud de subtrama es 64, estos valores son ejemplos y es evidente que la presente invención es eficaz en cualquier especificación. Además, como se describe en la ecuación 6, aunque el orden del filtro se fija como cúbico en la presente invención, es evidente que puede ser aplicable otro orden. Los coeficientes de filtro usados en la descripción anterior no se limitan a ello. Es evidente que el valor numérico y la especificación no están limitados en la presente invención.
[0066] En la descripción anterior, el primer vector de referencia generado en la primera sección de cálculo vectorial de referencia 201 se determina multiplicando el vector objeto x por el filtro de síntesis LPC de ponderación perceptual H. Sin embargo, cuando la sección de minimización de distorsión 157 se considera como un aparato de cuantificación vectorial que adquiere un código que indica un vector de código que minimiza la distorsión de codificación realizando una búsqueda de pulsos que usa un libro de códigos algebraico formado por una pluralidad de vectores de código, no siempre se aplica un filtro de síntesis LPC de ponderación perceptual a un vector objeto. Por ejemplo, sólo un parámetro relacionado con un espectro característico puede ser aplicable como parámetro que refleja una característica del habla.
[0067] Además, aunque en la descripción anterior se ha descrito un caso en el que la presente invención se aplica a la cuantificación de un libro de códigos algebraico, es evidente que la presente invención puede ser aplicable a un libro de códigos fijo de fases múltiples (multicanal) de otra forma. Es decir, la presente invención puede aplicarse a todos los libros de códigos que codifican una polaridad.
[0068] Además, aunque en la descripción anterior se ha mostrado un ejemplo que usa CELP, dado que la presente invención puede usarse para cuantificación vectorial, es evidente que la aplicación de la misma no se limita a CELP. Por ejemplo, la presente invención puede usarse para cuantificación de espectro usando MDCT (Modified Discrete Cosine Transform, transformada de coseno discreta modificada) o QMF (Quadrature Mirror Filter, filtro espejo de cuadratura) y también puede usarse para un algoritmo de búsqueda de una forma de espectro similar a partir de un espectro de baja frecuencia en una tecnología de ampliación de banda. Por este medio, se reduce la cantidad de cálculo. Es decir, la presente invención puede aplicarse a todos los sistemas de codificación que codifican polaridades.
[0069] Aunque se ha descrito un caso de ejemplo en el que la presente invención está configurada con hardware, la presente invención puede implementarse también con software.
[0070] Por otra parte, cada bloque de función usado en la descripción anterior puede implementarse normalmente como un LSI constituido por un circuito integrado. Este puede estar formado por chips individuales o estar contenido parcial o totalmente en un único chip. En este caso se adopta "LSI" aunque también puede referirse como "IC”, "LSI del sistema", "super LSI” o "ultra LSI" dependiendo de la diferente magnitud de la integración.
[0071] Además, el procedimiento de integración de circuitos no se limita a LSI, y también es posible una implementación que usa circuitos dedicados o procesadores de uso genérico. Después de la fabricación del LSI, también es posible el uso de una FPGA (Field Programmable Gate Array, matriz de puertas programables de campo) programable o un procesador reconfigurable en el que las conexiones y ajustes de las células de circuito en un LSI pueden reconfigurarse.
[0072] Además, si la tecnología de circuitos integrados sustituyera a los LSI como consecuencia del avance de la tecnología de semiconductores u otra tecnología derivada, naturalmente sería también posible realizar la integración de bloques de función usando esta tecnología. También es posible la aplicación de biotecnología.
[0073] En esta invención se hace referencia a la descripción de la solicitud de patente japonesa n. ° 2009­ 283247, presentada el 14 de diciembre de 2009, que incluye la memoria descriptiva, los dibujos y el resumen.
Aplicabilidad industrial
[0074] Un aparato de cuantificación vectorial, un aparato de codificación del habla, un procedimiento de cuantificación vectorial y un procedimiento de codificación del habla según la presente invención son útiles para reducir la cantidad del cálculo de códec del habla sin degradar la calidad del habla.
Lista de números de referencia
[0075]
100 Aparato de codificación CELP
101 Sección de análisis LPC
102 Sección de cuantificación LPC
103 Libro de códigos adaptativo
104 Libro de códigos fijo
105 Libro de códigos de ganancias
106, 107 Multiplicador
108, 110, 154 Sumador
109 Filtro de síntesis LPC
111 Sección de ponderación perceptual
112, 157 Sección de minimización de distorsión
150 Aparato de búsqueda de libro de códigos fijo
151 Sección de cálculo de coeficientes de filtro de ponderación perceptual
152, 153 Filtro de ponderación perceptual
155 Sección de cálculo de coeficientes de filtro de síntesis LPC de ponderación perceptual
156 Tabla de correspondencia del libro de códigos fijo
201 Primera sección de cálculo vectorial de referencia
202 Segunda sección de cálculo vectorial de referencia
203 Sección de almacenamiento de coeficientes de filtro
204 Sección de preprocesamiento del término del denominador
205 Sección de preselección de polaridad
206 Sección de búsqueda de posición de pulso
207 Sección de cálculo del término del numerador
208 Sección de cálculo del término del denominador
209 Sección de evaluación de distorsión

Claims (9)

REIVINDICACIONES
1. Un aparato de cuantificación vectorial configurado para buscar un pulso utilizando un libro de códigos algebraico, estando formado el libro de códigos algebraico con una pluralidad de vectores de código, y configurado para adquirir un código para una señal de habla que indica un vector de código que minimiza una distorsión de codificación, comprendiendo el aparato de cuantificación de vector:
una primera sección de cálculo de vectores (201) configurada para calcular un primer vector de referencia aplicando un parámetro relacionado con una característica del espectro del habla a un vector objetivo que se va a codificar; una segunda sección de cálculo de vectores (202) configurada para calcular un segundo vector de referencia multiplicando el primer vector de referencia por un filtro que tiene una característica de paso alto; una sección de selección de polaridad (205) configurada para generar un vector de polaridad organizando un pulso unitario en el que uno de los positivos y negativos se selecciona como polaridad en una posición de un elemento en base a una polaridad del elemento del segundo vector de referencia;
una sección de cálculo de matriz (204) configurada para calcular una matriz de referencia mediante cálculo de matriz usando el parámetro relacionado con la característica del espectro del habla; y una sección de búsqueda de posición de pulso (206) configurada para buscar una posición de pulso óptima que minimice la distorsión de codificación,
donde la sección de selección de polaridad (205) está configurada para generar un vector ajustado multiplicando el primer vector de referencia por el vector de polaridad y está configurada para generar una matriz ajustada multiplicando la matriz de referencia por el vector de polaridad; y
en el que la sección de búsqueda de posición de pulso (206) está configurada para buscar la posición de pulso óptima usando el vector ajustado y la matriz ajustada.
2. El aparato de cuantificación vectorial según la reivindicación 1, en el que el filtro que tiene la característica de paso alto está configurado para reducir un componente de baja frecuencia del primer vector de referencia, y en el que la sección de selección de polaridad (205) está configurada para seleccionar, en caso de seleccionar pulsos adyacentes entre sí, pulsos que tienen diferentes polaridades aunque las polaridades de estos pulsos sean las mismas en el primer vector de referencia.
3. Un aparato de codificación de habla configurado para codificar una señal de habla de entrada mediante la búsqueda de un pulso utilizando un libro de códigos algebraico, estando formado el libro de códigos algebraico con una pluralidad de vectores de código, comprendiendo el aparato:
una sección de generación de vectores objetivo (152, 109, 153, 154) configurada para calcular un primer parámetro relacionado con una característica de percepción y un segundo parámetro relacionado con una característica de espectro usando la señal de habla de entrada, y configurada para generar un vector objetivo que se va a codificar utilizando el primer parámetro y el segundo parámetro;
una sección de cálculo de parámetros (155) configurada para generar un tercer parámetro relacionado tanto con la característica de percepción como con la característica de espectro usando el primer parámetro y el segundo parámetro; y un aparato de cuantificación de vectores de la reivindicación 1, en el que el parámetro relacionado con la característica del espectro del habla es el tercer parámetro.
4. El aparato de codificación de habla según la reivindicación 3, en el que la sección de búsqueda de posición de pulso comprende:
una sección de evaluación de distorsión (209) configurada para calcular la distorsión de codificación usando una ecuación de evaluación de distorsión establecida con antelación;
una sección de cálculo del término del numerador (207) configurada para calcular el valor de un término del numerador de la ecuación de evaluación de distorsión usando el vector ajustado y la información de la posición de impulso introducida a partir del libro de códigos algebraico; y
una sección de cálculo del término del denominador (208) configurada para calcular el valor de un término del denominador de la ecuación de evaluación de distorsión usando la matriz ajustada y la información de la posición de impulso introducida a partir del libro de códigos algebraico, en el que la sección de evaluación de distorsión (209) está configurada para buscar la posición de pulso óptima calculando la distorsión de codificación aplicando el valor del término del numerador y el valor del término del denominador a la ecuación de evaluación de distorsión.
5. Un aparato de terminal de comunicación que comprende el aparato de codificación del habla según la reivindicación 3.
6. Un aparato de estación de base que comprende el aparato de codificación del habla según la reivindicación 3.
7. Un procedimiento de cuantificación vectorial para buscar un pulso utilizando un libro de códigos algebraico, estando formado el libro de códigos algebraico con una pluralidad de vectores de código, y para adquirir un código para una señal de habla que indica un vector de código que minimiza una distorsión de codificación, comprendiendo el procedimiento de cuantificación vectorial:
calcular un primer vector de referencia aplicando un parámetro relacionado con una característica del espectro del habla a un vector objetivo que se va a codificar;
calcular un segundo vector de referencia multiplicando el primer vector de referencia por un filtro que tiene una característica de paso alto; y
generar un vector de polaridad disponiendo un pulso unitario en el que uno de los positivos y los negativos se selecciona como polaridad en una posición de un elemento en base a una polaridad del elemento del segundo vector de referencia;
calcular una matriz de referencia mediante cálculo matricial utilizando el parámetro relacionado con la característica del espectro del habla; y
buscar una posición de pulso óptima que minimice la distorsión de codificación, donde generar el vector de polaridad comprende generar un vector ajustado multiplicando el primer vector de referencia por el vector de polaridad y generar una matriz ajustada multiplicando la matriz de referencia por el vector de polaridad; y donde la búsqueda de la posición de pulso óptima comprende la búsqueda de la posición de pulso óptima usando el vector ajustado y la matriz ajustada.
8. Un procedimiento de codificación de habla para codificar una señal de habla de entrada mediante la búsqueda de un pulso utilizando un libro de códigos algebraico, estando formado el libro de códigos algebraico con una pluralidad de vectores de código, comprendiendo el procedimiento de codificación de habla:
calcular un primer parámetro relacionado con una característica de percepción y un segundo parámetro relacionado con una característica de espectro usando la señal de habla de entrada, y generando un vector objetivo para su codificación usando el primer parámetro y el segundo parámetro;
generar un tercer parámetro relacionado tanto con la característica de percepción como con la característica de espectro usando el primer parámetro y el segundo parámetro; y
un procedimiento de cuantificación vectorial de la reivindicación 7, en el que el parámetro relacionado con la característica del espectro del habla es el tercer parámetro.
9. Un producto de programa informático que comprende instrucciones que, cuando son ejecutadas por un ordenador, hacen que el ordenador lleve a cabo cualquiera de los procedimientos de la reivindicación 7 o la reivindicación 8.
ES18165452T 2009-12-14 2010-12-13 Dispositivo de cuantificación vectorial, dispositivo de codificación de habla, procedimiento de cuantificación vectorial y procedimiento de codificación de habla Active ES2924180T3 (es)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009283247 2009-12-14

Publications (1)

Publication Number Publication Date
ES2924180T3 true ES2924180T3 (es) 2022-10-05

Family

ID=44167005

Family Applications (2)

Application Number Title Priority Date Filing Date
ES18165452T Active ES2924180T3 (es) 2009-12-14 2010-12-13 Dispositivo de cuantificación vectorial, dispositivo de codificación de habla, procedimiento de cuantificación vectorial y procedimiento de codificación de habla
ES10837267.3T Active ES2686889T3 (es) 2009-12-14 2010-12-13 Dispositivo de cuantificación vectorial, dispositivo de codificación de voz, procedimiento de cuantificación vectorial y procedimiento de codificación de voz

Family Applications After (1)

Application Number Title Priority Date Filing Date
ES10837267.3T Active ES2686889T3 (es) 2009-12-14 2010-12-13 Dispositivo de cuantificación vectorial, dispositivo de codificación de voz, procedimiento de cuantificación vectorial y procedimiento de codificación de voz

Country Status (7)

Country Link
US (3) US9123334B2 (es)
EP (3) EP3364411B1 (es)
JP (5) JP5732624B2 (es)
ES (2) ES2924180T3 (es)
PL (2) PL3364411T3 (es)
PT (2) PT2515299T (es)
WO (1) WO2011074233A1 (es)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
PT2515299T (pt) 2009-12-14 2018-10-10 Fraunhofer Ges Forschung Dispositivo de quantificação vetorial, dispositivo de codificação de voz, método de quantificação vetorial e método de codificação de voz
WO2013049256A1 (en) * 2011-09-26 2013-04-04 Sirius Xm Radio Inc. System and method for increasing transmission bandwidth efficiency ( " ebt2" )

Family Cites Families (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4210872A (en) * 1978-09-08 1980-07-01 American Microsystems, Inc. High pass switched capacitor filter section
US5701392A (en) 1990-02-23 1997-12-23 Universite De Sherbrooke Depth-first algebraic-codebook search for fast coding of speech
JPH0451200A (ja) * 1990-06-18 1992-02-19 Fujitsu Ltd 音声符号化方式
FR2668288B1 (fr) * 1990-10-19 1993-01-15 Di Francesco Renaud Procede de transmission, a bas debit, par codage celp d'un signal de parole et systeme correspondant.
US5195168A (en) * 1991-03-15 1993-03-16 Codex Corporation Speech coder and method having spectral interpolation and fast codebook search
US5396576A (en) * 1991-05-22 1995-03-07 Nippon Telegraph And Telephone Corporation Speech coding and decoding methods using adaptive and random code books
JPH05273998A (ja) * 1992-03-30 1993-10-22 Toshiba Corp 音声符号化装置
JP2624130B2 (ja) * 1993-07-29 1997-06-25 日本電気株式会社 音声符号化方式
FR2720850B1 (fr) * 1994-06-03 1996-08-14 Matra Communication Procédé de codage de parole à prédiction linéaire.
EP0704836B1 (en) 1994-09-30 2002-03-27 Kabushiki Kaisha Toshiba Vector quantization apparatus
JP3319551B2 (ja) * 1995-03-23 2002-09-03 株式会社東芝 ベクトル量子化装置
US5867814A (en) * 1995-11-17 1999-02-02 National Semiconductor Corporation Speech coder that utilizes correlation maximization to achieve fast excitation coding, and associated coding method
DE69708693C5 (de) * 1996-11-07 2021-10-28 Godo Kaisha Ip Bridge 1 Verfahren und Vorrichtung für CELP Sprachcodierung oder -decodierung
WO1999003095A1 (en) * 1997-07-11 1999-01-21 Koninklijke Philips Electronics N.V. Transmitter with an improved harmonic speech encoder
CA2684452C (en) * 1997-10-22 2014-01-14 Panasonic Corporation Multi-stage vector quantization for speech encoding
WO1999041737A1 (en) * 1998-02-17 1999-08-19 Motorola Inc. Method and apparatus for high speed determination of an optimum vector in a fixed codebook
US6240386B1 (en) * 1998-08-24 2001-05-29 Conexant Systems, Inc. Speech codec employing noise classification for noise compensation
US6493665B1 (en) * 1998-08-24 2002-12-10 Conexant Systems, Inc. Speech classification and parameter weighting used in codebook search
JP3365360B2 (ja) * 1999-07-28 2003-01-08 日本電気株式会社 音声信号復号方法および音声信号符号化復号方法とその装置
FR2813722B1 (fr) * 2000-09-05 2003-01-24 France Telecom Procede et dispositif de dissimulation d'erreurs et systeme de transmission comportant un tel dispositif
US6941263B2 (en) * 2001-06-29 2005-09-06 Microsoft Corporation Frequency domain postfiltering for quality enhancement of coded speech
JP3984048B2 (ja) * 2001-12-25 2007-09-26 株式会社東芝 音声/音響信号の符号化方法及び電子装置
WO2003071522A1 (fr) * 2002-02-20 2003-08-28 Matsushita Electric Industrial Co., Ltd. Procede de production de vecteur de source sonore fixe et table de codage de source sonore fixe
CA2388352A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for frequency-selective pitch enhancement of synthesized speed
CA2388439A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
EP1743505A4 (en) * 2004-03-24 2010-10-20 That Corp CONFIGURABLE FILTER USED FOR PROCESSING TELEVISION AUDIO SIGNALS
JP4285292B2 (ja) 2004-03-24 2009-06-24 株式会社デンソー 車両用冷却システム
JP4871501B2 (ja) * 2004-11-04 2012-02-08 パナソニック株式会社 ベクトル変換装置及びベクトル変換方法
WO2007066771A1 (ja) * 2005-12-09 2007-06-14 Matsushita Electric Industrial Co., Ltd. 固定符号帳探索装置および固定符号帳探索方法
US8271274B2 (en) * 2006-02-22 2012-09-18 France Telecom Coding/decoding of a digital audio signal, in CELP technique
JP4335245B2 (ja) * 2006-03-31 2009-09-30 株式会社エヌ・ティ・ティ・ドコモ 量子化装置、逆量子化装置、音声音響符号化装置、音声音響復号装置、量子化方法、および逆量子化方法
US20090240494A1 (en) * 2006-06-29 2009-09-24 Panasonic Corporation Voice encoding device and voice encoding method
EP2051244A4 (en) * 2006-08-08 2010-04-14 Panasonic Corp AUDIOCODING DEVICE AND AUDIOCODING METHOD
US20100094623A1 (en) * 2007-03-02 2010-04-15 Panasonic Corporation Encoding device and encoding method
JP2009283247A (ja) 2008-05-21 2009-12-03 Panasonic Corp 発熱体ユニット及び加熱装置
PT2515299T (pt) 2009-12-14 2018-10-10 Fraunhofer Ges Forschung Dispositivo de quantificação vetorial, dispositivo de codificação de voz, método de quantificação vetorial e método de codificação de voz

Also Published As

Publication number Publication date
JPWO2011074233A1 (ja) 2013-04-25
EP2515299A4 (en) 2014-01-08
JP2017207774A (ja) 2017-11-24
EP2515299B1 (en) 2018-06-20
PL3364411T3 (pl) 2022-10-03
JP6195138B2 (ja) 2017-09-13
EP3364411B1 (en) 2022-06-01
ES2686889T3 (es) 2018-10-22
JP2019012278A (ja) 2019-01-24
US20120278067A1 (en) 2012-11-01
JP2015121802A (ja) 2015-07-02
JP6644848B2 (ja) 2020-02-12
US20190214031A1 (en) 2019-07-11
PL2515299T3 (pl) 2018-11-30
EP3364411A1 (en) 2018-08-22
US11114106B2 (en) 2021-09-07
JP6400801B2 (ja) 2018-10-03
US10176816B2 (en) 2019-01-08
EP4064281A1 (en) 2022-09-28
JP5732624B2 (ja) 2015-06-10
EP2515299A1 (en) 2012-10-24
US9123334B2 (en) 2015-09-01
JP2016130871A (ja) 2016-07-21
PT3364411T (pt) 2022-09-06
JP5942174B2 (ja) 2016-06-29
PT2515299T (pt) 2018-10-10
US20150317992A1 (en) 2015-11-05
WO2011074233A1 (ja) 2011-06-23

Similar Documents

Publication Publication Date Title
RU2462770C2 (ru) Устройство кодирования и способ кодирования
US12002481B2 (en) Apparatus for encoding a speech signal employing ACELP in the autocorrelation domain
ES2308765T3 (es) Aparato y metodo para busqueda en un libro de codificacion fijo.
ES2924180T3 (es) Dispositivo de cuantificación vectorial, dispositivo de codificación de habla, procedimiento de cuantificación vectorial y procedimiento de codificación de habla
US20100049508A1 (en) Audio encoding device and audio encoding method
WO2011048810A1 (ja) ベクトル量子化装置及びベクトル量子化方法
JP2013057792A (ja) 音声符号化装置及び音声符号化方法