ES2553462T3 - Método de y aparato para evaluar inteligibilidad de una señal de voz degradada - Google Patents
Método de y aparato para evaluar inteligibilidad de una señal de voz degradada Download PDFInfo
- Publication number
- ES2553462T3 ES2553462T3 ES12791581.7T ES12791581T ES2553462T3 ES 2553462 T3 ES2553462 T3 ES 2553462T3 ES 12791581 T ES12791581 T ES 12791581T ES 2553462 T3 ES2553462 T3 ES 2553462T3
- Authority
- ES
- Spain
- Prior art keywords
- degraded
- signal
- frames
- voice signal
- intelligibility
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title abstract description 8
- 238000011156 evaluation Methods 0.000 abstract description 4
- 230000006870 function Effects 0.000 abstract 6
- 230000005540 biological transmission Effects 0.000 abstract 2
- 238000005070 sampling Methods 0.000 abstract 2
- 230000008447 perception Effects 0.000 abstract 1
- 230000001419 dependent effect Effects 0.000 description 4
- 230000001627 detrimental effect Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/69—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Image Analysis (AREA)
Abstract
Método para evaluar inteligibilidad de una señal de voz degradada recibida desde un sistema de transmisión de audio, al transmitir a través de dicho sistema de transmisión de audio una señal de voz de referencia con el fin de proporcionar dicha señal de voz degradada, en donde el método comprende: - muestrear dicha señal de voz de referencia en una pluralidad de tramas de señal de referencia, muestrear dicha señal de voz degradada en una pluralidad de tramas de señal degradadas, y formar pares de tramas al asociar dichas tramas de señal de referencia y dichas tramas de señal degradadas entre sí; - para cada par de tramas procesar previamente dichas tramas de señal de referencia y dichas tramas de señal degradadas para permitir una comparación entre dichas tramas de cada par de tramas; El método se caracteriza adicionalmente por: - proporcionar para cada par de tramas una o más funciones de diferencia que representan una diferencia entre dicha trama de señal degradada y dicha trama de señal de referencia asociada; - seleccionar por lo menos una de dichas funciones de diferencia para compensar dicha por lo menos una de dichas funciones de diferencia para uno o más tipos de perturbaciones, tales como proporcionar para cada par de tramas una o más funciones de densidad de perturbación adaptadas a un modelo de percepción auditivo humano, en donde dicha selección se realiza al comparar un nivel de perturbación de dicha señal degradada con un nivel de perturbación umbral; y - derivar de dichas funciones de densidad de perturbación de una pluralidad de pares de tramas un parámetro de calidad completo, dicho parámetro de calidad es por lo menos indicador de dicha inteligibilidad de dicha señal de voz degradada; en donde dicho método comprende una etapa de determinar por lo menos un parámetro de conmutación indicador de un nivel de potencia de audio de dicha señal degradada, y utilizar dicho por lo menos un parámetro de conmutación para determinar o adaptar dicho nivel de perturbación umbral que se utiliza en la realización de dicha selección de dicha por lo menos una de dichas funciones de diferencia para optimizar dicho método para las condiciones de nivel de potencia de audio de dicha señal degradada para evaluación de dicha inteligibilidad de dicha señal de voz degradada para dicha evaluación.
Description
de Bark inferior y superior (por debajo de 12 y por encima de 7 Bark, es decir, utilizando una superposición de 5 Bark) de la señal degradada y “castiga” cualquier desequilibrio grave, independientemente del hecho de que esto podría ser el resultado de un timbre de voz incorrecto del archivo de voz de referencia. Tenga en cuenta que una cadena transparente que utiliza señales de referencia mal grabadas, que contiene mucho ruido y/o un timbre de voz incorrecto,
5 por lo tanto, no proporcionaría la máxima puntuación MOS en una medición de calidad de voz de extremo a extremo POLQA. Esta compensación también tiene un impacto al medir la calidad de los productos que sean transparentes. Cuando se utilizan señales de referencia que muestran una desviación significativa del timbre “ideal” óptimo del sistema bajo prueba será juzgado como no transparente incluso si el sistema no introduce ninguna degradación en la señal de referencia.
10 El impacto de los picos graves en la perturbación se cuantifica en 130 y 130’ en el indicador PLANITUD que también se utiliza en el cálculo del MOS-LQO.
Las variaciones del nivel de ruido graves que se centran en la atención de los sujetos hacia el ruido se cuantifican en 15 131 y 131’ por un indicador de contraste de ruido derivado de las partes silenciosas de la señal de referencia.
En las etapas 133 y 133’, se realiza una operación de perturbaciones ponderadas dependientes de si o no coinciden con la voz hablada real. Con el fin de evaluar la inteligibilidad de la señal degradada, las perturbaciones que se perciben durante los períodos de silencio no se consideran tan perjudiciales como las perturbaciones que se perciben durante 20 voz hablada real. Por lo tanto, con base en el indicador VOLUMEN determinado en la etapa 33 (o etapa 35’ en la realización alternativa) a partir de la señal de referencia, un valor de ponderación se determina para ponderar cualesquier perturbaciones. El valor de ponderación se utiliza para ponderar la función de diferencia (es decir, las perturbaciones) para incorporar el impacto de las perturbaciones en la inteligibilidad de la señal de voz degradada en la evaluación. En particular, dado que el valor de ponderación se determina con base en el indicador VOLUMEN, el valor 25 de ponderación puede ser representado por una función dependiente de volumen. En la presente realización, el valor de ponderación dependiente de volumen se determina al comparar el valor de volumen con un umbral. Si el indicador de volumen excede el umbral de las perturbaciones percibidas se toman en consideración completamente al realizar la evaluación. Por otro lado, si el valor de volumen es menor que el umbral, el valor de ponderación se hace dependiente del indicador de nivel de volumen; es decir, en la presente realización el valor de ponderación es igual al indicador de
30 nivel de volumen (en el régimen en el que el VOLUMEN está por debajo del umbral). La ventaja es que para las partes débiles de la señal de voz, por ejemplo, en los extremos de las palabras habladas justo antes de una pausa o silencio, las perturbaciones se toman en cuenta parcialmente que son perjudiciales para la inteligibilidad.
A modo de ejemplo, se puede apreciar que una cierta cantidad de ruido percibido mientras se pronuncia la letra ‘f’ al
35 final de una palabra, puede provocar que un oyente perciba esto como la letra ‘s’. Esto podría ser perjudicial para la inteligibilidad. Por otra parte, el experto puede apreciar que también es posible (en una realización diferente) simplemente hacer caso omiso de cualquier ruido durante el silencio o pausas, al girar el valor de ponderación a cero cuando el valor de volumen está por debajo del umbral mencionado anteriormente. El método de ponderación de la perturbación en una manera dependiente de volumen se describe adicionalmente adelante en relación con la figura 6.
40 Se detectan saltos graves en la alineación y se cuantifica la alineación y el impacto en las etapas 136 y 136’ por un factor de compensación.
Por último, la perturbación y las densidades de perturbación agregadas se recortan en 137 y 137’ a un nivel máximo y la
45 varianza de la perturbación 138 y 138’ y los saltos de 140 y 140’ en el volumen se utilizan para compensar las estructuras de tiempo específicas de las perturbaciones.
Esto produce la densidad de perturbación final D(f)n 142 para perturbación regular y la densidad de perturbación final DA(f)n 143 para perturbación agregada.
50
Agregación de perturbación sobre tono, esfuerzo, y tiempo, Mapeo de Puntuación MOS Intermedia
Las densidades 143 de perturbación final D(f)n 142 y perturbación agregada DA(f)n e integran por trama sobre el eje de tono que resulta en dos perturbaciones diferentes por trama, uno derivado de la perturbación y otro derivado de la
55 perturbación agregado, utilizando una integración 153 y 159 L1 (ver Figura 4):
con Wf una serie de constantes proporcionales al ancho de contenedores de Bark.
12
Claims (1)
-
imagen1 imagen2 imagen3
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP11189593 | 2011-11-17 | ||
EP11189593.4A EP2595145A1 (en) | 2011-11-17 | 2011-11-17 | Method of and apparatus for evaluating intelligibility of a degraded speech signal |
PCT/NL2012/050807 WO2013073943A1 (en) | 2011-11-17 | 2012-11-15 | Method of and apparatus for evaluating intelligibility of a degraded speech signal |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2553462T3 true ES2553462T3 (es) | 2015-12-09 |
Family
ID=47228012
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES12791581.7T Active ES2553462T3 (es) | 2011-11-17 | 2012-11-15 | Método de y aparato para evaluar inteligibilidad de una señal de voz degradada |
Country Status (5)
Country | Link |
---|---|
US (1) | US9659579B2 (es) |
EP (2) | EP2595145A1 (es) |
ES (1) | ES2553462T3 (es) |
PT (1) | PT2780909E (es) |
WO (1) | WO2013073943A1 (es) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9692535B2 (en) | 2012-02-20 | 2017-06-27 | The Nielsen Company (Us), Llc | Methods and apparatus for automatic TV on/off detection |
US9830905B2 (en) * | 2013-06-26 | 2017-11-28 | Qualcomm Incorporated | Systems and methods for feature extraction |
CN103578479B (zh) * | 2013-09-18 | 2016-05-25 | 中国人民解放军电子工程学院 | 基于听觉掩蔽效应的语音可懂度测量方法 |
EP2922058A1 (en) | 2014-03-20 | 2015-09-23 | Nederlandse Organisatie voor toegepast- natuurwetenschappelijk onderzoek TNO | Method of and apparatus for evaluating quality of a degraded speech signal |
CN104485114B (zh) * | 2014-11-27 | 2018-03-06 | 湖南省计量检测研究院 | 一种基于听觉感知特性的语音质量客观评估的方法 |
WO2017127367A1 (en) | 2016-01-19 | 2017-07-27 | Dolby Laboratories Licensing Corporation | Testing device capture performance for multiple speakers |
EP3223279B1 (en) | 2016-03-21 | 2019-01-09 | Nxp B.V. | A speech signal processing circuit |
US10957340B2 (en) * | 2017-03-10 | 2021-03-23 | Samsung Electronics Co., Ltd. | Method and apparatus for improving call quality in noise environment |
CN108877839B (zh) * | 2018-08-02 | 2021-01-12 | 南京华苏科技有限公司 | 基于语音语义识别技术的语音质量感知评估的方法及系统 |
CN112637740B (zh) * | 2020-12-18 | 2023-10-13 | 深圳Tcl新技术有限公司 | 信号调制方法、功放设备及存储介质 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2148340C (en) * | 1995-05-01 | 2004-12-07 | Gianni Di Pietro | Method and apparatus for automatically and reproducibly rating the transmission quality of a speech transmission system |
DE60308336T2 (de) * | 2002-03-08 | 2007-09-20 | Koninklijke Kpn N.V. | Verfahren und system zur messung der übertragungsqualität eines systems |
US8098833B2 (en) * | 2005-12-28 | 2012-01-17 | Honeywell International Inc. | System and method for dynamic modification of speech intelligibility scoring |
ATE470931T1 (de) * | 2007-10-11 | 2010-06-15 | Koninkl Kpn Nv | Verfahren und system zur messung der sprachverständlichkeit eines tonübertragungssystems |
US8015002B2 (en) * | 2007-10-24 | 2011-09-06 | Qnx Software Systems Co. | Dynamic noise reduction using linear model fitting |
US8949114B2 (en) * | 2009-06-04 | 2015-02-03 | Optis Wireless Technology, Llc | Method and arrangement for estimating the quality degradation of a processed signal |
EP2372700A1 (en) * | 2010-03-11 | 2011-10-05 | Oticon A/S | A speech intelligibility predictor and applications thereof |
JP5606764B2 (ja) * | 2010-03-31 | 2014-10-15 | クラリオン株式会社 | 音質評価装置およびそのためのプログラム |
US9524733B2 (en) * | 2012-05-10 | 2016-12-20 | Google Inc. | Objective speech quality metric |
EP2733700A1 (en) * | 2012-11-16 | 2014-05-21 | Nederlandse Organisatie voor toegepast -natuurwetenschappelijk onderzoek TNO | Method of and apparatus for evaluating intelligibility of a degraded speech signal |
EP2922058A1 (en) * | 2014-03-20 | 2015-09-23 | Nederlandse Organisatie voor toegepast- natuurwetenschappelijk onderzoek TNO | Method of and apparatus for evaluating quality of a degraded speech signal |
-
2011
- 2011-11-17 EP EP11189593.4A patent/EP2595145A1/en not_active Withdrawn
-
2012
- 2012-11-15 WO PCT/NL2012/050807 patent/WO2013073943A1/en active Application Filing
- 2012-11-15 ES ES12791581.7T patent/ES2553462T3/es active Active
- 2012-11-15 US US14/358,730 patent/US9659579B2/en active Active
- 2012-11-15 EP EP12791581.7A patent/EP2780909B1/en active Active
- 2012-11-15 PT PT127915817T patent/PT2780909E/pt unknown
Also Published As
Publication number | Publication date |
---|---|
EP2780909A1 (en) | 2014-09-24 |
PT2780909E (pt) | 2015-11-30 |
EP2780909B1 (en) | 2015-08-26 |
US9659579B2 (en) | 2017-05-23 |
EP2595145A1 (en) | 2013-05-22 |
US20140316773A1 (en) | 2014-10-23 |
WO2013073943A1 (en) | 2013-05-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2553462T3 (es) | Método de y aparato para evaluar inteligibilidad de una señal de voz degradada | |
ES2526126T3 (es) | Método, producto de programa informático y sistema para determinar una calidad percibida de un sistema de audio | |
ES2834929T3 (es) | Llenado con ruido en la codificación de audio por transformada perceptual | |
ES2527918T3 (es) | Descodificador multi-canal binaural en el contexto de reglas de mezcla ascendente que no conservan la energía | |
BRPI0711317B8 (pt) | método para fornecer informação audível a partir de um desfibrilador, e, desfibrilador externo automático | |
RU2011101617A (ru) | Устройство и способ для вычисления числа огибающих спектра | |
US20090319268A1 (en) | Method and apparatus for measuring the intelligibility of an audio announcement device | |
De Castro et al. | Speech inconsistency index in Brazilian Portuguese-speaking children | |
US20190019524A1 (en) | Weight function determination device and method for quantizing linear prediction coding coefficient | |
TWI431563B (zh) | 語言學習系統、語言學習方法及其程式產品 | |
CN107221342A (zh) | 话音信号处理电路 | |
Kim et al. | Test-retest reliability of word recognition score using Korean standard monosyllabic word lists for adults as a function of the number of test words | |
Schneider et al. | Reaction time and decision difficulty in the perception of intonation | |
ATE456845T1 (de) | Sprachdifferenzierung | |
CN106504771A (zh) | 一种适用于噪声环境的汉语语音清晰度评测算法 | |
NO20080330L (no) | Kalibreringssystem for anvendelse med testfilmer for lateral stromningsanalyse | |
CN103519785A (zh) | 基于实时语音多维建模的语音障碍多维测量系统及其方法 | |
PT2780910E (pt) | Método e aparelho para avaliar a inteligibilidade de um sinal de fala degradado | |
MX2020009705A (es) | Metodos para la deteccion del riesgo de enfermedad renal cronica en un sujeto y metodo implementado por computadora. | |
CN102208190B (zh) | 抑制非平稳噪声设备收敛时间的测量方法及装置 | |
Xue et al. | Towards a comprehensive assessment of speech intelligibility for pathological speech | |
Mertens | Automatic labelling of pitch levels and pitch movements in speech corpora | |
Ryant et al. | Automatic Analysis of Phonetic Speech Style Dimensions. | |
Hunter et al. | Overlap of hearing and voicing ranges in singing | |
Kondo | On the use of objective quality measures to estimate watermarked audio quality |