CN106782611A

CN106782611A - 一种适用于混响环境的汉语语音清晰度评测算法

Info

Publication number: CN106782611A
Application number: CN201611014116.6A
Authority: CN
Inventors: 章斯宇; 孟子厚
Original assignee: Communication University of China
Current assignee: Communication University of China
Priority date: 2016-11-17
Filing date: 2016-11-17
Publication date: 2017-05-31

Abstract

本发明给出了一种适用于纯混响环境的汉语听感清晰度客观评测方法，建立了以混响时间为自变量的汉语单音节、声母、韵母和声调清晰度的客观评测模型。只需要测量传输系统的混响时间就可以直接计算出相应的汉语语音清晰度值，该方法针对汉语的语音学和听感特性，适用于汉语传播为主的声传输系统，同时计算结果还可以对传输系统的混响条件设置起到一定的指导作用。

Description

一种适用于混响环境的汉语语音清晰度评测算法

技术领域

本发明属于声频测量领域，特别涉及一种适用于混响环境的汉语语音清晰度客观评测算法。

背景技术

语音清晰度是衡量语音传输系统性能优劣的重要评价指标，清晰度评测在通信、扩声、音质设计等领域广泛应用，一般用正确接收的语言单位(比如单音节)与全部发送语言单位的比值度量清晰度。清晰度的评测方法分为主观评测和客观评测两类，主观评测方法是组织人员进行现场清晰度测试打分，尽管主观评测结果直接准确，但实际操作困难，因此工程中更多采用客观评测方法。清晰度客观评测是用某个客观量评价系统的清晰度，这个客观量是根据一定的计算模型计算得到的，并且是与主观评测结果高度相关的。声频技术领域使用的语音清晰度客观评测指标主要有：清晰度指数AI(Articulation Index)，辅音损失率％Alcon(Articulation loss of consonant)，语言传输指数STI(SpeechTransmission Index)等，这些客观评测方法均有其各自的计算模型，采用不同的信号处理方法，适用于不同的条件和场合。然而，将这些评测方法直接应用到汉语声传播环境的清晰度评测时会出现失效的问题，即客观评测结果与汉语语音清晰度主观测试结果不匹配，客观评测结果较差对应的汉语实际听闻感受可能尚可，而客观评测结果较好对应的汉语实际听感可能不佳。

分析现有技术评测汉语语音清晰度失效原因可知清晰度客观评测算法的可靠性与评测对象自身的特性有关，现有的清晰度客观评测方法是根据荷兰语或英语等印欧语系语言特性提出的，并没有考虑汉语的语音学和语言学特性。汉语属于汉藏语系，是一种声调语言，声调起到辨义作用，汉语以单音节为主，一个汉字就是一个单音节，每个音节包含声母、韵母和声调三个部分，有别于传统辅-元-辅的音节构造，由于存在较多的同音字，汉语的单字可以视作无语义，这些语音特点都与外语存在显著区别，因此在语音传输过程中各干扰要素对汉语语音清晰度的影响结果与外语会有所不同。此外，传统的清晰度客观评测算法是将语音传输系统视作一个整体，馈给系统一个标准测试信号，根据系统的输出信号相对输入信号的变化衰减程度，进而给出一个具体的客观量值，计算过程中不涉及传输系统中干扰因素的声学属性，因此不能反映传输系统的声学特性是如何导致语音清晰度的下降，评测结果难以对清晰度降低的原因起到“诊断”和“治疗”作用，无法指导声传输系统的功能设计。语音传输过程中影响清晰度的声学因素有很多，其中混响是一类主要的干扰条件，如果房间吸声或反射面处理不当，混响作用下语音信号的直达声和混响声混叠导致接收端清晰度下降。目前并没有专门针对混响环境的并且考虑了汉语语音学和与语言学特性的清晰度评测方法。

发明内容

提出了一种适用于混响环境的汉语语音清晰度客观评测算法，包括测量能够表征影响汉语语音清晰度的混响条件下的客观声学参数的步骤，其特征在于，根据所建立的客观声学参数与汉语的主观听感清晰度间的对应函数关系，得到当前传输带宽有限条件下的汉语语音清晰度，其中，客观声学参数为自变量；其中，混响时间T对应混响条件下的客观声学参数。

给出了在混响条件下的汉语单音节清晰度Q_F与混响时间T之间的函数关系

进一步给出了在混响条件下的汉语声母清晰度Q_Fsm、韵母清晰度Q_Fsm及声调清晰度Q_Fsd与混响时间T之间的函数。

附图说明

图1为混响条件下汉语语音清晰度主观听感实验示意图

图2为汉语单音节、声母、韵母和声调清晰度与混响时间的关系图

图3为混响环境中汉语语音清晰度实测值与预测值的误差表示图

具体实施方式

本发明的思路是根据传输系统混响特性和汉语实际听感清晰度的关系，提出一种符合汉语语音清晰度感知规律并且能对混响环境下汉语语音清晰度进行评测的方法。通过开展不同混响条件下的汉语语音清晰度主观听感实验，建立以混响时间为客观变量的汉语听感清晰度函数模型，依据此计算模型可以实现混响环境下的汉语语音清晰度评测，并能够根据清晰度预测结果对传输系统的混响时间设置进行针对性的调整。需要说明的是本发明所指的汉语语音清晰度指的是汉语主观听感清晰度，具体指的是汉语单音节清晰度，语料使用的是不涉及语义的汉语单音节，与语言可懂度有所不同。

汉语语音清晰度主观听感实验示意图如图1所示，实验方法参照国家标准GB-T15508-1995《声学—语言清晰度测试方法》进行。预先录制纯净的语音信号，制备不同混响时间的房间冲击响应，将语音信号与一定混响时间的房间冲击响应函数进行卷积，以模拟受到混响混叠作用的语音信号，实验中采用的混响时间范围0.1s～6.0s，按照混响感差别阈限设计混响时间间距，实验条件设置确保清晰度分布范围足够广。在听音室用隔声性能较好的监听耳机将这些处理后的语音信号回放给听音人进行清晰度测试。听音人听力正常，熟悉汉语普通话，听音人在答题纸上记录下自认为听到的音节拼音。比如听到：“序号X切哈宗”，被试记录“qièhāzōng”。只有当被试记录的拼音与实际播放的拼音一致时，才认为听对，否则记为错。为保证实验的信度，当某一被试记录表的得分与全体被试清晰度平均得分相差大于标准差3倍时，剔除掉该被试数据，重新计算清晰度得分。实验结束后通过多元回归分析的方法建立汉语节清晰度、声母清晰度、韵母清晰度、声调清晰度与混响时间的函数关系，从而得到汉语语音清晰度的客观评测模型。

本发明提出的混响环境下的汉语语音清晰度客观评测算法模型可概括为式(1)所示的函数形式，其中混响时间T对应的是混响传递条件的客观控制变量。

Q_R＝f(T) (1)

本发明提出的汉语语音清晰度客观评测算法模型如式(2)～(5)所示，该算法给出了汉语语音清晰度与混响时间T的函数关系，二者呈对数关系，拟合精度R²可以达到0.90。其中Q_R表示混响环境的单音节清晰度，Q_Rsm表示噪声环境的声母清晰度，Q_Rym表示噪声环境的韵母清晰度，Q_Rsd表示噪声环境的声调清晰度。

Q_R＝-0.14×ln(T)+0.40 (2)

Q_Rsm＝-0.12×ln(T)+0.54 (3)

Q_Rym＝-0.10×ln(T)+0.77 (4)

Q_Rsd＝-0.06×ln(T)+0.89 (5)

本算法采用对数函数的形式，清晰度评测时，先确定传输系统客观声学参量混响时间的取值，随后根据公式计算，计算结果直接就是汉语听感清晰度。

混响环境中的汉语单音节、声母、韵母、声调清晰度与混响时间的关系如图2所示，混响环境中汉语语音清晰度实测值与预测值的误差如图3所示。

进一步的，本领域技术人员应当知晓，表征混响干扰条件的客观参量也存在除混响时间T以外的客观参量，本发明仅针对用混响时间T表征频带有限情况下的汉语语音清晰度评测，对于存在的其他客观参量，本领域技术人员完全可以根据本发明给出的方法得到对应的评测算法。

Claims

1.一种适用于混响环境的汉语语音清晰度客观评测算法，包括测量能够表征影响汉语语音清晰度的混响条件下的客观声学参数的步骤，其特征在于，根据所建立的客观声学参数与汉语的主观听感清晰度间的对应函数关系，得到混响条件下的汉语语音清晰度，其中，所述客观声学参数为自变量。

2.如权利要求1所述的汉语语音清晰度客观评测算法，其特征在于，混响时间T对应混响条件下的客观声学参数。

3.如权利要求2所述的汉语语音清晰度客观评测算法，其特征在于，在混响条件下的汉语单音节清晰度Q_F与混响时间T之间的函数关系如下：

Q_R＝-0.14×ln(T)+0.40

4.如权利要求2所述的汉语语音清晰度客观评测算法，其特征在于，在混响条件下的汉语声母清晰度Q_Fsm、韵母清晰度Q_Fsm及声调清晰度Q_Fsd与混响时间T之间的函数关系如下：

Q_Rsm＝-0.12×ln(T)+0.54

Q_Rym＝-0.10×ln(T)+0.77

Q_Rsd＝-0.06×ln(T)+0.89 。