CN113450780A

CN113450780A - 一种听觉感知响度空间Lombard效应分类方法

Info

Publication number: CN113450780A
Application number: CN202110663924.XA
Authority: CN
Inventors: 杨玉红; 刘青沐; 陈旭峰; 蔡林君; 冯佳倩; 涂卫平; 艾浩军
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2021-06-16
Filing date: 2021-06-16
Publication date: 2021-09-28
Anticipated expiration: 2041-06-16
Also published as: CN113450780B

Abstract

本发明公开了一种听觉感知响度空间Lombard效应分类方法，进行Lombard分级录音采集，包括设置各细粒度听觉主观响度级的背景噪声，同步采集各响度级的背景噪声与对应的纯净语音；采用基于空气传播与骨传导的双路自反馈机制，提取说话人感知的发声自反馈；基于各级背景噪声与对应的发声自反馈，采用短时客观可懂度测度指标实现Lombard效应分类。与现有技术相比，本发明结合听觉主观响度级与发声自反馈机制研究Lombard效应的分类模型，可以解决若干固定噪声分贝级语料库Lombard风格界限模糊的问题，支持Lombard语料库的高效采集。

Description

一种听觉感知响度空间Lombard效应分类方法

技术领域

本发明属于声学技术领域，涉及一种听觉感知响度空间Lombard效应分级方法。

背景技术

医学与心理学研究表明，说话人会根据现实环境背景干扰声的差异调整发声模式，以减轻背景干扰声对语音的抑制，发声模式也呈现多样化。这种说话人噪声对抗机制称为“Lombard效应”，由法国耳鼻喉科医生Lombard首次发现而得名。

现有研究表明Lombard效应确实能在嘈杂噪声环境条件下提高语音的可懂度，说话模式的转换具体对应语音能量、基频、谱倾斜度、时长以及时域幅度调制等底层声学参数的变化。现有Lombard语料库按固定分贝级划分，这些分贝级设置缺乏依据，导致现有语料库Lombard风格界限模糊，分类表达误差过大，尚无法定量指导生成对应发声模式的语音。且由于Lombard语料库采集对应的背景噪声响度级高，说话人听觉压力大，Lombard语料库采集难度大。目前国际上公开的Lombard语料库仅有4个，最大的语料库仅包含54人，两个背景噪声分贝级的语料，无法满足Lombard效应研究的需求，亟需对Lombard效应进行分类，指导Lombard语料库的高效采集。

申请人的研究团队日前提出了《一种基于声学特征转换的语音清晰度增强方法》，公开号为CN110085245A，基于Lombard效应，结合说话人噪声对抗的发声机理和自然语音生成模型实现语音清晰度增强。该方法中的Lombard效应分类采取结合主观评测的方法，虽然评测结果最准确，但是需要组织大量的主观评测来去除个体差异性，耗时耗力，组织困难。

本发明可避免主观评测，结合听觉响度级与发声自反馈机制研究Lombard 效应分类模型，进一步提升客观评测方法的准确性，解决若干固定噪声分贝级语料库Lombard风格界限模糊的问题。

发明内容

本发明结合听觉响度级与发声自反馈机制研究Lombard效应的分类方法，可以解决若干固定噪声分贝级语料库Lombard风格界限模糊的问题，指导Lombard语料库的高效采集。

本发明所采用的技术方案包括一种听觉感知响度空间Lombard效应分类方法，包括以下步骤：

步骤1，Lombard分级录音采集，包括设置各细粒度听觉主观响度级的背景噪声，同步采集各响度级的背景噪声与对应的纯净语音；

步骤2，采用基于空气传播与骨传导的双路自反馈机制，基于步骤1所得纯净语音，提取说话人感知的发声自反馈；

步骤3，基于各级背景噪声与对应的发声自反馈，采用短时客观可懂度测度指标实现Lombard效应分类。

而且，步骤1的实现包括以下子步骤，

步骤1.1，选择设置语料库句子，句子的选择原则为尽量均衡覆盖各音节；

步骤1.2，选择稳态背景噪声；

步骤1.3，录音，包括设定若干主观听觉响度级，利用麦克风和人工头实现语音与背景噪声同步采集。

而且，步骤2的实现包括以下子步骤，

步骤2.1，对模拟自反馈发声函数曲线进行拟合；

步骤2.2，生成骨传导补偿音频，包括将时域信号转换到频域信号，取频点的幅度绝对值做将振幅谱图转换为db_scale谱图，遍历频率区间，将每一帧的不同频率的对数值加上增益的对数值。

而且，步骤3的实现包括以下子步骤，

步骤3.1，针对同一个人在相邻两个听觉主观响度级下的纯净语音分别叠加较高响度级同步采集的背景噪声，构建两组对比数据；

步骤3.2，对两组数据进行显著性差异测试。

本发明方法充分挖掘了不同响度等级下人改变发声模式后音频数据间的差异信息，以解决若干固定噪声分贝级语料库Lombard风格界限模糊的问题，指导Lombard语料库的高效采集。

附图说明

图1是本发明实施例Lombard效应分类建模方法总体技术路线图；

图2是本发明实施例消声室场景设置示意图；

图3是本发明实施例背景噪声与自反馈发声感知模型图；

图4是本发明实施例骨传导函数拟合效果图；

图5是本发明实施例基于STOI-可懂度客观测度分类判决图；

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

本发明实施例提供一种听觉感知响度空间Lombard效应的分类方法，主要发明内容在于引入人类听觉主观响度标度(LUFS:Loudness Units relative to Full Scale)代替Lomard效应通常使用的分贝(dB)，以及对采集语料进行模拟人类听觉自反馈发声感知机制的补偿，这两点发明内容均可进一步提升客观评测方法的准确性。图1是本发明实施例Lombard效应分类建模方法总体技术路线图，图左三个流程框分别对应以下三个具体步骤。

本发明实施例提供的一种听觉感知响度空间Lombard效应的分类方法，具体实施步骤如下：

步骤1：Lombard分级录音采集，设置各细粒度听觉主观响度级的背景噪声，同步采集各响度级的背景噪声与对应的纯净语音；

针对步骤1，可以采用以下步骤实现：

步骤1.1：选择语料库句子；

句子的选择原则尽可能均衡覆盖各音节。

所有的句子采用网格语料库结构，每个句子都有一个固定的结构：人物/姓名(11)+动词(13)+量词(14)+形容词(11)+名词(10)，例如“青木乘一架旧飞机”，括号中给出了备选词的数目。网格语料库中共包含59个不同的词，五个句子部分中每个部分的替代词数量是均匀分布的。

使用正交法生成句子。正交实验是研究多因素、多水平的一种实验方法，它利用正交表来对实验进行设计，通过少数实验代替全面的实验。使用allpairs工具来产生正交表。选取正交表中前174行数据作为基本数据，从中随机选取120 行并打乱，即可获得较为理想的语句库。

步骤1.2：选择背景噪声；

实施例优选选择稳态背景噪声。

耳机内播放的背景噪声使用由52阶线性预测编码产生的采样率为48kHz的语音形噪(SSN：Speech Shaped Noise)。

用Python实施ITU-R BS.1770-4标准，转换到LUFS听觉响度级。允许控制门控块大小和频率加权滤波器，以进行其他控制。使用PySoundFile读取.wav文件作为ndarray，创建BS.1770仪表，输出LUFS听觉响度级。

步骤1.3：录音；

设定若干主观听觉响度级。

实验时，录音在武汉大学国家多媒体软件工程技术研究中心的消声室进行，使用录音软件为Adobe Audition。使用视频通话连接消声室内的ipad和消声室外控制播放噪音的电脑，设备均关闭麦克风和扬声器，避免影响实验结果。说话人和听音者可以通过手势确定录音状态。屏幕上同时显示听音者和待朗读的句子，提示说话者以话模式说出屏幕中的句子，有研究表明，在对话模式下更能激发 Lombard效应。说话人听到背景噪声，适应后开始录音，每个句子后稍事停顿1 s左右，每次说一组10句。

实验中初始设定9个LUFS级：覆盖范围从-62LUFS到-19LUFS，步长以 4-6LUFS为主，由于听觉响度级高于-30LUFS后，背景噪声对说话人的听觉压力大，实验为了减少听觉压力的影响，直接设定-19LUFS级。LUFS级与分贝级的关系具体参见图5。一共录制1080句(9个LUFS级*4个说话人*3次*10 个句子)。

同步两个耳机输出端，播放噪声，说话人和人工头各佩戴一个耳机。为防止串音，说话人在消声室内，麦克风采集说话人语音。人工头放置消声室外，录制左右耳双通道背景噪声信号。麦克风和人工头实现语音与背景噪声同步采集，采样率均为48kHz。

输出端电脑插入外置usb二合一声卡，连接两个耳机输出端，以控制两个耳机内同时播放噪声，说话人和人工头各佩戴一个耳机。设置usb外置声卡的音量旋钮，整个语料库录制过程中保持不变。

说话人在消声室内，说话人对着iPad和听者视频通话，语料由说话人自己在手机端调整控制，麦克风采集说话人语音。麦克风与说话者之间放置麦克风防喷罩。人头戴耳机，与麦克风距离小于10cm。人工头放置消声室外，戴耳机录制左右耳双通道噪声信号。

麦克风和人工头连接至RME声卡接口，利用声卡实现背景噪声和语音的同步多路采集语料，声卡通过光纤连接至接收端电脑主机。设置Interface旋钮，保证最高dB级录音的混合音频(背噪+语音)不削波。

录音具体布置如图2。

步骤2：对信号进行骨传导增益处理：采用基于空气传播与骨传导的双路自反馈机制，基于步骤1的纯净语音，提取说话人感知的发声自反馈；

针对步骤2，本实施例可以采用以下步骤实现：

步骤2.1：对模拟自反馈发声函数曲线进行拟合；

如图3所示，人听觉感知器官感知到噪声后，自主调整发声模式得到Lombard 效应的语音信号，对该信号结合骨传导和空气传导模拟自反馈变换得到自反馈发声信号。自反馈发声信号与背景噪声混合后得到感知的混合信号。

优选参考现有自反馈发声研究，建模拟合自反馈发声曲线。

实施例参考2014年斯坦福大学的Sook Young Won结合骨传导和空气传导模拟人自己听到的声音的研究成果，对实验结论中的模拟自反馈发声曲线进行拟合。通过最小化误差的平方和来寻找最佳的匹配函数对各段曲线进行拟合函数拟合。用p表示函数中需要确定的参数，找到一组p，使得下面的函数S的值最小：

其中，(x_i,y_i)为一组实验数据，表示该模拟曲线上的点的横纵坐标，取m个点；

y_i＝f(x_i)是需要求得的模拟自反馈发声的函数关系；

p是上述函数中需要确定的参数。

在对数标度下取中间曲线，共取73个点。对曲线进行分段，分为4段。对各段曲线进行拟合得到函数系数。骨传导补偿拟合函数结果如图4所示。

步骤2.2：生成骨传导补偿音频；

将时域信号转换到频域信号，取频点的幅度绝对值做将振幅谱图转换为 db_scale谱图(线性域到对数域)，遍历频率区间，将每一帧的不同频率的对数值加上增益的对数值。

对信号做短时傅里叶变换(STFT：Short Time Fourier Transform)将时域信号转换到频域信号。变换公式如下：

其中，x(t)是时间n处的待变换输入信号；

w(t)是窗函数(例如Hamming窗)；

X(t,f)是x(t)的短时傅里叶变换，f是频率。

STFT帧长选取1024采样点，帧移512采样点。在STFT之后取频点的幅度绝对值将振幅谱图转换为db_scale谱图(线性域到对数域)，幅度谱尺寸为(1025，总帧数)。之后遍历每个频率区间，将每一帧不同频率的对数值加上增益的对数值。考虑人语音频谱在高于20kHz能量可忽略不计，因此对超过20kHz的值不做增益处理。

步骤3：可懂度客观测度分类判决：基于各级背景噪声与对应的发声自反馈，采用短时客观可懂度测度(STOI:short-time objective intelligibility measure)指标实现Lombard效应分类；

步骤3的具体实现包括以下子步骤，

步骤3.2，对两组数据进行显著性差异测试，如双样本异方差假设的T-检验。

本发明对同一个人在相邻两个LUFS级下的纯净语音分别叠加较高LUFS级的同步噪声，比较两者的STOI分的目的。每个噪声LUFS级下有二组十二个的数据，对两组数据进行双样本异方差假设的T-检验，低LUFS级人声+高LUFS 级噪声与低LUFS级人声对比得到的STOI分数作为变量一，高LUFS级人声+ 高LUFS级噪声与高LUFS级人声对比得到的STOI分数作为变量二。P值是当原假设为真时，错误拒绝原假设的实际概率。若双尾P值小于0.05则认为本LUFS 等级的实验中Lambard效应有明显提升短时客观可懂性。

对两组数据进行双样本异方差假设的T-检验的迭代算法如下。

从-62LUFS开始，对每个LUFS等级进行编号，分别为LUFS1至LUFS9。对LUFS_i与相邻响度级做上述显著性差异测试，若存在显著性差异，则对LUFS_i+1和 LUFS_i+2做上述显著性差异测试；若不存在显著性差异，则对LUFS_i和LUFS_i+2做上述显著性差异测试，以此类推。具体示例如图5，其中0<i<10。

本发明利用人在噪声条件下改变发声方式的原理，通过在9个听觉响度等级下录制得到的纯净语音上进行生成骨传导补偿音频，并利用双样本异方差假设的 T-检验测试不同等级之间的差异性，各个分贝级下对应的LUFS响度大小如表1 所示；差异性检测对应的实验结果如表2所示。

表1本发明实施例测试出各个分贝级下对应的LUFS响度

表2本发明实施例不同等级下STOI分数T-test结果

	30_45	45_50	45_55	45_60	45_65	45_70	70_75	75_85
									tStat	-2.370	0.213	-0.311	-0.203	-1.628	2.427	2.152	0.095
P(T<＝t)双尾	0.028	0.833	0.759	0.841	0.119	0.024	0.043	0.190
									t双尾临界	2.086	2.074	2.080	2.074	2.086	2.080	2.080	2.080

实验结果表明-30LUFS级与-34LUFS级、-34LUFS级与-57LUFS级、-57LUFS 级与-62LUFS级STOI分数有显著差异性。

本发明充分挖掘了不同响度等级下人改变发声模式后音频数据间的差异信息。实验结果证明，本发明解决了若干固定噪声分贝级语料库Lombard风格界限模糊的问题，可指导Lombard语料库的高效采集。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种听觉感知响度空间Lombard效应分类方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种听觉感知响度空间Lombard效应分类方法，其特征在于：步骤1的实现包括以下子步骤，

步骤1.2，选择稳态背景噪声；

3.根据权利要求1所述的一种听觉感知响度空间Lombard效应分类方法，其特征在于：步骤2的实现包括以下子步骤，

步骤2.1，对模拟自反馈发声函数曲线进行拟合；

4.根据权利要求1所述的一种听觉感知响度空间Lombard效应分类方法，其特征在于：步骤3的实现包括以下子步骤，

步骤3.2，对两组数据进行显著性差异测试。