CN113450780A - 一种听觉感知响度空间Lombard效应分类方法 - Google Patents

一种听觉感知响度空间Lombard效应分类方法 Download PDF

Info

Publication number
CN113450780A
CN113450780A CN202110663924.XA CN202110663924A CN113450780A CN 113450780 A CN113450780 A CN 113450780A CN 202110663924 A CN202110663924 A CN 202110663924A CN 113450780 A CN113450780 A CN 113450780A
Authority
CN
China
Prior art keywords
lombard
self
auditory
loudness
feedback
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110663924.XA
Other languages
English (en)
Other versions
CN113450780B (zh
Inventor
杨玉红
刘青沐
陈旭峰
蔡林君
冯佳倩
涂卫平
艾浩军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202110663924.XA priority Critical patent/CN113450780B/zh
Publication of CN113450780A publication Critical patent/CN113450780A/zh
Application granted granted Critical
Publication of CN113450780B publication Critical patent/CN113450780B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/02Circuits for transducers, loudspeakers or microphones for preventing acoustic reaction, i.e. acoustic oscillatory feedback
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2460/00Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
    • H04R2460/01Hearing devices using active noise cancellation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2460/00Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
    • H04R2460/13Hearing devices using bone conduction transducers

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了一种听觉感知响度空间Lombard效应分类方法,进行Lombard分级录音采集,包括设置各细粒度听觉主观响度级的背景噪声,同步采集各响度级的背景噪声与对应的纯净语音;采用基于空气传播与骨传导的双路自反馈机制,提取说话人感知的发声自反馈;基于各级背景噪声与对应的发声自反馈,采用短时客观可懂度测度指标实现Lombard效应分类。与现有技术相比,本发明结合听觉主观响度级与发声自反馈机制研究Lombard效应的分类模型,可以解决若干固定噪声分贝级语料库Lombard风格界限模糊的问题,支持Lombard语料库的高效采集。

Description

一种听觉感知响度空间Lombard效应分类方法
技术领域
本发明属于声学技术领域,涉及一种听觉感知响度空间Lombard效应分级方法。
背景技术
医学与心理学研究表明,说话人会根据现实环境背景干扰声的差异调整发声模式,以减轻背景干扰声对语音的抑制,发声模式也呈现多样化。这种说话人噪声对抗机制称为“Lombard效应”,由法国耳鼻喉科医生Lombard首次发现而得名。
现有研究表明Lombard效应确实能在嘈杂噪声环境条件下提高语音的可懂度,说话模式的转换具体对应语音能量、基频、谱倾斜度、时长以及时域幅度调制等底层声学参数的变化。现有Lombard语料库按固定分贝级划分,这些分贝级设置缺乏依据,导致现有语料库Lombard风格界限模糊,分类表达误差过大,尚无法定量指导生成对应发声模式的语音。且由于Lombard语料库采集对应的背景噪声响度级高,说话人听觉压力大,Lombard语料库采集难度大。目前国际上公开的Lombard语料库仅有4个,最大的语料库仅包含54人,两个背景噪声分贝级的语料,无法满足Lombard效应研究的需求,亟需对Lombard效应进行分类,指导Lombard语料库的高效采集。
申请人的研究团队日前提出了《一种基于声学特征转换的语音清晰度增强方法》,公开号为CN110085245A,基于Lombard效应,结合说话人噪声对抗的发声机理和自然语音生成模型实现语音清晰度增强。该方法中的Lombard效应分类采取结合主观评测的方法,虽然评测结果最准确,但是需要组织大量的主观评测来去除个体差异性,耗时耗力,组织困难。
本发明可避免主观评测,结合听觉响度级与发声自反馈机制研究Lombard 效应分类模型,进一步提升客观评测方法的准确性,解决若干固定噪声分贝级语料库Lombard风格界限模糊的问题。
发明内容
本发明结合听觉响度级与发声自反馈机制研究Lombard效应的分类方法,可以解决若干固定噪声分贝级语料库Lombard风格界限模糊的问题,指导Lombard语料库的高效采集。
本发明所采用的技术方案包括一种听觉感知响度空间Lombard效应分类方法,包括以下步骤:
步骤1,Lombard分级录音采集,包括设置各细粒度听觉主观响度级的背景噪声,同步采集各响度级的背景噪声与对应的纯净语音;
步骤2,采用基于空气传播与骨传导的双路自反馈机制,基于步骤1所得纯净语音,提取说话人感知的发声自反馈;
步骤3,基于各级背景噪声与对应的发声自反馈,采用短时客观可懂度测度指标实现Lombard效应分类。
而且,步骤1的实现包括以下子步骤,
步骤1.1,选择设置语料库句子,句子的选择原则为尽量均衡覆盖各音节;
步骤1.2,选择稳态背景噪声;
步骤1.3,录音,包括设定若干主观听觉响度级,利用麦克风和人工头实现语音与背景噪声同步采集。
而且,步骤2的实现包括以下子步骤,
步骤2.1,对模拟自反馈发声函数曲线进行拟合;
步骤2.2,生成骨传导补偿音频,包括将时域信号转换到频域信号,取频点的幅度绝对值做将振幅谱图转换为db_scale谱图,遍历频率区间,将每一帧的不同频率的对数值加上增益的对数值。
而且,步骤3的实现包括以下子步骤,
步骤3.1,针对同一个人在相邻两个听觉主观响度级下的纯净语音分别叠加较高响度级同步采集的背景噪声,构建两组对比数据;
步骤3.2,对两组数据进行显著性差异测试。
本发明方法充分挖掘了不同响度等级下人改变发声模式后音频数据间的差异信息,以解决若干固定噪声分贝级语料库Lombard风格界限模糊的问题,指导Lombard语料库的高效采集。
附图说明
图1是本发明实施例Lombard效应分类建模方法总体技术路线图;
图2是本发明实施例消声室场景设置示意图;
图3是本发明实施例背景噪声与自反馈发声感知模型图;
图4是本发明实施例骨传导函数拟合效果图;
图5是本发明实施例基于STOI-可懂度客观测度分类判决图;
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
本发明实施例提供一种听觉感知响度空间Lombard效应的分类方法,主要发明内容在于引入人类听觉主观响度标度(LUFS:Loudness Units relative to Full Scale)代替Lomard效应通常使用的分贝(dB),以及对采集语料进行模拟人类听觉自反馈发声感知机制的补偿,这两点发明内容均可进一步提升客观评测方法的准确性。图1是本发明实施例Lombard效应分类建模方法总体技术路线图,图左三个流程框分别对应以下三个具体步骤。
本发明实施例提供的一种听觉感知响度空间Lombard效应的分类方法,具体实施步骤如下:
步骤1:Lombard分级录音采集,设置各细粒度听觉主观响度级的背景噪声,同步采集各响度级的背景噪声与对应的纯净语音;
针对步骤1,可以采用以下步骤实现:
步骤1.1:选择语料库句子;
句子的选择原则尽可能均衡覆盖各音节。
所有的句子采用网格语料库结构,每个句子都有一个固定的结构:人物/姓名(11)+动词(13)+量词(14)+形容词(11)+名词(10),例如“青木乘一架旧飞机”,括号中给出了备选词的数目。网格语料库中共包含59个不同的词,五个句子部分中每个部分的替代词数量是均匀分布的。
使用正交法生成句子。正交实验是研究多因素、多水平的一种实验方法,它利用正交表来对实验进行设计,通过少数实验代替全面的实验。使用allpairs工具来产生正交表。选取正交表中前174行数据作为基本数据,从中随机选取120 行并打乱,即可获得较为理想的语句库。
步骤1.2:选择背景噪声;
实施例优选选择稳态背景噪声。
耳机内播放的背景噪声使用由52阶线性预测编码产生的采样率为48kHz的语音形噪(SSN:Speech Shaped Noise)。
用Python实施ITU-R BS.1770-4标准,转换到LUFS听觉响度级。允许控制门控块大小和频率加权滤波器,以进行其他控制。使用PySoundFile读取.wav文件作为ndarray,创建BS.1770仪表,输出LUFS听觉响度级。
步骤1.3:录音;
设定若干主观听觉响度级。
实验时,录音在武汉大学国家多媒体软件工程技术研究中心的消声室进行,使用录音软件为Adobe Audition。使用视频通话连接消声室内的ipad和消声室外控制播放噪音的电脑,设备均关闭麦克风和扬声器,避免影响实验结果。说话人和听音者可以通过手势确定录音状态。屏幕上同时显示听音者和待朗读的句子,提示说话者以话模式说出屏幕中的句子,有研究表明,在对话模式下更能激发 Lombard效应。说话人听到背景噪声,适应后开始录音,每个句子后稍事停顿1 s左右,每次说一组10句。
实验中初始设定9个LUFS级:覆盖范围从-62LUFS到-19LUFS,步长以 4-6LUFS为主,由于听觉响度级高于-30LUFS后,背景噪声对说话人的听觉压力大,实验为了减少听觉压力的影响,直接设定-19LUFS级。LUFS级与分贝级的关系具体参见图5。一共录制1080句(9个LUFS级*4个说话人*3次*10 个句子)。
同步两个耳机输出端,播放噪声,说话人和人工头各佩戴一个耳机。为防止串音,说话人在消声室内,麦克风采集说话人语音。人工头放置消声室外,录制左右耳双通道背景噪声信号。麦克风和人工头实现语音与背景噪声同步采集,采样率均为48kHz。
输出端电脑插入外置usb二合一声卡,连接两个耳机输出端,以控制两个耳机内同时播放噪声,说话人和人工头各佩戴一个耳机。设置usb外置声卡的音量旋钮,整个语料库录制过程中保持不变。
说话人在消声室内,说话人对着iPad和听者视频通话,语料由说话人自己在手机端调整控制,麦克风采集说话人语音。麦克风与说话者之间放置麦克风防喷罩。人头戴耳机,与麦克风距离小于10cm。人工头放置消声室外,戴耳机录制左右耳双通道噪声信号。
麦克风和人工头连接至RME声卡接口,利用声卡实现背景噪声和语音的同步多路采集语料,声卡通过光纤连接至接收端电脑主机。设置Interface旋钮,保证最高dB级录音的混合音频(背噪+语音)不削波。
录音具体布置如图2。
步骤2:对信号进行骨传导增益处理:采用基于空气传播与骨传导的双路自反馈机制,基于步骤1的纯净语音,提取说话人感知的发声自反馈;
针对步骤2,本实施例可以采用以下步骤实现:
步骤2.1:对模拟自反馈发声函数曲线进行拟合;
如图3所示,人听觉感知器官感知到噪声后,自主调整发声模式得到Lombard 效应的语音信号,对该信号结合骨传导和空气传导模拟自反馈变换得到自反馈发声信号。自反馈发声信号与背景噪声混合后得到感知的混合信号。
优选参考现有自反馈发声研究,建模拟合自反馈发声曲线。
实施例参考2014年斯坦福大学的Sook Young Won结合骨传导和空气传导模拟人自己听到的声音的研究成果,对实验结论中的模拟自反馈发声曲线进行拟合。通过最小化误差的平方和来寻找最佳的匹配函数对各段曲线进行拟合函数拟合。用p表示函数中需要确定的参数,找到一组p,使得下面的函数S的值最小:
Figure BDA0003116463000000051
其中,(xi,yi)为一组实验数据,表示该模拟曲线上的点的横纵坐标,取m个点;
yi=f(xi)是需要求得的模拟自反馈发声的函数关系;
p是上述函数中需要确定的参数。
在对数标度下取中间曲线,共取73个点。对曲线进行分段,分为4段。对各段曲线进行拟合得到函数系数。骨传导补偿拟合函数结果如图4所示。
步骤2.2:生成骨传导补偿音频;
将时域信号转换到频域信号,取频点的幅度绝对值做将振幅谱图转换为 db_scale谱图(线性域到对数域),遍历频率区间,将每一帧的不同频率的对数值加上增益的对数值。
对信号做短时傅里叶变换(STFT:Short Time Fourier Transform)将时域信号转换到频域信号。变换公式如下:
Figure BDA0003116463000000061
其中,x(t)是时间n处的待变换输入信号;
w(t)是窗函数(例如Hamming窗);
X(t,f)是x(t)的短时傅里叶变换,f是频率。
STFT帧长选取1024采样点,帧移512采样点。在STFT之后取频点的幅度绝对值将振幅谱图转换为db_scale谱图(线性域到对数域),幅度谱尺寸为(1025,总帧数)。之后遍历每个频率区间,将每一帧不同频率的对数值加上增益的对数值。考虑人语音频谱在高于20kHz能量可忽略不计,因此对超过20kHz的值不做增益处理。
步骤3:可懂度客观测度分类判决:基于各级背景噪声与对应的发声自反馈,采用短时客观可懂度测度(STOI:short-time objective intelligibility measure)指标实现Lombard效应分类;
步骤3的具体实现包括以下子步骤,
步骤3.1,针对同一个人在相邻两个听觉主观响度级下的纯净语音分别叠加较高响度级同步采集的背景噪声,构建两组对比数据;
步骤3.2,对两组数据进行显著性差异测试,如双样本异方差假设的T-检验。
本发明对同一个人在相邻两个LUFS级下的纯净语音分别叠加较高LUFS级的同步噪声,比较两者的STOI分的目的。每个噪声LUFS级下有二组十二个的数据,对两组数据进行双样本异方差假设的T-检验,低LUFS级人声+高LUFS 级噪声与低LUFS级人声对比得到的STOI分数作为变量一,高LUFS级人声+ 高LUFS级噪声与高LUFS级人声对比得到的STOI分数作为变量二。P值是当原假设为真时,错误拒绝原假设的实际概率。若双尾P值小于0.05则认为本LUFS 等级的实验中Lambard效应有明显提升短时客观可懂性。
对两组数据进行双样本异方差假设的T-检验的迭代算法如下。
从-62LUFS开始,对每个LUFS等级进行编号,分别为LUFS1至LUFS9。对LUFSi与相邻响度级做上述显著性差异测试,若存在显著性差异,则对LUFSi+1和 LUFSi+2做上述显著性差异测试;若不存在显著性差异,则对LUFSi和LUFSi+2做上述显著性差异测试,以此类推。具体示例如图5,其中0<i<10。
本发明利用人在噪声条件下改变发声方式的原理,通过在9个听觉响度等级下录制得到的纯净语音上进行生成骨传导补偿音频,并利用双样本异方差假设的 T-检验测试不同等级之间的差异性,各个分贝级下对应的LUFS响度大小如表1 所示;差异性检测对应的实验结果如表2所示。
表1本发明实施例测试出各个分贝级下对应的LUFS响度
Figure BDA0003116463000000071
表2本发明实施例不同等级下STOI分数T-test结果
30_45 45_50 45_55 45_60 45_65 45_70 70_75 75_85
tStat -2.370 0.213 -0.311 -0.203 -1.628 2.427 2.152 0.095
P(T<=t)双尾 0.028 0.833 0.759 0.841 0.119 0.024 0.043 0.190
t双尾临界 2.086 2.074 2.080 2.074 2.086 2.080 2.080 2.080
实验结果表明-30LUFS级与-34LUFS级、-34LUFS级与-57LUFS级、-57LUFS 级与-62LUFS级STOI分数有显著差异性。
本发明充分挖掘了不同响度等级下人改变发声模式后音频数据间的差异信息。实验结果证明,本发明解决了若干固定噪声分贝级语料库Lombard风格界限模糊的问题,可指导Lombard语料库的高效采集。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (4)

1.一种听觉感知响度空间Lombard效应分类方法,其特征在于,包括以下步骤:
步骤1,Lombard分级录音采集,包括设置各细粒度听觉主观响度级的背景噪声,同步采集各响度级的背景噪声与对应的纯净语音;
步骤2,采用基于空气传播与骨传导的双路自反馈机制,基于步骤1所得纯净语音,提取说话人感知的发声自反馈;
步骤3,基于各级背景噪声与对应的发声自反馈,采用短时客观可懂度测度指标实现Lombard效应分类。
2.根据权利要求1所述的一种听觉感知响度空间Lombard效应分类方法,其特征在于:步骤1的实现包括以下子步骤,
步骤1.1,选择设置语料库句子,句子的选择原则为尽量均衡覆盖各音节;
步骤1.2,选择稳态背景噪声;
步骤1.3,录音,包括设定若干主观听觉响度级,利用麦克风和人工头实现语音与背景噪声同步采集。
3.根据权利要求1所述的一种听觉感知响度空间Lombard效应分类方法,其特征在于:步骤2的实现包括以下子步骤,
步骤2.1,对模拟自反馈发声函数曲线进行拟合;
步骤2.2,生成骨传导补偿音频,包括将时域信号转换到频域信号,取频点的幅度绝对值做将振幅谱图转换为db_scale谱图,遍历频率区间,将每一帧的不同频率的对数值加上增益的对数值。
4.根据权利要求1所述的一种听觉感知响度空间Lombard效应分类方法,其特征在于:步骤3的实现包括以下子步骤,
步骤3.1,针对同一个人在相邻两个听觉主观响度级下的纯净语音分别叠加较高响度级同步采集的背景噪声,构建两组对比数据;
步骤3.2,对两组数据进行显著性差异测试。
CN202110663924.XA 2021-06-16 2021-06-16 一种听觉感知响度空间Lombard效应分类方法 Active CN113450780B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110663924.XA CN113450780B (zh) 2021-06-16 2021-06-16 一种听觉感知响度空间Lombard效应分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110663924.XA CN113450780B (zh) 2021-06-16 2021-06-16 一种听觉感知响度空间Lombard效应分类方法

Publications (2)

Publication Number Publication Date
CN113450780A true CN113450780A (zh) 2021-09-28
CN113450780B CN113450780B (zh) 2023-02-24

Family

ID=77811411

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110663924.XA Active CN113450780B (zh) 2021-06-16 2021-06-16 一种听觉感知响度空间Lombard效应分类方法

Country Status (1)

Country Link
CN (1) CN113450780B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113884178A (zh) * 2021-09-30 2022-01-04 江南造船(集团)有限责任公司 噪声声品质评价模型的建模装置及方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102231279A (zh) * 2011-05-11 2011-11-02 武汉大学 基于听觉关注度的音频质量客观评价系统及方法
CN103578479A (zh) * 2013-09-18 2014-02-12 中国人民解放军电子工程学院 基于听觉掩蔽效应的语音可懂度测量方法
CN107452389A (zh) * 2017-07-20 2017-12-08 大象声科(深圳)科技有限公司 一种通用的单声道实时降噪方法
US20190080708A1 (en) * 2017-09-13 2019-03-14 Motorola Solutions, Inc. Device and method for adjusting speech intelligibility at an audio device
CN110085245A (zh) * 2019-04-09 2019-08-02 武汉大学 一种基于声学特征转换的语音清晰度增强方法
CN110334762A (zh) * 2019-07-04 2019-10-15 华南师范大学 一种基于四叉树结合orb和sift的特征匹配方法
CN110428849A (zh) * 2019-07-30 2019-11-08 珠海亿智电子科技有限公司 一种基于生成对抗网络的语音增强方法
US10535364B1 (en) * 2016-09-08 2020-01-14 Amazon Technologies, Inc. Voice activity detection using air conduction and bone conduction microphones
CN112037759A (zh) * 2020-07-16 2020-12-04 武汉大学 抗噪感知敏感度曲线建立及语音合成方法
CN112131603A (zh) * 2020-09-24 2020-12-25 合肥城市云数据中心股份有限公司 一种基于四叉树自适应划分技术的二维空间数据差分隐私发布方法
CN112203205A (zh) * 2020-09-07 2021-01-08 广州大学 一种骨传导耳机语言可懂度测量方法及系统

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102231279A (zh) * 2011-05-11 2011-11-02 武汉大学 基于听觉关注度的音频质量客观评价系统及方法
CN103578479A (zh) * 2013-09-18 2014-02-12 中国人民解放军电子工程学院 基于听觉掩蔽效应的语音可懂度测量方法
US10535364B1 (en) * 2016-09-08 2020-01-14 Amazon Technologies, Inc. Voice activity detection using air conduction and bone conduction microphones
CN107452389A (zh) * 2017-07-20 2017-12-08 大象声科(深圳)科技有限公司 一种通用的单声道实时降噪方法
US20190080708A1 (en) * 2017-09-13 2019-03-14 Motorola Solutions, Inc. Device and method for adjusting speech intelligibility at an audio device
CN110085245A (zh) * 2019-04-09 2019-08-02 武汉大学 一种基于声学特征转换的语音清晰度增强方法
CN110334762A (zh) * 2019-07-04 2019-10-15 华南师范大学 一种基于四叉树结合orb和sift的特征匹配方法
CN110428849A (zh) * 2019-07-30 2019-11-08 珠海亿智电子科技有限公司 一种基于生成对抗网络的语音增强方法
CN112037759A (zh) * 2020-07-16 2020-12-04 武汉大学 抗噪感知敏感度曲线建立及语音合成方法
CN112203205A (zh) * 2020-09-07 2021-01-08 广州大学 一种骨传导耳机语言可懂度测量方法及系统
CN112131603A (zh) * 2020-09-24 2020-12-25 合肥城市云数据中心股份有限公司 一种基于四叉树自适应划分技术的二维空间数据差分隐私发布方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王金明等: "一种基于自适应模糊滤波的语音增强方法", 《解放军理工大学学报(自然科学版)》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113884178A (zh) * 2021-09-30 2022-01-04 江南造船(集团)有限责任公司 噪声声品质评价模型的建模装置及方法
CN113884178B (zh) * 2021-09-30 2023-10-17 江南造船(集团)有限责任公司 噪声声品质评价模型的建模装置及方法

Also Published As

Publication number Publication date
CN113450780B (zh) 2023-02-24

Similar Documents

Publication Publication Date Title
Kondo Subjective quality measurement of speech: its evaluation, estimation and applications
CN102792374B (zh) 多通道音频中语音相关通道的缩放回避的方法和系统
Nakajima et al. Non-audible murmur recognition input interface using stethoscopic microphone attached to the skin
CN105405448B (zh) 一种音效处理方法及装置
CN111833896A (zh) 融合反馈信号的语音增强方法、系统、装置和存储介质
CN112992121B (zh) 基于注意力残差学习的语音增强方法
CN101023469A (zh) 数字滤波方法和装置
Maruri et al. V-Speech: noise-robust speech capturing glasses using vibration sensors
Ravanelli et al. Impulse response estimation for robust speech recognition in a reverberant environment
JP2008233672A (ja) マスキングサウンド生成装置、マスキングサウンド生成方法、プログラムおよび記録媒体
EP3751560A1 (en) Automatic speech recognition system with integrated perceptual based adversarial audio attacks
Zhu et al. Relationship between Chinese speech intelligibility and speech transmission index under reproduced general room conditions
Rennies et al. Intelligibility-Enhancing Speech Modifications-The Hurricane Challenge 2.0.
Monson et al. Detection of high-frequency energy level changes in speech and singing
Seshadri et al. Cycle-consistent adversarial networks for non-parallel vocal effort based speaking style conversion
Eklund Data augmentation techniques for robust audio analysis
CN113450780B (zh) 一种听觉感知响度空间Lombard效应分类方法
CN106653004A (zh) 感知语谱规整耳蜗滤波系数的说话人识别特征提取方法
Chermaz et al. Evaluating Near End Listening Enhancement Algorithms in Realistic Environments.
CN112037759B (zh) 抗噪感知敏感度曲线建立及语音合成方法
Bořil et al. Design and collection of Czech Lombard speech database
Wang et al. Fusion of MFCC and IMFCC for Whispered Speech Recognition
Tisseyre et al. Intelligibility in various rooms: Comparing its assessment by (RA) STI measurement with a direct measurement procedure
JP2017203963A (ja) 音声加工装置、及びプログラム
Uchida Voice pitch illusion and perception of speaker's body size: Relationship with the spectral tilt in speech sound

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant