CN106504771A - 一种适用于噪声环境的汉语语音清晰度评测算法 - Google Patents

一种适用于噪声环境的汉语语音清晰度评测算法 Download PDF

Info

Publication number
CN106504771A
CN106504771A CN201611014113.2A CN201611014113A CN106504771A CN 106504771 A CN106504771 A CN 106504771A CN 201611014113 A CN201611014113 A CN 201611014113A CN 106504771 A CN106504771 A CN 106504771A
Authority
CN
China
Prior art keywords
chinese
definition
noise
signal
objective
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611014113.2A
Other languages
English (en)
Inventor
章斯宇
孟子厚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Communication University of China
Original Assignee
Communication University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Communication University of China filed Critical Communication University of China
Priority to CN201611014113.2A priority Critical patent/CN106504771A/zh
Publication of CN106504771A publication Critical patent/CN106504771A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

本发明的提出了一种适用于纯噪声环境的汉语听感清晰度客观评测方法,建立了以信噪比为自变量的汉语单音节、声母、韵母和声调清晰度的客观评测模型。只需要测量传输系统的信噪比就可以直接计算出相应的汉语语音清晰度值,该方法针对汉语的语音学和听感特性,适用于汉语传播为主的声传输系统,同时计算结果还可以对系统的信噪比条件设置起到一定的设计指导作用。

Description

一种适用于噪声环境的汉语语音清晰度评测算法
技术领域
本发明属于声频测量领域,特别涉及一种适用于噪声环境的汉语语音清晰度客观评测算法。
背景技术
语音清晰度是衡量语音传输系统性能优劣的重要评价指标,清晰度评测在通信、扩声、音质设计等领域广泛应用,一般用正确接收的语言单位(比如单音节)与全部发送语言单位的比值度量清晰度。清晰度的评测方法分为主观评测和客观评测两类,主观评测方法是组织人员进行现场清晰度测试打分,尽管主观评测结果直接准确,但实际操作困难,因此工程中更多采用客观评测方法。清晰度客观评测是用某个客观量评价系统的清晰度,这个客观量是根据一定的计算模型计算得到的,并且是与主观评测结果高度相关的。声频技术领域使用的语音清晰度客观评测指标主要有:清晰度指数AI(Articulation Index),辅音损失率%Alcon(Articulation loss of consonant),语言传输指数STI(SpeechTransmission Index)等,这些客观评测方法均有其各自的计算模型,采用不同的信号处理方法,适用于不同的条件和场合。然而,将这些评测方法直接应用到汉语声传播环境的清晰度评测时会出现失效的问题,即客观评测结果与汉语语音清晰度主观测试结果不匹配,客观评测结果较差对应的汉语实际听闻感受可能尚可,而客观评测结果较好对应的汉语实际听感可能不佳。
分析现有技术评测汉语语音清晰度失效原因可知清晰度客观评测算法的可靠性与评测对象自身的特性有关,现有的清晰度客观评测方法是根据荷兰语或英语等印欧语系语言特性提出的,并没有考虑汉语的语音学和语言学特性。汉语属于汉藏语系,是一种声调语言,声调起到辨义作用,汉语以单音节为主,一个汉字就是一个单音节,每个音节包含声母、韵母和声调三个部分,有别于传统辅-元-辅的音节构造,由于存在较多的同音字,汉语的单字可以视作无语义,这些语音特点都与外语存在显著区别,因此在语音传输过程中各干扰要素对汉语语音清晰度的影响结果与外语会有所不同。此外,传统的清晰度客观评测算法是将语音传输系统视作一个整体,馈给系统一个标准测试信号,根据系统的输出信号相对输入信号的变化衰减程度,进而给出一个具体的客观量值,计算过程中不涉及传输系统中干扰因素的声学属性,因此不能反映传输系统的声学特性是如何导致语音清晰度的下降,评测结果难以对清晰度降低的原因起到“诊断”和“治疗”作用,无法指导声传输系统的功能设计。语音传输过程中影响清晰度的声学因素有很多,其中噪声掩蔽是一类主要的干扰条件,由于噪声与语音信号的混合导致接收端清晰度下降。目前并没有专门针对噪声环境以及汉语语音学和与语言学特性的清晰度评测方法。
发明内容
本发明的提出了一种适用于纯噪声环境的汉语听感清晰度客观评测方法,建立了以信噪比为自变量的汉语单音节、声母、韵母和声调清晰度的客观评测模型。只需要测量传输系统的信噪比就可以直接计算出相应的汉语语音清晰度值,该方法针对汉语的语音学和听感特性,适用于汉语传播为主的声传输系统,同时计算结果还可以对系统的信噪比条件设置起到一定的设计指导作用。
提出一种适用于噪声环境的汉语语音清晰度客观评测算法,包括测量能够表征影响汉语语音清晰度的噪声条件下的客观声学参数的步骤,其特征在于,根据所建立的客观声学参数与汉语的主观听感清晰度间的对应函数关系,得到当前噪声条件下的汉语语音清晰度,其中,客观声学参数为自变量;其中,信噪比SNR对应噪声条件下的客观声学参数。
给出了在噪声条件下的汉语单音节清晰度QN与信噪比T之间的函数关系,其中,当信噪比SNR达到20dB以上,汉语单音节清晰度饱和值是0.86。
进一步给出了在噪声条件下的汉语声母清晰度QNsm、韵母清晰度QNym及声调清晰度QNsd与信噪比SNR之间的函数关系;其中,当信噪比SNR达到20dB以上,声母清晰度饱和值是0.93,韵母清晰度饱和值是0.96,声调清晰度饱和值是0.96。
附图说明
图1为噪声环境下汉语语音清晰度主观听感实验示意图
图2为汉语单音节、声母、韵母和声调清晰度与信噪比的关系图
图3为噪声环境中汉语语音清晰度实测值与预测值的误差表示图
具体实施方式
本发明的思路是根据传输系统噪声特性和汉语实际听感清晰度的关系,提出一种符合汉语语音清晰度感知规律并且能对噪声环境下汉语语音清晰度进行评测的方法。通过开展不同噪声条件下的汉语语音清晰度主观听感实验,建立以信噪比为客观变量的汉语听感清晰度函数模型,依据此计算模型可以实现噪声环境下的汉语语音清晰度评测,并能够根据清晰度预测结果对传输系统的信噪比设置进行针对性的调整。需要说明的是本发明所指的汉语语音清晰度指的是汉语主观听感清晰度,具体指的是汉语单音节清晰度,语料使用的是不涉及语义的汉语单音节,与语言可懂度有所不同。
汉语语音清晰度主观听感实验示意图如图1所示,实验方法参照国家标准GB-T15508-1995《声学—语言清晰度测试方法》进行。预先录制纯净的语音信号,将录制的语音信号与不同类型噪声按一定的信噪比叠加,以模拟受到噪声掩蔽作用的语音信号,实验中采用了不同频谱特性的噪声,包括粉红噪声,白噪声,语谱噪声和公共场合噪声等,信噪比条件充足以确保清晰度分布范围足够广。在听音室用隔声性能较好的监听耳机将处理后的语音信号回放给听音人进行清晰度测试。听音人听力正常,熟悉汉语普通话,听音人在答题纸上记录下自认为听到的音节拼音。比如听到:“序号X切哈宗”,被试记录“qièhāzōng”。只有当被试记录的拼音与实际播放的拼音一致时,才认为听对,否则记为错。为保证实验的信度,当某一被试记录表的得分与全体被试清晰度平均得分相差大于标准差3倍时,剔除掉该被试数据,重新计算清晰度得分。实验结束后通过多元回归分析的方法建立汉语节清晰度、声母清晰度、韵母清晰度、声调清晰度与信噪比的函数关系,从而得到汉语语音清晰度的客观评测模型。
本发明提出的噪声环境下的汉语语音清晰度客观评测算法模型可概括为式(1)所示的函数形式,其中信噪比SNR对应的是噪声传递条件的客观控制变量。
QN=f(SNR) (1)
本发明提出的汉语语音清晰度客观评测算法模型如式(2)~(5)所示,该算法给出了汉语语音清晰度与信噪比SNR的函数关系,二者呈指数关系,拟合精度R2可以达到0.99。其中QN表示噪声环境的单音节清晰度,QNsm表示噪声环境的声母清晰度,QNym表示噪声环境的韵母清晰度,QNsd表示噪声环境的声调清晰度。
QN=-0.33×e-0.07×SNR+0.92 (2)
QNsm=-0.29×e-0.08×SNR+0.98 (3)
QNym=-0.09×e-0.15×SNR+0.96 (4)
QNsd=-0.01×e-0.25×SNR+0.95 (5)
本算法采用指数函数的形式,清晰度评测时,先确定传输系统客观声学参量信噪比SNR的取值,随后根据公式计算,计算结果直接就是汉语听感清晰度。当信噪比增长到一定值以后,清晰度不再明显增加,即使没有外加干扰噪声,清晰度值也不能达到1,因此算法模型存在饱和值,当信噪比达到20dB以上,汉语单音节清晰度饱和值是0.86,声母清晰度饱和值是0.93,韵母清晰度饱和值是0.96,声调清晰度饱和值是0.96。
噪声环境中的汉语单音节、声母、韵母、声调清晰度与信噪比的关系如图2所示,噪声环境中汉语语音清晰度实测值与预测值的误差如图3所示。
进一步的,本领域技术人员应当知晓,表征噪声干扰条件的客观参量也存在除信噪比SNR以外的客观参量,本发明仅针对用信噪比SNR表征噪声干扰情况下的汉语语音清晰度评测,对于存在的其他客观参量,本领域技术人员完全可以根据本发明给出的方法得到对应的评测算法。

Claims (6)

1.一种适用于噪声环境的汉语语音清晰度客观评测算法,包括测量能够表征影响汉语语音清晰度的噪声条件下的客观声学参数的步骤,其特征在于,根据所建立的客观声学参数与汉语的主观听感清晰度间的对应函数关系,得到当前噪声条件下的汉语语音清晰度,其中,所述的客观声学参数为自变量。
2.如权利要求1所述的汉语语音清晰度客观评测算法,其特征在于,信噪比SNR对应噪声条件下的客观声学参数。
3.如权利要求2所述的汉语语音清晰度客观评测算法,其特征在于,在噪声条件下的汉语单音节清晰度QN与信噪比SNR之间的函数关系如下:
QN=-0.33×e-0.07×SNR+0.92。
4.如权利要求3所述的汉语语音清晰度客观评测算法,其特征在于,当信噪比SNR达到20dB以上,汉语单音节清晰度饱和值是0.86。
5.如权利要求2所述的汉语语音清晰度客观评测算法,其特征在于,在噪声条件下的汉语声母清晰度QNsm、韵母清晰度QNym及声调清晰度QNsd与信噪比SNR之间的函数关系如下:
QNsm=-0.29×e-0.08×SNR+0.98
QNym=-0.09×e-0.15×SNR+0.96
QNsd=-001×e-0.25×SNR+095。
6.如权利要求5所述的汉语语音清晰度客观评测算法,其特征在于,当信噪比SNR达到20dB以上,声母清晰度饱和值是0.93,韵母清晰度饱和值是0.96,声调清晰度饱和值是0.96。
CN201611014113.2A 2016-11-17 2016-11-17 一种适用于噪声环境的汉语语音清晰度评测算法 Pending CN106504771A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611014113.2A CN106504771A (zh) 2016-11-17 2016-11-17 一种适用于噪声环境的汉语语音清晰度评测算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611014113.2A CN106504771A (zh) 2016-11-17 2016-11-17 一种适用于噪声环境的汉语语音清晰度评测算法

Publications (1)

Publication Number Publication Date
CN106504771A true CN106504771A (zh) 2017-03-15

Family

ID=58324733

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611014113.2A Pending CN106504771A (zh) 2016-11-17 2016-11-17 一种适用于噪声环境的汉语语音清晰度评测算法

Country Status (1)

Country Link
CN (1) CN106504771A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108682430A (zh) * 2018-03-09 2018-10-19 华南理工大学 一种客观评价室内语言清晰度的方法
CN109443792A (zh) * 2018-10-12 2019-03-08 安徽江淮汽车集团股份有限公司 一种汽车匀速行驶声品质的评价方法
CN112203205A (zh) * 2020-09-07 2021-01-08 广州大学 一种骨传导耳机语言可懂度测量方法及系统
CN114550740A (zh) * 2022-04-26 2022-05-27 天津市北海通信技术有限公司 噪声下的语音清晰度算法及其列车音频播放方法、系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020126859A1 (en) * 1997-10-31 2002-09-12 Ullrich Kenneth A. Assistive-listening system and method for television, radio & music systems
CN102148033A (zh) * 2011-04-01 2011-08-10 华南理工大学 一种语言传输系统清晰度测试方法
CN103578479A (zh) * 2013-09-18 2014-02-12 中国人民解放军电子工程学院 基于听觉掩蔽效应的语音可懂度测量方法
CN103839554A (zh) * 2012-11-26 2014-06-04 华为技术有限公司 语音质量评估的方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020126859A1 (en) * 1997-10-31 2002-09-12 Ullrich Kenneth A. Assistive-listening system and method for television, radio & music systems
CN102148033A (zh) * 2011-04-01 2011-08-10 华南理工大学 一种语言传输系统清晰度测试方法
CN103839554A (zh) * 2012-11-26 2014-06-04 华为技术有限公司 语音质量评估的方法和装置
CN103578479A (zh) * 2013-09-18 2014-02-12 中国人民解放军电子工程学院 基于听觉掩蔽效应的语音可懂度测量方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘辉等: "低SNR 下汉语单音节清晰度测量与可懂度估计", 《电声技术》 *
宋慧等: "带通滤波与噪声掩蔽复合条件下汉语清晰度的主客观实验分析", 《2014年声频工程学术论坛暨学术交流年会》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108682430A (zh) * 2018-03-09 2018-10-19 华南理工大学 一种客观评价室内语言清晰度的方法
CN108682430B (zh) * 2018-03-09 2020-06-19 华南理工大学 一种客观评价室内语言清晰度的方法
CN109443792A (zh) * 2018-10-12 2019-03-08 安徽江淮汽车集团股份有限公司 一种汽车匀速行驶声品质的评价方法
CN112203205A (zh) * 2020-09-07 2021-01-08 广州大学 一种骨传导耳机语言可懂度测量方法及系统
CN114550740A (zh) * 2022-04-26 2022-05-27 天津市北海通信技术有限公司 噪声下的语音清晰度算法及其列车音频播放方法、系统
CN114550740B (zh) * 2022-04-26 2022-07-15 天津市北海通信技术有限公司 噪声下的语音清晰度算法及其列车音频播放方法、系统

Similar Documents

Publication Publication Date Title
Hirsh et al. Intelligibility of different speech materials
CN102456348B (zh) 声音补偿参数计算方法和设备、声音补偿系统
CN106504771A (zh) 一种适用于噪声环境的汉语语音清晰度评测算法
Gelfand Optimizing the reliability of speech recognition scores
Lien et al. Effects of phonetic context on relative fundamental frequency
Pallett Performance assessment of automatic speech recognizers
CN111798852A (zh) 语音唤醒识别性能测试方法、装置、系统及终端设备
Letowski et al. Correlation Analysis of Speech Intelligibility Tests and Metrics for Speech Transmission
Beerends et al. Subjective and objective assessment of full bandwidth speech quality
KR101145401B1 (ko) 로봇의 음성인식 성능 평가장치 및 평가 방법
Shukla et al. Measurement of speech in noise abilities in laboratory and real-world noise
Saleh et al. Adaptation of the Connected Speech Test: Rerecording and passage equivalency
Noh et al. How does speaking clearly influence acoustic measures? A speech clarity study using long-term average speech spectra in Korean language
Siyu et al. Relationship between Chinese Mandarin intelligibility and speech transmission index STIPA under simulated tranmission conditions
Jacob Understanding speech intelligibility and the fire alarm code
RU2743049C1 (ru) Способ доврачебной оценки качества распознавания речи, скрининговой аудиометрии и программно-аппаратный комплекс, его реализующий
CN106782611A (zh) 一种适用于混响环境的汉语语音清晰度评测算法
JP6639857B2 (ja) 聴力検査装置、聴力検査方法および聴力検査プログラム
CN106531183A (zh) 一种基于传输系统声学参量的汉语语音清晰度评测算法
Počta et al. Subjective and objective measurement of synthesized speech intelligibility in modern telephone conditions
Kondo et al. Gender-dependent babble maskers created from multi-speaker speech for speech privacy protection
Beechey Communication difficulty and effort in conversation
CN106558319A (zh) 一种适用于带宽有限传输条件的汉语语音清晰度评测算法
Wang et al. Measuring Mandarin speech recognition thresholds using the method of adaptive tracking
Scollie 20Q: Using the aided Speech Intelligibility Index in hearing aid fittings

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170315