CN106782611A - 一种适用于混响环境的汉语语音清晰度评测算法 - Google Patents
一种适用于混响环境的汉语语音清晰度评测算法 Download PDFInfo
- Publication number
- CN106782611A CN106782611A CN201611014116.6A CN201611014116A CN106782611A CN 106782611 A CN106782611 A CN 106782611A CN 201611014116 A CN201611014116 A CN 201611014116A CN 106782611 A CN106782611 A CN 106782611A
- Authority
- CN
- China
- Prior art keywords
- chinese
- definition
- reverberation
- objective
- syllable
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012360 testing method Methods 0.000 title description 16
- 150000001875 compounds Chemical class 0.000 claims abstract description 9
- 230000006870 function Effects 0.000 claims abstract description 7
- 238000005259 measurement Methods 0.000 claims description 4
- 241000208340 Araliaceae Species 0.000 claims 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims 1
- 235000003140 Panax quinquefolius Nutrition 0.000 claims 1
- 235000008434 ginseng Nutrition 0.000 claims 1
- 230000005540 biological transmission Effects 0.000 abstract description 16
- 238000000034 method Methods 0.000 abstract description 16
- 238000004364 calculation method Methods 0.000 abstract description 3
- 238000011156 evaluation Methods 0.000 description 16
- 238000002474 experimental method Methods 0.000 description 8
- 238000013461 design Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000004304 visual acuity Effects 0.000 description 2
- 241001672694 Citrus reticulata Species 0.000 description 1
- 238000010521 absorption reaction Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009413 insulation Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 238000005316 response function Methods 0.000 description 1
- 230000035939 shock Effects 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
本发明给出了一种适用于纯混响环境的汉语听感清晰度客观评测方法,建立了以混响时间为自变量的汉语单音节、声母、韵母和声调清晰度的客观评测模型。只需要测量传输系统的混响时间就可以直接计算出相应的汉语语音清晰度值,该方法针对汉语的语音学和听感特性,适用于汉语传播为主的声传输系统,同时计算结果还可以对传输系统的混响条件设置起到一定的指导作用。
Description
技术领域
本发明属于声频测量领域,特别涉及一种适用于混响环境的汉语语音清晰度客观评测算法。
背景技术
语音清晰度是衡量语音传输系统性能优劣的重要评价指标,清晰度评测在通信、扩声、音质设计等领域广泛应用,一般用正确接收的语言单位(比如单音节)与全部发送语言单位的比值度量清晰度。清晰度的评测方法分为主观评测和客观评测两类,主观评测方法是组织人员进行现场清晰度测试打分,尽管主观评测结果直接准确,但实际操作困难,因此工程中更多采用客观评测方法。清晰度客观评测是用某个客观量评价系统的清晰度,这个客观量是根据一定的计算模型计算得到的,并且是与主观评测结果高度相关的。声频技术领域使用的语音清晰度客观评测指标主要有:清晰度指数AI(Articulation Index),辅音损失率%Alcon(Articulation loss of consonant),语言传输指数STI(SpeechTransmission Index)等,这些客观评测方法均有其各自的计算模型,采用不同的信号处理方法,适用于不同的条件和场合。然而,将这些评测方法直接应用到汉语声传播环境的清晰度评测时会出现失效的问题,即客观评测结果与汉语语音清晰度主观测试结果不匹配,客观评测结果较差对应的汉语实际听闻感受可能尚可,而客观评测结果较好对应的汉语实际听感可能不佳。
分析现有技术评测汉语语音清晰度失效原因可知清晰度客观评测算法的可靠性与评测对象自身的特性有关,现有的清晰度客观评测方法是根据荷兰语或英语等印欧语系语言特性提出的,并没有考虑汉语的语音学和语言学特性。汉语属于汉藏语系,是一种声调语言,声调起到辨义作用,汉语以单音节为主,一个汉字就是一个单音节,每个音节包含声母、韵母和声调三个部分,有别于传统辅-元-辅的音节构造,由于存在较多的同音字,汉语的单字可以视作无语义,这些语音特点都与外语存在显著区别,因此在语音传输过程中各干扰要素对汉语语音清晰度的影响结果与外语会有所不同。此外,传统的清晰度客观评测算法是将语音传输系统视作一个整体,馈给系统一个标准测试信号,根据系统的输出信号相对输入信号的变化衰减程度,进而给出一个具体的客观量值,计算过程中不涉及传输系统中干扰因素的声学属性,因此不能反映传输系统的声学特性是如何导致语音清晰度的下降,评测结果难以对清晰度降低的原因起到“诊断”和“治疗”作用,无法指导声传输系统的功能设计。语音传输过程中影响清晰度的声学因素有很多,其中混响是一类主要的干扰条件,如果房间吸声或反射面处理不当,混响作用下语音信号的直达声和混响声混叠导致接收端清晰度下降。目前并没有专门针对混响环境的并且考虑了汉语语音学和与语言学特性的清晰度评测方法。
发明内容
本发明给出了一种适用于纯混响环境的汉语听感清晰度客观评测方法,建立了以混响时间为自变量的汉语单音节、声母、韵母和声调清晰度的客观评测模型。只需要测量传输系统的混响时间就可以直接计算出相应的汉语语音清晰度值,该方法针对汉语的语音学和听感特性,适用于汉语传播为主的声传输系统,同时计算结果还可以对传输系统的混响条件设置起到一定的指导作用。
提出了一种适用于混响环境的汉语语音清晰度客观评测算法,包括测量能够表征影响汉语语音清晰度的混响条件下的客观声学参数的步骤,其特征在于,根据所建立的客观声学参数与汉语的主观听感清晰度间的对应函数关系,得到当前传输带宽有限条件下的汉语语音清晰度,其中,客观声学参数为自变量;其中,混响时间T对应混响条件下的客观声学参数。
给出了在混响条件下的汉语单音节清晰度QF与混响时间T之间的函数关系
进一步给出了在混响条件下的汉语声母清晰度QFsm、韵母清晰度QFsm及声调清晰度QFsd与混响时间T之间的函数。
附图说明
图1为混响条件下汉语语音清晰度主观听感实验示意图
图2为汉语单音节、声母、韵母和声调清晰度与混响时间的关系图
图3为混响环境中汉语语音清晰度实测值与预测值的误差表示图
具体实施方式
本发明的思路是根据传输系统混响特性和汉语实际听感清晰度的关系,提出一种符合汉语语音清晰度感知规律并且能对混响环境下汉语语音清晰度进行评测的方法。通过开展不同混响条件下的汉语语音清晰度主观听感实验,建立以混响时间为客观变量的汉语听感清晰度函数模型,依据此计算模型可以实现混响环境下的汉语语音清晰度评测,并能够根据清晰度预测结果对传输系统的混响时间设置进行针对性的调整。需要说明的是本发明所指的汉语语音清晰度指的是汉语主观听感清晰度,具体指的是汉语单音节清晰度,语料使用的是不涉及语义的汉语单音节,与语言可懂度有所不同。
汉语语音清晰度主观听感实验示意图如图1所示,实验方法参照国家标准GB-T15508-1995《声学—语言清晰度测试方法》进行。预先录制纯净的语音信号,制备不同混响时间的房间冲击响应,将语音信号与一定混响时间的房间冲击响应函数进行卷积,以模拟受到混响混叠作用的语音信号,实验中采用的混响时间范围0.1s~6.0s,按照混响感差别阈限设计混响时间间距,实验条件设置确保清晰度分布范围足够广。在听音室用隔声性能较好的监听耳机将这些处理后的语音信号回放给听音人进行清晰度测试。听音人听力正常,熟悉汉语普通话,听音人在答题纸上记录下自认为听到的音节拼音。比如听到:“序号X切哈宗”,被试记录“qièhāzōng”。只有当被试记录的拼音与实际播放的拼音一致时,才认为听对,否则记为错。为保证实验的信度,当某一被试记录表的得分与全体被试清晰度平均得分相差大于标准差3倍时,剔除掉该被试数据,重新计算清晰度得分。实验结束后通过多元回归分析的方法建立汉语节清晰度、声母清晰度、韵母清晰度、声调清晰度与混响时间的函数关系,从而得到汉语语音清晰度的客观评测模型。
本发明提出的混响环境下的汉语语音清晰度客观评测算法模型可概括为式(1)所示的函数形式,其中混响时间T对应的是混响传递条件的客观控制变量。
QR=f(T) (1)
本发明提出的汉语语音清晰度客观评测算法模型如式(2)~(5)所示,该算法给出了汉语语音清晰度与混响时间T的函数关系,二者呈对数关系,拟合精度R2可以达到0.90。其中QR表示混响环境的单音节清晰度,QRsm表示噪声环境的声母清晰度,QRym表示噪声环境的韵母清晰度,QRsd表示噪声环境的声调清晰度。
QR=-0.14×ln(T)+0.40 (2)
QRsm=-0.12×ln(T)+0.54 (3)
QRym=-0.10×ln(T)+0.77 (4)
QRsd=-0.06×ln(T)+0.89 (5)
本算法采用对数函数的形式,清晰度评测时,先确定传输系统客观声学参量混响时间的取值,随后根据公式计算,计算结果直接就是汉语听感清晰度。
混响环境中的汉语单音节、声母、韵母、声调清晰度与混响时间的关系如图2所示,混响环境中汉语语音清晰度实测值与预测值的误差如图3所示。
进一步的,本领域技术人员应当知晓,表征混响干扰条件的客观参量也存在除混响时间T以外的客观参量,本发明仅针对用混响时间T表征频带有限情况下的汉语语音清晰度评测,对于存在的其他客观参量,本领域技术人员完全可以根据本发明给出的方法得到对应的评测算法。
Claims (4)
1.一种适用于混响环境的汉语语音清晰度客观评测算法,包括测量能够表征影响汉语语音清晰度的混响条件下的客观声学参数的步骤,其特征在于,根据所建立的客观声学参数与汉语的主观听感清晰度间的对应函数关系,得到混响条件下的汉语语音清晰度,其中,所述客观声学参数为自变量。
2.如权利要求1所述的汉语语音清晰度客观评测算法,其特征在于,混响时间T对应混响条件下的客观声学参数。
3.如权利要求2所述的汉语语音清晰度客观评测算法,其特征在于,在混响条件下的汉语单音节清晰度QF与混响时间T之间的函数关系如下:
QR=-0.14×ln(T)+0.40
4.如权利要求2所述的汉语语音清晰度客观评测算法,其特征在于,在混响条件下的汉语声母清晰度QFsm、韵母清晰度QFsm及声调清晰度QFsd与混响时间T之间的函数关系如下:
QRsm=-0.12×ln(T)+0.54
QRym=-0.10×ln(T)+0.77
QRsd=-0.06×ln(T)+0.89 。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611014116.6A CN106782611A (zh) | 2016-11-17 | 2016-11-17 | 一种适用于混响环境的汉语语音清晰度评测算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611014116.6A CN106782611A (zh) | 2016-11-17 | 2016-11-17 | 一种适用于混响环境的汉语语音清晰度评测算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106782611A true CN106782611A (zh) | 2017-05-31 |
Family
ID=58968932
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611014116.6A Pending CN106782611A (zh) | 2016-11-17 | 2016-11-17 | 一种适用于混响环境的汉语语音清晰度评测算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106782611A (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120134505A1 (en) * | 2010-11-25 | 2012-05-31 | Siemens Medical Instruments Pte. Ltd. | Method for the operation of a hearing device and hearing device with a lengthening of fricatives |
CN103471709A (zh) * | 2013-09-17 | 2013-12-25 | 吉林大学 | 乘用车车内噪声声品质预测方法 |
-
2016
- 2016-11-17 CN CN201611014116.6A patent/CN106782611A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120134505A1 (en) * | 2010-11-25 | 2012-05-31 | Siemens Medical Instruments Pte. Ltd. | Method for the operation of a hearing device and hearing device with a lengthening of fricatives |
CN103471709A (zh) * | 2013-09-17 | 2013-12-25 | 吉林大学 | 乘用车车内噪声声品质预测方法 |
Non-Patent Citations (3)
Title |
---|
孟子厚等: "汉语单音节清晰度与STI-PA关系的实验测量", 《声频工程》 * |
尚楠等: "混响和噪声对汉语语音清晰度影响的等效关系", 《声学技术》 * |
戴璐等: "混响时间与汉语单音节清晰度关系的实验测量", 《第十届全国人机语音通讯学术会议论文集》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ferrer et al. | A noise-robust system for NIST 2012 speaker recognition evaluation. | |
Lien et al. | Effects of phonetic context on relative fundamental frequency | |
CN103054586B (zh) | 一种基于汉语言语测听动态词表的汉语言语自动测听方法 | |
CN111798852A (zh) | 语音唤醒识别性能测试方法、装置、系统及终端设备 | |
CN106504771A (zh) | 一种适用于噪声环境的汉语语音清晰度评测算法 | |
EP4033483B1 (en) | Method and apparatus for testing vehicle-mounted voice device, electronic device and storage medium | |
Letowski et al. | Correlation Analysis of Speech Intelligibility Tests and Metrics for Speech Transmission | |
CN101452698A (zh) | 一种自动嗓音谐噪比分析方法 | |
CN106782611A (zh) | 一种适用于混响环境的汉语语音清晰度评测算法 | |
Blamey et al. | Predicting speech perception from the audiogram and vice versa | |
Deng et al. | Modeling and estimating acoustic transfer functions of external ears with or without headphones | |
JP2007534990A (ja) | バイノーラル音信号の主観的特性の判定法 | |
CN106558319A (zh) | 一种适用于带宽有限传输条件的汉语语音清晰度评测算法 | |
Siyu et al. | Relationship between Chinese Mandarin intelligibility and speech transmission index STIPA under simulated tranmission conditions | |
CN106531183A (zh) | 一种基于传输系统声学参量的汉语语音清晰度评测算法 | |
Scharf et al. | Lombard Effect for Bilingual Speakers in Cantonese and English: importance of spectro-temporal features | |
Zouhir et al. | Speech Signals Parameterization Based on Auditory Filter Modeling | |
Bharadwaj et al. | Efficacy of the discreteness of voicing category (DOVC) measure for characterizing voicing errors in children with cochlear implants: A report | |
Alghamdi et al. | Using acoustic parameters for intelligibility prediction of reverberant speech | |
Risberg | The transposer and a model of speech perception | |
Möller et al. | Analytic assessment of telephone transmission impact on ASR performance using a simulation model | |
Kobayashi et al. | Performance Evaluation of an Ambient Noise Clustering Method for Objective Speech Intelligibility Estimation | |
RU2765108C1 (ru) | Способ и программно-аппаратный комплекс для доврачебной предварительной классифицирующей многофакторной оценки возможности слухового анализатора человека при проведении массовых профилактических осмотров населения | |
Prahler | Analysis and synthesis of the American English lateral constant | |
Wang | Dialect contact across three generations: a sociophonetic analysis of variation in [pʰ, tʰ, kʰ, h] in a contact variety in Hohhot, China |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170531 |