CN107818797A - 语音质量评价方法、装置及其系统 - Google Patents
语音质量评价方法、装置及其系统 Download PDFInfo
- Publication number
- CN107818797A CN107818797A CN201711287643.9A CN201711287643A CN107818797A CN 107818797 A CN107818797 A CN 107818797A CN 201711287643 A CN201711287643 A CN 201711287643A CN 107818797 A CN107818797 A CN 107818797A
- Authority
- CN
- China
- Prior art keywords
- audio signal
- text
- evaluating
- signal sequence
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001303 quality assessment method Methods 0.000 title claims abstract description 41
- 230000005236 sound signal Effects 0.000 claims abstract description 82
- 108010076504 Protein Sorting Signals Proteins 0.000 claims abstract description 63
- 238000013507 mapping Methods 0.000 claims description 29
- 238000001514 detection method Methods 0.000 claims description 12
- 241000208340 Araliaceae Species 0.000 claims description 4
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims description 4
- 235000003140 Panax quinquefolius Nutrition 0.000 claims description 4
- 235000008434 ginseng Nutrition 0.000 claims description 4
- 238000007689 inspection Methods 0.000 claims 1
- 238000000034 method Methods 0.000 abstract description 11
- 238000012360 testing method Methods 0.000 description 19
- 238000011156 evaluation Methods 0.000 description 11
- 230000006378 damage Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 239000004568 cement Substances 0.000 description 5
- SBNFWQZLDJGRLK-UHFFFAOYSA-N phenothrin Chemical compound CC1(C)C(C=C(C)C)C1C(=O)OCC1=CC=CC(OC=2C=CC=CC=2)=C1 SBNFWQZLDJGRLK-UHFFFAOYSA-N 0.000 description 5
- 238000013441 quality evaluation Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 150000001875 compounds Chemical class 0.000 description 3
- 108091006146 Channels Proteins 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000012956 testing procedure Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Telephonic Communication Services (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明提供一种语音质量评价方法、装置及其系统,方法包括:采集被测信宿端的音频信号序列,音频信号序列包括多个子音频信号,被测信宿端接收信源端按参考文本序列提供的语音信号,参考文本序列包括多个参考文本,各参考文本关联有一个或多个语音属性参数;对所采集的音频信号序列进行语音识别,将每一音频信号转化为一识别文本;对所采集的音频信号序列进行发音识别,并获取各子音频信号的发音属性参数;根据各识别文本及对应的参考文本,获取第一类评价参数;根据发音属性参数及语音属性参数,获取第二类评价参数;根据第一类评价参数和第二类评价参数加权获得被测信宿端的语音质量客观评分。本发明提供的方法及系统改善语音质量评价。
Description
技术领域
本发明涉及计算机音频处理领域,尤其涉及一种语音质量评价方法、装置及其系统。
背景技术
对声音质量的评价可分为主观测试、客观测试。主观测试以评价者的主观感受为基础,因此对评测者的要求很高,而且重复性、稳定性差,费时费力。显然在目前高速发展的市场经济时代,主观测试不能满足产品的开发的要求。目前主流的音频客观算法有POLQA(ITU-T P.863)、PEAQ(ITU-RBS.1387)、PESQ(ITU-T P.862.2)等。根据对原始信号的依赖程度,音频客观测试又分为全参考(FullReference,FR),部分参考(ReducedReference,RR)和无参考(No Reference,NR);全参考测试不但需要有损伤信号,还需要有参考信号,以损伤信号是否接近参考信号来评价损伤信号的质量,POLQA、PEAQ、PESQ均是全参考算法;部分参考不需要有参考信号,可通过其它数据来评价损伤信号的质量;无参考只通过损伤信号评价损伤信号的质量。全参考可靠性高,但测试要求高,测试过程复杂;无参考测试效率高但可靠性较差;部分参考结合两者优点,在较低的测试要求下通过简单的测试步骤获取可靠的测试结果。
在音频处理中,特别是音频通信领域,AGC(Automatic Gain Control)、语音增强是经常使用的模块,可以使信宿端获得平稳、清晰的语音,提高语音体验。但目前的音频客观质量算法对存在AGC、语音增强等提高语音可懂度的模块处理后的语音进行评测时会出现较大偏差。如何评价AGC、语音增强等处理后的语音质量也是目前语音客观质量评价的难点。
在音视频通信中,网络质量对音频质量的影响也很大,不理想的网络会导致信宿端的声音出现丢失、快放、慢放;而且为了提高通信系统的网络适应性,通信系统会有一些模块去改善信宿端在网络丢包时的声音质量,例如PLC(Packet Loss Concealment丢包补偿),会通过学习恢复出于丢失的语音类似的声音,或者其它改善声音质量的方法。
甚至为了提高声音的舒适度,音视频通信系统还会添加舒适噪声。
在实际音视频通信使用环境中,通信设备采集的音频中不但包含有效的语音信息,还包含环境噪声,而且还有混响。
而目前的音频客观质量算法对上述场景下的音频质量评测无能为力。
发明内容
本发明为了克服上述现有技术存在的缺陷,提供一种语音质量评价方法、装置及其系统,以改善语音质量评价。
根据本发明的一个方面,提供一种语音质量评价方法,包括:采集被测信宿端的音频信号序列,所述音频信号序列包括多个子音频信号,所述被测信宿端接收信源端按参考文本序列提供的语音信号,所述参考文本序列包括多个参考文本,各参考文本关联有一个或多个语音属性参数,一所述子音频信号对应一所述参考文本;对所采集的音频信号序列进行语音识别,将每一音频信号转化为一识别文本,一所述识别文本对应一所述参考文本;对所采集的音频信号序列进行发音识别,并获取各子音频信号的发音属性参数;根据各所述识别文本及对应的参考文本,获取第一类评价参数;根据所述发音属性参数及所述语音属性参数,获取第二类评价参数;根据所述第一类评价参数和第二类评价参数加权获得被测信宿端的语音质量客观评分。
可选地,所述根据各所述识别文本及对应的参考文本,获取第一类评价参数包括:将各所述识别文本及对应的参考文本输入第一映射模型以获取第一类评价参数;所述根据所述发音属性参数及所述语音属性参数,获取第二类评价参数包括:将所述发音属性参数及所述语音属性参数输入第二映射模型以获取第二类评价参数。
可选地,所述第一映射模型包括线性映射模型、非线性映射模型和回归树映射模型中的一种或多种,所述第二映射模型包括线性映射模型、非线性映射模型和回归树映射模型中的一种或多种。
可选地,所述对所采集的音频信号序列进行语音识别还包括:获取各子音频信号的辅助语音属性参数;所述根据所述发音属性参数及所述语音属性参数,获取第二类评价参数包括:根据所述发音属性参数、所述辅助语音属性参数及所述语音属性参数,获取第二类评价参数,其中,所述发音属性参数和所述辅助语音属性参数至少包括部分相同类别的属性参数。
可选地,所述发音属性参数、所述辅助语音属性参数及所述语音属性参数至少包括文本长短、间隔、性别、年龄、语速中的一项或多项。
可选地,所述语音质量客观评分F根据如下公式计算:
F=(x1f1+x2f2+…+xkfk)/M;
其中,f1+f2+…+fk=M,且f1、f2、…fk为权重为权重;x1、x2、…、xk为所述第一类评价参数和所述第二类评价参数,k、M为大于等于1的整数。
可选地,所述第一类评价参数至少包括文本完整度,所述第一类评价参数至少包括文字完整度、语速一致性、性别一致性、年龄一致性中的一项或多项。
可选地,采集被测信宿端的音频信号序列之后,对所采集的音频信号序列进行语音识别之前还包括检测步骤,所述检测步骤包括如下步骤中的一项或多项:检测所采集的音频信号序列是否对应完整的参考文本序列,若否,则重新采集被测信宿端的音频信号序列;检测所采集的音频信号序列是否饱和溢出,若是,则重新采集被测信宿端的音频信号序列;检测所采集的音频信号序列的最高音量是否小于第一阈值,若是,则重新采集被测信宿端的音频信号序列,所述第一阈值为-20dB至-10dB;检测所采集的音频信号序列的信噪比是否小于第二阈值,若是,则重新采集被测信宿端的音频信号序列,所述第二阈值为65dB至75dB。
可选地,所述对所采集的音频信号序列进行语音识别,将每一音频信号转化为一识别文本包括:根据所述音频信号,在一语音识别模型库中命中多个字以形成识别文本;所述对所采集的音频信号序列进行语音识别,将每一音频信号转化为一识别文本之后,还包括:将所述识别文本及对应的参考文本进行比对;提取所述识别文本中,与对应的参考文本的对应位置处不同的字作为第一待调整字;提取所述参考文本中,与对应的识别文本的对应位置处不同的字作为第二待调整字;在所述语音识别模型库中降低所述第一待调整字的命中率,提高所述第二待调整字的命中率。
根据本发明的又一方面,还提供一种语音质量评价装置,包括:采集模块,用于采集被测信宿端的音频信号序列,所述音频信号序列包括多个子音频信号,所述被测信宿端接收信源端按参考文本序列提供的语音信号,所述参考文本序列包括多个参考文本,各参考文本关联有一个或多个语音属性参数,一所述子音频信号对应一所述参考文本;语音识别模块,用于对所采集的音频信号序列进行语音识别,将每一音频信号转化为一识别文本,一所述识别文本对应一所述参考文本;发音识别模块,用于对所采集的音频信号序列进行发音识别,并获取各子音频信号的发音属性参数;第一评价参数获取模块,用于根据各所述识别文本及对应的参考文本,获取第一类评价参数;第二评价参数获取模块,用于根据所述发音属性参数及所述语音属性参数,获取第二类评价参数;客观评分模块,用于根据所述第一类评价参数和第二类评价参数加权获得被测信宿端的语音质量客观评分。
根据本发明的又一方面,还提供一种语音质量评价系统,包括:信源端;信宿端;以及如上所述的语音质量评价装置。
与现有技术相比,本发明的优点在于:本发明使用部分参考方式对语音质量进行评价,降低了测试环境要求,简化了测试过程,能够在存在AGC、语音增强等提高语音可懂度的模块处理后语音的质量评价中获得可靠评价结果,能够对网络损伤情况下的语音质量进行可靠的评价测试,能够对添加舒适噪声情况下的音质量进行可靠的评价测试。
附图说明
通过参照附图详细描述其示例实施方式,本发明的上述和其它特征及优点将变得更加明显。
图1示出了根据本发明实施例的语音质量评价系统的示意图。
图2示出了根据本发明实施例的语音质量评价方法的流程图。
图3示出了根据本发明实施例的语音质量评价装置的模块图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的实施方式;相反,提供这些实施方式使得本发明将全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的结构,因而将省略对它们的重复描述。
为了克服上述现有技术存在的缺陷,本发明提供一种语音质量评价方法、装置及其系统。首先参见图1,图1示出了根据本发明实施例的语音质量评价系统的示意图。
语音质量评价系统包括信源端110、信宿端120以及语音质量评价装置130。
在一些具体实施例中,信源端110和信宿端120为视频会议中的两个终端。信源端110采集语音信号,经编码后作为音频信号通过信道传递至信宿端120。语音信号经采集、编码、传输等处理过程中可能会产生信号损失。为了检测信宿端120的音频信号的质量,信宿端120连接一语音质量评价装置130,语音质量评价装置130用于对信宿端120的音频信号进行语音质量评价。可选地,语音质量评价装置130支持各种模拟、数字音频接口,可以采集模拟、数字音频信号。进一步地,语音质量评价装置130支持XLR、TRS、Line、HDMI等多种音频接口。
语音质量评价装置130可采用如图2所示的语音质量评价方法对信宿端120的音频信号进行语音质量评价。图2共示出6个步骤:
步骤S210:采集被测信宿端的音频信号序列。所述音频信号序列包括多个子音频信号。所述被测信宿端接收信源端按参考文本序列提供的语音信号。所述参考文本序列包括多个参考文本。各参考文本关联有一个或多个语音属性参数,一所述子音频信号对应一所述参考文本。
具体而言,参考文本序列例如可以是:
其中,每个参考文本关联有性别、年龄范围和语速3个语音属性参数。上述表格仅仅是示意性的,本发明并非以此为限,语音属性参数的数量和种类可依实际情况而定。
在一些具体实施例中,信源端和信宿端为参加视频会议的两个终端。信源端处测试者根据语音属性参数提供上述参考文本的语音,并由信源端采集。信源端采集与参考文本对应的语音信号后,语音信号通过编码、预处理作为音频信号序列经信道传输至信宿端。
在一些具体实施例中,步骤S210之后,步骤S220之前还包括检测步骤。在一些实施例中,检测步骤可以是检测所采集的音频信号序列是否对应完整的参考文本序列,若否,则重新采集被测信宿端的音频信号序列;若是,则继续执行步骤S220。在又一些实施例中,检测步骤可以是检测所采集的音频信号序列是否饱和溢出,若是,则重新采集被测信宿端的音频信号序列;若否,则继续执行步骤S220。在另一些实施例中,检测步骤可以是检测所采集的音频信号序列的最高音量是否小于第一阈值,若是,则重新采集被测信宿端的音频信号序列;若否,则继续执行步骤S220。在该些实施例中,所述第一阈值为-20dB至-10dB。优选地,第一阈值为-16dB。在还一些实施例中,检测步骤可以是检测所采集的音频信号序列的信噪比是否小于第二阈值,若是,则重新采集被测信宿端的音频信号序列,;若否,则继续执行步骤S220。在该些实施例中,所述第二阈值为65dB至75dB。优选地,第二阈值为70dB。在本发明的各个实施例中,可单独进行上述检测步骤或结合上述检测步骤来使用。本发明并非以此为限。
步骤S220:对所采集的音频信号序列进行语音识别,将每一音频信号转化为一识别文本,一所述识别文本对应一所述参考文本。
在一些实施例,步骤S220通过对所采集的音频信号序列进行语义分析,以将音频信号序列划分为多个自音频信号以与参考文本对应。在有一些实施例中,步骤S220可以通过参考文本的语音信号的时间间隔来将所采集的音频信号划分为多个自音频信号以与参考文本对应。
进一步地,在一些实施例中,步骤S220还包括获取各子音频信号的辅助语音属性参数。辅助语音属性参数可以包括每个字的开始时间、每个字时长、单个词的识别率、句子个数、每个句子内容、句子开始时间、句子时长、句子完整度等等。
进一步地,在本发明的一个具体实施例中,步骤S220还包括根据所述音频信号,在一语音识别模型库中命中多个字以形成识别文本。在步骤S220之后还包括根据识别文本结果调整语音识别模型库的步骤。具体而言,可以包括将所述识别文本及对应的参考文本进行比对;提取所述识别文本中,与对应的参考文本的对应位置处不同的字作为第一待调整字;提取所述参考文本中,与对应的识别文本的对应位置处不同的字作为第二待调整字;在所述语音识别模型库中降低所述第一待调整字的命中率,提高所述第二待调整字的命中率。例如,当参考文本为“明天出差去北京”,而识别文本为“明天出发去北京”时,比对参考文本及识别文本,将识别文本中与参考文本不同的字“发”作为第一待调整字,将参考文本中与识别文本不同的字“差”作为第二待调整字,降低语音识别模型库中“发”的命中率,并提高语音识别模型库中“差”的命中率,由此,可在语音识别过程中调整语音识别模型库的精确性,进而减少由于语音识别准确性不够而导致后续评价的准确性不高的问题。进一步地,对于由于信源端采集的语音信息,由于提供参考文本语音的人员的口音等问题造成的语音识别不准确,进而导致后续语音评价的准确性不高的问题,通过这样的方式,也可以进一步地改善。
步骤S230:对所采集的音频信号序列进行发音识别,并获取各子音频信号的发音属性参数。
发音属性参数可以包括每个字的开始时间、时长、声母、韵母、音调、读音完整度、性别、年龄范围、语速等。
步骤S240:根据各所述识别文本及对应的参考文本,获取第一类评价参数。
在一些实施例中,步骤S240将各所述识别文本及对应的参考文本输入第一映射模型以获取第一类评价参数。所述第一映射模型可以线性映射模型、非线性映射模型和回归树映射模型中的一种。
在另一些实施例中,可以直接通过识别评价参数*文本的字数/对应参考文本的字数(评价参数满分*识别文本与参考文本相同的字的字数/对应参考文本的字数)作为第一类评价参数。评价参数满分可以是5、10或者100。
步骤S250:根据所述发音属性参数及所述语音属性参数,获取第二类评价参数。
在一些实施例中,步骤S250将所述发音属性参数及所述语音属性参数输入第二映射模型以获取第二类评价参数。所述第二映射模型可以是线性映射模型、非线性映射模型和回归树映射模型中的一种。
在本发明的一个具体实施例中,步骤S250还可以根据所述发音属性参数、所述辅助语音属性参数及所述语音属性参数,获取第二类评价参数,其中,所述发音属性参数和所述辅助语音属性参数至少包括部分相同类别的属性参数。例如,发音属性参数和辅助语音属性参数都包括每个字的开始时间、时长等。当发音属性参数和辅助语音属性参数中这些相同类别的属性参数相同时,则直接使用这些相同类别的属性;当发音属性参数和辅助语音属性参数中这些相同类别的属性参数不同时,则可使用发音属性参数和辅助语音属性参数在这些相同类别的属性上的平均值(例如,发音属性参数的每个字的时长为0.5秒,辅助语音属性参数的每个字的时长为0.4秒,则将(0.5+0.4)/2=0.45秒作为第二类评价参数的依据)。由此,可结合不同过的分析方式,获得更精确的评价。
步骤S260:根据所述第一类评价参数和第二类评价参数加权获得被测信宿端的语音质量客观评分。
在一些具体实施例中,语音质量客观评分F根据如下公式计算:
F=(x1f1+x2f2+…+xkfk)/M;
其中,f1+f2+…+fk=M,且f1、f2、…fk为权重;x1、x2、…、xk为所述第一类评价参数和所述第二类评价参数,k、M为大于等于1的整数。进一步地,M可以是各类评价参数的满分(例如5、10、100)。
可选地,所述第一类评价参数至少包括文本完整度,所述第一类评价参数至少包括文字完整度、语速一致性、性别一致性、年龄一致性中的一项或多项。各类评价参数的总分优选地相同。
在一些实施例中,除了采用映射模型,文字完整度可以根据发音属性参数中每个字声母、韵母和参考文本中每个字声母、韵母进行对比和匹配,并将评价参数满分*匹配成功的数量/总数量作为文字完整度。本发明并非以此为限。
在一些实施例中,除了采用映射模型,语速一致性、性别一致性、年龄一致性中,以语速一致性为例,以每个参考文本为单位,评价参数满分*参考文本的语速和识别文本的语速相同的数量/参考文本的总数作为语速一致性。类似地,性别一致性、年龄一致性也可按相同的方式计算。本发明并非以此为限。
可选地,步骤S260还可以根据步骤S220和步骤S230获得的数据提供信源到信宿的语音处理和传输过程中丢失的字、发音有变化的字、多产生的字、重复的字、句子语速等数据。
根据本发明的又一方面,还提供一种语音质量评价装置,参见图3,图3示出了根据本发明实施例的语音质量评价装置的模块图。
语音质量评价装置300包括采集模块310、语音识别模块320、发音识别模块330、第一评价参数获取模块340、第二评价参数获取模块350以及客观评分模块360。
采集模块310用于采集被测信宿端的音频信号序列,所述音频信号序列包括多个子音频信号,所述被测信宿端接收信源端按参考文本序列提供的语音信号,所述参考文本序列包括多个参考文本,各参考文本关联有一个或多个语音属性参数,一所述子音频信号对应一所述参考文本。语音识别模块320用于对所采集的音频信号序列进行语音识别,将每一音频信号转化为一识别文本,一所述识别文本对应一所述参考文本。发音识别模块330用于对所采集的音频信号序列进行发音识别,并获取各子音频信号的发音属性参数。第一评价参数获取模块340用于根据各所述识别文本及对应的参考文本,获取第一类评价参数。第二评价参数获取模块350用于根据所述发音属性参数及所述语音属性参数,获取第二类评价参数。客观评分模块360用于根据所述第一类评价参数和第二类评价参数加权获得被测信宿端的语音质量客观评分。
与现有技术相比,本发明的优点在于:本发明使用部分参考方式对语音质量进行评价,降低了测试环境要求,简化了测试过程,能够在存在AGC、语音增强等提高语音可懂度的模块处理后语音的质量评价中获得可靠评价结果,能够对网络损伤情况下的语音质量进行可靠的评价测试,能够对添加舒适噪声情况下的音质量进行可靠的评价测试。
以上具体地示出和描述了本发明的示例性实施方式。应该理解,本发明不限于所公开的实施方式,相反,本发明意图涵盖包含在所附权利要求范围内的各种修改和等效置换。
Claims (11)
1.一种语音质量评价方法,其特征在于,包括:
采集被测信宿端的音频信号序列,所述音频信号序列包括多个子音频信号,所述被测信宿端接收信源端按参考文本序列提供的语音信号,所述参考文本序列包括多个参考文本,各参考文本关联有一个或多个语音属性参数,一所述子音频信号对应一所述参考文本;
对所采集的音频信号序列进行语音识别,将每一音频信号转化为一识别文本,一所述识别文本对应一所述参考文本;
对所采集的音频信号序列进行发音识别,并获取各子音频信号的发音属性参数;
根据各所述识别文本及对应的参考文本,获取第一类评价参数;
根据所述发音属性参数及所述语音属性参数,获取第二类评价参数;
根据所述第一类评价参数和第二类评价参数加权获得被测信宿端的语音质量客观评分。
2.如权利要求1所述的语音质量评价方法,其特征在于,
所述根据各所述识别文本及对应的参考文本,获取第一类评价参数包括:将各所述识别文本及对应的参考文本输入第一映射模型以获取第一类评价参数;
所述根据所述发音属性参数及所述语音属性参数,获取第二类评价参数包括:将所述发音属性参数及所述语音属性参数输入第二映射模型以获取第二类评价参数。
3.如权利要求2所述的语音质量评价方法,其特征在于,所述第一映射模型包括线性映射模型、非线性映射模型和回归树映射模型中的一种或多种,所述第二映射模型包括线性映射模型、非线性映射模型和回归树映射模型中的一种或多种。
4.如权利要求1所述的语音质量评价方法,其特征在于,
所述对所采集的音频信号序列进行语音识别还包括:获取各子音频信号的辅助语音属性参数;
所述根据所述发音属性参数及所述语音属性参数,获取第二类评价参数包括:根据所述发音属性参数、所述辅助语音属性参数及所述语音属性参数,获取第二类评价参数,
其中,所述发音属性参数和所述辅助语音属性参数至少包括部分相同类别的属性参数。
5.如权利要求4所述的语音质量评价方法,其特征在于,所述发音属性参数、所述辅助语音属性参数及所述语音属性参数至少包括文本长短、间隔、性别、年龄、语速中的一项或多项。
6.如权利要求1所述的语音质量评价方法,其特征在于,所述语音质量客观评分F根据如下公式计算:
F=(x1f1+x2f2+…+xkfk)/M;
其中,f1+f2+…+fk=M,且f1、f2、…fk为权重;x1、x2、…、xk为所述第一类评价参数和所述第二类评价参数,k、M为大于等于1的整数。
7.如权利要求6所述的语音质量评价方法,其特征在于,所述第一类评价参数至少包括文本完整度,所述第一类评价参数至少包括文字完整度、语速一致性、性别一致性、年龄一致性中的一项或多项。
8.如权利要求1至7任一项所述的语音质量评价方法,其特征在于,采集被测信宿端的音频信号序列之后,对所采集的音频信号序列进行语音识别之前还包括检测步骤,所述检测步骤包括如下步骤中的一项或多项:
检测所采集的音频信号序列是否对应完整的参考文本序列,若否,则重新采集被测信宿端的音频信号序列;
检测所采集的音频信号序列是否饱和溢出,若是,则重新采集被测信宿端的音频信号序列;
检测所采集的音频信号序列的最高音量是否小于第一阈值,若是,则重新采集被测信宿端的音频信号序列,所述第一阈值为-20dB至-10dB;
检测所采集的音频信号序列的信噪比是否小于第二阈值,若是,则重新采集被测信宿端的音频信号序列,所述第二阈值为65dB至75dB。
9.如权利要求1至7任一项所述的语音质量评价方法,其特征在于,所述对所采集的音频信号序列进行语音识别,将每一音频信号转化为一识别文本包括:
根据所述音频信号,在一语音识别模型库中命中多个字以形成识别文本;
所述对所采集的音频信号序列进行语音识别,将每一音频信号转化为一识别文本之后,还包括:
将所述识别文本及对应的参考文本进行比对;
提取所述识别文本中,与对应的参考文本的对应位置处不同的字作为第一待调整字;
提取所述参考文本中,与对应的识别文本的对应位置处不同的字作为第二待调整字;
在所述语音识别模型库中降低所述第一待调整字的命中率,提高所述第二待调整字的命中率。
10.一种语音质量评价装置,其特征在于,包括:
采集模块,用于采集被测信宿端的音频信号序列,所述音频信号序列包括多个子音频信号,所述被测信宿端接收信源端按参考文本序列提供的语音信号,所述参考文本序列包括多个参考文本,各参考文本关联有一个或多个语音属性参数,一所述子音频信号对应一所述参考文本;
语音识别模块,用于对所采集的音频信号序列进行语音识别,将每一音频信号转化为一识别文本,一所述识别文本对应一所述参考文本;
发音识别模块,用于对所采集的音频信号序列进行发音识别,并获取各子音频信号的发音属性参数;
第一评价参数获取模块,用于根据各所述识别文本及对应的参考文本,获取第一类评价参数;
第二评价参数获取模块,用于根据所述发音属性参数及所述语音属性参数,获取第二类评价参数;
客观评分模块,用于根据所述第一类评价参数和第二类评价参数加权获得被测信宿端的语音质量客观评分。
11.一种语音质量评价系统,其特征在于,包括:
信源端;
信宿端;以及
如权利要求10所述的语音质量评价装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711287643.9A CN107818797B (zh) | 2017-12-07 | 2017-12-07 | 语音质量评价方法、装置及其系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711287643.9A CN107818797B (zh) | 2017-12-07 | 2017-12-07 | 语音质量评价方法、装置及其系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107818797A true CN107818797A (zh) | 2018-03-20 |
CN107818797B CN107818797B (zh) | 2021-07-06 |
Family
ID=61605474
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711287643.9A Active CN107818797B (zh) | 2017-12-07 | 2017-12-07 | 语音质量评价方法、装置及其系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107818797B (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108962281A (zh) * | 2018-08-15 | 2018-12-07 | 三星电子(中国)研发中心 | 一种语言表达的评价和辅助方法及装置 |
CN109523990A (zh) * | 2019-01-21 | 2019-03-26 | 未来电视有限公司 | 语音检测方法和装置 |
CN109830246A (zh) * | 2019-01-25 | 2019-05-31 | 北京海天瑞声科技股份有限公司 | 音频质量评估方法、装置、电子设备及存储介质 |
WO2019242402A1 (zh) * | 2018-06-19 | 2019-12-26 | Oppo广东移动通信有限公司 | 语音识别模型生成方法、装置、存储介质及电子设备 |
CN111091816A (zh) * | 2020-03-19 | 2020-05-01 | 北京五岳鑫信息技术股份有限公司 | 一种基于语音评测的数据处理系统及方法 |
CN111797632A (zh) * | 2019-04-04 | 2020-10-20 | 北京猎户星空科技有限公司 | 信息处理方法、装置及电子设备 |
CN111968677A (zh) * | 2020-08-21 | 2020-11-20 | 南京工程学院 | 面向免验配助听器的语音质量自评估方法 |
CN112185421A (zh) * | 2020-09-29 | 2021-01-05 | 北京达佳互联信息技术有限公司 | 音质检测方法、装置、电子设备及存储介质 |
CN112562736A (zh) * | 2020-12-11 | 2021-03-26 | 中国信息通信研究院 | 一种语音数据集质量评估方法和装置 |
CN113064994A (zh) * | 2021-03-25 | 2021-07-02 | 平安银行股份有限公司 | 会议质量评估方法、装置、设备及存储介质 |
CN113393863A (zh) * | 2021-06-10 | 2021-09-14 | 北京字跳网络技术有限公司 | 一种语音评价方法、装置和设备 |
CN117711435A (zh) * | 2023-12-20 | 2024-03-15 | 书行科技(北京)有限公司 | 音频处理方法及装置、电子设备及计算机可读存储介质 |
Citations (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020114296A1 (en) * | 1998-12-24 | 2002-08-22 | Hardy William Christopher | Method and system for evaluating the quality of packet-switched voice signals |
US20070067172A1 (en) * | 2005-09-22 | 2007-03-22 | Minkyu Lee | Method and apparatus for performing conversational opinion tests using an automated agent |
CN102014126A (zh) * | 2010-10-26 | 2011-04-13 | 同济大学 | 一种基于QoS的语音体验质量评测平台及评测方法 |
US20120215539A1 (en) * | 2011-02-22 | 2012-08-23 | Ajay Juneja | Hybridized client-server speech recognition |
CN103067322A (zh) * | 2011-12-09 | 2013-04-24 | 微软公司 | 评估单通道音频信号中的音频帧的语音质量的方法 |
CN103475896A (zh) * | 2013-07-24 | 2013-12-25 | 同济大学 | 基于QoS的交互视音频体验质量评测平台及方法 |
CN103605492A (zh) * | 2013-11-28 | 2014-02-26 | 中国科学院深圳先进技术研究院 | 一种自适应语言训练方法和平台 |
CN103928023A (zh) * | 2014-04-29 | 2014-07-16 | 广东外语外贸大学 | 一种语音评分方法及系统 |
US20140214421A1 (en) * | 2013-01-31 | 2014-07-31 | Microsoft Corporation | Prosodic and lexical addressee detection |
CN104361895A (zh) * | 2014-12-04 | 2015-02-18 | 上海流利说信息技术有限公司 | 语音质量评价设备、方法和系统 |
CN105244041A (zh) * | 2015-09-22 | 2016-01-13 | 百度在线网络技术(北京)有限公司 | 歌曲试唱的评价方法及装置 |
CN105741831A (zh) * | 2016-01-27 | 2016-07-06 | 广东外语外贸大学 | 一种基于语法分析的口语评测方法和系统 |
CN105761723A (zh) * | 2013-09-26 | 2016-07-13 | 华为技术有限公司 | 一种高频激励信号预测方法及装置 |
CN105957531A (zh) * | 2016-04-25 | 2016-09-21 | 上海交通大学 | 基于云平台的演讲内容提取方法及装置 |
CN106340299A (zh) * | 2016-09-21 | 2017-01-18 | 成都创慧科达科技有限公司 | 一种复杂环境下的说话人识别系统及方法 |
CN106531185A (zh) * | 2016-11-01 | 2017-03-22 | 上海语知义信息技术有限公司 | 基于语音相似度的语音评测方法及系统 |
CN106816158A (zh) * | 2015-11-30 | 2017-06-09 | 华为技术有限公司 | 一种语音质量评估方法、装置及设备 |
CN106847263A (zh) * | 2017-01-13 | 2017-06-13 | 科大讯飞股份有限公司 | 演讲水平评价方法和装置及系统 |
CN106910512A (zh) * | 2015-12-18 | 2017-06-30 | 株式会社理光 | 语音文件的分析方法、装置及系统 |
CN107170468A (zh) * | 2017-04-10 | 2017-09-15 | 北京理工大学 | 一种基于两层模型的多声道音频质量评价方法 |
CN107276777A (zh) * | 2017-07-27 | 2017-10-20 | 苏州科达科技股份有限公司 | 会议系统的音频处理方法及装置 |
CN107293306A (zh) * | 2017-06-21 | 2017-10-24 | 湖南省计量检测研究院 | 一种基于输出的客观语音质量的评估方法 |
CN107342079A (zh) * | 2017-07-05 | 2017-11-10 | 谌勋 | 一种基于互联网的真实人声的采集系统 |
CN107358966A (zh) * | 2017-06-27 | 2017-11-17 | 北京理工大学 | 基于深度学习语音增强的无参考语音质量客观评估方法 |
-
2017
- 2017-12-07 CN CN201711287643.9A patent/CN107818797B/zh active Active
Patent Citations (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020114296A1 (en) * | 1998-12-24 | 2002-08-22 | Hardy William Christopher | Method and system for evaluating the quality of packet-switched voice signals |
US20070067172A1 (en) * | 2005-09-22 | 2007-03-22 | Minkyu Lee | Method and apparatus for performing conversational opinion tests using an automated agent |
CN102014126A (zh) * | 2010-10-26 | 2011-04-13 | 同济大学 | 一种基于QoS的语音体验质量评测平台及评测方法 |
US20120215539A1 (en) * | 2011-02-22 | 2012-08-23 | Ajay Juneja | Hybridized client-server speech recognition |
CN103067322A (zh) * | 2011-12-09 | 2013-04-24 | 微软公司 | 评估单通道音频信号中的音频帧的语音质量的方法 |
US20140214421A1 (en) * | 2013-01-31 | 2014-07-31 | Microsoft Corporation | Prosodic and lexical addressee detection |
CN103475896A (zh) * | 2013-07-24 | 2013-12-25 | 同济大学 | 基于QoS的交互视音频体验质量评测平台及方法 |
CN105761723A (zh) * | 2013-09-26 | 2016-07-13 | 华为技术有限公司 | 一种高频激励信号预测方法及装置 |
CN103605492A (zh) * | 2013-11-28 | 2014-02-26 | 中国科学院深圳先进技术研究院 | 一种自适应语言训练方法和平台 |
CN103928023A (zh) * | 2014-04-29 | 2014-07-16 | 广东外语外贸大学 | 一种语音评分方法及系统 |
CN104361895A (zh) * | 2014-12-04 | 2015-02-18 | 上海流利说信息技术有限公司 | 语音质量评价设备、方法和系统 |
CN105244041A (zh) * | 2015-09-22 | 2016-01-13 | 百度在线网络技术(北京)有限公司 | 歌曲试唱的评价方法及装置 |
CN106816158A (zh) * | 2015-11-30 | 2017-06-09 | 华为技术有限公司 | 一种语音质量评估方法、装置及设备 |
CN106910512A (zh) * | 2015-12-18 | 2017-06-30 | 株式会社理光 | 语音文件的分析方法、装置及系统 |
CN105741831A (zh) * | 2016-01-27 | 2016-07-06 | 广东外语外贸大学 | 一种基于语法分析的口语评测方法和系统 |
CN105957531A (zh) * | 2016-04-25 | 2016-09-21 | 上海交通大学 | 基于云平台的演讲内容提取方法及装置 |
CN106340299A (zh) * | 2016-09-21 | 2017-01-18 | 成都创慧科达科技有限公司 | 一种复杂环境下的说话人识别系统及方法 |
CN106531185A (zh) * | 2016-11-01 | 2017-03-22 | 上海语知义信息技术有限公司 | 基于语音相似度的语音评测方法及系统 |
CN106847263A (zh) * | 2017-01-13 | 2017-06-13 | 科大讯飞股份有限公司 | 演讲水平评价方法和装置及系统 |
CN107170468A (zh) * | 2017-04-10 | 2017-09-15 | 北京理工大学 | 一种基于两层模型的多声道音频质量评价方法 |
CN107293306A (zh) * | 2017-06-21 | 2017-10-24 | 湖南省计量检测研究院 | 一种基于输出的客观语音质量的评估方法 |
CN107358966A (zh) * | 2017-06-27 | 2017-11-17 | 北京理工大学 | 基于深度学习语音增强的无参考语音质量客观评估方法 |
CN107342079A (zh) * | 2017-07-05 | 2017-11-10 | 谌勋 | 一种基于互联网的真实人声的采集系统 |
CN107276777A (zh) * | 2017-07-27 | 2017-10-20 | 苏州科达科技股份有限公司 | 会议系统的音频处理方法及装置 |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019242402A1 (zh) * | 2018-06-19 | 2019-12-26 | Oppo广东移动通信有限公司 | 语音识别模型生成方法、装置、存储介质及电子设备 |
CN108962281B (zh) * | 2018-08-15 | 2021-05-07 | 三星电子(中国)研发中心 | 一种语言表达的评价和辅助方法及装置 |
CN108962281A (zh) * | 2018-08-15 | 2018-12-07 | 三星电子(中国)研发中心 | 一种语言表达的评价和辅助方法及装置 |
CN109523990A (zh) * | 2019-01-21 | 2019-03-26 | 未来电视有限公司 | 语音检测方法和装置 |
CN109523990B (zh) * | 2019-01-21 | 2021-11-05 | 未来电视有限公司 | 语音检测方法和装置 |
CN109830246A (zh) * | 2019-01-25 | 2019-05-31 | 北京海天瑞声科技股份有限公司 | 音频质量评估方法、装置、电子设备及存储介质 |
CN109830246B (zh) * | 2019-01-25 | 2019-10-29 | 北京海天瑞声科技股份有限公司 | 音频质量评估方法、装置、电子设备及存储介质 |
CN111797632A (zh) * | 2019-04-04 | 2020-10-20 | 北京猎户星空科技有限公司 | 信息处理方法、装置及电子设备 |
CN111797632B (zh) * | 2019-04-04 | 2023-10-27 | 北京猎户星空科技有限公司 | 信息处理方法、装置及电子设备 |
CN111091816A (zh) * | 2020-03-19 | 2020-05-01 | 北京五岳鑫信息技术股份有限公司 | 一种基于语音评测的数据处理系统及方法 |
CN111968677B (zh) * | 2020-08-21 | 2021-09-07 | 南京工程学院 | 面向免验配助听器的语音质量自评估方法 |
CN111968677A (zh) * | 2020-08-21 | 2020-11-20 | 南京工程学院 | 面向免验配助听器的语音质量自评估方法 |
CN112185421A (zh) * | 2020-09-29 | 2021-01-05 | 北京达佳互联信息技术有限公司 | 音质检测方法、装置、电子设备及存储介质 |
WO2022068304A1 (zh) * | 2020-09-29 | 2022-04-07 | 北京达佳互联信息技术有限公司 | 音质检测方法及装置 |
CN112185421B (zh) * | 2020-09-29 | 2023-11-21 | 北京达佳互联信息技术有限公司 | 音质检测方法、装置、电子设备及存储介质 |
CN112562736A (zh) * | 2020-12-11 | 2021-03-26 | 中国信息通信研究院 | 一种语音数据集质量评估方法和装置 |
CN112562736B (zh) * | 2020-12-11 | 2024-06-21 | 中国信息通信研究院 | 一种语音数据集质量评估方法和装置 |
CN113064994A (zh) * | 2021-03-25 | 2021-07-02 | 平安银行股份有限公司 | 会议质量评估方法、装置、设备及存储介质 |
CN113393863A (zh) * | 2021-06-10 | 2021-09-14 | 北京字跳网络技术有限公司 | 一种语音评价方法、装置和设备 |
CN113393863B (zh) * | 2021-06-10 | 2023-11-03 | 北京字跳网络技术有限公司 | 一种语音评价方法、装置和设备 |
CN117711435A (zh) * | 2023-12-20 | 2024-03-15 | 书行科技(北京)有限公司 | 音频处理方法及装置、电子设备及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN107818797B (zh) | 2021-07-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107818797A (zh) | 语音质量评价方法、装置及其系统 | |
CN107910014B (zh) | 回声消除的测试方法、装置及测试设备 | |
CN112750465B (zh) | 一种云端语言能力评测系统及可穿戴录音终端 | |
CN102930866B (zh) | 一种用于口语练习的学生朗读作业的评判方法 | |
US11133025B2 (en) | Method and system for speech emotion recognition | |
CN106847260B (zh) | 一种基于特征融合的英语口语自动评分方法 | |
CN106782603B (zh) | 智能语音评测方法及系统 | |
WO2021179717A1 (zh) | 一种语音识别的前端处理方法、装置及终端设备 | |
CN108564942A (zh) | 一种基于敏感度可调的语音情感识别方法及系统 | |
CN107146624A (zh) | 一种说话人确认方法及装置 | |
CN105302795A (zh) | 基于汉语模糊发音和语音识别的中文文本校验系统及方法 | |
Gold et al. | Examining long-term formant distributions as a discriminant in forensic speaker comparisons under a likelihood ratio framework | |
CN108154735A (zh) | 英语口语测评方法及装置 | |
CN104464423A (zh) | 一种口语考试评测的校标优化方法及系统 | |
CN104050965A (zh) | 具有情感识别功能的英语语音发音质量评价系统及方法 | |
CN105006230A (zh) | 一种面向非特定人的语音敏感信息检测和过滤方法 | |
US20180308501A1 (en) | Multi speaker attribution using personal grammar detection | |
CN106611604A (zh) | 一种基于深度神经网络的自动语音叠音检测方法 | |
CN104464724A (zh) | 一种针对刻意伪装语音的说话人识别方法 | |
CN106875943A (zh) | 一种用于大数据分析的语音识别系统 | |
CN105374352A (zh) | 一种语音激活方法及系统 | |
CN107240394A (zh) | 一种动态自适应语音分析技术以用于人机口语考试的方法及系统 | |
WO2022100691A1 (zh) | 音频识别方法和装置 | |
US20230070000A1 (en) | Speech recognition method and apparatus, device, storage medium, and program product | |
CN113658583A (zh) | 一种基于生成对抗网络的耳语音转换方法、系统及其装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |