CN116168729A - 语音质量评价方法、装置和电子设备 - Google Patents
语音质量评价方法、装置和电子设备 Download PDFInfo
- Publication number
- CN116168729A CN116168729A CN202310430534.7A CN202310430534A CN116168729A CN 116168729 A CN116168729 A CN 116168729A CN 202310430534 A CN202310430534 A CN 202310430534A CN 116168729 A CN116168729 A CN 116168729A
- Authority
- CN
- China
- Prior art keywords
- data
- corpus data
- degraded
- corpus
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013441 quality evaluation Methods 0.000 title claims abstract description 61
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000001228 spectrum Methods 0.000 claims abstract description 136
- 238000012549 training Methods 0.000 claims abstract description 101
- 230000015556 catabolic process Effects 0.000 claims abstract description 48
- 238000006731 degradation reaction Methods 0.000 claims abstract description 48
- 238000012545 processing Methods 0.000 claims abstract description 43
- 238000004422 calculation algorithm Methods 0.000 claims description 10
- 238000001914 filtration Methods 0.000 claims description 9
- 238000001303 quality assessment method Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 8
- 238000012937 correction Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 abstract description 15
- 230000008447 perception Effects 0.000 abstract description 7
- 238000013528 artificial neural network Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 5
- 238000010606 normalization Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 238000013139 quantization Methods 0.000 description 4
- 210000004556 brain Anatomy 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 2
- 101100391172 Dictyostelium discoideum forA gene Proteins 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000013209 evaluation strategy Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009747 swallowing Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Evolutionary Computation (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明提供了一种语音质量评价方法、装置和电子设备,涉及语音质量评价的技术领域,包括:获取待评价的降级语料数据和降级语料数据对应的原始语料数据;计算降级语料数据和原始语料数据之间的残差声谱数据和残差频谱数据;利用目标客观量表模型对残差声谱数据和残差频谱数据进行处理,得到待评价的降级语料数据对应的质量评估量化分值;其中,目标客观量表模型的训练数据中包括样本降级语料数据对应的主观质量评分。本发明所采用的目标客观量表模型的训练数据中包括样本降级语料数据对应的主观质量评分,因此,利用目标客观量表模型所输出的质量评估量化分值是综合人为主观感知和语音物理指标的评价结果,有效地提升了语音质量评价结果的准确性。
Description
技术领域
本发明涉及语音质量评价的技术领域,尤其是涉及一种语音质量评价方法、装置和电子设备。
背景技术
现有技术中,通常采用软件自动评估的方式来对语音质量进行评估,但是软件自动评估大多单纯依据降级语料与原始语料之间的物理指标差异来进行评判降级语料的语音质量,而且容易忽略语音本身传递的内容信息,导致现有技术中的语音质量评价方法存在评价结果准确性差的技术问题。
发明内容
本发明的目的在于提供一种语音质量评价方法、装置和电子设备,以缓解了现有技术中的语音质量评价方法存在的评价结果准确性差的技术问题。
第一方面,本发明提供一种语音质量评价方法,包括:获取待评价的降级语料数据和所述降级语料数据对应的原始语料数据;计算所述降级语料数据和所述原始语料数据之间的残差声谱数据和残差频谱数据;利用目标客观量表模型对所述残差声谱数据和所述残差频谱数据进行处理,得到所述待评价的降级语料数据对应的质量评估量化分值;其中,所述目标客观量表模型的训练数据中包括样本降级语料数据对应的主观质量评分。
在可选的实施方式中,计算所述降级语料数据和所述原始语料数据之间的残差声谱数据和残差频谱数据,包括:利用预设带通滤波器对所述降级语料数据和所述原始语料数据进行滤波,得到滤波后的降级语料数据和滤波后的原始语料数据;对所述滤波后的降级语料数据和所述滤波后的原始语料数据进行归一化处理,得到目标降级语料数据和目标原始语料数据;基于所述目标原始语料数据对所述目标降级语料数据进行对齐处理,得到对齐后的降级语料数据;基于所述对齐后的降级语料数据和所述目标原始语料数据,确定所述残差声谱数据和所述残差频谱数据。
在可选的实施方式中,基于所述目标原始语料数据对所述目标降级语料数据进行对齐处理,得到对齐后的降级语料数据,包括:获取所述目标原始语料数据中音频数据块之间的间距,得到模板间距集合;以所述模板间距集合为基准,利用预设插值算法对所述目标降级语料数据中的音频数据块之间的间距进行补偿和修正,得到所述对齐后的降级语料数据。
在可选的实施方式中,基于所述对齐后的降级语料数据和所述目标原始语料数据,确定所述残差声谱数据和所述残差频谱数据,包括:计算所述对齐后的降级语料数据和所述目标原始语料数据的残差,得到所述残差声谱数据;分别对所述对齐后的降级语料数据和所述目标原始语料数据进行短时傅里叶变换,得到降级频谱数据和原始频谱数据;计算所述降级频谱数据和所述原始频谱数据的残差,得到所述残差频谱数据。
在可选的实施方式中,所述方法还包括:获取第一训练样本集;其中,所述第一训练样本集包括:多组第一训练样本;每组所述第一训练样本包括:样本降级语料数据、所述样本降级语料数据对应的样本原始语料数据和所述样本降级语料数据对应的主观质量评分;计算目标训练样本中样本降级语料数据和样本原始语料数据之间的样本残差声谱数据和样本残差频谱数据;其中,所述目标训练样本表示所述多组第一训练样本中的任一组训练样本;基于多组样本残差声谱数据、样本残差频谱数据和相应的主观质量评分对初始客观量表模型进行训练,得到所述目标客观量表模型。
在可选的实施方式中,获取样本降级语料数据对应的主观质量评分包括:获取第二训练样本集;其中,所述第二训练样本集中包括:多组第二训练样本;每组所述第二训练样本包括:预设降级语料数据对应的样本脑电信息和所述预设降级语料数据对应的人工打分;基于所述第二训练样本集对初始主观质量评分模型进行训练,得到目标主观质量评分模型;获取所述第一训练样本集中每个所述样本降级语料数据对应的脑电信息;利用所述目标主观质量评分模型对所述脑电信息进行处理,得到所述样本降级语料数据对应的主观质量评分。
在可选的实施方式中,所述方法还包括:利用预设分段函数对所述质量评估量化分值进行分段修正,得到修正后的质量评估量化分值。
第二方面,本发明提供一种语音质量评价装置,包括:第一获取模块,用于获取待评价的降级语料数据和所述降级语料数据对应的原始语料数据;第一计算模块,用于计算所述降级语料数据和所述原始语料数据之间的残差声谱数据和残差频谱数据;处理模块,用于利用目标客观量表模型对所述残差声谱数据和所述残差频谱数据进行处理,得到所述待评价的降级语料数据对应的质量评估量化分值;其中,所述目标客观量表模型的训练数据中包括样本降级语料数据对应的主观质量评分。
第三方面,本发明提供一种电子设备,包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现前述实施方式中任一项所述的语音质量评价方法的步骤。
第四方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令被处理器执行时实现前述实施方式中任一项所述的语音质量评价方法。
本发明所提供的语音质量评价方法,在获取到待评价的降级语料数据和降级语料数据对应的原始语料数据之后,首先计算二者之间的残差声谱数据和残差频谱数据,然后利用目标客观量表模型对残差声谱数据和残差频谱数据进行处理,得到待评价的降级语料数据对应的质量评估量化分值,其中,目标客观量表模型的训练数据中包括样本降级语料数据对应的主观质量评分,因此,利用目标客观量表模型所输出的质量评估量化分值是综合人为主观感知和语音物理指标的评价结果,有效地提升了语音质量评价结果的准确性。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种语音质量评价方法的流程图;
图2为本发明实施例提供的一种计算降级语料数据和原始语料数据之间的残差声谱数据和残差频谱数据的流程图;
图3为本发明实施例提供的一种语音质量评价装置的功能模块图;
图4为本发明实施例提供的一种电子设备的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图,对本发明的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
实施例一
图1为本发明实施例提供的一种语音质量评价方法的流程图,如图1所示,该方法具体包括如下步骤:
步骤S102,获取待评价的降级语料数据和降级语料数据对应的原始语料数据。
在本发明实施例中,降级语料数据和降级语料数据对应的原始语料数据均为音频数据,降级语料数据是指原始语料数据经过设备传输后得到的语音数据,用户接收到的数据为降级语料数据,因此,语音质量评价的对象为降级语料数据。在本发明实施例中,为了对降级语料数据进行综合的评价,还需要获取其对应的原始语料数据。
步骤S104,计算降级语料数据和原始语料数据之间的残差声谱数据和残差频谱数据。
在获取到待评价的降级语料数据及其对应的原始语料数据之后,本发明实施例需要计算降级语料数据和原始语料数据之间的残差声谱数据,以及,计算降级语料数据和原始语料数据之间的残差频谱数据。残差声谱数据是指降级语料数据和原始语料数据在时域上的幅值变化差异,残差频谱数据是指降级语料数据和原始语料数据在频域上的频谱变化差异。残差声谱数据和残差频谱数据能够在客观的多维度上反映出降级语料数据和原始语料数据之间的语音物理指标差异。
步骤S106,利用目标客观量表模型对残差声谱数据和残差频谱数据进行处理,得到待评价的降级语料数据对应的质量评估量化分值。
在得到残差声谱数据和残差频谱数据之后,本发明实施例采用目标客观量表模型对残差声谱数据和残差频谱数据进行处理,其中,目标客观量表模型的训练数据中包括样本降级语料数据对应的主观质量评分。也就是说,目标客观量表模型是学习了人为主观感知对样本降级语料数据的主观评价策略之后的模型,因此其输出的质量评估量化分值是综合了对降级语料数据的主观评价和降级语料数据与原始语料数据之间的语音物理指标差异的评分结果,与单纯依靠主观评价或客观评价的方法相比,有效地提升了语音质量评价结果的准确性。
本发明实施例中所使用的目标客观量表模型的核心功能是通过客观量表实现的,客观量表是一种基于神经网络的软件评估体系,包含主观评判依据以及参考语音内容信息的测量系统,是利用神经网络将收集到的大量样本数据进行信号处理、算法设定和模型训练的计算系统。样本数据是利用多媒体设备在多种既定场景下采集到的语音文件集合,客观量表是对样本集进行处理和训练得出一种无限接近人为感知的评价系统。
本发明实施例所提供的语音质量评价方法,在获取到待评价的降级语料数据和降级语料数据对应的原始语料数据之后,首先计算二者之间的残差声谱数据和残差频谱数据,然后利用目标客观量表模型对残差声谱数据和残差频谱数据进行处理,得到待评价的降级语料数据对应的质量评估量化分值,其中,目标客观量表模型的训练数据中包括样本降级语料数据对应的主观质量评分,因此,利用目标客观量表模型所输出的质量评估量化分值是综合人为主观感知和语音物理指标的评价结果,有效地提升了语音质量评价结果的准确性。
在一个可选的实施方式中,如图2所示,上述步骤S104,计算降级语料数据和原始语料数据之间的残差声谱数据和残差频谱数据,具体包括如下步骤:
步骤S1041,利用预设带通滤波器对降级语料数据和原始语料数据进行滤波,得到滤波后的降级语料数据和滤波后的原始语料数据。
具体的,本发明实施例所使用的目标客观量表模型适用于对SWB(Super WideBand,超宽带)语音进行语音质量评估,因此,为了避免非SWB语音数据的特征对模型输出分值的扰动,在获取到降级语料数据和原始语料数据之后,首先利用预设带通滤波器对降级语料数据和原始语料数据进行滤波处理,以滤除非SWB语音数据,得到滤波后的降级语料数据和滤波后的原始语料数据。本发明实施例不对预设带通滤波器的型号进行具体限定,用户可以根据实际需求进行选择。
可选的,采用巴特沃斯滤波器进行频率截取,首先计算最小采样频率,然后计算截止频率/>,接下来构建巴特沃斯滤波器,并计算滤波系数,最后将滤波系数和待处理的音频序列(降级语料数据/原始语料数据)输入无限脉冲响应滤波器输出滤波后的音频序列。
步骤S1042,对滤波后的降级语料数据和滤波后的原始语料数据进行归一化处理,得到目标降级语料数据和目标原始语料数据。
为了便于后续目标客观量表模型的数据处理,在得到滤波后的降级语料数据和滤波后的原始语料数据之后,将二者的幅值范围标准化到[-1.0,1.0]区间,也即进行归一化处理,对滤波后的降级语料数据进行归一化处理之后得到目标降级语料数据;对滤波后的原始语料数据进行归一化处理之后得到目标原始语料数据。
步骤S1043,基于目标原始语料数据对目标降级语料数据进行对齐处理,得到对齐后的降级语料数据。
进一步的,为了避免目标客观量表模型提取无关的语料时间翘曲特征(波形在时间轴上的偏移)而建立与语音质量评价分值的错误映射,例如,人类用户并不认为在一个语料的第3秒还是第3.1秒听到“你好”这个音频信号块会对音频感受有很大影响。因此,本发明实施例以目标原始语料数据为标准,对目标降级语料数据在时域上进行对齐处理,以消除目标原始语料数据和目标降级语料数据因为未对齐而引发的语料时间翘曲特征。
步骤S1044,基于对齐后的降级语料数据和目标原始语料数据,确定残差声谱数据和残差频谱数据。
在得到在时间上对齐后的降级语料数据之后,根据目标原始语料数据和对齐后的降级语料数据,即可计算出残差声谱数据和残差频谱数据,也即,降级语料数据和原始语料数据在时域和频域上的残差。
在一个可选的实施方式中,上述步骤S1043,基于目标原始语料数据对目标降级语料数据进行对齐处理,得到对齐后的降级语料数据,具体包括如下内容:
首先,获取目标原始语料数据中音频数据块之间的间距,得到模板间距集合。
然后,以模板间距集合为基准,利用预设插值算法对目标降级语料数据中的音频数据块之间的间距进行补偿和修正,得到对齐后的降级语料数据。
也就是说,在对目标降级语料数据进行对齐处理时,实质是以目标原始语料数据中音频数据块间的间距作为模板,利用预设插值算法对目标降级语料数据中的音频数据块的间距进行补偿及修正,从而得到可用于消除语料时间翘曲特征的对齐后的降级语料数据。
在一个可选的实施方式中,上述步骤S1044,基于对齐后的降级语料数据和目标原始语料数据,确定残差声谱数据和残差频谱数据,具体包括如下步骤:
步骤S10441,计算对齐后的降级语料数据和目标原始语料数据的残差,得到残差声谱数据。
本发明实施例以语音信号在时间维度上的幅值变化为依据生成目标原始语料数据和对齐后的降级语料数据的声谱图,在计算残差声谱数据时,目标原始语料数据的声谱图作为参照模板,与对齐后的降级语料数据的声谱图/>进行残差操作,进而得到残差声谱数据/>,/>,其中,t表示时间,/>表示幅值。
步骤S10442,分别对对齐后的降级语料数据和目标原始语料数据进行短时傅里叶变换,得到降级频谱数据和原始频谱数据。
步骤S10443,计算降级频谱数据和原始频谱数据的残差,得到残差频谱数据。
要计算残差频谱数据,首先对目标原始语料数据和对齐后的降级语料数据进行短时傅里叶变换,以构建出原始语料数据和降级语料数据在时间维度上的功率谱,也即,原始频谱数据和降级频谱数据/>,其中,t表示时间,f表示频率。短时傅里叶变换时的时间窗长度可选择为255,步进样本数选为128。
基于上文中所介绍的方法步骤可知,本发明实施例对降级语料数据和原始语料数据进行语音信号处理时,使用了多种语音信号处理算法,以对语音信号进行标准化处理、模式转换和特征增强,进而便于处理响度、音色、吞字、翘曲、包络等影响用户体验的因素,从而有利于目标客观量表模型进行后续处理。语音信号处理算法集合以表示,包括:滤波算法/>、归一化算法/>,对齐算法/>,变换算法/>。
在得到残差声谱数据和残差频谱数据之后,利用经过大量样本数据训练后的目标客观量表模型对残差声谱数据和残差频谱数据进行处理,即可得到待评价的降级语料数据的质量评估量化分值。
在本发明实施例中,目标客观量表模型利用第一神经网络处理残差声谱数据,利用第二神经网络处理残差频谱数据,最后将上述两个神经网络的输出送入全连接层融合特征,并通过单一密集层输出质量评估量化分值。其中,第一神经网络的各层处理流程和参数如下表1所示,第二神经网络的各层处理流程和参数如下表2所示:
表1
表2
下面将对具体如何得到目标客观量表模型的方法进行具体介绍,在一个可选的实施方式中,本发明方法还包括如下步骤:
步骤S201,获取第一训练样本集。
要想得到能够对降级语料数据进行综合评价的目标客观量表模型,首先应获取用于训练该模型所使用的第一训练样本集,其中,第一训练样本集包括:多组第一训练样本;每组第一训练样本包括:样本降级语料数据、样本降级语料数据对应的样本原始语料数据和样本降级语料数据对应的主观质量评分。显然,为了能够输出兼备主观评价和对客观指标差异评价的综合评分结果,每组第一训练样本中不仅需要包括:样本降级语料数据和样本原始语料数据,还需包括对样本降级语料数据的主观质量评分。
步骤S202,计算目标训练样本中样本降级语料数据和样本原始语料数据之间的样本残差声谱数据和样本残差频谱数据。
其中,目标训练样本表示多组第一训练样本中的任一组训练样本。
也就是说,在得到第一训练样本集之后,针对每一组第一训练样本,均需计算其样本降级语料数据和样本原始语料数据之间的样本残差声谱数据和样本残差频谱数据,上文步骤S104的相关介绍中描述了根据降级语料数据及其对应的原始语料数据计算残差声谱数据和残差频谱数据的方法,此处同样采用上述处理方法即可。也就是说,通过语音信号处理算法集处理目标训练样本中样本降级语料数据/>和样本原始语料数据/>,即可获取由样本残差声谱数据和样本残差频谱数据构成的特征因子集/>,可表示为/>。
步骤S203,基于多组样本残差声谱数据、样本残差频谱数据和相应的主观质量评分对初始客观量表模型进行训练,得到目标客观量表模型。
通过语音信号处理算法得到每组第一训练样本对应的特征因子集之后,将样本降级语料数据对应的主观质量评分作为每组第一训练样本的训练标签,并基于多组第一训练样本的特征因子集和训练标签/>对初始客观量表模型进行训练,从而得到目标客观量表模型/>,也即,构建分值评估映射/>。
由于神经网络训练所需的样本数量较大,且第一训练样本集中每组第一训练样本需包括样本降级语料数据对应的主观质量评分,如果依靠人工打分来构建第一训练样本集则需要耗费大量时间。因此,为了提升第一训练样本集的样本准备效率,在一个可选的实施方式中,上述步骤S201中获取样本降级语料数据对应的主观质量评分包括如下步骤:
步骤S2011,获取第二训练样本集。
其中,第二训练样本集中包括:多组第二训练样本;每组第二训练样本包括:预设降级语料数据对应的样本脑电信息和预设降级语料数据对应的人工打分。
步骤S2012,基于第二训练样本集对初始主观质量评分模型进行训练,得到目标主观质量评分模型。
具体的,为了快速的得到大量样本降级语料数据对应的主观质量评分,本发明实施例首先获取第二训练样本集,然后将第二训练样本集中预设降级语料数据对应的人工打分作为每组第二训练样本的训练标签,并基于多组第二训练样本的预设降级语料数据对应的样本脑电信息和训练标签/>对初始主观质量评分模型进行训练,得到目标主观质量评分模型/>,也即,构建标签输出映射/>。
步骤S2013,获取第一训练样本集中每个样本降级语料数据对应的脑电信息。
步骤S2014,利用目标主观质量评分模型对脑电信息进行处理,得到样本降级语料数据对应的主观质量评分。
接下来,根据脑电信号的趋同性原理,借助采集普通被试脑电信号,也即每个样本降级语料数据对应的脑电信息,利用目标主观质量评分模型(也即,标签输出映射)对脑电信息进行处理,即可生成第一训练样本集中每组第一训练样本的训练标签/>,即有/>。
由于人耳听觉的选择性、掩蔽效应和不同群体的听觉个性化特征会导致对语音质量评价的非线性偏移,因此可根据需要对评分结果进行分段修正。在一个可选的实施方式中,在得到待评价的降级语料数据对应的质量评估量化分值之后,本发明方法还包括如下步骤:
利用预设分段函数对质量评估量化分值进行分段修正,得到修正后的质量评估量化分值。
具体的,本发明实施例不对预设分段函数中所涉及的多个补偿参数进行具体限定,用户可根据实际情况进行设定,分段修正函数可表示为:,其中,/>表示质量评估量化分值,/>表示第一预设分值,/>表示第二预设分值,/>表示第N预设分值。也就是说,如果质量评估量化分值位于第一得分区间,则补偿第一预设分值;如果质量评估量化分值位于第二得分区间,则补偿第二预设分值;以此类推,如果质量评估量化分值位于第N得分区间,则补偿第N预设分值,上述第一得分区间、第二得分区间…第N得分区间依次相邻且没有交集。
实施例二
本发明实施例还提供了一种语音质量评价装置,该语音质量评价装置主要用于执行上述实施例一所提供的语音质量评价方法,以下对本发明实施例提供的语音质量评价装置做具体介绍。
图3是本发明实施例提供的一种语音质量评价装置的功能模块图,如图3所示,该装置主要包括:第一获取模块10,第一计算模块20,处理模块30,其中:
第一获取模块10,用于获取待评价的降级语料数据和降级语料数据对应的原始语料数据。
第一计算模块20,用于计算降级语料数据和原始语料数据之间的残差声谱数据和残差频谱数据。
处理模块30,用于利用目标客观量表模型对残差声谱数据和残差频谱数据进行处理,得到待评价的降级语料数据对应的质量评估量化分值;其中,目标客观量表模型的训练数据中包括样本降级语料数据对应的主观质量评分。
本发明实施例所提供的语音质量评价装置,在获取到待评价的降级语料数据和降级语料数据对应的原始语料数据之后,首先计算二者之间的残差声谱数据和残差频谱数据,然后利用目标客观量表模型对残差声谱数据和残差频谱数据进行处理,得到待评价的降级语料数据对应的质量评估量化分值,其中,目标客观量表模型的训练数据中包括样本降级语料数据对应的主观质量评分,因此,利用目标客观量表模型所输出的质量评估量化分值是综合人为主观感知和语音物理指标的评价结果,有效地提升了语音质量评价结果的准确性。
可选地,第一计算模块20包括:
滤波单元,用于利用预设带通滤波器对降级语料数据和原始语料数据进行滤波,得到滤波后的降级语料数据和滤波后的原始语料数据。
归一化单元,用于对滤波后的降级语料数据和滤波后的原始语料数据进行归一化处理,得到目标降级语料数据和目标原始语料数据。
对齐单元,用于基于目标原始语料数据对目标降级语料数据进行对齐处理,得到对齐后的降级语料数据。
确定单元,用于基于对齐后的降级语料数据和目标原始语料数据,确定残差声谱数据和残差频谱数据。
可选地,对其单元具体用于:
获取目标原始语料数据中音频数据块之间的间距,得到模板间距集合。
以模板间距集合为基准,利用预设插值算法对目标降级语料数据中的音频数据块之间的间距进行补偿和修正,得到对齐后的降级语料数据。
可选地,确定单元具体用于:
计算对齐后的降级语料数据和目标原始语料数据的残差,得到残差声谱数据。
分别对对齐后的降级语料数据和目标原始语料数据进行短时傅里叶变换,得到降级频谱数据和原始频谱数据。
计算降级频谱数据和原始频谱数据的残差,得到残差频谱数据。
可选地,该装置还包括:
第二获取模块,用于获取第一训练样本集;其中,第一训练样本集包括:多组第一训练样本;每组第一训练样本包括:样本降级语料数据、样本降级语料数据对应的样本原始语料数据和样本降级语料数据对应的主观质量评分。
第二计算模块,用于计算目标训练样本中样本降级语料数据和样本原始语料数据之间的样本残差声谱数据和样本残差频谱数据;其中,目标训练样本表示多组第一训练样本中的任一组训练样本。
第一训练模块,用于基于多组样本残差声谱数据、样本残差频谱数据和相应的主观质量评分对初始客观量表模型进行训练,得到目标客观量表模型。
可选地,第二获取模块还用于:
获取第二训练样本集;其中,第二训练样本集中包括:多组第二训练样本;每组第二训练样本包括:预设降级语料数据对应的样本脑电信息和预设降级语料数据对应的人工打分。
基于第二训练样本集对初始主观质量评分模型进行训练,得到目标主观质量评分模型。
获取第一训练样本集中每个样本降级语料数据对应的脑电信息。
利用目标主观质量评分模型对脑电信息进行处理,得到样本降级语料数据对应的主观质量评分。
可选地,该装置还包括:
修正模块,用于利用预设分段函数对质量评估量化分值进行分段修正,得到修正后的质量评估量化分值。
实施例三
参见图4,本发明实施例提供了一种电子设备,该电子设备包括:处理器60,存储器61,总线62和通信接口63,所述处理器60、通信接口63和存储器61通过总线62连接;处理器60用于执行存储器61中存储的可执行模块,例如计算机程序。
其中,存储器61可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口63(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。
总线62可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器61用于存储程序,所述处理器60在接收到执行指令后,执行所述程序,前述本发明实施例任一实施例揭示的过程定义的装置所执行的方法可以应用于处理器60中,或者由处理器60实现。
处理器60可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器60中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器60可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital SignalProcessing,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器61,处理器60读取存储器61中的信息,结合其硬件完成上述方法的步骤。
本发明实施例所提供的一种语音质量评价方法、装置和电子设备的计算机程序产品,包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
此外,术语“水平”、“竖直”、“悬垂”等术语并不表示要求部件绝对水平或悬垂,而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平,并不是表示该结构一定要完全水平,而是可以稍微倾斜。
在本发明的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种语音质量评价方法,其特征在于,包括:
获取待评价的降级语料数据和所述降级语料数据对应的原始语料数据;
计算所述降级语料数据和所述原始语料数据之间的残差声谱数据和残差频谱数据;
利用目标客观量表模型对所述残差声谱数据和所述残差频谱数据进行处理,得到所述待评价的降级语料数据对应的质量评估量化分值;其中,所述目标客观量表模型的训练数据中包括样本降级语料数据对应的主观质量评分。
2.根据权利要求1所述的语音质量评价方法,其特征在于,计算所述降级语料数据和所述原始语料数据之间的残差声谱数据和残差频谱数据,包括:
利用预设带通滤波器对所述降级语料数据和所述原始语料数据进行滤波,得到滤波后的降级语料数据和滤波后的原始语料数据;
对所述滤波后的降级语料数据和所述滤波后的原始语料数据进行归一化处理,得到目标降级语料数据和目标原始语料数据;
基于所述目标原始语料数据对所述目标降级语料数据进行对齐处理,得到对齐后的降级语料数据;
基于所述对齐后的降级语料数据和所述目标原始语料数据,确定所述残差声谱数据和所述残差频谱数据。
3.根据权利要求2所述的语音质量评价方法,其特征在于,基于所述目标原始语料数据对所述目标降级语料数据进行对齐处理,得到对齐后的降级语料数据,包括:
获取所述目标原始语料数据中音频数据块之间的间距,得到模板间距集合;
以所述模板间距集合为基准,利用预设插值算法对所述目标降级语料数据中的音频数据块之间的间距进行补偿和修正,得到所述对齐后的降级语料数据。
4.根据权利要求2所述的语音质量评价方法,其特征在于,基于所述对齐后的降级语料数据和所述目标原始语料数据,确定所述残差声谱数据和所述残差频谱数据,包括:
计算所述对齐后的降级语料数据和所述目标原始语料数据的残差,得到所述残差声谱数据;
分别对所述对齐后的降级语料数据和所述目标原始语料数据进行短时傅里叶变换,得到降级频谱数据和原始频谱数据;
计算所述降级频谱数据和所述原始频谱数据的残差,得到所述残差频谱数据。
5.根据权利要求1所述的语音质量评价方法,其特征在于,所述方法还包括:
获取第一训练样本集;其中,所述第一训练样本集包括:多组第一训练样本;每组所述第一训练样本包括:样本降级语料数据、所述样本降级语料数据对应的样本原始语料数据和所述样本降级语料数据对应的主观质量评分;
计算目标训练样本中样本降级语料数据和样本原始语料数据之间的样本残差声谱数据和样本残差频谱数据;其中,所述目标训练样本表示所述多组第一训练样本中的任一组训练样本;
基于多组样本残差声谱数据、样本残差频谱数据和相应的主观质量评分对初始客观量表模型进行训练,得到所述目标客观量表模型。
6.根据权利要求5所述的语音质量评价方法,其特征在于,获取样本降级语料数据对应的主观质量评分包括:
获取第二训练样本集;其中,所述第二训练样本集中包括:多组第二训练样本;每组所述第二训练样本包括:预设降级语料数据对应的样本脑电信息和所述预设降级语料数据对应的人工打分;
基于所述第二训练样本集对初始主观质量评分模型进行训练,得到目标主观质量评分模型;
获取所述第一训练样本集中每个所述样本降级语料数据对应的脑电信息;
利用所述目标主观质量评分模型对所述脑电信息进行处理,得到所述样本降级语料数据对应的主观质量评分。
7.根据权利要求1所述的语音质量评价方法,其特征在于,所述方法还包括:
利用预设分段函数对所述质量评估量化分值进行分段修正,得到修正后的质量评估量化分值。
8.一种语音质量评价装置,其特征在于,包括:
第一获取模块,用于获取待评价的降级语料数据和所述降级语料数据对应的原始语料数据;
第一计算模块,用于计算所述降级语料数据和所述原始语料数据之间的残差声谱数据和残差频谱数据;
处理模块,用于利用目标客观量表模型对所述残差声谱数据和所述残差频谱数据进行处理,得到所述待评价的降级语料数据对应的质量评估量化分值;其中,所述目标客观量表模型的训练数据中包括样本降级语料数据对应的主观质量评分。
9.一种电子设备,包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至7中任一项所述的语音质量评价方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令被处理器执行时实现上述权利要求1至7中任一项所述的语音质量评价方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310430534.7A CN116168729A (zh) | 2023-04-21 | 2023-04-21 | 语音质量评价方法、装置和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310430534.7A CN116168729A (zh) | 2023-04-21 | 2023-04-21 | 语音质量评价方法、装置和电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116168729A true CN116168729A (zh) | 2023-05-26 |
Family
ID=86411735
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310430534.7A Pending CN116168729A (zh) | 2023-04-21 | 2023-04-21 | 语音质量评价方法、装置和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116168729A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117411969A (zh) * | 2023-12-14 | 2024-01-16 | 致讯科技(天津)有限公司 | 一种非标语料的用户感知评测方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022036862A (ja) * | 2020-08-24 | 2022-03-08 | 日本放送協会 | 音声客観評価装置及びそのプログラム |
CN114358089A (zh) * | 2022-01-24 | 2022-04-15 | 北京蕴岚科技有限公司 | 基于脑电的语音评估模型的训练方法、装置及电子设备 |
CN115101097A (zh) * | 2022-06-16 | 2022-09-23 | 杭州网易智企科技有限公司 | 语音信号处理方法、装置、电子设备及存储介质 |
CN115312036A (zh) * | 2022-06-29 | 2022-11-08 | 北京捷通数智科技有限公司 | 模型训练数据的筛选方法、装置、电子设备及存储介质 |
-
2023
- 2023-04-21 CN CN202310430534.7A patent/CN116168729A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022036862A (ja) * | 2020-08-24 | 2022-03-08 | 日本放送協会 | 音声客観評価装置及びそのプログラム |
CN114358089A (zh) * | 2022-01-24 | 2022-04-15 | 北京蕴岚科技有限公司 | 基于脑电的语音评估模型的训练方法、装置及电子设备 |
CN115101097A (zh) * | 2022-06-16 | 2022-09-23 | 杭州网易智企科技有限公司 | 语音信号处理方法、装置、电子设备及存储介质 |
CN115312036A (zh) * | 2022-06-29 | 2022-11-08 | 北京捷通数智科技有限公司 | 模型训练数据的筛选方法、装置、电子设备及存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117411969A (zh) * | 2023-12-14 | 2024-01-16 | 致讯科技(天津)有限公司 | 一种非标语料的用户感知评测方法及装置 |
CN117411969B (zh) * | 2023-12-14 | 2024-03-12 | 致讯科技(天津)有限公司 | 一种非标语料的用户感知评测方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10565970B2 (en) | Method and a system for decomposition of acoustic signal into sound objects, a sound object and its use | |
JP5507596B2 (ja) | スピーチ増強 | |
CN106935248A (zh) | 一种语音相似度检测方法及装置 | |
CN102881289B (zh) | 一种基于听觉感知特性的语音质量客观评价方法 | |
CN109473091B (zh) | 一种语音样本生成方法及装置 | |
EP3163574B1 (en) | Method and apparatus for detecting abnormal frame | |
WO2022012195A1 (zh) | 音频信号处理方法和相关装置 | |
EP2232488B1 (en) | Objective measurement of audio quality | |
CN106558308B (zh) | 一种互联网音频数据质量自动打分系统及方法 | |
CN116168729A (zh) | 语音质量评价方法、装置和电子设备 | |
CN108847253B (zh) | 车辆型号识别方法、装置、计算机设备及存储介质 | |
Ganchev et al. | Contemporary Methods for Speech Parameterization: Short-Time Cepstrum-Based Speech Features | |
CN111796790B (zh) | 一种音效调节方法、装置、可读存储介质及终端设备 | |
Morrison | Vowel inherent spectral change in forensic voice comparison | |
CN112348110B (zh) | 模型训练及图像处理方法、装置、电子设备和存储介质 | |
CN103730112A (zh) | 语音多信道模拟与采集方法 | |
CN104729677B (zh) | 一种非平稳噪声信号的时域数字计权方法 | |
US8583423B2 (en) | Method and arrangement for processing of speech quality estimate | |
CN107093432B (zh) | 一种用于通信系统的语音质量评价系统 | |
JP2006209123A (ja) | 高調波信号の基本周波数を求める方法 | |
JPS628800B2 (zh) | ||
CN114302301A (zh) | 频响校正方法及相关产品 | |
CN112687277B (zh) | 语音共振峰的确定方法、装置、电子设备及可读存储介质 | |
JP6849978B2 (ja) | 音声明瞭度計算方法、音声明瞭度計算装置及び音声明瞭度計算プログラム | |
CN112908344A (zh) | 一种鸟鸣声智能识别方法、装置、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20230526 |