CN115457980A - 一种无参考语音的自动化语音质量评估方法及系统 - Google Patents
一种无参考语音的自动化语音质量评估方法及系统 Download PDFInfo
- Publication number
- CN115457980A CN115457980A CN202211144904.2A CN202211144904A CN115457980A CN 115457980 A CN115457980 A CN 115457980A CN 202211144904 A CN202211144904 A CN 202211144904A CN 115457980 A CN115457980 A CN 115457980A
- Authority
- CN
- China
- Prior art keywords
- voice
- network
- acoustic
- module
- detected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000013441 quality evaluation Methods 0.000 title claims abstract description 33
- 238000010606 normalization Methods 0.000 claims abstract description 38
- 238000001303 quality assessment method Methods 0.000 claims abstract description 21
- 238000001228 spectrum Methods 0.000 claims abstract description 21
- 238000011156 evaluation Methods 0.000 claims abstract description 16
- 238000013507 mapping Methods 0.000 claims abstract description 12
- 238000012545 processing Methods 0.000 claims description 34
- 238000013528 artificial neural network Methods 0.000 claims description 26
- 230000003595 spectral effect Effects 0.000 claims description 24
- 238000000605 extraction Methods 0.000 claims description 21
- 238000011176 pooling Methods 0.000 claims description 19
- 230000000306 recurrent effect Effects 0.000 claims description 13
- 230000004913 activation Effects 0.000 claims description 9
- 125000004122 cyclic group Chemical group 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 description 9
- 230000006872 improvement Effects 0.000 description 8
- 230000015572 biosynthetic process Effects 0.000 description 7
- 238000003786 synthesis reaction Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 210000005069 ears Anatomy 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000013077 scoring method Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Quality & Reliability (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种无参考语音的自动化语音质量评估方法及系统,所述方法包括:获取待检测语音的频谱特征并进行编码提取出相应的声学编码特征;对声学编码特征的时间依赖关系进行建模,提取语音声学特征;利用所提取的语音声学特征对待检测语音的平均意见分数进行预测,并通过反归一化方法将预测的归一化结果映射到平均意见分数的取值空间,得到待检测语音的最终质量评估结果。本发明利用深度学习模型模拟人耳对音频语音质量的听感评价,对待检测语音的平均意见分数进行预测,相较于传统语音听感评价只能通过人为主观打分,该方法和系统能够大幅降低语音信号听感评价的人力成本和时间成本,还能够提高预测结果的准确性。
Description
技术领域
本发明涉及音频和智能计算技术领域,具体的说,是一种无参考语音的自动化语音质量评估方法及系统。
背景技术
随着数字通信技术和深度学习技术的发展,语音处理技术的复杂度越来越高,如何评价语音质量,变得越来越重要。传统的语音质量评估方法分为客观评价和主观打分。客观评价,例如:客观语音质量评估(Perceptual evaluation of speech quality,简称为PESQ)和客观语音质量分析(Perceptual Objective Listening Quality Analysis,简称为POLQA)均是基于参考语音的语音质量评估方法,其主要关注参考语音与处理语音之间的波形频谱差异,现有技术无法通过该方法准确反应人听感上的语音质量好坏。因此,需要进行主观打分,例如平均主观意见分(Mean Opinion Score,简称为MOS)作为最常用的评价手段评估语音质量。该方法无需参考语音,但需要大量人力成本和时间成本,且无法及时检测语音质量。对于语音合成,说话人语音提取,语音增强等语音处理技术,平均主观意见分用于评估模型的真实性能是最有效且必要的评价手段。但是,原有平均主观意见评分方法,需要人工手动对每条语音逐条进行评分,导致了该方法存在严重的滞后性,因而无法在语音处理的全流程中,作为语音质量的监控手段对语音处理的各阶段进行实时监控。
现有的自动化语音质量评估方法,又存在如下问题:需要参考语音,评估准确度不高,现有基于神经网络的自动化语音质量评估方法并未对输出结果的范围进行规定,而平均主观意见分的设计标准中取值范围是1-5,现有模型在得到模型结果大于5和小于1的值直接取为5和1,无法在实际结果中反应模型在相同截止分值1或5上语音之间的差异,因此降低了预测结果的准确性。
发明内容
本发明的目的在于提供一种无参考语音的自动化语音质量评估方法及系统,用于解决现有技术中现有语音质量评估方法需要参考语音、以及通过非人工方式预测结果不准确的技术问题。
本发明通过下述技术方案解决上述问题:
一种无参考语音的自动化语音质量评估方法,具包括以下步骤:
步骤S1.获取待检测语音数据;
步骤S2.提取待检测语音的频谱特征;
步骤S3.对待检测语音的频谱特征进行编码,并提取出相应的声学编码特征;
步骤S4.将声学编码特征送入多路径序列建模网络,对声学编码特征的时间依赖关系进行建模,提取语音声学特征;
步骤S5.利用所提取的语音声学特征对待检测语音的平均意见分数进行预测,并通过反归一化方法将预测的归一化结果映射到平均意见分数的取值空间,得到待检测语音的最终质量评估结果。
作为本发明的进一步改进,所述步骤S2中,提取梅尔谱特征作为待检测语音的频谱特征。
作为本发明的进一步改进,所述步骤S3中,利用声学编码器模块对待检测语音的频谱特征进行编码,声学编码器模块由一维卷积网络和残差网络组成。
作为本发明的进一步改进,所述声学编码器模块的一维卷积网络输入维度为32,输出维度为128;
残差网络由三个残差网络块组成,三个残差网络块的参数分别为:第一个残差网络块输入维度为128,输出维度为128;第二个残差网络块输入维度为128,输出维度为256;第三个残差网络块输入维度为256,输出维度为256;每个残差网络块依次由一维卷积层、批正则化网络层、PReLU激活层、一维卷积层、批正则化网络层组成第一个数据路径,1×1的卷积网络作为残差路径,第一个数据路径和残差路径两者的结果相加,经过PReLU激活层得到编码结果。
作为本发明的进一步改进,所述多路径序列建模网络为双路径循环神经网络、基于门控的双路径循环神经网络或双路径Transformer。
作为本发明的进一步改进,所述多路径序列建模网络设置于序列建模模型内,所述序列建模模型依次包括层归一化、1×1的卷积网络、分割层以及4层堆叠的双路径循环神经网络,之后连接PReLU激活层、二维卷积网络层、重叠-相加层,然后分为两路数据,两路数据分别为1×1的卷积网络和Tanh激活函数作为门控信号,1×1的卷积网络和Sigmoid作为待处理信号,通过乘法完成对待处理信号的门控操作,再经过1×1的卷积网络处理得到语音声学特征。
作为本发明的进一步改进,每层所述双路径循环神经网络包括块内处理模块和块间处理模块,
其中,块内处理模块由一对块内循环神经网络组成,通过LSTM或GRU快速实现,块内循环神经网络将沿着输入三维张量的第二个维度进行处理,然后将块内循环神经网络的输出进行逐点相乘后与尺寸相同的输入三维张量进行拼接,再通过线性层映射得到与输入相同尺寸的张量后进行转置操作得到块内处理的输出三维张量;
块间处理模块与块内处理模块在结构上相同,块间处理模块的块间循环神经网络和拼接操作都沿着第三个维度进行处理。
作为本发明的进一步改进,所述步骤S5通过语音质量评估模型实现,所述语音质量评估模型包括注意力池化网络模型和反归一化模型,具体方法为:
所提取的语音声学特征通过注意力池化网络模型的网络部分后进行自注意力计算,将注意力权重与语音声学特征相乘后再经过全连接层,再将注意力池化网络模型归一化后得到的输出映射到平均意见分数的打分范围以内,通过反归一化模型得到待检测语音最终质量预测评估结果。
作为本发明的进一步改进,所述反归一化模块根据下式实现:
本发明还通过下述技术方案解决上述问题:
一种无参考语音的自动化语音质量评估系统,用于实现如上所述一种无参考语音的自动化语音质量评估方法,包括语音收集模块、声学特征提取模块和语音质量打分模块,其中,声学特征提取模块包括频谱特征提取模块、声学编码器模块和序列建模模块;
语音收集模块,用于对获取的待检测语音数据通过声学传感器收集于存储设备中;
声学特征提取模块,读取存储设备中的待检测语音数据,先后经过频谱特征提取模块提取待检测语音的频谱特征,声学编码器模块在频谱特征的基础上对待检测语音的的频谱特征进行编码并提取出相应的声学编码特征,序列建模模块根据声学编码特征对声学编码特征时间依赖关系进行建模,得到语音声学特征;
语音质量打分模块,包括注意力池化网络模块和反归一化模块,注意力池化网络模块对送入的待检测语音的语音声学特征进行平均意见分数预测,并将预测结果通过反归一化模块将预测的归一化预测结果映射到平均意见分数的取值空间,以得到待检测语音的最终质量评估结果。
本发明与现有技术相比,具有以下优点及有益效果:
本发明通过依次提取待检测语音数据的频谱特征以及声学编码特征,同时对声学编码特征送入多路径序列建模网络进行多路径序列建模,利用深度学习模型模拟人耳对音频语音质量的听感评价,对待检测语音的平均意见分数进行预测,相较于传统语音听感评价只能通过人为主观打分,该方法可以大幅降低语音信号听感评价的人力成本和时间成本,还能够提高预测结果的准确性;
且本发明提供了一种自动化的评价手段,在通信领域语音信号传输的信号失真评价,语音合成模型的合成语音质量评价,以及语音提取或语音分离模型和语音增强模型对语音处理结果的语音质量评估等多个语音信号处理领域均能发挥较大的作用,以提高预测结果的准确性。
附图说明
图1为本发明无参考语音的自动化语音质量评估方法流程图;
图2为本发明无参考语音的自动化语音质量评估模型训练流程图;
图3为本发明无参考语音的自动化语音质量评估模型运行流程图;
图4为本发明语音质量评估模型示意图;
图5为本发明多层堆叠的多路径循环神经网络模型示意图;
图6为本发明无参考语音的自动化语音质量评估系统示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:
结合附图1-5所示,一种无参考语音的自动化语音质量评估方法,具体包括以下步骤:
步骤S1.获取待检测语音数据;
步骤S2.提取待检测语音的频谱特征;
本实施例中,提取待检测语音的频谱特征,采用但不限于提取梅尔谱特征作为待检测语音的频谱特征,本实施例以语音数据提取梅尔谱特征作为频谱特征进行说明。
步骤S3.对待检测语音的频谱特征进行编码,并提取出相应的声学编码特征;
本实施例中,利用声学编码器模块对待检测语音的频谱特征进行编码,以提取编码后频谱特征的声学编码特征;
声学编码器模块由一维卷积网络和残差网络组成。
其中,一维卷积网络输入维度为32,输出维度为128;
残差网络由三个残差网络块组成,三个残差网络块的参数分别为:第一个残差网络块输入维度为128,输出维度为128;第二个残差网络块输入维度为128,输出维度为256;第三个残差网络块输入维度为256,输出维度为256;每个残差网络块依次由一维卷积层、批正则化网络层、PReLU激活层、一维卷积层、批正则化网络层组成第一个数据路径,1×1的卷积网络作为残差路径,第一个数据路径和残差路径两者的结果相加,经过PReLU激活层得到处理结果。
步骤S4.将声学编码特征输入多路径序列建模网络中,对声学编码特征的时间依赖关系进行建模,以提取语音声学特征;
本实施例中,多路径序列建模网络在序列建模模型内;
多路径序列建模网络,可采用但不限于双路径循环神经网络或基于门控的双路径循环神经网络或双路径Transformer,本实施例以基于门控的双路径循环神经网络作为序列建模模型的基础网络结构进行说明:
序列建模模型依次包括层归一化(Layer Norm)、1×1的卷积网络、分割层以及4层堆叠的双路径循环神经网络,之后连接PReLU激活层、二维卷积网络层、重叠-相加层(Overlap-Add),然后分为两路数据,两路数据分别为1×1的卷积网络和Tanh激活函数作为门控信号,1×1的卷积网络和Sigmoid作为待处理信号,通过乘法完成对待处理信号的门控操作,再经过1×1的卷积网络处理得到语音声学特征。
具体的,每层双路径循环神经网络依次包括了块内处理(Intra-chunkProcessing)模块和块间处理(Inter-chunk Processing)模块两个部分。其中,块内处理模块由一对块内循环神经网络(Intra-chunk RNN)组成,可以通过LSTM或GRU快速实现,块内循环神经网络将沿着输入三维张量(3-D Tensor)的第二个维度进行处理,之后将这对块内循环神经网络的输出进行逐点相乘后与尺寸相同的输入三维张量进行拼接,再通过线性层映射得到与输入相同尺寸的张量后进行转置操作得到块内处理的输出三维张量。块间处理模块与块内处理模块在结构上相同,区别在于块间循环神经网络(Inter-chunk RNN)和拼接操作都将沿着第三个维度进行处理。
步骤S5.利用得到的语音声学特征对待检测语音的平均意见分数(MOS)进行预测,并通过反归一化方法将预测的归一化结果映射到平均意见分数的取值空间,得到待检测语音的最终质量评估结果。
本实施例中,具体步骤为:
将得到的语音声学特征送入语音质量评估模型,语音质量评估模型利用提取到的语音声学特征对待检测语音的平均意见分数(MOS)进行初步预测;并将初步预测结果基于注意力的池化网络归一化处理;再通过反归一化方法将归一化处理结果映射到平均意见分数的取值空间,以得到待检测语音的最终质量评估结果。
语音质量评估模型如图4所示,包括注意力池化网络模型和反归一化模型。注意力池化网络模型的网络部分包括前馈网络层、掩模层和Softmax层,之后进行自注意力计算,将注意力权重与语音声学特征相乘后再经过全连接层;之后将注意力池化网络归一化后得到的输出映射到平均意见分数的打分范围以内,通过反归一化模型,得到语音最终质量预测评估结果。
需要说明的是,反归一化模型具体实现方法包括但不限于以下原理方法,其原理公式如下:
需要说明的是,本发明一种无参考语音的自动化语音质量评估方法,在实施步骤S1之前,还进行语音质量评估模型的训练,具体步骤包括:
A.获取训练语料数据集,包含每条语料的人工MOS打分结果;
获取带有人工打分的,已经过质量评价的训练语料数据集。这里数据集包括原始不同设备采集得到数据,经过信号处理后的数据,语音合成的数据等。
B.对训练语料数据集进行预处理,并提取语料数据的频谱特征;
对训练语料数据集中所有语料数据进行频谱特征提取,这里采用梅尔谱特征作为频谱特征,这里需要说明除了梅尔谱作为频谱特征外,例如wav2vector等方法均可作为语音质量评估模型的频谱特征。
C.将提取的频谱特征送入语音声学编码器提取语音声学编码特征信息;
将提取后的声学编码特征送入自动化的无参考语音质量评估模型。需要说明的是,这里采用但不限于均方误差作为损失函数在训练过程中对模型进行反向更新。
D.将语音声学编码信息送入序列建模模型,提取语音声学特征;
E.将提取出的声学特征送入语音质量评估模型,得到语音质量评估模型对语音的评估结果,将该结果与原训练集中人工打分结果进行对比,根据对比后的误差,更新语音质量评估模型和声学特征提取模型中的参数。最终得到训练后的语音声学特征提取模型和语音质量评估模型;
本实施例的一种无参考语音的自动化语音质量评估方法,可实时检测语音音频人耳听感质量打分,用以评估音频传输质量。同时可以对合成语音进行人耳听感评估,可便捷、低成本得到语音合成数据质量,可用于语音合成模型或语音增强模型、语音提取模型性能评价以及语音合成模型或语音增强、语音提取模型训练指导,极大的降低了人耳听感语音质量评估的人力成本和时间成本。同时反归一化模块将人为主观打分范围与深度神经网络模型的输出范围进行了可推导式映射,这不仅可将神经网络的打分输出范围限定在一定的取值范围,同时避免了模型输出因为结果大于或小于最大值或最小值导致的强制截幅而造成的打分估计不准确的问题。
实施例2:
一种无参考语音的自动化语音质量评估系统,包括语音收集模块、声学特征提取模块和语音质量打分模块,其中,声学特征提取模块包括频谱特征提取模块、声学编码器模块和序列建模模块,语音质量打分模块包括注意力池化网络模块和反归一化模块;
语音收集模块,用于对获取的待检测语音数据通过声学传感器收集于存储设备中;
声学特征提取模块,读取存储设备中的待检测语音数据,先后经过频谱特征提取模块提取待检测语音的频谱特征,声学编码器模块在频谱特征的基础上对待检测语音的的频谱特征进行编码并提取出相应的声学编码特征,序列建模模块根据声学编码特征对声学编码特征时间依赖关系进行建模,得到语音声学特征;
语音质量打分模块,包括注意力池化网络模块和反归一化模块,注意力池化网络模块对送入的待检测语音的语音声学特征进行平均意见分数预测,并将预测结果通过反归一化模块将预测的归一化预测结果映射到平均意见分数的取值空间,以得到待检测语音的最终质量评估结果,并将该评估结果进行反馈。
本发明的一种无参考语音的自动化语音质量评估系统,搭载具有自动化的无参考语音质量评估的装置系统,可实现对原有通信系统或者语音信号处理系统或者语音合成系统实时评价,可实时监控系统语音输出质量,以及检测系统在不同情况下语音处理结果的质量。同时也可作为语音采集时,语音数据筛选方法,可快速有效过滤高噪音等低质量语音数据收集,降低语音采集的成本。
尽管这里参照本发明的解释性实施例对本发明进行了描述,上述实施例仅为本发明较佳的实施方式,本发明的实施方式并不受上述实施例的限制,应该理解,本领域技术人员可以设计出很多其他的修改和实施方式,这些修改和实施方式将落在本申请公开的原则范围和精神之内。
Claims (10)
1.一种无参考语音的自动化语音质量评估方法,其特征在于,具包括以下步骤:
步骤S1.获取待检测语音数据;
步骤S2.提取待检测语音的频谱特征;
步骤S3.对待检测语音的频谱特征进行编码,并提取出相应的声学编码特征;
步骤S4.将声学编码特征送入多路径序列建模网络,对声学编码特征的时间依赖关系进行建模,提取语音声学特征;
步骤S5.利用所提取的语音声学特征对待检测语音的平均意见分数进行预测,并通过反归一化方法将预测的归一化结果映射到平均意见分数的取值空间,得到待检测语音的最终质量评估结果。
2.根据权利要求1所述一种无参考语音的自动化语音质量评估方法,其特征在于,所述步骤S2中,提取梅尔谱特征作为待检测语音的频谱特征。
3.根据权利要求1所述一种无参考语音的自动化语音质量评估方法,其特征在于,所述步骤S3中,利用声学编码器模块对待检测语音的频谱特征进行编码,声学编码器模块由一维卷积网络和残差网络组成。
4.根据权利要求3所述一种无参考语音的自动化语音质量评估方法,其特征在于,所述声学编码器模块的一维卷积网络输入维度为32,输出维度为128;
残差网络由三个残差网络块组成,三个残差网络块的参数分别为:第一个残差网络块输入维度为128,输出维度为128;第二个残差网络块输入维度为128,输出维度为256;第三个残差网络块输入维度为256,输出维度为256;每个残差网络块依次由一维卷积层、批正则化网络层、PReLU激活层、一维卷积层、批正则化网络层组成第一个数据路径,1×1的卷积网络作为残差路径,第一个数据路径和残差路径两者的结果相加,经过PReLU激活层得到编码结果。
5.根据权利要求1所述一种无参考语音的自动化语音质量评估方法,其特征在于,所述多路径序列建模网络为双路径循环神经网络、基于门控的双路径循环神经网络或双路径Transformer。
6.根据权利要求1所述一种无参考语音的自动化语音质量评估方法,其特征在于,所述多路径序列建模网络设置于序列建模模型内,所述序列建模模型依次包括层归一化、1×1的卷积网络、分割层以及4层堆叠的双路径循环神经网络,之后连接PReLU激活层、二维卷积网络层、重叠-相加层,然后分为两路数据,两路数据分别为1×1的卷积网络和Tanh激活函数作为门控信号,1×1的卷积网络和Sigmoid作为待处理信号,通过乘法完成对待处理信号的门控操作,再经过1×1的卷积网络处理得到语音声学特征。
7.根据权利要求6所述一种无参考语音的自动化语音质量评估方法,其特征在于,每层所述双路径循环神经网络包括块内处理模块和块间处理模块,
其中,块内处理模块由一对块内循环神经网络组成,通过LSTM或GRU快速实现,块内循环神经网络将沿着输入三维张量的第二个维度进行处理,然后将块内循环神经网络的输出进行逐点相乘后与尺寸相同的输入三维张量进行拼接,再通过线性层映射得到与输入相同尺寸的张量后进行转置操作得到块内处理的输出三维张量;
块间处理模块与块内处理模块在结构上相同,块间处理模块的块间循环神经网络和拼接操作都沿着第三个维度进行处理。
8.根据权利要求1所述一种无参考语音的自动化语音质量评估方法,其特征在于,所述步骤S5通过语音质量评估模型实现,所述语音质量评估模型包括注意力池化网络模型和反归一化模型,具体方法为:
所提取的语音声学特征通过注意力池化网络模型的网络部分后进行自注意力计算,将注意力权重与语音声学特征相乘后再经过全连接层,再将注意力池化网络模型归一化后得到的输出映射到平均意见分数的打分范围以内,通过反归一化模型得到待检测语音最终质量预测评估结果。
10.一种无参考语音的自动化语音质量评估系统,用于实现如权利要求1-9任一项所述一种无参考语音的自动化语音质量评估方法,其特征在于,包括语音收集模块、声学特征提取模块和语音质量打分模块,其中,声学特征提取模块包括频谱特征提取模块、声学编码器模块和序列建模模块;
语音收集模块,用于对获取的待检测语音数据通过声学传感器收集于存储设备中;
声学特征提取模块,读取存储设备中的待检测语音数据,先后经过频谱特征提取模块提取待检测语音的频谱特征,声学编码器模块在频谱特征的基础上对待检测语音的的频谱特征进行编码并提取出相应的声学编码特征,序列建模模块根据声学编码特征对声学编码特征时间依赖关系进行建模,得到语音声学特征;
语音质量打分模块,包括注意力池化网络模块和反归一化模块,注意力池化网络模块对送入的待检测语音的语音声学特征进行平均意见分数预测,并将预测结果通过反归一化模块将预测的归一化预测结果映射到平均意见分数的取值空间,以得到待检测语音的最终质量评估结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211144904.2A CN115457980A (zh) | 2022-09-20 | 2022-09-20 | 一种无参考语音的自动化语音质量评估方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211144904.2A CN115457980A (zh) | 2022-09-20 | 2022-09-20 | 一种无参考语音的自动化语音质量评估方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115457980A true CN115457980A (zh) | 2022-12-09 |
Family
ID=84304108
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211144904.2A Pending CN115457980A (zh) | 2022-09-20 | 2022-09-20 | 一种无参考语音的自动化语音质量评估方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115457980A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116092482A (zh) * | 2023-04-12 | 2023-05-09 | 中国民用航空飞行学院 | 一套基于自注意力的实时管制语音质量计量方法及系统 |
CN116504274A (zh) * | 2023-05-30 | 2023-07-28 | 南开大学 | 一种利用检索增强的非侵入式语音质量评测方法 |
CN116913311A (zh) * | 2023-09-14 | 2023-10-20 | 中国民用航空飞行学院 | 一种无参考民航管制语音质量智能评价方法 |
-
2022
- 2022-09-20 CN CN202211144904.2A patent/CN115457980A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116092482A (zh) * | 2023-04-12 | 2023-05-09 | 中国民用航空飞行学院 | 一套基于自注意力的实时管制语音质量计量方法及系统 |
CN116504274A (zh) * | 2023-05-30 | 2023-07-28 | 南开大学 | 一种利用检索增强的非侵入式语音质量评测方法 |
CN116913311A (zh) * | 2023-09-14 | 2023-10-20 | 中国民用航空飞行学院 | 一种无参考民航管制语音质量智能评价方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115457980A (zh) | 一种无参考语音的自动化语音质量评估方法及系统 | |
CN107358966B (zh) | 基于深度学习语音增强的无参考语音质量客观评估方法 | |
CN111680706B (zh) | 一种基于编码和解码结构的双通道输出轮廓检测方法 | |
CN112216271B (zh) | 一种基于卷积块注意机制的视听双模态语音识别方法 | |
CN110728656A (zh) | 基于元学习的无参考图像质量数据处理方法、智能终端 | |
CN111429938A (zh) | 一种单通道语音分离方法、装置及电子设备 | |
CN111048097B (zh) | 一种基于3d卷积的孪生网络声纹识别方法 | |
CN113488060B (zh) | 一种基于变分信息瓶颈的声纹识别方法及系统 | |
CN111275165A (zh) | 一种基于改进卷积神经网络的网络入侵检测方法 | |
CN115762533A (zh) | 一种鸟鸣声分类识别方法及装置 | |
CN112418175A (zh) | 基于域迁移的滚动轴承故障诊断方法、系统及存储介质 | |
CN114299995A (zh) | 一种用于情绪评估的语言情感识别方法 | |
CN114492755A (zh) | 基于知识蒸馏的目标检测模型压缩方法 | |
CN113112482A (zh) | 一种基于注意力机制网络的pcb缺陷检测方法 | |
CN113313682A (zh) | 基于时空多尺度分析的无参考视频质量评价方法 | |
CN109741733B (zh) | 基于一致性路由网络的语音音素识别方法 | |
CN116884435A (zh) | 一种基于音频提示学习的声音事件检测方法及装置 | |
CN116705059A (zh) | 一种音频半监督自动聚类方法、装置、设备及介质 | |
CN113782051B (zh) | 广播效果分类方法及系统、电子设备和存储介质 | |
CN114997210A (zh) | 一种基于深度学习的机器异响识别检测方法 | |
CN113571050A (zh) | 一种基于Attention与Bi-LSTM的语音抑郁状态识别方法 | |
CN112992157A (zh) | 一种基于残差和批量归一化的神经网络带噪声纹识别方法 | |
CN115457968B (zh) | 基于混合分辨率深度可分卷积网络的声纹确认方法 | |
CN115798497B (zh) | 一种时延估计系统及装置 | |
CN116230012B (zh) | 一种基于元数据对比学习预训练的两阶段异音检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |