CN116798434A - 一种基于人声特质的通信增强方法、系统及存储介质 - Google Patents
一种基于人声特质的通信增强方法、系统及存储介质 Download PDFInfo
- Publication number
- CN116798434A CN116798434A CN202310364648.6A CN202310364648A CN116798434A CN 116798434 A CN116798434 A CN 116798434A CN 202310364648 A CN202310364648 A CN 202310364648A CN 116798434 A CN116798434 A CN 116798434A
- Authority
- CN
- China
- Prior art keywords
- voice
- training
- voice data
- speaker
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004891 communication Methods 0.000 title claims abstract description 85
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000003860 storage Methods 0.000 title claims abstract description 12
- 238000012549 training Methods 0.000 claims abstract description 96
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 12
- 230000006870 function Effects 0.000 claims description 28
- 238000011156 evaluation Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 11
- 230000001755 vocal effect Effects 0.000 claims description 10
- 230000002708 enhancing effect Effects 0.000 claims description 8
- 238000001228 spectrum Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 6
- 230000003595 spectral effect Effects 0.000 claims description 3
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 abstract description 13
- 230000000694 effects Effects 0.000 abstract description 10
- 230000008569 process Effects 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 8
- 238000009826 distribution Methods 0.000 description 7
- 230000009467 reduction Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000005070 sampling Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 229920002430 Fibre-reinforced plastic Polymers 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000010339 dilation Effects 0.000 description 1
- 239000011151 fibre-reinforced plastic Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000011410 subtraction method Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种基于人声特质的通信增强方法、系统及存储介质,方法包括:根据说话人语音数据构建人声特质识别模型;根据标准语音数据和人声特质识别模型构建预训练模型;在预训练模型的基础上采用端对端时域多层膨胀卷积神经网络构建通信增强模型;语音数据通过通信增强模型处理后进行通信传输。本发明解决了现有基于通信增强算法的幅度相位不匹配、对说话人的通信增强效果差的问题。
Description
技术领域
本发明属于通信增强技术领域,特别是涉及一种基于人声特质的通信增强方法、系统及存储介质。
背景技术
随着移动通信技术的不断发展,通信场景由室内通信转变为户外多场景、复杂场景下的通信。在复杂的通信场景下,人声信息会被外界噪声、其他语音信息干扰,复杂的人声信息会导致现有的通信语音增强算法失效,通话质量下降。
传统的通信语音增强算法,如谱减法、维纳滤波法、短时幅度谱估计法、对数谱估计法等等,均依赖于背景噪声估计算法,噪声估计的准确性直接影响了增强后语音的质量。但是,主要的噪声估计算法,如最小值跟踪算法和时间递归平均算法,均无法快速跟踪瞬变的背景噪声。尤其是在低信噪比的多人声的babble噪声情况下,甚至会出现增强后的语音质量还不如原始含噪声语音的情况。因此,传统的语音增强算法具有幅度相位不匹配,无法感知噪声场景、说话人以及空间信息的问题。
为了解决现有基于通信增强算法的幅度相位不匹配、对说话人的通信增强效果差的问题,提出一种基于人声特质的通信增强方法、系统及存储介质。
发明内容
本发明实施例提出一种基于人声特质的通信增强方法、系统及存储介质,以至少解决相关技术中幅度相位不匹配和对特定说话人的通信增强效果差的问题。
根据本发明的一个实施例,提供了一种基于人声特质的通信增强方法,包括:
根据说话人语音数据构建人声特质识别模型;
根据标准语音数据和人声特质识别模型构建预训练模型;
在预训练模型的基础上采用端对端时域多层膨胀卷积神经网络构建通信增强模型;
语音数据通过通信增强模型处理后进行通信传输。
在一个示例性实施例中,所述根据标准语音数据和人声特质识别模型构建预训练模型,包括步骤:
获取标准纯净语音数据集;
根据标准纯净语音数据与人声特质的关系选取与人声特质匹配的标准纯净语音数据构成具有人声特质的预训练纯净语音数据集;
将具有人声特质的预训练纯净语音数据集与纯噪声按照预设的信噪比合成为具有人声特质的预训练带噪语音数据集;
将具有人声特质的预训练带噪语音数据集作为对抗网络生成器G的输入数据,将预训练纯净语音数据集作为生成器G的目标输出,输入到生成对抗网络;
以生成器G和判别器D博弈训练的方式得到具有人声特质的预训练模型。
在一个示例性实施例中,所述根据标准纯净语音数据与人声特质的关系选取与人声特质匹配的标准纯净语音数据构成具有人声特质的预训练纯净语音数据集,包括步骤:
根据标准纯净语音与人声说话速度的相似性计算语速匹配度;
根据标准纯净语音与人声顿挫间隔的一致性计算语句间隔匹配度;
根据标准纯净语音与人声声调参数的相似性计算声调匹配度;
根据标准纯净语音与人声音色特质的偏差程度计算音色匹配度;
根据语速匹配度和/或语句间隔匹配度和/或声调匹配度和/或音色匹配度计算标准纯净语音与人声特质的匹配值;
将匹配值大于预设的匹配阈值的标准纯净语音数据提取作为与人声特质匹配的标准纯净语音数据,构成具有人声特质的预训练纯净语音数据集。
在一个示例性实施例中,所述在预训练模型的基础上采用端对端时域多层膨胀卷积神经网络构建通信增强模型,包括步骤:
采集说话人的纯净语音数据和复杂通信场景下的说话人带噪语音数据;
将说话人带噪语音数据作为对抗网络生成器G的输入数据,将说话人的纯净语音数据作为生成器G的目标输出;
将数据输入预训练模型,以生成器G和判别器D博弈训练的方式得到通信增强模型。
在一个示例性实施例中,所述生成器G采用U-Net网络结构,在U-Net网络的中间层引入说话人的人声特质信息。
在一个示例性实施例中,所述判别器D采用多层膨胀卷积神经网络,使用连续的PESQ分数作为评价目标,其对抗训练的代价函数表示为其中,x表示带噪语音,y表示纯净语音,0≤Q′(G(x),y)≤1表示对生成器G得到G(x)的PESQ评价分数。
在一个示例性实施例中,所述生成器G的最终代价函数表示为ALG+BLF,其中,A、B为预设的线性调节参数;s表示归一化到0~1的PESQ分数,s为1则表示得到纯净语音;LF为引入额外的多尺度傅里叶变换域的代价函数,其中,表示估计得到的纯净语音,y表示作为参考的实际纯净语音,表示第i个尺度下的短时傅里叶变换代价函数,表示为其中为频谱聚类距离,为幅度距离。
在一个示例性实施例中,所述语音数据通过通信增强模型处理后进行通信传输包括通信双方的语音数据输入各自的通信增强模型后将处理后的语音数据通过信道进行通信传输、通信一方接收到语音数据后将语音数据输入通信增强模型处理后进行收听、说话方将语音数据输入通信增强模型处理后进行语音播报的任一项或多项组合。
根据本发明的又一个实施例,还提供了一种计算机可读存储介质,其存储用于电子数据交换的计算机程序,其中,所述计算机程序使计算机执行上述方法。
根据本发明的又一个实施例,还提供了一种基于人声特质的通信增强系统,包括:
语音设备;
处理器;
存储器;
以及
一个或多个程序,其中所述一个或多个程序被存储在存储器中,并且被配置成由所述处理器执行,所述程序使计算机执行上述方法。
本发明的基于人声特质的通信增强方法、系统及存储介质具有的优点是:
(1)本发明采用神经网络对说话人的人声特质信息进行提取和训练并将说话人的人声特质信息加入后续的对抗网络训练中,相比传统的仅区分不同说话人进行分类对抗训练的技术方案,可以对说话人进行定制化语音增强,在低信噪比情况下实现更好的特定人声增强以及降噪效果。
(2)本发明先采用根据标准语音数据结合说话人人声特质进行预训练,再对说话人的语音数据集进行适应性训练,相比传统的仅采用标准语音数据进行对抗训练的技术方案,有效提升了高噪声环境、多语音干扰环境下对说话人通话识别的准确度。
(3)本发明采用时域端到端语音增强算法,使用连续的PESQ分数作为评价目标,同时生成器网络训练引入额外的多尺度傅里叶变换域的代价函数作为辅助加速网络收敛,相比传统的频域语音增强算法的技术方案,可以在低信噪比情况实现幅度谱和相位谱的匹配,提升了时域端到端语音增强神经网络模型的泛化能力。
附图说明
图1是本发明实施例的一种基于人声特质的通信增强方法的流程图;
图2是本发明实施例的步骤S01的方法流程图;
图3是本发明实施例的人声特质识别模型的基本网络结构图;
图4是本发明实施例的步骤S02的方法流程图;
图5是本发明实施例的子步骤S022的方法流程图;
图6是本发明实施例的步骤S03的流程图;
图7是本发明实施例的一种基于人声特质的通信增强系统结构示意图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
本发明的基于人声特质的通信增强方法、系统及存储介质应用于复杂环境下的通话系统或助听器系统或其他语音对话识别系统中,对说话人自身的语音和听到的人声信息进行有效增强。本实施例中以通话系统为例,说话人(手持设备或其他终端设备)和通信另一方进行语音增强通信。本发明在助听器或其他需要辅助语音增强的系统中的应用方法类似,本实施例中不再一一赘述。
本发明实施例的一种基于人声特质的通信增强方法,流程图如图1所示,包括步骤:
步骤S01、根据说话人语音数据构建人声特质识别模型;
步骤S02、根据标准语音数据和人声特质识别模型构建预训练模型;
步骤S03、在预训练模型的基础上采用端对端时域多层膨胀卷积神经网络构建通信增强模型;
步骤S04、语音数据通过通信增强模型处理后进行通信传输。
在嘈杂的环境下,人耳对熟悉的声音具有更强的提取和分辨能力。基于此基本理论,本发明在时域语音增强模型中通过在预训练模型和通信增强模型中加入说话人的人声特质信息,使得通讯设备或助听器或其他智能设备在使用过程中对预先设置的说话人(可以预设说话人是自己或亲友或同事等常用联络人)的语音具有更好的增强效果和降噪效果,提升高噪声环境、多语音干扰环境下对说话人通话识别的准确度;同时本发明可以在低信噪比情况下实现幅度谱和相位谱的匹配,提升时域端到端语音增强神经网络模型的泛化能力。
在一个示例性实施例中,所述步骤S01、根据说话人语音数据构建人声特质识别模型,流程图如图2所示,包括步骤:
步骤S011、根据说话人的语音数据提取语音特征参数;所述语音特征参数包括对数功率谱参数、梅尔倒谱参数、线性预测参数的任一项或多项组合;
步骤S012、使用softmax的代价函数对语音特征参数进行人声特质训练;
步骤S013、使用三元组代价函数在人声特质训练的基础上进行调优训练;
步骤S014、训练完成后全连接层输出特征向量作为说话人的人声特质信息,即为人声特质识别模型;所述说话人的人声特质信息包括说话速度、顿挫间隔、声调参数、音色特征。
本实施例中,人声特质识别模型的基本网络结构图如图3所示,时域输入语音经过频域特征提取模块,此过程用于提取梅尔域倒谱,后接若干层的时延神经网络(time-delayneural networks,TDNN),再接统计池化层(Statistic pooling)以及全连接层(Denselayer)。此网络的训练分为两个步骤完成,首先使用softmax的代价函数预训练,再使用三元组代价函数Triplet loss。这种两步训练法的可以使得最终的Triplet loss更容易收敛。训练完成后,全连接层输出特征向量作为说话人的人声特质信息。
其中,三元组代价函数Triplet loss的定义如下:
L=max(d(a,p)-d(a,n)+margin,0) (1)
其中,a,p,n分别表示包括锚(Anchor)、正例(Positive)、负例(Negative);d(x,y)表示两个向量的度量,在此使用余弦相似度margin表示期望的分类边界距离,越大则不同的说话人特征向量越容易区分,但同时越难收敛。完成训练之后将网络权重固定,使用Dense layer的输出向量,用于提取特定说话人的人声特质信息。所述说话人的人声特质信息包括说话速度、顿挫间隔、声调参数、音色特征,多种人声特质信息可以通过一次或多次训练得到。
在一个示例性实施例中,所述步骤S02、根据标准语音数据和人声特质识别模型构建预训练模型,流程图如图4所示,包括步骤:
步骤S021、获取标准纯净语音数据集;
步骤S022、根据标准纯净语音数据与人声特质的关系选取与人声特质匹配的标准纯净语音数据构成具有人声特质的预训练纯净语音数据集;
步骤S023、将具有人声特质的预训练纯净语音数据集与纯噪声按照预设的信噪比合成为具有人声特质的预训练带噪语音数据集;
步骤S024、将具有人声特质的预训练带噪语音数据集作为对抗网络生成器G的输入数据,将预训练纯净语音数据集作为生成器G的目标输出,输入到生成对抗网络;
步骤S025、以生成器G和判别器D博弈训练的方式得到具有人声特质的预训练模型。
本实施例中,使用现有的公开标准语音数据集,例如全球最大的说话人识别数据集VoxCeleb和中文数据集CN-Celeb作为标准纯净语音数据集,该数据集包括庞大的说话人识别数据。
在一个示例性实施例中,所述子步骤S022、根据标准纯净语音数据与人声特质的关系选取与人声特质匹配的标准纯净语音数据构成具有人声特质的预训练纯净语音数据集,流程图如图5所示,包括步骤:
步骤S0221、根据标准纯净语音与人声说话速度的相似性计算语速匹配度;
步骤S0222、根据标准纯净语音与人声顿挫间隔的一致性计算语句间隔匹配度;
步骤S0223、根据标准纯净语音与人声声调参数的相似性计算声调匹配度;
步骤S0224、根据标准纯净语音与人声音色特质的偏差程度计算音色匹配度;
步骤S0225、根据语速匹配度和/或语句间隔匹配度和/或声调匹配度和/或音色匹配度计算标准纯净语音与人声特质的匹配值;
步骤S0226、将匹配值大于预设的匹配阈值的标准纯净语音数据提取作为与人声特质匹配的标准纯净语音数据,构成具有人声特质的预训练纯净语音数据集。
本实施例中,所述根据标准纯净语音与人声说话速度的相似性计算语速匹配度是根据标准纯净语音的单位词汇数量与人声说话的单位词汇数量的差值或差值比例与语速匹配度的负相关关系计算得到语速匹配度,语速匹配度用变量r表示。
所述根据标准纯净语音与人声顿挫间隔的一致性计算语句间隔匹配度是根据标准纯净语音中语句之间的平均间隔时间与人声顿挫间隔时间的差值或差值比例与语句间隔匹配度的负相关关系计算语句间隔匹配度,语句间隔匹配度用变量m表示。
所述根据标准纯净语音与人声声调参数的相似性计算声调匹配度是根据标准纯净语音的声调参数曲线与人声声调参数曲线的相似度(根据曲线相似度的评估方法得到)与声调匹配度的正相关关系计算声调匹配度,声调匹配度用变量u表示。
所述根据标准纯净语音与人声音色特质的偏差程度计算音色匹配度是根据标准纯净语音的音色参数值与人声音色参数值的差值或差值比例与音色匹配度的负相关关系计算音色匹配度,音色匹配度用变量h表示。
所述根据语速匹配度和/或语句间隔匹配度和/或声调匹配度和/或音色匹配度计算标准纯净语音与人声特质的匹配值是根据标准纯净语音与人声特质匹配值与语速匹配度和/或语句间隔匹配度和/或声调匹配度和/或音色匹配度的正相关关系计算得到,标准纯净语音与人声特质匹配值用变量e表示。
表A中A1~A15表示计算标准纯净语音与人声特质匹配值的不同实施方式,其中表A中涉及的语速匹配度r、语句间隔匹配度m、声调匹配度u、音色匹配度h采用上述实施方式得到。
表A计算标准纯净语音与人声特质匹配值的不同实施方式
预先根据通信环境复杂程度、干扰人声数量、噪声强度等设定匹配阈值,当前阈值为0.6,根据表A中任一项计算得到标准纯净语音与人声特质的匹配值e>0.6,则选择该标准纯净语音作为与人声特质匹配的标准纯净语音数据。提取标准纯净语音数据集中与人声特质匹配的语音数据,构成具有人声特质的预训练纯净语音数据集。
在步骤S023中,在噪声数据库(例如DEMAND噪声数据库)中根据不同通信场景和干扰条件选择不同的噪声数据作为纯噪声,将具有人声特质的预训练纯净语音数据集与纯噪声进行合成,根据预设的信噪比(根据通信场景和说话人设定的增强等级进行设定)生成大量的具有人声特质的预训练带噪语音数据集。
在步骤S024中,将具有人声特质的预训练带噪语音数据集作为对抗网络生成器G的输入数据,将预训练纯净语音数据集作为生成器G的目标输出,输入到生成对抗网络。
在步骤S025中,以生成器G和判别器D博弈训练的方式得到具有人声特质的预训练模型。判别器D以预训练纯净语音数据集作为真例数据,以生成器G生成的语音作为假例数据,其训练目标是最大化判决分类精度,通过上述训练过程得到具有人声特质的预训练模型。
在一个示例性实施例中,所述步骤S03、在预训练模型的基础上采用端对端时域多层膨胀卷积神经网络构建通信增强模型,流程图如图6所示,包括步骤:
步骤S031、采集说话人的纯净语音数据和复杂通信场景下的说话人带噪语音数据;
步骤S032、将说话人带噪语音数据作为对抗网络生成器G的输入数据,将说话人的纯净语音数据作为生成器G的目标输出;
步骤S033、将数据输入预训练模型,以生成器G和判别器D博弈训练的方式得到通信增强模型。
在一个示例性实施例中,所述生成器G采用U-Net网络结构,在U-Net网络的中间层引入说话人的人声特质信息;所述判别器D采用多层膨胀卷积神经网络,使用连续的PESQ分数作为评价目标,其对抗训练的代价函数表示为其中,x表示带噪语音,y表示纯净语音,0≤Q′(G(x),y)≤1表示对生成器G得到G(x)的PESQ评价分数。
本实施例中,判别器D为评价指标判别器网络,直接对输入的语音进行质量评分,分值为0至1之间的数值,按评分准则对输入语音进行分值计算,纯净语音计算的分值为1。优选的,判别器使用PESQ分数作为评判准则。感知语音质量评分(PESQ,PercptualEvaluation Of Speech Quality)用于衡量语音质量,是语音增强任务的重要优化目标。
生成器G采用U-Net网络结构,也即,采用U-Net结构的神经网络实现种时域端到端语音增强算法,并融合说话人信息。U-Net网络的输入和输出均为时域语音信号,其输入为带噪的语音信号,输出为纯净语音信号。在生成对抗神经网络训练框架下,后接一个评价指标判别器网络,该判别器直接使用PESQ分数作为评判准则,最终生成器G生成语音具有高PESQ分值,有效提高语音增强质量。
说话人的人声特质信息在U-Net网络的中间层引入。U-Net网络结构为典型的编码器——解码器结构,编码器从输入层逐层下采样得到原始数据的隐空间表示,解码器从该隐空间逐层上采样得到原始数据空间的重构数据。U-Net网络结构在编码器-解码器的基础上,将编码器中每层下采样的输出通过快速连接的方式接入解码器的输入,这种快速连接方式的优点在于:(1)网络结构中的编码器网络和解码器的层数可以更多,从而使得网络模型具有更强的学习能力;(2)有利于网络的训练过程的前向传播和后向传播,从而使得网络训练过程更容易收敛。输入为带噪声语音,经过若干层的一维卷积神经网络进行下采样,得到中间层的表示C,从该隐空间的表示C经过逐层一维卷积神经网络的上采样得到原始空间的语音信号,即时域的语音信号。此外,在隐空间引入说话人的人声特质信息,用于辅助解码器网络中的一维卷积上采样网络,得到更好的说话人语音增强效果。
在上述U-Net结构时域端到端语音增强网络的基础上,采用生成对抗网络的训练方法,用于进一步提升降噪效果。优化判别器网络的参数使得其判决分类精度最大化,以及优化生成器网络的参数使得其以假乱真欺骗判别器的能力最大化,这两个过程是在博弈训练中交替完成的。整个博弈训练过程的代价函数用V(D,G)表示,其同时包含判别器D和生成器G两部分。网络训练过程中优化的公式表示为:
minGmaxDV(D,G)
式中,pdata(x)表示真实训练数据的分布,通常无法准确给出pdata(x)的数学表达式;pz(z)表示隐参数z的分布,其为标准分布,比如高斯分布;生成器G以z为参数生成数据x=G(z),假设其服从分布pG(x),GAN的训练目标就是生成器G生成数据的分布pG(x)尽可能接近真实数据分布pdata(x)。说话人的人声特质信息在U-Net结构的中间层引入,作为辅助的条件信息训练生成器网络G,即多条件生成对抗网络。
评价指标判别器网络采用多层膨胀卷积神网络实现,其直接使用连续的PESQ分数作为评价目标,而不是使用真假二值判别其对抗训练的代价函数可以表示为:
式中,x表示带噪语音,y表示纯净语音,0≤Q′(G(x),y)≤1表示对生成器G得到G(x)的PESQ评价分数。
由上述实施方式可知,本实施例中评价指标判别器网络采用多层膨胀卷积神网络实现,其直接使用连续的PESQ分数作为评价目标,而不是使用真假二值判别,可以有效提高判别的精准度和适应性。同时将人声特质信息引入U-Net结构中,增强对预设人声的识别准确度和降噪效果。
现有技术中,时域语音增强算法的训练目标通常使用最小均方误差作为代价函数,该代价函数虽然能在信号层面得到优化后的结果,但语音具有结构化感知信息,使用额外的代价函数能进一步提高语音质量。
在另一种优选实施方式中,为了进一步提高语音质量,引入额外的代价函数进一步提高语音质量,所述生成器G的最终代价函数表示为:
ALG+BLF (4)
其中,A、B为线性调节参数,LG为生成器对抗训练的代价函数,公式为:
式中,s表示归一化到0~1的PESQ分数,s为1则表示得到纯净语音。
同时,引入额外的多尺度傅里叶变换域的代价函数LF作为辅助,用于加速网络收敛,并在一定程度上增加网络的鲁棒性。公式为:
其中,表示估计得到的纯净语音,y表示作为参考的实际纯净语音,表示第i个尺度下的短时傅里叶变换代价函数,其由频谱聚类距离Lsc和幅度距离Lmag组成:
采用上述基于生成对抗网络的训练方法,引入额外的多尺度傅里叶变换域的代价函数作为辅助,加速网络收敛,并在一定程度上增加网络的鲁棒性,解决了现有技术只使用最小均方误差训练神经网络导致语音质量不高的问题。
在一个示例性实施例中,所述语音数据通过通信增强模型处理后进行通信传输包括通信双方的语音数据输入各自的通信增强模型后将处理后的语音数据通过信道进行通信传输、通信一方接收到语音数据后将语音数据输入通信增强模型处理后进行收听、说话方将语音数据输入通信增强模型处理后进行语音播报的任一项或多项组合。本实施例中,针对不同的应用场景,语音增强模型具有不同的用法,例如当应用于实时语音增强通话时,通话双方建立通信信道,双方在通话过程中将双方将语音数据输入到各自的语音增强模型,随着语音增强模型对数据训练的结果,双方的通话质量得到提升,完成语音增强通话;当应用于助听器语音增强和降噪时,助听器将接收到的说话人(自身或其他人)语音数据输入语音增强模型进行训练,训练得到具有说话人人声特质的增强语音,将其转化为声音信号后供助听器使用者收听;当应用于智能设备语音识别场景时,说话人的语音数据及智能设备语音分别经过语音增强模型训练后,输出增强后的语音数据,说话人听到的智能设备语音更清晰,智能设备对说话人语音的反应速度和准确度提升。在上述使用场景中,由于语音增强模型加入了预训练的人声特质信息(收听人预设的常用联系人或熟悉的人群),对收听人的语音增强效果明显强于现有的语音增强算法。
本发明实施例的一种计算机可读存储介质,其存储用于电子数据交换的计算机程序,其中,所述计算机程序使计算机执行上述任一实施例的方法。本实施例中,可读存储介质包括但不限于移动终端设备、助听器、智能降噪耳机设备、智能语音识别设备、智能家居设备等设备芯片的存储器或云端存储器。
本发明实施例的一种基于人声特质的通信增强系统,结构示意图如图7所示,包括:
语音设备;
存储器;
处理器;
以及
一个或多个程序,其中所述一个或多个程序被存储在存储器中,并且被配置成由所述处理器执行,所述程序使计算机执行上述任一实施例的方法。本实施例中,语音设备包括但不限于移动终端设备、助听器、智能降噪耳机设备、智能语音识别设备、智能家居设备等。
当然,本技术领域中的普通技术人员应当认识到,以上实施例仅是用来说明本发明的,而并非作为对本发明的限定,只要在本发明的范围内,对以上实施例的变化、变型都将落入本发明的保护范围。
Claims (10)
1.一种基于人声特质的通信增强方法,其特征在于,包括:
根据说话人语音数据构建人声特质识别模型;
根据标准语音数据和人声特质识别模型构建预训练模型;
在预训练模型的基础上采用端对端时域多层膨胀卷积神经网络构建通信增强模型;
语音数据通过通信增强模型处理后进行通信传输。
2.根据权利要求1所述的基于人声特质的通信增强方法,其特征在于,所述根据说话人语音数据构建人声特质识别模型,包括步骤:
根据说话人的语音数据提取语音特征参数;所述语音特征参数包括对数功率谱参数、梅尔倒谱参数、线性预测参数的任一项或多项组合;
使用softmax的代价函数对语音特征参数进行人声特质训练;
使用三元组代价函数在人声特质训练的基础上进行调优训练;
训练完成后全连接层输出特征向量作为说话人的人声特质信息,即为人声特质识别模型;所述说话人的人声特质信息包括说话速度、顿挫间隔、声调参数、音色特征。
3.根据权利要求2所述的基于人声特质的通信增强方法,其特征在于,根据标准语音数据和人声特质识别模型构建预训练模型,包括步骤:
获取标准纯净语音数据集;
根据标准纯净语音数据与人声特质的关系选取与人声特质匹配的标准纯净语音数据构成具有人声特质的预训练纯净语音数据集;
将具有人声特质的预训练纯净语音数据集与纯噪声按照预设的信噪比合成为具有人声特质的预训练带噪语音数据集;
将具有人声特质的预训练带噪语音数据集作为对抗网络生成器G的输入数据,将预训练纯净语音数据集作为生成器G的目标输出,输入到生成对抗网络;
以生成器G和判别器D博弈训练的方式得到具有人声特质的预训练模型。
4.根据权利要求3所述的基于人声特质的通信增强方法,其特征在于,所述根据标准纯净语音数据与人声特质的关系选取与人声特质匹配的标准纯净语音数据构成具有人声特质的预训练纯净语音数据集,包括步骤:
根据标准纯净语音与人声说话速度的相似性计算语速匹配度;
根据标准纯净语音与人声顿挫间隔的一致性计算语句间隔匹配度;
根据标准纯净语音与人声声调参数的相似性计算声调匹配度;
根据标准纯净语音与人声音色特质的偏差程度计算音色匹配度;
根据语速匹配度和/或语句间隔匹配度和/或声调匹配度和/或音色匹配度计算标准纯净语音与人声特质的匹配值;
将匹配值大于预设的匹配阈值的标准纯净语音数据提取作为与人声特质匹配的标准纯净语音数据,构成具有人声特质的预训练纯净语音数据集。
5.根据权利要求1所述的基于人声特质的通信增强方法,其特征在于,所述在预训练模型的基础上采用端对端时域多层膨胀卷积神经网络构建通信增强模型,包括步骤:
采集说话人的纯净语音数据和复杂通信场景下的说话人带噪语音数据;
将说话人带噪语音数据作为对抗网络生成器G的输入数据,将说话人的纯净语音数据作为生成器G的目标输出;
将数据输入预训练模型,以生成器G和判别器D博弈训练的方式得到通信增强模型。
6.根据权利要求5述的基于人声特质的通信增强方法,其特征在于,所述生成器G采用U-Net网络结构,在U-Net网络的中间层引入说话人的人声特质信息;所述判别器D采用多层膨胀卷积神经网络,使用连续的PESQ分数作为评价目标,其对抗训练的代价函数表示为其中,x表示带噪语音,y表示纯净语音,0≤Q′(G(x),y)≤1表示对生成器G得到G(x)的PESQ评价分数。
7.根据权利要求5述的基于人声特质的通信增强方法,其特征在于,所述生成器G的最终代价函数表示为ALG+BLF,其中,A、B为预设的线性调节参数;s表示归一化到0~1的PESQ分数,s为1则表示得到纯净语音;LF为引入额外的多尺度傅里叶变换域的代价函数,其中,表示估计得到的纯净语音,y表示作为参考的实际纯净语音,表示第i个尺度下的短时傅里叶变换代价函数,表示为其中为频谱聚类距离,为幅度距离。
8.根据权利要求1所述的基于人声特质的通信增强方法,其特征在于,所述语音数据通过通信增强模型处理后进行通信传输包括通信双方的语音数据输入各自的通信增强模型后将处理后的语音数据通过信道进行通信传输、通信一方接收到语音数据后将语音数据输入通信增强模型处理后进行收听、说话方将语音数据输入通信增强模型处理后进行语音播报的任一项或多项组合。
9.一种计算机可读存储介质,其存储用于电子数据交换的计算机程序,其中,所述计算机程序使计算机执行如权利要求1-8任一项所述的方法。
10.一种基于人声特质的通信增强系统,其特征在于,包括:
语音设备;
处理器;
存储器;
以及
一个或多个程序,其中所述一个或多个程序被存储在存储器中,并且被配置成由所述处理器执行,所述程序使计算机执行如权利要求1-8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310364648.6A CN116798434A (zh) | 2023-04-07 | 2023-04-07 | 一种基于人声特质的通信增强方法、系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310364648.6A CN116798434A (zh) | 2023-04-07 | 2023-04-07 | 一种基于人声特质的通信增强方法、系统及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116798434A true CN116798434A (zh) | 2023-09-22 |
Family
ID=88045369
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310364648.6A Pending CN116798434A (zh) | 2023-04-07 | 2023-04-07 | 一种基于人声特质的通信增强方法、系统及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116798434A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118155623A (zh) * | 2024-05-10 | 2024-06-07 | 无锡康斯泰科技股份有限公司 | 基于人工智能的语音识别方法 |
-
2023
- 2023-04-07 CN CN202310364648.6A patent/CN116798434A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118155623A (zh) * | 2024-05-10 | 2024-06-07 | 无锡康斯泰科技股份有限公司 | 基于人工智能的语音识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11948552B2 (en) | Speech processing method, apparatus, electronic device, and computer-readable storage medium | |
CN111128197B (zh) | 基于声纹特征与生成对抗学习的多说话人语音分离方法 | |
US20180358003A1 (en) | Methods and apparatus for improving speech communication and speech interface quality using neural networks | |
CN111179911B (zh) | 目标语音提取方法、装置、设备、介质和联合训练方法 | |
CN108447495B (zh) | 一种基于综合特征集的深度学习语音增强方法 | |
CN111916101B (zh) | 一种融合骨振动传感器和双麦克风信号的深度学习降噪方法及系统 | |
CN110085245B (zh) | 一种基于声学特征转换的语音清晰度增强方法 | |
CN105321525B (zh) | 一种降低voip通信资源开销的系统和方法 | |
CN109410976A (zh) | 双耳助听器中基于双耳声源定位和深度学习的语音增强方法 | |
CN109036470B (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
JP3189598B2 (ja) | 信号合成方法および信号合成装置 | |
CN114338623B (zh) | 音频的处理方法、装置、设备及介质 | |
CN111899750B (zh) | 联合耳蜗语音特征和跳变深层神经网络的语音增强算法 | |
CN113870893B (zh) | 一种多通道双说话人分离方法及系统 | |
Cai et al. | Multi-Channel Training for End-to-End Speaker Recognition Under Reverberant and Noisy Environment. | |
CN114974280A (zh) | 音频降噪模型的训练方法、音频降噪的方法及装置 | |
CN116798434A (zh) | 一种基于人声特质的通信增强方法、系统及存储介质 | |
Lin et al. | Speech enhancement using forked generative adversarial networks with spectral subtraction | |
CN116959467A (zh) | 一种融合噪声场景的通信增强方法、系统及存储介质 | |
CN113707136B (zh) | 服务型机器人语音交互的音视频混合语音前端处理方法 | |
CN117238311B (zh) | 一种多声源及噪声环境中的语音分离增强方法及系统 | |
CN113823303A (zh) | 音频降噪方法、装置及计算机可读存储介质 | |
CN110958417A (zh) | 一种基于语音线索的视频通话类视频去除压缩噪声的方法 | |
CN112731291B (zh) | 协同双通道时频掩码估计任务学习的双耳声源定位方法及系统 | |
CN115410594A (zh) | 语音增强方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |