CN111048116A - 一种数据处理方法、装置及电子设备 - Google Patents

一种数据处理方法、装置及电子设备 Download PDF

Info

Publication number
CN111048116A
CN111048116A CN201911337330.9A CN201911337330A CN111048116A CN 111048116 A CN111048116 A CN 111048116A CN 201911337330 A CN201911337330 A CN 201911337330A CN 111048116 A CN111048116 A CN 111048116A
Authority
CN
China
Prior art keywords
network
speech
actual reference
judger
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911337330.9A
Other languages
English (en)
Other versions
CN111048116B (zh
Inventor
杨森
刘鹏
张洪亮
李博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Du Xiaoman Technology Beijing Co Ltd
Original Assignee
Shanghai Youyang New Media Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Youyang New Media Information Technology Co ltd filed Critical Shanghai Youyang New Media Information Technology Co ltd
Priority to CN201911337330.9A priority Critical patent/CN111048116B/zh
Publication of CN111048116A publication Critical patent/CN111048116A/zh
Application granted granted Critical
Publication of CN111048116B publication Critical patent/CN111048116B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明提供了一种数据处理方法、装置及电子设备,获取同一文本对应的合成语音和实际参考语音,将合成语音和实际参考语音分别输入至判断器网络,得到判断器网络的网络层输出的合成语音的特征矩阵和实际参考语音的特征矩阵;判断器网络用于提取合成语音和实际参考语音的特征,基于判断器网络的网络层输出的合成语音的特征矩阵和实际参考语音的特征矩阵,计算合成语音相对于实际参考语音的内容损失和语态损失。通过本发明,可以了解客服机器人语音合成结果与真实语音之间的差别,进而对优化客服机器人的语音合成技术起到数据指导作用。

Description

一种数据处理方法、装置及电子设备
技术领域
本发明涉及语音处理领域,更具体的说,涉及一种数据处理方法、装置及电子设备。
背景技术
随着互联网、移动互联网的快速发展,我国中小企业的数量快速增长。伴随着国内中小企业数量的快速发展,人工客服市场需求呈多元化、指数级增长。由于客服人员存在招人难、培训成本高、流动性大、不易管理等问题,而客服机器人可以全天24小时工作,还能通过实时数据反馈不断学习,企业对于使用客服机器人取代一部分人工客服存在很大需求。
客服机器人是在大规模知识处理基础上发展起来的一项面向具体行业应用的综合性技术,包括大规模知识处理技术、语音识别技术、语音合成技术、自然语言理解等技术。语音合成技术作为其中重要的一环,它可以将任意文字信息转化为标准流畅的语音朗读出来。亟需了解客服机器人语音合成结果与真实语音之间的差别,才能进一步优化客服机器人的语音合成技术。
发明内容
有鉴于此,本发明提供一种数据处理方法、装置及电子设备,以解决亟需了解客服机器人语音合成结果与真实语音之间的差别的问题。
为解决上述技术问题,本发明采用了如下技术方案:
一种数据处理方法,包括:
获取同一文本对应的合成语音和实际参考语音;
将所述合成语音和所述实际参考语音分别输入至判断器网络,得到所述判断器网络的网络层输出的所述合成语音的特征矩阵和所述实际参考语音的特征矩阵;所述判断器网络用于提取所述合成语音和所述实际参考语音的特征;
基于所述判断器网络的网络层输出的所述合成语音的特征矩阵和所述实际参考语音的特征矩阵,计算所述合成语音相对于所述实际参考语音的内容损失和语态损失。
可选地,所述合成语音相对于参考语音的内容损失Lcontent的计算公式为:
Figure BDA0002331327760000021
其中,
Figure BDA0002331327760000022
表示所述判断器网络φ的第z个网络层的第j个通道的第i个卷积的激活函数;
Figure BDA0002331327760000023
Figure BDA0002331327760000024
分别代表所述合成语音yo和实际参考语音yl分别经过所述判断器网络第z个网络层变换后得到的特征矩阵;Cz表示特征的通道数量。
可选地,所述基于所述判断器网络的网络层输出的所述合成语音的特征矩阵和所述实际参考语音的特征矩阵,计算所述合成语音相对于所述实际参考语音的语态损失,包括:
计算所述判断器网络的每一网络层不同通道输出的所述合成语音的特征矩阵的内积和所述判断器网络的每一网络层不同通道输出的所述实际参考语音的特征矩阵的内积;其中,所述判断器网络的每一网络层的不同通道输出的所述合成语音的特征矩阵的内积和所述判断器网络的每一网络层不同通道输出的所述实际参考语音的特征矩阵的内积
Figure BDA0002331327760000025
的计算公式为:
Figure BDA0002331327760000026
Figure BDA0002331327760000027
Figure BDA0002331327760000028
分别表示所述判断器网络φ的第z个网络层第i个通道和第j个通道输出的所述合成语音的特征矩阵或所述实际参考语音的特征矩阵;
依据所述判断器网络的每一网络层不同通道输出的所述合成语音的特征矩阵的内积和所述判断器网络的每一网络层不同通道输出的所述实际参考语音的特征矩阵的内积,计算得到所述语态损失。
可选地,依据所述判断器网络的每一网络层不同通道输出的所述合成语音的特征矩阵的内积和所述判断器网络的每一网络层不同通道输出的所述实际参考语音的特征矩阵的内积,计算得到所述语态损失,包括:
计算所述判断器网络的每一网络层输出的所述合成语音和所述实际参考语音之间的语态损失;其中,所述判断器网络的每一网络层输出的所述合成语音和所述实际参考语音之间的语态损失
Figure BDA0002331327760000031
的计算公式为:
Figure BDA0002331327760000032
其中,
Figure BDA0002331327760000033
Figure BDA0002331327760000034
分别表示所述合成语音和所述实际参考语音对应所述判断器网络中第z个网络层输出的第i个通道和第j个通道的特征矩阵之间的内积;
Figure BDA0002331327760000035
表示特征的尺寸,Cz表示特征矩阵的通道数量;
对所述判断器网络的每一网络层输出的所述合成语音和所述实际参考语音之间的语态损失进行加权求和,得到所述语态损失。
一种数据处理装置,包括:
语音获取模块,用于获取同一文本对应的合成语音和实际参考语音;
矩阵获取模块,用于将所述合成语音和所述实际参考语音分别输入至判断器网络,得到所述判断器网络的网络层输出的所述合成语音的特征矩阵和所述实际参考语音的特征矩阵;所述判断器网络用于提取所述合成语音和所述实际参考语音的特征;
损失计算模块,用于基于所述判断器网络的网络层输出的所述合成语音的特征矩阵和所述实际参考语音的特征矩阵,计算所述合成语音相对于所述实际参考语音的内容损失和语态损失。
可选地,所述合成语音相对于参考语音的内容损失Lcontent的计算公式为:
Figure BDA0002331327760000036
其中,
Figure BDA0002331327760000041
表示所述判断器网络φ的第z个网络层的第j个通道的第i个卷积的激活函数;
Figure BDA0002331327760000042
Figure BDA0002331327760000043
分别代表所述合成语音yo和实际参考语音yl分别经过所述判断器网络第z个网络层变换后得到的特征矩阵;Cz表示特征的通道数量。
可选地,所述损失计算模块包括:
第一计算子模块,用于计算所述判断器网络的每一网络层不同通道输出的所述合成语音的特征矩阵的内积和所述判断器网络的每一网络层不同通道输出的所述实际参考语音的特征矩阵的内积;其中,所述判断器网络的每一网络层的不同通道输出的所述合成语音的特征矩阵的内积和所述判断器网络的每一网络层不同通道输出的所述实际参考语音的特征矩阵的内积
Figure BDA00023313277600000411
的计算公式为:
Figure BDA0002331327760000044
Figure BDA0002331327760000045
Figure BDA0002331327760000046
分别表示所述判断器网络φ的第z个网络层第i个通道和第j个通道输出的所述合成语音的特征矩阵或所述实际参考语音的特征矩阵;
第二计算子模块,用于依据所述判断器网络的每一网络层不同通道输出的所述合成语音的特征矩阵的内积和所述判断器网络的每一网络层不同通道输出的所述实际参考语音的特征矩阵的内积,计算得到所述语态损失。
可选地,所述第二计算子模块包括:
第一计算单元,用于计算所述判断器网络的每一网络层输出的所述合成语音和所述实际参考语音之间的语态损失;其中,所述判断器网络的每一网络层输出的所述合成语音和所述实际参考语音之间的语态损失
Figure BDA0002331327760000047
的计算公式为:
Figure BDA0002331327760000048
其中,
Figure BDA0002331327760000049
Figure BDA00023313277600000410
分别表示所述合成语音和所述实际参考语音对应所述判断器网络中第z个网络层输出的第i个通道和第j个通道的特征矩阵之间的内积;
Figure BDA0002331327760000051
表示特征的尺寸,Cz表示特征矩阵的通道数量;
第二计算单元,用于对所述判断器网络的每一网络层输出的所述合成语音和所述实际参考语音之间的语态损失进行加权求和,得到所述语态损失。
一种电子设备,包括:存储器和处理器;
其中,所述存储器用于存储程序;
处理器调用程序并用于:
获取同一文本对应的合成语音和实际参考语音;
将所述合成语音和所述实际参考语音分别输入至判断器网络,得到所述判断器网络的网络层输出的所述合成语音的特征矩阵和所述实际参考语音的特征矩阵;所述判断器网络用于提取所述合成语音和所述实际参考语音的特征;
基于所述判断器网络的网络层输出的所述合成语音的特征矩阵和所述实际参考语音的特征矩阵,计算所述合成语音相对于所述实际参考语音的内容损失和语态损失。
相较于现有技术,本发明具有以下有益效果:
本发明提供了一种数据处理方法、装置及电子设备,获取同一文本对应的合成语音和实际参考语音,将所述合成语音和所述实际参考语音分别输入至判断器网络,得到所述判断器网络的网络层输出的所述合成语音的特征矩阵和所述实际参考语音的特征矩阵;所述判断器网络用于提取所述合成语音和所述实际参考语音的特征,基于所述判断器网络的网络层输出的所述合成语音的特征矩阵和所述实际参考语音的特征矩阵,计算所述合成语音相对于所述实际参考语音的内容损失和语态损失。通过本发明,可以了解客服机器人语音合成结果与真实语音之间的差别,进而对优化客服机器人的语音合成技术起到数据指导作用。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种数据处理方法的方法流程图;
图2为本发明实施例提供的一种语音监督学习的场景示意图;
图3为本发明实施例提供的一种判断器网络的结构示意图;
图4为本发明实施例提供的另一种数据处理方法的方法流程图;
图5为本发明实施例提供的一种基于相对熵的监督学习合成语音的梅尔谱图;
图6为本发明实施例提供的一种基于判断器网络的监督学习合成语音的梅尔谱图;
图7为本发明实施例提供的一种数据处理装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种数据处理方法,该数据处理方法用于比较合成语音和真实参考语音之间的差别。
参照图1,数据处理方法可以包括:
S11、获取同一文本对应的合成语音和实际参考语音。
参照图2,一个文本,如“今天吃饭了吗”,将该文本输入至语音合成模型中,得到合成语音,其中,该合成语音可以认为是客服机器人合成的语音。另外,还需要获取该文本对应的实际参考语音,即真实的人说出的“今天吃饭了吗”的语音。然后将合成语音和实际参考语音输入至判断器网络VGG16中,执行步骤S12和S13。
S12、将合成语音和实际参考语音分别输入至判断器网络,得到判断器网络的网络层输出的合成语音的特征矩阵和实际参考语音的特征矩阵。
判断器网络就是图2中的VGG16模型,判断器网络用于提取合成语音和实际参考语音的特征。
参照图3,图3给出了判断器网络的结构图,该判断器网络是一个预训练好的VGG16,包括输入层、一维卷积层、一维最大池化层、和全连接层。每一网络层会输出相应的特征。由于声音是序列化的一串数据,因此需要将判断器网络中的所有的二维卷积层和池化层全部用一维卷积层和池化层替换。
合成语音和实际参考语音均为语音波形,将该语音波形输入到判断器网络中,可以得到判断器网络的每一网络层(如卷积层)输出的合成语音的特征矩阵以及实际参考语音的特征矩阵。
S13、基于判断器网络的网络层输出的合成语音的特征矩阵和实际参考语音的特征矩阵,计算合成语音相对于实际参考语音的内容损失和语态损失。
具体的,通过设计内容损失函数和语态损失函数,计算得到合成语音和实际参考语音在每个网络层(如卷积层)输出特征矩阵之间的差值,用于监督语音合成过程中内容和语态的合成,使模型合成得到的语音更准确、自然。
本实施例中,获取同一文本对应的合成语音和实际参考语音,将合成语音和实际参考语音分别输入至判断器网络,得到判断器网络的网络层输出的合成语音的特征矩阵和实际参考语音的特征矩阵;判断器网络用于提取合成语音和实际参考语音的特征,基于判断器网络的网络层输出的合成语音的特征矩阵和实际参考语音的特征矩阵,计算合成语音相对于实际参考语音的内容损失和语态损失。通过本发明,可以了解客服机器人语音合成结果与真实语音之间的差别,进而对优化客服机器人的语音合成技术起到数据指导作用。
在上述内容中提及了内容损失函数和语态损失函数,现对内容损失函数和语态损失函数的监督作用进行详细阐述:
(1)内容损失监督。
为了使合成得到的合成语音和实际参考语音在语音内容上可以实现精确匹配,设计了内容损失函数用于监督语音内容的合成。在模型训练过程中,把语音合成模型合成得到的合成语音和实际参考语音分别送入预训练好的判断器网络,经过网络中各个层的变换之后,每个卷积层将得到对应的特征矩阵输出。通过计算合成语音和实际参考语音在每个层的输出特征矩阵对应于每个通道上特征之间的均方差,再经过求和平均化得到最终的语音内容损失,其定义如下:
合成语音相对于参考语音的内容损失Lcontent的计算公式为:
Figure BDA0002331327760000081
其中,
Figure BDA0002331327760000082
表示判断器网络φ的第z个网络层的第j个通道的第i个卷积的激活函数;
Figure BDA0002331327760000083
Figure BDA0002331327760000084
分别代表合成语音yo和实际参考语音yl分别经过判断器网络第z个网络层变换后得到的特征矩阵;Cz表示特征的通道数量。
相比于现有技术中,直接计算合成语音和实际参考语音之间的相对熵,内容损失函数通过利用判断器网络可以更好地计算出合成语音和实际参考语音在语音内容上细微的差别,并且可以对语音合成模型的学习过程起到更好的监督作用。
(2)语态损失监督。
本发明的另一实现方式中,参照图4,基于判断器网络的网络层输出的合成语音的特征矩阵和实际参考语音的特征矩阵,计算合成语音相对于实际参考语音的语态损失,包括:
S21、计算判断器网络的每一网络层不同通道输出的合成语音的特征矩阵的内积和判断器网络的每一网络层不同通道输出的实际参考语音的特征矩阵的内积。
面对具体的业务场景,仅仅满足语音内容上的匹配是完全不够的,还需要满足语音在语态上与自然语音上的接近或匹配。为了满足合成语音在语态上的要求,基于判断器网络,我们设计了语态损失函数用于语音语态的合成。在这一过程中,首先把合成语音和实际参考语音分别送入判断器网络,得到两个语音波形在每个网络层对应的特征输出。
由于语音中的语态信息可以通过特征之间的关联信息体现,所以在计算语态损失的过程中,先对每个语音波形在判断器网络中每个网络层的特征做内积变换,得到判断器网络的每一网络层的不同通道输出的合成语音的特征矩阵的内积和判断器网络的每一网络层不同通道输出的实际参考语音的特征矩阵的内积,具体的,任意两个特征之间的内积
Figure BDA0002331327760000085
Figure BDA0002331327760000091
Figure BDA0002331327760000092
Figure BDA0002331327760000093
分别表示判断器网络φ的第z个网络层第i个通道和第j个通道输出的合成语音的特征矩阵或实际参考语音的特征矩阵。
S22、依据判断器网络的每一网络层不同通道输出的合成语音的特征矩阵的内积和判断器网络的每一网络层不同通道输出的实际参考语音的特征矩阵的内积,计算得到语态损失。
在实际应用中,步骤S22可以包括:
1)计算判断器网络的每一网络层输出的合成语音和实际参考语音之间的语态损失;
2)对判断器网络的每一网络层输出的合成语音和实际参考语音之间的语态损失进行加权求和,得到语态损失。
具体的,对应于合成语音和实际参考语音两个不同的输入,可以分别得到两个语音在判断器模型中每个网络层输出特征之间的内积结果。因此,可计算出合成语音和实际参考语音在判断器网络中每一层的语态损失
Figure BDA0002331327760000094
Figure BDA0002331327760000095
其中,
Figure BDA0002331327760000096
Figure BDA0002331327760000097
分别表示合成语音和实际参考语音对应判断器网络中第z个网络层输出的第i个通道和第j个通道的特征矩阵之间的内积;
Figure BDA0002331327760000098
表示特征的尺寸,Cz表示特征矩阵的通道数量。
最后,通过将判断器网络中所有网络层的语态损失以不同的权重连接起来,则可以得到最终的语态损失Lstyle
Figure BDA0002331327760000099
其中,wz表示判断器网络第z个网络层的语态损失连接权重,Lstyle代表了每一网络层中合成语音与实际参考语音通过判断器网络计算出的语态损失。
通过设计判断器网络,优化语音合成模型,相比于现有监督学习方式,实现了更好的语音合成,根据如图5和6。由此可以看出,在语音合成模型的学习过程中,通过利用判断器网络计算出合成语音与实际参考语音之间的内容损失和语态损失,可以实现对语音合成模型更好的监督,从而使得语音合成模型可以合成出更准确、自然的语音。
本实施例中,通过利用判断器网络可以更好地计算出合成语音与参考语音之间的内容损失和语态损失,从而实现对语音合成模型在学习过程中起到更好的监督作用,进而可以合成出更准确、自然、原生态的语音。
可选的,在上述数据处理方法的实施例的基础上,本发明的另一实施例提供了一种数据处理装置,参照图7,可以包括:
语音获取模块101,用于获取同一文本对应的合成语音和实际参考语音;
矩阵获取模块102,用于将合成语音和实际参考语音分别输入至判断器网络,得到判断器网络的网络层输出的合成语音的特征矩阵和实际参考语音的特征矩阵;判断器网络用于提取合成语音和实际参考语音的特征;
损失计算模块103,用于基于判断器网络的网络层输出的合成语音的特征矩阵和实际参考语音的特征矩阵,计算合成语音相对于实际参考语音的内容损失和语态损失。
本实施例中,获取同一文本对应的合成语音和实际参考语音,将合成语音和实际参考语音分别输入至判断器网络,得到判断器网络的网络层输出的合成语音的特征矩阵和实际参考语音的特征矩阵;判断器网络用于提取合成语音和实际参考语音的特征,基于判断器网络的网络层输出的合成语音的特征矩阵和实际参考语音的特征矩阵,计算合成语音相对于实际参考语音的内容损失和语态损失。通过本发明,可以了解客服机器人语音合成结果与真实语音之间的差别,进而对优化客服机器人的语音合成技术起到数据指导作用。
需要说明的是,本实施例中的各个模块的工作过程,请参照上述实施例中的相应说明,在此不再赘述。
可选的,在上述数据处理装置的实施例的基础上,合成语音相对于参考语音的内容损失Lcontent的计算公式为:
Figure BDA0002331327760000101
其中,
Figure BDA0002331327760000111
表示判断器网络φ的第z个网络层的第j个通道的第i个卷积的激活函数;
Figure BDA0002331327760000112
Figure BDA0002331327760000113
分别代表合成语音yo和实际参考语音yl分别经过判断器网络第z个网络层变换后得到的特征矩阵;Cz表示特征的通道数量。
进一步,损失计算模块包括:
第一计算子模块,用于计算判断器网络的每一网络层不同通道输出的合成语音的特征矩阵的内积和判断器网络的每一网络层不同通道输出的实际参考语音的特征矩阵的内积;其中,判断器网络的每一网络层的不同通道输出的合成语音的特征矩阵的内积和判断器网络的每一网络层不同通道输出的实际参考语音的特征矩阵的内积
Figure BDA0002331327760000114
的计算公式为:
Figure BDA0002331327760000115
Figure BDA0002331327760000116
Figure BDA0002331327760000117
分别表示判断器网络φ的第z个网络层第i个通道和第j个通道输出的合成语音的特征矩阵或实际参考语音的特征矩阵;
第二计算子模块,用于依据判断器网络的每一网络层不同通道输出的合成语音的特征矩阵的内积和判断器网络的每一网络层不同通道输出的实际参考语音的特征矩阵的内积,计算得到语态损失。
进一步,第二计算子模块包括:
第一计算单元,用于计算判断器网络的每一网络层输出的合成语音和实际参考语音之间的语态损失;其中,判断器网络的每一网络层输出的合成语音和实际参考语音之间的语态损失
Figure BDA0002331327760000118
的计算公式为:
Figure BDA0002331327760000119
其中,
Figure BDA00023313277600001110
Figure BDA00023313277600001111
分别表示合成语音和实际参考语音对应判断器网络中第z个网络层输出的第i个通道和第j个通道的特征矩阵之间的内积;
Figure BDA00023313277600001112
表示特征的尺寸,Cz表示特征矩阵的通道数量;
第二计算单元,用于对判断器网络的每一网络层输出的合成语音和实际参考语音之间的语态损失进行加权求和,得到语态损失。
本实施例中,通过利用判断器网络可以更好地计算出合成语音与参考语音之间的内容损失和语态损失,从而实现对语音合成模型在学习过程中起到更好的监督作用,进而可以合成出更准确、自然、原生态的语音。
需要说明的是,本实施例中的各个模块、子模块和单元的工作过程,请参照上述实施例中的相应说明,在此不再赘述。
可选的,在上述数据处理方法及装置的实施例的基础上,本发明的另一实施例提供了一种电子设备,包括:存储器和处理器;
其中,存储器用于存储程序;
处理器调用程序并用于:
获取同一文本对应的合成语音和实际参考语音;
将合成语音和实际参考语音分别输入至判断器网络,得到判断器网络的网络层输出的合成语音的特征矩阵和实际参考语音的特征矩阵;判断器网络用于提取合成语音和实际参考语音的特征;
基于判断器网络的网络层输出的合成语音的特征矩阵和实际参考语音的特征矩阵,计算合成语音相对于实际参考语音的内容损失和语态损失。
进一步,合成语音相对于参考语音的内容损失Lcontent的计算公式为:
Figure BDA0002331327760000121
其中,
Figure BDA0002331327760000122
表示判断器网络φ的第z个网络层的第j个通道的第i个卷积的激活函数;
Figure BDA0002331327760000123
Figure BDA0002331327760000124
分别代表合成语音yo和实际参考语音yl分别经过判断器网络第z个网络层变换后得到的特征矩阵;Cz表示特征的通道数量。
进一步,基于判断器网络的网络层输出的合成语音的特征矩阵和实际参考语音的特征矩阵,计算合成语音相对于实际参考语音的语态损失,包括:
计算判断器网络的每一网络层不同通道输出的合成语音的特征矩阵的内积和判断器网络的每一网络层不同通道输出的实际参考语音的特征矩阵的内积;其中,判断器网络的每一网络层的不同通道输出的合成语音的特征矩阵的内积和判断器网络的每一网络层不同通道输出的实际参考语音的特征矩阵的内积
Figure BDA0002331327760000131
的计算公式为:
Figure BDA0002331327760000132
Figure BDA0002331327760000133
Figure BDA0002331327760000134
分别表示判断器网络φ的第z个网络层第i个通道和第j个通道输出的合成语音的特征矩阵或实际参考语音的特征矩阵;
依据判断器网络的每一网络层不同通道输出的合成语音的特征矩阵的内积和判断器网络的每一网络层不同通道输出的实际参考语音的特征矩阵的内积,计算得到语态损失。
进一步,依据判断器网络的每一网络层不同通道输出的合成语音的特征矩阵的内积和判断器网络的每一网络层不同通道输出的实际参考语音的特征矩阵的内积,计算得到语态损失,包括:
计算判断器网络的每一网络层输出的合成语音和实际参考语音之间的语态损失;其中,判断器网络的每一网络层输出的合成语音和实际参考语音之间的语态损失
Figure BDA0002331327760000135
的计算公式为:
Figure BDA0002331327760000136
其中,
Figure BDA0002331327760000137
Figure BDA0002331327760000138
分别表示合成语音和实际参考语音对应判断器网络中第z个网络层输出的第i个通道和第j个通道的特征矩阵之间的内积;
Figure BDA0002331327760000139
表示特征的尺寸,Cz表示特征矩阵的通道数量;
对判断器网络的每一网络层输出的合成语音和实际参考语音之间的语态损失进行加权求和,得到语态损失。
本实施例中,获取同一文本对应的合成语音和实际参考语音,将合成语音和实际参考语音分别输入至判断器网络,得到判断器网络的网络层输出的合成语音的特征矩阵和实际参考语音的特征矩阵;判断器网络用于提取合成语音和实际参考语音的特征,基于判断器网络的网络层输出的合成语音的特征矩阵和实际参考语音的特征矩阵,计算合成语音相对于实际参考语音的内容损失和语态损失。通过本发明,可以了解客服机器人语音合成结果与真实语音之间的差别,进而对优化客服机器人的语音合成技术起到数据指导作用。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (9)

1.一种数据处理方法,其特征在于,包括:
获取同一文本对应的合成语音和实际参考语音;
将所述合成语音和所述实际参考语音分别输入至判断器网络,得到所述判断器网络的网络层输出的所述合成语音的特征矩阵和所述实际参考语音的特征矩阵;所述判断器网络用于提取所述合成语音和所述实际参考语音的特征;
基于所述判断器网络的网络层输出的所述合成语音的特征矩阵和所述实际参考语音的特征矩阵,计算所述合成语音相对于所述实际参考语音的内容损失和语态损失。
2.根据权利要求1所述的数据处理方法,其特征在于,所述合成语音相对于参考语音的内容损失Lcontent的计算公式为:
Figure FDA0002331327750000011
其中,
Figure FDA0002331327750000012
表示所述判断器网络φ的第z个网络层的第j个通道的第i个卷积的激活函数;
Figure FDA0002331327750000013
Figure FDA0002331327750000014
分别代表所述合成语音yo和实际参考语音yl分别经过所述判断器网络第z个网络层变换后得到的特征矩阵;Cz表示特征的通道数量。
3.根据权利要求1所述的数据处理方法,其特征在于,所述基于所述判断器网络的网络层输出的所述合成语音的特征矩阵和所述实际参考语音的特征矩阵,计算所述合成语音相对于所述实际参考语音的语态损失,包括:
计算所述判断器网络的每一网络层不同通道输出的所述合成语音的特征矩阵的内积和所述判断器网络的每一网络层不同通道输出的所述实际参考语音的特征矩阵的内积;其中,所述判断器网络的每一网络层的不同通道输出的所述合成语音的特征矩阵的内积和所述判断器网络的每一网络层不同通道输出的所述实际参考语音的特征矩阵的内积
Figure FDA0002331327750000015
的计算公式为:
Figure FDA0002331327750000016
Figure FDA0002331327750000017
Figure FDA0002331327750000018
分别表示所述判断器网络φ的第z个网络层第i个通道和第j个通道输出的所述合成语音的特征矩阵或所述实际参考语音的特征矩阵;
依据所述判断器网络的每一网络层不同通道输出的所述合成语音的特征矩阵的内积和所述判断器网络的每一网络层不同通道输出的所述实际参考语音的特征矩阵的内积,计算得到所述语态损失。
4.根据权利要求3所述的数据处理方法,其特征在于,依据所述判断器网络的每一网络层不同通道输出的所述合成语音的特征矩阵的内积和所述判断器网络的每一网络层不同通道输出的所述实际参考语音的特征矩阵的内积,计算得到所述语态损失,包括:
计算所述判断器网络的每一网络层输出的所述合成语音和所述实际参考语音之间的语态损失;其中,所述判断器网络的每一网络层输出的所述合成语音和所述实际参考语音之间的语态损失
Figure FDA0002331327750000021
的计算公式为:
Figure FDA0002331327750000022
其中,
Figure FDA0002331327750000023
Figure FDA0002331327750000024
分别表示所述合成语音和所述实际参考语音对应所述判断器网络中第z个网络层输出的第i个通道和第j个通道的特征矩阵之间的内积;
Figure FDA0002331327750000025
表示特征的尺寸,Cz表示特征矩阵的通道数量;
对所述判断器网络的每一网络层输出的所述合成语音和所述实际参考语音之间的语态损失进行加权求和,得到所述语态损失。
5.一种数据处理装置,其特征在于,包括:
语音获取模块,用于获取同一文本对应的合成语音和实际参考语音;
矩阵获取模块,用于将所述合成语音和所述实际参考语音分别输入至判断器网络,得到所述判断器网络的网络层输出的所述合成语音的特征矩阵和所述实际参考语音的特征矩阵;所述判断器网络用于提取所述合成语音和所述实际参考语音的特征;
损失计算模块,用于基于所述判断器网络的网络层输出的所述合成语音的特征矩阵和所述实际参考语音的特征矩阵,计算所述合成语音相对于所述实际参考语音的内容损失和语态损失。
6.根据权利要求5所述的数据处理装置,其特征在于,所述合成语音相对于参考语音的内容损失Lcontent的计算公式为:
Figure FDA0002331327750000031
其中,
Figure FDA0002331327750000032
表示所述判断器网络φ的第z个网络层的第j个通道的第i个卷积的激活函数;
Figure FDA0002331327750000033
Figure FDA0002331327750000034
分别代表所述合成语音yo和实际参考语音yl分别经过所述判断器网络第z个网络层变换后得到的特征矩阵;Cz表示特征的通道数量。
7.根据权利要求5所述的数据处理装置,其特征在于,所述损失计算模块包括:
第一计算子模块,用于计算所述判断器网络的每一网络层不同通道输出的所述合成语音的特征矩阵的内积和所述判断器网络的每一网络层不同通道输出的所述实际参考语音的特征矩阵的内积;其中,所述判断器网络的每一网络层的不同通道输出的所述合成语音的特征矩阵的内积和所述判断器网络的每一网络层不同通道输出的所述实际参考语音的特征矩阵的内积
Figure FDA0002331327750000035
的计算公式为:
Figure FDA0002331327750000036
Figure FDA0002331327750000037
Figure FDA0002331327750000038
分别表示所述判断器网络φ的第z个网络层第i个通道和第j个通道输出的所述合成语音的特征矩阵或所述实际参考语音的特征矩阵;
第二计算子模块,用于依据所述判断器网络的每一网络层不同通道输出的所述合成语音的特征矩阵的内积和所述判断器网络的每一网络层不同通道输出的所述实际参考语音的特征矩阵的内积,计算得到所述语态损失。
8.根据权利要求7所述的数据处理装置,其特征在于,所述第二计算子模块包括:
第一计算单元,用于计算所述判断器网络的每一网络层输出的所述合成语音和所述实际参考语音之间的语态损失;其中,所述判断器网络的每一网络层输出的所述合成语音和所述实际参考语音之间的语态损失
Figure FDA0002331327750000039
的计算公式为:
Figure FDA0002331327750000041
其中,
Figure FDA0002331327750000042
Figure FDA0002331327750000043
分别表示所述合成语音和所述实际参考语音对应所述判断器网络中第z个网络层输出的第i个通道和第j个通道的特征矩阵之间的内积;
Figure FDA0002331327750000044
表示特征的尺寸,Cz表示特征矩阵的通道数量;
第二计算单元,用于对所述判断器网络的每一网络层输出的所述合成语音和所述实际参考语音之间的语态损失进行加权求和,得到所述语态损失。
9.一种电子设备,其特征在于,包括:存储器和处理器;
其中,所述存储器用于存储程序;
处理器调用程序并用于:
获取同一文本对应的合成语音和实际参考语音;
将所述合成语音和所述实际参考语音分别输入至判断器网络,得到所述判断器网络的网络层输出的所述合成语音的特征矩阵和所述实际参考语音的特征矩阵;所述判断器网络用于提取所述合成语音和所述实际参考语音的特征;
基于所述判断器网络的网络层输出的所述合成语音的特征矩阵和所述实际参考语音的特征矩阵,计算所述合成语音相对于所述实际参考语音的内容损失和语态损失。
CN201911337330.9A 2019-12-23 2019-12-23 一种数据处理方法、装置及电子设备 Active CN111048116B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911337330.9A CN111048116B (zh) 2019-12-23 2019-12-23 一种数据处理方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911337330.9A CN111048116B (zh) 2019-12-23 2019-12-23 一种数据处理方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN111048116A true CN111048116A (zh) 2020-04-21
CN111048116B CN111048116B (zh) 2022-08-19

Family

ID=70238486

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911337330.9A Active CN111048116B (zh) 2019-12-23 2019-12-23 一种数据处理方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN111048116B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW200636678A (en) * 2005-04-14 2006-10-16 Ind Tech Res Inst Adaptive pulse allocation mechanism for multi-pulse celp coder
US20160086622A1 (en) * 2014-09-18 2016-03-24 Kabushiki Kaisha Toshiba Speech processing device, speech processing method, and computer program product
US20180096677A1 (en) * 2016-10-04 2018-04-05 Nuance Communications, Inc. Speech Synthesis
WO2019191251A1 (en) * 2018-03-28 2019-10-03 Telepathy Labs, Inc. Text-to-speech synthesis system and method
CN110473516A (zh) * 2019-09-19 2019-11-19 百度在线网络技术(北京)有限公司 语音合成方法、装置以及电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW200636678A (en) * 2005-04-14 2006-10-16 Ind Tech Res Inst Adaptive pulse allocation mechanism for multi-pulse celp coder
US20160086622A1 (en) * 2014-09-18 2016-03-24 Kabushiki Kaisha Toshiba Speech processing device, speech processing method, and computer program product
US20180096677A1 (en) * 2016-10-04 2018-04-05 Nuance Communications, Inc. Speech Synthesis
WO2019191251A1 (en) * 2018-03-28 2019-10-03 Telepathy Labs, Inc. Text-to-speech synthesis system and method
CN110473516A (zh) * 2019-09-19 2019-11-19 百度在线网络技术(北京)有限公司 语音合成方法、装置以及电子设备

Also Published As

Publication number Publication date
CN111048116B (zh) 2022-08-19

Similar Documents

Publication Publication Date Title
CN109933789B (zh) 一种基于神经网络的司法领域关系抽取方法及系统
CN109408526B (zh) Sql语句生成方法、装置、计算机设备及存储介质
CN111522839B (zh) 一种基于深度学习的自然语言查询方法
CN110427625B (zh) 语句补全方法、装置、介质及对话处理系统
CN111694940A (zh) 一种用户报告的生成方法及终端设备
CN104008132B (zh) 语音地图搜索方法及系统
CN110555509A (zh) 深度神经网络模型中修剪批量标准化层的方法
CN113988449B (zh) 基于Transformer模型的风电功率预测方法
CN110717009A (zh) 一种法律咨询报告的生成方法及设备
CN112464643B (zh) 一种机器阅读理解方法、装置、设备及存储介质
CN111475655A (zh) 一种基于配电网知识图谱的电力调度文本实体链接方法
CN114648535A (zh) 一种基于动态transformer的食品图像分割方法及系统
Ejbali et al. Intelligent approach to train wavelet networks for Recognition System of Arabic Words
CN115098700A (zh) 知识图谱嵌入表示方法及装置
CN111048116B (zh) 一种数据处理方法、装置及电子设备
CN111625858B (zh) 一种垂直领域下的智能化多模态数据脱敏方法和装置
CN115328661A (zh) 一种基于语音和图像特征的算力均衡执行方法及芯片
CN108762523A (zh) 基于capsule网络的输入法输出字符预测方法
CN113065359B (zh) 面向智能交互的句子对语义匹配方法和装置
CN114913871A (zh) 目标对象分类方法、系统、电子设备及存储介质
CN113436608A (zh) 双流语音转换方法、装置、设备及存储介质
CN113434663A (zh) 基于边缘计算的会议纪要生成方法及相关设备
CN111460096A (zh) 一种碎片文本的处理方法、装置及电子设备
CN111090462A (zh) 一种基于api文档的api匹配方法和装置
CN110879934A (zh) 一种高效的Wide & Deep深度学习模型

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 401121 b7-7-2, Yuxing Plaza, No.5 Huangyang Road, Yubei District, Chongqing

Applicant after: Chongqing duxiaoman Youyang Technology Co.,Ltd.

Address before: 201800 room j1328, 3 / F, building 8, 55 Huiyuan Road, Jiading District, Shanghai

Applicant before: SHANGHAI YOUYANG NEW MEDIA INFORMATION TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20211217

Address after: 100193 Room 606, 6 / F, building 4, West District, courtyard 10, northwest Wangdong Road, Haidian District, Beijing

Applicant after: Du Xiaoman Technology (Beijing) Co.,Ltd.

Address before: 401121 b7-7-2, Yuxing Plaza, No.5 Huangyang Road, Yubei District, Chongqing

Applicant before: Chongqing duxiaoman Youyang Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant