CN112906402B

CN112906402B - 音乐应答数据的生成方法、装置、设备及存储介质

Info

Publication number: CN112906402B
Application number: CN202110311407.6A
Authority: CN
Inventors: 刘奡智; 郭锦岳; 韩宝强; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-03-24
Filing date: 2021-03-24
Publication date: 2024-02-27
Anticipated expiration: 2041-03-24
Also published as: CN112906402A

Abstract

本发明涉及人工智能领域，公开了音乐应答数据的生成方法、装置、设备及存储介质，用于解决生成单一且重复的音乐应答数据，提高生成音乐应答数据的丰富性和多变性。音乐应答数据的生成方法包括：获取语境数据、提问数据、语境数字序列以及提问数字序列；根据语境数字序列、提问数字序列和编码器，生成语境隐向量和提问隐向量；根据语境隐向量、提问隐向量、对抗网络判别器和对抗网络生成器分别生成第二随机扰动向量、第一随机扰动向量和目标应答隐向量；将目标应答隐向量输入循环解码器，得到目标应答序列；根据预置的音符词典对目标应答序列进行序列还原，生成音乐应答数据。此外，本发明还涉及区块链技术，音乐应答数据可存储于区块链中。

Description

音乐应答数据的生成方法、装置、设备及存储介质

技术领域

本发明涉及神经网络技术领域，尤其涉及一种音乐应答数据的生成方法、装置、设备及存储介质。

背景技术

在音乐方面，“一唱一和”作为一种具有特色的音乐形式广泛存在于各种音乐风格中。在传统佛教音乐中，也存在由领唱者与合唱者进行唱和的风格。其交互的特性，使得每一句应和都含有对发问的应答信息，且与长时间的前文语境也有一定的联系。

目前，采用深度学习模型根据发问数据生成音乐应答数据，在现有技术中，大部分深度学习模型对于同样的前文语境和同样发问句，往往会在每次询问时给出相同或高度相似的应答，生成的音乐应答数据单一且重复，缺少丰富性和多变性。

发明内容

本发明提供了一种音乐应答数据的生成方法、装置、设备及存储介质，用于解决生成单一且重复的音乐应答数据，提高生成音乐应答数据的丰富性和多变性。

本发明第一方面提供了一种音乐应答数据的生成方法，包括：获取语境数据和提问数据，并将所述语境数据离散为语境数字序列以及将所述提问数据离散为提问数字序列；根据所述语境数字序列、所述提问数字序列和编码器，生成语境隐向量和提问隐向量；根据所述语境隐向量、所述提问隐向量、对抗网络判别器和对抗网络生成器分别生成第二随机扰动向量、第一随机扰动向量和目标应答隐向量；将所述目标应答隐向量输入循环解码器进行解码，得到目标应答序列；根据预置的音符词典和预置的歌词词典对所述目标应答序列进行序列还原，生成音乐应答数据，所述音乐应答数据包括应答旋律数据和应答歌词数据。

可选的，在本发明第一方面的第一种实现方式中，所述获取语境数据和提问数据，并将所述语境数据离散为语境数字序列以及将所述提问数据离散为提问数字序列包括：解析所述语境数据，得到语境旋律数据和语境歌词数据，并将所述语境旋律数据和所述语境歌词数据进行离散，得到语境数字序列；解析所述提问数据，得到提问旋律数据和提问歌词数据，并将所述提问旋律数据和所述提问歌词数据进行离散，得到提问数据序列。

可选的，在本发明第一方面的第二种实现方式中，所述根据所述语境数字序列、所述提问数字序列和编码器，生成语境隐向量和提问隐向量包括：将所述语境数字序列输入编码器，生成语境隐向量；将所述提问数字序列输入所述编码器的第一层神经网络，在所述编码器的第一层神经网络中对所述提问数字序列进行卷积，生成提问隐向量。

可选的，在本发明第一方面的第三种实现方式中，所述将所述语境数字序列输入编码器，生成语境隐向量包括：将所述语境数据序列输入编码器的第一层神经网络，在所述编码器的第一层神经网络中对所述语境数据序列进行卷积，生成初次卷积后的语境隐向量；在所述初次卷积后的语境隐向量中添加发声标识，生成添加发声标识后的语境隐向量，所述发声标识用于指示所述语境数据对应的发声对象；将所述添加发声标识后的语境隐向量输入所述编码器的第二层神经网络，在所述编码器的第二层神经网络中对所述添加发声标识后的语境隐向量进行卷积，生成语境隐向量。

可选的，在本发明第一方面的第四种实现方式中，所述根据所述语境隐向量、所述提问隐向量、对抗网络判别器和对抗网络生成器分别生成第二随机扰动向量、第一随机扰动向量和目标应答隐向量包括：将所述语境隐向量输入对抗网络生成器的第一前馈神经网络中进行卷积，生成第一随机扰动向量，并将所述第一随机扰动向量输入所述对抗网络生成器的第二前馈神经网络中进行卷积，生成对抗应答隐向量；将所述语境隐向量和所述提问隐向量输入对抗网络判别器的第一前馈神经网络中进行卷积，生成第二随机扰动向量，并将所述第二随机扰动向量输入所述对抗网络判别器的第二前馈神经网络中进行卷积，生成判别应答隐向量；对比所述判别应答隐向量和所述对抗应答隐向量，得到对比结果，根据所述对比结果计算判别损失函数的函数值，并采用预置的梯度下降法降低所述判别损失函数的函数值，从而更新所述对抗网络生成器，得到更新后得对抗网络生成器；将所述语境隐向量和所述提问隐向量输入所述更新后的对抗网络生成器，生成目标应答隐向量。

可选的，在本发明第一方面的第五种实现方式中，所述将所述语境隐向量输入对抗网络生成器的第一前馈神经网络中进行卷积，生成第一随机扰动向量，并将所述第一随机扰动向量输入所述对抗网络生成器的第二前馈神经网络中进行卷积，生成对抗应答隐向量包括：将所述语境隐向量输入对抗网络生成器的第一前馈神经网中进行卷积，得到第一高斯分布均值、第一高斯分布方差和高斯分布模态；基于所述第一高斯分布均值、所述第一高斯分布方差和所述高斯分布模态创建高斯混合模型；采用预置的概率分布采样函数在所述高斯混合模型中提取第一随机扰动向量；将所述第一随机扰动向量输入所述对抗网络生成器的第二前馈神经网络中进行卷积，生成对抗应答隐向量。

可选的，在本发明第一方面的第六种实现方式中，所述将所述语境隐向量和所述提问隐向量输入对抗网络判别器的第一前馈神经网络中进行卷积，生成第二随机扰动向量，并将所述第二随机扰动向量输入所述对抗网络判别器的第二前馈神经网络中进行卷积，生成判别应答隐向量包括：将所述语境隐向量和所述提问隐向量输入对抗网络判别器的第一前馈神经网中进行卷积，得到第二高斯分布均值和第二高斯分布方差；基于所述第二高斯分布均值和所述第二高斯分布方差创建一元高斯分布；采用预置的概率分布采样函数在所述一元高斯分布中提取第二随机扰动向量；将所述第二随机扰动向量输入所述对抗网络判别器的第二前馈神经网络中进行卷积，生成判别应答隐向量。

本发明第二方面提供了一种音乐应答数据的生成装置，包括：获取模块，用于获取语境数据和提问数据，并将所述语境数据离散为语境数字序列以及将所述提问数据离散为提问数字序列；第一生成模块，用于根据所述语境数字序列、所述提问数字序列和编码器，生成语境隐向量和提问隐向量；第二生成模块，用于根据所述语境隐向量、所述提问隐向量、对抗网络判别器和对抗网络生成器分别生成第二随机扰动向量、第一随机扰动向量和目标应答隐向量；解码模块，用于将所述目标应答隐向量输入循环解码器进行解码，得到目标应答序列；还原模块，用于根据预置的音符词典和预置的歌词词典对所述目标应答序列进行序列还原，生成音乐应答数据，所述音乐应答数据包括应答旋律数据和应答歌词数据。

可选的，在本发明第二方面的第一种实现方式中，所述获取模块包括：第一解析单元，用于解析所述语境数据，得到语境旋律数据和语境歌词数据，并将所述语境旋律数据和所述语境歌词数据进行离散，得到语境数字序列；第二解析单元，用于解析所述提问数据，得到提问旋律数据和提问歌词数据，并将所述提问旋律数据和所述提问歌词数据进行离散，得到提问数据序列。

可选的，在本发明第二方面的第二种实现方式中，所述第二解析单元还可以具体用于：将所述语境数字序列输入编码器，生成语境隐向量；将所述提问数字序列输入所述编码器的第一层神经网络，在所述编码器的第一层神经网络中对所述提问数字序列进行卷积，生成提问隐向量。

可选的，在本发明第二方面的第三种实现方式中，所述第一生成模块还可以具体用于：将所述语境数据序列输入编码器的第一层神经网络，在所述编码器的第一层神经网络中对所述语境数据序列进行卷积，生成初次卷积后的语境隐向量；在所述初次卷积后的语境隐向量中添加发声标识，生成添加发声标识后的语境隐向量，所述发声标识用于指示所述语境数据对应的发声对象；将所述添加发声标识后的语境隐向量输入所述编码器的第二层神经网络，在所述编码器的第二层神经网络中对所述添加发声标识后的语境隐向量进行卷积，生成语境隐向量。

可选的，在本发明第二方面的第四种实现方式中，第二生成模块包括：第一生成单元，用于将所述语境隐向量输入对抗网络生成器的第一前馈神经网络中进行卷积，生成第一随机扰动向量，并将所述第一随机扰动向量输入所述对抗网络生成器的第二前馈神经网络中进行卷积，生成对抗应答隐向量；第二生成单元，用于将所述语境隐向量和所述提问隐向量输入对抗网络判别器的第一前馈神经网络中进行卷积，生成第二随机扰动向量，并将所述第二随机扰动向量输入所述对抗网络判别器的第二前馈神经网络中进行卷积，生成判别应答隐向量；更新单元，用于对比所述判别应答隐向量和所述对抗应答隐向量，得到对比结果，根据所述对比结果计算判别损失函数的函数值，并采用预置的梯度下降法降低所述判别损失函数的函数值，从而更新所述对抗网络生成器，得到更新后得对抗网络生成器；第三生成单元，用于将所述语境隐向量和所述提问隐向量输入所述更新后的对抗网络生成器，生成目标应答隐向量。

可选的，在本发明第二方面的第五种实现方式中，第一生成单元还可以具体用于：将所述语境隐向量输入对抗网络生成器的第一前馈神经网中进行卷积，得到第一高斯分布均值、第一高斯分布方差和高斯分布模态；基于所述第一高斯分布均值、所述第一高斯分布方差和所述高斯分布模态创建高斯混合模型；采用预置的概率分布采样函数在所述高斯混合模型中提取第一随机扰动向量；将所述第一随机扰动向量输入所述对抗网络生成器的第二前馈神经网络中进行卷积，生成对抗应答隐向量。

可选的，在本发明第二方面的第六种实现方式中，第二生成单元还可以具体用于：将所述语境隐向量和所述提问隐向量输入对抗网络判别器的第一前馈神经网中进行卷积，得到第二高斯分布均值和第二高斯分布方差；基于所述第二高斯分布均值和所述第二高斯分布方差创建一元高斯分布；采用预置的概率分布采样函数在所述一元高斯分布中提取第二随机扰动向量；将所述第二随机扰动向量输入所述对抗网络判别器的第二前馈神经网络中进行卷积，生成判别应答隐向量。

本发明第三方面提供了一种音乐应答数据的生成设备，包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述音乐应答数据的生成设备执行上述的音乐应答数据的生成方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的音乐应答数据的生成方法。

本发明提供的技术方案中，获取语境数据和提问数据，并将所述语境数据离散为语境数字序列以及将所述提问数据离散为提问数字序列；根据所述语境数字序列、所述提问数字序列和编码器，生成语境隐向量和提问隐向量；根据所述语境隐向量、所述提问隐向量、对抗网络判别器和对抗网络生成器分别生成第二随机扰动向量、第一随机扰动向量和目标应答隐向量；将所述目标应答隐向量输入循环解码器进行解码，得到目标应答序列；根据预置的音符词典和预置的歌词词典对所述目标应答序列进行序列还原，生成音乐应答数据，所述音乐应答数据包括应答旋律数据和应答歌词数据。本发明实施例中，根据语境数据和提问数据生成音乐应答数据时，引入第一随机扰动向量和第二随机扰动向量生成音乐应答数据，解决了传统模型生成单一且重复的音乐应答数据的问题，提高了生成音乐应答数据的丰富性和多变性。

附图说明

图1为本发明实施例中音乐应答数据的生成方法的一个实施例示意图；

图2为本发明实施例中音乐应答数据的生成方法的另一个实施例示意图；

图3为本发明实施例中音乐应答数据的生成装置的一个实施例示意图；

图4为本发明实施例中音乐应答数据的生成装置的另一个实施例示意图；

图5为本发明实施例中音乐应答数据的生成设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种音乐应答数据的生成方法、装置、设备及存储介质，用于解决生成单一且重复的音乐应答数据，提高生成音乐应答数据的丰富性和多变性。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中音乐应答数据的生成方法的一个实施例包括：

101、获取语境数据和提问数据，并将语境数据离散为语境数字序列以及将提问数据离散为提问数字序列；

服务器获取语境数据，并对语境数据进行离散，得到语境数字序列，服务器获取提问数据，并对提问数据进行离散，得到提问数字序列。需要强调的是，为进一步保证上述语境数据和提问数据的私密和安全性，上述语境数据和提问数据还可以存储于一区块链的节点中。

在一些数据处理的过程中，需要将连续属性的数据变换为分类属性的数据，此时通常采用离散化的方法将具有连续属性的数据变换为分类属性的梳理。在本实施例中，可以将语境数据和提问数据理解为具有连续属性的数据。在离散化的过程中，首先对语境数据和提问数据进行特征属性值的提取，分别得到多个语境特征属性值和多个提问特征属性值；确定需要多少个类别值，并将多个语境特征属性值和多个提问特征属性值按照类别值的数量分割为对应的区间，例如类别值为8个类别，那么按照8个类别的类别值将多个语境特征属性值和多个提问特征属性值分别分为8个区间；然后将这个每个区间对应的语境特征属性值映射到相同的类别中，将每个区间对应的提问特征属性值映射到相同的类别中，从而得到语境数字序列和提问数字序列。语境数字序列具体例子可以为：[1,1,1,3,3,3,3,6,6,6,6,7,7,7,7]。

需要说明的是，本发明实施例提到的隐向量均为隐藏层向量的简称。在本实施例中，语境数字序列和提问数字序列中均为特征属性值不超过200个的数字序列。语境数据为前文的语境数据，提问数据为当前的提问数据。

可以理解的是，本发明的执行主体可以为音乐应答数据的生成装置，还可以是终端或者服务器，具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

102、根据语境数字序列、提问数字序列和编码器，生成语境隐向量和提问隐向量；

服务器将语境数字序列输入编码器中，在编码器中进行处理，生成语境隐向量，服务器将提问数字序列输入编码器中，在编码器中进行处理，生成提问隐向量。

需要说明的是，为了便于撰写，本方案只针对一个语境数据组进行说明，但是语境数据实际为多组，对应的语境数字序列也为多个。编码器中包括两层神经网络，其中第一层神经网络为单句循环编码器，第二层神经网络为语境循环编码器。可以理解为在单句循环编码器中提取语境数字序列和提问数字序列的意思，在语境循环编码器中提取多个语境数字序列之间的关系。其中以及在假设服务器生成的语境数字序列为[1,3,3,5]，以及提问数字序列为[2,5,5,7]，将该语境序列和该提问数字序列分别输入该编码器中，生成语境隐向量为[x₁,x₂,x₃,x₄]，生成提问数字隐向量为[c₁,c₂,c₃,c₄]。

103、根据语境隐向量、提问隐向量、对抗网络判别器和对抗网络生成器分别生成第二随机扰动向量、第一随机扰动向量和目标应答隐向量；

服务器将语境隐向量、提问隐向量输入对抗网络判别器和对抗网络生成器中，首先生成第二随机扰动向量和第一随机扰动向量，然后在对抗网络判别器和对抗网络生成器中再对第二随机扰动向量和第一随机扰动向量进行卷积，得到目标应答隐向量。

需要说明的是，第二随机扰动向量和第一随机扰动向量是为了使对抗网络判别器和对抗网络生成器能够生成不同的输出，第二随机扰动向量和第一随机扰动向量对应的输出会伴随插值和加减法方面的特性，从而使得生成器能够生产不同的目标应答隐向量。提高了生成目标应答隐向量的随机性，第二随机扰动向量和第一随机扰动向量并不是完全随机提取的，第二随机扰动向量和第一随机扰动向量均在高斯分布的基础上进行提取的。

104、将目标应答隐向量输入循环解码器进行解码，得到目标应答序列；

服务器将目标应答隐向量输入循环解码器中，在循环解码器中进行解码，得到目标应答序列。

需要说明的是，该循环解码器为更新后的解码器，利用梯度下降法进行反向传播，从而对初始的解码器进行更新，得到循环解码器。在本实施例中，循环解码器是一种自回归机制的解码器，自回归解码器主要采用注意力机制对目标应答隐向量进行解码。

例如，假设目标应答隐向量为[z₁,z₂,z₃,z₄]，从该目标应答隐向量中读取内容隐藏层维度为1*4*525，其中，1代表应答隐向量的维度，4代表应答隐向量的长度，525代表预设的单词向量维度。然后服务器将该内容隐藏层维度输入预置的解码器中，结合自回归机制，生成解码维度和对应的解码标签概率组。解码维度为1*4*(2*D^v)，其中1代表应答序列的维度，4代表应答序列的长度，2*D^v为目标应答隐向量对应的标签个数，服务器在多个解码标签中确定概率最大的解码标签为目标应答标签，从而得到目标应答序列，其中，目标应答标签为目标应答旋律标签和目标应答歌词标签，对应的，目标应答序列包括应答旋律序列和应答歌词序列。

105、根据预置的音符词典和预置的歌词词典对目标应答序列进行序列还原，生成音乐应答数据，音乐应答数据包括应答旋律数据和应答歌词数据。

服务器参照音符词典和歌词词典还原目标应答序列，生成音乐应答数据。

需要说明的是，目标应答序列包括应答旋律序列和应答歌词序列。服务器结合应答旋律序列在音符词典中进行查询，生成应答旋律数据；服务器结合应答歌词序列在歌词词典中进行查询，生成应答歌词数据；服务器按照应答旋律数据的时序和应答歌词数据的时序，将应答旋律数据和应答歌词数据进行对应的整合，生成音乐应答数据。

本发明实施例中，根据语境数据和提问数据生成音乐应答数据时，引入第一随机扰动向量和第二随机扰动向量生成音乐应答数据，解决了传统模型生成单一且重复的音乐应答数据的问题，提高了生成音乐应答数据的丰富性和多变性。

请参阅图2，本发明实施例中音乐应答数据的生成方法的另一个实施例包括：

201、获取语境数据和提问数据，并将语境数据离散为语境数字序列以及将提问数据离散为提问数字序列；

需要说明的是，在本实施例中，语境数字序列和提问数字序列中均为特征属性值不超过200个的数字序列。

具体的，服务器对语境数据进行解析，生成语境旋律数据和语境歌词数据，并离散语境旋律数据和语境歌词数据，生成语境数字序列；服务器对提问数据进行解析，生成提问旋律数据和提问歌词数据，并将提问旋律数据和提问歌词数据进行离散，得到提问数据序列。

需要说明的是，一个语境数据由四个小节的语境旋律数据和对应的四个小节的语境歌词数据组成。

202、将语境数字序列输入编码器，生成语境隐向量；

服务器将语境数字序列输入编码器，在编码器中进行处理，得到语境隐向量。

具体的，将语境数据序列输入编码器的第一层神经网络，在编码器的第一层神经网络中对语境数据序列进行卷积，生成初次卷积后的语境隐向量；服务器在初次卷积后的语境隐向量中添加发声标识，生成添加发声标识后的语境隐向量，发声标识用于指示语境数据对应的发声对象；服务器将添加发声标识后的语境隐向量输入编码器的第二层神经网络，在编码器的第二层神经网络中对添加发声标识后的语境隐向量进行卷积，生成语境隐向量。

例如，语境数字序列为[1,3,3,5]，将[1,3,3,5]输入编码器的第一层神经网络进行卷积，生成初次卷积后的语境隐向量为[g₁,g₂,g₃,g₄]；服务器在[g₁,g₂,g₃,g₄]的基础上添加发声标识1，生成添加发生标识后的语境隐向量[g₁,g₂,g₃,g₄]+1，服务器将[g₁,g₂,g₃,g₄]+1输入编码器的第二层神经网络中进行卷积，生成语境隐向量为[c₁,c₂,c₃,c₄]。

需要说明的是，在本实施例中，发声标识用于指示语境数据对应的发生对象，例如发声标识“1”指明语境数据是由提问者发出的语音转换得到的数据，发生标识“0”指明语境数据是有应答者发出的语音转换得到的数据。

203、将提问数字序列输入编码器的第一层神经网络，在编码器的第一层神经网络中对提问数字序列进行卷积，生成提问隐向量；

服务器将提问数字序列输入编码器的第一层神经网络，例如提问数字序列为[2,5,5,7]，服务器通过编码器的第一层神经网络对[2,5,5,7]进行卷积，生成提问隐向量为[x₁,x₂,x₃,x₄]。

204、根据语境隐向量、提问隐向量、对抗网络判别器和对抗网络生成器分别生成第二随机扰动向量、第一随机扰动向量和目标应答隐向量；

具体的，服务器将语境隐向量输入对抗网络生成器的第一前馈神经网络中进行卷积，生成第一随机扰动向量，并将第一随机扰动向量输入对抗网络生成器的第二前馈神经网络中进行卷积，生成对抗应答隐向量；服务器将语境隐向量和提问隐向量输入对抗网络判别器的第一前馈神经网络中进行卷积，生成第二随机扰动向量，并将第二随机扰动向量输入对抗网络判别器的第二前馈神经网络中进行卷积，生成判别应答隐向量；服务器对比判别应答隐向量和对抗应答隐向量，得到对比结果，根据对比结果计算判别损失函数的函数值，并采用预置的梯度下降法降低判别损失函数的函数值，从而更新对抗网络生成器，得到更新后得对抗网络生成器；服务器将语境隐向量和提问隐向量输入更新后的对抗网络生成器，生成目标应答隐向量。

服务器在生成判别应答隐向量和对抗应答隐向量之后，对比应答隐向量和对抗应答隐向量，具体对比生成应答隐向量时对抗网络判别器的期望和生成对抗应答隐向量时对抗网络生成器的期望，从而得到对比结果，对比结果为一致或者不一致。当对比结果为不一致时，说明对抗网络判别器和对抗网络生成器识别精度不够，此时需要计算损失函数，得到损失函数的函数值，然后采用梯度下降法反向传播，从而降低判别损失，从而得到更新后的对抗网络生成器和对抗网络判别器，但是最后生成目标应答隐向量只需更新后的对抗网络生成器，因此只对更新后的对抗网络生成器进行说明；服务器将语境隐向量和提问隐向量输入更新后的对抗网络生成器中，根据上述生成对抗应答隐向量的过程生成目标应答隐向量。其中损失函数如下所示：

其中，E_{ε～RecNet(x,c)}[D(Q(ε),c]为对抗网络判别器的期望，ε为第二随机扰动向量，RecNet(x,c)为对抗网络判别器的第一前馈神经网络，Q(ε)为对抗网络判别器的第二前馈神经网络；为对抗网络生成器的期望，/>为第一随机扰动向量，PriNet(c)为对抗网络生成器的第一前馈神经网络，/>为对抗网络生成器的第二前馈神经网络。

生成对抗应答隐向量的具体过程为：

服务器将语境隐向量输入对抗网络生成器的第一前馈神经网中进行卷积，得到第一高斯分布均值、第一高斯分布方差和高斯分布模态；服务器基于第一高斯分布均值、第一高斯分布方差和高斯分布模态创建高斯混合模型；服务器采用预置的概率分布采样函数在高斯混合模型中提取第一随机扰动向量；服务器将第一随机扰动向量输入对抗网络生成器的第二前馈神经网络中进行卷积，生成对抗应答隐向量。

服务器将语境隐向量[c₁,c₂,c₃,c₄]输入PriNet(对抗网络判别器的第一前馈神经网络)中进行卷积，得到第一高斯分布均值、第一高斯分布方差和模态，其中，模态具有固有频率、阻尼比和模态振型，不同的模态能生成不同的对抗应答隐向量。服务器将结合第一高斯分布均值、第一高斯分布方差的模态创建高斯混合模型，然后在高低混合模型的基础上提取第一随机扰动向量，并在(对抗网络判别器的第二前馈神经网络)中对第一随机扰动向量进行卷积，生成对抗应答隐向量[z₁ ⁽¹⁾,z₂ ⁽¹⁾,z₃ ⁽¹⁾,z₄ ⁽¹⁾]。

生成判别应答隐向量的具体过程为：

服务器将语境隐向量和提问隐向量输入对抗网络判别器的第一前馈神经网中进行卷积，得到第二高斯分布均值和第二高斯分布方差；服务器基于第二高斯分布均值和第二高斯分布方差创建一元高斯分布；服务器采用预置的概率分布采样函数在一元高斯分布中提取第二随机扰动向量；服务器将第二随机扰动向量输入对抗网络判别器的第二前馈神经网络中进行卷积，生成判别应答隐向量。

例如，提问隐向量为[x₁,x₂,x₃,x₄]，将[x₁,x₂,x₃,x₄]输入RecNet中，(对抗网络生成器的第一前馈神经网络)中进行卷积，得到第二高斯分布均值和第二高斯分布方差，服务器将结合第一高斯分布均值、第一高斯分布方差创建一元高斯分布，然后在一元高斯分布的基础上提取第二随机扰动向量，并在(对抗网络判别器的第二前馈神经网络)中对第二随机扰动向量进行卷积，生成判别应答隐向量[z₁ ⁽²⁾,z₂ ⁽²⁾,z₃ ⁽²⁾,z₄ ⁽²⁾]。

205、将目标应答隐向量输入循环解码器进行解码，得到目标应答序列；

206、根据预置的音符词典和预置的歌词词典对目标应答序列进行序列还原，生成音乐应答数据，音乐应答数据包括应答旋律数据和应答歌词数据。

上面对本发明实施例中音乐应答数据的生成方法进行了描述，下面对本发明实施例中音乐应答数据的生成装置进行描述，请参阅图3，本发明实施例中音乐应答数据的生成装置一个实施例包括：

获取模块301，用于获取语境数据和提问数据，并将所述语境数据离散为语境数字序列以及将所述提问数据离散为提问数字序列；

第一生成模块302，用于根据所述语境数字序列、所述提问数字序列和编码器，生成语境隐向量和提问隐向量；

第二生成模块303，用于根据所述语境隐向量、所述提问隐向量、对抗网络判别器和对抗网络生成器分别生成第二随机扰动向量、第一随机扰动向量和目标应答隐向量；

解码模块304，用于将所述目标应答隐向量输入循环解码器进行解码，得到目标应答序列；

还原模块305，用于根据预置的音符词典和预置的歌词词典对所述目标应答序列进行序列还原，生成音乐应答数据，所述音乐应答数据包括应答旋律数据和应答歌词数据。

请参阅图4，本发明实施例中音乐应答数据的生成装置的另一个实施例包括：

可选的，获取模块301包括：

第一解析单元3011，用于解析所述语境数据，得到语境旋律数据和语境歌词数据，并将所述语境旋律数据和所述语境歌词数据进行离散，得到语境数字序列；

第二解析单元3012，用于解析所述提问数据，得到提问旋律数据和提问歌词数据，并将所述提问旋律数据和所述提问歌词数据进行离散，得到提问数据序列。

可选的，第二解析单元3012还可以具体用于：

将所述语境数字序列输入编码器，生成语境隐向量；

将所述提问数字序列输入所述编码器的第一层神经网络，在所述编码器的第一层神经网络中对所述提问数字序列进行卷积，生成提问隐向量。

可选的，第一生成模块302还可以具体用于：

将所述语境数据序列输入编码器的第一层神经网络，在所述编码器的第一层神经网络中对所述语境数据序列进行卷积，生成初次卷积后的语境隐向量；

在所述初次卷积后的语境隐向量中添加发声标识，生成添加发声标识后的语境隐向量，所述发声标识用于指示所述语境数据对应的发声对象；

将所述添加发声标识后的语境隐向量输入所述编码器的第二层神经网络，在所述编码器的第二层神经网络中对所述添加发声标识后的语境隐向量进行卷积，生成语境隐向量。

可选的，第二生成模块303包括：

第一生成单元3031，用于将所述语境隐向量输入对抗网络生成器的第一前馈神经网络中进行卷积，生成第一随机扰动向量，并将所述第一随机扰动向量输入所述对抗网络生成器的第二前馈神经网络中进行卷积，生成对抗应答隐向量；

第二生成单元3032，用于将所述语境隐向量和所述提问隐向量输入对抗网络判别器的第一前馈神经网络中进行卷积，生成第二随机扰动向量，并将所述第二随机扰动向量输入所述对抗网络判别器的第二前馈神经网络中进行卷积，生成判别应答隐向量；

更新单元3033，用于对比所述判别应答隐向量和所述对抗应答隐向量，得到对比结果，根据所述对比结果计算判别损失函数的函数值，并采用预置的梯度下降法降低所述判别损失函数的函数值，从而更新所述对抗网络生成器，得到更新后得对抗网络生成器；

第三生成单元3034，用于将所述语境隐向量和所述提问隐向量输入所述更新后的对抗网络生成器，生成目标应答隐向量。

可选的，第一生成单元3031还可以具体用于：

将所述语境隐向量输入对抗网络生成器的第一前馈神经网中进行卷积，得到第一高斯分布均值、第一高斯分布方差和高斯分布模态；

基于所述第一高斯分布均值、所述第一高斯分布方差和所述高斯分布模态创建高斯混合模型；

采用预置的概率分布采样函数在所述高斯混合模型中提取第一随机扰动向量；

将所述第一随机扰动向量输入所述对抗网络生成器的第二前馈神经网络中进行卷积，生成对抗应答隐向量。

可选的，第二生成单元3032还可以具体用于：

将所述语境隐向量和所述提问隐向量输入对抗网络判别器的第一前馈神经网中进行卷积，得到第二高斯分布均值和第二高斯分布方差；

基于所述第二高斯分布均值和所述第二高斯分布方差创建一元高斯分布；

采用预置的概率分布采样函数在所述一元高斯分布中提取第二随机扰动向量；

将所述第二随机扰动向量输入所述对抗网络判别器的第二前馈神经网络中进行卷积，生成判别应答隐向量。

上面图3和图4从模块化功能实体的角度对本发明实施例中的音乐应答数据的生成装置进行详细描述，下面从硬件处理的角度对本发明实施例中音乐应答数据的生成设备进行详细描述。

图5是本发明实施例提供的一种音乐应答数据的生成设备的结构示意图，该音乐应答数据的生成设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)510(例如，一个或一个以上处理器)和存储器520，一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对音乐应答数据的生成设备500中的一系列指令操作。更进一步地，处理器510可以设置为与存储介质530通信，在音乐应答数据的生成设备500上执行存储介质530中的一系列指令操作。

音乐应答数据的生成设备500还可以包括一个或一个以上电源540，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口560，和/或，一个或一个以上操作系统531，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图5示出的音乐应答数据的生成设备结构并不构成对音乐应答数据的生成设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种音乐应答数据的生成设备，所述计算机设备包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行上述各实施例中的所述音乐应答数据的生成方法的步骤。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述音乐应答数据的生成方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种音乐应答数据的生成方法，其特征在于，所述音乐应答数据的生成方法包括：

获取语境数据和提问数据，并将所述语境数据离散为语境数字序列以及将所述提问数据离散为提问数字序列；

根据所述语境数字序列、所述提问数字序列和编码器，生成语境隐向量和提问隐向量；

根据所述语境隐向量、所述提问隐向量、对抗网络判别器和对抗网络生成器分别生成第二随机扰动向量、第一随机扰动向量和目标应答隐向量；

将所述目标应答隐向量输入循环解码器进行解码，得到目标应答序列；

根据预置的音符词典和预置的歌词词典对所述目标应答序列进行序列还原，生成音乐应答数据，所述音乐应答数据包括应答旋律数据和应答歌词数据；

所述根据所述语境数字序列、所述提问数字序列和编码器，生成语境隐向量和提问隐向量包括：

将所述语境数字序列输入编码器，生成语境隐向量；

将所述提问数字序列输入所述编码器的第一层神经网络，在所述编码器的第一层神经网络中对所述提问数字序列进行卷积，生成提问隐向量；

所述根据所述语境隐向量、所述提问隐向量、对抗网络判别器和对抗网络生成器分别生成第二随机扰动向量、第一随机扰动向量和目标应答隐向量包括：

将所述语境隐向量输入对抗网络生成器的第一前馈神经网络中进行卷积，生成第一随机扰动向量，并将所述第一随机扰动向量输入所述对抗网络生成器的第二前馈神经网络中进行卷积，生成对抗应答隐向量；

将所述语境隐向量和所述提问隐向量输入对抗网络判别器的第一前馈神经网络中进行卷积，生成第二随机扰动向量，并将所述第二随机扰动向量输入所述对抗网络判别器的第二前馈神经网络中进行卷积，生成判别应答隐向量；

对比所述判别应答隐向量和所述对抗应答隐向量，得到对比结果，根据所述对比结果计算判别损失函数的函数值，并采用预置的梯度下降法降低所述判别损失函数的函数值，从而更新所述对抗网络生成器，得到更新后得对抗网络生成器；

将所述语境隐向量和所述提问隐向量输入所述更新后的对抗网络生成器，生成目标应答隐向量。

2.根据权利要求1所述的音乐应答数据的生成方法，其特征在于，所述获取语境数据和提问数据，并将所述语境数据离散为语境数字序列以及将所述提问数据离散为提问数字序列包括：

解析所述语境数据，得到语境旋律数据和语境歌词数据，并将所述语境旋律数据和所述语境歌词数据进行离散，得到语境数字序列；

解析所述提问数据，得到提问旋律数据和提问歌词数据，并将所述提问旋律数据和所述提问歌词数据进行离散，得到提问数据序列。

3.根据权利要求1所述的音乐应答数据的生成方法，其特征在于，所述将所述语境数字序列输入编码器，生成语境隐向量包括：

4.根据权利要求1所述的音乐应答数据的生成方法，其特征在于，所述将所述语境隐向量输入对抗网络生成器的第一前馈神经网络中进行卷积，生成第一随机扰动向量，并将所述第一随机扰动向量输入所述对抗网络生成器的第二前馈神经网络中进行卷积，生成对抗应答隐向量包括：

5.根据权利要求1所述的音乐应答数据的生成方法，其特征在于，所述将所述语境隐向量和所述提问隐向量输入对抗网络判别器的第一前馈神经网络中进行卷积，生成第二随机扰动向量，并将所述第二随机扰动向量输入所述对抗网络判别器的第二前馈神经网络中进行卷积，生成判别应答隐向量包括：

6.一种音乐应答数据的生成装置，其特征在于，所述音乐应答数据的生成装置执行如权利要求1-5中任意一项所述的音乐应答数据的生成方法，所述音乐应答数据的生成装置包括：

获取模块，用于获取语境数据和提问数据，并将所述语境数据离散为语境数字序列以及将所述提问数据离散为提问数字序列；

第一生成模块，用于根据所述语境数字序列、所述提问数字序列和编码器，生成语境隐向量和提问隐向量；

第二生成模块，用于根据所述语境隐向量、所述提问隐向量、对抗网络判别器和对抗网络生成器分别生成第二随机扰动向量、第一随机扰动向量和目标应答隐向量；

解码模块，用于将所述目标应答隐向量输入循环解码器进行解码，得到目标应答序列；

还原模块，用于根据预置的音符词典和预置的歌词词典对所述目标应答序列进行序列还原，生成音乐应答数据，所述音乐应答数据包括应答旋律数据和应答歌词数据。

7.一种音乐应答数据的生成设备，其特征在于，所述音乐应答数据的生成设备包括：存储器和至少一个处理器，所述存储器中存储有指令；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述音乐应答数据的生成设备执行如权利要求1-5中任意一项所述的音乐应答数据的生成方法。

8.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1-5中任一项所述音乐应答数据的生成方法。