CN110851650A

CN110851650A - 一种评论输出方法、装置、以及计算机存储介质

Info

Publication number: CN110851650A
Application number: CN201911096537.1A
Authority: CN
Inventors: 缪畅宇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-11-11
Filing date: 2019-11-11
Publication date: 2020-02-28
Anticipated expiration: 2039-11-11
Also published as: CN110851650B

Abstract

本申请实施例公开了一种评论输出方法、装置、以及计算机存储介质，所述方法涉及人工智能领域中的自然语言处理方向，所述方法包括：获取目标音频对应的文本信息、以及音频旋律信息，分别对文本信息、以及音频旋律信息进行特征提取，得到文本特征、以及多个音频旋律特征，基于语义解码模型对文本特征进行语义解码，得到解码数据，基于当前状态信息，对多个音频旋律特征进行融合，得到表征音频旋律特征受关注程度的注意力特征数据，基于语义解码模型，对解码数据、以及注意力特征数据进行语义解码，得到目标音频对应的评论，输出评论。该方案可以提高评论与目标音频之间的匹配程度。

Description

一种评论输出方法、装置、以及计算机存储介质

技术领域

本申请涉及计算机技术领域，具体涉及一种评论输出方法、装置、以及计算机存储介质。

背景技术

歌曲评论是针对歌曲作出的总结、分析、以及评价等的评论文本，为歌曲匹配合适的歌曲评论，能够起到吸引用户收听歌曲、提升歌曲播放量、为新上市或者小众的歌曲打开市场、提升新歌手的曝光度、活跃音乐社区、以及助力音乐社区等优点。

但是，邀请专业的乐评人撰写歌曲评论，消耗的成本较高。现有技术中可以利用机器学习的方法，对歌曲的歌词、歌曲的类型等进行分析，输出相应的歌曲评论，然而，这种输出歌曲评论的方法得到的歌曲评论与歌曲本身的匹配程度较低。

发明内容

本申请实施例提供一种评论输出方法、装置、以及计算机存储介质，可以提高评论与目标音频之间的匹配程度。

本申请实施例提供一种评论输出方法，包括：

获取目标音频对应的文本信息、以及音频旋律信息；

分别对所述文本信息、以及所述音频旋律信息进行特征提取，得到文本特征、以及多个音频旋律特征；

基于语义解码模型对所述文本特征进行语义解码，得到解码数据，所述解码数据包括表征所述语义解码模型隐含状态的当前状态信息；

基于所述当前状态信息，对多个音频旋律特征进行融合，得到表征所述音频旋律特征受关注程度的注意力特征数据；

基于所述语义解码模型，对所述解码数据、以及所述注意力特征数据进行语义解码，得到所述目标音频对应的评论；

输出所述评论。

相应的，本申请实施例还提供一种评论输出装置，包括：

获取模块，用于获取目标音频对应的文本信息、以及音频旋律信息；

特征提取模块，用于分别对所述文本信息、以及所述音频旋律信息进行特征提取，得到文本特征、以及多个音频旋律特征；

第一解码模块，用于基于语义解码模型对所述文本特征进行语义解码，得到解码数据，所述解码数据包括表征所述语义解码模型隐含状态的当前状态信息；

融合模块，用于基于所述当前状态信息，对多个音频旋律特征进行融合，得到表征所述音频旋律特征受关注程度的注意力特征数据；

第二解码模块，用于基于所述语义解码模型，对所述解码数据、以及所述注意力特征数据进行语义解码，得到所述目标音频对应的评论；

输出模块，用于输出所述评论。

可选的，在一些实施例中，所述特征提取模块可以包括第一提取子模块和第二提取子模块，如下：

第一提取子模块，用于对所述文本信息进行特征提取，得到文本特征；

第二提取子模块，用于基于多种音频旋律特征提取方法对所述音频旋律信息进行特征提取，得到每种音频旋律特征提取方法对应的音频旋律特征。

则此时，所述第一提取子模块，具体可以用于从所述文本信息中确定多个种类的文本子信息，分别对多个种类的文本子信息进行特征提取，得到每个种类文本子信息对应的文本子特征。

则此时，所述第一解码模块，具体可以用于对所述文本特征中多个文本子特征进行融合，得到初始文本特征，基于语义解码模型对所述初始文本特征进行语义解码，得到解码数据，所述解码数据包括表征所述语义解码模型隐含状态的当前状态信息。

则此时，所述融合模块，具体可以用于基于所述当前状态信息，获取每个音频旋律特征对应的权重，基于所述权重，对多个音频旋律特征进行加权运算，得到表征所述音频旋律特征受关注程度的注意力特征数据。

可选的，在一些实施例中，所述第二解码模块可以包括确定子模块、解码子模块、更新子模块、返回子模块和获取子模块，如下：

确定子模块，用于将所述解码数据、以及所述注意力特征数据作为所述语义解码模型的当前输入；

解码子模块，用于基于所述语义解码模型，对所述当前输入进行语义解码，得到语义解码后数据；

更新子模块，用于基于所述语义解码后数据更新解码数据；

返回子模块，用于当所述解码数据不满足终止条件时，返回执行基于所述当前状态信息，对多个音频旋律特征进行融合，得到表征所述音频旋律特征受关注程度的注意力特征数据的步骤；

获取子模块，用于当所述解码数据满足终止条件时，基于所述解码数据获取所述目标音频对应的评论。

则此时，所述获取子模块，具体可以用于确定所述解码数据中评论内容的内容信息数量，当所述内容信息数量达到预设信息数量时，将所述解码数据中的评论内容进行组合，得到所述目标音频对应的评论。

则此时，所述获取子模块，具体可以用于对所述解码数据进行检测，得到检测结果，当所述检测结果确定所述解码数据中包括预设结束标识时，将所述解码数据中的评论内容进行组合，得到所述目标音频对应的评论。

则此时，所述获取模块，具体可以用于基于用户针对终端上歌曲选择页面的歌曲选择操作，确定待输出评论的目标歌曲，获取所述目标歌曲对应的文本信息、以及音频旋律信息。

此外，本申请实施例还提供一种计算机存储介质，所述计算机存储介质存储有多条指令，所述指令适于处理器进行加载，以执行本申请实施例提供的任一种评论输出方法中的步骤。

本申请实施例可以获取目标音频对应的文本信息、以及音频旋律信息，分别对文本信息、以及音频旋律信息进行特征提取，得到文本特征、以及多个音频旋律特征，基于语义解码模型对文本特征进行语义解码，得到解码数据，解码数据包括表征语义解码模型隐含状态的当前状态信息，基于当前状态信息，对多个音频旋律特征进行融合，得到表征音频旋律特征受关注程度的注意力特征数据，基于语义解码模型，对解码数据、以及注意力特征数据进行语义解码，得到目标音频对应的评论，输出评论。该方案可以通过对目标音频对应的文本信息、以及音频旋律信息进行分析，自动输出目标音频对应的评论，提高了评论与目标音频之间的匹配程度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的评论输出系统的场景示意图；

图2是本申请实施例提供的评论输出方法的第一流程图；

图3是本申请实施例提供的评论输出方法的第二流程图；

图4是本申请实施例提供的评论输出方法的整体框架图；

图5是本申请实施例提供的评论输出方法的详细框架图；

图6是本申请实施例提供的LSTM模型解码流程图；

图7是本申请实施例提供的解码器解码流程图；

图8是本申请实施例提供的歌曲选择页面示意图；

图9是本申请实施例提供的评论页面示意图；

图10是本申请实施例提供的评论输出装置的结构示意图；

图11是本申请实施例提供的网络设备的结构示意图。

具体实施方式

请参照图式，其中相同的组件符号代表相同的组件，本申请的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本申请具体实施例，其不应被视为限制本申请未在此详述的其它具体实施例。

在以下的说明中，本申请的具体实施例将参考由一部或多部计算机所执行的步骤及符号来说明，除非另有述明。因此，这些步骤及操作将有数次提到由计算机执行，本文所指的计算机执行包括了由代表了以一结构化型式中的数据的电子信号的计算机处理单元的操作。此操作转换该数据或将其维持在该计算机的内存系统中的位置处，其可重新配置或另外以本领域测试人员所熟知的方式来改变该计算机的运作。该数据所维持的数据结构为该内存的实体位置，其具有由该数据格式所定义的特定特性。但是，本申请原理以上述文字来说明，其并不代表为一种限制，本领域测试人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。

本文所使用的术语“模块”可看作为在该运算系统上执行的软件对象。本文所述的不同组件、模块、引擎及服务可看作为在该运算系统上的实施对象。而本文所述的装置及方法可以以软件的方式进行实施，当然也可在硬件上进行实施，均在本申请保护范围之内。

本申请中的术语“第一”、“第二”和“第三”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、系统、产品或设备没有限定于已列出的步骤或模块，而是某些实施例还包括没有列出的步骤或模块，或某些实施例还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本申请实施例提供一种评论输出方法，该评论输出方法的执行主体可以是本申请实施例提供的评论输出装置，或者集成了该评论输出装置的网络设备，其中该评论输出装置可以采用硬件或者软件的方式实现。其中，网络设备可以是智能手机、平板电脑、掌上电脑、笔记本电脑、或者台式电脑等设备。网络设备包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或者多个服务器构成的云。

请参阅图1，图1为本申请实施例提供的评论输出方法的应用场景示意图，以评论输出装置集成在网络设备中为例，网络设备可以获取目标音频对应的文本信息、以及音频旋律信息，分别对文本信息、以及音频旋律信息进行特征提取，得到文本特征、以及多个音频旋律特征，基于语义解码模型对文本特征进行语义解码，得到解码数据，解码数据包括表征语义解码模型隐含状态的当前状态信息，基于当前状态信息，对多个音频旋律特征进行融合，得到表征音频旋律特征受关注程度的注意力特征数据，基于语义解码模型，对解码数据、以及注意力特征数据进行语义解码，得到目标音频对应的评论，输出评论。

本申请实施例提供的评论输出方法涉及人工智能领域中的自然语言处理方向。本申请实施例可以通过文本生成技术，基于目标音频对应的文本信息、以及音频旋律信息，生成目标音频对应的评论。

其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。其中，人工智能软件技术主要包括计算机视觉技术、机器学习/深度学习等方向。

其中，自然语言处理(Nature Language processing，NLP)是研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

请参阅图2，图2为本申请实施例提供的评论输出方法的流程示意图，具体通过如下实施例进行说明：

201、获取目标音频对应的文本信息、以及音频旋律信息。

其中，目标音频可以为需要生成相应评论的音频文件，在本申请实施例中不对目标音频的类型、形式、以及内容进行过多限制，目标音频可以为有歌词的歌曲、没有歌词的纯音乐、一首歌曲中截取的部分音频、一段下载得到的音频、或者录制得到的音频，如鸟鸣、说话声音、乐器声音等等，都可以作为目标音频。

其中，文本信息为通过文本的形式表征歌曲相关信息的文本，文本信息的类型可以有多种，比如，文本信息可以包括歌名、歌词、歌手名、歌词作者名、歌曲作者名、歌曲的类型名称等等信息中的一种或几种。

其中，音频旋律信息为在时间维度上描述音频幅值的序列，能够表征歌曲的旋律。比如，音频旋律信息可以为包括语音、音乐、以及音效等的有规律的声波。

在实际应用中，比如，当需要获取某歌曲对应的歌曲评论时，可以将该歌曲作为目标音频，并获取该歌曲对应的歌名、歌词、歌手名、歌词作者名、歌曲作者名、歌曲的类型名称中的一种或几种，作为目标音频对应的文本信息，并获取该歌曲的音频数据作为目标音频对应的音频旋律信息。

在一实施例中，获取文本信息的步骤和获取音频旋律信息的步骤之间的时序不受限制，比如，获取文本信息的步骤可以在获取音频旋律信息的步骤之前，也可以是获取音频旋律信息的步骤在获取文本信息的步骤之前，当然，也可以同时执行获取文本信息的步骤和获取音频旋律信息的步骤等等。

在一实施例中，该评论输出方法可以应用于终端上，用户可以通过歌曲选择操作确定目标音频，并将生成的评论显示在终端页面上。具体地，步骤“获取目标音频对应的文本信息、以及音频旋律信息”，可以包括：

基于用户针对终端上歌曲选择页面的歌曲选择操作，确定待输出评论的目标歌曲；

获取所述目标歌曲对应的文本信息、以及音频旋律信息。

在实际应用中，比如，如图8所示，当用户需要利用该评论输出方法，对某首歌曲匹配评论时，用户可以通过点击终端页面上的预设区域，向终端发送需要输出评论的请求，终端接收到来自用户的请求后，可以显示歌曲选择页面，该歌曲选择页面上可以包括多首歌曲的列表，用户可以通过点击等的方式，从歌曲列表中选择一首歌曲作为目标音频。

又比如，在歌曲选择页面上，还可以包括歌曲名称编辑区域，用户可以针对该歌曲名称编辑区域编辑歌曲的名称，并根据用户编辑的名称，确定需要输出评论的目标音频。

202、分别对文本信息、以及音频旋律信息进行特征提取，得到文本特征、以及多个音频旋律特征。

在实际应用中，比如，获取到目标音频对应的文本信息和音频旋律信息后，为了方便后续利用网络模型对文本信息、以及音频旋律信息进行处理，可以通过特征提取的方式，分别从文本信息和音频旋律信息中提取出文本信息对应的文本特征、以及音频旋律信息对应的多个相同维度的音频旋律特征，其中，文本特征和音频旋律特征可以表示为向量或者矩阵等的形式。

在一实施例中，可以通过从音频旋律信息中提取出多种类型的音频旋律特征，以提高音频旋律信息特征提取的准确性，进而提高评论与目标音频之间的匹配程度，因此，可以通过多种音频旋律特征提取方法进行音频旋律特征的提取。具体地，步骤“分别对所述文本信息、以及所述音频旋律信息进行特征提取，得到文本特征、以及多个音频旋律特征”，可以包括：

对所述文本信息进行特征提取，得到文本特征；

基于多种音频旋律特征提取方法对所述音频旋律信息进行特征提取，得到每种音频旋律特征提取方法对应的音频旋律特征。

其中，音频旋律特征提取方法可以为能够提取出音频旋律信息中特征向量的方法，该音频旋律特征提取方法可以有多种，比如，音频旋律特征提取方法可以为FFT(fastFourier transform，快速傅里叶变换)、STFT(short-time Fourier transform，短时傅里叶变换)、MFCC(Mel-scale Frequency Cepstral Coefficients，梅尔倒谱系数)等等。

其中，FFT(fast Fourier transform，快速傅里叶变换)是利用计算机高效快速计算离散傅里叶变换的方法，它是根据离散傅里叶变换的奇、偶、虚、实等特性，对离散傅里叶变换进行改进得到的。通过快速傅里叶变换算法能够减少计算离散傅里叶变换时需要的乘法次数，其中，被变换的抽样点数N越多，快速傅里叶变换算法节省计算量的效果越显著。

其中，STFT(short-time Fourier transform，短时傅里叶变换)是用以确定时变信号局部区域正弦波的频率与相位的一种数学变换，短时傅里叶变换中使用到一个固定的窗函数，一旦确定了窗函数，其形状就不再发生改变，因此，能够确定短时傅里叶变换的分辨率。其中，还可以通过重新选择窗函数的方式改变分辨率。

其中，MFCC(Mel-scale Frequency Cepstral Coefficients，梅尔倒谱系数)是组成梅尔频率倒谱的系数，其中，梅尔频率倒谱的系数是基于声音频率的非线性梅尔刻度的对数能量频谱的线性变换。梅尔倒谱系数衍生自音讯片段的倒频谱。其中，梅尔频率倒谱的频带划分是在梅尔刻度上等距划分的，它比用于正常的对数倒频谱中的线性间隔的频带更能近似人类的听觉系统。这样的非线性表示，可以在音讯压缩领域等多个领域中，更好的表示声音信号。

在实际应用中，比如，获取到目标音频对应的文本信息后，可以对文本信息进行特征提取，得到文本特征。由于对音频旋律信息进行特征提取的音频旋律特征提取方法可以有多种，并且每种音频旋律特征提取方法都能提取出含义不同的音频旋律特征，因此，为了提升音频旋律特征提取的准确性，可以利用多种音频旋律特征提取方法对音频旋律信息进行特征提取，如可以通过快速傅里叶变换、短时傅里叶变换、梅尔倒谱系数等音频旋律特征提取方法，进行音频旋律信息的特征提取，得到每种音频旋律特征提取方法对应的音频旋律特征，其中，提取出的多个音频旋律特征都代表了不同的物理含义，并且通过每种音频旋律特征提取方法提取出来的音频旋律特征，都可以压缩成音频旋律特征向量的形式。

比如，如图5所示，将目标音频对应的音频旋律信息输入至音频编码器中，可以利用快速傅里叶变换、短时傅里叶变换、梅尔倒谱系数三种音频旋律特征提取方法对音频旋律信息进行特征提取，得到通过快速傅里叶变换提取得到的音频旋律特征向量1、通过短时傅里叶变换提取得到的音频旋律特征向量2、以及通过梅尔倒谱系数提取得到的音频旋律特征向量3。

在一实施例中，由于目标音频的文本信息中可能包括多个种类的文本子信息，每个种类的文本子信息都表征了目标音频不同种类的信息，因此，不能将不同种类的文本子信息混在一起进行编码，而是要分别对多个种类的文本子信息进行编码，得到每个种类文本子信息对应的文本子特征。具体地，步骤“对所述文本信息进行特征提取，得到文本特征”，可以包括：

从所述文本信息中确定多个种类的文本子信息；

分别对多个种类的文本子信息进行特征提取，得到每个种类文本子信息对应的文本子特征。

在实际应用中，比如，获取到目标音频对应的文本信息后，可以对文本信息进行分类，如可以将文本信息分为歌名、歌词、歌手名、词作者名、曲作者名、歌曲的类型名等多个种类的文本子信息，每个种类的文本子信息都表征了目标音频某个具体方面的特征。然后，分别对多个种类的文本子信息进行特征提取，并得到每个种类文本子信息对应的文本子特征。

比如，如图5所示，文本信息中可以包括歌词、歌手、音频类型三个种类的文本子信息，将歌词、歌手、音频类型三个种类的文本子信息输入至文本编码器中，分别提取三个种类文本子信息的特征，得到歌词特征向量、歌手特征向量、以及音频类型特征向量。

在一实施例中，提取文本信息的特征的方法可以有多种，如可以利用获取文本对应的主题向量、或者通过文本中关键词的标注获取词向量等的方式，提取文本信息的特征，比如，可以利用LDA(Latent Dirichlet Allocation，隐含狄利克雷分布)、word2vec(wordto vector)、doc2vec(paragraph to vector)等等模型，提取文本信息对应的文本特征。

其中，LDA(文档主题生成模型，Latent Dirichlet Allocation)是一种非监督机器学习技术，可以用于识别大规模文档集或者语料库中潜藏的主题信息。LDA模型采用了词袋的方法，将每一篇文档都视为一个词频向量，从而将文本信息转化成为易于建模的数字信息。每一篇文档代表了一些主题所构成的一个概率分布，而每一个主题又代表了很多单词所构成的一个概率分布。

其中，word2vec(word to vector)模型是一种用来产生向量的相关模型，该模型为双层的神经网络，可以重新建构语言学的词文本，并且能够猜测相邻位置的输入词。word2vec模型可以用来将每个词映射成为一个向量，该向量可以表示词与词之间的关系。

其中，doc2vec(paragraph to vector)是一种非监督式算法，通过doc2vec可以获得句子、段落、文档等的向量表达。通过学习得到的向量，可以通过计算距离获得句子、段落、文档之间的相似性，并应用于文本聚类，对于有标签的数据，还可以通过监督学习的方法进行文本分类，并且可以应用于诸如情感分析问题等场景中。

在一实施例中，如图5所示，该评论输出方法包括能够提取文本信息对应文本特征的文本编辑器、以及能够提取音频旋律信息对应音频旋律特征的音频编辑器，本申请实施例不对文本编码器、以及音频编码器的具体形式进行过多限制，只要能将文本信息或者音频旋律信息转换为向量或者矩阵形式的特征的模型，都可以应用于本申请实施例的编码器中。

在一实施例中，获取文本特征的步骤和获取音频旋律特征的步骤之间的时序不受限制，比如，获取文本特征的步骤可以在获取音频旋律特征的步骤之前，也可以是获取音频旋律特征的步骤在获取文本特征的步骤之前，当然，也可以同时执行获取文本特征的步骤和获取音频旋律特征的步骤等等。

203、基于语义解码模型对文本特征进行语义解码，得到解码数据，解码数据包括表征语义解码模型隐含状态的当前状态信息。

在实际应用中，获取到文本特征、以及音频旋律特征后，可以利用解码器对文本特征、以及音频旋律特征进行解码，并最终得到目标音频对应的评论。其中，该解码器可以为能够将编码生成的固定向量转化成输出序列的模型。比如，解码器可以为seq2seq(Sequence to Sequence)模型中的解码部分。并且该解码器中可以包括语义解码模型，语义解码模型通过多次对输入数据进行解码，得到多个输出序列，然后，将语义解码模型输出的多个输出序列进行组合，可以得到解码器最终输出的评论。

其中，seq2seq(Sequence to Sequence)是一种Encoder(编码)-Decoder(解码)结构的神经网络，由于其输入是一个序列，输出也是一个序列，因而称为Sequence toSequence。seq2seq能够根据给定的输入序列，通过特定的方法生成输出序列。比如，可以将seq2seq应用于翻译领域，输入序列可以为“Hello”，则会输出“你好”；又比如，还可以将seq2seq应用于人机对话领域，输入序列可以为“你是谁？”，则会输出“我是某某某”。

其中，语义解码模型可以为位于解码器中，能够对历史时间点进行总结并传递给当前状态，以学习到序列中所有节点状态的模型。比如，语义解码模型可以为RNN(Recurrent Neural Network，循环神经网络)模型、LSTM(Long Short-Term Memory，长短期记忆网络)模型，等等。

其中，RNN(Recurrent Neural Network，循环神经网络)是以序列数据作为输入，在序列的演进方向进行递归，并且所有节点按链式连接的递归神经网络。循环神经网络具有记忆性、参数共享、以及图灵完备的特性，因此适合应用于对序列的非线性特征进行学习。由于循环神经网络的诸多特点，因此，在语音识别、语言建模、机器翻译等自然语言处理领域中都有应用。

其中，LSTM(Long Short-Term Memory，长短期记忆网络)是一种时间循环神经网络，能够解决一般循环神经网络中存在的梯度消失问题。在长短期记忆网络的每个序列索引位置某时刻向前传播的包括隐含状态h_t和细胞状态c_i，并且在每个序列索引位置包括遗忘门、输入门、以及输出门。

其中，解码数据可以为经过语义解码模型后输出的数据。比如，当语义解码模型为LSTM模型，输入文本信息对应的文本特征向量后，可以得到表征语义解码模型隐含状态的当前状态信息h_t、以及评论内容y_i，该评论内容可以为表征经过语义解码模型后，得到的输出序列的序列内容，将LSTM模型输出的至少一个评论内容进行组合，能够得到需要的评论。

在实际应用中，比如，可以将文本特征作为初始的输入数据，输入到语义解码模型中，此处的语义解码模型可以为LSTM模型，基于语义解码模型对输入的文本特征进行语义解码，得到解码数据，其中，解码数据中包括表征语义解码模型隐含状态的当前状态信息h_t、以及评论内容y_i。

在一实施例中，由于文本特征中包括多个文本子特征，因此，该评论输出方法还包括文本子特征的融合过程。具体地，步骤“基于语义解码模型对所述文本特征进行语义解码，得到解码数据，所述解码数据包括表征所述语义解码模型隐含状态的当前状态信息”，可以包括：

对所述文本特征中多个文本子特征进行融合，得到初始文本特征；

基于语义解码模型对所述初始文本特征进行语义解码，得到解码数据，所述解码数据包括表征所述语义解码模型隐含状态的当前状态信息。

在实际应用中，比如，由于文本特征中包括多个含义不同的文本子特征，因此，可以通过x_1i表示文本子特征，并给每个文本子特征分配一个权重α_i，通过x_avg表示初始文本特征，初始文本特征x_avg中包括多个文本子特征的融合特征信息。其中，初始文本特征x_avg的计算公式可以如下：

x_avg＝∑(α_i·x_1i)

其中，∑α_i＝1。如图6所示，计算得到初始文本特征后，可以将初始文本特征输入至LSTM模型中，LSTM模型经过计算后，可以输出表征语义解码模型当前隐含状态的当前状态信息h_t、以及评论内容y_i。

在一实施例中，本申请实施例中每个文本子特征对应的权重可以根据实际情况进行调整，比如，每个文本子特征对应的权重也可以根据实际情况，通过学习得到。

在一实施例中，将多个文本子特征融合为初始文本特征的方法不仅限于加权平均的方法，只要能够将多个文本子特征融合为一个初始文本特征的方法都可以。

204、基于当前状态信息，对多个音频旋律特征进行融合，得到表征音频旋律特征受关注程度的注意力特征数据。

其中，注意力机制可以应用于解码器中，当输入的内容较多时，可以通过添加注意力机制的方式，向解码器中加入输入序列的信息。比如，可以通过为每个输入序列都分配一个权重，从而将输入序列的信息加入到解码器中进行运算，其中，每个权重代表了分配给对应输入序列的注意力大小。由于引入了原始的信息，因而可以提升解码的准确性。

在实际应用中，由于乐评人在评论歌曲的过程中，不仅会考虑歌曲的歌词、作者、类型等信息，而且会将歌曲的旋律等直观的音频旋律信息带给他的感受加入至歌曲的评论中。因此，可以通过添加注意力机制的方式，将目标音频的音频旋律信息添加至解码器中予以考虑，并得到与目标音频匹配程度更高的评论。比如，获取到表征语义解码模型当前隐含状态的当前状态信息h_i后，根据该当前状态信息计算得到分配给每个音频旋律特征的注意力大小，并根据分配给每个音频旋律特征的注意力大小，对多个音频旋律特征进行融合，得到表征音频旋律特征受关注程度的注意力特征数据。

在一实施例中，可以通过权重的形式表示分配给每个音频旋律特征的注意力大小。具体地，步骤“基于所述当前状态信息，对多个音频旋律特征进行融合，得到表征所述音频旋律特征受关注程度的注意力特征数据”，可以包括：

基于所述当前状态信息，获取每个音频旋律特征对应的权重；

基于所述权重，对多个音频旋律特征进行加权运算，得到表征所述音频旋律特征受关注程度的注意力特征数据。

在实际应用中，比如，可以将当前计算出的当前状态信息h_t、以及多个音频旋律特征x_2i输入至权重计算函数f_attention中，计算出每个音频旋律特征x_2i对应的权重β_i，然后根据计算出的权重β_i，对多个音频旋律特征进行加权计算，得到表征音频旋律特征受关注程度的注意力特征数据h_avg，其中，权重β_i、以及注意力特征数据h_avg的计算公式可以如下：

β_i＝f_attention(h_t,x_2i)

h_avg＝∑(β_i·x_2i)

其中，权重计算函数f_attention的形式不唯一，所有注意力机制的权重计算方法都可以。

在一实施例中，由于通过注意力机制能够将原始的序列信息加入到解码器中，提高解码准确性，因此还可以将原始的文本特征也加入至解码器中，以丰富解码器中的数据。比如，可以通过x_i表示多个音频旋律特征、以及多个文本子特征，然后将当前计算出的当前状态信息h_t、以及多个特征x_i输入至权重计算函数f_attention中，计算出每个特征对应的权重β_i，然后根据计算出的权重β_i，对多个特征进行加权计算，得到表征每个特征受关注程度的注意力特征数据h_avg，其中，权重β_i、以及注意力特征数据h_avg的计算公式可以如下：

β_i＝f_attention(h_t,x_i)

h_avg＝∑(β_i·x_i)

205、基于语义解码模型，对解码数据、以及注意力特征数据进行语义解码，得到目标音频对应的评论。

其中，评论可以为与目标音频相关的互动信息，比如，当目标音频为歌曲时，评论可以为该歌曲对应的评论，用户可以通过阅读该评论，了解到歌曲的内容、类型、歌词、作者等信息，从而提升歌曲的曝光度。

在实际应用中，比如，通过语义解码模型获取到包括当前状态信息h_t和评论内容y_i的解码数据、以及注意力特征数据h_avg之后，可以对语义解码模型中的参数进行更新，然后，可以将当前状态信息h_t、评论内容y_i、以及注意力特征数据h_avg输入至更新后的语义解码模型中，继续预测评论内容，直至预测完成，得到目标音频对应的评论。

在一实施例中，由于解码器seq2seq是通过多次经过LSTM模型进行语义解码，得到多个评论内容，并根据多个评论内容得到最终的评论，因此，该评论输出方法中包括循环的语义解码步骤。具体地，步骤“基于所述语义解码模型，对所述解码数据、以及所述注意力特征数据进行语义解码，得到所述目标音频对应的评论”，可以包括：

将所述解码数据、以及所述注意力特征数据作为所述语义解码模型的当前输入；

基于所述语义解码模型，对所述当前输入进行语义解码，得到语义解码后数据；

基于所述语义解码后数据更新解码数据；

当所述解码数据不满足终止条件时，返回执行基于所述当前状态信息，对多个音频旋律特征进行融合，得到表征所述音频旋律特征受关注程度的注意力特征数据的步骤；

当所述解码数据满足终止条件时，基于所述解码数据获取所述目标音频对应的评论。

在实际应用中，比如，可以将解码数据中的当前状态信息h_t、评论内容y_i、以及注意力特征数据h_avg作为语义解码模型的当前输入，然后通过语义解码模型进行语义解码，得到包括语义解码后数据，该语义解码后数据包括解码后的当前状态信息h_t+1、以及解码后的评论内容y_i+1。然后，可以将解码后的当前状态信息h_t+1作为当前状态信息h_t，将解码后的评论内容y_i+1作为评论内容y_i，也即，将语义解码后数据作为解码数据。此时，当解码数据不满足终止条件时，可以继续根据当前状态信息h_t，确定每个音频旋律特征对应的权重β_i，并根据获取到的权重β_i对多个音频旋律特征加权运算，得到注意力特征数据h_avg。然后继续将解码数据中的当前状态信息h_t、评论内容y_i、以及注意力特征数据h_avg作为语义解码模型的当前输入，通过语义解码模型得到解码后的当前状态信息h_t+1、以及解码后的评论内容y_i+1。直至解码数据满足终止条件，此时，可以根据获取到的多个评论内容，组合得到目标音频对应的评论。

在一实施例中，可以通过控制获取到的评论内容的数量，确定循环的终止条件。具体地，步骤“当所述解码数据满足终止条件时，基于所述解码数据获取所述目标音频对应的评论”，可以包括：

确定所述解码数据中评论内容的内容信息数量；

当所述内容信息数量达到预设信息数量时，将所述解码数据中的评论内容进行组合，得到所述目标音频对应的评论。

在实际应用中，当检测到评论内容的数量达到了预设信息数量时，可以认为此时解码数据满足终止条件，并将获取到的评论内容进行组合，得到目标音频对应的评论。比如，可以将预设信息数量设置为20，当获取到评论内容y₀、y₁、y₂…y₂₀后，此时评论内容的数量达到了20，可以认为此时解码数据满足终止条件，然后可以将评论内容y₀、y₁、y₂…y₂₀进行组合，得到目标音频对应的评论。

在一实施例中，还可以通过检测解码数据中是否包括预设结束标识，确定循环的终止条件。具体地，步骤“当所述解码数据满足终止条件时，基于所述解码数据获取所述目标音频对应的评论”，可以包括：

对所述解码数据进行检测，得到检测结果；

当所述检测结果确定所述解码数据中包括预设结束标识时，将所述解码数据中的评论内容进行组合，得到所述目标音频对应的评论。

在实际应用中，比如，获取到解码数据后，可以对解码数据进行检测，当检测到解码数据中包括预设结束标识“end”时，此时，可以认为解码数据满足终止条件，并将获取到的评论内容进行组合，得到目标音频对应的评论。

在一实施例中，终止条件不仅限于上述具体说明的两种终止条件，在本申请实施例中，不对终止条件进行过多的限制，可以根据实际需求，对终止条件进行相应的调整，只要满足循环终止时，能够获取到满足要求的评论即可。

在一实施例中，比如，如图7所示，可以将文本特征中多个文本子特征进行加权运算，得到初始文本特征x_avg，然后将初始文本特征x_avg输入至LSTM模型中，得到当前状态信息h₀、评论内容y₀。此时，可以根据当前状态信息h₀获取每个音频旋律特征对应的权重，并对多个音频旋律特征进行加权运算，得到注意力特征数据h_avg，并更新LSTM模型中的参数。然后，可以将当前状态信息h₀、评论内容y₀、以及注意力特征数据h_avg输入至LSTM模型中，得到当前状态信息h₁、评论内容y₁。此时，若评论内容不满足终止条件，则继续进行注意力特征数据h_avg的计算步骤，直至输出的评论内容满足终止条件，此时，可以根据获取到的评论内容y₀、y₁...y_n，得到目标音频对应的评论。其中，每次通过LSTM模型进行语义解码后，都需要更新LSTM模型中的参数，然后再利用更新后的LSTM模型继续语义解码的步骤。

在一实施例中，图7中的矩形可以表示LSTM模型，虽然图7中包括多个矩形，但是在实际应用的解码器中未必包括多个LSTM模型，还可以是同一个LSTM模型经过多次参数更新，在图中为了表述方便，通过多个矩形代表经过多次更新的LSTM模型。

206、输出评论。

在实际应用中，比如，获取到目标音频对应的评论之后，还可以将该评论输出，以便用户查看，并根据该评论了解目标音频的内容。

在一实施例中，该评论输出方法可以应用于多种场景中，比如，在音乐播放软件中，可以应用该评论输出方法为歌曲自动生成评论，从而引导用户收听歌曲、以及分享歌曲。又比如，在音乐推荐场景中，可以应用该评论输出方法为歌曲自动生成评论，并将该评论作为推荐该歌曲的理由，从而吸引用户收听歌曲。又比如，在音乐社交软件中，可以应用该评论输出方法为歌曲自动生成评论，从而达到引导社区舆论，活跃社区气氛的目的。

在一实施例中，比如，如图9所示，当终端通过该评论生成方法，生成了目标音频对应的评论后，还可以将该评论显示在终端的歌曲评论页面上。又比如，该歌曲评论页面还可以为终端页面上的一个子页面，并在该子页面上显示目标音频对应的评论内容。

由上可知，本申请实施例可以获取目标音频对应的文本信息、以及音频旋律信息，分别对文本信息、以及音频旋律信息进行特征提取，得到文本特征、以及多个音频旋律特征，基于语义解码模型对文本特征进行语义解码，得到解码数据，解码数据包括表征语义解码模型隐含状态的当前状态信息，基于当前状态信息，对多个音频旋律特征进行融合，得到表征音频旋律特征受关注程度的注意力特征数据，基于语义解码模型，对解码数据、以及注意力特征数据进行语义解码，得到目标音频对应的评论，输出评论。该方案可以通过编码器对目标音频对应的文本信息、以及音频旋律信息进行编码，并通过解码器对文本信息进行解码，同时利用注意力机制将音频旋律信息添加到解码器中，使得解码器可以同时兼顾到目标音频中的文本信息、以及音频旋律信息，并且自动输出目标音频对应的评论，从而提高了评论与目标音频之间的匹配程度。

根据前面实施例所描述的方法，以下将以该评论输出装置具体集成在网络设备举例作进一步详细说明。

参考图3，本申请实施例的评论输出方法的具体流程可以如下：

301、网络设备获取目标歌曲对应的多个种类的文本子信息、以及音频旋律信息。

在实际应用中，比如，可以获取目标歌曲对应的多个种类的文本子信息，如歌名、歌词、歌手名、歌词作者名、歌曲作者名、歌曲的类型名称等文本子信息，并且获取表征目标歌曲旋律的音频旋律信息。

在一实施例中，获取文本子信息的步骤和获取音频旋律信息的步骤之间的时序不受限制，比如，获取文本子信息的步骤可以在获取音频旋律信息的步骤之前，也可以是获取音频旋律信息的步骤在获取文本子信息的步骤之前，当然，也可以同时执行获取文本子信息的步骤和获取音频旋律信息的步骤等等。

302、网络设备通过文本编码器提取多个种类的文本子信息的文本子特征。

在实际应用中，比如，可以将多个种类的文本子信息输入至文本编码器中，通过文本编码器中预设的文本特征提取方法，提取出每个文本子信息对应的文本子特征。其中，文本特征提取方法可以有多种，如文本特征提取方法可以为通过LDA(Latent DirichletAllocation，隐含狄利克雷分布)、word2vec(word to vector)、doc2vec等等模型，提取文本子信息对应的文本子特征的方法。

303、网络设备通过音频编码器提取音频旋律信息的多个音频旋律特征。

在实际应用中，比如，可以将音频旋律信息输入至音频编码器中，通过音频编码器中预设的多种音频旋律特征提取方法，提取出每种音频旋律特征提取方法对应的多个音频子特征。其中，音频旋律特征提取方法可以有多种，如音频旋律特征提取方法可以为FFT(fast Fourier transform，快速傅里叶变换)、STFT(short-time Fourier transform，短时傅里叶变换)、MFCC(Mel-scale Frequency Cepstral Coefficients，梅尔倒谱系数)等等。

在一实施例中，获取文本子特征的步骤和获取音频旋律特征的步骤之间的时序不受限制，比如，获取文本子特征的步骤可以在获取音频旋律特征的步骤之前，也可以是获取音频旋律特征的步骤在获取文本子特征的步骤之前，当然，也可以同时执行获取文本子特征的步骤和获取音频旋律特征的步骤等等。

304、网络设备将多个文本子特征融合为初始文本特征。

在实际应用中，比如，可以通过x_1i表示文本子特征，并给每个文本子特征分配一个权重α_i，通过x_avg表示初始文本特征，然后通过加权平均的方法，将多个文本子特征融合为初始文本特征。其中，初始文本特征x_avg的计算公式可以如下：

x_avg＝∑(α_i·x_1i)

其中，∑α_i＝1。

305、网络设备将初始文本特征输入至语义解码模型中进行语义解码，得到当前状态信息h_i、以及评论内容y_i。

在实际应用中，比如，可以将初始文本特征输入到LSTM模型中，经过LSTM模型的运算，得到表征LSTM模型当前隐含状态的当前状态信息h_t、以及评论内容y_i。然后，对LSTM模型中的参数进行更新。

306、网络设备根据当前状态信息h_i，确定每个音频旋律特征对应的权重β_i。

在实际应用中，比如，可以将当前计算出的当前状态信息h_t、以及多个音频旋律特征x_2i分别输入至权重计算函数f_attention中，分别计算出每个音频旋律特征对应的权重β_i，其中，权重β_i的计算公式可以如下：

β_i＝f_attention(h_t,x_2i)

307、网络设备根据权重β_i，对多个音频旋律特征进行融合，得到注意力特征数据h_avg。

在实际应用中，比如，可以根据计算出的权重β_i，对多个音频旋律特征进行加权计算，得到表征音频旋律特征受关注程度的注意力特征数据h_avg，其中，注意力特征数据h_avg的计算公式可以如下：

h_avg＝∑(β_i·x_2i)

308、网络设备将当前状态信息h_i、评论内容y_i、注意力特征数据h_avg输入至语义解码模型中进行语义解码，得到当前状态信息h_i+1、以及评论内容y_i+1。

在实际应用中，比如，可以将当前状态信息h_t、评论内容y_i、以及注意力特征数据h_avg作为语义解码模型的当前输入，然后通过语义解码模型进行语义解码，得到当前状态信息h_t+1、以及评论内容y_i+1。然后，对LSTM模型中的参数进行更新。

309、当评论内容不满足终止条件时，网络设备返回执行根据当前状态信息h_i，确定每个音频旋律特征对应的权重β_i的步骤。

在实际应用中，比如，可以将预设信息数量预先设定为20，当获取到评论内容的数量没有达到20时，可以认为此时的评论内容不满足终止条件，也即可以继续进行评论内容的获取步骤。此时，可以返回执行根据当前状态信息h_i，确定每个音频旋律特征对应的权重β_i的步骤，然后根据权重β_i，对多个音频旋律特征进行融合，得到注意力特征数据h_avg。将当前状态信息h_i、评论内容y_i、注意力特征数据h_avg输入至语义解码模型中进行语义解码，得到当前状态信息h_i+1、评论内容y_i+1，此时，再判断评论内容是否满足终止条件。

在实际应用中，又比如，当获取到评论内容后，可以对评论内容进行检测，当检测到评论内容中不包括预设结束标识“end”时，可以认为此时的评论内容不满足终止条件，也即可以继续进行评论内容的获取步骤。此时，可以返回执行根据当前状态信息h_i，确定每个音频旋律特征对应的权重β_i的步骤，然后根据权重β_i，对多个音频旋律特征进行融合，得到注意力特征数据h_avg，将当前状态信息h_i、评论内容y_i、注意力特征数据h_avg输入至语义解码模型中进行语义解码，得到当前状态信息h_i+1、评论内容y_i+1，此时，再判断评论内容是否满足终止条件。

310、当评论内容满足终止条件时，网络设备基于多个评论内容，确定目标歌曲对应的歌曲评论。

在实际应用中，比如，如图4所示，可以将预设信息数量预先设定为20，当获取到评论内容的数量已经达到20时，可以认为此时的评论内容满足终止条件，也即无需继续进行评论内容的获取步骤。此时，可以将获取到的多个评论内容进行组合，从而确定出目标歌曲对应的歌曲评论。

在实际应用中，又比如，当获取到评论内容后，可以对评论内容进行检测，当检测到评论内容中包括预设结束标识“end”时，可以认为此时的评论内容满足终止条件，也即无需继续进行评论内容的获取步骤。此时，可以将获取到的多个评论内容进行组合，从而确定出目标歌曲对应的歌曲评论。

由上可知，本申请实施例可以获取目标歌曲对应的文本信息、以及音频旋律信息，分别对文本信息、以及音频旋律信息进行特征提取，得到文本特征、以及多个音频旋律特征，基于语义解码模型对文本特征进行语义解码，得到解码数据，解码数据包括表征语义解码模型隐含状态的当前状态信息，基于当前状态信息，对多个音频旋律特征进行融合，得到表征音频旋律特征受关注程度的注意力特征数据，基于语义解码模型，对解码数据、以及注意力特征数据进行语义解码，得到目标歌曲对应的评论，输出歌曲评论。该方案可以通过编码器对目标歌曲对应的文本信息、以及音频旋律信息进行编码，并通过解码器对文本信息进行解码，同时利用注意力机制将音频旋律信息添加到解码器中，使得解码器可以同时兼顾到目标歌曲中的文本信息、以及音频旋律信息，并且自动生成目标歌曲对应的歌曲评论，从而提高了歌曲评论与目标歌曲之间的匹配程度。

为了更好地实施以上方法，本申请实施例还可以提供一种评论输出装置，该评论输出装置具体可以集成在网络设备中，该网络设备可以包括服务器、终端等，其中，终端可以包括：手机、平板电脑、笔记本电脑或个人计算机(PC，Personal Computer)等。

例如，如图10所示，该评论输出装置可以包括获取模块101、特征提取模块102、第一解码模块103、融合模块104、第二解码模块105和输出模块106，如下：

获取模块101，用于获取目标音频对应的文本信息、以及音频旋律信息；

特征提取模块102，用于分别对所述文本信息、以及所述音频旋律信息进行特征提取，得到文本特征、以及多个音频旋律特征；

第一解码模块103，用于基于语义解码模型对所述文本特征进行语义解码，得到解码数据，所述解码数据包括表征所述语义解码模型隐含状态的当前状态信息；

融合模块104，用于基于所述当前状态信息，对多个音频旋律特征进行融合，得到表征所述音频旋律特征受关注程度的注意力特征数据；

第二解码模块105，用于基于所述语义解码模型，对所述解码数据、以及所述注意力特征数据进行语义解码，得到所述目标音频对应的评论；

输出模块106，用于输出所述评论。

在一实施例中，所述特征提取模块102可以包括第一提取子模块1021和第二提取子模块1022，如下：

第一提取子模块1021，用于对所述文本信息进行特征提取，得到文本特征；

第二提取子模块1022，用于基于多种音频旋律特征提取方法对所述音频旋律信息进行特征提取，得到每种音频旋律特征提取方法对应的音频旋律特征。

在一实施例中，所述第一提取子模块1021可以具体用于：

从所述文本信息中确定多个种类的文本子信息；

在一实施例中，所述第一解码模块103可以具体用于：

在一实施例中，所述融合模块104可以具体用于：

在一实施例中，所述第二解码模块105可以包括确定子模块1051、解码子模块1052、更新子模块1053、返回子模块1054和获取子模块1055，如下：

确定子模块1051，用于将所述解码数据、以及所述注意力特征数据作为所述语义解码模型的当前输入；

解码子模块1052，用于基于所述语义解码模型，对所述当前输入进行语义解码，得到语义解码后数据；

更新子模块1053，用于基于所述语义解码后数据更新解码数据；

返回子模块1054，用于当所述解码数据不满足终止条件时，返回执行基于所述当前状态信息，对多个音频旋律特征进行融合，得到表征所述音频旋律特征受关注程度的注意力特征数据的步骤；

获取子模块1055，用于当所述解码数据满足终止条件时，基于所述解码数据获取所述目标音频对应的评论。

在一实施例中，所述获取子模块1055可以具体用于：

确定所述解码数据中评论内容的内容信息数量；

在一实施例中，所述获取子模块1055可以具体用于：

对所述解码数据进行检测，得到检测结果；

在一实施例中，所述获取模块101可以具体用于：

获取所述目标歌曲对应的文本信息、以及音频旋律信息。

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

由上可知，本申请实施例可以通过获取模块101获取目标音频对应的文本信息、以及音频旋律信息，通过特征提取模块102分别对文本信息、以及音频旋律信息进行特征提取，得到文本特征、以及多个音频旋律特征，通过第一解码模块103基于语义解码模型对文本特征进行语义解码，得到解码数据，解码数据包括表征语义解码模型隐含状态的当前状态信息，通过融合模块104基于当前状态信息，对多个音频旋律特征进行融合，得到表征音频旋律特征受关注程度的注意力特征数据，通过第二解码模块105基于语义解码模型，对解码数据、以及注意力特征数据进行语义解码，得到目标音频对应的评论，通过输出模块106输出评论。该方案可以通过编码器对目标音频对应的文本信息、以及音频旋律信息进行编码，并通过解码器对文本信息进行解码，同时利用注意力机制将音频旋律信息添加到解码器中，使得解码器可以同时兼顾到目标音频中的文本信息、以及音频旋律信息，并且自动输出目标音频对应的评论，从而提高了评论与目标音频之间的匹配程度。

本申请实施例还提供一种网络设备，该网络设备可以集成本申请实施例所提供的任一种评论输出装置。

例如，如图11所示，其示出了本申请实施例所涉及的网络设备的结构示意图，具体来讲：

该网络设备可以包括一个或者一个以上处理核心的处理器111、一个或一个以上计算机可读存储介质的存储器112、电源113和输入单元114等部件。本领域技术人员可以理解，图11中示出的网络设备结构并不构成对网络设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器111是该网络设备的控制中心，利用各种接口和线路连接整个网络设备的各个部分，通过运行或执行存储在存储器112内的软件程序和/或模块，以及调用存储在存储器112内的数据，执行网络设备的各种功能和处理数据，从而对网络设备进行整体监控。可选的，处理器111可包括一个或多个处理核心；优选的，处理器111可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器111中。

存储器112可用于存储软件程序以及模块，处理器111通过运行存储在存储器112的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器112可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据网络设备的使用所创建的数据等。此外，存储器112可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器112还可以包括存储器控制器，以提供处理器111对存储器112的访问。

网络设备还包括给各个部件供电的电源113，优选的，电源113可以通过电源管理系统与处理器111逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源113还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该网络设备还可包括输入单元114，该输入单元114可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，网络设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，网络设备中的处理器111会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器112中，并由处理器111来运行存储在存储器112中的应用程序，从而实现各种功能，如下：

获取目标音频对应的文本信息、以及音频旋律信息，分别对文本信息、以及音频旋律信息进行特征提取，得到文本特征、以及多个音频旋律特征，基于语义解码模型对文本特征进行语义解码，得到解码数据，解码数据包括表征语义解码模型隐含状态的当前状态信息，基于当前状态信息，对多个音频旋律特征进行融合，得到表征音频旋律特征受关注程度的注意力特征数据，基于语义解码模型，对解码数据、以及注意力特征数据进行语义解码，得到目标音频对应的评论，输出评论。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机设备，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请实施例所提供的任一种评论输出方法中的步骤。例如，该指令可以执行如下步骤：

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本申请实施例所提供的任一种评论输出方法中的步骤，因此，可以实现本申请实施例所提供的任一种评论输出方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种评论输出方法、装置、以及计算机存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种评论输出方法，其特征在于，包括；

获取目标音频对应的文本信息、以及音频旋律信息；

输出所述评论。

2.根据权利要求1所述的评论输出方法，其特征在于，分别对所述文本信息、以及所述音频旋律信息进行特征提取，得到文本特征、以及多个音频旋律特征，包括：

对所述文本信息进行特征提取，得到文本特征；

3.根据权利要求2所述的评论输出方法，其特征在于，文本特征包括多个文本子特征；

对所述文本信息进行特征提取，得到文本特征，包括：

从所述文本信息中确定多个种类的文本子信息；

4.根据权利要求3所述的评论输出方法，其特征在于，基于语义解码模型对所述文本特征进行语义解码，得到解码数据，所述解码数据包括表征所述语义解码模型隐含状态的当前状态信息，包括：

5.根据权利要求1所述的评论输出方法，其特征在于，基于所述当前状态信息，对多个音频旋律特征进行融合，得到表征所述音频旋律特征受关注程度的注意力特征数据，包括：

6.根据权利要求1所述的评论输出方法，其特征在于，基于所述语义解码模型，对所述解码数据、以及所述注意力特征数据进行语义解码，得到所述目标音频对应的评论，包括：

基于所述语义解码后数据更新解码数据；

7.根据权利要求6所述的评论输出方法，其特征在于，所述解码数据还包括评论内容；

当所述解码数据满足终止条件时，基于所述解码数据获取所述目标音频对应的评论，包括：

确定所述解码数据中评论内容的内容信息数量；

8.根据权利要求6所述的评论输出方法，其特征在于，所述解码数据还包括评论内容；

对所述解码数据进行检测，得到检测结果；

9.根据权利要求1所述的评论输出方法，其特征在于，获取目标音频对应的文本信息、以及音频旋律信息，包括：

获取所述目标歌曲对应的文本信息、以及音频旋律信息；

所述输出所述评论的步骤包括：

在所述终端的歌曲评论页面显示所述评论。

10.一种评论输出装置，其特征在于，包括：

输出模块，用于输出所述评论。

11.一种计算机存储介质，其上存储有计算机程序，其特征在于，当所述计算机程序在计算机上运行时，使得所述计算机执行如权利要求1-9任一项所述的评论输出方法。