CN110309327A

CN110309327A - 音频生成方法、装置以及用于音频的生成装置

Info

Publication number: CN110309327A
Application number: CN201810168009.1A
Authority: CN
Inventors: 周伟浩; 关键; 张喜梅; 张亚鹏; 肖彬; 夏丁胤; 余浩
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2018-02-28
Filing date: 2018-02-28
Publication date: 2019-10-08

Abstract

本发明提供了音频生成方法、装置以及用于音频的生成装置，其中，音频生成方法包括：获取待生成音频的多媒体内容；确定所述多媒体内容的情感类别；为所述多媒体内容生成与所述情感类别匹配的音频。采用本发明实施例的方法或装置实施例，可以在打开照片或视频的时候，将生成的音频与照片或者视频等一起播放，从而实现播放与照片或者视频的人物情感相匹配的音频的目的。

Description

音频生成方法、装置以及用于音频的生成装置

技术领域

本发明涉及社交网络技术领域，特别涉及一种音频生成方法、装置以及一种用于音频的生成装置。

背景技术

随着互联网技术的飞速发展，用户使用各种社交软件进行交流、沟通、发布状态等的现象也越来越普通，用户可以拍摄风景照或者人物照等，甚至还可以拍摄小视频等，用户可以保存在自己手机上后续反复查看，也可以发布在朋友圈或者日志状态等，以便自己的朋友可以看到自己的动态。发明人在研究过程中发现，这些照片或者小视频的形式比较单一，例如一般不带音频作为背景音乐等，在展示这些照片或者小视频的时候，展示效果不够丰富和多样性，也不容易让用户更为直接地感知其中表达的情绪。

发明内容

发明人在研究过程中发现，在现有技术中，用户在拍摄照片或视频等多媒体内容时，一般都是带有某种情感的，例如，有的是在一处美丽的风景留下的很开心的照片，还有的是因为发生了一件难过的事情而拍摄的伤心的视频等，而如果能够根据这些照片或视频等生成与人物情感相匹配的音频，并将音频与照片或者视频对应保存起来，后续打开照片或视频的时候就可以直接听到与该照片或视频相对应的音频，从而可以直接感知到照片或视频所表达的情感。或者，用户也就可以将该音频与照片或者视频等同时发布到朋友圈或者日志状态，以便自己的朋友等人在打开该照片或视频的时候，可以将生成的音频与照片或者视频等一起播放，从而实现播放与照片或者视频的人物情感相匹配的音频的目的。

基于此，本发明提供了一种音频的生成方法，用以将生成的音频与照片或者视频等一起播放，从而实现播放与照片或者视频的人物情感相匹配的音频的目的。

本发明还提供了一种用于音频的生成装置，用以保证上述方法在实际中的实现及应用。

本发明提供的一种音频的生成方法，包括：

获取待生成音频的多媒体内容；

确定所述多媒体内容的情感类别；

为所述多媒体内容生成与所述情感类别匹配的音频。

其中，所述确定所述多媒体内容的情感类别，包括：

采用预先训练的情感类别识别模型确定所述多媒体内容的情感类别。

其中，所述情感类别识别模型采用如下方式进行训练：

获取多媒体内容的训练数据；

采用卷积神经网络模型对所述训练数据进行训练，得到情感类别识别模型。

其中，所述为所述多媒体内容生成与所述情感类别匹配的音频，包括：

从预设的片段音乐库中查询与所述情感类别匹配的片段音乐；

采用预先训练的音乐生成模型，将所述匹配的片段音乐生成为所述多媒体内容的音频。

其中，所述音乐生成模型采用如下方式进行训练：

获取各种情感类别对应的各种音乐语料；

采用循环神经网络模型对所述音乐语料进行训练，得到音乐生成模型。

其中，该方法还包括：

响应于对所述多媒体内容的触发操作，播放所述多媒体内容对应的音频。

其中，该方法还包括：

响应于对所述多媒体内容的切换操作，播放与切换后的多媒体内容对应的音频。

本发明提供的一种音频生成装置，包括：

获取单元，用于获取待生成音频的多媒体内容；

确定单元，用于确定所述多媒体内容的情感类别；

生成单元，用于为所述多媒体内容生成与所述情感类别匹配的音频。

其中，所述确定单元具体用于：

其中，所述情感类别识别模型采用如下方式进行训练：

获取多媒体内容的训练数据；

其中，所述生成单元包括：

查询子单元，用于从预设的片段音乐库中查询与所述情感类别匹配的片段音乐；

生成子单元，用于采用预先训练的音乐生成模型，将所述匹配的片段音乐生成所述多媒体内容的音频。

其中，所述音乐生成模型采用如下方式进行训练：

获取各种情感类别对应的各种音乐语料；

其中，该装置还包括：

第一播放单元，用于响应于对所述多媒体内容的触发操作，播放所述多媒体内容对应的音频。

其中，该装置还包括：

第二播放单元，用于响应于对所述多媒体内容的切换操作，播放与切换后的多媒体内容对应的音频。

本发明提供的一种用于音频的生成装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

获取待生成音频的多媒体内容；

确定所述多媒体内容的情感类别；

为所述多媒体内容生成与所述情感类别匹配的音频。

本发明提供的一种计算机可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如前所述的音频生成方法。

在本发明实施例中，能够利用深度学习来训练得到情感类别识别模型，从而对照片或者视频等进行情感的自动化识别，并且，通过预先训练的音乐生成模型来为照片或视频自动生成情感类别相匹配的音频，用户可以将该音频与照片或者视频等进行保存，或者发布到朋友圈或者日志状态等，以便在后续打开该照片或视频的时候，可以将生成的音频与照片或者视频等一起播放，从而实现播放与照片或者视频的人物情感相匹配的音频的目的。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的音频生成方法实施例的流程图；

图2是本发明的一种音频生成装置实施例的结构框图；

图3是本发明中根据一示例性实施例示出的一种用于音频的生成装置的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明可用于众多通用或专用的计算装置环境或配置中。例如：个人计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

在实际应用中，用户在拍摄照片或者视频等多媒体内容的时候，通常会因为个人情绪的差别，而使得面部表情有所不同，或者所拍摄的风景等都与当时的情绪或情感相适应，例如，用户悲伤的时候可以更喜欢下雨的风景或者更喜欢拍摄朋友脸上悲伤的面部表情等，而用户高兴的时候可能更愿意拍摄阳光灿烂的风景或更喜欢拍其他人脸上开心的面部表情等。

因此，用户拍摄的视频或者照片等通常与拍摄的当下用户的情感相关，而在本发明实施例中，为了识别用户拍摄的照片或者视频等多媒体内容中，包括的人物的情感类别是什么，例如是高兴、惊喜、生气、轻视、厌恶、惊吓、自然或者悲伤等，可以预先训练得到一个情感类别识别模型，该情感类别识别模型的训练过程可以包括以下步骤A1～步骤A2：

步骤A1：获取多媒体内容的训练数据。

在本实施例中，预先获取照片和/或视频的训练数据，其中，可以拍摄一些能够明确分辨出情感类别的照片或者视频等，然后将这些照片或视频人工标注出情感类别，最终形成训练数据集。例如，对于照片来说，一个可能的数据集结构例如可以是：{image1:emotion1，image2：emotion2…}。而对于视频来说，可以提供每若干帧照片的情感类别，例如，一个视频包括90帧照片，则该视频的一个可能的数据集结构可以为：{image1～30:emotion1，image31～60：emotion2，image61～90：emotion3}。因为在视频中，用户的情感变化一般情况下是平缓的，不会突然的从高兴变为悲伤等，因此，考虑到这种变换，对视频的各帧照片进行人工标注的时候，可以按照每若干帧照片的情感标注为一类的方式进行。当然，在实际应用中，也可以选取每10帧或者每20帧照片等，由本领域技术人员自主设置即可。此外，除了人工标注的训练数据集，还可以从科恩奏加(Cohn-Kanade Plus)公开数据集中选取一些训练数据。

步骤A2：采用卷积神经网络模型对所述训练数据进行训练，得到情感类别识别模型。

针对步骤A1中得到的训练数据，先进行人脸检测以获得人脸位置，然后将人脸位置的像素信息传递给卷积神经网络CNN结构，经过传统的多步卷积Conv层、激励Relu层和池化Maxpool层，接着进入两层FC(Fully Connected，全连接层)，其中所采用的各步网络层及相关参数可以借鉴其他预先训练好的CNN模型，最后通过调整Softmax层的参数，得到情感类别识别模型。

而如果对于只有景物的照片，则可以预先对各种景物照片进行分类，通过分析景物照片中的风景来确定该照片反应的拍照用户的情感属于哪一种类型。例如，下雨场景的照片、例如，如果是下雨的场景就和情感中的伤感分类进行关联，而如果是阳光灿烂的场景照片就和情感中的开心分类进行关联，等等。可以预先将各种场景的照片与各个情感分类相关联，然后将关联关系预先进行保存，或者，将该关联关系内置在情感类别识别模型中，以便后续根据该关联关系确定包括某个场景的照片对应的、拍照用户的情感类别。

采用上述步骤改造CNN模型，使其能够进行情感类别识别，实现对多媒体内容的情感类别进行分类的目的。

在本发明实施例中，还可以预先训练一个音频生成模型，该音频生成模型用于依据各情感类别对应的音频语料来生成完整的音频。例如，利用“高兴”的情感类别对应的一个或多个音频语料生成高兴的情感所对应的音频，那么，该音频生成模型的生成过程可以包括如下所示的步骤B1～步骤B2：

步骤B1：获取各种情感类别对应的音频语料。

在本步骤中，首先可以从互联网上搜索得到大量音频语料，该音频语料可以是midi格式的音频，当然，也可以利用各种现有工具，将现有的mp3格式、wma格式、wav格式等的音频文件转换成midi格式；或者，也可以采用其他格式的音频文件，例如mp3格式、wma格式、wav格式，本发明实施例对音频语料的格式不做限制。接着，对这些音频语料按照情感类别的分类进行标注，例如标注某个midi格式的音频语料对应于“高兴”类的情感，而另一个midi格式的音频语料对应于“生气”类的情感，等等。其中，midi是编曲界最广泛的音乐标准格式，可称为计算机能理解的乐谱，它用音符的数字控制信号来记录音频，一首完整的midi音频只有几十KB大，且能包含数十条音频轨道。

步骤B2：采用循环神经网络模型对所述音频语料进行训练，得到音频生成模型。

在本步骤中，可以采用RNN循环神经网络模型对步骤B1的音频语料进行训练，得到音频生成模型。具体的，利用RNN生成旋律的音频生成模型为“Melody_RNN”，利用RNN生成复音的音频生成模型为“Polyphony_RNN”，这两种RNN都可以采用LSTM结构(长短时记忆结构)。

具体的，可以将步骤B1进行情感分类后的midi音频数据，转换成符合第二代人工智能学习系统“tensorflow”处理的数据格式TFRecord文件，再按照上述两种模型“Melody_RNN和Polyphony_RNN”，分别从TFRecord格式的音频数据中提取出代表着旋律或复音的数据，形成新的TFRecord文件，再利用形成的新的TFRecord文件，分别利用对应的上述“Melody_RNN和Polyphony_RNN”两种模型进行音频生成模型的训练和验证。

在实际应用中，模型训练过程中可以设置批处理大小、模型结构和训练次数等。例如，在模型训练中，设置批处理大小值是64，模型结构是两层RNN、每层包含着128个处理单元，训练次数设置为100000。模型验证过程中的三个参数与模型训练过程中的参数设置保持一致即可。因为一首完整的音频(旋律或者复音)都是序列，而RNN循环神经网络能够依照当前的旋律或者复音序列去预测下一个旋律或者复音，这样循环下去，直到音频序列的结束，然后通过BPTT(Backpropagation through time，反向传播算法)算法，将训练误差向前传播来优化整个RNN，最终形成音频生成模型。

在训练得到情感类别识别模型和音频生成模型之后，利用这两个模型可以为用户拍摄的照片或者视频等自动生成与照片或视频中的人物情感相匹配的音频，则参考图1，示出了本发明一种音频生成方法实施例的流程图，本实施例可以包括以下步骤：

步骤101：获取待生成音频的多媒体内容。

在本步骤中，获取到的多媒体内容可以包括照片或者视频等，具体可以使用用户手持的智能终端上安装的摄像头等，实时拍照或者录视频等，并将照片或录制的视频作为待生成音频的多媒体内容。当然，也可以是用户从智能终端的图库等选取的照片或者视频等，只需要响应于用户的选择或者拍摄等操作，将相应的照片或者视频等确定为多媒体内容即可。

步骤102：确定所述多媒体内容的情感类别。

在本步骤中，可以采用预先训练的情感类别识别模型确定多媒体内容的情感类别。具体的，对照片来说，可以将拍摄的照片作为该情感类别识别模型的输入，然后情感类别识别模型可以先获得照片中满足预设条件的对象，例如人脸或者景物等。如果从照片中提取到的是人脸，则将人脸的位置的像素信息传递给卷积神经网络CNN结构，通过各步网络层计算得到该人脸上的表情属于某一个情感类别的权重，最终情感类别识别模型可以针对该照片输出一个包括各个情感类别及其相应权重的列表，该列表例如可以形如：{“高兴”：0.82，“惊喜”：0.10，“生气”：0.003，“轻视”：0.002，“厌恶”：0.004，“惊吓”：0.003，“自然”：0.05，“悲伤”：0.006，......}。当然，也可以不以列表的形式输出情感类别及其相应权重，在确定情感类别只有一种，例如，高兴这种情感类别的权重接近或等于1，而其他情感类别的权重接近或等于0这种情况，可以仅输出高兴及其权重1作为确定的情感类别。而如果从照片中提取到的是景物，则可以按照预先保存的景物与各种情感类别的对应关系，来确定照片中的景物反映了拍照的用户当时的哪一种情感，例如，下雨的场景反映了拍照的用户当时伤心的情感状态，等等。这个对应关系可以预先设置，可以由情感类别识别模型来保存该对应关系，也可以采用其他方式来保存该对应关系，只要能根据景物查询到预设的情感类别即可。

在实际应用中，可以将数值最大的权重对应的情感类别作为该照片的情感类别，即“高兴”，当然，也可以权重值满足预设权重阈值的情感类别都作为该照片所属的情感类别，例如，大于0.5的权重值的情感类别都作为该照片所属的情感类别，等等，预设权重阈值的大小可以由本领域技术人员自主设置。

而对于视频来讲，由于视频是照片按照一定的帧率合成起来的，实质上也是若干帧照片组合而成的，因此，可以将视频中的各帧照片都作为情感类别识别模型的输入，然后该情感类别识别模型可以针对各帧照片都输出一个情感类别对应的权重列表，各个照片可以分别取最大的权重值对应的情感作为该照片所属的情感类别(或者大于预设权重阈值的权重值对应的情感类别等)，然后可以根据步骤A1中人工标注的方式，根据各帧照片的情感类别为该视频确定每若干帧照片的情感类别。例如，一个包括100帧照片的视频，可以每20帧照片确定一个或多个对应的情感类别，或者每50帧照片确定一个或多个对应的情感类别，等等。

当然，如果整个视频包括的照片帧数较少，或者该视频的情感整体上并没有发生变化等，也可以整个视频确定一个对应的情感类别。

步骤103：为所述多媒体内容生成与所述情感类别匹配的音频。

本步骤中，利用预先训练好的音频生成模型，生成与步骤102确定的情感类别相匹配的音频。具体的，利用先从预设的片段音乐库中查询与情感类别匹配的片段音频，然后采用预先训练的音频生成模型，将匹配的片段音频生成多媒体内容的音频。其中，片段音频的格式可以与音频语料的格式相同，只是因为在训练音频生成模型的时候，采用的是比较完整的音乐或者歌曲等音频作为音乐语料，而片段音频是用来组合生成音频的一部分音频，所以可以选择长度更短一些的音频作为片段音频。

其中，片段音频也可以选取midi格式的音频，片段音频的时间不需要很长，几秒钟或者十几秒钟的片段音频即可，并且片段音频库中的各个midi格式的音频都已经标注好其所属的情感类别，因此，在步骤102确定了情感类别之后，如果情感类别只有一个，则可以在片段音频库中就能查询到该一个情感类别下对应的一个或多个midi格式的音频，在实际应用中可以先将多个midi格式的片段音频随机组合，再将该组合的音频作为音频生成模型的输入，从而得到与照片或视频所属的情感相匹配的音频。如果情感类别有多个，则可以在片段音频库中就能查询到这多个情感类别下分别对应的一个或多个midi格式的音频，在实际应用中可以先将多个midi格式的片段音频随机组合，再将组合的音频作为音频生成模型的输入，从而得到与照片或视频所属的情感相匹配的音频。

在实际应用中，得到照片或者视频等的音频之后，可以将照片或视频等与音频一起进行保存，后续用户再打开该照片或视频的时候就可以将一并保存的音频同步播放给用户。当然，也可以将照片或视频等与音频一并发布至社交网络软件，例如朋友圈或者日志状态等。具体的，可以将待发布的多媒体内容与自动生成的音频一并发布至社交网络，例如发布到朋友圈或者日志状态等。具体的，可以将该音频的地址嵌到对应的照片或者视频对应的页面内，如果照片有多张，则可以分别将各个照片对应的音频的地址嵌入各照片对应的页面内。

在实际应用中还有一种情况，有可能用户在一条朋友圈或者一个日志状态中发布了多个照片，而这多个照片可能对于的情感类别并不同，则可以分别针对每个照片执行步骤102和步骤103，从而为每一张照片都生成与自己所属的情感类别相匹配的音频。

在将音频和多媒体内容一并发布之后，就可以响应于对多媒体内容的触发操作，播放照片或视频等多媒体内容对应的音频。如果用户将多媒体内容和音频一并发布之后，其他用户在看到该用户的朋友圈或者日志状态等，打开了该照片或者视频等，则同时播放页面内嵌入的音频。

而对于用户在一条朋友圈或者日志状态等内发布了多张照片的情况，其他用户如果从当前照片切换到了下一张照片，即打开了下一张照片，则可以响应于用户对多媒体内容的切换操作，播放与切换后的多媒体内容对应的音频。如果用户切换了照片进行显示，例如当前打开的照片的情感为高兴，则当前播放的是高兴的情感所匹配的音频，而如果用户切换显示了下一张照片，则将为用户播放下一张照片对应的音频，从而保证其他用户在看切换照片的时候，每一次看到新的照片都能听到与该照片的情感类别相匹配的音频。

可见，在本发明实施例中，能够利用深度学习来训练得到情感类别识别模型，从而对照片或者视频等进行情感的自动化识别，并且，通过预先训练的音频生成模型来为照片或视频自动生成情感类别相匹配的音频，用户可以将该音频与照片或者视频等同时进行保存，或者同时发布到朋友圈或者日志状态等，以便在打开该照片或视频的时候，可以将生成的音频与照片或者视频等一起播放，从而实现播放与照片或者视频的人物情感相匹配的音频的目的。

对于前述的方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

与上述本发明一种音频的生成方法实施例所提供的方法相对应，参见图2，本发明还提供了一种音频生成装置实施例，在本实施例中，该装置可以包括：

获取单元201，用于获取待生成音频的多媒体内容。

确定单元202，用于确定所述多媒体内容的情感类别。

其中，所述确定单元202具体可以用于：采用预先训练的情感类别识别模型确定所述多媒体内容的情感类别。

其中，所述情感类别识别模型采用如下方式进行训练：

获取多媒体内容的训练数据；

生成单元203，用于为所述多媒体内容生成与所述情感类别匹配的音频。

其中，所述生成单元203具体可以包括：

查询子单元，用于从预设的片段音乐库中查询与所述情感类别匹配的片段音乐；以及，生成子单元，用于采用预先训练的音乐生成模型，将所述匹配的片段音乐生成所述多媒体内容的音频。

其中，所述音乐生成模型采用如下方式进行训练：

获取各种情感类别对应的各种音乐语料；以及，采用循环神经网络模型对所述音乐语料进行训练，得到音乐生成模型。

其中，所述装置还可以包括：

第二播放单元，用于响应于对所述多媒体内容的切换操作，播放与切换后的多媒体内容对应的音频。可见，在本发明实施例中，能够利用深度学习来训练得到情感类别识别模型，从而对照片或者视频等进行情感的自动化识别，并且，通过预先训练的音频生成模型来为照片或视频自动生成情感类别相匹配的音频，用户可以将该音频与照片或者视频等同时进行保存，或者，同时发布到朋友圈或者日志状态等，以便在打开该照片或视频的时候，可以将生成的音频与照片或者视频等一起播放，从而实现播放与照片或者视频的人物情感相匹配的音频的目的。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图3是根据一示例性实施例示出的一种用于音频的生成装置的结构框图。例如，装置800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图3，装置800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制装置800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理部件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理系统，一个或多个电源，及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当装置800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为装置800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如所述组件为装置800的显示器和小键盘，传感器组件814还可以检测装置800或装置800一个组件的位置改变，用户与装置800接触的存在或不存在，装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由装置800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行一种音频生成方法，所述方法包括：获取待生成音频的多媒体内容；确定所述多媒体内容的情感类别；为所述多媒体内容生成与所述情感类别匹配的音频。

其中，所述确定所述多媒体内容的情感类别，可以包括：

其中，所述情感类别识别模型可以采用如下方式进行训练：

获取多媒体内容的训练数据；

其中，所述为所述多媒体内容生成与所述情感类别匹配的音频，可以包括：

其中，所述音乐生成模型可以采用如下方式进行训练：

获取各种情感类别对应的各种音乐语料；

其中，所述装置800还可以经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种音频生成方法，其特征在于，包括：

获取待生成音频的多媒体内容；

确定所述多媒体内容的情感类别；

为所述多媒体内容生成与所述情感类别匹配的音频。

2.根据权利要求1所述的方法，其特征在于，所述确定所述多媒体内容的情感类别，包括：

3.根据权利要求2所述的方法，其特征在于，所述情感类别识别模型采用如下方式进行训练：

获取多媒体内容的训练数据；

4.根据权利要求1所述的方法，其特征在于，所述为所述多媒体内容生成与所述情感类别匹配的音频，包括：

5.根据权利要求4所述的方法，其特征在于，所述音乐生成模型采用如下方式进行训练：

获取各种情感类别对应的各种音乐语料；

6.根据权利要求1所述的方法，其特征在于，还包括：

7.根据权利要求6所述的方法，其特征在于，还包括：

8.一种音频生成装置，其特征在于，包括：

获取单元，用于获取待生成音频的多媒体内容；

确定单元，用于确定所述多媒体内容的情感类别；

9.根据权利要求8的装置，其特征在于，所述确定单元具体用于：

10.根据权利要求9的装置，其特征在于，所述情感类别识别模型采用如下方式进行训练：

获取多媒体内容的训练数据；

11.根据权利要求8的装置，其特征在于，所述生成单元包括：

12.根据权利要求11的装置，其特征在于，所述音乐生成模型采用如下方式进行训练：

获取各种情感类别对应的各种音乐语料；

13.根据权利要求8的装置，其特征在于，还包括：

14.根据权利要求13的装置，其特征在于，还包括：

15.一种用于音频的生成装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

获取待生成音频的多媒体内容；

确定所述多媒体内容的情感类别；

为所述多媒体内容生成与所述情感类别匹配的音频。

16.一种计算机可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如权利要求1至7中一个或多个所述的音频生成方法。