CN116320611B

CN116320611B - 一种音视频的合成方法及系统

Info

Publication number: CN116320611B
Application number: CN202310360901.0A
Authority: CN
Inventors: 张耀庭
Original assignee: Hunan Fanying Education Technology Co ltd
Current assignee: Hunan Fanying Education Technology Co ltd
Priority date: 2023-04-06
Filing date: 2023-04-06
Publication date: 2024-05-03
Anticipated expiration: 2043-04-06
Also published as: CN116320611A

Abstract

本申请涉及数据处理技术领域，提供一种音视频的合成方法及系统。所述方法包括：根据视频内容特征生成情绪特征序列，通过视频配音特征获得配音振幅特征序列和配音频率特征序列，基于情绪特征序列获得待合成音频优化结果，根据配音振幅特征序列和配音频率特征序列，对待合成音频优化结果进行调整，生成多个待合成音频特征序列并发送至合成管理终端进行音视频合成。采用本方法能够解决现有技术中存在视音频合成时音频素材选取依赖于剪辑创作人员经验，存在音频素材选取与视频内容适配度不足导致所合成视频感官效果较差的技术问题。实现了提高所选音频素材与视频内容适配度，优化合成视频感官体验的技术效果。

Description

一种音视频的合成方法及系统

技术领域

本申请涉及数据处理技术领域，特别是涉及一种音视频的合成方法及系统。

背景技术

随着移动电子产品的技术革新和产品优化，原本需要专业剪辑人员采用高专业度视频剪辑软件才能完成的视频剪辑创造，通过移动电子设备上“小而美”的简易操作视频剪辑软件即可实现，但从高专业度视频剪辑软件过渡至“傻瓜式”剪辑软件，只在操作层面降低了视频剪辑的门槛，如何选择合适音视频素材实现剪辑效果的锦上添花，依旧是个难题，现阶段音视频素材选取仍依赖于剪辑创作人员经验或无经验剪辑人员的直觉，基于人工选取的音视频素材往往存在适配度不足的缺陷，未能提高剪辑效果，甚至导致音视频感官效果下降。

综上所述，现有技术中存在视音频合成时音频素材选取依赖于剪辑创作人员经验，存在音频素材选取与视频内容适配度不足导致所合成视频感官效果较差的技术问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够实现提高所选音频素材与视频内容适配度，优化观看合成视频时用户感官体验的一种音视频的合成方法及系统。

一种音视频的合成方法，方法包括：获取待合成视频参数，其中，所述待合成视频参数包括视频内容特征和视频配音特征；根据所述视频内容特征对待合成视频进行情绪特征评估，生成情绪特征序列；根据所述视频配音特征，生成配音振幅特征序列和配音频率特征序列；将所述情绪特征序列输入云端音频匹配数据库，生成待合成音频匹配结果；根据音频适应度评估函数对所述待合成音频匹配结果进行优化，筛选待合成音频优化结果；根据所述配音振幅特征序列和所述配音频率特征序列，对所述待合成音频优化结果进行调整，生成多个待合成音频特征序列；将所述多个待合成音频特征序列发送至合成管理终端进行音视频合成。

一种音视频的合成系统，所述系统包括：视频参数获得模块，用于获取待合成视频参数，其中，所述待合成视频参数包括视频内容特征和视频配音特征；情绪特征评估模块，用于根据所述视频内容特征对待合成视频进行情绪特征评估，生成情绪特征序列；特征序列生成模块，用于根据所述视频配音特征，生成配音振幅特征序列和配音频率特征序列；匹配结果获得模块，用于将所述情绪特征序列输入云端音频匹配数据库，生成待合成音频匹配结果；优化结果获得模块，用于根据音频适应度评估函数对所述待合成音频匹配结果进行优化，筛选待合成音频优化结果；优化结果调整模块，用于根据所述配音振幅特征序列和所述配音频率特征序列，对所述待合成音频优化结果进行调整，生成多个待合成音频特征序列；数据合成执行模块，用于将所述多个待合成音频特征序列发送至合成管理终端进行音视频合成。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取待合成视频参数，其中，所述待合成视频参数包括视频内容特征和视频配音特征；

根据所述视频内容特征对待合成视频进行情绪特征评估，生成情绪特征序列；

根据所述视频配音特征，生成配音振幅特征序列和配音频率特征序列；

将所述情绪特征序列输入云端音频匹配数据库，生成待合成音频匹配结果；

根据音频适应度评估函数对所述待合成音频匹配结果进行优化，筛选待合成音频优化结果；

根据所述配音振幅特征序列和所述配音频率特征序列，对所述待合成音频优化结果进行调整，生成多个待合成音频特征序列；

将所述多个待合成音频特征序列发送至合成管理终端进行音视频合成。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述一种音视频的合成方法及系统，解决了现有技术中存在视音频合成时音频素材选取依赖于剪辑创作人员经验，存在音频素材选取与视频内容适配度不足导致所合成视频感官效果较差的技术问题，达到了提高所选音频素材与视频内容适配度，优化观看合成视频时用户感官体验的技术效果。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

图1为一个实施例中一种音视频的合成方法的流程示意图；

图2为一个实施例中一种音视频的合成方法中生成情绪特征序列的流程示意图；

图3为一个实施例中一种音视频的合成系统的结构框图；

图4为一个实施例中计算机设备的内部结构图。

附图标记说明：视频参数获得模块1，情绪特征评估模块2，特征序列生成模块3，匹配结果获得模块4，优化结果获得模块5，优化结果调整模块6，数据合成执行模块7。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

如图1所示，本申请提供了一种音视频的合成方法，包括：

S100:获取待合成视频参数，其中，所述待合成视频参数包括视频内容特征和视频配音特征；

具体而言，在本实施例中，待合成视频包括待合成视频音频素材和待合成视频图像素材，通过分析预测目标用户听取待合成视频音频素材以及观看待合成视频图像素材后的情绪反映，选取添加可增强目标用户视频管控体验的背景音乐，将待合成视频音频素材、背景音乐以及待合成视频图像素材按照时间轴对应放入音频轨道、视频轨道，合成获得音画面合拍匹配且背景音乐能够适当增强情感表达，为目标用户提供良好感官体验的合成视频。

在本实施例中，所述视频内容特征为待合成的视频图像素材，所述视频配音特征为用于对所述视频内容特征进行内容补充，提高视频信息量的视频配音素材。所述待合成视频参数为后续进行合成音频的背景音乐选取分析提供科学性较高的参考。

S200:根据所述视频内容特征对待合成视频进行情绪特征评估，生成情绪特征序列；

在一个实施例中，如图2所示，所述根据所述视频内容特征对待合成视频进行情绪特征评估，生成情绪特征序列，本申请提供的方法步骤S200还包括：

S210:设定情绪标签因子集合，其中，所述情绪标签因子集合包括愤怒标签因子、厌恶标签因子、悲伤标签因子、恐惧标签因子、平静标签因子、惊讶标签因子、喜爱标签因子和快乐标签因子；

S220:对所述视频内容特征进行完整性分析，生成视频子内容序列；

S230:根据所述愤怒标签因子、所述厌恶标签因子、所述悲伤标签因子、所述恐惧标签因子、所述平静标签因子、所述惊讶标签因子、所述喜爱标签因子和所述快乐标签因子，遍历所述视频子内容序列，生成多个情绪标签因子序列；

S240:遍历所述多个情绪标签因子序列进行情绪指数评估，生成所述情绪特征序列。

具体而言，应理解的，情绪是个体的思想行为综合产生的心理和生理状态，目标用户在观看音视频作品时，接受音视频作品所传递的信息同时，音视频信息对目标用户思想产生影响从而调动目标用户的感官情绪，因而本实施例基于目标用户观看音视频作品时普遍可能产生的情绪变化波动，基于所述视频内容特征对待合成视频进行可能调动目标用户情绪变化情况的所述情绪特征评估，生成情绪特征序列，所述情绪特征序列为所述待合成视频可调动目标用户产生的情绪特征集合，在本申请所有实施例中，所述序列都为视频内容时间先后序列。

在本实施例中，基于目标用户(即普通观众)在观看视频过程中，普遍可能被调动的情绪进行情绪标签因子的设定，获得所述情绪标签因子集合，所述情绪标签因子集合包括愤怒标签因子、厌恶标签因子、悲伤标签因子、恐惧标签因子、平静标签因子、惊讶标签因子、喜爱标签因子和快乐标签因子，所述情绪标签因子用于标记目标用户观看视频过程中可能会产生的情绪。

应理解的，一个视频往往可能由多个完整内容组合获得，例如现代史纪录片视频由虎门销烟、甲午中日海战、北伐战争等多个完整历史事件内容按照史实发生时间组合而成，为提高所选取背景音乐与适配内容的适配度，以提供诶目标用户更好的感官体验，本实施例基于视频由多个完整内容组合而成的特点，对所述视频内容特征基于视频创作脚本或视频文案进行完整性分析，基于完整性分析结果对所述视频内容特征进行拆解，生成由多个内容完整的视频子内容构成的所述视频子内容序列，每一视频子内容对应一个时间序列。

应理解的，在观看某一单独视频子内容过程中，由于内容的渐进性或内容转折，目标用户观看视频子内容过程中，往往在不同的时间节点存在不同的情绪反馈，或同一情绪在不同时间子节点存在情绪强度差异。

因而在本实施例中，基于所述愤怒标签因子、所述厌恶标签因子、所述悲伤标签因子、所述恐惧标签因子、所述平静标签因子、所述惊讶标签因子、所述喜爱标签因子和所述快乐标签因子，遍历所述视频子内容序列中每一视频子内容，并对所述视频之内容序列中的各个视频子内容按照时序节点进行情绪因子标签标记，生成多个情绪标签因子序列。每一视频子内容按照视频内容时间轴序列标识有一个或多个情绪标签因子，每一情绪标签因子表征目标用户在观看视频子内容过程中各种情绪的出现时间、持续时长、情绪强度等级，例如在视频12min～15min标记为悲伤标签因子，悲伤等级为3。

对所述视频内容子序列中各个视频子内容所具有的多个情绪标签因子进行每个视频子序列的情绪指数评估，获得与每一视频内容具有映射关系的情绪指组成所述情绪特征序列。所述情绪指数为预估目标用户观看视频时的情绪波动状况的综合指数，本实施例在后续说明书中进行所述情绪指数计算方法最优实施例的阐述。

本实施例通过按照视频内容完整性对视频特征内容按照时序进行拆分，获得多个视频子内容，对每一视频子内容采用情绪标签因子集合遍历，从而预估目标用户在每一视频子内容观看过程中的情绪变化以及每种情绪维持时间情况获得多个情绪标签因子序列，并基于多个情绪标签因子序列进行情绪指数评估，预测目标用户在每一视频子内容观看过程中的情绪波动状况，实现了较为科学准确的预估视频对于观看用户的情绪调动情况，为后续进行背景音乐选取结合视频配音特征进行视频合成，获得视听感官更优的合成视频提供素材选取及合成优化基准的技术效果。

S300:根据所述视频配音特征，生成配音振幅特征序列和配音频率特征序列；

具体而言，在本实施例中，对所述视频配音特征进行声音可视化处理，获得视频配音特征图像，基于视频配音特征图像识别获得反映视频配音音量大小随时间变化的所述配音振幅特征序列，以及反映视频配音在视频中出现时间位置以及出现频率的所述配音频率特征序列，所述配音振幅特征序列和配音频率特征序列，为后续获得提升目标用户视频观看感官体验的背景音乐后，进行背景音乐的声音大小调整时间节点以及调整程度提供参考。

S400:将所述情绪特征序列输入云端音频匹配数据库，生成待合成音频匹配结果；

具体而言，在本实施例中，基于大数据获取大批量音乐，包括但不限于纯音乐和人声歌曲，根据音乐节奏快慢进行音乐情绪指数赋值，节奏越快对应的音乐情绪指数越高，对基于大数据获取的大批量音乐进行音乐情绪指数赋值标记并上传云端从而构建所述云端音频匹配数据库。

将所述情绪特征序列输入云端音频匹配数据库中，对所述情绪特征序列中各个情绪指数进行归一化处理，基于归一化处理后的情绪指数按照其在所述情绪特征序列中的先后顺序依次遍历所述云端音频匹配数据库，获得与情绪指数数值具有一致性的音乐情绪指数对应的多个音乐作为符合该情绪指数的视频子内容的备选背景音乐，生成待合成音频匹配结果，所述待合成音频匹配结果为多组音乐，同组音乐的音乐情绪指数具有一致性或差别较小，且与所述情绪特征序列中视频子内容的情绪指数数值一致或差别较小。

S500:根据音频适应度评估函数对所述待合成音频匹配结果进行优化，筛选待合成音频优化结果；

在一个实施例中，所述根据音频适应度评估函数对所述待合成音频匹配结果进行优化，筛选待合成音频优化结果，本申请提供的方法步骤S500还包括：

S510:构建所述音频适应度评估函数：

C_l＝f_l ^α+n_l ^β

其中，f表征第l个待合成音频的选用频率，n表征第l个待合成音频选用后的浏览量，α和β表征权重参数，C_l表征第l个待合成音频的适应度；

S520:根据所述音频适应度评估函数遍历所述待合成音频匹配结果进行优化，筛选所述待合成音频优化结果。

具体而言，在本实施例中，构建用于评估备选背景音乐与视频子内容合拍程度的所述音频适应度评估函数：

C_l＝f_l ^α+n_l ^β

在所述音频适应度评估函数中，f表征第l个待合成音频在云端音频匹配数据库中被作为视频背景音乐下载使用的选用频率，n表征第l个待合成音频选用后合成视频发送至某一视频播放平台的视频浏览量，α和β分别表征选用频率和合成视频浏览量的权重参数，可根据实际需要设定，C_l表征第l个待合成音频的适应度。

获取所述待合成音频匹配结果中所有音乐的选用频率以及选用后合成视频的浏览量，根据所述音频适应度评估函数遍历所述待合成音频匹配结果，获得每组音乐中各个音乐的待合成音频适应度数据，并基于待合成音频适应度数据由大到小进行排序，将排序最靠前音乐作为该组最优音乐，该组剩余音乐删除，逐组进行上述计算排序筛选，完成对所述待合成音频优化结果的筛选，获得由每个情绪指数唯一对应音乐组成的待合成音频优化结果，用于根据所述情绪特征序列进行背景音乐调用完成视频合成。

本实施例通过获取云端音乐历史下载使用情况以及使用后合成视频的播放情况进行音乐筛选，从而获得使用率较高且存在提高视频播放量优势的背景音乐，为后续进行视频合成提供优秀音乐的技术效果。

S600:根据所述配音振幅特征序列和所述配音频率特征序列，对所述待合成音频优化结果进行调整，生成多个待合成音频特征序列；

在一个实施例中，所述根据所述配音振幅特征序列和所述配音频率特征序列，对所述待合成音频优化结果进行调整，生成多个待合成音频特征序列，本申请提供的方法步骤S600还包括：

S610:遍历所述待合成音频优化结果进行特征分析，提取多个待合成音频振幅特征序列和多个待合成音频频率特征序列；

S620:根据所述配音振幅特征序列，设定待合成音频振幅阈值序列；

S630:根据所述配音频率特征序列，设定待合成音频频率特征序列；

S640:根据所述待合成音频振幅阈值序列对所述待合成音频振幅特征序列进行调整，生成多个待合成音频振幅调整结果；

S650:根据所述待合成音频频率特征序列对所述多个待合成音频频率特征序列进行调整，生成多个待合成音频频率调整结果；

S660:将所述多个待合成音频振幅调整结果和所述多个待合成音频频率调整结果合并，生成所述多个待合成音频特征序列。

具体而言，在本实施例中，遍历所述待合成音频优化结果，采用步骤S300根据所述视频配音特征，生成配音振幅特征序列和配音频率特征序列相同方法，进行所述待合成音频优化结果中各个音乐的特征分析，提取多个待合成音频振幅特征序列和多个待合成音频频率特征序列，所述待合成音频振幅特征序列反映背景音乐的音量大小随时间变化情况，所述待合成音频频率特征序列反映背景音乐存在音乐声音片段在视频中出现时间位置以及出现频率，应理解的，背景音乐中存在音乐留白。

根据所述配音振幅特征序列，设定待合成音频振幅阈值序列，所述待合成音频振幅阈值序列为需要进行背景音乐音量调低或调高处理的调节阈值。根据所述配音频率特征序列，设定待合成音频频率特征序列，所述待合成音频频率特征序列为具体进行背景音乐音量调节的时间节点。

根据所述待合成音频振幅阈值序列对所述待合成音频振幅特征序列进行调整，生成多个待合成音频振幅调整结果，根据所述待合成音频频率特征序列对所述多个待合成音频频率特征序列进行调整，生成多个待合成音频频率调整结果；将所述多个待合成音频振幅调整结果和所述多个待合成音频频率调整结果合并，生成所述多个待合成音频特征序列，基于所述多个待合成音频序列进行多个视频子内容的视频合成，并进一步合成为完整视频。

本实施例通过根据视频配音出现位置以及配音音量进行待合成音频(背景音乐)的音量调节，从而获得满足配音在合成视频中清晰度要求的待合成音频特征序列，为生成既能够满足提高目标用户视频观感，且不影响视频配音清晰度的合成视频提供背景音乐。

S700:将所述多个待合成音频特征序列发送至合成管理终端进行音视频合成。

具体而言，在本实施例中，将所述多个待合成音频特征序列发送至合成管理终端，通过所述合成管理终端，将多个待合成音频特征，待合成视频参数放入对应的音频轨道、视频轨道进行视频合成。

本实施例提供的方法通过获取待合成视频参数，其中，所述待合成视频参数包括视频内容特征和视频配音特征，为后续进行合成音频的背景音乐选取分析提供科学性较高的参考；根据所述视频内容特征对待合成视频进行情绪特征评估，生成情绪特征序列；为后续进行背景音乐选取结合视频配音特征进行视频合成，获得视听感官更优的合成视频提供素材选取及合成优化基准，根据所述视频配音特征，生成配音振幅特征序列和配音频率特征序列；将所述情绪特征序列输入云端音频匹配数据库，生成待合成音频匹配结果；根据音频适应度评估函数对所述待合成音频匹配结果进行优化，筛选待合成音频优化结果，从而获得使用率较高且存在提高视频播放量优势的背景音乐，为后续进行视频合成提供优秀音乐；根据所述配音振幅特征序列和所述配音频率特征序列，对所述待合成音频优化结果进行调整，生成多个待合成音频特征序列，为生成既能够满足提高目标用户视频观感，且不影响视频配音清晰度的合成视频提供背景音乐；将所述多个待合成音频特征序列发送至合成管理终端进行音视频合成。达到了提高所选音频素材与视频内容适配度，优化观看合成视频时用户感官体验的技术效果。

在一个实施例中，所述遍历所述多个情绪标签因子序列进行情绪指数评估，生成所述情绪特征序列，本申请提供的方法步骤S240还包括：

S241:获取情绪波动参数标定式：

其中，表征第t时间粒度的第k种情绪标签因子的情绪波动参数，/>表征T时间粒度内第k种情绪标签因子等级特征的平均比重，x_kt表征第t时刻的第k种情绪标签因子等级特征，/>表征第t时刻的第k种情绪标签因子的比重；

S242:获取情绪权重标定式：

其中，w_kt表征第t时间粒度时第k种情绪标签因子等级特征的情绪权重，m(x_kt)表征第t时间粒度时x_kt的持续时长，t表征第t时间粒度的时长；

S243:获取情绪指数标定式：

其中，S_T表征T时间粒度内的情绪指数；

S244:根据所述情绪波动参数标定式、所述情绪权重标定式和所述情绪指数标定式，遍历所述多个情绪标签因子序列进行情绪指数评估，生成所述情绪特征序列。

具体而言，在本实施例中，基于目标用户观看视频子内容过程中存在情绪变化及情绪变化后持续时间的特性，构建情绪-时间的数据关系式进行情绪指数评估。

具体的，构建情绪波动参数标定式：

在所述情绪波动参数标定式中，表征第t时间粒度的第k种情绪标签因子的情绪波动参数，/>表征T时间粒度内第k种情绪标签因子等级特征的平均比重，x_kt表征第t时刻的第k种情绪标签因子等级特征，/>表征第t时刻的第k种情绪标签因子的比重。

应理解的，目标用户在观看某一视频过程中，情绪持续时间越长，表明该种情绪越接近于该视频意欲营造的视频情感基调，因而本实施例基于情绪持续时长以及视频子内容时长，构建情绪权重标定式：

在所述情绪权重标定式中，w_kt表征第t时间粒度时第k种情绪标签因子等级特征的情绪权重，m(x_kt)表征第t时间粒度时x_kt的持续时长，t表征第t时间粒度的时长，即某一视频子内容的时长，例如第t时间粒度的时长20min。

构建情绪指数标定式：

在所述情绪指数标定式中，S_T表征T时间粒度内的情绪指数；

根据所述情绪波动参数标定式、所述情绪权重标定式和所述情绪指数标定式，遍历所述多个情绪标签因子序列，基于所述多个情绪标签因子序列中的情绪等级、情绪持续时长数据、视频子内容时间粒度数据进行情绪指数评估，生成所述情绪特征序列，所述情绪特征序列表征目标用户在多个视频子内容观看过程中的情绪波动状况。

本实施例通过构建根据所述情绪波动参数标定式、情绪权重标定式和情绪指数标定式，进行多个情绪标签因子序列的情绪指数评估，从而生成情绪特征序列，为后续进行适宜背景音乐匹配，从而合成提供目标用户更优感官情绪体验的合成视频提供背景音乐匹配基准的技术效果。

在一个实施例中，所述根据所述愤怒标签因子、所述厌恶标签因子、所述悲伤标签因子、所述恐惧标签因子、所述平静标签因子、所述惊讶标签因子、所述喜爱标签因子和所述快乐标签因子，遍历所述视频子内容序列，生成多个情绪标签因子序列，本申请提供的方法步骤S230还包括：

S231:基于所述愤怒标签因子、所述厌恶标签因子、所述悲伤标签因子、所述恐惧标签因子、所述平静标签因子、所述惊讶标签因子、所述喜爱标签因子和所述快乐标签因子，采集多组情绪等级标定记录数据；

S232:根据所述多组情绪等级标定记录数据，训练情绪标签因子等级评定模型；

S233:将所述视频子内容序列依次输入所述情绪标签因子等级评定模型，

生成所述多个情绪标签因子等级标定数据集；

S234:将所述多个情绪标签因子等级标定数据集和所述视频子内容序列进行序列化调整，生成所述多个情绪标签因子序列。

具体而言，在本实施例中，所述愤怒标签因子、所述厌恶标签因子、所述悲伤标签因子、所述恐惧标签因子、所述平静标签因子、所述惊讶标签因子、所述喜爱标签因子和所述快乐标签因子具有情绪等级划分，且不同的情绪激烈程度对应于具体的情绪划分等级，因而本实施例采集多组情绪等级标定记录数据，所述多组情绪等级标定记录数据包括所述情绪标签因子集合中的所有情绪标签因子的不同情绪强度情况的等级标定记录数据。

基于人工神经网络构建所述情绪标签因子等级评定模型，根据所述多组情绪等级标定记录数据进行所述情绪标签因子等级评定模型的模型训练。

具体的，对所述多组情绪等级标定记录数据进行数据拆分，获得具有映射关系的若干组情绪强度记录数据和情绪标签因子-等级标定数据。

将若干组情绪强度记录数据和情绪标签因子-等级标定数据进行分配，70％的情绪强度记录数据和情绪标签因子-等级标定数据分别作为训练数据和测试数据，30％的组情绪强度记录数据和情绪标签因子-等级标定数据作为验证数据进行情绪标签因子等级评定模型的模型训练验证和测试，获得模型输出准确度满足预设准确度要求的情绪标签因子等级评定模型。

将所述视频子内容序列中的多个视频子内容作为模型输入数据，按照序列时间依次输入所述情绪标签因子等级评定模型，生成所述多个情绪标签因子等级标定数据集，所述多个情绪标签因子等级标定数据集预测表征目标用户在观看某一视频子内容过程中，各类情绪标签因子的持续时间以及情绪标签因子持续时间内的情绪等级强度。例如某一视频子内容时长(时间粒度)10min，1～3min(持续时间)为恐惧标签因子，恐惧情绪等级为2,4～7分钟为惊讶标签因子，惊讶情绪等级为4,8～10分钟为悲伤标签因子，悲伤情绪等级为6。

基于所述多个情绪标签因子等级标定数据集对所述视频子内容序列进行序列化调整，对所述视频子内容序列中各个视频子内容进行情绪标签因子以及情绪等级标定，生成所述多个情绪标签因子序列。

本实施例通过构建情绪标签因子等级评定模型对视频子内容序列中各个视频子内容进行情绪标签因子以及情绪等级评定，从而预估目标用户在观看视频过程中的情绪变化、情绪持续时间以及情绪强烈程度情况，为进行目标用户情绪波动状况分析提供精确度较高的参考数据。

在一个实施例中，所述根据所述音频适应度评估函数遍历所述待合成音频匹配结果进行优化，筛选所述待合成音频优化结果，本申请提供的方法步骤S520还包括：

S521:根据所述待合成音频匹配结果，提取第l待合成音频；

S522:根据所述音频适应度评估函数对所述第l待合成音频进行处理，生成第l音频适应度；

S523:判断所述第l音频适应度是否满足音频适应度阈值；

S524:若满足，将所述第l音频适应度添加进所述待合成音频优化结果；

S525:当所述待合成音频优化结果中音频数量满足预设数量时停止优化。

具体而言，在本实施例中，进行待合成音频匹配结果优化的优选方法为，根据所述待合成音频匹配结果，提取第l待合成音频，获取第l待合成音频的选用频率以及选用后合成视频的浏览量。

根据所述音频适应度评估函数对所述第l待合成音频的选用频率以及选用后合成视频的浏览量进行计算处理，生成第l音频适应度，基于视频剪辑工作人员经验预设音频适应度阈值，判断所述第l音频适应度是否满足音频适应度阈值；若满足，将所述第l音频适应度添加进所述待合成音频优化结果。

根据所述情绪特征序列中各个情绪指数出现次数进行音频需求数量设定，获得所述预设数量，例如情绪特征序列中存在两个相同情绪指数，则所述预设数量为2，当所述待合成音频优化结果中音频数量满足预设数量时停止优化。

本实施例通过计算第l音频适应度并基于预设的音频适应度阈值进行音频筛选，结合音频需求预设数量进行筛选优化停止与否判断，实现了快速从所述待合成音频匹配结果中筛选获得音频适应度高的音乐作为待合成音频背景音乐使用，从而减少背景音乐选取过程时间消耗的技术效果。

在一个实施例中，如图4所示，提供了一种音视频的合成系统，包括：视频参数获得模块1，情绪特征评估模块2，特征序列生成模块3，匹配结果获得模块4，优化结果获得模块5，优化结果调整模块6，数据合成执行模块7，其中：

视频参数获得模块1，用于获取待合成视频参数，其中，所述待合成视频参数包括视频内容特征和视频配音特征；

情绪特征评估模块2，用于根据所述视频内容特征对待合成视频进行情绪特征评估，生成情绪特征序列；

特征序列生成模块3，用于根据所述视频配音特征，生成配音振幅特征序列和配音频率特征序列；

匹配结果获得模块4，用于将所述情绪特征序列输入云端音频匹配数据库，生成待合成音频匹配结果；

优化结果获得模块5，用于根据音频适应度评估函数对所述待合成音频匹配结果进行优化，筛选待合成音频优化结果；

优化结果调整模块6，用于根据所述配音振幅特征序列和所述配音频率特征序列，对所述待合成音频优化结果进行调整，生成多个待合成音频特征序列；

数据合成执行模块7，用于将所述多个待合成音频特征序列发送至合成管理终端进行音视频合成。

在一个实施例中，所述情绪特征评估模块2还包括：

情绪标签设定单元，用于设定情绪标签因子集合，其中，所述情绪标签因子集合包括愤怒标签因子、厌恶标签因子、悲伤标签因子、恐惧标签因子、平静标签因子、惊讶标签因子、喜爱标签因子和快乐标签因子；

完整性分析单元，用于对所述视频内容特征进行完整性分析，生成视频子内容序列；

情绪标签遍历单元，用于根据所述愤怒标签因子、所述厌恶标签因子、所述悲伤标签因子、所述恐惧标签因子、所述平静标签因子、所述惊讶标签因子、所述喜爱标签因子和所述快乐标签因子，遍历所述视频子内容序列，生成多个情绪标签因子序列；

情绪指数评估单元，用于遍历所述多个情绪标签因子序列进行情绪指数评估，生成所述情绪特征序列。

在一个实施例中，所述情绪指数评估单元还包括：

情绪参数列式单元，用于获取情绪波动参数标定式：

情绪权重列式单元，用于获取情绪权重标定式：

情绪指数列式单元，用于获取情绪指数标定式：

其中，S_T表征T时间粒度内的情绪指数；

特征序列生成单元，用于根据所述情绪波动参数标定式、所述情绪权重标定式和所述情绪指数标定式，遍历所述多个情绪标签因子序列进行情绪指数评估，生成所述情绪特征序列。

在一个实施例中，所述情绪标签遍历单元还包括：

记录数据采集单元，用于基于所述愤怒标签因子、所述厌恶标签因子、所述悲伤标签因子、所述恐惧标签因子、所述平静标签因子、所述惊讶标签因子、所述喜爱标签因子和所述快乐标签因子，采集多组情绪等级标定记录数据；

评定模型构建单元，用于根据所述多组情绪等级标定记录数据，训练情绪标签因子等级评定模型；

情绪模型分析单元，用于将所述视频子内容序列依次输入所述情绪标签因子等级评定模型，生成所述多个情绪标签因子等级标定数据集；

序列化调整执行单元，用于将所述多个情绪标签因子等级标定数据集和所述视频子内容序列进行序列化调整，生成所述多个情绪标签因子序列。

在一个实施例中，所述优化结果获得模块5还包括：

评估函数构建单元，用于构建所述音频适应度评估函数：

C_l＝f_l ^α+n_l ^β

优化结果筛选单元，用于根据所述音频适应度评估函数遍历所述待合成音频匹配结果进行优化，筛选所述待合成音频优化结果。

在一个实施例中，所述优化结果筛选单元还包括：

音频提取执行单元，用于根据所述待合成音频匹配结果，提取第l待合成音频；

音频处理执行单元，用于根据所述音频适应度评估函数对所述第l待合成音频进行处理，生成第l音频适应度；

音频适应度判断单元，用于判断所述第l音频适应度是否满足音频适应度阈值；

判断结果执行单元，用于若满足，将所述第l音频适应度添加进所述待合成音频优化结果；

优化执行处理单元，用于当所述待合成音频优化结果中音频数量满足预设数量时停止优化。

在一个实施例中，所述优化结果调整模块6还包括：

特征分析执行单元，用于遍历所述待合成音频优化结果进行特征分析，提取多个待合成音频振幅特征序列和多个待合成音频频率特征序列；

阈值序列设定单元，用于根据所述配音振幅特征序列，设定待合成音频振幅阈值序列；

特征序列生成单元，用于根据所述配音频率特征序列，设定待合成音频频率特征序列；

振幅序列调整单元，用于根据所述待合成音频振幅阈值序列对所述待合成音频振幅特征序列进行调整，生成多个待合成音频振幅调整结果；

特征序列调整单元，用于根据所述待合成音频频率特征序列对所述多个待合成音频频率特征序列进行调整，生成多个待合成音频频率调整结果；

调整结果合并单元，用于将所述多个待合成音频振幅调整结果和所述多个待合成音频频率调整结果合并，生成所述多个待合成音频特征序列。

关于一种音视频的合成系统的具体实施例可以参见上文中对于一种音视频的合成方法的实施例，在此不再赘述。上述一种音视频的合成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储新闻数据以及时间衰减因子等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种音视频的合成方法。

本领域技术人员可以理解，图4中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：获取待合成视频参数，其中，所述待合成视频参数包括视频内容特征和视频配音特征；根据所述视频内容特征对待合成视频进行情绪特征评估，生成情绪特征序列；根据所述视频配音特征，生成配音振幅特征序列和配音频率特征序列；将所述情绪特征序列输入云端音频匹配数据库，生成待合成音频匹配结果；根据音频适应度评估函数对所述待合成音频匹配结果进行优化，筛选待合成音频优化结果；根据所述配音振幅特征序列和所述配音频率特征序列，对所述待合成音频优化结果进行调整，生成多个待合成音频特征序列；将所述多个待合成音频特征序列发送至合成管理终端进行音视频合成。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种音视频的合成方法，其特征在于，包括：

将所述多个待合成音频特征序列发送至合成管理终端进行音视频合成；

所述根据所述视频内容特征对待合成视频进行情绪特征评估，生成情绪特征序列，包括：

设定情绪标签因子集合，其中，所述情绪标签因子集合包括愤怒标签因子、厌恶标签因子、悲伤标签因子、恐惧标签因子、平静标签因子、惊讶标签因子、喜爱标签因子和快乐标签因子；

对所述视频内容特征进行完整性分析，生成视频子内容序列；

根据所述愤怒标签因子、所述厌恶标签因子、所述悲伤标签因子、所述恐惧标签因子、所述平静标签因子、所述惊讶标签因子、所述喜爱标签因子和所述快乐标签因子，遍历所述视频子内容序列，生成多个情绪标签因子序列；

遍历所述多个情绪标签因子序列进行情绪指数评估，生成所述情绪特征序列；

所述遍历所述多个情绪标签因子序列进行情绪指数评估，生成所述情绪特征序列，包括：

获取情绪波动参数标定式：

获取情绪权重标定式：

获取情绪指数标定式：

其中，S_T表征T时间粒度内的情绪指数；

根据所述情绪波动参数标定式、所述情绪权重标定式和所述情绪指数标定式，遍历所述多个情绪标签因子序列进行情绪指数评估，生成所述情绪特征序列；

所述根据所述愤怒标签因子、所述厌恶标签因子、所述悲伤标签因子、所述恐惧标签因子、所述平静标签因子、所述惊讶标签因子、所述喜爱标签因子和所述快乐标签因子，遍历所述视频子内容序列，生成多个情绪标签因子序列，包括：

基于所述愤怒标签因子、所述厌恶标签因子、所述悲伤标签因子、所述恐惧标签因子、所述平静标签因子、所述惊讶标签因子、所述喜爱标签因子和所述快乐标签因子，采集多组情绪等级标定记录数据；

根据所述多组情绪等级标定记录数据，训练情绪标签因子等级评定模型；

将所述视频子内容序列依次输入所述情绪标签因子等级评定模型，生成所述多个情绪标签因子等级标定数据集；

将所述多个情绪标签因子等级标定数据集和所述视频子内容序列进行序列化调整，生成所述多个情绪标签因子序列；

所述根据音频适应度评估函数对所述待合成音频匹配结果进行优化，筛选待合成音频优化结果，包括：

构建所述音频适应度评估函数：

C_l＝f_l ^α+n_l ^β

根据所述音频适应度评估函数遍历所述待合成音频匹配结果进行优化，筛选所述待合成音频优化结果；

所述根据所述配音振幅特征序列和所述配音频率特征序列，对所述待合成音频优化结果进行调整，生成多个待合成音频特征序列，包括：

遍历所述待合成音频优化结果进行特征分析，提取多个待合成音频振幅特征序列和多个待合成音频频率特征序列；

根据所述配音振幅特征序列，设定待合成音频振幅阈值序列；

根据所述配音频率特征序列，设定待合成音频频率特征序列；

根据所述待合成音频振幅阈值序列对所述待合成音频振幅特征序列进行调整，生成多个待合成音频振幅调整结果；

根据所述待合成音频频率特征序列对所述多个待合成音频频率特征序列进行调整，生成多个待合成音频频率调整结果；

将所述多个待合成音频振幅调整结果和所述多个待合成音频频率调整结果合并，生成所述多个待合成音频特征序列。

2.如权利要求1所述的方法，其特征在于，所述根据所述音频适应度评估函数遍历所述待合成音频匹配结果进行优化，筛选所述待合成音频优化结果，包括：

根据所述待合成音频匹配结果，提取第l待合成音频；

根据所述音频适应度评估函数对所述第l待合成音频进行处理，生成第l音频适应度；

判断所述第l音频适应度是否满足音频适应度阈值；

若满足，将所述第l音频适应度添加进所述待合成音频优化结果；

当所述待合成音频优化结果中音频数量满足预设数量时停止优化。

3.一种音视频的合成系统，基于权利要求1所述的方法，其特征在于，所述系统包括：

视频参数获得模块，用于获取待合成视频参数，其中，所述待合成视频参数包括视频内容特征和视频配音特征；

情绪特征评估模块，用于根据所述视频内容特征对待合成视频进行情绪特征评估，生成情绪特征序列；

特征序列生成模块，用于根据所述视频配音特征，生成配音振幅特征序列和配音频率特征序列；

匹配结果获得模块，用于将所述情绪特征序列输入云端音频匹配数据库，生成待合成音频匹配结果；

优化结果获得模块，用于根据音频适应度评估函数对所述待合成音频匹配结果进行优化，筛选待合成音频优化结果；

优化结果调整模块，用于根据所述配音振幅特征序列和所述配音频率特征序列，对所述待合成音频优化结果进行调整，生成多个待合成音频特征序列；

数据合成执行模块，用于将所述多个待合成音频特征序列发送至合成管理终端进行音视频合成。

4.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1或2所述的方法的步骤。

5.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1或2所述的方法的步骤。