CN117641019A

CN117641019A - 基于动画视频的音效匹配核验方法及系统

Info

Publication number: CN117641019A
Application number: CN202311644742.3A
Authority: CN
Inventors: 连慧娥; 廖雯怡; 赵科全; 赵丹
Original assignee: Guangzhou 10001 Animation Co ltd
Current assignee: Guangzhou 10001 Animation Co ltd
Priority date: 2023-12-01
Filing date: 2023-12-01
Publication date: 2024-03-01

Abstract

本申请涉及动画配音的技术领域，公开了一种基于动画视频的音效匹配核验方法及系统，所述方法包括获取动画图像作品并输入至图像特征识别模型中，逐帧从动画图像作品中识别各音效类型标签对应的音效特征图像；基于音效特征图像匹配对应的备选音效音频，将备选音效音频加载至动画图像作品中，将音效类型标签和备选音效标识标记至对应的动画图片中，生成预配音效作品；获取语音配制数据和音效修正数据并加载至预配音效作品，生成配音作品；从配音作品中识别语音特征图像将配音作品与语音特征图像进行匹配，在匹配失败的动画图片标记复检标识，生成待审阅动画作品并发送至审阅终端；本申请具有提高动画视频作品中图像与音频一致性的效果。

Description

基于动画视频的音效匹配核验方法及系统

技术领域

本申请涉及动画配音的技术领域，尤其是涉及一种基于动画视频的音效匹配核验方法及系统。

背景技术

动画视频作品在制作过程中，通常是先完成动画图像作品的制作，在动画图像作品制作完成后，再为动画图像作品配制音频；在动画音频配制的过程中，容易出现音画不一致的现象，例如，动画中角色说话的嘴部动作时间与配音人员的语音音频时间不同步、物品运动时间与对应的音效时间不同步等，容易造成观众观看体验差的问题。

发明内容

为了便于提高动画视频作品中图像与音频的一致性，本申请提供一种基于动画视频的音效匹配核验方法及系统。

本申请的发明目的一采用如下技术方案实现：

基于动画视频的音效匹配核验方法，包括：

获取动画图像作品并输入至图像特征识别模型中，基于预设的音效素材库所包含的若干音效类型标签，逐帧从动画图像作品中识别各音效类型标签对应的音效特征图像；

基于音效特征图像，从音效素材库中匹配对应的备选音效音频，将备选音效音频加载至动画图像作品中，并将对应的音效类型标签和备选音效标识标记至对应的动画图片中，生成预配音效作品；

获取语音配制数据和音效修正数据并加载至预配音效作品，生成配音作品；

逐帧从配音作品中识别语音特征图像和对应的语音特征信息，将配音作品与语音特征图像进行匹配，在匹配失败的动画图片标记复检标识，生成待审阅动画作品并发送至审阅终端；

所述动画图片是指动画图像作品中的单帧图像；所述语音配制数据包括若干段配制语音和对应的角色标识信息、时间标识信息；所述语音特征图像是指出现角色发言的图像特征的图像；所述语音特征信息包括发言者标识信息和发言标记。

通过采用上述技术方案，获取待配音的动画图像作品并输入至图像特征识别模型中，根据音效素材库中所包含的音效类型标签，对动画图像作品的每一张动画图片进行图像识别，以识别出与各音效类型标签所对应的音效特征图像；根据音效特征图像，从音效素材库对应类型的预存音效音频中匹配最符合该音效特征图像的音效音频作为备选音效音频，将备选音效音频加载至动画图像作品中，从而实现对动画图像作品的自动音效配音，从而提高了配音工作的效率，将备选音效音频所对应的音效类型标签和备选音效标识标记在动画图片中，生成预配音效作品，便于后续配音人员检查自动匹配的音效是否适合该动画视频作品；获取配音演员为该动画视频作品配制的语音配制数据，具体包括若干段配制语音和对应的角色标识信息、时间标识信息，将语音配制数据和音效修正数据加载至预配音效作品，从而实现对动画视频作品的不恰当自动音效配音的修正和语音配音，从而生成配音作品；逐帧从配音作品中识别存在角色发言的图像特征的图像，得到语音特征图像，并从语音特征图像中分析对应的语音特征信息，将语音配制数据与语音特征信息进行匹配，对匹配失败的动画图片标记复检标识，以生成待审阅动画作品并发送至审阅终端，便于配音人员根据复检标识审阅该动画视频作品中是否存在配制语音与动画中角色说话动作时间不匹配，或者是配制语音与发言者身份不匹配等错误，从而便于提高动画视频作品中图像与音频的一致性。

本申请在一较佳示例中：所述获取动画图像作品并输入至图像特征识别模型中，基于预设的音效素材库所包含的若干音效类型标签，逐帧从动画图像作品中识别各音效类型标签对应的音效特征图像，包括：

获取动画图像作品并输入至图像特征识别模型中，基于预设的分镜标识信息将动画图像作品划分为若干个场景片段，为各场景片段标记对应的分镜标签信息，所述场景片段包括若干动画图片；

确定预设的音效素材库所包含的所有音效类型标签，基于分镜标签信息确定对应的目标音效类型标签；

逐一对各动画图片进行图像识别，将存在符合目标音效类型标签的图像特征的动画图片定义为音效特征图像。

通过采用上述技术方案，获取动画图像作品并输入至图像特征识别模型中，根据动画视频作品的分镜师在动画图像作品制作过程中确定的分镜标识信息和分镜标签信息，划分并标记各场景片段，便于后续针对不同场景片段的叙事重点自动匹配相应的音效；确定预设音效素材库中所包含的所有音效类型标签，根据分镜标签信息确定对应的目标音效类型标签，便于提高后续识别音效特征图像和自动匹配音效的针对性；逐一对各动画图片进行图像识别，将其中存在符合目标音效类型标签图像特征的动画图片定义为音效特征图像，便于后续匹配相应的备选音效音频。

本申请在一较佳示例中：所述确定预设的音效素材库所包含的所有音效类型标签，基于分镜标签信息确定对应的目标音效类型标签之后，还包括：

基于音效类型标签和目标音效类型标签，确定非目标音效类型标签，对非目标音效类型标签设定对应的音效弱化系数，所述音效弱化系数的取值范围为[0，1)；

逐一对各动画图片进行图像识别，将存在符合非目标音效类型标签的图像特征的动画图片定义为音效特征图像。

通过采用上述技术方案，音效类型标签包括目标音效类型标签和非目标音效类型标签，对于非目标音效类型标签设定音效弱化系数，便于后续弱化非目标音效类型的音效音频响度；将符合非目标音效类型标签的图像特征的动画图片也定义为音效特征图像，以便通过弱化非目标音效类型的音效音频响度的方式，在实现保留音效细节的前提下，突出目标音效类型的音效音频，从而提高用户的视听体验。

本申请在一较佳示例中：所述基于音效特征图像，从音效素材库中匹配对应的备选音效音频，将备选音效音频加载至动画图像作品中，并将对应的音效类型标签和备选音效标识标记至对应的动画图片中，生成预配音效作品，包括：

基于音效特征图像所对应的目标音效类型标签和非目标音效类型标签，从音效素材库对应的音效类型文件包中匹配符合所述音效特征图像的音效音频并标记为备选音效音频，确定备选音效音频对应的备选音频标识；

将各备选音效音频加载至动画图像作品中，将备选音效音频对应的音效类型标签和备选音效标识标记至备选音效音频所对应的所有动画图片中，生成预配音效作品。

通过采用上述技术方案，根据目标音效类型标签和非目标音效类型标签，从音效素材库对应的音效类型文件包中匹配对应目标音效类型标签、非目标音效类型标签，且符合音效特征图像的音效音频并标记为备选音效音频，并进一步获取备选音效音频所对应的标识信息为备选音效标识；将各备选音效音频加载至动画图像作品中，以完成自动音效匹配，并进一步将对应的音效类型标签和备选音效标识标记在该备选音效音频片段所对应的所有动画图片中，从而生成预配音效作品，便于后续配音人员在认为自动匹配的备选音效音频不合适时，重新从该类型的音效类型文件包或其他途径获取合适的音效音频。

本申请在一较佳示例中：所述获取语音配制数据和音效修正数据并加载至预配音效作品，生成配音作品，包括：

获取语音配制数据，将各段配制语音加载至预配音效作品中，并在配制语音所对应的所有动画图片中标记相应的角色标识信息、时间标识信息；

获取音效修正数据，对预配音效作品的备选音效音频进行调整，生成配音作品。

通过采用上述技术方案，获取语音配制数据，将各段配制语音加载至预配音效作品中，并在加载了配制语音的片段所对应的所有动画图片中标记配制语音相应的角色标识信息和时间标识信息，便于后续核验配制语音与动画图片的一致性；获取音效修正数据，以对预配音效作品中自动匹配的备选音效音频进行调整，以生成配音作品，便于提高动画视频作品的影音效果。

本申请在一较佳示例中：所述逐帧从配音作品中识别语音特征图像和对应的语音特征信息，将配音作品与语音特征图像进行匹配，在匹配失败的动画图片标记复检标识，包括：

逐一对各动画图片进行图像识别，将存在角色发言图像特征的动画图片定义为语音特征图像，将同一发言者对应的连续语音特征图像划分为一个语音分段；

对语音分段的每一语音特征图像标记对应的发言者标识信息和发言标记，将配音作品与语音特征图像进行匹配；

对缺失对应的角色标识信息和时间标识信息的语音特征图像标记复检标识，对标记了发言者标识信息和发言标记的非语音特征图像动画图片标记复检标识。

通过采用上述技术方案，由于不同语言的信息密度存在差异，尤其是在海外引入的动画视频作品的配音中，时常出现因为语种不同导致角色在说话时出现音画不同步的现象，因此，逐一对各动画图片进行图像识别，以将存在角色发言的图像特征的动画图片定义为语音特征图像，将同一发言者所对应的连续的语音特征图像划分为一个语音分段内；对语音分段的每一个语音特征图像均标记对应的发言者标识和发言标记，并将配音作品与语音特征图像进行匹配，以便判断配音作品中各段配制语音的角色标识信息、时间标识信息是否与对应语音特征图像的发言者标识和发言标记对应；对缺失对应的角色标识信息和时间标识信息的语音特征图像标记复检标识，以标记存在角色发言图像特征，但没有对应配制语音的动画图片，对标记了发言者标识信息和发言标记的非语音特征图像动画图片标记复检标识，以标记存在配制语音，但没有对应角色发言图像特征的动画图片，复检标识便于配音人员后续对配音作品进行人工核验，调整配制语音或动画图片，以便提高动画视频作品的音画同步性。

本申请在一较佳示例中：所述逐一对各动画图片进行图像识别，将存在角色发言图像特征的动画图片定义为语音特征图像，将同一发言者对应的连续语音特征图像划分为一个语音分段之后，还包括：

在一场景片段中，若同一角色的相邻语音分段之间不存在该角色的非发言图像，将在前语音分段的最初语音特征图像至在后语音分段的最后语音特征图像之间的所有动画图片均定义为语音特征图像，并合并为一个语音分段。

通过采用上述技术方案，在影视作品中，时常会出现某一角色在说话过程中，将视角转向另一角色或另一场景，随后再切换回该发言角色的表现手法，因此，在一个场景片段中，若同一角色的相邻语音分段中，未出现该角色的非发言图像，则将在前语音分段的第一个语音特征图像至在后语音分段的最后一个语音特征图像之间的所有动画图片均定义为语音特征图像，并合并为同一个语音分段，以便减小这种影视表现手法对音画同步核验所造成的影响。

本申请的发明目的二采用如下技术方案实现：

基于动画视频的音效匹配核验系统，应用于上述任一项所述基于动画视频的音效匹配核验方法，包括：

音效特征图像识别模块，用于获取动画图像作品并输入至图像特征识别模型中，基于预设的音效素材库所包含的若干音效类型标签，逐帧从动画图像作品中识别各音效类型标签对应的音效特征图像；

预配音效作品生成模块，用于基于音效特征图像，从音效素材库中匹配对应的备选音效音频，将备选音效音频加载至动画图像作品中，并将对应的音效类型标签和备选音效标识标记至对应的动画图片中，生成预配音效作品；

配音作品生成模块，用于获取语音配制数据和音效修正数据并加载至预配音效作品，生成配音作品；

待审阅动画作品发送模块，用于逐帧从配音作品中识别语音特征图像和对应的语音特征信息，将配音作品与语音特征图像进行匹配，在匹配失败的动画图片标记复检标识，生成待审阅动画作品并发送至审阅终端。

本申请在一较佳示例中：所述音效特征图像识别模块包括：

场景片段划分子模块，用于获取动画图像作品并输入至图像特征识别模型中，基于预设的分镜标识信息将动画图像作品划分为若干个场景片段，为各场景片段标记对应的分镜标签信息，所述场景片段包括若干动画图片；

目标音效类型标签确定子模块，用于确定预设的音效素材库所包含的所有音效类型标签，基于分镜标签信息确定对应的目标音效类型标签；

第一音效特征图像确定子模块，用于逐一对各动画图片进行图像识别，将存在符合目标音效类型标签的图像特征的动画图片定义为音效特征图像。

本申请在一较佳示例中：所述音效特征图像识别模块还包括：

音效弱化系数设定子模块，用于基于音效类型标签和目标音效类型标签，确定非目标音效类型标签，对非目标音效类型标签设定对应的音效弱化系数，所述音效弱化系数的取值范围为[0，1)；

第二音效特征图像确定子模块，用于逐一对各动画图片进行图像识别，将存在符合非目标音效类型标签的图像特征的动画图片定义为音效特征图像。

综上所述，本申请包括以下至少一种有益技术效果：

1.获取待配音的动画图像作品并输入至图像特征识别模型中，根据音效素材库中所包含的音效类型标签，对动画图像作品的每一张动画图片进行图像识别，以识别出与各音效类型标签所对应的音效特征图像；根据音效特征图像，从音效素材库对应类型的预存音效音频中匹配最符合该音效特征图像的音效音频作为备选音效音频，将备选音效音频加载至动画图像作品中，从而实现对动画图像作品的自动音效配音，从而提高了配音工作的效率，将备选音效音频所对应的音效类型标签和备选音效标识标记在动画图片中，生成预配音效作品，便于后续配音人员检查自动匹配的音效是否适合该动画视频作品；获取配音演员为该动画视频作品配制的语音配制数据，具体包括若干段配制语音和对应的角色标识信息、时间标识信息，将语音配制数据和音效修正数据加载至预配音效作品，从而实现对动画视频作品的不恰当自动音效配音的修正和语音配音，从而生成配音作品；逐帧从配音作品中识别存在角色发言的图像特征的图像，得到语音特征图像，并从语音特征图像中分析对应的语音特征信息，将语音配制数据与语音特征信息进行匹配，对匹配失败的动画图片标记复检标识，以生成待审阅动画作品并发送至审阅终端，便于配音人员根据复检标识审阅该动画视频作品中是否存在配制语音与动画中角色说话动作时间不匹配，或者是配制语音与发言者身份不匹配等错误，从而便于提高动画视频作品中图像与音频的一致性。

2.获取动画图像作品并输入至图像特征识别模型中，根据动画视频作品的分镜师在动画图像作品制作过程中确定的分镜标识信息和分镜标签信息，划分并标记各场景片段，便于后续针对不同场景片段的叙事重点自动匹配相应的音效；确定预设音效素材库中所包含的所有音效类型标签，根据分镜标签信息确定对应的目标音效类型标签，便于提高后续识别音效特征图像和自动匹配音效的针对性；逐一对各动画图片进行图像识别，将其中存在符合目标音效类型标签图像特征的动画图片定义为音效特征图像，便于后续匹配相应的备选音效音频。

3.音效类型标签包括目标音效类型标签和非目标音效类型标签，对于非目标音效类型标签设定音效弱化系数，便于后续弱化非目标音效类型的音效音频响度；将符合非目标音效类型标签的图像特征的动画图片也定义为音效特征图像，以便通过弱化非目标音效类型的音效音频响度的方式，在实现保留音效细节的前提下，突出目标音效类型的音效音频，从而提高用户的视听体验。

附图说明

图1是本申请实施例一中基于动画视频的音效匹配核验方法的流程图。

图2是本申请实施例二中基于动画视频的音效匹配核验系统的一原理框图。

图3是本申请实施例三中的设备示意图。

具体实施方式

以下结合附图1至3对本申请作进一步详细说明。

实施例一

参照图1，本申请公开一种基于动画视频的音效匹配核验方法，应用于对动画视频作品进行音效素材的自动匹配，以及语音与动画之间同步性的核验，具体包括如下步骤：

S10：获取动画图像作品并输入至图像特征识别模型中，基于预设的音效素材库所包含的若干音效类型标签，逐帧从动画图像作品中识别各音效类型标签对应的音效特征图像。

在本实施例中，动画图像作品是指在配制语音和音效之前的动画视频作品；优选的，动画图像作品的每秒帧数为24，动画图像作品中的单帧图像为动画图片；图像特征识别模型是指用于对动画图像作品中的动画图片进行图像特征识别的算法模型，内置有通过大量动画视频作品进行过针对训练的AI图像识别算法；音效素材库是指用于存储音效音频的数据库，音效素材库中包括若干用于存储不同类型音效音频的音效类型文件包，每一音效类型文件包均标记有对应的音效类型标签；例如，音效素材库中包括环境音效、动作音效、机械音效、氛围音效、物体音效、魔法科幻音效和动物音效等多个音效类型分组，而环境音效的音效类型分组中又包含若干雷声、风声、雨声、鸟鸣声等音效类型文件包。

具体地，获取待配音的动画图像作品并输入至图像特征识别模型中，根据音效素材库中所包含的音效类型标签，对动画图像作品的每一张动画图片进行图像识别，以识别出与各音效类型标签所对应的音效特征图像。

其中，在步骤S10中，包括：

S11：获取动画图像作品并输入至图像特征识别模型中，基于预设的分镜标识信息将动画图像作品划分为若干个场景片段，为各场景片段标记对应的分镜标签信息，所述场景片段包括若干动画图片。

在本实施例中，分镜标识信息和分镜标签信息是由动画视频作品的分镜师在动画图像作品制作过程中确定并标记在动画图像作品中的，分镜标识信息用于标记每一个场景片段的起始和终止的动画图片，用于划分场景片段，分镜标签信息用于记录该场景片段的叙事重点。

具体地，获取动画图像作品并输入至图像特征识别模型中，根据动画视频作品的分镜师在动画图像作品制作过程中确定的分镜标识信息和分镜标签信息，划分并标记各场景片段，并确定每一场景片段的叙事重点，例如，一个场景片段为角色在雨中行走，该场景片段的分镜标签信息为“环境、氛围”时，则该场景片段的叙事重点为体现该场景中的环境和氛围；而在下一场景片段中，角色进入室内，与另一角色相遇，该场景片段的分镜标签信息为“氛围、对话”时，则该场景片段的叙事重点为体现该场景中的氛围和角色对话；便于后续针对不同场景片段的叙事重点自动匹配相应的音效。

S12：确定预设的音效素材库所包含的所有音效类型标签，基于分镜标签信息确定对应的目标音效类型标签。

在本实施例中，目标音效类型标签是指基于分镜标签信息而从所有音效类型标签中确定的需要重点表现的音效类型的标签。

具体地，确定预设音效素材库中所包含的所有音效类型标签，根据分镜标签信息确定对应的目标音效类型标签，便于提高后续识别音效特征图像和自动匹配音效的针对性；例如，当某一场景片段的分镜标签信息为“环境、氛围”时，则将音效素材库中环境音效、氛围音效的音效类型分组下的所有音效类型文件包的音效类型标签设定为目标音效类型标签。

S13：逐一对各动画图片进行图像识别，将存在符合目标音效类型标签的图像特征的动画图片定义为音效特征图像。

具体地，逐一对各动画图片进行图像识别，将其中存在符合目标音效类型标签图像特征的动画图片定义为音效特征图像；例如，音效素材库中收录有雷声、枪声、挥拳声的音效类型文件包，则音效素材库至少包括雷声、枪声、挥拳声的音效类型标签，当目标音效类型标签包括雷声、枪声、挥拳声时，通过AI图像识别算法对动画图像作品中的每一张动画图片进行图像识别，若识别出打雷、开枪、挥拳的图像特征时，将这些含有打雷、开枪、挥拳的图像特征的动画图片定义为音效特征图像，便于后续匹配相应的备选音效音频。

其中，在子步骤S12之后，步骤S10还包括：

S14：基于音效类型标签和目标音效类型标签，确定非目标音效类型标签，对非目标音效类型标签设定对应的音效弱化系数，所述音效弱化系数的取值范围为[0，1)。

在本实施例中，音效类型标签包括目标音效类型标签和非目标音效类型标签，非目标音效类型标签是指音效素材库的音效类型标签中，未被定义为目标音效类型标签的剩余音效类型标签；音效弱化系数是指对非目标音效类型标签所对应的音效音频响度进行调整的系数。

具体地，确定非目标音效类型标签后，对于非目标音效类型标签设定数值为[0，1)的音效弱化系数，便于后续对非目标音效类型标签所对应的音效音频响度进行弱化调整；例如，当某场景片段的角色在室内，对应的分镜标签信息为“氛围、对话”时，则该场景片段的叙事重点为体现该场景中的氛围和角色对话，可对窗外的雨声、雷声等非目标音效类型标签所对应的音效音频响度进行弱化调整，从而突出氛围、对话的叙事重点、弱化环境音效。

S15：逐一对各动画图片进行图像识别，将存在符合非目标音效类型标签的图像特征的动画图片定义为音效特征图像。

具体地，将符合非目标音效类型标签的图像特征的动画图片也定义为音效特征图像，以便通过弱化非目标音效类型的音效音频响度的方式，在实现保留非叙事重点的音效细节的前提下，突出目标音效类型的音效音频，从而提高用户的视听体验。

S20：基于音效特征图像，从音效素材库中匹配对应的备选音效音频，将备选音效音频加载至动画图像作品中，并将对应的音效类型标签和备选音效标识标记至对应的动画图片中，生成预配音效作品。

在本实施例中，备选音效音频是指从音效素材库中匹配的最符合该音效特征图像的图像特征的音效音频。

具体地，根据音效特征图像，从音效素材库对应类型的预存音效音频中匹配最符合该音效特征图像的音效音频作为备选音效音频，例如，当音效特征图像所表现的为角色穿着高跟鞋行走的画面，对应的目标音效类型标签为“脚步声”时，则需要从“脚步声”的音效类型文件包中匹配脚步声的音效音频，而角色穿着不同鞋子时的脚步声存在较大差异，因此，根据音效特征图像中高跟鞋的图像特征，从“脚步声”的音效类型文件包中从众多音效音频中匹配高跟鞋脚步声的音效音频作为备选音效音频；将备选音效音频加载至动画图像作品中，从而实现对动画图像作品的自动音效配音，从而提高了配音工作的效率，将备选音效音频所对应的音效类型标签和备选音效标识标记在动画图片中，生成预配音效作品，便于后续配音人员检查自动匹配的音效是否适合该动画视频作品。

其中，在步骤S20中，包括：

S21：基于音效特征图像所对应的目标音效类型标签和非目标音效类型标签，从音效素材库对应的音效类型文件包中匹配符合所述音效特征图像的音效音频并标记为备选音效音频，确定备选音效音频对应的备选音频标识。

在本实施例中，备选音频标识是指用于记录备选音效音频特征的标识信息，例如，当备选音效音频为高跟鞋行走的脚步声时，则备选音频标识为“脚步声、高跟鞋、步频60/min”。

具体地，根据目标音效类型标签和非目标音效类型标签，从音效素材库对应的音效类型文件包中匹配对应目标音效类型标签、非目标音效类型标签，且符合音效特征图像的音效音频并标记为备选音效音频，并进一步获取备选音效音频所对应的标识信息为备选音效标识。

S22：将各备选音效音频加载至动画图像作品中，将备选音效音频对应的音效类型标签和备选音效标识标记至备选音效音频所对应的所有动画图片中，生成预配音效作品。

在本实施例中，预配音效作品是指完成了备选音效音频加载和备选音效标识标记，但尚未完成语音配制的动画图像作品。

具体地，将各备选音效音频加载至动画图像作品中，以完成自动音效匹配，并进一步将对应的音效类型标签和备选音效标识标记在该备选音效音频片段所对应的所有动画图片中，从而生成预配音效作品；便于后续配音人员在认为自动匹配的备选音效音频不合适时，重新根据备选音效标识从该类型的音效类型文件包或其他途径获取合适的音效音频，例如，图像特征识别模型识别音效特征图像存在角色穿着皮鞋行走的图像特征，而该角色所穿着的鞋子实际应为软底运动鞋时，则可根据“脚步声、皮鞋、步频60/min”的备选音效标识，重新从音效类型文件包中找到“脚步声、运动鞋、步频60/min”的音效音频进行替换。

进一步地，若音效素材库中无法找到符合音效特征图像图像特征的音效音频时，备选音效音频可以为空音频，其对应的备选音效标识为待添加备选音效音频的特征信息，例如“待添加音效-脚步声、高跟鞋、步频60/min”。

S30：获取语音配制数据和音效修正数据并加载至预配音效作品，生成配音作品。

在本实施例中，语音配制数据包括若干段配制语音和对应的角色标识信息、时间标识信息，配制语音是指配音演员所配置的语音，角色标识信息用于记录配制语音所对应的角色的标识信息，具体可以是角色的名字或代码，时间标识信息是指用于标记在对应动画图片上的信息，用于标识配置语音的起始图像帧、结束图像帧和所对应图像帧在动画图像作品中的帧数位置；音效修正数据是指配音人员对自动匹配的备选音效音频的修改数据，用于修改动画图像作品中的备选音效音频，例如，原备选音效音频的备选音效标识为“脚步声、皮鞋、步频60/min音频”时，音效修正数据可以是“‘脚步声、运动鞋、步频60/min音频’和将‘脚步声、皮鞋、步频60/min’替换为‘脚步声、运动鞋、步频60/min’的计算机指令”。

具体地，获取配音演员为该动画视频作品配制的语音配制数据，具体包括若干段配制语音和对应的角色标识信息、时间标识信息，将语音配制数据和音效修正数据加载至预配音效作品，从而实现对动画视频作品的不恰当自动音效配音的修正和语音配音，从而生成配音作品。

进一步地，角色标识信息还可以是“旁白语音”，角色标识信息为“旁白语音”的配制语音无需进行后续步骤S40中的音画同步核验工作。

其中，在步骤S30中，包括：

S31：获取语音配制数据，将各段配制语音加载至预配音效作品中，并在配制语音所对应的所有动画图片中标记相应的角色标识信息、时间标识信息。

具体地，获取语音配制数据，将各段配制语音加载至预配音效作品中，并在加载了配制语音的片段所对应的所有动画图片中标记配制语音相应的角色标识信息和时间标识信息，便于后续核验配制语音与动画图片的一致性。

S32：获取音效修正数据，对预配音效作品的备选音效音频进行调整，生成配音作品。

具体地，获取音效修正数据，以对预配音效作品中自动匹配的备选音效音频进行调整，以生成配音作品，便于提高动画视频作品的影音效果。

S40：逐帧从配音作品中识别语音特征图像和对应的语音特征信息，将配音作品与语音特征图像进行匹配，在匹配失败的动画图片标记复检标识，生成待审阅动画作品并发送至审阅终端。

在本实施例中，语音特征图像是指出现角色发言的图像特征的图像，例如包含角色口部张开的动画图片；语音特征信息包括发言者标识信息和发言标记，发言者标识信息用于记录语音特征图像所对应的发言角色的标识信息，具体可以是角色的名字或代码，发言标记是指用于标记在对应动画图片上的信息，用于标识语音特征图像组的起始图像帧、结束图像帧和语音特征图像组所对应图像帧在动画图像作品中的帧数位置。

具体地，逐帧从配音作品中识别存在角色发言的图像特征的图像，得到语音特征图像，并从语音特征图像中分析对应的语音特征信息，将配音作品与语音特征图像进行匹配，对匹配失败的动画图片标记复检标识，以生成待审阅动画作品并发送至审阅终端，便于配音人员根据复检标识审阅该动画视频作品中是否存在配制语音与动画中角色说话动作时间不匹配，或者是配制语音与发言者身份不匹配等错误，从而便于提高动画视频作品中图像与音频的一致性。

其中，在步骤S40中，包括：

S41：逐一对各动画图片进行图像识别，将存在角色发言图像特征的动画图片定义为语音特征图像，将同一发言者对应的连续语音特征图像划分为一个语音分段。

在本实施例中，语音分段是指一个发言角色在动画图像作品中的一段持续发言对应的连续语音特征图像组；不同发言角色所对应的语音分段可以在动画图像作品中重叠，即同一动画图片可能同时作为多个语音分段的语音特征图像。

具体地，由于不同语言的信息密度存在差异，尤其是在海外引入的动画视频作品的配音中，时常出现因为语种不同导致角色在说话时出现音画不同步的现象，因此，逐一对各动画图片进行图像识别，以将存在角色发言的图像特征的动画图片定义为语音特征图像，将同一发言者所对应的帧数连续的语音特征图像划分为一个语音分段内。

S42：对语音分段的每一语音特征图像标记对应的发言者标识信息和发言标记，将配音作品与语音特征图像进行匹配。

具体地，对语音分段的每一个语音特征图像均标记对应的发言者标识和发言标记，并将配音作品与语音特征图像进行匹配，以便判断配音作品中各段配制语音的角色标识信息、时间标识信息是否与对应语音特征图像的发言者标识和发言标记对应。

S43：对缺失对应的角色标识信息和时间标识信息的语音特征图像标记复检标识，对标记了发言者标识信息和发言标记的非语音特征图像动画图片标记复检标识。

在本实施例中，复检标识是指用于标记动画图片的标识，便于配音工作人员对配音作品可能存在的音画不同步现象进行核验。

具体地，配音作品与语音特征图像的具体匹配方法为：对缺失对应的角色标识信息和时间标识信息的语音特征图像标记复检标识，以标记存在角色发言图像特征，但没有对应配制语音的动画图片，对标记了发言者标识信息和发言标记的非语音特征图像动画图片标记复检标识，以标记存在配制语音，但没有对应角色发言图像特征的动画图片，复检标识便于配音人员后续对配音作品进行人工核验，调整配制语音或动画图片，以便提高动画视频作品的音画同步性。

其中，在子步骤S41之后，步骤S40还包括：

S44：在一场景片段中，若同一角色的相邻语音分段之间不存在该角色的非发言图像，将在前语音分段的最初语音特征图像至在后语音分段的最后语音特征图像之间的所有动画图片均定义为语音特征图像，并合并为一个语音分段。

在本实施例中，某一角色的非发言图像是指出现了该角色、但不存在该角色发言的图像特征的动画图片。

具体地，在影视作品中，时常会出现某一角色在说话过程中，将视角转向另一角色或另一场景，随后再切换回该发言角色的表现手法，因此，在一个场景片段中，若同一角色的相邻语音分段中，未出现该角色的非发言图像，则将在前语音分段的第一个语音特征图像至在后语音分段的最后一个语音特征图像之间的所有动画图片均定义为语音特征图像，并合并为同一个语音分段，以便减小这种影视表现手法对音画同步核验所造成的影响。

应理解，上述实施例中各步骤的序号大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

实施例二

基于动画视频的音效匹配核验系统，该基于动画视频的音效匹配核验系统与上述实施例中基于动画视频的音效匹配核验方法相对应。

如图2所示，基于动画视频的音效匹配核验系统，包括音效特征图像识别模块、预配音效作品生成模块、配音作品生成模块和待审阅动画作品发送模块。各功能模块的详细说明如下：

其中，音效特征图像识别模块还包括：

第一音效特征图像确定子模块，用于逐一对各动画图片进行图像识别，将存在符合目标音效类型标签的图像特征的动画图片定义为音效特征图像；

其中，预配音效作品生成模块还包括：

备选音效音频匹配子模块，用于基于音效特征图像所对应的目标音效类型标签和非目标音效类型标签，从音效素材库对应的音效类型文件包中匹配符合所述音效特征图像的音效音频并标记为备选音效音频，确定备选音效音频对应的备选音频标识；

备选音效标识标记子模块，用于将各备选音效音频加载至动画图像作品中，将备选音效音频对应的音效类型标签和备选音效标识标记至备选音效音频所对应的所有动画图片中，生成预配音效作品。

其中，配音作品生成模块还包括：

语音配制子模块，用于获取语音配制数据，将各段配制语音加载至预配音效作品中，并在配制语音所对应的所有动画图片中标记相应的角色标识信息、时间标识信息；

音效修正子模块，用于获取音效修正数据，对预配音效作品的备选音效音频进行调整，生成配音作品。

其中，待审阅动画作品发送模块还包括：

语音分段划分子模块，用于逐一对各动画图片进行图像识别，将存在角色发言图像特征的动画图片定义为语音特征图像，将同一发言者对应的连续语音特征图像划分为一个语音分段；

语音分段标记子模块，用于对语音分段的每一语音特征图像标记对应的发言者标识信息和发言标记，将配音作品与语音特征图像进行匹配；

复检标识标记子模块，用于对缺失对应的角色标识信息和时间标识信息的语音特征图像标记复检标识，对标记了发言者标识信息和发言标记的非语音特征图像动画图片标记复检标识。

语音分段合并子模块，用于在一场景片段中，若同一角色的相邻语音分段之间不存在该角色的非发言图像，将在前语音分段的最初语音特征图像至在后语音分段的最后语音特征图像之间的所有动画图片均定义为语音特征图像，并合并为一个语音分段。

关于基于动画视频的音效匹配核验系统的具体限定可以参见上文中对于基于动画视频的音效匹配核验方法的限定，在此不再赘述；上述基于动画视频的音效匹配核验系统中的各个模块可全部或部分通过软件、硬件及其组合来实现；上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以是以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

实施例三

一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储动画图像作品、图像特征识别模型、音效素材库、音效类型标签、音效特征图像、备选音效音频、备选音效标识、预配音效作品、语音配制数据、音效修正数据、配音作品、语音特征图像、语音特征信息、复检标识和待审阅动画作品等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现基于动画视频的音效匹配核验方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：

S10：获取动画图像作品并输入至图像特征识别模型中，基于预设的音效素材库所包含的若干音效类型标签，逐帧从动画图像作品中识别各音效类型标签对应的音效特征图像；

S20：基于音效特征图像，从音效素材库中匹配对应的备选音效音频，将备选音效音频加载至动画图像作品中，并将对应的音效类型标签和备选音效标识标记至对应的动画图片中，生成预配音效作品；

S30：获取语音配制数据和音效修正数据并加载至预配音效作品，生成配音作品；

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)、DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域普通技术人员应当理解；其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.基于动画视频的音效匹配核验方法，其特征在于，包括：

2.根据权利要求1所述的基于动画视频的音效匹配核验方法，其特征在于：所述获取动画图像作品并输入至图像特征识别模型中，基于预设的音效素材库所包含的若干音效类型标签，逐帧从动画图像作品中识别各音效类型标签对应的音效特征图像，包括：

3.根据权利要求2所述的基于动画视频的音效匹配核验方法，其特征在于：所述确定预设的音效素材库所包含的所有音效类型标签，基于分镜标签信息确定对应的目标音效类型标签之后，还包括：

基于音效类型标签和目标音效类型标签，确定非目标音效类型标签，对非目标音效类型标签设定对应的音效弱化系数，所述音效弱化系数的取值范围为[0，1）；

4.根据权利要求3所述的基于动画视频的音效匹配核验方法，其特征在于：所述基于音效特征图像，从音效素材库中匹配对应的备选音效音频，将备选音效音频加载至动画图像作品中，并将对应的音效类型标签和备选音效标识标记至对应的动画图片中，生成预配音效作品，包括：

5.根据权利要求1所述的基于动画视频的音效匹配核验方法，其特征在于：所述获取语音配制数据和音效修正数据并加载至预配音效作品，生成配音作品，包括：

6.根据权利要求2所述的基于动画视频的音效匹配核验方法，其特征在于：所述逐帧从配音作品中识别语音特征图像和对应的语音特征信息，将配音作品与语音特征图像进行匹配，在匹配失败的动画图片标记复检标识，包括：

7.根据权利要求6所述的基于动画视频的音效匹配核验方法，其特征在于：所述逐一对各动画图片进行图像识别，将存在角色发言图像特征的动画图片定义为语音特征图像，将同一发言者对应的连续语音特征图像划分为一个语音分段之后，还包括：

8.基于动画视频的音效匹配核验系统，其特征在于，应用于权利要求1-7任一项所述基于动画视频的音效匹配核验方法，包括：

9.根据权利要求8所述的基于动画视频的音效匹配核验系统，其特征在于：所述音效特征图像识别模块包括：

10.根据权利要求9所述的基于动画视频的音效匹配核验系统，其特征在于：所述音效特征图像识别模块还包括：

音效弱化系数设定子模块，用于基于音效类型标签和目标音效类型标签，确定非目标音效类型标签，对非目标音效类型标签设定对应的音效弱化系数，所述音效弱化系数的取值范围为[0，1）；