CN115841816A

CN115841816A - 一种语音片段识别方法、装置、电子设备及存储介质

Info

Publication number: CN115841816A
Application number: CN202211490425.6A
Authority: CN
Inventors: 王为; 文博龙; 闫影; 李娜; 徐雪萍; 陈海涛; 李海; 刘俊晖; 谢丹铭
Original assignee: Beijing IQIYI Science and Technology Co Ltd
Current assignee: Beijing IQIYI Science and Technology Co Ltd
Priority date: 2022-11-25
Filing date: 2022-11-25
Publication date: 2023-03-24

Abstract

本申请实施例提供一种语音片段识别方法、装置、电子设备及存储介质，应用于信息技术领域。通过对提取到的第一时间段的目标数据进行特征提取，得到语音特征向量和关联特征向量；将各特征向量进行特征融合；通过预设情绪类别分类网络对得到的融合特征向量进行分类，在分类结果表示高情绪类别时，将目标数据确定为待执行音频异常检测的数据。应用本申请实施例的方法，可以通过同时对音频数据和关联数据进行特征提取并融合得到融合特征向量，再通过预设的情绪类别分类网络对融合特征向量进行分类，确定出高情绪表达的音频数据，实现自动识别目标音频中的高情绪片段，从而解决通过人工进行高情绪片段的识别时检测效率低的问题，提高音频检测的效率。

Description

一种语音片段识别方法、装置、电子设备及存储介质

技术领域

本申请涉及信息技术领域，特别是涉及一种语音片段识别方法、装置、电子设备及存储介质。

背景技术

随着多媒体技术的发展，视频成为人们日常生活、学习和工作的重要工具。而在视频制作时，常常因为现场录制的环境嘈杂、不利于收音等原因，需要对制作的视频进行配音。在相关配音制作技术中，由于配音演员发音等问题，制作的视频常常在高情绪，如情绪饱满的情境下，出现声音不自然、语调不符合情境等问题。

目前，在相关技术中，针对上述声音不自然、语调不符合情境等问题的检查，需要工作人员阅览整个音频，识别出高情绪状态对应的音频位置，以便根据识别出的位置进行检查和修正。然而，通过该方法由于需要人工阅览整个音频，不但花费的人工成本高，而且检测效率往往较低。

发明内容

本申请实施例的目的在于提供一种语音片段识别方法、装置、电子设备及存储介质，以解决视频检测效率较低的技术问题。具体技术方案如下：

在本申请实施例的第一方面，首先提供了一种语音片段识别方法，所述方法应用于业务服务器，所述方法包括：

获取第一时间段的目标数据，其中，所述目标数据包括音频数据和所述音频数据在时序上的关联数据；

将所述音频数据和所述关联数据分别输入特征提取网络，得到对应的语音特征向量和关联特征向量；

对所述语音特征向量和所述关联特征向量进行融合，得到融合特征向量；

将所述融合特征向量输入预设情绪类别分类网络，得到所述目标数据对应的情绪类别，并在所述目标数据对应的情绪类别为高情绪类别时，将所述目标数据确定为待执行音频异常检测的数据。

在一种可能的实施方式中，所述将所述语音特征向量和所述关联特征向量进行融合，得到融合特征向量，包括：

采用拼接的方式，将所述语音特征向量和所述关联特征向量进行融合，得到所述融合特征向量。

在一种可能的实施方式中，所述关联数据包括与所述音频数据在时序上关联的图像数据和台词文本数据，所述将所述音频数据和所述关联数据分别输入特征提取网络，得到对应的语音特征向量和关联特征向量，包括：

识别目标视频的音频，得到目标音频；

对所述目标音频进行语音提取，得到所述目标数据中的所述音频数据；

将所述音频数据输入第一卷积神经网络模型，得到所述语音特征向量；

对所述目标视频进行分帧，得到所述目标数据中的所述图像数据；

将所述图像数据输入第二卷积神经网络模型，得到所述图像特征向量；

识别所述目标视频的台词，得到所述目标数据中的所述台词文本数据；

将所述台词文本数据输入第三卷积神经网络模型，得到所述文本特征向量。

在一种可能的实施方式中，所述将所述音频数据输入第一卷积神经网络模型，得到所述语音特征向量，包括：

对所述音频数据进行分帧，得到多个语音帧；

对所述多个语音帧中的每一语音帧进行频域变换，得到各所述语音帧对应的频谱图；

对各所述语音帧对应的频谱图进行向量化，得到各所述语音帧对应的频域特征向量；

对各所述语音帧对应的频域特征向量进行融合，得到所述语音特征向量。

在一种可能的实施方式中，所述将所述图像数据输入第二卷积神经网络模型，得到所述图像特征向量，包括：

对所述图像数据进行分帧，得到多个视频帧；

针对所述多个视频帧的每一帧进行脸部检测，确定所述多个视频帧中包含脸部的多个目标视频帧；其中，所述目标视频帧中包括人脸和拟人类脸部；

对所述多个目标视频帧进行脸部特征的提取，得到对应的多条脸部特征向量；

对所述多条脸部特征向量进行融合，得到所述图像特征向量。

在一种可能的实施方式中，所述脸部检测结果包括每一帧中包含的脸部的数量，所述对所述多个目标视频帧进行脸部特征的提取，得到对应的多条脸部特征向量，包括：

针对所述多个目标视频帧的任一视频帧，在该视频帧中包括多张脸部的情况下，识别该视频帧中每一脸部的面部状态；

在所述面部状态表示该脸部处于发声状态的情况下，

提取所述多张脸部中面部状态为发声状态的目标脸部的特征，得到该视频帧的脸部特征向量。

在一种可能的实施方式中，所述将所述台词文本数据输入第三卷积神经网络模型，得到所述文本特征向量，包括：

识别所述台词文本数据中表达情绪的特征词，得到多个目标特征词；

对所述多个目标特征词进行向量化，得到多条特征词向量；

对所述多条特征词向量进行融合，得到所述文本特征向量。

在一种可能的实施方式中，在将所述融合特征向量输入预设情绪类别分类网络，得到所述目标数据对应的情绪类别，并在所述目标数据对应的情绪类别为高情绪类别时，将所述目标数据确定为待执行音频异常检测的数据之后，所述方法还包括：

检测所述待执行音频异常检测的数据的音画是否同步。

在本申请实施例的第二方面，还提供了一种语音片段识别方法，所述方法应用于模型训练设备，所述方法包括：

将样本目标数据输入特征提取网络，得到样本语音特征向量和样本关联特征向量，其中，所述样本目标数据包括样本音频数据和该样本音频数据在时序上的样本关联数据；

将所述样本语音特征向量和所述样本关联特征向量进行融合，得到样本融合特征向量；

将所述样本融合特征向量输入情绪类别分类网络，得到第一分类结果；其中，所述情绪类别分类网络模型通过本申请第一方面任一所述方法获得第一分类结果；

将所述第一分类结果和样本验证集对比，得到第一误差值；其中，所述样本验证集包括所述样本数据集中实际是否包含高情绪表达片段对应的数据；

依据所述第一误差值，调整所述情绪类别分类网络模型的参数，得到调整后的情绪类别分类网络模型；

将所述样本融合特征向量输入所述调整后的情绪类别分类网络模型，得到第二分类结果；其中，所述调整后的情绪类别分类网络模型通过本申请第一方面任一所述方法获得第二分类结果；

将所述第二分类结果和所述样本验证集对比，得到调整后的情绪类别分类网络模型的第二误差值；

若所述第二误差值小于预设阈值，则将所述调整后的预设情绪类别分类网络模型确定为预设情绪类别分类网络模型，否则继续对调整后的情绪类别分类网络模型进行调参。

在一种可能的实施方式中，所述样本关联数据包括与所述样本音频数据在时序上关联的样本图像数据和样本台词文本数据，所述将样本目标数据输入特征提取网络，得到样本语音特征向量和样本关联特征向量，包括：

识别样本视频的音频，得到样本音频；

对所述样本音频进行语音提取，得到所述样本目标数据中的所述样本音频数据；

将所述样本音频数据输入第一卷积神经网络模型，得到所述样本语音特征向量；

对所述样本视频进行分帧，得到所述样本目标数据中的所述样本图像数据；

将所述样本图像数据输入第二卷积神经网络模型，得到所述样本图像特征向量；

识别所述样本视频的台词，得到所述样本目标数据中的所述样本台词文本数据；

将所述样本台词文本数据输入第三卷积神经网络模型，得到所述样本文本特征向量。

在本申请实施例的第三方面，还提供了一种语音片段识别装置，所述装置应用于业务服务器，所述装置包括：

数据获取模块，用于获取第一时间段的目标数据，其中，所述目标数据包括音频数据和所述音频数据在时序上的关联数据；

多模态特征向量获取模块，用于将所述音频数据和所述关联数据分别输入特征提取网络，得到对应的语音特征向量和关联特征向量；

特征融合模块，用于将所述语音特征向量和所述关联特征向量进行融合，得到融合特征向量；

情绪分类模块，用于将所述融合特征向量输入预设情绪类别分类网络，得到所述目标数据对应的情绪类别，并在所述目标数据对应的情绪类别为高情绪类别时，将所述目标数据确定为待执行音频异常检测的数据。

在一种可能的实施方式中，所述特征融合模块，包括：

特征拼接子模块，具体用于采用拼接的方式，将所述语音特征向量和所述关联特征向量进行融合，得到所述融合特征向量。

在一种可能的实施方式中，所述多模态特征向量获取模块，包括：

目标音频获取子模块，具体用于识别目标视频的音频，得到目标音频；

语音提取子模块，具体用于对所述目标音频进行语音提取，得到所述目标数据中的所述音频数据；

语音特征向量获取子模块，具体用于将所述音频数据输入第一卷积神经网络模型，得到所述语音特征向量；

图像数据获取子模块，具体用于对所述目标视频进行分帧，得到所述目标数据中的所述图像数据；

图像特征向量获取子模块，具体用于将所述图像数据输入第二卷积神经网络模型，得到所述图像特征向量；

台词识别子模块，具体用于识别所述目标视频的台词，得到所述目标数据中的所述台词文本数据；

文本特征向量获取子模块，具体用于将所述台词文本数据输入第三卷积神经网络模型，得到所述文本特征向量。

在一种可能的实施方式中，所述语音特征向量获取子模块，包括：

语音分帧单元，具体用于对所述音频数据进行分帧，得到多个语音帧；

频域变换单元，具体用于对所述多个语音帧中的每一语音帧进行频域变换，得到各所述语音帧对应的频谱图；

频域特征向量获取单元，具体用于对各所述语音帧对应的频谱图进行向量化，得到各所述语音帧对应的频域特征向量；

频域特征向量融合单元，具体用于对各所述语音帧对应的频域特征向量进行融合，得到所述语音特征向量。

在一种可能的实施方式中，所述图像特征向量获取子模块，包括：

视频分帧单元，具体用于对所述图像数据进行分帧，得到多个视频帧；

脸部检测单元，具体用于对所述多个视频帧的每一帧进行脸部检测，确定所述多个视频帧中包含脸部的多个目标视频帧；其中，所述目标视频帧中包括人脸和拟人类脸部；

脸部特征提取单元，具体用于对所述多个目标视频帧进行脸部特征的提取，得到对应的多条脸部特征向量；

脸部特征向量融合单元，具体用于对所述多条脸部特征向量进行融合，得到所述图像特征向量。

在一种可能的实施方式中，所述脸部检测结果包括每一帧中包含的脸部的数量，所述脸部特征提取单元，包括：

面部状态识别子单元，具体用于针对所述多个目标视频帧的任一视频帧，在该视频帧中包括多张脸部的情况下，识别该视频帧中每一张脸部的面部状态；

脸部特征提取子单元，具体用于在所述面部状态表示该脸部处于发声状态的情况下，提取所述多张脸部中面部状态为发声状态的目标脸部的特征，得到该视频帧的脸部特征向量。

在一种可能的实施方式中，所述文本特征向量获取子模块，包括：

特征词识别单元，具体用于识别所述台词文本数据中表达情绪的特征词，得到多个目标特征词；

特征词向量化单元，具体用于对所述多个目标特征词进行向量化，得到多条特征词向量；

特征词向量融合单元，具体用于对所述多条特征词向量进行融合，得到所述文本特征向量。

在一种可能的实施方式中，所述装置还包括：

数据检测模块，用于检测所述待执行音频异常检测的数据的音画是否同步。

本申请实施例的第四方面，还提供了一种语音片段识别装置，所述装置应用于模型训练设备，所述装置包括：

样本特征向量获取模块，用于将样本目标数据输入特征提取网络，得到样本语音特征向量和样本关联特征向量，其中，所述样本目标数据包括样本音频数据和该样本音频数据在时序上的样本关联数据；

样本特征向量融合模块，用于将所述样本语音特征向量和所述样本关联特征向量进行融合，得到样本融合特征向量；

第一情绪分类模块，用于将所述样本融合特征向量输入情绪类别分类网络，得到第一分类结果；其中，所述情绪类别分类网络模型通过本申请第一方面任一所述方法获得第一分类结果；

第一误差值计算模块，用于将所述第一分类结果和样本验证集对比，得到第一误差值；其中，所述样本验证集包括所述样本数据集中实际是否包含高情绪表达片段对应的数据；

网络模型调参模块，用于依据所述第一误差值，调整所述情绪类别分类网络模型的参数，得到调整后的情绪类别分类网络模型；

第二情绪分类模块，用于将所述样本融合特征向量输入所述调整后的情绪类别分类网络模型，得到第二分类结果；其中，所述调整后的情绪类别分类网络模型通过本申请第一方面任一所述方法获得第二分类结果；

第二误差值计算模块，用于将所述第二分类结果和所述样本验证集对比，得到调整后的情绪类别分类网络模型的第二误差值；

网络模型确定模块，用于若所述第二误差值小于预设阈值，则将所述调整后的预设情绪类别分类网络模型确定为预设情绪类别分类网络模型，否则继续对调整后的情绪类别分类网络模型进行调参。

在一种可能的实施方式中，所述样本特征向量获取模块，包括：

样本音频获取子模块，具体用于识别样本视频的音频，得到样本音频；

样本音频提取子模块，具体用于对所述样本音频进行语音提取，得到所述样本目标数据中的所述样本音频数据；

样本语音特征向量获取子模块，具体用于将所述样本音频数据输入第一卷积神经网络模型，得到所述样本语音特征向量；

样本图像数据获取子模块，具体用于对所述样本视频进行分帧，得到所述样本目标数据中的所述样本图像数据；

样本图像特征向量获取子模块，具体用于将所述样本图像数据输入第二卷积神经网络模型，得到所述样本图像特征向量；

样本台词识别子模块，具体用于识别所述样本视频的台词，得到所述样本目标数据中的所述样本台词文本数据；

样本文本特征向量获取子模块，具体用于将所述样本台词文本数据输入第三卷积神经网络模型，得到所述样本文本特征向量。

在本申请实施例的第五方面，提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现本申请实施例第一方面和第二方面任一所述的方法步骤。

在本申请实施的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一所述的视频片段识别方法。

在本申请实施的又一方面，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的视频片段识别方法。

本申请实施例提供的一种视频片段识别方法、装置、电子设备及存储介质，通过获取第一时间段的目标数据，其中，所述目标数据包括音频数据和所述音频数据在时序上的关联数据；将所述音频数据和所述关联数据分别输入特征提取网络，得到对应的语音特征向量和关联特征向量；对所述语音特征向量和所述关联特征向量进行融合，得到融合特征向量；将所述融合特征向量输入预设情绪类别分类网络，得到所述目标数据对应的情绪类别，并在所述目标数据对应的情绪类别为高情绪类别时，将所述目标数据确定为待执行音频异常检测的数据。应用本申请实施例的方法，可以通过同时对音频数据和与音频数据时序关联的关联数据，进行特征提取，从而将语音特征向量和关联特征向量进行融合得到融合特征向量，再通过预设的情绪类别分类网络对融合特征向量进行分类，确定出表示高情绪表达的音频数据，实现自动识别出目标音频中的高情绪片段，从而解决通过人工进行高情绪片段的识别时检测效率低的问题，提高音频检测的效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的应用于业务服务器音频片段识别方法的一种流程图。

图2为本申请实施例提供的步骤S102细化的一种流程图。

图3为本申请实施例提供的步骤S203细化的一种流程图。

图4为本申请实施例提供的步骤S205细化的一种流程图。

图5为本申请实施例提供的步骤S207细化的一种流程图。

图6为本申请实施例提供的获取语音特征向量的一种示意图。

图7为本申请实施例提供的获取图像特征向量的一种示意图。

图8为本申请实施例提供的获取文本特征向量的一种示意图。

图9为本申请实施例提供的音频片段识别方法的一种示意图。

图10本申请实施例提供的应用于模型训练设备的一种音频片段识别方法的流程图。

图11为本申请实施例提供的应用于业务服务器的一种音频片段识别装置的结构示意图。

图12为本申请实施例提供的应用于模型训练设备的一种音频片段识别装置的结构示意图。

图13为本申请实施例提供的应用于业务服务器的电子设备的一种结构示意图。

图14为本申请实施例提供的应用于模型训练设备的电子设备的一种结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

为了提高对音频进行检测的效率，本申请实施例的第一方面，提供一种音频片段识别方法，如图1所示：

步骤S101：获取第一时间段的目标数据。

本申请实施例的方法可以通过终端设备进行实施，具体的，该终端设备可以是服务器、电脑、手机等电子设备。

在实际应用中，获取第一时间段的目标数据可以是获取目标视频的第一时间段的视频片段，通过对该视频片段进行数据提取得到目标数据；也可以是获取目标音频的第一时间段的音频片段，通过对该音频片段进行数据提取得到目标数据。具体的，目标视频可以是多种类型的，例如电视剧、电影、动漫、解说等；目标音频也可以是多种的，例如广播剧、有声小说等。本申请实施例中对每一时间片段的长度不进行限定，可以是预先设定的多种长度，例如，1分钟、30秒或该目标视频或目标音频的前半部分或中间截取部分、后半部分等。

其中，所述目标数据包括音频数据和所述音频数据在时序上的关联数据。关联数据是与音频数据对应的时间相同的其他类型的数据，例如，该关联数据可以是图像数据，也可以是台词文本数据。具体的，音频数据和台词文本数据可以包括其中每一段音频或每一句台词对应的起始时间和结束时间。依据该起始时间和结束时间，截取第一时间段，从而得到第一时间段对应的目标数据。

一个例子中，提取一个视频的前20分钟的配音音频中的音频数据，再提取该视频的前20分钟的字幕作为台词文本数据。其中，上述音频数据和上述台词文本数据均是该视频前20分钟对应的数据，因此，上述台词文本数据可作为上述音频数据的关联数据。在实际应用中，关联数据可以包括音频数据在时序上关联的图像数据和台词文本数据的至少一种。

步骤S102：将音频数据和关联数据分别输入特征提取网络，得到对应的语音特征向量和关联特征向量。

一种可能的实施方式中，特征提取网络在结构上可以包括多个子网络，通过该多个子网络，具体的，可以通过将第一时间段对应的音频数据和关联数据分别输入不同的子网络中，通过不同的子网络得到对应的语音特征向量和关联特征向量。另一种可能的实施方式中，特征提取网络在结构上仅包括一个网络，分别将第一时间段对应的音频数据和关联数据分别输入该网络中，得到对应的语音特征向量和关联特征向量。

步骤S103：对语音特征向量和关联特征向量进行融合，得到融合特征向量。

其中，对语音特征向量和关联特征向量进行融合，可以多种方式进行融合，具体的，可以采用并行策略或串行策略进行融合，例如特征拼接、特征求和(均值、加权求和)、特征之间对应元素相乘、反卷积等方式。

一个例子中，获取到第一时间段对应的语音特征向量和关联特征向量后，可以将各向量进行加权平均，从而得到该第一时间段对应的融合特征向量。

步骤S104：将融合特征向量输入预设情绪类别分类网络，得到目标数据对应的情绪类别，并在目标数据对应的情绪类别为高情绪类别时，将目标数据确定为待执行音频异常检测的数据。

其中，该预设情绪类别分类网络可以是多种类型的网络模型，例如，CNN、VGG(Visual Geometry Group，视觉几何组，等。通过该预设情绪类别分类网络可以根据融合特征向量，判断该融合特征向量对应的第一时间段的目标数据的情绪状态的类别，具体的，可以判断对应的第一时间段的目标数据的情绪状态的类别是否为高情绪类别。其中，高情绪类别可以是指情绪起伏的类别，例如表示人物愤怒或开心、悲伤的情绪类别。而高情绪对应的音频通常基频变化比较大，因此，高情绪对应的音频容易出现配音异常的问题。一个例子中，本申请实施例中的预设特征提取网络和预设情绪类别分类网络可以是不同的网络模型，也可以是同一模型的不同部分。

例如，采用预设情绪类别分类网络对融合特征向量进行分类，可以判断融合特征向量对应的第一时间段的视频是否为表示开心、愤怒或悲伤情绪等情绪起伏明显的音频片段，若是，则将其确定为待执行音频异常检测的音频。

一个例子中，预设情绪类别分类网络可以是预先通过样本视频的特征向量和对应的情绪类别训练得到的网络模型。具体的训练过程可以包括先将通过读取数据库或人工的方式获取训练数据集，其中，训练数据集中可以包括样本特征向量，并且该样本特征向量标注有对应的情绪类别；将训练数据集输入未训练的情绪类别分类网络中对训练数据集中的数据进行情绪分类，得到分类结果；将分类结果与训练数据集中标注的实际类别进行，依据对比得到的误差并对情绪类别分类网络模型进行修正，并继续进行训练直至最终结果达到预设要求，得到预设情绪类别分类网络。其中，预设要求可以表示情绪类别分类网络的分类结果与实际分类结果的误差小于预设阈值。

应用本申请实施例的方法，可以通过同时对音频数据和与音频数据时序关联的关联数据，进行特征提取，从而将语音特征向量和关联特征向量进行融合得到融合特征向量，再通过预设的情绪类别分类网络对融合特征向量进行分类，确定出表示高情绪表达的音频数据，实现自动识别出目标音频中的高情绪片段，从而解决通过人工进行高情绪片段的识别时检测效率低的问题，提高音频检测的效率。

在一种可能的实施方式中，上述步骤S103可以通过以下方式得到融合特征向量：

采用拼接的方式，将语音特征向量和关联特征向量进行融合，得到融合特征向量。

一个例子中，语音特征向量是一个3*4的向量矩阵，关联特征向量是一个3*5的向量矩阵，则拼接得到的融合特征向量是一个3*9的向量矩阵。

应用本申请实施例的方法，可以将语音特征向量与关联特征向量进行融合，从而综合判断出高情绪的音频片段，提高识别高情绪音频片段的准确率。

在一种可能的实施方式中，当关联数据包括与音频数据在时序上关联的图像数据和台词文本数据时，步骤S102可以细化为以下如图2所示步骤：

步骤S201：识别目标视频的音频，得到目标音频。

步骤S202：对目标音频进行语音提取，得到目标数据中的音频数据。

步骤S203：将音频数据输入第一卷积神经网络模型，得到语音特征向量。

步骤S204：对目标视频进行分帧，得到目标数据中的图像数据。

步骤S205：将图像数据输入第二卷积神经网络模型，得到图像特征向量。

步骤S206：识别目标视频的台词，得到目标数据中的台词文本数据。

步骤S207：将台词文本数据输入第三卷积神经网络模型，得到文本特征向量。

本申请实施例中，对步骤S201、步骤S204和步骤S206的顺序并不进行限定，具体的，该三个步骤可以并行执行，也可以按照任意顺序一次执行。

其中，第一卷积神经网络模型、第二卷积神经网络模型、第三卷积神经网络模型可以是相同的网络模型也可以是不同的网络模型，具体的，第一卷积神经网络模型、第二卷积神经网络模型、第三卷积神经网络模型可以是多种类型的卷积神经网络模型，例如CNN(convolutional neural networks，卷积神经网络)、LSTM(Long Short-term Memory，长短期记忆网络)、CLDNN(convolutional,Long Short-term Memory,Fully Connected DeepNeural Networks)等神经网络模型。

一个例子中，第一卷积神经网络模型可以是CNN神经网络，将音频数据输入第一卷积神经网络模型，得到语音特征向量，可以将第一时间段的音频数据输入CNN神经网络模型中，得到该第一时间段的音频数据对应的语音特征向量。

一个例子中，第二卷积神经网络模型可以是能够进行脸部检测识别的多种类型的卷积神经网络模型，例如，CNN神经网络模型。将图像数据输入第二卷积神经网络模型，得到图像特征向量，可以将第一时间段对应的图像数据输入CNN神经网络模型中，得到目标视频第一时间段的图像数据对应的图像特征向量。

一个例子中，第三卷积神经网络模型可以是能够进行文本检测的多种类型的卷积神经网络模型，例如，TextRNN(Text Recurrent Neural Networks，循环卷积神经网络)神经网络模型。将台词文本数据输入第三卷积神经网络模型，得到文本特征向量，将上述目标视频的第一时间段对应的台词文本数据输入TextRNN神经网络模型中，得到该目标视频第一时间段的台词文本数据对应的文本特征向量。

应用本申请实施例的方法，可以通过将语音数据、图像数据、台词文本数据，分别输入特征提取网络，得到对应的语音特征向量、图像特征向量和文本特征向量，从而能够获得目标视频或目标音频多种模态下的特征向量，使得对目标视频或目标音频中的高情绪判断更加准确。

为了获得语音特征向量，在一种可能的实施方式中，步骤S203可以包括如图3所示步骤：

步骤S301：对音频数据进行分帧，得到多个语音帧。

在实际应用中，音频数据常常具有非平稳性，为了使音频数据具有稳定性从而便于对音频数据的处理，常常采用分帧的方式，以一定长度作为一帧，将音频数据分为多个语音帧。在实际使用过程中，分帧后每一帧的开始和结束都会出现间断，会造成与原始数据的误差较大，因此，在分帧之后还可以对语音帧进行加窗。例如，通过预设帧长对上述步骤中的第一时间段的音频数据进行分帧，之后采用汉明窗对该音频数据进行加窗，得到对应的多个语音帧。

步骤S302：对多个语音帧中的每一语音帧进行频域变换，得到各语音帧对应的频谱图。

由于音频数据的时域变化较复杂，为了利于对数据进行处理，可以通过频域变换将每一语音帧由时域转为频域，得到该音频数据对应的频谱图，其中，频谱图反映了对该语音帧的频域分析。其中，对多个语音帧中的每一语音帧进行频域变换，可以通过多种预设方式进行频域变换，例如，离散傅里叶变换、傅里叶变换、傅里叶级数和离散时域傅里叶变换等方式。

例如，采用FFT(fast Fourier transform，快速傅里叶变换)，对步骤S201中得到的多个语音帧中的每一语音帧进行频域变换，最终得到上述目标视频中第一时间段的每一语音帧对应的频谱图。

步骤S303：对各语音帧对应的频谱图进行向量化，得到各语音帧对应的频域特征向量。

对各语音帧对应的频谱图进行向量化，可以是对频谱图中的每一个谱线向量化，之后将所有谱线的向量进行融合得到该频谱图的向量，即频域特征向量。

例如，在得到上述目标视频中第一时间段的每一语音帧对应的频谱图后，针对每一个频谱图，将每一谱线向量化得到谱线向量，将所有谱线向量通过加权平均的方式融合，得到该语音帧对应的频域特征向量。

步骤S304：对各语音帧对应的频域特征向量进行融合，得到语音特征向量。

其中，对各频域特征向量进行融合的方式有多种，具体的，可以采用并行策略或串行策略进行融合，例如特征拼接、特征求和(均值、加权求和)、特征之间对应元素相乘、反卷积等方式。

例如，在得到第一时间段的每一语音帧对应的频域特征向量后，将每一个频域特征向量采用加权平均的方式融合，得到该第一时间段表征情绪的语音特征向量。

应用本申请实施例的方法，通过对音频数据进行分帧，针对每一帧进行频域变化得到频谱图，从而将每一个频谱图对应的向量融合得到语音特征向量，可以对音频数据进行更稳定地处理，减少语音特征向量的误差。

为了获得图像特征向量，在一种可能的实施方式中，步骤S205可以通过图4所示步骤实现：

步骤S401：对图像数据进行分帧，得到多个视频帧。

其中，对图像数据进行分帧的方式可以和步骤S301的分帧方式相同或不同。一个例子中，对图像数据进行分帧可以按照一定帧长，将步骤S204获取到的图像数据分成多个视频帧。在实际使用过程中，得到的多个视频帧可以包括图像数据中所有的视频帧，也可以仅包括一部分，一个例子中，对图像数据进行分帧时，也可以通过抽取图像数据中的关键帧的方式，得到多个视频帧，通过仅抽取关键帧的方法可以减少计算量，提高计算效率。在实际使用过程中，在得到多张视频帧之后，在执行下一步骤之前，还可以对多张视频帧进行图像处理，例如，可以降低多张视频帧的分辨率，从而降低计算量，提高计算效率。

步骤S402：针对多个视频帧的每一帧进行脸部检测，确定多个视频帧中包含脸部的多个目标视频帧。

其中，考虑到动画的形式，会将一些非人类生物或物体进行拟人化，例如会说话的猫狗动物、会说话的桌子椅子等，因此目标视频帧中既可以包括人脸，也可以包括拟人类脸部。脸部检测可以通过能够进行脸部检测的第二卷积神经网络实现，即检测视频中是否包含脸部，包含脸部的数目。

例如，在获取到上述多个视频帧后，针对每一个视频帧，可以选择某个区域作为观察窗口，提取在该观察窗口中的图像特征，依据该图像特征，判断该观察窗口是否正好框柱脸部，若没有，则重新选定其他观察窗口进行判断，直至识别到脸部或遍历所有观察窗口。

步骤S403：对多个目标视频帧进行脸部特征的提取，得到对应的多条脸部特征向量。

针对多个目标视频帧，提取其中每一张视频帧中的脸部特征，得到多条脸部特征向量。一个例子中，在进行脸部特征提取时，可以识别目标视频帧中的脸部特征区域，然后提取并根据脸部特征区域的像素特征生成脸部特征向量，具体的，根据脸部特征区域的像素特征生成脸部特征向量可以通过多种方式，例如，对脸部特征区域的像素特征进行灰度化，然后根据每一像素点的灰度生成脸部特征向量。另一个例子中，在针对多个视频帧的每一帧进行脸部检测时，可以检测得到视频帧中的脸部特征区域，因此，在对多个目标视频帧进行脸部特征的提取时，可以根据上一步骤提取到的脸部特征区域进行脸部特征的提取，得到对应的脸部特征向量。

步骤S404：对多条脸部特征向量进行融合，得到图像特征向量。

其中，对多条脸部特征向量进行融合，可以通过多种融合方式进行融合，具体的，可以采用并行策略或串行策略进行融合，例如特征拼接、特征求和(均值、加权求和)、特征之间对应元素相乘、反卷积等方式。

例如，在得到上述剧集中第一时间段的每一视频帧对应的脸部特征向量后，将每一个脸部特征向量采用加权平均的方式融合，得到该剧集中第一时间段表征情绪的图像特征向量。

应用本申请实施例的方法，可以通过对视频中的脸部进行检测，从而确定包含脸部的目标视频帧，进而对目标视频帧中的脸部进行特征提取，更精准的获得目标视频对应的图像特征向量。

在一种可能的实施方式中，脸部检测结果包括每一帧中包含的脸部的数量，步骤S403可以包括：

步骤一，针对多个目标视频帧的任一视频帧，在该视频帧中包括多张脸部的情况下，识别该视频帧中每一脸部的面部状态。

步骤二，在面部状态表示该脸部处于发声状态的情况下，提取多张脸部中面部状态为发声状态的目标脸部的特征，得到该视频帧的脸部特征向量。

在实际应用中，当视频中出现多个人物时，可能并不是每一个人物都在讲话，为了确定讲话人物，需要对该视频帧中的每一个人物进行脸部检测识别其面部状态。

发声状态可以是依据人物的嘴部开合状态和/或结合人物的眼神等，来确定该人物是否正在进行讲话，即是否为发声状态。在确定正在讲话的人物后，提取该人物的脸部特征作为当前帧的脸部特征向量。

一个例子中，针对包含多张脸部视频帧的每一帧，识别每个人物的面部状态，具体的，可以是提取每一个人物的嘴巴对应的特征点的位置并将其向量化，得到多个嘴巴特征向量，通过对比多个嘴巴特征向量，确定张口的嘴巴特征向量对应的人物为讲话人物。

应用本申请实施例的方法，可以通过识别角色的面部状态来确定当前讲话的角色，从而提取该角色的特征向量，可以提高获得的图像特征向量的准确性，进而更精准的判断出视频中高情绪表达的片段，提高音频片段识别的准确率。

为了提取文本特征向量，在一种可能的实施方式中，步骤S207可以包括图5所示步骤：

步骤S501：识别台词文本数据中表达情绪的特征词，得到多个目标特征词。

其中，识别表达情绪的特征词可以是预先建立一个词汇数据库，该词汇数据库中含有各种能够表达或形容情绪的词汇，根据该词汇数据库识别台词文本数据中表达情绪的特征词。例如，获取上述剧集的第一时间段对应的台词文本数据后，识别到台词文本中“哈哈哈哈哈”、“生气”、“难过”等表达或形容情绪的多个目标特征词。

步骤S502：对多个目标特征词进行向量化，得到多条特征词向量。

在将每一目标特征词进行向量化时，可以通过多种方法进行向量化，例如可以采用词嵌入的方法将其向量化。其中，词嵌入的方法可以有多种，例如word2vec(word tovector，词到向量)方法、GloVe(Global vectors of word representation，全局词汇向量)方法、onehot编码(独热编码)等。

例如，在获取到上述多个目标特征词后，采用word2vec做词嵌入，将每一个目标特征词转化为特征词向量，得到上述目标视频或目标音频的第一时间段对应的多个特征词向量。

步骤S503：对多条特征词向量进行融合，得到文本特征向量。

其中，将多条特征词向量融合的方式有多种，具体的，可以采用并行策略或串行策略进行融合，例如特征拼接、特征求和(均值、加权求和)、特征之间对应元素相乘、反卷积等方式。

例如，在得到上述目标视频或目标音频中前半部分的多条特征词向量后，对其采用加权平均的方式融合，得到该目标视频或目标音频中第一时间段对应的文本特征向量。

应用本申请实施例的方法，可以通过对目标视频或目标音频中的台词文本进行检测，从而获取台词文本中的特征词，依据特征词判断目标视频或目标音频中的情绪，进而更精准的判断出视频中高情绪表达的片段，提高音频片段识别的准确率。

其中，目标视频或目标音频可以包含多个视频片段，在一种可能的实施方式中，步骤S104之后，上述方法还可以包括：

检测所述待执行音频异常检测的数据的音画是否同步。。

其中，针对目标视频或目标音频中的每一时间段，都可以按照步骤S101-步骤S104的步骤，对其进行识别，得到该目标视频或目标音频的待执行音频异常检测的数据合集。其中，待执行音频异常检测的数据的音画是否同步进行检测可以是人工进行检测也可以是通过现有技术中的网络模型等方法进行检测，本申请在此处不作限定。例如，在识别出某一视频的高情绪状态对应的全部视频片段集合，之后采取人工的方式对该视频片段集合中的每一个视频片段进行逐一检测，确定有音画不同步的问题的视频片段并进行配音修正。

应用本申请实施例的方法，可以通过待执行音频异常检测的数据进行音画同步检测，进而避免人工对目标视频或目标音频进行全部检测，最终提高音画同步检测效率。

以下一个例子，用以具体说明本申请实施例的音频片段识别方法，在本例中，是对一个目标视频进行识别检测：

步骤一，对原始的语音信号做分帧加窗处理，对每一帧做FFT后获得频谱图，根据卷积神经网络(CNN)使用频域卷积核提取频谱中的特征，产生语音模态的特征向量。

如图6所示，先获取目标视频的原始音频，对该音频信号的每一帧进行快速傅里叶变换，得到表示频域特征的频谱图，采用CNN进行特征提取，提取频谱图中的频域特征向量，最终将每一帧的频域特征向量进行融合，得到语音模态特征向量。

步骤二，通过配音发声时间或者字幕时间，截取相应时间段内的视屏帧(10-15张)，然后对每张图像做脸部检测后，使用卷积神经网络(CNN)提取脸部子图中的特征，再通过拼接的方式融合各帧的特征向量。

如图7所示，对原始视频中的相应时间段进行分帧，得到多个视频帧，再对每张视频帧进行人脸检测，利用CNN进行特征提取，得到每个视频帧对应的脸部特征向量，将各脸部特征向量进行融合，得到融合多帧特征向量，其中，融合多帧特征向量为原始视频中相应时间段对应的图像特征向量。

步骤三，对台词文本做分词处理，使用word2vec方法做词嵌入，使用TextRNN模型，将最后一层RNN的输出作为此文本的特征向量。

如图8所示，先对台词文本进行分词，其中分词有多种方法，例如通过mmseg4j(中文分词器)、词频分组、jieba分词(中文分词组件)等多种分词器来实现分词，将分好后的词汇通过词嵌入的方式向量化，输入TextRNN模型中，得到该台词文本对应的文本特征向量。

步骤四，将多个模态输出的特征做特征融合，经过全连接层和softmax层(分类层)输出情绪的标签，通过最终的情绪标签来判断是否为高情绪表达片段。

如图9所示，通过对语音模态数据、图像模态数据和文本模态数据进行特征提取，分别得到语音模态特征向量、融合多帧特征向量和文本特征向量，将其进行特征融合，经过分类器对其对应情感进行标记，最终对标记的情感进行情感分类，得到高情绪表达视频片段。

在本申请实施例的第二方面，还提供了一种语音片段识别方法，该方法应用于模型训练设备，上述方法包括如图10所示步骤：

步骤S1001：将样本目标数据输入特征提取网络，得到样本语音特征向量和样本关联特征向量。

其中，样本目标数据包括样本音频数据和该样本音频数据在时序上的样本关联数据。

步骤S1002：将样本语音特征向量和样本关联特征向量进行融合，得到样本融合特征向量。

步骤S1003：将样本融合特征向量输入情绪类别分类网络，得到第一分类结果。

其中，情绪类别分类网络模型通过本申请第一方面任一方法获得第一分类结果。

步骤S1004：将第一分类结果和样本验证集对比，得到第一误差值。

其中，样本验证集包括样本数据集中实际是否包含高情绪表达片段对应的数据。

步骤S1005：依据第一误差值，调整情绪类别分类网络模型的参数，得到调整后的情绪类别分类网络模型。

步骤S1006：将样本融合特征向量输入调整后的情绪类别分类网络模型，得到第二分类结果。

其中，调整后的情绪类别分类网络模型通过本申请第一方面任一方法获得第二分类结果。

步骤S1007：将第二分类结果和样本验证集对比，得到调整后的情绪类别分类网络模型的第二误差值。

步骤S1008：若第二误差值小于预设阈值，则将调整后的预设情绪类别分类网络模型确定为预设情绪类别分类网络模型，否则继续对调整后的情绪类别分类网络模型进行调参。

在一种可能的实施方式中，样本关联数据包括与样本音频数据在时序上关联的样本图像数据和样本台词文本数据，上述步骤S1001包括以下步骤：

步骤一，识别样本视频的音频，得到样本音频。

步骤二，对样本音频进行语音提取，得到样本目标数据中的样本音频数据。

步骤三，将样本音频数据输入第一卷积神经网络模型，得到样本语音特征向量。

步骤四，对样本视频进行分帧，得到样本目标数据中的样本图像数据。

步骤五，将样本图像数据输入第二卷积神经网络模型，得到样本图像特征向量。

步骤六，识别样本视频的台词，得到样本目标数据中的样本台词文本数据。

步骤七，将样本台词文本数据输入第三卷积神经网络模型，得到样本文本特征向量。

应用本申请实施例的方法，可以预先对情绪类别分类网络进行训练，得到训练好的预设情绪类别分类网络模型，从而使得在输入融合特征向量时，能够自动识别出高情绪对应的音频片段，提供音频片段的识别效率。

在本申请实施例的第三方面，还提供了一种视频片段识别装置，上述装置应用于业务服务器，上述装置包括如图11所示：

数据获取模块1101，用于获取第一时间段的目标数据，其中，目标数据包括音频数据和音频数据在时序上的关联数据；

多模态特征向量获取模块1102，用于将音频数据和关联数据分别输入特征提取网络，得到对应的语音特征向量和关联特征向量；

特征融合模块1103，用于将语音特征向量和关联特征向量进行融合，得到融合特征向量；

情绪分类模块1104，用于将融合特征向量输入预设情绪类别分类网络，得到目标数据对应的情绪类别，并在目标数据对应的情绪类别为高情绪类别时，将目标数据确定为待执行音频异常检测的数据。

在一种可能的实施方式中，特征融合模块1103，包括：

特征拼接子模块，具体用于采用拼接的方式，将语音特征向量和关联特征向量进行融合，得到融合特征向量。

在一种可能的实施方式中，多模态特征向量获取模块1102，包括：

语音提取子模块，具体用于对目标音频进行语音提取，得到目标数据中的音频数据；

语音特征向量获取子模块，具体用于将音频数据输入第一卷积神经网络模型，得到语音特征向量；

图像数据获取子模块，具体用于对目标视频进行分帧，得到目标数据中的图像数据；

图像特征向量获取子模块，具体用于将图像数据输入第二卷积神经网络模型，得到图像特征向量；

台词识别子模块，具体用于识别目标视频的台词，得到目标数据中的台词文本数据；

文本特征向量获取子模块，具体用于将台词文本数据输入第三卷积神经网络模型，得到文本特征向量。

在一种可能的实施方式中，语音特征向量获取子模块，包括：

语音分帧单元，具体用于对音频数据进行分帧，得到多个语音帧；

频域变换单元，具体用于对多个语音帧中的每一语音帧进行频域变换，得到各语音帧对应的频谱图；

频域特征向量获取单元，具体用于对各语音帧对应的频谱图进行向量化，得到各语音帧对应的频域特征向量；

频域特征向量融合单元，具体用于对各语音帧对应的频域特征向量进行融合，得到语音特征向量。

在一种可能的实施方式中，图像特征向量获取子模块，包括：

视频分帧单元，具体用于对图像数据进行分帧，得到多个视频帧；

脸部检测单元，具体用于针对多个视频帧的每一帧进行脸部检测，确定多个视频帧中包含脸部的多个目标视频帧；其中，目标视频帧中包括人脸和拟人类脸部；

脸部特征提取单元，具体用于对多个目标视频帧进行脸部特征的提取，得到对应的多条脸部特征向量；

脸部特征向量融合单元，具体用于对多条脸部特征向量进行融合，得到图像特征向量。

在一种可能的实施方式中，脸部检测结果包括每一帧中包含的脸部的数量，脸部特征提取单元，包括：

面部状态识别子单元，具体用于针对多个目标视频帧的任一视频帧，在该视频帧中包括多张脸部的情况下，识别该视频帧中每一张脸部的面部状态；

脸部特征提取子单元，具体用于在面部状态表示该脸部处于发声状态的情况下，提取多张脸部中面部状态为发声状态的目标脸部的特征，得到该视频帧的脸部特征向量。

在一种可能的实施方式中，文本特征向量获取子模块，包括：

特征词识别单元，具体用于识别台词文本数据中表达情绪的特征词，得到多个目标特征词；

特征词向量化单元，具体用于对多个特征词进行向量化，得到多条特征词向量；

特征词向量融合单元，具体用于对多条特征词向量进行融合，得到文本特征向量。

在一种可能的实施方式中，装置还包括：

数据检测模块，用于检测待执行音频异常检测的数据的音画是否同步。

应用本申请实施例的装置，可以通过同时对音频数据和与音频数据时序关联的关联数据，进行特征提取，从而将语音特征向量和关联特征向量进行融合得到融合特征向量，再通过预设的情绪类别分类网络对融合特征向量进行分类，确定出表示高情绪表达的音频数据，实现自动识别出目标音频中的高情绪片段，从而解决通过人工进行高情绪片段的识别时检测效率低的问题，提高音频检测的效率。。

本申请实施例的第四方面，还提供了一种语音片段识别装置，装置应用于模型训练设备，装置包括如图12所示结构：

样本特征向量获取模块1201，用于将样本目标数据输入特征提取网络，得到样本语音特征向量和样本关联特征向量，其中，样本目标数据包括样本音频数据和该样本音频数据在时序上的样本关联数据；

样本特征向量融合模块1202，用于将样本语音特征向量和样本关联特征向量进行融合，得到样本融合特征向量；

第一情绪分类模块1203，用于将样本融合特征向量输入情绪类别分类网络，得到第一分类结果；其中，情绪类别分类网络模型通过本申请第一方面任一方法获得第一分类结果；

第一误差值计算模块1204，用于将第一分类结果和样本验证集对比，得到第一误差值；其中，样本验证集包括样本数据集中实际是否包含高情绪表达片段对应的数据；

网络模型调参模块1205，用于依据第一误差值，调整情绪类别分类网络模型的参数，得到调整后的情绪类别分类网络模型；

第二情绪分类模块1206，用于将样本融合特征向量输入调整后的情绪类别分类网络模型，得到第二分类结果；其中，调整后的情绪类别分类网络模型通过本申请第一方面任一方法获得第二分类结果；

第二误差值计算模块1207，用于将第二分类结果和样本验证集对比，得到调整后的情绪类别分类网络模型的第二误差值；

网络模型确定模块1208，用于若第二误差值小于预设阈值，则将调整后的预设情绪类别分类网络模型确定为预设情绪类别分类网络模型，否则继续对调整后的情绪类别分类网络模型进行调参。

在一种可能的实施方式中，样本特征向量获取模块1201，包括：

样本音频提取子模块，具体用于对样本音频进行语音提取，得到样本目标数据中的样本音频数据；

样本语音特征向量获取子模块，具体用于将样本音频数据输入第一卷积神经网络模型，得到样本语音特征向量；

样本图像数据获取子模块，具体用于对样本视频进行分帧，得到样本目标数据中的样本图像数据；

样本图像特征向量获取子模块，具体用于将样本图像数据输入第二卷积神经网络模型，得到样本图像特征向量；

样本台词识别子模块，具体用于识别样本视频的台词，得到样本目标数据中的样本台词文本数据；

样本文本特征向量获取子模块，具体用于将样本台词文本数据输入第三卷积神经网络模型，得到样本文本特征向量。

应用本申请实施例的装置，可以预先对情绪类别分类网络进行训练，得到训练好的预设情绪类别分类网络模型，从而使得在输入融合特征向量时，能够自动识别出高情绪对应的音频片段，提供音频片段的识别效率。

本申请实施例还提供了一种电子设备，如图13所示，包括处理器1301、通信接口1302、存储器1303和通信总线1304，其中，处理器1301，通信接口1302，存储器1303通过通信总线1304完成相互间的通信，

存储器1303，用于存放计算机程序；

处理器1301，用于执行存储器1303上所存放的程序时，实现如下步骤：

获取第一时间段的目标数据，其中，目标数据包括音频数据和音频数据在时序上的关联数据；

将音频数据和关联数据分别输入特征提取网络，得到对应的语音特征向量和关联特征向量；

对语音特征向量和关联特征向量进行融合，得到融合特征向量；

将融合特征向量输入预设情绪类别分类网络，得到目标数据对应的情绪类别，并在目标数据对应的情绪类别为高情绪类别时，将目标数据确定为待执行音频异常检测的数据。

本申请实施例还提供了一种电子设备，如图14所示，包括处理器1401、通信接口1402、存储器1403和通信总线1404，其中，处理器1401，通信接口1402，存储器1403通过通信总线1404完成相互间的通信，

存储器1403，用于存放计算机程序；

处理器1401，用于执行存储器1403上所存放的程序时，实现如下步骤：

将样本目标数据输入特征提取网络，得到样本语音特征向量和样本关联特征向量，其中，样本目标数据包括样本音频数据和该样本音频数据在时序上的样本关联数据；

将样本语音特征向量和样本关联特征向量进行融合，得到样本融合特征向量；

将样本融合特征向量输入情绪类别分类网络，得到第一分类结果；其中，情绪类别分类网络模型通过本申请第一方面任一方法获得第一分类结果；

将第一分类结果和样本验证集对比，得到第一误差值；其中，样本验证集包括样本数据集中实际是否包含高情绪表达片段对应的数据；

依据第一误差值，调整情绪类别分类网络模型的参数，得到调整后的情绪类别分类网络模型；

将样本融合特征向量输入调整后的情绪类别分类网络模型，得到第二分类结果；其中，调整后的情绪类别分类网络模型通过本申请第一方面任一方法获得第二分类结果；

将第二分类结果和样本验证集对比，得到调整后的情绪类别分类网络模型的第二误差值；

若第二误差值小于预设阈值，则将调整后的预设情绪类别分类网络模型确定为预设情绪类别分类网络模型，否则继续对调整后的情绪类别分类网络模型进行调参。

上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本申请提供的又一实施例中，还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述实施例中任一所述的视频片段识别方法。

在本申请提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的视频片段识别方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本申请的保护范围内。

Claims

1.一种语音片段识别方法，其特征在于，所述方法应用于业务服务器，所述方法包括：

将所述语音特征向量和所述关联特征向量进行融合，得到融合特征向量；

2.根据权利要求1所述的方法，其特征在于，所述将所述语音特征向量和所述关联特征向量进行融合，得到融合特征向量，包括：

3.根据权利要求1所述的方法，其特征在于，所述关联数据包括与所述音频数据在时序上关联的图像数据和台词文本数据，所述将所述音频数据和所述关联数据分别输入特征提取网络，得到对应的语音特征向量和关联特征向量，包括：

识别目标视频的音频，得到目标音频；

4.根据权利要求3所述的方法，其特征在于，所述将所述音频数据输入第一卷积神经网络模型，得到所述语音特征向量，包括：

对所述音频数据进行分帧，得到多个语音帧；

5.根据权利要求3所述的方法，其特征在于，所述将所述图像数据输入第二卷积神经网络模型，得到所述图像特征向量，包括：

对所述图像数据进行分帧，得到多个视频帧；

对所述多个视频帧的每一帧进行脸部检测，确定所述多个视频帧中包含脸部的多个目标视频帧；其中，所述目标视频帧中包括人脸和拟人类脸部；

6.根据权利要求5所述的方法，其特征在于，所述脸部检测结果包括每一帧中包含的脸部的数量，所述对所述多个目标视频帧进行脸部特征的提取，得到对应的多条脸部特征向量，包括：

在所述面部状态表示该脸部处于发声状态的情况下，

7.根据权利要求3所述的方法，其特征在于，所述将所述台词文本数据输入第三卷积神经网络模型，得到所述文本特征向量，包括：

对所述多个目标特征词进行向量化，得到多条特征词向量；

对所述多条特征词向量进行融合，得到所述文本特征向量。

8.根据权利要求1所述的方法，其特征在于，在将所述融合特征向量输入预设情绪类别分类网络，得到所述目标数据对应的情绪类别，并在所述目标数据对应的情绪类别为高情绪类别时，将所述目标数据确定为待执行音频异常检测的数据之后，所述方法还包括：

检测所述待执行音频异常检测的数据的音画是否同步。

9.一种语音片段识别方法，其特征在于，所述方法应用于模型训练设备，所述方法包括：

将所述样本融合特征向量输入情绪类别分类网络，得到第一分类结果；其中，所述情绪类别分类网络模型通过权利要求1-8任一所述方法获得第一分类结果；

将所述样本融合特征向量输入所述调整后的情绪类别分类网络模型，得到第二分类结果；其中，所述调整后的情绪类别分类网络模型通过权利要求1-8任一所述方法获得第二分类结果；

10.根据权利要求9所述的方法，其特征在于，所述样本关联数据包括与所述样本音频数据在时序上关联的样本图像数据和样本台词文本数据，所述将样本目标数据输入特征提取网络，得到样本语音特征向量和样本关联特征向量，包括：

识别样本视频的音频，得到样本音频；

11.一种语音片段识别装置，其特征在于，所述装置应用于业务服务器，所述装置包括：

目标数据获取模块，用于获取第一时间段的目标数据，其中，所述目标数据包括音频数据和该音频数据在时序上的关联数据；

多模态特征向量获取模块，用于将所述音频数据和所述关联数据分别分别输入预设特征提取网络，得到对应的语音特征向量和关联特征向量；

情绪分类模块，用于将所述融合特征向量输入预设情绪类别分类网络，得到所述目标数据对应的情绪类别，并在所述目标数据对应的情绪类别为高情绪类别时，将所述目标数据确定为待检测数据。

12.一种语音片段识别装置，其特征在于，所述装置应用于模型训练设备，所述装置包括：

样本向量提取模块，用于将样本目标数据输入特征提取网络，得到样本语音特征向量和样本关联特征向量，其中，所述样本目标数据包括样本音频数据和该样本音频数据在时序上的样本关联数据；

样本向量融合模块，用于将所述样本语音特征向量和所述样本关联特征向量进行融合，得到样本融合特征向量；

第一分类结果获取模块，用于将所述样本融合特征向量输入情绪类别分类网络，得到第一分类结果；其中，所述情绪类别分类网络模型通过权利要求1-8任一所述方法获得第一分类结果；

第二分类结果获取模块，用于将所述样本融合特征向量输入所述调整后的情绪类别分类网络模型，得到第二分类结果；其中，所述调整后的情绪类别分类网络模型通过权利要求1-8任一所述方法获得第二分类结果；

误差值判断模块，用于若所述第二误差值小于预设阈值，则将所述调整后的预设情绪类别分类网络模型确定为预设情绪类别分类网络模型，否则继续对调整后的情绪类别分类网络模型进行调参。

13.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-10任一所述的方法步骤。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-10任一所述的方法步骤。