CN110781916A

CN110781916A - 视频数据的欺诈检测方法、装置、计算机设备和存储介质

Info

Publication number: CN110781916A
Application number: CN201910882668.6A
Authority: CN
Inventors: 朱文和
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-09-18
Filing date: 2019-09-18
Publication date: 2020-02-11
Also published as: WO2021051607A1

Abstract

本申请涉及一种视频数据的欺诈检测方法、装置、计算机设备和存储介质。所述方法包括：获取待检测视频数据；从待检测视频数据中提取出各视频帧的图像数据，按照各视频帧的时间序列将图像数据划分为多个图像数据集，图像数据集包含连续视频帧对应的图像数据；将各图像数据集输入至预先训练好的图像特征提取模型中，得到图像特征向量；从待检测视频数据中提取语音数据，并获取语音数据的语音特征向量；对图像特征向量以及语音特征向量进行级联拼接，得到多模态特征向量；将多模态特征向量输入预先训练好的欺诈检测模型，得到欺诈检测模型输出的待检测视频数据对应的欺诈检测结果。采用本方法能够增大特征信息量，提高特征信息的全面性以及多样性，有效提高视频数据欺诈检测的准确性。

Description

视频数据的欺诈检测方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机信息处理技术领域，特别是涉及一种欺诈识别方法、装置、计算机设备和存储介质。

背景技术

在日常生活中有不同的面审环节，例如在金融信贷面审环节、刑侦审讯环节、职场面试等，在面审过程中，被提问对象是否在撒谎、欺诈行为通常依靠提问者的经验进行分析判断，往往耗费大量时间和人力；而基于机器学习的欺诈识别通常是对面审过程中的音频数据进行欺诈识别以判断被提问对象是否在撒欢，但是通过对音频数据进行分析以实现欺诈识别的识别效果并不理想，识别结果准确度较低。

发明内容

基于此，有必要针对上述技术问题，提供一种视频数据的欺诈检测方法、装置、计算机设备和存储介质。

一种视频数据的欺诈检测方法，所述方法包括：

获取待检测视频数据；

从所述待检测视频数据中提取出各视频帧的图像数据，按照各所述视频帧的时间序列将所述图像数据划分为多个图像数据集，所述图像数据集包含连续视频帧对应的图像数据；

将各所述图像数据集输入至预先训练好的图像特征提取模型中，得到图像特征向量；

从所述待检测视频数据中提取语音数据，并获取语音数据的语音特征向量；

对所述图像特征向量以及所述语音特征向量进行级联拼接，得到多模态特征向量；

将所述多模态特征向量输入预先训练好的欺诈检测模型，得到所述欺诈检测模型输出的所述待检测视频数据对应的欺诈检测结果。

在其中一个实施例中，所述语音数据包括音频数据；

所述获取语音数据的语音特征向量的步骤，包括：

以预设步长以及预设窗口长度获取所述音频数据的分帧数据；

对各所述分帧数据进行傅里叶分析获取梅尔频谱数据；

对所述梅尔频谱数据进行倒谱分析，得到音频特征向量

在其中一个实施例中，所述语音数据包括文本数据；

所述获取语音数据的语音特征向量的步骤，包括：

对所述文本数据进行分句处理得到句子文本，并对各所述句子文本进行分词处理，得到句子中的词序列；

利用预设词向量模型获取各所述词序列的词向量，根据所述句子文本中各个词序列对应的词向量，获取所述句子文本的文本特征向量。

在其中一个实施例中，所述获取待检测视频数据的步骤，包括：

获取视频数据，将所述视频数据切分为多个数据长度为预设视频长度的视频片段数据，将所述视频片段数据确定为待检测视频数据；

所述得到所述欺诈检测模型输出的所述待检测视频数据对应的欺诈检测结果的步骤之后，还包括：

根据各所述视频片段数据的欺诈检测结果，确定所述视频数据的欺诈检测结果。

在其中一个实施例中，所述将所述各图像数据集输入至预先训练好的图像特征提取模型中的步骤之前，包括：

获取视频样本，其中所述视频样本包括视频样本数据以及欺诈标签；

提取所述视频样本数据中的各视频帧的图像样本数据；

将所述图像样本数据以及所述欺诈标签输入至3D卷积神经网络模型中，对3D卷积神经网络模型进行训练；

将训练后得到的3D卷积神经网络模型确定为图像特征提取模型。

在其中一个实施例中，所述将各所述图像数据集输入至预先训练好的图像特征提取模型中的步骤之前，还包括：

从所述视频样本提取语音样本，并获取提取语音样本的语音样本特征向量；

将语音样本特征向量以及样本图像特征向量进行合并，得到样本视频特征向量；

根据所述样本视频特征向量以及所述视频样本对应的欺诈标签，对机器学习模型进行训练，获取训练后的机器学习模型作为欺诈检测模型。

一种视频数据的欺诈检测装置，所述装置包括：

视频数据获取模块，用于获取待检测视频数据；

图像数据获取模块，用于从所述待检测视频数据中提取出各视频帧的图像数据，按照各所述视频帧的时间序列将所述图像数据划分为多个图像数据集，所述图像数据集包含连续视频帧对应的图像数据；

图像特征获取模块，用于将各所述图像数据集输入至预先训练好的图像特征提取模型中，得到图像特征向量；

语音特征获取模块，用于从所述待检测视频数据中提取语音数据，并获取语音数据的语音特征向量；

特征合并获取模块，用于对所述图像特征向量以及所述语音特征向量进行级联拼接，得到多模态特征向量；

检测结果获取模块，用于将所述多模态特征向量输入预先训练好的欺诈检测模型，得到所述欺诈检测模型输出的所述待检测视频数据对应的欺诈检测结果。

在其中一个实施例中，所述视频数据获取模块，用于获取视频数据，将所述视频数据切分为多个数据长度为预设视频长度的视频片段数据，将所述视频片段数据确定为待检测视频数据；

所述检测结果获取模块，用于根据各所述视频片段数据的欺诈检测结果，确定所述视频数据的欺诈检测结果。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取待检测视频数据；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取待检测视频数据；

上述视频数据的欺诈检测方法、装置、计算机设备和存储介质，通过获取视频数据中的图像数据以及语音数据，分别确定图像数据以及语音数据对应的特征向量，从而合并图像特征向量以及语音特征向量以获取多模态特征向量，并将合并后的多模态特征向量输入至欺诈检测模型中获取待检测视频数据的欺诈检测结果。本方案将视频中的图像特征向量以及语音特征向量进行融合，有效表征被面部表情或肢体动作的特征信息、被提问对象声音情绪的特征信息和/或说话内容的特征信息，增大特征信息量大，提高特征信息的全面性以及多样性，有效提高视频数据欺诈检测的准确性。

附图说明

图1为一个实施例中视频数据的欺诈检测方法的应用场景图；

图2为一个实施例中视频数据的欺诈检测方法的流程示意图；

图3为另一个实施例中视频数据的欺诈检测方法的流程示意图；

图4为一个实施例中视频数据的欺诈检测装置的结构框图；

图5为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

图1为一个实施例中项目框架的构建方法的应用环境图。该项目框架的构建方法应用于一种计算机设备。该计算机设备可以是服务器或终端。如图1所示，以该计算机设备是服务器102为例，服务器102在获取到录制有面审过程画面的待检测视频数据后，通过从待检测视频数据中提取出各视频帧的图像数据，并将图像数据划分为多个图像数据集，从而将各个图像数据集输入至图像特征提取模型中，以获取图像特征向量，通过获取视频数据中语音数据的语音特征向量，从而合并图像特征向量以及语音特征向量，得到多模态特征向量，并将多模态特征向量输入预先训练好的欺诈检测模型，得到欺诈检测模型输出的待检测视频数据对应的欺诈检测结果，实现对面审视频中被提问人员是否存在欺诈行为进行识别，有效提高欺诈识别的效率以及准确度。

在一个实施例中，如图2所示，提供了一种视频数据的欺诈检测方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤S210：获取待检测视频数据。

本步骤中，待检测视频数据可以是由摄像设备实时摄录的面审现场的视频数据，也可以是预先摄录面审过程并保存的视频数据，具体可以是指画面为被提问对象的被提问以及回答过程的视频。

步骤S220：从待检测视频数据中提取出各视频帧的图像数据，按照各视频帧的时间序列将图像数据划分为多个图像数据集，图像数据集包含连续视频帧对应的图像数据。

本步骤中，图像数据可以是指包括被提问对象面部或肢体动作的画面数据；服务器从视频数据中获取每一视频帧对应的图像数据，为了保留各个视频帧图像数据间的时间序列的关联信息，服务器按照各个视频帧的先后顺序，将连续的、预设数量的图像数据划分为一个图像数据集，从而将全部视频帧对应的图像数据按时间顺序划分为多个图像数据集。

具体的，以视频数据包含1002帧视频帧为例，服务器在获取到视频数据中所有视频帧的图像数据后，以每连续的10帧图像数据作为一个图像数据集，将1002帧的图像数据按时间顺序划分为100个图像数据集，其中舍弃任意2帧图像数据，或者，将1002帧的图像数据按时间顺序划分为101个图像数据集，其中最后一个图像数据集前2帧为图像数据，后续用0向量补齐图像数据集。

进一步的，在一个实施例中，服务器可以对获取得到的图像数据进行预处理，例如对图像数据的分辨率大小进行调整，使得图像数据量大小适中，避免图像数据量过大而导致数据处理速度过慢，或避免图像数据量过小而导致后续图像欺诈检测的准确率过低。

步骤S230：将各图像数据集输入至预先训练好的图像特征提取模型中，得到图像特征向量。

通过获取图像数据集的图像特征向量，实现获取面审过程中被提问人员的面部表情或肢体动作的特征信息，在后续将图像特征向量应用到视频数据的欺诈检测时有效提高视频数据的欺诈检测的准确性；图像特征提取模型预先将输入项设置为图像数据集，输出项设置为一定大小的图像特征向量；本步骤中，服务器将各个图像数据集输入值预先训练好的图像特征提取模型中，从而得到各个图像数据集对应的图像特征数据，将各个图像数据集对应的图像特征数据进行串联拼接，以获取视频数据整体的图像特征数据。

具体的，以视频数据包含1002帧视频帧为例，服务器舍弃2帧图像数据后将图像数据划分为100个图像数据集，服务器利用图像特征提取模型分别获取这100个图像数据集对应的图像特征向量后，将这100个图像特征向量进行拼接，得到视频数据的图像特征向量。

步骤S240：从待检测视频数据中提取语音数据，并获取语音数据的语音特征向量。

语音数据可以是指视频数据中的语音的音频数据，其语音特征向量可以表征着被提问对象声音情绪的特征信息；语音数据也可以是语音对应的文本数据，其语音特征向量可以表征着说话内容的特征信息。

步骤S250：对图像特征向量以及语音特征向量进行级联拼接，得到多模态特征向量。

本步骤中，服务器在获取到视频数据的图像特征向量以及语音特征向量后，将图像特征向量以及语音特征向量进行串联合并，获取图像、语音特征融合后的多模态特征向量，多模态特征向量包括视频数据中的画面对应的图像数据以及声音对应的语音数据的特征向量，有效表征被面部表情或肢体动作的特征信息、被提问对象声音情绪的特征信息和/或表说话内容的特征信息，有效提高视频数据的特征全面性以及多样性，提高视频数据欺诈检测的准确性。具体的，假设视频数据中，图像特征向量为

语言特征向量为

则串联合并后的目标特征数据为

步骤S260：将多模态特征向量输入预先训练好的欺诈检测模型，得到欺诈检测模型输出的待检测视频数据对应的欺诈检测结果。

本步骤中，欺诈检测模型可以为二分类器、SVM模型等机器学习模型中的一种，此时，欺诈检测模型预先将输入项设置为多模态特征向量，输出项设置为视频数据的欺诈检测结果，其中，欺诈检测结果可以包括欺诈视频以及非欺诈视频。

以欺诈检测模型为softmax算法构造的二分类器为例，服务器通过将多模态特征向量输入到预先训练好的视频数据的欺诈检测模型中，视频数据的欺诈检测模型输出待检测视频为欺诈视频的概率以及非欺诈视频的概率，从而根据概率确定该视频数据的欺诈检测的数据失效。

上述视频数据的欺诈检测方法中，通过获取视频数据中的图像数据以及语音数据，分别确定图像数据以及语音数据对应的特征向量，从而在合并图像特征向量以及语音特征向量后，利用合并得到的多模态特征向量以及欺诈检测模型获取待检测视频数据的欺诈检测结果。本方案将视频中的图像特征向量以及语音特征向量进行融合，有效表征被面部表情或肢体动作的特征信息、被提问对象声音情绪的特征信息和/或表说话内容的特征信息，增大特征信息量大，提高特征信息的全面性以及多样性，有效提高视频数据欺诈检测的准确性。

在一个实施例中，语音数据包括音频数据；获取语音数据的语音特征向量的步骤，包括：以预设步长以及预设窗口长度获取音频数据的分帧数据；对各分帧数据进行傅里叶分析获取梅尔频谱数据；对梅尔频谱数据进行倒谱分析，得到音频特征向量。

本实施例中，语音数据可以指音频数据，其可以以预设的采样频率从视频数据中采样获得的；服务器通过对音频数据进行分帧、加窗处理，获得音频数据的分帧数据，对各段的分帧数据进行傅里叶分析以获取分帧数据对应的频谱数据，将频谱数据通过梅尔滤波器获得梅尔频谱数据，进而对梅尔频谱数据进行倒谱分析以获取音频片段的梅尔频率倒谱系数作为该片段的音频特征向量，进而将所有音频片段的梅尔频率倒谱数据进行合并作为音频的特征向量。梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)考虑到了人类的听觉特征，有效提高语音特征在识别应用上的识别率。

在一个实施例中，可利用OpenSMILE工具获取音频数据的音频特征向量；服务器预先安装有OpenSMILE工具，并在OpenSMILE工具的配置文件中设置滑动窗口的大小以及滑动窗口每次移动的步长，服务器获取到音频数据后，利用OpenSMILE工具实现音频特征向量的提取。具体的，一段音频数据对应一个特征向量，该音频特征向量的大小为(M*N)，其中，N固定为6380维，表示6380种特征，M值的大小由音频数据的大小决定，所以音频特征向量包括M组6380维特征数据。

在一个实施例中，语音数据包括文本数据；获取语音数据的语音特征向量的步骤，包括：对文本数据进行分句处理得到句子文本，并对各句子文本进行分词处理，得到句子中的词序列；利用预设词向量模型获取各词序列的词向量，根据句子文本中各个词序列对应的词向量，获取句子文本的文本特征向量。

本实施例中，语音数据可以指语音内容的文本数据；服务器对文本数据进行分句，得到多个长短不一的句子文本；对各个句子文本进行分词以及去停用词处理，得到句子文本中的词序列；采用词向量模型进行词序列的特征提取，得到每个词序列对应的一个预设大小的词向量，根据句子文本中各个词序列的词向量获取句子文本对应的特征矩阵，作为文本特征向量。

具体的，词向量模型可以是GloVe(Global Vectors for Word Representation)模型，也可以是Word2vec模型。

在一个实施例中，从视频数据中提取出各视频帧的图像数据的步骤之前，还包括：获取视频数据，将视频数据切分为多个数据长度为预设视频长度的视频片段数据，将视频片段数据确定为待检测视频数据；得到欺诈检测模型输出的待检测视频数据对应的欺诈检测结果的步骤之后，还包括：根据各视频片段数据的欺诈检测结果，确定视频数据的欺诈检测结果。

具体的，服务器可以以时序的方式、以一定的时间粒度将视频数据进行裁剪，获得多个视频片段数据，然后将每个视频片段数据作为待检测视频数据，进行视频数据的欺诈检测；当某一视频片段数据检测为欺诈视频，则整个视频数据确定为欺诈视频。通过根据预设视频长度将视频数据切分为小粒度的视频片段，提高视频数据欺诈检测的精度，提高欺诈检测的准确率。

在一个实施例中，将各图像数据集输入至预先训练好的图像特征提取模型中的步骤之前，包括：获取视频样本，其中视频样本包括视频样本数据以及欺诈标签；提取视频样本数据中的各视频帧的图像样本数据；将图像样本数据以及欺诈标签输入至3D卷积神经网络模型中，对3D卷积神经网络模型进行训练；将训练后得到的3D卷积神经网络模型确定为图像特征提取模型。

本实施例中，视频样本数据(含声音)可以使用公开的法庭审讯数据、国外大学的模拟面试视频数据；3D卷积神经网络可以获取视频中的时间和空间的特征信息，有效提高图像特征数据对图像数据描述的准确性，进而提高其在识别应用中的识别准确率。

具体的，服务器获取视频样本，视频样本中包括视频样本数据及其对应的欺诈标签，通过获取样本数据中每一帧的图像样本数据，将图像样本数据作为输入项，将欺诈标签作为输出项，对3D卷积神经网络模型中的参数进行训练；在使用视频样本对3D卷积神经网络训练完成后，可基于迁移学习技术，将训练后的3D卷积神经网络除全连接层以外的神经网络层作为可复用特征，确定为图像特征提取模型。通过迁移学习获取的图像特征提取模型，可以有效获取用于描述图像数据是否为欺诈类型的特性信息，有效提高视频数据的欺诈检测的准确性。

在一个实施例中，将各图像数据集输入至预先训练好的图像特征提取模型中的步骤之前，还包括：从视频样本提取语音样本，并获取提取语音样本的语音样本特征向量；将语音样本特征向量以及样本图像特征向量进行合并，得到样本视频特征向量；根据样本视频特征向量以及视频样本对应的欺诈标签，对机器学习模型进行训练，获取训练后的机器学习模型作为欺诈检测模型。

上述为欺诈模型的训练过程，在利用视频样本对3D卷积神经网络模型训练完成后，服务器提取视频样本数据中语音样本数据，并获取语音样本数据的语音特征向量，将语音样本特征向量以及样本图像特征向量进行合并，得到样本视频特征向量；根据样本视频特征向量以及视频样本对应的欺诈标签，对机器学习模型进行训练，获取训练后的机器学习模型作为欺诈检测模型。提高欺诈检测的准确性。

在一个实施例中，得到欺诈检测模型输出的视频数据对应的欺诈检测结果的步骤之后，还包括：当视频数据对应的欺诈检测结果为欺诈视频数据时，输出告警信号。在识别到视频数据为欺诈视频后，服务器可以向终端发送告警信号，以提醒用户在视频中的被提问对象存在欺诈行为。

在一个实施例中，如图3所示，提供了一种视频数据的欺诈检测方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤S301：获取视频数据，将视频数据切分为多个数据长度为预设视频长度的视频片段数据，将视频片段数据确定为待检测视频数据；

步骤S302：从待检测视频数据中提取出各视频帧的图像数据，按照各视频帧的时间序列将图像数据划分为多个图像数据集，图像数据集包含连续视频帧对应的图像数据；

步骤S303：将各图像数据集输入至预先训练好的图像特征提取模型中，得到图像特征向量；

步骤S304：从待检测视频数据中提取语音数据，语音数据包括音频数据以及文本数据；

步骤S305：以预设步长以及预设窗口长度获取音频数据的分帧数据；

步骤S306：对各分帧数据进行傅里叶分析获取梅尔频谱数据；

步骤S307：对梅尔频谱数据进行倒谱分析，得到音频特征向量；

步骤S308：对文本数据进行分句处理得到句子文本，并对各句子文本进行分词处理，得到句子中的词序列；

步骤S309：利用预设词向量模型获取各词序列的词向量，根据句子文本中各个词序列对应的词向量，获取句子文本的文本特征向量；

步骤S310：对图像特征向量、音频特征向量以及文本特征向量进行级联拼接，得到多模态特征向量；

步骤S311：将多模态特征向量输入预先训练好的欺诈检测模型，得到欺诈检测模型输出的待检测视频数据对应的欺诈检测结果；

步骤S312：根据各待检测视频数据的欺诈检测结果，确定所述视频数据的欺诈检测结果。

本实施例汇总，通过获取视频数据中的图像数据、音频数据以及文本数据后，分别确定图像数据、音频数据以及文本数据对应的特征向量，从而合并图像特征向量、音频特征向量以及文本特征向量以获取多模态特征向量，并将多模态特征向量输入至欺诈检测模型获取待检测视频数据的欺诈检测结果。本方案将视频中的图像特征向量、音频特征向量以及文本特征向量进行融合，有效表征被面部表情或肢体动作的特征信息、被提问对象声音情绪的特征信息和表说话内容的特征信息，增大特征信息量大，提高特征信息的全面性以及多样性，有效提高视频数据欺诈检测的准确性。

应该理解的是，虽然图2以及图3的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2以及图3中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图4所示，提供了一种视频数据的欺诈检测装置，包括：视频数据获取模块410、图像数据获取模块420、图像特征获取模块330、语音特征获取模块440、特征合并模块450和检测结果获取模块460，其中：

视频数据获取模块410，用于获取待检测视频数据；

图像数据获取模块420，用于从待检测视频数据中提取出各视频帧的图像数据，按照各视频帧的时间序列将图像数据划分为多个图像数据集，图像数据集包含连续视频帧对应的图像数据；

图像特征获取模块440，用于将各图像数据集输入至预先训练好的图像特征提取模型中，得到图像特征向量；

语音特征获取模块440，用于从待检测视频数据中提取语音数据，并获取语音数据的语音特征向量；

特征合并模块450，用于对图像特征向量以及语音特征向量进行级联拼接，得到多模态特征向量；

检测结果获取模块460，用于将多模态特征向量输入预先训练好的欺诈检测模型，得到欺诈检测模型输出的待检测视频数据对应的欺诈检测结果。

在一个实施例中，语音数据包括音频数据；语音特征获取模块，用于：以预设步长以及预设窗口长度获取音频数据的分帧数据；对各分帧数据进行傅里叶分析获取梅尔频谱数据；对梅尔频谱数据进行倒谱分析，得到音频特征向量。

在一个实施例中，语音数据包括文本数据；语音特征获取模块，用于：对文本数据进行分句处理得到句子文本，并对各句子文本进行分词处理，得到句子中的词序列；利用预设词向量模型获取各词序列的词向量，根据句子文本中各个词序列对应的词向量，获取句子文本的文本特征向量。

在一个实施例中，视频数据获取模块，用于获取视频数据，将视频数据切分为多个数据长度为预设视频长度的视频片段数据，将视频片段数据确定为待检测视频数据；检测结果获取模块，用于根据各视频片段数据的欺诈检测结果，确定视频数据的欺诈检测结果。

在一个实施例中，装置还包括模型训练模块，模型训练模块用于获取视频样本，其中视频样本包括视频样本数据以及欺诈标签；提取视频样本数据中的各视频帧的图像样本数据；将图像样本数据以及欺诈标签输入至3D卷积神经网络模型中，对3D卷积神经网络模型进行训练；将训练后得到的3D卷积神经网络模型确定为图像特征提取模型。

在一个实施例中，模型训练模型，用于从视频样本提取语音样本，并获取提取语音样本的语音样本特征向量；将语音样本特征向量以及样本图像特征向量进行合并，得到样本视频特征向量；根据样本视频特征向量以及视频样本对应的欺诈标签，对机器学习模型进行训练，获取训练后的机器学习模型作为欺诈检测模型。

关于欺诈检测装置的具体限定可以参见上文中对于欺诈检测方法的限定，在此不再赘述。上述欺诈检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储视频数据、图像特征提取模型的各个参数等数据信息。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种视频数据的欺诈检测方法。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取待检测视频数据；

从待检测视频数据中提取出各视频帧的图像数据，按照各视频帧的时间序列将图像数据划分为多个图像数据集，图像数据集包含连续视频帧对应的图像数据；

将各图像数据集输入至预先训练好的图像特征提取模型中，得到图像特征向量；

从待检测视频数据中提取语音数据，并获取语音数据的语音特征向量；

对图像特征向量以及语音特征向量进行级联拼接，得到多模态特征向量；

将多模态特征向量输入预先训练好的欺诈检测模型，得到欺诈检测模型输出的待检测视频数据对应的欺诈检测结果。

在一个实施例中，语音数据包括音频数据，处理器执行计算机程序实现获取语音数据的语音特征向量的步骤时，具体实现以下步骤：以预设步长以及预设窗口长度获取音频数据的分帧数据；对各分帧数据进行傅里叶分析获取梅尔频谱数据；对梅尔频谱数据进行倒谱分析，得到音频特征向量。

在一个实施例中，语音数据包括文本数据；处理器执行计算机程序实现获取语音数据的语音特征向量的步骤时，具体实现以下步骤：文本数据进行分句处理得到句子文本，并对各句子文本进行分词处理，得到句子中的词序列；利用预设词向量模型获取各词序列的词向量，根据句子文本中各个词序列对应的词向量，获取句子文本的文本特征向量。

在一个实施例中，处理器执行计算机程序实现获取待检测视频数据的步骤时，具体实现以下步骤：获取视频数据，将视频数据切分为多个数据长度为预设视频长度的视频片段数据，将视频片段数据确定为待检测视频数据；得到欺诈检测模型输出的待检测视频数据对应的欺诈检测结果的步骤之后，还包括：根据各视频片段数据的欺诈检测结果，确定视频数据的欺诈检测结果。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取视频样本，其中视频样本包括视频样本数据以及欺诈标签；提取视频样本数据中的各视频帧的图像样本数据；将图像样本数据以及欺诈标签输入至3D卷积神经网络模型中，对3D卷积神经网络模型进行训练；将训练后得到的3D卷积神经网络模型确定为图像特征提取模型。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：从视频样本提取语音样本，并获取提取语音样本的语音样本特征向量；将语音样本特征向量以及样本图像特征向量进行合并，得到样本视频特征向量；根据样本视频特征向量以及视频样本对应的欺诈标签，对机器学习模型进行训练，获取训练后的机器学习模型作为欺诈检测模型。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取待检测视频数据；

在一个实施例中，语音数据包括音频数据，计算机程序被处理器执行实现获取语音数据的语音特征向量的步骤时，具体实现以下步骤：以预设步长以及预设窗口长度获取音频数据的分帧数据；对各分帧数据进行傅里叶分析获取梅尔频谱数据；对梅尔频谱数据进行倒谱分析，得到音频特征向量。

在一个实施例中，语音数据包括文本数据，计算机程序被处理器执行实现获取语音数据的语音特征向量的步骤时，具体实现以下步骤：对文本数据进行分句处理得到句子文本，并对各句子文本进行分词处理，得到句子中的词序列；利用预设词向量模型获取各词序列的词向量，根据句子文本中各个词序列对应的词向量，获取句子文本的文本特征向量。

在一个实施例中，计算机程序被处理器执行实现获取待检测视频数据的步骤时，具体实现以下步骤：获取视频数据，将视频数据切分为多个数据长度为预设视频长度的视频片段数据，将视频片段数据确定为待检测视频数据；得到欺诈检测模型输出的待检测视频数据对应的欺诈检测结果的步骤之后，还包括：根据各视频片段数据的欺诈检测结果，确定视频数据的欺诈检测结果。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：获取视频样本，其中视频样本包括视频样本数据以及欺诈标签；提取视频样本数据中的各视频帧的图像样本数据；将图像样本数据以及欺诈标签输入至3D卷积神经网络模型中，对3D卷积神经网络模型进行训练；将训练后得到的3D卷积神经网络模型确定为图像特征提取模型。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：从视频样本提取语音样本，并获取提取语音样本的语音样本特征向量；将语音样本特征向量以及样本图像特征向量进行合并，得到样本视频特征向量；根据样本视频特征向量以及视频样本对应的欺诈标签，对机器学习模型进行训练，获取训练后的机器学习模型作为视频数据的欺诈检测模型。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种视频数据的欺诈检测方法，所述方法包括：

获取待检测视频数据；

2.根据权利要求1所述的方法，其特征在于，所述语音数据包括音频数据；

所述获取语音数据的语音特征向量的步骤，包括：

对各所述分帧数据进行傅里叶分析获取梅尔频谱数据；

对所述梅尔频谱数据进行倒谱分析，得到音频特征向量。

3.根据权利要求1所述的方法，其特征在于，所述语音数据包括文本数据；

所述获取语音数据的语音特征向量的步骤，包括：

4.根据权利要求1所述的方法，其特征在于，所述获取待检测视频数据的步骤，包括：

5.根据权利要求1所述的方法，其特征在于，所述将各所述图像数据集输入至预先训练好的图像特征提取模型中的步骤之前，包括：

提取所述视频样本数据中的各视频帧的图像样本数据；

6.根据权利要求5所述的方法，其特征在于，所述将各所述图像数据集输入至预先训练好的图像特征提取模型中的步骤之前，还包括：

7.一种视频数据的欺诈检测装置，其特征在于，所述装置包括：

视频数据获取模块，用于获取待检测视频数据；

特征合并模块，用于对所述图像特征向量以及所述语音特征向量进行级联拼接，得到多模态特征向量；

8.根据权利要求7所述的装置，其特征在于，所述视频数据获取模块，用于获取视频数据，将所述视频数据切分为多个数据长度为预设视频长度的视频片段数据，将所述视频片段数据确定为待检测视频数据；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。