CN114637846A

CN114637846A - 视频数据处理方法、装置、计算机设备和存储介质

Info

Publication number: CN114637846A
Application number: CN202210241616.2A
Authority: CN
Inventors: 崔洋洋; 余俊澎
Original assignee: Youmi Technology Shenzhen Co ltd
Current assignee: Youmi Technology Shenzhen Co ltd
Priority date: 2022-03-11
Filing date: 2022-03-11
Publication date: 2022-06-17

Abstract

本申请涉及一种视频数据处理方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括：获取视频文本数据和视频文本数据特征；通过关联规则算法，计算视频文本数据的支持度和置信度，根据支持度和置信度构建支持向量机模型；将视频文本数据特征输入支持向量机模型，获得视频文本数据的分类结果；将视频文本数据的分类结果通过知识抽取和知识加工，构建视频知识图谱。采用本方法充分利用了视频文本数据的关联规则，将视频文本数据特征输入支持向量机模型，能够提高支持向量机模型的分类精度，提高视频数据的可理解性，基于视频文本数据分类结果构建知识图谱的方法能够将视频文本数据之间联系起来，进一步提高视频数据的可理解性。

Description

视频数据处理方法、装置、计算机设备和存储介质

技术领域

本申请涉及人工智能技术领域，特别是涉及一种视频数据处理方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

随着数字媒体和互联网技术的发展，视频逐渐渗透到人类生活的方方面面，视频内容包含大量的自然语言数据，例如视频标题、描述和用户评论，这些自然语言数据能够清晰地指示和简洁地描述视频中值得人们关注的内容，为视频内容的分析和理解带来了极大的便利。

现有技术中，对视频内容的处理是通过对视频帧中的图像进行分析和处理来实现视频特征提取，然而，这种通过分析和处理视频帧中图像实现视频特征提取的方法无法处理视频中的自然语言信息，存在视频内容可理解性差的问题。

发明内容

基于此，有必要针对传统通过分析和处理视频帧中图像实现视频特征提取的方法存在视频内容可理解性差的问题，提供一种能够提高视频内容可理解性的视频数据处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种视频数据处理方法。所述方法包括：

获取视频文本数据和视频文本数据特征；

通过关联规则算法，计算视频文本数据的支持度和置信度，根据支持度和置信度构建支持向量机模型；

将视频文本数据特征输入支持向量机模型，获得视频文本数据的分类结果；

将视频文本数据的分类结果通过知识抽取和知识加工，构建视频知识图谱。

在其中一个实施例中，获取视频文本数据和视频文本数据特征包括：

获取视频文本数据；

将视频文本数据基于自然语言处理进行文本切分和特征提取，获得切分后的视频文本数据和视频文本数据特征。

在其中一个实施例中，将视频文本数据基于自然语言处理进行文本切分和特征提取，获得切分后的视频文本数据和视频文本数据特征之前，还包括：

根据视频文本数据，生成训练样本；

将训练样本输入预置分段线性分类模型进行训练，获得训练后的分段线性分类模型和分类后的视频文本数据；

将分类后的视频文本数据通过自然语言处理进行文本切分和特征提取，获得切分后的视频文本数据和视频文本数据特征。

在其中一个实施例中，将分类后的视频文本数据通过自然语言处理进行文本切分和特征提取，获得切分后的视频文本数据和视频文本数据特征之后，还包括：

根据视频文本数据，生成验证样本；

将验证样本输入训练后的分段线性分类模型，获得模型评估值；

若模型评估值不满足预设评估条件，则优化分类后的分段线性分类器模型，获得优化后的分段线性分类模型；

将优化后的分段线性分类模型更新为预置分段线性分类模型，返回将训练样本输入预置分段线性分类模型进行训练，获得训练后的分段线性分类模型和分类后的视频文本数据的步骤。

在其中一个实施例中，将视频文本数据基于自然语言处理进行文本切分和特征提取，获得切分后的视频文本数据和视频文本数据特征包括：

通过数据预处理和短语抽取算法对视频文本数据进行切分，获得切分后的视频文本数据；

对切分后的视频文本数据进行特征提取，获得视频文本数据特征。

在其中一个实施例中，将视频文本数据的分类结果通过知识抽取和知识加工，构建视频知识图谱包括：

将视频文本数据的分类结果通过知识抽取，获得实体和实体关系；

将实体和实体关系通过知识加工，获得加工后的实体、加工后的实体关系以及质量评估结果；

若质量评估结果小于预设质量评估值，则将加工后的实体和加工后的实体关系赋给视频文本数据的分类结果，返回将视频文本数据的分类结果通过知识抽取，获得实体和实体关系的步骤；

若质量评估结果不小于预设质量评估值，则根据加工后的实体和加工后的实体关系，构建视频知识图谱。

在其中一个实施例中，获取视频文本数据包括：

获取视频数据，并提取视频数据中的图像数据、音频数据以及直接文本数据；

采用ASR音频识别技术将音频数据转化为音频文本数据；

采用OCR识别技术将图像数据中的文本信息转化为图像文本数据；

归集音频文本数据、图像文本数据以及直接文本数据，获得视频文本数据。

第二方面，本申请还提供了一种视频数据处理装置。所述装置包括：

数据获取模块，用于获取视频文本数据和视频文本数据特征；

模型构建模块，用于通过关联规则算法，计算视频文本数据的支持度和置信度，根据支持度和置信度构建支持向量机模型；

分类结果获取模块，用于将视频文本数据特征输入支持向量机模型，获得视频文本数据的分类结果；

知识图谱构建模块，用于将视频文本数据的分类结果通过知识抽取和知识加工，构建视频知识图谱。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取视频文本数据和视频文本数据特征；通过关联规则算法，计算视频文本数据的支持度和置信度，根据支持度和置信度构建支持向量机模型；将视频文本数据特征输入支持向量机模型，获得视频文本数据的分类结果；将视频文本数据的分类结果通过知识抽取和知识加工，构建视频知识图谱。

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

上述视频数据处理方法、装置、计算机设备、存储介质和计算机程序产品，通过获取视频文本数据和视频文本数据特征，通过关联规则算法计算视频文本数据的支持度和置信度，构建支持向量机模型，充分利用了视频文本数据的关联规则，将视频文本数据特征输入支持向量机模型，获得视频文本数据的分类结果，能够提高支持向量机模型的分类精度，提高视频数据的可理解性，根据视频文本数据的分类结果构建知识图谱的方法能够将视频文本数据之间联系起来，进一步提高视频数据的可理解性。

附图说明

图1为一个实施例中视频数据处理方法的应用环境图；

图2为一个实施例中视频数据处理方法的流程示意图；

图3为一个实施例中视频数据处理步骤的流程示意图；

图4为另一个实施例中视频数据处理步骤的流程示意图；

图5为一个实施例中S240的子流程示意图；

图6为另一个实施例中视频数据处理的流程示意图；

图7为一个实施例中视频知识图谱构建的流程示意图；

图8为一个实施例中视频数据处理装置的结构框图；

图9为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的视频数据处理方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他网络服务器上。服务器104接收终端102上传的视频文本数据和视频文本数据特征；通过关联规则算法，计算视频文本数据的支持度和置信度，根据支持度和置信度构建支持向量机模型；将视频文本数据特征输入支持向量机模型，获得视频文本数据的分类结果；将视频文本数据的分类结果通过知识抽取和知识加工，构建视频知识图谱，服务器104将获取到的视频知识图谱发送给终端102。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种视频数据处理方法，以该方法应用于图1中的服务器104为例进行说明，包括以下步骤：

S200，获取视频文本数据和视频文本数据特征。

其中，视频作为一种复杂的流式数据，视频中往往包括图像、音频以及直接文本数据，在当前多媒体时代下，视频并非独立存在，还被大量的自然语言数据包围，例如视频标题、描述和用户评论等，这些自然语言数据能够清晰和简洁地描述视频的中心思想，为视频内容分析和理解带来了极大的便利，视频文本数据是从视频数据中提取和转化的各种文本数据，视频文本数据特征是根据视频文本数据提取特征得到的视频文本数据的数学特征，采用视频文本数据和视频文本数据特征有利于视频数据内容的描述，提高视频数据的可理解性。

S400，通过关联规则算法，计算视频文本数据的支持度和置信度，根据支持度和置信度构建支持向量机模型。

其中，关联规则是反映一个事物与其他事物之间的相互依存性和关联性，是数据挖掘的一个重要技术，用于从大量数据中挖掘出有价值的数据项之间的相关关系，视频文本数据中某些词语或者某些类别之间存在一定的关联性，通过关联规则算法，就可以根据视频文本数据中的某些词语来挖掘出其他词语出现的概率，如果忽略视频文本数据之间的关联性，往往难以得到比较好的结果。关联规则中常见的算法包括ML-kNN(Multi Lable KNearest Neighbor，多标签K最邻域)算法和CBA(Classification base of Association，基于关联规则分类)算法，其中CBA算法能够基于模型挖掘到的关联规则进行预测分类，算法流程分为两步:第一步，发现类别间的关联规则；第二步，从第一步中挑选置信度比较高的关联规则来进行分类训练。关联规则中有两个比较重要的参数：支持度和置信度，关联规则M＝>N的支持度P_S定义为视频文本数据M与视频文本数据N同时出现的概率，关联规则M＝>N的置信度P_C定位为视频文本数据M出现的同时视频文本数据N出现的概率，公式表示如下：

根据视频文本数据的支持度和置信度，构建基于关联规则的支持向量机模型，充分利用了视频文本数据的关联规则，能够提高支持向量机模型的分类精度，提高视频数据的理解性。

S600，将视频文本数据特征输入支持向量机模型，获得视频文本数据的分类结果。

其中，支持向量机(Support Vector Machine，SVM)是一类按监督学习方式对数据进行二元分类的广义线性分类器，基本思想是求解能够正确划分训练数据集并且几何间隔最大的分离超平面，其学习策略便是间隔最大化，最终化为一个凸二次规划问题的求解。SVM可分为线性可分支持向量机、线性支持向量机和非线性支持向量机。

S800，将视频文本数据的分类结果通过知识抽取和知识加工，构建视频知识图谱。

其中，知识图谱，是结构化的语义知识库，用于以符号形式描述物理世界中的概念及其相互关系，其基本组成单位是“实体—关系—实体”三元组，以及实体及其相关属性—值对，实体间通过关系相互联结，构成网状的知识结构。知识图谱是由实体和实体的关系组成，通过图的形式表现出来，在知识图谱中，节点-边-节点可以看作一条记录，第一个节点看作主语，边看作谓语，第二个节点看作宾语，主谓宾构成一条记录，知识图谱就是由这样的一条条三元组构成，围绕着一个主语，可以有很多的关系呈现，随着知识的不断积累，最终会形成一个庞大的知识图谱，知识图谱构建完成之后比较典型的应用是语义搜索、智能问答以及推荐系统等方面。知识抽取包括实体抽取和关系抽取，其中实体抽取是从获取到的视本数据中自动识别出命名实体，建立知识图谱的节点，文本数据经过实体抽取后，得到的是一系列离散的节点，为了得到语义信息，还需要从相关的视频文本数据中提取出实体之间的关联关系，称为关系抽取，关系抽取得到实体之间的关联关系，能够将多个实体联系起来，形成网状的知识图谱。

上述视频数据处理方法中，通过获取视频文本数据和视频文本数据特征，通过关联规则算法计算视频文本数据的支持度和置信度，构建支持向量机模型，充分利用了视频文本数据的关联规则，将视频文本数据特征输入支持向量机模型，获得视频文本数据的分类结果，能够提高支持向量机模型的分类精度，提高视频数据的可理解性，根据视频文本数据的分类结果构建知识图谱的方法能够将视频文本数据之间联系起来，进一步提高视频数据的可理解性。

在一个实施例中，如图3所示，获取视频文本数据和视频文本数据特征包括：

S220，获取视频文本数据；

S240，将视频文本数据基于自然语言处理进行文本切分和特征提取，获得切分后的视频文本数据和视频文本数据特征。

本实施例中，自然语言处理是以语言为对象，利用计算机技术来分析、理解和处理自然语言，主要应用于机器翻译、舆情监测、文本分类、文本语义对比以及语音识别等方面，文本切分是将文本数据切分为构成文本的语义单元，语义单元可以是句子、短语、词语或单个的字，自然语言处理中的特征提取是将文本数据转化为可以量化的特征值和特征向量的过程，获取视频文本数据，将视频文本数据基于自然语言处理进行文本切分和特征提取，获得切分后的视频文本数据和视频文本数据特征，视频文本数据经过自然语言处理进行文本切分和特征提取后，能够将非结构化的视频文本数据转化为结构化的视频文本数据，有利于视频文本数据的分类和数据之间关联关系的提取，能够提高视频数据的可理解性。

上述实施例的方案，通过获取视频文本数据，将视频文本数据基于自然语言处理进行文本切分和特征提取，获得切分后的视频文本数据和视频文本数据特征，这种通过自然语言处理视频文本数据的方法，能够将非结构化的视频文本数据转化为结构化的视频文本数据，有利于视频文本数据的分类和数据之间关联关系的提取，能够提高视频数据的可理解性。

在一个实施例中，如图4所示，将视频文本数据基于自然语言处理进行文本切分和特征提取，获得切分后的视频文本数据和视频文本数据特征之前，还包括：

S231，根据视频文本数据，生成训练样本；

S232，将训练样本输入预置分段线性分类模型进行训练，获得训练后的分段线性分类模型和分类后的视频文本数据；

S233，将分类后的视频文本数据通过自然语言处理进行文本切分和特征提取，获得切分后的视频文本数据和视频文本数据特征。

本实施例中，训练样本是用于模型训练的数据样本，直接参与模型训练过程，从视频文本数据中划分部分数据作为训练样本，将训练样本输入预置的分段线性分类模型进行训练，得到训练后的分段线性分类模型以及分类后的视频文本数据，将部分视频文本数据输入分段线性分类模型进行训练，得到分类后的视频文本数据，能够将视频文本数据按照预设方式进行初步分类，比如按照数据类型，场景类型或数据关系等对视频文本数据进行初步分类。分类后的视频文本数据再通过自然语言处理进行文本切分和特征提取，获得切分后的视频文本数据和视频文本数据特征，这种将视频文本数据通过模型训练进行初步分类，再将分类后的视频文本数据进行自然语言处理的方法能够提高视频文本数据的分类精度，有利于建立丰富的视频文本数据的关联关系，提高视频数据的可理解性。

上述实施例的方案，通过从视频文本数据得到训练样本，将训练样本输入预置分段线性分类模型进行训练，获得训练后的分段线性分类模型和分类后的视频文本数据，能够将视频文本数据进行初步分类，将分类后的视频文本数据通过自然语言处理进行文本切分和特征提取，获得切分后的视频文本数据和视频文本数据特征，这种将视频文本数据通过模型训练进行初步分类，再将分类后的视频文本数据进行自然语言处理的方法能够提高视频文本数据的分类精度，有利于建立丰富的视频文本数据的关联关系，提高视频数据的可理解性。

在一个实施例中，将分类后的视频文本数据通过自然语言处理进行文本切分和特征提取，获得切分后的视频文本数据和视频文本数据特征之后，还包括：根据视频文本数据，生成验证样本；将验证样本输入训练后的分段线性分类模型，获得模型评估值；若模型评估值不满足预设评估条件，则优化分类后的分段线性分类器模型，获得优化后的分段线性分类模型；将优化后的分段线性分类模型更新为预置分段线性分类模型，返回将训练样本输入预置分段线性分类模型进行训练，获得训练后的分段线性分类模型和分类后的视频文本数据的步骤。

本实施例中，验证样本用来调整模型的参数，监控模型是否发生过拟合，获取模型的评估值，根据模型评估值判断模型是否需要继续进行训练，当得到最优参数，停止模型训练。具体地，从视频文本数据中划分验证样本，将验证样本输入训练后的分段线性分类模型，获得模型评估值，若模型评估值不满足预设评估条件，则优化分类后的分段线性分类器模型，获得优化后的分段线性分类模型，将优化后的分段线性分类模型更新为预置分段线性分类模型，返回将训练样本输入预置分段线性分类模型进行训练，获得训练后的分段线性分类模型和分类后的视频文本数据的步骤，继续模型训练，直到模型评估值满足预设评估条件，则停止模型训练，得到最终训练后的分段线性分类模型。

上述实施例的方案，通过视频文本数据，生成验证样本，将验证样本输入训练后的分段线性分类模型，获得模型评估值，判断模型评估值是否满足预设评估条件，若不满足，则优化分类后的分段线性分类器模型，返回模型训练的步骤，直到模型评估值满足预设评估条件，则停止模型训练，得到最终训练后的分段线性分类模型，这种根据视频文本数据得到验证样本，将验证样本输入训练后的分段线性分类模型，获得模型评估值，通过模型评估值，是否需要优化模型并重新训练的方法，能够通过优化模型，调整模型参数，防止模型过拟合，得到误差最小的分段线性分类器模型，能够减少模型的误差，得到的视频文本数据分类结果更准确，有利于提高视频文本数据的可理解性。

在一个实施例中，如图5所示，将视频文本数据基于自然语言处理进行文本切分和特征提取，获得切分后的视频文本数据和视频文本数据特征包括：

S242，通过数据预处理和短语抽取算法对视频文本数据进行切分，获得切分后的视频文本数据；

S244，对切分后的视频文本数据进行特征提取，获得视频文本数据特征。

本实施例中，自然语言处理中的数据预处理是对文本数据中单词的进行分隔，统计单词出现的频数并排序，对单词进行编码操作，按照单词出现的频数由大到小从0开始依次编码，步长为1，当再次输入文本语句时，即可得到每个单词相对应的编码数。短语抽取指从文本数据中提取典型的、有代表性的短语，期望能够表达文本的关键内容，短语抽取对于文章理解、搜索、分类、聚类都很重要，高质量的关键短语抽取算法，有效助力构建知识图谱，常见的关键短语抽取方法分为有监督算法和无监督算法，整体抽取流程则分为2个步骤，第一步，得到候选短语集合，第二步，对候选短语打分。通过数据预处理和短语抽取算法对视频文本数据进行切分，获得切分后的视频文本数据，对切分后的视频文本数据进行特征提取，获得视频文本数据特征。通过数据预处理和短语抽取算法对视频文本数据进行切分，获得切分后的视频文本数据之后，还包括，对切分后的视频文本数据进行词库建立，获得视频文本词库，获得视频文本词库，能够对视频文本数据按照词库的形式进行存储，有利于视频知识图谱的构建，采用数据预处理和短语抽取算法对视频文本数据进行文本切分、以及对切分后的视频文本数据进行特征提取以及词库建立的方法，能够将无序的、不易理解的视频文本数据转化为有逻辑关系的和组织规则的结构化视频文本数据，有利于视频知识图谱的构建，提高了视频数据的了理解性。

上述实施例的方案，采用数据预处理和短语抽取算法对视频文本数据进行文本切分、以及对切分后的视频文本数据进行特征提取以及词库建立的方法，能够将无序的、不易理解的视频文本数据转化为有逻辑关系的和组织规则的结构化视频文本数据，有利于视频知识图谱的构建，提高了视频数据的了理解性。

在一个实施例中，将视频文本数据的分类结果通过知识抽取和知识加工，构建视频知识图谱包括：将视频文本数据的分类结果通过知识抽取，获得实体和实体关系；将实体和实体关系通过知识加工，获得加工后的实体、加工后的实体关系以及质量评估结果；若质量评估结果小于预设质量评估值，则将加工后的实体和加工后的实体关系赋给视频文本数据的分类结果，返回将视频文本数据的分类结果通过知识抽取，获得实体和实体关系的步骤；若质量评估结果不小于预设质量评估值，则根据加工后的实体和加工后的实体关系，构建视频知识图谱。

本实施例中，将视频文本数据的分类结果通过知识抽取，获得实体和实体关系，具体地，知识抽取包括实体发现、关系发现以及词汇挖掘，实体发现包括实体抽取和实体分类，关系发现包括关系抽取和关系分类，词汇挖掘包括同义词挖掘和缩略词挖掘，视频文本数据的分类结果经过知识抽取，获得实体和实体关系。知识加工包括知识表示、知识归一、质量评估以及质量提升，知识表示包括的模式设计进一步包括概念分层体系定义、概念及属性定义、概念关系定义、以及约束规则定义，知识归一包括实体对齐、属性融合、值规范化以及归一化建模，质量评估包括知识置信度评估以及知识缺失评估，质量提升包括知识补全、知识纠错以及同步更新，将实体和实体关系依次通过知识表示、知识归一、质量评估以及质量提升，获得加工后的实体、加工后的实体关系以及质量评估结果，其中，约束规则定义为混合知识表示，将以往成熟的传统知识表示方法有效结合起来进行运用，包括谓词逻辑、产生式规则和过程式的结合，概念关系定义的基本组成单位是“实体——关系——实体”三元组，概念及属性定义即实体及其相关“属性——值”对，实体间通过关系相互联结，构成网状的知识结构，实现真正意义上的语义检索，概念分层体系定义为根据应用场景建立的，反映某个维度、某个视角、某个粒度对对象的抽象描述，形成的各种互相作用的抽象概念，知识归一是将经过知识表示的视频文本数据进行归一化处理，其中实体对齐指在获得不同来源的新知识之后，需要对其进行整合，以消除矛盾和歧义，属性融合指将相同意义的属性进行合并，比如某些属性可能有多种表达，某个特定称谓也许对应于多个不同的属性等，值规范化指的是将数据和语法进行标准化和规范化，通过实体对齐、属性融合、值规范化后进行归一化建模，即将不同来源的知识映射至同一个向量空间里，通过计算向量相似度实现知识归一化，质量评估是将经过知识归一的视频文本数据进行质量评估后再加入到知识库中，以确保知识库的质量，其中知识置信度评估是指对知识的可信度进行量化，通过舍弃置信度较低的知识，可以保障知识库的质量，知识缺失评估是用覆盖度、准确率、精确率、召回率以及F-measure(F度量值)来作为衡量各阶段质量评估的指标之一，质量提升是将质量评估后数据库中的数据进行更新和优化，根据知识图谱中已有的知识，推理出新的知识或识别出错误的知识，推理出新知识的过程称为知识补全，识别出错误知识并进行纠正的过程称为知识纠错，经过知识补全和知识纠错后生成新的知识的过程即为知识更新。

进一步地，若质量评估结果小于预设质量评估值，则将加工后的实体和加工后的实体关系赋给视频文本数据的分类结果，返回将视频文本数据的分类结果通过知识抽取，获得实体和实体关系的步骤；若质量评估结果不小于预设质量评估值，则根据加工后的实体和加工后的实体关系，构建视频知识图谱。

上述实施例的方案，通过将视频文本数据的分类结果通过知识抽取，获得实体和实体关系，将实体和实体关系通过知识加工，获得加工后的实体、加工后的实体关系以及质量评估结果，根据质量评估结果与预设质量评估值的大小，判断是否需要返回重新知识抽取，若质量评估结果不小于预设质量评估值，则根据加工后的实体和加工后的实体关系，构建视频知识图谱，这种基于视频文本数据的分类结果进行知识抽取和知识加工，能够获得加工后的实体和加工后的实体关系，根据加工后的实体和实体关系，实现了视频文本数据之间关系的相互联结，有助于构成网状的知识图谱，通过质量评估结果判断是否重新进行知识抽取和知识加工，能够优化知识图谱，得到更加准确的视频知识图谱，提高视频数据的可理解性。

在一个实施例中，获取视频文本数据包括：获取视频数据，并提取视频数据中的图像数据、音频数据以及直接文本数据；采用ASR音频识别技术将音频数据转化为音频文本数据；采用OCR识别技术将图像数据中的文本信息转化为图像文本数据；归集音频文本数据、图像文本数据以及直接文本数据，获得视频文本数据。

本实施例中，视频数据往往包括图像数据、音频数据以及直接文本数据，直接文本数据指的是视频的字幕和视频描述等文本，获取视频数据，提取视频数据中的图像数据、音频数据以及直接文本数据，视频数据中的图像数据和音频数据转化为文本数据，能够改善对视频的描述方式，提高视频的可理解性，采用ASR音频识别技术将音频数据转化为音频文本数据，采用OCR识别技术将图像数据中的文本信息转化为图像文本数据，这些需要静转化得到的音频文本数据和图像文本数据为间接文本数据，归集音频文本数据、图像文本数据以及直接文本数据，获得视频文本数据。

上述实施例的方案，通过获取视频数据，并提取视频数据中的图像数据、音频数据以及直接文本数据，采用ASR音频识别技术将音频数据转化为音频文本数据；采用OCR识别技术将图像数据中的文本信息转化为图像文本数据，归集音频文本数据、图像文本数据以及直接文本数据，获得视频文本数据，这种将提取视频内容中的图像数据、音频数据以及直接文本数据，并通过OCR技术转化为图像文本数据，通过ASR技术转化为音频文本数据的方法，能够改善对视频的描述方式，提高视频的可理解性。

为详细说明本方案中视频数据处理方法及效果，下面以一个最详细实施例进行说明：

如图6所示为视频数据处理的流程具体包括以下内容：获取视频数据，并提取视频数据中的图像数据、音频数据以及直接文本数据，采用ASR音频识别技术将音频数据转化为音频文本数据，采用OCR识别技术将图像数据中的文本信息转化为图像文本数据，归集音频文本数据、图像文本数据以及直接文本数据，获得视频文本数据，根据视频文本数据，生成训练样本，将训练样本输入预置分段线性分类模型进行训练，获得训练后的分段线性分类模型和分类后的视频文本数据，通过数据预处理和短语抽取算法对分类后的视频文本数据进行切分，获得切分后的视频文本数据，对切分后的视频文本数据进行特征提取，获得视频文本数据特征，根据视频文本数据，生成验证样本，将验证样本输入训练后的分段线性分类模型，获得模型评估值，若模型评估值不满足预设评估条件，则优化分类后的分段线性分类器模型，获得优化后的分段线性分类模型，将优化后的分段线性分类模型更新为预置分段线性分类模型，返回将训练样本输入预置分段线性分类模型进行训练，获得训练后的分段线性分类模型和分类后的视频文本数据的步骤，通过关联规则算法，计算视频文本数据的支持度和置信度，根据支持度和置信度构建支持向量机模型，将视频文本数据特征输入支持向量机模型，获得视频文本数据的分类结果。

将视频文本数据的分类结果通过知识抽取，获得实体和实体关系，将实体和实体关系通过知识加工，获得加工后的实体、加工后的实体关系以及质量评估结果，若质量评估结果小于预设质量评估值，则将加工后的实体和加工后的实体关系赋给视频文本数据的分类结果，返回将视频文本数据的分类结果通过知识抽取，获得实体和实体关系的步骤，若质量评估结果不小于预设质量评估值，则将加工后的实体和加工后的实体关系通过知识存储、知识索引以及知识查询后，进行智能问答和知识持续优化服务，经知识优化服务后，完成视频知识图谱构建，如图7所示为视频知识图谱构建的流程示意图。

上述视频数据处理方法，通过获取视频文本数据和视频文本数据特征，通过关联规则算法计算视频文本数据的支持度和置信度，构建支持向量机模型，充分利用了视频文本数据的关联规则，将视频文本数据特征输入支持向量机模型，获得视频文本数据的分类结果，能够提高支持向量机模型的分类精度，提高视频数据的可理解性，根据视频文本数据的分类结果构建知识图谱的方法能够将视频文本数据之间联系起来，进一步提高视频数据的可理解性。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的视频数据处理方法的视频数据处理装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个视频数据处理装置实施例中的具体限定可以参见上文中对于视频数据处理方法的限定，在此不再赘述。

在一个实施例中，如图8所示，提供了一种视频数据处理装置100，包括：数据获取模块120、模型构建模块140、分类结果获取模块160和知识图谱构建模块180，其中：

数据获取模块120，用于获取视频文本数据和视频文本数据特征。

模型构建模块140，用于通过关联规则算法，计算视频文本数据的支持度和置信度，根据支持度和置信度构建支持向量机模型。

分类结果获取模块160，用于将视频文本数据特征输入支持向量机模型，获得视频文本数据的分类结果。

知识图谱构建模块180，用于将视频文本数据的分类结果通过知识抽取和知识加工，构建视频知识图谱。

上述视频数据处理装置中，通过获取视频文本数据和视频文本数据特征，通过关联规则算法计算视频文本数据的支持度和置信度，构建支持向量机模型，充分利用了视频文本数据的关联规则，将视频文本数据特征输入支持向量机模型，获得视频文本数据的分类结果，能够提高支持向量机模型的分类精度，提高视频数据的可理解性，根据视频文本数据的分类结果构建知识图谱的方法能够将视频文本数据之间联系起来，进一步提高视频数据的可理解性。

在一个实施例中，数据获取模块120还用于获取视频文本数据；将视频文本数据基于自然语言处理进行文本切分和特征提取，获得切分后的视频文本数据和视频文本数据特征。

在一个实施例中，数据获取模块120还用于根据视频文本数据，生成训练样本；将训练样本输入预置分段线性分类模型进行训练，获得训练后的分段线性分类模型和分类后的视频文本数据；将分类后的视频文本数据通过自然语言处理进行文本切分和特征提取，获得切分后的视频文本数据和视频文本数据特征。

在一个实施例中，数据获取模块120还用于根据视频文本数据，生成验证样本；将验证样本输入训练后的分段线性分类模型，获得模型评估值；若模型评估值不满足预设评估条件，则优化分类后的分段线性分类器模型，获得优化后的分段线性分类模型；将优化后的分段线性分类模型更新为预置分段线性分类模型，返回将训练样本输入预置分段线性分类模型进行训练，获得训练后的分段线性分类模型和分类后的视频文本数据的步骤。

在一个实施例中，数据获取模块120还用于通过数据预处理和短语抽取算法对视频文本数据进行切分，获得切分后的视频文本数据；对切分后的视频文本数据进行特征提取，获得视频文本数据特征。

在一个实施例中，知识图谱构建模块180还用于将视频文本数据的分类结果通过知识抽取，获得实体和实体关系；将实体和实体关系通过知识加工，获得加工后的实体、加工后的实体关系以及质量评估结果；若质量评估结果小于预设质量评估值，则将加工后的实体和加工后的实体关系赋给视频文本数据的分类结果，返回将视频文本数据的分类结果通过知识抽取，获得实体和实体关系的步骤；若质量评估结果不小于预设质量评估值，则根据加工后的实体和加工后的实体关系，构建视频知识图谱。

在一个实施例中，数据获取模块120还用于获取视频数据，并提取视频数据中的图像数据、音频数据以及直接文本数据；采用ASR音频识别技术将音频数据转化为音频文本数据；采用OCR识别技术将图像数据中的文本信息转化为图像文本数据；归集音频文本数据、图像文本数据以及直接文本数据，获得视频文本数据。

上述视频数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图9所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output，简称I/O)和通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储视频文本数据、视频文本数据特征数据、视频文本数据的支持度、置信度、分类结果和视频知识图谱。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种视频数据处理方法。

本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取视频文本数据和视频文本数据特征；

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

获取视频文本数据；将视频文本数据基于自然语言处理进行文本切分和特征提取，获得切分后的视频文本数据和视频文本数据特征。

根据视频文本数据，生成训练样本；将训练样本输入预置分段线性分类模型进行训练，获得训练后的分段线性分类模型和分类后的视频文本数据；将分类后的视频文本数据通过自然语言处理进行文本切分和特征提取，获得切分后的视频文本数据和视频文本数据特征。

根据视频文本数据，生成验证样本；将验证样本输入训练后的分段线性分类模型，获得模型评估值；若模型评估值不满足预设评估条件，则优化分类后的分段线性分类器模型，获得优化后的分段线性分类模型；将优化后的分段线性分类模型更新为预置分段线性分类模型，返回将训练样本输入预置分段线性分类模型进行训练，获得训练后的分段线性分类模型和分类后的视频文本数据的步骤。

通过数据预处理和短语抽取算法对视频文本数据进行切分，获得切分后的视频文本数据；对切分后的视频文本数据进行特征提取，获得视频文本数据特征。

将视频文本数据的分类结果通过知识抽取，获得实体和实体关系；将实体和实体关系通过知识加工，获得加工后的实体、加工后的实体关系以及质量评估结果；若质量评估结果小于预设质量评估值，则将加工后的实体和加工后的实体关系赋给视频文本数据的分类结果，返回将视频文本数据的分类结果通过知识抽取，获得实体和实体关系的步骤；若质量评估结果不小于预设质量评估值，则根据加工后的实体和加工后的实体关系，构建视频知识图谱。

获取视频数据，并提取视频数据中的图像数据、音频数据以及直接文本数据；采用ASR音频识别技术将音频数据转化为音频文本数据；采用OCR识别技术将图像数据中的文本信息转化为图像文本数据；归集音频文本数据、图像文本数据以及直接文本数据，获得视频文本数据。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取视频文本数据和视频文本数据特征；

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

获取视频文本数据和视频文本数据特征；

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种视频数据处理方法，其特征在于，所述方法包括：

获取视频文本数据和视频文本数据特征；

通过关联规则算法，计算所述视频文本数据的支持度和置信度，根据所述支持度和所述置信度构建支持向量机模型；

将所述视频文本数据特征输入所述支持向量机模型，获得所述视频文本数据的分类结果；

将所述视频文本数据的分类结果通过知识抽取和知识加工，构建视频知识图谱。

2.根据权利要求1所述的方法，其特征在于，所述获取视频文本数据和视频文本数据特征包括：

获取视频文本数据；

将所述视频文本数据基于自然语言处理进行文本切分和特征提取，获得切分后的视频文本数据和视频文本数据特征。

3.根据权利要求2所述的视频数据处理方法，其特征在于，所述将所述视频文本数据基于自然语言处理进行文本切分和特征提取，获得切分后的视频文本数据和视频文本数据特征之前，还包括：

根据所述视频文本数据，生成训练样本；

将所述训练样本输入预置分段线性分类模型进行训练，获得训练后的分段线性分类模型和分类后的视频文本数据；

将所述分类后的视频文本数据通过自然语言处理进行文本切分和特征提取，获得切分后的视频文本数据和视频文本数据特征。

4.根据权利要求3所述的视频数据处理方法，其特征在于，所述将所述分类后的视频文本数据通过自然语言处理进行文本切分和特征提取，获得切分后的视频文本数据和视频文本数据特征之后，还包括：

根据所述视频文本数据，生成验证样本；

将所述验证样本输入所述训练后的分段线性分类模型，获得模型评估值；

若所述模型评估值不满足预设评估条件，则优化所述分类后的分段线性分类器模型，获得优化后的分段线性分类模型；

将所述优化后的分段线性分类模型更新为所述预置分段线性分类模型，返回所述将所述训练样本输入预置分段线性分类模型进行训练，获得训练后的分段线性分类模型和分类后的视频文本数据的步骤。

5.根据权利要求2所述的视频数据处理方法，其特征在于，所述将所述视频文本数据基于自然语言处理进行文本切分和特征提取，获得切分后的视频文本数据和视频文本数据特征包括：

对所述切分后的视频文本数据进行特征提取，获得视频文本数据特征。

6.根据权利要求1所述的视频数据处理方法，其特征在于，所述将所述视频文本数据的分类结果通过知识抽取和知识加工，构建视频知识图谱包括：

将所述视频文本数据的分类结果通过知识抽取，获得实体和实体关系；

将所述实体和所述实体关系通过知识加工，获得加工后的实体、加工后的实体关系以及质量评估结果；

若所述质量评估结果小于预设质量评估值，则将所述加工后的实体和所述加工后的实体关系赋给所述视频文本数据的分类结果，返回所述将所述视频文本数据的分类结果通过知识抽取，获得实体和实体关系的步骤；

若所述质量评估结果不小于预设质量评估值，则根据所述加工后的实体和所述加工后的实体关系，构建视频知识图谱。

7.根据权利要求1所述的视频数据处理方法，其特征在于，所述获取视频文本数据包括：

获取视频数据，并提取所述视频数据中的图像数据、音频数据以及直接文本数据；

采用ASR音频识别技术将所述音频数据转化为音频文本数据；

采用OCR识别技术将所述图像数据中的文本信息转化为图像文本数据；

归集所述音频文本数据、所述图像文本数据以及所述直接文本数据，获得视频文本数据。

8.一种视频数据处理装置，其特征在于，所述装置包括：

模型构建模块，用于通过关联规则算法，计算所述视频文本数据的支持度和置信度，根据所述支持度和所述置信度构建支持向量机模型；

分类结果获取模块，用于将所述视频文本数据特征输入所述支持向量机模型，获得所述视频文本数据的分类结果；

知识图谱构建模块，用于将所述视频文本数据的分类结果通过知识抽取和知识加工，构建视频知识图谱。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。