CN114328832A

CN114328832A - 视频内容识别方法、装置、设备及存储介质

Info

Publication number: CN114328832A
Application number: CN202111604978.5A
Authority: CN
Inventors: 桑海岩; 邓慧; 廉士国; 刘�文; 孙泽明
Original assignee: China United Network Communications Group Co Ltd; Unicom Digital Technology Co Ltd
Current assignee: China United Network Communications Group Co Ltd; Unicom Digital Technology Co Ltd
Priority date: 2021-12-24
Filing date: 2021-12-24
Publication date: 2022-04-12

Abstract

本公开提供一种视频内容识别方法、装置、设备及存储介质。该方法包括：响应于接收到的待审核视频，分别获取待审核视频的音频文本数据和视频文本数据；基于预设的教学用语和学科关键词库，确定音频文本数据对应各个学科的音频匹配分数组；基于预设的学科知识点文本库，确定视频文本数据对应各个学科的视频匹配分数组；基于音频匹配分数组和视频匹配分数组，确定待审核视频对应的学科分类。本公开通过分别对待审复核视频的音频和视频进行分析，并分别通过关键词和文本进行匹配，有效保证识别的学科的准确性，提升活动测试结果的可靠性和可用性。

Description

视频内容识别方法、装置、设备及存储介质

技术领域

本公开涉及视频处理技术领域，尤其涉及一种视频内容识别方法、装置、设备及存储介质。

背景技术

随着互联网应用的发展，网络视频用户规模稳步提升，越来越多人通过上传到网上平台的教育类视频进行教育培训和知识学习。用户可以根据自己需求，选择对应学科或者种类的视频进行学习；上传者也可以选择上传不同学科的教育类视频，而网上平台需要对上传者上传的视频类型进行针对性自动识别，以确定视频是否包含学科类教育内容，及判别具体属于哪一学科。

现有技术中，除人工设置标签外，缺乏有效识别上传的视频所属学科分类的方法，识别准确性低，使用不便。

发明内容

本公开提供了一种视频内容识别方法、装置、设备及存储介质，以提升活动测试结果的可靠性和可用性。

第一方面，本公开提供了一种视频内容识别方法，视频内容识别方法包括：

响应于接收到的待审核视频，分别获取待审核视频的音频文本数据和视频文本数据；

基于预设的教学用语和学科关键词库，确定音频文本数据对应各个学科的音频匹配分数组，音频匹配分数组用于表示音频文本数据与各个学科间的匹配度分数；

基于预设的学科知识点文本库，确定视频文本数据对应各个学科的视频匹配分数组，视频匹配分数组用于表示视频文本数据与各个学科间的匹配度分数；

基于音频匹配分数组和视频匹配分数组，确定待审核视频对应的学科分类。

可选地，基于预设的教学用语和学科关键词库，确定音频文本数据对应各个学科的音频匹配分数组，包括：将音频文本数据中的关键词与教学用语和学科关键词库中的关键词相匹配，确定音频文本数据中包含的每一个学科的关键词的数量；基于每一个学科的关键词的数量与音频文本数据中的关键词总数，确定音频匹配分数组中每个学科对应的音频匹配分数。

可选地，确定音频文本数据中包含的每一个学科的关键词的数量，包括：当同一个音频文本数据中的关键词与至少两个学科的关键词相匹配时，则确定至少两个学科的关键词数量都分别增加一个；相应地，基于每一个学科的关键词的数量与音频文本数据中的关键词总数，确定音频匹配分数组中每个学科对应的音频匹配分数，包括：当每一个学科的关键词的数量之和大于音频文本数据中的关键词总数时，基于每一个学科的关键词的数量与每一个学科的关键词数量之和，确定音频匹配分数组中每个学科对应的音频匹配分数。

可选地，基于预设的学科知识点文本库，确定视频文本数据对应各个学科的视频匹配分数组，包括：基于语句分割算法，将视频文本数据分割为知识点语句；基于文本匹配算法，确定学科知识点文本库中与知识点语句相似度最高的文本所属学科；确定视频文本数据中包含的每一个学科的相似度最高的文本的数量；基于每一个学科的相似度最高的文本的数量和知识点语句的数量，确定视频匹配分数组中每一个学科对应的视频匹配分数。

可选地，分别获取待审核视频的音频文本数据和视频文本数据，包括：基于语音识别算法，获取待审核视频的音频对应的文本内容为音频文本数据；基于图像文字识别算法，获取待审核视频的图像中包含的文本内容为视频文本数据。

可选地，基于图像文字识别算法，获取待审核视频的图像中包含的文本内容为视频文本数据，包括：获取待审核视频的每一视频帧的图像内容；通过图像对比算法，确定图像内容差异达到设定阈值的视频帧为关键帧；基于图像文字识别算法，获取关键帧中包含的文字内容为视频文本数据。

可选地，预设的教学用语和学科关键词库通过如下方式得到：获取标准教学用语和学科用语数据，确定标准教学用语和学科用语的关键词；基于AC字典树算法和关键词，建立教学用语和学科关键词库。

可选地，基于音频匹配分数组和视频匹配分数组，确定待审核视频对应的学科分类，包括：基于音频匹配分数组和视频匹配分数组，确定每一个学科的匹配分数；确定匹配分数最高的学科，为待审核视频的学科分类。

第二方面，本公开提供了一种视频内容识别装置，该视频内容识别装置包括：

获取模块，用于响应于接收到的待审核视频，分别获取待审核视频的音频文本数据和视频文本数据；

第一确定模块，用于基于预设的教学用语和学科关键词库，确定音频文本数据对应各个学科的音频匹配分数组，音频匹配分数组用于表示音频文本数据与各个学科间的匹配度分数；

第二确定模块，用于基于预设的学科知识点文本库，确定视频文本数据对应各个学科的视频匹配分数组，视频匹配分数组用于表示视频文本数据与各个学科间的匹配度分数；

处理模块，用于基于音频匹配分数组和视频匹配分数组，确定待审核视频对应的学科分类。

可选地，第一确定模块具体用于，将音频文本数据中的关键词与教学用语和学科关键词库中的关键词相匹配，确定音频文本数据中包含的每一个学科的关键词的数量；基于每一个学科的关键词的数量与音频文本数据中的关键词总数，确定音频匹配分数组中每个学科对应的音频匹配分数。

可选地，第一确定模块具体用于，当同一个音频文本数据中的关键词与至少两个学科的关键词相匹配时，则确定至少两个学科的关键词数量都分别增加一个；相应地，基于每一个学科的关键词的数量与音频文本数据中的关键词总数，确定音频匹配分数组中每个学科对应的音频匹配分数，包括：当每一个学科的关键词的数量之和大于音频文本数据中的关键词总数时，基于每一个学科的关键词的数量与每一个学科的关键词数量之和，确定音频匹配分数组中每个学科对应的音频匹配分数。

可选地，第二确定模块具体用于，基于语句分割算法，将视频文本数据分割为知识点语句；基于文本匹配算法，确定学科知识点文本库中与知识点语句相似度最高的文本所属学科；确定视频文本数据中包含的每一个学科的相似度最高的文本的数量；基于每一个学科的相似度最高的文本的数量和知识点语句的数量，确定视频匹配分数组中每一个学科对应的视频匹配分数。

可选地，获取模块具体用于，基于语音识别算法，获取待审核视频的音频对应的文本内容为音频文本数据；基于图像文字识别算法，获取待审核视频的图像中包含的文本内容为视频文本数据。

可选地，获取模块具体用于，获取待审核视频的每一视频帧的图像内容；通过图像对比算法，确定图像内容差异达到设定阈值的视频帧为关键帧；基于图像文字识别算法，获取关键帧中包含的文字内容为视频文本数据。

可选地，第一确定模块具体用于，如下方式得到预设的教学用语和学科关键词库：获取标准教学用语和学科用语数据，确定标准教学用语和学科用语的关键词；基于AC字典树算法和关键词，建立教学用语和学科关键词库。

可选地，处理模块具体用于，基于音频匹配分数组和视频匹配分数组，确定每一个学科的匹配分数；确定匹配分数最高的学科，为待审核视频的学科分类。

第三方面，本公开还提供了一种电子设备，该电子设备包括：

至少一个处理器；

以及与至少一个处理器通信连接的存储器；

其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使电子设备执行如本公开第一方面中任一实施例对应的视频内容识别方法。

第四方面，本公开还提供了一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，计算机执行指令被处理器执行时用于实现如本公开第一方面任一的视频内容识别方法。

本公开提供的视频内容识别方法、装置、设备及存储介质，通过响应于接收到的待审核视频，分别获取待审核视频的音频文本数据和视频文本数据；然后基于预设的教学用语和学科关键词库，确定音频文本数据对应各个学科的音频匹配分数组，并基于预设的学科知识点文本库，确定视频文本数据对应各个学科的视频匹配分数组，再根据音频匹配分数组和视频匹配分数组，确定待审核视频对应的学科分类。通过分别对待审复核视频的音频和视频进行分析，并分别通过关键词和文本进行匹配，有效保证识别的学科的准确性，通过将音频文本数据和视频文本数据得到的分析结果结合，最大限度保证自动化识别待审核视频对应学科的准确性和可靠性，提高识别效率，方便使用。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1为本公开实施例提供的视频内容识别方法的一种应用场景图；

图2为本公开一个实施例提供的视频内容识别方法的流程图；

图3为本公开又一个实施例提供的视频内容识别方法的流程图；

图4为本公开又一个实施例提供的视频内容识别装置的结构示意图；

图5为本公开又一个实施例提供的电子设备的结构示意图。

通过上述附图，已示出本公开明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围，而是通过参考特定实施例为本领域技术人员说明本公开的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

下面以具体地实施例对本公开的技术方案以及本公开的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本公开的实施例进行描述。

随着互联网技术的发展，我国网络视频用户规模稳步提升，通过网络视频进行学科教育培训越来越受到重视和应用。现有技术中，制作方用户可以将学科教育培训视频上传到网上平台，学习方用户可以根据需要学习的学科，选择对应学科的教育类视频进行学习。因此，对于网上平台而言，对大量的线上视频或直播内容进行学科分类识别，并设置相对应的标签，以方便学习方用户筛选，极为重要。但现有技术中并未有针对性的自动化识别网上平台上传的视频所属学科的方法，只能通过人工添加标签，或通过设备简单分类，识别准确性低，使用不便。

为了解决上述问题，本公开实施例提供一种视频内容识别方法，基于上传的待审核视频的音频和视频内容，分别与学科和知识点的关键词和文本数据库进行匹配，并将匹配结果结合，以确定待审核视频的对应学科，由此，能够从最大限度保证确定待审核视频所属学科的准确性。

下面对本公开实施例的应用场景进行解释：

图1为本公开实施例提供的视频内容识别方法的一种应用场景图。如图1所示，网上平台服务器100接收到制作方用户110上传的待审核视频，通过审核后添加相对应的学科标签，完成视频内容识别流程后，提供给学习方用户120进行学习。

需说明的是，图1所示场景中制作方用户、网上平台服务器和学习方用户仅以一个为例进行示例说明，但本公开不以此为限制，也就是说，制作方用户、网上平台服务器和学习方用户的个数可以是任意的。

以下通过具体实施例详细说明本公开提供的视频内容识别方法。需要说明的是，下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。

图2为本公开一个实施例提供的视频内容识别方法的流程图。如图2所示，包括以下步骤：

步骤S201、响应于接收到的待审核视频，分别获取待审核视频的音频文本数据和视频文本数据。

具体的，本方法的执行主体可以是服务器，也可以具有数据处理能力的用户终端，在本实施例中，以服务器为执行主体进行描述。

当服务器接收到用户上传的待审核视频时，会先对待审核视频进行处理，以分别提取其包含的音频数据和由各帧图像组成的视频数据，进而获取音频数据中包含的文本相关内容(即音频文本数据)和视频数据中包含的文本相关内容(即视频文本数据)。

进一步地，从音频数据中提取音频文本数据可以采用现有的语音识别算法实现；从视频数据中提取视频文本数据可以采用现有的图像视频算法，提取包含文本的视频帧中的文本，得到视频文本数据。

步骤S202、基于预设的教学用语和学科关键词库，确定音频文本数据对应各个学科的音频匹配分数组。

其中，音频匹配分数组用于表示音频文本数据与各个学科间的匹配度分数。

具体的，由于在学科培训中，除了不同学科互不相同的关键词(如“力学”、“函数”等)，还有各个学科通用的教学用语，如“课程回顾”、“本题”，而根据教学用语，可以确定学科的细分标签，如确定具体属于小学阶段的“数学”学科还是大学阶段的“高等函数”学科，因为这两者在具体教学用语上会存在明显区别。

因此，在对音频文本数据进行视频时，还同时对其中包含的学科关键词和教学用语关键词进行匹配度分析，能够最大限度地准确视频待审核视频的所属细分学科，而不仅仅是进行简单的学科大类识别，由此，有效保证识别的准确性。

进一步地，识别结果会保存为不同学科和教学用语组成的多个分数组，需要依次确定对应的分数。

示例性的，音频文本数据的识别结果包含有：“老师同学们本节课程化学金金反复加实验结果物理物理加实验溶液金溶液实验结果金溶液化学铜水原电池硫硫酸溶液铜铜金氢铜金氢硫硫酸氢负极铜正极说明硫硫酸原电池溶解铜锌硫氧化化学原电池铜电子锌离子氢氢离子离子电子氢铜电极电极反应电子氢氢离子离子铜氢氢离子离子电子氢电子经过锌离子阳离子离子正极硫硫酸阴离子离子负极原电池原电池原电池金金原电池电解电解质原电池电极电解电解质溶液原电池原电池锌硫硫酸氧同学们氧化硫硫酸原电池原电池氧氧化”，

其中，关键词共有163个，教学用语关键词4个，学科类关键词159个(分别为化学类143个，物理类9个，语文类5个，数学类2个)，由此，可以具体计算每个学科所对应的匹配分数。

一些实施例中，每个学科的匹配度分数根据音频文本数据中包含的该学科的关键词数量与总关键词数量根据设定算法确定，如求比值、百分比或求模等。

一些实施例中，当语音文本数据中包含的关键词中不含特定学科的关键词时，不计算该特定学科的音频匹配分数。以减小运算量，提高处理效率。

步骤S203、基于预设的学科知识点文本库，确定视频文本数据对应各个学科的视频匹配分数组。

其中，视频匹配分数组用于表示视频文本数据与各个学科间的匹配度分数。

具体的，由于视频中通常包含的视频文本数据通常为具体的知识点句子，而非单个关键词，且如果单纯使用学科关键词识别视频文本数据中的关键词，其与音频文本数据中的重复度较高，即使将视频文本数据中的识别结果与音频文本数据中的识别结果结合，也无法显著提高识别准确性；而通过基于知识点文本库与视频文本数据进行匹配，其匹配的数据库不同，识别结果也会与学科关键词库不同，将基于知识点文本库的识别结果与基于学科关键词和教学用语关键词库的识别结果结合，有效提高识别准确性。

具体的，通过学科知识点文本库识别的结果也为包含多个学科的具体匹配度分数，且每个学科的匹配度分数根据视频文本数据中包含的该学科的知识点数量与知识点总数量根据设定算法确定。

进一步地，通过视频文本数据识别与其匹配的知识点，采用单句匹配的方式，如“杠杆定律需要一个支点”为一个单句，而非将“杠杆定律”和“支点”拆成两句；且视频文本数据拆分为单句可以基于设定的文本处理规则实现，如将包含换行符的句子分拆为不同单句。

步骤S204、基于音频匹配分数组和视频匹配分数组，确定待审核视频对应的学科分类。

具体的，根据音频匹配分数组中各学科的匹配分数与视频匹配分数组中各学科的匹配分数之和，确定匹配分数最靠的学科，为待审核视频对应的学科分类。

通过音频匹配分数组与视频匹配分数组的学科匹配分数结合，能够有效避免其中一个匹配分数组中各学科匹配分数接近时，导致最终选择的学科与实际对应学科之前不符的情况。

示例性地，通过音频匹配分数组确定的学科匹配分数分别为高中数学(0.31)、高中物理(0.308)、教学用语(0.582)，但通过视频匹配分数组确定的学科匹配分数为高中物理(0.448)、初中物理(0.452)、高中数学(0.1)。若通过音频匹配分数组单独确定，会认为待审核视频对应的学科为高中数学，单独通过视频匹配分数组确定，会认为待审核视频对应学科为初中物理，但由于这些学科之间有大量知识点重合，结合音频匹配分数组和视频匹配分数组之后，才能确定该待审核视频的学科分类为高中物理。

本公开实施例提供的视频内容识别方法，通过响应于接收到的待审核视频，分别获取待审核视频的音频文本数据和视频文本数据；然后基于预设的教学用语和学科关键词库，确定音频文本数据对应各个学科的音频匹配分数组，并基于预设的学科知识点文本库，确定视频文本数据对应各个学科的视频匹配分数组，再根据音频匹配分数组和视频匹配分数组，确定待审核视频对应的学科分类。通过分别对待审复核视频的音频和视频进行分析，并分别通过关键词和文本进行匹配，有效保证识别的学科的准确性，通过将音频文本数据和视频文本数据得到的分析结果结合，最大限度保证自动化识别待审核视频对应学科的准确性和可靠性，提高识别效率，方便使用。

图3为本公开提供的一个视频内容识别方法的流程图。如图3所示，本实施例提供的视频内容识别方法包括以下步骤：

步骤S301、响应于接收到的待审核视频，基于语音识别算法，获取待审核视频的音频对应的文本内容为音频文本数据。

一些实施例中，网上平台服务器在接收到待审核视频后，会自动提取其中的音频数据，并保存到缓存中，以通过语音识别算法，提取其中的音频文本数据，然后将音频文本数据保存在缓存中，以便进一步处理；也可以直接通过语音识别算法提取待审核视频数据中的音频文本数据，再直接将音频文本数据保存在缓存中。

其中，语音识别算法可以采用ASR(英文全称为Automatic Speech Recognition，自动语音识别)算法进行识别。

步骤S302、基于图像文字识别算法，获取待审核视频的图像中包含的文本内容为视频文本数据。

一些实施例中，网上平台服务器在接收到待审核视频后，会提取待审核视频中不包含音频的视频数据，并保存到缓存中，以通过图像文字识别算法，提取其中的视频文本数据；也可以通过图像文字识别算法直接提取待审核视频中的视频文本数据，并保存到缓存中。

其中，图像文字识别算法可以采用OCR(英文全称为Optical CharacterRecognition，光学字符识别)算法进行识别。

具体的，以图像识别为技术背景，在保证一定清晰度的情况下，可以通过OCR技术实现对常用汉字字符较为准确的识别；而且在学科教育培训类的视频中，学科类知识点一般会在PPT讲义中进行展示，故而对图片光学符号识别的文本采用知识点的检索方法，即能确定视频文本数据中包含的信息和对应的学科。

步骤S303、将音频文本数据中的关键词与教学用语和学科关键词库中的关键词相匹配，确定音频文本数据中包含的每一个学科的关键词的数量。

具体的，由于现阶段语音识别的效果及准确率受各种因素影响，尤其大部分视频的背景噪声较嘈杂，识别后的长文本可能由于相似发音识别错误，导致语义不够通顺，故而对语音识别的音频文本数据采用关键词匹配的方法，与教学用语和学科关键词库中的关键词进行逐一匹配。

当教学用语和学科关键词库中存在与音频文本数据中相同的关键词时，即认为匹配成功，并确认对应学科或教学用语的关键词数量增加一个。

通过对音频文本数据中的每个关键词进行逐一匹配，从而能够确定音频文本数据中包含的每一个学科的关键词的数量。

进一步地，预设的教学用语和学科关键词库通过如下方式得到：获取标准教学用语和学科用语数据，确定标准教学用语和学科用语的关键词；基于AC字典树算法和关键词，建立教学用语和学科关键词库。

通过直接获取现有的标准教学用语和学科用语数据，减少对关键词库进行训练的成本，提高使用效率。通过AC字典树算法，能够有效保证关键词的查找速度，而且无须对关键词作进一步分词处理，避免分词不准确导致匹配准确率下降的问题。

示例性地，教学用语关键词包括：“同学们，老师，本节课程”等，数学用语关键词包括“代数方程，几何，函数，矩阵”等，英语用语关键词包括“语态，助动词，被动态”等。

一些实施例中，教学用语和学科关键词库可以通过倒排索引算法建立，并每个学科相关的知识点添加到关键词库中。其中，关键词库的知识点可以在实际使用中进行迭代，将更新的数据直接添加到关键词库中，且无需训练。

进一步地，当同一个音频文本数据中的关键词与至少两个学科的关键词相匹配时，则确定至少两个学科的关键词数量都分别增加一个；相应地，在确定音频匹配分数组中每个学科对应的音频匹配分数时，当每一个学科的关键词的数量之和大于音频文本数据中的关键词总数时，基于每一个学科的关键词的数量与每一个学科的关键词数量之和，确定音频匹配分数组中每个学科对应的音频匹配分数。

示例性的，音频文本数据中的关键词包括“春秋战国秦汉时期”，而“春秋战国”和“秦汉时期”既是语文用语，也是历史用语，则分别会计算语文学科的关键词数量和历史学科的关键词数量各增加两个。相对应的，若音频文本数据中的关键词总数为100个，而各个学科的关键词数分别为语文50个、历史50个、教学用语20个，则计算中，基于关键词数量之和为120个进行计算，而不是基于关键词总数100个进行计算。

一些实施例中，教学用语关键词的音频匹配分数在计算时不考虑学科关键词总数，只要音频文本数据中包含有教学用语关键词，就记教学用语关键词的音频匹配分数为1，否则为0，此时，通过教学用语关键词以判断待审核视频是否为学科教育类的视频。

步骤S304、基于每一个学科的关键词的数量与音频文本数据中的关键词总数，确定音频匹配分数组中每个学科对应的音频匹配分数。

具体的，可以基于每个学科的关键词的数量与关键词总数的比值确定音频匹配分数，也可以基于百分比计算。

示例性地，某音频文本数据包含关键词共163个，其中教学用语4个，学科类关键词159个，包括化学143个，物理9个，语文5个，数学2个。且通过学科类为关键词与总学科类词数的比值计算学科匹配分数，例如化学143/159＝0.9，则有各学科的匹配分数化学0.9、物理0.057、语文0.03、数学0.013，而教学用语的匹配分数为1(即存在该音频文本数据中存在至少一个教学用语)，进而确定对应的音频匹配分数组。

一些实施例中，可以将音频匹配分数组中音频匹配分数小于或等于设定值的学科的音频匹配分数取为0。由此，能够减小计算量。如上述示例中，将小于或等于0.3的学科的音频匹配分数记为0，则最终的音频匹配分数组为：教学用语1、化学0.9、物理0.057。

步骤S305、基于语句分割算法，将视频文本数据分割为知识点语句。

具体的，通过将视频文本数据分割为知识点语句，而非关键词，能够有效避免关键词模糊的学科间的识别困难问题，如历史和政治的学科关键词在日常谈话中较为普遍，相比数学，物理，化学等学科，缺乏极具代表的词汇，需要一些长文本描述才能区分是教学内容还是普通的史学讲解内容。

其中，语句分割算法可以采用基于换行符或者句末标点的分割算法，也可以采用通过机器学习或者神经网络训练的语句分割算法。如在视频帧中以多个段落形式呈现的文本，就可以基于段落或者段落中的句末标点分割为不同句子。

步骤S306、基于文本匹配算法，确定学科知识点文本库中与知识点语句相似度最高的文本所属学科。

具体的，通过设置学科知识点文本库，有助于避免一些相似学科，例如历史和语文，数学和物理的关键词可能存在的大量重复。

进一步地，确定学科知识点文本库中的语句与知识点语句相似度可以基于知识点语句中每一个关键词计算的重合度，如学科知识点文本库中的语句为“直角三角形的两条直角边的平方和等于斜边的平方”，而视频文本数据中的知识点语句为“直角三角形的两条直角边的平方和等于第三条边的平方”，其中关键词的总数为7(句中通过空格分开的内容即为各关键词)，其中有6个与关键词与知识点文本库中的语句相同，仅有“第三条边”和“斜边”不同，则可以得到相似度为6/7＝85.7％。

步骤S307、确定视频文本数据中包含的每一个学科的相似度最高的文本的数量。

具体的，由于不同学科的知识点互不相同，因此，每一个知识点语句与学科知识点文本库中一般只有一个匹配相似度最高的文本，因而能够确定相似度最高的学科。

一些实施例中，相似度包含设定阈值，当知识点语句未找到相似度大于或等于设定阈值的学科知识点文本库中的语句时，可以认为该知识点语句并非教学培训相关语句，不计算该语句的对应学科，如“本期作业如下”、“谢谢”等语句。

步骤S308、基于每一个学科的相似度最高的文本的数量和知识点语句的数量，确定视频匹配分数组中每一个学科对应的视频匹配分数。

具体的，可以基于每一个学科的相似度最高的文本的数量和知识点语句的数量的比值，确定每个学科的对应的视频匹配分数。

示例性地，某视频文本数据中，确定的每个知识点语句对应的视频匹配分数分别为高中化学0.2、初中化学0.1、数学0.05、(不含小于0.05的学科)。

一些实施例中，视频匹配分数组中也可以将教学用语的语句纳入匹配对象，此时，学科知识点文本库中同样包含教学用语的语句，而教学用语的视频匹配分数同样按包含教学用语则分数为1，不包含则分数为0，进行计算。

步骤S309、基于音频匹配分数组和视频匹配分数组，确定每一个学科的匹配分数。

将音频匹配分数组和视频匹配分数组中每一个学科的分数依次求和，既可以得到最终的每个学科的匹配分数。

一些实施例中，当各个学科的匹配分数较高，但教学用语的分数为0时，应当判断为该待审核视频为非学科类教育培训视频。如最终学科匹配分数为：教学用语0、化学1.18、物理0.02、数学0.05，此时虽然由化学的匹配分数确认该学科应当为化学类教育培训视频，但由于教学用语为0，因此，仍应该认为其为非学科类教育培训视频。此时，该待审核视频可以为某学科类科普的短视频，其关键词得分可能较高，但是不包含教学用语。

步骤S310、确定匹配分数最高的学科，为待审核视频的学科分类。

其中，综合评定的匹配分数越高，证明其包含目标学科分类的教育视频的概率越高，因此，确定匹配分数最高的学科，一般就可以默认为待审核视频的学科分类。

本公开实施例提供的视频内容识别方法，通过获取待审核视频的音频和图像对应文本内容，将音频文本数据和视频文本数据分别代入教学用语和学科关键词库、学科知识点文本库，以确定各学科的匹配分数，再根据匹配分数最高的学科，确定待审核视频的学科分类，由此，能够有效保证识别的学科基于不同的数据库，进而保证识别的准确性和可靠性，同时，还能将非学科类教育培训的视频剔除掉，进而确保自动识别出待审核视频的具体学科分类和种类。

图4为本公开提供的一个视频内容识别装置的结构示意图。如图4所示，该视频内容识别装置400包括：获取模块410、第一确定模块420、第二确定模块430和处理模块440。其中：

获取模块410，用于响应于接收到的待审核视频，分别获取待审核视频的音频文本数据和视频文本数据；

第一确定模块420，用于基于预设的教学用语和学科关键词库，确定音频文本数据对应各个学科的音频匹配分数组，音频匹配分数组用于表示音频文本数据与各个学科间的匹配度分数；

第二确定模块430，用于基于预设的学科知识点文本库，确定视频文本数据对应各个学科的视频匹配分数组，视频匹配分数组用于表示视频文本数据与各个学科间的匹配度分数；

处理模块440，用于基于音频匹配分数组和视频匹配分数组，确定待审核视频对应的学科分类。

可选地，第一确定模块420具体用于，将音频文本数据中的关键词与教学用语和学科关键词库中的关键词相匹配，确定音频文本数据中包含的每一个学科的关键词的数量；基于每一个学科的关键词的数量与音频文本数据中的关键词总数，确定音频匹配分数组中每个学科对应的音频匹配分数。

可选地，第一确定模块420具体用于，当同一个音频文本数据中的关键词与至少两个学科的关键词相匹配时，则确定至少两个学科的关键词数量都分别增加一个；相应地，基于每一个学科的关键词的数量与音频文本数据中的关键词总数，确定音频匹配分数组中每个学科对应的音频匹配分数，包括：当每一个学科的关键词的数量之和大于音频文本数据中的关键词总数时，基于每一个学科的关键词的数量与每一个学科的关键词数量之和，确定音频匹配分数组中每个学科对应的音频匹配分数。

可选地，第二确定模块430具体用于，基于语句分割算法，将视频文本数据分割为知识点语句；基于文本匹配算法，确定学科知识点文本库中与知识点语句相似度最高的文本所属学科；确定视频文本数据中包含的每一个学科的相似度最高的文本的数量；基于每一个学科的相似度最高的文本的数量和知识点语句的数量，确定视频匹配分数组中每一个学科对应的视频匹配分数。

可选地，获取模块410具体用于，基于语音识别算法，获取待审核视频的音频对应的文本内容为音频文本数据；基于图像文字识别算法，获取待审核视频的图像中包含的文本内容为视频文本数据。

可选地，获取模块410具体用于，获取待审核视频的每一视频帧的图像内容；通过图像对比算法，确定图像内容差异达到设定阈值的视频帧为关键帧；基于图像文字识别算法，获取关键帧中包含的文字内容为视频文本数据。

可选地，第一确定模块420具体用于，如下方式得到预设的教学用语和学科关键词库：获取标准教学用语和学科用语数据，确定标准教学用语和学科用语的关键词；基于AC字典树算法和关键词，建立教学用语和学科关键词库。

可选地，处理模块440具体用于，基于音频匹配分数组和视频匹配分数组，确定每一个学科的匹配分数；确定匹配分数最高的学科，为待审核视频的学科分类。

在本实施例中，视频内容识别装置通过各模块的结合，能够分别对待审复核视频的音频和视频进行分析，并分别通过关键词和文本进行匹配，有效保证识别的学科的准确性，通过将音频文本数据和视频文本数据得到的分析结果结合，最大限度保证自动化识别待审核视频对应学科的准确性和可靠性，提高识别效率，方便使用。

图5为本公开提供的一个电子设备的结构示意图，如图5所示，该电子设备500包括：存储器510和处理器520。

其中，存储器510存储有可被至少一个处理器520执行的计算机程序。该算机程序被至少一个处理器520执行，以使电子设备实现如上任一实施例中提供的视频内容识别方法。

其中，存储器510和处理器520可以通过总线530连接。

相关说明可以对应参见方法实施例所对应的相关描述和效果进行理解，此处不予赘述。

本公开一个实施例提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行以实现如图2至图3对应的任意实施例的视频内容识别方法。

其中，计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本公开一个实施例提供了一种计算机程序产品，其包含计算机执行指令，该计算机执行指令被处理器执行时用于实现如图2至图3对应的任意实施例的视频内容识别方法。

在本公开所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

本领域技术人员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求书指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求书来限制。

Claims

1.一种视频内容识别方法，其特征在于，包括：

响应于接收到的待审核视频，分别获取所述待审核视频的音频文本数据和视频文本数据；

基于预设的教学用语和学科关键词库，确定所述音频文本数据对应各个学科的音频匹配分数组，所述音频匹配分数组用于表示所述音频文本数据与各个学科间的匹配度分数；

基于预设的学科知识点文本库，确定所述视频文本数据对应各个学科的视频匹配分数组，所述视频匹配分数组用于表示所述视频文本数据与各个学科间的匹配度分数；

基于所述音频匹配分数组和视频匹配分数组，确定所述待审核视频对应的学科分类。

2.根据权利要求1所述的视频内容识别方法，其特征在于，所述基于预设的教学用语和学科关键词库，确定所述音频文本数据对应各个学科的音频匹配分数组，包括：

将所述音频文本数据中的关键词与所述教学用语和学科关键词库中的关键词相匹配，确定所述音频文本数据中包含的每一个学科的关键词的数量；

基于所述每一个学科的关键词的数量与所述音频文本数据中的关键词总数，确定所述音频匹配分数组中每个学科对应的音频匹配分数。

3.根据权利要求2所述的视频内容识别方法，其特征在于，所述确定所述音频文本数据中包含的每一个学科的关键词的数量，包括：

当同一个音频文本数据中的关键词与至少两个学科的关键词相匹配时，则确定所述至少两个学科的关键词数量都分别增加一个；

相应地，基于所述每一个学科的关键词的数量与所述音频文本数据中的关键词总数，确定所述音频匹配分数组中每个学科对应的音频匹配分数，包括：

当所述每一个学科的关键词的数量之和大于所述音频文本数据中的关键词总数时，基于所述每一个学科的关键词的数量与所述每一个学科的关键词数量之和，确定所述音频匹配分数组中每个学科对应的音频匹配分数。

4.根据权利要求1至3中任一项所述的视频内容识别方法，其特征在于，所述基于预设的学科知识点文本库，确定所述视频文本数据对应各个学科的视频匹配分数组，包括：

基于语句分割算法，将所述视频文本数据分割为知识点语句；

基于文本匹配算法，确定所述学科知识点文本库中与所述知识点语句相似度最高的文本所属学科；

确定所述视频文本数据中包含的每一个学科的所述相似度最高的文本的数量；

基于每一个学科的所述相似度最高的文本的数量和所述知识点语句的数量，确定所述视频匹配分数组中每一个学科对应的视频匹配分数。

5.根据权利要求1至3中任一项所述的视频内容识别方法，其特征在于，所述分别获取所述待审核视频的音频文本数据和视频文本数据，包括：

基于语音识别算法，获取所述待审核视频的音频对应的文本内容为音频文本数据；

基于图像文字识别算法，获取所述待审核视频的图像中包含的文本内容为视频文本数据。

6.根据权利要求5所述的视频内容识别方法，其特征在于，所述基于图像文字识别算法，获取所述待审核视频的图像中包含的文本内容为视频文本数据，包括：

获取所述待审核视频的每一视频帧的图像内容；

通过图像对比算法，确定图像内容差异达到设定阈值的视频帧为关键帧；

基于图像文字识别算法，获取所述关键帧中包含的文字内容为视频文本数据。

7.根据权利要求1至3中任一项所述的视频内容识别方法，其特征在于，所述预设的教学用语和学科关键词库通过如下方式得到：

获取标准教学用语和学科用语数据，确定所述标准教学用语和学科用语的关键词；

基于AC字典树算法和所述关键词，建立教学用语和学科关键词库。

8.根据权利要求1至3中任一项所述的视频内容识别方法，其特征在于，所述基于所述音频匹配分数组和视频匹配分数组，确定所述待审核视频对应的学科分类，包括：

基于所述音频匹配分数组和视频匹配分数组，确定每一个学科的匹配分数；

确定所述匹配分数最高的学科，为所述待审核视频的学科分类。

9.一种视频内容识别装置，其特征在于，包括：

获取模块，用于响应于接收到的待审核视频，分别获取所述待审核视频的音频文本数据和视频文本数据；

第一确定模块，用于基于预设的教学用语和学科关键词库，确定所述音频文本数据对应各个学科的音频匹配分数组，所述音频匹配分数组用于表示所述音频文本数据与各个学科间的匹配度分数；

第二确定模块，用于基于预设的学科知识点文本库，确定所述视频文本数据对应各个学科的视频匹配分数组，所述视频匹配分数组用于表示所述视频文本数据与各个学科间的匹配度分数；

处理模块，用于基于所述音频匹配分数组和视频匹配分数组，确定所述待审核视频对应的学科分类。

10.一种电子设备，其特征在于，包括：

至少一个处理器；

以及与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述电子设备执行如权利要求1至6中任一项所述的视频内容识别方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求1至8中任一项所述的视频内容识别方法。