CN113590804B

CN113590804B - 视频主题生成的方法、装置及电子设备

Info

Publication number: CN113590804B
Application number: CN202110697960.8A
Authority: CN
Inventors: 盛广智; 郑烨翰; 蔡远俊; 卞东海; 黄焱晖
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-06-23
Filing date: 2021-06-23
Publication date: 2023-08-04
Anticipated expiration: 2041-06-23
Also published as: CN113590804A

Abstract

本公开公开了视频主题生成的方法、装置及电子设备，涉及计算机技术领域，具体涉及知识图谱技术领域。具体实现方案为：根据待识别视频取待识别帧，并根据所述待识别帧获取文本段；根据所述文本段获取候选主题，并根据所述文本段获取拼接文本；将所述拼接文本和所述候选主题输入主题匹配网络，并获取推荐视频主题。本公开实施例可以根据待识别视频获取对应的推荐视频主题。本公开实施例可以客观地评价候选主题和视频的匹配度，获取更适合待识别视频的推荐视频主题。

Description

视频主题生成的方法、装置及电子设备

技术领域

本公开涉及计算机技术领域，具体涉及知识图谱技术领域，尤其涉及视频主题生成的方法、装置及电子设备。

背景技术

随着互联网的发展，人工智能技术在媒体等多个行业逐渐地体现应用价值，变得越来越重要。媒体客户存在对于海量的视频资源的管理和编目的需求，在编目的阶段，主题名抽取是其中的重要组成部分之一。传统的编目手段极度依赖人工，人工提取主题一方面成本较高，花费时间长；另一方面人工提取主题带有一定的主观性，提取主题的标准不统一，导致提取的主题不够客观。目前尚缺乏较为客观高效的视频主题提取方法。

发明内容

本公开提供了一种用于视频主题生成的方法、装置、电子设备以及存储介质。

根据本公开的第一方面，提供了一种视频主题生成的方法。包括：

根据待识别视频获取待识别帧，并根据所述待识别帧生成所述待识别帧之中包含的文本段；

根据所述文本段生成候选主题，并根据所述文本段生成拼接文本；

将所述拼接文本和所述候选主题输入主题匹配网络，以生成推荐视频主题。

可选地，所述根据待识别视频获取待识别帧，包括：

移除所述待识别视频开始的前n帧和最后n帧，以生成第二待识别视频，其中，所述n为移除帧数；

每隔x帧对所述第二待识别视频采样，以获取所述待识别帧，其中，所述x为采样间隔。

可选地，所述根据所述待识别帧生成所述待识别帧之中包含的文本段，包括：

将所述待识别帧输入光学字符识别OCR网络，并识别所述待识别帧中的文本段，以生成所述待识别帧之中包含的文本段。

可选地，所述根据所述文本段生成候选主题，包括：

获取所述文本段对应待识别帧的出现时间和所述文本段的出现次数；

根据所述出现时间和所述出现次数筛选所述文本段，并生成所述候选主题。

可选地，所述根据所述出现时间和所述出现次数筛选所述文本段，并生成所述候选主题，包括：

如果所述文本段出现次数大于或等于m，且第一次出现的时间点在所述待识别视频的时间中点之前，则将所述文本段设置为所述候选主题，其中，所述m为次数阈值；

否则，不将所述文本段设置为所述候选主题。

可选地，所述根据所述文本段生成拼接文本，包括：

将所述文本段按出现时间先后顺序拼接，以生成所述拼接文本。

可选地，还包括：

标注训练候选主题与训练拼接文本的第一匹配度；

以所述训练候选主题、所述训练拼接文本和所述第一匹配度构建训练数据集；

根据所述训练数据集训练所述主题匹配网络。

可选地，所述将所述拼接文本和所述候选主题输入主题匹配网络，以生成推荐视频主题，包括：

将所述拼接文本和所述候选主题输入所述主题匹配网络，并生成所述候选主题与所述拼接文本的第一匹配度；

根据所述候选主题获取所述候选主题的第二匹配度；

根据所述第二匹配度对所述候选主题排序，并根据所述排序生成所述推荐视频主题。

根据所述候选主题生成候选实体；

根据所述候选实体获取所述候选主题的第二匹配度。

可选地，所述根据所述候选主题生成候选实体，包括：

对所述候选主题进行实体识别，以获取所述候选主题对应的候选实体。

可选地，所述根据所述候选实体获取所述候选主题的第二匹配度，包括：

根据所述候选实体的属性信息判断所述候选实体是否为目标实体；

如果所述候选实体为所述目标实体，则获取所述候选实体对应的补偿匹配度，所述第二匹配度等于所述第一匹配度与所述补偿匹配度之和；

如果所述候选实体不是所述目标实体，则获取所述第二匹配度，所述第二匹配度与所述第一匹配度值相等。

根据本公开的第二方面，提供了一种视频主题生成的装置，包括：

文本段生成模块，用于根据待识别视频获取待识别帧，并根据所述待识别帧生成所述待识别帧之中包含的文本段；

文本段拼接模块，用于根据所述文本段生成候选主题，并根据所述文本段生成拼接文本；

视频主题推荐模块，用于将所述拼接文本和所述候选主题输入主题匹配网络，以生成推荐视频主题。

可选地，所述文本段生成模块，包括：

帧移除子模块，用于移除所述待识别视频开始的前n帧和最后n帧，以生成第二待识别视频，其中，所述n为移除帧数；

采样子模块，用于每隔x帧对所述第二待识别视频采样，以获取所述待识别帧，其中，所述x为采样间隔。

可选地，所述文本段生成模块，包括：

字符识别子模块，用于将所述待识别帧输入光学字符识别OCR网络，并识别所述待识别帧中的文本段，以生成所述待识别帧之中包含的文本段。

可选地，所述文本段拼接模块，包括：

文本段数据获取单元，用于获取所述文本段对应待识别帧的出现时间和所述文本段的出现次数；

筛选单元，用于根据所述出现时间和所述出现次数筛选所述文本段，并生成所述候选主题。

可选地，所述筛选单元，包括：

筛选子单元，如果所述文本段出现次数大于或等于m，且第一次出现的时间点在所述待识别视频的时间中点之前，则用于将所述文本段设置为所述候选主题，其中，所述m为次数阈值；

否则，用于不将所述文本段设置为所述候选主题。

可选地，所述文本段拼接模块，包括：

文本段拼接子模块，用于将所述文本段按出现时间先后顺序拼接，以生成所述拼接文本。

可选地，还包括：

匹配度标注模块，用于标注训练候选主题与训练拼接文本的第一匹配度；

数据集生成模块，用于以所述训练候选主题、所述训练拼接文本和所述第一匹配度构建训练数据集；

网络训练模块，用于根据所述训练数据集训练所述主题匹配网络。

可选地，所述视频主题推荐模块，包括：

第一匹配度获取子模块，将所述拼接文本和所述候选主题输入所述主题匹配网络，并生成所述候选主题与所述拼接文本的第一匹配度；

第二匹配度获取子模块，根据所述候选主题获取所述候选主题的第二匹配度；

推荐视频主题生成模块，根据所述第二匹配度对所述候选主题排序，并根据所述排序生成所述推荐视频主题。

可选地，所述第二匹配度获取子模块，包括：

实体匹配单元，用于根据所述候选主题生成候选实体；

第二匹配度获取单元，用于根据所述候选实体获取所述候选主题的第二匹配度。

可选地，所述实体匹配单元，包括：

实体匹配子单元，用于对所述候选主题进行实体识别，以获取所述候选主题对应的候选实体。

可选地，所述第二匹配度获取单元，包括：

目标实体识别子单元，用于根据所述候选实体的属性信息判断所述候选实体是否为目标实体；

匹配度补偿获取子单元，如果所述候选实体为所述目标实体，则用于获取所述候选实体对应的补偿匹配度，所述第二匹配度等于所述第一匹配度与所述补偿匹配度之和；

匹配度迁移单元，如果所述候选实体不是所述目标实体，则用于获取所述第二匹配度，所述第二匹配度与所述第一匹配度值相等。

根据本公开的第三方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行根据所述第一方面中任一项所述的方法。

根据本公开的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据所述第一方面中任一项所述的方法。

根据本公开的第五方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据所述第一方面中任一项所述的方法。

本公开具有以下有益效果：

通过对待识别视频的采样、文本识别等处理，去除了冗余的文字信息，将所述文字信息结构化，获得的文本段语义连贯，更符合候选主题的条件。提高了识别主题的效率。

通过制定规则筛选所述文本段来获取所述候选主题，去除了无效文字信息的干扰，且筛选规则可以根据实际情况调整，提高了系统的鲁棒性，获取的推荐视频主题更加客观。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例提供的一种视频主题生成方法的流程示意图；

图2是根据本公开实施例提供的一种视频主题生成方法的流程示意图；

图3是根据本公开实施例提供的一种视频主题生成方法的流程示意图；

图4是根据本公开实施例提供的一种视频主题生成方法的流程示意图；

图5是根据本公开实施例提供的一种视频主题生成方法的流程示意图；

图6是根据本公开实施例提供的一种视频主题生成方法的流程示意图；

图7是根据本公开实施例提供的一种视频主题生成方法的流程示意图；

图8是根据本公开实施例提供的一种视频主题生成装置的结构示意图；

图9是根据本公开实施例提供的一种视频主题生成装置的结构示意图；

图10是根据本公开实施例提供的一种视频主题生成装置的结构示意图；

图11是根据本公开实施例提供的一种视频主题生成装置的结构示意图；

图12是根据本公开实施例提供的一种视频主题生成装置的结构示意图；

图13是根据本公开实施例提供的一种视频主题生成装置的结构示意图；

图14是根据本公开实施例提供的一种视频主题生成装置的结构示意图；

图15是根据本公开实施例提供的一种视频主题生成方法的流程示意图；

图16是根据本公开实施例提供的一种视频主题生成装置的结构示意图；

图17是用来实现本公开实施例的视频主题生成的方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

随着互联网技术的发展，人工智能技术在媒体等多个行业逐渐地体现出其应用价值，变得越来越重要。媒体客户存在对于海量的视频资源的管理和编目的需求，传统的编目手段极度依赖人工，会导致成本和效率的问题。在编目的阶段，主题名抽取是其中的重要组成部分之一。人工提取视频主题需要耗费大量时间观看视频并总结归纳主题，且人工提取主题存在主观因素，不同人提取主题的标准和方法存在差异，导致主题存在差异。

为了满足高效率、低成本的自动抽取新闻片段主题的需求，本公开设计了一个新闻节目主题提取方法、装置及电子设备，从原始的光学字符识别(Optical CharacterRecognition，OCR)特征中提取出新闻片段的题名。相比传统的人工方式，节省了人力成本和时间成本。

本公开属于知识图谱的应用，知识图谱(Knowledge Graph)，在图书情报界称为知识域可视化或知识领域映射地图，是显示知识发展进程与结构关系的一系列各种不同的图形，用可视化技术描述知识资源及其载体，挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。

知识图谱，是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合，并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。知识图谱能为学科研究提供切实的、有价值的参考。

一个典型的提取视频主题场景为：媒体客户给定一个新闻节目的视频，提交任务到智能媒资系统，系统会对所述节目的视频进行拆条得到一系列视频片段，针对所述视频片段提取感知特征，例如OCR特征、自动语音识别(Automatic Speech Recognition，ASR)特征等，再基于感知特征提取视频的主题，并给出所述视频主题的置信度。

本公开的主要相关的现有技术是知识集成增强表示模型(EnhancedRepresentation through Knowledge Integration，ERNIE)和OCR算法。ERNIE是百度开创性提出的基于知识增强的持续学习语义理解框架，ERNIE在情感分析、文本匹配等16个公开数据集上全面显著超越世界领先技术。在本公开中就利用ERNIE在下游的数据集上迁移训练进行新闻主题判别。OCR就是将图像中的文字检测出位置后识别出来，以文本的形式返回。

本公开目前可以应用与智能创作、媒资处理，用于提供媒资编目平台供内容创作者使用。调用方提交任务给定新闻节目视频及其元信息，平台处理完毕后即可返回编目后的结果，也即视频片段对应的主题。

为了解决以上技术问题，本公开实施例提出了一种视频主题生成的方法，图1是根据本公开实施例提供的一种视频主题生成方法的流程示意图。

如图1所示，所述视频主题生成的方法包括：

步骤101：根据待识别视频获取待识别帧，并根据所述待识别帧生成所述待识别帧之中包含的文本段。

新闻节目视频或其他需要获得主题的视频由于长度比较长，不一定只包含一个主题，所以需要通过视频拆条技术，将原来完整的一条节目内容，按照某种逻辑思维或特定需要，将其拆分成多条视频，也即所述待识别视频。视频拆条技术的基本原理是通过对非结构化的视频数据进行特征或结构分析，然后采用视频分割技术将连续的视频流划分为具有特定语义的视频片段视频。通过视频拆条可以实现高效的视频分割，有利于后续视频主题的生成。

得到所述待识别视频后，需要对所述待识别视频进行进一步处理，减少冗余的信息，由于视频拆条可能会多拆一些视频内容，为了减少冗余的视频帧，将所述待识别视频的前n帧和最后n帧移除。需要说明的是，n的取值可由实施者根据实际情况调整，本公开不对n的取值进行限制。

在一种可能的实施例中，n＝20，即移除所述待识别视频的前20帧和最后20帧。

接着由于待识别视频中在连续多个相邻帧中大概率会出现相同的文本内容，为了更客观地从文本段中选取候选主题，本公开对所述待识别视频进行采样处理，每隔x帧进行一次采样，获取采样帧，也即待识别帧。采样可以减少计算量，提高视频主题提取的效率。

在一种可能的实施例中，x＝12，即每隔12帧就采集一个待识别帧。

在一种可能的实施例中，通过OCR技术对待识别帧中的文本进行识别，获取所述待识别帧中的文字、所述文字在图像坐标系中的坐标、文字区域大小等多种信息。

在一种可能的实施例中，由于文字特征是非结构化数据，且有一部分文字属于背景信息，冗余信息，需要将这些文字去除掉。所以采用OcrUtils工具对文字特征进行文本清洗、碎片合并等处理。将冗余的文字去除，并且将文字信息结构化，获取一个个文本段。

步骤102：根据所述文本段生成候选主题，并根据所述文本段生成拼接文本。

本公开一个先验知识为视频主题是存在于视频的文本中，也即视频主题存在于所述文本段中。为了减少后续主题匹配网络计算量、提高效率，通过上述步骤对文本段进行筛选。去除出现频率低的文本段，同时去除出现时间较为靠后的文本段，最后生成所述候选主题。

为了后续主题匹配网络的需要，本公开将所述文本段按照对应待识别帧的时间先后顺序排列起来，如果一个待识别帧中有多个文本段，则根据所述文本段所在区域的图像坐标系左边排列所述文本段。排列后得到所述拼接文本，所述拼接文本即为所述待识别视频帧的主要文本内容。

步骤103：将所述拼接文本和所述候选主题输入主题匹配网络，以生成推荐视频主题。

本公开通过神经网络获取所述待识别视频的推荐视频主题，将所述拼接文本和所述候选主题输入所述主题匹配网络，即可获取所述候选主题的置信度，所述置信度表示所述候选主题是所述拼接文本的真正主题的概率。将所述候选主题按照置信度大小排序，置信度最高的所述候选主题即为所述推荐视频主题。所述置信度也即匹配度。

本公开实施例提出了一种视频主题生成的方法，图2是根据本公开实施例提供的一种视频主题生成方法的流程示意图。

如图2所示，所述视频主题生成的方法包括：

步骤201：移除所述待识别视频开始的前n帧和最后n帧，以生成第二待识别视频，其中，所述n为移除帧数；

步骤202：每隔x帧对所述第二待识别视频采样，以获取所述待识别帧，其中，所述x为采样间隔。

OCR技术是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即，针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。通过所述OCR网络对待识别帧中的文本进行识别，获取所述待识别帧中的文字、所述文字在图像坐标系中的坐标、文字区域大小等多种信息。

由于文字特征是非结构化数据，且有一部分文字属于背景信息，冗余信息，需要将这些文字去除掉。所以采用OcrUtils工具对文字进行文本清洗、碎片合并等处理。将冗余的文字去除，并且将文字信息结构化，获取一个个文本段。

本公开实施例提出了一种视频主题生成的方法，图3是根据本公开实施例提供的一种视频主题生成方法的流程示意图。

如图3所示，所述视频主题生成的方法包括：

步骤301：获取所述文本段对应待识别帧的出现时间和所述文本段的出现次数；

步骤302：根据所述出现时间和所述出现次数筛选所述文本段，并生成所述候选主题。

否则，不将所述文本段设置为所述候选主题。

在一种可能的实施例中，按照出现的前后顺序排列所述候选主题，筛除出现频率小于2的所述候选主题，并去除过滤首次出现时间在所述待识别视频时间中点之后的句子。

这样获取的候选主题更严谨，更有可能是真正的主题，减少了所述主题匹配网络的计算量，提高了效率。

可选地，所述根据所述文本段生成拼接文本，包括：

本公开实施例提出了一种视频主题生成的方法，图4是根据本公开实施例提供的一种视频主题生成方法的流程示意图。

如图4所示，所述视频主题生成的方法包括：

步骤401：标注训练候选主题与训练拼接文本的第一匹配度；

本公开实施例采用神经网络生成所述训练候选主题与所述训练拼接文本的第一匹配度，为了训练所述主题匹配网络，需要人工标注所述第一匹配度，以构建数据集。

步骤402：以所述训练候选主题、所述训练拼接文本和所述第一匹配度构建训练数据集；

所述训练数据集的格式为所述训练候选主题与所述训练拼接文本的所述匹配度。构建所述训练数据集之后即可开始训练所述主题匹配网络。

步骤403：根据所述训练数据集训练所述主题匹配网络。

设置损失函数，以所述损失函数最小化为目标迭代训练所述主题匹配网络，经过一定的训练量后即可得到训练好的主题匹配网络。

本公开实施例提出了一种视频主题生成的方法，图5是根据本公开实施例提供的一种视频主题生成方法的流程示意图。

如图5所示，所述视频主题生成的方法包括：

步骤501：将所述拼接文本和所述候选主题输入所述主题匹配网络，并生成所述候选主题与所述拼接文本的第一匹配度；

根据上述训练好的主题匹配网络即可获取所述候选主题与所述拼接文本的第一匹配度，将所述候选主题与所述拼接文本输入所述主题匹配网络，即可生成所述候选主题的第一匹配度。

步骤502：根据所述候选主题获取所述候选主题的第二匹配度；

在一些可能的情况下，获取候选主题与所述视频的匹配度需要考虑其他因素，如果所述候选主题中包括一些特定的名词，如政治任务、敏感事件等，需要提高所述候选主题的匹配度。为了提高本公开方案的合理性，本公开实施例利用知识图谱来提高所述候选主题匹配度的合理性。

知识图谱(Knowledge Graph)，在图书情报界称为知识域可视化或知识领域映射地图，是显示知识发展进程与结构关系的一系列各种不同的图形，用可视化技术描述知识资源及其载体，挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。

首先对所述候选主题进行实体识别，所述实体是知识图谱中最基本的元素。如果所述候选主题为所述实体，则可以根据所述知识图谱获取所述实体的多种属性信息。设置目标属性信息为政治人物、敏感事件等。如果所述实体为的属性信息为所述目标属性信息，则将所述实体设置为目标实体。

步骤503：根据所述第二匹配度对所述候选主题排序，并根据所述排序生成所述推荐视频主题。在一种可能的实施方式中，获取所述置信度最高的候选主题后，将剩余的所述候选主题进行命名实体识别。对于识别到的实体，利用知识图谱的核心集检索所述实体的详细信息。

如果所述候选主题为所述知识图谱中的实体，则可以根据所述知识图谱获取所述候选主题的属性信息。设置目标属性，所述目标属性可以为政治人物、敏感事件(如犯罪活动)等。如果所述候选主题对应实体的属性符合所述目标属性，则增加所述实体对应候选主题的匹配度。这样不仅考虑到候选主题与所述拼接文本的匹配度，还考虑到了其他重要信息，提高了推荐视频主题的准确度。

本公开实施例提出了一种视频主题生成的方法，图6是根据本公开实施例提供的一种视频主题生成方法的流程示意图。

如图6所示，所述视频主题生成的方法包括：

步骤601：根据所述候选主题生成候选实体；

识别所述候选主题是否为实体，该方法为公知且多样的，本公开不对实体识别的方法进行限定。

步骤602：根据所述候选实体获取所述候选主题的第二匹配度。

如果所述候选主题对应实体的属性符合所述目标属性，则在第一匹配度的基础上增加所述实体对应候选主题的匹配度，也即获取所述候选主题的第二匹配度。如果所述候选主题对应实体的属性不符合所述目标属性，则保持所述第一匹配度。这样不仅考虑到候选主题与所述拼接文本的匹配度，还考虑到了其他重要信息，提高了推荐视频主题的准确度。

可选地，所述根据所述候选主题生成候选实体，包括：

本公开实施例提出了一种视频主题生成的方法，图7是根据本公开实施例提供的一种视频主题生成方法的流程示意图。

如图7所示，所述视频主题生成的方法包括：

步骤701，根据所述候选实体的属性信息判断所述候选实体是否为目标实体；

设置目标属性，所述目标属性为知识图谱中实体的属性，在一种可能的实施例中，所述目标属性为政治人物、敏感事件。如果所述候选实体的属性信息为目标属性，则说明所述候选实体为所述目标实体

步骤702，如果所述候选实体为所述目标实体，则获取所述候选实体对应的补偿匹配度，所述第二匹配度等于所述第一匹配度与所述补偿匹配度之和；

如果所述候选主题对应实体的属性符合所述目标属性，则在第一匹配度的基础上增加所述实体对应候选主题的匹配度，也即所述补偿匹配度。所述第二匹配度等于所述补偿匹配度与所述第一匹配度之和。

步骤703，如果所述候选实体不是所述目标实体，则获取所述第二匹配度，所述第二匹配度与所述第一匹配度值相等。

如果所述候选主题对应实体的属性不符合所述目标属性，则保持所述第一匹配度，即所述第二匹配度等于所述第一匹配度。这样不仅考虑到候选主题与所述拼接文本的匹配度，还考虑到了其他重要信息，提高了推荐视频主题的准确度。

本公开实施例提出了一种视频主题生成的装置，图8是根据本公开实施例提供的一种视频主题生成装置的结构示意图。

如图8所示，所述视频主题生成的装置800包括：

文本段生成模块810，用于根据待识别视频获取待识别帧，并根据所述待识别帧生成所述待识别帧之中包含的文本段；

得到所述待识别视频后，需要通过所述文本段生成模块对所述待识别视频进行进一步处理，减少冗余的信息，由于视频拆条可能会多拆一些视频内容，为了减少冗余的视频帧，将所述待识别视频的前n帧和最后n帧移除。需要说明的是，n的取值可由实施者根据实际情况调整，本公开不对n的取值进行限制。

接着由于待识别视频中在连续多个相邻帧中大概率会出现相同的文本内容，为了更客观地从文本段中选取候选主题，本公开通过所述文本段生成模块对所述待识别视频进行采样处理，每隔x帧进行一次采样，获取采样帧，也即待识别帧。采样可以减少计算量，提高视频主题提取的效率。

在一种可能的实施例中，由于文字特征是非结构化数据，且有一部分文字属于背景信息，冗余信息，需要将这些文字去除掉。所以所述文本段生成模块采用OcrUtils工具对文字特征进行文本清洗、碎片合并等处理。将冗余的文字去除，并且将文字信息结构化，获取一个个文本段。

文本段拼接模块820，用于根据所述文本段生成候选主题，并根据所述文本段生成拼接文本；

本公开一个先验知识为视频主题是存在于视频的文本中，也即视频主题存在于所述文本段中。为了减少后续主题匹配网络计算量、提高效率，通过所述文本段拼接模块对文本段进行筛选。去除出现频率低的文本段，同时去除出现时间较为靠后的文本段，最后生成所述候选主题。

为了后续主题匹配网络的需要，本公开通过所述文本段拼接模块将所述文本段按照对应待识别帧的时间先后顺序排列起来，如果一个待识别帧中有多个文本段，则根据所述文本段所在区域的图像坐标系左边排列所述文本段。排列后得到所述拼接文本，所述拼接文本即为所述待识别视频帧的主要文本内容。

视频主题推荐模块830，用于将所述拼接文本和所述候选主题输入主题匹配网络，以生成推荐视频主题。

本公开通过神经网络获取所述待识别视频的推荐视频主题，所述视频主题推荐模块包含所述主题匹配网络，将所述拼接文本和所述候选主题输入所述主题匹配网络，即可获取所述候选主题的置信度，所述置信度表示所述候选主题是所述拼接文本的真正主题的概率。将所述候选主题按照置信度大小排序，置信度最高的所述候选主题即为所述推荐视频主题。所述置信度也即匹配度。

本公开实施例提出了一种视频主题生成的装置，图7是根据本公开实施例提供的一种视频主题生成装置的结构示意图。

如图9所示，所述视频主题生成的装置900包括：

帧移除子模块910，用于移除所述待识别视频开始的前n帧和最后n帧，以生成第二待识别视频，其中，所述n为移除帧数；

得到所述待识别视频后，需要通过所述帧移除子模块对所述待识别视频进行进一步处理，减少冗余的信息，由于视频拆条可能会多拆一些视频内容，为了减少冗余的视频帧，将所述待识别视频的前n帧和最后n帧移除。需要说明的是，n的取值可由实施者根据实际情况调整，本公开不对n的取值进行限制。

采样子模块920，用于每隔x帧对所述第二待识别视频采样，以获取所述待识别帧，其中，所述x为采样间隔。

接着由于待识别视频中在连续多个相邻帧中大概率会出现相同的文本内容，为了更客观地从文本段中选取候选主题，本公开通过所述采样子模块对所述待识别视频进行采样处理，每隔x帧进行一次采样，获取采样帧，也即待识别帧。采样可以减少计算量，提高视频主题提取的效率。

可选地，所述文本段生成模块，包括：

由于文字特征是非结构化数据，且有一部分文字属于背景信息，冗余信息，需要将这些文字去除掉。所以通过所述字符识别子模块采用OcrUtils工具对文字进行文本清洗、碎片合并等处理。将冗余的文字去除，并且将文字信息结构化，获取一个个文本段。

本公开实施例提出了一种视频主题生成的装置，图10是根据本公开实施例提供的一种视频主题生成装置的结构示意图。

如图10所示，所述视频主题生成的装置1000包括：

文本段数据获取单元1010，用于获取所述文本段对应待识别帧的出现时间和所述文本段的出现次数；

筛选单元1020，用于根据所述出现时间和所述出现次数筛选所述文本段，并生成所述候选主题。

本公开一个先验知识为视频主题是存在于视频的文本中，也即视频主题存在于所述文本段中。为了减少后续主题匹配网络计算量、提高效率，通过所述筛选单元对文本段进行筛选。去除出现频率低的文本段，同时去除出现时间较为靠后的文本段，最后生成所述候选主题。

可选地，所述筛选单元，包括：

否则，用于不将所述文本段设置为所述候选主题。

可选地，所述文本段拼接模块，包括：

本公开实施例提出了一种视频主题生成的装置，图11是根据本公开实施例提供的一种视频主题生成装置的结构示意图。

如图9所示，所述视频主题生成的装置1100包括：

匹配度标注模块1110，用于标注训练候选主题与训练拼接文本的第一匹配度；

本公开实施例采用神经网络生成所述训练候选主题与所述训练拼接文本的匹配度，为了训练所述主题匹配网络，需要人工标注所述匹配度，以构建数据集。

数据集生成模块1120，用于以所述训练候选主题、所述训练拼接文本和所述第一匹配度构建训练数据集；

网络训练模块1130，用于根据所述训练数据集训练所述主题匹配网络。

本公开实施例提出了一种视频主题生成的装置，图12是根据本公开实施例提供的一种视频主题生成装置的结构示意图。

如图12所示，所述视频主题生成的装置1200包括：

第一匹配度获取子模块1210，将所述拼接文本和所述候选主题输入所述主题匹配网络，并生成所述候选主题与所述拼接文本的第一匹配度；

通过对待识别视频的一系列处理之后即可得到所述拼接文本和所述候选主题，将所述拼接文本和所述候选主题输入所述主题匹配网络，经网络的处理后输入所述候选主题与所述拼接文本的匹配度，也即所述候选主题是所述拼接文本真正主题的置信度。

第二匹配度获取子模块1220，根据所述候选主题获取所述候选主题的第二匹配度；

推荐视频主题生成模块1230，根据所述第二匹配度对所述候选主题排序，并根据所述排序生成所述推荐视频主题。

本公开实施例提出了一种视频主题生成的装置，图13是根据本公开实施例提供的一种视频主题生成装置的结构示意图。

如图13所示，所述视频主题生成的装置1300包括：

实体匹配单元1310，用于根据所述候选主题生成候选实体；

第二匹配度获取单元1320，用于根据所述候选实体获取所述候选主题的第二匹配度。

可选地，所述实体匹配单元，包括：

本公开实施例提出了一种视频主题生成的装置，图14是根据本公开实施例提供的一种视频主题生成装置的结构示意图。

如图14所示，所述视频主题生成的装置1400包括：

目标实体识别子单元1410，用于根据所述候选实体的属性信息判断所述候选实体是否为目标实体；

匹配度补偿获取子单元1420，如果所述候选实体为所述目标实体，则用于获取所述候选实体对应的补偿匹配度，所述第二匹配度等于所述第一匹配度与所述补偿匹配度之和；

匹配度迁移单元1430，如果所述候选实体不是所述目标实体，则用于获取所述第二匹配度，所述第二匹配度与所述第一匹配度值相等。

本公开实施例提出了一种视频主题生成的方法，图15是根据本公开实施例提供的一种视频主题生成方法的流程示意图。

如图15所示，所述视频主题生成的方法包括：

截断视频的首尾帧，然后通过OCR技术识别视频帧中的文本，基于所述文本的结构进行预处理，所述预处理包含以下的至少一项：低质过滤、低频过滤、碎片整合。经过上述预处理之后得到截断OCR文本，也即所述文本段。同时将所述节点OCR文本按出现时间的先后顺序排列得到所述排序OCR文本，也即所述拼接文本。最后将所述排序OCR文本和所述截断OCR文本输入所述提名判别模型，获取所述截断OCR文本的置信度，根据所述置信度获取最适合所述排序OCR文本的题目。

本公开实施例提出了一种视频主题生成的装置，图16是根据本公开实施例提供的一种视频主题生成装置的结构示意图。

如图16所示，所述视频主题生成的装置包括提名判别模型，将所述候选题目和所述OCR感知结果(也即所述拼接文本)输入所述提名判别模型，即可获取所述候选题目的置信度，根据所述置信度将所述候选提名分为题名和非题名。在一种可能的实施方式中，所述置信度的取值范围为[0,1]，将置信度小于0.8的候选提名设置为所述非题名，将置信度大于或等于0.8的候选提名设置为所述提名。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图17示出了可以用来实施本公开的实施例的示例电子设备1700的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图17所示，设备1700包括计算单元1701，其可以根据存储在只读存储器(ROM)1702中的计算机程序或者从存储单元1708加载到随机访问存储器(RAM)1703中的计算机程序，来执行各种适当的动作和处理。在RAM 1703中，还可存储设备1700操作所需的各种程序和数据。计算单元1701、ROM 1702以及RAM 1703通过总线1704彼此相连。输入/输出(I/O)接口1705也连接至总线1704。

设备1700中的多个部件连接至I/O接口1705，包括：输入单元1706，例如键盘、鼠标等；输出单元1707，例如各种类型的显示器、扬声器等；存储单元1708，例如磁盘、光盘等；以及通信单元1709，例如网卡、调制解调器、无线通信收发机等。通信单元1709允许设备1700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1701执行上文所描述的各个方法和处理，例如视频主题生成的方法。例如，在一些实施例中，视频主题生成的方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1702和/或通信单元1709而被载入和/或安装到设备1700上。当计算机程序加载到RAM 1703并由计算单元1701执行时，可以执行上文描述的视频主题生成的方法的一个或多个步骤。备选地，在其他实施例中，计算单元1701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行视频主题生成的方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、互联网和区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种视频主题生成的方法，包括：

将所述拼接文本和所述候选主题输入主题匹配网络，以生成推荐视频主题；

其中，所述将所述拼接文本和所述候选主题输入主题匹配网络，以生成推荐视频主题，包括：

根据所述候选主题获取所述候选主题的第二匹配度；

根据所述第二匹配度对所述候选主题排序，并根据所述排序生成所述推荐视频主题；

其中，所述根据所述候选主题获取所述候选主题的第二匹配度，包括：

根据所述候选主题生成候选实体；

根据所述候选实体获取所述候选主题的第二匹配度；

其中，所述根据所述候选主题生成候选实体，包括：

对所述候选主题进行实体识别，以获取所述候选主题对应的候选实体；

其中，所述根据所述候选实体获取所述候选主题的第二匹配度，包括：

2.根据权利要求1所述的方法，其中，所述根据待识别视频获取待识别帧，包括：

3.根据权利要求1所述的方法，其中，所述根据所述待识别帧生成所述待识别帧之中包含的文本段，包括：

4.根据权利要求3所述的方法，其中，所述根据所述文本段生成候选主题，包括：

5.根据权利要求4所述的方法，其中，所述根据所述出现时间和所述出现次数筛选所述文本段，并生成所述候选主题，包括：

否则，不将所述文本段设置为所述候选主题。

6.根据权利要求1所述的方法，其中，所述根据所述文本段生成拼接文本，包括：

7.根据权利要求1所述的方法，还包括：

标注训练候选主题与训练拼接文本的第一匹配度；

根据所述训练数据集训练所述主题匹配网络。

8.一种视频主题生成的装置，包括：

视频主题推荐模块，用于将所述拼接文本和所述候选主题输入主题匹配网络，以生成推荐视频主题；

其中，所述视频主题推荐模块包括：

推荐视频主题生成模块，根据所述第二匹配度对所述候选主题排序，并根据所述排序生成所述推荐视频主题；

其中，所述第二匹配度获取子模块包括：

实体匹配单元，用于根据所述候选主题生成候选实体；

第二匹配度获取单元，用于根据所述候选实体获取所述候选主题的第二匹配度；

其中，所述实体匹配单元，包括：

实体匹配子单元，用于对所述候选主题进行实体识别，以获取所述候选主题对应的候选实体；

其中，所述第二匹配度获取单元，包括：

目标实体判断子单元，用于根据所述候选实体的属性信息判断所述候选实体是否为目标实体；

9.根据权利要求8所述的装置，其中，所述文本段生成模块，包括：

10.根据权利要求8所述的装置，其中，所述文本段生成模块，包括：

11.根据权利要求10所述的装置，其中，所述文本段拼接模块，包括：

12.根据权利要求11所述的装置，其中，所述筛选单元，包括：

否则，用于不将所述文本段设置为所述候选主题。

13.根据权利要求8所述的装置，其中，所述文本段拼接模块，包括：

14.根据权利要求8所述的装置，还包括：

15.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的方法。