CN112381091A

CN112381091A - 视频内容识别方法、装置、电子设备及存储介质

Info

Publication number: CN112381091A
Application number: CN202011322639.3A
Authority: CN
Inventors: 王思博; 陈益如
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-11-23
Filing date: 2020-11-23
Publication date: 2021-02-19

Abstract

本公开关于一种视频内容识别方法，该方法包括：从视频中获取包含有文本行的目标视频帧；对所述目标视频帧进行文字识别操作，获得所述文本行对应的文字识别结果；所述文字识别结果所述文字识别结果包括文本行位置信息、文本行内容信息和文本行区域图像；根据所述文本行区域图像，提取出所述文本行对应的文本图像特征，以及，根据所述文本行位置信息、所述文本行内容信息和所述文本行区域图像，提取出所述文本行对应的内容关联特征；根据所述文本图像特征和所述内容关联特征，确定所述文本行在所述视频中的结构化信息；所述结构化信息用于对所述视频进行视频内容识别操作。采用该方法可以解决相关技术中视频内容识别准确度不高的问题。

Description

视频内容识别方法、装置、电子设备及存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及一种视频内容识别方法、装置、电子设备及存储介质。

背景技术

目前短视频越来越多的成为人们传递信息的媒介选择，其中添加文字信息如标题、字幕是一种很强的表意信号。

对于视频中出现的文字提取主要依赖OCR(Optical Character Recognition,光学字符识别)检测识别技术。而OCR识别在对于视频图像上出现的文字是往往是进行无差别的识别处理的，即OCR结果输出的是视频中出现的所有文字，存在非常多的冗余信息和存在许多噪音干扰，也使得现有技术在依赖于OCR结果进行视频内容识别任务，其得到的视频内容识别结果准确度不高。

发明内容

本公开提供一种视频内容识别方法、装置、电子设备及存储介质，以至少解决相关技术中视频内容识别准确度不高的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种视频内容识别方法，所述方法包括：

从视频中获取包含有文本行的目标视频帧；

对所述目标视频帧进行文字识别操作，获得所述文本行对应的文字识别结果；所述文字识别结果所述文字识别结果包括文本行位置信息、文本行内容信息和文本行区域图像；

根据所述文本行区域图像，提取出所述文本行对应的文本图像特征，以及，根据所述文本行位置信息、所述文本行内容信息和所述文本行区域图像，提取出所述文本行对应的内容关联特征；所述内容关联特征用于表征所述文本行的文本内容与所述目标视频帧的视频帧内容之间的关联程度；

根据所述文本图像特征和所述内容关联特征，确定所述文本行在所述视频中的结构化信息；所述结构化信息用于对所述视频进行视频内容识别操作。

在一种可能实现方式中，所述根据所述文本行区域图像，提取出所述文本行对应的文本图像特征，包括：

将所述文本行区域图像输入至预训练的图像特征提取模型；

通过所述预训练的图像特征提取模型，对所述文本行区域图像进行图像特征提取，得到所述文本图像特征。

在一种可能实现方式中，所述根据所述文本行位置信息、所述文本行内容信息和所述文本行区域图像，提取出所述文本行对应的内容关联特征，包括：

根据所述文本行位置信息，提取出所述文本行在所述视频中的文字位置特征，以及，根据所述文本行内容信息，提取出所述文本行在所述视频中的文字内容特征，以及，根据所述文本行区域图像，提取出所述文本行在所述视频中的文字外观特征；

对所述文字位置特征、所述文字内容特征和所述文字外观特征进行融合，得到所述内容关联特征。

在一种可能实现方式中，所述根据所述文本行位置信息，提取出所述文本行在所述视频中的文字位置特征，包括：

根据所述文本行位置信息，确定所述文本行在多帧所述目标视频帧中的连续出现信息；

生成与所述连续出现信息对应的文本行连续特征向量；所述文本行连续特征向量用于表征所述文本行在多帧所述目标视频帧中的连续出现特征；

将所述文本行连续特征向量，作为所述文字位置特征。

根据所述文本行位置信息，确定所述文本行对应的文本块信息；所述文本块信息为所述目标视频帧中所述文本行所处的文本块对应的信息；所述文本块由至少一个文本行组成；

生成与所述文本块信息对应的文本块特征向量；所述文本块特征向量用于表征所述文本行在所述目标视频帧中的密集程度特征；

将所述文本块特征向量，作为所述文字位置特征。

生成与所述文本行位置信息对应的文本行位置特征向量；所述文本行位置特征向量用于表征所述文本行在所述目标视频帧中的位置特征；

将所述文本行位置特征向量，作为所述文字位置特征。

在一种可能实现方式中，所述根据所述文本行内容信息，提取出所述文本行在所述视频中的文字内容特征，包括：

根据所述文本行内容信息，生成文本行内容特征向量；所述文本行内容特征向量用于表征所述文本行的语句特征和字符特征；

将所述文本行内容特征向量，作为所述文字内容特征。

在一种可能实现方式中，所述根据所述文本行区域图像，提取出所述文本行在所述视频中的文字外观特征，包括：

获取与所述文本行区域图像对应的颜色直方图；

生成所述颜色直方图对应的文本色彩特征向量；所述文本色彩特征向量用于表征所述文本行在所述目标视频帧中的色彩特征；

将所述文本色彩特征向量，作为所述文字外观特征。

将所述文本行区域图像输入至预训练的外观特征提取模型；

通过所述预训练的外观特征提取模型，对所述文本行区域图像进行外观特征提取，得到文本外观特征向量；所述文本外观特征向量用于表征所述文本行在所述目标视频帧中的外观特征；

将所述文本外观特征向量，作为所述文字外观特征。

在一种可能实现方式中，所述根据所述文本图像特征和所述内容关联特征，确定所述文本行在所述视频中的结构化信息，包括：

对所述文本图像特征进行分类处理，得到针对所述文本行的第一文本结构分类结果，所述第一文本结构分类结果包括有所述文本行在所述视频中的第一结构化信息；

对所述内容关联特征进行分类处理，得到针对所述文本行的第二文本结构分类结果；所述第二文本结构分类结果包括有所述文本行在所述视频中的第二结构化信息；

根据所述第一结构化信息和所述第二结构化信息中的至少一种，确定所述文本行在所述视频中的结构化信息。

在一种可能实现方式中，所述根据所述第一结构化信息和所述第二结构化信息中的至少一种，确定所述文本行在所述视频中的结构化信息，包括：

对所述第一结构化信息和所述第二结构化信息进行融合，得到融合后结构化信息，作为所述文本行在所述视频中的结构化信息。

根据本公开实施例的第二方面，提供一种视频内容识别装置，包括：

获取单元，被配置为执行从视频中获取包含有文本行的目标视频帧；

识别单元，被配置为执行对所述目标视频帧进行文字识别操作，获得所述文本行对应的文字识别结果；所述文字识别结果所述文字识别结果包括文本行位置信息、文本行内容信息和文本行区域图像；

提取单元，被配置为执行根据所述文本行区域图像，提取出所述文本行对应的文本图像特征，以及，根据所述文本行位置信息、所述文本行内容信息和所述文本行区域图像，提取出所述文本行对应的内容关联特征；所内容关联特征用于表征所述文本行的文本内容与所述目标视频帧的视频帧内容之间的关联程度；

确定单元，被配置为执行根据所述文本图像特征和所述内容关联特征，确定所述文本行在所述视频中的结构化信息；所述结构化信息用于对所述视频进行视频内容识别操作。

在一种可能实现方式中，所述提取单元，具体被配置为执行将所述文本行区域图像输入至预训练的图像特征提取模型；通过所述预训练的图像特征提取模型，对所述文本行区域图像进行图像特征提取，得到所述文本图像特征。

在一种可能实现方式中，所述提取单元，具体被配置为执行根据所述文本行位置信息，提取出所述文本行在所述视频中的文字位置特征，以及，根据所述文本行内容信息，提取出所述文本行在所述视频中的文字内容特征，以及，根据所述文本行区域图像，提取出所述文本行在所述视频中的文字外观特征；对所述文字位置特征、所述文字内容特征和所述文字外观特征进行融合，得到所述内容关联特征。

在一种可能实现方式中，所述提取单元，具体被配置为执行根据所述文本行位置信息，确定所述文本行在多帧所述目标视频帧中的连续出现信息；生成与所述连续出现信息对应的文本行连续特征向量；所述文本行连续特征向量用于表征所述文本行在多帧所述目标视频帧中的连续出现特征；将所述文本行连续特征向量，作为所述文字位置特征。

在一种可能实现方式中，所述提取单元，具体被配置为执行根据所述文本行位置信息，确定所述文本行对应的文本块信息；所述文本块信息为所述目标视频帧中所述文本行所处的文本块对应的信息；所述文本块由至少一个文本行组成；生成与所述文本块信息对应的文本块特征向量；所述文本块特征向量用于表征所述文本行在所述目标视频帧中的密集程度特征；将所述文本块特征向量，作为所述文字位置特征。

在一种可能实现方式中，所述提取单元，具体被配置为执行生成与所述文本行位置信息对应的文本行位置特征向量；所述文本行位置特征向量用于表征所述文本行在所述目标视频帧中的位置特征；将所述文本行位置特征向量，作为所述文字位置特征。

在一种可能实现方式中，所述提取单元，具体被配置为执行根据所述文本行内容信息，生成文本行内容特征向量；所述文本行内容特征向量用于表征所述文本行的语句特征和字符特征；将所述文本行内容特征向量，作为所述文字内容特征。

在一种可能实现方式中，所述提取单元，具体被配置为执行获取与所述文本行区域图像对应的颜色直方图；生成所述颜色直方图对应的文本色彩特征向量；所述文本色彩特征向量用于表征所述文本行在所述目标视频帧中的色彩特征；将所述文本色彩特征向量，作为所述文字外观特征。

在一种可能实现方式中，所述提取单元，具体被配置为执行将所述文本行区域图像输入至预训练的外观特征提取模型；通过所述预训练的外观特征提取模型，对所述文本行区域图像进行外观特征提取，得到文本外观特征向量；所述文本外观特征向量用于表征所述文本行在所述目标视频帧中的外观特征；将所述文本外观特征向量，作为所述文字外观特征。

在一种可能实现方式中，所述确定单元，具体被配置为执行对所述文本图像特征进行分类处理，得到针对所述文本行的第一文本结构分类结果，所述第一文本结构分类结果包括有所述文本行在所述视频中的第一结构化信息；对所述内容关联特征进行分类处理，得到针对所述文本行的第二文本结构分类结果；所述第二文本结构分类结果包括有所述文本行在所述视频中的第二结构化信息；根据所述第一结构化信息和所述第二结构化信息中的至少一种，确定所述文本行在所述视频中的结构化信息。

在一种可能实现方式中，所述确定单元，具体被配置为执行对所述第一结构化信息和所述第二结构化信息进行融合，得到融合后结构化信息，作为所述文本行在所述视频中的结构化信息。

根据本公开实施例的第三方面，提供一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如第一方面或第一方面的任一种可能实现方式所述的视频内容识别方法。

根据本公开实施例的第四方面，提供一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面或第一方面的任一种可能实现方式所述的视频内容识别方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，所述程序产品包括计算机程序，所述计算机程序存储在可读存储介质中，设备的至少一个处理器从所述可读存储介质读取并执行所述计算机程序，使得设备执行第一方面或第一方面的任一项实施例中所述的视频内容识别方法。

本公开的实施例提供的技术方案至少带来以下有益效果：通过从视频中获取包含有文本行的目标视频帧，并对目标视频帧进行文字识别操作，以获得包括有文本行位置信息、文本行内容信息和文本行区域图像的文字识别结果；然后，再根据文本行区域图像，提取出文本行对应的文本图像特征，以及，根据文本行位置信息、文本行内容信息和文本行区域图像，提取出用于表征文本行的文本内容与目标视频帧的视频帧内容之间的关联程度的内容关联特征；最后，根据文本图像特征和内容关联特征，确定文本行在视频中的用于对视频进行视频内容识别操作的结构化信息，如此，在基于该文本行的结构化信息对视频进行视频内容识别操作的过程中，可以有效地提取出可以很好地表达或描述出该视频的视频内容的文本行，并基于该文本行对视频进行准确地视频内容识别操作，减少了在对视频进行视频内容识别操作时的冗余数据处理量，进而可以准确地获取到该视频的视频内容识别结果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种视频内容识别方法的应用环境图。

图2是根据一示例性实施例示出的一种视频内容识别方法的流程图。

图3是根据一示例性实施例示出的另一种视频内容识别方法的流程图。

图4是根据一示例性实施例示出的一种视频内容识别方法的处理流程图。

图5是根据一示例性实施例示出的一种视频内容识别装置的框图。

图6是根据一示例性实施例示出的一种电子设备的内部结构图。

图7是根据另一示例性实施例示出的一种电子设备的内部结构图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开所提供的视频内容识别方法，可以应用于如图1所示的应用环境中。其中，计算机设备110可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，当然，计算机设备110还可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

图2是根据一示例性实施例示出的一种视频内容识别方法的流程图，如图2所示，该视频内容识别方法用于图1的计算机设备110中，包括以下步骤。

在步骤S210中，从视频中获取包含有文本行的目标视频帧。

其中，目标视频帧可以是指视频中包含有文本行的视频帧。

具体实现中，当计算机设备需要对某一视频进行视频内容识别时，计算机设备可以从该视频中获取包含有文本行的目标视频帧。具体来说，计算机设备可以通过OCR检测，从视频中抽取包含有文本行的视频帧作为目标视频帧。

在步骤S220中，对目标视频帧进行文字识别操作，获得文本行对应的文字识别结果。

其中，文字识别结果文字识别结果包括文本行位置信息、文本行内容信息和文本行区域图像。

其中，文本行位置信息可以是指文本行在对应目标视频帧中的位置信息。实际应用中，文本行位置信息可以是指文本行在对应目标视频帧中的坐标信息。

其中，文本行内容信息可以是指文本行的文本内容对应的信息。

其中，文本行区域图像可以是指目标视频帧中包含有文本行的区域所对应的图像。

其中，文字识别结果包括文本行位置信息、文本行内容信息和文本行区域图像中的至少一种。实际应用中，文字识别结果也可以命名为OCR文字识别结果。

具体实现中，计算机设备在目标视频帧中，提取出文本行的文本行重要特征的过程中，具体包括：计算机设备对目标视频帧进行文字识别操作，获得对应的文字识别结果；然后，计算机设备对文字识别结果进行特征提取操作，进而提取出文本行的文本行重要特征。

具体来说，计算机设备可以获取预训练的OCR检测识别网络；然后，计算机设备将目标视频帧输入至该预训练的OCR检测识别网络中，通过预训练的OCR检测识别网络对目标视频帧进行文字识别操作，获得与该目标视频帧对应的文字识别结果，如，给出文本行的位置坐标信息以及对应文字内容，并根据该位置信息文本行的位置坐标信息提取该文本行的初始文本行区域图像。然后，计算机设备对初始文本行区域图像并进行图像大小的重置，得到文本行区域图像，以使文本行区域图像的图像维度为预设维度,作为后续网络的输入。实际应用中，该预设维度可以设置为[32，256，3]。

如此，通过对目标视频帧进行文字识别操作，从而可以准确地获得目标视频帧对应的文本行位置信息、文本行内容信息和文本行区域图像等文字识别结果，从而为后续提取出文本行的内容关联特征和文本图像特征的过程中提供了有效且准确地基础数据。

在步骤S230中，根据文本行区域图像，提取出文本行对应的文本图像特征，以及，根据文本行位置信息、文本行内容信息和文本行区域图像，提取出文本行对应的内容关联特征。

其中，内容关联特征用于表征文本行的文本内容与目标视频帧的视频帧内容之间的关联程度。

具体实现中，在根据文本行区域图像，提取出文本行对应的文本图像特征的过程中，计算机设备可以将文本行区域图像输入至预训练的图像特征提取模型；通过预训练的图像特征提取模型，对文本行区域图像进行图像特征提取，得到文本图像特征。

如此，可以基于文本行区域图像快速地提取出文本行对应的文本图像特征。

同时，计算机设备还可以根据文本行位置信息、文本行内容信息和文本行区域图像，提取出用于表征文本行的文本内容与目标视频帧的视频帧内容之间的关联程度的内容关联特征。

具体来说，计算机设备可以根据文本行位置信息，提取出文本行在视频中的文字位置特征，以及，根据文本行内容信息，提取出文本行在视频中的文字内容特征，以及，根据文本行区域图像，提取出文本行在视频中的文字外观特征。

然后，计算机设备再对文字位置特征、文字内容特征和文字外观特征进行融合，得到内容关联特征，进而使得得到的内容关联特征可以很好地携带有文本行在视频中的文字位置特征、文字内容特征和文字外观特征，进而可以准确地表征出文本行的文本内容与目标视频帧的视频帧内容之间的关联程度。

在步骤S240中，根据文本图像特征和内容关联特征，确定文本行在视频中的结构化信息。

其中，结构化信息可以是指文本行的归类结果对应的信息。例如，该文本行在视频中文本类型、文本重要性等结构化分类信息。

其中，文本类型可以包括标题、字幕、背景文字等。

其中，文本重要性可以包括有效信息、无效信息。当然，文本重要性还可以包括高重要性、中重要性和低重要性等。

其中，结构化信息用于对视频进行视频内容识别操作。

具体实现中，计算机设备在目标视频帧中提取出文本行的文本图像特征和内容关联特征后，计算机设备则可以分别对文本图像特征和内容关联特征进行结构化分类处理，进而确定文本行在视频中的结构化信息。

具体来说，计算机设备可以将文本图像特征输入至预训练的第一分类模型中，通过预训练的第一分类模型中的多层全连接层和激活函数的一系列处理，以实现对文本图像特征进行分类处理，获得文本行的第一文本分类结果，如该文本行的文本类型、文本重要性等结构化信息。

同时，计算机设备也可以将内容关联特征输入至预训练的第二分类模型中，通过预训练的第二分类模型中的多层全连接层和激活函数的一系列处理，以实现对内容关联特征进行分类处理，获得文本行的第二文本分类结果，如该文本行的文本类型、文本重要性等结构化信息。

最后，计算机设备则基于第一文本分类结果和第二文本分类结果，确定出文本行在视频中的结构化信息。

在计算机设备获取到视频中的各个文本行的文本分类结果后，计算机设备可以根据各个文本行的文本分类结果进行视频内容识别操作。例如，当某个文本行的文本类型为标题或文本行的文本重要性为有效信息或高重要性时，说明该文本行的表意程度高，即该文本行可以很好地表达或描述出该视频的视频内容；因此，计算机设备采用该文本行对该视频进行视频内容识别时，可以准确地得到对应的视频内容识别结果。

上述视频内容识别方法中，通过从视频中获取包含有文本行的目标视频帧，并对目标视频帧进行文字识别操作，以获得包括有文本行位置信息、文本行内容信息和文本行区域图像的文字识别结果；然后，再根据文本行区域图像，提取出文本行对应的文本图像特征，以及，根据文本行位置信息、文本行内容信息和文本行区域图像，提取出用于表征文本行的文本内容与目标视频帧的视频帧内容之间的关联程度的内容关联特征；最后，根据文本图像特征和内容关联特征，确定文本行在视频中的用于对视频进行视频内容识别操作的结构化信息，如此，在基于该文本行的结构化信息对视频进行视频内容识别操作的过程中，可以有效地提取出可以很好地表达或描述出该视频的视频内容的文本行，并基于该文本行对视频进行准确地视频内容识别操作，减少了在对视频进行视频内容识别操作时的冗余数据处理量，进而可以准确地获取到该视频的视频内容识别结果。

在一示例性实施例中，根据文本行位置信息，提取出文本行在视频中的文字位置特征，包括：生成与文本行位置信息对应的文本行位置特征向量；文本行位置特征向量用于表征文本行在目标视频帧中的位置特征；将文本行位置特征向量，作为文字位置特征。

其中，文本行位置特征向量用于表征文本行在目标视频帧中的位置特征。

具体实现中，计算机设备在根据文本行位置信息，提取出文本行在视频中的文字位置特征的过程中，具体包括：计算机设备可以通过文本行位置信息，生成用于表征文本行在目标视频帧中的位置特征的文本行位置特征向量。最后，计算机设备将文本行位置特征向量，作为文本行在视频中的文字位置特征

具体来说，计算机设备可以在文本行位置信息中，确定出文本行的任意一个边角点的位置坐标值，如文本行的左上角点的横坐标值(x坐标值)，纵坐标值(y坐标值)；文本行宽度值，文本行高度与文本行所在的目标视频帧的图像宽高的相对值；以及文本行与目标视频帧上多个其他文本行之间的相对高度比值。然后，计算机设备在对以上多个数值进行归一化，并将归一化后的各个数值拼接成特征向量，作为用于表征文本行在目标视频帧中的位置特征的文本行位置特征向量。实际应用中，文本行位置特征向量可以是长度为5的一维特征向量。最后，计算机设备将文本行位置特征向量，作为文本行在视频中的文字位置特征。

本实施例的技术方案，通过基于文本行对应的文本行位置信息，生成用于准确表征文本行在目标视频帧中的位置特征的文本行位置特征向量，从而可以实现在基于文本行在目标视频帧中位置这个角度来准确地表征文本行的文本内容与目标视频帧的视频帧内容之间的关联程度。

在一示例性实施例中，根据文本行区域图像，提取出文本行在视频中的文字外观特征，包括：获取与文本行区域图像对应的颜色直方图；生成颜色直方图对应的文本色彩特征向量；文本色彩特征向量用于表征文本行在目标视频帧中的色彩特征；将文本色彩特征向量，作为文字外观特征。

其中，文本色彩特征向量用于表征文本行在目标视频帧中的色彩特征。

具体实现中，计算机设备在根据文本行区域图像，提取出文本行在视频中的文字外观特征的过程中，具体包括：计算机设备可以获取与文本行区域图像对应的颜色直方图。然后，计算机设备则生成与该颜色直方图对应的特征向量，作为用于表征文本行在目标视频帧中的色彩特征的文本色彩特征向量；实际应用中，文本色彩特征向量可以是长度为10的一维特征向量。最后，计算机设备将该文本色彩特征向量，作为文本行在视频中的文字外观特征。

本实施例的技术方案，通过获取与文本行区域图像对应的颜色直方图；并基于该颜色直方图生成可以用于准确表征文本行在目标视频帧中的色彩特征的文本色彩特征向量；从而可以实现在基于文本行在目标视频帧中的色彩这个角度来准确地表征文本行的文本内容与目标视频帧的视频帧内容之间的关联程度。

在一示例性实施例中，根据文本行内容信息，提取出文本行在视频中的文字内容特征，包括：根据文本行内容信息，生成文本行内容特征向量；文本行内容特征向量用于表征文本行的语句特征和字符特征；将文本行内容特征向量，作为文字内容特征。

其中，文本行内容特征向量用于表征文本行的语句特征和字符特征。

其中，语句特征可以是指文本行所携带的自然语句特征。

其中，字符特征可以是指文本行中的标点、数字、英文等字符对应的特征。

具体实现中，计算机设备在根据文本行内容信息，提取出文本行在视频中的文字内容特征的过程中，具体包括：计算机设备根据文本行内容信息，生成文本行内容特征向量。具体来说，计算机设备对文本行内容信息进行特征提取，进而判断出文本行中的文本行内容的语义概率，是否包含英文，是否包含数字，是否包含标点，然后，计算机设备在根据判断结果，组成特征向量，作为用于表征文本行的语句特征和字符特征的文本行内容特征向量；实际应用中，文本行内容特征向量可以是长度为4的一维特征向量。最后，计算机设备再将文本行内容特征向量，作为文本行在视频中的文字内容特征。

其中，文本行内容信息中的语义概率可以是指文本行的文字内容为合理句子的概率。实际应用中，计算机设备可以将文本行内容信息输入至预训练的N-gram语言模型(一种大词汇连续语音识别中常用的语言模型)，并基于该N-gram语言模型的输出结果，确定文本行内容信息中的语义概率。

本实施例的技术方案，根据文本行内容信息，生成可以用于准确表征文本行的语句特征和字符特征的文本行内容特征向量；从而可以实现在基于文本行在目标视频帧中的文字内容这个角度来准确地表征文本行的文本内容与目标视频帧的视频帧内容之间的关联程度。

在一示例性实施例中，根据文本行位置信息，提取出文本行在视频中的文字位置特征，包括：根据文本行位置信息，确定文本行在多帧目标视频帧中的连续出现信息；生成与连续出现信息对应的文本行连续特征向量；文本行连续特征向量用于表征文本行在多帧目标视频帧中的连续出现特征；将文本行连续特征向量，作为文字位置特征。

其中，连续出现信息可以包括文本行在多帧目标视频帧中的连续出现次数信息和连续出现位置信息中的至少一种。

其中，文本行连续特征向量用于表征文本行在多帧目标视频帧中的连续出现特征。

具体实现中，计算机设备在根据文本行位置信息，提取出文本行在视频中的文字位置特征的过程中，具体包括：计算机设备根据文本行位置信息，确定文本行在多帧目标视频帧中的连续出现信息，并根据连续出现信息，生成文本行连续特征向量。具体来说，计算机设备可以基于文本行位置信息，对多帧目标视频帧的文本行进行分析，分析是否某一文本行的文字内容是否连续出现在多帧中、某一文字区域是否连续出现在多帧中和连续出现的文字区域的位置特征，并将上述的分析结果拼接成特征向量，作为用于表征文本行在多帧目标视频帧中的连续出现特征的文本行连续特征向量；实际应用中，文本行连续特征向量可以是长度为6的一维特征向量。最后，计算机设备则将文本行连续特征向量，作为文本行在视频中的文字位置特征。

本实施例的技术方案，根据文本行位置信息，确定文本行在多帧目标视频帧中的连续出现信息；并根据该连续出现信息，生成可以用于表征文本行在多帧目标视频帧中的连续出现特征的文本行连续特征向量，从而可以实现在基于文本行在目标视频帧中的重复出现情况这个角度来准确地表征文本行的文本内容与目标视频帧的视频帧内容之间的关联程度。

在一示例性实施例中，根据文本行位置信息，提取出文本行在视频中的文字位置特征，包括：根据文本行位置信息，确定文本行对应的文本块信息；生成与文本块信息对应的文本块特征向量；文本块特征向量用于表征文本行在目标视频帧中的密集程度特征；将文本块特征向量，作为文字位置特征。

其中，文本块信息为目标视频帧中文本行所处的文本块对应的信息。

其中，文本块由至少一个文本行组成。

其中，文本块特征向量用于表征文本行在目标视频帧中的密集程度特征。

实际应用中，文本块信息可以是指文本行所处的文本块包含的文本行数量、文本块的宽高相对图像宽高的比值等信息。

具体实现中，计算机设备可以根据文本行位置信息，确定文本行对应的文本块信息。具体来说，计算机设备可以基于该文本行位置信息中的文本行位置坐标信息，分析文本行是否归于某一文本块中、文本块包含多少条文本行、文本块的宽高相对于图像宽高的比值；最后，计算机设备再将上述的分析结果拼接成特征向量，作为用于表征文本行在目标视频帧的密集程度特征的文本块特征向量。实际应用中，文本块特征向量可以是长度为4的一维特征向量。最后，计算机设备再将该文本块特征向量，作为文本行在视频中的文字位置特征。

本实施例的技术方案，通过根据文本行位置信息，确定文本行对应的文本块信息；生成文本块信息对应的用于准确表征文本行在目标视频帧中的密集程度特征的文本块特征向量，从而可以实现在基于文本行在目标视频帧中的分布密集程度这个角度来准确地表征文本行的文本内容与目标视频帧的视频帧内容之间的关联程度。

在一示例性实施例中，根据文本行区域图像，提取出文本行在视频中的文字外观特征，包括：将文本行区域图像输入至预训练的外观特征提取模型；通过预训练的外观特征提取模型，对文本行区域图像进行外观特征提取，得到文本外观特征向量；将文本外观特征向量，作为文字外观特征。

其中，文本外观特征向量用于表征文本行在目标视频帧中的外观特征。

具体实现中，计算机设备在根据文本行区域图像，提取出文本行在视频中的文字外观特征的过程中，具体包括：计算机设备将文本行区域图像输入至预训练的外观特征提取模型；通过预训练的外观特征提取模型，获得文本外观特征向量。具体来说，计算机设备获取多个预训练的外观特征提取模型，其中，各个外观特征提取模型分别用于判断文本行区域图像中的文本行是否为前景，是否清晰，是否水印，是否艺术字，是否在标题框内。然后，计算机设备分别将文本行区域图像输入至各个预训练的外观特征提取模型，进而通过预训练的外观特征提取模型，判断该文本行区域图像中的文本行是否为前景，是否清晰，是否水印，是否艺术字，是否在标题框内。最后，计算机设备将预训练的外观特征提取模型的特征层输出进行拼接，得到特征向量，作为用于表征文本行在目标视频帧中的外观特征的文本外观特征向量。实际应用中，文本外观特征向量可以是长度为5的一维特征向量。最后，计算机设备再将该文本外观特征向量，作为文本行在视频中的文字外观特征。

本实施例的技术方案，通过将文本行区域图像输入至预训练的外观特征提取模型；并通过该预训练的外观特征提取模型，准确且快速地获得用于表征文本行在目标视频帧中的外观特征的文本外观特征向量，从而可以实现在基于文本行在目标视频帧中的可视化这个角度来准确地表征文本行的文本内容与目标视频帧的视频帧内容之间的关联程度。

在一示例性实施例中，根据文本图像特征和内容关联特征，确定文本行在视频中的结构化信息，包括：对文本图像特征进行分类处理，得到针对文本行的第一文本结构分类结果，第一文本结构分类结果包括有文本行在视频中的第一结构化信息；对内容关联特征进行分类处理，得到针对文本行的第二文本结构分类结果；第二文本结构分类结果包括有文本行在视频中的第二结构化信息；根据第一结构化信息和第二结构化信息中的至少一种，确定文本行在视频中的结构化信息。

具体实现中，计算机设备在根据文本图像特征和内容关联特征，确定文本行在视频中的结构化信息，具体包括：计算机设备可以对文本图像特征进行分类处理，得到包括有文本行在视频中的第一结构化信息的第一文本结构分类结果。同时，计算机设备可以对对内容关联特征进行分类处理，得到包括有文本行在视频中的第二结构化信息的第二文本结构分类结果。

具体来说，计算机设备可以获取预训练的第一文本结构分类模型，并将文本区域图像输入至该预训练的第一文本结构分类模型中，通过预训练的第一文本结构分类模型中的卷积神经网络和激活函数(如，SoftMax函数)的一系列处理，以实现对文本区域图像进行文本结构分类处理，获得文本行的第一文本结构分类结果。

同时，计算机设备可以获取预训练的第二文本结构分类模型，并将内容关联特征输入至该预训练的第二文本结构分类模型中，通过预训练的第二文本结构分类模型中的多层全连接层和激活函数(如，SoftMax函数)的一系列处理，以实现对内容关联特征进行文本结构分类处理，获得文本行的第二文本结构分类结果。

其中，预训练的第一文本分类模型可以为采用卷积神经网络(ConvolutionalNeural Networks,CNN)结构的图像分类模型。

其中，预训练的第二文本分类模型可以为主要由多层全连接层(fully connectedlayers，FC)组成的特征分类模型。

最后，计算机设备可以根据第一结构化信息和第二结构化信息中的至少一种，确定文本行在视频中的结构化信息。

具体来说，计算机设备可以将第一结构化信息或第二结构化信息中的其中一种，作为文本行在视频中的结构化信息。另外，计算机设备还可以对第一结构化信息和第二结构化信息进行融合，进而实现对第一结构化信息和第二结构化信息进行整合，得到准确度高的文本行在视频中的结构化信息。

本实施例的技术方案，通过对文本图像特征进行分类处理，得到针对文本行的第一文本结构分类结果，该第一文本结构分类结果包括有文本行在视频中的第一结构化信息；对内容关联特征进行分类处理，得到针对文本行的第二文本结构分类结果；该第二文本结构分类结果包括有文本行在视频中的第二结构化信息；根据第一结构化信息和第二结构化信息中的至少一种，确定文本行在视频中的结构化信息；如此，可以实现考虑到文本行的文本图像特征和内容关联特征来区分出文本行在视频中的结构化信息，准确地确定文本行在所述视频中的结构化信息。

在一示例性实施例中，根据第一结构化信息和第二结构化信息中的至少一种，确定文本行在视频中的结构化信息，包括：对第一结构化信息和第二结构化信息进行融合，得到融合后结构化信息，作为文本行在视频中的结构化信息。

具体实现中，计算机设备在根据第一结构化信息和第二结构化信息中的至少一种，确定文本行在视频中的结构化信息的过程中，具体包括：计算机设备可以对第一结构化信息和第二结构化信息进行融合，得到融合后结构化信息，作为文本行在视频中的结构化信息。实际应用中，计算机设备可以通过求和取平均、加权求和取平均等方式对第一文本结构分类结果和第二文本结构分类结果进行融合，得到融合后文本结构分类结果。最后，计算机设备将融合后文本结构分类结果所携带的信息作为文本行在视频中的结构化信息。

例如，已知文本行A的第一文本分类结果：文本行A为标题的概率值为0.85，该文本行A为有效信息的概率值为0.95；第二文本分类结果：文本行A为标题的概率值为0.95，该文本行A为有效信息的概率值为0.75；计算机设备可以对将第一文本分类结果和第二文本分类结果取平均，得到文本行对应的文本分类结果即最终的文字归类结果为文本行A为标题的概率值为0.90，该文本行A为有效信息的概率值为0.85。

需要说明的是，计算机设备在对第一文本分类模型和第二文本分类模型进行训练的过程中，计算机设备可以将分别将第一文本分类模型和第二文本分类模型的损失函数相加作为对第一文本分类模型和第二文本分类模型进行训练的过程中最终要降低的损失。

本实施例的技术方案，通过对第一结构化信息和第二结构化信息进行融合，得到融合后结构化信息，作为文本行在视频中的结构化信息，从而可以实现结合第一结构化信息和第二结构化信息确定出进而得到准确地文本分类结果，进而实现了准确地对视频进行视频内容识别操作。

图3是根据一示例性实施例示出的另一种视频内容识别方法的流程图，如图3所示，该视频内容识别方法用于图1的计算机设备110中，包括以下步骤。在步骤S302中，从视频中获取包含有文本行的目标视频帧。在步骤S304中，对所述目标视频帧进行文字识别操作，获得所述文本行对应的文字识别结果；所述文字识别结果所述文字识别结果包括文本行位置信息、文本行内容信息和文本行区域图像。在步骤S306中，将所述文本行区域图像输入至预训练的图像特征提取模型。在步骤S308中，通过所述预训练的图像特征提取模型，对所述文本行区域图像进行图像特征提取，得到所述文本图像特征，以及，根据所述文本行位置信息，提取出所述文本行在所述视频中的文字位置特征，以及，根据所述文本行内容信息，提取出所述文本行在所述视频中的文字内容特征，以及，根据所述文本行区域图像，提取出所述文本行在所述视频中的文字外观特征。在步骤S310中，对所述文字位置特征、所述文字内容特征和所述文字外观特征进行融合，得到所述内容关联特征；所述内容关联特征用于表征所述文本行的文本内容与所述目标视频帧的视频帧内容之间的关联程度。在步骤S312中，对所述文本图像特征进行分类处理，得到针对所述文本行的第一文本结构分类结果，所述第一文本结构分类结果包括有所述文本行在所述视频中的第一结构化信息。在步骤S314中，对所述内容关联特征进行分类处理，得到针对所述文本行的第二文本结构分类结果；所述第二文本结构分类结果包括有所述文本行在所述视频中的第二结构化信息。在步骤S316中，根据所述第一结构化信息和所述第二结构化信息中的至少一种，确定所述文本行在所述视频中的结构化信息；所述结构化信息用于对所述视频进行视频内容识别操作。需要说明的是，上述步骤的具体限定可以参见上文对一种视频内容识别方法的具体限定，在此不再赘述。

应该理解的是，虽然图2和图3的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2和图3中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

为了便于本领域技术人员的理解，图4提供了一种视频内容识别方法的处理流程图。其中，如图4所示，计算机设备需要对某一短视频进行视频内容识别时，计算机设备将短视频进行OCR检测和OCR文字识别，确定出文本行在短视频中的文本区域坐标、文本区域文字内容、文本区域图像等数据。然后，计算机设备可以根据文本行在短视频中的文本区域坐标、文本区域文字内容、文本区域图像等数据，确定出对应的文本行在各个目标视频帧中的重要程度，即提取出文本行的文本行重要特征。

然后，计算机设备可以获取预训练的第一文本分类模型，并将文本区域图像输入至该预训练的第一文本分类模型中，通过预训练的第一文本分类模型中的卷积神经网络和激活函数的一系列处理，以实现对文本区域图像进行分类处理，获得文本行的第一文本分类结果。

文本行重要特征可以包括文本行位置特征、文本色彩特征、文本行内容特征、文本行连续特征、文本块特征(文本行密集特征)和文本外观特征(文本行属性特征)中的至少一种。计算机设备对文本行位置特征、文本色彩特征、文本行内容特征、文本行连续特征、文本块特征和文本外观特征进行拼接，得到拼接后的特征；然后，计算机设备可以将拼接后的特征输入至该预训练的第二文本分类模型中，通过预训练的第二文本分类模型中的多层全连接层和激活函数的一系列处理，以实现对文本行重要特征进行分类处理，获得文本行的第二文本分类结果。

最后，计算机设备再根据第一文本分类结果和第二文本分类结果，确定述文本行对应的文本分类结果。具体来说，计算机设备可以对将第一文本分类结果和第二文本分类结果取平均，作为文本行对应的文本分类结果即最终的文字归类结果。当然，计算机设备还可以第一文本分类结果和第二文本分类结果取进行加权取平均，作为文本行对应的文本分类结果即最终的文字归类结果。

图5是根据一示例性实施例示出的一种视频内容识别装置框图。参照图5，该装置包括：

获取单元510，被配置为执行从视频中获取包含有文本行的目标视频帧；

识别单元520，被配置为执行对所述目标视频帧进行文字识别操作，获得所述文本行对应的文字识别结果；所述文字识别结果所述文字识别结果包括文本行位置信息、文本行内容信息和文本行区域图像；

提取单元530，被配置为执行根据所述文本行区域图像，提取出所述文本行对应的文本图像特征，以及，根据所述文本行位置信息、所述文本行内容信息和所述文本行区域图像，提取出所述文本行对应的内容关联特征；所内容关联特征用于表征所述文本行的文本内容与所述目标视频帧的视频帧内容之间的关联程度；

确定单元540，被配置为执行根据所述文本图像特征和所述内容关联特征，确定所述文本行在所述视频中的结构化信息；所述结构化信息用于对所述视频进行视频内容识别操作。

在一种可能实现方式中，所述提取单元530，具体被配置为执行将所述文本行区域图像输入至预训练的图像特征提取模型；通过所述预训练的图像特征提取模型，对所述文本行区域图像进行图像特征提取，得到所述文本图像特征。

在一种可能实现方式中，所述提取单元530，具体被配置为执行根据所述文本行位置信息，提取出所述文本行在所述视频中的文字位置特征，以及，根据所述文本行内容信息，提取出所述文本行在所述视频中的文字内容特征，以及，根据所述文本行区域图像，提取出所述文本行在所述视频中的文字外观特征；对所述文字位置特征、所述文字内容特征和所述文字外观特征进行融合，得到所述内容关联特征。

在一种可能实现方式中，所述提取单元530，具体被配置为执行根据所述文本行位置信息，确定所述文本行在多帧所述目标视频帧中的连续出现信息；生成与所述连续出现信息对应的文本行连续特征向量；所述文本行连续特征向量用于表征所述文本行在多帧所述目标视频帧中的连续出现特征；将所述文本行连续特征向量，作为所述文字位置特征。

在一种可能实现方式中，所述提取单元530，具体被配置为执行根据所述文本行位置信息，确定所述文本行对应的文本块信息；所述文本块信息为所述目标视频帧中所述文本行所处的文本块对应的信息；所述文本块由至少一个文本行组成；生成与所述文本块信息对应的文本块特征向量；所述文本块特征向量用于表征所述文本行在所述目标视频帧中的密集程度特征；将所述文本块特征向量，作为所述文字位置特征。

在一种可能实现方式中，所述提取单元530，具体被配置为执行生成与所述文本行位置信息对应的文本行位置特征向量；所述文本行位置特征向量用于表征所述文本行在所述目标视频帧中的位置特征；将所述文本行位置特征向量，作为所述文字位置特征。

在一种可能实现方式中，所述提取单元530，具体被配置为执行根据所述文本行内容信息，生成文本行内容特征向量；所述文本行内容特征向量用于表征所述文本行的语句特征和字符特征；将所述文本行内容特征向量，作为所述文字内容特征。

在一种可能实现方式中，所述提取单元530，具体被配置为执行获取与所述文本行区域图像对应的颜色直方图；生成所述颜色直方图对应的文本色彩特征向量；所述文本色彩特征向量用于表征所述文本行在所述目标视频帧中的色彩特征；将所述文本色彩特征向量，作为所述文字外观特征。

在一种可能实现方式中，所述提取单元530，具体被配置为执行将所述文本行区域图像输入至预训练的外观特征提取模型；通过所述预训练的外观特征提取模型，对所述文本行区域图像进行外观特征提取，得到文本外观特征向量；所述文本外观特征向量用于表征所述文本行在所述目标视频帧中的外观特征；将所述文本外观特征向量，作为所述文字外观特征。

在一种可能实现方式中，所述确定单元540，具体被配置为执行对所述文本图像特征进行分类处理，得到针对所述文本行的第一文本结构分类结果，所述第一文本结构分类结果包括有所述文本行在所述视频中的第一结构化信息；对所述内容关联特征进行分类处理，得到针对所述文本行的第二文本结构分类结果；所述第二文本结构分类结果包括有所述文本行在所述视频中的第二结构化信息；根据所述第一结构化信息和所述第二结构化信息中的至少一种，确定所述文本行在所述视频中的结构化信息。

在一种可能实现方式中，所述确定单元540，具体被配置为执行对所述第一结构化信息和所述第二结构化信息进行融合，得到融合后结构化信息，作为所述文本行在所述视频中的结构化信息。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图6是根据一示例性实施例示出的一种用于执行视频内容识别方法的设备600的框图。例如，设备600可以是移动电话、计算机、数字广播终端、消息收发设备、游戏控制台、平板设备、医疗设备、健身设备、个人数字助理等。

参照图6，设备600可以包括以下一个或多个组件：处理组件602、存储器604、电力组件606、多媒体组件608、音频组件610、输入/输出(I/O)的接口612、传感器组件614以及通信组件616。

处理组件602通常控制设备600的整体操作，诸如与显示、电话呼叫、数据通信、相机操作和记录操作相关联的操作。处理组件602可以包括一个或多个处理器620来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件602可以包括一个或多个模块，便于处理组件602和其他组件之间的交互。例如，处理组件602可以包括多媒体模块，以方便多媒体组件608和处理组件602之间的交互。

存储器604被配置为存储各种类型的数据以支持在设备600的操作。这些数据的示例包括用于在设备600上操作的任何应用程序或方法的指令、联系人数据、电话簿数据、消息、图片、视频等。存储器604可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(7RAM)、电可擦除可编程只读存储器(EEPROM)、可擦除可编程只读存储器(EPROM)、可编程只读存储器(PROM)、只读存储器(ROM)、磁存储器、快闪存储器、磁盘或光盘。

电源组件606为设备600的各种组件提供电力。电源组件606可以包括电源管理系统，一个或多个电源，及其他与为设备600生成、管理和分配电力相关联的组件。

多媒体组件608包括在所述设备600和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件608包括一个前置摄像头和/或后置摄像头。当设备600处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件610被配置为输出和/或输入音频信号。例如，音频组件610包括一个麦克风(MIC)，当设备600处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器604或经由通信组件616发送。在一些实施例中，音频组件610还包括一个扬声器，用于输出音频信号。

I/O接口612为处理组件602和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件614包括一个或多个传感器，用于为设备600提供各个方面的状态评估。例如，传感器组件614可以检测到设备600的打开/关闭状态，组件的相对定位，例如所述组件为设备600的显示器和小键盘，传感器组件614还可以检测设备600或设备600一个组件的位置改变，用户与设备600接触的存在或不存在，设备600方位或加速/减速和设备600的温度变化。传感器组件614可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件614还可以包括光传感器，如CMO7或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件614还可以包括加速度传感器、陀螺仪传感器、磁传感器、压力传感器或温度传感器。

通信组件616被配置为便于设备600和其他设备之间有线或无线方式的通信。设备600可以接入基于通信标准的无线网络，如WiFi，运营商网络(如2G、3G、4G或5G)，或它们的组合。在一个示例性实施例中，通信组件616经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件616还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，设备600可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器604，上述指令可由设备600的处理器620执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图7是根据另一示例性实施例示出的一种用于执行视频内容识别方法的的设备700的框图。例如，设备700可以为一服务器。参照图7，设备700包括处理组件720，其进一步包括一个或多个处理器，以及由存储器722所代表的存储器资源，用于存储可由处理组件720的执行的指令，例如应用程序。存储器722中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件720被配置为执行指令，以执行上述的视频内容识别方法。

设备700还可以包括一个电源组件724被配置为执行设备700的电源管理，一个有线或无线网络接口726被配置为将设备700连接到网络，和一个输入输出(I/O)接口728。设备700可以操作基于存储在存储器722的操作系统，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeB7DTM或类似。

在示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器722，上述指令可由设备700的处理器执行以完成上述方法。存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种视频内容识别方法，其特征在于，所述方法包括：

从视频中获取包含有文本行的目标视频帧；

2.根据权利要求1所述的视频内容识别方法，其特征在于，所述根据所述文本行位置信息、所述文本行内容信息和所述文本行区域图像，提取出所述文本行对应的内容关联特征，包括：

3.根据权利要求2所述的视频内容识别方法，其特征在于，所述根据所述文本行位置信息，提取出所述文本行在所述视频中的文字位置特征，包括：

将所述文本行连续特征向量，作为所述文字位置特征。

4.根据权利要求2所述的视频内容识别方法，其特征在于，所述根据所述文本行内容信息，提取出所述文本行在所述视频中的文字内容特征，包括：

将所述文本行内容特征向量，作为所述文字内容特征。

5.根据权利要求2所述的视频内容识别方法，其特征在于，所述根据所述文本行区域图像，提取出所述文本行在所述视频中的文字外观特征，包括：

获取与所述文本行区域图像对应的颜色直方图；

将所述文本色彩特征向量，作为所述文字外观特征。

6.根据权利要求2所述的视频内容识别方法，其特征在于，所述根据所述文本行区域图像，提取出所述文本行在所述视频中的文字外观特征，包括：

将所述文本行区域图像输入至预训练的外观特征提取模型；

将所述文本外观特征向量，作为所述文字外观特征。

7.根据权利要求1至6任一项所述的视频内容识别方法，其特征在于，所述根据所述文本图像特征和所述内容关联特征，确定所述文本行在所述视频中的结构化信息，包括：

8.一种视频内容识别装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至7中任一项所述的视频内容识别方法。

10.一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至7中任一项所述的视频内容识别方法。