CN111147891B

CN111147891B - 视频画面中对象的信息的获取方法、装置及设备

Info

Publication number: CN111147891B
Application number: CN201911409025.6A
Authority: CN
Inventors: 肖丁
Original assignee: Hangzhou Weipei Network Technology Co ltd
Current assignee: Hangzhou Weipei Network Technology Co ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2022-09-13
Anticipated expiration: 2039-12-31
Also published as: CN111147891A

Abstract

本发明实施例提供的一种视频画面中对象的信息的获取方法、装置及设备，获取视频中的视频帧以及所述视频帧的画面类型；所述画面类型包括：待识别对象为文字对象的文字类型，以及待识别对象为人物对象的人物类型；利用与所述画面类型对应的识别模型，从所述视频帧中识别与所述画面类型对应的预存对象信息匹配的内容，作为所述视频帧的对象信息；基于所述视频中各视频帧的对象信息，获得所述视频的视频画面中对象的信息。通过本方案，可以自动获取视频画面中对象的信息。

Description

视频画面中对象的信息的获取方法、装置及设备

技术领域

本发明涉及图像识别技术领域，特别是涉及一种视频画面中对象的信息的获取方法、装置及设备。

背景技术

随着视频技术的发展，视频画面呈现的内容可以包括多样化的对象，例如，文字形式的内容：文字对象；人像形式的内容：人物对象等等。并且，示例性的，视频画面中文字对象的对象信息具体可以包括：影视剧中的演职人员名称和角色名称，比赛视频中比赛选手的名称等等；人物对象的对象信息具体可以包括：影视剧中的人像代表的演员名称、角色名称以及演员作品等等，比赛视频中的人像代表的参赛选手名称、所在阵营以及国籍等等信息。

对此，为了使视频的观众以及视频评价平台等等存在视频画面中对象的信息获取需求的主体，能够直观以及快速地了解视频画面中对象的信息，需要自动获取视频画面中对象的信息。

发明内容

本发明实施例的目的在于提供一种视频画面中对象的信息的获取方法、装置及设备，以实现自动获取视频画面中对象的信息的效果。具体技术方案如下：

第一方面，本发明实施例提供了一种视频画面中对象的信息的获取方法，该方法包括：

获取视频中的视频帧以及所述视频帧的画面类型；所述画面类型包括：待识别对象为文字对象的文字类型，以及待识别对象为人物对象的人物类型；

利用与所述画面类型对应的识别模型，从所述视频帧中识别与所述画面类型对应的预存对象信息匹配的内容，作为所述视频帧的对象信息；

基于所述视频中各视频帧的对象信息，获得所述视频的视频画面中对象的信息。

可选的，所述获取视频中视频帧的画面类型，包括：

获取所述视频帧的时间戳；所述时间戳用于表明所述视频帧在所述视频中的播放时间点；

从所述视频对应的预存的时间戳与画面类型的对应关系中，查找所述视频帧的时间戳对应的画面类型，作为所述视频帧的画面类型。

可选的，与所述文字类型对应的预存对象信息包括：预存的人物名称信息；

所述利用与所述画面类型对应的识别模型，从所述视频帧中识别与所述画面类型对应的预存对象信息匹配的内容，作为所述视频帧的对象信息，包括：

获取所述文字类型的视频帧中第一指定区域的图像，作为第一待检图像；

利用预先训练得到的第一神经网络模型，对所述第一待检图像进行文本检测，得到所述第一待检图像中存在文字信息的文字区域，并将所得到的文字区域作为待识别图像；其中，所述第一神经网络模型为利用第一样本图像和所述第一样本图像中文字区域的标注框训练得到的；

利用预先训练得到的第二神经网络模型，对所述待识别图像进行文本识别，得到所述待识别图像中的文字信息；其中，所述第二神经网络模型为利用第二样本图像和所述第二样本图像中的人物名称信息训练得到的；所述第二样本图像为存在所述预存的人物名称信息的图像；

将所得到的文字信息作为所述视频帧的对象信息。

可选的，所述第一待检图像中存在文字信息的文字区域的数量为多个；

所述将所得到的文字区域作为待识别图像，包括：

获取所得到的多个文字区域在所述第一待检图像中的坐标信息，以及所述界面图像中文字信息的分布方向；

基于每个文字区域的所述坐标信息，按照所述分布方向对所得到的多个文字区域进行拼接，得到待识别图像。

可选的，所述将所得到的文字信息作为所述视频帧的对象信息，包括：

分别计算所得到的文字信息与多个预存对象信息之间的相似度，得到多个第一相似度；

将所述多个第一相似度中符合第一预设相似条件的相似度，作为第一目标相似度；

利用所述第一目标相似度对应的预存对象信息，对所得到的文字信息进行修正，得到修正后的文字信息；

将所述修正后的文字信息作为所述文字类型的视频帧的对象信息。

可选的，与所述人物类型对应的预存对象信息包括：预存的人物头部图像；

获取该人物类型的视频帧中第二指定区域的图像，作为第二待检图像；

分别计算所述第二待检图像与多个预存的人物头部图像之间的相似度，得到多个第二相似度；

将所述多个第二相似度中符合第二预设相似条件的相似度，作为第二目标相似度，并将所述第二目标相似度对应的预存的人物头部图像，作为目标人物头部图像；

从预存的人物头部图像与人物名称信息的对应关系中，查找所述目标人物头部图像对应的人物名称信息，作为所述视频帧的对象信息。

可选的，所述分别计算所述第二待检图像与多个预存的人物头部图像之间的相似度，得到多个第二相似度，包括：

针对每个预存的人物头部图像，计算所述第二待检图像中每个像素点的像素值，与该预存的人物头部图像的全局平均像素值之间的差异值，得到与该预存的人物头部图像对应的第一差异值；其中，所述全局平均像素值为预存的人物头部图像中全部像素点的像素值的平均值；

针对每个预存的人物头部图像，计算该预存的人物头部图像中每个像素点的像素值，与该预存的人物头部图像的全局平均像素值之间的差异值，得到与该预存的人物头部图像对应的第二差异值；

针对每个预存的人物头部图像，利用该预存的人物头部图像对应的所述第二差异值，对该预存的人物头部图像对应的所述第一差异值进行归一化，得到所述第二待检图像与该预存的人物头部图像之间的第二相似度。

第二方面，本发明实施例提供了一种视频画面中对象的信息的获取装置，该装置包括：

基础数据获取模块，用于获取视频中的视频帧以及所述视频帧的画面类型；所述画面类型包括：画面内容包括文字对象的文字类型，以及画面内容包括人物对象的人物类型；

视频帧对象信息获取模块，用于利用与所述画面类型对应的识别模型，从所述视频帧中识别与所述画面类型对应的预存对象信息匹配的内容，作为所述视频帧的对象信息；

视频对象信息获取模块，用于基于所述视频中各视频帧的对象信息，获得所述视频的对象信息。

所述视频帧对象信息获取模块，具体用于：

获取该文字类型的视频帧中第一指定区域的图像，作为第一待检图像；

将所得到的文字信息作为所述视频帧的对象信息。

第三方面，本发明实施例提供了一种电子设备，该设备包括：

处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序，实现上述第一方面提供的视频画面中对象的信息的获取方法的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，该存储介质内存储有计算机程序，该计算机程序被处理器执行时实现上述第一方面提供的视频画面中对象的信息的获取方法的步骤。

本发明提供的方案中，通过获取视频中视频帧的画面类型；进而利用与画面类型对应的识别模型，从视频帧中识别与画面类型对应的预存对象信息匹配的内容，作为视频帧的对象信息；从而基于视频中各视频帧的对象信息，获得所述视频的对象信息。由于画面类型包括：画面内容包括文字对象的文字类型，以及画面内容包括人物对象的人物类型，因此，可以按照画面类型，对视频帧中的对象进行识别。在此基础上，利用与画面类型对应的识别模型，从视频帧中识别的与画面类型对应的预存对象信息匹配的内容，为视频帧中的对象信息，进而可以基于视频中各视频帧的对象信息，获得视频的视频画面中对象的信息，实现视频画面中对象的信息的自动获取。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明一实施例提供的视频画面中对象的信息的获取方法的流程示意图；

图2为本发明一实施例提供的视频画面中对象的信息的获取方法中，第一指定区域的示例图；

图3为本发明一实施例提供的视频画面中对象的信息的获取方法中，第二指定区域的示例图；

图4为本发明一实施例提供的视频画面中对象的信息的获取装置的结构示意图；

图5为本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为了使本领域技术人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面首先对本发明一实施例的视频画面中对象的信息的获取方法进行介绍。

本发明实施例提供的视频画面中对象的信息的获取方法，可以应用于电子设备，该设备具体可以包括台式计算机、便携式计算机、互联网电视，智能移动终端、可穿戴式智能终端、服务器等，在此不作限定，任何可以实现本发明实施例的电子设备，均属于本发明实施例的保护范围。

如图1所示，本发明一实施例的视频画面中对象的信息的获取方法的流程，该方法可以包括：

S101，获取视频中的视频帧，以及该视频帧的画面类型；画面类型包括：待识别对象为文字对象的文字类型，以及待识别对象为人物对象的人物类型。

由于视频画面中对象具有多样化的特点，因此，为了后续能够通过步骤S102以针对性的识别模型，相对而言更加准确高效地识别视频帧中待识别对象的对象信息，可以按照视频的画面内容中需要获取对象信息的待识别对象的差异，对视频帧的画面类型进行划分。具体的，可以将待识别对象为文字对象的视频帧的画面类型划分为文字类型，将待识别对象为人物对象的视频帧的画面类型划分为人物类型。举例而言，电影中待识别对象包括演职人员名称，以及首次出场的人物，因此，可以将片尾字幕所在的视频帧的画面类型划分为文字类型，将各人物首次出场时的视频帧的画面类型划分为人物类型。在一种可选的实施方式中，获取视频中视频帧的画面类型，具体可以包括如下步骤：

获取视频帧的时间戳；时间戳用于表明视频帧在视频中的播放时间点；

从视频对应的预存的时间戳与画面类型的对应关系中，查找视频帧的时间戳对应的画面类型，作为视频帧的画面类型。

在具体应用中，视频中的人物对象和文字对象的出现时间点可以预先获知的，因此，可以按照视频帧的时间戳确定视频帧的画面类型。其中，示例性的，人物对象和文字对象的出现时机可以预先获知的视频具体可以包括：影视剧、传统体育比赛的视频以及电竞比赛的视频等等视频。任何人物对象和文字对象的出现时间点可以预先获知的视频均适用于本发明，本实施例对此不作限制。并且，不同的视频中待识别对象所在视频帧的时间戳不同，不同视频可以分别有各自的预存的时间戳与画面类型的对应关系，因此，需要从视频对应的预存的时间戳与画面类型的对应关系中，查找视频帧的时间戳对应的画面类型，作为视频帧的画面类型。

举例而言，某一影视剧中片头、片尾以及角色A首次在影视剧中的出现时间点可以预先获知，分别为时间戳T1、时间戳T2以及时间戳T3，可以将该影视剧中在时间戳T1播放的视频帧的画面类型确定为文字类型，在时间戳T2播放的视频帧的画面类型确定为人物类型，在时间戳T3播放的视频帧的画面类型确定为文字类型。传统体育比赛的视频中，例如某一乒乓球比赛视频中，参赛队员首次上场时间点以及展示分数的报分时间点可以预先获知，分别为时间戳T4和时间戳T5，可以将该乒乓球比赛的视频中在时间戳T4播放的视频帧的画面类型确定为人物类型，在时间戳T5播放的视频帧的画面类型确定为文字类型。电竞比赛的视频中，例如在MOBA(Multiplayer Online Battle Arena，多人在线战术竞技游戏)类型的电竞比赛的视频中，禁用英雄的时间点和选择英雄的时间点可以预先获知，分别为时间戳T6和时间戳T7，可以将电竞比赛的视频中在时间戳T6播放的视频帧的画面类型确定为人物类型，在时间戳T7播放的视频帧的画面类型确定为文字类型。

另外，视频的视频帧的获取方式可以是多种的。示例性的，可以从视频中直接截取视频帧。或者，示例性的，当视频为直播视频时，可以将视频的视频标识输入用于返回视频帧的指定接口，以使得指定接口返回视频标识对应的视频的视频帧。其中，指定接口可以由提供直播视频的直播平台官方提供。任何视频的视频帧的获取方式均可用于本发明，本实施例对此不作限制。并且，示例性的，视频帧的时间戳的获取方式，具体可以包括：从视频中读取视频帧的时间戳，或者，从视频对应的预先存储的视频帧和时间戳的对应关系中，查找所获取的视频帧对应的时间戳。任何视频帧的时间戳的获取方式均可用于本发明，本实施例对此不作限制。

S102，利用与画面类型对应的识别模型，从视频帧中识别与画面类型对应的预存对象信息匹配的内容，作为视频帧的对象信息。

在具体应用中，文字类型对应的预存对象信息为文字，人物类型对应的预存对象信息为图像；并且，视频帧为图像形式的数据。因此，为了从视频帧中识别与画面类型对应的预存对象信息匹配的内容，与文字类型对应的识别模型为用于从图像中识别与文字的模型；与人物类型对应的识别模型为用于从图像中识别人像的模型。为了合理布局和便于理解，后续以可选实施例的形式对识别与画面类型对应的预存对象信息匹配的内容的方式进行具体说明。

S103，基于视频中各视频帧的对象信息，获得视频的对象信息。

在具体应用中，基于视频中各视频帧的对象信息，获得视频的对象信息的方式可以是多种的。示例性的，可以在每得到视频的一个视频帧的对象信息时，将该视频帧的对象信息作为该视频的对象信息，以提高视频的对象信息获取的实时性。或者，示例性的，可以在得到视频的全部视频帧的对象信息时，将全部视频帧的对象信息作为该视频的对象信息。或者，示例性的，当视频帧的对象信息为人物名称时，可以从预存的人物名称与人物资料的对应关系中，查找视频帧的对象信息对应的人物资料，作为该视频的对象信息。并且，与第一个和第二个示例性说明类似的，可以在每得到一个视频帧时查找人物资料，作为视频的人物对象信息；或者，将查找到全部视频帧对应的人物资料作为视频的人物对象信息。

另外，获得视频的人物对象信息后，可以将视频的人物对象信息输出给视频播放平台，用户客户端以及视频评价平台等等存在视频的对象信息的获取需求的主体。

可选的与上述文字类型对应的预存对象信息具体可以包括：预存的人物名称信息；

相应的，上述利用与画面类型对应的识别模型，从视频帧中识别与画面类型对应的预存对象信息匹配的内容，作为视频帧的对象信息，具体可以包括如下步骤A1至步骤D1：

步骤A1，获取该文字类型的视频帧中第一指定区域的图像，作为第一待检图像；

步骤B1，利用预先训练得到的第一神经网络模型，对第一待检图像进行文本检测，得到待检图像中存在文字信息的文字区域，并将所得到的文字区域作为待识别图像；其中，第一神经网络模型为利用第一样本图像和第一样本图像中文字区域的标注框训练得到的；

步骤C1，利用预先训练得到的第二神经网络模型，对待识别图像进行文本识别，得到待识别图像中的文字信息；其中，第二神经网络模型为利用第二样本图像和第二样本图像中的人物名称信息训练得到的；第二样本图像为存在预存的人物名称信息的图像；

步骤D1，将所得到的文字信息作为视频帧的对象信息。

其中，第一指定区域为视频帧中，展示文字对象的区域。在任一影视剧、传统体育比赛的视频以及电竞比赛的视频中，第一指定区域往往为固定区域。示例性的，电竞比赛的视频帧为电竞比赛的游戏界面图像，如图2所示，电竞比赛的视频帧如界面图像201，界面图像201中第一指定区域202为固定区域。并且，获取第一指定区域的图像的方式，具体可以是多种的。示例性的，可以按照与对视频帧中各像素点在界面图像中的坐标，截取界面图像中像素点的坐标属于第一预存坐标的部分，作为第一指定区域的图像。其中，第一预存坐标为第一指定区域的边界坐标，例如第一指定区域202中各顶点的坐标。或者，示例性的，在任一电竞比赛的视频帧中，第一指定区域的画面内容与界面图像中其他区域的画面内容存在差异。因此，可以对视频帧进行边缘检测，将界面图像中像素值满足第一预设边缘条件的部分，作为第一指定区域的图像。其中，第一预设边缘条件为表明属于第一指定区域的像素值的条件。并且，当电竞比赛的视频为直播视频时，为了提高观赏性，选择英雄的直播画面很可能具有放大特效。此时，利用边缘检测的方式获取第一指定区域的画面，与利用第一预存坐标的方式相比，可以减少界面图像大小改变引起的第一指定区域大小改变，导致所获取的第一指定区域的图像不准确的问题，提高第一指定区域的图像的准确度。类似的，影视剧A的片尾字幕在视频帧的右侧，则影视剧A的第一指定区域为视频帧的右侧；影视剧B的片尾字幕在视频帧的中间，则影视剧B的第一指定区域为视频帧的中间。并且，任一视频的视频帧中第一指定区域的图像的获取方式，与上述以电竞比赛的视频为例的示例性说明中，第一指定区域的图像的获取方式类似，区别在于视频帧所在的视频不同。

在具体应用中，人物名称往往是多样化的，相应的，人物名称展示在界面图像中时，名称的间隔和长度为多样化的，第一待检图像中存在文字信息的文字区域不同。对此，为了适应多样化的文字区域，可以将对视频帧中文字信息的识别分为两个部分：第一部分为步骤B1，用于进行文本检测，以从待检图像中确定文字区域，得到第一待检图像；第二部分为步骤C1，用于进行文字识别，以从文字区域中识别文字信息，得到视频帧的对象信息。为此，步骤B1中可以利用第一样本图像和第一样本图像中文字区域的标注框训练得到的第一神经网络模型，对第一待检图像进行文本检测，得到待检图像中存在文字信息的文字区域，并将所得到的文字区域作为待识别图像，以便在步骤C1中识别待识别图像中的文字信息。第一样本图像为存在文字的图像，数量可以为多个。并且，第二样本图像为存在预存的人物名称信息的图像，因此，利用第二样本图像和第二样本图像中的人物名称信息训练得到的第二神经网络模型，可以对待识别图像进行文本识别，得到待识别图像中的文字信息。

示例性的，步骤B1中的第一神经网络模型具体可以为EAST(An Efficient andAccurate Scene Text Detector，高效而准确的场景文本检测)模型，EAST模型通过输入EAST模型的图像中的两个特征检测文本区域。两个特征具体如下表一所示：

几何形状	通道数	描述参数
			AABB	4	R＝{d<sub>i</sub>∣i∈{1,2,3,4}}
RBOX	5	{R,θ}
			QUAD	8	Q＝{(Δx<sub>i</sub>,Δy<sub>i</sub>)∣i∈{1,2,3,4}}

其中，两个特征包括两种几何形状：RBOX(旋转框)和QUAD(水平)，RBOX的几何形状由4个通道的水平边界框R和1个通道的旋转角度θ表示；其中，水平边界框R可以用AABB表示，4个通道具体分别表示从像素位置到矩形的顶部，右侧，底部，左侧边界的4个距离d_i。QUAD使用8个通道表示从矩形的4个顶点到像素位置的坐标偏移，由于每个距离偏移量包括(Δx_i；Δy_i)，因此几何形状输出包含8个通道。具体的，EAST模型中存在与每种几何形状分别对应的不同的损失函数，相应的，每种几何形状分别对应不同的阈值；EAST模型将各阈值应用于图像中的各个预测区域，当预测区域的评分超过任一阈值时，可以将具有该阈值对应的几何形状的预测区域，确定为存在文字信息的文字区域。

可选的，上述第一待检图像中存在文字信息的文字区域的数量为多个；

相应的，上述将所得到的文字区域作为待识别图像，具体可以包括如下步骤：

获取所得到的多个文字区域在第一待检图像中的坐标信息，以及界面图像中文字信息的分布方向；

基于每个文字区域的坐标信息，按照分布方向对所得到的多个文字区域进行拼接，得到待识别图像。

在具体应用中，当人物名称相对而言较长时，该人物名称很可能分为两行显示，此时，第一待检图像中存在文字信息的文字区域的数量为多个。对此，为了得到完整且准确的人物名称，可以获取所得到的多个文字区域在第一待检图像中的坐标信息，以及界面图像中文字信息的分布方向；进而基于每个文字区域的坐标信息，按照分布方向对所得到的多个文字区域进行拼接，得到待识别图像。其中，视频帧中文字信息的分布方向为预先在视频中设置好的，具体可以按照分行方向和文字排序方向分为多种的。示例性的，视频帧中文字信息的分布方向可以包括以下方向中的任一种：上下分行，从左到右排序；上下分行，从右到左排序；从左到右分行，从上到下排序；从右到左分行，从上到下排序。举例而言，某一MOBA类型的电竞比赛为关于游戏P1的比赛，游戏P1中玩家选择的英雄的名称在界面图像中分为上下两行，且文字排序方向为从左到右；此时，代表界面图像的视频帧中文字信息的分布方向可以包括：上下分行，从左到右排序。

并且，对应于不同的文字信息的分布方向，基于每个文字区域的坐标信息，按照分布方向对所得到的多个文字区域进行拼接，得到待识别图像，具体可以是多种的。示例性的，当视频帧中文字信息的分布方向为上下分行，从左到右排序时，可以按照X坐标从小到大的顺序，对所得到的多个文字区域中Y坐标相同的文字区域进行拼接，得到多行拼接区域；并按照Y坐标从大到小的顺序，将所得到的多行拼接区域进行拼接；得到待识别图像。或者，示例性的，当视频帧中文字信息的分布方向为上下分行，从右到左排序时，可以按照X坐标从大到小的顺序，对所得到的多个文字区域中Y坐标相同的文字区域进行拼接，得到多行拼接区域；并按照Y坐标从大到小的顺序，将所得到的多行拼接区域进行拼接；得到待识别图像。或者，示例性的，当视频帧中文字信息的分布方向为从左到右分行，从上到下排序时，可以按照Y坐标从大到小的顺序，对所得到的多个文字区域中X坐标相同的文字区域进行拼接，得到多行拼接区域；并按照X坐标从大到小的顺序，将所得到的多行拼接区域进行拼接，得到待识别图像。或者，示例性的，当视频帧中文字信息的分布方向为从右到左分行，从上到下排序时，可以按照Y坐标从大到小的顺序，对所得到的多个文字区域中X坐标相同的文字区域进行拼接，得到多行拼接区域；并按照X坐标从小到大的顺序，将所得到的多行拼接区域进行拼接，得到待识别图像。

在通过上述步骤B1得到待检图像中存在文字信息的文字区域，并将所得到的文字区域作为待识别图像后，可以通过步骤C1识别待识别图像中的文字信息。示例性的，步骤C1中的第二神经网络模型具体可以为Tesseract4.0。Tesseract4.0为基于LSTM(Long ShortTerm Memory Network，长短时记忆模型)训练得到的识别模型，可以作为用于进行文字识别的开源OCR(Optical Character Recognition,光学字符识别)引擎。

由于第二神经网络模型为利用第二样本图像和第二样本图像中的人物名称信息训练得到的；并且，第二样本图像为存在预存的人物名称信息的图像，因此，通过上述步骤C1得到的待识别图像中的文字信息，为视频帧中文字类型的视频帧中人物对象的人物名称信息，可以执行步骤D1：将所得到的文字信息作为视频帧的对象信息。

可选的，上述步骤D1：将所得到的文字信息作为视频帧的对象信息，具体可以包括如下步骤：

将多个第一相似度中符合第一预设相似条件的相似度，作为第一目标相似度；

利用第一目标相似度对应的预存对象信息，对所得到的文字信息进行修正，得到修正后的文字信息；

将修正后的文字信息作为文字类型的视频帧的对象信息。

在具体应用中，视频帧中像素的变化可能影响步骤C1中对待识别图像进行的文本识别，导致对文字信息的误识别。举例而言，可能将数字“l”识别为字母"i"，将字母“o”识别为数字“0”，将字母“s”识别为数字“5”等等误识别。对此，可以利用多个预存对象信息，对步骤C1中得到的文字信息进行修正，提高文字信息识别的准确度。示例性的，计算所得到的文字信息与多个预存对象信息之间的相似度，具体可以是针对多个预存对象信息，将该预存对象信息和所得到的文字信息输入Levenshtein距离(编辑距离)模型，计算得到该预存对象信息对应的第一相似度。其中，第一相似度反映所得到的文字信息修正为与预存对象信息匹配的信息时，所经过的处理次数。例如：所得到的文字信息为kitten，预存对象信息为sitting，二者之间的第一相似度Levenshtein距离为3，则将kitten修正为sitting经过的处理次数为3。

并且，每个预存对象信息具体可以为一个人物的名称信息。因此，第一相似度越小，表明将所得到的文字信息处理为与该第一相似度对应的预存对象信息相匹配的信息时，所经过的处理次数越少，所得到的文字信息与该第一相似度对应的预存对象信息越相似。为了相对而言更加准确地修正所得到的文字信息，第一相似度需要符合第一预设相似条件。第一预设相似条件用于选择与所得到的文字信息最相似的预设对象信息，具体可以包括：多个第一相似度中最小的第一相似度，或者，小于预设相似度阈值的相似度等等。与说得到需要多少次处理才能变为模板对应的文本。在此基础上，利用第一目标相似度对应的预存对象信息，对所得到的文字信息进行修正，具体可以包括：将所得到的文字信息中与第一目标相似度对应的预存对象信息不同的文字，替换为第一目标相似度对应的预存对象信息中的文字。举例而言，将所得到的文字信息kitten修正为第一目标相似度对应的预存对象信息sitting的处理过程可以包括：第一次处理将k修正为s：kitten→sitten；第二次处理将e修正为i：sitten→sittin；第二次处理将文字信息末位加入g：sittin→sitting。

可选的，与人物类型对应的预存对象信息具体可以包括：预存的人物头部图像；

相应的，上述利用与画面类型对应的识别模型，从视频帧中识别与画面类型对应的预存对象信息匹配的内容，作为视频帧的对象信息，具体可以包括如下步骤A2至步骤D2：：

步骤A2，获取该人物类型的视频帧中第二指定区域的图像，作为第二待检图像；

步骤B2，分别计算第二待检图像与多个预存的人物头部图像之间的相似度，得到多个第二相似度；

步骤C2，将多个第二相似度中符合第二预设相似条件的相似度，作为第二目标相似度，并将第二目标相似度对应的预存的人物头部图像，作为目标人物头部图像；

步骤D2，从预存的人物头部图像与人物名称信息的对应关系中，查找目标人物头部图像对应的人物名称信息，作为视频帧的对象信息。

其中，第二指定区域为视频帧中展示人物对象的区域。在任一视频中，第二指定区域往往为固定区域。示例性的，如图3所示，在电竞比赛的视频帧中，如界面图像301中，第二指定区域302为固定区域。并且，获取第二指定区域的图像的方式，具体可以是多种的。示例性的，可以按照与视频帧中各像素点在界面图像中的坐标，截取界面图像中像素点的坐标属于第二预存坐标的部分，作为第二指定区域的图像。其中，第二预存坐标为第二指定区域的边界坐标，例如第二指定区域302中各顶点的坐标。或者，示例性的，在任一电竞比赛的视频帧中，第二指定区域的画面内容与界面图像中其他区域的画面内容存在差异。因此，可以对界面图像进行边缘检测，将界面图像中像素值满足第二预设边缘条件的部分，作为第二指定区域的图像。其中，第二预设边缘条件为表明属于第二指定区域的像素值的条件。并且，当电竞比赛的视频为直播视频时，为了提高观赏性，禁用英雄的直播画面很可能进行放大特效。此时，利用边缘检测的方式获取第二指定区域的画面，与利用第二预存坐标的方式相比，可以减少界面图像大小改变引起的第二指定区域大小改变，导致所获取的第二指定区域的图像不准确的问题，提高第二指定区域的图像的准确度。类似的，乒乓球比赛视频的参赛队员首次上场时出现在视频帧的中间，因此，第二指定区域可以为乒乓球比赛视频中，参赛队员首次上场的时间戳对应的视频帧的中间区域。并且，任一视频的视频帧中第二指定区域的图像的获取方式，与上述以电竞比赛的视频为例的示例性说明中，第二指定区域的图像的获取方式类似，区别在于视频帧所在的视频不同。

在此基础上，由于人物类型的视频帧对应的预存对象信息为预存的人物头部图像，并且，人物类型的视频帧中的对象信息在视频帧中展示为人物头部图像，因此，为了获得人物类型的视频帧的对象信息，可以通过步骤B2至C2识别第二指定区域中的人物头部图像，进而通过步骤D2获取所识别的人物头部图像代表的人物的名称信息。可选的，上述步骤B2：分别计算第二待检图像与多个预存的人物头部图像之间的相似度，得到多个第二相似度，具体可以包括如下步骤：

针对每个预存的人物头部图像，计算第二待检图像中每个像素点的像素值，与该预存的人物头部图像的全局平均像素值之间的差异值，得到与该预存的人物头部图像对应的第一差异值；其中，全局平均像素值为预存的人物头部图像中全部像素点的像素值的平均值；

针对每个预存的人物头部图像，利用该预存的人物头部图像对应的第二差异值，对该预存的人物头部图像对应的第一差异值进行归一化，得到第二待检图像与该预存的人物头部图像之间的第二相似度。

示例性的，针对每个预存的人物头部图像，第二待检图像中每个像素点的像素值，与该预存的人物头部图像的全局平均像素值之间的差异值的计算方式，具体可以包括：将该预存的人物头部图像和第二待检图像输入第一差异值计算公式，得到第一差异值。其中，第一差异值计算公式具体可以包括公式一：

I’(x+x’,y+y’)＝I(x+x’,y+y’)-1/(w·h)·[∑_x”，y”I(x+x”,y+y”)]；

其中，I代表第二待检图片；I’(x+x’,y+y’)为第一差异值；w为预存的人物头部图像的宽，h为预存的人物头部图像的长；x为第二待检图像中每个像素点的横坐标，y为第二待检图像中每个像素点的纵坐标；x’为预存的人物头部图像中每个像素点的横坐标的集合，y’为第二待检图像中每个像素点的纵坐标的集合；x”为预存的人物头部图像中每个像素点的横坐标，y”为第二待检图像中每个像素点的纵坐标。并且，x”∈x’＝[0...w-1]，y”∈y’＝[0...h-1]。

示例性的，针对每个预存的人物头部图像，该预存的人物头部图像中每个像素点的像素值，与该预存的人物头部图像的全局平均像素值之间的差异值的计算方式，具体可以包括：将该预存的人物头部图像输入第二差异值计算公式，得到第二差异值。其中，第二差异值计算公式具体可以包括公式二：

T’(x’,y’)＝T(x’,y’)-1/(w·h)·[∑_x”,y”T(x’,y’)]；

其中，T代表预存的人物头部图像，T’(x’,y’)为第二差异值。

示例性的，针对每个预存的人物头部图像，利用该预存的人物头部图像对应的第二差异值，对该预存的人物头部图像对应的第一差异值进行归一化，得到第二待检图像与该预存的人物头部图像之间的第二相似度，具体可以包括：将该预存的人物头部图像对应的第二差异值和第一差异值输入预设归一化公式，得到第二待检图像与该预存的人物头部图像之间的第二相似度。其中，预设归一化公式具体可以包括公式三：

其中，R为第二相似度。

通过上述公式三的归一化处理，可以将第二相似度控制在0-1之间，去除大数的影响。并且，由于第一差异值为待检图像中每个像素点的像素值和预存的人物头部图像的全局平均像素值之间的差异值，第二差异值为预存的人物头部图像中每个像素点的像素值和该图像的全局平均像素值之间的差异值，因此，可以降低界面图像中个别像素点的剧烈变化，以及界面图像亮度变化引起的待测图像与预存的人物头部图像之间的差异，提高识别准确度。

并且，步骤C2中第二预设相似条件用于从多个预存的人物头部图像中，选择与第二待检图像最相似的预存的人物头部图像，具体可以为多种的。示例性的，第二预设相似条件可以是第二相似度大于预设相似度阈值，或者，第二相似度属于预设相似度阈值区间。当第二相似度符合第二预设相似条件，表明该第二相似度对应的预存的人物头部图像，与待检图像最相似，因此，可以将该相似度作为第二目标相似度，并将第二目标相似度对应的预存的人物头部图像，作为目标人物头部图像。

相应于上述方法实施例，本发明一实施例还提供了视频画面中对象的信息的获取装置。

如图4所示，本发明一实施例的视频画面中对象的信息的获取装置的结构，该装置可以包括：

基础数据获取模块401，用于获取视频中的视频帧以及所述视频帧的画面类型；所述画面类型包括：画面内容包括文字对象的文字类型，以及画面内容包括人物对象的人物类型；

视频帧对象信息获取模块402，用于利用与所述画面类型对应的识别模型，从所述视频帧中识别与所述画面类型对应的预存对象信息匹配的内容，作为所述视频帧的对象信息；

视频对象信息获取模块403，用于基于所述视频中各视频帧的对象信息，获得所述视频的对象信息。

所述视频帧对象信息获取模块402，具体用于：

将所得到的文字信息作为所述视频帧的对象信息。

相应于上述实施例，本发明实施例还提供了一种电子设备，如图5所示，该电子设备可以包括：

处理器501、通信接口502、存储器503和通信总线504，其中，处理器501，通信接口502，存储器通503过通信总线504完成相互间的通信；

存储器503，用于存放计算机程序；

处理器501，用于执行上述存储器503上所存放的计算机程序时，实现上述实施例中任一视频画面中对象的信息的获取方法的步骤。

上述存储器可以包括RAM(Random Access Memory，随机存取存储器)，也可以包括NVM(Non-Volatile Memory，非易失性存储器)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离于上述处理器的存储装置。

上述处理器可以是通用处理器，包括CPU(Central Processing Unit，中央处理器)、NP(Network Processor，网络处理器)等；还可以是DSP(Digital Signal Processor，数字信号处理器)、ASIC(Application Specific Integrated Circuit，专用集成电路)、FPGA(Field-Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本发明一实施例提供的计算机可读存储介质，包含于电子设备，该计算机可读存储介质内存储有计算机程序，该计算机程序被处理器执行时，实现上述施例中任一视频画面中对象的信息的获取方法的步骤。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的视频画面中对象的信息的获取方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、DSL(Digital Subscriber Line，数字用户线)或无线(例如：红外线、无线电、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如：DVD(Digital Versatile Disc，数字通用光盘))、或者半导体介质(例如：SSD(Solid StateDisk，固态硬盘))等。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置和电子设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种视频画面中对象的信息的获取方法，其特征在于，所述方法包括：

基于所述视频中各视频帧的对象信息，获得所述视频的视频画面中对象的信息；

与所述人物类型对应的预存对象信息包括：预存的人物头部图像；

从预存的人物头部图像与人物名称信息的对应关系中，查找所述目标人物头部图像对应的人物名称信息，作为所述视频帧的对象信息；

所述分别计算所述第二待检图像与多个预存的人物头部图像之间的相似度，得到多个第二相似度，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取视频中视频帧的画面类型，包括：

3.根据权利要求1至2任一项所述的方法，其特征在于，与所述文字类型对应的预存对象信息包括：预存的人物名称信息；

将所得到的文字信息作为所述视频帧的对象信息。

4.根据权利要求3所述的方法，其特征在于，所述第一待检图像中存在文字信息的文字区域的数量为多个；

所述将所得到的文字区域作为待识别图像，包括：

5.根据权利要求3所述的方法，其特征在于，所述将所得到的文字信息作为所述视频帧的对象信息，包括：

6.一种视频画面中对象的信息的获取装置，其特征在于，所述装置包括：

视频对象信息获取模块，用于基于所述视频中各视频帧的对象信息，获得所述视频的对象信息；

所述视频帧对象信息获取模块，具体用于获取该人物类型的视频帧中第二指定区域的图像，作为第二待检图像；分别计算所述第二待检图像与多个预存的人物头部图像之间的相似度，得到多个第二相似度；将所述多个第二相似度中符合第二预设相似条件的相似度，作为第二目标相似度，并将所述第二目标相似度对应的预存的人物头部图像，作为目标人物头部图像；

所述分别计算所述第二待检图像与多个预存的人物头部图像之间的相似度，得到多个第二相似度，包括：针对每个预存的人物头部图像，计算所述第二待检图像中每个像素点的像素值，与该预存的人物头部图像的全局平均像素值之间的差异值，得到与该预存的人物头部图像对应的第一差异值；其中，所述全局平均像素值为预存的人物头部图像中全部像素点的像素值的平均值；针对每个预存的人物头部图像，计算该预存的人物头部图像中每个像素点的像素值，与该预存的人物头部图像的全局平均像素值之间的差异值，得到与该预存的人物头部图像对应的第二差异值；针对每个预存的人物头部图像，利用该预存的人物头部图像对应的所述第二差异值，对该预存的人物头部图像对应的所述第一差异值进行归一化，得到所述第二待检图像与该预存的人物头部图像之间的第二相似度。

7.根据权利要求6所述的装置，其特征在于，与所述文字类型对应的预存对象信息包括：预存的人物名称信息；

所述视频帧对象信息获取模块，具体用于：

将所得到的文字信息作为所述视频帧的对象信息。

8.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序，实现如权利要求1-5任一所述的方法步骤。