CN113435443A

CN113435443A - 一种从视频中自动识别地标的方法

Info

Publication number: CN113435443A
Application number: CN202110721674.0A
Authority: CN
Inventors: 牟骏杰; 王鑫; 陈昌金; 罗凡程; 李锐; 汤雪梅
Original assignee: China South Industries Group Automation Research Institute
Current assignee: China South Industries Group Automation Research Institute
Priority date: 2021-06-28
Filing date: 2021-06-28
Publication date: 2021-09-24
Anticipated expiration: 2041-06-28
Also published as: CN113435443B

Abstract

本发明公开了一种从视频中自动识别地标的方法，从视频中获取帧信息，对图像帧进行地标二分类，根据初筛结果，对分类为地标的图像进行度量学习与地标库进行比较确定地标种类，若视频包含字幕或语音信息，利用OCR和语音识别提取出文本信息，然后对文本信息进行实体提取利用文本的实体识别结果对地标种类进行二次确定，确定地标后，对未能确定种类的地标进行筛查根据是否为新地标对地标库进行更新，至此完成整套地标识别和更新的全过程。本发明对于提取不同类型的视频都有很好的效果，不需要进行人工标注，便可以实现地标识别工作，同时具有自动更新地标库的功能，在节约人工成本的同时也实现了地标识别的可持续更新的能力。

Description

一种从视频中自动识别地标的方法

技术领域

本发明涉及一种视频图像处理方法，具体涉及一种从视频中自动识别地标的方法。

背景技术

随着电视新闻类节目、电视剧、电影、综艺节目、短视频的快速发展，视频类信息获取逐渐替代了传统的纸质类信息获取，成为了人们获取信息的第一途径。但是，由于从视频中获取信息具有广泛性和繁杂性，因此，对特定信息的抽取成为人们研究的重点。其中，如何对视频中的地标进行识别，对于信息抽取和信息获取而言具有重要的研究价值。利用传统的人工识别方法或简单的图像处理方法对视频中的地标进行识别往往费时费力，且不能得到好的识别效果。

有鉴于此，特提出本申请。

发明内容

本发明所要解决的技术问题是：现有的人工识别方法或简单的图像处理方法对视频中的地标进行识别往往费时费力，且不能得到好的识别效果，目的在于提供一种从视频中自动识别地标的方法，解决现有从视频中获取地标的方法的不足。

本发明通过下述技术方案实现：

一种从视频中自动识别地标的方法，包括以下步骤：

步骤1：获取多张不同类别的地标图片，得到标准地标图片样本；根据所述标准地标图片样本构建地标分类的自建数据集，所述自建数据集中包括地标图片样本和非地标图片样本；

步骤2：利用ReXnet网络对所述自建数据集进行分类训练，得到图片分类模型，所述ReXnet网络为针对Mobilenet网络结构进行改进后的ReXnet网络；

步骤3：收集待识别视频，对所述待识别视频按照每隔15帧解码一次的方式进行解码，得到多张待识别图片；利用所述图片分类模型对所述多张待识别图片进行分类预测，得到多张地标预测图片和多张非地标预测图片；

步骤4：将所述标准地标图片样本存入地标库，利用基于resnet50基础网络的度量学习模型和triplet_loss函数模型对所述标准地标图片样本进行训练，得到特征匹配初始模型，并对所述特征匹配初始模型进行超参数调整，得到特征匹配模型；

步骤5：利用所述特征匹配模型对所述多张地标预测图片进行特征提取，得到地标预测特征向量集，利用所述特征匹配模型对所述标准地标图片样本进行特征提取，得到标准地标特征向量集；

步骤6：针对每一张地标预测图片，利用地标预测图片对应的地标预测特征向量和所述标准地标特征向量集，获取地标预测图片与所有标准地标图片的相似度阈值，得到相似度阈值数据集；

步骤7：根据所述相似度阈值数据集确定每一张地标预测图片中地标的类别，得到地标识别结果。

与现有技术相比，本发明利用图像分类来对地标进行一次初筛工作，根据初筛结果与地标库中的标准地标进行特定类别的地标识别工作，这样做大大节约了地标识别的时间，节约了人力成本和时间成本，使得整个地标识别的准确性得到提高。

作为对本发明的进一步描述，构建地标分类的自建数据集的方法为：

步骤1.1：收集多个不同节目类型的，包含有所述标准地标图片样本中所有类别的地标的样例视频，形成视频样本；

步骤1.2：针对所述视频样本中的每一个样例视频，按照每隔15帧解码一次的方式，将样例视频解码成为多张样例图片，形成图片样本；

步骤1.3：从所述图片样本中筛选出所有包含地标的图片，得到地标图片样本；

步骤1.4：另收集多张不含地标的图片，得到非地标图片样本；

步骤1.5：将所述地标图片样本和所述非地标图片样本组合成为地标分类的自建数据集。

作为对本发明的进一步描述，所述步骤4具体包括：

步骤4.1：将所述标准地标图片样本存入地标特征库，并将所述地标特征库分为地标特征合集和验证集，所述地标特征合集中包括多个不同地标特征的类，每一个地标特征的类中包括多张具有同类地标的地标图片，所述验证集用于验证所述地标特征合集中的地标特征是否正确；

步骤4.2：利用基于resnet50基础网络的度量学习模型和triplet_loss函数模型，对所述地标特征合集进行训练，得到特征匹配初始模型；

步骤4.3：利用所述验证集对训练的超参数进行调整，得到特征匹配模型。

作为对本发明的进一步描述，所述度量学习模型的目标函数表达式为：

||f(a_i)-f(p_i)||²+α＜||f(a_i)-f(n_i)||²，所述triplet_loss函数模型表达式为：

其中，a示待训练得样本，p表示与待训练得样本相同种类的正样本，n表示与待训练得样本不同种类的负样本，α为类与类之间的间隔，+表示当括号中的结果为负数时，输出结果为0。

作为对本发明的进一步描述，从视频中自动识别地标的方法还包括步骤4.4：对所述地标图片样本中的所有地标图片进行关键点校正，得到关键点数据集，根据所述关键点数据集将所述地标图片样本中的所有地标图片调整为正视图。

作为对本发明的进一步描述，相似度阈值的获取方法为：利用地标预测特征向量和标准地标特征向量，获取地标预测图片与标准地标图片的欧式距离，根据欧式距离获取地标预测图片与标准地标图片的相似度阈值。

作为对本发明的进一步描述，所述步骤7具体包括：

步骤7.1：定义相似度阈值为25；

步骤7.2：从所述相似度阈值数据集中剔除＞25的相似度值，所述相似度值与相似度的关系为：相似度越高，相似度值越低；

步骤7.3：针对每一张地标预测图片，从剩余的多个相似度阈值中筛选出与地标预测图片相关的多个相似度阈值，对筛选出的多个相似度阈值按升序排序，选取前5个相似度阈值；根据选取的前5个相似度阈值，通过加权平均法确定地标预测图片中地标的类别，得到地标识别结果。

作为对本发明的进一步描述，从视频中自动识别地标的方法包括：

步骤8：检测待识别视频中是否存在字幕信息和语音信息，若检测出待识别视频中至少存在有字幕信息和语音信息中的一种，则继续执行步骤9；若未检测到待识别视频中的字幕信息或语音信息，则执行步骤11；

步骤9：若检测出待识别视频中仅存在字幕信息，对字幕信息依次进行文本检测、文字识别和聚类操作，得到多个字幕文本，并将多个字幕文本存入文本数据集；若检测出待识别视频中仅存在语音信息，将语音信息转换为多个语音文本，并将多个语音文本去重后存入所述文本数据集；若检测出待识别视频中既有字幕信息又有语音信息，则分别获取多个字幕文本和多个语音文本，并对多个字幕文本和多个语音文本进行去重操作后存入所述文本数据集；

步骤10：对所述文本数据集进行实体识别，得到文本识别结果；将所述文本识别结果与所述地标识别结果进行对比，判断所述地标识别结果是否正确；若地标识别结果判正确，则结束地标识别工作，若地标识别结果错误，则继续执行步骤11；

步骤11：根据所述地标识别结果，筛选出所有识别错误的地标预测图片；针对每一张错误识别的地标预测图片的错误原因进行分析，若错误原因是对标准地标图片误识或漏识中的一种，则将错误识别的地标预测图片加入地标库的地标特征合集部分，重新执行4.2至步骤10；若错误原因是错误识别的地标预测图片中的地标类别为新地标类别，则将错误识别的地标预测图片作为新地标类别加入地标库，更新地标库列表，并重新执行步骤4至步骤10；若错误原因是错误识别的地标预测图片为非地标图片，则将错误识别的地标预测图片加入非地图片样本。

作为对本发明的进一步描述，所述步骤10包括：

步骤10.1：对所述文本数据集进行字符分割，得到多个分词；

步骤10.2：利用Lex-BERT模型将所述多个分词转化为多个向量；

步骤10.3：利用Transformer网络分别获取每个分词的含义对应于人物名称的概率值、地点名称的概率值、地标名称的概率值和国家名称的概率值；

步骤10.4：定义概率阈值，将所有小于所述概率阈值的概率值对应的分词删除，并根据所述概率阈值确定剩余的多个分词中每个分词的含义，得到文本识别结果；

步骤10.5：获取每个分词在待识别视频中的帧位置，确定所述文本识别结果中每个分词的含义与所述地标识别结果中每个地标的关系，利用关系图谱判断所述地标识别结果是否正确，并筛选出；若地标识别结果判正确，则结束地标识别工作，若地标识别结果错误，则继续执行步骤11。

作为对本发明的进一步描述，所述步骤11中，当新加入非地标图片样本中的图片数量到达1000时，需重新训练获得图片分类模型。

本发明与现有技术相比，具有如下的优点和有益效果：

1、本发明一种从视频中自动识别地标的方法，利用图像分类来对地标进行一次初筛工作，根据初筛结果再进行特定类别的地标识别工作，节约了人力成本和时间成本；

2、本发明一种从视频中自动识别地标的方法，在有语音和字幕的视频中增加了文本信息的校正，使得整个地标识别的准确性得到提高；

3、本发明一种从视频中自动识别地标的方法，对未能识别正确的地标进行样本更新工作，使得该发明可以持续学习增强识别准确率；

4、本发明一种从视频中自动识别地标的方法，适用于电视新闻，电影，电视剧，综艺节目，等多类视频，具有很好的泛化能力。

附图说明

为了更清楚地说明本发明示例性实施方式的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例的一种从视频中自动识别地标的方法流程图。

图2为本发明实施例的图片关键点校正前后对比图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

在以下描述中，为了提供对本发明的透彻理解阐述了大量特定细节。然而，对于本领域普通技术人员显而易见的是：不必采用这些特定细节来实行本本发明。在其他实施例中，为了避免混淆本本发明，未具体描述公知的结构、电路、材料或方法。

在整个说明书中，对“一个实施例”、“实施例”、“一个示例”或“示例”的提及意味着：结合该实施例或示例描述的特定特征、结构或特性被包含在本本发明至少一个实施例中。因此，在整个说明书的各个地方出现的短语“一个实施例”、“实施例”、“一个示例”或“示例”不一定都指同一实施例或示例。此外，可以以任何适当的组合和、或子组合将特定的特征、结构或特性组合在一个或多个实施例或示例中。此外，本领域普通技术人员应当理解，在此提供的示图都是为了说明的目的，并且示图不一定是按比例绘制的。这里使用的术语“和/或”包括一个或多个相关列出的项目的任何和所有组合。

在本发明的描述中，术语“前”、“后”、“左”、“右”、“上”、“下”、“竖直”、“水平”、“高”、“低”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明保护范围的限制。

实施例

图1为本发明实施例的一种从视频中自动识别地标的方法流程图。如图所示，本实施例一种从视频中自动识别地标的方法，通过以下方式实现：

步骤1：获取多张不同类别的地标图片，得到标准地标图片样本；根据所述标准地标图片样本构建地标分类的自建数据集，所述自建数据集中包括地标图片样本和非地标图片样本。具体包括：

步骤1.1：收集多个不同节目类型的，包含有所述标准地标图片样本中所有类别的地标的样例视频，形成视频样本。步骤1.2：针对所述视频样本中的每一个样例视频，按照每隔15帧解码一次的方式，将样例视频解码成为多张样例图片，形成图片样本；

本实施例中，通过电视，电影，新闻节目，综艺节目，短视频中获取初始类别为125类地标的国内外图片共计15956张，其中每个类别图片为100到200张左右，再收集36903的非地标样本，包括了天空，村庄，室内，人物特写等场景的图片作为负样本，将上述场景下的图片构建为地标分类的自建数据集。

步骤2：利用ReXnet网络对所述自建数据集进行分类训练，得到图片分类模型，所述ReXnet网络为针对Mobilenet网络结构进行改进后的ReXnet网络。具体为，对步骤1生成的自建数据集利用对Mobilenet进行改进的ReXnet网络进行分类训练，由于MobileNet在经过pooling层时其特征在空间维度进行较大比例的压缩，因此会产生representationalbottleneck(特征描述瓶颈)现象，该现象出现会对MobileNet的特征提取能力下降，导致特征丢失，使得分类不准确的问题，因此通过对卷积层的输入通道扩展即将输入从3通道扩张到C通道后然后再进行输出预测，配合替换relu层来细化每一个特征层，从而解决上述问题，采用改进后的ReXnet网络对地标自建数据集进行分类训练，得到分类的模型。

步骤3：收集待识别视频，对所述待识别视频按照每隔15帧解码一次的方式进行解码，得到多张待识别图片；利用所述图片分类模型对所述多张待识别图片进行分类预测，得到多张地标预测图片和多张非地标预测图片。

步骤4：将所述标准地标图片样本存入地标库，利用基于resnet50基础网络的度量学习模型和triplet_loss函数模型对所述标准地标图片样本进行训练，得到特征匹配初始模型，并对所述特征匹配初始模型进行超参数调整，得到特征匹配模型。具体包括：

步骤4.1：将所述标准地标图片样本存入地标特征库，并将所述地标特征库分为地标特征合集和验证集，所述地标特征合集中包括多个不同地标特征的类，每一个地标特征的类中包括多张具有相同地标的地标图片，所述验证集用于验证所述地标特征合集中的地标特征是否正确；

步骤4.2：利用基于resnet50基础网络的度量学习模型和triplet_loss函数模型，对所述多个地标类组合进行训练，得到特征匹配初始模型。在本实施例中，具体训练参数为：基础网络选择resnet，depth设置为50，dropout_ratio设置为0.5，mode选择ir_se，输出的embedding_size为512，输入尺寸为224*224，PIXEL_MEAN设置为：[0.485，0.456，0.406]，PIXEL_STD设置为：[0.229，0.224，0.225]，metric_loss选择为tripletloss。其中triplet_loss，为输入一个三元组<a,p,n>，其中a代表anchor表示待训练得样本，P代表positive表示与anchor相同种类的正样本，n代表negative表示与anchor不同种类的负样本，将这个三元组进入度量学习神经网络后，在倒数第二层embedding层，会得到三个不同的特征输出，分别为f(a)，f(p)，f(n)，希望f(a)，f(p)，f(a)，f(n)越远越好。

其中，度量学习模型的目标函数表达式为：

步骤4.4：对所述地标图片样本中的所有地标图片进行关键点校正，得到关键点数据集，根据所述关键点数据集将所述地标图片样本中的所有地标图片调整为正视图。图片关键点校正前后对比参照图2。

步骤5：利用所述特征匹配模型对所述多张地标预测图片进行特征提取，得到地标预测特征向量集，利用所述特征匹配模型对所述标准地标图片样本进行特征提取，得到标准地标特征向量集。

步骤6：针对每一张地标预测图片，利用地标预测图片对应的地标预测特征向量和所述标准地标特征向量集，获取地标预测图片与所有标准地标图片的相似度阈值，得到相似度阈值数据集。相似度阈值的获取方法为：利用地标预测特征向量和标准地标特征向量，获取地标预测图片与标准地标图片的欧式距离，根据欧式距离获取地标预测图片与标准地标图片的相似度阈值。

步骤7：根据所述相似度阈值数据集确定每一张地标预测图片中地标的类别，得到地标识别结果。具体包括：

步骤7.1：定义相似度阈值为25；

步骤7.2：从所述相似度阈值数据集中剔除＞25的相似度值；所述相似度值与相似度的关系为：相似度越高，相似度值越低；

步骤10：对所述文本数据集进行实体识别，得到文本识别结果；将所述文本识别结果与所述地标识别结果进行对比，判断所述地标识别结果是否正确；若地标识别结果判正确，则结束地标识别工作，若地标识别结果错误，则继续执行步骤11。具体包括：

步骤10.1：对所述文本数据集进行字符分割，得到多个分词；

步骤10.2：利用Lex-BERT模型将所述多个分词转化为多个向量；

步骤11：根据所述地标识别结果，筛选出所有识别错误的地标预测图片；针对每一张错误识别的地标预测图片的错误原因进行分析，若错误原因是对标准地标图片误识或漏识中的一种，则将错误识别的地标预测图片加入地标库的地标特征合集部分，重新执行4.2至步骤10；若错误原因是错误识别的地标预测图片中的地标类别为新地标类别，则将错误识别的地标预测图片作为新地标类别加入地标库，更新地标库列表，并重新执行步骤4至步骤10；若错误原因是错误识别的地标预测图片为非地标图片，则将错误识别的地标预测图片加入非地图片样本。当新加入非地标图片样本中的图片数量到达1000时，需重新训练获得图片分类模型。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种从视频中自动识别地标的方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种从视频中自动识别地标的方法，其特征在于，构建地标分类的自建数据集的方法为：

3.根据权利要求1或2所述的一种从视频中自动识别地标的方法，其特征在于，所述步骤4具体包括：

4.根据权利要求3所述的一种从视频中自动识别地标的方法，其特征在于，所述度量学习模型的目标函数表达式为：||f(a_i)-f(p_i)||²+α＜||f(a_i)-f(n_i)||²，所述triplet_loss函数模型表达式为：

5.根据权利要求3所述的一种从视频中自动识别地标的方法，其特征在于，包括步骤4.4：对所述地标图片样本中的所有地标图片进行关键点校正，得到关键点数据集，根据所述关键点数据集将所述地标图片样本中的所有地标图片调整为正视图。

6.根据权利要求1所述的一种从视频中自动识别地标的方法，其特征在于，相似度阈值的获取方法为：利用地标预测特征向量和标准地标特征向量，获取地标预测图片与标准地标图片的欧式距离，根据欧式距离获取地标预测图片与标准地标图片的相似度阈值。

7.根据权利要求6所述的一种从视频中自动识别地标的方法，其特征在于，所述步骤7具体包括：

步骤7.1：定义相似度阈值为25；

步骤7.2：从所述相似度阈值数据集中剔除＞25的相似度值；

8.根据权利要求3所述的一种从视频中自动识别地标的方法，其特征在于，包括：

9.根据权利要求8所述的一种从视频中自动获取地标的方法，其特征在于，所述步骤10包括：

步骤10.1：对所述文本数据集进行字符分割，得到多个分词；

步骤10.2：利用Lex-BERT模型将所述多个分词转化为多个向量；

10.根据权利要求8所述的一种从视频中自动获取地标的方法，其特征在于，所述步骤11中，当新加入非地标图片样本中的图片数量到达1000时，需重新训练获得图片分类模型。