CN115410158A

CN115410158A - 一种基于监控摄像头的地标提取方法

Info

Publication number: CN115410158A
Application number: CN202211109001.0A
Authority: CN
Inventors: 李强; 万上锋; 李昊聪; 张颖
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2022-09-13
Filing date: 2022-09-13
Publication date: 2022-11-29
Anticipated expiration: 2042-09-13
Also published as: CN115410158B

Abstract

本发明提供了一种基于监控摄像头的地标提取方法。该方法包括：使用爬虫技术对监控摄像头收集的监控视频流网站进行数据爬取，得到网页数据和图片数据；利用命名实体识别技术提取所述网页数据中的网际协议IP地址、经纬度和组织地理位置的文字，将提取出的文字作为地标数据；利用光学字符识别技术提取所述图片数据中的IP地址、经纬度和组织地理位置的文字，将提取出的文字作为地标数据；对所述地标数据进行校准和数据覆盖范围扩展处理。本发明方法利用网页信息和图像信息能够更好更准确地提取地标数据，对同一个连续IP范围内的地标数据进行扩展，使地标数据更庞大，提供了一个自动收集高质量的IP地标信息，为公司和企业提供IP定位支持。

Description

一种基于监控摄像头的地标提取方法

技术领域

本发明涉及地理定位技术领域，尤其涉及一种基于监控摄像头的地标提取方法。

背景技术

随着物联网设备的普及，全国(全世界)各地布满了大量的监控设备、在线网络摄像头。这些摄像头被广泛部署在现实世界中监测周围的物理环境。这些摄像头在很长一段时间内相对稳定，是成为地标的理想候选者，可以提供高质量、数量庞大的地标数据。

基于IP的地理定位对于互联网应用至关重要，例如在线广告、内容交付和在线欺诈预防。基于IP的地理定位包括将IP地址与国家地区，以及相应的经纬度进行映射。

目前，现有技术中的IP定位技术依赖于高质量的(即精细的和稳定的)地标，足够数量的地标，可以实现IP精确定位。

上述现有技术中的IP定位技术的缺点为：

(1)公司采用开源的IP数据库，地标收集受到有限的可见地标和人工时间成本的阻碍，作为地标信息，数量少、精度低，不可靠，难以为公司、企业、用户提供高质量的、大规模的地标数据。

(2)公司提供人工采集的方式，公司和企业需要收集大规模、可靠的地标信息用于IP定位。现有的方法，依赖人工、昂贵的监测费用，导致成本过高。

发明内容

本发明的实施例提供了一种基于监控摄像头的地标提取方法，以实现有效地进行基于IP的地理定位。

为了实现上述目的，本发明采取了如下技术方案。

一种基于监控摄像头的地标提取方法，包括：

使用爬虫技术对监控摄像头收集的监控视频流网站进行数据爬取，得到网页数据和图片数据；

利用命名实体识别技术提取所述网页数据中的网际协议IP地址、经纬度和组织地理位置的文字，将提取出的文字作为地标数据；

利用光学字符识别技术提取所述图片数据中的IP地址、经纬度和组织地理位置的文字，将提取出的文字作为地标数据；

对所述地标数据进行校准和数据覆盖范围扩展处理。

优选地，所述的使用爬虫技术对收集的监控视频流网站进行数据爬取，得到网页数据和图片数据，包括：

使用启发式的方法收集监控视频流网站，使用开源库爬取视频流网站的数据，通过搜索引擎运行关键词对爬取的数据进行过滤，筛选出监控视频流网站，使用广度优先策略解析监控视频流网站的主页，获取监控视频流的所有统一资源定位符URL链接，迭代地解析URL链接来探索下一层的页面，直到没有发现新的URL链接，将所有的URL链接作为候选网页；

对各个候选网页进行分类，选取径向基函数作为支持向量机SVM的内核函数来学习分类模型，对候选网页进行预处理，去除无关的元素，对预处理后的候选网页经过特征提取、特征表示和归一化处理之后得到分类器，利用分类器筛选出包含IP和经纬度信息的网页数据，保存筛选后网页数据中的img标签的图像url链接，作为图片数据。

优选地，所述的利用命名实体识别技术提取所述网页数据中的网际协议IP地址、经纬度和组织地理位置的文字，将提取出的文字作为地标数据，包括：

对网页数据进行预处理，如果URL具有相同的，那么删除重复数据，在剩下的网页内容中，使用正则表达式提取所述网页数据中的IP地址和经纬度的文本；

将纯文本拆分为单个文字，进行词标记化，作为训练数据，使用词向量模型处理训练数据，将纯文本格式的文字转化为词向量，利用门控循环单元模型进行单词的字母向量表示，将词向量与字母向量结合起来作为混合向量表示，将为混合向量表示作为每一个门控循环单元GRU的输入，训练循环神经网络模型，利用循环神经网络模型将网页信息中的每一个字进行标记，识别出所述网页数据中的组织地理位置信息；

将提取出的IP地址、经纬度和组织地理位置信息的文字作为地标数据。

优选地，所述的利用光学字符识别技术提取所述图片数据中的IP地址、经纬度和组织地理位置的文字，将提取出的文字作为地标数据，包括：

对图片数据进行预处理操作，该预处理操作包括灰度化处理、二值化处理、降噪处理和倾斜矫正，使用开源的光学字符识别引擎Tesseract提取出图片数据中的文字和数字信息，将提取出的文字和数字信息作为地标数据。

优选地，所述的对所述地标数据进行校准和数据覆盖范围扩展处理，包括：

收集所述地标数据中已知经纬度的IP数据，去除重复的IP数据，按照IP地址进行排序，提取所有的IP地址的24位网络掩码，再根据网络掩码值进行循环比较，根据网络掩码进行分组，找出有两个或以上的IP地标数据位置一样但IP值不同的分组，对该24位网络掩码的IP地址进行扩充。

由上述本发明的实施例提供的技术方案可以看出，本发明方法利用网页信息和图像信息能够更好更准确地提取地标数据，对同一个连续IP范围内的地标数据进行扩展，使地标数据更庞大，提供了一个自动收集高质量的IP地标信息，为公司和企业提供IP定位支持。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于监控摄像头的地标提取方法的处理流程图；

图2为本发明实施例提供的一种获取监控视频流网站的网页数据和图片数据的流程图；

图3为本发明实施例提供的一种提取组织地理位置的模型结构图；

图4为本发明实施例提供的一种提取图片文字的流程图；

图5为本发明实施例提供的一种地标数据扩充的示意图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解，下面将结合附图以几个具体实施例为例做进一步的解释说明，且各个实施例并不构成对本发明实施例的限定。

本发明实施例提供的一种基于监控摄像头的地标提取方法的流程如图1所示，包括如下的处理步骤：

步骤S1：使用爬虫技术对监控摄像头收集的监控视频流网站进行数据爬取，得到网页数据和图片数据，并将网页数据以特定格式保存起来。

步骤S2：在步骤S1的网页数据的基础上，利用命名实体识别技术，提取网页数据中的IP(网际协议)地址、经纬度和组织地理位置的文字，作为地标数据。

步骤S3：在步骤S1的图片数据的基础上，利用光学字符识别技术，提取图片中的IP地址、经纬度和组织地理位置的文字，作为地标数据。

步骤S4：对地标数据进行校准，对地标数据进行扩展，使地标数据覆盖范围更广。

图2为本发明实施例提供的一种获取监控视频流网站的网页数据和图片数据的流程图，具体处理过程包括：使用启发式的方法收集监控视频流网站，针对视频流网站一般会使用JPEG、MJPEG、VLC和FFMPEG网页小程序来展示图像和视频的信息。使用开源库爬取视频流网站的数据，通过谷歌搜索引擎运行关键词，如“？camera＝&amp”，“action＝stream”,“/jpg/image.jpg”以及“video/mjpg.cgi”等进行过滤，筛选出监控视频流网站。得到监控视频流网站之后，使用广度优先策略，首先解析监控视频流网站的主页，并获取监控视频流的所有URL(Uniform Resource Locator，统一资源定位符)链接，迭代地解析URL链接来探索下一层的页面，直到没有发现新的URL链接。一旦获取所有网页的URL链接，采用如下规则过滤这些URL，如果URL具有相同的，那么删除重复数据；如果来自不同的网站，提取其域名作为候选网页。

需要对候选网页进行分类，去除不包含地标数据的网页。使用SVM(SupportVector Machines,支持向量机)模型，选取径向基函数作为SVM的内核函数，来学习分类模型。对候选的网页进行预处理，去除广告，图标等无关的元素。经过特征提取、特征表示和归一化处理之后，得到分类器。筛选出包含IP和经纬度信息的网页内容。此外，保存筛选后网页中的img标签的图像url链接。

图3为本发明实施例提供的一种提取组织地理位置的模型结构图。具体包括：获取到网页信息之后，IP地址、经纬度信息和其它词具有明显差别的字符特征，因此使用正则表达式去提取网页中的这些信息。对于摄像头所属的组织地理位置信息，利用门控循环单元(GRU，全称Gate Recurrent Unit)模型来进行识别。具体包括对网页数据进行预处理，如果URL具有相同的，那么删除重复数据。此外，删除超文本标记语言的无关内容，去除特殊字符，如“$”、“％”，删除时间戳、标点和停用词。在剩下的网页内容中，提取纯文本并将其拆分为单个文字，进行词标记化，作为训练数据。使用词向量模型处理训练数据，将纯文本格式的文字转化为词向量，利用门控循环单元模型进行单词的字母向量表示，最后将词向量与字母向量结合起来作为一个单独的序列向量，即混合向量表示，作为每一个门控循环单元(GRU)的输入，训练循环神经网络模型，从而将网页信息中的每一个字进行标记，识别出组织地理位置信息。

图4为本发明实施例提供的一种提取图片文字的流程图，具体处理过程包括：将附图2获取到的图像url信息，作为爬虫框架的输入，爬取对应的图片数据。为了提高识别的质量，对图片数据进行预处理操作，包括灰度化处理、二值化处理、降噪处理和倾斜矫正。最后使用Tesseract(开源的光学字符识别引擎)，提取图片的文字和数字信息，作为地标数据进一步补充。

图5为本发明实施例提供的一种地标数据扩充的示意图，具体处理过程包括：在同一个连续范围内的IP地址可能位于同一个地理区域，便可以利用此假设来扩展地标数据。如图5所示，如果以109.190.32.0/24为掩码的109.190.32.249和109.190.32.232两个不同IP的经纬度一样，则可以认为109.190.32.0/24掩码对应256个IP的经纬度都一样，都为(3.16982737，50.689115)。因此便可以对数据进行扩充，具体步骤如下：收集提取的已知经纬度的IP数据，去除重复的IP数据，按照IP地址进行排序，提取所有的IP地址的24位网络掩码，再根据网络掩码值进行循环比较，根据网络掩码进行分组，找出有两个或以上的IP地标数据位置一样但IP值不同的分组，对该24位网络掩码的IP地址进行扩充。

综上所述，本发明实施例提出了一种有效的自动技术，自动地从监控视频流聚合网站的网页信息有效地提取(IP，纬度，经度，组织地理位置)高质量地标数据并对其进行扩充。本方法部署方便，无需人工收集地标数据，是一种低成本的、高效的地标收集技术。

本发明实施例方法利用大量的物联网监控设备，可以提取高质量、数量庞大、稳定的地标数据。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于监控摄像头的地标提取方法，其特征在于，包括：

对所述地标数据进行校准和数据覆盖范围扩展处理。

2.根据权利要求1所述的方法，其特征在于，所述的使用爬虫技术对收集的监控视频流网站进行数据爬取，得到网页数据和图片数据，包括：

3.根据权利要求1所述的方法，其特征在于，所述的利用命名实体识别技术提取所述网页数据中的网际协议IP地址、经纬度和组织地理位置的文字，将提取出的文字作为地标数据，包括：

4.根据权利要求1所述的方法，其特征在于，所述的利用光学字符识别技术提取所述图片数据中的IP地址、经纬度和组织地理位置的文字，将提取出的文字作为地标数据，包括：

5.根据权利要求1所述的方法，其特征在于，所述的对所述地标数据进行校准和数据覆盖范围扩展处理，包括：