CN111522980A - 一种海量数据下基于档案的快速搜索方法 - Google Patents

一种海量数据下基于档案的快速搜索方法 Download PDF

Info

Publication number
CN111522980A
CN111522980A CN202010340277.4A CN202010340277A CN111522980A CN 111522980 A CN111522980 A CN 111522980A CN 202010340277 A CN202010340277 A CN 202010340277A CN 111522980 A CN111522980 A CN 111522980A
Authority
CN
China
Prior art keywords
picture
file
retrieval
capturing
mass data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010340277.4A
Other languages
English (en)
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Weiyuan Intelligent Technology Co ltd
Original Assignee
Shenzhen Weiyuan Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Weiyuan Intelligent Technology Co ltd filed Critical Shenzhen Weiyuan Intelligent Technology Co ltd
Priority to CN202010340277.4A priority Critical patent/CN111522980A/zh
Publication of CN111522980A publication Critical patent/CN111522980A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/535Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content

Abstract

本发明涉及网络数据处理技术领域,尤其为一种海量数据下基于档案的快速搜索方法,其具体步骤如下:S1,采集:通过抓拍相机抓拍图片,并在抓拍的同时进行提取该图片的特征值和相关质量参数;本发明通过设计将1:M的搜索问题进行了简化,将1:M的问题简化成了1:N,M为人员生物特征相机抓拍的图片总数,N为一个区域内的实际人数,通过利用平时不发起检索时闲置的计算资源进行实时人员档案归档,从而达到一旦用户需要进行实际检索时,检索速度可以得到极大的提升,同时使得检索时对物理的内存资源的需求降到了最低,从而对内存资源的需求很低,可以应用在海量数据的检索比对中,可靠性较高,可用于提供非常流畅快速的检索服务。

Description

一种海量数据下基于档案的快速搜索方法
技术领域
本发明涉及网络数据处理技术领域,具体为一种海量数据下基于档案的快速搜索方法。
背景技术
近年来,生物识别技术尤其是人脸识别技术在安防、门禁、考勤等行业越来越多的应用,尤其在大城市的广泛应用,也积累了越来越多的采集数据,而在海量数据进行以图搜图是一个应用最广泛的技术之一,一种常用的应用是需要检索一个人在一个城市中最近半年或更长时间的数据(比如公安用于搜寻嫌疑人或失踪人员在一个城市的轨迹),而对于一个城市而言,如果大规模部署的话,每天采集的数据估计有上百万或数千万之多。如何在海量图片中快速检索并返回结果已经成为考验这个应用是否可用的一个基础要求
目前技术主流主要有暴力搜索和Annoy搜索,暴力搜索需要将N待比对数据集合的所有特征进行加载,一个个进行比对,如果有100亿张历史抓拍图片,则需要比对100亿次特征,而这些图片经常需要大量机器组成分布式集群来提供检索服务,Annoy搜索是近似最近邻搜索技术,是通过建立一个数据结构能够在较短的时间内找到任何查询点的最近点,在精度允许的条件下通过牺牲准确率来换取比暴力搜索要快的多的搜索速度,Annoy的缺点是会丢失一定准确率或者通过结合暴力搜索或Annoy搜索的方式,对价值高的数据(比如最近7天的数据)采取暴力搜索,对于价值低的数据采取Annoy搜索,然后进行合并等等。综上现有技术缺点:现有技术中暴力搜索需要加载的数据太多,需要消耗过多的CPU资源和内存存储资源。Annoy搜索则会丢失一定的准确率,虽然节约了CPU开销,但在数据加载中仍然需要大量的内存存储资源。
综上所述,本发明通过设计一种海量数据下基于档案的快速搜索方法来解决存在的问题。
发明内容
本发明的目的在于提供一种海量数据下基于档案的快速搜索方法,以解决了解决检索海量数据需要大量的内存和CPU资源的问题,提出了一种基于档案搜索的方法;
基于档案的搜索在于利用平时不搜索时闲置的CPU资源,在抓拍图片进入系统的同时进行1:M(M为当前系统的总的档案数)比对,从而对每一个人,形成一个图片集合S(历史抓拍图片集s1,s2,s3…).为每个人创建一个唯一ID,以人的ID为索引,在抓拍的同时进行归档,将图片自动归档在这个人员ID对应的数据集内;
在用户实际使用的时候,发起检索的时候,只需要先对档案发起检索(1:M)即可,再将Mi1,Mi2档案中的历史图片集合查询出来,根据查询时间范围进行过滤即可。在档案数基本不变的情况下,无论抓拍图片如何增长,对海量数据进行检索需要的资源基本维持在一个很低的值。与传统的检索相比,在检索过程中对资源的消耗较低,在海量数据中进行查询的效率相对暴力搜索和Annoy要优;注:档案对应于人员来说的,比如一个城市有1000万人口,总的档案数就是1000万(M),抓拍数是针对图片来说的,比如每天抓拍到2000万张图片,100天的抓拍总量就是20亿(N)的问题。
为实现上述目的,本发明提供如下技术方案:
一种海量数据下基于档案的快速搜索方法,其具体步骤如下:
S1,采集:通过抓拍相机抓拍图片,并在抓拍的同时进行提取该图片的特征值和相关质量参数;
S2,归档:对每一张抓拍图片进行归档,形成一个“一人一档”的电子档案,形成每个档案电子标签Doc-ID,同时将创建的档案ID作为建立索引,并存储在数据库中,同时在数据库中将该档案的所有时空轨迹进行合并即可;
S3,检索:用户发起图片检索时,直接查询满足相似度的档案即可。
优选的,所述S1中的特征值包括人脸、人体体态特征、指纹特征或者虹膜特征等。
优选的,所述归档具体流程:
对S1,采集:通过抓拍相机抓拍图片,并在抓拍的同时进行提取该图片的特征值和相关质量参数跟当前所有档案进行1:M比对,取与Mi比对最大的相似度跟阈值进行比较,如果大于阈值,则认为比对成功,反之则认为比对失败;成功时则将此抓拍图片与该档案进行关联,即在数据库中新增一条图片ID与该档案ID的记录。
与现有技术相比,本发明的有益效果是:
1、本发明中,通过设计将1:M的搜索问题进行了简化,将1:M的问题简化成了1:N,M为人员生物特征相机抓拍的图片总数,N为一个区域内的实际人数。通过利用平时不发起检索时闲置的计算资源进行实时人员档案归档,从而达到一旦用户需要进行实际检索时,检索速度可以得到极大的提升,同时使得检索时对物理的内存资源的需求降到了最低,从而对内存资源的需求很低,可以应用在海量数据的检索比对中,可靠性较高,可用于提供非常流畅快速的检索服务。
附图说明
图1为本发明归档流程结构示意图;
图2为本发明档案检索流程结构示意图;
图3为本发明软件系统设计模块结构示意图;
图4为本发明快速检索流程结构示意图;
图5为本发明暴力搜索和快速检索结合结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-5,本发明提供一种技术方案:
一种海量数据下基于档案的快速搜索方法,包括。
本发明工作流程:一种海量数据下基于档案的快速搜索方法,其具体步骤如下:
步骤1,采集:通过抓拍相机抓拍图片,并在抓拍的同时进行提取该图片的特征值和相关质量参数;
步骤2,归档:对每一张抓拍图片进行归档,形成一个“一人一档”的电子档案,形成每个档案电子标签Doc-ID,同时将创建的档案ID作为建立索引,并存储在数据库中,同时在数据库中将该档案的所有时空轨迹进行合并即可;
如图1,对步骤1,采集:通过抓拍相机抓拍图片,并在抓拍的同时进行提取该图片的特征值和相关质量参数跟当前所有档案进行1:M比对,取与Mi比对最大的相似度跟阈值进行比较,如果大于阈值,则认为比对成功,反之则认为比对失败;成功时则将此抓拍图片与该档案进行关联,即在数据库中新增一条图片ID与该档案ID的记录;
步骤3,检索:如图2流程结构图,用户发起图片检索时,直接查询满足相似度的档案即可。
具体实施案例:
本发明中的基于档案的快速检索方案可以用于以软件或硬件的方式进行实现,软件实现采用B/S也可以是C/S架构或以第三方插件的方式提供给外部调用,如下图3的软件系统设计:
1.采集模块:连接生物识别(人脸,人体或其他具备生物识别的相机等)抓拍相机,当有生物识别对象进入时,通过回调获取图片,采集模块将抓拍照片上传到归档模块。
2.归档模块:归档模块对接收采集模块传输过来的抓拍图片进行特征提取,创建图片唯一Image-ID,然后根据阈值进行归档。
在归档模块中,将每一张抓拍图片都与档案库的特征进行1:N比对,满足比对阈值的抓拍图片,将此抓拍图片与此档案(Doc-Id)关联。如果比对失败,则以此抓拍图片的生物特征值为基础新建一个档案Doc-ID.将Image-Id与Doc-Id进行关联,然后推送到存储模块存储
3.存储模块:存储模块负责存储档案信息,以及将归档模块的数据保存到数据库,需要注意的是,该数据库表设计中,Doc-Id字段需建好索引,用于快速检索时使用。
4.快速检索模块,快速检索模块主要的过程如下图4:
注:(1)图中的图片提取特征指的不仅是人脸,也可以是人体体态特征,指纹特征,虹膜特征等。对于满足条件的档案指的特征比对,一般特征比对方法有欧氏距离、余弦相似度等等。我们指定一个阈值,比如93%,对于满足指定阈值的档案我们认为是匹配成功;
(2)在实际应用中,我们在归档时通常将img-id(抓拍图片ID),doc-id(档案Id),以及图片的url,抓拍时间time,相机名称等一并保存,当返回结果时可以将图片一起返回到输出端;
(3)在实际应用中,检索完档案之后,根据应用的展示方式不同,如果需要按检索的相似度排序,则需要将档案里查询出来的与检索的图片进行比对,计算相似度,然后进行排序。
5.作为快速检索模块的一种补充,也可以综合暴力搜索和快速检索的结果。如下图5所示:
注:(1).实际使用过程中,我们发现对于每一张抓拍图片,并不存在100%完美的归档结果,同一个人的抓拍图片存在分裂或个别比对归档错误的情况,即特征比对时出现少量的离散的点;另外我们注意到数据的价值总是与图片经过的时间长短有正关联的,人们总是更关心最近时间的数据。一般情况下,总是最近几天数据的价值比一个月前的数据的价值要高。如果对于精度要求特别高的情况下,可以考虑此综合检索的方式进行。
采用2种方法结合的方法,对于最近的检索结果保持了较高的精度,确保价值高的数据没有任何遗漏;对于历史数据也有很好的效果;
6.输入输出模块:用于检索时输入图片及获取检索模块返回的检索结果用于展示。也可以通过网络将搜索结果推送给第三方。
实施案例1;
传统的检索方式(比如暴力检索)中,如果M(抓拍的图片数)的规模是20亿张图片,每个特征值假设为1KB,如果在内存中进行暴力比对,需要的内存约为2TB。
本发明中,假设城市的人口档案规模是1000万,无论抓拍图片的数量如何增长(>>20亿),所需要的内存规模只需要10GB,在实际检索时,因为根据档案ID在数据库中的检索时间几乎忽略不计,检索速度主要是取决于特征比对的规模,考虑单台机器部署的情况,理论上对于实际发起检索的业务,本发明(1000万次比对)比传统的暴力检索的特征比对次数(20亿次比对)要少得多,从而整体检索速度要快很多倍。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (3)

1.一种海量数据下基于档案的快速搜索方法,其具体步骤如下:
S1,采集:通过抓拍相机抓拍图片,并在抓拍的同时进行提取该图片的特征值和相关质量参数;
S2,归档:对每一张抓拍图片进行归档,形成一个“一人一档”的电子档案,形成每个档案电子标签Doc-ID,同时将创建的档案ID作为建立索引,并存储在数据库中,同时在数据库中将该档案的所有时空轨迹进行合并即可;
S3,检索:用户发起图片检索时,直接查询满足相似度的档案即可。
2.根据权利要求1所述的一种海量数据下基于档案的快速搜索方法,其特征在于:所述S1中的特征值包括人脸、人体体态特征、指纹特征或者虹膜特征等。
3.根据权利要求1所述的一种海量数据下基于档案的快速搜索方法,其特征在于:所述S2中的归档具体流程:
对S1中采集:通过抓拍相机抓拍图片,并在抓拍的同时进行提取该图片的特征值和相关质量参数跟当前所有档案进行1:M比对,取与Mi比对最大的相似度跟阈值进行比较,如果大于阈值,则认为比对成功,反之则认为比对失败;成功时则将此抓拍图片与该档案进行关联,即在数据库中新增一条图片ID与该档案ID的记录。
CN202010340277.4A 2020-04-26 2020-04-26 一种海量数据下基于档案的快速搜索方法 Pending CN111522980A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010340277.4A CN111522980A (zh) 2020-04-26 2020-04-26 一种海量数据下基于档案的快速搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010340277.4A CN111522980A (zh) 2020-04-26 2020-04-26 一种海量数据下基于档案的快速搜索方法

Publications (1)

Publication Number Publication Date
CN111522980A true CN111522980A (zh) 2020-08-11

Family

ID=71911087

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010340277.4A Pending CN111522980A (zh) 2020-04-26 2020-04-26 一种海量数据下基于档案的快速搜索方法

Country Status (1)

Country Link
CN (1) CN111522980A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112446362A (zh) * 2020-12-16 2021-03-05 上海芯翌智能科技有限公司 人脸图片档案处理方法及设备
CN112989084A (zh) * 2020-12-25 2021-06-18 深圳惟远智能技术有限公司 一种基于特征值的社会行为分析方法
CN116401417A (zh) * 2023-06-07 2023-07-07 深圳市中农网有限公司 一种基于海量农产品数据的分级存储方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095964A (zh) * 2016-06-17 2016-11-09 浪潮软件股份有限公司 一种对数据进行可视化归档与搜索的方法
CN108170732A (zh) * 2017-12-14 2018-06-15 厦门市美亚柏科信息股份有限公司 人脸图片检索方法及计算机可读存储介质
CN109241378A (zh) * 2018-08-29 2019-01-18 北京旷视科技有限公司 档案建立方法、装置、设备及存储介质
CN109344271A (zh) * 2018-09-30 2019-02-15 南京物盟信息技术有限公司 视频人像档案处理方法及其系统
CN110288015A (zh) * 2019-06-21 2019-09-27 北京旷视科技有限公司 一种人像检索的处理方法和装置
CN110413811A (zh) * 2019-08-05 2019-11-05 北京深醒科技有限公司 一种基于人脸识别的路人库跨通道聚合方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095964A (zh) * 2016-06-17 2016-11-09 浪潮软件股份有限公司 一种对数据进行可视化归档与搜索的方法
CN108170732A (zh) * 2017-12-14 2018-06-15 厦门市美亚柏科信息股份有限公司 人脸图片检索方法及计算机可读存储介质
CN109241378A (zh) * 2018-08-29 2019-01-18 北京旷视科技有限公司 档案建立方法、装置、设备及存储介质
CN109344271A (zh) * 2018-09-30 2019-02-15 南京物盟信息技术有限公司 视频人像档案处理方法及其系统
CN110288015A (zh) * 2019-06-21 2019-09-27 北京旷视科技有限公司 一种人像检索的处理方法和装置
CN110413811A (zh) * 2019-08-05 2019-11-05 北京深醒科技有限公司 一种基于人脸识别的路人库跨通道聚合方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112446362A (zh) * 2020-12-16 2021-03-05 上海芯翌智能科技有限公司 人脸图片档案处理方法及设备
CN112989084A (zh) * 2020-12-25 2021-06-18 深圳惟远智能技术有限公司 一种基于特征值的社会行为分析方法
CN116401417A (zh) * 2023-06-07 2023-07-07 深圳市中农网有限公司 一种基于海量农产品数据的分级存储方法
CN116401417B (zh) * 2023-06-07 2023-09-05 深圳市中农网有限公司 一种基于海量农产品数据的分级存储方法

Similar Documents

Publication Publication Date Title
CN111522980A (zh) 一种海量数据下基于档案的快速搜索方法
CN110084103A (zh) 一种基于人脸识别技术的同行人分析方法及系统
CN109635146B (zh) 一种基于图像特征的目标查询方法及系统
US20210357624A1 (en) Information processing method and device, and storage medium
TWI740537B (zh) 一種資訊處理方法及裝置、儲存介質
CN108170732A (zh) 人脸图片检索方法及计算机可读存储介质
US9665773B2 (en) Searching for events by attendants
CN106407267A (zh) 一种基于全文检索的数据分类与数据检索的方法及装置
CN111709303A (zh) 一种人脸图像的识别方法和装置
CN114238388A (zh) 一种基于多协议的异构数据收集及检索系统
CN109800664A (zh) 一种确定路人轨迹的方法及装置
Ferman et al. Group-of-frames/pictures color histogram descriptors for multimedia applications
CN104615734A (zh) 一种社区管理服务大数据处理系统及其处理方法
CN111708906B (zh) 基于人脸识别的来访检索方法、装置、设备及存储介质
CN111061894A (zh) 同行数据的处理方法、装置、电子设备及存储介质
CN107943937B (zh) 一种基于司法公开信息分析的债务人资产监控方法及系统
CN110543584A (zh) 一种建立人脸索引的方法、装置、处理服务器及存储介质
CN102663053A (zh) 一种基于图像内容搜索的分布式服务器系统
CN114863364B (zh) 一种基于智能视频监控的安防检测方法及系统
CN106708876B (zh) 一种基于Lucene的相似视频检索方法及系统
CN111522974A (zh) 一种实时归档的方法及装置
CN112115281A (zh) 数据检索方法、装置及存储介质
CN111507424B (zh) 一种数据处理方法及装置
CN112559583A (zh) 一种同行人识别方法及装置
CN110895541A (zh) 一种Timing云数据统计智能化平台

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200811