CN114359611B - 目标聚档方法、计算机设备及存储装置 - Google Patents
目标聚档方法、计算机设备及存储装置 Download PDFInfo
- Publication number
- CN114359611B CN114359611B CN202210268639.2A CN202210268639A CN114359611B CN 114359611 B CN114359611 B CN 114359611B CN 202210268639 A CN202210268639 A CN 202210268639A CN 114359611 B CN114359611 B CN 114359611B
- Authority
- CN
- China
- Prior art keywords
- information
- target
- data
- gathered
- data source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000012545 processing Methods 0.000 claims abstract description 24
- 238000011156 evaluation Methods 0.000 claims description 21
- 230000008520 organization Effects 0.000 claims description 3
- 230000002123 temporal effect Effects 0.000 claims 1
- 230000002776 aggregation Effects 0.000 description 23
- 238000004220 aggregation Methods 0.000 description 23
- 238000004891 communication Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 230000006399 behavior Effects 0.000 description 5
- 238000009825 accumulation Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012937 correction Methods 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000004308 accommodation Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种目标聚档方法、计算机设备及存储装置。该方法包括:从多个不同类型的数据源,获取待聚档目标的若干数据信息;基于若干数据信息,获取待聚档目标的关联信息;基于关联信息,对待聚档目标的若干数据信息进行聚档处理。上述方案,能够提高目标聚档的准确率和召回率。
Description
技术领域
本申请涉及数据处理技术领域,特别是涉及一种目标聚档方法、计算机设备及存储装置。
背景技术
随着计算机信息技术和互联网技术的发展,越来越多的领域需要对人员的信息进行聚档。例如在安防领域中,为了获取有价值的人员信息,通常需要将大量不同时间、空间内抓拍的目标聚集起来,对属于同一目标的图像信息进行整合以建立该目标对应的档案。
现有技术中,通常针对目标的人脸抓拍图像进行聚档,将采集到的人脸图片与现有的档案库的图像进行比对,将比对成功的目标与档案库的已知人员的信息进行聚档,将比对失败的目标单独建立新的档案。由于采集图像受采集设备、采集环境、采集目标的状态等的影响,使得影响目标聚档的准确率。
发明内容
本申请主要解决的技术问题是提供一种目标聚档方法、计算机设备及存储装置,能够提高目标聚档的准确率和召回率。
为了解决上述问题,本申请第一方面提供了一种目标聚档方法,该方法包括:从多个不同类型的数据源,获取待聚档目标的若干数据信息;基于若干数据信息,获取待聚档目标的关联信息;基于关联信息,对待聚档目标的若干数据信息进行聚档处理。
为了解决上述问题,本申请第二方面提供了一种计算机设备,该计算机设备包括相互耦接的存储器和处理器,存储器中存储有程序数据,处理器用于执行程序数据以实现上述提高目标聚档的召回率的任一步骤。
为了解决上述问题,本申请第三方面提供了一种存储装置,该存储装置存储有能够被处理器运行的程序数据,程序数据用于实现上述提高目标聚档的召回率的任一步骤。
上述方案,通过从多个不同类型的数据源,获取待聚档目标的若干数据信息;基于若干数据信息,获取待聚档目标的关联信息;基于关联信息,对待聚档目标的若干数据信息进行聚档处理,由于采用不同类型的数据源获取的若干数据信息,也即多维的大数据信息,并基于若干数据信息的关联信息对目标进行聚档处理,相比于仅利用视图信息进行目标聚档处理,该方式融入了目标更多的信息进行聚档处理,能够提高目标聚档的准确率和召回率。
附图说明
为了更清楚地说明本申请中的技术方案,下面将对实施例描述中所需要的附图作简单的介绍,显而易见地,下面描述的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。其中:
图1是本申请目标聚档方法第一实施例的流程示意图;
图2是本申请图1中步骤S12一实施例的流程示意图;
图3是本申请目标聚档方法第二实施例的流程示意图;
图4是本申请目标聚档方法第三实施例的流程示意图;
图5是本申请目标聚档装置一实施例的流程示意图;
图6是本申请计算机设备一实施例的结构示意图;
图7是本申请存储装置一实施例的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请中的术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本申请提供以下实施例,下面对各实施例进行具体说明。
请参阅图1,图1是本申请目标聚档方法第一实施例的流程示意图。该方法可以包括以下步骤:
S11:从多个不同类型的数据源,获取待聚档目标的若干数据信息。
待聚档目标可以是人员、动物、物体等,本申请该实施例以待聚档目标为人员为例进行说明,本申请不限于此。
可以从多个不同类型的数据源,获取在预设时间段内数据源产生的多个待聚档目标的若干数据信息。预设时间段可以是实时或近实时的一段时间、历史时间段等。
其中,数据源可以是泛指真实物理世界的数据源(后文称为真实数据源)和虚拟数字世界的数据源(后文称为虚拟数据源)。这些数据源能够记录行为主体在真实或虚拟世界的特征及其行为轨迹,行为主体也即为待聚档目标。真实数据源用于获取待聚档目标与真实物理世界交互而产生的数据信息,例如获取空间内人员的视图信息、人员持有的通信设备的信号信息、通信设备或车辆的GPS信息等。虚拟数据源用于获取待聚档目标与虚拟数字世界交互而产生的数据信息,例如人员在浏览网页时产生的记录数据等。数据信息是由数据源产生的所有数据,这些数据信息可以被实时或近实时地被采集、汇聚、存储和计算。
例如可以利用分布在各地的摄像设备采集待聚档目标的视图信息(视频信息或图像信息),利用酒店等获取待聚档目标的出行信息或居住信息,利用各网站获取待聚档目标的浏览记录、登录信息等,本申请对此不做限制。
例如若干数据信息包括:视图信息,如视频信息、图像信息。其他传感数据,如通信设备的信号信息、GPS信息(Global Positioning System,全球定位系统)、车辆的RFID信息(Radio Frequency Identification,射频识别)、MAC信息(Media Access Control,局域网地址)等。网络信息,例如在网页产生的数据。社会面数据信息,例如常住人口信息、外来人口信息、车辆登记信息、社会社保信息、公司单位信息、教育背景信息、违法犯罪信息、交通违章信息、资金贷款信息、卫生医疗信息、宗教信仰信息、出入境信息等。也包括前期已经完成的待目标聚档的结果数据信息。可以通过多个不同类型的数据源,获取所有能够合法获取的待聚档目标的所有相关数据信息。
在一些实施方式中,从多个不同类型的数据源,获取得到若干待聚档目标的若干数据信息之后,可以按照预设数据标准对若干数据信息进行数据清洗和数据治理,将经过处理的数据信息存储在数据仓库中。预设数据标准可以根据待聚档目标的应用场景进行设置,此处不做限制。
在一些实施方式中,数据信息包括基于待聚类图像得到的数据信息。也即,待聚类图像经过信息提取或处理后得到待聚档目标的结构化的若干数据信息。
在一些实施方式中,本申请涉及的若干数据信息针对有聚档需求的目标区域进行。不同类型的数据源分布在目标区域中,从而利用数据源获取待聚档目标在目标区域内产生的若干数据信息。
S12:基于若干数据信息,获取待聚档目标的关联信息。
得到多个待聚档目标的若干数据信息之后,可以获取待聚档目标的若干数据信息之间的关联信息,其中,关联信息可以表示若干数据信息之间的关联关系。
在一些实施方式中,可以基于若干数据信息,提取待聚档目标的时空关联信息、伴随信息、强关系信息中的至少一种。其中,时空关联信息表示待聚档目标与时间、空间之间的关系。伴随信息表示待聚档目标的不同数据轨迹之间的关系,每个数据轨迹为一数据信息对应的轨迹。强关系信息表示待聚档目标之间的关系强度满足预设强度阈值要求。具体可参考下述实施例,此处不做限制。
S13:基于关联信息,对待聚档目标的若干数据信息进行聚档处理。
基于若干数据信息之间的关联信息,对待聚档目标的若干数据信息进行聚档处理,可以将属于同一待聚档目标的若干数据信息汇聚在一起,以待聚档目标为单位建立档案,得到聚档结果。
在一些实施方式中,可以将聚档结果与历史聚档结果进行合档处理。也即,在聚档结果与历史聚档结果中,可以将属于同一待聚档目标的若干数据信息进行合并。若聚档结果的待聚档目标与历史聚档结果的聚档目标匹配,则将聚档结果的若干数据信息加入历史聚档结果的同一聚档目标的若干数据信息中。若聚档结果的待聚档目标与历史聚档结果的聚档目标匹配,则可以为待聚档目标建立新的档案。
本实施例中,通过从多个不同类型的数据源,获取待聚档目标的若干数据信息;基于若干数据信息,获取待聚档目标的关联信息;基于关联信息,对待聚档目标的若干数据信息进行聚档处理,由于采用不同类型的数据源获取的若干数据信息,也即多维的大数据信息,并基于若干数据信息的关联信息对目标进行聚档处理,相比于仅利用视图信息进行目标聚档处理,该方式融入了目标更多的信息进行聚档处理,能够提高目标聚档的准确率和召回率。
在一些实施例中,请参阅图2,上述步骤S12,提取待聚档目标的时空关联信息,可以包括以下步骤:
S121:从若干数据信息中,提取待聚档目标的身份背景信息和关联要素信息。
在一些实施方式中,从若干数据信息中,提取待聚档目标的身份背景信息。其中,身份背景信息包括姓名、性别、年龄、婚姻状况、人生经历、身体状况等信息,其中,人生经历例如包括教育经历、生活经历、工作经历、刑事记录、违法犯罪信息等,身份背景信息可以包括待聚档目标自身的所有属性信息,本申请对此不做限制。
在一些实施方式中,从若干数据信息中,提取待聚档目标的关联要素信息。其中,关联要素信息包括待聚档目标之间的关系、待聚档目标与空间的关系、待聚档目标与时间的关系、待聚档目标与组织的关系、待聚档目标与物品的关系、待聚档目标与事件的关系中的至少一种。
其中,待聚档目标之间的关系例如包括同行关系、同事关系、同学关系等。待聚档目标与空间的关系例如包括落脚地点、曾出现地点、临时地点等。待聚档目标与时间的关系例如包括出现频次、出现时长、出现时间段等。待聚档目标与组织的关系例如包括工作单位、毕业院校、宗教信仰等。待聚档目标与物品的关系例如包括车辆信息、宠物信息、常用装饰信息(如常用背包、常穿的衣着、装饰等)等信息。待聚档目标与事件的关系例如包括违法前科、交通违章事件、车祸信息等。关联要素信息还可以包括其他信息,本申请对关联要素信息不做限制。
在一些实施方式中,可以采用正则表达式、基于语义和规则的提取方法、信息提取方法(Information Extraction,简称IE)等方法,从若干数据信息中,提取待聚档目标的身份背景信息和关联要素信息。对于获取身份背景信息和关联要素信息的方法本申请不做限制。
在一些实施方式中,同一待聚档目标的不同的数据信息存在于单独的多个表格中,例如婚姻登记表、工作单位表等,可以从多个不同的数据信息的表格中提取出数据信息,对多个不同表格的数据信息进行整合,得到待聚档目标的身份背景信息和关联要素信息。
S122:基于身份背景信息和关联要素信息,获取待聚档目标的落脚时空关联信息、临时时空关联信息。
基于身份背景信息和关联要素信息,获取待聚档目标时空关联信息,时空关联信息可以表示待聚档目标与时间、空间之间的关系。时空关联信息包括落脚时空关联信息、临时时空关联信息。
落脚时空关联信息表示待聚档目标在空间内出现时间满足第一预设周期条件的关联信息。其中,空间可以表示地区、地点等。第一预设周期条件可以是出现时间大于第一预设时长。例如落脚时空关联信息可以表示待聚档目标在时空区域内的总体时间较长,会规律性或周期性的出现在该时空区域,落脚时空关联信息例如家庭住址和居家时间段、上学院校和上学时间段、上班地点和工作时间段等,本申请对此不做限制。
临时时空关联信息表示待聚档目标在空间内的出现时间满足第二预设周期条件的关联信息。第二预设周期条件可以是出现时间小于第二预设时长。例如临时时空关联信息表示待聚档目标在时空区域内某个时间段短周期出现,或者在某一类区域短周期出现,表现为短期的时空关系,临时时空关联信息例如旅馆住宿及其时间段、网吧上网及其时间段、娱乐场所前台抓拍及其时间段等,本申请对此不做限制。
在一些实施方式中,可以利用采集待聚档目标的视图信息的采集地点所在的区域,统计待聚档目标出现在采集地点(空间)的出现时间、出现次数。也可以利用待聚档目标的通信设备的信号轨迹信息、GPS信息等,获取待聚档目标出现在空间的出现时间、出现次数。从而获取落脚时空关联信息、临时时空关联信息。
获取待聚档目标的落脚时空关联信息、临时时空关联信息,可以细化待聚档目标与时间、空间的关联,从而后续聚档时可以关联到更多可能的聚档候选人。
S123:基于若干数据信息,提取待聚档目标的伴随信息。
伴随信息表示待聚档目标的不同数据轨迹之间的关系,每个数据轨迹为一数据信息对应的轨迹。其中,数据源产生的数据信息可以表现为连续的数据轨迹,数据轨迹例如为通信设备的信号轨迹信息、GPS信息的轨迹信息、MAC信息轨迹、RFID信息轨迹、网络虚拟信息的轨迹转换得到的地址轨迹、视图信息的抓拍地址轨迹等信息。本申请的数据轨迹不限于此。
通过对数据轨迹进行映射进行伴随分析,可以获取待聚档目标的伴随信息。在一些应用场景中,可以将数据轨迹进行时空映射,也即时间和空间的映射,例如待聚档目标的通信设备的信号轨迹信息表示在时间段T内从地点A到地点B,此时,GPS信息的轨迹信息也表示为在时间段T内从地点A到地点B,则可以将待聚档目标的通信设备的信号轨迹信息与GPS信息的轨迹信息进行关联,作为伴随信息,伴随信息可以表达待聚档目标在某时、某地、相关事物(车辆、通信设备、事件等)的历史行为轨迹信息,也即待聚档目标的若干数据信息的数据轨迹之间的关联关系。
通过提取待聚档目标的伴随信息,可以表征数据轨迹伴随待聚档目标的轨迹,可以细化待聚档目标与数据信息的关联。
S124:利用待聚档目标的时空关联信息和伴随信息,获取待聚档目标的强关系信息。
获取待聚档目标的身份背景信息、关联要素信息、时空关联信息、伴随信息之后,由于一些具有强关系的待聚档目标可能会伴随出现,常在同一时间段出现在同一区域(空间)内等情况,因此可以基于待聚档目标之间的时空关联信息、伴随信息等,获取待聚档目标的强关系信息。
其中,强关系信息包括亲属关系信息、亲密关系信息、附属关系信息中的至少一种。例如亲属关系信息包括婚姻关系、亲子关系等,亲密关系包括情侣关系、朋友关系等,附属关系包括助手关系等,本申请不限于此。
在一些实施方式中,可以通过待聚档目标之间的时空关联信息、伴随信息,获取待聚档目标之间的关系强度。若待聚档目标之间的时空关联信息、伴随信息之间的相似度越高,则待聚档目标之间的关系强度越高。若待聚档目标之间的关系强度满足预设强度阈值要求,则可以确定待聚档目标之间具有强关系,将待聚档目标与具有强关系的待聚档目标进行关联,得到强关系信息。其中,预设强度阈值要求可以是在预设强度范围内,每种强关系设置不同或相同的预设强度范围。
在一些实施方式中,在每种强关系设置不同或相同的预设强度范围的情况下,还可以基于待聚档目标的身份背景信息、关联要素信息等确定其所属的强关系,例如确定出亲属关系信息、亲密关系信息、附属关系信息等。本申请对此不做限制。
通过获取待聚档目标的强关系信息,强化对待聚档目标之间的关系,后续进行目标聚档时可以关联到更多可能具有关联的待聚档目标,提升目标聚档的准确率和召回率。
在一些实施方式中,上述获取待聚档目标的关联信息也即身份背景信息、关联要素信息、时空关联信息、伴随信息之后,还可以通过大数据搜索技术建立索引信息,并将关联信息、索引信息和/或数据信息进行连续存储,以方便后续快速检索和提取关联信息(或数据信息)。
请参阅图3,图3是本申请目标聚档方法第二实施例的流程示意图。该方法可以包括以下步骤:
S21:利用各数据源的时空信息对多个不同类型的数据源进行分组,以得到多个初始数据源分组,其中,每个初始数据源分组包括至少一个数据信息。
在一些实施方式中,在上述步骤S13之前,也即执行基于关联信息,对待聚档目标的若干数据信息进行聚档处理的步骤之前,可以执行该实施例的步骤。
可以对多个不同类型的数据源进行分组,以对各数据源产生的若干数据信息进行分组。
在一些实施方式中,由于数据源分布在各区域(空间),在各时间段会产生不同的数据信息,可以利用各数据源的时空信息,对数据源进行分组,以得到多个初始数据源分组,其中,每个初始数据源分组包括至少一个数据信息。在一些应用场景中,可以利用时空域分割算法对数据源进行分组,例如将区域A中时段1的数据源分为一组,将区域A中时段2的数据源分为一组,时段可以包括以小时为单位划分的时段、以天为单位划分的时段、以周为单位划分的时段等,本申请对此不做限制。
S22:基于初始数据源分组中数据信息的数量,对初始数据源分组进行拆分或合并,以得到目标数据源分组。
为了避免初始数据源分组中,过大的数据量倾斜造成目标聚档效率低,可以基于每个初始数据源分组中包括或产生的数据信息的数量,对初始数据源分组进行拆分或合并,以得到包含的数据信息的数量较为平衡的目标数据源分组。
在一些实施方式中,可以分别将每个初始数据源分组作为待处理分组;若待处理分组中数据信息的数量大于第一预设数量,将待处理分组拆分为至少两个目标数据源分组;若待处理分组中数据信息的数量小于第二预设数量,则将待处理分组与数据信息的数量小于第二预设数量的其他初始数据源分组进行合并,得到目标数据源分组。
其中,第一预设数量和第二预设数量可以是不同的数值,第一预设数量、第二预设数量可以是基于每个初始数据源分组中数量信息的数量进行统计得到的,例如为统计的平均值、中位数值、平均值的预设比例等。另外,预设数量也可以基于对具体应用场景设置的数量。本申请对此不做限制。
作为一种示例,例如m个初始数据源分组中,平均每个初始数据源分组每天产生Q万条数据信息,可以将2*Q作为第一预设数量,将Q/2作为第二预设数量。其中,有k个初始数据源分组每天产生超过2*Q万条数据,有j个初始数据源分组每天产生小于Q/2万条数据,则可以对上述k个产生较大数据量的初始数据源分组进行拆分,拆分为至少两个目标源分组,对上述j个产生较小数据量的初始数据源分组进行合并,合并为至少两个目标源分组。最终m个初始数据源分组中,可以划分为g个目标数据源分组,每个目标数据源分组中可以包含组内数据源产生的若干数据信息。
拆分和合并可以考虑不同数据信息之间的关联程度,以减少拆分和合并对后续目标聚档的准确率和召回率造成的影响。
在一些实施方式中,同一个数据源可能被分到多个目标数据源分组中,也即同一条数据信息可能被分到多个目标数据源分组中,或同一条数据信息可能被分到多个目标数据源分组中。其中,每条数据信息具有唯一的编号,如果不同的目标数据源分组中包括同一数据源,使得后续在对待聚档目标进行数据信息的聚档时,可以通过唯一的编号去除重复的数据信息。
作为一种示例,在g个目标数据源分组内,数据信息是允许有一定的重复的,例如某一条数据信息s,同时包含在目标数据源分组g356和目标数据源分组g8032。每条数据信息具有唯一的编号,重复的数据信息s,在后续对待聚档目标的若干数据信息进行聚档的过程中,可以通过唯一的编号被感知到并且按需去掉重复。
在一些实施方式中,每个目标数据源分组可以包含若干数据信息,可以通过上述实施例的方法建立的索引信息,将每个数据信息与其对应的关联信息进行关联。
本实施例中,通过利用各数据源的时空信息对多个不同类型的数据源进行分组,以得到多个初始数据源分组,其中,每个初始数据源分组包括至少一个数据信息;基于初始数据源分组中数据信息的数量,对初始数据源分组进行拆分或合并,以得到目标数据源分组,能够有效在数据源的分组的时空区域内结合数据信息,得到对应的时空相关信息或关联信息,从而关联到更多可能的目标聚档的候选人。
请参阅图4,图4是本申请目标聚档方法第三实施例的流程示意图。该方法可以包括以下步骤:
S31:从多个不同类型的数据源,获取待聚档目标的若干数据信息。
本实施例中,以目标数据源分组为单位,对待聚档目标的若干数据信息进行聚档处理为例进行说明。当然,也可以以多个目标数据源分组或全部的目标数据源分组,待聚档目标的若干数据信息进行聚档处理,本申请不限于此。
在目标数据源分组中,包含多个数据源产生的多个数据信息,也即,多个不同类型的数据源产生的若干数据信息进行分组,对可以将每个目标数据源分组中包含的数据信息作为数据信息分组。
S32:基于若干数据信息,获取待聚档目标的关联信息。
基于目标数据源中的数据信息,利用数据信息的索引信息获取数据信息对应的关联信息,关联信息包括身份背景信息、关联要素信息、时空关联信息、伴随信息等。
S33:对数据信息分组内关于待聚档目标的待聚类图像进行聚类,得到聚类结果;其中,数据信息分组为对多个不同类型的数据源进行分组得到的。
在每个数据信息分组中,也即在每个目标数据源分组中,数据信息中包含待聚类图像,也包含基于待聚类图像得到的数据信息。
可以利用视图聚类算法对待聚类图像进行聚类,从而得到目标数据源分组中每个待聚类目标的聚类结果。本申请的视图聚类算法例如K-means聚类算法、DBSCAN聚类算法等,本申请对此不做限制。
S34:利用关联信息,对聚类结果进行修正,得到聚档结果。
可以利用每个聚档结果中待聚档目标的关联信息,获取聚类结果的评估值,评估值可以表示聚档结果与预设评估值的匹配程度。预设评估值可以是基于历史聚档结果的数据信息进行分析得到的,匹配程度的衡量指标可以是时间差异、空间差异、速度差异等,本申请不限于此。
若评估值大于预设评估阈值,则对聚类结果进行修正,修正可以包括拆分聚类结果,从而得到聚档结果。其中,可以根据历史聚档结果的数据信息分组或数据信息等进行分析而设置对应的预设评估阈值,本申请对此不做限制。
作为一种示例,在历史聚档结果或历史时段的数据信息中,表明预设数量的历史人员从地点1步行至地点2最少需要8分钟。其中,对预设数量的历史人员的数据信息进行聚档处理,得到历史聚档结果。预设数量的历史人员可以包括超过20人、超过100人次、且分布在最近20天的时段的历史人员。可以将8分钟作为该项评估的预设评估值。
在对上述目标数据源分组进行聚类得到t个聚类结果,若在t个聚类结果中出现了w个聚类结果对应的人员从地点1走到地点2时长小于3分钟,则可以通过时长小于3分钟与预设评估值的时间差得到匹配程度,从而得到这t个聚类结果的评估值,时间差越大,匹配程度越低,评估值越小。
若评估值小于预设评估阈值,则可以判断聚类结果中出现错误。例如w个聚类结果的评估值小于预设评估阈值,则可以将w个聚类结果切分为w+u个聚类结果,则原t个聚类结果修正为t+u个聚类结果,也即最终得到t+u个聚档结果。
其中,预设评估阈值可以根据历史聚档结果中某衡量指标得到。例如某衡量指标的度量指标为Y,偏离Y的异常偏离阈值为X,则可以将Y的X倍作为预设评估阈值。本申请对此不做限制。
S35:对每个聚档结果与历史聚档结果进行合档处理。
对每个目标数据源分组进行聚档处理,得到每个目标数据源的聚档结果之后,可以对每个聚档结果与历史聚档结果进行合档处理。
在一些实施方式中,可以在目标数据源分组进行聚档处理之后,可以基于聚档结果中数据信息及待聚类图像的特征,从聚档结果中选出一个或多个典型子档,作为目标数据源分组的典型子档。通过该方式可以得到每个目标数据源分组对应的典型子档。
在一些实施方式中,通过对比多个目标数据源分组对应的典型子档的特征,判断是否需要对多个目标数据源分组中的聚档结果进行合并,以得到若干数据信息对应的待聚档目标的聚档结果。
例如同一待聚档目标的数据信息分布在多个目标数据源分组中,可以基于多个目标数据源分组选出的典型子档对待聚档目标的数据信息进行合并。如选出的典型子档为人员的左脸图像,可以基于左脸图像,从其他目标数据源分组中找出与人员左脸图像匹配其他数据信息(如左脸图像),从而,可以将匹配的左脸图像与其他数据信息进行合并。本申请不限于此。
在一些实施方式中,可以通过将目标数据源分组对应的典型子档与其他目标数据源分组对应的典型子档、历史聚档结果的进行特征匹配。得到与历史聚档结果的合档概率,通过合档概率判断是否匹配,若找到匹配的历史聚档结果,则可以将目标数据源的聚档结果与匹配历史聚档结果进行合档处理,加入历史聚档结果。若不匹配,则为聚档结果建立新的档案。
在一些实施方式中,还可以基于聚档结果,对历史聚档结果进行修正,对历史聚档结果进行更新等等。本申请对此不做限制。
在该实施例中,通过关联信息对聚类结果进行修正,可以通过关联信息关联到更多可能聚档的候选人,可以提高对聚类结果的纠错能力,提高目标聚档的召回率。
对于上述实施例,本申请还提供一种目标聚档装置。请参阅图5,图5是本申请目标聚档装置一实施例的流程示意图。目标聚档装置40包括获取模块41、关联模块42和聚档模块43。
获取模块41用于从多个不同类型的数据源,获取待聚档目标的若干数据信息。
关联模块42用于基于若干数据信息,获取待聚档目标的关联信息。
聚档模块43用于基于关联信息,对待聚档目标的若干数据信息进行聚档处理。
该实施例的具体实施方式可参考上述实施例的实施过程,在此不再赘述。
对于上述实施例,本申请提供一种计算机设备,请参阅图6,图6是本申请计算机设备一实施例的结构示意图。该计算机设备50包括存储器51和处理器52,其中,存储器51和处理器52相互耦接,存储器51中存储有程序数据,处理器52用于执行程序数据以实现上述目标聚档方法任一实施例中的步骤。
在本实施例中,处理器52还可以称为CPU(Central Processing Unit,中央处理单元)。处理器52可能是一种集成电路芯片,具有信号的处理能力。处理器52还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器52也可以是任何常规的处理器等。
该实施例的具体实施方式可参考上述实施例的实施过程,在此不再赘述。
对于上述实施例的方法,其可以采用计算机程序的形式实现,因而本申请提出一种存储装置,请参阅图7,图7是本申请存储装置一实施例的结构示意图。该存储装置60中存储有能够被处理器运行的程序数据61,程序数据61可被处理器执行以实现上述目标聚档方法任一实施例的步骤。
该实施例的具体实施方式可参考上述实施例的实施过程,在此不再赘述。
本实施例存储装置60可以是U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等可以存储程序数据61的介质,或者也可以为存储有该程序数据61的服务器,该服务器可将存储的程序数据61发送给其他设备运行,或者也可以自运行该存储的程序数据61。
在本申请所提供的几个实施例中,应该理解的,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储装置中,该存储装置是一种计算机可读取存储介质。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台电子设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。
显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (9)
1.一种目标聚档方法,其特征在于,所述方法包括:
从多个不同类型的数据源,获取待聚档目标的若干数据信息,所述数据源包括真实数据源和虚拟数据源;
基于所述若干数据信息,获取所述待聚档目标的关联信息,包括:基于所述若干数据信息,提取所述待聚档目标的时空关联信息、伴随信息中的至少一种;其中,所述时空关联信息表示所述待聚档目标与时间、空间之间的关系;所述伴随信息表示所述待聚档目标的不同数据轨迹之间的关系,每个所述数据轨迹为一所述数据信息对应的轨迹;所述待聚档目标的时空关联信息是基于所述待聚档目标的身份背景信息和关联要素信息得到的;
利用各所述数据源的时空信息对所述多个不同类型的数据源进行分组,以得到多个初始数据源分组,其中,每个所述初始数据源分组包括至少一个数据信息;基于所述初始数据源分组中所述数据信息的数量,对所述初始数据源分组进行拆分或合并,以得到目标数据源分组;
基于所述关联信息,对所述目标数据源分组中所述待聚档目标的所述若干数据信息进行聚档处理。
2.根据权利要求1所述的方法,其特征在于,所述时空关联信息包括落脚时空关联信息、临时时空关联信息;所述提取所述待聚档目标的时空关联信息,包括:
从所述若干数据信息中,提取所述待聚档目标的身份背景信息和关联要素信息;
基于所述身份背景信息和关联要素信息,获取所述待聚档目标的所述落脚时空关联信息、临时时空关联信息。
3.根据权利要求2所述的方法,其特征在于,
所述关联要素信息包括所述待聚档目标之间的关系、所述待聚档目标与空间的关系、所述待聚档目标与时间的关系、所述待聚档目标与组织的关系、所述待聚档目标与物品的关系、所述待聚档目标与事件的关系中的至少一种;
所述落脚时空关联信息表示所述待聚档目标在空间内出现时间满足第一预设周期条件的关联信息;所述临时时空关联信息表示所述待聚档目标在空间内的出现时间满足第二预设周期条件的关联信息。
4.根据权利要求1所述的方法,其特征在于,所述基于所述若干数据信息,获取所述待聚档目标的关联信息,还包括:
利用所述待聚档目标的时空关联信息和伴随信息,获取所述待聚档目标的强关系信息;
其中,所述强关系信息包括亲属关系信息、亲密关系信息、附属关系信息中的至少一种。
5.根据权利要求1所述的方法,其特征在于,所述基于所述初始数据源分组中所述数据信息的数量,对所述初始数据源分组进行拆分或合并,包括:
分别将每个所述初始数据源分组作为待处理分组;
若所述待处理分组中所述数据信息的数量大于第一预设数量,将所述待处理分组拆分为至少两个所述目标数据源分组;
若所述待处理分组中所述数据信息的数量小于第二预设数量,则将所述待处理分组与所述数据信息的数量小于所述第二预设数量的其他初始数据源分组进行合并,得到所述目标数据源分组。
6.根据权利要求1所述的方法,其特征在于,所述数据信息包括基于待聚类图像得到的数据信息;
所述基于所述关联信息,对所述目标数据源分组中所述待聚档目标的所述若干数据信息进行聚档处理,包括:
对数据信息分组内关于所述待聚档目标的所述待聚类图像进行聚类,得到聚类结果;其中,所述数据信息分组包括对所述多个不同类型的数据源进行分组得到的所述目标数据源分组中包含的若干数据信息;
利用所述关联信息,对所述聚类结果进行修正,得到聚档结果;
对每个所述聚档结果与历史聚档结果进行合档处理。
7.根据权利要求6所述的方法,其特征在于,所述利用所述关联信息,对所述聚类结果进行修正,得到聚档结果,包括:
利用所述关联信息,获取所述聚类结果的评估值;
若所述评估值大于预设评估阈值,则对所述聚类结果进行修正,得到所述聚档结果。
8.一种计算机设备,其特征在于,包括相互耦接的存储器和处理器,所述存储器中存储有程序数据,所述处理器用于执行所述程序数据以实现权利要求1至7任一项所述方法的步骤。
9.一种存储装置,其特征在于,存储有能够被处理器运行的程序数据,所述程序数据用于实现权利要求1至7任一项所述方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210268639.2A CN114359611B (zh) | 2022-03-18 | 2022-03-18 | 目标聚档方法、计算机设备及存储装置 |
PCT/CN2023/081436 WO2023174304A1 (en) | 2022-03-18 | 2023-03-14 | Systems, methods, and storage devices for data clustering |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210268639.2A CN114359611B (zh) | 2022-03-18 | 2022-03-18 | 目标聚档方法、计算机设备及存储装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114359611A CN114359611A (zh) | 2022-04-15 |
CN114359611B true CN114359611B (zh) | 2022-09-06 |
Family
ID=81094590
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210268639.2A Active CN114359611B (zh) | 2022-03-18 | 2022-03-18 | 目标聚档方法、计算机设备及存储装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN114359611B (zh) |
WO (1) | WO2023174304A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114359611B (zh) * | 2022-03-18 | 2022-09-06 | 浙江大华技术股份有限公司 | 目标聚档方法、计算机设备及存储装置 |
CN116760635B (zh) * | 2023-08-14 | 2024-01-19 | 华能信息技术有限公司 | 一种基于工业互联网平台的资源管理方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113868457A (zh) * | 2021-08-24 | 2021-12-31 | 浙江大华技术股份有限公司 | 一种基于图像聚档的图像处理方法及相关装置 |
CN113987243A (zh) * | 2021-09-07 | 2022-01-28 | 浙江大华技术股份有限公司 | 一种图像聚档方法、图像聚档装置和计算机可读存储介质 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5456944B1 (ja) * | 2013-05-16 | 2014-04-02 | 株式会社ビジョナリスト | 画像ファイルクラスタリングシステム及び画像ファイルクラスタリングプログラム |
CN106027647B (zh) * | 2016-05-20 | 2019-07-09 | 云南云电同方科技有限公司 | Lxpfs集群分布式文件存储系统 |
CN109001596B (zh) * | 2018-10-17 | 2021-06-29 | 广东电网有限责任公司 | 一种电网故障诊断与输电线路参数辨识系统 |
CN109815823B (zh) * | 2018-12-27 | 2020-11-24 | 深圳云天励飞技术有限公司 | 数据处理方法及相关产品 |
CN109885562A (zh) * | 2019-01-17 | 2019-06-14 | 安徽谛听信息科技有限公司 | 一种基于网络空间安全的大数据智能分析系统 |
CN110765134A (zh) * | 2019-10-25 | 2020-02-07 | 四川东方网力科技有限公司 | 档案建立方法、设备及存储介质 |
CN113128305B (zh) * | 2019-12-31 | 2024-06-11 | 深圳云天励飞技术有限公司 | 人像档案聚档评估方法、装置、电子设备及存储介质 |
CN111652160A (zh) * | 2020-06-05 | 2020-09-11 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、设备及存储介质 |
CN112100305B (zh) * | 2020-09-15 | 2021-07-30 | 重庆中科云从科技有限公司 | 一种基于多源数据的轨迹确定方法、装置、设备及介质 |
CN112364176A (zh) * | 2020-10-26 | 2021-02-12 | 青岛海信网络科技股份有限公司 | 一种人员行动轨迹的构建方法、设备及系统 |
CN112632354A (zh) * | 2020-12-23 | 2021-04-09 | 东方网力科技股份有限公司 | 一种imsi和人脸深度拟合方法、装置、设备及系统 |
CN113570635B (zh) * | 2021-06-03 | 2024-06-21 | 浙江大华技术股份有限公司 | 目标运动轨迹还原方法、装置、电子设备、存储介质 |
CN113987244A (zh) * | 2021-09-13 | 2022-01-28 | 浙江大华技术股份有限公司 | 人体图像的聚档方法、装置、计算机设备和存储介质 |
CN114187463A (zh) * | 2021-11-09 | 2022-03-15 | 深圳云天励飞技术股份有限公司 | 电子档案生成方法、装置、终端设备及存储介质 |
CN113947800A (zh) * | 2021-11-24 | 2022-01-18 | 重庆紫光华山智安科技有限公司 | 一种基于时空碰撞的人脸置信方法、系统、设备和介质 |
CN114078277A (zh) * | 2022-01-19 | 2022-02-22 | 深圳前海中电慧安科技有限公司 | 一人一档的人脸聚类方法、装置、计算机设备及存储介质 |
CN114359611B (zh) * | 2022-03-18 | 2022-09-06 | 浙江大华技术股份有限公司 | 目标聚档方法、计算机设备及存储装置 |
CN115273191A (zh) * | 2022-07-26 | 2022-11-01 | 杭州海康威视数字技术股份有限公司 | 一种人脸聚档方法、人脸识别方法、装置、设备及介质 |
-
2022
- 2022-03-18 CN CN202210268639.2A patent/CN114359611B/zh active Active
-
2023
- 2023-03-14 WO PCT/CN2023/081436 patent/WO2023174304A1/en unknown
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113868457A (zh) * | 2021-08-24 | 2021-12-31 | 浙江大华技术股份有限公司 | 一种基于图像聚档的图像处理方法及相关装置 |
CN113987243A (zh) * | 2021-09-07 | 2022-01-28 | 浙江大华技术股份有限公司 | 一种图像聚档方法、图像聚档装置和计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114359611A (zh) | 2022-04-15 |
WO2023174304A1 (en) | 2023-09-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210385236A1 (en) | System and method for the automated detection and prediction of online threats | |
Balaanand et al. | An enhanced graph-based semi-supervised learning algorithm to detect fake users on Twitter | |
Alam et al. | Processing social media images by combining human and machine computing during crises | |
US20230418830A1 (en) | Bitmap index including internal metadata storage | |
US20200320646A1 (en) | Interest recommendation method, computer device, and storage medium | |
US20170337258A1 (en) | Classifying uniform resource locators | |
TWI740537B (zh) | 一種資訊處理方法及裝置、儲存介質 | |
US10599774B1 (en) | Evaluating content items based upon semantic similarity of text | |
US11496495B2 (en) | System and a method for detecting anomalous patterns in a network | |
CN114359611B (zh) | 目标聚档方法、计算机设备及存储装置 | |
JP5990284B2 (ja) | キャラクター・ヒストグラムを用いるスパム検出のシステムおよび方法 | |
US20190073593A1 (en) | Detecting content items in violation of an online system policy using templates based on semantic vectors representing content items | |
US20230328080A1 (en) | Systems and methods of malware detection | |
CN110413867B (zh) | 用于内容推荐的方法及系统 | |
CN107408115B (zh) | web站点过滤器、控制对内容的访问的方法和介质 | |
CN111447575B (zh) | 短信息推送方法、装置、设备及存储介质 | |
Hosseini et al. | Enhancing the security of patients’ portals and websites by detecting malicious web crawlers using machine learning techniques | |
CN104951499B (zh) | 一种跨域用户关联方法及信息推送方法 | |
US20210258400A1 (en) | Method for linking identifiers to generate a unique entity identifier for deduplicating high-speed data streams in real time | |
WO2016057378A1 (en) | Event identification through analysis of social-media postings | |
CN113961810A (zh) | 新闻推送方法、装置、计算机设备和存储介质 | |
CN113642519A (zh) | 一种人脸识别系统和人脸识别方法 | |
CN107368499A (zh) | 一种客户标签建模及推荐方法及装置 | |
CN103745383A (zh) | 基于运营商数据实现重定向服务的方法和系统 | |
CN108024148B (zh) | 基于行为特征的多媒体文件识别方法、处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |