CN111914241B - 一种动态识别非结构化对象身份信息的方法 - Google Patents

一种动态识别非结构化对象身份信息的方法 Download PDF

Info

Publication number
CN111914241B
CN111914241B CN202010782497.2A CN202010782497A CN111914241B CN 111914241 B CN111914241 B CN 111914241B CN 202010782497 A CN202010782497 A CN 202010782497A CN 111914241 B CN111914241 B CN 111914241B
Authority
CN
China
Prior art keywords
identity information
unstructured
matching
object set
matched
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010782497.2A
Other languages
English (en)
Other versions
CN111914241A (zh
Inventor
崔宁
杨波
赵新军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Sailing Information Technology Co ltd
Original Assignee
Shanghai Sailing Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Sailing Information Technology Co ltd filed Critical Shanghai Sailing Information Technology Co ltd
Priority to CN202010782497.2A priority Critical patent/CN111914241B/zh
Publication of CN111914241A publication Critical patent/CN111914241A/zh
Application granted granted Critical
Publication of CN111914241B publication Critical patent/CN111914241B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Security & Cryptography (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种动态识别非结构化对象身份信息的方法,涉及信息识别领域,包括获得待匹配非结构化对象集合、将非结构化对象按特征值分组、按分组对象匹配身份信息库、更新非结构化对象身份信息。本发明通过将非结构化信息按照特征值相似的进行分组,在分组后的对象集合中取多个对象进行识别,合并识别结果计算出最可能的身份信息,身份识别效率高,准确率高,建立起非结构化信息和身份的对应关系。

Description

一种动态识别非结构化对象身份信息的方法
技术领域
本发明涉及信息识别领域,尤其涉及一种动态识别非结构化对象身份信息的方法。
背景技术
随着互联网技术的发展和更新,信息化程度越来越高,摄像机、卡口等设备覆盖越来越广泛,每日产生数据量级愈发增大。这些数据大多是非结构化数据,无法直接与对应的身份(人员、非机动车、物品等)信息进行关联,有效信息分散且在此基础上进行的分析在效率与时效性方面存在很大问题。
在实际中使用时,大多通过实时查询非结构化对象,但这种查询方式无法直接将非结构化对象与身份信息进行对应;查询身份信息时,大多通过单对象实时识别身份信息结果,面临批量非结构化对象身份识别时,效率低下。
现有识别非结构化对象的方法,主要存在以下问题:
1、查询效率较低,在使用时需要通过反复大量的比对来生成结果,结果的生成时间较长。
2、信息分散,现在技术无法直接将非结构化与身份信息关联,导致同一目标的行为在系统中是割裂的,以人为例,人脸的非结构化信息中是无法直接关联人员档案,用户无法直接将人的行为信息与具体的人关联起来。
3、非结构化数据难以进行深度应用。
因此,本领域的技术人员致力于开发一种动态识别非结构化对象身份信息的方法,以克服现有技术存在的缺陷。
发明内容
有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是提高识别效率,将非结构化数据与对象身份信息相关联,为非结构化数据的深度应用创造条件。
为实现上述目的,本发明提供了一种动态识别非结构化对象身份信息的方法,包括以下部分:获得待匹配非结构化对象集合、将非结构化对象按特征值分组、按分组对象匹配身份信息库、更新非结构化对象身份信息。
进一步地,包括以下步骤:
步骤1、获得上次匹配时间,结束时间、相似度阈值、匹配阈值;
步骤2、根据上次匹配时间、结束时间为时间范围,获得待匹配非结构化对象集合;
步骤3、声明初始参数:分组对象集合、已匹配对象集合、待更新对象集合;
步骤4、循环非结构化对象集合,补全分组对象集合;
步骤5、循环分组对象集合,补全待更新对象集合。
进一步地,结束时间取值为当前时间。
进一步地,相似度阈值的取值范围为0.7~1。
优选地,相似度阈值为0.9。
进一步地,匹配阈值为10。
进一步地,步骤4包括:
步骤4.1、判断对象A是否已匹配,未匹配进入4.2,已匹配结束本次循环;
步骤4.2、将对象A追加进已匹配对象集合中;
步骤4.3、提取对象A的特征值;
步骤4.4、声明临时对象集合,并将对象A追加至临时对象集合中;
步骤4.5、二次循环非结构化对象集合,补全临时对象集合;
步骤4.6、以临时对象集合为一组数据,追加进分组对象集合中。
进一步地,步骤4.5包括:
步骤4.5.1、判断对象B是否已匹配,未匹配进入4.5.2,已匹配结束本次循环;
步骤4.5.2、提取对象B的特征值;
步骤4.5.3、匹配对象A与对象B的特征值,判断相似度是否超出相似度阈值,超出进入4.5.4,未超出结束本次循环;
步骤4.5.4、将对象B追加至临时对象集合中;
步骤4.5.5、将对象B追加进已匹配对象集合中。
进一步地,步骤5包括:
步骤5.1、获得对象集合;
步骤5.2、声明身份信息集合;
步骤5.3、循环匹配身份信息库;
步骤5.4、循环身份信息集合,以身份标识为键计算身份信息出现频率,获得出现频率最高的身份信息A;
步骤5.5、循环对象集合,填充对象身份信息为所述身份信息A,将对象追加至待更新对象集合;
步骤5.6、循环待更新对象集合,将数据持久化至存储中;
步骤5.7、将结束时间作为信息匹配时间的值,持久化至存储中。
进一步地,步骤5.3包括:
步骤5.3.1、判断当前循环下标是否超出匹配阈值,如果超出则结束循环,未超出进入步骤5.3.2;
步骤5.3.2、获得对象C;
步骤5.3.3、提取对象C的特征值;
步骤5.3.4、根据对象C的特征值,匹配身份信息库,仅返回超出相似度阈值的身份;
步骤5.3.5、将查询出的身份信息集合追加至身份信息集合。
本发明将非结构化对象先按特征值分组,相似(根据相似度阈值判定)的特征值归为一组,再进行后续的身份识别等操作;身份识别时,支持在分组后的对象集合中取多个对象进行识别,合并识别结果计算出最可能身份信息。具备以下优点:
1、身份识别效率高、对服务器压力小,先对待识别对象进行分组,匹配时仅从每组数据中取一定量的样本进行识别,避免每个对象都需进行身份识别,大大提升识别效率,减少服务器压力。
2、身份识别准确率高,识别身份信息时,通过捕获一定的样本数量,对识别结果进行计算得出身份信息,较以往单一身份进行的匹配的情况,大大提升了身份识别的准确性。
3、能适用于不同的环境,主要参数支持动态配置,可根据实际环境以及用户需要进行相应的适配。如若现场数据量级较小且用户对准确率较为关系,可通过提高匹配阈值来达到结果准确性的提升;反之可通过降低匹配阈值来增加识别效率。
以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。
附图说明
图1是本发明的主流程图;
图2是本发明的循环非结构化对象集合流程图;
图3是本发明的二次循环非结构化对象集合流程图;
图4是本发明的循环分组对象集合流程图;
图5是本发明的循环匹配身份信息流程图。
具体实施方式
以下参考说明书附图介绍本发明的多个优选实施例,使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现,本发明的保护范围并非仅限于文中提到的实施例。
在附图中,结构相同的部件以相同数字标号表示,各处结构或功能相似的组件以相似数字标号表示。附图所示的每一组件的尺寸和厚度是任意示出的,本发明并没有限定每个组件的尺寸和厚度。为了使图示更清晰,附图中有些地方适当夸大了部件的厚度。
本发明的目的在于提供一套完整、高效、可行的一种动态识别非结构化对象身份信息的方法,通过定时对非结构化信息进行处理,识别非结构化对象身份信息,建立非结构化对象与身份信息间的关联关系,从而达到高效查询、信息快速关联、易于数据深度应用的目的。
为了实现上述目的及设计意图,本发明提供一套高效、可行的非结构化对象身份信息识别方法,包括:获得待匹配的非结构化对象集合、将非结构化对象按特征值分组、按分组对象匹配身份信息库、更新非结构化对象身份信息四部分。
如图1所示为本发明的主流程图,包括:获得待匹配的非结构化对象集合,对需要匹配的数据的周期进行限定,每次查询时先查询上次匹配时间,结束时间、相似度阈值及匹配阈值,其中上次匹配时间在每次匹配完成后更新数据;结束时间默认为当前时间;相似度阈值用于判定是否为同一身份;匹配阈值即用于计算的样本数量,用于身份识别时取多少条样本进行匹配。查询匹配时间之后,结束时间之前的非结构化对象信息,获得待匹配的非结构化对象集合。
将非结构化对象按特征值分组,是根据非结构化对象特征值进行识别,将同一身份的对象归为一组,减少后续身份匹配的频率。同时为了提升匹配效率防止重复匹配,匹配过程中对已匹配的对象进行记录,仅对没有匹配的非结构化对象进行匹配处理。先在非结构化对象集合内部进行匹配,利用非结构对象的特征值进行匹配,将相似度超出阈值的数据标记为同身份,并进行记录,最终构建出分组对象集合。
按分组对象匹配身份信息库,一个分组对象为同身份的对象,匹配分组对象中部分数据的身份信息,选择出现频率最高的身份作为一组对象的身份,以提升动态识别的准确度。按分组对象匹配身份信息库,需要先获得匹配阈值及相似度阈值,假设匹配阈值为10,相似度阈值为0.9(最大为1),则从分组对象中取最多10条数据,挨个与身份信息库进行匹配,记录相似度超出阈值的身份信息;合并多个对象的匹配结果,从中取出出现频率最高的身份信息,作为分组对象中一组数据的身份信息。循环更新分组对象的身份信息并将对象追加至待更新集合中。
更新非结构化对象身份信息,匹配到身份信息后仅需对已确认身份的非结构化对象进行更新,循环待更新对象集合,将数据持久化至存储中。同时将结束时间作为信息匹配时间的值,持久化至存储中。
如图2-图5所示,以数据库作为存储介质进行说明,实际实施时可以使用其它任何可用的方式实现。
事例场景:每天定时执行非结构化对象身份信息识别。具体步骤如下:
1、获得上次匹配时间、结束时间(默认为当前时间)、相似度阈值及匹配阈值;
2、根据上次匹配时间、结束时间为时间范围,查询待匹配非结构化对象集合;
3、声明初始参数:分组对象集合、已匹配对象集合、待更新对象集合;
4、循环非结构化对象集合,补全分组对象集合:
4.1判断对象(对象A)是否已匹配,未匹配进入4.2,已匹配结束本次循环;
4.2将对象追加进已匹配对象集合中;
4.3提取对象A特征值;
4.4声明临时对象集合,并将对象A追加至集合中;
4.5二次循环非结构化对象集合,补全临时对象集合:
4.5.1判断对象(对象B)是否已匹配,未匹配进入4.5.2,已匹配结束本次循环;
4.5.2提取对象B特征值;
4.5.3匹配对象A与对象B特征值,判断相似度是否超出阈值,超出进入4.5.4,未超出结束本次循环;
4.5.4将对象B追加至临时对象集合中;
4.5.5将对象B追加进已匹配对象集合中。
4.6以临时对象集合为一组数据,将数据追加进分组对象集合中。
5、循环分组对象集合,补全待更新对象集合
5.1获得对象集合
5.2声明身份信息集合
5.3循环匹配身份信息库
5.3.1当前循环下标是否超出匹配阈值,超出结束循环,未超出进入5.3.2
5.3.2获得对象C
5.3.3提取对象C特征值
5.3.4根据特征值匹配身份信息库,仅返回超出相似度阈值的身份信息
5.3.5将查询出的身份信息集合追加至身份信息集合中
5.4循环身份信息集合,以身份标识为键计算身份信息出现频率,获得出现频率最高的身份信息(身份信息A)
5.5循环对象集合,填充对象身份信息为身份信息A,将对象追加至待更新对象集合中
5.6循环待更新对象集合,将数据持久化至存储中。
5.7将结束时间作为信息匹配时间的值,持久化至存储中。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (2)

1.一种动态识别非结构化对象身份信息的方法,其特征在于,包括以下部分:获得待匹配非结构化对象集合、将非结构化对象按特征值分组、按分组对象匹配身份信息库、更新非结构化对象身份信息;所述动态识别非结构化对象身份信息的方法,包括以下步骤:
步骤1、获得上次匹配时间,结束时间、相似度阈值、匹配阈值;
步骤2、根据所述上次匹配时间、所述结束时间为时间范围,获得所述待匹配非结构化对象集合;
步骤3、声明初始参数:分组对象集合、已匹配对象集合、待更新对象集合;
步骤4、循环所述非结构化对象集合,补全所述分组对象集合;
步骤5、循环所述分组对象集合,补全所述待更新对象集合;
所述结束时间取值为当前时间;
所述相似度阈值的取值范围为0.7~1;
所述相似度阈值为0.9;
所述匹配阈值为10;
所述步骤4包括:
步骤4.1、判断对象A是否已匹配,未匹配进入4.2,已匹配结束本次循环;
步骤4.2、将所述对象A追加进所述已匹配对象集合中;
步骤4.3、提取所述对象A的特征值;
步骤4.4、声明临时对象集合,并将所述对象A追加至所述临时对象集合中;
步骤4.5、二次循环所述非结构化对象集合,补全所述临时对象集合;
步骤4.6、以所述临时对象集合为一组数据,追加进所述分组对象集合中;
所述步骤4.5包括:
步骤4.5.1、判断对象B是否已匹配,未匹配进入4.5.2,已匹配结束本次循环;
步骤4.5.2、提取所述对象B的特征值;
步骤4.5.3、匹配所述对象A与所述对象B的特征值,判断相似度是否超出所述相似度阈值,超出进入4.5.4,未超出结束本次循环;
步骤4.5.4、将所述对象B追加至所述临时对象集合中;
步骤4.5.5、将所述对象B追加进所述已匹配对象集合中;
所述步骤5包括:
步骤5.1、获得对象集合;
步骤5.2、声明身份信息集合;
步骤5.3、循环匹配身份信息库;
步骤5.4、循环所述身份信息集合,以身份标识为键计算身份信息出现频率,获得出现频率最高的身份信息A;
步骤5.5、循环所述对象集合,填充对象身份信息为所述身份信息A,将对象追加至所述待更新对象集合;
步骤5.6、循环所述待更新对象集合,将数据持久化至存储中;
步骤5.7、将结束时间作为信息匹配时间的值,持久化至存储中。
2.如权利要求1所述的动态识别非结构化对象身份信息的方法,其特征在于,所述步骤5.3包括:
步骤5.3.1、判断当前循环下标是否超出所述匹配阈值,如果超出则结束循环,未超出进入步骤5.3.2;
步骤5.3.2、获得对象C;
步骤5.3.3、提取对象C的特征值;
步骤5.3.4、根据所述对象C的特征值,匹配身份信息库,仅返回超出所述相似度阈值的身份;
步骤5.3.5、将查询出的身份信息集合追加至所述身份信息集合。
CN202010782497.2A 2020-08-06 2020-08-06 一种动态识别非结构化对象身份信息的方法 Active CN111914241B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010782497.2A CN111914241B (zh) 2020-08-06 2020-08-06 一种动态识别非结构化对象身份信息的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010782497.2A CN111914241B (zh) 2020-08-06 2020-08-06 一种动态识别非结构化对象身份信息的方法

Publications (2)

Publication Number Publication Date
CN111914241A CN111914241A (zh) 2020-11-10
CN111914241B true CN111914241B (zh) 2024-01-30

Family

ID=73287960

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010782497.2A Active CN111914241B (zh) 2020-08-06 2020-08-06 一种动态识别非结构化对象身份信息的方法

Country Status (1)

Country Link
CN (1) CN111914241B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2428536A1 (en) * 2000-11-13 2002-05-23 Visual Key, Inc. Digital media recognition apparatus and methods
CN106778653A (zh) * 2016-12-27 2017-05-31 北京光年无限科技有限公司 面向智能机器人的基于人脸识别样本库的交互方法和装置
CN106844636A (zh) * 2017-01-21 2017-06-13 亚信蓝涛(江苏)数据科技有限公司 一种基于深度学习的非结构化数据处理方法
CN109165273A (zh) * 2018-08-24 2019-01-08 安徽讯飞智能科技有限公司 一种面向大数据环境的通用中文地址匹配方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7844566B2 (en) * 2005-04-26 2010-11-30 Content Analyst Company, Llc Latent semantic clustering
US8150813B2 (en) * 2008-12-18 2012-04-03 International Business Machines Corporation Using relationships in candidate discovery
CN103793721B (zh) * 2014-03-04 2017-05-10 武汉大学 一种基于区域相关反馈的行人重识别方法及系统
CN110875034B (zh) * 2018-09-03 2024-03-22 嘉楠明芯(北京)科技有限公司 用于语音识别的模板训练方法、语音识别方法及其系统
CN110688974B (zh) * 2019-09-30 2022-10-25 支付宝(杭州)信息技术有限公司 一种身份识别方法及装置
US11687574B2 (en) * 2021-03-29 2023-06-27 International Business Machines Corporation Record matching in a database system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2428536A1 (en) * 2000-11-13 2002-05-23 Visual Key, Inc. Digital media recognition apparatus and methods
CN106778653A (zh) * 2016-12-27 2017-05-31 北京光年无限科技有限公司 面向智能机器人的基于人脸识别样本库的交互方法和装置
CN106844636A (zh) * 2017-01-21 2017-06-13 亚信蓝涛(江苏)数据科技有限公司 一种基于深度学习的非结构化数据处理方法
CN109165273A (zh) * 2018-08-24 2019-01-08 安徽讯飞智能科技有限公司 一种面向大数据环境的通用中文地址匹配方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于向量空间模型的中文文本分类技术研究;柳培林;信息科技(第8期);10-54 *

Also Published As

Publication number Publication date
CN111914241A (zh) 2020-11-10

Similar Documents

Publication Publication Date Title
CN107784110B (zh) 一种索引建立方法及装置
CN114915478B (zh) 基于多代理的分布式关联分析的智慧园区工控系统网络攻击场景识别方法、系统及存储介质
CN111243601A (zh) 声纹聚类方法、装置、电子设备和计算机可读存储介质
CN112364014B (zh) 数据查询方法、装置、服务器及存储介质
CN114168968A (zh) 一种基于物联网设备指纹的漏洞挖掘方法
CN110851675B (zh) 一种数据提取方法、装置及介质
CN111061713A (zh) 区块链数据融合方法、装置、设备以及存储介质
CN109286622B (zh) 一种基于学习规则集的网络入侵检测方法
CN111914241B (zh) 一种动态识别非结构化对象身份信息的方法
CN111949720B (zh) 基于大数据和人工智能的数据分析方法及云端数据服务器
CN110209895B (zh) 向量检索方法、装置和设备
CN110941831A (zh) 基于分片技术的漏洞匹配方法
CN111950573A (zh) 异常问题聚类的方法及装置
CN115578765A (zh) 目标识别方法、装置、系统及计算机可读存储介质
CN111881309B (zh) 电子证照检索方法、装置和计算机可读介质
CN114021112A (zh) 密码算法能量分析方法及装置、存储介质及电子设备
CN112528068A (zh) 声纹特征存储方法、声纹特征匹配方法、装置及电子设备
CN112052341A (zh) 知识图谱剪枝方法及装置
CN107992590B (zh) 一种有利于信息比对的大数据系统
CN113946365A (zh) 页面识别方法、装置、计算机设备和存储介质
CN117688136B (zh) 一种基于人工智能的组合检索优化方法及系统
CN115840834B (zh) 一种人脸数据库快速搜索方法及系统
CN116992111B (zh) 数据处理方法、装置、电子设备及计算机存储介质
CN115022063B (zh) 网空威胁行为体攻击意图分析方法、系统、电子设备及存储介质
CN113946720A (zh) 一种识别群组中用户的方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant