CN117435640A - 一种用于定位相似实例的方法、装置和电子设备 - Google Patents

一种用于定位相似实例的方法、装置和电子设备 Download PDF

Info

Publication number
CN117435640A
CN117435640A CN202311296344.7A CN202311296344A CN117435640A CN 117435640 A CN117435640 A CN 117435640A CN 202311296344 A CN202311296344 A CN 202311296344A CN 117435640 A CN117435640 A CN 117435640A
Authority
CN
China
Prior art keywords
instance
compared
similar
fingerprint information
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311296344.7A
Other languages
English (en)
Inventor
陈治
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Original Assignee
Advanced New Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Advanced New Technologies Co Ltd filed Critical Advanced New Technologies Co Ltd
Priority to CN202311296344.7A priority Critical patent/CN117435640A/zh
Publication of CN117435640A publication Critical patent/CN117435640A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Collating Specific Patterns (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供了一种用于定位相似实例的方法、装置和电子设备,该方法包括:接收待比对实例的待比对标识,根据所述待比对标识在数据库中查询所述待比对实例的信息,所述待比对实例的信息包括所述待比对实例的指纹信息,在搜索服务器中获取与所述待比对实例的指纹信息相似度最高的相似指纹信息,在所述搜索服务器中获取所述相似指纹信息对应的相似实例的相似标识,从数据库中获取与所述相似标识对应的相似实例。

Description

一种用于定位相似实例的方法、装置和电子设备
本申请是申请日为2019年01月10日、申请号为201910024097.2、名称为“一种用于定位相似实例的方法、装置和电子设备”的中国发明专利申请的分案申请。
技术领域
本申请涉及数据处理技术领域,尤其涉及一种用于定位相似实例的方法、装置和电子设备。
背景技术
当系统出现报警时,需要查找历史上与异动实例最相似的实例以便获取异动的原因。但是系统中保存着多日中存储的数亿条历史实例数据,要在如此巨大的历史实例集合中找到最相似的实例充满了挑战。
一种现有方案为待比对实例与相似实例集合中的所有实例计算一遍编辑距离,最后取编辑距离最小的实例作为最相似的实例。然而,两个实例之间的编辑距离的计算是非常耗时的过程,因此方案过于耗时。
另一种现有方案为基于最小哈希值(英文:minHash)的相似实例定位。minHash算法基本原理如下:对于等概率的随机排列,两个集合的minHash正好相等的概率恰好等于这个集合的Jaccard相似度,利用该特性可以为每一个集合生成一个minHash签名,从而达到降低维度的目的,降维的同时还保持了集合之间的相似性。将上述算法应用于实例对比时,这里的集合就是指实例的特征集合。根据算法的原理,首先,在构造实例的特征矩阵时需要事先构建所有实例的特征全集,因此一旦特征全集发生改变,每一个实例的minHash签名就会随之改变,即所有实例的minHash签名需要全部重新计算。例如,某个实例出现了特征全集以外的新特征。其次,因为以特征全集为每个实例构造minHash签名,这将导致实例minHash的计算过程是高维的且需要很多无用维度参与的计算。再次,因为要事先构建特征全集索引,所以需要很大的存储开销。
公开于该背景技术部分的信息仅仅旨在增加对本发明的总体背景的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。
发明内容
本申请实施例的目的是提供一种用于定位相似实例的方法、装置和电子设备,能够快速定位相似实例。
为解决上述技术问题,本申请实施例是通过以下各方面实现的。
第一方面,本申请实施例提供了一种用于定位相似实例的方法,包括:接收待比对实例的待比对标识;根据所述待比对标识在数据库中查询所述待比对实例的信息,所述待比对实例的信息包括所述待比对实例的指纹信息;在搜索服务器中获取与所述待比对实例的指纹信息相似度最高的相似指纹信息;在所述搜索服务器中获取所述相似指纹信息对应的相似实例的相似标识;从数据库中获取与所述相似标识对应的相似实例。
第二方面,本申请实施例提供了一种用于定位相似实例的装置,包括:接收模块,接收待比对实例的待比对标识;查询模块,根据所述待比对标识在数据库中查询所述待比对实例的信息,所述待比对实例的信息包括所述待比对实例的指纹信息;获取模块,在搜索服务器中获取与所述待比对实例的指纹信息相似度最高的相似指纹信息;在所述搜索服务器中获取所述相似指纹信息对应的相似实例的相似标识;处理模块,从数据库中获取与所述相似标识对应的相似实例。
第三方面,本申请实施例提供了一种电子设备,包括:存储器、处理器和存储在所述存储器上并可在所述处理器上运行的计算机可执行指令,所述计算机可执行指令被所述处理器执行时实现步骤:接收待比对实例的待比对标识;根据所述待比对标识在数据库中查询所述待比对实例的信息,所述待比对实例的信息包括所述待比对实例的指纹信息;在搜索服务器中获取与所述待比对实例的指纹信息相似度最高的相似指纹信息;在所述搜索服务器中获取所述相似指纹信息对应的相似实例的相似标识;从数据库中获取与所述相似标识对应的相似实例。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机可执行指令,所述计算机可执行指令被处理器执行时实现步骤:接收待比对实例的待比对标识;根据所述待比对标识在数据库中查询所述待比对实例的信息,所述待比对实例的信息包括所述待比对实例的指纹信息;在搜索服务器中获取与所述待比对实例的指纹信息相似度最高的相似指纹信息;在所述搜索服务器中获取所述相似指纹信息对应的相似实例的相似标识;从数据库中获取与所述相似标识对应的相似实例。
在本申请实施例中,通过接收待比对实例的待比对标识;根据所述待比对标识在数据库中查询所述待比对实例的信息,所述待比对实例的信息包括所述待比对实例的指纹信息;在搜索服务器中获取与所述待比对实例的指纹信息相似度最高的相似指纹信息;在所述搜索服务器中获取所述相似指纹信息对应的相似实例的相似标识;从数据库中获取与所述相似标识对应的相似实例,能够快速定位与待比对实例相似度最高的相似实例,当出现异动实例时能够快速定位与异动实例最相似的实例,以便获取异动的原因。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示出本申请实施例提供的一种用于定位相似实例的方法的一种流程示意图;
图2示出本申请实施例提供的一种用于定位相似实例的方法的另一种流程示意图;
图3示出本申请实施例提供的一种用于定位相似实例的方法的另一种流程示意图;
图4示出本申请实施例提供的一种用于定位相似实例的装置的结构示意图
图5为执行本申请实施例提供的一种用于定位相似实例的方法的电子设备的硬件结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
图1示出本申请实施例提供的一种用于定位相似实例的方法的一种流程示意图,该方法可以由电子设备执行,例如终端设备或服务端设备。换言之,所述方法可以由安装在终端设备或服务端设备的软件或硬件来执行。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。如图所示,该方法可以包括以下步骤。
步骤S10:接收待比对实例的待比对标识。
实例为对具有相同入参、出参以及内部调用结构的所有业务调用的一种表达。待比对实例的待比对标识例如可以包括实例概要,用于表示该实例的部分关键信息。在本步骤前可以通过实时计算框架产生实例,计算实例类别并获取实例状态。
步骤S20:根据所述待比对标识在数据库中查询所述待比对实例的信息,所述待比对实例的信息包括所述待比对实例的指纹信息。
步骤S30:在搜索服务器中获取与所述待比对实例的指纹信息相似度最高的相似指纹信息。
步骤S40:在所述搜索服务器中获取所述相似指纹信息对应的相似实例的相似标识。
步骤S50:从数据库中获取与所述相似标识对应的相似实例。
由此,本申请实施例提供的一种用于定位相似实例的方法,通过接收待比对实例的待比对标识;根据所述待比对标识在数据库中查询所述待比对实例的信息,所述待比对实例的信息包括所述待比对实例的指纹信息;在搜索服务器中获取与所述待比对实例的指纹信息相似度最高的相似指纹信息;在所述搜索服务器中获取所述相似指纹信息对应的相似实例的相似标识;从数据库中获取与所述相似标识对应的相似实例,能够快速定位与待比对实例相似度最高的相似实例,当出现异动实例时能够快速定位与异动实例最相似的实例,以便获取异动的原因。
图2示出本申请实施例提供的一种用于定位相似实例的方法的一种流程示意图,该方法可以由电子设备执行,例如终端设备或服务端设备。换言之,所述方法可以由安装在终端设备或服务端设备的软件或硬件来执行。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。如图所示,该方法可以包括以下步骤。
步骤S10:接收待比对实例的待比对标识。
实例为对具有相同入参、出参以及内部调用结构的所有业务调用的一种表达。待比对实例的待比对标识例如可以包括实例概要,用于表示该实例的部分关键信息。在本步骤前可以通过实时计算框架产生实例,计算实例类别并获取实例状态。
在一种可能的实现方式中,待比对实例的标识包括待比对实例的行键。通过前端点击某个具体的实例,发起最相似实例查找动作,并带回当前实例行键(英文:rowkey)。
步骤S20:根据所述待比对标识在数据库中查询所述待比对实例的信息,所述待比对实例的信息包括所述待比对实例的指纹信息。
可选地,数据库可以为hbase数据库,根据rowkey从hbase查询当前实例的详情。当然,也可以采用其它非关系型分布式数据库(英文:Not Only SQL,缩写:NoSQL)。
在一种可能的实现方式中,指纹信息可以包括相似哈希值(英文:simHash),simHash为具有特定长度的二进制串,是通常用来进行网页去重的哈希(英文:Hash)方法。
步骤S30:在搜索服务器中获取与所述待比对实例的指纹信息相似度最高的相似指纹信息。
搜索服务器例如可以包括ElasticSearch,ElasticSearch是基于检索引擎工具包Lucene的搜索服务器,ElasticSearch提供了一个分布式多用户能力的全文搜索引擎,是企业级搜索引擎,设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。
在一种可能的实现方式中,本步骤可以利用simHash值作为指纹信息。每个实例的simHash值只和自身的特征相关,不与其他实例特征发生联系,因此即便是有新的实例特征出现也不需要重新计算所有的实例simHash值,从而使本申请实施例能够快速定位相似实例。
在一种可能的实现方式中,本步骤可以包括以下步骤。
步骤S31:根据待比对实例的simHash值,在搜索服务器中获取与待比对实例的simHash值相同的simHash值。
如果搜索服务器中持久化有与待比对实例的simHash值相同的simHash值,将该相同的simHash值作为相似度最高的相似指纹信息。
步骤S32:计算待比对实例的simHash值与搜索服务器中的simHash值之间的海明距离。
如果搜索服务器中不存在与待比对实例的simHash值相同的simHash值,则计算待比对实例的simHash值与搜索服务器中的simHash值之间的海明距离。
在信息编码中,两个合法代码对应位上编码不同的位数称为码距,又称海明距离。举例如下:10101和00110从第一位开始依次有第一位、第四、第五位不同,则海明距离为3。
simHash值本质上是一个二进制串,所以任意两个simHash值的海明距离计算就是位运算,速度非常快,经测试在纳米级别,使得本申请实施例能够快速定位相似实例。
步骤S33:将与最小的海明距离对应的simHash值设置为相似指纹信息。
步骤S40:在所述搜索服务器中获取所述相似指纹信息对应的相似实例的相似标识。
搜索服务器中持久化有指纹信息与实例标识之间的对应关系,根据相似指纹信息可以在所述搜索服务器中获取相似指纹信息对应的相似实例的相似标识。从搜索服务器中查询历史上最近的具有相似指纹信息的实例。
在一种可能的实现方式中,相似实例的相似标识包相似实例的行键。
步骤S50:从数据库中获取与所述相似标识对应的相似实例。
数据库中持久化有实例的信息,例如实例的详细信息,根据相似实例的相似标识能够从数据库中获取与所述相似标识对应的相似实例,例如获取相似实例的详细信息。此步骤后,还可以包括将当前实例与目标实例对比,并返回给前端对比结果。
由此,本申请实施例提供的一种用于定位相似实例的方法,通过接收待比对实例的待比对标识;根据所述待比对标识在数据库中查询所述待比对实例的信息,所述待比对实例的信息包括所述待比对实例的指纹信息;在搜索服务器中获取与所述待比对实例的指纹信息相似度最高的相似指纹信息;在所述搜索服务器中获取所述相似指纹信息对应的相似实例的相似标识;从数据库中获取与所述相似标识对应的相似实例,能够快速定位与待比对实例相似度最高的相似实例,当出现异动实例时能够快速定位与异动实例最相似的实例,以便获取异动的原因。
由此,本申请实施例提供的一种用于定位相似实例的方法,通过在搜索服务器中获取与待比对实例的simHash值相同的simHash值,能够获取到与待比对实例相同的实例。
由此,本申请实施例提供的一种用于定位相似实例的方法,通过计算所述待比对实例的simHash值与所述搜索服务器中的simHash值之间的海明距离;将与最小的所述海明距离对应的所述simHash值设置为所述相似指纹信息,能够获取到与待比对实例相似度最高的实例。
图3示出本申请实施例提供的一种用于定位相似实例的方法的一种流程示意图,该方法可以由电子设备执行,例如终端设备或服务端设备。换言之,所述方法可以由安装在终端设备或服务端设备的软件或硬件来执行。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。如图所示,该方法可以包括以下步骤。
步骤S1:获取实例。
在一种可能的实现方式中,可以将所述实例的信息持久化到所述数据库。
步骤S2:计算所述实例的simHash值。
simHash作为实例的指纹,理论就代表了该实例。在一种可能的实现方式中,可以将实例对象转换为js对象简谱json对象,如实例A={a:1,b:{c:3}}。将实例对象对应的json对象设置为以叶子属性的路径字符串为特征。抽取所述特征形成特征集合,如{a@1,b@c@3}。计算特征集合的simHash值。
在另一种可能的实现方式中,可以将实例对象转换为js对象简谱json对象;将所述json对象转换为字符串;将所述字符串通过shingle算法进行分词以抽取实例特征;将所述实例特征的字符串进行集合来计算simHash值。
在一种可能的实现方式中,可以根据所述实例的信息设置所述simHash值的位宽。例如,simHash的位宽取32位,232=4G可以表示7亿左右的实例)。simHash位宽固定,不管一个实例有多少个特征最终都被映射为配置位数的simHash值,因此不会出现高维计算中大量的无效维度出现,由此使得本申请实施例能够快速定位相似实例。
步骤S3:将所述实例的标识和所述实例的simHash值持久化到所述搜索服务器。
可选地,可以将实例的概要信息持久化到搜索服务器,概要信息可以包括:入参的MD5值inputMd5,出参的MD5值outputMd5,rowkey,simHash值等。
步骤S10:接收待比对实例的待比对标识。
实例为对具有相同入参、出参以及内部调用结构的所有业务调用的一种表达。待比对实例的待比对标识例如可以包括实例概要,用于表示该实例的部分关键信息。在本步骤前可以通过实时计算框架产生实例,计算实例类别并获取实例状态。
在一种可能的实现方式中,待比对实例的标识包括待比对实例的行键。
步骤S20:根据所述待比对标识在数据库中查询所述待比对实例的信息,所述待比对实例的信息包括所述待比对实例的指纹信息。
在一种可能的实现方式中,指纹信息可以包括simHash,simHash为具有特定长度的二进制串。
步骤S30:在搜索服务器中获取与所述待比对实例的指纹信息相似度最高的相似指纹信息。
在一种可能的实现方式中,本步骤可以包括以下步骤。
步骤S31:根据待比对实例的simHash值,在搜索服务器中获取与待比对实例的simHash值相同的simHash值。
如果搜索服务器中持久化有与待比对实例的simHash值相同的simHash值,将该相同的simHash值作为相似度最高的相似指纹信息。
步骤S32:计算待比对实例的simHash值与搜索服务器中的simHash值之间的海明距离。
如果搜索服务器中不存在与待比对实例的simHash值相同的simHash值,则计算待比对实例的simHash值与搜索服务器中的simHash值之间的海明距离。
步骤S33:将与最小的海明距离对应的simHash值设置为相似指纹信息。
步骤S40:在所述搜索服务器中获取所述相似指纹信息对应的相似实例的相似标识。
搜索服务器中持久化有指纹信息与实例标识之间的对应关系,根据相似指纹信息可以在所述搜索服务器中获取相似指纹信息对应的相似实例的相似标识。
在一种可能的实现方式中,相似实例的相似标识包相似实例的行键。
步骤S50:从数据库中获取与所述相似标识对应的相似实例。
数据库中持久化有实例的信息,根据相似实例的相似标识能够从数据库中获取与所述相似标识对应的相似实例。
由此,本申请实施例提供的一种用于定位相似实例的方法,通过接收待比对实例的待比对标识;根据所述待比对标识在数据库中查询所述待比对实例的信息,所述待比对实例的信息包括所述待比对实例的指纹信息;在搜索服务器中获取与所述待比对实例的指纹信息相似度最高的相似指纹信息;在所述搜索服务器中获取所述相似指纹信息对应的相似实例的相似标识;从数据库中获取与所述相似标识对应的相似实例,能够快速定位与待比对实例相似度最高的相似实例,当出现异动实例时能够快速定位与异动实例最相似的实例,以便获取异动的原因。
由此,本申请实施例提供的一种用于定位相似实例的方法,通过在搜索服务器中获取与待比对实例的simHash值相同的simHash值,能够获取到与待比对实例相同的实例。
由此,本申请实施例提供的一种用于定位相似实例的方法,通过计算所述待比对实例的simHash值与所述搜索服务器中的simHash值之间的海明距离;将与最小的所述海明距离对应的所述simHash值设置为所述相似指纹信息,能够获取到与待比对实例相似度最高的实例。
图4示出本申请实施例提供的一种用于定位相似实例的装置的结构示意图,该装置100包括:接收模块110、查询模块120、获取模块130和处理模块140。
接收模块110接收待比对实例的待比对标识。查询模块120根据所述待比对标识在数据库中查询所述待比对实例的信息,所述待比对实例的信息包括所述待比对实例的指纹信息。获取模块130在搜索服务器中获取与所述待比对实例的指纹信息相似度最高的相似指纹信息;在所述搜索服务器中获取所述相似指纹信息对应的相似实例的相似标识。处理模块140从数据库中获取与所述相似标识对应的相似实例。
在一种可能的实现方式中,获取模块130根据所述待比对实例的simHash值,在搜索服务器中获取与所述待比对实例的simHash值相同的simHash值。
在一种可能的实现方式中,获取模块130计算所述待比对实例的simHash值与所述搜索服务器中的simHash值之间的海明距离;将与最小的所述海明距离对应的所述simHash值设置为所述相似指纹信息。
在一种可能的实现方式中,获取模块130在接收待比对实例的待比对标识之前,还用于获取实例;计算所述实例的simHash值;将所述实例的标识和所述实例的simHash值持久化到所述搜索服务器。
在一种可能的实现方式中,获取模块130将实例对象转换为js对象简谱json对象;将所述json对象设置为以叶子属性的路径字符串为特征,抽取所述特征形成特征集合;计算所述特征集合的simHash值。
在一种可能的实现方式中,获取模块130将实例对象转换为js对象简谱json对象;将所述json对象转换为字符串;将所述字符串通过shingle算法进行分词以抽取实例特征;将所述实例特征的字符串进行集合来计算simHash值。
在一种可能的实现方式中,处理模块140在所述获取实例之后,将所述实例的信息持久化到所述数据库。
在一种可能的实现方式中,所述待比对实例的标识包括所述待比对实例的行键,所述相似实例的相似标识包括所述相似实例的行键。
在一种可能的实现方式中,获取模块130根据所述实例的信息设置所述simHash值的位宽。
本申请实施例提供的该装置100,可执行前文方法实施例中所述的各方法,并实现前文方法实施例中所述的各方法的功能和有益效果,在此不再赘述。
图5示出执行本申请实施例提供的一种用于定位相似实例的方法的电子设备的硬件结构示意图,参考该图,在硬件层面,电子设备包括处理器,可选地,包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-AccessMemory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外设部件互连标准(Peripheral Component Interconnect,PCI)总线或扩展工业标准结构(ExtendedIndustry Standard Architecture,EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,该图中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成定位相似用户的装置。处理器,执行存储器所存放的程序,并具体用于执行:接收待比对实例的待比对标识;根据所述待比对标识在数据库中查询所述待比对实例的信息,所述待比对实例的信息包括所述待比对实例的指纹信息;在搜索服务器中获取与所述待比对实例的指纹信息相似度最高的相似指纹信息;在所述搜索服务器中获取所述相似指纹信息对应的相似实例的相似标识;从数据库中获取与所述相似标识对应的相似实例。
上述如本申请图1所示实施例揭示的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
该电子设备还可执行前文方法实施例中所述的各方法,并实现前文方法实施例中所述的各方法的功能和有益效果,在此不再赘述。
当然,除了软件实现方式之外,本申请的电子设备并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
本申请实施例还提出了一种计算机可读存储介质,所述计算机可读介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:接收待比对实例的待比对标识;根据所述待比对标识在数据库中查询所述待比对实例的信息,所述待比对实例的信息包括所述待比对实例的指纹信息;在搜索服务器中获取与所述待比对实例的指纹信息相似度最高的相似指纹信息;在所述搜索服务器中获取所述相似指纹信息对应的相似实例的相似标识;从数据库中获取与所述相似标识对应的相似实例。
其中,所述的计算机可读存储介质包括只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
进一步地,本申请实施例还提供了一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,实现以下流程:接收待比对实例的待比对标识;根据所述待比对标识在数据库中查询所述待比对实例的信息,所述待比对实例的信息包括所述待比对实例的指纹信息;在搜索服务器中获取与所述待比对实例的指纹信息相似度最高的相似指纹信息;在所述搜索服务器中获取所述相似指纹信息对应的相似实例的相似标识;从数据库中获取与所述相似标识对应的相似实例。
总之,以上所述仅为本申请的较佳实施例,并非用于限定本申请的保护范围。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

Claims (9)

1.一种用于定位相似实例的方法,包括:
接收待比对实例的待比对标识;
根据所述待比对标识在数据库中查询所述待比对实例的信息,所述待比对实例的信息包括所述待比对实例的指纹信息,所述指纹信息包括simhash值;
在搜索服务器中获取与所述待比对实例的指纹信息相似度最高的相似指纹信息;所述相似指纹信息为所述搜索服务器中与所述待比对实例的指纹信息的海明距离最小的指纹信息;
在所述搜索服务器中获取所述相似指纹信息对应的相似实例的相似标识;
从数据库中获取与所述相似标识对应的相似实例。
2.根据权利要求1所述的方法,其中,根据所述待比对实例的指纹信息,在搜索服务器中获取与所述待比对实例的指纹信息相似度最高的相似指纹信息包括:
根据所述待比对实例的simHash值,在搜索服务器中获取与所述待比对实例的simHash值相同的simHash值。
3.根据权利要求1所述的方法,其中,根据所述待比对实例的指纹信息,在搜索服务器中获取与所述待比对实例的指纹信息相似度最高的相似指纹信息包括:
计算所述待比对实例的simHash值与所述搜索服务器中的simHash值之间的海明距离;
将与最小的所述海明距离对应的所述simHash值设置为所述相似指纹信息。
4.根据权利要求1所述的方法,其中,在所述获取实例之后,还包括:
将所述实例的信息持久化到所述数据库。
5.根据权利要求1所述的方法,其中,所述待比对实例的标识包括所述待比对实例的行键,所述相似实例的相似标识包括所述相似实例的行键。
6.根据权利要求4所述的方法,其中,在将所述实例的数据持久化到所述数据库之后,还包括:
根据所述实例的信息设置所述simHash值的位宽。
7.一种用于定位相似实例的装置,包括:
接收模块,接收待比对实例的待比对标识;
查询模块,根据所述待比对标识在数据库中查询所述待比对实例的信息,所述待比对实例的信息包括所述待比对实例的指纹信息,所述指纹信息包括simhash值;
获取模块,在搜索服务器中获取与所述待比对实例的指纹信息相似度最高的相似指纹信息;所述相似指纹信息为所述搜索服务器中与所述待比对实例的指纹信息的海明距离最小的指纹信息;在所述搜索服务器中获取所述相似指纹信息对应的相似实例的相似标识;
处理模块,从数据库中获取与所述相似标识对应的相似实例。
8.一种电子设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使用所述处理器执行以下操作:
接收待比对实例的待比对标识;
根据所述待比对标识在数据库中查询所述待比对实例的信息,所述待比对实例的信息包括所述待比对实例的指纹信息,所述指纹信息包括simhash值;
在搜索服务器中获取与所述待比对实例的指纹信息相似度最高的相似指纹信息;所述相似指纹信息为所述搜索服务器中与所述待比对实例的指纹信息的海明距离最小的指纹信息;
在所述搜索服务器中获取所述相似指纹信息对应的相似实例的相似标识;
从数据库中获取与所述相似标识对应的相似实例。
9.一种计算机可读介质,所述计算机可读介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
接收待比对实例的待比对标识;
根据所述待比对标识在数据库中查询所述待比对实例的信息,所述待比对实例的信息包括所述待比对实例的指纹信息,所述指纹信息包括simhash值;
在搜索服务器中获取与所述待比对实例的指纹信息相似度最高的相似指纹信息;所述相似指纹信息为所述搜索服务器中与所述待比对实例的指纹信息的海明距离最小的指纹信息;
在所述搜索服务器中获取所述相似指纹信息对应的相似实例的相似标识;
从数据库中获取与所述相似标识对应的相似实例。
CN202311296344.7A 2019-01-10 2019-01-10 一种用于定位相似实例的方法、装置和电子设备 Pending CN117435640A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311296344.7A CN117435640A (zh) 2019-01-10 2019-01-10 一种用于定位相似实例的方法、装置和电子设备

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910024097.2A CN110046180B (zh) 2019-01-10 2019-01-10 一种用于定位相似实例的方法、装置和电子设备
CN202311296344.7A CN117435640A (zh) 2019-01-10 2019-01-10 一种用于定位相似实例的方法、装置和电子设备

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201910024097.2A Division CN110046180B (zh) 2019-01-10 2019-01-10 一种用于定位相似实例的方法、装置和电子设备

Publications (1)

Publication Number Publication Date
CN117435640A true CN117435640A (zh) 2024-01-23

Family

ID=67274107

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202311296344.7A Pending CN117435640A (zh) 2019-01-10 2019-01-10 一种用于定位相似实例的方法、装置和电子设备
CN201910024097.2A Active CN110046180B (zh) 2019-01-10 2019-01-10 一种用于定位相似实例的方法、装置和电子设备

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201910024097.2A Active CN110046180B (zh) 2019-01-10 2019-01-10 一种用于定位相似实例的方法、装置和电子设备

Country Status (1)

Country Link
CN (2) CN117435640A (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112418520B (zh) * 2020-11-22 2022-09-20 同济大学 一种基于联邦学习的信用卡交易风险预测方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110106819A1 (en) * 2009-10-29 2011-05-05 Google Inc. Identifying a group of related instances
CN103514286A (zh) * 2013-09-30 2014-01-15 鸿富锦精密工业(深圳)有限公司 好友推荐系统及方法
CN105608205B (zh) * 2015-12-25 2019-05-14 北京奇虎科技有限公司 结构化数据的指纹校验方法及装置

Also Published As

Publication number Publication date
CN110046180A (zh) 2019-07-23
CN110046180B (zh) 2023-10-27

Similar Documents

Publication Publication Date Title
CN106055574B (zh) 一种识别非法统一资源标识符url的方法与装置
CN106033416B (zh) 一种字符串处理方法及装置
CN108881120B (zh) 一种基于区块链的数据处理方法及设备
CN108846749B (zh) 一种基于区块链技术的分片化的交易执行系统及方法
TW202029079A (zh) 異常群體識別方法及裝置
CN110750615B (zh) 文本重复性判定方法和装置、电子设备和存储介质
CN109086456B (zh) 数据索引方法及装置
CN110362593B (zh) 一种数据查询方法、装置、设备及存储介质
CN112434167A (zh) 一种信息识别方法及装置
CN114900546B (zh) 一种数据处理方法、装置、设备及可读存储介质
CN111488371A (zh) 一种数据查询方法和装置
CN110046180B (zh) 一种用于定位相似实例的方法、装置和电子设备
CN110427538B (zh) 一种数据查询方法、存储方法、装置及电子设备
CN110674383B (zh) 舆情查询方法、装置及设备
CN107368281B (zh) 一种数据处理方法及装置
CN109213972B (zh) 确定文档相似度的方法、装置、设备和计算机存储介质
CN107562533B (zh) 一种数据加载处理方法及装置
CN110059272B (zh) 一种页面特征识别方法和装置
CN113742344A (zh) 电力系统数据的索引方法及装置
CN113641708A (zh) 规则引擎的优化方法、数据匹配方法及装置、存储介质、终端
CN112307070A (zh) 掩码数据查询方法、装置及设备
CN112364264A (zh) 一种风险防控方法、装置及设备
CN113486627B (zh) 一种单号生成方法、装置及电子设备
CN111506756A (zh) 相似图片的查找方法及系统、电子设备、存储介质
CN115187153B (zh) 应用于业务风险溯源的数据处理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination