CN116842929A - 一种指标查重方法、装置、存储介质及设备 - Google Patents
一种指标查重方法、装置、存储介质及设备 Download PDFInfo
- Publication number
- CN116842929A CN116842929A CN202310725313.2A CN202310725313A CN116842929A CN 116842929 A CN116842929 A CN 116842929A CN 202310725313 A CN202310725313 A CN 202310725313A CN 116842929 A CN116842929 A CN 116842929A
- Authority
- CN
- China
- Prior art keywords
- index
- target
- weight
- simhash
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 230000011218 segmentation Effects 0.000 claims abstract description 31
- 238000004364 calculation method Methods 0.000 claims abstract description 23
- 238000004422 calculation algorithm Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 abstract description 21
- 238000012545 processing Methods 0.000 abstract description 14
- 238000010586 diagram Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 230000009467 reduction Effects 0.000 description 5
- 239000002699 waste material Substances 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 241000272201 Columbiformes Species 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 229920001971 elastomer Polymers 0.000 description 1
- 239000000806 elastomer Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012958 reprocessing Methods 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种指标查重方法、装置、存储介质及设备,该方法中,针对用户录入的目标指标,调用Elasticsearch进行分词处理,通过查询预先配置有多个字段的权值的数据库,得到目标分词的权值,并以此确定目标指标的Simhash签名,再计算该目标指标的Simhash签名与数据库中其余指标的Simhash签名之间的相似度,根据计算结果判断该目标指标是否存在相似指标。如此,增加了指标查重的智能性,有效节省了人力成本,并且查重过程中可识别出核心字段和非核心字段,有效提升了指标查重的准确率。
Description
技术领域
本申请涉及数据处理技术领域,具体而言,涉及一种指标查重方法、装置、存储介质及设备。
背景技术
在金融科技场景中,银行、证券公司等单位的内部分工、发展步伐不易,往往容易造成很多重复的建设,例如,当不同职能部门关注同一产品或业务的经营情况,就很容易出现指标重叠、重复加工的情况,不仅造成数据冗余,还可能引发数据质量问题,而指标查重就是针对这一情况所采取的一种关键治理方式。
传统的指标查重,是先统计分词的重复数量,再利用分词的重复数量来进行判断。这一查重方式正确率较低,这是因为其无法区分核心字段和非核心字段,当非核心字段重复率较高时,即使两个指标表达的需求不同,也会被判定为重复指标。此时,就需要人工介入进行审核,容易加大人力浪费和审核复杂度。
发明内容
本申请的目的在于提供一种指标查重方法、装置、存储介质及设备,旨在解决相关技术中的指标查重方案存在的正确率低,容易加大人力浪费和审核复杂度的问题。
第一方面,本申请提供的一种指标查重方法,包括:
获取用户录入的目标指标,调用Elasticsearch对所述目标指标进行分词处理,得到目标分词;
基于所述目标分词的权值,确定所述目标指标的Simhash签名;其中,所述权值是通过查询数据库而得到的;所述数据库中预先存储有多个字段的权值,所述多个字段中,核心字段的权值大于非核心字段的权值;
计算所述目标指标的Simhash签名与所述数据库中其余指标的Simhash签名之间的相似度,根据计算结果判断所述目标指标是否存在相似指标。
在上述实现过程中,针对用户录入的目标指标,调用Elasticsearch进行分词处理,通过查询预先配置有多个字段的权值的数据库,得到目标分词的权值,并以此确定目标指标的Simhash签名,再计算该目标指标的Simhash签名与数据库中其余指标的Simhash签名之间的相似度,根据计算结果判断该目标指标是否存在相似指标。如此,增加了指标查重的智能性,有效节省了人力成本,并且查重过程中可识别出核心字段和非核心字段,有效提升了指标查重的准确率。
进一步地,在一些实施例中,所述目标分词的权值基于以下方式获取得到:
查询数据库中是否存在与所述目标分词对应的字段;
若查询结果为是,将查询到的字段的权值确定为所述目标分词的权值。
在上述实现过程中,在获取到目标指标的分词结果后,先查询数据库是否存在各分词的权值,如果存在则直接赋值,如此,快速得到各目标分词的权值。
进一步地,在一些实施例中,所述方法还包括:
若查询结果为否,获取所述用户录入的权值,将所述权值确定为所述目标分词的权值,并将所述目标分词的权值作为新字段的权值存入所述数据库。
在上述实现过程中,针对数据库不存在相应字段的目标分词,获取用户再次录入的权值,以此作为相应目标分词的权值,同时将结果存入数据库,以便于下一次的指标查重使用。
进一步地,在一些实施例中,所述基于所述目标分词的权值,确定所述目标指标的Simhash签名,包括:
通过hash算法计算每个目标分词的hash值;
利用所述目标分词的权值,对所述hash值进行加权,得到所述目标分词的加权结果;
将所有加权结果进行累加,再对累加结果进行降维,得到所述目标指标的Simhash签名。
在上述实现过程中,提供一种生成目标指标的Simhash签名的具体方式,即通过hash计算、加权计算、合并加权结果以及降维来生成。
进一步地,在一些实施例中,所述计算所述目标指标的Simhash签名与所述数据库中其余指标的Simhash签名之间的相似度,根据计算结果判断所述目标指标是否存在相似指标,包括:
计算所述目标指标的Simhash签名与所述数据库中其余指标的Simhash签名之间的海明距离;
若所述海明距离不超过预设阈值,确定所述目标指标存在相似指标。
在上述实现过程中,利用海明距离来表征两个待比对的指标之间的相似度,当该海明距离小于等于预设阈值时,认为两个指标是相似的,从而提升指标查重的效率。
进一步地,在一些实施例中,所述其余指标的Simhash签名在存储于所述数据库时分为预设份数的数据块,并使用每一份数据块作为键,所述键的值是对应的Simhash签名;所述预设份数大于所述预设阈值;
所述计算所述目标指标的Simhash签名与所述数据库中其余指标的Simhash签名之间的海明距离,包括:
将所述目标指标的Simhash签名切分为预设份数的数据块,使用每一份数据块作为目标键;
根据所述目标键在所述数据库中进行查找,若存在命中的键,遍历所述键的值,计算所述目标指标的Simhash签名与所述值之间的海明距离。
在上述实现过程中,在海明距离计算中引入鸽巢原理,有效提升面对海量数据时的指标查重效率。
进一步地,在一些实施例中,所述方法还包括:
在判断得所述目标指标存在相似指标时,输出所述相似指标和对应的相似度。
在上述实现过程中,在判断出目标指标存在相似指标时,输出该相似指标和对应的相似度作为查重结果,以提醒用户及时对数据进行处理,从而合理保障数据质量。
第二方面,本申请提供的一种指标查重装置,包括:
分词模块,用于获取用户录入的目标指标,调用Elasticsearch对所述目标指标进行分词处理,得到目标分词;
确定模块,用于基于所述目标分词的权值,确定所述目标指标的Simhash签名;其中,所述权值是通过查询数据库而得到的;所述数据库中预先存储有多个字段的权值,所述多个字段中,核心字段的权值大于非核心字段的权值;
比对模块,用于计算所述目标指标的Simhash签名与所述数据库中其余指标的Simhash签名之间的相似度,根据计算结果判断所述目标指标是否存在相似指标。
第三方面,本申请提供的一种电子设备,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面任一项所述的方法的步骤。
第四方面,本申请提供的一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,当所述指令在计算机上运行时,使得所述计算机执行如第一方面任一项所述的方法。
第五方面,本申请提供的一种计算机程序产品,所述计算机程序产品在计算机上运行时,使得计算机执行如第一方面任一项所述的方法。
本申请公开的其他特征和优点将在随后的说明书中阐述,或者,部分特征和优点可以从说明书推知或毫无疑义地确定,或者通过实施本申请公开的上述技术即可得知。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种指标查重方法的流程图;
图2为本申请实施例提供的一种指标查重方案的工作流程的示意图;
图3为本申请实施例提供的一种指标查重装置的框图;
图4为本申请实施例提供的一种电子设备的结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
如背景技术记载,相关技术中的指标查重方案存在着正确率低,容易加大人力浪费和审核复杂度的问题。基于此,本申请实施例提供一种新的指标查重方案,以解决上述问题。
接下来对本申请实施例进行介绍:
如图1所示,图1是本申请实施例提供的一种指标查重方法的流程图,所述方法可以应用于终端或服务器。该终端可以是各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携式计算机和台式计算机等;该服务器可以是单个服务器,也可以是多个服务器组成的分布式服务器集群。该终端或服务器提供数据处理的环境,这一环境包括软件部分和硬件部分,其中,软件部分主要包括操作系统,如Windows、Linux等,硬件部分主要包括计算资源、存储资源等,如CPU(Central Processing Unit,中央处理器)、内存、硬盘等。需要说明的是,该终端/服务器也可以实现成多个软件或软件模块,或者还可以实现成单个软件或软件模块,本申请对此不作限制。
所述方法包括:
在步骤101、获取用户录入的目标指标,调用Elasticsearch对所述目标指标进行分词处理,得到目标分词;
指标是说明总体综合数量特征的概念,以银行场景为例,其涉及的指标可以包括存款余额、员工平均工资、利润总额等,不同场景所涉及的指标可以有所区别。而本步骤中提到的目标指标可以是指待存入数据表中的指标内容,其可以是由指标对应的字段和相关联的内容组成的,如“张三当前的存款余额为10万元”、“7月份设计部的员工的平均工资为8000元”等等。
本实施例方案中,调用Elasticsearch对用户录入的目标指标进行分词处理。Elasticsearch是一个分布式、高扩展、高实时的搜索与数据分析引擎,其具有功能强大、场景丰富的分词器组件,其分词处理过程可以包括:针对原始的文本进行预处理,如去除HTML(Hyper Text Markup Language,超文本标记语言)标记,将预处理后的文本按照一定的规则切分为单词,对各单词进行再加工,如转小写、删除或新增等处理,得到分词结果。借助Elasticsearch在分词处理方面的高性能,为后续的指标比对奠定了良好的数据基础。另外,在分词处理过程中,可以利用Tomcat服务实时维护热词和停用词,以进一步提升效率和准确性。
在步骤102、基于所述目标分词的权值,确定所述目标指标的Simhash签名;其中,所述权值是通过查询数据库而得到的;所述数据库中预先存储有多个字段的权值,所述多个字段中,核心字段的权值大于非核心字段的权值;
Simhash是一种局部敏感哈希算法,其可以将文本数据映射为固定长度的二进制编码,两个文本数据的Simhash签名之间的相似度,在一定程度可以表征原内容的相似度。本实施例方案中,在数据库中预先记录多个字段的权值,在指标查重时,查询数据库获取目标分词的权值,以此来生成目标指标的Simhash签名,由于核心字段的权值大于非核心字段的权值,因此,后续比对两个指标的Simhash签名的相似度时,可以侧重于两个指标包含的核心字段之间的相似度,从而提升指标查重的准确率。其中,本步骤中提到的数据库可以是指Elasticsearch内置的数据库,也可以是指存放各种数据表的其他数据库;另外,在实现时,数据库中非核心字段的权值可以均设置为1,核心字段的权值可以均大于1。
具体地,在一些实施例中,本步骤中提到的目标分词的权值可以基于以下方式获取得到:查询数据库中是否存在与所述目标分词对应的字段;若查询结果为是,将查询到的字段的权值确定为所述目标分词的权值。也就是说,在获取到目标指标的分词结果后,先查询数据库是否存在各分词的权值,如果存在则直接赋值,如此,快速得到各目标分词的权值。可选地,若查询结果为否,可以获取用户录入的权值,将该权值确定为该目标分词的权值,并将该目标分词的权值作为新字段的权值存入该数据库。也就是说,针对数据库不存在相应字段的目标分词,可以通过提供配置入口的方式,获取录入目标指标的用户再次录入的权值,以此作为相应目标分词的权值,同时将结果存入数据库,以便于下一次的指标查重使用。当然,在其他实施例中,也可以将数据库不存在相应字段的目标分词的权值直接确定为默认值,如1,这是因为数据库中主要设置的是核心字段,数据库不存在相应字段的目标分词可以认为是非核心字段,通过这样的设置,可以快速为各目标分词赋予权值,提升处理效率。
还有,在一些实施例中,本步骤可以包括:通过hash算法计算每个目标分词的hash值;利用所述目标分词的权值,对所述hash值进行加权,得到所述目标分词的加权结果;将所有加权结果进行累加,再对累加结果进行降维,得到所述目标指标的Simhash签名。也就是说,在实现时,先计算各目标分词的hash值,hash(散列,可音译成哈希)是把任意长度的输入通过散列算法变换成固定长度的输出,该输出就是hash值,其实际上是采用hash算法对各目标分词进行特征降维,得到二进制数组组成的n位签名;之后,对于该签名的每一位,如果是1,则hash值和权值正相乘,如果为0,则hash值和权值负相乘,从而得到每个目标分词的加权结果,例如,目标指标的其中一个目标分词A的hash值是101011,权值是5,则其加权结果是(5,-5,5,-5,5,5),另一个目标分词B的hash值是100101,权值是4,则其加权结果是(4,-4,-4,4,-4,4);将所有目标分词的加权结果进行累加,然后降维,对于累加结果的每一位,如果大于0则为1,否则为0,从而得到最终的Simhash签名,沿用前面的例子,该目标指标由目标分词A和目标分词B组成,其累加结果为(9,-9,1,-1,1,9),降维后,得到的结果为(1,0,1,0,1,1),则该目标指标的Simhash签名可表示为101011。通过上述步骤,可以生成目标指标的Simhash签名。
在步骤103、计算所述目标指标的Simhash签名与所述数据库中其余指标的Simhash签名之间的相似度,根据计算结果判断所述目标指标是否存在相似指标。
本步骤是指:针对用户录入的目标指标,生成其Simhash签名后,将该Simhash签名与数据库中其余指标的Simhash签名进行比对,以判断该目标指标是否存在相似指标,从而实现系统的自动化查重,节省了人力成本,并且提升了计算效率。其中,数据库中其余指标的Simhash签名也是基于Elasticsearch分词和Simhash算法得到的。
在一些实施例中,本步骤可以包括:计算所述目标指标的Simhash签名与所述数据库中其余指标的Simhash签名之间的海明距离,判断所述海明距离是否超过预设阈值;若所述海明距离不超过预设阈值,确定所述目标指标存在相似指标。也就是说,利用海明距离来表征两个待比对的指标之间的相似度,当该海明距离小于等于预设阈值时,认为两个指标是相似的。在信息编码中,两个合法代码对应位上编码不同的位数称为码距,又称海明距离,例如,101010和111111这两个二进制串依次有第二位、第四位和第六位不同,则其海明距离为3。在处理大规模数据的时候,一般使用64bit的Simhash签名,此时该预设阈值可以为3,即当目标指标的Simhash签名与其余指标的Simhash签名中,对应位上编码不同的位数小于等于3时,判定目标指标与该其余指标是相似的,即目标指标存在相似指标。如此,提升了指标查重的效率。
在实际应用中,当面对海量数据时,指标查重的处理速度会随着数据的不断录入而逐渐减慢,因此,进一步地,在一些实施例中,所述其余指标的Simhash签名在存储于所述数据库时分为预设份数的数据块,并使用每一份数据块作为键,所述键的值是对应的Simhash签名;所述预设份数大于所述预设阈值;前面提到的计算所述目标指标的Simhash签名与所述数据库中其余指标的Simhash签名之间的海明距离可以包括:将所述目标指标的Simhash签名切分为预设份数的数据块,使用每一份数据块作为目标键;根据所述目标键在所述数据库中进行查找,若存在命中的键,遍历所述键的值,计算所述目标指标的Simhash签名与所述值之间的海明距离。也就是说,在海明距离计算中引入鸽巢原理,以有效提升计算效率。鸽巢原理也称为抽屉原理,其一般含义是:如果每个抽屉代表一个集合,每一个苹果代表一个元素,假如有n+1个元素放到n个集合去,其中必定有一个集合里至少有两个元素。基于此,针对各个指标的Simhash签名,存储时可以分成4份数据块,每份16bit长度,使用每一份作为key,value是每一份数据块对应的二进制向量,若两个Simhash签名的海明距离在3以内,则必定有一份数据块完全相同。因此,针对新录入的目标指标的Simhash签名,按照相同规则生成数据块,以此作为目标key,在数据库中进行精确查找,若四个目标key均未命中,则可以直接判定该目标指标不存在相似指标;若四个目标key中有命中,则遍历对应key的value,查看是否满足海明距离小于等于3这一条件,以此确定是否存在相似指标。通过这一降维处理,在面对海量数据时,可以有效减少得到结果所需比较的次数,从而有效提升面对海量数据时的指标查重效率。
还有,在一些实施例中,上述方法还可以包括:在判断得所述目标指标存在相似指标时,输出所述相似指标和对应的相似度。也就是说,在判断出目标指标存在相似指标时,系统可以输出该相似指标和对应的相似度作为查重结果,以提醒用户及时对数据进行处理,如清除冗余数据,或保留实际表达需求不同的数据等,如此,合理保障数据质量。另外,当判断出目标指标不存在相似指标时,系统可以将目标指标和对应的Simhash签名存储于数据库中,以便于针对后续指标的查重过程中的比对使用。
本申请实施例,针对用户录入的目标指标,调用Elasticsearch进行分词处理,通过查询预先配置有多个字段的权值的数据库,得到目标分词的权值,并以此确定目标指标的Simhash签名,再计算该目标指标的Simhash签名与数据库中其余指标的Simhash签名之间的相似度,根据计算结果判断该目标指标是否存在相似指标。如此,增加了指标查重的智能性,有效节省了人力成本,并且查重过程中可识别出核心字段和非核心字段,有效提升了指标查重的准确率。
为了对本申请的方案做更为详细的说明,接下来介绍一具体实施例:
本实施例涉及银行的指标查重场景。相关技术中的指标查重方式,是利用分词进行查重,即利用分词的重复数量来判断两个指标是否相似。这样查重的判断方式正确率很低,无法识别出哪些是核心字段,哪些是非核心字段,若非核心字段重复率很高,即使两个指标表述的需求不同,也会被判定为重复指标,此时,就需要人工接入进行审核,造成系统不够智能,也会加大人力浪费和审核复杂度。基于此,本实施例提供一种指标查重方案,以解决上述问题。
本实施例方案的工作流程如图2所示,该工作流程包括:
S201、获取用户录入的指标内容;
S202、调用Elasticsearch对用户录入内容进行分词,同时利用tomcat服务23实时维护热词和停用词;
S203、通过查询数据库,为每个分词赋予权值,通过hash算法计算每个分词的hash值,然后通过加权计算、合并计算、降维计算,最终得到该指标内容对应的Simhash签名;
具体地,假设用户录入指标内容是“Python是一种面向对象的高级编程语言”,分词处理得到的结果为“Python/是/一种/面向对象/的/高级编程语言”,这里的“/”表示空格,即划分出6个分词,为这六个分词依次赋予权值为5、1、2、3、1、4;在加权计算时,若这六个分词的hash值依次是10101、10110、11000、00101、01010、11010,则其加权结果依次为(5,-5,5,-5,5)、(1,-1,1,1,-1)、(2,2,-2,-2,-2)、(-3,-3,3,-3,3)、(-1,1,-1,1,-1)、(4,4,-4,4,-4);将各分词的加权结果进行累加,得到合并结果为(8,-2,2,-4,0);将该合并结果进行降维,得到“10100”,从而形成Simhash签名;
S204、判断该指标内容对应的Simhash签名与待比对的指标的Simhash签名之间的海明距离是否小于等于预设阈值,是则执行S205,否则执行S206;
具体地,该预设阈值为3,当两个指标的Simhash签名之间的海明距离小于等于3时,认为这两个指标是相似的;在处理大规模数据时,使用64bit的Simhash签名,存储时分为4份,每份16bit长度,例如,将数据库MySQL中已录入的指标的Simhash签名均分为A、B、C、D四份数据块,在存储至Redis时分别以A、B、C、D为key进行存储,如果当前key已经存在,那么将Simhash签名追加到key对应的value列表中,之后,针对用户新录入的指标内容的Simhash签名,按照相同规则生成a、b、c、d四部分,如果这四个作为key都不存在,则可以认为用户新录入的指标内容没有相似指标;如果有命中,则开始遍历命中的key的value,查看是否满足海明距离小于等于3的条件,是则认为用户新录入的指标内容没有相似指标,否则继续遍历剩下的key,重复相同过程,直至所有的key全部遍历完或者命中相似指标则结束;
S205、确定存在相似指标,输出该相似指标和对应的海明距离,之后执行S207;
S206、确定不存在相似指标,将该指标内容和对应的Simhash签名存储于数据库中;
S207、流程结束。
本实施例方案结合了Elasticsearch分词、局部性敏感哈希和海明距离算法,快速识别出用户输入的指标内容,对指标进行分词、hash计算、对核心字段和非核心字段分别进行加权、合并加权结果、降维、计算需要比对的两个指标的海明距离,最终通过海明距离算法比对结果,来最终判断当前指标是否存在相似指标。这样,既增加了系统查重的智能性,也节省了相关人力,同时还提升了指标查重的效率。
与前述方法的实施例相对应,本申请还提供指标查重装置及其应用的终端的实施例:
如图3所示,图3是本申请实施例提供的一种指标查重装置的框图,包括:
分词模块31,用于获取用户录入的目标指标,调用Elasticsearch对所述目标指标进行分词处理,得到目标分词;
确定模块32,用于基于所述目标分词的权值,确定所述目标指标的Simhash签名;其中,所述权值是通过查询数据库而得到的;所述数据库中预先存储有多个字段的权值,所述多个字段中,核心字段的权值大于非核心字段的权值;
比对模块33,用于计算所述目标指标的Simhash签名与所述数据库中其余指标的Simhash签名之间的相似度,根据计算结果判断所述目标指标是否存在相似指标。
在一些实施例中,上述确定模块32包括:
查询子模块,用于查询数据库中是否存在与所述目标分词对应的字段;
确定子模块,用于若查询结果为是,将查询到的字段的权值确定为所述目标分词的权值。
在一些实施例中,上述装置还包括:
权值获取模块,用于若查询结果为否,获取所述用户录入的权值,将所述权值确定为所述目标分词的权值,并将所述目标分词的权值作为新字段的权值存入所述数据库。
在一些实施例中,上述确定模块32具体用于:
通过hash算法计算每个目标分词的hash值;
利用所述目标分词的权值,对所述hash值进行加权,得到所述目标分词的加权结果;
将所有加权结果进行累加,再对累加结果进行降维,得到所述目标指标的Simhash签名。
在一些实施例中,上述比对模块33包括:
计算子模块,用于计算所述目标指标的Simhash签名与所述数据库中其余指标的Simhash签名之间的海明距离;
比对子模块,用于若所述海明距离不超过预设阈值,确定所述目标指标存在相似指标。
在一些实施例中,上述其余指标的Simhash签名在存储于所述数据库时分为预设份数的数据块,并使用每一份数据块作为键,所述键的值是对应的Simhash签名;所述预设份数大于所述预设阈值;
上述计算子模块具体用于:
将所述目标指标的Simhash签名切分为预设份数的数据块,使用每一份数据块作为目标键;
根据所述目标键在所述数据库中进行查找,若存在命中的键,遍历所述键的值,计算所述目标指标的Simhash签名与所述值之间的海明距离。
在一些实施例中,上述装置还包括:
输出模块,用于在判断得所述目标指标存在相似指标时,输出所述相似指标和对应的相似度。
上述装置中各个模块的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
本申请还提供一种电子设备,请参见图4,图4为本申请实施例提供的一种电子设备的结构框图。电子设备可以包括处理器410、通信接口420、存储器430和至少一个通信总线440。其中,通信总线440用于实现这些组件直接的连接通信。其中,本申请实施例中电子设备的通信接口420用于与其他节点设备进行信令或数据的通信。处理器410可以是一种集成电路芯片,具有信号的处理能力。
上述的处理器410可以是通用处理器,包括中央处理器(CPU,Central ProcessingUnit)、网络处理器(NP,Network Processor)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器410也可以是任何常规的处理器等。
存储器430可以是,但不限于,随机存取存储器(RAM,Random Access Memory),只读存储器(ROM,Read Only Memory),可编程只读存储器(PROM,Programmable Read-OnlyMemory),可擦除只读存储器(EPROM,Erasable Programmable Read-Only Memory),电可擦除只读存储器(EEPROM,Electric Erasable Programmable Read-Only Memory)等。存储器430中存储有计算机可读取指令,当所述计算机可读取指令由所述处理器410执行时,电子设备可以执行上述图1或图2方法实施例涉及的各个步骤。
可选地,电子设备还可以包括存储控制器、输入输出单元。
所述存储器430、存储控制器、处理器410、外设接口、输入输出单元各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通信总线440实现电性连接。所述处理器410用于执行存储器430中存储的可执行模块,例如电子设备包括的软件功能模块或计算机程序。
输入输出单元用于提供给用户创建任务以及为该任务创建启动可选时段或预设执行时间以实现用户与服务器的交互。所述输入输出单元可以是,但不限于,鼠标和键盘等。
可以理解,图4所示的结构仅为示意,所述电子设备还可包括比图4中所示更多或者更少的组件,或者具有与图4所示不同的配置。图4中所示的各组件可以采用硬件、软件或其组合实现。
本申请实施例还提供一种存储介质,所述存储介质上存储有指令,当所述指令在计算机上运行时,所述计算机程序被处理器执行时实现方法实施例所述的方法,为避免重复,此处不再赘述。
本申请还提供一种计算机程序产品,所述计算机程序产品在计算机上运行时,使得计算机执行方法实施例所述的方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
Claims (10)
1.一种指标查重方法,其特征在于,包括:
获取用户录入的目标指标,调用Elasticsearch对所述目标指标进行分词处理,得到目标分词;
基于所述目标分词的权值,确定所述目标指标的Simhash签名;其中,所述权值是通过查询数据库而得到的;所述数据库中预先存储有多个字段的权值,所述多个字段中,核心字段的权值大于非核心字段的权值;
计算所述目标指标的Simhash签名与所述数据库中其余指标的Simhash签名之间的相似度,根据计算结果判断所述目标指标是否存在相似指标。
2.根据权利要求1所述的方法,其特征在于,所述目标分词的权值基于以下方式获取得到:
查询数据库中是否存在与所述目标分词对应的字段;
若查询结果为是,将查询到的字段的权值确定为所述目标分词的权值。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
若查询结果为否,获取所述用户录入的权值,将所述权值确定为所述目标分词的权值,并将所述目标分词的权值作为新字段的权值存入所述数据库。
4.根据权利要求1所述的方法,其特征在于,所述基于所述目标分词的权值,确定所述目标指标的Simhash签名,包括:
通过hash算法计算每个目标分词的hash值;
利用所述目标分词的权值,对所述hash值进行加权,得到所述目标分词的加权结果;
将所有加权结果进行累加,再对累加结果进行降维,得到所述目标指标的Simhash签名。
5.根据权利要求1所述的方法,其特征在于,所述计算所述目标指标的Simhash签名与所述数据库中其余指标的Simhash签名之间的相似度,根据计算结果判断所述目标指标是否存在相似指标,包括:
计算所述目标指标的Simhash签名与所述数据库中其余指标的Simhash签名之间的海明距离;
若所述海明距离不超过预设阈值,确定所述目标指标存在相似指标。
6.根据权利要求5所述的方法,其特征在于,所述其余指标的Simhash签名在存储于所述数据库时分为预设份数的数据块,并使用每一份数据块作为键,所述键的值是对应的Simhash签名;所述预设份数大于所述预设阈值;所述计算所述目标指标的Simhash签名与所述数据库中其余指标的Simhash签名之间的海明距离,包括:
将所述目标指标的Simhash签名切分为预设份数的数据块,使用每一份数据块作为目标键;
根据所述目标键在所述数据库中进行查找,若存在命中的键,遍历所述键的值,计算所述目标指标的Simhash签名与所述值之间的海明距离。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在判断得所述目标指标存在相似指标时,输出所述相似指标和对应的相似度。
8.一种指标查重装置,其特征在于,包括:
分词模块,用于获取用户录入的目标指标,调用Elasticsearch对所述目标指标进行分词处理,得到目标分词;
确定模块,用于基于所述目标分词的权值,确定所述目标指标的Simhash签名;其中,所述权值是通过查询数据库而得到的;所述数据库中预先存储有多个字段的权值,所述多个字段中,核心字段的权值大于非核心字段的权值;
比对模块,用于计算所述目标指标的Simhash签名与所述数据库中其余指标的Simhash签名之间的相似度,根据计算结果判断所述目标指标是否存在相似指标。
9.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。
10.一种电子设备,其特征在于,包括处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310725313.2A CN116842929A (zh) | 2023-06-16 | 2023-06-16 | 一种指标查重方法、装置、存储介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310725313.2A CN116842929A (zh) | 2023-06-16 | 2023-06-16 | 一种指标查重方法、装置、存储介质及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116842929A true CN116842929A (zh) | 2023-10-03 |
Family
ID=88159130
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310725313.2A Pending CN116842929A (zh) | 2023-06-16 | 2023-06-16 | 一种指标查重方法、装置、存储介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116842929A (zh) |
-
2023
- 2023-06-16 CN CN202310725313.2A patent/CN116842929A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11228595B2 (en) | Evaluating security of data access statements | |
AU2009302657B2 (en) | Detection of confidential information | |
US10002122B2 (en) | Forming knowledge information based on a predetermined threshold of a concept and a predetermined threshold of a target word extracted from a document | |
CN110851598B (zh) | 文本分类方法、装置、终端设备及存储介质 | |
CN111258966A (zh) | 一种数据去重方法、装置、设备及存储介质 | |
CN110750615B (zh) | 文本重复性判定方法和装置、电子设备和存储介质 | |
WO2013082297A2 (en) | Classifying attribute data intervals | |
CN108667678A (zh) | 一种基于大数据的运维日志安全检测方法及装置 | |
CN117216239A (zh) | 文本去重方法、装置、计算机设备及存储介质 | |
CN111177362A (zh) | 一种信息处理方法、装置、服务器及介质 | |
CN107368281B (zh) | 一种数据处理方法及装置 | |
CN113157853A (zh) | 问题挖掘方法、装置、电子设备及存储介质 | |
CN116842929A (zh) | 一种指标查重方法、装置、存储介质及设备 | |
CN107329956B (zh) | 一种项目信息标准化方法及装置 | |
CN114417102B (zh) | 文本去重方法、装置和电子设备 | |
CN111552864B (zh) | 一种资讯去重的方法、系统、存储介质及电子设备 | |
CN114818686A (zh) | 基于人工智能的文本推荐方法及相关设备 | |
US11928107B2 (en) | Similarity-based value-to-column classification | |
CN110046180B (zh) | 一种用于定位相似实例的方法、装置和电子设备 | |
CN112990466A (zh) | 一种冗余规则检测方法、装置以及服务器 | |
CN111611056A (zh) | 数据处理方法、装置、计算机设备及存储介质 | |
CN113449232A (zh) | 一种数据处理方法、装置、设备和存储介质 | |
CN112989793B (zh) | 文章检测方法及装置 | |
CN116483735B (zh) | 一种代码变更的影响分析方法、装置、存储介质及设备 | |
CN112989814B (zh) | 检索图谱构建方法、检索方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |