CN110866048A - 证件信息的关联规则获取方法及装置 - Google Patents

证件信息的关联规则获取方法及装置 Download PDF

Info

Publication number
CN110866048A
CN110866048A CN201911122395.1A CN201911122395A CN110866048A CN 110866048 A CN110866048 A CN 110866048A CN 201911122395 A CN201911122395 A CN 201911122395A CN 110866048 A CN110866048 A CN 110866048A
Authority
CN
China
Prior art keywords
information
certificate
number segment
certificate information
segment set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911122395.1A
Other languages
English (en)
Other versions
CN110866048B (zh
Inventor
徐鹏飞
单军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dt Dream Technology Co Ltd
Original Assignee
Hangzhou Dt Dream Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dt Dream Technology Co Ltd filed Critical Hangzhou Dt Dream Technology Co Ltd
Priority to CN201911122395.1A priority Critical patent/CN110866048B/zh
Publication of CN110866048A publication Critical patent/CN110866048A/zh
Application granted granted Critical
Publication of CN110866048B publication Critical patent/CN110866048B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2452Query translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了证件信息的关联规则获取方法及装置、电子设备、存储介质。获取方法包括:获取多份证件信息,证件信息包括证件号码和其他证件信息;分别将从多个证件号码中截取的位数和数位均相同的号码段划分至相同的号码段集中;计算号码段集与其他证件信息的初始互信息,根据初始互信息将号码段集和其他证件信息分为正样本和负样本;根据正样本和负样本拟合号码段的权重;对号码段集中的号码段赋予权重后,计算号码段集与其他证件信息的互信息;根据再次计算的互信息确定号码段与其他证件信息之间的关联规则。本发明基于互信息确定证件信息的关联规则,能够挖掘出证件号码与其他证件信息之间的潜在规则,以此建立规则库,可为证件鉴伪提供参考。

Description

证件信息的关联规则获取方法及装置
技术领域
本发明涉及数据挖掘技术领域,特别涉及证件信息的关联规则获取方法及装置、电子设备、存储介质。
背景技术
目前,证件鉴伪主要通过业务专家长期工作的实践,总结出证件信息的关联规则,进而基于结构化文本的关联规则逻辑匹配实现。然而,基于人工方式挖掘证件信息的关联规则,不仅需要大量的人力投入,且人工并不能挖掘出除经验之外的潜在规则,会导致因证件信息的关联规则挖掘不全面,影响证件鉴伪的准确性。
发明内容
本发明提供一种证件信息的关联规则获取方法及装置、电子设备、存储介质,以挖掘出证件信息之间的潜在关联规则,提高证件鉴伪的准确性。
具体地,本发明是通过如下技术方案实现的:
第一方面,提供一种证件信息的关联规则的获取方法,所述获取方法包括:
获取多份证件信息,所述证件信息包括证件号码和其他证件信息;
分别对每个证件号码进行号码段的截取,并将从多个证件号码中截取得到的位数和数位均相同的号码段划分至相同的号码段集中;
计算各个号码段集与所述其他证件信息的初始互信息,并将所述初始互信息大于互信息阈值的号码段集与对应的其他证件信息作为正样本,将所述初始互信息小于等于所述互信息阈值的号码段集与对应的其他证件信息作为负样本;
根据所述正样本和所述负样本拟合所述号码段的权重;
对所述号码段集中的号码段赋予所述权重后,再次计算所述号码段集与所述其他证件信息的互信息;
根据再次计算的互信息确定号码段与所述其他证件信息之间的关联规则。
可选地,将所述初始互信息大于互信息阈值的号码段集与对应的其他证件信息作为正样本之后,还包括:
验证所述正样本中的号码段集与对应的其他证件信息,将验证不通过的号码段集与对应的其他证件信息迁移至所述负样本中;
验证所述负样本中的号码段集与对应的其他证件信息,将验证不通过的号码段集与对应的其他证件信息迁移至所述正样本中。
可选地,再次计算所述号码段集与所述其他证件信息的互信息,包括:
从多个包含位数相同的号码段的号码段集中选取目标号码段集,所述目标号码段集为与所述其他证件信息的互信息为最大值的号码段集;
将所述目标号码段集中的号码段与其他号码段集中对应的号码段进行组合,并再次计算组合后的号码段集与所述其他证件信息的互信息。
可选地,再次计算所述号码段集与所述其他证件信息的互信息,包括:
分别计算每个号码段集与所述其他证件信息的互信息;
按照所述互信息由大到小的顺序对所述号码段集进行排序;
选取排序靠前的若干号码段集,并将所述若干号码段集中对应的号码段进行组合;
再次计算组合后的号码段集与所述其他证件信息的互信息。
可选地,根据再次计算的互信息确定号码段与所述其他证件信息之间的关联规则,包括:
计算所述互信息大于互信息阈值的号码段集的置信度;
根据置信度大于置信度阈值的号码段集与对应的其他证件信息确定所述关联关系。
可选地,所述获取方法还包括:
使用正则表达式表示所述关联关系。
可选地,所述其他证件信息包括以下信息中的至少一项:
证件所属用户的用户信息、证件签发地、证件签发时间、证件有效期、证件签发机关、证件类型。
第二方面,提供一种证件信息的关联规则的获取装置,所述获取装置包括:
获取模块,用于获取多份证件信息,所述证件信息包括证件号码和其他证件信息;
截取模块,用于分别对每个证件号码进行号码段的截取,并将从多个证件号码中截取得到的位数和数位均相同的号码段划分至相同的号码段集中;
计算模块,用于计算各个号码段集与所述其他证件信息的初始互信息,并将所述初始互信息大于互信息阈值的号码段集与对应的其他证件信息作为正样本,将所述初始互信息小于等于所述互信息阈值的号码段集与对应的其他证件信息作为负样本;
拟合模块,用于根据所述正样本和所述负样本拟合所述号码段的权重;
所述计算模块,还用于对所述号码段集中的号码段赋予所述权重后,再次计算所述号码段集与所述其他证件信息的互信息,并根据再次计算的互信息确定号码段与所述其他证件信息之间的关联规则。
可选地,所述获取装置还包括验证模块,用于:
验证所述正样本中的号码段集与对应的其他证件信息,将验证不通过的号码段集与对应的其他证件信息迁移至所述负样本中;
验证所述负样本中的号码段集与对应的其他证件信息,将验证不通过的号码段集与对应的其他证件信息迁移至所述正样本中。
可选地,在再次计算所述号码段集与所述其他证件信息的互信息时,所述计算模块具体用于:
从多个包含位数相同的号码段的号码段集中选取目标号码段集,所述目标号码段集为与所述其他证件信息的互信息为最大值的号码段集;
将所述目标号码段集中的号码段与其他号码段集中对应的号码段进行组合,并再次计算组合后的号码段集与所述其他证件信息的互信息。
可选地,在再次计算所述号码段集与所述其他证件信息的互信息,所述计算模块具体用于:
分别计算每个号码段集与所述其他证件信息的互信息;
按照所述互信息由大到小的顺序对所述号码段集进行排序;
选取排序靠前的若干号码段集,并将所述若干号码段集中对应的号码段进行组合;
再次计算组合后的号码段集与所述其他证件信息的互信息。
可选地,在根据再次计算的互信息确定号码段与所述其他证件信息之间的关联规则,所述计算模块具体用于:
计算所述互信息大于互信息阈值的号码段集的置信度;
根据置信度大于置信度阈值的号码段集与对应的其他证件信息确定所述关联关系。
可选地,所述计算模块还用于:
使用正则表达式表示所述关联关系。
第三方面,提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的证件信息的关联规则获取方法。
第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的证件信息的关联规则获取方法的步骤。
本发明的实施例提供的技术方案可以包括以下有益效果:
本发明实施例中,基于互信息确定证件信息的关联规则,能够挖掘出证件号码与其他证件信息之间的潜在规则,以此建立规则库,可为证件鉴伪提供参考。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是本发明一示例性实施例示出的一种证件信息的关联规则获取方法的流程图;
图2是本发明另一示例性实施例示出的一种证件信息的关联规则获取方法的流程图;
图3是本发明另一示例性实施例示出的一种证件信息的关联规则获取方法的流程图;
图4是本发明一示例性实施例示出的一种证件信息的关联规则获取的模块示意图;
图5是本发明一示例性实施例示出的一种电子设备的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本发明可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本发明范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
图1是本发明一示例性实施例示出的一种证件信息的关联规则获取方法的流程图,该获取方法包括以下步骤:
步骤101、获取多份证件信息。
其中,证件信息包括证件号码和其他证件信息。其他证件信息可以是以下信息中的一项或多项组合:证件所属用户的用户信息(例如,用户性别、名族、出生日期、住址等)、证件签发地、证件签发时间、证件有效期、证件签发机关、证件类型。可以理解地,本实施例中针对每类证件建立对应的证件信息的关联规则,步骤101中获取的是同类证件的多份证件信息。
步骤102、分别对每个证件号码进行号码段的截取,并将从多个证件号码中截取得到的位数和数位均相同的号码段划分至相同的号码段集中。
步骤102中,需采用相同截取规则对每个证件号码进行截取,截取规则可以但不限于是,先对证件号码的每个数位进行截取,再分别截取相邻的2位、3位号码段。
以下表1示出的证件信息为例,对证件号码的每个数位进行截取,并将截取得到的数位相同的号码段划分至相同的号码段集中,结果为{4,3,3,3,5}、{4,1,3,3,1}、{0,0,0,1,0}、{5,3,7,6,4}、{8,9,9,5,2}、{6,5,7,6,3};对证件号码的相邻2位进行截取,并将截取得到的数位相同的号码段划分至相同的号码段集中,结果为{44,31,33,33,51}、{40,10,30,31,10}、{05,03,07,16,04}、{58,39,79,65,42}、{86,95,97,56,23};对证件号码的相邻3位进行截取,并将截取得到的数位相同的号码段划分至相同的号码段集中,结果为{440,310,330,331,510}、{405,103,307,316,104}、{058,039,079,165,042}、{586,395,797,656,423}。
表1
证件信息 证件号码 证件签发地 证件签发时间 用户性别
证件a 440586 广东省 2000年
证件b 310395 上海市 2001年
证件c 330797 浙江省 1995年
证件d 331656 浙江省 2018年
证件e 510423 重庆市 2018年
步骤103、计算各个号码段集与其他证件信息的初始互信息,并将初始互信息大于互信息阈值的号码段集与对应的其他证件信息作为正样本,将初始互信息小于等于互信息阈值的号码段集与对应的其他证件信息作为负样本。
步骤104、根据正样本和负样本拟合号码段的权重。
在一个实现方式中,步骤104拟合权重之前,需要对正负样本进行验证。
步骤103之后,还包括:
验证正样本中的号码段集与对应的其他证件信息,将验证不通过的号码段集与对应的其他证件信息迁移至负样本中;
验证负样本中的号码段集与对应的其他证件信息,将验证不通过的号码段集与对应的其他证件信息迁移至正样本中。
步骤105、对号码段集中的号码段赋予权重后,再次计算号码段集与其他证件信息的互信息。
步骤105中,可以但不限于采用修改后的下述公式计算互信息:
Figure BDA0002275791060000071
其中,I(X;Y)表示互信息;X为号码段集的向量表示;Y为一项证件信息或多项证件信息组合的向量表示;p(x,y)为(x,y)同时出现的概率;p(x)为x在向量X中出现的概率;p(y)为y在向量Y中出现的概率;γ(x,y)为拟合得到的权重。
步骤106、根据再次计算的互信息确定号码段与其他证件信息之间的关联规则。
重复步骤103~步骤106,使证件号码中的每个号码段与证件信息中的所有其他证件信息计算过互信息,即可得到号码段与某项证件信息和/或多项证件信息组合的相关性,若计算得到的互信息值比较大,说明号码段与该项证件信息或该多项证件信息组合相关性较大,则可依据互信息较大的若干号码段与对应的其他证件信息确定证件信息的关联规则。
本实施例的证件信息的关联规则获取方法适用各种类型的证件,例如身份证、驾驶证、护照等。本实施例中,基于互信息确定证件信息的关联规则,能够挖掘出各类证件的证件号码与其他证件信息之间的潜在关联规则,以此建立规则库,可为证件鉴伪提供参考。
在图1示出的关联规则获取方法的流程图的基础上,图2示出了本发明一示例性实施例的另一种证件信息的关联规则获取方法的流程图,该获取方法包括以下步骤:
步骤201、获取多份证件信息。
步骤202、分别对每个证件号码进行号码段的截取,并将从多个证件号码中截取得到的位数和数位均相同的号码段划分至相同的号码段集中。
步骤203、计算各个号码段集与其他证件信息的初始互信息,并将初始互信息大于互信息阈值的号码段集与对应的其他证件信息作为正样本,将初始互信息小于等于互信息阈值的号码段集与对应的其他证件信息作为负样本。
步骤204、根据正样本和负样本拟合号码段的权重。
其中,步骤201~步骤204与步骤101~步骤104的具体实现方式类似,此处不再赘诉。
步骤205-1、从多个包含位数相同的号码段的号码段集中选取目标号码段集。
其中,步骤305-1中的号码段集为对其中的号码段赋予权重后的号码段集。
其中,目标号码段集为与其他证件信息的互信息为最大值的号码段集。
步骤205-2、将目标号码段集中的号码段与其他号码段集中对应的号码段进行组合,并再次计算组合后的号码段集与其他证件信息的互信息。
在一个实现方式中,可重复执行步骤205-1和步骤205-2,直至证件号码中所有数位的数字均被截取并计算过互信息或者对组合后的号码段集计算互信息不再增大为止。以下还是以表1示出的证件信息为例,对重复计算互信息的具体实现过程进行说明:
从包含位数最少的号码段的号码段集开始,也即分别将以下号码段集{4,3,3,3,5}、{4,1,3,3,1}、{0,0,0,1,0}、{5,3,7,6,4}、{8,9,9,5,2}、{6,5,7,6,3}与每项证件信息(或多项证件信息组合)计算互信息,针对每项证件信息(或证件信息组合),将互信息为最大值的号码段集确定为本轮迭代的目标号码段集,假设包含位数为1的号码段的号码段集中,{4,3,3,3,5}与证件签发地的互信息为最大值,则将{4,3,3,3,5}确定为本次迭代过程中,针对证件签发地的目标号码段集,并进行下一轮迭代,选择证件号码中其他数位的数字与{4,3,3,3,5}进行组合,得到组合后的号码段集{44,31,33,33,51}、{40,30,30,30,50}、{45,33,37,36,54}、{48,39,39,35,52}、{46,35,37,36,53},分别将组合后的号码段集与证件签发地该项证件信息计算互信息;重复执行上述步骤,直至证件号码中所有数位的数字均被截取并计算过互信息,或者组合后的号码段集计算互信息不再增大为止(本次迭代的互信息最大值大于下一次迭代的互信息最大值)。步骤206中则根据本次迭代中互信息为最大值的号码段集与对应的证件信息(或多项证件信息组合)确定关联规则。本实施例中,计算出最大值后只会在最大值的基础上进行号码段的组合,例如首次出现的最大互信息的号码段集中号码段为a,那么组合后该号码段为ab,本实施例中无需计算关联性较小的号码段集与证件信息的互信息,可以提高计算的效率。
步骤206、根据再次计算的互信息确定号码段与其他证件信息之间的关联规则。
在一个实现中,步骤206具体包括:计算互信息大于互信息阈值的号码段集的置信度,并根据置信度大于置信度阈值的号码段集与对应的证件信息确定关联规则。
在另一个实现方式中,还可以使用正则表达式表示关联规则。
本实施例中,通过互信息的迭代计算,可以进一步提高关联规则挖掘的准确性。进一步地,可使用本实施例的证件信息的关联规则获取方法,对不同国家、不同类型的证件信息进行关联规则挖掘,形成统一的规则库,有助于提升对不同类型的证照鉴伪工作的效率。
图3示出了本发明一示例性实施例的另一种证件信息的关联规则获取方法的流程图,本实施例的关联规则获取方法与图2示出的关联规则获取方法基本相同,不同之处在于,本实施例中计算各个号码段集与其他证件信息的互信息的具体实现方式与图2示出的不同,参见图3,针对其他证件信息中的每项证件信息或多项证件信息组合,计算各个号码段集与其他证件信息的互信息的步骤具体包括:
步骤305-1、分别计算每个号码段集与其他证件信息的互信息。
其中,步骤305-1中的号码段集为对其中的号码段赋予权重后的号码段集。
步骤305-2、按照互信息由大到小的顺序对号码段集进行排序。
步骤305-3、选取排序靠前的若干号码段集,并将若干号码段集中对应的号码段进行组合。
其中,若干号码段集的数量可以根据实际需求自行选择,例如选择2和或者3个。
步骤305-4、再次计算组合后的号码段集与其他证件信息的互信息。
步骤306中,则根据步骤305-1和步骤305-4中计算的互信息大于互信息阈值的号码段集和对应的证件信息确定关联规则。
本实施例中,将排序靠前的若干号码段集中对应的号码段进行组合,并计算互信息,对于本身互信息值较小的号码段集不再进行组合计算互信息,从而可以提高计算的效率。
与前述证件信息的关联规则获取方法实施例相对应,本发明还提供了证件信息的关联规则获取装置的实施例。
图4示出了本发明一示例性实施例的一种证件信息的关联规则获取装置的模块示意图,该关联规则获取装置包括:获取模块41、截取模块42、计算模块43和拟合模块44。
获取模块41用于获取多份证件信息,所述证件信息包括证件号码和其他证件信息;
截取模块42用于分别对每个证件号码进行号码段的截取,并将从多个证件号码中截取得到的位数和数位均相同的号码段划分至相同的号码段集中;
计算模块43用于计算各个号码段集与所述其他证件信息的初始互信息,并将所述初始互信息大于互信息阈值的号码段集与对应的其他证件信息作为正样本,将所述初始互信息小于等于所述互信息阈值的号码段集与对应的其他证件信息作为负样本;
拟合模块44用于根据所述正样本和所述负样本拟合所述号码段的权重;
所述计算模块43还用于对所述号码段集中的号码段赋予所述权重后,再次计算所述号码段集与所述其他证件信息的互信息,并根据再次计算的互信息确定号码段与所述其他证件信息之间的关联规则。
可选地,所述获取装置还包括验证模块,用于:
验证所述正样本中的号码段集与对应的其他证件信息,将验证不通过的号码段集与对应的其他证件信息迁移至所述负样本中;
验证所述负样本中的号码段集与对应的其他证件信息,将验证不通过的号码段集与对应的其他证件信息迁移至所述正样本中。
可选地,在再次计算所述号码段集与所述其他证件信息的互信息时,所述计算模块具体用于:
从多个包含位数相同的号码段的号码段集中选取目标号码段集,所述目标号码段集为与所述其他证件信息的互信息为最大值的号码段集;
将所述目标号码段集中的号码段与其他号码段集中对应的号码段进行组合,并再次计算组合后的号码段集与所述其他证件信息的互信息。
可选地,在再次计算所述号码段集与所述其他证件信息的互信息,所述计算模块具体用于:
分别计算每个号码段集与所述其他证件信息的互信息;
按照所述互信息由大到小的顺序对所述号码段集进行排序;
选取排序靠前的若干号码段集,并将所述若干号码段集中对应的号码段进行组合;
再次计算组合后的号码段集与所述其他证件信息的互信息。
可选地,在根据再次计算的互信息确定号码段与所述其他证件信息之间的关联规则,所述计算模块具体用于:
计算所述互信息大于互信息阈值的号码段集的置信度;
根据置信度大于置信度阈值的号码段集与对应的其他证件信息确定所述关联关系。
可选地,所述计算模块还用于:
使用正则表达式表示所述关联关系。
图5为本发明实施例提供的一种电子设备的结构示意图,示出了适于用来实现本发明实施方式的示例性电子设备50的框图。图5显示的电子设备50仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,电子设备50可以以通用计算设备的形式表现,例如其可以为服务器设备。电子设备50的组件可以包括但不限于:上述至少一个处理器51、上述至少一个存储器52、连接不同系统组件(包括存储器52和处理器51)的总线53。
总线53包括数据总线、地址总线和控制总线。
存储器52可以包括易失性存储器,例如随机存取存储器(RAM)521和/或高速缓存存储器522,还可以进一步包括只读存储器(ROM)523。
存储器52还可以包括具有一组(至少一个)程序模块524的程序工具525(或实用工具),这样的程序模块524包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
处理器51通过运行存储在存储器52中的计算机程序,从而执行各种功能应用以及数据处理,例如上述任一实施例提供的方法。
电子设备50也可以与一个或多个外部设备54(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口55进行。并且,模型生成的电子设备50还可以通过网络适配器56与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器56通过总线53与模型生成的电子设备50的其它模块通信。应当明白,尽管图中未示出,可以结合模型生成的电子设备50使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的证件信息的关联规则获取方法的步骤。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (15)

1.一种证件信息的关联规则的获取方法,其特征在于,所述获取方法包括:
获取多份证件信息,所述证件信息包括证件号码和其他证件信息;
分别对每个证件号码进行号码段的截取,并将从多个证件号码中截取得到的位数和数位均相同的号码段划分至相同的号码段集中;
分别计算每个号码段集与所述其他证件信息的初始互信息,并将所述初始互信息大于互信息阈值的号码段集与对应的其他证件信息作为正样本,将所述初始互信息小于等于所述互信息阈值的号码段集与对应的其他证件信息作为负样本;
根据所述正样本和所述负样本拟合所述号码段的权重;
对所述号码段集中的号码段赋予所述权重后,再次计算所述号码段集与所述其他证件信息的互信息;
根据再次计算的互信息确定号码段与所述其他证件信息之间的关联规则。
2.如权利要求1所述的证件信息的关联规则的获取方法,其特征在于,将所述初始互信息大于互信息阈值的号码段集与对应的其他证件信息作为正样本之后,还包括:
验证所述正样本中的号码段集与对应的其他证件信息,将验证不通过的号码段集与对应的其他证件信息迁移至所述负样本中;
验证所述负样本中的号码段集与对应的其他证件信息,将验证不通过的号码段集与对应的其他证件信息迁移至所述正样本中。
3.如权利要求1所述的证件信息的关联规则的获取方法,其特征在于,再次计算所述号码段集与所述其他证件信息的互信息,包括:
从多个包含位数相同的号码段的号码段集中选取目标号码段集,所述目标号码段集为与所述其他证件信息的互信息为最大值的号码段集;
将所述目标号码段集中的号码段与其他号码段集中对应的号码段进行组合,并再次计算组合后的号码段集与所述其他证件信息的互信息。
4.如权利要求1所述的证件信息的关联规则的获取方法,其特征在于,再次计算所述号码段集与所述其他证件信息的互信息,包括:
分别计算每个号码段集与所述其他证件信息的互信息;
按照所述互信息由大到小的顺序对所述号码段集进行排序;
选取排序靠前的若干号码段集,并将所述若干号码段集中对应的号码段进行组合;
再次计算组合后的号码段集与所述其他证件信息的互信息。
5.如权利要求1所述的证件信息的关联规则的获取方法,其特征在于,根据再次计算的互信息确定号码段与所述其他证件信息之间的关联规则,包括:
计算所述互信息大于互信息阈值的号码段集的置信度;
根据置信度大于置信度阈值的号码段集与对应的其他证件信息确定所述关联关系。
6.如权利要求1所述的证件信息的关联规则的获取方法,其特征在于,所述获取方法还包括:
使用正则表达式表示所述关联关系。
7.如权利要求1所述的证件信息的关联规则的获取方法,其特征在于,所述其他证件信息包括以下信息中的至少一项:
证件所属用户的用户信息、证件签发地、证件签发时间、证件有效期、证件签发机关、证件类型。
8.一种证件信息的关联规则的获取装置,其特征在于,所述获取装置包括:
获取模块,用于获取多份证件信息,所述证件信息包括证件号码和其他证件信息;
截取模块,用于分别对每个证件号码进行号码段的截取,并将从多个证件号码中截取得到的位数和数位均相同的号码段划分至相同的号码段集中;
计算模块,用于计算各个号码段集与所述其他证件信息的初始互信息,并将所述初始互信息大于互信息阈值的号码段集与对应的其他证件信息作为正样本,将所述初始互信息小于等于所述互信息阈值的号码段集与对应的其他证件信息作为负样本;
拟合模块,用于根据所述正样本和所述负样本拟合所述号码段的权重;
所述计算模块,还用于对所述号码段集中的号码段赋予所述权重后,再次计算所述号码段集与所述其他证件信息的互信息,并根据再次计算的互信息确定号码段与所述其他证件信息之间的关联规则。
9.如权利要求8所述的证件信息的关联规则的获取装置,其特征在于,所述获取装置还包括验证模块,用于:
验证所述正样本中的号码段集与对应的其他证件信息,将验证不通过的号码段集与对应的其他证件信息迁移至所述负样本中;
验证所述负样本中的号码段集与对应的其他证件信息,将验证不通过的号码段集与对应的其他证件信息迁移至所述正样本中。
10.如权利要求8所述的证件信息的关联规则的获取装置,其特征在于,在再次计算所述号码段集与所述其他证件信息的互信息时,所述计算模块具体用于:
从多个包含位数相同的号码段的号码段集中选取目标号码段集,所述目标号码段集为与所述其他证件信息的互信息为最大值的号码段集;
将所述目标号码段集中的号码段与其他号码段集中对应的号码段进行组合,并再次计算组合后的号码段集与所述其他证件信息的互信息。
11.如权利要求8所述的证件信息的关联规则的获取装置,其特征在于,在再次计算所述号码段集与所述其他证件信息的互信息,所述计算模块具体用于:
分别计算每个号码段集与所述其他证件信息的互信息;
按照所述互信息由大到小的顺序对所述号码段集进行排序;
选取排序靠前的若干号码段集,并将所述若干号码段集中对应的号码段进行组合;
再次计算组合后的号码段集与所述其他证件信息的互信息。
12.如权利要求8所述的证件信息的关联规则的获取装置,其特征在于,在根据再次计算的互信息确定号码段与所述其他证件信息之间的关联规则,所述计算模块具体用于:
计算所述互信息大于互信息阈值的号码段集的置信度;
根据置信度大于置信度阈值的号码段集与对应的其他证件信息确定所述关联关系。
13.如权利要求8所述的证件信息的关联规则的获取装置,其特征在于,所述计算模块还用于:
使用正则表达式表示所述关联关系。
14.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的证件信息的关联规则获取方法。
15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的证件信息的关联规则获取方法的步骤。
CN201911122395.1A 2019-11-15 2019-11-15 证件信息的关联规则获取方法及装置 Active CN110866048B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911122395.1A CN110866048B (zh) 2019-11-15 2019-11-15 证件信息的关联规则获取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911122395.1A CN110866048B (zh) 2019-11-15 2019-11-15 证件信息的关联规则获取方法及装置

Publications (2)

Publication Number Publication Date
CN110866048A true CN110866048A (zh) 2020-03-06
CN110866048B CN110866048B (zh) 2022-07-29

Family

ID=69654100

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911122395.1A Active CN110866048B (zh) 2019-11-15 2019-11-15 证件信息的关联规则获取方法及装置

Country Status (1)

Country Link
CN (1) CN110866048B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112968705A (zh) * 2021-02-03 2021-06-15 杭州数梦工场科技有限公司 一种号码分类方法、装置、电子设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106056221A (zh) * 2016-05-27 2016-10-26 大连楼兰科技股份有限公司 基于FP‑Tree序列模式挖掘和故障码分类的车辆远程诊断与备件检索的方法
CN106101464A (zh) * 2016-05-26 2016-11-09 北京小米移动软件有限公司 号码标识方法及装置
CN107682344A (zh) * 2017-10-18 2018-02-09 南京邮数通信息科技有限公司 一种基于dpi数据互联网身份识别的id图谱建立方法
US20180314853A1 (en) * 2017-04-28 2018-11-01 Splunk Inc. Identifying personally identifiable information in machine-generated data
CN110046621A (zh) * 2019-02-19 2019-07-23 阿里巴巴集团控股有限公司 证件识别方法及装置
CN110427739A (zh) * 2019-08-09 2019-11-08 泰康保险集团股份有限公司 信息验证方法及装置、电子设备和计算机可读存储介质
CN110941663A (zh) * 2019-11-15 2020-03-31 杭州数梦工场科技有限公司 证件信息的关联规则获取方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106101464A (zh) * 2016-05-26 2016-11-09 北京小米移动软件有限公司 号码标识方法及装置
CN106056221A (zh) * 2016-05-27 2016-10-26 大连楼兰科技股份有限公司 基于FP‑Tree序列模式挖掘和故障码分类的车辆远程诊断与备件检索的方法
US20180314853A1 (en) * 2017-04-28 2018-11-01 Splunk Inc. Identifying personally identifiable information in machine-generated data
CN107682344A (zh) * 2017-10-18 2018-02-09 南京邮数通信息科技有限公司 一种基于dpi数据互联网身份识别的id图谱建立方法
CN110046621A (zh) * 2019-02-19 2019-07-23 阿里巴巴集团控股有限公司 证件识别方法及装置
CN110427739A (zh) * 2019-08-09 2019-11-08 泰康保险集团股份有限公司 信息验证方法及装置、电子设备和计算机可读存储介质
CN110941663A (zh) * 2019-11-15 2020-03-31 杭州数梦工场科技有限公司 证件信息的关联规则获取方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘乐乐,田卫东: "基于属性互信息熵的量化关联规则挖掘", 《软件技术与数据库》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112968705A (zh) * 2021-02-03 2021-06-15 杭州数梦工场科技有限公司 一种号码分类方法、装置、电子设备及存储介质
CN112968705B (zh) * 2021-02-03 2022-05-31 杭州数梦工场科技有限公司 一种号码分类方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN110866048B (zh) 2022-07-29

Similar Documents

Publication Publication Date Title
CN108519981B (zh) 一种跨链智能合约合作可能性评估方法
CN107704625B (zh) 字段匹配方法和装置
CN110297879B (zh) 一种基于大数据的数据去重的方法、装置及存储介质
CN108053545B (zh) 证件验真方法和装置、服务器、存储介质
CN109783479B (zh) 一种数据标准化处理方法、装置及存储介质
CN105808709A (zh) 人脸识别快速检索方法及装置
WO2022160442A1 (zh) 答案生成方法、装置、电子设备及可读存储介质
CN106228035A (zh) 基于局部敏感哈希和非参数化贝叶斯方法的高效聚类方法
Schnell Linking surveys and administrative data
Chi et al. Privacy preserving record linkage in the presence of missing values
CN115130711A (zh) 一种数据处理方法、装置、计算机及可读存储介质
CN112507212A (zh) 智能回访方法、装置、电子设备及可读存储介质
Chen et al. A high-throughput FPGA accelerator for short-read mapping of the whole human genome
CN110866048B (zh) 证件信息的关联规则获取方法及装置
CN105912602A (zh) 一种基于实体属性的真值发现方法
CN110941663B (zh) 证件信息的关联规则获取方法及装置
CN111639077A (zh) 数据治理方法、装置、电子设备、存储介质
CN106802958A (zh) Cad数据到gis数据的转换方法及系统
CN110909212B (zh) 一种银行标识代码的匹配方法和设备
CN110928919B (zh) 证件验证方法、装置、电子设备、存储介质
CN116150185A (zh) 基于人工智能的数据标准提取方法、装置、设备及介质
CN110728585A (zh) 核保方法、装置、设备及存储介质
Zhou et al. GD-RDA: a new regularized discriminant analysis for high-dimensional data
CN109409132A (zh) 一种具有个性化隐私保护功能的负调查方法
CN112328641B (zh) 多维度数据聚合方法、装置及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant