CN110941663A - 证件信息的关联规则获取方法及装置 - Google Patents

证件信息的关联规则获取方法及装置 Download PDF

Info

Publication number
CN110941663A
CN110941663A CN201911121294.2A CN201911121294A CN110941663A CN 110941663 A CN110941663 A CN 110941663A CN 201911121294 A CN201911121294 A CN 201911121294A CN 110941663 A CN110941663 A CN 110941663A
Authority
CN
China
Prior art keywords
information
certificate
number segment
segment set
certificate information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911121294.2A
Other languages
English (en)
Other versions
CN110941663B (zh
Inventor
徐鹏飞
单军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dt Dream Technology Co Ltd
Original Assignee
Hangzhou Dt Dream Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dt Dream Technology Co Ltd filed Critical Hangzhou Dt Dream Technology Co Ltd
Priority to CN201911121294.2A priority Critical patent/CN110941663B/zh
Publication of CN110941663A publication Critical patent/CN110941663A/zh
Application granted granted Critical
Publication of CN110941663B publication Critical patent/CN110941663B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了证件信息的关联规则获取方法及装置、电子设备、存储介质。关联规则获取方法包括:获取多份证件信息,每份证件信息包括证件号码和其他证件信息;分别对每个证件号码进行号码段的截取,并将从多个证件号码中截取得到的位数和数位均相同的号码段划分至相同的号码段集中;计算各个号码段集与所述其他证件信息的互信息;根据所述互信息确定号码段与其他证件信息之间的关联规则。本发明基于互信息确定证件信息的关联规则,能够挖掘出证件号码与其他证件信息之间的潜在规则,以此建立规则库,可为证件鉴伪提供参考。

Description

证件信息的关联规则获取方法及装置
技术领域
本发明涉及数据挖掘技术领域,特别涉及证件信息的关联规则获取方法及装置、电子设备、存储介质。
背景技术
目前,证件鉴伪主要通过业务专家长期工作的实践,总结出证件信息的关联规则,进而基于结构化文本的关联规则逻辑匹配实现。然而,基于人工方式挖掘证件信息的关联规则,不仅需要大量的人力投入,且人工并不能挖掘出除经验之外的潜在规则,会导致因证件信息的关联规则挖掘不全面,影响证件鉴伪的准确性。
发明内容
本发明提供一种证件信息的关联规则获取方法及装置、电子设备、存储介质,以挖掘出证件信息之间的潜在关联规则,提高证件鉴伪的准确性。
具体地,本发明是通过如下技术方案实现的:
第一方面,提供一种证件信息的关联规则获取方法,所述关联规则获取方法包括:
获取多份证件信息,每份证件信息包括证件号码和其他证件信息;
分别对每个证件号码进行号码段的截取,并将从多个证件号码中截取得到的位数和数位均相同的号码段划分至相同的号码段集中;
分别计算每一号码段集与其他证件信息之间的互信息;
根据所述互信息确定号码段与其他证件信息之间的关联规则。
可选地,分别计算每一号码段集与其他证件信息之间的互信息,包括:
从多个包含位数相同的号码段的号码段集中选取目标号码段集,所述目标号码段集为与其他证件信息的互信息为最大值的号码段集;
将所述目标号码段集中的号码段与其他号码段集中对应的号码段进行组合,并计算组合后的号码段集与所述其他证件信息的互信息。
可选地,分别计算每一号码段集与其他证件信息之间的互信息,包括:
分别计算每个号码段集与所述其他证件信息的互信息;
按照所述互信息由大到小的顺序对所述号码段集进行排序;
选取排序靠前的若干号码段集,并将所述若干号码段集中对应的号码段进行组合;
计算组合后的号码段集与所述其他证件信息的互信息。
可选地,计算所述号码段集与其他证件信息的互信息,包括:
统计所述多份证件信息中,所述号码段集中的号码段与对应的证件信息的出现数量,根据所述出现数量确定号码段的权重;
将号码段集中的号码段赋予所述权重后,计算所述号码段集与所述其他证件信息的互信息;
或,分别计算每个号码段集与所述其他证件信息的初始互信息,并将所述初始互信息大于互信息阈值的号码段集与对应的其他证件信息作为正样本,将所述初始互信息小于等于所述互信息阈值的号码段集与对应的其他证件信息作为负样本;
根据所述正样本和所述负样本拟合所述号码段的权重;
对所述号码段集中的号码段赋予所述权重后,再次计算所述号码段集与所述其他证件信息的互信息。
可选地,根据所述互信息确定号码段与其他证件信息之间的关联规则,包括:
计算所述互信息大于互信息阈值的号码段集的置信度;
根据置信度大于置信度阈值的号码段集与对应的证件信息确定所述关联规则。
可选地,所述关联规则获取方法还包括:
使用正则表达式表示所述关联规则。
可选地,所述其他证件信息包括以下信息中的至少一项:
证件所属用户的用户信息、证件签发地、证件签发时间、证件有效期、证件签发机关、证件类型。
第二方面,提供一种证件信息的关联规则获取装置,所述关联规则获取装置包括:
获取模块,用于获取多份证件信息,每份证件信息包括证件号码和其他证件信息;
截取模块,用于分别对每个证件号码进行号码段的截取,并将从多个证件号码中截取得到的位数和数位均相同的号码段划分至相同的号码段集中;
计算模块,用于计算各个号码段集与其他证件信息的互信息;
确定模块,用于根据所述互信息确定号码段与其他证件信息之间的关联规则。
可选地,所述计算模块具体用于:
从多个包含位数相同的号码段的号码段集中选取目标号码段集,所述目标号码段集为与其他证件信息的互信息为最大值的号码段集;
将所述目标号码段集中的号码段与其他号码段集中对应的号码段进行组合,并计算组合后的号码段集与所述其他证件信息的互信息。
可选地,所述计算模块具体用于:
分别计算每个号码段集与所述其他证件信息的互信息;
按照所述互信息由大到小的顺序对所述号码段集进行排序;
选取排序靠前的若干号码段集,并将所述若干号码段集中对应的号码段进行组合;
计算组合后的号码段集与所述其他证件信息的互信息。
可选地,在计算所述号码段集与其他证件信息的互信息时,所述计算模块还用于:
统计所述多份证件信息中,所述号码段集中的号码段与对应的证件信息的出现数量,根据所述出现数量确定号码段的权重;
将号码段集中的号码段赋予所述权重后,计算所述号码段集与所述其他证件信息的互信息;
或,分别计算每个号码段集与所述其他证件信息的初始互信息,并将所述初始互信息大于互信息阈值的号码段集与对应的其他证件信息作为正样本,将所述初始互信息小于等于所述互信息阈值的号码段集与对应的其他证件信息作为负样本;
根据所述正样本和所述负样本拟合所述号码段的权重;
对所述号码段集中的号码段赋予所述权重后,再次计算所述号码段集与所述其他证件信息的互信息。
可选地,所述确定模块具体用于:
计算所述互信息大于互信息阈值的号码段集的置信度;
根据置信度大于置信度阈值的号码段集与对应的证件信息确定所述关联规则。
可选地,所述确定模块还用于:
使用正则表达式表示所述关联规则。
第三方面,提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的证件信息的关联规则获取方法。
第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的证件信息的关联规则获取方法的步骤。
本发明的实施例提供的技术方案可以包括以下有益效果:
本发明实施例中,基于互信息确定证件信息的关联规则,能够挖掘出证件号码与其他证件信息之间的潜在规则,以此建立规则库,可为证件鉴伪提供参考。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是本发明一示例性实施例示出的一种证件信息的关联规则获取方法的流程图;
图2是本发明另一示例性实施例示出的一种证件信息的关联规则获取方法的流程图;
图3是本发明另一示例性实施例示出的一种证件信息的关联规则获取方法的流程图;
图4是本发明一示例性实施例示出的一种证件信息的关联规则获取的模块示意图;
图5是本发明一示例性实施例示出的一种电子设备的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本发明可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本发明范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
图1是本发明一示例性实施例示出的一种证件信息的关联规则获取方法的流程图,该获取方法包括以下步骤:
步骤101、获取多份证件信息。
其中,每份证件信息包括证件号码和其他证件信息。其他证件信息可以是以下信息中的一项或多项组合:证件所属用户的用户信息(例如,用户性别、名族、出生日期、住址等)、证件签发地、证件签发时间、证件有效期、证件签发机关、证件类型。可以理解地,本实施例中针对每类证件建立对应的证件信息的关联规则,步骤101中获取的是同类证件的多份证件信息。
步骤102、分别对每个证件号码进行号码段的截取,并将从多个证件号码中截取得到的位数和数位均相同的号码段划分至相同的号码段集中。
步骤102中,需采用相同截取规则对每个证件号码进行截取,截取规则可以但不限于是,先对证件号码的每个数位进行截取,再分别截取相邻的2位、3位号码段。
以下表1示出的证件信息为例,对证件号码的每个数位进行截取,并将截取得到的数位相同的号码段划分至相同的号码段集中,结果为{4,3,3,3,5}、{4,1,3,3,1}、{0,0,0,1,0}、{5,3,7,6,4}、{8,9,9,5,2}、{6,5,7,6,3};对证件号码的相邻2位进行截取,并将截取得到的数位相同的号码段划分至相同的号码段集中,结果为{44,31,33,33,51}、{40,10,30,31,10}、{05,03,07,16,04}、{58,39,79,65,42}、{86,95,97,56,23};对证件号码的相邻3位进行截取,并将截取得到的数位相同的号码段划分至相同的号码段集中,结果为{440,310,330,331,510}、{405,103,307,316,104}、{058,039,079,165,042}、{586,395,797,656,423}。
表1
证件信息 证件号码 证件签发地 证件签发时间 用户性别
证件a 440586 广东省 2000年
证件b 310395 上海市 2001年
证件c 330797 浙江省 1995年
证件d 331656 浙江省 2018年
证件e 510423 重庆市 2018年
步骤103、分别计算每一号码段集与其他证件信息的互信息。
步骤103中计算互信息,也即计算步骤102获得的每个号码段集与其他证件信息之间的互信息,计算公式可以但不限于表示如下:
Figure BDA0002275537400000071
其中,I(X;Y)表示互信息;X为号码段集的向量表示;Y为一项证件信息或多项证件信息组合的向量表示;p(x,y)为(x,y)同时出现的概率;p(x)为x在向量X中出现的概率;p(y)为y在向量Y中出现的概率。
步骤104、根据互信息确定号码段与其他证件信息之间的关联规则。
重复步骤103和步骤104,使证件号码中的每个号码段依次与证件信息中的所有其他证件信息均计算过互信息,通过对证件号码与其他证件信息的全面分析,即可得到号码段与某项证件信息和/或多项证件信息组合的相关性,若计算得到的互信息值比较大,说明该号码段集中的号码段与该项证件信息或该多项证件信息组合相关性较大,则可依据互信息较大的若干号码段与对应的其他证件信息确定证件信息的关联规则。
本实施例的证件信息的关联规则获取方法适用各种类型的证件,例如身份证、驾驶证、护照等。本实施例中,基于互信息确定证件信息的关联规则,能够挖掘出各类证件的证件号码与其他证件信息之间的潜在关联规则,以此建立规则库,可为证件鉴伪提供参考。
在图1示出的关联规则获取方法的流程图的基础上,图2示出了本发明一示例性实施例的另一种证件信息的关联规则获取方法的流程图,该获取方法包括以下步骤:
步骤201、获取多份证件信息。
步骤202、分别对每个证件号码进行号码段的截取,并将从多个证件号码中截取得到的位数和数位均相同的号码段划分至相同的号码段集中。
其中,步骤201和步骤202与步骤101和步骤102的具体实现方式类似,此处不再赘诉。
步骤203-1、从多个包含位数相同的号码段的号码段集中选取目标号码段集。
其中,目标号码段集为与其他证件信息的互信息为最大值的号码段集。
步骤203-2、将目标号码段集中的号码段与其他号码段集中对应的号码段进行组合,并计算组合后的号码段集与其他证件信息的互信息。
在一个实现方式中,可重复执行步骤203-1和步骤203-2,直至证件号码中所有数位的数字均被截取并计算过互信息或者对组合后的号码段集计算互信息不再增大为止。以下还是以表1示出的证件信息为例,对重复计算互信息的具体实现过程进行说明:
从包含位数最少的号码段的号码段集开始,也即分别将以下号码段集{4,3,3,3,5}、{4,1,3,3,1}、{0,0,0,1,0}、{5,3,7,6,4}、{8,9,9,5,2}、{6,5,7,6,3}与每项证件信息(或多项证件信息组合)计算互信息,针对每项证件信息(或证件信息组合),将互信息为最大值的号码段集确定为本轮迭代的目标号码段集,假设包含位数为1的号码段的号码段集中,{4,3,3,3,5}与证件签发地的互信息为最大值,则将{4,3,3,3,5}确定为本次迭代过程中,针对证件签发地的目标号码段集,并进行下一轮迭代,选择证件号码中其他数位的数字与{4,3,3,3,5}进行组合,得到组合后的号码段集{44,31,33,33,51}、{40,30,30,30,50}、{45,33,37,36,54}、{48,39,39,35,52}、{46,35,37,36,53},分别将组合后的号码段集与证件签发地该项证件信息计算互信息;重复执行上述步骤,直至证件号码中所有数位的数字均被截取并计算过互信息,或者组合后的号码段集计算互信息不再增大为止(本次迭代的互信息最大值大于下一次迭代的互信息最大值)。步骤204中则根据本次迭代中互信息为最大值的号码段集与对应的证件信息(或多项证件信息组合)确定关联规则。本实施例中,计算出最大值后只会在最大值的基础上进行号码段的组合,例如首次出现的最大互信息的号码段集中号码段为a,那么组合后该号码段为ab,本实施例中无需计算关联性较小的号码段集与证件信息的互信息,可以提高计算的效率。
在另一个实现方式中,互信息计算时,可加入权重。例如,统计多份证件信息中,号码段集中的号码段与对应的证件信息的出现数量,并根据出现数量确定号码段的权重。还是以表1为例,号码段集{44,31,33,33,51}中的各项元素44、31、33、51与证件签发地中的各元素广东省、上海市、浙江省、重庆市的出现数量分别为1、1、2和1,可将上述出现数量作为权重,并将号码段集中的号码段赋予对应的权重后,计算号码段集与其他证件信息的互信息,互信息计算公式可以被修改为:
Figure BDA0002275537400000091
其中,n(x,y)表示(x,y)同时出现的出现数量。
在另一个实现方式中,权重可以通过拟合得到,具体的:分别计算每个号码段集与所述其他证件信息的初始互信息,并将所述初始互信息大于互信息阈值的号码段集与对应的其他证件信息作为正样本,将所述初始互信息小于等于所述互信息阈值的号码段集与对应的其他证件信息作为负样本;根据所述正样本和所述负样本拟合所述号码段的权重。对所述号码段集中的号码段赋予所述权重后,再次计算所述号码段集与所述其他证件信息的互信息。
步骤204、根据互信息确定号码段与其他证件信息之间的关联规则。
在一个实现中,步骤204具体包括:计算互信息大于互信息阈值的号码段集的置信度,并根据置信度大于置信度阈值的号码段集与对应的证件信息确定关联规则。
在另一个实现方式中,还可以使用正则表达式表示关联规则。
本实施例中,通过互信息的迭代计算,可以进一步提高关联规则挖掘的准确性。进一步地,可使用本实施例的证件信息的关联规则获取方法,对不同国家、不同类型的证件信息进行关联规则挖掘,形成统一的规则库,有助于提升对不同类型的证照鉴伪工作的效率。
图3示出了本发明一示例性实施例的另一种证件信息的关联规则获取方法的流程图,本实施例的关联规则获取方法与图2示出的关联规则获取方法基本相同,不同之处在于,本实施例中计算各个号码段集与其他证件信息的互信息的具体实现方式与图2示出的不同,参见图3,针对其他证件信息中的每项证件信息或多项证件信息组合,计算各个号码段集与其他证件信息的互信息的步骤具体包括:
步骤303-1、分别计算每个号码段集与证件信息的互信息。
步骤303-2、按照互信息由大到小的顺序对号码段集进行排序。
步骤303-3、选取排序靠前的若干号码段集,并将若干号码段集中对应的号码段进行组合。
其中,若干号码段集的数量可以根据实际需求自行选择,例如选择2和或者3个。
步骤303-4、计算组合后的号码段集与其他证件信息的互信息。
步骤304中,则根据步骤303-1和步骤303-4中计算的互信息大于互信息阈值的号码段集和对应的证件信息确定关联规则。
本实施例中,将排序靠前的若干号码段集中对应的号码段进行组合,并计算互信息,对于本身互信息值较小的号码段集不再进行组合计算互信息,从而可以提高计算的效率。
在一种实现方式中,步骤303-1和/或步骤303-4中计算互信息时,也可加入权重,具体实现方式与步骤203-2的实现方式类似,此处不再赘诉。
与前述证件信息的关联规则获取方法实施例相对应,本发明还提供了证件信息的关联规则获取装置的实施例。
图4示出了本发明一示例性实施例的一种证件信息的关联规则获取装置的模块示意图,该关联规则获取装置包括:获取模块41、截取模块42、计算模块43和确定模块44。
获取模块41用于获取多份证件信息,每份证件信息包括证件号码和其他证件信息;
截取模块42用于分别对每个证件号码进行号码段的截取,并将从多个证件号码中截取得到的位数和数位均相同的号码段划分至相同的号码段集中;
计算模块43用于计算各个号码段集与其他证件信息的互信息;
确定模块44用于根据所述互信息确定号码段与其他证件信息之间的关联规则。
可选地,所述计算模块具体用于:
从多个包含位数相同的号码段的号码段集中选取目标号码段集,所述目标号码段集为与其他证件信息中的某一项证件信息或多项证件信息组合的互信息为最大值的号码段集;
将所述目标号码段集中的号码段与其他号码段集中对应的号码段进行组合,并计算组合后的号码段集与所述某一项证件信息或多项证件信息组合的互信息。
可选地,所述计算模块具体用于:
分别计算每个号码段集与所述证件信息的互信息;
按照所述互信息由大到小的顺序对所述号码段集进行排序;
选取排序靠前的若干号码段集,并将所述若干号码段集中对应的号码段进行组合;
计算组合后的号码段集与所述证件信息的互信息。
可选地,在计算所述号码段集与其他证件信息的互信息时,所述计算模块还用于:
统计所述多份证件信息中,所述号码段集中的号码段与对应的证件信息的出现数量,根据所述出现数量确定号码段的权重;
将号码段集中的号码段赋予所述权重后,计算所述号码段集与所述其他证件信息的互信息;
或,分别计算每个号码段集与所述其他证件信息的初始互信息,并将所述初始互信息大于互信息阈值的号码段集与对应的其他证件信息作为正样本,将所述初始互信息小于等于所述互信息阈值的号码段集与对应的其他证件信息作为负样本;
根据所述正样本和所述负样本拟合所述号码段的权重;
对所述号码段集中的号码段赋予所述权重后,再次计算所述号码段集与所述其他证件信息的互信息。
可选地,所述确定模块具体用于:
计算所述互信息大于互信息阈值的号码段集的置信度;
根据置信度大于置信度阈值的号码段集与对应的证件信息确定所述关联规则。
可选地,所述确定模块还用于:
使用正则表达式表示所述关联规则。
图5为本发明实施例提供的一种电子设备的结构示意图,示出了适于用来实现本发明实施方式的示例性电子设备50的框图。图5显示的电子设备50仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,电子设备50可以以通用计算设备的形式表现,例如其可以为服务器设备。电子设备50的组件可以包括但不限于:上述至少一个处理器51、上述至少一个存储器52、连接不同系统组件(包括存储器52和处理器51)的总线53。
总线53包括数据总线、地址总线和控制总线。
存储器52可以包括易失性存储器,例如随机存取存储器(RAM)521和/或高速缓存存储器522,还可以进一步包括只读存储器(ROM)523。
存储器52还可以包括具有一组(至少一个)程序模块524的程序工具525(或实用工具),这样的程序模块524包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
处理器51通过运行存储在存储器52中的计算机程序,从而执行各种功能应用以及数据处理,例如上述任一实施例提供的方法。
电子设备50也可以与一个或多个外部设备54(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口55进行。并且,模型生成的电子设备50还可以通过网络适配器56与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器56通过总线53与模型生成的电子设备50的其它模块通信。应当明白,尽管图中未示出,可以结合模型生成的电子设备50使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的证件信息的关联规则获取方法的步骤。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (15)

1.一种证件信息的关联规则获取方法,其特征在于,所述关联规则获取方法包括:
获取多份证件信息,每份证件信息包括证件号码和其他证件信息;
分别对每个证件号码进行号码段的截取,并将从多个证件号码中截取得到的位数和数位均相同的号码段划分至相同的号码段集中;
分别计算每一号码段集与所述其他证件信息之间的互信息;
根据所述互信息确定号码段与所述其他证件信息之间的关联规则。
2.如权利要求1所述的证件信息的关联规则获取方法,其特征在于,分别计算每一号码段集与其他证件信息之间的互信息,包括:
从多个包含位数相同的号码段的号码段集中选取目标号码段集,所述目标号码段集为与所述其他证件信息的互信息为最大值的号码段集;
将所述目标号码段集中的号码段与其他号码段集中对应的号码段进行组合,并计算组合后的号码段集与所述其他证件信息的互信息。
3.如权利要求1所述的证件信息的关联规则获取方法,其特征在于,分别计算每一号码段集与其他证件信息之间的互信息,包括:
分别计算每个号码段集与所述其他证件信息的互信息;
按照所述互信息由大到小的顺序对所述号码段集进行排序;
选取排序靠前的若干号码段集,并将所述若干号码段集中对应的号码段进行组合;
计算组合后的号码段集与所述其他证件信息的互信息。
4.如权利要求1-3任一项所述的证件信息的关联规则获取方法,其特征在于,计算所述号码段集与其他证件信息的互信息,包括:
统计所述多份证件信息中,所述号码段集中的号码段与对应的证件信息的出现数量,根据所述出现数量确定号码段的权重;
将号码段集中的号码段赋予所述权重后,计算所述号码段集与所述其他证件信息的互信息;
或,分别计算每个号码段集与所述其他证件信息的初始互信息,并将所述初始互信息大于互信息阈值的号码段集与对应的其他证件信息作为正样本,将所述初始互信息小于等于所述互信息阈值的号码段集与对应的其他证件信息作为负样本;
根据所述正样本和所述负样本拟合所述号码段的权重;
对所述号码段集中的号码段赋予所述权重后,再次计算所述号码段集与所述其他证件信息的互信息。
5.如权利要求1所述的证件信息的关联规则获取方法,其特征在于,根据所述互信息确定号码段与其他证件信息之间的关联规则,包括:
计算所述互信息大于互信息阈值的号码段集的置信度;
根据置信度大于置信度阈值的号码段集与对应的其他证件信息确定所述关联规则。
6.如权利要求1所述的证件信息的关联规则获取方法,其特征在于,所述关联规则获取方法还包括:
使用正则表达式表示所述关联规则。
7.如权利要求1所述的证件信息的关联规则获取方法,其特征在于,所述其他证件信息包括以下信息中的至少一项:
证件所属用户的用户信息、证件签发地、证件签发时间、证件有效期、证件签发机关、证件类型。
8.一种证件信息的关联规则获取装置,其特征在于,所述关联规则获取装置包括:
获取模块,用于获取多份证件信息,每份证件信息包括证件号码和其他证件信息;
截取模块,用于分别对每个证件号码进行号码段的截取,并将从多个证件号码中截取得到的位数和数位均相同的号码段划分至相同的号码段集中;
计算模块,用于分别计算每一号码段集与所述其他证件信息的互信息;
确定模块,用于根据所述互信息确定号码段与所述其他证件信息之间的关联规则。
9.如权利要求8所述的证件信息的关联规则获取装置,其特征在于,所述计算模块具体用于:
从多个包含位数相同的号码段的号码段集中选取目标号码段集,所述目标号码段集为与所述其他证件信息的互信息为最大值的号码段集;
将所述目标号码段集中的号码段与其他号码段集中对应的号码段进行组合,并计算组合后的号码段集与所述其他互信息的互信息。
10.如权利要求8所述的证件信息的关联规则获取装置,其特征在于,所述计算模块具体用于:
分别计算每个号码段集与所述证件信息的互信息;
按照所述互信息由大到小的顺序对所述号码段集进行排序;
选取排序靠前的若干号码段集,并将所述若干号码段集中对应的号码段进行组合;
计算组合后的号码段集与所述其他证件信息的互信息。
11.如权利要求8-10任一项所述的证件信息的关联规则获取装置,其特征在于,在计算所述号码段集与其他证件信息的互信息时,所述计算模块还用于:
统计所述多份证件信息中,所述号码段集中的号码段与对应的证件信息的出现数量,根据所述出现数量确定号码段的权重;
将号码段集中的号码段赋予所述权重后,计算所述号码段集与所述其他证件信息的互信息;
或,分别计算每个号码段集与所述其他证件信息的初始互信息,并将所述初始互信息大于互信息阈值的号码段集与对应的其他证件信息作为正样本,将所述初始互信息小于等于所述互信息阈值的号码段集与对应的其他证件信息作为负样本;
根据所述正样本和所述负样本拟合所述号码段的权重;
对所述号码段集中的号码段赋予所述权重后,再次计算所述号码段集与所述其他证件信息的互信息。
12.如权利要求8所述的证件信息的关联规则获取装置,其特征在于,所述确定模块具体用于:
计算所述互信息大于互信息阈值的号码段集的置信度;
根据置信度大于置信度阈值的号码段集与对应的其他证件信息确定所述关联规则。
13.如权利要求12所述的证件信息的关联规则获取装置,其特征在于,所述确定模块还用于:
使用正则表达式表示所述关联规则。
14.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的证件信息的关联规则获取方法。
15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的证件信息的关联规则获取方法的步骤。
CN201911121294.2A 2019-11-15 2019-11-15 证件信息的关联规则获取方法及装置 Active CN110941663B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911121294.2A CN110941663B (zh) 2019-11-15 2019-11-15 证件信息的关联规则获取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911121294.2A CN110941663B (zh) 2019-11-15 2019-11-15 证件信息的关联规则获取方法及装置

Publications (2)

Publication Number Publication Date
CN110941663A true CN110941663A (zh) 2020-03-31
CN110941663B CN110941663B (zh) 2022-12-23

Family

ID=69907781

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911121294.2A Active CN110941663B (zh) 2019-11-15 2019-11-15 证件信息的关联规则获取方法及装置

Country Status (1)

Country Link
CN (1) CN110941663B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110866048A (zh) * 2019-11-15 2020-03-06 杭州数梦工场科技有限公司 证件信息的关联规则获取方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110282856A1 (en) * 2010-05-14 2011-11-17 Microsoft Corporation Identifying entity synonyms
CN110347564A (zh) * 2019-05-24 2019-10-18 平安普惠企业管理有限公司 数据生成方法及装置、电子设备、存储介质
CN110427739A (zh) * 2019-08-09 2019-11-08 泰康保险集团股份有限公司 信息验证方法及装置、电子设备和计算机可读存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110282856A1 (en) * 2010-05-14 2011-11-17 Microsoft Corporation Identifying entity synonyms
CN110347564A (zh) * 2019-05-24 2019-10-18 平安普惠企业管理有限公司 数据生成方法及装置、电子设备、存储介质
CN110427739A (zh) * 2019-08-09 2019-11-08 泰康保险集团股份有限公司 信息验证方法及装置、电子设备和计算机可读存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
屈怀忠等: "公民身份号码纠错浅谈", 《警察技术》 *
蓝孙科: "巧用规则深挖证件号码中的审计疑点", 《中国审计》 *
韩雪涛: "身份证号码中的数学", 《初中生学习·博闻》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110866048A (zh) * 2019-11-15 2020-03-06 杭州数梦工场科技有限公司 证件信息的关联规则获取方法及装置

Also Published As

Publication number Publication date
CN110941663B (zh) 2022-12-23

Similar Documents

Publication Publication Date Title
Dhanaraj et al. Random forest bagging and x-means clustered antipattern detection from sql query log for accessing secure mobile data
CN106021541B (zh) 区分准标识符属性的二次k‑匿名隐私保护算法
CN108519981B (zh) 一种跨链智能合约合作可能性评估方法
Kulis et al. Fast similarity search for learned metrics
CN112528025A (zh) 基于密度的文本聚类方法、装置、设备及存储介质
CN110297879B (zh) 一种基于大数据的数据去重的方法、装置及存储介质
Ayadi et al. BicFinder: a biclustering algorithm for microarray data analysis
Tracy et al. RESCUE: imputing dropout events in single-cell RNA-sequencing data
CN109783479B (zh) 一种数据标准化处理方法、装置及存储介质
Liao et al. A new unsupervised binning approach for metagenomic sequences based on n-grams and automatic feature weighting
CN105138647A (zh) 一种基于Simhash算法的旅游网络社区划分方法
US9032491B2 (en) Multi-factor authentication enrollment optimization method and apparatus
CN106228035A (zh) 基于局部敏感哈希和非参数化贝叶斯方法的高效聚类方法
Schnell Linking surveys and administrative data
CN110941663B (zh) 证件信息的关联规则获取方法及装置
Chi et al. Privacy preserving record linkage in the presence of missing values
CN111639077A (zh) 数据治理方法、装置、电子设备、存储介质
CN110866048B (zh) 证件信息的关联规则获取方法及装置
Yoo et al. Probabilistic matrix tri-factorization
CN111723206B (zh) 文本分类方法、装置、计算机设备和存储介质
CN105912602A (zh) 一种基于实体属性的真值发现方法
CN110909212B (zh) 一种银行标识代码的匹配方法和设备
CN110928919B (zh) 证件验证方法、装置、电子设备、存储介质
CN109144999B (zh) 一种数据定位方法、装置及存储介质、程序产品
CN109409132A (zh) 一种具有个性化隐私保护功能的负调查方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant