CN112270195A - 确定企业关联关系、重名对象判定 - Google Patents
确定企业关联关系、重名对象判定 Download PDFInfo
- Publication number
- CN112270195A CN112270195A CN202011336331.4A CN202011336331A CN112270195A CN 112270195 A CN112270195 A CN 112270195A CN 202011336331 A CN202011336331 A CN 202011336331A CN 112270195 A CN112270195 A CN 112270195A
- Authority
- CN
- China
- Prior art keywords
- enterprise
- relation
- relationship
- business
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims abstract description 130
- 238000012549 training Methods 0.000 claims description 33
- 238000013528 artificial neural network Methods 0.000 claims description 25
- 239000000126 substance Substances 0.000 claims description 12
- 230000008520 organization Effects 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 description 5
- 238000007418 data mining Methods 0.000 description 4
- 238000004445 quantitative analysis Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 239000013535 sea water Substances 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000000875 corresponding effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本申请涉及确定企业关联关系的方法、重名对象判定,确定企业关联关系的方法,包括:根据企业和所直接关联企业的属性确定该企业与所直接关联企业的关于可信关系的权重;根据所述属性确定该企业与所直接关联企业的关于疑似关系的权重;根据所述可信关系的权重与所述疑似关系的权重确定标定企业与目标企业关于所述可信关系、所述疑似关系在预设维度内的每个维度上的维度关联关系,并且根据所述维度关联关系确定关于所述可信关系、所述疑似关系的综合维度关联关系;建立关于企业的所述可信关系和所述疑似关系的图数据库,利用连通子图算法确定所述标定企业与所述目标企业的深度关联关系,其中所述深度关联关系与所属子图内的成员数量相关;以及利用分类器基于所述综合维度关联关系与所述深度关联关系确定所述标定企业与所述目标企业的企业关联关系。该方法可以确定企业之间的关联关系。
Description
技术领域
本申请涉及数据分析领域,具体而言,涉及确定企业关联关系的方法、训练分类器的方法、判断两个企业的重名对象是否相同的方法以及计算机可读存储介质。
背景技术
企业图谱可用于分析企业信息和企业关联关系,并可进一步用于对企业风险及其发展潜力进行评估。对企业关联关系的精确刻画可以直观地展示出企业之间的关联谱系,从而有助于实现对企业风险传递、企业谱系的识别,有助于对资金流向监控等风险进行评估,有助于挖掘人力难以识别的风险子图分布模式,有助于分析风险在资本市场关系网络中的传导方式。
企业关联关系主要包括企业与企业、企业与人的关系链路。企业与企业关系链路可分为控股关系、分支机构关系等确定性关系和通过数据挖掘建立的企业疑似关系。企业与人关系基本包括投资、法人任职、董监高任职等关系。
此外,上述关系涉及的数据源均来自工商公示信息,由于涉及个人隐私,公示信息并未展示企业全部信息。例如,企业任职人员信息中仅包含姓名,并未包含唯一识别身份ID或其它可唯一识别该自然人身份的代码等。然而,不同企业的任职人员会存在重名现象,如果仅通过相同姓名便为两企业建立关系可能会导致错误的企业风险和潜力分析结果。
发明内容
本申请的实施例提供了一种确定企业关联关系的方法、训练分类器的方法、判断两个企业的重名对象是否相同的方法以及计算机可读存储介质,以用于确定企业之间的关联关系(是否关联),并且可以进一步根据关联关系判断重名的人员是否为同一个人。
根据本申请的一方面,提供一种确定企业关联关系的方法,包括:根据企业和所直接关联企业的属性确定该企业与所直接关联企业的关于可信关系的权重;根据所述属性确定该企业与所直接关联企业的关于疑似关系的权重;根据所述可信关系的权重与所述疑似关系的权重确定标定企业与目标企业关于所述可信关系、所述疑似关系在预设维度内的每个维度上的维度关联关系,并且根据所述维度关联关系确定关于所述可信关系、所述疑似关系的综合维度关联关系;建立关于企业的所述可信关系和所述疑似关系的图数据库,利用连通子图算法确定所述标定企业与所述目标企业的深度关联关系,其中所述深度关联关系与所属子图内的成员数量相关;以及利用分类器基于所述综合维度关联关系与所述深度关联关系确定所述标定企业与所述目标企业的企业关联关系。
在本申请的一些实施例中,可选地,所述可信关系包括控股关系,所述属性包括该企业的对外投资企业数量和所直接关联企业的股东数量。
在本申请的一些实施例中,可选地,通过下式计算所述控股关系的权重:
在本申请的一些实施例中,可选地,所述可信关系包括机构关系,所述属性包括该企业分支机构的数量。
在本申请的一些实施例中,可选地,通过下式计算所述机构关系的权重:
在本申请的一些实施例中,可选地,所述疑似关系包括电话关系,所述属性包括电话号码。
在本申请的一些实施例中,可选地,通过下式计算所述电话关系的权重:
其中表示所述电话关系的权重,表示该企业与所直接关联企业的相同电话号码的数量,表示第i个相同电话号码关联的企业的数量;或者表示该企业与所直接关联企业的前N位相同电话号码的数量,表示第i个前N位相同电话号码关联的企业的数量,N为小于电话号码位数的正整数。
在本申请的一些实施例中,可选地,所述疑似关系包括邮箱关系,所述属性包括邮箱地址。
在本申请的一些实施例中,可选地,通过下式计算所述邮箱关系的权重:
其中,表示所述邮箱关系的权重,表示该企业与所直接关联企业的相同邮箱地址的数量,表示第i个相同邮箱地址关联的企业的数量;或者表示该企业与所直接关联企业的后缀相同的邮箱地址的数量,表示后缀相同的邮箱地址关联的企业的数量。
在本申请的一些实施例中,可选地,所述疑似关系包括网址关系,所述属性包括网址。
在本申请的一些实施例中,可选地,通过下式计算所述网址关系的权重:
在本申请的一些实施例中,可选地,所述分类器为梯度提升树或者神经网络。
在本申请的一些实施例中,可选地,若所述企业关联关系大于预定值则判定两个企业关联,反之不关联。
根据本申请的另一方面,提供一种训练分类器的方法,该方法基于已知其企业关联关系的标定企业与目标企业,包括:根据企业和所直接关联企业的属性确定该企业与所直接关联企业的关于可信关系的权重;根据所述属性确定该企业与所直接关联企业的关于疑似关系的权重;根据所述可信关系的权重与所述疑似关系的权重确定标定企业与目标企业关于所述可信关系、所述疑似关系在预设维度内的每个维度上的维度关联关系,并且根据所述维度关联关系确定关于所述可信关系、所述疑似关系的综合维度关联关系;建立关于企业的所述可信关系和所述疑似关系的图数据库,利用连通子图算法确定所述标定企业与所述目标企业的深度关联关系,其中所述深度关联关系与所属子图内的成员数量相关;以及以所述综合维度关联关系、所述深度关联关系为输入,以所述标定企业与所述目标企业的企业关联关系为输出训练所述分类器。
根据本申请的另一方面,提供一种判断两个企业的重名对象是否相同的方法,包括:根据上文所述的任意一种方法确定标定企业与目标企业的企业关联关系;以及若判断所述标定企业与所述目标企业关联则重名对象相同,否则不同。
根据本申请的另一方面,提供一种判断标定企业与目标企业的重名对象是否相同的方法,包括:根据企业和所直接关联企业的属性确定该企业与所直接关联企业的关于可信关系的权重;根据所述属性确定该企业与所直接关联企业的关于疑似关系的权重;根据所述可信关系的权重与所述疑似关系的权重确定标定企业与目标企业关于所述可信关系、所述疑似关系在预设维度内的每个维度上的维度关联关系,并且根据所述维度关联关系确定关于所述可信关系、所述疑似关系的综合维度关联关系;建立关于企业的所述可信关系和所述疑似关系的图数据库,利用连通子图算法确定所述标定企业与所述目标企业的深度关联关系,其中所述深度关联关系与所属子图内的成员数量相关;以及利用分类器基于所述综合维度关联关系与所述深度关联关系确定重名对象是否相同。
根据本申请的另一方面,提供一种训练分类器的方法,该方法基于已知其重名对象是否相同的标定企业与目标企业的,包括:根据企业和所直接关联企业的属性确定该企业与所直接关联企业的关于可信关系的权重;根据所述属性确定该企业与所直接关联企业的关于疑似关系的权重;根据所述可信关系的权重与所述疑似关系的权重确定标定企业与目标企业关于所述可信关系、所述疑似关系在预设维度内的每个维度上的维度关联关系,并且根据所述维度关联关系确定关于所述可信关系、所述疑似关系的综合维度关联关系;建立关于企业的所述可信关系和所述疑似关系的图数据库,利用连通子图算法确定所述标定企业与所述目标企业的深度关联关系,其中所述深度关联关系与所属子图内的成员数量相关;以及以所述综合维度关联关系、所述深度关联关系为输入,以重名对象是否相同为输出训练所述分类器。
根据本申请的另一方面,提供一种判断标定企业与目标企业的重名对象是否相同的方法,包括:根据企业和所直接关联企业的属性确定该企业与所直接关联企业的关于可信关系的权重;根据所述属性确定该企业与所直接关联企业的关于疑似关系的权重;根据所述可信关系的权重与所述疑似关系的权重确定标定企业与目标企业关于所述可信关系、所述疑似关系在预设维度内的每个维度上的维度关联关系,并且根据所述维度关联关系确定关于所述可信关系、所述疑似关系的综合维度关联关系;建立关于企业的所述可信关系和所述疑似关系的图数据库,利用连通子图算法确定所述标定企业与所述目标企业的深度关联关系,其中所述深度关联关系与所属子图内的成员数量相关;接收所述标定企业与所述目标企业的一个或多个相似性参数以及利用分类器基于所述综合维度关联关系、所述深度关联关系以及所述相似性参数确定重名对象是否相同。
根据本申请的另一方面,提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,其特征在于,当所述指令由处理器执行时,使得所述处理器执行如上文所述的任意一种方法。
附图说明
从结合附图的以下详细说明中,将会使本申请的上述和其他目的及优点更加完整清楚,其中,相同或相似的要素采用相同的标号表示。
图1示出了根据本申请的一个实施例的确定企业属性相似性的方法。
图2示出了根据本申请的一个实施例的判断两个企业的重名对象是否相同的方法。
图3示出了根据本申请的一个实施例的判断两个企业的重名对象是否相同的方法。
图4示出了根据本申请的一个实施例的判断两个企业的重名对象是否相同的方法。
图5示出了根据本申请的一个实施例的训练分类器的方法。
图6示出了根据本申请的一个实施例的训练分类器的方法。
图7示出了根据本申请的一个实施例的分类器。
图8示出了根据本申请的一个实施例的企业间的关系的示意图。
图9示出了根据本申请的一个实施例的多个个维度的关联关系的示意图。
图10示出了根据本申请的一个实施例的连通子图分组的示意图。
图11示出了根据本申请的一个实施例的确定企业关联关系的方法。
图12示出了根据本申请的一个实施例的判断两个企业的重名对象是否相同的方法。
图13示出了根据本申请的一个实施例的判断两个企业的重名对象是否相同的方法。
图14示出了根据本申请的一个实施例的判断两个企业的重名对象是否相同的方法。
图15示出了根据本申请的一个实施例的训练分类器的方法。
图16示出了根据本申请的一个实施例的训练分类器的方法。
图17示出了根据本申请的一个实施例的分类器。
图18示出了根据本申请的一个实施例的分类器。
具体实施方式
出于简洁和说明性目的,本文主要参考其示范实施例来描述本申请的原理。但是,本领域技术人员将容易地认识到相同的原理可等效地应用于所有类型的确定企业关联关系的方法、训练分类器的方法、判断两个企业的重名对象是否相同的方法以及计算机可读存储介质,并且可以在其中实施这些相同或相似的原理,任何此类变化不背离本申请的真实精神和范围。
根据本申请的一方面,提供一种确定企业属性相似性的方法。如图1所示,确定企业属性相似性的方法10包括如下步骤。确定企业属性相似性的方法10在步骤S11中根据两个企业的名称确定名称相似性,在步骤S12中根据两个企业的地址确定地址相似性,在步骤S13中根据两个企业的注册资金确定注册资金相似性,在步骤S14中根据两个企业关联的人名确定人名相似性。确定企业属性相似性的方法10在步骤S15中利用分类器根据名称相似性、地址相似性、注册资金相似性、人名相似性来确定企业属性相似性。以上步骤S11-S14的顺序可以调整,该实施例仅示出了一种可行的情况,本发明的保护范围以权利要求的记载为准。
确定企业属性相似性的方法10在步骤S11中根据两个企业的名称确定名称相似性。通常来说,关联企业的名称有很大概率存在相似性。子公司可能继承母公司的名称并扩展,各分公司的名称也可能存在相似性。例如,某母公司的名称为“中国XYZ投资有限公司”,其位于上海市的分公司名称为“中国XYZ投资有限公司上海分公司”,位于北京市的分公司名称为“中国XYZ投资有限公司北京分公司”。但是,从名称来说可以判定“中国XYZ投资有限公司”与“中国XYZ投资有限公司上海分公司”、“中国XYZ投资有限公司北京分公司”存在一定的关联性,这种关联性在本申请的示例中可以量化为名称相似性(例如,根据名称中的相同字符数量来确定)。
在本申请的一些实施例中,可以根据两个企业的名称中相同字符的数量、相同字符在较短名称中的位置以及名称的长度确定名称相似性。例如,在其他条件相同的情况下,两个企业的名称的相同的字符数量越多其名称相似性越高。在其他条件相同的情况下,两个企业的名称的相同的字符越靠前其名称相似性越高。可见,名称相似性的计算考虑了相同的字符的排列顺序,因而其准确性更高。
在本申请的一些实施例中,通过下式计算名称相似性:
其中,表示名称相似性,表示相同字符的数量,表示相同字符在较短名称中的位置编码,和表示企业名称的长度,min是求解较小值的函数。例如,“中国XYZ投资有限公司”与“中国XYZ投资有限公司上海分公司”中相同字符的数量为11个(k=11),“中国XYZ投资有限公司”的名称长度为11(length1=11),中国XYZ投资有限公司上海分公司”的名称长度为16(length2=16),具体情况如下表所示(加粗部分表示相同字符):
中 | 国 | X | Y | Z | 投 | 资 | 有 | 限 | 公 | 司 | |||||
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | |||||
中 | 国 | X | Y | Z | 投 | 资 | 有 | 限 | 公 | 司 | 上 | 海 | 分 | 公 | 司 |
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 |
“中国XYZ投资有限公司北京分公司”与“中国XYZ投资有限公司上海分公司”中相同字符的数量为14个(k=14),“中国XYZ投资有限公司”的名称长度为11(length1=16),中国XYZ投资有限公司上海分公司”的名称长度为16(length2=16),具体情况如下表所示(加粗部分表示相同字符):
中 | 国 | X | Y | Z | 投 | 资 | 有 | 限 | 公 | 司 | 北 | 京 | 分 | 公 | 司 |
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 |
中 | 国 | X | Y | Z | 投 | 资 | 有 | 限 | 公 | 司 | 上 | 海 | 分 | 公 | 司 |
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 |
类似地,“中国XYZ投资有限公司北京分公司”与“中国XYZ投资有限公司上海分公司”的名称相似性为=14×(1/1+1/2+1/3+…+1/11+1/14+1/15+1/16)÷min(16, 16)≈14×3.38÷16≈2.96。
确定企业属性相似性的方法10在步骤S12中根据两个企业的地址确定地址相似性。在本申请的一些实施例中,根据地址中的行政区划层级的归属确定地址相似性。一般而言,相似性高的关联企业有相当可能注册在相同的行政单位中。而注册在完全不同地区的两个企业可能相似性就会较弱。为了进一步区分相似程度,还可以具体根据注册地址的行政层级来确定地址相似性,例如,同属于越小的行政区域(例如,街道)的两个企业的地址相似性可能越高。在本申请的一些实施例中,若两个企业的最高行政层级不相同,则直接将二者的地址相似性置为0。
在本申请的一些实施例中,可以进一步通过下式计算地址相似性:
其中,表示地址相似性,、和为大于0的系数。以及若地址同省(或省级行政单位)则x为1,否则为0;若地址同市(或市级行政单位)则y为1,否则为0;若地址同区(或区级行政单位)则z为1,否则为0。对于直辖市而言,x、y、z的取值由地址中的市、区、街道确定,并且此处的市、区、街道对应于以上的省、市、区。
例如“中国XYZ投资有限公司”的注册地址为北京市朝阳区朝阳门外街道,“中国XYZ投资有限公司北京分公司”的注册地址为北京市朝阳区望京街道,那么二者的地址相似性为=1÷(A+B)。在本申请的一些实施例中,<且,例如A=1、B=2、C=3,以此可以体现对不同层级的区分,层级越低的行政单位相同,地址相似性的值将越小。若A取值为1,B的取值为2,C的取值为3,“中国XYZ投资有限公司”与“中国XYZ投资有限公司北京分公司”的地址相似性为=1÷3≈0.33。当两个企业的地址相似程度越高时,其地址相似性的值越小(但总是大于0)。
确定企业属性相似性的方法10在步骤S13中根据两个企业的注册资金确定注册资金相似性。需要说明的是,在计算注册资金相似性前可以将二者的注册资金统一以“万”计量。例如,若注册资金为4亿则计为40000万。在本申请的一些实施例中,可以进一步通过下式计算注册资金相似性:
其中,表示注册资金相似性,r1、r2分别表示两个企业的注册资金。若注册资金的货币单位(例如,可以为人民币、美元、欧元、日币等)相同则m为1,否则m为-1。在计算时,可以按照实际汇率或者拟定汇率将各个企业的注册资金都统一为单一货币(例如,人民币)计量。
一般而言,以同样的货币出资(例如,都以美元出资)的,两个企业的相似程度可能更高。此外,若两个企业的注册资金越接近,其相似程度也可能更高。
确定企业属性相似性的方法10在步骤S14中根据两个企业关联的人名确定人名相似性。在本申请的一些实施例中,根据关联的人名中重名对象的数量以及与重名对象所关联的全部企业数量确定人名相似性。例如,企业A与企业B中共有以下重名对象:张三、李四、王五。而“张三”这个名字关联的企业包括:企业A、企业B和企业C(3家);“李四”这个名字关联的企业包括:企业A、企业B、企业D和企业E(4家);“王五”这个名字关联的企业包括:企业A、企业B、企业F、企业G和企业H(5家)。一方面,若两个企业的重复人名(例如,董监高、股东等的人名)越多,其人名相似性越高。另一方面,若这些重复的人名关联的其他企业越少,那么说明这些重复的人名与这两个企业的关联程度很高,因而这两个企业的人名相似性也会越高。
在本申请的一些实施例中,通过下式计算人名相似性:
在本申请的一些实施例中,若两个企业中任意一者缺少名称、地址、注册资金、关联的人名的信息,则对应的名称相似性、地址相似性、注册资金相似性、人名相似性可以置为0、其他预定值或者指示值以区分可以通过以上方法正常计算出来的名称相似性、地址相似性、注册资金相似性、人名相似性。
确定企业属性相似性的方法10在步骤S15中利用分类器,以上文确定的名称相似性、地址相似性、注册资金相似性、人名相似性作为分类器的输入,综合确定企业属性相似性。在此,可以综合根据企业的名称、地址、注册资金、人名等信息来确定两个企业的相似性。这些企业信息可以从工商登记信息中查询得知,本发明的示例对其进行加工以便于定量分析各个信息的相似性。在本申请的一些实施例中,分类器为梯度提升树或者神经网络,本申请在此不限制梯度提升树或者神经网络的具体构造,以其能够以上述定量信息(名称相似性、地址相似性、注册资金相似性、人名相似性)作为输入可以定量地推算企业属性相似性即可。
在本申请的一些实施例中,梯度提升树或者神经网络的定量输出结果(企业属性相似性)可以为0/1,其中,0表示两个企业不相似,1表示两个企业相似。如图7所示,图中示出的神经网络用于定量输出结果。图中神经网络的中间层结构是示意性质的,仅为方便说明本发明的原理。其中神经网络的输入A、B、C、D分别对应于名称相似性、地址相似性、注册资金相似性、人名相似性,输出W、X则表示企业属性相似性的判断结果。例如,若W产生输出,则两个企业相似;若X产生输出,则两个企业不相似。
在本申请的一些实施例中,企业属性相似性为概率值,若企业属性相似性大于预定值则判定两个企业相似,反之不相似。
根据本申请的另一方面,提供一种训练分类器的方法,经过训练的分类器可以用于确定上文的企业属性相似性。如图5所示,该方法基于已知其企业属性相似性的两个企业,训练分类器的方法50包括以下步骤。在步骤S11中根据两个企业的名称确定名称相似性,在步骤S12中根据两个企业的地址确定地址相似性,在步骤S13中根据两个企业的注册资金确定注册资金相似性,在步骤S14中根据两个企业关联的人名确定人名相似性。训练分类器的方法50在步骤S51中以名称相似性、地址相似性、注册资金相似性、人名相似性为分类器的输入,以已知的企业属性相似性为输出训练分类器。以上训练分类器的方法50中的步骤S11-S14可以按照图1中的相同标号的步骤来具体实现,上文关于步骤S11-S14的具体描述也一并引用于此。
根据本申请的另一方面,提供一种判断两个企业的重名对象是否相同的方法。如图2所示,判断两个企业的重名对象是否相同的方法20包括如下步骤。首先,根据上文中任意一种确定企业属性相似性的方法(例如,确定企业属性相似性的方法10)确定企业属性相似性,其次,在步骤S21中,若判断两个企业相似则重名对象相同,否则不同。由此,可以根据企业属性相似性来判断企业中的重名对象是不是同一个人。继续上面的示例,企业A与企业B中共有以下重名对象:张三、李四、王五,若企业A与企业B的企业属性相似性表明企业A与企业B相似,则确定企业A中的张三、李四、王五与企业B中重名的张三、李四、王五分别是相同的。若企业A与企业B的企业属性相似性表明企业A与企业B不相似,则确定企业A中的张三、李四、王五与企业B中重名的张三、李四、王五是不同的。
根据本申请的另一方面,提供一种判断两个企业的重名对象是否相同的方法。如图3所示,判断两个企业的重名对象是否相同的方法30包括如下步骤。该方法在步骤S11中根据两个企业的名称确定名称相似性,在步骤S12中根据两个企业的地址确定地址相似性,在步骤S13中根据两个企业的注册资金确定注册资金相似性,在步骤S14中根据两个企业关联的人名确定人名相似性。判断两个企业的重名对象是否相同的方法30在步骤S31中利用分类器根据名称相似性、地址相似性、注册资金相似性、人名相似性来确定重名对象是否相同。
判断两个企业的重名对象是否相同的方法30在步骤S31中利用分类器,以上文确定的名称相似性、地址相似性、注册资金相似性、人名相似性作为分类器的输入,综合判断两个企业的重名对象是否相同。在此,可以综合根据企业的名称、地址、注册资金、人名等信息来确定重名对象是否相同。这些企业信息可以从工商登记信息中查询得知,本发明的示例对其进行加工以便于定量分析各个信息的相似性。在本申请的一些实施例中,分类器为梯度提升树或者神经网络,本申请在此不限制梯度提升树或者神经网络的具体构造,以其能够以上述定量信息(名称相似性、地址相似性、注册资金相似性、人名相似性)作为输入可以定量地重名对象是否相同。
在本申请的一些实施例中,梯度提升树或者神经网络的定量输出结果(重名对象是否相同)可以为0/1,其中,0表示重名对象不相同,1表示重名对象相同。在本申请的一些实施例中,梯度提升树或者神经网络的定量输出结果可以为概率值,若输出值大于预定值则判定重名对象相同,反之不相同。
以上判断两个企业的重名对象是否相同的方法30中的步骤S11-S14可以按照图1中的相同标号的步骤来具体实现,上文关于步骤S11-S14的具体描述也一并引用于此。区别于上文中的判断两个企业的重名对象是否相同的方法20,方法30不需要“确定企业属性相似性”这个中间过程,而是直接输出关于重名对象是否相同的结果。
根据本申请的另一方面,提供一种训练分类器的方法,经过训练的分类器可以用于判断两个企业的重名对象是否相同。如图6所示,该方法基于已知其重名对象是否相同的两个企业,训练分类器的方法60包括以下步骤。在步骤S11中根据两个企业的名称确定名称相似性,在步骤S12中根据两个企业的地址确定地址相似性,在步骤S13中根据两个企业的注册资金确定注册资金相似性,在步骤S14中根据两个企业关联的人名确定人名相似性。训练分类器的方法60在步骤S61中以名称相似性、地址相似性、注册资金相似性、人名相似性为分类器的输入,以已知的重名对象是否相同为输出训练分类器。以上训练分类器的方法60的步骤S11-S14可以按照图1中的相同标号的步骤来具体实现,上文关于步骤S11-S14的具体描述也一并引用于此。
根据本申请的另一方面,提供一种判断两个企业的重名对象是否相同的方法。如图4所示,方法40包括如下步骤。在步骤S11中按照根据两个企业的名称确定名称相似性,在步骤S12中根据两个企业的地址确定地址相似性,在步骤S13中根据两个企业的注册资金确定注册资金相似性,在步骤S14中根据两个企业关联的人名确定人名相似性。以上方法40的步骤S11-S14可以按照图1中的相同标号的步骤来具体实现,上文关于步骤S11-S14的具体描述也一并引用于此。
方法40在步骤S41中接收两个企业一个或多个关联度参数(例如,综合维度关联关系、深度关联关系),企业关联度参数是指能衡量企业之间的关联紧密程度的定量数值,可以由两个企业之间的控股关系、机构关系、电话关系、邮箱关系、网址关系等来定量确定,这将在下文中具体描述。
方法40在步骤S42中利用分类器,以上文确定的名称相似性、地址相似性、注册资金相似性、人名相似性以及关联度参数作为分类器的输入,综合确定重名对象是否相同。由此,相比于确定企业属性相似性的方法10,方法40中引入了额外的两个企业间的关联度参数,因而理论上而言判断的准确性也会有所上升。
根据本申请的一方面,提供一种确定企业关联关系的方法。如图11所示,确定企业关联关系的方法110包括如下步骤。确定企业关联关系的方法110在步骤S1101中根据企业和所直接关联企业的属性确定该企业与所直接关联企业的关于可信关系的权重。在步骤S1102中根据属性确定该企业与所直接关联企业的关于疑似关系的权重。在步骤S1103中根据可信关系的权重与疑似关系的权重确定标定企业与目标企业关于可信关系、疑似关系在预设维度内的每个维度上的维度关联关系,并且根据维度关联关系确定关于可信关系、疑似关系的综合维度关联关系。在步骤S1104中建立关于企业的可信关系和疑似关系的图数据库,利用连通子图算法确定标定企业与目标企业的深度关联关系,其中深度关联关系与所属子图内的成员数量相关。确定企业关联关系的方法110在步骤S1105中利用分类器基于综合维度关联关系与深度关联关系确定标定企业与目标企业的企业关联关系。
确定企业关联关系的方法110在步骤S1101中根据企业和所直接关联企业的属性确定该企业与所直接关联企业的关于可信关系的权重。本发明中的可信关系是指工商登记等官方途径公布的信息,这种信息一般而言是可靠的,故而对其处理方式也有别于下文的“疑似关系”。一般而言,可信关系可以不止一种,因而在步骤S1101中将确定多种可信关系的权重。
步骤S1101中是针对企业与其所直接关联的企业的属性来确定可信关系的权重的,这里的“企业”是泛指的企业,为了确定下文描述的标定企业与目标企业,需要针对相当大规模的“企业”来确定可信关系的权重。此处的规模是指从经验和理论上能够使得步骤S1101中确定的可信关系的权重可以足够用于确定标定企业与目标企业在预设维度内的每个维度上的关联关系。在一些示例中,可以对已知的所有企业执行步骤S1101的操作。
步骤S1101中属性是与可信关系对应的,例如,要确定控股关系(可信关系),则至少需要知道企业的股权结构(属性)。
步骤S1101中要确定的是企业与所直接关联企业的关于可信关系的权重,而该企业与间接关联的企业的关于可信关系的权重可以通过该企业与所直接关联企业的关于可信关系的权重推导得出。本发明中的“直接关联”是指作为节点的“企业”与“关联的企业”之间存在一条直接相连的边(关系)。例如,图8中甲企业与乙企业即为直接关联的。
在本申请的一些实施例中,如图8所示,可信关系(实线所示)包括控股关系。相应地,属性至少包括了该企业的对外投资企业数量和所直接关联企业的股东数量。一般而言,在其他变量保持不变的情况下,若该企业的对外投资企业数量越多,该企业与其直接关联企业的关于控股关系的权重将越低,反之则越高。若直接关联企业的股东数量越多,该企业与其直接关联企业的关于控股关系的权重将越低,反之则越高。
在本申请的一些实施例中,例如可以通过下式计算控股关系的权重:
其中表示控股关系的权重,表示该企业的对外投资企业数量,表示所直接关联企业的股东数量。举例来说,如果甲企业共对外投资了10家企业(其中之一为乙企业),乙企业包括10个股东(其中之一为甲企业),那么甲企业与乙企业的关于控股关系的权重=1÷(10+10)=1/20。
如果乙企业没有投资甲企业,那么从乙企业来看,二者不直接关联。如果乙企业一共对外投资了10家企业(其中之一为甲企业),甲企业共包括8个股东(其中之一为乙企业),那么乙企业与甲企业的关于控股关系的权重=1÷(10+8)=1/18。通过以上可以看出,即便甲企业与乙企业是关联的,乙企业与甲企业也不一定关联。或者,即使是关联的,二者关于控股关系的权重也不一定相等。因而本发明的示例中的控股关系是具有方向性的。
在本申请的一些实施例中,如图8所示,可信关系包括机构关系。相应地,属性至少包括了该企业分支机构(例如,分公司)的数量。如果乙企业是甲企业设置的分支结构,那么在其他变量保持不变的情况下,若甲企业设置的分支结构数量越多,甲企业与乙企业关于机构关系的权重将越低,反之则越高。
在本申请的一些实施例中,例如可以通过下式计算机构关系的权重:
其中,表示机构关系的权重,表示该企业分支机构的数量。举例来说,如果甲企业共有5个分支结构(其中之一为乙企业),那么甲企业与乙企业的关于机构关系的权重=1/5。与控股关系类似,本发明的示例中的机构关系也是具有方向性的。
确定企业关联关系的方法110在步骤S1102中根据属性确定该企业与所直接关联企业的关于疑似关系的权重。本发明中的疑似关系是指通过数据挖掘等手段获得的信息,这种信息一般而言不是高度可靠的,即便如此这种信息也有分析的价值,对其处理方式也有别于上文的“可信关系”。
在本申请的一些实施例中,如图8所示,疑似关系(虚线所示)包括电话关系,相应地,属性至少包括电话号码。关联的企业可能使用类似的电话号码,例如,若关联的企业都位于同一个程控电话交换局下,其电话号码的前面数位可能是相同的。再如,关联的企业在选择电话号码时候可能具有相同的偏好(例如,前几位相同),因而这种偏好也会通过电话号码反映出来。
在本申请的一些实施例中,例如可以通过下式计算电话关系的权重:
其中表示电话关系的权重,表示该企业与所直接关联企业的相同电话号码的数量,表示第i个相同电话号码关联的企业的数量。例如,若甲企业与乙企业共有5个相同的电话号码:(010)10000001、(010)10000002、(010)10000003、(010)10000004和(010)10000005。其中,(010)10000001、(010)10000002、(010)10000003、(010)10000004和(010)10000005分别关联了3家、4家、5家、3家和5家企业。那么甲企业与乙企业关于电话关系的权重为=1÷(3+4+5+3+5)=1/20。
在其他示例中,若电话号码数据来源于企业年报,而每年年报中的企业电话号码可能会发生变化,上式中的可以表示该企业与所直接关联企业的前N位相同电话号码的数量,表示第i个前N位相同电话号码关联的企业的数量,N为小于电话号码位数的正整数(例如,取6、7或8)。例如,若甲企业电话号码:(010)10000001、(010)20000002和(010)30000003,乙企业具有电话号码:(010)10000101、(010)20000202和(010)30000303,那么甲企业与乙企业共有3个前8位(包括区号)相同电话号码。若(010)10000001、(010)20000002和(010)30000003分别关联了1家、2家和2家企业。那么甲企业与乙企业关于电话关系的权重为=1÷(1+2+2)=1/5。
在本申请的一些实施例中,如图8所示,疑似关系包括邮箱关系。相应地,属性至少包括邮箱地址。关联的企业可能使用相同的后缀(域名),例如,若关联的企业都位于共享一个域名,那么其邮箱地址能够反映出这种关系。
在本申请的一些实施例中,例如可以通过下式计算邮箱关系的权重:
其中,表示邮箱关系的权重,表示该企业与所直接关联企业的相同邮箱地址的数量,表示第i个相同邮箱地址关联的企业的数量。例如,若甲企业与乙企业共有5个相同的邮箱地址:A@sample1.com、B@sample2.com、C@sample3.com、D@sample4.com和E@sample5.com。其中,A@sample1.com、B@sample2.com、C@sample3.com、D@sample4.com和E@sample5.com分别关联了1家、2家、3家、2家和2家企业。那么甲企业与乙企业关于邮箱关系的权重为=1÷(1+2+3+2+2)=1/10。
在其他示例中,上式中的表示该企业与所直接关联企业的后缀相同的邮箱地址的数量,表示后缀相同的邮箱地址关联的企业的数量。例如,若甲企业具有邮箱地址:A@sample1.com、B@sample2.com和C@sample3.com,乙企业具有邮箱地址:A1@sample1.com、B2@sample2.com和C1@sample3.com,那么甲企业与乙企业共有3个后缀相同的邮箱地址。若A@sample1.com、B@sample2.com、C@sample3.com、A1@sample1.com、B2@sample2.com和C1@sample3.com分别关联了1家、2家、2家、2家、2家和1家企业。那么甲企业与乙企业关于邮箱关系的权重为=1÷(1+2+2+2+2+1)=1/10。
在本申请的一些实施例中,如图8所示,疑似关系包括网址关系。相应地,属性至少包括网址。网址也是判断企业关联关系的一个指标,不论是自身官网或者其引用乃至链接到的网址都可能暗含企业之间的关系。
在本申请的一些实施例中,例如可以通过下式计算网址关系的权重:
其中,表示网址关系的权重,表示该企业与所直接关联企业的相同网址的数量,表示第i个相同网址关联的企业的数量。例如,若甲企业与乙企业共有3个相同的网址:www.sample1.com、www.sample2.com和www.sample3.com,其中,www.sample1.com、www.sample2.com和www.sample3.com分别关联了1家、2家和3家企业。那么甲企业与乙企业关于网址关系的权重为=1÷(1+2+3)=1/6。
确定企业关联关系的方法110在步骤S1103中根据可信关系的权重与疑似关系的权重确定标定企业与目标企业关于可信关系、疑似关系在预设维度内的每个维度上的维度关联关系,并且根据维度关联关系确定关于可信关系、疑似关系的综合维度关联关系。维度关联关系是对标定企业与目标企业的维度连接途径上的可信关系的权重与疑似关系的权重数学运算的结果。若标定企业与目标企业关于某种可信关系或疑似关系不存在连接途径,则标定企业与目标企业关于这种可信关系或疑似关系的维度关联关系被置为0。
上文中介绍了企业与所直接关联企业的关系,在此,我们将根据预设维度来计算维度关联关系。
图9中示出了甲企业与乙企业的四个维度的关系,当然,本发明的示例中的预设维度还可以是其他取值,例如五个维度。其中,第一维度包括了甲企业与乙企业直接关联,第二维度包括了甲企业与乙企业经由1个中间节点(标记为“二”)的关联,第三维度包括了甲企业与乙企业经由2个中间节点(标记为“三”)的关联,第四维度包括了甲企业与乙企业经由3个中间节点(标记为“四”)的关联。换言之,第一维度中甲企业与乙企业经由一条边相连,第二维度中甲企业与乙企业经由两条边相连,第三维度中甲企业与乙企业经由三条边相连,第四维度中甲企业与乙企业经由四条边相连。尽管图中示出的每个维度仅包括一个路径,但实际情况中可能包括多个路径。
继续参见图9,例如,其中示出了直接关联的企业之间的控股关系的权重,权重的数值为括号中的数字。甲企业(标定企业)与乙企业(目标企业)每个维度上的维度关联关系为每个维度上各边代表的权重的乘积。本发明的示例中的标定企业、目标企业是上文中描述的企业的特例化,其中标定企业是欲研究的对象(出发点),目标企业是研究的方向(目的地)。
具体而言,就控股关系而言,甲企业与乙企业的维度关联关系为:
第一维度:0.25;
第二维度:0.25*0.2=0.05;
第三维度:0.25*0.15*0.5=0.01875;
第四维度:0.25*0.2*0.2*0.25=0.0025。
甲企业与乙企业针对控股关系的综合维度关联关系可以为参与研究的各个维度的维度关联关系之和:0.25+0.05+0.01875+0.0025=0.32125。
“综合维度”在本申请中被视为一种特殊的维度,换言之,“综合维度”是第一维度、第二维度、第三维度、第四维度的联合维度。
类似地,还可以通过以上计算方法确定关于机构关系、电话关系、邮箱关系、网址关系的综合维度关联关系。
确定企业关联关系的方法110在步骤S1104中建立关于企业的可信关系和疑似关系的图数据库,利用连通子图算法确定标定企业与目标企业的深度关联关系,其中深度关联关系与所属子图内的成员数量相关。
在步骤S1104可以将抽取的企业关系(包括可信关系和疑似关系)导入图数据库中,然后对每一种关系进行连通性计算,计算结果是每个企业得到一组ID,每个类型的企业关系对应一个ID,ID相同则表示该企业关系之内的企业之间存在关系。如图10所示,图数据库中的成员被分成了ID=1、ID=2和ID=3的三个组(仅为示意性的,实际情况可能不止如此),其中标定企业(甲)与目标企业(乙)同属于ID=1的分组,且ID=1的分组中包括50000个成员,那么标定企业(甲)与目标企业(乙)的深度关联关系可以通过下式计算:
确定企业关联关系的方法110在步骤S1105中利用分类器基于综合维度关联关系与深度关联关系确定标定企业与目标企业的企业关联关系。在此,可以综合根据企业的维度关联关系与深度关联关系来确定两个企业的企业关联关系。这些企业关系中的一部分可以从工商登记信息中查询得知,一部分可以通过数据挖掘等方式搜集,本发明的示例对其进行加工以便于定量分析各种关系的权重。
在本申请的一些实施例中,在步骤S1105中利用分类器基于各个维度的维度关联关系与深度关联关系确定标定企业与目标企业的企业关联关系,并且在步骤S1103中也不要求进一步确定综合维度关联关系。这种变型也当也视为落入本发明所附的权利要求的保护范围。在下文的各个实施例中,在可行的情况下,参与计算的综合维度关联关系也可以以各个维度的维度关联关系代替,这也视为落入本发明所附的权利要求的保护范围。
在本申请的一些实施例中,分类器为梯度提升树或者神经网络,本申请在此不限制梯度提升树或者神经网络的具体构造,以其能够以上述定量信息(维度关联关系与深度关联关系)作为输入可以定量地推算出企业关联关系即可。
在本申请的一些实施例中,梯度提升树或者神经网络的定量输出结果(企业关联关系)可以为0/1,其中,0表示两个企业不关联,1表示两个企业关联。如图17所示,图中示出的神经网络用于定量输出结果。图中神经网络的中间层结构是示意性质的,仅为方便说明本发明的原理。其中神经网络的输入H、J、K、L、M和N分别对应于控股关系、机构关系、电话关系、邮箱关系、网址关系的综合维度关联关系和深度关联关系,输出U、V则表示企业关联关系的判断结果。例如,若U产生输出,则两个企业关联;若V产生输出,则两个企业不关联。在变形的示例中,如上文所述,输入的也可以不是综合维度关联关系,而是各个维度的维度关联关系。
在本申请的一些实施例中,企业关联关系为概率值,若企业关联关系大于预定值则判定两个企业关联,反之不关联。
根据本申请的另一方面,提供一种训练分类器的方法,经过训练的分类器可以用于确定上文的企业关联关系。如图15所示,该方法基于已知其企业关联关系的标定企业与目标企业,训练分类器的方法150包括以下步骤。在步骤S1101中根据企业和所直接关联企业的属性确定该企业与所直接关联企业的关于可信关系的权重。在步骤S1102中根据属性确定该企业与所直接关联企业的关于疑似关系的权重。在步骤S1103中在步骤S1103中根据可信关系的权重与疑似关系的权重确定标定企业与目标企业关于可信关系、疑似关系在预设维度内的每个维度上的维度关联关系,并且根据维度关联关系确定关于可信关系、疑似关系的综合维度关联关系。在步骤S1104中建立关于企业的可信关系和疑似关系的图数据库,利用连通子图算法确定标定企业与目标企业的深度关联关系,其中深度关联关系与所属子图内的成员数量相关。训练分类器的方法150在步骤S1501中以综合维度关联关系、深度关联关系为分类器的输入,以标定企业与目标企业的企业关联关系为输出训练分类器。以上训练分类器的方法150的步骤S1101-S1104可以按照图11中的相同标号的步骤来具体实现,上文关于步骤S1101-S1104的具体描述也一并引用于此。
根据本申请的另一方面,提供一种判断两个企业的重名对象是否相同的方法。如图12所示,判断两个企业的重名对象是否相同的方法120包括如下步骤。首先,根据上文的任意一种方法确定标定企业与目标企业的企业关联关系(例如,确定标定企业与目标企业的企业关联关系110)其次,在步骤S1201中,若判断标定企业与目标企业关联则重名对象相同,否则不同。由此,可以根据企业关联关系来判断企业中的重名对象是不是同一个人。例如,标定企业(企业甲)与目标企业(企业乙)中共有以下重名对象:张三、李四、王五,若企业甲与企业乙的企业关联关系表明企业甲与企业乙关联,则确定企业甲与企业乙中的张三、李四、王五分别是相同的。若企业甲与企业乙的企业关联关系表明企业甲与企业乙不关联,则确定企业A与企业B中张三、李四、王五是不同的。
根据本申请的另一方面,提供一种判断标定企业与目标企业的重名对象是否相同的方法。如图13所示,判断标定企业与目标企业的重名对象是否相同的方法130包括如下步骤。该方法在步骤S1101中根据企业和所直接关联企业的属性确定该企业与所直接关联企业的关于可信关系的权重。在步骤S1102中根据属性确定该企业与所直接关联企业的关于疑似关系的权重。在步骤S1103中根据可信关系的权重与疑似关系的权重确定标定企业与目标企业关于可信关系、疑似关系在预设维度内的每个维度上的维度关联关系,并且根据维度关联关系确定关于可信关系、疑似关系的综合维度关联关系。在步骤S1104中建立关于企业的可信关系和疑似关系的图数据库,利用连通子图算法确定标定企业与目标企业的深度关联关系,其中深度关联关系与所属子图内的成员数量相关。判断标定企业与目标企业的重名对象是否相同的方法130在步骤S1301中利用分类器基于综合维度关联关系与深度关联关系确定重名对象是否相同。
判断标定企业与目标企业的重名对象是否相同的方法130在步骤S1301中利用分类器,以上文确定的综合维度关联关系与深度关联关系作为分类器的输入,综合判断两个企业的重名对象是否相同。在此,可以综合根据企业的控股关系、机构关系、电话关系、邮箱关系、网址关系等企业关系来确定重名对象是否相同。这些企业关系中的一部分可以从工商登记信息中查询得知,一部分可以通过数据挖掘等方式搜集,本发明的示例对其进行加工以便于定量分析各种关系的权重。在本申请的一些实施例中,分类器为梯度提升树或者神经网络,本申请在此不限制梯度提升树或者神经网络的具体构造,以其能够以上述定量信息(维度关联关系与深度关联关系)作为输入可以定量地推算出企业关联关系即可。
在本申请的一些实施例中,梯度提升树或者神经网络的定量输出结果(企业关联关系)可以为0/1,其中,0表示两个企业不关联,1表示两个企业关联。在本申请的一些实施例中,企业关联关系为概率值,若企业关联关系大于预定值则判定两个企业关联,反之不关联。
以上判断标定企业与目标企业的重名对象是否相同的方法130的步骤S1101-S1104可以按照图11中的相同标号的步骤来具体实现,上文关于步骤S1101-S1104的具体描述也一并引用于此。区别于上文中的判断标定企业与目标企业的重名对象是否相同的方法120,方法130不需要“确定标定企业与目标企业的企业关联关系”这个中间过程,而是直接输出关于重名对象是否相同的结果。
根据本申请的另一方面,提供一种训练分类器的方法,经过训练的分类器可以用于判断两个企业的重名对象是否相同。如图16所示,该方法基于已知其重名对象是否相同的标定企业与目标企业,训练分类器的方法160包括以下步骤。在步骤S1101中根据企业和所直接关联企业的属性确定该企业与所直接关联企业的关于可信关系的权重。在步骤S1102中根据属性确定该企业与所直接关联企业的关于疑似关系的权重。在步骤S1103中根据可信关系的权重与疑似关系的权重确定标定企业与目标企业关于可信关系、疑似关系在预设维度内的每个维度上的维度关联关系,并且根据维度关联关系确定关于可信关系、疑似关系的综合维度关联关系。在步骤S1104中建立关于企业的可信关系和疑似关系的图数据库,利用连通子图算法确定标定企业与目标企业的深度关联关系,其中深度关联关系与所属子图内的成员数量相关。训练分类器的方法160在步骤S1601中以综合维度关联关系、深度关联关系为输入,以重名对象是否相同为输出训练分类器。以上训练分类器的方法160的步骤S1101-S1104可以按照图11中的相同标号的步骤来具体实现,上文关于步骤S1101-S1104的具体描述也一并引用于此。
根据本申请的另一方面,提供一种判断标定企业与目标企业的重名对象是否相同的方法。如图14所示,方法140包括如下步骤。在步骤S1101中根据企业和所直接关联企业的属性确定该企业与所直接关联企业的关于可信关系的权重。在步骤S1102中根据属性确定该企业与所直接关联企业的关于疑似关系的权重。在步骤S1103中根据可信关系的权重与疑似关系的权重确定标定企业与目标企业关于可信关系、疑似关系在预设维度内的每个维度上的维度关联关系,并且根据维度关联关系确定关于可信关系、疑似关系的综合维度关联关系。在步骤S1104中建立关于企业的可信关系和疑似关系的图数据库,利用连通子图算法确定标定企业与目标企业的深度关联关系,其中深度关联关系与所属子图内的成员数量相关。以上方法140的步骤S1101-S1104可以按照图11中的相同标号的步骤来具体实现,上文关于步骤S1101-S1104的具体描述也一并引用于此。
方法140在步骤S1401中接收标定企业与目标企业的一个或多个相似性参数,企业的相似性参数指能衡量企业之间的相似性的定量数值,可以由企业的名称、地址、注册资金、关联人名等来定量确定,这已经在上文中具体描述。
方法140在步骤S1402中利用分类器,以上文确定的综合维度关联关系、深度关联关系以及相似性参数作为分类器的输入,综合确定重名对象是否相同。由此,相比于判断两个企业的重名对象是否相同的方法120,方法140中引入了额外的两个企业的相似性参数,因而理论上而言判断的准确性也会有所上升。
在本申请的一些实施例中,分类器用于综合确定重名对象是否相同。梯度提升树或者神经网络的定量输出结果(企业关联关系)可以为0/1,其中,0表示重名对象不同,1表示重名对象相同。如图18所示,图中示出的神经网络用于定量输出结果。图中神经网络的中间层结构是示意性质的,仅为方便说明本发明的原理。其中神经网络的输入A、B、C、D、H、J、K、L、M和N分别对应于名称相似性、地址相似性、注册资金相似性、人名相似性、控股关系、机构关系、电话关系、邮箱关系、网址关系的综合维度关联关系和深度关联关系,输出Y、N则表示重名对象是否相同的判断结果。例如,若Y产生输出,则重名对象相同;若N产生输出,则重名对象相同。
根据本申请的另一方面,提供一种计算机可读存储介质,其中存储有指令,当所述指令由处理器执行时,使得所述处理器执行如上文所述的任意一种方法。本申请中所称的计算机可读介质包括各种类型的计算机存储介质,可以是通用或专用计算机能够存取的任何可用介质。举例而言,计算机可读介质可以包括RAM、ROM、EPROM、E2PROM、寄存器、硬盘、可移动盘、CD-ROM或其他光盘存储器、磁盘存储器或其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码单元并能够由通用或特定用途计算机、或者通用或特定用途处理器进行存取的任何其他临时性或者非临时性介质。如本文所使用的盘通常磁性地复制数据,而碟则用激光来光学地复制数据。上述的组合也应当包括在计算机可读介质的保护范围之内。示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读写信息。在替换方案中,存储介质可以被整合到处理器。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替换方案中,处理器和存储介质可作为分立组件驻留在用户终端中。
以上仅为本申请的具体实施方式,但本申请的保护范围并不局限于此。本领域的技术人员可以根据本申请所披露的技术范围想到其他可行的变化或替换,此等变化或替换皆涵盖于本申请的保护范围之中。在不冲突的情况下,本申请的实施方式及实施方式中的特征还可以相互组合。本申请的保护范围以权利要求的记载为准。
Claims (19)
1.一种确定企业关联关系的方法,包括:
根据企业和所直接关联企业的属性确定该企业与所直接关联企业的关于可信关系的权重;
根据所述属性确定该企业与所直接关联企业的关于疑似关系的权重;
根据所述可信关系的权重与所述疑似关系的权重确定标定企业与目标企业关于所述可信关系、所述疑似关系在预设维度内的每个维度上的维度关联关系,并且根据所述维度关联关系确定关于所述可信关系、所述疑似关系的综合维度关联关系;
建立关于企业的所述可信关系和所述疑似关系的图数据库,利用连通子图算法确定所述标定企业与所述目标企业的深度关联关系,其中所述深度关联关系与所属子图内的成员数量相关;以及
利用分类器基于所述综合维度关联关系与所述深度关联关系确定所述标定企业与所述目标企业的企业关联关系。
2.根据权利要求1所述的方法,所述可信关系包括控股关系,所述属性包括该企业的对外投资企业数量和所直接关联企业的股东数量。
4.根据权利要求1所述的方法,所述可信关系包括机构关系,所述属性包括该企业分支机构的数量。
6.根据权利要求1所述的方法,所述疑似关系包括电话关系,所述属性包括电话号码。
8.根据权利要求1所述的方法,所述疑似关系包括邮箱关系,所述属性包括邮箱地址。
10.根据权利要求1所述的方法,所述疑似关系包括网址关系,所述属性包括网址。
12.根据权利要求1所述的方法,所述分类器为梯度提升树或者神经网络。
13.根据权利要求1所述的方法,若所述企业关联关系大于预定值则判定两个企业关联,反之不关联。
14.一种训练分类器的方法,该方法基于已知其企业关联关系的标定企业与目标企业,包括:
根据企业和所直接关联企业的属性确定该企业与所直接关联企业的关于可信关系的权重;
根据所述属性确定该企业与所直接关联企业的关于疑似关系的权重;
根据所述可信关系的权重与所述疑似关系的权重确定标定企业与目标企业关于所述可信关系、所述疑似关系在预设维度内的每个维度上的维度关联关系,并且根据所述维度关联关系确定关于所述可信关系、所述疑似关系的综合维度关联关系;
建立关于企业的所述可信关系和所述疑似关系的图数据库,利用连通子图算法确定所述标定企业与所述目标企业的深度关联关系,其中所述深度关联关系与所属子图内的成员数量相关;以及
以所述综合维度关联关系、所述深度关联关系为输入,以所述标定企业与所述目标企业的企业关联关系为输出训练所述分类器。
15. 一种判断两个企业的重名对象是否相同的方法,包括:
根据权利要求1-13中任一项所述的方法确定标定企业与目标企业的企业关联关系;以及
若判断所述标定企业与所述目标企业关联则重名对象相同,否则不同。
16.一种判断标定企业与目标企业的重名对象是否相同的方法,包括:
根据企业和所直接关联企业的属性确定该企业与所直接关联企业的关于可信关系的权重;
根据所述属性确定该企业与所直接关联企业的关于疑似关系的权重;
根据所述可信关系的权重与所述疑似关系的权重确定标定企业与目标企业关于所述可信关系、所述疑似关系在预设维度内的每个维度上的维度关联关系,并且根据所述维度关联关系确定关于所述可信关系、所述疑似关系的综合维度关联关系;
建立关于企业的所述可信关系和所述疑似关系的图数据库,利用连通子图算法确定所述标定企业与所述目标企业的深度关联关系,其中所述深度关联关系与所属子图内的成员数量相关;以及
利用分类器基于所述综合维度关联关系与所述深度关联关系确定重名对象是否相同。
17.一种训练分类器的方法,该方法基于已知其重名对象是否相同的标定企业与目标企业的,包括:
根据企业和所直接关联企业的属性确定该企业与所直接关联企业的关于可信关系的权重;
根据所述属性确定该企业与所直接关联企业的关于疑似关系的权重;
根据所述可信关系的权重与所述疑似关系的权重确定标定企业与目标企业关于所述可信关系、所述疑似关系在预设维度内的每个维度上的维度关联关系,并且根据所述维度关联关系确定关于所述可信关系、所述疑似关系的综合维度关联关系;
建立关于企业的所述可信关系和所述疑似关系的图数据库,利用连通子图算法确定所述标定企业与所述目标企业的深度关联关系,其中所述深度关联关系与所属子图内的成员数量相关;以及
以所述综合维度关联关系、所述深度关联关系为输入,以重名对象是否相同为输出训练所述分类器。
18.一种判断标定企业与目标企业的重名对象是否相同的方法,包括:
根据企业和所直接关联企业的属性确定该企业与所直接关联企业的关于可信关系的权重;
根据所述属性确定该企业与所直接关联企业的关于疑似关系的权重;
根据所述可信关系的权重与所述疑似关系的权重确定标定企业与目标企业关于所述可信关系、所述疑似关系在预设维度内的每个维度上的维度关联关系,并且根据所述维度关联关系确定关于所述可信关系、所述疑似关系的综合维度关联关系;
建立关于企业的所述可信关系和所述疑似关系的图数据库,利用连通子图算法确定所述标定企业与所述目标企业的深度关联关系,其中所述深度关联关系与所属子图内的成员数量相关;
接收所述标定企业与所述目标企业的一个或多个相似性参数以及
利用分类器基于所述综合维度关联关系、所述深度关联关系以及所述相似性参数确定重名对象是否相同。
19.一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,其特征在于,当所述指令由处理器执行时,使得所述处理器执行如权利要求1-18中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011336331.4A CN112270195A (zh) | 2020-11-25 | 2020-11-25 | 确定企业关联关系、重名对象判定 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011336331.4A CN112270195A (zh) | 2020-11-25 | 2020-11-25 | 确定企业关联关系、重名对象判定 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112270195A true CN112270195A (zh) | 2021-01-26 |
Family
ID=74340294
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011336331.4A Pending CN112270195A (zh) | 2020-11-25 | 2020-11-25 | 确定企业关联关系、重名对象判定 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112270195A (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140172895A1 (en) * | 2012-12-18 | 2014-06-19 | Michael Hartel | Modeled Associations for Business Object Data Structures |
CN105138652A (zh) * | 2015-08-28 | 2015-12-09 | 山东合天智汇信息技术有限公司 | 一种企业关联关系识别方法及系统 |
CN106126614A (zh) * | 2016-06-21 | 2016-11-16 | 山东合天智汇信息技术有限公司 | 一种追溯两个企业多层级关联路径的方法及系统 |
CN108647288A (zh) * | 2018-05-04 | 2018-10-12 | 苏州朗动网络科技有限公司 | 企业关系的挖掘方法、装置、计算机设备及存储介质 |
CN110175909A (zh) * | 2019-05-07 | 2019-08-27 | 交通银行股份有限公司 | 一种企业关联关系确定方法及系统 |
CN110659799A (zh) * | 2019-08-14 | 2020-01-07 | 深圳壹账通智能科技有限公司 | 基于关系网络的属性信息处理方法、装置、计算机设备和存储介质 |
CN110659981A (zh) * | 2019-09-26 | 2020-01-07 | 北京明略软件系统有限公司 | 企业依存关系识别方法、装置及电子设备 |
CN110825817A (zh) * | 2019-09-18 | 2020-02-21 | 上海生腾数据科技有限公司 | 一种企业疑似关联关系判定方法及系统 |
US20200250623A1 (en) * | 2019-02-01 | 2020-08-06 | Capital One Services, Llc | Systems and techniques to quantify strength of a relationship with an enterprise |
-
2020
- 2020-11-25 CN CN202011336331.4A patent/CN112270195A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140172895A1 (en) * | 2012-12-18 | 2014-06-19 | Michael Hartel | Modeled Associations for Business Object Data Structures |
CN105138652A (zh) * | 2015-08-28 | 2015-12-09 | 山东合天智汇信息技术有限公司 | 一种企业关联关系识别方法及系统 |
CN106126614A (zh) * | 2016-06-21 | 2016-11-16 | 山东合天智汇信息技术有限公司 | 一种追溯两个企业多层级关联路径的方法及系统 |
CN108647288A (zh) * | 2018-05-04 | 2018-10-12 | 苏州朗动网络科技有限公司 | 企业关系的挖掘方法、装置、计算机设备及存储介质 |
US20200250623A1 (en) * | 2019-02-01 | 2020-08-06 | Capital One Services, Llc | Systems and techniques to quantify strength of a relationship with an enterprise |
CN110175909A (zh) * | 2019-05-07 | 2019-08-27 | 交通银行股份有限公司 | 一种企业关联关系确定方法及系统 |
CN110659799A (zh) * | 2019-08-14 | 2020-01-07 | 深圳壹账通智能科技有限公司 | 基于关系网络的属性信息处理方法、装置、计算机设备和存储介质 |
CN110825817A (zh) * | 2019-09-18 | 2020-02-21 | 上海生腾数据科技有限公司 | 一种企业疑似关联关系判定方法及系统 |
CN110659981A (zh) * | 2019-09-26 | 2020-01-07 | 北京明略软件系统有限公司 | 企业依存关系识别方法、装置及电子设备 |
Non-Patent Citations (2)
Title |
---|
CHENWEI YAN 等: "Neural Network Based Relation Extraction of Enterprises in Credit Risk Management", 《2019 IEEE INTERNATIONAL CONFERENCE ON BIG DATA AND SMART COMPUTING》, pages 1 - 7 * |
马海波: "面向风控的企业关联信息知识图谱构建与应用研究", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》, no. 04, pages 138 - 517 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bawa et al. | On determination of stochastic dominance optimal sets | |
US20090204517A1 (en) | Intercompany accounting data analytics | |
Ottoni et al. | Hydrophysical database for Brazilian soils (HYBRAS) and pedotransfer functions for water retention | |
Ray et al. | Geolocated dataset of Chinese overseas development finance | |
Ahmed et al. | Associations between corporate characteristics and disclosure levels in annual reports: a meta-analysis | |
Dawidowicz et al. | A methodological evaluation of the Polish cadastral system based on the global cadastral model | |
Miller et al. | Digital classification of hillslope position | |
Barucca et al. | Common asset holdings and systemic vulnerability across multiple types of financial institution | |
CN112417879A (zh) | 确定企业属性相似性、重名对象判定 | |
Springer et al. | The impact of school finance litigation on resource distribution: a comparison of court‐mandated equity and adequacy reforms | |
Depoers et al. | Coercive, normative, and mimetic isomorphisms as drivers of corporate tax disclosure: The case of the tax reconciliation | |
Joseph et al. | Cross-border portfolio investment networks and indicators for financial crises | |
Allen et al. | A new tool for neighbourhood change research: The Canadian Longitudinal Census Tract Database, 1971–2016 | |
Turner | Defining and measuring traffic data quality: White paper on recommended approaches | |
Reggi | Benchmarking open data availability across europe: The case of eu structural funds | |
US20110258088A1 (en) | Financial audit scoping workbench | |
Belloque et al. | 55 Years of abacus: evolution of research streams and future research directions | |
CN116467551B (zh) | 一种基于相关系数的供水管网漏损定位方法及系统 | |
CN112270195A (zh) | 确定企业关联关系、重名对象判定 | |
CN113487341B (zh) | 一种城市商业策略数据处理方法 | |
Castro et al. | A geographic information system for rural accessibility: database development and the application of multi-criteria evaluation for road network planning in rural areas | |
Bradshaw et al. | Gender perspectives on disaster reconstruction in Nicaragua: reconstructing roles and relations? | |
Ercan | Evolution of the cadastre renewal understanding in Türkiye: A fit-for-purpose renewal model proposal | |
CN108304485B (zh) | 政务数据图形化处理方法、装置、存储介质和计算机设备 | |
Salah et al. | Pipeline alignment optimization: Automated GIS-based approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |