CN107577791A

CN107577791A - 一种企业征信人名重名消歧的方法及运用该方法的征信系统

Info

Publication number: CN107577791A
Application number: CN201710843051.4A
Authority: CN
Inventors: 王云丽
Original assignee: Institute Of Applied Mathematics Hebei Academy Of Sciences
Current assignee: Institute Of Applied Mathematics Hebei Academy Of Sciences
Priority date: 2017-09-18
Filing date: 2017-09-18
Publication date: 2018-01-12

Abstract

一种企业征信人名重名消歧方法及系统，根据某人物姓名获得企业关键人物中包含该姓名的企业合集；针对该合集中的企业，比较除该人名之外的其余人名的相似度，将包含相似度值为1的两个企业，归入到同一类簇中；然后，判断任两个类簇中企业是否存在投资参股关系，若存在，则将该企业对应的类簇合并；接着，判断不同类簇的企业是否存在字号相同的情况，对存在字号相同的企业对应的类簇再次合并；再判断任两个类簇中企业是否存在关联业务，若存在，则将该企业对应的类簇再合并；最后对不同类簇的企业，再进行模糊地址匹配度的运算，对达成匹配关系的企业所对应的类簇再合并。经过上述运算，会得到不同的类簇，使因该确定人名而重名的人能够被区分。

Description

一种企业征信人名重名消歧的方法及运用该方法的征信系统

技术领域

本发明涉及多实体消歧领域，特别是涉及一种面向企业征信领域的企业高管、股东、法人代表重名的消除歧义的方法和系统。

背景技术

随着创业的资金门槛要求越来越低，企业的真实征信状况就显得十分重要，合作商在考虑是否要与一个企业合作之前或者客户在考虑是否要将自己的需求委托给一个公司之前，都会考察该公司的征信情况。于是一些企业征信系统便应运而生了，企业征信系统可以帮助人们去初步了解一个企业的信用状况，帮助企业或个人做出较好的选择。同时，企业征信系统也具有约束性和影响力，让企业的投资人/高管/法人代表能够诚信经营，提高信用意识，建设和谐社会。

在实际生活中，重名问题在企业信息搜索过程中是很普遍的现象。虽然企业负责人等的个人信息是要到有关部门依法登记，但是很多私人信息(联系方式，身份证编号等)都是保密的，并不对外公开。因此，企业征信数据的来源很大一部分来自网络爬虫，很难得到企业负责人/股东/合伙人的一些个人信息。因此，通过重名但不同性别或者重名但不同身份证编号来区分的方法，在公众可获知的信息范围内就行不通了。目前，通过采集公众互联网信息、媒体信息聚合汇总形成“企业信用评价基础资料库”，并主要基于人工辨识方式和标注的方法解决重名消歧的问题。这种原始的方法，在数据量较少的情况下具有较高的可靠性；但是很显然人工辨识的方式效率偏低，比较费时费力，不适合拥有大量数据的系统，显然已经不能满足需求。

为此，有必要提出一种解决企业中投资人/高管等重名问题的方法，以及应用该方法的征信系统，以有效的解决企业人名消歧的问题，大大提高搜索的准确性，发现更多更全面的关于目标企业中投资人/高管的重要信息。

发明内容

本发明的目的是提出一种有效解决企业征信中人名重名问题的方法，以及运用该方法的企业征信系统。

为实现上述目的，本发明提供的技术方案包括：

根据本发明的一种企业征信人名重名消歧的方法，其适于在计算机设备中执行，该方法包括：

步骤a)：检索出企业征信系统中企业关键人物包含某一确定人名的所有企业组成的合集，其中每一个企业实体都自成一个类簇；

步骤b)：对步骤a)得到的各个元素，进行两两运算，计算任意两个企业的关键人物姓名的相似度值，若得到至少一个相似度值为1，则将两个企业归入到同一个类簇之下，否则不归入；

步骤c)：根据步骤b)得到的类簇，比较任两个类簇的企业之间的投资参股关系，若发现某两个类簇内企业之间存在着投资参股关系，则将存在投资参股关系的企业所对应的类簇归并为一个类簇，否则不归并；

步骤d)：根据步骤c)得到的类簇，罗列各类簇中企业名称，提取企业字号，计算任意两个类簇内企业字号之间的相似度值，若计算某两个类簇内企业字号存在至少一个相似度值为1的情况，则将该两个类簇归并为一个类簇，否则不归并；

步骤e)：构建爬虫程序，爬取企业之间的业务往来关系，并比较步骤d)得到的类簇的任两个类簇内的企业之间业务往来关系，将存在关联业务关系的企业所对应的类簇归并为一个类簇，否则不归并；

步骤f)：对步骤e)处理后得到的类簇进行两两运算，判断任两个类簇内企业注册地址的匹配度，若判断某两个类簇内企业注册地址存在相匹配的情况，则将该两个类簇归并为一个类簇，否则不归并；

以上步骤，除步骤a)之外，在一个步骤无法执行或无法完全执行时，将自动跳转到下一步，并将已经得到的计算结果作为该步骤完成执行后的结果转交到下一步；

经过上述运算，得到不同的类簇，使因该确定人名而重名的人被区分。

根据本发明方法的一个可行的实施例，所述步骤c)所述的投资参股关系是通过数据爬虫得到，具体是通过构建爬虫程序，爬取网络公开资料(尤其是企业官网主页或企业黄页)中有关某一个企业的义项，获得一个类簇中包含的所有的公司的对外投资清单，比较这些清单中的企业名称是否存在与另一个类簇中所包含的企业名称相同的情况，若存在相同的情况；则将这两个类簇再进行合并；否则不合并。

根据本发明的一个可行的实施例，其中步骤a)中所述的企业关键人物包括企业的法人代表、合伙人、股东和高级管理人员。

根据本发明方法的一个可行的实施例，其中步骤d)所述的提取企业字号，依据企业名称是由行政区划+字号+行业属性+组织形式构成的特性，采用双向最大匹配法、双向神经网络或深度学习法提取企业字号。

根据本发明方法的一个可行的实施例，其中步骤b)所述计算两个企业关键人物姓名的相似度值的计算公式为：

其中S表示一个企业中的一个关键人物姓名的字符串，T表示另外一个企业中一个关键人物姓名的字符串，card(·)表示集合中元素个数，sim(·)表示相似度。

本发明还提供一种可解决企业征信人名重名问题的征信系统，所述系统包括处理器，适于实现各指令；以及存储设备，适于存储多条指令；所述指令适于由处理器加载并执行，所述指令用于实现上述任一实施例所述的方法，用于解决企业征信人名重名问题。

根据本发明，前文所述的关键人物包括法人代表、股东或企业的高层管理人员，例如CEO。

根据本发明，在比较一个类簇中企业的对外投资清单中的企业名称是否存在与另一个类簇中的企业名称相同的情况时，也可以运用上述“计算两个企业关键人物姓名的相似度值的计算公式”来计算。

根据本发明，任一个类簇中的企业元素个数≥1。

需要说明的是，本发明是基于企业多特征和多种属性所设计的人物重名消歧方法。因此，以上步骤b)-f)，并不是严格地在每个步骤都必须执行完毕后才可以执行下一个步骤，而是当某步骤因企业数据获取不全或数据获取为空，导致无法执行或无法完全执行时，将自动跳转执行下一步骤，并且将已经得到的计算结果作为该步骤执行完成后的结果，转交到下一步。比如，步骤c)执行时，需要获取企业间的投资参股关系，但如果通过网络爬虫程序，无法获得全部或部分几个企业的投资参股关系或者发现目标企业不存在任何的投资参股关系，则会导致步骤c)无法执行或只执行部分，在无法执行时，步骤b)的处理结果将视作步骤c)的处理结果，跳转到步骤d)；当步骤c)只部分执行时，按照步骤c)部分执行得到的处理结果，跳转到步骤d)。

根据本发明，本申请中所述的归入、归并/合并的处理均针对一个类簇与另一个类簇。如一个第一类簇中含有3个成员企业，一个第二类簇中含2个成员企业，若经判断第一类簇中3个成员企业的至少一个企业，与第二类簇中2个成员企业的至少一个企业存在某种关联(关键人物相似、存在投资参股关系、字号相同、关联业务关系、地址匹配等)关系，则合并时，是指合并上述第一类簇与第二类簇成为一个包含5个成员企业的新类簇，而不是指代仅针对第一、第二类簇中的个别成员进行合并聚类。

根据本发明，所谓模糊地址的相匹配，是指一个地址与另一个地址在描述上接近，具体是区县、街道等均一致。

根据本发明，关联业务关系又称之为关联交易，是指公司控股股东、实际控制人、董事、监事、高级管理人员与其直接或者间接控制的企业之间的关系，以及可能导致公司利益转移的其他关系。主要包括(1)购销产品关系；(2)买卖有形或无形资产，收购兼并；(3)提供或接受劳务，代理，租赁，管理方面的关联业务关系等；(4)研究与开发项目的转移；(5)合作投资开发项目等。

根据本发明，企业关联业务关系也可通过构建爬虫程序，爬取企业官网主页、业务宣传网页或企业黄页来获得。

根据本发明，前述步骤f)中，如果将地址进行过度的精确匹配，反而达不到理想的区分效果。这是因为地址属性自身具有某种模糊性，比如公司的地址中有一些写到街道号，而有一些写到大厦室号。故步骤f)采取模糊匹配方式。

本发明的企业征信人名重名消歧方法，具有以下技术效果：可融合多特征，包括关键人物(企业法人代表、合伙人、股东或高管)相似度、投资参股关系、企业字号、企业之间关联业务关系、模糊匹配的企业地址等特征，进行企业中关键人物重名的消歧，具有程序化自动消歧和标记\区分的能力，准确率较高。利用本方法的征信系统，可以把现实生活中的具有同名的不同的人物个体按照在不同企业中的任职进行划分，帮助用户快速全面的找到需求信息。由于网络公开资料不全或信息有限，本发明正是基于此而设计基于多种特征的区分方法。例如，若爬取的往来业务关系(关联业务关系)不明朗的时，可比较投资参股关系。

附图说明

图1是本发明实施例的企业人名重名消歧方法的流程图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的实施方式；相反，提供这些实施方式使得本发明将全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。图中相同的附图标记表示相同或类似的结构，因而将省略它们的详细描述。

本发明一种基于多步骤的企业征信人名重名消歧方法，首先，根据某人物姓名全文检索获得企业法人代表、股东和高管中具有该人名的所有企业的合集，其中每一个企业实体自成一个类簇；然后针对该合集中的企业，两两比较除该人名之外的其余人名的相似度，对包含人名相似度值为1的两个企业，合并到同一类簇中，否则不归入；接着对这些类簇内的企业，进行投资关系的运算，将存在投资关系的企业对应的类簇进行合并，否则不合并；接下来对这些类簇的企业，再进行字号的相似度运算，将字号相似度为1的企业对应的类簇再次进行合并，否则不合并；然后，构建爬虫程序，爬取企业之间的业务往来关系。对类簇中的企业进行往来业务关系的比较，将存在关联业务关系的企业对应的类簇合并到同一个类簇，否则不合并；最后，进行模糊地址匹配度的运算，对形成匹配的企业所对应的类簇归并成同一类簇，否则不归并。最后，经过上述运算，会得到不同的类簇，使因该确定人名而重名的人能够被区分。

由于法人代表，股东，高管的人物姓名一般在网络上都可以轻易得到，所以本发明首先经过这个特征来合并类簇，区分企业重名关键人物。此外，由于企业投资参股关系虽然难以直接获得，但通过网络公开资料，如企业宣传主页、企业黄页或企业官网上等方式也有一定机会获取。因此，本发明还可以通过企业关联业务关系、企业投资参股关系的比较、计算，将一些企业名称虽不同但其某一关键人物实际指代同一人的企业合并到同一类簇下的方式，以区分企业人物的重名，从而解决公众可获得的网络信息资料有限，难以准确归类和区分企业关键人物重名的问题。

图1所示，是本发明实施例的企业人名重名消歧方法的流程图。

本发明企业征信人名重名消歧的方法，该方法包括如下步骤：

步骤f)：对步骤e)处理后得到的类簇进行两两运算，采用模糊匹配的方式将任两个类簇中存在企业注册地址相匹配的对应类簇归并为一个类簇，否则不归并；

其中，计算两个企业关键人物姓名的相似度值的计算公式为：

其中，所述步骤c)所述的投资参股关系是通过数据爬虫得到，具体是通过构建爬虫程序，爬取网络资料中有关某一个企业的义项，获得一个类簇中包含的所有的公司的对外投资清单，比较这些清单中的企业名称是否存在与另一个类簇中所包含的企业名称相同的情况，若存在相同的情况；则将这两个类簇再进行二次归入，并标记归入后的结果；否则不归入。

以下结合具体实施例说明各步骤的计算方法和处理方法以及结果。

按照步骤a)找出企业中的合作人或高管或股东中等含有李雷的企业，形成一个合集，若合集中包含企业A、B、C、D、E、F，这6个企业可均视为一个类簇。

若企业A、C的法人、股东、高管包含的关键人物如下表所示：

企业名	法人、股东、高管
		A	李雷、陈云、张霖、刘峰玉
C	李雷、陈云、徐小虎

首先，按照步骤b)，计算(陈云，陈云)，(陈云，徐小虎)，(张霖，陈云)，(张霖，徐小虎)，(刘峰玉，陈云)，(刘峰玉，徐小虎)共6组字符的相似度值。每组中，当被比较的两个姓名确实相似时，计相似度值为1。在这6组中，只要有1个相似度值为1，则将企业A、C归入到同一个类簇中，且系统记录为企业A中李雷和企业C中的李雷为同一个人；否则不归入同一个类簇。在这个步骤中，如果对于企业的关键人姓名的信息除该确定的人名(李雷)之外，无其他的关键人物姓名，则可认为无法进行相似度值计算，或者直接默认相似度为0。

很显然，在这个例子中企业A和企业C中，(陈云，陈云)相似度值为1。因此，A、C企业合并到同一个类簇中。

利用相似度计算公式sim(S,T)＝2*card(S∩T)/(card(S)+card(T))计算时，其中card(S)表示合集S中的元素个数。例如：姓名“陈云”和姓名“陈云飞”中，{陈云}＝{陈，云}，则card(陈云)＝2，{陈云飞}＝{陈，云，飞}，则card(陈云飞)＝3，所以其sim＝2*2/(2+3)＝4/5；同理姓名“高小英”和姓名“曲文慧”，其sim＝2*0/(3+3)＝0；而“杨刚”和“杨刚”，其sim＝2*2/(2+2)＝1。

通过步骤b)的计算，企业A、C被归入同一个类簇，可以暂时得到的信息是企业A和C中的李雷是同一人。至于企业B、D、E、F中李雷是否指向同一个人，假设经过计算并不指向同一人(或者可能暂时因关键人物姓名或身份信息不详等原因无法计算，例如只收集到部分关键人物姓名)。得到的结果为：

李雷¹	李雷²	李雷³	李雷⁴	李雷⁵
					企业A、C	企业B	企业D	企业E	企业F

步骤b)的计算依据是，尽管某个人，如李雷，可能会涉猎不同的商业领域，会跟完全不同的人合作组建公司，投资完全不相关的行业，但是若企业A中的李雷合伙人中有陈云，企业C中的李雷的合伙人或高管中有陈云，则基本可断定企业A中的李雷和企业C中的李雷指向同一人，而李雷的个人品质和诚信可能会或多或多地影响A、C两个公司。

按照步骤c)，比较两个类簇内的企业之间是否存在着投资参股关系，将存在投资参股关系的企业所对应的类簇归并为一个类簇，否则不归并。

还是参见上一个例子，企业AC、B、D、E、F分别是一个类簇(注意B、D、E、F组成的类簇元素为1。

此时，可以通过收集企业A、B、C、D、E、F的投资参股关系，来判断企业AC、B、D、E、F中的李雷是否实质为同一人。

通过构建爬虫程序，爬取网络公开资料(尤其是企业官网主页或企业黄页或宣传主页等)中有关某一个企业的股东为公司的情况。例如，通过爬虫程序，获得这些信息：有哪些企业参与投资了企业B，企业B又投资参股了哪些企业，把企业B的投资参股关系一一罗列，通过罗列清单的企业名称比较，看看企业A或C是否在这些罗列的清单中，如果在，则基本可以判断企业B的李雷与企业C中的李雷为同一人。同理，可以判断其他几个企业之间的投资参股关系。虽然也存在个别特例，但这确实可以起到区分作用。

经过步骤c)的处理，则会得到如下的类簇：

李雷¹	李雷²	李雷³	李雷⁴
				企业A、B、C	企业D	企业E	企业F

按照步骤d)，对步骤c)得到的类簇内企业名称一一罗列，提取企业字号，比较两个类簇之间十分存在企业字号相似的情况，计算相似度值，将企业字号相同的企业所对应的类簇，再归并到一个类簇，否则不归并。

为了说明这个步骤，可参见下表：

假设企业E(安徽省通力环保科技有限公司)和F(淮北市通力环保科技有限公司)在步骤b)和步骤c)处理之后，由于关键人物姓名的相似度值没有等于1的情况，并且也不存在投资参股关系，此时，依据企业名称是由行政区划+字号+行业属性+组织形式所构成的特点，分解企业名称，提取企业字号，计算得知企业E和F的字号均为“通力”。依据企业E和F的字号相同，此时得到的结果为：

李雷¹	李雷²	李雷³
			企业A、B、C	企业D	企业E、F

上述例子中，在将类簇李雷³与类簇李雷⁴合并之前，每个类簇中的企业只有1个，分别是企业E和企业F，因而比较时，很容易比较出企业E和企业F的字号相同。但是在实际情况中，有可能类簇李雷³与类簇李雷⁴中企业数量大于等于2个，此时，需要借助前述用于比较企业关键人相似度值的计算公式来计算，且只要两个类簇(李雷³与李雷⁴)中企业的字号相似度存在等于1的情况，则依照本步骤，就可以将类簇李雷³与类簇李雷⁴归并成一个类簇。

然后，按照步骤e)：构建爬虫程序，爬取企业之间的业务往来关系，可以通过分析任两个类簇内的企业之间的业务往来关系，将存在关联业务关系的企业所对应的类簇归并为一个类簇，进一步重名消歧。例如可以通过收集企业D与E、F的关联业务往来关系，来判断企业D和E、F中的李雷是否实质为同一人。

例如企业D是一个工厂，通过构建爬虫程序，爬取网络公开资料(尤其是企业官网主页或企业黄页或宣传主页等)中有关某一个企业的原料来源、商品走向等的义项，获得一个企业的上下游的关联业务关系，这种关系包括但不限于购销关系、供销关系、居间关系等等的清单，看看企业D与企业E、F是否存在关联业务关系，如存在，则基本可以判断企业D的李雷与企业E、F中的李雷为同一人。虽然也存在个别特例，但这确实可以起到区分作用。

假设经过计算分析，得到企业D与企业E和F中的李雷并不指向同一实体，则有如下结果：

李雷¹	李雷²	李雷³
			企业A、B、C	企业D	企业E、F

接下来，按照步骤f)：对步骤e)处理后得到的类簇进行两两运算，采用模糊匹配的方式将任两个类簇中存在企业注册地址相匹配的对应类簇归并为一个类簇，否则不归并。

为了说明这个步骤，可参见下表：

假设通过上述步骤得到结果后，也无法区分企业ABC、D、EF的关键人物李雷是不是实际指代同一个人。此时，需要借助企业注册地址这一特征来区分。由于在同一些大厦楼里或街道可能分布着若干个大大小小的企业，则一个模糊地址完全可以对应多家企业。但是，如果某两个企业的关键人物姓名字面上相同，并且这两个企业地址还能模糊匹配，那么基本就可完全推断这两家企业中的“李雷”是同一个人。如此处理的依据是，许多企业的合伙人/股东等，非常具有商业头脑，会发展很多板块的业务，并且让这些业务之间存在某种联系，能够相互利用和促进，故会开办和注册业务类型完全不同的公司，这样的例子很多，比如京东中美医院的注册地址是河北三河燕郊镇迎宾路1078号，同时紧挨的河北三河燕郊镇迎宾路1079号是京东中美宾馆，开设的宾馆主要是方便供住院病人的家属住。两个企业主体不同，合伙人不同，但法人代表都是关强，注册地址非常接近，则基本可以判断京东中美医院的“关强”就是京东中美宾馆的“关强”。

因此，企业的合伙投资人的相似度值不为1，企业之间没有投资和业务往来关系，并且企业字号不同，且但是注册地址却可以匹配时，基本上可判断上述的企业D(河北腾拓软件科技有限公司)和E(河北博士林科技开发有限公司)的“李雷”是同一人。

假设企业A、B、C、D、E、F在步骤b)和步骤c)、d)、e)处理之后，在依次进行了企业的合伙投资人的相似度值的判断，投资和参股关系判断、关联业务关系判断、字号比较、地址匹配判断之后，最后的结果如下：

李雷¹	李雷²
		企业A、B、C	企业D、E、F

由此可以判断通过姓名“李雷”搜集的企业A、B、C、D、E、F、的6个企业，实际被合并到两个不同的李雷名义(索引)之下。因此，在查询企业A的李雷时，可以准确的查询到此李雷在企业B、C中还任职重要职位，进而对此李雷有一个全面的认识。

尽管已经参照某些实施例公开了本发明，但是在不背离本发明的范围和范畴的前提下，可以对所述的实施例进行多种变型和修改。因此，应该理解本发明并不局限于所阐述的实施例，其保护范围应当由所附权利要求的内容及其等价的结构和方案限定。

Claims

1.一种企业征信人名重名消歧的方法，适于在计算机设备中执行，该方法包括：

步骤d)：根据步骤c)得到的类簇，罗列各类簇中企业名称，提取企业字号，计算任两个类簇内企业字号之间的相似度值，若计算某两个类簇内企业字号存在至少一个相似度值为1的情况，则将该两个类簇归并为一个类簇，否则不归并；

步骤e)：构建爬虫程序，爬取企业之间的业务往来关系，比较步骤d)得到的类簇中任两个类簇的企业之间业务往来关系，将存在关联业务关系的企业所对应的类簇归并为一个类簇，否则不归并；

2.根据权利要求1所述的方法，其特征在于：步骤a)中所述的企业关键人物包括企业的法人代表、股东及高级管理人员。

3.根据权利要求1所述的方法，其特征在于：所述步骤c)所述的投资参股关系是通过数据爬虫得到，具体是通过构建爬虫程序，爬取网络资料中有关某一个企业的义项，获得一个类簇中包含的所有的公司的对外投资清单，比较这些清单中的企业名称是否存在与另一个类簇中所包含的企业名称相同的情况，若存在相同的情况；则将这两个类簇合并为一个类簇；否则不合并。

4.根据权利要求1所述的方法，其特征在于：步骤d)所述的提取企业字号，依据企业名称是由行政区划+字号+行业属性+组织形式构成的特性，采用双向最大匹配法或神经网络(可参见2008年，麦范金,王挺发表于现代图书情报技术的文章基于双向最大匹配和HMM的分词消歧模型和1993年，徐秉铮,詹剑,贺前华发表于中文信息学报的文章基于神经网络的分词方法)提取企业字号。

5.根据权利要求1所述的方法，其特征在于：步骤b)所述计算两个企业关键人物姓名的相似度值的计算公式为：

6.一种可解决企业征信人名重名问题的征信系统，所述系统包括处理器，适于实现各指令；以及存储设备，适于存储多条指令；所述指令适于由处理器加载并执行，所述指令用于实现如下程序：

7.根据权利要求6所述的征信系统，其特征在于：步骤a)中所述的企业关键人物包括企业的法人代表、合伙人、股东和高级管理人员。

8.根据权利要求6所述的方法，其特征在于：所述步骤c)所述的投资参股关系是通过数据爬虫得到，具体是通过构建爬虫程序，爬取网络资料中有关某一个企业的义项，获得一个类簇中包含的所有的公司的对外投资清单，比较这些清单中的企业名称是否存在与另一个类簇中所包含的企业名称相同的情况，若存在相同的情况；则将这两个类簇合并为一个类簇；否则不合并。

9.根据权利要求6所述的征信系统，其特征在于，步骤d)所述的提取企业字号，依据企业名称是由行政区划+字号+行业属性+组织形式构成的特性，采用双向最大匹配法、双向神经网络或深度学习法提取企业字号。

10.根据权利要求6任一项所述的征信系统，其特征在于：步骤b)所述计算两个企业关键人物姓名的相似度值的计算公式为：