CN111221873A - 基于关联网络的企业间同名人识别方法及系统 - Google Patents

基于关联网络的企业间同名人识别方法及系统 Download PDF

Info

Publication number
CN111221873A
CN111221873A CN201911424405.7A CN201911424405A CN111221873A CN 111221873 A CN111221873 A CN 111221873A CN 201911424405 A CN201911424405 A CN 201911424405A CN 111221873 A CN111221873 A CN 111221873A
Authority
CN
China
Prior art keywords
same
investment
natural
enterprise
name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911424405.7A
Other languages
English (en)
Inventor
曾途
吴桐
杨李伟
刘世林
李焕
韩远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Business Big Data Technology Co Ltd
Original Assignee
Chengdu Business Big Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Business Big Data Technology Co Ltd filed Critical Chengdu Business Big Data Technology Co Ltd
Priority to CN201911424405.7A priority Critical patent/CN111221873A/zh
Publication of CN111221873A publication Critical patent/CN111221873A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Software Systems (AREA)
  • Economics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及基于关联网络的企业间同名人识别方法及系统;本发明方法及系统利用企业投资关系的远近来辅助判断不同企业间相同姓名的自然人是否是同一人。当两个企业投资关系度数小于设置阈值时,认为这两个企业间相同姓名的自然人是同一人。充分挖掘数据的关联性,发挥数据集成分析的优势;利用投资关联关系的特性,使用企业数据本身的特性,在不多依赖其他数据的情况下,对不同企业的重要同名自然人是否是同一自然人做出较为准确的判断,极大减少计算的开销。

Description

基于关联网络的企业间同名人识别方法及系统
技术领域
本发明涉及自然语言处理技术领域,特别涉及基于关联网络的企业间同名人识别方法及系统。
背景技术
随着大数据技术的发展,对于不同数据源中的自然人是否是同一的判断越来越重要;自然人重名的情况十分常见,再者现实生活中,经常出现同一自然人投资多家企业的情况。大数据技术中,将企业和股东、高管等信息抽离出来建立起知识图谱,对于市场调查,投资分析,金融监管等领域有十分重要的应用。目前的情况是大多数数据来源都不会公布身份证信息;一则进行隐私保护,二则信息简化;比如工商登记信息中也不含有股东等人的身份证信息。而且从其他海量的非正式文本比如新闻、舆情等中获取的数据中更加不会含有身份证信息。
当将多个数据源中的信息提取出来时进行关联分析时,身份的唯一性识别就变得非常重要。比如说在绘制关联图谱时,如果不能判断不同企业信息的自然人是同一个人,则不会将图谱进行合并,不能建立起不同企业间的事实关联信息。再如在不确定同名的两个人是同一个人的情况下,贸然将不同的数据进行合并,则可能产生关联网络构建的错误。
近几年同名人识别可以划分到机器学习中的分类问题。利用企业间同名人的其他信息构建特征,用分类算法判断两个同名人是否是同一人。相同的投资人、高管将不同企业紧密联系起来。能够准确、全面的识别不同企业中的同名人是否为同一人,对于企业信用评估,风险传播具有重要意义。
相比于其他应用场合的相同姓名自然人识别,企业投资关系中的自然人唯一性识别尤为重要,企业作为现代社会活动的主要载体,承载着很大比例的就业和投资,影响整个社会活动。目前识别企业间同名人的方法主要依赖于数据,如招聘数据、身份证数据。然而这些数据涉及到个人隐私问题,获取难度大,并且覆盖的范围很有限。
发明内容
本发明的目的在于提供基于关联网络的企业间同名人识别方法及系统;充分挖掘数据的关联性,发挥数据集成分析的优势;利用投资关联关系的特性,使用企业数据本身的特性,在不多依赖其他数据的情况下,对不同企业的重要同名自然人是否是同一自然人做出较为准确的判断,极大减少计算的开销。
为解决上述技术问题,本发明实施例提供了以下技术方案:
一种基于关联网络的企业间同名人识别方法,利用企业投资关系的远近来辅助判断不同企业间相同姓名的自然人是否是同一人。当两个企业投资关系度数小于设置阈值时,认为这两个企业间相同姓名的自然人是同一人。本专利中自然人为企业的主要股东、董事、监事、高管等。
包括以下步骤:
在判断A企业中姓名为a的自然人和B企业中姓名为a的自然人是否为同一自然人时;
获取A、B之间的最短企业投资关系路径;
当A、B之前的最短企业投资关联路径小于设置的阈值时,将A企业中姓名为a的自然人和B企业中姓名为a的自然人判断为同一自然人。
进一步的,为了使得判断的结果更加准确,添加辅助判断信息,进行交叉验证。包含以下过程:
进一步的,在判断A企业中姓名为a的自然人和B企业中姓名为a的自然人是否为同一自然人时;
查询A企业与B企业的自然人姓名交集;
如果A企业与B企业的自然人交集中自然人数目大于设置阈值;且通过获取到的A、B之间的最短企业投资关系路径小于设置的阈值时;将A企业中姓名为a的自然人和B企业中姓名为a的自然人判断为同一自然人,并将A企业与B企业的自然人姓名交集中的其他相同姓名自然人判断判断为同一自然人。
进一步的,获取企业A到企业B的所有投资路径;当A到B投资路径度数中有至少两条满足设置阈值时;计算满足条件的路径条数,当满足条件的路径条数大于阈值的,判断两企业间的相同姓名的自然人为同一自然人。
进一步的,设置第一投资路径长度阈值,第二投资路径长度阈值;当A到B最短投资路长度小于第一投资路径长度阈值时,将A和B中的相同姓名的自然人判断为同一自然人;当A到B最短投资路长度介于第一投资路径长度阈值和第二投资路径长度阈值之间时,计算满足条件的路径条数,当满足条件的路径条数达到设置阈值时,将A和B中的相同姓名的自然人判断为同一自然人。
使用最短投资路径度数、投资路径条数、多个相同姓名自然人组合特征来判断不同企业间相同姓名的自然人是否是同一人。
y=k1X1+k1X2+k3X3;其中y不同企业同名自然人为同一人的概率,X1为最短投资路径、X2符合阈值的投资路径的条数、X3为两企业间相同姓名自然人个数,k1、k2、k3为对应系数。
进一步的,本发明提供一种基于关联网络的企业间同名人识别系统;包含数据获取模块,数据存储模块;数据处理模块;
所述数据获取模块,获取待分析目标的相关数据;
所述数据存储模块存储包括数据获取模块和数据处理模块的输出的数据;
所述数据处理模块;通过上述基于关联网络的企业间同名人识别方法完成判断不同企业信息中相同姓名的自然人是否是同一人。
进一步的,本发明提供了一种电子设备,所述电子设备,所述电子设备包含存储器和处理器,所述存储器和处理器相连,所述处理器通过本发明方法来完成判断不同企业信息中相同姓名的自然人是否是同一人。
进一步的,本发明提供一种包括计算机可读指令的计算机可读存储介质,所述计算机可读指令使得电子设备执行本发明方法所包含的操作步骤。
与现有技术相比,本发明方法及系统具有以下有益效果:本发明方法及系统利用企业投资关系的远近来辅助判断不同企业间相同姓名的自然人是否是同一人。当两个企业投资关系度数小于设置阈值时,认为这两个企业间相同姓名的自然人是同一人。企业投资关系的远近在很大程度上会反应出企业之间的密切程度;如果投资关系很近的两家企业在主要股东和董监高中包含姓名相同的自然人;那么该自然是同一自然人的概率很高。将关联关系远近作为判断相同姓名自然人是否是同一自然人的依据,在企业最短投资路径判断技术成熟的基础上,巧妙应用企业关联关系进行交叉验证;极大的简化了自然人唯一性的判断计算过程,具有较高的准确性。为知识图谱的优化搭建,图谱推理调查等提供了优质数据保障。
另外为了增加判断的准确性,在投资关联路径的基础上,本发明方法系统还进一步采用了多个同名人,多重投资路径等复合交叉验证的机制;充分挖掘数据本身的特征;有效利用有限的数据来完成自然人的识别,在不需要身份证等敏感信息的基础上,准确识别企业同名自然人的唯一性。计算量小,适用性极强,计算确定后的结果依然不需要和身份证信息交互或联系,保证信息在合理合规的范围内使用,极大保护了个人的隐私安全,在大数据企业相关分析中有特别重要的应用。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为实施例1所构建的关联关系图谱示意图。
图2为实施例4中所计算得到的投资路径示意图。
图3为实施例4中所计算得到的投资路径示意图。
图4为实施例4中所计算得到的投资路径示意图。
图5为实施例4中所计算得到的投资路径示意图。
图6为实施例4中所计算得到的投资路径示意图。
图7为实施例5中所述的电子设备的示意框图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
为解决上述技术问题,本发明实施例提供了以下技术方案:
一种基于关联网络的企业间同名人识别方法,利用企业投资关系的远近来辅助判断不同企业间相同姓名的自然人是否是同一人。当两个企业投资关系度数小于设置阈值时,认为这两个企业间相同姓名的自然人是同一人。企业投资关系的远近在很大程度上会反应出企业之间的密切程度;如果投资关系很近的两家企业在主要股东和高管中包含姓名相同的自然人;那么该自然是同一自然人的概率很高。将关联关系远近作为判断相同姓名自然人是否是同一自然人的依据,在企业最短投资路径判断技术成熟的基础上,巧妙应用企业关联关系;知识图谱技术等,极大的简化了自然人唯一性的判断计算过程,具有较高的准确性。为知识图谱的优化搭建,图谱推理调查等提供了数据保障。
具体的包括以下步骤:
在判断A企业中姓名为a的自然人和B企业中姓名为a的自然人是否为同一自然人时;
获取A、B之间的最短企业投资关系路径;获取企业最短投资路径的过程如下:根据数据库中存储的各个企业的投资关系,构建企业出待分析的两个企业之间的投资关系图谱;并根据投资关系图谱计算出两个企业之间的最短路径。
当AB之前的最短企业投资关联路径小于设置的阈值时,将A企业中姓名为a的自然人和B企业中姓名为a的自然人判断为同一自然人。
进一步的,为了使得判断的结果更加准确,添加辅助判断信息,进行交叉验证。包含以下过程:
在判断A企业中姓名为a的自然人以及姓名为b的自然人;B企业中姓名为a的自然人以及姓名为b的自然人;在判断两个企业中的a和b是否分别是同一自然人时;
获取AB之间的最短企业投资关系路径;
当AB之前的最短企业投资关联路径小于设置的阈值时,将A企业中姓名为a的自然人以及姓名为b的自然人和B企业中姓名为a的自然人及姓名为b的自然人,分别判断为同一自然人;否则将A企业中姓名为a的自然人以及姓名为b的自然人和B企业中姓名为a的自然人及姓名为b的自然人,分别判断为非同一自然人。另外为了增加判断的准确性,在关联关系的基础上,本发明方法系统还进行了交叉验证的机制;分析两个企业间相同姓名主要股东、董监高的交集;考察是否具有多个同名人同时出现在待分析企业中;在企业投资领域主要股东和董监高往往存在较强的互动性,可能在多家企业中共同担任股东和董监高的职务。在投资关联关系较近且有多个同名自然人为主要股东或者董监高时,则多个同名自然人分别属于同一自然人的概率极高。此交叉验证提高了判断的准确度。
进一步的,在判断A企业中姓名为a的自然人和B企业中姓名为a的自然人是否为同一自然人时;
查询A企业与B企业的自然人姓名交集;所述自然人交集是指A企业与B企业数据中全部相同姓名的集合;
如果A企业与B企业的自然人交集中自然人数目大于设置阈值;且通过获取到的AB之间的最短企业投资关系路径小于设置的阈值时;比如A企业和B企业都包含姓名为a、b、c的自然人,且A企业和B企业具有很紧密的投资关系;将A企业中姓名为a的自然人和B企业中姓名为a的自然人判断为同一自然人,并将A企业与B企业的自然人姓名交集中的其他相同姓名自然人判断判断为同一自然人。此方式判断同一自然人的判断准确率高;交叉验证,且同时可以判断数个同名人为同一自然人的方式,提高了计算效率。
进一步的,获取企业A到企业B的所有投资路径(可以限定最高投资路径的长度,比如5度,超过5度投资路径的图谱构造比较复杂,而且关联关系很弱);当A到B投资路径度数中有至少两条满足设置阈值,此处阈值可以等于或者小于最高的投资路径时;取出投资路径长度小于设定阈值的全部投资路径,计算满足条件的路径条数,当满足条件的路径条数大于阈值的,判断两企业间的相同姓名的自然人为同一自然人。投资路径多少反映企业间密切程度,多条近距离的投资路径,反映出企业极为密切的关联关系,作为相同姓名自然人为同一人的强判断依据,具有较高的准确度,计算过程简单;当在判断和梳理海量数据时,简单有效的计算方式可以极大减少计算开销。
进一步的,设置第一投资路径长度阈值,第二投资路径长度阈值;当A到B最短投资路长度小于第一投资路径长度阈值时,将A和B中的相同姓名的自然人判断为同一自然人;当A到B最短投资路长度介于第一投资路径长度阈值和第二投资路径长度阈值之间时,计算满足条件的路径条数,当满足条件的路径条数达到设置阈值时,将A和B中的相同姓名的自然人判断为同一自然人。某些情况下,相同自然人相关的企业可能不具有直接的投资路径,但是可能存在多条比较近的间接投资路径。将多条间接投资路径纳入同名自然人的判断依然具有较高的准确性。在直接路径不足的情况下,充分利用数据关联关系,在有限的数据纬度情况下,充分挖掘投资路径信息,为同一自然人确定提供准确依据。
进一步的,上述最短投资路径度数、投资路径条数、多个相同姓名自然人和关键字相似性特征可以进行组合使用。比如y=k1X1+k1X2+k3X3;其中y不同企业同名自然人为同一人的概率,X1为最短投资路径、X2符合阈值的投资路径的条数、X3为两企业间相同姓名自然人个数,k1、k2、k3为对应系数。
进一步的,本发明提供一种基于关联网络的企业间同名人识别系统;包含数据获取模块,数据存储模块;数据处理模块;
所述数据获取模块,获取待分析目标的相关数据;
所述数据存储模块存储包括数据获取模块和数据处理模块的输出的数据;
所述数据处理模块;通过上述基于关联网络的企业间同名人识别方法完成判断不同企业信息中相同姓名的自然人是否是同一人。
进一步的,本发明提供了一种电子设备,所述电子设备,所述电子设备包含存储器和处理器,所述存储器和处理器相连,所述处理器通过本发明方法来完成判断不同企业信息中相同姓名的自然人是否是同一人。
进一步的,本发明提供一种包括计算机可读指令的计算机可读存储介质,所述计算机可读指令使得电子设备执行本发明方法所包含的操作步骤。
实施例1
获取公司的基础数据。主要包括企业名、公司主要股东和高管、董事、监事等相关自然人名、企业上下游投资企业名等。这些数据是企业的基本数据,属于企业信息公开的内容,在公开的渠道上可以获取。
计算同名人关联的公司数目;抽取公司名关键字;以公司为节点公司间的投资关系为边,构建投资网络;比如数据库中存在这样的数据:
A企业的上下游投资企业如下表
A C
A E
A D
A F
B企业的上下游投资企业如下表
B H
B G
B K
C企业的上下游投资企业如下表
C A
C H
C K
D企业的上下游投资企业如下表
Figure BDA0002352529150000101
Figure BDA0002352529150000111
则可构建如图1所示的投资网络;若A企业和C企业具有相同姓名的自然人:c。计算企业A、C之间的最短投资距离度数为1;假设系统事先设置关联企业的同名自然人为同一人判断路径的阈值为2;那么此时可以将A企业和C企业的同名c自然人判断为同一人。
实施例2
投资数据与实施例1相同;若A企业和G企业具有相同姓名的自然人:a、g等。计算企业A、G之间的最短投资距离度数为3;假设同名自然人的判断阈值为2,最短投资路径判断阈值为3,则A、G之间的同名自然人a、g分别判断为同一人。
实施例3
投资数据与实施例1相同;若A企业和B企业具有相同姓名的自然人:a、b、c等。计算企业A、B之间的最短投资距离度数为4;假设同名自然人的判断阈值为3,最短投资路径判断阈值为4,则A、B之间的同名自然人a、b、c等分别判断为同一人。
实施例4
投资数据与实施例1相同;计算企业A到B的所有路径包括:如图2、3、4、5、6所示A-C-H-B,A-C-K-B,A-D-G-B,A-E-D-B,A-F-D-G-B;最短路径为包括:A-C-H-B;A-C-K-B;A-D-G-B。具有小于预先设置阈值4的路径有3条,将企业A和B之间的相同姓名自然人a判断为同一人。
实施例5
如图7所示,本实施例同时提供了一种电子设备来实施上述企业同名人判断方法;该电子设备可以包括处理器51和存储器52,其中存储器52耦合至处理器51。值得注意的是,该图是示例性的,还可以使用其他类型的结构来补充或替代该结构。
如图7所示,该电子设备还可以包括:输入单元53、显示单元54和电源55。值得注意的是,该电子设备也并不是必须要包括图3中显示的所有部件。此外,电子设备还可以包括图3中没有示出的部件,可以参考现有技术。
处理器51有时也称控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该处理器51接收输入并控制电子设备的各个部件的操作。
其中,存储器52例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其他合适装置中的一种或多种,可存储上述处理器51的配置信息、处理器51执行的指令、记录信息。处理器51可以执行存储器52存储的程序,以实现信息存储或处理等。在一个实施例中,存储器52中还包括缓冲存储器,即缓冲器,以存储中间信息。
输入单元53例如用于向处理器51提供待标注的文本数据。显示单元54用于显示处理过程中的各种结果,该显示单元例如可以为LCD显示器,但本发明并不限于此。电源55用于为电子设备提供电力。
本发明实施例还提供一种计算机可读指令,其中当在电子设备中执行所述指令时,所述程序使得电子设备执行本发明方法所包含的操作步骤。
本发明实施例还提供一种存储有计算机可读指令的存储介质,其中所述计算机可读指令使得电子设备执行本发明方法所包含的操作步骤。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的模块,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成模块及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.基于关联网络的企业间同名人识别方法,其特征在于,利用企业投资关系的远近来辅助判断不同企业间相同姓名的自然人是否是同一人。
2.如权利要求1所述的方法,其特征在于,在判断A企业中姓名为a的自然人和B企业中姓名为a的自然人是否为同一自然人时;
获取A、B之间的最短企业投资关系路径;
当A、B之前的最短企业投资关联路径小于设置的阈值时,将A企业中姓名为a的自然人和B企业中姓名为a的自然人判断为同一自然人。
3.如权利要求1所述的方法,其特征在于,查询A企业与B企业的自然人姓名交集;
如果A企业与B企业的自然人交集中自然人数目大于设置阈值;且通过获取到的A、B之间的最短企业投资关系路径小于设置的阈值时;将A企业中姓名为a的自然人和B企业中姓名为a的自然人判断为同一自然人。
4.如权利要求1所述的方法,其特征在于,获取企业A到企业B的所有投资路径;当A到B投资路径度数中有至少两条满足设置阈值时;计算满足条件的路径条数,当满足条件的路径条数大于阈值的,判断两企业间的相同姓名的自然人为同一自然人。
5.如权利要求1所述的方法,其特征在于,设置第一投资路径长度阈值,第二投资路径长度阈值;当A到B最短投资路长度小于第一投资路径长度阈值时,将A和B中的相同姓名的自然人判断为同一自然人;当A到B最短投资路长度介于第一投资路径长度阈值和第二投资路径长度阈值之间时,计算满足条件的路径条数,当满足条件的路径条数达到设置阈值时,将A和B中的相同姓名的自然人判断为同一自然人。
6.如权利要求1所述的方法,其特征在于,使用最短投资路径度数、投资路径条数、多个相同姓名自然人组合特征来判断不同企业间相同姓名的自然人是否是同一人。
7.如权利要求6所述的方法,其特征在于,y=k1X1+k1X2+k3X3;其中y不同企业同名自然人为同一人的概率,X1为最短投资路径、X2符合阈值的投资路径的条数、X3为两企业间相同姓名自然人个数,k1、k2、k3为对应系数。
8.基于关联网络的企业间同名人识别系统,其特征在于:包含数据获取模块,数据存储模块;数据处理模块;
所述数据获取模块,获取待分析目标的相关数据;
所述数据存储模块存储包括数据获取模块和数据处理模块的输出的数据;
所述数据处理模块;通过权利要求1至7之一所述方法完成判断不同企业信息中相同姓名的自然人是否是同一人。
9.一种电子设备,其特征在于,所述电子设备,所述电子设备包含存储器和处理器,所述存储器和处理器相连,所述处理器通过权利要求1至7之一所述方法完成判断不同企业信息中相同姓名的自然人是否是同一人。
10.一种包括计算机可读指令的计算机可读存储介质,所述计算机可读指令使得电子设备执行权利要求1至7之一所述方法包含的操作步骤。
CN201911424405.7A 2019-12-31 2019-12-31 基于关联网络的企业间同名人识别方法及系统 Pending CN111221873A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911424405.7A CN111221873A (zh) 2019-12-31 2019-12-31 基于关联网络的企业间同名人识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911424405.7A CN111221873A (zh) 2019-12-31 2019-12-31 基于关联网络的企业间同名人识别方法及系统

Publications (1)

Publication Number Publication Date
CN111221873A true CN111221873A (zh) 2020-06-02

Family

ID=70830956

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911424405.7A Pending CN111221873A (zh) 2019-12-31 2019-12-31 基于关联网络的企业间同名人识别方法及系统

Country Status (1)

Country Link
CN (1) CN111221873A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112036692A (zh) * 2020-07-28 2020-12-04 中译语通科技股份有限公司 一种人员在机构间流动情况的分析方法及分析系统
CN112528096A (zh) * 2020-12-15 2021-03-19 航天信息股份有限公司 企业分析方法、存储介质以及电子设备
CN112801798A (zh) * 2021-04-08 2021-05-14 成都数联铭品科技有限公司 关联网络的影响传播分析和模式识别方法、系统、设备

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112036692A (zh) * 2020-07-28 2020-12-04 中译语通科技股份有限公司 一种人员在机构间流动情况的分析方法及分析系统
CN112036692B (zh) * 2020-07-28 2024-06-07 中译语通科技股份有限公司 一种人员在机构间流动情况的分析方法及分析系统
CN112528096A (zh) * 2020-12-15 2021-03-19 航天信息股份有限公司 企业分析方法、存储介质以及电子设备
CN112528096B (zh) * 2020-12-15 2024-05-07 航天信息股份有限公司 企业分析方法、存储介质以及电子设备
CN112801798A (zh) * 2021-04-08 2021-05-14 成都数联铭品科技有限公司 关联网络的影响传播分析和模式识别方法、系统、设备

Similar Documents

Publication Publication Date Title
Tiberius et al. Impacts of digitization on auditing: A Delphi study for Germany
CN107633265B (zh) 用于优化信用评估模型的数据处理方法及装置
US20190164015A1 (en) Machine learning techniques for evaluating entities
US9158772B2 (en) Partial and parallel pipeline processing in a deep question answering system
US20140172880A1 (en) Intelligent evidence classification and notification in a deep question answering system
CN111652667A (zh) 一种企业主要相关自然人实体数据对齐方法
CN111221873A (zh) 基于关联网络的企业间同名人识别方法及系统
Zhu et al. Firm risk identification through topic analysis of textual financial disclosures
Cheng et al. Is cloud computing the digital solution to the future of banking?
CN110442713A (zh) 文章管理方法、装置、计算机设备和存储介质
CN111241153A (zh) 企业自然人实体综合判断对齐方法及系统
CN105405051A (zh) 金融事件预测方法和装置
CN111179055A (zh) 授信额度调整方法、装置和电子设备
Bekhet et al. The dynamic causality between FDI inflow and its determinants in Jordan
Mengelkamp et al. Corporate credit risk analysis utilizing textual user generated content-a twitter based feasibility study
Owda et al. Financial discussion boards irregularities detection system (fdbs-ids) using information extraction
WO2019218517A1 (zh) 服务器、文本数据的处理方法及存储介质
US20210073247A1 (en) System and method for machine learning architecture for interdependence detection
KR20230103025A (ko) 기업 신용 분석 및 평가 정보 제공 방법, 장치 및 시스템
Yusoff et al. Relationship between conventional and Islamic interbank rates of a dual banking system in Malaysia, Middle East, and Western countries
CN113849618A (zh) 基于知识图谱的策略确定方法、装置、电子设备及介质
Lee et al. Application of machine learning in credit risk scorecard
Zang Construction of Mobile Internet Financial Risk Cautioning Framework Based on BP Neural Network
CN113191137A (zh) 一种操作风险获取方法、系统、电子设备及存储介质
Liu Artificial Intelligence and Machine Learning based Financial Risk Network Assessment Model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200602