CN112860677A

CN112860677A - 实体判重方法、终端设备及存储介质

Info

Publication number: CN112860677A
Application number: CN202110213526.8A
Authority: CN
Inventors: 王帆; 向月廷; 王佟; 郝丁魁; 许明峰
Original assignee: SHENZHEN STOCK EXCHANGE
Current assignee: SHENZHEN STOCK EXCHANGE
Priority date: 2021-02-25
Filing date: 2021-02-25
Publication date: 2021-05-28
Anticipated expiration: 2041-02-25
Also published as: CN112860677B

Abstract

本发明公开了一种实体判重方法、终端设备及存储介质，其中，所述方法包括以下步骤：获取第一实体和第二实体对应的字符串特征和网络结构特征，其中，所述第一实体和所述第二实体为自然人实体；根据所述字符串特征确定所述第一实体和所述第二实体之间的相似度；在所述相似度小于预设阈值时，根据所述网络结构特征确定所述第一实体和所述第二实体的判重结果。达成了提高去重方案的普适性的效果。

Description

实体判重方法、终端设备及存储介质

技术领域

本发明涉及实体去重技术领域，尤其涉及实体判重方法、终端设备及计算机可读存储介质。

背景技术

自然人实体去重在数据融合场景中的应用极为广泛。在相关数据融合场景中，为了实现自然人实体去重的目的，一般需要获取待去重的自然人的身份证号，从而通过自然人身份证号进行实体去重，以进行数据融合。但是，在许多场景下，限于自然人隐私保护等客观因素，无法获取到每一自然人的身份证号。从而无法达到去重的效果。这样导致相关的去重方案的局限性较大。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供一种实体判重方法、终端设备及计算机可读存储介质，旨在达成提高去重方案的普适性的效果。

为实现上述目的，本发明提供一种实体判重方法，所述实体判重方法包括以下步骤：

获取第一实体和第二实体对应的字符串特征和网络结构特征，其中，所述第一实体和所述第二实体为自然人实体；

根据所述字符串特征确定所述第一实体和所述第二实体之间的相似度；

在所述相似度小于预设阈值时，根据所述网络结构特征确定所述第一实体和所述第二实体的判重结果。

可选地，所述网络结构特征包括以下至少一个：

所述第一实体对应的第一公司与所述第二实体对应的第二公司之间的拓扑距离；

所述第一公司和所述第二公司之间的同名实体对的数量；

所述第一实体对所述第一公司的控股比例，与所述第二实体对所述第二公司的控股比例之间的控股比例差值。

可选地，所述根据所述网络结构特征确定所述第一实体和所述第二实体的判重结果的步骤包括：

在所述网络结构特征满足预设条件时，判定所述第一实体和所述第二实体为重复实体，其中，所述预设条件包括以下至少一个：

所述拓扑距离小于预设拓扑距离；

所述同名实体对的数量大于预设数量；

所述控股比例差值小于预设数值。

可选地，所述获取第一实体和第二实体对应的字符串特征和网络结构特征的步骤包括：

爬取所述第一实体和所述第二实体关联工商数据，并根据所述工商数据生成确定拓扑关系数据；

通过最短路径算法计算，基于拓扑关系数据确定所述拓扑距离；以及

获取所述字符串特征。

可选地，所述字符串特征包括多个文本子特征，所述根据所述字符串特征确定所述第一实体和所述第二实体之间的相似度的步骤包括：

确定各个文本子特征之间的子相似度，其中，所述文本子特征包括：姓名、所在公司对应的名称、所在公司对应的行业和/或所在公司对应的地理位置；

根据所述各个所述文本子特征之间的所述子相似度，确定所述第一实体和所述第二实体之间的相似度。

可选地，所述根据所述字符串特征确定所述第一实体和所述第二实体之间的相似度的步骤之后，还包括：

在所述相似度大于或者等于所述预设阈值时，判定所述第一实体和所述第二实体为重复实体。

可选地，所述获取第一实体和第二实体对应的字符串特征和网络结构特征，其中，所述第一实体和所述第二实体为自然人实体的步骤之前，还包括：

获取待去重公司列表，并基于所述待去重公司列表确定目标公司，其中，所述目标公司为所述待去重公司列表中的公司的邻域内的公司；

确定所述待去重公司列表与所述目标公司对应的重名实体对；

根据所述重名实体对确定所述第一实体和所述第二实体。

可选地，所述在所述相似度小于预设阈值时，根据所述网络结构特征确定所述第一实体和所述第二实体的判重结果的步骤之后，还包括：

在所述判重结果为所述第一实体和所述第二实体为重复实体时，融合所述第一实体和所述第二实体关联的数据。

此外，为实现上述目的，本发明还提供一种终端设备，所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的实体判重程序，所述实体判重程序被所述处理器执行时实现如上所述的实体判重方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有实体判重程序，所述实体判重程序被处理器执行时实现如上所述的实体判重方法的步骤。

本发明实施例提出的一种实体判重方法、终端设备及计算机可读存储介质，先获取第一实体和第二实体对应的字符串特征和网络结构特征，其中，所述第一实体和所述第二实体为自然人实体，然后根据所述字符串特征确定所述第一实体和所述第二实体之间的相似度，进而在所述相似度小于预设阈值时，根据所述网络结构特征确定所述第一实体和所述第二实体的判重结果，由于可以根据实体的字符串特征和网络结构特征，因此，即便在无法获取实体对应的身份证信息时，也能准确的确定实体是否为重复实体，从而提高了实体去重方案的普适性。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图；

图2为本发明实体判重方法的一实施例的流程示意图；

图3为本发明实施例涉及的拓扑关系示意图；

图4为本发明实体判重方法的一实施例中的一种可选实施方案的流程示意图；

图5为本发明实体判重方法的另一实施例的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为解决相关技术的上述缺陷，本发明实施是提出一种实体判重方法、终端设备及计算机可读存储介质，其中，上述方法的主要解决方案，包括以下步骤：

由于可以根据实体的字符串特征和网络结构特征，因此，即便在无法获取实体对应的身份证信息时，也能准确的确定实体是否为重复实体，从而提高了实体去重方案的普适性。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图。

本发明实施例终端可以是PC机或者服务器等终端设备。

如图1所示，该终端可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)、鼠标等，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及实体判重程序。

在图1所示的终端中，网络接口1004主要用于连接其它终端，与其它终端进行数据通信；处理器1001可以用于调用存储器1005中存储的实体判重程序，并执行以下操作：

进一步地，处理器1001可以调用存储器1005中存储的实体判重程序，还执行以下操作：

所述第一公司和所述第二公司之间的同名实体对的数量；

所述拓扑距离小于预设拓扑距离；

所述同名实体对的数量大于预设数量；

所述控股比例差值小于预设数值。

获取所述字符串特征。

根据所述重名实体对确定所述第一实体和所述第二实体。

参照图2，在本发明实体判重方法的一实施例中，所述实体判重方法包括以下步骤：

步骤S10、获取第一实体和第二实体对应的字符串特征和网络结构特征，其中，所述第一实体和所述第二实体为自然人实体；

步骤S20、根据所述字符串特征确定所述第一实体和所述第二实体之间的相似度；

步骤S30、在所述相似度小于预设阈值时，根据所述网络结构特征确定所述第一实体和所述第二实体的判重结果。

作为一种应用示例，所述实体判重方法可以应用于基于实体关系进行数据融合的系统，例如，应用于自然人数据查询平台，或者也可以应用于证券监督管理平台等，需要对同一自然人实体进行数据融合的场景。

在本实施例中，所述第一实体和第二实体其表征的是自然人实体，因为，为判定所述第一实体和第二实体是否为同一实体，即所述第一实体和所述第二实体是否对应的为同一自然人。

在相关技术中，自然人实体去重在数据融合场景中的应用极为广泛。在相关数据融合场景中，为了实现自然人实体去重的目的，一般需要获取待去重的自然人的身份证号，从而通过自然人身份证号进行实体去重，以进行数据融合。但是，在许多场景下，限于自然人隐私保护等客观因素，无法获取到每一自然人的身份证号。从而无法达到去重的效果。这样导致相关的去重方案的局限性较大。因此，为解决相关技术存在的上述缺陷，本发明本实施例提出一种实体判重方法。旨在提高相关数据融合技术，在进行实体判重时，判重(去重需要先判同)方案的普适性。

进一步地，作为一种可选的实现方案，可以选获取第一实体和第二实体对应的字符串特征和网络结构特征。其中，所述字符串特征表征的为自然人关联的文本类数据对应的特征。例如，可以是所述实体的姓名、姓名的长度(当姓名为中文姓名时，其所述长度一般以字数和/或姓名的笔画数来量化描述、当所述姓名为外文姓名时，可以根据其显示长度或者包含的字符个数来量化描述，其中，所述显示长度是指，以相同字号和字体进行计算机显示时，其显示占用位置的大小。)、自然人所在公司的投资比例，自然人所在公司的名称、自然人所在公司对应的位置信息(例如可以包括公司的注册地址、实际办公地址等)，自然人所在公司对应的行业信息等多个文本子特征。

可选地，所述网络结构特征包括以下至少一个：

所述第一公司和所述第二公司之间的同名实体对的数量；

需要说明的是，所述拓扑距离是指两个实体对应的公司之间的关联关系之间的最小跳数。为使得本领域技术人员根据加直观的确定上述拓扑距离的含义，本实施例提出一种具体示例。可以理解的是，本示例并不用于限定本发明：

参照图3，本示例中，第一实体对应于第一公司，第二实体对应于第二公司。其中，第一公司与公司A之间存在投资关系(如公司A控股第一公司，或者第一公司控股公司A、或者公司A和第一公司存在相同的控股主体，等等)，公司A与公司B之间存在投资关系，公司B与第二公司之间存在投资关系。同理，于公司C和公司D而言。其与相邻公司之间存在投资关系关联。因此，基于上述关系可以构建如图3所示的拓扑关系图。根据所述拓扑关系图，基于最小路径算法，获取第一公司至第二公司的最小跳数。可以理解的是，在图3中，第一公司至第二公司之间的拓扑路径包括第一路径：第一公司-公司A-公司B-第二公司。该第一路径对应的跳数为3。第二路径：第一公司-公司C-公司D-公司B-第二公司。该第二路径对应的跳数为4。因此可以获取第一路径对应跳数作为所述第一公司与所述第二公司之间的拓扑距离。

示例性地，所述第一公司和所述第二公司之间的同名实体对的数量，是指所述第一公司和所述第二公司对应的，相同姓名的自然人的数量。例如，第一公司和第二公司均包括投资人和/或员工“张三”、“李四”和“王五”，则所述第一公司和所述第二公司之间的同名实体对的数量为3。

可以理解的是，在本示例中，可以先爬取所述第一实体和所述第二实体关联工商数据，并根据所述工商数据生成确定拓扑关系数据，即如图3示出的拓扑关系。然后通过最短路径算法计算，基于拓扑关系数据确定所述拓扑距离。

需要说明的是，在具体实施过程中，可以无需生成拓扑图，而直接确定对应的拓扑关系。图3示出的拓扑图，仅为便于理解所述拓扑关系的含义。当然，在一些系统中，也可以生成上述拓扑图。

所述第一实体对所述第一公司的控股比例，与所述第二实体对所述第二公司的控股比例之间的控股比例差值△。可以根据以下公式计算:

△＝|Y-E|

其中，Y为第一实体对A公司的控股比例，E为第二实体对第二公司的控股比例。其中，可以根据控股比例来确定是否为同一实体是因为，一般来说，相同实体对应的投资偏好相同，因此，可以将投资比例差值作为判重的一个因素。

需要说明的是，在本实施例中，在网络结构特征计算层面，采用了图计算(例如最短路径算法、弱连通图算法)以及图的免索引邻接。这样达成了提高确定第一实体和第二实体之间的网络特征的相似度的计算速度的效果。当然，这并不用于限定本发明仅能通过上述方式来确定网络特征相似度。

进一步地，在获取到所述第一实体和所述第二实体对应的字符串特征和网络结构特征后，根据所述字符串特征确定所述第一实体和所述第二实体之间的相似度。

具体地，所述字符串特征包括多个文本子特征，因可以先确定各个文本子特征之间的子相似度，其中，所述文本子特征包括：姓名、所在公司对应的名称、所在公司对应的行业和/或所在公司对应的地理位置，进而根据所述各个所述文本子特征之间的所述子相似度，确定所述第一实体和所述第二实体之间的相似度。

即先确定第一实体和第二实体之间的各个对应各个文本子特征对应的子相似度，然后累计各个子相似度，得出所述第一实体和第二实体之间的相似度。

示例性地，在一实施方案中，可以直接将各个子相似度的和，作为所述相似度。

在另一实施方案中，可以对所述各个子相似度进行加权求和，进而将加权求和的结果，作为所述相似度。

在本实施方案中，先确定所述第一实体之间姓名对应的第一子相似度，其中，姓名对应的第一子相似度可以根据其字符特征和文本长度特征综合确定。然后确定其所在公司名称特征对应的第二子相似度，计算其公司所在行业对应的第三子相似度，公司所在地区对应的第四子相似度等。

需要说明的是，在确定第四子相似度时，可以基于所在地区对应的行政地域划分确定。例如，以在中国为例，当仅所在省相同时，公司所在地区对应第四子相似度为第一数值，当仅所在市相同时，对应的第四子相似度为第二数，其中，第一数值小于第二数值。依此类推，对应的地区的行政级别越低，相似度越高。

当确定多个子相似度后，可以根据以下公式确定所述相似度X：

其中，n为子相似度的个数，β为各个子相似度对应的权重值x_i为子相似度。

进一步地，在确定所述第一实体和所述第二实体之间的相似度后，在所述相似度大于或者等于所述预设阈值时，直接判定所述第一实体和所述第二实体为重复实体。在所述相似度小于预设阈值时，根据所述网络结构特征确定所述第一实体和所述第二实体的判重结果。其中，所述预设阈值是预存的固定数值，可以根据系统设计，基于实际需求自定义调整。本实施例对此不作具体的限定。

具体地，在根据所述网络结构特征确定所述第一实体和所述第二实体的判重结果时，可以在所述网络结构特征满足预设条件时，判定所述第一实体和所述第二实体为重复实体，其中，所述预设条件包括以下至少一个：

所述拓扑距离小于预设拓扑距离；

所述同名实体对的数量大于预设数量；

所述控股比例差值小于预设数值。

可选地，参照图4，作为一种实现方案，所述步骤S30之后，还包括：

步骤S40、在所述判重结果为所述第一实体和所述第二实体为重复实体时，融合所述第一实体和所述第二实体关联的数据。

具体地，在确定第一实体和第二实体为同一实体(同一自然人)后，可以将所述第一实体关联的数据和第二实体关联数据，进行数据融合。以提高数据的完整性和数据关联的合理性。

在本实施例公开的技术方案中，先获取第一实体和第二实体对应的字符串特征和网络结构特征，其中，所述第一实体和所述第二实体为自然人实体，然后根据所述字符串特征确定所述第一实体和所述第二实体之间的相似度，进而在所述相似度小于预设阈值时，根据所述网络结构特征确定所述第一实体和所述第二实体的判重结果，由于可以根据实体的字符串特征和网络结构特征，因此，即便在无法获取实体对应的身份证信息时，也能准确的确定实体是否为重复实体，从而提高了实体去重方案的普适性。

参照图5，基于上述实施例，在另一实施例中，所述步骤S10之前，还包括：

步骤S50、获取待去重公司列表，并基于所述待去重公司列表确定目标公司，其中，所述目标公司为所述待去重公司列表中的公司的邻域内的公司；

步骤S60、确定所述待去重公司列表与所述目标公司对应的重名实体对；

步骤S70、根据所述重名实体对确定所述第一实体和所述第二实体。

在本实施例中，当需要对一个或者多个公司对应的实体对应的数据进行去重时，为了减少去重运算量。在本实施例中，可以获取该待去重的公司对应的公司列表，即待去重公司列表。进而根据所述待去重公司列表确定目标公司。其中，所述目标公司为所述待去重公司列表中的公司的邻域内的公司。

需要说明的是，在本实施例中，所述邻域内的公司1和公司2满足如下关系：

r1+r2-1＝r

其中，r1为公司1与一参照公司之间的拓扑距离，r2为公司2与所述参照公司之间的拓扑距离，r为预设的判断系数，为固定值。

进一步地，在确定目标公司后，计算待去重公司与其关系邻域内的目标公司之间的姓名相同的人物实体对。进而将每一所述人物实体对对应的自然人作为所述第一实体和所述第二实体。

可选地，在本实施例中，当前确定所述人物实体对中的重复实体后，对重复实体关联的数据进行数据融合。

可选地，在数据融合后，还可以通过用户接口输出融合后的数据。或者将融合后的数据，通过网络接口，发送至其他终端。

此外，本发明实施例还提出一种终端设备，所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的实体判重程序，所述实体判重程序被所述处理器执行时实现如上各个实施例所述的实体判重方法的步骤。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有实体判重程序，所述实体判重程序被处理器执行时实现如上各个实施例所述的实体判重方法的步骤。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是PC机或者服务器等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种实体判重方法，其特征在于，所述实体判重方法包括以下步骤：

2.如权利要求1所述的实体判重方法，其特征在于，所述网络结构特征包括以下至少一个：

所述第一公司和所述第二公司之间的同名实体对的数量；

3.如权利要求2所述的实体判重方法，其特征在于，所述根据所述网络结构特征确定所述第一实体和所述第二实体的判重结果的步骤包括：

所述拓扑距离小于预设拓扑距离；

所述同名实体对的数量大于预设数量；

所述控股比例差值小于预设数值。

4.如权利要求2所述的实体判重方法，其特征在于，所述获取第一实体和第二实体对应的字符串特征和网络结构特征的步骤包括：

获取所述字符串特征。

5.如权利要求1所述的实体判重方法，其特征在于，所述字符串特征包括多个文本子特征，所述根据所述字符串特征确定所述第一实体和所述第二实体之间的相似度的步骤包括：

6.如权利要求1所述的实体判重方法，其特征在于，所述根据所述字符串特征确定所述第一实体和所述第二实体之间的相似度的步骤之后，还包括：

7.如权利要求1所述的实体判重方法，其特征在于，所述获取第一实体和第二实体对应的字符串特征和网络结构特征，其中，所述第一实体和所述第二实体为自然人实体的步骤之前，还包括：

根据所述重名实体对确定所述第一实体和所述第二实体。

8.如权利要求1所述的实体判重方法，其特征在于，所述在所述相似度小于预设阈值时，根据所述网络结构特征确定所述第一实体和所述第二实体的判重结果的步骤之后，还包括：

9.一种终端设备，其特征在于，所述终端设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的实体判重程序，所述实体判重程序被所述处理器执行时实现如权利要求1至8中任一项所述的实体判重方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有实体判重程序，所述实体判重程序被处理器执行时实现如权利要求1至8中任一项所述的实体判重方法的步骤。