CN109189809B - 一种股东名称关联匹配的方法和装置 - Google Patents
一种股东名称关联匹配的方法和装置 Download PDFInfo
- Publication number
- CN109189809B CN109189809B CN201811210355.8A CN201811210355A CN109189809B CN 109189809 B CN109189809 B CN 109189809B CN 201811210355 A CN201811210355 A CN 201811210355A CN 109189809 B CN109189809 B CN 109189809B
- Authority
- CN
- China
- Prior art keywords
- shareholder
- matched
- names
- name
- matching
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种股东名称关联匹配的方法和装置,涉及数据处理的技术领域,包括:获取多个待匹配的股东名称;获取待匹配的股东名称的关联匹配信息,其中,关联匹配信息包括以下至少之一:各个待匹配的股东名称的拼音信息,待匹配的股东名称之间的名称差集,待匹配的股东名称的相似性度量值;基于关联匹配信息将多个待匹配的股东名称进行股东名称关联匹配,本发明解决了现有技术中股东名称匹配的准确度较低的技术问题。
Description
技术领域
本发明涉及数据处理技术领域,尤其是涉及一种股东名称关联匹配的方法和装置。
背景技术
随着互联网技术的迅猛发展,数据量的日益庞大,许多公开数据都为我们共同使用,公示系统作为一个公开的官方数据源,给我们提供了大量公司注册信息,其中股东的投资关系以及持股比例对于反映各个公司之间、老板与公司、老板与老板之间的利益关系十分重要。
目前公示数据中,年报公示的数据是由公司自行填写的,所以这里对于股东的数据(特别是名称)往往会存在登记错误的现象。
针对这种股东名称不一致的情况,通过观察数据可以看出,这些股东名称不一致的原因可以分为五种:第一是股东名称是同音词;第二是股东名称是形近词;第三是缺少或多余某些与公司命名关系不大的词;第四是前三种的组合情况;第五是确实公司的股东已经变更,而工商并没有及时更新。
当我们在使用这些股东数据时,如果只是简单的进行名称的字符比较,那么会认为是两家不同的公司,这样会导致许多公司没有股东的出资比例,严重影响后续的股权穿透分析和最终受益人计算等等。
针对上述问题,还未提出有效的解决方案。
发明内容
有鉴于此,本发明的目的在于提供一种股东名称关联匹配的方法和装置,以解决现有技术中股东名称匹配的准确度较低的技术问题。
第一方面,本发明实施例提供了一种股东名称关联匹配的方法,该方法包括:获取多个待匹配的股东名称;获取所述待匹配的股东名称的关联匹配信息,其中,所述关联匹配信息包括以下至少之一:各个待匹配的股东名称的拼音信息,待匹配的股东名称之间的名称差集,待匹配的股东名称的相似性度量值;基于所述关联匹配信息将所述多个待匹配的股东名称进行股东名称关联匹配。
进一步地,基于所述关联匹配信息将所述多个待匹配的股东名称进行股东名称关联匹配包括:获取各个待匹配股东名称的拼音信息;若比较出所述各个待匹配股东名称的拼音信息不同,则确定所述各个待匹配股东名称之间的名称差集:基于所述名称差集判断所述各个待匹配股东名称是否匹配;若否,则计算所述各个待匹配股东名称之间的相似性度量值;若所述相似性度量值大于或等于预设阈值,则确定所述多个待匹配股东名称匹配成功。
进一步地,所述方法还包括:若所述多个待匹配的股东名称的拼音信息相同,则确定所述多个待匹配的股东名称关联匹配成功。
进一步地,基于所述名称差集判断所述各个待匹配股东名称是否匹配包括:判断可忽略词表中是否包含所述名称差集;若否,则基于所述名称差集构建目标词对,其中,所述目标词对为所述名称差集中字形相似字构成的词对;判断字形相似词表是否包含所述目标词对;若是,则确定所述多个待匹配股东名称匹配成功;否则,计算所述各个待匹配股东名称之间的相似性度量值。
进一步地,计算所述各个待匹配股东名称之间的相似性度量值包括:计算第一字符长度和第二字符长度,其中,所述第一字符长度为所述多个待匹配的股东名称之间交集字符的字符长度,所述第二字符长度为所述多个待匹配的股东名称之间并集字符的字符长度;计算所述第一字符长度和所述第二字符长度之间的比值,并将所述比值确定为所述相似性度量值。
进一步地,所述方法还包括:若所述可忽略词表中包含所述名称差集,则确定所述多个待匹配的股东名称关联匹配成功。
进一步地,所述方法还包括:若所述相似性度量值小于所述预设阈值,则确定所述多个待匹配股东名称匹配失败。
进一步地,在获取多个待匹配的股东名称之前,所述方法还包括:获取多个预设股东名称,并对所述多个预设股东名称进行词频统计,得到统计结果;基于所述统计结果,确定可忽略词,并基于确定出的可忽略词构建所述可忽略词表;基于所述统计结果,确定所述多个预设股东名称所包含的文字中字形相似的词对,并基于确定出的字形相似的词对构建所述字形相似词表。
第二方面,本发明实施例提供了一种股东名称关联匹配的装置,该装置包括:第一获取单元,第二获取单元和匹配单元,其中,所述第一获取单元用于获取多个待匹配的股东名称;所述第二获取单元用于获取所述待匹配的股东名称的关联匹配信息,其中,所述关联匹配信息包括以下至少之一:各个待匹配的股东名称的拼音信息,待匹配的股东名称之间的名称差集,待匹配的股东名称的相似性度量值;所述匹配单元用于基于所述关联匹配信息将所述多个待匹配的股东名称进行股东名称关联匹配。
进一步地,所述匹配单元还用于:获取各个待匹配股东名称的拼音信息;若比较出所述各个待匹配股东名称的拼音信息不同,则确定所述各个待匹配股东名称之间的名称差集:基于所述名称差集判断所述各个待匹配股东名称是否匹配;若否,则计算所述各个待匹配股东名称之间的相似性度量值;若所述相似性度量值大于或等于预设阈值,则确定所述多个待匹配股东名称匹配成功。
在本发明实施例中,首先,获取多个待匹配的股东名称,接着,获取待匹配的股东名称的关联匹配信息,最后,基于关联匹配信息将多个待匹配的股东名称进行股东名称关联匹配。在本实施例中,采用上述关联匹配方法,能够更加准确的而进行股东名称的匹配,进而解决了现有技术中股东名称匹配的准确度较低的技术问题,从而实现了提高了股东名称匹配的准确度的技术效果。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种股东名称关联匹配的方法的流程图;
图2为本发明实施例提供的另一种股东名称关联匹配的方法的流程图;
图3为本发明实施例提供的另一种股东名称关联匹配的方法的流程图;
图4为本发明实施例提供的一种股东名称关联匹配的装置的示意图;
图5为本发明实施例提供的一种服务器的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一:
根据本发明实施例,提供了一种股东名称关联匹配的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的一种股东名称关联匹配的方法,如图1所示,该方法包括如下步骤:
步骤S102,获取多个待匹配的股东名称;
步骤S104,获取所述待匹配的股东名称的关联匹配信息,其中,所述关联匹配信息包括以下至少之一:各个待匹配的股东名称的拼音信息,待匹配的股东名称之间的名称差集,待匹配的股东名称的相似性度量值;
步骤S106,基于所述关联匹配信息将所述多个待匹配的股东名称进行股东名称关联匹配。
在本发明实施例中,首先,获取多个待匹配的股东名称,接着,获取待匹配的股东名称的关联匹配信息,最后,基于关联匹配信息将多个待匹配的股东名称进行股东名称关联匹配。在本实施例中,采用上述关联匹配方法,能够更加准确的而进行股东名称的匹配,进而解决了现有技术中股东名称匹配的准确度较低的技术问题,从而实现了提高了股东名称匹配的准确度的技术效果。
另外,由于登记错误的工商股东名称数据,将会出现股东的投资关系和持股比例出现计算错误等技术问题,本发明通过将登记错误的工商股东名称数据进行关联匹配,可以将指代同一个股东,但是在登记过程中出现登记错误的股东名称关联匹配为同一个股东的股东名称,进而能够有效的避免因股东名称登记错误,导致股东的投资关系和持股比例出现计算错误等问题的出现。
需要说明的是,执行上述步骤S102至步骤S106时,当上述的多个待匹配股东名称数量大于2时,可以通过下述方式进行股东名称关联匹配:
例如,当上述的多个待匹配股东名称数量为3时,即,多个待匹配股东名称包括:待匹配股东名称1,待匹配股东名称2和待匹配股东名称3。若要确定上述3个待匹配股东名称之间的股东名称关联匹配,则需要分别对待匹配股东名称1和待匹配股东名称2,待匹配股东名称1和待匹配股东名称3,以及待匹配股东名称2和待匹配股东名称3进行股东名称关联匹配,从而确定上述的3个待匹配股东名称之间的股东名称关联匹配是否成功。
当待匹配股东名称1和待匹配股东名称2股东名称关联匹配成功,待匹配股东名称1和待匹配股东名称3股东名称关联匹配成功,且待匹配股东名称2和待匹配股东名称3股东名称关联匹配成功,则可以确定,上述的3个待匹配股东名称之间是相互关联匹配的,即上述的3个待匹配股东名称为同一股东的股东名称。
在本发明实施例中,如图2所示,步骤S106包括如下步骤:
步骤S1061,获取各个待匹配股东名称的拼音信息;
步骤S1062,若比较出所述各个待匹配股东名称的拼音信息不同,则确定所述各个待匹配股东名称之间的名称差集:
步骤S1063,基于所述名称差集判断所述各个待匹配股东名称是否匹配;
步骤S1064,若否,则计算所述各个待匹配股东名称之间的相似性度量值;
步骤S1065,若所述相似性度量值大于或等于预设阈值,则确定所述多个待匹配股东名称匹配成功。
在本发明实施例中,在基于关联匹配信息将多个待匹配的股东名称进行股东名称关联匹配的过程中,首先,获取各个带匹配股东名称的拼音信息。
如果各个待匹配股东名称的拼音信息不同,则确定各个待匹配股东名称之间的名称差集,并根据该名称差集判断各个待匹配股东名称是否匹配。需要说明的是,名称差集是指待匹配股东名称之间互不相同的字符。
如果根据该名称差集判断出各个待匹配股东名称匹配失败,则计算各个待匹配股东名称之间的相似性度量值。
当上述的相似性度量值大于或等于预设阈值时,则可以确定多个待匹配股东名称匹配成功,即上述多个待匹配的股东名称可以认定为同一个股东的股东名称。可选地,该预设阈值是可调的。这里为了计算的准确性,预设阈值设为了0.75。
需要说明的是,上述的相似性度量值可以通过杰卡德相似性的度量方式进行计算,计算方式如下:
首先,分别计算第一字符长度(即,多个待匹配的股东名称之间交集字符的字符长度)和第二字符长度(即,多个待匹配的股东名称之间并集字符的字符长度)。
然后,计算第一字符长度和第二字符长度之间的比值,并将该比值确定为相似性度量值。
需要说明的是,上述的预设阈值可以由工作人员根据实际情况自行设定,在本发明实施例中不做具体限定。优选地,该预设阈值是可调的。这里为了计算的准确性,预设阈值设为了0.75。
另外,还需要说明的是,预设阈值越大,则当相似性度量值大于或等于预设阈值时,待匹配的股东名称的关联性越大,待匹配的股东名称的关联匹配的计算越准确。
在本发明实施例中,步骤S1063还包括如下步骤:
步骤S21,判断可忽略词表中是否包含所述名称差集;
步骤S22,若否,则基于所述名称差集构建目标词对,其中,所述目标词对为所述名称差集中字形相似字构成的词对;
步骤S23,判断字形相似词表是否包含所述目标词对;
步骤S24,若是,则确定所述多个待匹配股东名称匹配成功;否则,计算所述各个待匹配股东名称之间的相似性度量值。
在本发明实施例中,在基于名称差集判断各个待匹配股东名称是否匹配的过程中,首先,判断可忽略词表中是否包含名称差集。
需要说明的是,上述的可忽略词表中包含多个可忽略词,例如:公司、集团、有限合伙等可忽略词。
如果可忽略词表中不包含名称差集,则判断基于名称差集构建目标词对,并判断字形相似词表中是否包含目标词对。
假设一个待匹配的股东名称中包括:“侯威”,另外一个待匹配的股东名称中包括:“候威”,且其余文字相同。那么此时的目标词对即为:侯-候。
需要说明的是,上述的字形相似词表中包含多个字形相似的词对,例如:候-侯,治-冶等词对。
如果字形相似词表中包含目标词对,则可以确定出多个待匹配股东名称匹配成功,即上述多个待匹配的股东名称可以认定为同一个股东的股东名称。
通过执行上述步骤S21-S24,能够对包含形近词或待匹配股东名称之间缺少或多余某些与公司命名关系不大的词的待匹配股东名称,进行有效的关联匹配计算,从而对待匹配股东名称进行准确的匹配关联。
在本发明实施例中,如图3所示,所述方法还包括如下步骤:
步骤S31,若所述多个待匹配的股东名称的拼音信息相同,则确定所述多个待匹配的股东名称关联匹配成功;
步骤S32,若所述可忽略词表中包含所述名称差集,则确定所述多个待匹配的股东名称关联匹配成功;
步骤S33,若所述相似性度量值小于所述预设阈值,则确定所述多个待匹配股东名称匹配失败。
在本发明实施例中,当获取到的多个待匹配股东名称的拼音信息相同时,那么可以确定多个待匹配的股东名称关联匹配成功,即上述多个待匹配的股东名称可以认定为同一个股东的股东名称。
当可忽略词表中包含名称差集时,那么可以确定多个待匹配的股东名称关联匹配成功,即上述多个待匹配的股东名称可以认定为同一个股东的股东名称。
当相似性度量值小于预设阈值时,那么可以确定多个待匹配的股东名称关联匹配成功,即可以认定上述多个待匹配的股东名称为不同股东的股东名称。
在本发明实施例中,如图3所示,在获取多个待匹配的股东名称之前,所述方法还包括如下步骤:
步骤S11,获取多个预设股东名称,并对所述多个预设股东名称进行词频统计,得到统计结果;
步骤S12,基于所述统计结果,确定可忽略词,并基于确定出的可忽略词构建所述可忽略词表;
步骤S13,基于所述统计结果,确定所述多个预设股东名称所包含的文字中字形相似的词对,并基于确定出的字形相似的词对构建所述字形相似词表。
在本发明实施例中,通过获取多个预设股东名称,并对各个预设股东名称进行词频统计,从而得到统计结果。
然后,根据统计结果,挑选出各个预设股东名称中与公司命名关系不大的词,作为可忽略词,并基于上述的可忽略词构建可忽略词表。
最后,根据统计结果,挑选出各个预设股东名称中包含的文字中字形相似的词对,并基于上述的字形相似的词对构建字形相似词表。
实施例二:
本发明还提供了一种股东名称关联匹配的装置,该系统用于执行本发明实施例上述内容所提供的股东名称关联匹配的方法,以下是本发明实施例提供的股东名称关联匹配的装置的具体介绍。
如图4所示,该装置包括:第一获取单元10,第二获取单元20和匹配单元30,其中:
所述第一获取单元10,用于获取多个待匹配的股东名称;
所述第二获取单元20,用于获取所述待匹配的股东名称的关联匹配信息,其中,所述关联匹配信息包括以下至少之一:各个待匹配的股东名称的拼音信息,待匹配的股东名称之间的名称差集,待匹配的股东名称的相似性度量值;
所述匹配单元30,用于基于所述关联匹配信息将所述多个待匹配的股东名称进行股东名称关联匹配。
在本发明实施例中,首先,获取多个待匹配的股东名称,接着,获取待匹配的股东名称的关联匹配信息,最后,基于关联匹配信息将多个待匹配的股东名称进行股东名称关联匹配。在本实施例中,采用上述关联匹配方法,能够更加准确的而进行股东名称的匹配,进而解决了现有技术中股东名称匹配的准确度较低的技术问题,从而实现了提高了股东名称匹配的准确度的技术效果。
可选地,所述匹配单元还用于获取各个待匹配股东名称的拼音信息;若比较出所述各个待匹配股东名称的拼音信息不同,则确定所述各个待匹配股东名称之间的名称差集:基于所述名称差集判断所述各个待匹配股东名称是否匹配;若否,则计算所述各个待匹配股东名称之间的相似性度量值;若所述相似性度量值大于或等于预设阈值,则确定所述多个待匹配股东名称匹配成功。
可选地,所述匹配单元还用于若所述多个待匹配的股东名称的拼音信息相同,则确定所述多个待匹配的股东名称关联匹配成功。
可选地,所述匹配单元还用于判断可忽略词表中是否包含所述名称差集;若否,则基于所述名称差集构建目标词对,其中,所述目标词对为所述名称差集中字形相似字构成的词对;判断字形相似词表是否包含所述目标词对;若是,则确定所述多个待匹配股东名称匹配成功;否则,计算所述各个待匹配股东名称之间的相似性度量值。
可选地,所述匹配单元还用于计算第一字符长度和第二字符长度,其中,所述第一字符长度为所述多个待匹配的股东名称之间交集字符的字符长度,所述第二字符长度为所述多个待匹配的股东名称之间并集字符的字符长度;计算所述第一字符长度和所述第二字符长度之间的比值,并将所述比值确定为所述相似性度量值。
可选地,所述匹配单元还用于若所述可忽略词表中包含所述名称差集,则确定所述多个待匹配的股东名称关联匹配成功。
可选地,所述匹配单元还用于若所述相似性度量值小于所述预设阈值,则确定所述多个待匹配股东名称匹配失败。
可选地,所述装置还包括构建单元,用于获取多个预设股东名称,并对所述多个预设股东名称进行词频统计,得到统计结果;基于所述统计结果,确定可忽略词,并基于确定出的可忽略词构建所述可忽略词表;基于所述统计结果,确定所述多个预设股东名称所包含的文字中字形相似的词对,并基于确定出的字形相似的词对构建所述字形相似词表。
实施例三:
参见图5,本发明实施例还提供一种服务器100,包括:处理器50,存储器51,总线52和通信接口53,所述处理器50、通信接口53和存储器51通过总线52连接;处理器50用于执行存储器51中存储的可执行模块,例如计算机程序。
其中,存储器51可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口53(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。
总线52可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器51用于存储程序,所述处理器50在接收到执行指令后,执行所述程序,前述本发明实施例任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器50中,或者由处理器50实现。
处理器50可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器50中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器50可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital SignalProcessing,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器51,处理器50读取存储器51中的信息,结合其硬件完成上述方法的步骤。
另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (7)
1.一种股东名称关联匹配的方法,其特征在于,包括:
获取多个待匹配的股东名称;
获取所述待匹配的股东名称的关联匹配信息,其中,所述关联匹配信息包括以下至少之一:各个待匹配的股东名称的拼音信息,待匹配的股东名称之间的名称差集,待匹配的股东名称的相似性度量值;
基于所述关联匹配信息将所述多个待匹配的股东名称进行股东名称关联匹配;
其中,基于所述关联匹配信息将所述多个待匹配的股东名称进行股东名称关联匹配包括:
获取各个待匹配股东名称的拼音信息;
若比较出所述各个待匹配股东名称的拼音信息不同,则确定所述各个待匹配股东名称之间的名称差集:
基于所述名称差集判断所述各个待匹配股东名称是否匹配;
若否,则计算所述各个待匹配股东名称之间的相似性度量值;
若所述相似性度量值大于或等于预设阈值,则确定所述多个待匹配股东名称匹配成功;
其中,基于所述名称差集判断所述各个待匹配股东名称是否匹配包括:
判断可忽略词表中是否包含所述名称差集;
若否,则基于所述名称差集构建目标词对,其中,所述目标词对为所述名称差集中字形相似字构成的词对;
判断字形相似词表是否包含所述目标词对;
若是,则确定所述多个待匹配股东名称匹配成功;否则,计算所述各个待匹配股东名称之间的相似性度量值。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若所述多个待匹配的股东名称的拼音信息相同,则确定所述多个待匹配的股东名称关联匹配成功。
3.根据权利要求1所述的方法,其特征在于,计算所述各个待匹配股东名称之间的相似性度量值包括:
计算第一字符长度和第二字符长度,其中,所述第一字符长度为所述多个待匹配的股东名称之间交集字符的字符长度,所述第二字符长度为所述多个待匹配的股东名称之间并集字符的字符长度;
计算所述第一字符长度和所述第二字符长度之间的比值,并将所述比值确定为所述相似性度量值。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若所述可忽略词表中包含所述名称差集,则确定所述多个待匹配的股东名称关联匹配成功。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若所述相似性度量值小于所述预设阈值,则确定所述多个待匹配股东名称匹配失败。
6.根据权利要求1所述的方法,其特征在于,在获取多个待匹配的股东名称之前,所述方法还包括:
获取多个预设股东名称,并对所述多个预设股东名称进行词频统计,得到统计结果;
基于所述统计结果,确定可忽略词,并基于确定出的可忽略词构建所述可忽略词表;
基于所述统计结果,确定所述多个预设股东名称所包含的文字中字形相似的词对,并基于确定出的字形相似的词对构建所述字形相似词表。
7.一种股东名称关联匹配的装置,其特征在于,包括:第一获取单元,第二获取单元和匹配单元,其中,
所述第一获取单元用于获取多个待匹配的股东名称;
所述第二获取单元用于获取所述待匹配的股东名称的关联匹配信息,其中,所述关联匹配信息包括以下至少之一:各个待匹配的股东名称的拼音信息,待匹配的股东名称之间的名称差集,待匹配的股东名称的相似性度量值;
所述匹配单元用于基于所述关联匹配信息将所述多个待匹配的股东名称进行股东名称关联匹配;
其中,所述匹配单元还用于:
获取各个待匹配股东名称的拼音信息;
若比较出所述各个待匹配股东名称的拼音信息不同,则确定所述各个待匹配股东名称之间的名称差集:
基于所述名称差集判断所述各个待匹配股东名称是否匹配;
若否,则计算所述各个待匹配股东名称之间的相似性度量值;
若所述相似性度量值大于或等于预设阈值,则确定所述多个待匹配股东名称匹配成功;
所述匹配单元还用于:
判断可忽略词表中是否包含所述名称差集;
若否,则基于所述名称差集构建目标词对,其中,所述目标词对为所述名称差集中字形相似字构成的词对;
判断字形相似词表是否包含所述目标词对;
若是,则确定所述多个待匹配股东名称匹配成功;否则,计算所述各个待匹配股东名称之间的相似性度量值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811210355.8A CN109189809B (zh) | 2018-10-17 | 2018-10-17 | 一种股东名称关联匹配的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811210355.8A CN109189809B (zh) | 2018-10-17 | 2018-10-17 | 一种股东名称关联匹配的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109189809A CN109189809A (zh) | 2019-01-11 |
CN109189809B true CN109189809B (zh) | 2020-01-03 |
Family
ID=64945266
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811210355.8A Active CN109189809B (zh) | 2018-10-17 | 2018-10-17 | 一种股东名称关联匹配的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109189809B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110147813B (zh) * | 2019-04-04 | 2021-06-15 | 深圳价值在线信息科技股份有限公司 | 一种用户画像构建方法、装置、存储介质和服务器 |
CN113538147B (zh) * | 2021-07-27 | 2024-02-09 | 北京金堤征信服务有限公司 | 股权详情数据生成方法、装置及电子设备 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102184169B (zh) * | 2011-04-20 | 2013-06-19 | 北京百度网讯科技有限公司 | 用于确定字符串信息间相似度信息的方法、装置和设备 |
KR101741509B1 (ko) * | 2015-07-01 | 2017-06-15 | 지속가능발전소 주식회사 | 뉴스의 데이터마이닝을 통한 기업 평판 분석 장치 및 방법, 그 방법을 수행하기 위한 기록 매체 |
CN106033475A (zh) * | 2016-05-18 | 2016-10-19 | 苏州奖多多科技有限公司 | 一种信息匹配方法、装置及电子设备 |
CN108108373B (zh) * | 2016-11-25 | 2020-09-25 | 阿里巴巴集团控股有限公司 | 一种名称匹配方法及装置 |
CN108629046B (zh) * | 2018-05-14 | 2023-08-18 | 平安科技(深圳)有限公司 | 一种字段匹配方法及终端设备 |
-
2018
- 2018-10-17 CN CN201811210355.8A patent/CN109189809B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN109189809A (zh) | 2019-01-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107943954B (zh) | 网页敏感信息的检测方法、装置及电子设备 | |
CN110647562B (zh) | 一种数据查询方法和装置、电子设备、存储介质 | |
CN109271315B (zh) | 脚本代码检测方法、装置、计算机设备及存储介质 | |
CN111784516B (zh) | 业务路径的确定方法、装置和电子设备 | |
CN110661794B (zh) | 流量识别方法、装置、电子设备及可读存储介质 | |
CN110704719B (zh) | 企业搜索文本分词方法和装置 | |
CN109189809B (zh) | 一种股东名称关联匹配的方法和装置 | |
CN113485889B (zh) | 埋点数据校验方法、装置、电子设备及存储介质 | |
CN110866259A (zh) | 一种基于多维度数据计算安全隐患评分方法和系统 | |
WO2020057432A1 (zh) | 地址的标准化方法、装置、存储介质及计算机终端 | |
CN108073707B (zh) | 金融业务数据更新方法、装置及计算机可读取存储介质 | |
CN114265740A (zh) | 错误信息处理方法、装置、设备及存储介质 | |
CN110599278A (zh) | 聚合设备标识符的方法、装置和计算机存储介质 | |
CN109087022A (zh) | 用户稳定性的分析方法、装置、介质及电子设备 | |
CN111506455B (zh) | 服务发布结果的查验方法及装置 | |
CN117171030A (zh) | 软件运行环境检测方法、装置、设备及存储介质 | |
CN110688995A (zh) | 地图查询的处理方法,计算机可读存储介质和移动终端 | |
CN114240654A (zh) | 基于交易链路的性能能力透视方法、系统、设备及可读存储介质 | |
CN113157583A (zh) | 一种测试方法、装置及设备 | |
CN112631905A (zh) | 执行过程数据管理方法、装置、计算机设备及存储介质 | |
CN110609790A (zh) | 解析程序测试方法、装置、介质和计算机设备 | |
CN113704237B (zh) | 异常数据检测方法及装置、电子设备 | |
CN113569009B (zh) | 基于文本相关性的文本匹配方法、系统和电子设备 | |
CN112613763B (zh) | 数据传导方法及装置 | |
JP6939600B2 (ja) | 校閲方法、校閲プログラムおよび情報処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |