CN112580342A - 公司名称比对的方法、装置、计算机设备和存储介质 - Google Patents
公司名称比对的方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN112580342A CN112580342A CN201910945861.XA CN201910945861A CN112580342A CN 112580342 A CN112580342 A CN 112580342A CN 201910945861 A CN201910945861 A CN 201910945861A CN 112580342 A CN112580342 A CN 112580342A
- Authority
- CN
- China
- Prior art keywords
- name
- company
- area
- similarity
- areas
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000003860 storage Methods 0.000 title claims abstract description 14
- 238000007781 pre-processing Methods 0.000 claims abstract description 20
- 238000004590 computer program Methods 0.000 claims description 19
- 230000008520 organization Effects 0.000 claims description 12
- 238000004140 cleaning Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- PCTMTFRHKVHKIS-BMFZQQSSSA-N (1s,3r,4e,6e,8e,10e,12e,14e,16e,18s,19r,20r,21s,25r,27r,30r,31r,33s,35r,37s,38r)-3-[(2r,3s,4s,5s,6r)-4-amino-3,5-dihydroxy-6-methyloxan-2-yl]oxy-19,25,27,30,31,33,35,37-octahydroxy-18,20,21-trimethyl-23-oxo-22,39-dioxabicyclo[33.3.1]nonatriaconta-4,6,8,10 Chemical compound C1C=C2C[C@@H](OS(O)(=O)=O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2.O[C@H]1[C@@H](N)[C@H](O)[C@@H](C)O[C@H]1O[C@H]1/C=C/C=C/C=C/C=C/C=C/C=C/C=C/[C@H](C)[C@@H](O)[C@@H](C)[C@H](C)OC(=O)C[C@H](O)C[C@H](O)CC[C@@H](O)[C@H](O)C[C@H](O)C[C@](O)(C[C@H](O)[C@H]2C(O)=O)O[C@H]2C1 PCTMTFRHKVHKIS-BMFZQQSSSA-N 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
本申请涉及一种公司名称比对的方法、装置、计算机设备和存储介质。方法包括:获取第一公司的第一名称和第二公司的第二名称;对第一名称和第二名称进行预处理;分别对预处理后的第一名称和第二名称进行分割,得到第一名称和第二名称的各个区域;将第一名称的区域与对应的第二名称的区域进行对比,得到各个区域的相似度;对各个区域的相似度进行加权求和,得到第一名称和第二名称的最终相似度;当最终相似度大于预设阈值时,第一公司和第二公司属于同一公司,这种方式考虑到了文本、拼音相似度层面的计算,对错别字、名称缩写有一定的容忍度,具有很高的稳定性和准确性,提高了审批效率,也减少了审批的人工成本和时间成本。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种公司名称比对的方法、装置、计算机设备和存储介质。
背景技术
公司名称是独立法人成立的公司的名称,在办理公司业务时,基本上都要填写公司名称,对应的办事机构则会核实填写的公司和实际公司名称是否相同。但是,同一家公司可以有不同的填写方法,例如公司全名叫“ABCD服务有限公司”,客户可能填写的是“ABCD”。传统技术中,一般采用的审批方式是通过人工去一件件去审,但是这种方法非常耗时耗力,且效率较低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高公司名称比对效率的公司名称比对的方法、装置、计算机设备和存储介质。
一种公司名称比对的方法,所述方法包括:
获取第一公司的第一名称和第二公司的第二名称;
对所述第一名称和所述第二名称进行预处理;
分别对预处理后的所述第一名称和所述第二名称进行分割,得到所述第一名称和所述第二名称的各个区域;
将所述第一名称的区域与对应的所述第二名称的区域进行对比,得到各个区域的相似度;
对各个区域的相似度进行加权求和,得到所述第一名称和所述第二名称的最终相似度;
当所述最终相似度大于预设阈值时,确定所述第一名称和所述第二名称属于同一公司名称。
一种公司名称比对的装置,所述装置包括:
公司名称获取模块,用于获取第一公司的第一名称和第二公司的第二名称;
预处理模块,用于对所述第一名称和所述第二名称进行预处理;
区域分割模块,用于分别对预处理后的所述第一名称和所述第二名称进行分割,得到所述第一名称和所述第二名称的各个区域;
区域对比模块,用于将所述第一名称的区域与对应的所述第二名称的区域进行对比,得到各个区域的相似度;
相似度确认模块,对各个区域的相似度进行加权求和,得到所述第一名称和所述第二名称的最终相似度;当所述最终相似度大于预设阈值时,确定所述第一名称和所述第二名称属于同一公司名称。
一种计算机设备,包括存储器、处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取第一公司的第一名称和第二公司的第二名称;
对所述第一名称和所述第二名称进行预处理;
分别对预处理后的所述第一名称和所述第二名称进行分割,得到所述第一名称和所述第二名称的各个区域;
将所述第一名称的区域与对应的所述第二名称的区域进行对比,得到各个区域的相似度;
对各个区域的相似度进行加权求和,得到所述第一名称和所述第二名称的最终相似度;
当所述最终相似度大于预设阈值时,确定所述第一名称和所述第二名称属于同一公司名称。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取第一公司的第一名称和第二公司的第二名称;
对所述第一名称和所述第二名称进行预处理;
分别对预处理后的所述第一名称和所述第二名称进行分割,得到所述第一名称和所述第二名称的各个区域;
将所述第一名称的区域与对应的所述第二名称的区域进行对比,得到各个区域的相似度;
对各个区域的相似度进行加权求和,得到所述第一名称和所述第二名称的最终相似度;
当所述最终相似度大于预设阈值时,确定所述第一名称和所述第二名称属于同一公司名称。
上述公司名称比对的方法、装置、计算机设备和存储介质,先对第一公司的第一名称和第二公司的第二名称进行预处理,并进行分词处理,对第一名称和第二名称进行分割,将第一名称和第二名称分割成多个区域,并将第一名称的区域与对应的第二名称的区域进行对比,从而得到各个区域的相似度,对各个区域的相似度进行加权求和,得到第一名称和第二名称的最终相似度,从而可以根据最终相似度确定第一名称和第二名称是否属于同一公司名称。当最终相似度大于预设阈值时,可以确定第一公司和第二公司属于同一公司;当最终相似度小于或等于预设阈值时,可以确定第一名称和第二名称不属于同一公司名称,这种公司名称的比对方式不仅考虑到了文本、拼音相似度层面的计算,也对错别字、名称缩写有一定的容忍度,具有很高的稳定性和准确性,大幅度的提高了审批效率,也减少了审批的人工成本和时间成本。
附图说明
图1为一个实施例中公司名称比对的方法的应用环境图;
图2为一个实施例中公司名称比对的方法的流程示意图;
图3为一个实施例中公司名称比对的方法的流程图;
图4为另一个实施例中公司名称比对的示意图;
图5为一个实施例中公司名称比对的装置的结构框图;
图6为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的公司名称比对的方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。服务器104通过网络获取到用户通过终端102输入的公司名称作为第一名称,并从数据库中获取到与第一名称进行比对的第二名称。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种公司名称比对的方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤201,获取第一公司的第一名称和第二公司的第二名称。
获取用户通过终端输入公司名称,可以将用户输入的公司名称作为第一名称,将数据库中预先存储的公司名称作为第二名称,以此对第一名称和第二名称进行比对。
步骤202,对第一名称和第二名称进行预处理。
在获取到第一名称和第二名称后,需要先对第一名称和第二名称进行预处理操作,再进行下一步具体的比对操作。
在一个实施例中,对第一名称和第二名称进行预处理,包括:对第一名称和第二名称进行清洗,删除第一名称和第二名称中的特殊字符,特殊字符为除中文、英文以及数字之外的字符;将清洗后的第一名称和第二名称进行格式的统一。
在对第一名称和第二名称进行预处理时,可以先对第一名称和第二名称进行清洗操作,即删除第一名称和第二名称中的特殊字符。特殊字符为除中文、英文以及数字之外的字符,比如标点符号、运算符号、下划线或横杠线等。即,清洗操作就是将第一名称和第二名称中的标点符号、运算符号、下划线或横杠线等特殊符号进行删除,只保留运算第一名称和第二名称中的中文、英文或数字,使得清洗后的第一名称和第二名称内容全部都是中文、英文或数字。
然后,还可以对清洗后的第一名称和第二名称进行格式的统一,比如将进行繁体简体的转换,可以将第一名称和第二名称全部统一转换成简体格式。还可以将第一名称和第二名称中的中文数字统一转换成阿拉伯数字,将英文全部统一成小写格式,且将英文单词中的全角符号全部统一转换为半角符号,等等,通过这种格式上的统一,可以使得第一名称和第二名称的格式统一。
步骤203,分别对预处理后的第一名称和第二名称进行分割,得到第一名称和第二名称的各个区域。
对第一名称和第二名称进行了预处理后,可以再分别对预处理后的第一名称和第二名称进行分割,可以得到与第一名称对应的多个区域以及与第二名称对应的多个区域。比如,可以分别将第一名称分割为区域1、区域2、区域3、区域4,将第二名称也分割为区域1、区域2、区域3、区域4,即可得到与第一名称和第二名称的分别对应的各个区域。
在一个实施例中,分别对预处理后的第一名称和第二名称进行分割,得到第一名称和第二名称的各个区域,包括:分别将预处理后的第一名称和第二名称分割成预设数量的区域,区域包括组织机构区域、行政划分区域、行业信息区域以及公司字号区域。
在分别对预处理后的第一名称和第二名称进行分割得到与第一名称对应的多个区域以及与第二名称对应的多个区域时,区域可以包括有组织机构区域、行政划分区域、行业信息区域以及公司字号区域。其中,组织机构区域是指公司的组织机构形式的区域,比如XX有限公司、XX股份有限公司,那么“有限公司”或“股份有限公司”所对应的区域即为组织机构区域。行政划分区域则是指公司名称所在的行政地域所对应的区域,比如深圳市XX有限公司,深圳XX公司,则公司名称中的“深圳市”和“深圳”就是行政划分区域。行业信息区域是指公司名称中体现该公司所从事的行业信息对应的区域,比如深圳市XX互联网金融服务有限公司,广州市XX信息技术有限公司,那么“深圳市”和“广州市”即为行政划分区域,“互联网金融服务”以及“信息技术”为行业信息区域,“有限公司”则为组织机构区域,而“XX”即为该公司的公司字号区域,即公司名称的主要部分。也就是说,一个完整的公司名称是由4个部分组成的,包括组织机构区域、行政划分区域、行业信息区域以及公司字号区域。
步骤204,将第一名称的区域与对应的第二名称的区域进行对比,得到各个区域的相似度。
在对两个公司的公司名称进行比对时,可以根据公司名称划分的区域分别进行比对。即,可以将第一名称的组织机构区域与第二名称的组织机构区域进行对比,将第一名称的组织机构区域与第二名称的行政划分区域进行对比,将第一名称的行业信息区域与第二名称的行政划分区域进行对比,将第一名称的公司字号区域与第二名称的行政划分区域进行对比,以此方式分别将各个区域进行对比,从而可以得到各个区域对应的相似度。
在一个实施例中,在分别对预处理后的第一名称和第二名称进行分割,得到与第一名称和第二名称的各个区域之后,上述方法还包括:将第一名称和第二名称的组织机构区域进行清除,对除组织机构区域以外的其他区域进行对比;确定行政划分区域对应的行政相似度、行业信息区域对应的行业信息相似度以及公司字号区域对应的公司字号相似度。
在对第一名称和第二名称的各个区域进行比对时,可以先将第一名称和第二名称的组织机构区域进行清除,即,组织机构区域部分是可以不进行对比的,也无需确定组织机构区域之间的相似度。那么在对比时,可以对除了组织机构区域以外的其他区域进行对比,对比后,可以确定行政划分区域对应的行政相似度、行业信息区域对应的行业信息相似度以及公司字号区域对应的公司字号相似度。
在一个实施例中,将第一名称的区域与对应的第二名称的区域进行对比,得到各个区域的相似度,包括:将第一名称与第二名称的行政划分区域进行对比,当第一名称与第二名称的行政划分区域一致时,则第一名称与第二名称的行政划分区域的相似度为第一行政相似度;当第一名称与第二名称的行政划分区域不一致时,则第一名称与第二名称的行政划分区域的相似度为第二行政相似度;当第一名称与第二名称的行政划分区域至少有一个为空时,则第一名称与第二名称的行政划分区域的相似度为第三行政相似度。
在分别对第一名称和第二名称进行对比时,实际上可以对各个区域进行对比。在对第一名称和第二名称的行政划分区域进行对比时,会有三种情况可能出现:
第一种情况:第一名称与第二名称的行政划分区域一致,这种情况下可以确定第一名称与第二名称的行政划分区域的相似度为第一行政相似度,第一行政相似度可以是1;
第二种情况:第一名称与第二名称的行政划分区域不一致,则可以确定第一名称与第二名称的行政划分区域的相似度为第二行政相似度,第二行政相似度可以是0;
第三种情况:第一名称与第二名称的行政划分区域至少有一个为空,则无法比对第一名称与第二名称的行政区域是否一致,那么可以确定第一名称与第二名称的行政划分区域的相似度为第三行政相似度,第三行政相似度可以为-1。
在一个实施例中,将第一名称的区域与对应的第二名称的区域进行对比,得到各个区域的相似度,包括:将第一名称与第二名称的公司字号区域进行对比,获取第一名称的公司字号区域与第二名称的公司字号区域的公司字号编辑距离;将第一名称与第二名称的行业信息区域进行对比,获取第一名称的行业信息区域与第二名称的行业信息区域的行业信息编辑距离;将预设自然数与公司字号编辑距离和公司字号区域字符数的比值的差值作为第一名称与第二名称的公司字号相似度;将预设自然数与行业信息编辑距离和行业信息区域字符数的比值的差值作为第一名称与第二名称的行业信息相似度。
在比对第一名称与第二名称的行政划分区域采用的是对比是否完全一致的比对方式,与之不同的是,在比对第一名称与第二名称的公司字号区域及行业信息区域时,采用的是文本相似度的方式,以确定公司字号区域对应的公司字号相似度,以及行业信息区域对应的行业信息相似度。
在将第一名称与第二名称的公司字号区域进行对比时,可以获取到第一名称的公司字号区域与第二名称的公司字号区域的公司字号编辑距离,并获取公司字号区域的字符数,从而可以确定公司字号相似度=预设自然数-公司字号编辑距离/公司字号区域的字符数。比如,假设第一名称的公司字号区域为“萨摩耶”,第一名称的公司字号区域为“萨摩呗”那么可以确定第一名称与第二名称的公司字号编辑距离为1,且公司字号区域的字符数为3,将预设自然数设置为1,则第一名称和第二名称的公司字号相似度为=1-1/3=2/3。
在将第一名称与第二名称的行业信息区域进行对比时,可以采用与公司字号区域相同的对比方式。同样的,在将第一名称与第二名称的行业信息区域进行对比时,可以获取到第一名称的行业信息区域与第二名称的行业信息区域的行业信息编辑距离,并获取到行业信息区域字符数,从而可以确定第一名称与第二名称的行业信息相似度为预设自然数与行业信息编辑距离和行业信息区域字符数的比值的差值作为第一名称与第二名称的行业信息相似度。假设行业信息编辑距离为X1,行业信息区域字符数为X,预设自然数为1,那么第一名称与第二名称的行业信息相似度=1-X1/X。
在一个实施例中,上述方法还包括:当第一名称和第二名称中至少有一个名称为空时,第一名称和第二名称的最终相似度为预设固定值。
在对第一名称和第二名称进行比对时,若是第一名称和第二名称中至少有一个名称为空时,则无法对第一名称和第二名称进行进一步的比对,则可以直接确定第一名称和第二名称的最终相似度为预设固定值,预设固定值可以设置为-1,代表第一名称和第二名称未成功进行比对。因此也可以认为,在第一名称和第二名称均不为空时,将会继续对第一名称和第二名称进行比对,这种情况下确定的第一名称和第二名称的最终相似度为【0,1】。
步骤205,对各个区域的相似度进行加权求和,得到第一名称和第二名称的最终相似度。
步骤206,当最终相似度大于预设阈值时,确定第一公司和第二公司属于同一公司。
在确定了第一名称和第二名称各个区域的相似度后,即确定了第一名称和第二名称行政划分区域对应的行政相似度、行业信息区域对应的行业信息相似度以及公司字号区域对应的公司字号相似度后,可以对各个区域的相似度进行加权求和,从而计算出第一名称和第二名称的最终相似度。由于组织机构区域不进行相似度的计算,则最终相似度=行政相似度*Q1+行业信息相似度*Q2+公司字号相似度*Q3。当最终相似度大于预设阈值时,可以确定第一公司和第二公司属于同一公司;当最终相似度小于或等于预设阈值时,可以确定第一名称和第二名称不属于同一公司名称。
上述公司名称比对的方法中,先对第一公司的第一名称和第二公司的第二名称进行预处理,并进行分词处理,对第一名称和第二名称进行分割,将第一名称和第二名称分割成多个区域,并将第一名称的区域与对应的第二名称的区域进行对比,从而得到各个区域的相似度,对各个区域的相似度进行加权求和,得到第一名称和第二名称的最终相似度,从而可以根据最终相似度确定第一名称和第二名称是否属于同一公司名称。当最终相似度大于预设阈值时,可以确定第一公司和第二公司属于同一公司;当最终相似度小于或等于预设阈值时,可以确定第一名称和第二名称不属于同一公司名称,这种公司名称的比对方式不仅考虑到了文本、拼音相似度层面的计算,也对错别字、名称缩写有一定的容忍度,具有很高的稳定性和准确性,大幅度的提高了审批效率,也减少了审批的人工成本和时间成本。
在一个实施例中,如图3所示的公司名称比对的方法的流程图,将两个需要比对的公司名称进行预处理,即对第一公司的第一名称和第二公司的第二名称进行清洗:包含简繁体转换、特殊字符剔除等操作,再对第一名称和第二名称进行分词处理,将第一名称和第二名称进行分割,得到第一名称和第二名称的各个区域。然后可以将第一名称和第二名称中的组织机构区域进行切除,即去掉第一名称和第二名称中的组织机构区域,无需计算第一名称和第二名称的组织机构区域的相似度。然后再对除组织机构区域以外的其他区域进行对比,即确定行政划分区域对应的行政相似度、行业信息区域对应的行业信息相似度以及公司字号区域对应的公司字号相似度。首先可以先对比第一名称和第二名称的地区信息是否一致,即确定第一名称和第二名称的行政相似度,然后可以采用文本相似度算法确定第一名称和第二名称的行业信息相似度以及公司字号相似度,并对对各个区域的相似度进行加权求和,从而可以得到第一名称和第二名称的最终相似度,最后可以根据最终相似度确定第一名称和第二名称是否属于同一公司名称。当最终相似度大于预设阈值时,可以确定第一公司和第二公司属于同一公司;当最终相似度小于或等于预设阈值时,可以确定第一名称和第二名称不属于同一公司名称。
在一个实施例中,如图4所示,分别有三个用户输入的公司名称,可称为第一名称,分别为“深圳AAA互联网金融服务有限公司”、“北京中BCD地产经纪有限公司”、“EF动物医院”。需要与之对比确认是否属于同一公司名称的可称为第二名称,分别是“AAA金服”、“北京GCH房地产经纪有限公司”、“宜昌市西陵区EF宠物诊疗中心”,分别对第一名称和第二名称进行分割,从而可以确定第一名称和第二名称的各个区域,即第一名称和第二名称的组织机构区域、行政划分区域、行业信息区域以及公司字号区域。
其中,所在区域部分为空时以MISSING表示,代表该区域为空。从而可以确定并计算出行政划分区域对应的行政相似度、行业信息区域对应的行业信息相似度以及公司字号区域对应的公司字号相似度,最后再对各个区域的相似度进行加权求和,并可以计算得到第一名称和第二名称的最终相似度,从而可以根据最终相似度的值确定第一名称和第二名称是否属于同一公司名称。当最终相似度大于预设阈值时,可以确定第一公司和第二公司属于同一公司;当最终相似度小于或等于预设阈值时,可以确定第一名称和第二名称不属于同一公司名称。
应该理解的是,虽然图2-4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-4中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图5所示,提供了一种公司名称比对的装置,包括:公司名称获取模块、预处理模块、区域分割模块、区域对比模块和相似度确认模块,其中:
公司名称获取模块501,用于获取第一公司的第一名称和第二公司的第二名称。
预处理模块502,用于对第一名称和第二名称进行预处理。
区域分割模块503,用于分别对预处理后的第一名称和第二名称进行分割,得到第一名称和第二名称的各个区域。
区域对比模块504,用于将第一名称的区域与对应的第二名称的区域进行对比,得到各个区域的相似度。
相似度确认模块505,对各个区域的相似度进行加权求和,得到第一名称和第二名称的最终相似度;当最终相似度大于预设阈值时,确定第一公司和第二公司属于同一公司。
在一个实施例中,预处理模块502还用于对第一名称和第二名称进行清洗,删除第一名称和第二名称中的特殊字符,特殊字符为除中文、英文以及数字之外的字符;将清洗后的第一名称和第二名称进行格式的统一。
在一个实施例中,区域分割模块503还用于分别将预处理后的第一名称和第二名称分割成预设数量的区域,区域包括组织机构区域、行政划分区域、行业信息区域以及公司字号区域。
在一个实施例中,区域对比模块504还用于将第一名称和第二名称的组织机构区域进行清除,对除组织机构区域以外的其他区域进行对比;确定行政划分区域对应的行政相似度、行业信息区域对应的行业信息相似度以及公司字号区域对应的公司字号相似度。
在一个实施例中,区域对比模块504还用于将第一名称与第二名称的行政划分区域进行对比,当第一名称与第二名称的行政划分区域一致时,则第一名称与第二名称的行政划分区域的相似度为第一行政相似度;当第一名称与第二名称的行政划分区域不一致时,则第一名称与第二名称的行政划分区域的相似度为第二行政相似度;当第一名称与第二名称的行政划分区域至少有一个为空时,则第一名称与第二名称的行政划分区域的相似度为第三行政相似度。
在一个实施例中,区域对比模块504还用于将第一名称与第二名称的公司字号区域进行对比,获取第一名称的公司字号区域与第二名称的公司字号区域的公司字号编辑距离;将第一名称与第二名称的行业信息区域进行对比,获取第一名称的行业信息区域与第二名称的行业信息区域的行业信息编辑距离;将预设自然数与公司字号编辑距离和公司字号区域字符数的比值的差值作为第一名称与第二名称的公司字号相似度;将预设自然数与行业信息编辑距离和行业信息区域字符数的比值的差值作为第一名称与第二名称的行业信息相似度。
在一个实施例中,相似度确认模块505还用于当第一名称和第二名称中至少有一个名称为空时,第一名称和第二名称的最终相似度为预设固定值。
关于公司名称比对的装置的具体限定可以参见上文中对于公司名称比对的方法的限定,在此不再赘述。上述公司名称比对的装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储公司名称比对的相关数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种公司名称比对的方法。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:获取第一公司的第一名称和第二公司的第二名称;对第一名称和第二名称进行预处理;分别对预处理后的第一名称和第二名称进行分割,得到第一名称和第二名称的各个区域;将第一名称的区域与对应的第二名称的区域进行对比,得到各个区域的相似度;对各个区域的相似度进行加权求和,得到第一名称和第二名称的最终相似度;当最终相似度大于预设阈值时,第一公司和第二公司属于同一公司。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:分别对预处理后的第一名称和第二名称进行分割,得到第一名称和第二名称的各个区域,包括:分别将预处理后的第一名称和第二名称分割成预设数量的区域,区域包括组织机构区域、行政划分区域、行业信息区域以及公司字号区域。
在一个实施例中,在分别对预处理后的第一名称和第二名称进行分割,得到与第一名称和第二名称的各个区域之后,处理器执行计算机程序时还实现以下步骤:将第一名称和第二名称的组织机构区域进行清除,对除组织机构区域以外的其他区域进行对比;确定行政划分区域对应的行政相似度、行业信息区域对应的行业信息相似度以及公司字号区域对应的公司字号相似度。
在一个实施例中,将第一名称的区域与对应的第二名称的区域进行对比,得到各个区域的相似度,包括:将第一名称与第二名称的行政划分区域进行对比,当第一名称与第二名称的行政划分区域一致时,则第一名称与第二名称的行政划分区域的相似度为第一行政相似度;当第一名称与第二名称的行政划分区域不一致时,则第一名称与第二名称的行政划分区域的相似度为第二行政相似度;当第一名称与第二名称的行政划分区域至少有一个为空时,则第一名称与第二名称的行政划分区域的相似度为第三行政相似度。
在一个实施例中,将第一名称的区域与对应的第二名称的区域进行对比,得到各个区域的相似度,包括:将第一名称与第二名称的公司字号区域进行对比,获取第一名称的公司字号区域与第二名称的公司字号区域的公司字号编辑距离;将第一名称与第二名称的行业信息区域进行对比,获取第一名称的行业信息区域与第二名称的行业信息区域的行业信息编辑距离;将预设自然数与公司字号编辑距离和公司字号区域字符数的比值的差值作为第一名称与第二名称的公司字号相似度;将预设自然数与行业信息编辑距离和行业信息区域字符数的比值的差值作为第一名称与第二名称的行业信息相似度。
在一个实施例中,对第一名称和第二名称进行预处理,包括:对第一名称和第二名称进行清洗,删除第一名称和第二名称中的特殊字符,特殊字符为除中文、英文以及数字之外的字符;将清洗后的第一名称和第二名称进行格式的统一。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:当第一名称和第二名称中至少有一个名称为空时,第一名称和第二名称的最终相似度为预设固定值。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取第一公司的第一名称和第二公司的第二名称;对第一名称和第二名称进行预处理;分别对预处理后的第一名称和第二名称进行分割,得到第一名称和第二名称的各个区域;将第一名称的区域与对应的第二名称的区域进行对比,得到各个区域的相似度;对各个区域的相似度进行加权求和,得到第一名称和第二名称的最终相似度;当最终相似度大于预设阈值时,第一公司和第二公司属于同一公司。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:分别对预处理后的第一名称和第二名称进行分割,得到第一名称和第二名称的各个区域,包括:分别将预处理后的第一名称和第二名称分割成预设数量的区域,区域包括组织机构区域、行政划分区域、行业信息区域以及公司字号区域。
在一个实施例中,在分别对预处理后的第一名称和第二名称进行分割,得到与第一名称和第二名称的各个区域之后,计算机程序被处理器执行时还实现以下步骤:将第一名称和第二名称的组织机构区域进行清除,对除组织机构区域以外的其他区域进行对比;确定行政划分区域对应的行政相似度、行业信息区域对应的行业信息相似度以及公司字号区域对应的公司字号相似度。
在一个实施例中,将第一名称的区域与对应的第二名称的区域进行对比,得到各个区域的相似度,包括:将第一名称与第二名称的行政划分区域进行对比,当第一名称与第二名称的行政划分区域一致时,则第一名称与第二名称的行政划分区域的相似度为第一行政相似度;当第一名称与第二名称的行政划分区域不一致时,则第一名称与第二名称的行政划分区域的相似度为第二行政相似度;当第一名称与第二名称的行政划分区域至少有一个为空时,则第一名称与第二名称的行政划分区域的相似度为第三行政相似度。
在一个实施例中,在一个实施例中,将第一名称的区域与对应的第二名称的区域进行对比,得到各个区域的相似度,包括:将第一名称与第二名称的公司字号区域进行对比,获取第一名称的公司字号区域与第二名称的公司字号区域的公司字号编辑距离;将第一名称与第二名称的行业信息区域进行对比,获取第一名称的行业信息区域与第二名称的行业信息区域的行业信息编辑距离;将预设自然数与公司字号编辑距离和公司字号区域字符数的比值的差值作为第一名称与第二名称的公司字号相似度;将预设自然数与行业信息编辑距离和行业信息区域字符数的比值的差值作为第一名称与第二名称的行业信息相似度。
在一个实施例中,对第一名称和第二名称进行预处理,包括:对第一名称和第二名称进行清洗,删除第一名称和第二名称中的特殊字符,特殊字符为除中文、英文以及数字之外的字符;将清洗后的第一名称和第二名称进行格式的统一。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:当第一名称和第二名称中至少有一个名称为空时,第一名称和第二名称的最终相似度为预设固定值。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种公司名称比对的方法,其特征在于,所述方法包括:
获取第一公司的第一名称和第二公司的第二名称;
对所述第一名称和所述第二名称进行预处理;
分别对预处理后的所述第一名称和所述第二名称进行分割,得到所述第一名称和所述第二名称的各个区域;
将所述第一名称的区域与对应的所述第二名称的区域进行对比,得到各个区域的相似度;
对各个区域的相似度进行加权求和,得到所述第一名称和所述第二名称的最终相似度;
当所述最终相似度大于预设阈值时,所述第一公司和所述第二公司属于同一公司。
2.根据权利要求1所述的方法,其特征在于,所述分别对预处理后的所述第一名称和所述第二名称进行分割,得到所述第一名称和所述第二名称的各个区域,包括:
分别将预处理后的所述第一名称和第二名称分割成预设数量的区域,所述区域包括组织机构区域、行政划分区域、行业信息区域以及公司字号区域。
3.根据权利要求2所述的方法,其特征在于,在所述分别对预处理后的所述第一名称和所述第二名称进行分割,得到与所述第一名称和所述第二名称的各个区域之后,所述方法还包括:
将所述第一名称和所述第二名称的组织机构区域进行清除,对除所述组织机构区域以外的其他区域进行对比;
确定所述行政划分区域对应的行政相似度、行业信息区域对应的行业信息相似度以及公司字号区域对应的公司字号相似度。
4.根据权利要求3所述的方法,其特征在于,所述将所述第一名称的区域与对应的所述第二名称的区域进行对比,得到各个区域的相似度,包括:
将所述第一名称与所述第二名称的行政划分区域进行对比,当所述第一名称与第二名称的行政划分区域一致时,则所述第一名称与所述第二名称的行政划分区域的相似度为第一行政相似度;
当所述第一名称与第二名称的行政划分区域不一致时,则所述第一名称与所述第二名称的行政划分区域的相似度为第二行政相似度;
当所述第一名称与第二名称的行政划分区域至少有一个为空时,则所述第一名称与所述第二名称的行政划分区域的相似度为第三行政相似度。
5.根据权利要求3所述的方法,其特征在于,所述将所述第一名称的区域与对应的所述第二名称的区域进行对比,得到各个区域的相似度,包括:
将所述第一名称与所述第二名称的公司字号区域进行对比,获取所述第一名称的公司字号区域与所述第二名称的公司字号区域的公司字号编辑距离;
将所述第一名称与所述第二名称的行业信息区域进行对比,获取所述第一名称的行业信息区域与所述第二名称的行业信息区域的行业信息编辑距离;
将预设自然数与所述公司字号编辑距离和公司字号区域字符数的比值的差值作为所述第一名称与所述第二名称的公司字号相似度;
将所述预设自然数与所述行业信息编辑距离和行业信息区域字符数的比值的差值作为所述第一名称与所述第二名称的行业信息相似度。
6.根据权利要求1所述的方法,其特征在于,所述对所述第一名称和所述第二名称进行预处理,包括:
对所述第一名称和所述第二名称进行清洗,删除所述第一名称和所述第二名称中的特殊字符,所述特殊字符为除中文、英文以及数字之外的字符;
将清洗后的所述第一名称和所述第二名称进行格式的统一。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当所述第一名称和所述第二名称中至少有一个名称为空时,所述第一名称和所述第二名称的最终相似度为预设固定值。
8.一种公司名称比对的装置,其特征在于,所述装置包括:
公司名称获取模块,用于获取第一公司的第一名称和第二公司的第二名称;
预处理模块,用于对所述第一名称和所述第二名称进行预处理;
区域分割模块,用于分别对预处理后的所述第一名称和所述第二名称进行分割,得到所述第一名称和所述第二名称的各个区域;
区域对比模块,用于将所述第一名称的区域与对应的所述第二名称的区域进行对比,得到各个区域的相似度;
相似度确认模块,对各个区域的相似度进行加权求和,得到所述第一名称和所述第二名称的最终相似度;当所述最终相似度大于预设阈值时,所述第一公司和所述第二公司属于同一公司。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910945861.XA CN112580342A (zh) | 2019-09-30 | 2019-09-30 | 公司名称比对的方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910945861.XA CN112580342A (zh) | 2019-09-30 | 2019-09-30 | 公司名称比对的方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112580342A true CN112580342A (zh) | 2021-03-30 |
Family
ID=75117101
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910945861.XA Pending CN112580342A (zh) | 2019-09-30 | 2019-09-30 | 公司名称比对的方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112580342A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101388023A (zh) * | 2008-09-12 | 2009-03-18 | 北京搜狗科技发展有限公司 | 电子地图兴趣点数据冗余检测方法和系统 |
CN102279843A (zh) * | 2010-06-13 | 2011-12-14 | 北京四维图新科技股份有限公司 | 处理短语数据的方法以及装置 |
CN106131016A (zh) * | 2016-07-13 | 2016-11-16 | 北京知道创宇信息技术有限公司 | 恶意url检测干预方法、系统及装置 |
CN106997335A (zh) * | 2016-01-26 | 2017-08-01 | 阿里巴巴集团控股有限公司 | 相同字符串的判定方法及装置 |
CN108256587A (zh) * | 2018-02-05 | 2018-07-06 | 武汉斗鱼网络科技有限公司 | 一种字符串相似度的确定方法、装置、计算机及存储介质 |
CN109684643A (zh) * | 2018-12-26 | 2019-04-26 | 湖北亿咖通科技有限公司 | 基于句向量的文本识别方法、电子设备及计算机可读介质 |
CN110232187A (zh) * | 2019-05-20 | 2019-09-13 | 平安科技(深圳)有限公司 | 企业名称相似度识别方法、装置、计算机设备和存储介质 |
CN110287286A (zh) * | 2019-06-13 | 2019-09-27 | 北京百度网讯科技有限公司 | 短文本相似度的确定方法、装置及存储介质 |
-
2019
- 2019-09-30 CN CN201910945861.XA patent/CN112580342A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101388023A (zh) * | 2008-09-12 | 2009-03-18 | 北京搜狗科技发展有限公司 | 电子地图兴趣点数据冗余检测方法和系统 |
CN102279843A (zh) * | 2010-06-13 | 2011-12-14 | 北京四维图新科技股份有限公司 | 处理短语数据的方法以及装置 |
CN106997335A (zh) * | 2016-01-26 | 2017-08-01 | 阿里巴巴集团控股有限公司 | 相同字符串的判定方法及装置 |
CN106131016A (zh) * | 2016-07-13 | 2016-11-16 | 北京知道创宇信息技术有限公司 | 恶意url检测干预方法、系统及装置 |
CN108256587A (zh) * | 2018-02-05 | 2018-07-06 | 武汉斗鱼网络科技有限公司 | 一种字符串相似度的确定方法、装置、计算机及存储介质 |
CN109684643A (zh) * | 2018-12-26 | 2019-04-26 | 湖北亿咖通科技有限公司 | 基于句向量的文本识别方法、电子设备及计算机可读介质 |
CN110232187A (zh) * | 2019-05-20 | 2019-09-13 | 平安科技(深圳)有限公司 | 企业名称相似度识别方法、装置、计算机设备和存储介质 |
CN110287286A (zh) * | 2019-06-13 | 2019-09-27 | 北京百度网讯科技有限公司 | 短文本相似度的确定方法、装置及存储介质 |
Non-Patent Citations (3)
Title |
---|
时国华: "一种微博事件源头发现的方法", 《第27次全国计算机安全学术交流会论文集》, 20 August 2012 (2012-08-20), pages 156 - 159 * |
杨秀璋,颜娜: "《Python 网络数据爬取及分析从入门到精通 分析篇》", 30 June 2018, 北京:北京航空航天大学出版社, pages: 176 - 179 * |
陆旭: "《文本挖掘中若干关键问题研究》", 31 December 2008, 合肥:中国科学技术大学出版社, pages: 16 - 18 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108509485B (zh) | 数据的预处理方法、装置、计算机设备和存储介质 | |
CN111898411B (zh) | 文本图像标注系统、方法、计算机设备和存储介质 | |
CN108280626B (zh) | 合同数据处理方法、装置、计算机设备和存储介质 | |
CN110516541B (zh) | 文本定位方法、装置、计算机可读存储介质和计算机设备 | |
CN110569341A (zh) | 配置聊天机器人的方法、装置、计算机设备和存储介质 | |
CN110990390A (zh) | 数据协同处理方法、装置、计算机设备和存储介质 | |
CN112115774A (zh) | 结合rpa和ai的文字识别方法、装置、电子设备和存储介质 | |
CN111368638A (zh) | 电子表格的创建方法、装置、计算机设备和存储介质 | |
CN112017024A (zh) | 信贷风险评估方法、系统、计算机设备及存储介质 | |
CN113590823A (zh) | 一种合同审批方法、装置、存储介质及电子设备 | |
CN111062186A (zh) | 文本处理方法、装置、计算机设备和存储介质 | |
US11106908B2 (en) | Techniques to determine document recognition errors | |
CN110956195A (zh) | 图像匹配方法、装置、计算机设备及存储介质 | |
CN112580342A (zh) | 公司名称比对的方法、装置、计算机设备和存储介质 | |
CN114580350A (zh) | 文本文字标注方法、装置、计算机设备和存储介质 | |
CN116860747A (zh) | 训练样本的生成方法、装置、电子设备及存储介质 | |
CN110826318A (zh) | 物流信息识别的方法、设备、计算机设备和存储介质 | |
CN115827877A (zh) | 一种提案辅助并案的方法、装置、计算机设备和存储介质 | |
CN112732937A (zh) | 基于知识图谱的隐藏关系获取方法、装置、设备和介质 | |
US20220156490A1 (en) | Method and system for extracting information from a document image | |
CN113128496B (zh) | 一种从图像中提取结构化数据的方法、装置和设备 | |
CN110780850B (zh) | 需求用例辅助生成方法、装置、计算机设备及存储介质 | |
CN110321405B (zh) | 模型匹配方法、装置、计算机可读存储介质和计算机设备 | |
CN112528599A (zh) | 基于xml的多页文档处理方法、装置、计算机设备及介质 | |
CN109241500B (zh) | 文件批量比对方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |