CN110232187A - 企业名称相似度识别方法、装置、计算机设备和存储介质 - Google Patents
企业名称相似度识别方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN110232187A CN110232187A CN201910420590.6A CN201910420590A CN110232187A CN 110232187 A CN110232187 A CN 110232187A CN 201910420590 A CN201910420590 A CN 201910420590A CN 110232187 A CN110232187 A CN 110232187A
- Authority
- CN
- China
- Prior art keywords
- enterprise name
- title
- participle
- enterprise
- name
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及人工智能,提供一种企业名称相似度识别方法、装置、计算机设备和存储介质,所述方法包括:根据地域信息对照表获取与原始企业名称对应的上级地域信息,将上级地域信息填充至原始企业名称中,得到更新企业名称;根据名称后缀表将更新企业名称和比对企业名称中的名称后缀删除,得到关键企业名称和关键比对企业名称;将关键企业名称和关键比对企业名称进行分词,得到分词结果,将分词结果中的各个分词输入已训练的权重计算模型,输出与各个分词对应的分词权重信息;将各个分词和分词权重信息输入已训练的相似度计算模型中,输出原始企业名称和比对企业名称的目标相似度,能够准确地评估企业名称间的相似度。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种企业名称相似度识别方法、装置、计算机设备和存储介质。
背景技术
随着计算机技术领域的高速发展,人们的工作中每天都在产生大量的文本信息,对于文本信息的处理往往需要花费许多的时间,因此引进了机器学习,但目前在进行公司名称相似度计算时采用的机器学习方法,常常不能对公司名进行拆分,进行相似度计算的准确率较低。
传统地在进行企业名称间相似度计算时若企业名称间的相同字很多,计算得到的企业名称相似度也会增加,而实际上两家企业却是不同的企业,例如“北京法华XXX有限公司”和“北京法海XXX有限公司”,名称间相似度计算得到的企业名称相似度很高,但实际上两家企业却是不同的企业。因此,传统地方法不能准确地评估企业名称间的相似度。
发明内容
基于此,有必要针对上述技术问题,提供一种企业名称相似度识别方法、装置、计算机设备和存储介质,能够准确地评估企业名称间的相似度。
一种企业名称相似度识别方法,所述方法包括:
获取原始企业名称,在数据库中获取比对企业名称;
获取地域信息对照表和名称后缀表,根据所述地域信息对照表获取与所述原始企业名称对应的上级地域信息,将所述上级地域信息填充至所述原始企业名称中,得到更新企业名称;
根据所述名称后缀表将所述更新企业名称和所述比对企业名称中的名称后缀删除,得到关键企业名称和关键比对企业名称;
将所述关键企业名称和所述关键比对企业名称进行分词,得到分词结果,将所述分词结果中的各个分词输入已训练的权重计算模型,输出与所述各个分词对应的分词权重信息;
将所述各个分词和所述分词权重信息输入已训练的相似度计算模型中,输出所述原始企业名称和所述比对企业名称的目标相似度。
在其中一个实施例中,所述方法还包括:
获取当所述目标相似度高于预设阈值时对应的比对企业名称,得到替换企业名称;
根据所述替换企业名称替换所述原始企业名称,得到目标企业名称,将所述目标企业名称进行显示。
在其中一个实施例中,所述方法还包括:
将所述原始企业名称输入已训练的标注模型中进行标注,得到地域标注序列;
将所述地域标注序列进行指代消解,得到与所述地域标注序列对应的目标地域信息;
在所述地域信息对照表中查找与所述目标地域信息对应的上级地域信息,将所述上级地域信息填充至所述原始企业名称中,得到更新企业名称。
在其中一个实施例中,所述方法还包括:
在所述数据库中确定与所述分词结果中的各个分词对应的分词频次;
根据所述分词频次确定与所述各个分词对应的分词权重信息;
所述将所述各个分词和所述分词权重信息输入已训练的相似度计算模型中,输出目标相似度,包括:
调用编辑距离算法,根据所述编辑距离算法和所述分词权重信息对所述各个分词进行相似度计算,输出目标相似度。
在其中一个实施例中,所述方法还包括:
根据所述名称后缀表对所述更新企业名称和所述比对企业名称进行序列标注,得到名称标注序列;
将所述名称标注序列进行指代消解,得到与所述名称标注序列对应的目标名称后缀;
根据所述目标名称后缀将所述更新企业名称和所述比对企业名称中的名称后缀删除,得到关键企业名称和关键比对企业名称。
一种企业名称相似度识别装置,所述装置包括:
名称获取模块,用于获取原始企业名称,在数据库中获取比对企业名称;
地域信息填充模块,用于获取地域信息对照表和名称后缀表,根据所述地域信息对照表获取与所述原始企业名称对应的上级地域信息,将所述上级地域信息填充至所述原始企业名称中,得到更新企业名称;
名称后缀删除模块,用于根据所述名称后缀表将所述更新企业名称和所述比对企业名称中的名称后缀删除,得到关键企业名称和关键比对企业名称;
权重信息获取模块,用于将所述关键企业名称和所述关键比对企业名称进行分词,得到分词结果,将所述分词结果中的各个分词输入已训练的权重计算模型,输出与所述各个分词对应的分词权重信息;
目标相似度获取模块,用于将所述各个分词和所述分词权重信息输入已训练的相似度计算模型中,输出所述原始企业名称和所述比对企业名称的目标相似度。
在其中一个实施例中,所述装置还包括:
替换名称获取模块,用于获取当所述目标相似度高于预设阈值时对应的比对企业名称,得到替换企业名称;
名称显示模块,用于根据所述替换企业名称替换所述原始企业名称,得到目标企业名称,将所述目标企业名称进行显示。
在其中一个实施例中,所述装置还包括:
标注序列获取模块,用于将所述原始企业名称输入已训练的标注模型中进行标注,得到地域标注序列;
目标地域信息获取模块,用于将所述地域标注序列进行指代消解,得到与所述地域标注序列对应的目标地域信息;
更新企业名称获取模块,用于在所述地域信息对照表中查找与所述目标地域信息对应的上级地域信息,将所述上级地域信息填充至所述原始企业名称中,得到更新企业名称。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。
上述企业名称相似度识别方法、装置、计算机设备和存储介质,服务器根据地域信息对照表获取与原始企业名称对应的上级地域信息,并将上级地域信息填充至原始企业名称中,得到更新企业名称,进一步对原始企业名称进行地域信息的向上补齐,通过补齐地域信息,提高了企业名称间的相似度评估的准确度。例如,当缺失地域信息的企业名称和比对企业名称进行比对时,将会出现相似度较高的多个比对企业名称,实则多个比对企业名称与缺失地域信息的企业名称对应的企业却是不同的企业。服务器再将更新企业名称和比对企业名称中的名称后缀删除,有效地去除在进行企业名称相似度比较时无用的信息,得到关键企业名称和关键比对企业名称,若服务器未将名称后缀删除,在进行企业名称相似度识别时,由于现实生活的企业名称中的名称后缀大多一样,将会提高企业名称间的相似度,但实则却为不同的企业,不能够准确地进行相似度识别。服务器将进一步输出分词权重信息,并将各个分词和分词权重信息一同输入已训练的相似度计算模型中,输出目标相似度,引入分词权重信息能够使得相似度计算模型不会因为分词结果中的各个分词相似度高就认定该企业名称间的相似度高。服务器通过上级地域信息填充,名称后缀删除、权重计算模型、相似度计算模型依次进行多个不同层级的处理,通过多个处理步骤之间的配合,能够准确地评估企业名称间的相似度。
附图说明
图1为一个实施例中企业名称相似度识别方法的应用环境图;
图2为一个实施例中企业名称相似度识别方法的方法流程图;
图3为一个实施例中企业名称相似度识别方法中进行企业名称替换的方法流程图;
图4为一个实施例中企业名称相似度识别方法中填充上级地域信息至原始企业名称的方法流程图;
图5为一个实施例中企业名称相似度识别方法装置的结构示意图;
图6为一个实施例中计算机设备的内部结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本发明实施例中所提供的企业名称相似度识别方法可以应用于如图1所示的应用环境中,服务器120从终端110获取原始企业名称,在数据库中获取比对企业名称,服务器120获取地域信息对照表和名称后缀表,服务器120根据地域信息对照表获取与原始企业名称对应的上级地域信息,服务器120将上级地域信息填充至原始企业名称中,得到更新企业名称,再根据名称后缀表将更新企业名称和比对企业名称中的名称后缀删除,得到关键企业名称和关键比对企业名称,服务器120将关键企业名称和关键比对企业名称进行分词,得到分词结果,服务器120将分词结果中的各个分词输入已训练的权重计算模型,输出与各个分词对应的分词权重信息,服务器120将各个分词和分词权重信息输入已训练的相似度计算模型中,向终端110输出原始企业名称和比对企业名称的目标相似度。
下述实施方式以企业名称相似度识别方法应用于图1的服务器为例进行说明,但需要说明的是,实际应用中该方法并不仅限应用于上述服务器。
如图2所示,为一个实施例中企业名称相似度识别方法的流程图,该方法具体包括以下步骤:
步骤202,获取原始企业名称,在数据库中获取比对企业名称。
其中,原始企业名称是存在错填或漏填信息的企业名称,原始企业名称中携带有地域信息。比对企业名称是指在国家工商行政管理总局核准的设立企业名称,服务器从数据库中获取的比对企业名称为至少一个。
具体地,服务器可从终端获取原始企业名称,服务器也可从其他服务器中获取原始企业名称,并在数据库中获取比对企业名称,可以理解的是,服务器在数据库中获取的比对企业名称为至少一个,比对企业名称用于计算其与原始企业名称的相似度。
步骤204,获取地域信息对照表和名称后缀表,根据地域信息对照表获取与原始企业名称对应的上级地域信息,将上级地域信息填充至原始企业名称中,得到更新企业名称。
其中,地域信息对照表包括各个省、市、直辖市以及更为下级的地域信息,名称后缀表包括在国家工商行政管理总局核准的设立企业名称的名称后缀和填错或漏填信息的企业名称的名称后缀。
举例说明,比如当原始企业名称为深圳市法华代理有限公司时,将自动进行行政区域的缺失补全,即广东省深圳市法华代理有限公司。可以理解的是,传统地对于企业名称的相似度进行识别时,将去除各个企业名称的行政区域,传统的方法容易导致在不同的行政区域出现同一企业名称的企业时,容易识别为同一企业名称,实际却是不同的两个企业。对于行政区域地址的缺失补全为向上补全,例如,当出现为市时,可自动补全到省。服务器将原始企业名称的行政区域地址进行缺失补全后,得到更新企业名称。名称后缀表包括但不限于有限责任公司、股份有限公司、股份合作公司、企业、合伙企业、厂、商行、部、中心、所、社和集团。
具体地,服务器根据原始企业名称中的地域信息在地域信息对照表中查找上一级地域信息,并将上级地域信息填充至原始企业名称中,得到更新企业名称。可以理解的是,当服务器根据原始企业名称中的地域信息在地域信息对照表中查找不到上一级地域信息时,将原始企业名称作为更新企业名称。
在一个实施例中,当服务器根据地域信息对照表获取到与原始企业名称对应的上级地域信息时,服务器将该上级地域信息与原始企业名称中的地域信息按照地域信息的上下级关系进行填充。举例说明,比如当原始企业名称为深圳市法华知识产权代理有限公司时,服务器在地域信息对照表中查找到深圳市的上一级地域信息为广东省,则按照广东省和深圳市的上下级关系,将广东省填充至深圳市前端,得到的更新企业名称为广东省深圳市法华知识产权代理有限公司。服务器将该上级地域信息与原始企业名称中的地域信息按照地域信息的上下级关系进行填充能够准确地填补原始企业名称中漏填的信息,以此进一步识别企业名称间相似度的准确性。
在一个实施例中,服务器将对原始企业名称进行分词处理,得到与原始企业名称对应的分词列表,分词列表中包括与原始企业名称对应的各个分词,服务器在地域信息对照表中查找与分词列表中的分词对应的地域信息,当服务器获取到多个地域信息时,可将该多个地域信息添加至地域信息核对表中,并将该地域信息核对表显示至对应的终端,接收终端返回的对地域信息核对表中某一地域信息的确认指令,服务器将根据终端选择的地域信息在地域信息对照表中查找对应的上级地域信息,并将上级地域信息填充至原始企业名称中,得到更新企业名称。当服务器获取原始企业名称中的地域信息不唯一时,通过发送地域信息核对表至对应的终端进行选择,能够进一步将正确地上级地域信息填充至原始名称中,得到更新企业名称。
步骤206,根据名称后缀表将更新企业名称和比对企业名称中的名称后缀删除,得到关键企业名称和关键比对企业名称。
其中,关键企业名称是服务器将更新企业名称中的名称后缀进行删除后剩余的企业名称信息,关键比对企业名称是服务器将比对企业名称中的名称后缀进行删除后剩余的企业名称信息。
具体地,服务器将获取更新企业名称和比对企业名称中的名称后缀,并判断该名称后缀是否存在于名称后缀表中,若是,服务器将根据名称后缀表将原始企业名称和比对企业名称中的名称后缀删除,得到关键企业名称和关键比对企业名称。当服务器获取更新企业名称中的名称后缀为空时,服务器将根据名称后缀表将比对企业名称中的名称后缀删除,得到关键比对企业名称,并将更新企业名称作为关键企业名称。
步骤208,将关键企业名称和关键比对企业名称进行分词,得到分词结果,将分词结果中的各个分词输入已训练的权重计算模型,输出与各个分词对应的分词权重信息。
其中,由于关键企业名称和关键比对企业名称中没有明显的空格标记,企业名称中的句子以字串的形式出现,因此需要将输入的字串切分为单独的词语,然后在此基础上进行其他更高级的分析。分词结果中包括与关键企业名称和关键比对企业名称对应的各个分词,服务器将各个分词输入以训练的权重计算模型,输出与各个分词对应的分词权重信息。
具体地,权重计算模型用于计算各个分词的权重信息,权重计算模型中包括企业名称中分词的使用频率。服务器通过权重计算模型计算该分词在企业名称中的使用频率,若使用频率高,则相应权重低,若使用频率低,则相应权重高。
在一个实施例中,权重计算模型可使用编辑距离算法,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。当编辑距离越小,两个串的相似度越大。服务器通过编辑距离算法能够识别各个分词与其他常用企业名称中分词的相似度,通过相似度可进一步确定该分词的使用频率,若使用频率高,则相应权重低,若使用频率低,则相应权重高。
步骤210,将各个分词和分词权重信息输入已训练的相似度计算模型中,输出原始企业名称和比对企业名称的目标相似度。
其中,相似度计算模型用于根据各个分词和分词权重信息计算企业名称间的相似度。目标相似度为原始企业名称和比对企业名称间的相似度。
具体地,相似度计算模型是离散选择型模型,相似度计算模型实现一个企业名称分类器,当服务器输入各个分词和分词权重信息时,相似度计算模型将预测原始企业名称与比对企业名称间的相似度,输出原始企业名称和比对企业名称相似的概率信息,原始企业名称和比对企业名称相似的概率信息为目标相似度。
在一个实施例中,相似度计算模型可为逻辑回归模型,逻辑回归是一种用于解决监督学习问题的学习算法,进行逻辑回归的目的,是使训练数据的标签值与预测出来的值之间的误差最小化。在逻辑回归模型中,给定以一个nx维特征向量x的形式表示,标签为Y的原始企业名称,估计原始企业名称和比对企业名称的相似度概率信息。可以理解的是,相似度概率信息的取值范围可为[0,1]。
在一个实施例中,由于原始企业名称和比对企业名称的名称后缀都被删除,当服务器获取到原始企业名称和比对企业名称间的相似度时,可进一步判断原始企业名称和比对企业名称的名称后缀相似度,服务器将再次根据目标相似度和名称后缀相似度计算原始企业名称和比对企业名称间的相似度,服务器通过综合名称后缀相似度能够进一步提高企业名称相似度识别的准确性。
在一个实施例中,获取原始企业名称和比对企业名称间的相似度可应用于各个需要填写企业名称的场景中,当服务器从终端获取原始企业名称时,通过获取原始企业名称和比对企业名称的目标相似度,服务器再将比对企业名称按照目标相似度的高低进行排序显示。
在一个实施例中,当终端对应的用户在进行企业名称的填写时,服务器将获取该填写的企业名称作为原始企业名称,并输出原始企业名称和比对企业名称间的相似度,服务器根据比对企业名称对原始企业名称的相似度信息判断原始企业名称是否为错填或漏填的企业名称,并可在终端显示相似度高于预设阈值的比对企业名称,以供终端对应的用户在填写企业名称时做对应的修正。
在一个实施例中,服务器可从终端或其他服务器批量获取多个原始企业名称,并通过原始企业名称与比对企业名称间的相似度对原始企业名称进行修正,并可将修正后的原始企业名称显示至对应的终端,或发送至对应的服务器。
进一步地,当终端在选项框中输入原始企业名称时,服务器可在该选项框下方设置下拉框,下拉框中的信息包括按照目标相似度的高低进行排序显示的比对企业名称。特别地,可将与原始企业名称相似度较高的比对企业名称进行突出显示,突出显示包括但不限于以不同颜色突出显示文本、添加下划线、加粗和对文字进行高亮处理等。
本实施例中,服务器根据地域信息对照表获取与原始企业名称对应的上级地域信息,并将上级地域信息填充至原始企业名称中,得到更新企业名称,能够进一步对原始企业名称进行地域信息的向上补齐,通过补齐地域信息,提高了企业名称间的相似度评估的准确度,服务器再将更新企业名称和比对企业名称中的名称后缀删除,有效地去除在进行企业名称相似度比较时无用的信息,得到关键企业名称和关键比对企业名称,若服务器未将名称后缀删除,在进行企业名称相似度识别时,由于现实生活的企业名称中的名称后缀大多一样,将会提高企业名称间的相似度,但实则却为不同的企业,不能够准确地进行相似度识别。服务器将进一步输出分词权重信息,并将各个分词和分词权重信息一同输入已训练的相似度计算模型中,输出目标相似度,引入分词权重信息能够使得相似度计算模型不会因为分词结果中的各个分词相似度高就认定该企业名称间的相似度高。服务器通过上级地域信息填充,名称后缀删除、权重计算模型、相似度计算模型依次进行多个不同层级的处理,通过多个处理步骤之间的配合,能够准确地评估企业名称间的相似度。
在一个实施例中,如图3所示,该方法还包括以下步骤:
步骤302,获取当目标相似度高于预设阈值时对应的比对企业名称,得到替换企业名称。
步骤304,根据替换企业名称替换原始企业名称,得到目标企业名称,将目标企业名称进行显示。
具体地,替换企业名称用于对原始企业名称进行替换的企业名称。当服务器获取原始企业名称和目标企业名称的目标相似度时,服务器将获取目标相似度高于预设阈值时对应的比对企业名称,得到替换企业名称。
在一个实施例中,服务器可将目标企业名称在终端进行显示,当服务器将目标企业名称在终端进行显示之后,服务器可进一步指示终端发送替换名称确认指令,替换名称确认指令用于终端对替换后的企业名称进行确认,当服务器接收到终端发送的替换名称确认指令时,根据替换企业名称替换原始企业名称。
进一步地,当服务器未接收到终端发送的替换名称确认指令时,服务器可将替换企业名称按照预设时间进行闪烁显示,闪烁显示的预设时间可自定义设置,当服务器在预设闪烁显示时间内未接收到终端发送的替换名称确认指令时,可将目标企业名称替换为原始企业名称。可选地,服务器将原始企业名称和目标企业名称进行比对显示,其中,比对显示可为并列显示。
本实施例中,服务器获取当目标相似度高于预设阈值时对应的比对企业名称,得到替换企业名称,并根据替换企业名称替换原始企业名称,得到目标企业名称,再将目标企业名称进行显示,能够将错填或漏填的原始企业名称进行自动的更正。
在一个实施例中,如图4所示,该方法还包括以下步骤:
步骤402,将原始企业名称输入已训练的标注模型中进行标注,得到地域标注序列。
步骤404,将地域标注序列进行指代消解,得到与地域标注序列对应的目标地域信息。
其中,标注模型为序列标注模型,当给定原始企业名称时,将对原始企业名称中的每一个元素打一个标签。服务将原始企业名称中的每一个元素进行打标签后将得到地域标注序列,服务器将地域标注序列进行指代消解,可以理解的是,通过指代消解能够得到与地域标注序列对应的目标地域信息。目标地域信息是指原始企业名称中的地域信息。
服务器根据指代消解找到地域标注序列中的指代词的实际对象,指代消解是指在篇章中确定显性代词指向哪个名词短语的问题,其中,篇章可以是地域标注序列,代词称为指示语或照应语,其所指向的名词短语一般被称为先行语,根据二者之间的先后位置,可分为回指与预指,其中:如果先行语出现在指示语之前,则称为回指,反之则称为预指。举例说明,当得到的地域标注序列为“深(B-LOC)圳(I-LOC)市(E-LOC)法(O)华(O)知(O)识(O)产(O)权(O)代(O)理(O)有(O)限(O)公(O)司(O)”时,服务器通过指示语和先行语“(B-LOC)、(I-LOC)和(E-LOC)”之间的先后位置能够确定与地域标注序列对应的目标地域信息则为“深圳市”。
步骤406,在地域信息对照表中查找与目标地域信息对应的上级地域信息,将上级地域信息填充至原始企业名称中,得到更新企业名称。
具体地,当服务器获取到与地域标注序列对应的目标地域信息时,将在地域信息对照表中查找与目标地域信息对应的上级地域信息。可以理解的是,服务器将首先在地域信息对照表中查找与目标地域信息相同的地域信息,再通过该地域信息查找与其对应的上级地域信息,并将上级地域信息填充至原始企业名称中,得到更新企业名称。
本实施例中,服务器将原始企业名称输入已训练的标注模型中进行标注,得到地域标注序列,并将地域标注序列进行指代消解,得到与地域标注序列对应的目标地域信息,通过获取地域标注序列并对其进行指代消解,能够准确地提取原始企业名称中的地域信息,并在地域信息对照表中查找与目标地域信息对应的上级地域信息,将上级地域信息填充至原始企业名称中,得到更新企业名称,通过补齐地域信息,提高了企业名称间的相似度评估的准确度。避免了当缺失地域信息的企业名称和比对企业名称进行比对时,将会出现相似度较高的多个比对企业名称,实则多个比对企业名称与缺失地域信息的企业名称对应的企业却是不同的企业的情况。
在一个实施例中,该方法还包括:在数据库中确定与分词结果中的各个分词对应的分词频次;根据分词频次确定与各个分词对应的分词权重信息;将各个分词和分词权重信息输入已训练的相似度计算模型中,输出目标相似度,包括:调用编辑距离算法,根据编辑距离算法和分词权重信息对各个分词进行相似度计算,输出目标相似度。
其中,数据库中包括常见的与企业名称对应的分词信息,分词频次是指该分词在数据库中出现的频率信息。编辑距离算法是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。当编辑距离越小,两个串的相似度越大。
本实施例中,服务器通过在数据库中确定与分词结果中的各个分词对应的分词频次,并根据分词频次确定与各个分词对应的分词权重信息,调用编辑距离算法,根据编辑距离算法和分词权重信息对各个分词进行相似度计算,输出目标相似度。通过引入分词权重信息能够使得相似度计算模型不会因为分词结果中的各个分词相似度高就认定该企业名称间的相似度高,通过分词权重信息能够使得企业名称间的相似度评估更加准确。
在一个实施例中,该方法还包括:根据名称后缀表对更新企业名称和比对企业名称进行序列标注,得到名称标注序列;将名称标注序列进行指代消解,得到与名称标注序列对应的目标名称后缀;根据目标名称后缀将更新企业名称和比对企业名称中的名称后缀删除,得到关键企业名称和关键比对企业名称。
具体地,名称标注序列包括服务器将更新企业名称进行序列标注后得到的序列和服务器将比对企业名称进行序列标注后得到的序列,通过将名称标注序列进行指代消解,得到与名称标注序列对应的目标名称后缀。可以理解的是,目标名称后缀包括更新企业名称中的名称后缀,以及比对企业名称中的名称后缀,服务器根据目标名称后缀将更新企业名称和比对企业名称中的名称后缀删除,得到关键企业名称和关键比对企业名称。
本实施例中,服务器通过获取目标名称后缀,并根据目标名称后缀将更新企业名称和比对企业名称中的名称后缀删除,得到关键企业名称和关键比对企业名称,能够有效地去除更新企业名称和比对企业名称中的冗余信息,提高企业名称间相似度识别的准确度。
如图5所示,为一实施例中的企业名称相似度识别装置的示意图,该装置包括:
名称获取模块502,用于获取原始企业名称,在数据库中获取比对企业名称;
地域信息填充模块504,用于获取地域信息对照表和名称后缀表,根据地域信息对照表获取与原始企业名称对应的上级地域信息,将上级地域信息填充至原始企业名称中,得到更新企业名称;
名称后缀删除模块506,用于根据名称后缀表将更新企业名称和比对企业名称中的名称后缀删除,得到关键企业名称和关键比对企业名称;
权重信息获取模块508,用于将关键企业名称和关键比对企业名称进行分词,得到分词结果,将分词结果中的各个分词输入已训练的权重计算模型,输出与各个分词对应的分词权重信息;
目标相似度获取模块510,用于将各个分词和分词权重信息输入已训练的相似度计算模型中,输出原始企业名称和比对企业名称的目标相似度。
在一个实施例中,目标相似度获取模块包括:替换名称获取模块,用于获取当目标相似度高于预设阈值时对应的比对企业名称,得到替换企业名称;名称显示模块,用于根据替换企业名称替换原始企业名称,得到目标企业名称,将目标企业名称进行显示。
在一个实施例中,地域信息填充模块包括:标注序列获取模块,用于将原始企业名称输入已训练的标注模型中进行标注,得到地域标注序列;目标地域信息获取模块,用于将地域标注序列进行指代消解,得到与地域标注序列对应的目标地域信息;更新企业名称获取模块,用于在地域信息对照表中查找与目标地域信息对应的上级地域信息,将上级地域信息填充至原始企业名称中,得到更新企业名称。
在一个实施例中,权重信息获取模块包括:在数据库中确定与分词结果中的各个分词对应的分词频次;根据分词频次确定与各个分词对应的分词权重信息;将各个分词和分词权重信息输入已训练的相似度计算模型中,输出目标相似度,包括:调用编辑距离算法,根据编辑距离算法和分词权重信息对各个分词进行相似度计算,输出目标相似度。
在一个实施例中,名称后缀删除模块还包括:根据名称后缀表对更新企业名称和比对企业名称进行序列标注,得到名称标注序列;将名称标注序列进行指代消解,得到与名称标注序列对应的目标名称后缀;根据目标名称后缀将更新企业名称和比对企业名称中的名称后缀删除,得到关键企业名称和关键比对企业名称。
关于企业名称相似度识别装置的具体限定可以参见上文中对于企业名称相似度识别方法的限定,在此不再赘述。上述企业名称相似度识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。该处理器可以为中央处理单元(CPU)、微处理器、单片机等。上述企业名称相似度识别装置可以实现为一种计算机程序的形式。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,也可以是终端。当该计算机设备为终端时,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种企业名称相似度识别方法。本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,处理器执行程序时实现以下步骤:获取原始企业名称,在数据库中获取比对企业名称;获取地域信息对照表和名称后缀表,根据地域信息对照表获取与原始企业名称对应的上级地域信息,将上级地域信息填充至原始企业名称中,得到更新企业名称;根据名称后缀表将更新企业名称和比对企业名称中的名称后缀删除,得到关键企业名称和关键比对企业名称;将关键企业名称和关键比对企业名称进行分词,得到分词结果,将分词结果中的各个分词输入已训练的权重计算模型,输出与各个分词对应的分词权重信息;将各个分词和分词权重信息输入已训练的相似度计算模型中,输出原始企业名称和比对企业名称的目标相似度。
上述对于计算机设备的限定可以参见上文中对于企业名称相似度识别方法的具体限定,在此不再赘述。
请继续参阅图6,还提供一种计算机可读存储介质,其上存储有计算机程序,如图6中所示的非易失性存储介质,其中,该程序被处理器执行时实现以下步骤:获取地域信息对照表和名称后缀表,根据地域信息对照表获取与原始企业名称对应的上级地域信息,将上级地域信息填充至原始企业名称中,得到更新企业名称;根据名称后缀表将更新企业名称和比对企业名称中的名称后缀删除,得到关键企业名称和关键比对企业名称;将关键企业名称和关键比对企业名称进行分词,得到分词结果,将分词结果中的各个分词输入已训练的权重计算模型,输出与各个分词对应的分词权重信息;将各个分词和分词权重信息输入已训练的相似度计算模型中,输出原始企业名称和比对企业名称的目标相似度。
上述对于计算机可读存储介质的限定可以参见上文中对于企业名称相似度识别方法的具体限定,在此不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种企业名称相似度识别方法,所述方法包括:
获取原始企业名称,在数据库中获取比对企业名称;
获取地域信息对照表和名称后缀表,根据所述地域信息对照表获取与所述原始企业名称对应的上级地域信息,将所述上级地域信息填充至所述原始企业名称中,得到更新企业名称;
根据所述名称后缀表将所述更新企业名称和所述比对企业名称中的名称后缀删除,得到关键企业名称和关键比对企业名称;
将所述关键企业名称和所述关键比对企业名称进行分词,得到分词结果,将所述分词结果中的各个分词输入已训练的权重计算模型,输出与所述各个分词对应的分词权重信息;
将所述各个分词和所述分词权重信息输入已训练的相似度计算模型中,输出所述原始企业名称和所述比对企业名称的目标相似度。
2.根据权利要求1所述的方法,其特征在于,所述将所述各个分词和所述分词权重信息输入已训练的相似度计算模型中,输出所述原始企业名称和所述比对企业名称的目标相似度之后,还包括:
获取当所述目标相似度高于预设阈值时对应的比对企业名称,得到替换企业名称;
根据所述替换企业名称替换所述原始企业名称,得到目标企业名称,将所述目标企业名称进行显示。
3.根据权利要求1所述的方法,其特征在于,所述获取地域信息对照表和名称后缀表,根据所述地域信息对照表获取与所述原始企业名称对应的上级地域信息,将所述上级地域信息填充至所述原始企业名称中,得到更新企业名称,包括:
将所述原始企业名称输入已训练的标注模型中进行标注,得到地域标注序列;
将所述地域标注序列进行指代消解,得到与所述地域标注序列对应的目标地域信息;
在所述地域信息对照表中查找与所述目标地域信息对应的上级地域信息,将所述上级地域信息填充至所述原始企业名称中,得到更新企业名称。
4.根据权利要求1所述的方法,其特征在于,所述将所述分词结果中的各个分词输入已训练的权重计算模型,输出与所述各个分词对应的分词权重信息,包括:
在所述数据库中确定与所述分词结果中的各个分词对应的分词频次;
根据所述分词频次确定与所述各个分词对应的分词权重信息;
所述将所述各个分词和所述分词权重信息输入已训练的相似度计算模型中,输出目标相似度,包括:
调用编辑距离算法,根据所述编辑距离算法和所述分词权重信息对所述各个分词进行相似度计算,输出目标相似度。
5.根据权利要求1所述的方法,其特征在于,所述根据所述名称后缀表将所述更新企业名称和所述比对企业名称中的名称后缀删除,得到关键企业名称和关键比对企业名称,包括:
根据所述名称后缀表对所述更新企业名称和所述比对企业名称进行序列标注,得到名称标注序列;
将所述名称标注序列进行指代消解,得到与所述名称标注序列对应的目标名称后缀;
根据所述目标名称后缀将所述更新企业名称和所述比对企业名称中的名称后缀删除,得到关键企业名称和关键比对企业名称。
6.一种企业名称相似度识别装置,其特征在于,所述装置包括:
名称获取模块,用于获取原始企业名称,在数据库中获取比对企业名称;
地域信息填充模块,用于获取地域信息对照表和名称后缀表,根据所述地域信息对照表获取与所述原始企业名称对应的上级地域信息,将所述上级地域信息填充至所述原始企业名称中,得到更新企业名称;
名称后缀删除模块,用于根据所述名称后缀表将所述更新企业名称和所述比对企业名称中的名称后缀删除,得到关键企业名称和关键比对企业名称;
权重信息获取模块,用于将所述关键企业名称和所述关键比对企业名称进行分词,得到分词结果,将所述分词结果中的各个分词输入已训练的权重计算模型,输出与所述各个分词对应的分词权重信息;
目标相似度获取模块,用于将所述各个分词和所述分词权重信息输入已训练的相似度计算模型中,输出所述原始企业名称和所述比对企业名称的目标相似度。
7.根据权利要求6所述的装置,其特征在于,所述目标相似度获取模块包括:
替换名称获取模块,用于获取当所述目标相似度高于预设阈值时对应的比对企业名称,得到替换企业名称;
名称显示模块,用于根据所述替换企业名称替换所述原始企业名称,得到目标企业名称,将所述目标企业名称进行显示。
8.根据权利要求6所述的装置,其特征在于,所述地域信息填充模块包括:
标注序列获取模块,用于将所述原始企业名称输入已训练的标注模型中进行标注,得到地域标注序列;
目标地域信息获取模块,用于将所述地域标注序列进行指代消解,得到与所述地域标注序列对应的目标地域信息;
更新企业名称获取模块,用于在所述地域信息对照表中查找与所述目标地域信息对应的上级地域信息,将所述上级地域信息填充至所述原始企业名称中,得到更新企业名称。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910420590.6A CN110232187B (zh) | 2019-05-20 | 2019-05-20 | 企业名称相似度识别方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910420590.6A CN110232187B (zh) | 2019-05-20 | 2019-05-20 | 企业名称相似度识别方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110232187A true CN110232187A (zh) | 2019-09-13 |
CN110232187B CN110232187B (zh) | 2022-06-07 |
Family
ID=67861453
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910420590.6A Active CN110232187B (zh) | 2019-05-20 | 2019-05-20 | 企业名称相似度识别方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110232187B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110705297A (zh) * | 2019-09-23 | 2020-01-17 | 北京海致星图科技有限公司 | 一种企业曾用名识别方法、系统、介质及设备 |
CN111104795A (zh) * | 2019-11-19 | 2020-05-05 | 平安金融管理学院(中国·深圳) | 公司名称的匹配方法、装置、计算机设备及存储介质 |
CN111641995A (zh) * | 2020-05-26 | 2020-09-08 | 中国联合网络通信集团有限公司 | 热点名称的更新方法及装置 |
CN111898378A (zh) * | 2020-07-31 | 2020-11-06 | 中国联合网络通信集团有限公司 | 政企客户的行业分类方法和装置、电子设备、存储介质 |
CN112364635A (zh) * | 2020-11-30 | 2021-02-12 | 中国银行股份有限公司 | 企业名称查重方法及装置 |
CN112580916A (zh) * | 2019-09-30 | 2021-03-30 | 深圳无域科技技术有限公司 | 数据评估方法、装置、计算机设备和存储介质 |
CN112580342A (zh) * | 2019-09-30 | 2021-03-30 | 深圳无域科技技术有限公司 | 公司名称比对的方法、装置、计算机设备和存储介质 |
CN112784015A (zh) * | 2021-01-25 | 2021-05-11 | 北京金堤科技有限公司 | 信息识别方法和装置、设备、介质和程序 |
CN113254732A (zh) * | 2021-07-16 | 2021-08-13 | 企查查科技有限公司 | 企业关系的确定方法、装置、计算机设备和存储介质 |
CN113807429A (zh) * | 2021-09-14 | 2021-12-17 | 企查查科技有限公司 | 企业的分类方法、装置、计算机设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150154611A1 (en) * | 2012-01-05 | 2015-06-04 | Google Inc. | Detecting potentially false business listings based on government zoning information |
CN105139141A (zh) * | 2015-11-02 | 2015-12-09 | 浪潮软件股份有限公司 | 一种自动审核企业名称的方法和系统 |
CN106934631A (zh) * | 2015-12-29 | 2017-07-07 | 阿里巴巴集团控股有限公司 | 名称数据处理方法及装置 |
CN108549640A (zh) * | 2018-04-24 | 2018-09-18 | 易联众信息技术股份有限公司 | 一种基于统计学的企业名称相似度计算方法 |
-
2019
- 2019-05-20 CN CN201910420590.6A patent/CN110232187B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150154611A1 (en) * | 2012-01-05 | 2015-06-04 | Google Inc. | Detecting potentially false business listings based on government zoning information |
CN105139141A (zh) * | 2015-11-02 | 2015-12-09 | 浪潮软件股份有限公司 | 一种自动审核企业名称的方法和系统 |
CN106934631A (zh) * | 2015-12-29 | 2017-07-07 | 阿里巴巴集团控股有限公司 | 名称数据处理方法及装置 |
CN108549640A (zh) * | 2018-04-24 | 2018-09-18 | 易联众信息技术股份有限公司 | 一种基于统计学的企业名称相似度计算方法 |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110705297A (zh) * | 2019-09-23 | 2020-01-17 | 北京海致星图科技有限公司 | 一种企业曾用名识别方法、系统、介质及设备 |
CN112580342A (zh) * | 2019-09-30 | 2021-03-30 | 深圳无域科技技术有限公司 | 公司名称比对的方法、装置、计算机设备和存储介质 |
CN112580916B (zh) * | 2019-09-30 | 2024-05-28 | 深圳无域科技技术有限公司 | 数据评估方法、装置、计算机设备和存储介质 |
CN112580916A (zh) * | 2019-09-30 | 2021-03-30 | 深圳无域科技技术有限公司 | 数据评估方法、装置、计算机设备和存储介质 |
CN111104795A (zh) * | 2019-11-19 | 2020-05-05 | 平安金融管理学院(中国·深圳) | 公司名称的匹配方法、装置、计算机设备及存储介质 |
CN111641995A (zh) * | 2020-05-26 | 2020-09-08 | 中国联合网络通信集团有限公司 | 热点名称的更新方法及装置 |
CN111898378A (zh) * | 2020-07-31 | 2020-11-06 | 中国联合网络通信集团有限公司 | 政企客户的行业分类方法和装置、电子设备、存储介质 |
CN111898378B (zh) * | 2020-07-31 | 2023-09-19 | 中国联合网络通信集团有限公司 | 政企客户的行业分类方法和装置、电子设备、存储介质 |
CN112364635B (zh) * | 2020-11-30 | 2023-11-21 | 中国银行股份有限公司 | 企业名称查重方法及装置 |
CN112364635A (zh) * | 2020-11-30 | 2021-02-12 | 中国银行股份有限公司 | 企业名称查重方法及装置 |
CN112784015A (zh) * | 2021-01-25 | 2021-05-11 | 北京金堤科技有限公司 | 信息识别方法和装置、设备、介质和程序 |
CN112784015B (zh) * | 2021-01-25 | 2024-03-12 | 北京金堤科技有限公司 | 信息识别方法和装置、设备、介质和程序 |
CN113254732A (zh) * | 2021-07-16 | 2021-08-13 | 企查查科技有限公司 | 企业关系的确定方法、装置、计算机设备和存储介质 |
CN113807429A (zh) * | 2021-09-14 | 2021-12-17 | 企查查科技有限公司 | 企业的分类方法、装置、计算机设备和存储介质 |
CN113807429B (zh) * | 2021-09-14 | 2024-03-29 | 企查查科技股份有限公司 | 企业的分类方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110232187B (zh) | 2022-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110232187A (zh) | 企业名称相似度识别方法、装置、计算机设备和存储介质 | |
CN107992481B (zh) | 一种基于多叉树的正则表达式匹配方法、装置及系统 | |
JP2017224184A (ja) | 機械学習装置 | |
JP2003228581A (ja) | 適合性フィードバックによる類似検索方法 | |
CN109325201A (zh) | 实体关系数据的生成方法、装置、设备及存储介质 | |
CN107220300A (zh) | 信息挖掘方法、电子装置及可读存储介质 | |
CN106557777B (zh) | 一种基于SimHash改进的Kmeans文档聚类方法 | |
CN101799802A (zh) | 利用结构信息进行实体关系提取的方法和系统 | |
KR100835290B1 (ko) | 문서 분류 시스템 및 문서 분류 방법 | |
CN113515600B (zh) | 一种基于元数据的空间分析自动计算方法 | |
CN116680162B (zh) | 一种测试用例复用方法、装置、介质、设备及产品 | |
US20200210746A1 (en) | Floating form processing based on topological structures of documents | |
CN110852076B (zh) | 一种自动化疾病编码转换的方法及装置 | |
CN112069818A (zh) | 三元组预测模型生成方法、关系三元组提取方法和装置 | |
CN102662953B (zh) | 与输入法集成的语义标注系统和方法 | |
Machanavajjhala et al. | Collective extraction from heterogeneous web lists | |
CN109783483A (zh) | 一种数据整理的方法、装置、计算机存储介质及终端 | |
JP5790820B2 (ja) | 不整合検出装置、プログラム及び方法、修正支援装置、プログラム及び方法 | |
JP5690472B2 (ja) | データ抽出システム | |
CN116185853A (zh) | 代码校验方法及装置 | |
JP2020042386A (ja) | 対象データに対して関連付けるラベルを決定する計算機システム | |
JP2000040085A (ja) | 日本語形態素解析処理の後処理方法および装置 | |
CN111143582A (zh) | 一种双索引实时更新联想词的多媒体资源推荐方法及装置 | |
JP5487078B2 (ja) | ソフトウェア資産整理方法及び装置 | |
CN114118078A (zh) | 制作辅助装置、制作辅助方法及记录介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |