CN115952801A - 一种企业名称对齐方法、电子设备和存储介质 - Google Patents
一种企业名称对齐方法、电子设备和存储介质 Download PDFInfo
- Publication number
- CN115952801A CN115952801A CN202211724914.3A CN202211724914A CN115952801A CN 115952801 A CN115952801 A CN 115952801A CN 202211724914 A CN202211724914 A CN 202211724914A CN 115952801 A CN115952801 A CN 115952801A
- Authority
- CN
- China
- Prior art keywords
- enterprise
- candidate
- name
- information
- correlation degree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000003860 storage Methods 0.000 title claims abstract description 10
- 230000008520 organization Effects 0.000 claims abstract description 30
- 230000007246 mechanism Effects 0.000 claims description 14
- 230000011218 segmentation Effects 0.000 claims description 10
- 239000000470 constituent Substances 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 7
- 238000005516 engineering process Methods 0.000 description 7
- 238000010276 construction Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 230000002776 aggregation Effects 0.000 description 3
- 238000004220 aggregation Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000012163 sequencing technique Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Machine Translation (AREA)
Abstract
本发明提供了一种企业名称对齐方法,包括:获取目标文本信息中的企业代称,以及与所述企业代称相关的关联地域实体和关联人物实体;获取所述企业代称中的构成要素,并基于获取的构成要素获取所述企业代称对应的企业简称集合,所述构成要素包括商号、地域、行业和机构类型中的至少一个;基于所述企业代称和对应的企业简称集合,获取与所述企业代称相关的候选企业信息列表,所述候选企业信息列表中包括n个候选企业信息,所述候选企业信息至少包括对应候选企业的企业名称;基于所述n个候选企业信息,获取与所述企业代称相关的目标企业名称。本发明还提供一种电子设备和存储介质。本发明能够提高企业名称对齐的准确率。
Description
技术领域
本发明涉及实体对齐领域,特别是涉及一种企业名称对齐方法、电子设备和存储介质。
背景技术
实体对齐旨在发现两个或者多个不同信息来源中指向真实世界中同一个对象的实体,在这些实体之间构建对齐关系。企业作为一种组织机构,是实体的一种特定类别,同一家企业在不同的数据来源中可能有多种不同的代称,如企业全称、企业简称、企业昵称代称、证券名称等均可以代指同一个企业对象,同时同一个企业简称、企业昵称在不同的信息背景下可能代表不同的企业对象,这些复杂多样的代称对企业信息聚合、企业知识图谱构建等方面带来极大的困难。因此,将企业的多种代称与企业唯一全称进行对齐,对企业信息聚合、企业知识图谱构建等具有重要意义。
已知的一种企业名称对齐方法包括:对包含待识别简称的文本进行简称识别处理,获得备选简称集合,获取备选简称集合中各备选简称在预设文本库中的词频,根据各备选简称的词频,确定目标简称,遍历预设缩写简称库,获取与目标简称匹配的缩写简称,获取与缩写简称对应的企业全称,当查找到目标简称与企业全称共现的文本时,确定企业全称与目标简称匹配成功。已知的另一种企业名称对齐方法包括:获取公司简称,通过公司简称检索出相关的候选公司全称,将每个所述候选公司全称分割为多个词,并将分割后的各个词与所述公司简称比对,计算所有候选公司全称的匹配度,选出最高匹配度,若所述最高匹配度大于或等于设定阈值,选取最高匹配度对应的候选公司全称与公司简称进行对应。
现有的对齐方法主要基于简称词库或利用公司简称检索公司全称的方式实现企业名称对齐,这些方法仍然存在一定的局限性。首先,由于全量企业库数量庞大且企业代称复杂多样,构建完整全面的企业简称词库难度极大,导致基于简称词库进行企业名称对齐的召回率低;其次,由于企业在舆情中的代称可能是其证券名称、简称、昵称等,这些名称不一定是公司全称的子串,致使利用简称检索公司全称的方式不一定能正确检索到公司全称,导致该方法的召回率低;最后,由于同一个企业简称、企业昵称在不同的信息背景下可能代表不同的企业对象,以上两种对齐方法无法处理这种情况,影响企业名称对齐的准确率。
发明内容
针对上述技术问题,本发明采用的技术方案为:
本发明实施例提供一种企业名称对齐方法,所述方法包括如下步骤:
S100,获取目标文本信息中的企业代称,以及与所述企业代称相关的关联地域实体和关联人物实体;
S200,获取所述企业代称中的构成要素,并基于获取的构成要素获取所述企业代称对应的企业简称集合,所述构成要素包括商号、地域、行业和机构类型中的至少一个;
S300,基于所述企业代称和对应的企业简称集合,获取与所述企业代称相关的候选企业信息列表,所述候选企业信息列表中包括n个候选企业信息,所述候选企业信息至少包括对应候选企业的企业名称;
S400,基于所述n个候选企业信息,获取与所述企业代称相关的目标企业名称。
本发明另一实施例提供一种非瞬时性计算机可读存储介质,所述存储介质中存储有至少一条指令或至少一段程序,其特征在于,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如前述方法。
本发明另一实施例还提供一种电子设备,包括处理器和前述的非瞬时性计算机可读存储介质。
本发明至少具有以下有益效果:
本发明实施例提供的企业名称对齐方法,首先抽取信息中的企业代称及企业相关实体,基于抽取到的企业代称进行简称、商号、地域、行业及机构类型抽取,构造企业简称集合,然后基于企业代称及企业简称集合进行多层次的企业信息召回,获得候选企业列表,接着计算信息的企业代称与候选企业的相关度,再根据相关度对候选企业进行排序,最终得到企业代称对齐的企业全称。本发明能够有效解决同一企业的不同代称向企业全称的对齐映射问题及不同信息背景下相同企业代称向不同企业的企业全称对齐映射问题,能够提高企业名称对齐的准确率和召回率,对企业信息聚合、企业知识图谱构建具有重要意义。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的企业名称对齐方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例中,企业名称对齐是指将企业舆情信息或内部文件等文本信息中的企业代称映射到工商企业信息库中的企业实体中,以找到对应的企业实体。
图1为本发明实施例提供的企业名称对齐方法的流程图。
本发明实施例提供一种企业名称对齐方法,如图1所示,所述方法可包括如下步骤:
S100,获取目标文本信息中的企业代称,以及与所述企业代称相关的关联地域实体和关联人物实体。
在本发明实施例中,目标文本信息可为企业舆情信息或内部文件等文本信息。企业代称可为企业全称、企业简称、证券名称、企业别称等在信息中可以代指某个企业对象的专有名称。企业代称抽取可以采用命名实体识别模型来抽取。命名实体识别模型通过携带实体标注的样本数据集训练得到,根据文本的特征向量,识别的命名实体为文本中的简称,包括人名、地名、机构名、专有名词等,其中机构名往往是指企业、政府机构等,因此可以利用命名实体识别模型抽取机构名来得到企业代称,命名实体识别模型可以采用BiLSTM-CRF、IDCNN-CRF等常用的命名实体模型。例如,对于文本信息{[中国,深圳,2022年7月18日]2022年华为Win-Win创新周期间,华为常务董事、ICT基础设施业务管理委员会主任汪涛发表了题为“持续创新,全面迈向5.5G时代”的主题演讲,提出“全面迈向5.5G时代”的概念,和运营商与行业伙伴一起探讨面向未来5到10年行业整体代际演进、创新发展的方向,携手走向5.5G时代,创新共赢美好未来},采用命名实体模型能够抽取到的企业代称为华为。在本发明实施例中,所述关联地域实体和关联人物实体可通过如下步骤获取:
S101,在所述目标文本信息中获取所述企业代称所在位置前后的n1个汉字、n2个句子或者n3个段落,作为所述企业代称的上下文文本。
在本发明实施例中,n1~n3可自定义设置。在一个示意性实施例中,n1可为100~300,n2可为1~10,n3可为1~3。
S102,从所述企业代称的上下文文本中获取人物和地域,分别作为所述企业代称的人物实体和地域实体。
在本发明实施例中,可采用命名实体识别模型来实现,利用命名实体识别模型来抽取企业代称的上下文文本中的人物、地点作为企业代称的人物、地点实体,抽取方法与抽取企业代称类似。在以上的文本信息中,可以抽取到企业相关的人物实体-汪涛和企业相关的地点实体-中国、深圳。
S200,获取所述企业代称中的构成要素,并基于获取的构成要素获取所述企业代称对应的企业简称集合,所述构成要素包括商号、地域、行业和机构类型中的至少一个。
在本发明一实施例中,所述企业代称中的构成要素可通过如下步骤获取:
S201,将所述企业代称进行分词处理,得到m个词语。
S202,将m个词语中的每个词语分别与设定的地域词典、设定的行业词典和设定的机构类型词典进行匹配,获取所述企业代称中的地域、行业和机构类型。
在本发明实施例中,地域是指企业代称中含有的地名部分,如上海、北京、深圳等。机构类型指企业代称中代指机构类型的部分,如股份有限公司、集团公司、有限责任公司等。行业指企业代称中代指行业的部分,如科技、健康、医药生产等。
如果某个词语包含在某个词典中,则属于该词典所限定的构成要素,例如,某个词语包含在设定的地域词典中,则该词语为企业代称中的地域。
在本发明实施例中,设定的地域词典的构造方法为:根据《中华人民共和国行政区划代码》构造,将其中的地域纳入地域字典,同时剔除行政区划通名,剩余专名也纳入地域字典。或者,可以通过爬虫在社交网站、电子商务网站中爬取地名结构化信息,将其中的地域纳入地域字典,同时剔除行政区划通名,剩余专名也纳入地域字典。
设定的机构类型词典的构造方法为:基于《企业登记注册类型对照表》构造,并进行人工筛选和扩充,具体,根据常用的注册类型进行筛选和扩充,如果《企业登记注册类型对照表》中没有包含一些常用的注册类型,则加入这些注册类型。
设定的行业词典的构造方法为:构造企业名称数据集,对所有企业名称进行分词,将分词结果中与地域字典、机构类型字典中词语一直的词进行剔除,然后对剩余所有词语按照词频统计,对词频较高的特定数量例如1000以上的词进行人工审核校验,以筛除掉不是行业的词和分词不准确的词,形成行业字典。
本领域技术人员知晓,企业代称中可能包含地域、行业和机构类型中的一个或者多个,也可能一个都不包括。
S203,从所述企业代称中剔除所述地域、行业和机构类型,得到所述商号。
本领域技术人员知晓,如果企业代称中不包括地域、行业和机构类型,则商号即是企业代称。
在本发明实施例中,所述企业简称集合可通过商号、地域、行业和机构类型的组合形成,可包括基于商号的企业简称和基于商号和组合要素的企业简称,所述组合要素包括地域、行业和机构类型,其中,基于商号和组合要素的企业简称中的商号和组合要素的位置与商号和组合要素在所述企业代称中的位置相同,即按照词语在原企业代称中的顺序对词语进行组合,形成企业简称集合。例如,如果企业代称为“北京中科闻歌”,地域为“北京”,商号为“中科闻歌”,则构成的简称集合为{中科闻歌,北京中科闻歌}。又例如,如果企业代称为“闻歌中国科技有限公司”,则构成的简称集合为{闻歌,闻歌中国,闻歌科技,闻歌有限公司}。
在本发明另一实施例中,所述企业代称中的构成要素和所述企业简称集合可基于训练后的AI模型获取得到。具体,可对作为训练样本的多个企业代称的每个字的类型进行标注,类型可包括简称、地域、行业、机构类型等,然后输入AI模型例如深度神经网络中进行训练,得到训练后的AI模型。可将获取的企业代称,输入到训练后的AI模型中,得到对应的企业简称、地域、行业和机构类型等。
S300,基于所述企业代称和对应的企业简称集合,获取与所述企业代称相关的候选企业信息列表,所述候选企业信息列表中包括n个候选企业信息,所述候选企业信息至少包括对应候选企业的企业名称。
在本发明一实施例中,所述候选企业信息列表包括第一检索结果、第二检索结果和第三检索结果中的至少两个,例如,可包括第一检索结果和第二检索结果,或者可包括第一检索结果和第三检索结果,或者可包括第二检索结果和第三检索结果,或者,可包括第一至第三检索结果。优选,可包括第一检索结果至第三检索结果,以使得候选企业尽可能的多。
其中,第一检索结果基于企业代称召回得到,具体地,第一检索结果基于如下步骤获取:
S301,将所述企业代称作为检索词,在设定的企业信息库中进行检索,得到对应的候选企业信息,作为第一检索结果。
在本发明实施例中,设定的企业信息库可为现有的信息库,例如,工商部门的企业信息库。企业信息库中包括Q条记录,每条记录包括对应企业的企业名称字段、证券名称字段以及属性信息,如注册地址、注册资金、实缴资本、员工人数、核心人员等。
具体地,采用企业代称作为检索词在企业信息库中检索企业名称和证券名称,当某条记录中的企业名称包含企业代称或证券名称等于企业代称时,则满足条件,将该记录作为候选企业信息。比如,企代称为华为科技,企业信息库存储在ES中,查询语句为{"size":1000,"query":{"bool":{"should":[{"match_phrase":{"name":"华为"}},{"term":{"bond.keyword":"华为"}}]}}},将查询结果作为候选企业信息。如此,可得到与企业代称相关的所有候选企业信息。
第二检索结果基于企业简称集合召回得到,具体地,第二检索结果基于如下步骤获取:
S302,将企业简称集合中的第i个企业简称作为检索词,在设定的企业信息库中进行检索,得到与第i个企业简称对应的h(i)个候选企业信息,i的取值为1到k,k为企业简称集合中的企业简称数量;得到N个候选企业信息,作为第二检索结果,其中,N=h(1)+h(2)+…+h(i)+…+h(k)。
具体地,将企业简称集合中的每个简称作为检索词在企业信息库中检索企业名称,当某条记录中的企业名称包含该简称时,则满足条件,将该条记录作为候选企业信息。比如,企业简称集合包含华为、华为科技、华为股份、华为集团,则查询条件为企业信息库存储在ES中,查询语句为{"size":1000,"query":{"bool":{"should":[{"match_phrase":{"name":"华为"}},{"match_phrase":{"name":"华为科技"}},{"match_phrase":{"name":"华为股份"}},{"match_phrase":{"name":"华为集团"}}]}}},将查询结果作为候选企业。如此,可得到与每个简称相关的候选企业信息,即N个候选企业信息。
第三检索结果基于企业简称集合的分词后的词语召回得到,具体地,可通过如下步骤获取:
S303,对企业简称集合中的第i个企业简称进行分词处理,得到f(i)个词语,并将f(i)个词语中的每个词语作为检索词,在设定的企业信息库中进行检索,得到与第i个企业简称对应的g(i)个候选企业信息;得到M个候选企业信息,作为第三检索结果,其中,M=g(1)+g(2)+…+g(i)+…+g(k)。
具体地,对企业简称集合中的每个简称进行分词,将分词后得到的每个词语作为检索词在企业信息库中检索企业名称,当某条记录中的企业名称包含企业简称所有分词词语时,则满足条件,将该条记录作为该企业简称的候选企业信息。比如,企业简称集合包含华为、华为科技、华为股份、华为集团,则查询条件为企业信息库存储在ES中,查询语句为{"size":1000,"query":{"bool":{"should":[{"bool":{"must":[{"match_phrase":{"name":"华为"}}]}},{"bool":{"must":[{"match_phrase":{"name":"华为"}},{"match_phrase":{"name":"科技"}}]}},{"bool":{"must":[{"match_phrase":{"name":"华为"}},{"match_phrase":{"name":"股份"}}]}},{"bool":{"must":[{"match_phrase":{"name":"华为"}},{"match_phrase":{"name":"集团"}}]}}]}}},将查询结果作为候选企业。
如此,能够得到与每个简称对应的候选企业信息,即能够得到M个候选企业信息。
进一步地,在本发明另一实施例中,可以按照一定的优先级召回,如果召回候选企业满足召回候选企业数量例如100个以上时,则不再采用其它方式进行召回。具体地,S300可具体包括:
S310,将所述企业代称作为检索词,在设定的企业信息库中进行检索,得到对应的H个候选企业信息,作为第一检索结果;如果H≥d,则基于所述第一检索结果形成所述候选企业信息列表,否则,执行S312;d为设定数量阈值,例如,d=100。
S312,将企业简称集合中的第i个企业简称作为检索词,在设定的企业信息库中进行检索,得到与第i个企业简称对应的h(i)个候选企业信息,i的取值为1到k,k为企业简称集合中的企业简称数量;得到N个候选企业信息,作为第二检索结果,其中,N=h(1)+h(2)+…+h(i)+…+h(k);如果H+N≥d,则基于所述第一检索结果和所述第二检索结果形成所述候选企业信息列表;否则,执行S314。
S314,对企业简称集合中的第i个企业简称进行分词处理,得到f(i)个词语,并将f(i)个词语中的每个词语作为检索词,在设定的企业信息库中进行检索,得到与第i个企业简称对应的g(i)个候选企业信息;得到M个候选企业信息,作为第三检索结果,其中,M=g(1)+g(2)+…+g(i)+…+g(k);执行S316。
S316,基于所述第一检索结果、所述第二检索结果和所述第三检索结果得到所述候选企业信息列表,即将H+N+M个候选企业信息融合形成候选企业信息列表。
S400,基于所述n个候选企业信息,获取与所述企业代称相关的目标企业名称。
进一步地,在本发明一实施例中,S400可具体包括:
S401,基于设定排序规则表对n个候选企业信息的企业名称进行排序,得到目标排序列表;其中,设定排序规则表的第u行包括(Iu,Pu),其中,Iu为设定排序规则表中的第u个排序属性信息,Pu为Iu对应的排序优先级,u的取值为1到X,X为设定排序规则表中的排序属性信息的数量,P1<P2<…<Pu<…<PX;其中,Iu∈{名称相关度、商号相关度、地域相关度、注册地址相关度、机构类型相关度、行业相关度、关联地域实体相关度、关联人物实体相关度、综合相关度、地域属性值、机构类型属性值、注册资本、实缴资本、人员数量},即X个排序属性信息可从集合{名称相关度、商号相关度、地域相关度、注册地址相关度、机构类型相关度、行业相关度、关联地域实体相关度、关联人物实体相关度、综合相关度、地域属性值、机构类型属性值、注册资本、实缴资本、人员数量}中选取,具体选择哪些可基于实际需要进行选择。
在本发明实施例中,名称相关度根据企业代称与候选企业的全称或证券名称是否全同来判定,如果全同则为1,否则为0。商号相关度根据企业代称的商号和候选企业的商号是否相同计算,若相同则为1,否则为0。地域相关度为企业代称包含的地域与候选企业全称中包含的地域相同的数量,例如,相同的数量为1,则地域相关度为1。注册地址相关度为企业代称中包含的地域与候选企业注册地址相同的数量。机构类型相关度根据企业代称抽取的机构类型与候选企业全称抽取的机构类型是否相同计算,若相同则为1,否则为0。行业相关度为企业代称抽取的行业关键词与候选企业全称抽取的行业关键词的重合数量。关联地域实体相关度为企业代称的关联地域实体与候选企业全称包含的地域相同的数量。关联人物实体相关度为企业代称的关联人物实体与候选企业的法人、董监高等核心人员的重合数量。综合相关度等于Rs∈{名称相关度、商号相关度、地域相关度、注册地址相关度、机构类型相关度、行业相关度、关联地域实体相关度、关联人物实体相关度},ws为Rs对应的权重,各相关度的权重可以采用机器学习得到,也可以根据专家经验进行设定。
在本发明实施例中,候选企业的简称、商号、地域、行业和机构类型可与S200相同。
注册资本、实缴资本、人员数量为候选企业的注册资本、实缴资本和人员数量。
地域属性值根据候选企业名称抽取的地址及注册地址确定,如果候选企业名称中含有中国,则地域属性值为2,含有大城市例如北京、上海、深圳、广州等大城市,则地域属性值为1,否则地域属性值为0。机构类型属性值根据候选企业名称抽取到的机构类型确定,若候选企业为集团类、控股类企业,则机构类型属性值为1,若候选企业为分公司、子公司等分支机构,则机构类型属性值为-1,否则机构类型属性值为0。
进一步,S401具体包括:
S4011,将所述n个候选企业信息中的企业名称按照I1由高到低的顺序进行排序,得到第一排序列表。
S4012,将第(r-1)排序列表中的企业名称按照第r排序优选级对应的相关度Ir由高到低的顺序进行排序,得到第r排序列表,即当前排序的候选企业名称顺序为上一次排序后的候选企业名称顺序;r的取值为2到X。
S4013,设置r=r+1;如果r≤X,执行S4012,否则,将当前的排序列表作为目标排序列表。
S402,将目标排序列表中的前P个企业名称作为所述企业代称对应的目标企业名称。在本发明实施例中,P可基于实际需要进行设置,例如,P=3个。
进一步地,在本发明另一实施例中,S400可具体包括:
S410,将每个候选企业信息基于设定排序规则表获取的排序属性信息输入到训练后的实体相关度预测模型中,得到n个预测概率,每个预测概率为对应的相关度信息中的企业名称为所述企业代称的概率。
训练后的实体相关度预测模型可通过设定排序规则表对应的排序属性信息训练得到,具体训练方法可为现有技术。实体相关度预测模型可为神经网络模型。
S420,将n个预测概率进行降序排列,并获取降序排列后的n个预测概率中的前P个预测概率对应的企业名称作为所述企业代称对应的目标企业名称。
本领域技术人员知晓,目标文本信息中可能包括一个企业代称,也可能包括多个企业代称。每个企业代称的目标企业名称的获取方式均相同。
本发明实施例提供的企业名称对齐方法,至少具有以下优点:
(1)在信息中抽取企业代称,同时抽取人物、地域等其它企业相关实体,应用于企业代称与候选企业实体的相关度计算、候选企业实体排序,能够提高企业名称对齐的准确率。
(2)基于企业代称抽取企业简称集合,采用多层次方法进行企业信息召回,能够提高企业名称对齐的召回率。同时,抽取到的地域、企业类型信息用于相关度计算,能够提高企业名称对齐的准确率。
(3)基于候选企业相关度计算方法及多策略候选企业实体排序方法,用于评估企业代称与候选企业之间是同一实体对象的可能性,并对候选企业进行排序,能够提高企业名称对齐的准确率。
本发明的实施例还提供了一种非瞬时性计算机可读存储介质,该存储介质可设置于电子设备之中以保存用于实现方法实施例中一种方法相关的至少一条指令或至少一段程序,该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述实施例提供的方法。
本发明的实施例还提供了一种电子设备,包括处理器和前述的非瞬时性计算机可读存储介质。
本发明的实施例还提供一种计算机程序产品,其包括程序代码,当所述程序产品在电子设备上运行时,所述程序代码用于使该电子设备执行本说明书上述描述的根据本发明各种示例性实施方式的方法中的步骤。
虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员还应理解,可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明公开的范围由所附权利要求来限定。
Claims (10)
1.一种企业名称对齐方法,其特征在于,所述方法包括如下步骤:
S100,获取目标文本信息中的企业代称,以及与所述企业代称相关的关联地域实体和关联人物实体;
S200,获取所述企业代称中的构成要素,并基于获取的构成要素获取所述企业代称对应的企业简称集合,所述构成要素包括商号、地域、行业和机构类型中的至少一个;
S300,基于所述企业代称和对应的企业简称集合,获取与所述企业代称相关的候选企业信息列表,所述候选企业信息列表中包括n个候选企业信息,所述候选企业信息至少包括对应候选企业的企业名称;
S400,基于所述n个候选企业信息,获取与所述企业代称相关的目标企业名称。
2.根据权利要求1所述的方法,其特征在于,所述关联地域实体和关联人物实体通过如下步骤获取:
S101,在所述目标文本信息中获取所述企业代称所在位置前后的n1个汉字、n2个句子或者n3个段落,作为所述企业代称的上下文文本;
S102,从所述企业代称的上下文文本中获取人物和地域,分别作为所述企业代称的关联人物实体和关联地域实体。
3.根据权利要求1所述的方法,其特征在于,所述企业简称集合包括基于商号的企业简称和基于商号和组合要素的企业简称,所述组合要素包括地域、行业和机构类型,其中,基于商号和组合要素的企业简称中的商号和组合要素的位置与商号和组合要素在所述企业代称中的位置相同。
4.根据权利要求1所述的方法,其特征在于,所述企业代称中的构成要素通过如下步骤获取:
S201,将所述企业代称进行分词处理,得到m个词语;
S202,将m个词语中的每个词语分别与设定的地域词典、设定的行业词典和设定的机构类型词典进行匹配,获取所述企业代称中的地域、行业和机构类型;
S203,从所述企业代称中剔除所述地域、行业和机构类型,得到所述商号。
5.根据权利要求1所述的方法,其特征在于,所述候选企业信息列表包括第一检索结果、第二检索结果和第三检索结果中的至少两个;
其中,第一检索结果基于如下步骤获取:
S301,将所述企业代称作为检索词,在设定的企业信息库中进行检索,得到对应的候选企业信息,作为第一检索结果;
第二检索结果基于如下步骤获取:
S302,将企业简称集合中的第i个企业简称作为检索词,在设定的企业信息库中进行检索,得到与第i个企业简称对应的h(i)个候选企业信息,i的取值为1到k,k为企业简称集合中的企业简称数量;得到N个候选企业信息,作为第二检索结果,其中,N=h(1)+h(2)+…+h(i)+…+h(k);;
第三检索结果基于如下步骤获取:
S303,对企业简称集合中的第i个企业简称进行分词处理,得到f(i)个词语,并将f(i)个词语中的每个词语作为检索词,在设定的企业信息库中进行检索,得到与第i个企业简称对应的g(i)个候选企业信息;得到M个候选企业信息,作为第三检索结果,其中,M=g(1)+g(2)+…+g(i)+…+g(k)。
6.根据权利要求1所述的方法,其特征在于,S300具体包括:
S310,将所述企业代称作为检索词,在设定的企业信息库中进行检索,得到对应的H个候选企业信息,作为第一检索结果;如果H≥d,则基于所述第一检索结果形成所述候选企业信息列表,否则,执行S312;d为设定数量阈值;
S312,将企业简称集合中的第i个企业简称作为检索词,在设定的企业信息库中进行检索,得到与第i个企业简称对应的h(i)个候选企业信息,i的取值为1到k,k为企业简称集合中的企业简称数量;得到N个候选企业信息,作为第二检索结果,其中,N=h(1)+h(2)+…+h(i)+…+h(k);如果H+N≥d,则基于所述第一检索结果和所述第二检索结果形成所述候选企业信息列表;否则,执行S314;
S314,对企业简称集合中的第i个企业简称进行分词处理,得到f(i)个词语,并将f(i)个词语中的每个词语作为检索词,在设定的企业信息库中进行检索,得到与第i个企业简称对应的g(i)个候选企业信息;得到M个候选企业信息,作为第三检索结果,其中,M=g(1)+g(2)+…+g(i)+…+g(k);执行S316;
S316,基于所述第一检索结果、所述第二检索结果和所述第三检索结果得到所述候选企业信息列表。
7.根据权利要求1所述的方法,其特征在于,所述候选企业信息还包括对应候选企业的注册资本、实缴资本、注册地址、人员数量和核心人员;
S400具体包括:
S401,基于设定排序规则表对n个候选企业信息的企业名称进行排序,得到目标排序列表;其中,设定排序规则表的第u行包括(Iu,Pu),其中,Iu为设定排序规则表中的第u个排序属性信息,Pu为Iu对应的排序优先级,u的取值为1到X,X为设定排序规则5表中的排序属性信息的数量,P1<P2<…<Pu<…<PX;其中,Iu∈{名称相关度、商号相关度、地域相关度、注册地址相关度、机构类型相关度、行业相关度、关联地域实体相关度、关联人物实体相关度、综合相关度、地域属性值、机构类型属性值、注册资本、实缴资本、人员数量},综合相关度等于Rs∈{名称相关度、商号相关度、地域相关度、注册地址相关度、机构类型相关度、行业相关度、关联地域实体相关度、关联人物实体相关度},ws为Rs对应的权重;
S402,将目标排序列表中的前P个企业名称作为所述企业代称对应的目标企业名称。
8.根据权利要求7所述的方法,其特征在于,S401具体包括:
S4011,将所述n个候选企业信息中的企业名称按照I1由高到低的顺序进行排序,得到第一排序列表;
S4012,将第(r-1)排序列表中的企业名称按照第r排序优选级对应的相关度Ir由高到低的顺序进行排序,得到第r排序列表;r的取值为2到X;
S4013,设置r=r+1;如果r≤X,执行S4012,否则,将当前的排序列表作为目标排序列表。
9.一种非瞬时性计算机可读存储介质,所述存储介质中存储有至少一条指令或至少一段程序,其特征在于,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1-8中任意一项的所述方法。
10.一种电子设备,其特征在于,包括处理器和权利要求9中所述的非瞬时性计算机可读存储介质。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211724914.3A CN115952801A (zh) | 2022-12-28 | 2022-12-28 | 一种企业名称对齐方法、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211724914.3A CN115952801A (zh) | 2022-12-28 | 2022-12-28 | 一种企业名称对齐方法、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115952801A true CN115952801A (zh) | 2023-04-11 |
Family
ID=87297004
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211724914.3A Pending CN115952801A (zh) | 2022-12-28 | 2022-12-28 | 一种企业名称对齐方法、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115952801A (zh) |
-
2022
- 2022-12-28 CN CN202211724914.3A patent/CN115952801A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tang et al. | Bibliometric fingerprints: name disambiguation based on approximate structure equivalence of cognitive maps | |
CN110929125B (zh) | 搜索召回方法、装置、设备及其存储介质 | |
US10558754B2 (en) | Method and system for automating training of named entity recognition in natural language processing | |
CN111324771B (zh) | 视频标签的确定方法、装置、电子设备及存储介质 | |
US20040049499A1 (en) | Document retrieval system and question answering system | |
CN110147421B (zh) | 一种目标实体链接方法、装置、设备及存储介质 | |
CN107844493B (zh) | 一种文件关联方法及系统 | |
CN113297457B (zh) | 一种高精准性的信息资源智能推送系统及推送方法 | |
CN113886604A (zh) | 一种职位知识图谱生成方法和系统 | |
Geiß et al. | Neckar: A named entity classifier for wikidata | |
KR102753536B1 (ko) | 인공지능 학습 모델을 이용한 저자 식별 시스템 및 그 방법 | |
CN112231494A (zh) | 信息抽取方法、装置、电子设备及存储介质 | |
CN112506864A (zh) | 文件检索的方法、装置、电子设备及可读存储介质 | |
CN113590792A (zh) | 用户问题的处理方法、装置和服务器 | |
CN119415657A (zh) | 一种检索方法、检索设备 | |
CN111090994A (zh) | 一种面向中文网络论坛文本的事件地点归属省份识别方法 | |
WO2015084757A1 (en) | Systems and methods for processing data stored in a database | |
JPH11110409A (ja) | 情報分類方法及び装置 | |
CN101088082A (zh) | 全文查询和搜索系统及其使用方法 | |
CN118349621A (zh) | 一种索引建立方法、检索方法和电子设备 | |
CN115952801A (zh) | 一种企业名称对齐方法、电子设备和存储介质 | |
CN113807429B (zh) | 企业的分类方法、装置、计算机设备和存储介质 | |
CN112328752B (zh) | 基于搜索内容的课程推荐方法、装置、计算机设备及介质 | |
CN115328945A (zh) | 数据资产的检索方法、电子设备及计算机可读存储介质 | |
Efremova et al. | A geo-tagging framework for address extraction from web pages |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |