CN115965011A - 企业实体对齐方法、装置及可读存储介质 - Google Patents
企业实体对齐方法、装置及可读存储介质 Download PDFInfo
- Publication number
- CN115965011A CN115965011A CN202211649611.XA CN202211649611A CN115965011A CN 115965011 A CN115965011 A CN 115965011A CN 202211649611 A CN202211649611 A CN 202211649611A CN 115965011 A CN115965011 A CN 115965011A
- Authority
- CN
- China
- Prior art keywords
- entity
- aligned
- knowledge base
- matching
- enterprise
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000012545 processing Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 14
- 239000013598 vector Substances 0.000 claims description 12
- 238000011156 evaluation Methods 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000001502 supplementing effect Effects 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 description 9
- 230000005540 biological transmission Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000012163 sequencing technique Methods 0.000 description 5
- 238000012937 correction Methods 0.000 description 4
- 230000001788 irregular Effects 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009469 supplementation Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明实施例提供了一种企业实体对齐方法、装置及可读存储介质。该方法包括:从数据源中识别待对齐实体;基于企业等价关系字典对所述待对齐实体进行匹配,其中,所述企业等价关系字典包括知识库实体的企业全称与所述知识库实体的多种实体标识之间的唯一匹配关系;根据匹配结果对所述待对齐实体进行实体对齐。通过本发明,解决了实体对齐匹配正确率低,经常将名称相似的多个企业对齐到同一个实体的问题,避免出现一个简称对应多个企业的情况。
Description
技术领域
本发明实施例涉及通信领域,具体而言,涉及一种企业实体对齐方法、装置及可读存储介质。
背景技术
在构建企业知识图谱或知识库的过程中,同一个企业实体除了全称之外,常以别称、简称、曾用名和不规范的名字等形式在外部来源(如XX财富网、XX新闻网、XX查查网等)的文本语料中出现。如果将同一企业实体不同名称对应的知识全部进行存储,会带来大量冗余。
相关技术中,在构建知识图谱或知识库时经常用到实体对齐技术,所谓实体对齐,就是将实际所指是同一个实体,但是却以不同别称、简称、曾用名和不规范的名字出现的多个实体对齐到其真正所指的实体的过程。相关技术中往往采用一些通用的实体对齐方法,但是存在匹配正确率低,经常将名称相似的多个企业对齐到同一个实体的问题。
发明内容
本发明实施例提供了一种企业实体对齐方法、装置及可读存储介质,以至少解决相关技术中实体对齐匹配正确率低,经常将名称相似的多个企业对齐到同一个实体的问题。
根据本发明的实施例,提供了一种企业实体对齐方法,包括:从数据源中识别待对齐实体;基于企业等价关系字典对所述待对齐实体进行匹配,其中,所述企业等价关系字典包括知识库实体的企业全称与所述知识库实体的多种实体标识之间的唯一匹配关系;根据匹配结果对所述待对齐实体进行实体对齐。
在至少一个示例性实施例中,根据匹配结果对所述待对齐实体进行实体对齐包括:在所述企业等价关系字典中精确匹配到所述待对齐实体对应的知识库实体的情况下,将所述待对齐实体与匹配到的所述知识库实体进行对齐。
在至少一个示例性实施例中,根据匹配结果对所述待对齐实体进行实体对齐包括:在所述企业等价关系字典中未精确匹配到所述待对齐实体对应的知识库实体的情况下,基于所述企业等价关系字典对所述待对齐实体进行模糊匹配以得到备选知识库实体,比较所述待对齐实体与所述备选知识库实体之间的相似度,并将所述待对齐实体与相似度最高的所述备选知识库实体进行对齐。
在至少一个示例性实施例中,将所述待对齐实体与相似度最高的所述备选知识库实体进行对齐包括:将所述待对齐实体与相似度最高且超过相似度匹配阈值的所述备选知识库实体进行对齐。
在至少一个示例性实施例中,所述相似度匹配阈值基于实体对齐的结果评价进行动态调整。
在至少一个示例性实施例中,比较所述待对齐实体与所述备选知识库实体之间的相似度包括:通过预训练语言模型将所述待对齐实体与所述待对齐实体的上下文的低维向量映射为高维的第一嵌入表示,并将所述备选知识库实体与所述备选知识库实体的属性信息的低维向量映射为高维的第二嵌入表示;根据所述第一嵌入表示与所述第二嵌入表示计算所述待对齐实体与所述备选知识库实体之间的相似度。
在至少一个示例性实施例中,基于所述企业等价关系字典对所述待对齐实体进行模糊匹配以得到备选知识库实体包括:对所述待对齐实体进行模糊处理,其中,所述模糊处理包括以下至少之一:插入通配字符、还原实体缩略词、仅保留核心词;基于所述企业等价关系字典对模糊处理后的所述待对齐实体进行匹配,将匹配度高于模糊匹配度阈值或匹配度排序靠前的多个知识库实体作为所述备选知识库实体。
在至少一个示例性实施例中,从数据源中识别待对齐实体之后,还包括:对所述待对齐实体进行数据预处理,其中,所述数据预处理包括以下至少之一:去除所述待对齐实体中的符号、对所述待对齐实体进行语言转换。
在至少一个示例性实施例中,从数据源中识别待对齐实体之后,还包括:从所述数据源中识别所述待对齐实体的关联信息;将所述待对齐实体作为主体或客体,与所述待对齐实体的关联信息共同构成所述待对齐实体的知识信息。
在至少一个示例性实施例中,根据匹配结果对所述待对齐实体进行实体对齐之后,还包括:基于所述待对齐实体所对齐的知识库实体,对所述待对齐实体的知识信息进行纠错和/或补充。
在至少一个示例性实施例中,基于企业等价关系字典对所述待对齐实体进行匹配包括:将所述待对齐实体与所述知识库实体的所述企业全称和所述知识库实体的所述多种实体标识之间进行精确匹配;在所述待对齐实体与所述知识库实体的所述企业全称和所述知识库实体的所述多种实体标识之中的任一项或多项精确匹配的情况下,确定精确匹配到所述待对齐实体对应的知识库实体。
根据本发明的实施例,还提供了一种企业实体对齐装置,包括:识别模块,用于从数据源中识别待对齐实体;匹配模块,用于基于企业等价关系字典对所述待对齐实体进行匹配,其中,所述企业等价关系字典包括知识库实体的企业全称与所述知识库实体的多种实体标识之间的唯一匹配关系;对齐模块,用于根据匹配结果对所述待对齐实体进行实体对齐。
根据本发明的实施例,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本发明的实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
通过本发明的实体对齐方案,在从数据源中识别待对齐实体后,基于企业等价关系字典对所述待对齐实体进行匹配并根据匹配结果对所述待对齐实体进行实体对齐,由于所述企业等价关系字典包括知识库实体的企业全称与所述知识库实体的多种实体标识之间的唯一匹配关系,所以同一个实体的不同类型实体标识可以被对齐到相同的实体,并且得益于这种唯一匹配关系,具有相似实体标识(例如相似简称)但实则不属于相同企业的实体也不会被对齐到同一个实体。因此,可以解决实体对齐匹配正确率低,经常将名称相似的多个企业对齐到同一个实体的问题,避免出现一个简称对应多个企业的情况。
附图说明
图1是本发明实施例的一种实体对齐方法的计算机终端的硬件结构框图;
图2是根据本发明实施例的实体对齐方法的流程图;
图3是根据本发明实施例的实体对齐方法的示例性流程图;
图4是根据本发明实施例的实体对齐装置的结构框图;
图5是根据本发明实施例的实体对齐方法的整体流程图。
具体实施方式
不同数据源与知识库融合的时候,很重要的一步是判断来自不同数据源和知识库的实体是否等价。在企业实体对齐场景下,同一个企业实体除了全称之外,常以别称、简称、曾用名和不规范的名字在外部来源中出现。如果将同一企业实体不同名称对应的知识全部进行存储,会带来大量冗余。
相关技术中,在构建知识图谱或知识库时往往是采用一些通用的实体对齐方法,分为无监督学习和有监督学习。
无监督学习方法:根据实体的现有知识得到的等价关系进行判断;或根据企业名称的相似度进行判断,相似度计算方法包括Jaccard系数、Dice系数和编辑距离,若相似度大于某一阈值则认为等价,反之认为不等价。当前普遍使用的无监督实体对齐方法具有以下缺点:一是无监督实体对齐方法依靠等价关系匹配,而在企业名称对齐场景下,常有多个企业简称相同的情况,仅依靠等价关系难以正确匹配;二是计算实体名称相似度,进行相似度比较时各词语在名称中重要性不同,如果对名称进行分解计算各部分相似度后再加权计算整体相似度较为繁琐复杂。
有监督学习方法:利用已有的部分等价实体,预先标注部分实体匹配与否作为训练数据。结合人工加工特征和机器学习方法训练有监督模型。有监督的实体对齐方法具有以下缺点:需要大量的人工标注数据,特别是需要人工定义一些特征,人工标注成本高。
综合以上分析可知,在企业名称实体对齐场景下,往往存在实体对齐匹配正确率低,经常将名称相似的多个企业对齐到同一个实体的问题。除此之外,有监督学习方法也存在需要大量的人工标注数据,特别是需要人工定义一些特征,人工标注成本高的问题。
针对于当前缺少唯一对应的等价关系字典,又无法结合上下文语境还原标准的企业全称导致出现查准率低的问题。本发明实施例提供了一套可以面向多数据源企业实体的实体对齐流程,通过引入企业等价关系字典避免出现一对多的匹配,提高了查准率,同时引入预训练语言模型解决了联合上下文语境判断实体是否匹配的问题。通过建立可靠性强、可拓展的等价关系字典,在快速对齐部分实体的基础上提升查准率,对于后续步骤中重复率高的等价实体反馈记录,用于更新字典;对于无法迅速对齐的实体,召回一部分实体再引入合理的模型进行相似度排序,缩小排序范围,并避免对企业名称分解的繁琐工作,所选模型降低人工标注成本;在相似度排序中,引入语境和上下文信息提升实体对齐的查准率。
下文中将参考附图并结合实施例来详细说明本发明的实施例。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
本申请实施例中所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在计算机终端上为例,图1是本发明实施例的一种实体对齐方法的计算机终端的硬件结构框图。如图1所示,计算机终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于中央处理器CPU、微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,其中,上述计算机终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述计算机终端的结构造成限定。例如,计算机终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的实体对齐方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种运行于运算装置的实体对齐方法,图2是根据本发明实施例的实体对齐方法的流程图,如图2所示,该流程包括如下步骤:
步骤S202,从数据源中识别待对齐实体。
在步骤S202中,可以从数据源中识别待对齐实体,数据源可以是外部数据源,也可以是内部数据源,而且支持从多个数据源的语料中识别待对齐实体。可使用基于条件随机场(Conditional Random Field,简称为CRF)的方法做实体识别,待对齐实体一般是以实体标识的形式出现,例如,人名、机构名、地名等,这些实体标识可能是规范的实体全称,但大多数情况下更可能是别称、简称、曾用名和不规范的名字。
除了识别待对齐实体,还可以进一步提取待对齐的实体的关联信息,例如,企业法人、股东、合作关系、股权变动等基本信息及金融事件等等。在至少一个示例性实施例中,从数据源中识别待对齐实体之后,还可以进一步从所述数据源中识别所述待对齐实体的关联信息;将所述待对齐实体作为主体或客体,与所述待对齐实体的关联信息共同构成所述待对齐实体的知识信息。在实际应用中,为了便于数据的存放和处理,建议将知识信息按照预定格式存储,例如,将实体作为主体或客体,使用语料中其他信息填充为三元组,作为一条知识。
在至少一个示例性实施例中,步骤S202从数据源中识别待对齐实体之后,还可以进一步包括:对所述待对齐实体进行数据预处理,其中,所述数据预处理包括以下至少之一:去除所述待对齐实体中的符号、对所述待对齐实体进行语言转换。通过数据预处理能够将待对齐实体进行形式上的整理,便于后续的数据匹配和处理。
此外,由于进行实体匹配的过程往往是基于实体标识中的机构名实体,所以可以将识别出的机构名实体分配到相同区块,便于后续与知识库企业实体匹配对齐。
步骤S204,基于企业等价关系字典对所述待对齐实体进行匹配,其中,所述企业等价关系字典包括知识库实体的企业全称与所述知识库实体的多种实体标识之间的唯一匹配关系,如:上市公司证券名与公司全名对应,不省略公司全名所含语义的固定简称与公司全名对应等。
在至少一个示例性实施例中,基于企业等价关系字典对所述待对齐实体进行匹配可以包括以下处理过程:
将所述待对齐实体与所述知识库实体的所述企业全称和所述知识库实体的所述多种实体标识之间进行精确匹配;
在所述待对齐实体与所述知识库实体的所述企业全称和所述知识库实体的所述多种实体标识之中的任一项(只要匹配上一项就认为是匹配,这种方案的匹配率比较高)或多项(需要匹配上多项才认为匹配,这种方案的匹配精度比较高,匹配的项数可以预先指定,也可以根据实体对齐的评价结果进行动态、实时的调整,评价结果可以是通过人工评价或模型计算得出)精确匹配的情况下,确定精确匹配到所述待对齐实体对应的知识库实体。
步骤S206,根据匹配结果对所述待对齐实体进行实体对齐。
在至少一个示例性实施例中,步骤S206根据匹配结果对所述待对齐实体进行实体对齐可以包括:在所述企业等价关系字典中精确匹配到所述待对齐实体对应的知识库实体的情况下,将所述待对齐实体与匹配到的所述知识库实体进行对齐,此时相当于实体与企业等价关系字典能够完全精确匹配,可进行快速对齐。
在至少一个示例性实施例中,步骤S206根据匹配结果对所述待对齐实体进行实体对齐可以包括:在所述企业等价关系字典中未精确匹配到所述待对齐实体对应的知识库实体的情况下,基于所述企业等价关系字典对所述待对齐实体进行模糊匹配以得到备选知识库实体,比较所述待对齐实体与所述备选知识库实体之间的相似度,并将所述待对齐实体与相似度最高的所述备选知识库实体进行对齐。此时相当于实体与企业等价关系字典不能够完全精确匹配,则可以根据模糊匹配规则召回备选知识库实体,并在备选知识库实体的有限范围内进行相似度计算,并根据相似度计算结果进行实体对齐。
在至少一个示例性实施例中,为了保证最终匹配的备选知识库具有足够的相似性,可以进一步引入相似度匹配阈值,将所述待对齐实体与相似度最高且超过相似度匹配阈值的所述备选知识库实体进行对齐。通过该方案,可以保证相似度最高且相似度达到相似度匹配阈值的备选知识库被匹配出来。在至少一个示例性实施例中,所述相似度匹配阈值可以基于实体对齐的结果评价进行动态调整。对实体对齐的结果评价可以是通过人工标注或模型运算的方式给出,基于结果评价可以动态、实时地调整相似度匹配阈值,从而不断改进整个实体评价系统的性能和准确性。
在至少一个示例性实施例中,基于所述企业等价关系字典对所述待对齐实体进行模糊匹配以得到备选知识库实体包括:对所述待对齐实体进行模糊处理,其中,所述模糊处理包括以下至少之一:插入通配字符、还原实体缩略词、仅保留核心词;基于所述企业等价关系字典对模糊处理后的所述待对齐实体进行匹配,将匹配度高于模糊匹配度阈值或匹配度排序靠前的多个知识库实体作为所述备选知识库实体。
在至少一个示例性实施例中,比较所述待对齐实体与所述备选知识库实体之间的相似度可以包括以下过程:
(1)通过预训练语言模型将所述待对齐实体与所述待对齐实体的上下文的低维向量映射为高维的第一嵌入表示yetxt,其为待对齐实体及其上下文τetxt的嵌入表示,并将所述备选知识库实体与所述备选知识库实体的属性信息的低维向量映射为高维的第二嵌入表示yekb,其为知识库实体与其属性信息τekb的嵌入表示。该过程实质为通过预训练语言模型将句子原来低维稀疏的向量表示映射成高维稠密的嵌入表示,以便计算相似度。
(2)根据所述第一嵌入表示与所述第二嵌入表示计算所述待对齐实体与所述备选知识库实体之间的相似度,事实上,此时是将实体名称相似度计算转化为融合属性信息和描述信息的实体相似度计算。该步骤中,可以通过计算两个嵌入表示之间的点积作为两个句子(实体)之间的相似度。
图3是根据本发明实施例的实体对齐方法的示例性流程图,如图3所示,步骤S206根据匹配结果对所述待对齐实体进行实体对齐之后,该流程还可以进一步包括:
步骤S208,基于所述待对齐实体所对齐的知识库实体,对所述待对齐实体的知识信息进行纠错和/或补充,具体地,对于原本存在的属性进行比对纠错,对原来不存在的属性进行添加补充。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
在本实施例中还提供了一种实体对齐装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图4是根据本发明实施例的实体对齐装置的结构框图,如图4所示,该装置包括:
识别模块42,用于从数据源中识别待对齐实体;
匹配模块44,用于基于企业等价关系字典对所述待对齐实体进行匹配,其中,所述企业等价关系字典包括知识库实体的企业全称与所述知识库实体的多种实体标识之间的唯一匹配关系;
对齐模块46,用于根据匹配结果对所述待对齐实体进行实体对齐。
本实施例中的具体示例可以参考上述实施例及示例性实施方式中所描述的示例,本实施例在此不再赘述。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
本发明的实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
在本实施例中,上述计算机可读存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,从数据源中识别待对齐实体;
S2,基于企业等价关系字典对所述待对齐实体进行匹配,其中,所述企业等价关系字典包括知识库实体的企业全称与所述知识库实体的多种实体标识之间的唯一匹配关系;
S3,根据匹配结果对所述待对齐实体进行实体对齐。
本实施例中的具体示例可以参考上述实施例及示例性实施方式中所描述的示例,本实施例在此不再赘述。
在一个示例性实施例中,上述计算机可读存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
在一个示例性实施例中,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
在一个示例性实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,从数据源中识别待对齐实体;
S2,基于企业等价关系字典对所述待对齐实体进行匹配,其中,所述企业等价关系字典包括知识库实体的企业全称与所述知识库实体的多种实体标识之间的唯一匹配关系;
S3,根据匹配结果对所述待对齐实体进行实体对齐。
本实施例中的具体示例可以参考上述实施例及示例性实施方式中所描述的示例,本实施例在此不再赘述。
以下通过一个示例性实施例,详细说明当上述企业实体对齐方法应用在多源企业数据的场景下的实现方案。该示例性实施例提供了一种多源企业数据的企业实体对齐方法,用以对齐来自多个数据源的企业实体,处理不同数据源之间的互补及冗余信息。该方案引入了企业等价关系字典并使用预训练语言模型。图5是根据本发明实施例的实体对齐方法的整体流程图,如图5所示,具体步骤如下:
步骤S501、从不同外部数据源中抽取知识,识别实体。
在步骤S501中可使用基于条件随机场(Conditional Random Field,简称为CRF)的方法做实体识别,基于依存关系句法做知识抽取。从外部数据源语料中可识别实体一般包括人名、机构名、地名等,并将实体作为主体或客体,使用语料中其他信息填充为三元组,作为一条知识。企业实体的相关知识包括企业法人、股东、合作关系、股权变动等基本信息及金融事件。该步骤不是本发明的重点,不做详述。
步骤S502、对所识别出的实体做数据预处理和分块。
步骤S502包括去除实体名称中的标点符号、特殊字符、繁体转简体,将机构名实体分配到相同区块,后续与知识库企业实体匹配对齐。
步骤S503、基于企业等价关系字典进行实体匹配,对于能完全匹配上的实体快速对齐;不能匹配的待对齐实体,根据模糊匹配规则召回备选知识库实体。
步骤S503包括利用企业等价关系字典进行快速匹配。所述企业等价关系字典包括多种唯一匹配关系,如:上市公司证券名与公司全名对应,不省略公司全名所含语义的固定简称与公司全名对应等。根据模糊匹配规则进行备选实体召回,如插入通配字符匹配,还原实体缩略词,或只保留核心词进行匹配。
步骤S504、使用预训练语言模型得到实体嵌入,计算相似度并排序。
步骤S504引入预训练语言模型,比较待对齐实体与备选知识库实体的相似度。分别表示为向量:
其中,为待对齐实体及其上下文的嵌入表示(高维稠密的向量),实体与其上下文用分隔符隔开,上下文中包含了实体的部分属性信息和描述信息;为知识库实体与其属性信息的嵌入表示(高维稠密的向量)。该步骤通过预训练语言模型将句子原来低维稀疏的向量表示映射成高维稠密的嵌入表示,以便计算相似度。
之后,将实体名称相似度计算转化为融合属性信息和描述信息的实体相似度计算,将两个向量的点积作为向量相似度:
步骤S505、将相似度大于阈值且排序在前的实体对对齐;
在步骤S505根据步骤S504所计算的相似度排序,如果相似度最大且大于给定的相似度阈值则认为待对齐实体与知识库实体可以对齐。点积相似度范围为[-1,1],相似度阈值为动态调整的,在对齐操作中可不断修正,提高匹配的准确性。由于先前引入模糊匹配规则进行了备选实体召回,缩小了知识库实体的范围,减少了候选实体排序的计算量。
步骤S506、对知识库实体进行知识补全。
在步骤S506中根据步骤S503和步骤S505中对齐的实体进行知识纠错和补全,对于原本存在的属性进行比对纠错,对原来不存在的属性进行添加补充。
综上所述,本发明实施例的方案引入了遵循唯一匹配原则的等价关系字典,根据字典能唯一匹配的实体快速对齐;根据字典非唯一匹配的实体则计算相似度排序对齐。该方案融合了预训练语言模型,结合实体本身以及实体的上下文和语境信息,将不完整、不能用字典匹配的实体名对齐。
本发明实施例的方案通过建立遵循唯一匹配原则的等价关系字典,避免出现一个简称对应多个企业的情况,字典包括上市企业名称与与其唯一对应的证券名称,企业名称与不会省略其所含语义固定的简称等。本发明实施例的方案通过引入预训练语言模型,已经在大量语料上训练过的模型只需要在部分相关语料上做微调,一定程度上降低了人工标注成本。此外,预训练语言模型在对企业名称编码时,结合了企业实体的上下文和语境信息,有助于对齐表述不完整的实体,预训练模型的注意力机制让模型对重要信息重点关注,有助于区分该企业实体可能对应的多个企业全称。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (13)
1.一种企业实体对齐方法,其特征在于,包括:
从数据源中识别待对齐实体;
基于企业等价关系字典对所述待对齐实体进行匹配,其中,所述企业等价关系字典包括知识库实体的企业全称与所述知识库实体的多种实体标识之间的唯一匹配关系;
根据匹配结果对所述待对齐实体进行实体对齐。
2.根据权利要求1所述的方法,其特征在于,根据匹配结果对所述待对齐实体进行实体对齐包括:
在所述企业等价关系字典中精确匹配到所述待对齐实体对应的知识库实体的情况下,将所述待对齐实体与匹配到的所述知识库实体进行对齐。
3.根据权利要求1所述的方法,其特征在于,根据匹配结果对所述待对齐实体进行实体对齐包括:
在所述企业等价关系字典中未精确匹配到所述待对齐实体对应的知识库实体的情况下,基于所述企业等价关系字典对所述待对齐实体进行模糊匹配以得到备选知识库实体,比较所述待对齐实体与所述备选知识库实体之间的相似度,并将所述待对齐实体与相似度最高的所述备选知识库实体进行对齐。
4.根据权利要求3所述的方法,其特征在于,将所述待对齐实体与相似度最高的所述备选知识库实体进行对齐包括:
将所述待对齐实体与相似度最高且超过相似度匹配阈值的所述备选知识库实体进行对齐。
5.根据权利要求4所述的方法,其特征在于,所述相似度匹配阈值基于实体对齐的结果评价进行动态调整。
6.根据权利要求3所述的方法,其特征在于,比较所述待对齐实体与所述备选知识库实体之间的相似度包括:
通过预训练语言模型将所述待对齐实体与所述待对齐实体的上下文的低维向量映射为高维的第一嵌入表示,并将所述备选知识库实体与所述备选知识库实体的属性信息的低维向量映射为高维的第二嵌入表示;
根据所述第一嵌入表示与所述第二嵌入表示计算所述待对齐实体与所述备选知识库实体之间的相似度。
7.根据权利要求3所述的方法,其特征在于,基于所述企业等价关系字典对所述待对齐实体进行模糊匹配以得到备选知识库实体包括:
对所述待对齐实体进行模糊处理,其中,所述模糊处理包括以下至少之一:插入通配字符、还原实体缩略词、仅保留核心词;
基于所述企业等价关系字典对模糊处理后的所述待对齐实体进行匹配,将匹配度高于模糊匹配度阈值或匹配度排序靠前的多个知识库实体作为所述备选知识库实体。
8.根据权利要求1所述的方法,其特征在于,从数据源中识别待对齐实体之后,还包括:
对所述待对齐实体进行数据预处理,其中,所述数据预处理包括以下至少之一:去除所述待对齐实体中的符号、对所述待对齐实体进行语言转换。
9.根据权利要求1至8中任一项所述的方法,其特征在于,从数据源中识别待对齐实体之后,还包括:
从所述数据源中识别所述待对齐实体的关联信息;
将所述待对齐实体作为主体或客体,与所述待对齐实体的关联信息共同构成所述待对齐实体的知识信息。
10.根据权利要求9所述的方法,其特征在于,根据匹配结果对所述待对齐实体进行实体对齐之后,还包括:
基于所述待对齐实体所对齐的知识库实体,对所述待对齐实体的知识信息进行纠错和/或补充。
11.根据权利要求1至8中任一项所述的方法,其特征在于,基于企业等价关系字典对所述待对齐实体进行匹配包括:
将所述待对齐实体与所述知识库实体的所述企业全称和所述知识库实体的所述多种实体标识之间进行精确匹配;
在所述待对齐实体与所述知识库实体的所述企业全称和所述知识库实体的所述多种实体标识之中的任一项或多项精确匹配的情况下,确定精确匹配到所述待对齐实体对应的知识库实体。
12.一种企业实体对齐装置,其特征在于,包括:
识别模块,用于从数据源中识别待对齐实体;
匹配模块,用于基于企业等价关系字典对所述待对齐实体进行匹配,其中,所述企业等价关系字典包括知识库实体的企业全称与所述知识库实体的多种实体标识之间的唯一匹配关系;
对齐模块,用于根据匹配结果对所述待对齐实体进行实体对齐。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至11任一项中所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211649611.XA CN115965011A (zh) | 2022-12-21 | 2022-12-21 | 企业实体对齐方法、装置及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211649611.XA CN115965011A (zh) | 2022-12-21 | 2022-12-21 | 企业实体对齐方法、装置及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115965011A true CN115965011A (zh) | 2023-04-14 |
Family
ID=87352314
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211649611.XA Pending CN115965011A (zh) | 2022-12-21 | 2022-12-21 | 企业实体对齐方法、装置及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115965011A (zh) |
-
2022
- 2022-12-21 CN CN202211649611.XA patent/CN115965011A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111222305B (zh) | 一种信息结构化方法和装置 | |
CN108287858B (zh) | 自然语言的语义提取方法及装置 | |
CN112069298B (zh) | 基于语义网和意图识别的人机交互方法、设备及介质 | |
CN112163424B (zh) | 数据的标注方法、装置、设备和介质 | |
CN112035599B (zh) | 基于垂直搜索的查询方法、装置、计算机设备及存储介质 | |
CN111310440A (zh) | 文本的纠错方法、装置和系统 | |
CN110543637A (zh) | 一种中文分词方法及装置 | |
CN110795942B (zh) | 基于语义识别的关键词确定方法、装置和存储介质 | |
CN115730058A (zh) | 一种基于知识融合的推理问答方法 | |
CN113836316B (zh) | 三元组数据的处理方法、训练方法、装置、设备及介质 | |
CN113434672B (zh) | 文本类型智能识别方法、装置、设备及介质 | |
CN115114419A (zh) | 问答处理方法、装置、电子设备和计算机可读介质 | |
CN117407242B (zh) | 基于大语言模型的低成本、零样本的在线日志解析方法 | |
CN111241833A (zh) | 一种文本数据的分词方法、装置及电子设备 | |
CN112560425B (zh) | 模板生成方法、装置、电子设备及存储介质 | |
CN113434631A (zh) | 基于事件的情感分析方法、装置、计算机设备及存储介质 | |
CN113157887A (zh) | 知识问答意图识别方法、装置、及计算机设备 | |
CN110705258A (zh) | 文本实体识别方法及装置 | |
CN110569504B (zh) | 一种关系词确定方法及装置 | |
CN117195046A (zh) | 异常文本识别方法及相关设备 | |
CN117195829A (zh) | 文本标注方法、文本标注装置及电子设备 | |
CN113536788B (zh) | 信息处理方法、装置、存储介质及设备 | |
CN115965011A (zh) | 企业实体对齐方法、装置及可读存储介质 | |
CN114970531A (zh) | 基于即时通信消息的意图识别与命名实体提取方法及装置 | |
CN113590792A (zh) | 用户问题的处理方法、装置和服务器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |