CN116150406B - 上下文稀疏实体链接方法、装置、计算机设备和存储介质 - Google Patents

上下文稀疏实体链接方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN116150406B
CN116150406B CN202310439779.6A CN202310439779A CN116150406B CN 116150406 B CN116150406 B CN 116150406B CN 202310439779 A CN202310439779 A CN 202310439779A CN 116150406 B CN116150406 B CN 116150406B
Authority
CN
China
Prior art keywords
entity
entities
mentioned
candidate
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310439779.6A
Other languages
English (en)
Other versions
CN116150406A (zh
Inventor
王阳
段炼
黄九鸣
张圣栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Xinghan Shuzhi Technology Co ltd
Original Assignee
Hunan Xinghan Shuzhi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Xinghan Shuzhi Technology Co ltd filed Critical Hunan Xinghan Shuzhi Technology Co ltd
Priority to CN202310439779.6A priority Critical patent/CN116150406B/zh
Publication of CN116150406A publication Critical patent/CN116150406A/zh
Application granted granted Critical
Publication of CN116150406B publication Critical patent/CN116150406B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及知识图谱技术领域,提供了一种上下文稀疏实体链接方法、装置、计算机设备和存储介质,所述方法包括:对自然文本数据进行命名实体识别得到提及实体;从知识库中召回与所述提及实体存在潜在关联的实体作为候选实体;将所述提及实体和各所述候选实体分别配对构建成文本对;利用训练好的多任务融合模型对各所述文本对分别进行实体相似度识别和实体细粒度要素识别,得到实体相似得分和实体要素信息;根据所述实体相似得分进行实体链接并记录所述实体要素信息。采用本方法能够提升上下文稀疏场景下实体链接准确性的同时附加产出细粒度要素结果。

Description

上下文稀疏实体链接方法、装置、计算机设备和存储介质
技术领域
本发明属于知识图谱技术领域,尤其涉及一种上下文稀疏实体链接方法、装置、计算机设备和存储介质。
背景技术
知识图谱是以结构化的形式描述客观世界中的概念、实体及其关系,将信息表达成接近人类认知世界的形式。实体链接是知识图谱构建过程中必不可少的环节。通常对文本进行通用命名实体识别后,然后将机构、地名等实体及其知识链接到知识图谱中的实体中。并在在一些特殊场景下,例如军事、商业招投标领域,还需要对实体名称信息进行进一步挖掘,识别其中细粒度要素用于实体知识挖掘,例如识别机构名称中的包含的细粒度地点、行业、字号等信息。但是由于军事、商业招投标领域文本内机构、地名等实体的上下文特征稀疏等特点,导致传统基于上下文知识的实体链接范式难以取得理想的效果。
目前,为了解决该问题,通常将其拆解成两个独立任务,即拆解为上下文稀疏场景实体链接与细粒度要素识别两个独立任务。然而,将上述两个问题作为彼此独立问题进行解决虽然易于实现,但是在实际业务处理中需要更多时间消耗和资源消耗,不利于快速响应用户需求。更重要的是,对于上下文特征稀疏场景下实体链接,由于缺乏上下文知识特征支持,使得基于知识特征的实体链接方法难以发挥最佳性能,若采用基于字符相似度等简单方法又难以对实体信息中的深层语义信息进行分析,尤其是细粒度要素信息,容易造成名称相似实体出现错误链接。以及在上下文稀疏场景下,细粒度要素分析是获取实体知识的重要方法,也是进行实体链接的重要特征信息,与基于知识特征的实体链接任务具有互补的特点,拆解成两个独立的任务则导致互补这一特性缺失。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提升上下文稀疏场景下实体链接准确性的同时附加产出细粒度要素结果的上下文稀疏实体链接方法、装置、计算机设备和存储介质。
本发明提供一种上下文稀疏实体链接方法,包括:
对自然文本数据进行命名实体识别得到提及实体;
从知识库中召回与所述提及实体存在潜在关联的实体作为候选实体;
将所述提及实体和各所述候选实体分别配对构建成文本对;
利用训练好的多任务融合模型对各所述文本对分别进行实体细粒度要素识别和实体相似度识别,对各所述文本对进行编码得到编码特征,所述实体细粒度要素识别和实体相似度识别共享编码特征;所述实体细粒度要求识别包括:利用多层感知器对所述编码特征进行类别预测,获得初始类别标签序列并进行序列标注解码,得到最优标注序列后通过维特比解码算法进行解码,得到实体要素信息;所述实体相似度识别包括:基于所述编码特征确定所述提及实体与各所述候选实体的实体相似得分;
根据所述实体相似得分进行实体链接并记录所述实体要素信息。
在其中一个实施例中,所述对各所述文本对进行编码得到编码特征,包括:
将各所述文本对分别输入预训练语言模型进行编码;
将所述预训练语言模型最后一层输出的隐藏状态,作为所述文本对的编码特征。
在其中一个实施例中,所述基于所述编码特征识别所述提及实体的细粒度要素得到实体要素信息,包括:
利用多层感知器对所述编码特征进行类别预测,获得初始类别标签序列;
对所述初始类别标签序列进行序列标注解码,得到最优标注序列;
通过维特比解码算法对所述最优标注序列进行解码,得到实体要素信息。
在其中一个实施例中,所述基于所述编码特征确定所述提及实体与各所述候选实体的实体相似得分,包括:
从所述编码特征中提取所述文本对的综合表示特征进行相似性二分类,确定相似的所述提及实体和所述候选实体;
利用softmax对相似的所述提及实体和所述候选实体打分,得到实体相似得分。
在其中一个实施例中,所述根据所述实体相似得分进行实体链接,包括:
根据所述实体相似得分对所述提及实体对应的所述候选实体进行排序,确定最佳匹配实体;
将所述提及实体与所述最佳匹配实体在知识库中合并。
在其中一个实施例中,所述对自然文本数据进行命名实体识别得到提及实体,包括:
爬虫获取网页数据,对所述网页数据进行页面解析得到网页正文数据;
对所述网页正文数据进行数据预处理得到自然文本数据;
利用NLP工具识别所述自然文本数据中的命名实体得到提及实体。
在其中一个实施例中,所述从知识库中召回与所述提及实体存在潜在关联的实体作为候选实体,包括:
利用所述提及实体的实体名称进行模糊匹配从知识库中召回名称相似的实体作为候选实体;
利用所述提及实体的属性或者关系抽取结果从知识库中召回具有相同属性或者关系的实体作为候选实体。
一种上下文稀疏实体链接装置,包括:
命名实体识别模块,用于对自然文本数据进行命名实体识别得到提及实体;
候选实体确定模块,用于从知识库中召回与所述提及实体存在潜在关联的实体作为候选实体;
文本对构建模块,用于将所述提及实体和各所述候选实体分别配对构建成文本对;
多任务融合模块,用于利用训练好的多任务融合模型对各所述文本对分别进行实体细粒度要素识别和实体相似度识别,对各所述文本对进行编码得到编码特征,所述实体细粒度要素识别和实体相似度识别共享编码特征;所述实体细粒度要求识别包括:利用多层感知器对所述编码特征进行类别预测,获得初始类别标签序列并进行序列标注解码,得到最优标注序列后通过维特比解码算法进行解码,得到实体要素信息;所述实体相似度识别包括:基于所述编码特征确定所述提及实体与各所述候选实体的实体相似得分;
结果聚合模块,用于根据所述实体相似得分进行实体链接并记录所述实体要素信息。
本发明还提供一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器存储由计算机程序,所述处理器执行所述计算机程序时实现上述所述的上下文稀疏实体链接方法的步骤。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述所述的上下文稀疏实体链接方法的步骤。
上述上下文稀疏实体链接方法、装置、计算机设备和存储介质,在上下文稀疏的场景下,通过多任务联合技术,构建融合实体细粒度要素识别的实体链接方法,由实体细粒度要素抽取任务辅助挖掘实体内部的细粒度要素知识,为实体链接提供知识支撑,即通过多任务互补的形式提高上下文稀疏场景下实体链接相似度判断的可靠性,进而提高实体链接的准确性。同时还能附加产出实体的细粒度要素信息用于实体下游挖掘刻画任务。
附图说明
图1为一个实施例中上下文稀疏实体链接方法的应用环境图。
图2为一个实施例中上下文稀疏实体链接方法的流程示意图。
图3为一个实施例中上下文稀疏实体链接装置的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本申请提供的上下文稀疏实体链接方法,可以应用于如图1所示的应用环境中,该应用环境涉及终端102和服务器104。其中,终端102通过网络与服务器104进行通信。终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和携带式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
当终端102接收到实体链接指令时,可以由终端102单独实现上述上下文稀疏实体链接方法。也可以由终端102将实体链接指令发送给通信的服务器104,由服务器104实现上述上下文稀疏实体链接方法。以服务器104为例,具体的,服务器104对自然文本数据进行命名实体识别得到提及实体;服务器104从知识库中召回与提及实体存在潜在关联的实体作为候选实体;服务器104将提及实体和各候选实体分别配对构建成文本对;服务器104利用训练好的多任务融合模型对各文本对分别进行实体相似度识别和实体细粒度要素识别,得到实体相似得分和实体要素信息;服务器104根据实体相似得分进行实体链接并记录实体要素信息。
在一个实施例中,如图2所示,提供一种上下文稀疏实体链接方法,以该方法应用于服务器为例进行说明,包括以下步骤:
步骤S201,对自然文本数据进行命名实体识别得到提及实体。
具体的,当服务器接收到实体链接指令之后,获取需要进行实体链接的自然文本数据,自然文本数据是可读且易于理解的自然语言文本,可以通过爬虫、传输等方式获取。然后,对自然文本数据进行命名实体识别,所识别到的实体为本实施例的提及实体(mention entity)。
在一个实施例中,步骤S201,包括:爬虫获取网页数据,对网页数据进行页面解析得到网页正文数据;对网页正文数据进行数据预处理得到自然文本数据;利用NLP工具识别自然文本数据中的命名实体得到提及实体。
具体的,针对实际业务场景,自然文本数据可以通过处理网页爬取的数据得到。即,首先通过爬虫技术从互联网获取大量的网页数据,对该网页数据进行页面解析获取结构良好的网页正文数据。然后,为了提高构建知识图谱的高质量自然文本数据,可以进一步对互联网的网页正文数据进行数据预处理,包括大小写统一、简繁体转换、特殊符号去除、文本分段分句子等来形成自然语言文本数据。应当理解的是,如果所获取的目标领域直接存在高质量的自然文本数据,则可以不需要进行数据预处理以节省资源和时间。最后,借助开源NLP(Natural Language Processing,自然语言处理)工具对自然文本中的通用命名实体进行识别,将识别得到的实体作为提及实体(mention entity)。其中,可选使用Hanlp、LTP等开源工具来识别自然文本中机构、人物、地点等通用实体,或者使用特定领域例如军事领域的命名实体模型识别文本中的军事装备、指令、作战概念等特定领域实体。
步骤S202,从知识库中召回与提及实体存在潜在关联的实体作为候选实体。其中,候选实体是从知识库中获取的与提及实体有一定关联的实体。
具体的,对于命名实体识别工具识别到的提及实体,可以通过实体特征或者实体名称等信息从知识库中召回与其存在关联的实体,比如基于实体特征召回的候选实体可以是在特征上与提及实体存在关联的实体,实体特征可以是实体的属性或者关系。而基于实体名称召回的候选实体可以是名称上与提及实体存在相似的实体,例如近义词、同义词等。
在一个实施例中,步骤S202包括:利用提及实体的实体名称进行模糊匹配从知识库中召回名称相似的实体作为候选实体;利用提及实体的属性或者关系抽取结果从知识库中召回具有相同属性或者关系的实体作为候选实体。
具体的,通过实体特征和实体名称从知识库中召回潜在的关联实体作为候选实体(candidate entity)时,实体名称可以是通过简单模糊匹配从知识库中找到名称相似的实体作为候选实体,而基于提及实体相关的关键属性或者关系抽取结果可以从知识库中召回具有相同属性或者关系的实体作为候选实体。
步骤S203,将提及实体和各候选实体分别配对构建成文本对。
具体的,当服务器得到提及实体以及对应的候选实体后,将提及实体和多个候选实体分别依次配对,构建成文本对T(x),为后续的多任务融合识别做预准备。文本对T(x)的构建方法如下所示:
其中,CLS和SEP是为文本对构建的特殊字符,CLS为完整语义信息表示符号,SEP为内容分割符号。
步骤S204,利用训练好的多任务融合模型对各文本对分别进行实体相似度识别和实体细粒度要素识别,得到实体相似得分和实体要素信息。
其中,多任务融合模型是融合了多个任务的模型,本实施例多任务模型是融合了实体相似度识别和实体细粒度要素识别两个任务的模型,即通过本实施例的多任务融合模型可以同时识别实体相似程度和实体的细粒度要素信息。
具体的,当服务器构建得到文本对之后,将该文本对输入至预先训练好的多任务融合模型中同时进行实体相似度识别和实体细粒度要素识别,从而得到实体相似得分和实体要素信息。
在一个实施例中,步骤S204包括以下三个步骤:
步骤一,将各文本对分别输入预训练语言模型进行编码,将预训练语言模型最后一层输出的隐藏状态作为文本对的编码特征。
具体的,服务器将文本对输入至多任务融合模型之后,首先由预训练语言模型对文本对进行编码,取该预训练语言模型最后一层输出的隐层状态作为编码结果,即文本对的编码特征E,具体表示如下:
其中,s是文本对切分后的单位标志(Token),通常中文为字符,h为编码后Token的最后一层的隐藏状态,h与s一一对应,比如字符s1对应的隐藏状态为h1。hcls和hsep是文本对中特殊字符cls和sep的隐藏状态。本实施例预训练模型为多层Transform结构,预训练模型具体可以根据实际情况选择,本实施例优选HLF模型或者chinese-BERT-wwm-ext模型。
步骤二,基于编码特征识别提及实体的细粒度要素得到实体要素信息。
具体的,多任务融合模型中的实体细粒度要素识别部分与步骤一信息编码部分直接连接,将信息编码的特征作为输入,通过序列标注任务识别实体细粒度的要素信息。
在一个实施例中,步骤二包括:利用多层感知器对编码特征进行类别预测,获得初始类别标签序列;对初始类别标签序列进行序列标注解码,得到最优标注序列;通过维特比解码算法对最优标注序列进行解码,得到实体要素信息。
具体的,实体细粒度要素识别任务主要使用两层MLPs(多层感知器)对每个Token对应的隐藏状态进行类别预测,即对编码特征E中的每一个h进行类别预测获取初始类别标签序列。随后结合初始类别标签序列,通过序列标注解码方法,比如CRF层、GlobalPointer等解码方法进行解码,得到最优标注序列。最后再使用维特比解码算法对最优标注序列进行解码,从而得到文本中实体要素信息。其中,本实施例两层MLPs结构设计具体为:第一层MLP的输入维度为单位Token的最后一层隐藏状态,即编码特征E,输出为自定义的中间层维度,参数为128,激活函数采用ReLu,DropOut为0.3。第二层MLP的输入则为第一层MLP的输出,输出为实体细粒度要素识别的标签数目。
若本实施例的细粒度要素识别标签体系是采用BIO体系根据机构、地名实体数据特征,从地理位置信息维度与机构组织维度共划分了8个细粒度信息要素标签。其中,地理信息细粒度要素主要包括国(Country)、省(州)(State)、市(City)、县(County)、镇(Town)。机构组织细粒度要素包括字号(Name)、行业(Pro)、组织形式(Type)。基于此,由于采用BIO体系进行细粒度要素标注,所以第二层MLP的输出维度为8*2+1=17,从而得到每个Token可能的类别,作为初始类别标签序列。随后通过CRF层进行解码,得到最优标注序列,再使用维特比解码算法对最优标注序列进行解码,从而得到文本中的实体细粒度的要素信息。
步骤三,基于编码特征确定提及实体与各候选实体的实体相似得分。
具体的,实体链接所需要的实体相似得分与步骤二的细粒度要素识别一样与步骤一的信息编码直接连接,通过获取编码特征E为输入进行两个实体之间的相似性判断,即判断该编码特征E对应文本对中提及实体与候选实体之间的相似度,从而得到实体相似得分。实体相似得分区间为[0,1]。
在一个实施例中,步骤三包括:从编码特征中提取文本对的综合表示特征进行相似性二分类,确定相似的提及实体和候选实体;利用softmax对相似的提及实体和候选实体打分,得到实体相似得分。
具体的,将编码特征E作为输入后,通过相似性的二分类任务判断提及实体和候选实体是否相似,并通过softmax获取相似程度的打分,打分区间为[0,1],从而得到实体相似得分。本实施例优选从编码特征E中选择文本对的综合表示特征,即编码特征E中的hcls这一隐藏状态特征进行相似性二分类判断来确定提及实体与候选实体的实体相似得分。之所以选择[CLS]标志对应的隐藏状态,是因为与文本对中的其他词相比,这个没有语义信息的字符能够更加公平的融合文本对中各个词的语义信息,也就是该字符本身没有语义,经过模型处理后其语义来自于文本对中的其他字符,因此从而能够更好的表示整个文本对的语义,进而更加准确判断出两个实体的相似程度。
另外,本实施例中多任务融合模型的训练也是多任务融合训练,即将步骤一、步骤二和步骤三进行融合训练。即,首先构建训练数据,将实体1与实体2构建成文本对,同时将文本对按照字符级别进行BIO标注并同时标注实体1与实体2是否相似。然后,利用构建的训练数据进行多任务融合训练,在训练时,实体细粒度要素识别与实体相似度识别共享编码特征,随后分别计算实体细粒度要素识别损失与实体相似度识别损失Lossslm,并进行加权汇总,得到总体损失Loss,随后进行梯度传播训练模型,使得模型能够同时进行实体细粒度要素识别和实体相似度识别的判断。
其中,α1和α2为预设的加权系数。
步骤S205,根据实体相似得分进行实体链接并记录实体要素信息。
具体的,当服务器通过多任务融合模型得到实体相似得分和实体要素信息之后,根据实体相似得分筛选最佳的候选实体进行实体链接。同时,保存记录附加得到的实体要素信息。由于提及实体可能存在多个候选实体,所以实际上需要进行多轮的实体相似度识别和细粒度要素识别,因此提及实体最终的实体要素信息可以通过对每一轮的细粒度要素识别结果进行投票汇总来得到最终的实体要素信息。所记录保存的实体要素信息可以输出用于后续的实体画像等实体相关分析任务中。
在一个实施例中,根据实体相似得分进行实体链接,包括:根据实体相似得分对提及实体对应的候选实体进行排序,确定最佳匹配实体;将提及实体与最佳匹配实体在知识库中合并。
具体的,实体链接的过程主要通过根据实体相似得分对各个候选实体进行排序和过滤,得到最佳的候选实体,比如得分最高的候选实体作为最佳匹配实体。确定提及实体的最佳匹配实体之后,在知识库中将二者进行合并,扩展知识库中知识数量完成实体的链接。
上述上下文稀疏实体链接方法,在上下文稀疏的场景下,通过多任务联合技术,构建融合实体细粒度要素识别的实体链接方法,由实体细粒度要素抽取任务辅助挖掘实体内部的细粒度要素知识,为实体链接提供知识支撑,即通过多任务互补的形式提高上下文稀疏场景下实体链接相似度判断的可靠性,进而提高实体链接的准确性。同时还能附加产出实体的细粒度要素信息用于实体下游挖掘刻画任务。
应该理解的是,虽然图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图3所示,提供一种上下文稀疏实体链接装置,包括:
命名实体识别模块301,用于对自然文本数据进行命名实体识别得到提及实体。
候选实体确定模块302,用于从知识库中召回与提及实体存在潜在关联的实体作为候选实体。
文本对构建模块303,用于将提及实体和各候选实体分别配对构建成文本对。
多任务融合模块304,用于利用训练好的多任务融合模型对各文本对分别进行实体相似度识别和实体细粒度要素识别,得到实体相似得分和实体要素信息。
结果聚合模块305,用于根据实体相似得分进行实体链接并记录实体要素信息。
在一个实施例中,多任务融合模块304还用于将各文本对分别输入预训练语言模型进行编码,将预训练语言模型最后一层输出的隐藏状态作为文本对的编码特征;基于编码特征识别提及实体的细粒度要素得到实体要素信息;基于编码特征确定提及实体与各候选实体的实体相似得分。
在一个实施例中,多任务融合模块304还用于利用多层感知器对编码特征进行类别预测,获得初始类别标签序列;对初始类别标签序列进行序列标注解码,得到最优标注序列;通过维特比解码算法对最优标注序列进行解码,得到实体要素信息。
在一个实施例中,多任务融合模块304还用于从编码特征中提取文本对的综合表示特征进行相似性二分类,确定相似的提及实体和候选实体;利用softmax对相似的提及实体和候选实体打分,得到实体相似得分。
在一个实施例中,结果聚合模块305还用于根据实体相似得分对提及实体对应的候选实体进行排序,确定最佳匹配实体;将提及实体与最佳匹配实体在知识库中合并。
在一个实施例中,命名实体识别模块301还用于爬虫获取网页数据,对网页数据进行页面解析得到网页正文数据;对网页正文数据进行数据预处理得到自然文本数据;利用NLP工具识别自然文本数据中的命名实体得到提及实体。
在一个实施例中,候选实体确定模块302还用于利用提及实体的实体名称进行模糊匹配从知识库中召回名称相似的实体作为候选实体;利用提及实体的属性或者关系抽取结果从知识库中召回具有相同属性或者关系的实体作为候选实体。
关于上下文稀疏实体链接装置的具体限定可以参见上文中对于上下文稀疏实体链接方法的限定,在此不再赘述。上述上下文稀疏实体链接装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个上下文稀疏实体链接方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。
在一个实施例中,提供一种计算机设备,该计算机设备可以是服务器,包括处理器,存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种上下文稀疏实体链接方法。示例性的,计算机程序可以被分割成一个或多个模块,一个或者多个模块被存储在存储器中,并由处理器执行以完成本发明。一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序在计算机装置中的执行过程。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述计算机装置的控制中心,利用各种接口和线路连接整个计算机装置的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述计算机装置的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
本领域技术人员可以理解,本实施例中所示出的计算机设备结构,仅仅是与本发明方案相关的部分结构,并不构成对本发明所应用于其上的计算机设备的限定,具体的计算机设备可以包括更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述任一实施例所记载的上下文稀疏实体链接方法。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述任一实施例所记载的上下文稀疏实体链接方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (9)

1.一种上下文稀疏实体链接方法,其特征在于,包括:
对自然文本数据进行命名实体识别得到提及实体;
从知识库中召回与所述提及实体存在潜在关联的实体作为候选实体;
将所述提及实体和各所述候选实体分别配对构建成文本对;
利用训练好的多任务融合模型对各所述文本对分别进行实体细粒度要素识别和实体相似度识别,对各所述文本对进行编码得到编码特征,所述实体细粒度要素识别和实体相似度识别共享编码特征;所述实体细粒度要素识别包括:利用多层感知器对所述编码特征进行类别预测,获得初始类别标签序列并进行序列标注解码,得到最优标注序列后通过维特比解码算法进行解码,得到实体要素信息;所述实体相似度识别包括:基于所述编码特征确定所述提及实体与各所述候选实体的实体相似得分;
根据所述实体相似得分进行实体链接并记录所述实体要素信息。
2.根据权利要求1所述的方法,其特征在于,所述对各所述文本对进行编码得到编码特征,包括:
将各所述文本对分别输入预训练语言模型进行编码;
将所述预训练语言模型最后一层输出的隐藏状态,作为所述文本对的编码特征。
3.根据权利要求1所述的方法,其特征在于,所述基于所述编码特征确定所述提及实体与各所述候选实体的实体相似得分,包括:
从所述编码特征中提取所述文本对的综合表示特征进行相似性二分类,确定相似的所述提及实体和所述候选实体;
利用softmax对相似的所述提及实体和所述候选实体打分,得到实体相似得分。
4.根据权利要求1所述的方法,其特征在于,所述根据所述实体相似得分进行实体链接,包括:
根据所述实体相似得分对所述提及实体对应的所述候选实体进行排序,确定最佳匹配实体;
将所述提及实体与所述最佳匹配实体在知识库中合并。
5.根据权利要求1所述的方法,其特征在于,所述对自然文本数据进行命名实体识别得到提及实体,包括:
爬虫获取网页数据,对所述网页数据进行页面解析得到网页正文数据;
对所述网页正文数据进行数据预处理得到自然文本数据;
利用NLP工具识别所述自然文本数据中的命名实体得到提及实体。
6.根据权利要求1所述的方法,其特征在于,所述从知识库中召回与所述提及实体存在潜在关联的实体作为候选实体,包括:
利用所述提及实体的实体名称进行模糊匹配从知识库中召回名称相似的实体作为候选实体;
利用所述提及实体的属性或者关系抽取结果从知识库中召回具有相同属性或者关系的实体作为候选实体。
7.一种上下文稀疏实体链接装置,其特征在于,包括:
命名实体识别模块,用于对自然文本数据进行命名实体识别得到提及实体;
候选实体确定模块,用于从知识库中召回与所述提及实体存在潜在关联的实体作为候选实体;
文本对构建模块,用于将所述提及实体和各所述候选实体分别配对构建成文本对;
多任务融合模块,用于利用训练好的多任务融合模型对各所述文本对分别进行实体细粒度要素识别和实体相似度识别,对各所述文本对进行编码得到编码特征,所述实体细粒度要素识别和实体相似度识别共享编码特征;所述实体细粒度要素识别包括:利用多层感知器对所述编码特征进行类别预测,获得初始类别标签序列并进行序列标注解码,得到最优标注序列后通过维特比解码算法进行解码,得到实体要素信息;所述实体相似度识别包括:基于所述编码特征确定所述提及实体与各所述候选实体的实体相似得分;
结果聚合模块,用于根据所述实体相似得分进行实体链接并记录所述实体要素信息。
8.一种计算机设备,包括处理器和存储器,所述存储器存储有计算机程序,其特征在于,所述处理器用于执行所述计算机程序时实现权利要求1-6中任意一项所述的上下文稀疏实体链接方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-6中任意一项所述的上下文稀疏实体链接方法。
CN202310439779.6A 2023-04-23 2023-04-23 上下文稀疏实体链接方法、装置、计算机设备和存储介质 Active CN116150406B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310439779.6A CN116150406B (zh) 2023-04-23 2023-04-23 上下文稀疏实体链接方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310439779.6A CN116150406B (zh) 2023-04-23 2023-04-23 上下文稀疏实体链接方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN116150406A CN116150406A (zh) 2023-05-23
CN116150406B true CN116150406B (zh) 2023-07-21

Family

ID=86352897

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310439779.6A Active CN116150406B (zh) 2023-04-23 2023-04-23 上下文稀疏实体链接方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN116150406B (zh)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MY185354A (en) * 2013-11-27 2021-05-09 Mimos Berhad A method and system for automated entity recognition
US9418128B2 (en) * 2014-06-13 2016-08-16 Microsoft Technology Licensing, Llc Linking documents with entities, actions and applications
CN111538894B (zh) * 2020-06-19 2020-10-23 腾讯科技(深圳)有限公司 查询反馈方法、装置、计算机设备及存储介质
CN112035635A (zh) * 2020-08-28 2020-12-04 康键信息技术(深圳)有限公司 医疗领域意图识别方法、装置、设备及存储介质
CN113779996B (zh) * 2021-08-31 2023-10-10 中国中医科学院中医药信息研究所 基于BiLSTM模型的标准实体文本确定方法、装置及存储介质
CN114139543A (zh) * 2021-11-30 2022-03-04 支付宝(杭州)信息技术有限公司 实体链接语料标注方法和装置
CN114860878A (zh) * 2022-05-07 2022-08-05 北京明略昭辉科技有限公司 实体链指方法、装置、电子装置及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于多任务学习的短文本实体链接方法;詹飞等;计算机工程;第48卷(第3期);第315-320页 *

Also Published As

Publication number Publication date
CN116150406A (zh) 2023-05-23

Similar Documents

Publication Publication Date Title
CN112819023B (zh) 样本集的获取方法、装置、计算机设备和存储介质
CN110321537B (zh) 一种文案生成方法和装置
CN109034203B (zh) 表情推荐模型的训练、表情推荐方法、装置、设备及介质
US20170116521A1 (en) Tag processing method and device
CN113901320A (zh) 场景服务推荐方法、装置、设备及存储介质
CN112364204B (zh) 视频搜索方法、装置、计算机设备及存储介质
CN112287069B (zh) 基于语音语义的信息检索方法、装置及计算机设备
CN110457585B (zh) 负面文本的推送方法、装置、系统及计算机设备
US9129216B1 (en) System, method and apparatus for computer aided association of relevant images with text
US20230386238A1 (en) Data processing method and apparatus, computer device, and storage medium
CN114881035B (zh) 训练数据的增广方法、装置、设备和存储介质
CN115687647A (zh) 公证文书生成方法、装置、电子设备及存储介质
CN114860892B (zh) 层次类目预测方法、装置、设备和介质
CN115238688A (zh) 电子信息数据关联关系分析方法、装置、设备和存储介质
CN117194616A (zh) 一种垂域知识图谱的知识查询方法、装置、计算机设备和存储介质
Li et al. [Retracted] Deep Unsupervised Hashing for Large‐Scale Cross‐Modal Retrieval Using Knowledge Distillation Model
CN116150406B (zh) 上下文稀疏实体链接方法、装置、计算机设备和存储介质
CN116955591A (zh) 用于内容推荐的推荐语生成方法、相关装置和介质
CN116701637A (zh) 一种基于clip的零样本文本分类方法、系统及介质
CN116756281A (zh) 知识问答方法、装置、设备和介质
CN116977701A (zh) 视频分类模型训练的方法、视频分类的方法和装置
CN113807920A (zh) 基于人工智能的产品推荐方法、装置、设备及存储介质
CN113869068A (zh) 场景服务推荐方法、装置、设备及存储介质
Ali et al. Comparison Performance of Long Short-Term Memory and Convolution Neural Network Variants on Online Learning Tweet Sentiment Analysis
CN111782762A (zh) 问答应用中相似问题确定方法、装置、电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant