CN115062619A - 中文实体链接方法、装置、设备及存储介质 - Google Patents

中文实体链接方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN115062619A
CN115062619A CN202210961307.2A CN202210961307A CN115062619A CN 115062619 A CN115062619 A CN 115062619A CN 202210961307 A CN202210961307 A CN 202210961307A CN 115062619 A CN115062619 A CN 115062619A
Authority
CN
China
Prior art keywords
entity
similarity
model
adopting
entry
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210961307.2A
Other languages
English (en)
Other versions
CN115062619B (zh
Inventor
张万鹏
谷学强
张虎
廖磊
苏炯铭
张煜
王超
刘鸿福
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202210961307.2A priority Critical patent/CN115062619B/zh
Publication of CN115062619A publication Critical patent/CN115062619A/zh
Application granted granted Critical
Publication of CN115062619B publication Critical patent/CN115062619B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/325Hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Character Discrimination (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及大数据技术领域的一种上述中文实体链接方法、装置、设备和存储介质,所述方法包括对获取的中文文本信息采用BERT‑BiLSTM‑CRF模型进行实体识别,对得到的实体识别结果表与百科词条表进行相似度比较,并过滤掉相似度值小于预设阈值的词条,得到候选词条表;当候选词条表中只有1个实体时,则实体消歧完成;当候选词条表中包括多于1个实体时,采用改进的C‑DSSM模型计算实体识别结果上下文句子与对应的百科词条简介之间的句子相似度;根据句子相似度和相似度阈值进行比较,对满足条件的结果集添加百科词条链接。采用本方法可以提高知识百科系统内部的词条之间的链接跳转以及外部系统访问词条信息的准确率。

Description

中文实体链接方法、装置、设备及存储介质
技术领域
本申请涉及大数据技术领域,特别是涉及一种中文实体链接方法、装置、设备及存储介质。
背景技术
随着信息抽取技术不断向信息融合,知识获取等方向的发展。实体链接逐渐成为信息抽取的研究热点,并且成为知识库自动填充的重要环节,因此获得了广泛的关注。目前实体链接的研究还处于方兴未艾的阶段:在2009年NIST主办的文本分析会议(TAC) 上,实体链接( Entity Linking) 正式成为了知识库填充 ( Knowledge Base Population)任务的一个子任务,并提出了相关的评测任务,实体链接主要关注实体在文本中的表述,并将文本中的实体表述链接到知识库中对应的实体上。
实体链接任务主要解决实体歧义问题,当前用于解决实体歧义问题的模型大致分为基于概率生成模型方法、基于主题模型方法、基于图方法和基于深度学习方法。
在知识百科系统内部的词条之间的链接跳转以及外部系统访问词条信息的需求上,对实体链接的准确率要求比较高,但是有与中文实体间的歧义问题较为严重,具体表现为多样性和歧义性两个方面:多样性:同一个实体具有多个名称。如:孙中山,又叫孙文,字载之;歧义性:同一个名称具有多个实体。如:阿里巴巴,是一个公司名,同样也是《一千零一夜》中的一个故事人物。虽然这些方法在不同类型的实体链接任务中已经取得了一定的效果,但是面对中文实体连接中的歧义问题,由于实体消歧过程中语义信息利用不足的问题,不能满足在知识百科系统内部的词条之间的链接跳转以及外部系统访问词条信息的需求。
发明内容
基于此,有必要针对上述技术问题,提供一种中文实体链接方法、装置、设备和存储介质。
一种中文实体链接方法,所述方法包括:
获取中文文本信息,采用BERT-BiLSTM-CRF模型对所述中文文本信息进行实体识别,得到实体识别结果表。
对所述实体识别结果表与百科词条表进行相似度比较,得到相似度结果表。
在所述相似度结果表中过滤掉相似度值小于预设阈值的词条,得到候选词条表。
当所述候选词条表中的实体数量等于1时,则实体消歧完成。
当所述候选词条表中的实体数量大于1时,对实体识别结果表中每个识别结果上下文句子与所述候选词条表中对应的百科词条简介采用改进的C-DSSM模型确定句子之间的相似度;根据句子相似度对所述候选词条表中实体进行排序,如果排序在预定位置之前的实体的句子之间的相似度大于预设相似度阈值,则得到满足条件的结果集,对满足条件的结果集添加百科词条链接。
在其中一个实施例中,BERT-BiLSTM-CRF模型包括BERT模型、BiLSTM网络以及CRF模型。
获取中文文本信息,采用BERT-BiLSTM-CRF模型对所述中文文本信息进行实体识别,得到实体识别结果表,包括:
获取中文文本信息。
将所述中文文本信息进行分词处理,并将分词后的序列输入到所述BERT模型中,得到句子的向量表示。
将所述句子的向量表示输入到所述BiLSTM网络中,得到文本序列。
将所述文本序列采用CRF模型,得到实体识别结果表。
在其中一个实施例中,对所述实体识别结果表与百科词条表进行相似度比较,得到相似度结果表,包括:
对所述实体识别结果表中每一个实体与百科词条表中每一个实体进行向量化表示。
根据所述实体识别结果表中每个实体与百科词条表中每一个实体的向量化表示,采用编辑距离、余弦相似度或杰拉德距离计算相似度值,得到相似度结果表。
在其中一个实施例中,所述C-DSSM模型包括局部匹配模型和综合层;所述局部匹配模型是采用基于二值匹配的依存树模型进行构建,包括多个基于依存树的二值匹配模型,其中每一个二值匹配模型包含着下级子树,二值匹配模型用于通过对句子依存关系分析构建子树与子树之间的依存关系;综合层用于根据多个二值匹配模型的输出,采用稀疏结构进行存储。
一种中文实体链接装置,所述装置包括:
实体识别模块,用于获取中文文本信息,采用BERT-BiLSTM-CRF模型对所述中文文本信息进行实体识别,得到实体识别结果表。
候选词条表确定模块,用于对所述实体识别结果表与百科词条表进行相似度比较,得到相似度结果表;在所述相似度结果表中过滤掉相似度值小于预设阈值的词条,得到候选词条表。
实体消歧模块,用于当所述候选词条表中的实体数量等于1时,则实体消歧完成;当所述候选词条表中的实体数量大于1时,对实体识别结果表中每个识别结果上下文句子与所述候选词条表中对应的百科词条简介采用改进的C-DSSM模型确定句子之间的相似度;根据句子相似度对所述候选词条表中实体进行排序,如果排序在预定位置之前的实体的句子之间的相似度大于预设相似度阈值,则得到满足条件的结果集,对满足条件的结果集添加百科词条链接。
在其中一个实施例中,BERT-BiLSTM-CRF模型包括BERT模型、BiLSTM网络以及CRF模型;实体识别模块,还用于获取中文文本信息;将所述中文文本信息进行分词处理,并将分词后的序列输入到所述BERT模型中,得到句子的向量表示;将所述句子的向量表示输入到所述BiLSTM网络中,得到文本序列;将所述文本序列采用CRF模型,得到实体识别结果表。
在其中一个实施例中,候选词条表确定模块,还用于对所述实体识别结果表中每一个实体与百科词条表中每一个实体进行向量化表示;根据所述实体识别结果表中每个实体与百科词条表中每一个实体的向量化表示,采用编辑距离、余弦相似度或杰拉德距离计算相似度值,得到相似度结果表。
在其中一个实施例中,实体消歧模块中所述C-DSSM模型包括局部匹配模型和综合层;所述局部匹配模型是采用基于二值匹配的依存树模型进行构建,包括多个基于依存树的二值匹配模型,其中每一个二值匹配模型包含着下级子树,二值匹配模型用于通过对句子依存关系分析构建子树与子树之间的依存关系;综合层用于根据多个二值匹配模型的输出,采用稀疏结构进行存储。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一中文实体链接的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一中文实体链接的步骤。
上述中文实体链接方法、装置、设备和存储介质,获取中文文本信息,采用BERT-BiLSTM-CRF模型对中文文本信息进行实体识别,得到实体识别结果表;对实体识别结果表与百科词条表进行相似度比较,得到相似度结果表;在相似度结果表中过滤掉相似度值小于预设阈值的词条,得到候选词条表;当候选词条表中的实体数量等于1时,则实体消歧完成;当候选词条表中的实体数量大于1时,对每个实体识别结果上下文句子与候选词条表中对应的百科词条简介采用改进的C-DSSM模型确定句子之间的相似度;根据句子相似度与预设相似度阈值进行比较,得到满足条件的结果集,对满足条件的结果集添加百科词条链接。采用本方法可以提高知识百科系统内部的词条之间的链接跳转以及外部系统访问词条信息的准确率。
附图说明
图1为一个实施例中中文实体链接方法的流程示意图;
图2为另一个实施例中BERT-BiLSTM-CRF模型工作流程;
图3为另一个实施例中一阶链式结构CRF;
图4为一个实施例中中文实体链接方法的流程示意图;
图5为一个实施例中中文实体链接方法装置的结构框图;
图6为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
实体链接(Entity Linking)主要是用于消除异构数据中实体冲突、指向不明等不一致问题,是知识图谱扩充的关键技术,同时也是自然语言处理领域里众多任务的基本组成部分。给定一段文本,实体链接的任务是识别实体后在给定的知识库中链接该实体至对应目标实体。
在一个实施例中,如图1所示,提供了一种中文实体链接方法,该方法包括以下步骤:
步骤100:获取中文文本信息,采用BERT-BiLSTM-CRF模型对中文文本信息进行实体识别,得到实体识别结果表。
具体的,中文文本信息包括知识百科系统内部输入的用于查询的中文文本信息,外部系统访问词条信息是输入的用于检索的中文文本信息。
实体识别结果表包括若干个待链接的实体。
实体识别过程中使用的模型除了BERT-BiLSTM-CRF模型以外,还可以是BILSTM+CRF或IDCNN+BILSTM+CRF等模型。
BERT+BILSTM+CRF模型是基于预训练模型BERT的实体识别模型。同IDCNN+BILSTM+CRF模型相似,只是把IDCNN换成了BERT。使用BERT有2大好处:只需要少量的数据标注,就能直接将通用领域学习到的包含有上下文语义信息的词向量表示迁移到特定领域;BERT模型具有很好的识别效果。
BERT-BiLSTM-CRF模型是将BiLSTM网络和CRF模型结合起来,即在BiLSTM网络的隐藏层后加一层CRF线性层。BERT-BiLSTM-CRF模型工作流程如图2所示。
双向长短时记忆网络( Bi-directional Long Short-Term Memory,简称:BiLSTM)的基本思想就是对每一个训练序列分别作用一个向前和向后的长短时记忆网络(Long Short-Term Memory,简称:LSTM),并且这两个连接着同一个输入层,这样的一种网络结构可以给输出层提供每一个序列点完整的上下文信息,并且经过条件随机场(CRF模型)有效地考虑了序列前后的标签信息。
步骤102:对实体识别结果表与百科词条表进行相似度比较,得到相似度结果表;在相似度结果表中过滤掉相似度值小于预设阈值的词条,得到候选词条表。
具体的,计算实体识别结果表中每一个识别结果与百科词条表中的百科词条之间的相似度,得到相似度结果表,设置预设阈值,将相似度结果表中的相似度值与预设阈值进行比较,过滤掉小于预设阈值的词条,得到候选词条表。
实体相似度比较是对识别结果与百科词条表进行向量化关系的结果表示。
步骤104:当候选词条表中的实体数量等于1时,则实体消歧完成;当候选词条表中的实体数量大于1时,对实体识别结果表中每个识别结果上下文句子与候选词条表中对应的百科词条简介采用改进的C-DSSM模型确定句子之间的相似度;根据句子相似度对候选词条表中实体进行排序,如果排序在预定位置之前的实体的句子之间的相似度大于预设相似度阈值,则得到满足条件的结果集,对满足条件的结果集添加百科词条链接。
具体的,本步骤是在通过实体相似度比较过滤后得到的候选实体集上,对实体相似度高的组值,通过对比句子与句子之间的相似度关联关系,进行实体消歧。
利用改进的C-DSSM建立待链接实体上下文句子与候选词条表中对应的百科词条简介信息进行向量化对比。
改进的C-DSSM利用句子依存关系来作为句子的表示。相对而言,依存关系更容易获取,而且句子表示的关系也会更丰富。
上述中文实体链接方法中,采用BERT-BiLSTM-CRF模型对中文文本信息进行实体识别,得到实体识别结果表;对实体识别结果表与百科词条表进行相似度比较,得到相似度结果表;在相似度结果表中过滤掉相似度值小于预设阈值的词条,得到候选词条表;当候选词条表只包含1个实体时,则实体消歧完成;当候选词条表中的实体数量大于1时,对每个实体识别结果上下文句子与候选词条表中对应的百科词条简介采用改进的C-DSSM模型确定句子之间的相似度;根据句子相似度与预设相似度阈值进行比较,得到满足条件的结果集,对满足条件的结果集添加百科词条链接。采用本方法可以提高知识百科系统内部的词条之间的链接跳转以及外部系统访问词条信息的准确率。
在其中一个实施例中,BERT-BiLSTM-CRF模型包括BERT模型、BiLSTM网络以及CRF模型;步骤100包括:获取中文文本信息;将中文文本信息进行分词处理,并将分词后的序列输入到BERT模型中,得到句子的向量表示;将句子的向量表示输入到BiLSTM网络中,得到文本序列;将文本序列采用CRF模型,得到实体识别结果表。
具体的,BERT模型使用两个新的非监督预测任务对BERT进行预处理,分别是Masked LM任务和下一句预测任务。
(1)Masked LM任务
预训练的目标是构建语言模型,BERT模型采用的是双向Transformer。为了训练深度双向Transformer表示,采用一种简单的方法:随机掩盖部分输入词,然后对被掩盖的词进行预测。
在训练的过程中,随机地掩盖每个序列中15%的标签,与Word2Vec中的CBOW对每一个词都进行预测不同,Masked LM从输入中随机地掩盖一些词,其目标是基于上下文来预测被掩盖单词的原始词汇。与从左到右的语言模型预训练不同,Masked LM学习到的表示能够融合左右两侧的上下文。模型中的双向Transformer不知道它将被要求预测哪些词,或者哪些已经被随机词替换,因此它必须对每个输入词保持分布式的上下文表示。此外,随机替换在所有词中只发生1.5%,并不会影响模型对语言的理解。
(2)下一句预测
自然语言中的很多句子级别的任务,如自动问答和自然语言推理等任务,都需要理解两个句子之同的关系。例如,在MaskedLM任务中,经过第一步的处理,1.5%的词汇被遮盖,那么在这一任务中,需要随机将数据划分为同等大小的两部分,一部分数据中的两个语句对是上下文连续的,另一部分数据中的两个语句对是上下文不连续的,然后让Transformer模型来识别这些语句对,判断下一句与当前句是否连续。
BiLSTM用于获取句子表示,其输入为:分词结果、词向量、前向LSTM输出的前文信息向量、后向LSTM输出的后文信息向量,输出为:句子表示向量
Figure 775936DEST_PATH_IMAGE001
。 将分词后的序列输入到BERT特征表示层,得到句子的向量表示。 对于句子中的每个词语,将其词向量输入到BiLSTM网络中,计算当前状态隐藏层的值。 将前向隐向量与后向隐向量按位拼接,得到句子表示。
CRF模型用来分割和标记序列数据,根据输入的观察序列来预测对应的状态序列,同时考虑输入的当前状态特征和各个标签类别转移特征,用来解决命名实体识别的问题。CRF模型应用到命名实体识别的问题中是根据BiLSTM模型的预测输出序列,求出使得目标函数最优化的序列。
两个随机变量X和Y,在给定X的条件下,如果每个满足未来状态的条件概率与过去状态条件独立。如下式:
Figure 489814DEST_PATH_IMAGE002
则(X,Y)为一个CRF。常用的一阶链式结构CRF如图3所示。
CRF应用命名实体识别中是在给定需要预测的文本序列
Figure 800710DEST_PATH_IMAGE003
,根据BERT-BiLSTM模型的输出预测序列
Figure 477810DEST_PATH_IMAGE004
,通过条件概率
Figure 823341DEST_PATH_IMAGE005
进行建模,则有式:
Figure 176962DEST_PATH_IMAGE006
其中,i表示当前节点在x中的索引,m、n表示在当前节点i上的特征函数总个数。tn表示节点特征函数,只和当前位置有关。μm表示局部特征函数,只与当前位置和前一个节点位置有关。
Figure 975154DEST_PATH_IMAGE007
分别表示特征函数和对应的权重系数,用于衡量特征函数的信任度。归一化因子,如式:
Figure 954480DEST_PATH_IMAGE008
在其中一个实施例中,步骤102包括:对实体识别结果表中每一个实体与百科词条表中每一个实体进行向量化表示;根据实体识别结果表中每个实体与百科词条表中每一个实体的向量化表示,采用编辑距离、余弦相似度或杰拉德距离计算相似度值,得到相似度结果表。
在其中一个实施例中,步骤104中C-DSSM模型包括局部匹配模型和综合层;局部匹配模型是采用基于二值匹配的依存树模型进行构建,包括多个基于依存树的二值匹配模型,其中每一个二值匹配模型包含着下级子树,二值匹配模型用于通过对句子依存关系分析构建子树与子树之间的依存关系;综合层用于根据多个二值匹配模型的输出,采用稀疏结构进行存储。
具体的,C-DSSM采用了相同的词哈希技术来实现,通过将对象与结果简介句子中的每个单词表示为一个3万维的向量。以卷积的方式对滑动窗口内的词向量进行降维,从而获取一个新的向量,利用全局池化对该向量进行处理,取出各个位置最大值,从而将3万维的向量降维到300维。但是300维依然计算效率不高,通过线性转换等算法继续降维到64维,从而计算出句子相似度。该模型只考虑了单词之间的排列顺序,却忽略了句子之间的顺序以及相互依存关系。针对C-DSSM以上问题,本发明中提出了一种改进思路,利用句子依存关系来作为句子的表示。相对而言,依存关系更容易获取,而且句子表示的关系也会更丰富。
改进C-DSSM与原来C-DSSM模型相比,即保留了滑动窗口之间词与词之间的顺序,也加强了句子中远距离之间的联系,其匹配准确率有了大幅度的提升。
在一个实施例中,如图4所示,提供了一种中文实体链接方法,其步骤主要包括:
1)对需要添加链接的中文文本信息进行实体识别生成实体识别结果表。
2)对实体识别结果与百科词条表进行相似度比较,生成相似度结果表;相似度结果表是多维矩阵表,描述实体于词条相似度的百分比。
3)基于相似度分值,对相似度结果表进行相似度排序,过滤相似度值小于阈值的词条。
4)对权重值中大于阈值的数据进行二次相似度比对,通过识别结果所在句子与百科词条简介进行句与句子的相似度比对,得出匹配最优解的百科词条。
5)对满足条件的结果集添加百科词条链接,实体消歧结束。
应该理解的是,虽然图1和图4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1和图4中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图5所示,提供了一种中文实体链接装置,包括:实体识别模块、候选词条表确定模块和实体消歧模块,其中:
实体识别模块,用于获取中文文本信息,采用BERT-BiLSTM-CRF模型对中文文本信息进行实体识别,得到实体识别结果表。
候选词条表确定模块,用于对实体识别结果表与百科词条表进行相似度比较,得到相似度结果表;在相似度结果表中过滤掉相似度值小于预设阈值的词条,得到候选词条表。
实体消歧模块,用于当候选词条表中的实体数量等于1时,则实体消歧完成;当候选词条表中的实体数量大于1时,对实体识别结果表中每个识别结果上下文句子与候选词条表中对应的百科词条简介采用改进的C-DSSM模型确定句子之间的相似度;根据句子相似度对候选词条表中实体进行排序,如果排序在预定位置之前的实体的句子之间的相似度大于预设相似度阈值,则得到满足条件的结果集,对满足条件的结果集添加百科词条链接。
在其中一个实施例中,BERT-BiLSTM-CRF模型包括BERT模型、BiLSTM网络以及CRF模型;实体识别模块,还用于获取中文文本信息;将中文文本信息进行分词处理,并将分词后的序列输入到BERT模型中,得到句子的向量表示;将句子的向量表示输入到BiLSTM网络中,得到文本序列;将文本序列采用CRF模型,得到实体识别结果表。
在其中一个实施例中,候选词条表确定模块,还用于对实体识别结果表中每一个实体与百科词条表中每一个实体进行向量化表示;根据实体识别结果表中每个实体与百科词条表中每一个实体的向量化表示,采用编辑距离、余弦相似度或杰拉德距离计算相似度值,得到相似度结果表。
在其中一个实施例中,实体消歧模块中C-DSSM模型包括局部匹配模型和综合层;局部匹配模型是采用基于二值匹配的依存树模型进行构建,包括多个基于依存树的二值匹配模型,其中每一个二值匹配模型包含着下级子树,二值匹配模型用于通过对句子依存关系分析构建子树与子树之间的依存关系;综合层用于根据多个二值匹配模型的输出,采用稀疏结构进行存储。
关于中文实体链接装置的具体限定可以参见上文中对于中文实体链接方法的限定,在此不再赘述。上述中文实体链接装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种中文实体链接方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种中文实体链接方法,其特征在于,所述方法包括:
获取中文文本信息,采用BERT-BiLSTM-CRF模型对所述中文文本信息进行实体识别,得到实体识别结果表;
对所述实体识别结果表与百科词条表进行相似度比较,得到相似度结果表;
在所述相似度结果表中过滤掉相似度值小于预设阈值的词条,得到候选词条表;
当所述候选词条表中的实体数量等于1时,则实体消歧完成;
当所述候选词条表中的实体数量大于1时,对实体识别结果表中每个识别结果上下文句子与所述候选词条表中对应的百科词条简介采用改进的C-DSSM模型确定句子之间的相似度;根据句子相似度对所述候选词条表中实体进行排序,如果排序在预定位置之前的实体的句子之间的相似度大于预设相似度阈值,则得到满足条件的结果集,对满足条件的结果集添加百科词条链接。
2.根据权利要求1所述的方法,其特征在于,BERT-BiLSTM-CRF模型包括BERT模型、BiLSTM网络以及CRF模型;
获取中文文本信息,采用BERT-BiLSTM-CRF模型对所述中文文本信息进行实体识别,得到实体识别结果表,包括:
获取中文文本信息;
将所述中文文本信息进行分词处理,并将分词后的序列输入到所述BERT模型中,得到句子的向量表示;
将所述句子的向量表示输入到所述BiLSTM网络中,得到文本序列;
将所述文本序列采用CRF模型,得到实体识别结果表。
3.根据权利要求1所述的方法,其特征在于,对所述实体识别结果表与百科词条表进行相似度比较,得到相似度结果表,包括:
对所述实体识别结果表中每一个实体与百科词条表中每一个实体进行向量化表示;
根据所述实体识别结果表中每个实体与百科词条表中每一个实体的向量化表示,采用编辑距离、余弦相似度或杰拉德距离计算相似度值,得到相似度结果表。
4.根据权利要求1所述的方法,其特征在于,所述改进的C-DSSM模型包括局部匹配模型和综合层;所述局部匹配模型是采用基于二值匹配的依存树模型进行构建,包括多个基于依存树的二值匹配模型,其中每一个二值匹配模型包含着下级子树,二值匹配模型用于通过对句子依存关系分析构建子树与子树之间的依存关系;综合层用于根据多个二值匹配模型的输出,采用稀疏结构进行存储。
5.一种中文实体链接装置,其特征在于,所述装置包括:
实体识别模块,用于获取中文文本信息,采用BERT-BiLSTM-CRF模型对所述中文文本信息进行实体识别,得到实体识别结果表;
候选词条表确定模块,用于对所述实体识别结果表与百科词条表进行相似度比较,得到相似度结果表;在所述相似度结果表中过滤掉相似度值小于预设阈值的词条,得到候选词条表;
实体消歧模块,用于当所述候选词条表中的实体数量等于1时,则实体消歧完成;当所述候选词条表中的实体数量大于1时,对实体识别结果表中每个识别结果上下文句子与所述候选词条表中对应的百科词条简介采用改进的C-DSSM模型确定句子之间的相似度;根据句子相似度对所述候选词条表中实体进行排序,如果排序在预定位置之前的实体的句子之间的相似度大于预设相似度阈值,则得到满足条件的结果集,对满足条件的结果集添加百科词条链接。
6.根据权利要求5所述的装置,其特征在于,BERT-BiLSTM-CRF模型包括BERT模型、BiLSTM网络以及CRF模型;
实体识别模块,还用于获取中文文本信息;将所述中文文本信息进行分词处理,并将分词后的序列输入到所述BERT模型中,得到句子的向量表示;将所述句子的向量表示输入到所述BiLSTM网络中,得到文本序列;将所述文本序列采用CRF模型,得到实体识别结果表。
7.根据权利要求5所述的装置,其特征在于,候选词条表确定模块,还用于对所述实体识别结果表中每一个实体与百科词条表中每一个实体进行向量化表示;根据所述实体识别结果表中每个实体与百科词条表中每一个实体的向量化表示,采用编辑距离、余弦相似度或杰拉德距离计算相似度值,得到相似度结果表。
8.根据权利要求5所述的装置,其特征在于,实体消歧模块中所述改进的C-DSSM模型包括局部匹配模型和综合层;所述局部匹配模型是采用基于二值匹配的依存树模型进行构建,包括多个基于依存树的二值匹配模型,其中每一个二值匹配模型包含着下级子树,二值匹配模型用于通过对句子依存关系分析构建子树与子树之间的依存关系;综合层用于根据多个二值匹配模型的输出,采用稀疏结构进行存储。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法。
CN202210961307.2A 2022-08-11 2022-08-11 中文实体链接方法、装置、设备及存储介质 Active CN115062619B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210961307.2A CN115062619B (zh) 2022-08-11 2022-08-11 中文实体链接方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210961307.2A CN115062619B (zh) 2022-08-11 2022-08-11 中文实体链接方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN115062619A true CN115062619A (zh) 2022-09-16
CN115062619B CN115062619B (zh) 2022-11-22

Family

ID=83207362

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210961307.2A Active CN115062619B (zh) 2022-08-11 2022-08-11 中文实体链接方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115062619B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116503031A (zh) * 2023-06-29 2023-07-28 中国人民解放军国防科技大学 基于简历解析的人员相似性计算方法、装置、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107818081A (zh) * 2017-09-25 2018-03-20 沈阳航空航天大学 基于深度语义模型与语义角色标注的句子相似度评估方法
CN108681537A (zh) * 2018-05-08 2018-10-19 中国人民解放军国防科技大学 一种基于神经网络及词向量的中文实体链接方法
CN108959270A (zh) * 2018-08-10 2018-12-07 新华智云科技有限公司 一种基于深度学习的实体链接方法
EP3575987A1 (en) * 2018-06-01 2019-12-04 Fortia Financial Solutions Extracting from a descriptive document the value of a slot associated with a target entity
CN111639498A (zh) * 2020-04-21 2020-09-08 平安国际智慧城市科技股份有限公司 知识抽取方法、装置、电子设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107818081A (zh) * 2017-09-25 2018-03-20 沈阳航空航天大学 基于深度语义模型与语义角色标注的句子相似度评估方法
CN108681537A (zh) * 2018-05-08 2018-10-19 中国人民解放军国防科技大学 一种基于神经网络及词向量的中文实体链接方法
EP3575987A1 (en) * 2018-06-01 2019-12-04 Fortia Financial Solutions Extracting from a descriptive document the value of a slot associated with a target entity
CN108959270A (zh) * 2018-08-10 2018-12-07 新华智云科技有限公司 一种基于深度学习的实体链接方法
CN111639498A (zh) * 2020-04-21 2020-09-08 平安国际智慧城市科技股份有限公司 知识抽取方法、装置、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116503031A (zh) * 2023-06-29 2023-07-28 中国人民解放军国防科技大学 基于简历解析的人员相似性计算方法、装置、设备及介质
CN116503031B (zh) * 2023-06-29 2023-09-08 中国人民解放军国防科技大学 基于简历解析的人员相似性计算方法、装置、设备及介质

Also Published As

Publication number Publication date
CN115062619B (zh) 2022-11-22

Similar Documents

Publication Publication Date Title
CN110598206B (zh) 文本语义识别方法、装置、计算机设备和存储介质
CN111062215B (zh) 基于半监督学习训练的命名实体识别方法和装置
CN111222305B (zh) 一种信息结构化方法和装置
CN109992664B (zh) 争议焦点的标注分类方法、装置、计算机设备和存储介质
CN110955761A (zh) 文书中问答数据获取方法、装置、计算机设备和存储介质
CN110633366B (zh) 一种短文本分类方法、装置和存储介质
CN110688853B (zh) 序列标注方法、装置、计算机设备和存储介质
US20230244704A1 (en) Sequenced data processing method and device, and text processing method and device
JP2022088319A (ja) 文書中の自然言語テキストの解析
CN112307168B (zh) 基于人工智能的问诊会话处理方法、装置和计算机设备
CN117076653B (zh) 基于思维链及可视化提升上下文学习知识库问答方法
CN110175273B (zh) 文本处理方法、装置、计算机可读存储介质和计算机设备
CN112052684A (zh) 电力计量的命名实体识别方法、装置、设备和存储介质
CN110309504B (zh) 基于分词的文本处理方法、装置、设备及存储介质
CN112766319A (zh) 对话意图识别模型训练方法、装置、计算机设备及介质
CN115062619B (zh) 中文实体链接方法、装置、设备及存储介质
CN114064852A (zh) 自然语言的关系抽取方法、装置、电子设备和存储介质
CN112580329B (zh) 文本噪声数据识别方法、装置、计算机设备和存储介质
CN113343711B (zh) 工单生成方法、装置、设备及存储介质
CN113449508A (zh) 一种基于事件链的网络舆情关联推演预测分析方法
CN113673225A (zh) 中文句子相似性判别方法、装置、计算机设备和存储介质
CN116861269A (zh) 工程领域的多源异构数据融合及分析方法
CN113779994B (zh) 一种要素抽取方法、装置、计算机设备和存储介质
CN113076089A (zh) 一种基于对象类型的api补全方法
CN112948536A (zh) 网页简历页面的信息抽取方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant