CN114417016A - 一种基于知识图谱的文本信息匹配方法、装置及相关设备 - Google Patents

一种基于知识图谱的文本信息匹配方法、装置及相关设备 Download PDF

Info

Publication number
CN114417016A
CN114417016A CN202210096395.4A CN202210096395A CN114417016A CN 114417016 A CN114417016 A CN 114417016A CN 202210096395 A CN202210096395 A CN 202210096395A CN 114417016 A CN114417016 A CN 114417016A
Authority
CN
China
Prior art keywords
node
graph
entity
target
knowledge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210096395.4A
Other languages
English (en)
Inventor
刘玉葆
李绍基
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202210096395.4A priority Critical patent/CN114417016A/zh
Publication of CN114417016A publication Critical patent/CN114417016A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Pathology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种基于知识图谱的文本信息匹配方法、装置及相关设备,所述方法包括:通过双向长短期记忆神经网络LSTM模型对目标文本进行实体识别,得到节点集合;根据所述节点集合和预设的知识图谱,构建查询图;将所述查询图输入至训练后的图注意力网络模型,得到所述查询图中各节点的嵌入表示;根据所述知识图谱中各节点的嵌入表示和所述查询图中各节点的嵌入表示,确定所述查询图中各节点所对应的目标实体信息。本申请通过LSTM模型能够很好地捕捉目标文本的上下文关系,并充分利用了已有的知识图谱中的结构信息来匹配目标文本信息中的实体,以及通过训练后的图注意力网络来提高匹配的准确度,使得能够较为准确地获取目标文本的语义信息。

Description

一种基于知识图谱的文本信息匹配方法、装置及相关设备
技术领域
本申请涉及文本信息处理领域,更具体地说,是涉及一种基于知识图谱的 文本信息匹配方法、装置及相关设备。
背景技术
最近几年,医学知识图谱获得了不少的进步。生物医学知识图谱资料主要 来自于健康护理数据,例如临诊资源,电子健康数据,生物医学文献和实验测 试。医学知识图谱有助于提供高质量的信息以方便临床诊断。例如通过医学知 识图谱很方便就能构建一个医学知识问答的应用。实体消歧是构建知识图谱 的一个基本任务。一个实体在不同的上下文表现出不同的含义,实体消岐旨在 获取实体在具体上下文中的准确含义。
然而,由于原文档的句子与知识图谱的实体存在差异,目前的医学实体消 歧方法在这方面做得还不够好。医学实体消歧是指如何把出现在文本段的实 体识别映射到对应的在知识图谱的实体。这些输入的医疗数据文本段通常也 是收集于与知识图谱相同结构的数据资源。但是在这个过程中,由于缩略词, 拼写错误和口语,文本段的实体会与知识图谱对应的实体显示出差异。例如在 英文医学知识图谱,对于肾病这个疾病而言,一个医学编辑人员可能会使用实 体“renal disorder”或“kidney disease”,然而知识图谱对应的实体是“nephrosis”。 在中文医学知识图谱也会出现类似的问题,如疾病实体“流感”,根据抗原性 不同,可以分为甲型流感、乙型流感、丙型流感。而这几种流感会表现出不同 的症状。例如,在文本“感染流感后的症状主要表现为高热、咳嗽、流涕、肌 痛等,其流感病毒亚型为H1N1”中,根据症状实体“高热”、“咳嗽”、“流 涕”、“肌痛”以及病毒实体“H1N1”,可以知道疾病实体“流感”是甲型 流感。这种差异使得很难将文本的实体与知识图谱中的预期实体联系起来,降 低了知识图谱的使用价值。
因此,如何将上下文信息结合已有的知识图谱,准确捕获到实体自身的语 义信息,成为亟待解决的问题。
发明内容
有鉴于此,本申请提供了一种基于知识图谱的文本信息匹配方法、装置及 相关设备,以准确地获取目标文本的语义信息。
为实现上述目的,本申请第一方面提供了一种基于知识图谱的文本信息 匹配方法,包括:
通过双向长短期记忆神经网络LSTM模型对目标文本进行实体识别,得 到节点集合,所述节点集合中的每一节点对应于一实体以及实体类型;
根据所述节点集合和预设的知识图谱,构建查询图,所述查询图包含所述 节点集合中各节点之间的连边关系;
将所述查询图输入至训练后的图注意力网络模型,得到所述查询图中各 节点的嵌入表示;
根据所述知识图谱中各节点的嵌入表示和所述查询图中各节点的嵌入表 示,确定所述查询图中各节点所对应的目标实体信息;
其中,所述知识图谱中各节点的嵌入表示为通过预先将所述知识图谱输 入至所述训练后的图注意力网络模型计算得到。
优选地,根据所述节点集合和预设的知识图谱,构建查询图的过程,包括:
将所述节点集合划分为目标节点集合与候选节点集合,所述目标节点集 合中各节点包含在所述预设的知识图谱中,所述候选节点集合中任意节点均 不包含在所述预设的知识图谱中;
根据所述目标节点集合、所述候选节点集合以及所述预设的知识图谱,构 建查询图。
优选地,根据所述目标节点集合、所述候选节点集合以及所述预设的知识 图谱,构建查询图的过程,包括:
对于所述目标节点集合中的每一节点对,若所述节点对在所述知识图谱 中存在连边,则以所述节点对和所述连边的类型作为一条连边记录,添加到目 标连边集合;
根据所述候选节点集合和所述知识图谱,确定候选连边集合,所述候选连 边集合中每一连边的至少一个节点的实体类型包含在所述候选节点集合中;
对于所述知识图谱的每一节点:若所述节点存在连边,且所述连边的类型 包含在所述候选连边集合中,则将所述节点的实体类型添加到实体类型集合 中;
根据所述候选连边集合、所述实体类型集合、所述目标节点集合,更新所 述目标连边集合;
其中,以所述目标节点集合以及所述目标连边集合构成所述查询图。
优选地,根据所述候选节点集合和所述知识图谱,确定候选连边集合的过 程,包括:
对于所述候选节点集合中的每一节点:
获取所述节点所对应的实体类型;
从所述知识图谱中确定与所述实体类型的节点相连的连边;
以所述连边的类型,以及构成所述连边的节点及节点的实体类型作为一 条连边记录,添加到候选连边集合中。
优选地,根据所述候选连边集合、所述实体类型集合、所述目标节点集合, 更新所述目标连边集合的过程,包括:
对于所述目标节点集合中的每一节点:
若所述节点的实体类型包含在所述实体类型集合中,则从所述候选连边 集合中确定包含所述实体类型的第一节点的连边,将构成所述连边的第二节 点添加至所述目标节点集合中,并以所述节点、所述节点的实体类型、所述第 二节点、所述第二节点的实体类型以及所述连边的类型作为一条连边记录,添 加至所述目标连边集合中。
优选地,将所述节点集合划分为目标节点集合与候选节点集合的过程,包 括:
对于所述节点集合中的每一节点:
判断所述节点是否与所述知识图谱中的某一节点匹配;
若是,则将所述节点添加到目标节点集合;若否,将所述节点添加到候选 节点集合。
优选地,所述通过双向长短期神经网络LSTM模型对目标文本进行实体 识别,得到节点集合的过程,包括:
利用分词器对目标文本进行分词,得到各个字的编码标识;
将各个字的编码标识输入至训练后的双向编码表示转换BERT-WWM模 型,得到句子向量;
将所述句子向量输入至训练后的LSTM模型,并将所述LSTM模型的输 出输入至训练后的CRF模型中,得到目标文本中每个实体对应于每个标签的 概率;
以每个实体中概率值最大的标签作为所述实体的目标标签,并根据各实 体以及每一实体的目标标签,生成所述节点集合。
本申请第二方面提供了一种基于知识图谱的文本信息匹配装置,包括:
实体识别单元,用于通过双向长短期神经网络LSTM模型对目标文本进 行实体识别,得到节点集合,所述节点集合中的每一节点对应于一实体以及实 体类型;
查询图构建单元,用于根据所述节点集合和预设的知识图谱,构建查询图, 所述查询图包含所述节点集合中各节点之间的连边关系;
预测单元,用于将所述查询图输入至训练后的图注意力网络模型,得到所 述查询图中各节点的嵌入表示;
匹配单元,用于根据所述知识图谱中各节点的嵌入表示和所述查询图中 各节点的嵌入表示,确定所述查询图中各节点所对应的目标实体信息;
其中,所述知识图谱中各节点的嵌入表示为通过预测单元预先将所述知 识图谱输入至所述训练后的图注意力网络模型计算得到。
本申请第三方面提供了一种基于知识图谱的文本信息匹配设备,包括:存 储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如上述的基于知识图谱的文本信息 匹配方法的各个步骤。
本申请第四方面提供了一种存储介质,其上存储有计算机程序,所述计算 机程序被处理器执行时,实现如上述的基于知识图谱的文本信息匹配方法的 各个步骤。
经由上述的技术方案可知,本申请首先通过双向长短期神经网络LSTM 模型对目标文本进行实体识别,通过LSTM模型能够很好地捕捉目标文本的 上下文关系,得到节点集合。其中,所述节点集合中的每一节点对应于一实体 以及实体类型。然后根据所述节点集合和预设的知识图谱,构建查询图。其中, 所述预设的知识图谱为已有的知识图谱,通过充分利用已有的知识图谱的结 构信息来构建所述查询图,能够提高构建过程的准确性。接着利用训练后的图 注意力网络来动态调整所述查询图中各节点之间的关系。具体地,由于知识图 谱是现有的,因此可以预先将所述知识图谱输入至所述训练后的图注意力网 络,从而计算得到所述知识图谱中各节点的嵌入表示。然后将所述查询图输入 至训练后的图注意力网络,得到所述查询图中各节点的嵌入表示。最后,根据 所述知识图谱中各节点的嵌入表示和所述查询图中各节点的嵌入表示,确定 所述查询图中各节点所对应的目标实体信息。本申请通过LSTM模型能够很 好地捕捉目标文本的上下文关系,并充分利用了已有的知识图谱中的结构信 息来匹配目标文本信息中的实体,以及通过训练后的图注意力网络来提高匹 配的准确度,使得能够较为准确地获取目标文本的语义信息。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实 施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描 述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出 创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例公开的基于知识图谱的文本信息匹配方法的示意图;
图2示例了本申请实施例公开的采用图注意力网络进行节点匹配的示意 图;
图3示例了本申请实施例公开的基于知识图谱的文本信息匹配的系统结 构图;
图4为本申请实施例公开的基于知识图谱的文本信息匹配装置的示意图;
图5为本申请实施例公开的基于知识图谱的文本信息匹配设备的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行 清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不 是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创 造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面介绍本申请实施例提供的基于知识图谱的文本信息匹配方法。请参 阅图1,本申请实施例提供的基于知识图谱的文本信息匹配方法可以包括如下 步骤:
步骤S101,通过双向LSTM模型对目标文本进行实体识别,得到节点集 合。
其中,该节点集合中的每一节点对应于一实体以及实体类型。
具体地,LSTM模型(Long Short-Term Memory,长短期记忆神经网络) 是一种特殊的RNN(Recurrent Neural Network,循环神经网络)类型,通过 刻意的设计来避免长期依赖问题,可以学习长期依赖信息。通过LSTM模型 对目标文本进行实体识别,能够很好地捕捉目标文本的上下文关系。
步骤S102,根据所述节点集合和预设的知识图谱,构建查询图。
其中,该查询图包含所述节点集合中各节点之间的连边关系。
具体地,知识图谱可以从语义角度出发,通过描述客观世界中的实体及其 关系,从而让计算机具备更好地组织、管理和理解互联网上的海量信息的能力。 知识图谱主要包含节点和边,其中,节点表示实体及其概念,概念是抽象出来 的事物,实体是具体的事物,以下对实体及概念统称实体;边表示实体的关系 及其属性,具体地,实体的内部特征用属性来表示,外部联系用关系来表示。
步骤S103,将查询图输入至训练后的图注意力网络模型,得到查询图中 各节点的嵌入表示。
其中,图神经网络主要使用的数据结构是图,图中的每个数据样本(节点) 都会有边与图中其他数据样本(节点)相关,这些信息可用于捕获数据样本之 间的相互依赖关系。
图注意力网络模型(GAT,Graph Attention Network)作为图神经网络的 一种具体模型,引入了注意力机制,实现对节点的不同邻居权重的自适应分配, 从而大大提高了图神经网络模型的表达能力。
步骤S104,根据知识图谱中各节点的嵌入表示和查询图中各节点的嵌入 表示,确定查询图中各节点所对应的目标实体信息。
其中,由于知识图谱是预先设置的,可以预先计算知识图谱中各节点的嵌 入表示,即,知识图谱中各节点的嵌入表示为通过预先将知识图谱输入至该训 练后的图注意力网络计算得到。
例如,请参阅图2,可以把查询图和知识图谱作为图注意力网络模型的输 入,把网络模型的输出作为每个节点的嵌入表示。通过比较知识图谱的所有节 点的嵌入表示与查询图中有歧义的节点的嵌入表示的相似度,选择相似度最 高的节点作为匹配的节点,也就是无歧义的节点。具体地,在图2中,知识图 谱中的V节点的嵌入表示与查询图中Q节点的嵌入表示最为相似,因此,可 以将知识图谱中的V节点作为查询图中Q节点的匹配节点。
本申请实施例首先通过双向长短期神经网络LSTM模型对目标文本进行 实体识别,通过LSTM模型能够很好地捕捉目标文本的上下文关系,得到节 点集合。其中,所述节点集合中的每一节点对应于一实体以及实体类型。然后 根据所述节点集合和预设的知识图谱,构建查询图。其中,所述预设的知识图 谱为已有的知识图谱,通过充分利用已有的知识图谱的结构信息来构建所述 查询图,能够提高构建过程的准确性。接着利用训练后的图注意力网络来动态 调整所述查询图中各节点之间的关系。具体地,由于知识图谱是现有的,因此 可以预先将所述知识图谱输入至所述训练后的图注意力网络,从而计算得到 所述知识图谱中各节点的嵌入表示。然后将所述查询图输入至训练后的图注 意力网络,得到所述查询图中各节点的嵌入表示。最后,根据所述知识图谱中 各节点的嵌入表示和所述查询图中各节点的嵌入表示,确定所述查询图中各 节点所对应的目标实体信息。本申请通过LSTM模型能够很好地捕捉目标文 本的上下文关系,并充分利用了已有的知识图谱中的结构信息来匹配目标文 本信息中的实体,以及通过训练后的图注意力网络来提高匹配的准确度,使得 能够较为准确地获取目标文本的语义信息。
在本申请的一些实施例中,请参阅图3,上述步骤S101通过双向LSTM 模型对目标文本进行实体识别,得到节点集合的过程,可以包括:
S1,利用分词器对目标文本进行分词,得到各个字的编码标识。
其中,分词器可以是tokenizer,通过分词器对文本进行分词,可以得到各 个字的编码标识(编码ID)。例如对于文本“天气很好”,分词器的输出是 “1,100,102,103”。其中,编码ID是根据汉字字典中的编码规则来决定 的,在汉字字典中,“天”对应于1,“气”对应于100,“很”对应于102, “好”对应于103,“不”对应于104。
S2,将各个字的编码标识输入至训练后的BERT-WWM模型,得到句子 向量。
其中,BERT(Bidirectional Encoder Representation from Transformers,双向编码表示转换)模型,是一个预训练的语言表征模型,其强调了不再像以往 一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法 进行预训练,而是采用新的masked language model(MLM),以致能生成深 度的双向语言表征。当目标文本为中文文本时,可以使用BERT-WWM中文 版本的预训练模型参数。
对于目标文本“天气好”,BERT模型的输出是5个768维的向量,第1 个向量代表[CLS],第2个向量代表“天”,第3个向量代表“气”,第4个 向量代表“好”,第5个向量代表“[SEP]”。
S3,将该句子向量输入至训练后的LSTM模型,并将所述LSTM模型的 输出输入至训练后的CRF模型中,得到目标文本中每个实体对应于每个标签 的概率。
其中,对于句子向量中的各实体,可以采用BIO标记法对其进行标记, 例如,对于疾病实体,B-Disease指代疾病实体的开始,I-Disease指代疾病实 体的中间。则对于疾病实体“慢性乙型肝炎”,经过分词之后为“慢性-乙型- 肝炎”,则对应的标签表示为B-Disease、I-Disease、I-Disease。
CRF模型(conditional random field,条件随机场)是给定一组输入序列条 件下另一组输出序列的条件概率分布模型。条件随机场很好地解决了标记偏 见的问题,即凡是训练语料中未出现的情况全都忽略掉,它并不在每一个节点 进行归一化,而是所有特征进行全局归一化,因此可以求得全局的最优值。
标签指代实体的标签,不同的应用场景可以具有不同的标签。例如,对于 中文医学而言,实体可以包括疾病实体,药物实体,症状实体等等,那么标签 就可以包括疾病、药物、症状。这些标签一般地可以通过人工进行标注,也可 以使用深度学习技术自动获得。
S4,以每个实体中概率值最大的标签作为该实体的目标标签,并根据各实 体以及每一实体的目标标签,生成该节点集合。
在本申请的一些实施例中,上述步骤S102根据节点集合和预设的知识图 谱,构建查询图的过程,可以包括:
S1,将所述节点集合划分为目标节点集合与候选节点集合。
其中,目标节点集合中各节点包含在所述预设的知识图谱中,候选节点集 合中任意节点均不包含在所述预设的知识图谱中。
S2,根据目标节点集合、候选节点集合以及预设的知识图谱,构建查询图。
其中,一方面,由于目标节点集合中各节点包含在所述预设的知识图谱中, 可以直接根据这些节点在知识图谱中的连边关系确定其在查询图中的连边关 系。另一方面,虽然候选节点集合中任意节点均不包含在所述预设的知识图谱 中,但是可以根据这些节点的实体类型,获取在知识图谱中具有相同实体类型 的节点,进一步从这些在知识图谱中具有相同实体类型的节点挖掘其他信息, 最终增强了查询图的结构关系。
在本申请的一些实施例中,上述S1将节点集合划分为目标节点集合与候 选节点集合的过程,可以包括:
对于节点集合中的每一节点:
判断该节点是否与知识图谱中的某一节点匹配;
若是,则将该节点添加到目标节点集合;若否,将该节点添加到候选节点 集合。
在本申请的一些实施例中,上述S2根据目标节点集合、候选节点集合以 及预设的知识图谱,构建查询图的过程,可以包括:
S21,对于目标节点集合中的每一节点对,若该节点对在知识图谱中存在 连边,则以该节点对和该连边的类型作为一条连边记录,添加到目标连边集合。
S22,根据候选节点集合和知识图谱,确定候选连边集合。
其中,所述候选连边集合中每一连边的至少一个节点的实体类型包含在 所述候选节点集合中。
S23,对于知识图谱的每一节点:若该节点存在连边,且该连边的类型包 含在候选连边集合中,则将该节点的实体类型添加到实体类型集合中。
S24,根据候选连边集合、实体类型集合、目标节点集合,更新目标连边 集合。
其中,以目标节点集合以及目标连边集合构成所述查询图。
在本申请的一些实施例中,上述S22根据所述候选节点集合和所述知识 图谱,确定候选连边集合的过程,可以包括:
对于候选节点集合中的每一节点:
S221,获取该节点所对应的实体类型;
S222,从知识图谱中确定与该实体类型的节点相连的连边;
S223,以该连边的类型,以及构成该连边的节点及节点的实体类型作为一 条连边记录,添加到候选连边集合中。
在本申请的一些实施例中,上述S24根据候选连边集合、实体类型集合、 目标节点集合,更新目标连边集合的过程,可以包括:
对于目标节点集合中的每一节点:
若节点的实体类型包含在实体类型集合中,则从候选连边集合中确定包 含该实体类型的第一节点的连边,将构成该连边的第二节点添加至目标节点 集合中,并以该节点、该节点的实体类型、第二节点、第二节点的实体类型以 及该连边的类型作为一条连边记录,添加至目标连边集合中。
为便于理解,以下对步骤S102的各细化步骤进行举例说明。假设目标节 点集合表示为Vqry,候选节点集合表示为EMunknown,预设的知识图谱表示为 KBs。
根据上述S1,对于节点集合中的每一节点,如果该节点在KBs能找到匹 配的节点,则将该节点添加至目标节点集合vqry;如果在KBs中无法找到匹配 的节点,则将该节点添加至候选节点集合EMunknown
根据上述S21,对于vqry中的节点对(u,v),如果(u,v)在KBs中存在连边 e,且连边e的连边类型为e.type,则把(u,v,e.type)添加到目标连边集合εqry中。
根据上述S22的细化步骤,对于节点eu∈EMunknown,获取节点eu的实 体类型ut;在KBs中找到与具有实体类型ut的节点构成的所有连边,并将这些 连边添加到候选连边集合EdgeSet中,其中,每一条连边包括:该连边的类型、 构成该连边的首节点、尾节点以及首节点的实体类型、尾节点的实体类型。
根据上述S23,对于KBs中的任一节点,若该节点存在连边,且该连边的 类型包含在EdgeSet中,则将该节点的实体类型添加到实体类型集合EntityTypeSet中。
根据上述S24的细化步骤,对于目标节点集合中的节点ev∈vqry,若该 节点ev的实体类型vt包含在EntityTypeSet中,则从候选连边集合EdgeSet中找 出包含实体类型为vt的连边,假设该连边的首节点的实体类型为vt,则将尾节 点eu添加至目标节点集合vqry中,并以节点ev及其实体类型、尾节点eu及其实 体类型、该连边的类型EdgeType作为一条连边记录,添加至目标连边集合εqry中。
最后,以目标节点集合表示为vqry以及目标连边集合εqry构成查询图。
在本申请的一些实施例中,对于上述步骤S103所提及的图注意力网络模 型的训练过程,可以包括:
随机选择负样本作为训练参数,使得网络参数先找到收敛空间;
提供相似度高的负样本作为训练参数,以提高训练效率;
通过最小化损失函数,使得网络结构参数最终收敛。
其中,损失函数可以用如下方程式表示:
Figure BDA0003490928330000111
其中,σ(·)是Sigmoid激活函数,Ω是正样本节点对集合,Ω-是负样本节 点对集合;u是查询图中有歧义的实体;v是知识图谱中u对应的实体,v是知 识图谱中与v相似的实体样本。
通过比较知识图谱所有节点与节点u之间两个嵌入的余弦相似度,选择 相似度高的节点作为负样本节点对。
下面对本申请实施例提供的基于知识图谱的文本信息匹配装置进行描述, 下文描述的基于知识图谱的文本信息匹配装置与上文描述的基于知识图谱的 文本信息匹配方法可相互对应参照。
请参见图4,本申请实施例提供的基于知识图谱的文本信息匹配装置,可 以包括:
实体识别单元21,用于通过双向长短期神经网络LSTM模型对目标文本 进行实体识别,得到节点集合,所述节点集合中的每一节点对应于一实体以及 实体类型;
查询图构建单元22,用于根据所述节点集合和预设的知识图谱,构建查 询图,所述查询图包含所述节点集合中各节点之间的连边关系;
预测单元23,用于将所述查询图输入至训练后的图注意力网络,得到所 述查询图中各节点的嵌入表示;
匹配单元24,用于根据所述知识图谱中各节点的嵌入表示和所述查询图 中各节点的嵌入表示,确定所述查询图中各节点所对应的目标实体信息;
其中,所述知识图谱中各节点的嵌入表示为通过预测单元预先将所述知 识图谱输入至所述训练后的图注意力网络计算得到。
在本申请的一些实施例中,实体识别单元21通过双向长短期神经网络 LSTM模型对目标文本进行实体识别,得到节点集合的过程,可以包括:
利用分词器对目标文本进行分词,得到各个字的编码标识;
将各个字的编码标识输入至训练后的双向编码表示转换BERT-WWM模 型,得到句子向量;
将所述句子向量输入至训练后的LSTM模型,并将所述LSTM模型的输 出输入至训练后的CRF模型中,得到目标文本中每个实体对应于每个标签的 概率;
以每个实体中概率值最大的标签作为所述实体的目标标签,并根据各实 体以及每一实体的目标标签,生成所述节点集合。
在本申请的一些实施例中,查询图构建单元22根据所述节点集合和预设 的知识图谱,构建查询图的过程,可以包括:
将所述节点集合划分为目标节点集合与候选节点集合,所述目标节点集 合中各节点包含在所述预设的知识图谱中,所述候选节点集合中任意节点均 不包含在所述预设的知识图谱中;
根据所述目标节点集合、所述候选节点集合以及所述预设的知识图谱,构 建查询图。
在本申请的一些实施例中,查询图构建单元22将所述节点集合划分为目 标节点集合与候选节点集合的过程,可以包括:
对于所述节点集合中的每一节点:
判断所述节点是否与所述知识图谱中的某一节点匹配;
若是,则将所述节点添加到目标节点集合;若否,将所述节点添加到候选 节点集合。
在本申请的一些实施例中,查询图构建单元22根据所述目标节点集合、 所述候选节点集合以及所述预设的知识图谱,构建查询图的过程,可以包括:
对于所述目标节点集合中的每一节点对,若所述节点对在所述知识图谱 中存在连边,则以所述节点对和所述连边的类型作为一条连边记录,添加到目 标连边集合;
根据所述候选节点集合和所述知识图谱,确定候选连边集合,所述候选连 边集合中每一连边的至少一个节点的实体类型包含在所述候选节点集合中;
对于所述知识图谱的每一节点:若所述节点存在连边,且所述连边的类型 包含在所述候选连边集合中,则将所述节点的实体类型添加到实体类型集合 中;
根据所述候选连边集合、所述实体类型集合、所述目标节点集合,更新所 述目标连边集合;
其中,以所述目标节点集合以及所述目标连边集合构成所述查询图。
在本申请的一些实施例中,查询图构建单元22根据所述候选节点集合和 所述知识图谱,确定候选连边集合的过程,可以包括:
对于所述候选节点集合中的每一节点:
获取所述节点所对应的实体类型;
从所述知识图谱中确定与所述实体类型的节点相连的连边;
以所述连边的类型,以及构成所述连边的节点及节点的实体类型作为一 条连边记录,添加到候选连边集合中。
在本申请的一些实施例中,查询图构建单元22根据所述候选连边集合、 所述实体类型集合、所述目标节点集合,更新所述目标连边集合的过程,可以 包括:
对于所述目标节点集合中的每一节点:
若所述节点的实体类型包含在所述实体类型集合中,则从所述候选连边 集合中确定包含所述实体类型的第一节点的连边,将构成所述连边的第二节 点添加至所述目标节点集合中,并以所述节点、所述节点的实体类型、所述第 二节点、所述第二节点的实体类型以及所述连边的类型作为一条连边记录,添 加至所述目标连边集合中。
在本申请的一些实施例中,该基于知识图谱的文本信息匹配装置还可以 包括训练单元,用于对图注意力网络模型进行训练。所述训练单元对图注意力 网络模型进行训练的过程,可以包括:
随机选择负样本作为训练参数,使得网络参数先找到收敛空间;
提供相似度高的负样本作为训练参数,以提高训练效率;
通过最小化损失函数,使得网络结构参数最终收敛。
其中,损失函数可以用如下方程式表示:
Figure BDA0003490928330000141
其中,σ(·)是Sigmoid激活函数,Ω是正样本节点对集合,Ω-是负样本节 点对集合;u是查询图中有歧义的实体;v是知识图谱中u对应的实体,v是知 识图谱中与v相似的实体样本。
本申请实施例提供的基于知识图谱的文本信息匹配装置可应用于基于知 识图谱的文本信息匹配设备,如计算机等智能设备。可选的,图5示出了基于 知识图谱的文本信息匹配设备的硬件结构框图,参照图5,基于知识图谱的文 本信息匹配设备的硬件结构可以包括:至少一个处理器31,至少一个通信接 口32,至少一个存储器33和至少一个通信总线34。
在本申请实施例中,处理器31、通信接口32、存储器33、通信总线34 的数量为至少一个,且处理器31、通信接口32、存储器33通过通信总线34 完成相互间的通信;
处理器31可能是一个中央处理器CPU,或者是特定集成电路ASIC (ApplicationSpecific Integrated Circuit),或者是被配置成实施本申请实施例 的一个或多个集成电路等;
存储器32可能包含高速RAM存储器,也可能还包括非易失性存储器 (non-volatile memory)等,例如至少一个磁盘存储器;
其中,存储器33存储有程序,处理器31可调用存储器33存储的程序, 所述程序用于:
通过双向长短期记忆神经网络LSTM模型对目标文本进行实体识别,得 到节点集合,所述节点集合中的每一节点对应于一实体以及实体类型;
根据所述节点集合和预设的知识图谱,构建查询图,所述查询图包含所述 节点集合中各节点之间的连边关系;
将所述查询图输入至训练后的图注意力网络模型,得到所述查询图中各 节点的嵌入表示;
根据所述知识图谱中各节点的嵌入表示和所述查询图中各节点的嵌入表 示,确定所述查询图中各节点所对应的目标实体信息;
其中,所述知识图谱中各节点的嵌入表示为通过预先将所述知识图谱输 入至所述训练后的图注意力网络模型计算得到。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
本申请实施例还提供一种存储介质,该存储介质可存储有适于处理器执 行的程序,所述程序用于:
通过双向长短期记忆神经网络LSTM模型对目标文本进行实体识别,得 到节点集合,所述节点集合中的每一节点对应于一实体以及实体类型;
根据所述节点集合和预设的知识图谱,构建查询图,所述查询图包含所述 节点集合中各节点之间的连边关系;
将所述查询图输入至训练后的图注意力网络模型,得到所述查询图中各 节点的嵌入表示;
根据所述知识图谱中各节点的嵌入表示和所述查询图中各节点的嵌入表 示,确定所述查询图中各节点所对应的目标实体信息;
其中,所述知识图谱中各节点的嵌入表示为通过预先将所述知识图谱输 入至所述训练后的图注意力网络模型计算得到。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
综上所述:
本申请首先通过双向长短期神经网络LSTM模型对目标文本进行实体识 别,通过LSTM模型能够很好地捕捉目标文本的上下文关系,得到节点集合。 其中,所述节点集合中的每一节点对应于一实体以及实体类型。然后根据所述 节点集合和预设的知识图谱,构建查询图。其中,所述预设的知识图谱为已有 的知识图谱,通过充分利用已有的知识图谱的结构信息来构建所述查询图,能 够提高构建过程的准确性。接着利用训练后的图注意力网络来动态调整所述 查询图中各节点之间的关系。具体地,由于知识图谱是现有的,因此可以预先 将所述知识图谱输入至所述训练后的图注意力网络,从而计算得到所述知识 图谱中各节点的嵌入表示。然后将所述查询图输入至训练后的图注意力网络, 得到所述查询图中各节点的嵌入表示。最后,根据所述知识图谱中各节点的嵌 入表示和所述查询图中各节点的嵌入表示,确定所述查询图中各节点所对应 的目标实体信息。本申请通过LSTM模型能够很好地捕捉目标文本的上下文 关系,并充分利用了已有的知识图谱中的结构信息来匹配目标文本信息中的 实体,以及通过训练后的图注意力网络来提高匹配的准确度,使得能够较为准 确地获取目标文本的语义信息。
进一步地,本申请实施例在对实体进行识别的时候,使用BERT-WWM中 文预训练模型获得字向量,使用双向长短期神经网络模型捕获输入序列之间 的依赖,使用条件随机场防止不正确标签序列的出现,提高了模型预测的准确 度。本申请实施例根据对目标文本识别出来的实体,利用知识图谱自带的结构 信息和语义信息增强构建查询图;在训练过程中,使用了图注意力网络来动态 调整邻居节点的权重,使得训练出来的模型更好的融合了网络结构信息和根 据邻居节点的重要性分配不同的权重。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅 仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或 者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语 “包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得 包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括 没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所 固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素, 并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要 素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都 是与其他实施例的不同之处,各个实施例之间可以根据需要进行组合,且相同 相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用 本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易 见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下, 在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例, 而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种基于知识图谱的文本信息匹配方法,其特征在于,包括:
通过双向长短期记忆神经网络LSTM模型对目标文本进行实体识别,得到节点集合,所述节点集合中的每一节点对应于一实体以及实体类型;
根据所述节点集合和预设的知识图谱,构建查询图,所述查询图包含所述节点集合中各节点之间的连边关系;
将所述查询图输入至训练后的图注意力网络模型,得到所述查询图中各节点的嵌入表示;
根据所述知识图谱中各节点的嵌入表示和所述查询图中各节点的嵌入表示,确定所述查询图中各节点所对应的目标实体信息;
其中,所述知识图谱中各节点的嵌入表示为通过预先将所述知识图谱输入至所述训练后的图注意力网络模型计算得到。
2.根据权利要求1所述的方法,其特征在于,根据所述节点集合和预设的知识图谱,构建查询图的过程,包括:
将所述节点集合划分为目标节点集合与候选节点集合,所述目标节点集合中各节点包含在所述预设的知识图谱中,所述候选节点集合中任意节点均不包含在所述预设的知识图谱中;
根据所述目标节点集合、所述候选节点集合以及所述预设的知识图谱,构建查询图。
3.根据权利要求2所述的方法,其特征在于,根据所述目标节点集合、所述候选节点集合以及所述预设的知识图谱,构建查询图的过程,包括:
对于所述目标节点集合中的每一节点对,若所述节点对在所述知识图谱中存在连边,则以所述节点对和所述连边的类型作为一条连边记录,添加到目标连边集合;
根据所述候选节点集合和所述知识图谱,确定候选连边集合,所述候选连边集合中每一连边的至少一个节点的实体类型包含在所述候选节点集合中;
对于所述知识图谱的每一节点:若所述节点存在连边,且所述连边的类型包含在所述候选连边集合中,则将所述节点的实体类型添加到实体类型集合中;
根据所述候选连边集合、所述实体类型集合、所述目标节点集合,更新所述目标连边集合;
其中,以所述目标节点集合以及所述目标连边集合构成所述查询图。
4.根据权利要求3所述的方法,其特征在于,根据所述候选节点集合和所述知识图谱,确定候选连边集合的过程,包括:
对于所述候选节点集合中的每一节点:
获取所述节点所对应的实体类型;
从所述知识图谱中确定与所述实体类型的节点相连的连边;
以所述连边的类型,以及构成所述连边的节点及节点的实体类型作为一条连边记录,添加到候选连边集合中。
5.根据权利要求3所述的方法,其特征在于,根据所述候选连边集合、所述实体类型集合、所述目标节点集合,更新所述目标连边集合的过程,包括:
对于所述目标节点集合中的每一节点:
若所述节点的实体类型包含在所述实体类型集合中,则从所述候选连边集合中确定包含所述实体类型的第一节点的连边,将构成所述连边的第二节点添加至所述目标节点集合中,并以所述节点、所述节点的实体类型、所述第二节点、所述第二节点的实体类型以及所述连边的类型作为一条连边记录,添加至所述目标连边集合中。
6.根据权利要求2所述的方法,其特征在于,将所述节点集合划分为目标节点集合与候选节点集合的过程,包括:
对于所述节点集合中的每一节点:
判断所述节点是否与所述知识图谱中的某一节点匹配;
若是,则将所述节点添加到目标节点集合;若否,将所述节点添加到候选节点集合。
7.根据权利要求1所述的方法,其特征在于,所述通过双向长短期神经网络LSTM模型对目标文本进行实体识别,得到节点集合的过程,包括:
利用分词器对目标文本进行分词,得到各个字的编码标识;
将各个字的编码标识输入至训练后的双向编码表示转换BERT-WWM模型,得到句子向量;
将所述句子向量输入至训练后的LSTM模型,并将所述LSTM模型的输出输入至训练后的CRF模型中,得到目标文本中每个实体对应于每个标签的概率;
以每个实体中概率值最大的标签作为所述实体的目标标签,并根据各实体以及每一实体的目标标签,生成所述节点集合。
8.一种基于知识图谱的文本信息匹配装置,其特征在于,包括:
实体识别单元,用于通过双向长短期神经网络LSTM模型对目标文本进行实体识别,得到节点集合,所述节点集合中的每一节点对应于一实体以及实体类型;
查询图构建单元,用于根据所述节点集合和预设的知识图谱,构建查询图,所述查询图包含所述节点集合中各节点之间的连边关系;
预测单元,用于将所述查询图输入至训练后的图注意力网络模型,得到所述查询图中各节点的嵌入表示;
匹配单元,用于根据所述知识图谱中各节点的嵌入表示和所述查询图中各节点的嵌入表示,确定所述查询图中各节点所对应的目标实体信息;
其中,所述知识图谱中各节点的嵌入表示为通过预测单元预先将所述知识图谱输入至所述训练后的图注意力网络模型计算得到。
9.一种基于知识图谱的文本信息匹配设备,其特征在于,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如权利要求1~7中任一项所述的基于知识图谱的文本信息匹配方法的各个步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1~7中任一项所述的基于知识图谱的文本信息匹配方法的各个步骤。
CN202210096395.4A 2022-01-26 2022-01-26 一种基于知识图谱的文本信息匹配方法、装置及相关设备 Pending CN114417016A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210096395.4A CN114417016A (zh) 2022-01-26 2022-01-26 一种基于知识图谱的文本信息匹配方法、装置及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210096395.4A CN114417016A (zh) 2022-01-26 2022-01-26 一种基于知识图谱的文本信息匹配方法、装置及相关设备

Publications (1)

Publication Number Publication Date
CN114417016A true CN114417016A (zh) 2022-04-29

Family

ID=81276751

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210096395.4A Pending CN114417016A (zh) 2022-01-26 2022-01-26 一种基于知识图谱的文本信息匹配方法、装置及相关设备

Country Status (1)

Country Link
CN (1) CN114417016A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117874755A (zh) * 2024-03-13 2024-04-12 中国电子科技集团公司第三十研究所 一种识别暗网威胁用户的系统及方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117874755A (zh) * 2024-03-13 2024-04-12 中国电子科技集团公司第三十研究所 一种识别暗网威胁用户的系统及方法
CN117874755B (zh) * 2024-03-13 2024-05-10 中国电子科技集团公司第三十研究所 一种识别暗网威胁用户的系统及方法

Similar Documents

Publication Publication Date Title
WO2021147726A1 (zh) 信息抽取方法、装置、电子设备及存储介质
CN107977361B (zh) 基于深度语义信息表示的中文临床医疗实体识别方法
Zhu et al. Knowledge-based question answering by tree-to-sequence learning
US7493251B2 (en) Using source-channel models for word segmentation
CN112002411A (zh) 一种基于电子病历的心脑血管病知识图谱问答方法
CN110727779A (zh) 基于多模型融合的问答方法及系统
CN110717034A (zh) 一种本体构建方法及装置
CN109710932A (zh) 一种基于特征融合的医疗实体关系抽取方法
WO2021042516A1 (zh) 命名实体识别方法、装置及计算机可读存储介质
CN109960728A (zh) 一种开放域会议信息命名实体识别方法及系统
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
US20210042344A1 (en) Generating or modifying an ontology representing relationships within input data
CN117076653B (zh) 基于思维链及可视化提升上下文学习知识库问答方法
Wang et al. DM_NLP at semeval-2018 task 12: A pipeline system for toponym resolution
CN113761890A (zh) 一种基于bert上下文感知的多层级语义信息检索方法
Ahmed et al. Named entity recognition by using maximum entropy
JP2021508391A (ja) 対象領域およびクライアント固有のアプリケーション・プログラム・インタフェース推奨の促進
CN112101031A (zh) 一种实体识别方法、终端设备及存储介质
CN112883199A (zh) 一种基于深度语义邻居和多元实体关联的协同消歧方法
CN114428850A (zh) 一种文本检索匹配方法和系统
CN112650833A (zh) Api匹配模型建立方法及跨城市政务api匹配方法
CN114691864A (zh) 文本分类模型训练方法及装置、文本分类方法及装置
CN114417016A (zh) 一种基于知识图谱的文本信息匹配方法、装置及相关设备
CN112765985A (zh) 一种面向特定领域专利实施例的命名实体识别方法
Abd et al. A comparative study of word representation methods with conditional random fields and maximum entropy markov for bio-named entity recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination