CN111400478A - 一种基于词嵌入匹配技术的知识图谱问答方法及装置 - Google Patents

一种基于词嵌入匹配技术的知识图谱问答方法及装置 Download PDF

Info

Publication number
CN111400478A
CN111400478A CN202010222744.3A CN202010222744A CN111400478A CN 111400478 A CN111400478 A CN 111400478A CN 202010222744 A CN202010222744 A CN 202010222744A CN 111400478 A CN111400478 A CN 111400478A
Authority
CN
China
Prior art keywords
question
entity
word
module
knowledge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010222744.3A
Other languages
English (en)
Inventor
钟小平
刘江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202010222744.3A priority Critical patent/CN111400478A/zh
Publication of CN111400478A publication Critical patent/CN111400478A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施方式公开了一种基于词嵌入匹配技术的知识图谱问答方法及装置,本方法包括:获取用户输入问句并对问句预处理;将处理后的问句送入实体标注模块标注主实体;将问句送入词嵌入匹配模块查询最优主实体;将问句送入关系抽取模块获取关系信息;将最优主实体与关系信息送入客实体查询模块,在知识图谱数据库中进行客实体查询,找到对应的客实体;根据查询的最优主实体、关系信息和客实体,获取问句对应的答案。本发明通过加入词嵌入匹配模块,与知识图谱中的各个实体的表示特征进行欧式距离的计算,从而辅助主实体的选择,解决传统模型在实体标注时易产生错误,难以得到准确有效的答案的问题,进一步提高了回答结果的准确率。

Description

一种基于词嵌入匹配技术的知识图谱问答方法及装置
技术领域
本发明涉及信息处理技术领域,尤其涉及一种基于词嵌入匹配技术的知识图谱问答方法及装置。
背景技术
随着互联网技术的发展,大规模网络数据资源的出现,人们希望从海量的互联网数据中准确、快速地获取有价值的信息,这推动了知识图谱问答系统被广泛的应用。知识图谱由google于2012年率先提出,其初衷是用以增强自家的搜索引擎的功能和提高搜索结果质量,使得用户无需通过点击多个连接就可以获取结构化的搜索结果,并且提供一定的推理功能,它把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来,揭示知识领域的动态发展规律,为学科研究提供切实的、有价值的参考。
但传统的基于知识图谱的问答系统,往往仅包含实体标注模块与关系抽取模块两部分。实体标注模块的主要作用是对现有问句进行序列标注任务对问句中的主实体进行标注,关系抽取模块则是通过对问句针对知识图谱数据中的关系类型进行分类,确定三元组的对应关系。传统的基于知识图谱的问答系统往往覆盖率低,且灵活性差,当数据波动较大时,往往不能获得很好的表现效果。同时,仅用实体标注模块来标注主实体会存在以下问题:当用户输入问题较复杂,或知识图谱数据库中存在重复名称的实体时,易出现实体标注错误,难以得到准确有效的答案。
发明内容
本发明实施方式的目的在于提供一种基于词嵌入匹配技术的知识图谱问答方法及装置,以解决上述技术问题中提出实体标注错误难以得到准确有效的答案的技术问题。
为解决上述问题,本发明实施方式提供一种基于词嵌入匹配技术的知识图谱问答方法,所述方法包括以下步骤:
获取用户输入的问句,对所述问句进行预处理;
将已预处理的问句送入实体标注模块,通过对所述问句特征进行提取并标注主实体;
将所述问句送入词嵌入匹配模块,基于知识图谱查询最优主实体;
将所述问句送入关系抽取模块,通过对所述问句特征提取获取相应的关系信息;
将查询到的最优主实体与相应的关系信息送入到客实体查询模块,在知识图谱数据库中进行客实体查询,找到对应的客实体;
根据查询到的最优主实体、关系信息和客实体,获取问句对应的答案。
优选地,所述实体标注模块对主实体标注的步骤为:
运用glove工具得到问句中每个词的词向量;
通过双向GRU模块和Attention机制来提取每个词的上下文表示特征;
通过softmax层得到每个词的标注结果,若该词是主实体,则标注为1,否则标注为0。
优选地,所述词嵌入匹配模块对最优主实体的查询步骤为:
运用glove工具得到问句中每个词的词向量;
通过双向GRU模块来提取整句的文本特征;
通过多层感知器MLP得到与知识图谱中实体表示学习维度相同的特征向量;
计算该特征向量与各个实体在知识图谱表示学习中向量的欧式距离;
选择距离最短的作为最优主实体。
优选地,所述关系抽取模块对关系信息获取的步骤为:
运用glove工具得到问句中每个词的词向量;
通过双向GRU模块来提取整句的文本特征;
通过多层感知器MLP得到与关系类别数量相同的特征向量;
通过softmax层,得到相应的关系信息。
为实现上述目的,本发明还提供一种基于词嵌入匹配技术的知识图谱问答装置,包括:
数据收集筛选模块,用于收集并筛选用户问句;
实体标注模块,用于对用户问句中的每个词进行标注,找寻主实体;
词嵌入匹配模块,用于基于知识图谱,计算用户问句中的实体名称相同向量的欧式距离,以确定最优主实体;
关系抽取模块,用于在知识图谱当中基于最优主实体,实现对问句关系的分类;
客实体查询模块,基于查询到的最优主实体和关系信息,找到对应的客实体。
与现有技术相比,本发明的有益效果是,本发明通过加入词嵌入匹配模块,运用神经网络模型来学习用户问句的整体嵌入表示,与知识图谱中的各个实体的表示特征进行欧式距离的计算,从而辅助主实体的选择,解决传统模型在实体标注错误难以出现准确有效的答案,有效地提高了回答结果的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施方式的基于嵌入匹配技术的知识图谱问答方法流程示意图;
图2为本发明实施方式的基于嵌入匹配技术的知识图谱问答方法的实体标注模块示意图;
图3为本发明实施方式的基于嵌入匹配技术的知识图谱问答方法的词嵌入匹配模块示意图;
图4为本发明实施方式的基于嵌入匹配技术的知识图谱问答方法的关系抽取模块示意图。
具体实施方式
为了使本领域技术人员更好地理解本发明的技术方案,下面结合附图对本发明进行详细描述,本部分的描述仅是示范性和解释性,不应对本发明的保护范围有任何的限制作用。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
此外,术语“水平”、“竖直”、“悬垂”等术语并不表示要求部件绝对水平或悬垂,而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平,并不是表示该结构一定要完全水平,而是可以稍微倾斜。
在本发明的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
参阅图1,本发明实施方式提供一种基于词嵌入匹配技术的知识图谱问答方法,该方法包括以下步骤:
获取用户输入的问句,对所述问句进行预处理;
将已预处理的问句送入实体标注模块,通过对所述问句特征进行提取并标注主实体;
将所述问句送入词嵌入匹配模块,基于知识图谱查询最优主实体;
将所述问句送入关系抽取模块,通过对所述问句特征提取获取相应的关系信息;
将查询到的最优主实体与相应的关系信息送入到客实体查询模块,在知识图谱数据库中进行客实体查询,找到对应的客实体;
根据查询到的最优主实体、关系信息和客实体,获取问句对应的答案。
本方案中可以采用网络爬虫技术获取用户输入的问句,对用户问句进行收集并构建用户问句数据集,并根据已有产品知识图谱数据库对用户所提的问题进行筛选,标注,若问题的答案在数据库中,则进行保留,若不在数据库中,则删除该问题。该数据集的总样本数量为N。每条样本包含一个问句Q={q1,…,qn}以及一组三元组[h,r,t]。从上述用户问句数据集中,随机选择80%*N个样本作为训练集,10%*N个样本作为验证集,10%*N个样本作为测试集,并分别对训练集、验证集、测试集进行预处理。问句的预处理包括对文本的分句、分词、正规化、清洗等,其目的是对已有的数据进行优化和扩充,通过去除问句Q′中的停止词以及特殊符号,得到预处理用户问句Q={q1,…,qn},用qt表示其中一个分词的结果,n是问句预处理后单词的个数。例如,用户问句Q′=“中国的首都是北京”,经过预处理之后,得到预处理的用户问句Q={<中国>,<的>,<首都>,<是>,<北京>},qt为其中一个<>。
参阅图2,本实施例中的实体标注模块对主实体标注步骤为:运用glove工具得到问句中每个词的词向量,并通过双向GRU模块和Attention机制来提取每个词的上下文表示特征,再通过softmax层得到每个词的标注结果,若该词是主实体,则标注为1,否则标注为0。
其中,glove是训练好的词嵌入模块,其功能是将在glove词表中的单词映射到对应向量之上,若不在词表中,则对该词进行随机初始化,其输入为用户问句中的的各个词Q={q1,…,qn},其输出为问句中每个词的对应词向量W={w1,…,wn},其中词向量的维度为300维,具体式子如下:
wt=gloυe(qt)
其中单词qt是用户问句Q={q1,…,qn}的第t个词,wt是单词qt的词向量。
同时,为更好地理解上下文环境并消除歧义,本实施方式中采用双向门控循环网络(双向GRU)模型来提取每个词的上下文表示特征ht,其隐藏层大小为300维,双向GRU网络(Gated Recurrent Unit Network,简称GRU,门控循环网络)是RNN网络的一种变体模型,其功能主要是学习词的上下文特征表示,双向GRU主要是由前后向两个GRU组成,两个GRU是一样的,只不过前向GRU的输入是从问句中各词的词向量W={w1,…,wn}的w1开始,从左往右,后向GRU是从W={w1,…,wn}的wn开始,从右往左。
前向GRU即GRU1,主要是学习当前词qt的以前时间步骤的上下文特征
Figure BDA0002427827040000061
从W={w1,…,wn}的w1开始,从左往右,其输入为问句中前一个词的上下文特征
Figure BDA0002427827040000062
和当前词qt的特征向量wt,输出为当前词qt的上下文特征
Figure BDA0002427827040000063
具体式子如下:
Figure BDA0002427827040000064
后向GRU即GRU2,主要是学习当前词qt的未来时间步骤的上下文特征
Figure BDA0002427827040000065
从W={w1,…,wn}的wn开始,从右往左,其输入为问句中后一个词的上下文特征
Figure BDA0002427827040000066
和当前词qt的特征向量wt,输出为当前词qt的上下文特征
Figure BDA0002427827040000067
具体式子如下:
Figure BDA0002427827040000068
最后将当前词的以前时间步骤的上下文特征
Figure BDA0002427827040000069
和未来时间步骤的上下文特征
Figure BDA00024278270400000610
通过拼接方式(其中“;”为拼接操作)合并成为当前词的上下文特征向量ht。具体式子如下:
Figure BDA00024278270400000611
其中,由于在日常中问句的名词在实体实体标注模型中的权重要高于问句中形容词的权重,在获得问句中各个单词的上下文特征H={h1,h2,h3...hn}之后,采用了Attention机制(注意力机制)来计算不同单词wt的权重αt,对其重要程度进行划分。具体公式如下:
Figure BDA00024278270400000612
Figure BDA00024278270400000613
其中ut是对应位置t的参数向量,zt是对应位置t的隐变量,αt是单词wt对应的权重“;”为拼接操作。
模型对词向量wt与每个词的上下文特征ht进行加权拼接,得到每个单词的加权特征向量υt
vt=wttht
其中,Softmax函数主要功能是对vt进行数值归一化,得到每个词的标注结果lt,若该词是实体,则标注为1,否则标注为0:
Figure BDA0002427827040000071
其中,vt是单词wt的加权特征向量,lt是单词wt的实体标注结果。
若问句qt中的词wt存在标注结果为1,则说明该问句存在实体,没有,则说明该问句不存在实体,标注结果为0。
当在实体标注模型中未找到当前问句的主实体,或者该主实体名称在知识图谱中重复出现了,则需要将当前问句送入词嵌入匹配模块进行精确寻找,若在实体标注模型该主实体名称未重复出现,则直接选该主实体作为最优主实体。
参阅图3,本实施例中的词嵌入匹配模块对最优主实体的查询步骤为:运用glove工具得到问句中每个词的词向量,并通过双向GRU模块来提取整句的文本特征,再通过多层感知器MLP得到与知识图谱中实体表示学习维度相同的特征向量,从而计算该特征向量与各个实体在知识图谱表示学习中向量的欧式距离,选择距离最短的作为最优主实体。
glove对问句中的每个词进行编码,实现对每个词的分布式表示,其输入为用户问句中的各个词Q={q1,…,qn},其输出为问句中每个词的对应词向量W={w1,…,wn},其中词向量的维度为300维,具体式子如下:
wt=glove(qt)
其中单词qt是用户问句Q={q1,…,qn}的第t个词,wt是单词qt的词向量。
通过双向GRU模型来提取整句的上下文文本特征,其隐藏层的大小为300维,双向GRU由前后向GRU构成。
前向GRU即GRU1,主要是学习整句的以前时间步骤的上下文特征
Figure BDA0002427827040000072
从句首开始,从左往右,其输入为当前词qt的特征向量wt和前一个词的上下文特征
Figure BDA0002427827040000073
输出为当前词qt的上下文特征
Figure BDA0002427827040000074
若当前词qt为问句Q中最后一个词的时候,其上下文特征
Figure BDA0002427827040000075
为整句的上下文特征
Figure BDA0002427827040000076
具体式子如下:
Figure BDA0002427827040000081
后向GRU即GRU2,主要是学习整句的未来时间步骤的上下文特征
Figure BDA0002427827040000082
从句尾开始,从右往左,其输入为当前词qt的特征向量wt和后一个词的上下文特征
Figure BDA0002427827040000083
输出为当前词qt的上下文特征
Figure BDA0002427827040000084
若当前词qt为问句Q中最后一个单词的时候,其上下文特征
Figure BDA0002427827040000085
为整句的上下文特征
Figure BDA0002427827040000086
具体式子如下:
Figure BDA0002427827040000087
最后将基于以前时间步骤的整句上下文特征
Figure BDA0002427827040000088
和基于未来时间步骤的整句上下文特征
Figure BDA0002427827040000089
进行拼接,合并成为整句的上下文特征hend,“;”为拼接操作,具体式子如下:
Figure BDA00024278270400000810
通过添加多个全连接层实现多层感知器MLP(Multilayer Perceptron),多层感知器MLP的功能主要实现特征向量的维度变换,其输入是问句的上下文特征hend,输出则为与知识图谱中实体表示学习维度相同的特征向量headend(维度为50维):
headend=MLP(hend)
模型将问句的最终上下文特征向量headend与各个实体在知识图谱表示学习中的特征向量进行欧式距离的计算,将欧式距离最短的实体作为最优主实体。
参阅图4,本实施例中关系抽取模型对关系信息获取的步骤为:运用glove工具得到问句中每个词的词向量,并通过双向GRU模块来提取整句的文本特征,再通过多层感知器MLP得到与关系类别数量相同的特征向量,再通过softmax层,得到相应的关系信息。
其中,glove对问句中的每个词进行编码,实现对每个词的分布式表示,其输入为用户问句中的各个词Q={q1,…,qn},其输出为问句中每个词的对应词向量W={w1,…,wn},其中词向量的维度为300维,具体式子如下:
wt=gloυe(qt)
其中单词qt是用户问句Q={q1,…,qn}的第t个词,wt是单词qt的词向量。
通过双向GRU模型来提取整句的上下文文本特征,其隐藏层的大小为300维。双向GRU由前后向GRU构成。
前向GRU即GRU1,主要是学习整句的以前时间步骤的上下文特征
Figure BDA0002427827040000091
从句首开始,从左往右,其输入为当前词qt的特征向量wt和前一个词的上下文特征
Figure BDA0002427827040000092
输出为当前词qt的上下文特征
Figure BDA0002427827040000093
若当前词qt为问句Q中最后一个词的时候,其上下文特征
Figure BDA0002427827040000094
为整句的上下文特征
Figure BDA0002427827040000095
具体式子如下:
Figure BDA0002427827040000096
后向GRU即GRU2,主要是学习整句的未来时间步骤的上下文特征
Figure BDA0002427827040000097
从句尾开始,从右往左,其输入为当前词qt的特征向量wt和后一个词的上下文特征
Figure BDA0002427827040000098
输出为当前词qt的上下文特征
Figure BDA0002427827040000099
若当前词qt为问句Q中最后一个单词的时候,其上下文特征
Figure BDA00024278270400000910
为整句的上下文特征
Figure BDA00024278270400000911
具体式子如下:
Figure BDA00024278270400000912
最后将基于以前时间步骤的整句上下文特征
Figure BDA00024278270400000913
和基于未来时间步骤的整句上下文特征
Figure BDA00024278270400000914
进行拼接,合并成为整句的上下文特征hend,“;”为拼接操作,具体式子如下:
Figure BDA00024278270400000915
多层感知器MLP的功能主要实现特征向量的维度变换,在本模型中,多层感知器MLP的输入是问句的上下文特征hend,输出为与关系类别数量相同维度的特征向量
Figure BDA00024278270400000918
(输出维度为30维):
Figure BDA00024278270400000916
通过Softmax多分类函数判断问句关系分类结果
Figure BDA00024278270400000917
可见,本发明通过加入词嵌入匹配模块,运用神经网络模型来学习用户问句的整体嵌入表示,与知识图谱中的各个实体的表示特征进行欧式距离的计算,从而辅助主实体的选择,解决传统模型在实体标注错误难以出现准确有效的答案,有效地提高了回答结果的准确率。
本发明的实施例中还提供了一种基于词嵌入匹配技术的知识图谱问答装置,其包括:
数据收集筛选模块,用于收集并筛选用户问句;
实体标注模块,用于对用户问句中的每个词进行标注,找寻主实体;
词嵌入匹配模块,用于基于知识图谱,计算用户问句中的实体名称相同向量的欧式距离,以确定最优主实体;
关系抽取模块,用于在知识图谱当中基于最优主实体,实现对问句关系的分类;
客实体查询模块,基于查询到的最优主实体和关系信息,找到对应的客实体。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实例的说明只是用于帮助理解本发明的方法及其核心思想。以上仅是本发明的优选实施方式,应当指出,由于文字表达的有限性,而客观上存在无限的具体结构,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进、润饰或变化,也可以将上述技术特征以适当的方式进行组合;这些改进润饰、变化或组合,或未经改进将发明的构思和技术方案直接应用于其它场合的,均应视为本发明的保护范围。

Claims (5)

1.一种基于词嵌入匹配技术的知识图谱问答方法,其特征在于,所述方法包括以下步骤:
获取用户输入的问句,对所述问句进行预处理;
将已预处理的问句送入实体标注模块,通过对所述问句特征进行提取并标注主实体;
将所述问句送入词嵌入匹配模块,基于知识图谱查询最优主实体;
将所述问句送入关系抽取模块,通过对所述问句特征提取获取相应的关系信息;
将查询到的最优主实体与相应的关系信息送入到客实体查询模块,在知识图谱数据库中进行客实体查询,找到对应的客实体;
根据查询到的最优主实体、关系信息以及客实体,获取问句对应的答案。
2.根据权利要求1所述的基于词嵌入匹配技术的知识图谱问答方法,其特征在于,所述实体标注模块对主实体标注的步骤为:
运用glove工具得到问句中每个词的词向量;
通过双向GRU模块和Attention机制来提取每个词的上下文表示特征;
通过softmax层得到每个词的标注结果,若该词是主实体,则标注为1,否则标注为0。
3.根据权利要求1所述的基于词嵌入匹配技术的知识图谱问答方法,其特征在于,所述词嵌入匹配模块对最优主实体的查询步骤为:
运用glove工具得到问句中每个词的词向量;
通过双向GRU模块来提取整句的文本特征;
通过多层感知器MLP得到与知识图谱中实体表示学习维度相同的特征向量;
计算该特征向量与各个实体在知识图谱表示学习中向量的欧式距离;
选择距离最短的作为最优主实体。
4.根据权利要求1所述的基于词嵌入匹配技术的知识图谱问答方法,其特征在于,所述关系抽取模块对关系信息获取的步骤为:
运用glove工具得到问句中每个词的词向量;
通过双向GRU模块来提取整句的文本特征;
通过多层感知器MLP得到与关系类别数量相同的特征向量;
通过softmax层,得到相应的关系信息。
5.一种基于词嵌入匹配技术的知识图谱问答装置,其特征在于,包括:
数据收集筛选模块,用于收集并筛选用户问句;
实体标注模块,用于对用户问句中的每个词进行标注,查询主实体;
词嵌入匹配模块,基于知识图谱,计算用户问句中的实体名称相同向量的欧式距离,以确定最优主实体;
关系抽取模块,用于在知识图谱当中基于最优主实体,实现对问句关系的分类;
客实体查询模块,基于查询到的最优主实体和关系信息,找到对应的客实体。
CN202010222744.3A 2020-03-27 2020-03-27 一种基于词嵌入匹配技术的知识图谱问答方法及装置 Pending CN111400478A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010222744.3A CN111400478A (zh) 2020-03-27 2020-03-27 一种基于词嵌入匹配技术的知识图谱问答方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010222744.3A CN111400478A (zh) 2020-03-27 2020-03-27 一种基于词嵌入匹配技术的知识图谱问答方法及装置

Publications (1)

Publication Number Publication Date
CN111400478A true CN111400478A (zh) 2020-07-10

Family

ID=71432874

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010222744.3A Pending CN111400478A (zh) 2020-03-27 2020-03-27 一种基于词嵌入匹配技术的知识图谱问答方法及装置

Country Status (1)

Country Link
CN (1) CN111400478A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111950297A (zh) * 2020-08-26 2020-11-17 桂林电子科技大学 一种面向异常事件的关系抽取方法
CN112765312A (zh) * 2020-12-31 2021-05-07 湖南大学 一种基于图神经网络嵌入匹配的知识图谱问答方法和系统
CN113032545A (zh) * 2021-05-29 2021-06-25 成都晓多科技有限公司 基于无监督对话预训练的对话理解与答案配置方法及系统
CN113111644A (zh) * 2021-04-22 2021-07-13 上海云从企业发展有限公司 文本识别方法、装置及计算机存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111950297A (zh) * 2020-08-26 2020-11-17 桂林电子科技大学 一种面向异常事件的关系抽取方法
CN112765312A (zh) * 2020-12-31 2021-05-07 湖南大学 一种基于图神经网络嵌入匹配的知识图谱问答方法和系统
CN112765312B (zh) * 2020-12-31 2022-05-10 湖南大学 一种基于图神经网络嵌入匹配的知识图谱问答方法和系统
CN113111644A (zh) * 2021-04-22 2021-07-13 上海云从企业发展有限公司 文本识别方法、装置及计算机存储介质
CN113032545A (zh) * 2021-05-29 2021-06-25 成都晓多科技有限公司 基于无监督对话预训练的对话理解与答案配置方法及系统

Similar Documents

Publication Publication Date Title
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN111400478A (zh) 一种基于词嵌入匹配技术的知识图谱问答方法及装置
CN109635279B (zh) 一种基于神经网络的中文命名实体识别方法
CN108804612B (zh) 一种基于对偶神经网络模型的文本情感分类方法
CN111708888B (zh) 基于人工智能的分类方法、装置、终端和存储介质
CN110298043B (zh) 一种车辆命名实体识别方法及系统
CN111563149B (zh) 一种用于中文知识图谱问答系统的实体链接方法
CN106649715A (zh) 一种基于局部敏感哈希算法和神经网络的跨媒体检索方法
CN112115238A (zh) 一种基于bert和知识库的问答方法和系统
CN107169485A (zh) 一种数学公式识别方法和装置
CN112149420A (zh) 实体识别模型训练方法、威胁情报实体提取方法及装置
CN111400455A (zh) 基于知识图谱的问答系统的关系检测方法
CN110046356B (zh) 标签嵌入的微博文本情绪多标签分类方法
CN109918649B (zh) 一种基于微博文本的自杀风险识别方法
CN112749562A (zh) 命名实体识别方法、装置、存储介质及电子设备
CN114461836A (zh) 一种用于图像-文本的跨模态检索方法
KR20200010672A (ko) 딥러닝을 이용한 스마트 상품 검색 방법 및 시스템
CN110825998A (zh) 一种网站识别方法及可读存储介质
CN110580339A (zh) 一种医疗术语知识库完善的方法和装置
CN110705384B (zh) 一种基于跨域迁移增强表示的车辆再识别方法
CN113157867A (zh) 一种问答方法、装置、电子设备及存储介质
CN116451114A (zh) 基于企业多源实体特征信息的物联网企业分类系统及方法
CN114626454A (zh) 一种融合自监督学习和注意力机制的视觉情感识别方法
CN112711693A (zh) 一种基于多特征融合的诉讼线索挖掘方法及系统
CN114356990A (zh) 基于迁移学习的基地命名实体识别系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200710