CN115577091A - 基于知识图谱的复杂条件问题作答方法及系统 - Google Patents

基于知识图谱的复杂条件问题作答方法及系统 Download PDF

Info

Publication number
CN115577091A
CN115577091A CN202211570904.9A CN202211570904A CN115577091A CN 115577091 A CN115577091 A CN 115577091A CN 202211570904 A CN202211570904 A CN 202211570904A CN 115577091 A CN115577091 A CN 115577091A
Authority
CN
China
Prior art keywords
entity
attribute
question
word
hidden state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211570904.9A
Other languages
English (en)
Inventor
江岭
王思宇
黄鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Xiaoduo Technology Co ltd
Original Assignee
Chengdu Xiaoduo Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Xiaoduo Technology Co ltd filed Critical Chengdu Xiaoduo Technology Co ltd
Priority to CN202211570904.9A priority Critical patent/CN115577091A/zh
Publication of CN115577091A publication Critical patent/CN115577091A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Abstract

本发明公开了一种基于知识图谱的复杂条件问题作答方法及系统,该方法包括:构建知识图谱;提取问题语句中的实体,将实体进行分类;识别问题语句中的属性并将识别到的属性映射到知识图谱中相同性质的属性上;根据问题语句的实体、属性从知识图谱中推理出相应的属性值从而获得问题语句的答案;若问题语句中的属性不存在于知识图谱中,则将该属性加入知识图谱。本发明通过问题语句对多实体提取分类,并对属性进行识别映射,通过推理确定实体间的属性关系,从而确保作答结果的准确性。尤其是针对具有多个实体条件的复杂问题,大大提高了作答的覆盖率、复杂性和灵活性。

Description

基于知识图谱的复杂条件问题作答方法及系统
技术领域
本发明属于人工智能问答技术领域,尤其涉及一种利用人工智能神经网络以及知识图谱进行问题答复的方法和系统。
背景技术
一般来讲知识图谱是由(实体,属性,属性值)或者(实体,属性,实体)这样的三元组构成。目前,大多数问答系统都致力于解决单条件(实体)的问题,单个条件问答比较好处理,回答的效果也比较好。但现实生活中有太多复杂的问题,这些问题会附加较多的条件,现有的问答系统在处理该类复杂问题时精准度却较低,不能给予提问者满意的答案。
发明内容
有鉴于此,本发明提供一种基于知识图谱的复杂条件问题作答方法及系统,针对问题语句中具有两个或者两个以上的实体条件进行高精度的作答。
为解决以上技术问题,本发明的技术方案为采用一种基于知识图谱的复杂条件问题作答方法,包括:
构建知识图谱,所述知识图谱包括若干实体,每个实体包括若干属性以及所述属性的属性值,并且有属性关系的实体之间相互链接;
提取问题语句中的实体,将实体进行分类;
识别问题语句中的属性并将识别到的属性映射到知识图谱中相同性质的属性上;
根据问题语句的实体、属性从知识图谱中推理出相应的属性值从而获得问题语句的答案;
若问题语句中的属性不存在于知识图谱中,则将该属性加入知识图谱。
作为一种改进,所述将问题语句中的实体进行标注,并对实体进行分类的方法包括:
获取问题语句中每个词的词向量并进行排序;
通过排序后的词向量获取每个词的正向隐状态和反向隐状态;
将每个词的正向隐状态和反向隐状态拼合成该词的双向隐状态;
利用词的双向隐状态预测该词为某种实体类型的概率;
利用各个词为某种实体类型的概率以及各个词转移到下一个词的转移评分预测该问题语句中实体的序列为某种序列的概率。
作为一种进一步的改进,获取问题语句中实体的序列为某种序列的概率后,通过最大化正确实体序列的似然函数对模型进行优化。
作为另一种更进一步的改进,所述识别问题语句中的属性并将识别到的属性映射到知识图谱中相同性质的属性上的方法包括:
获取问题语句每个词的特征向量;
把上一时间步的隐状态和当前时间步的特征向量转换为当前时间步的隐状态;
将问题语句中所有词的隐状态拼合成问题语句的上下文变量;
通过上一时间步的属性预测值、上一时间步的预测值隐状态、问题语句的上下文变量获取当前时间步隐状态;
通过当前时间步隐状态预测当前时间步的属性预测值。
作为一种改进, 利用当前时间步的属性预测值与当前时间步属性真实值进行对比,从而对模型进行优化。
作为一种改进,所述从知识图谱中推理出相应的属性值的方法包括:
从知识图谱中找出问题语句中实体、属性;
若问题语句中的实体为单一实体,且所述属性属于该实体或者所述属性不属于该实体但与该实体的属性具有相同性质时,则将该属性的属性值作为答案的基础;
若问题语句中的实体为两个或两个以上,且所述属性属于该实体或者所述属性不属于该实体但与其中一个实体N的属性M具有相同性质时,进行推理:若实体I与实体II之间存在属性关系,若实体II与实体III之间存在属性关系,以此类推直到若实体N-1与实体N之间存在属性关系,则实体N与实体I之间也存在属性关系;若上述推理成立,则将实体N的属性M对应的属性值赋予该属性作为答案的基础。
本发明还提供一种基于知识图谱的复杂条件问题作答系统,其特征在于包括:
知识图谱构建模块,用于构建知识图谱,所述知识图谱包括若干实体,每个实体包括若干属性以及所述属性的属性值,并且有属性关系的实体之间相互链接;
实体提取模块,用于提取问题语句中的实体,将实体进行分类;
属性识别模块,用于识别问题语句中的属性并将识别到的属性映射到知识图谱中相同性质的属性上;
推理模块,根据问题语句的实体、属性从知识图谱中推理出相应的属性值从而获得问题语句的答案;
添加模块,用于当问题语句中的属性不存在于知识图谱中,将该属性加入知识图谱。
作为一种改进,所述实体提取模块包括:
实体类型预测模块,用于获取问题语句中每个词的词向量并进行排序;通过排序后的词向量获取每个词的正向隐状态和反向隐状态;将每个词的正向隐状态和反向隐状态拼合成该词的双向隐状态;利用词的双向隐状态预测该词为某种实体类型的概率;
实体序列预测模块,用于利用各个词为某种实体类型的概率以及各个词转移到下一个词的转移评分预测该问题语句中实体的序列为某种序列的概率。
作为一种改进,所述属性识别模块包括:
上下文变量获取模块,用于获取问题语句每个词的特征向量;把上一时间步的隐状态和当前时间步的特征向量转换为当前时间步的隐状态;将问题语句中所有词的隐状态拼合成问题语句的上下文变量;
隐状态获取模块,用于通过上一时间步的属性预测值、上一时间步的预测值隐状态、问题语句的上下文变量获取当前时间步隐状态;
属性值预测模块,用于通过当前时间步隐状态预测当前时间步的属性预测值。
作为一种改进,所述推理模块包括:
查找模块,用于从知识图谱中找出问题语句中实体、属性及属性值;
作答模块,用于当问题语句中的实体为单一实体,且所述属性属于该实体或者所述属性不属于该实体但与该实体的属性具有相同性质时,则将该属性的属性值作为答案的基础;
用于当问题语句中的实体为两个或两个以上,且所述属性属于该实体或者所述属性不属于该实体但与其中一个实体N的属性M具有相同性质时,进行推理:若实体I与实体II之间存在属性关系,若实体II与实体III之间存在属性关系,以此类推直到若实体N-1与实体N之间存在属性关系,则实体N与实体I之间也存在属性关系;若上述推理成立,则将实体N的属性M对应的属性值赋予该属性作为答案的基础。
本发明的有益之处在于:
本发明通过问题语句对多实体的提取分类,并对属性进行识别映射,通过推理确定实体间的属性关系,从而确保作答结果的准确性。尤其是针对具有多个实体条件的复杂问题,大大提高了作答的覆盖率、复杂性和灵活性。
附图说明
图1为本发明的流程图。
图2为高考问答知识图谱的简单模型。
图3为本发明的结构原理图。
具体实施方式
为了使本领域的技术人员更好地理解本发明的技术方案,下面结合具体实施方式对本发明作进一步的详细说明。
一般的知识图谱的三元组合一般包括(实体,属性,实体)例如(姚明,国际,中国),或者(实体,属性,属性值)例如(姚明,身高,226cm)。在问题语句里,实体也称为条件。对于单条件的问题,现有的知识图谱问答系统能够很好的处理。例如“姚明有多高”,系统可轻易的根据知识图谱中(姚明,身高,226cm)这个三元组合找到答案。同样如果问“姚明是哪个国家的人”,也可以从(姚明,国际,中国)中找到答案。但对于问题语句中有多个条件的情况例如“电子科技大学好不好啊,它的电子信息工程专业前景怎么样啊”。该问题涉及2个条件(实体):{机构:电子科技大学}和{专业:电子信息工程},以及1个问题(属性)前景怎么样。由于同时具有两个条件,却只有一个属性,使得现有的问答系统答复时不能做出正确的选择。
为了解决这个问题,如图1所示,本发明提供一种基于知识图谱的复杂条件问题作答方法,包括以下步骤:
S1构建知识图谱,所述知识图谱包括若干实体,每个实体包括若干属性以及所述属性的属性值,并且有属性关系的实体之间相互链接。
图2为一个高考问答知识图谱的简单模型,包括两个三元组合:两个实体“电子科技大学”和“电子信息工程系”,每个实体包括若干属性如“全国排名”、“就业率”等,每个属性有对应的属性值如“23”、“90%”等。另外两个实体之间还存在属性关系“专业”。当然,真实的知识图谱比上述模型复杂、丰富得多。
S2提取问题语句中的实体,将实体进行分类。
本发明中为了提高作答的准确率,问答系统一般是分领域的。因此实体类型也需要根据问答领域进行预定义。例如对于复杂问题“电子科技大学好不好啊,它的电子信息工程专业前景怎么样啊”,其属于高考问答领域。因此实体类型可预定义为{学校名称(
Figure DEST_PATH_IMAGE001
):电子科技大学}、{专业(
Figure DEST_PATH_IMAGE002
):电子信息工程},如果需要甚至还有{生源地(
Figure DEST_PATH_IMAGE003
):四川省}、{科类(
Figure DEST_PATH_IMAGE004
):理科}{录取批次(
Figure DEST_PATH_IMAGE005
):提前批}等等。
本发明中中文命名实体识别(NER)看成是条件识别任务,目的是提取出问题中的单个实体或多个实体。本发明采用深度学习的方法,使用Bi-LSTM-CRF(双向长短记忆条件随机场)模型来开展任务。整个网络分为四层,输入层、Bi-LSTM、CRF和输出层。
S21获取问题语句中每个词的词向量并进行排序。
假设问题语句
Figure DEST_PATH_IMAGE006
包含
Figure DEST_PATH_IMAGE007
个单词,
Figure DEST_PATH_IMAGE008
,使用Word Embedding得到每个单词的词向量,并按照先后顺序排序,得到文本序列
Figure DEST_PATH_IMAGE009
S22通过排序后的词向量获取每个词的正向隐状态和反向隐状态。
把步骤S21中获得文本序列
Figure DEST_PATH_IMAGE010
从正反两个方向输入Bi-LSTM层,得到每个词的正向隐状态和反向隐状态,具体为:
利用公式
Figure DEST_PATH_IMAGE011
获得正向隐状态。
利用公式
Figure DEST_PATH_IMAGE012
获得反向隐状态,其中,
Figure DEST_PATH_IMAGE014
为正向隐状态,
Figure DEST_PATH_IMAGE016
为反向隐状态,
Figure DEST_PATH_IMAGE017
为输入单词在当前时间步
Figure DEST_PATH_IMAGE019
的向量,
Figure DEST_PATH_IMAGE020
为输入单词在上一时间步t-1的隐状态,
Figure DEST_PATH_IMAGE021
是输入单词在后一时间步t+1的隐状态。
S23将每个词的正向隐状态和反向隐状态拼合成该词的双向隐状态,具体为利用公式
Figure DEST_PATH_IMAGE023
进行拼合,其中ht为当前时间步的双向隐状态,
Figure DEST_PATH_IMAGE025
为当前时间步的正向隐状态,
Figure DEST_PATH_IMAGE027
为当前时间步的反向隐状态。
S24利用词的双向隐状态预测该词为某种实体类型的概率。
最终,LSTM层能够出单词为某种实体类型的概率矩阵
Figure DEST_PATH_IMAGE028
用以表示该词为某种实体类型的概率,其中
Figure DEST_PATH_IMAGE029
为序列长度,
Figure DEST_PATH_IMAGE030
为实体类型总数,
Figure DEST_PATH_IMAGE031
为第
Figure DEST_PATH_IMAGE032
个词的第
Figure DEST_PATH_IMAGE033
个实体类型的概率。概率矩阵通过公式
Figure DEST_PATH_IMAGE034
获得,其中pt为时间步t的概率矩阵,W为实体类型概率权重矩阵,ht为当前时间步t的双向隐状态。
LSTM能够将问题语句中的实体提取出来并标注出实体类型。例如在理想情况下,对于问题语句“电子科技大学好不好啊,它的电子信息工程专业前景怎么样啊”,通过LSTM就能将“电子科技大学”以及“电子信息工程系”标注出来,并在“电子科技大学”上打上“学校名称”的标签,而在“电子信息工程系”上打上“专业”的标签。
S25利用各个词为某种实体类型的概率以及各个词转移到下一个词的转移评分预测该问题语句中实体的序列为某种序列的概率。
然而LSTM在进行预测时没有考虑上一时间步的输出,而预测实体的顺序并非条件独立的,前一时间步的输出会直接影响到下一时间步的输出。因此LSTM输出的结果可能与实际情况不符。
因此,本发明引入CRF。首先定义得分函数
Figure DEST_PATH_IMAGE035
其中,
Figure DEST_PATH_IMAGE036
为得分函数;
Figure DEST_PATH_IMAGE037
为转移矩阵,其为模型的参数。
Figure DEST_PATH_IMAGE038
为实体
Figure DEST_PATH_IMAGE039
转移到
Figure DEST_PATH_IMAGE040
的转移评分。
Figure DEST_PATH_IMAGE041
为第
Figure 99255DEST_PATH_IMAGE032
个词的第
Figure 813133DEST_PATH_IMAGE033
个实体类型的概率,其来自于LSTM输出。
通过公式
Figure DEST_PATH_IMAGE042
预测实体的序列X为序列
Figure DEST_PATH_IMAGE043
的概率,其中
Figure DEST_PATH_IMAGE044
为输入的序列X为序列y的概率。
Figure DEST_PATH_IMAGE045
为单个预测实体的概率,由softmax函数获得,
Figure DEST_PATH_IMAGE046
为所有可能的实体序列。
S26获取问题语句中实体的序列为某种序列的概率后,通过最大化正确实体序列的似然函数对模型进行优化,所述似然函数为:
Figure DEST_PATH_IMAGE047
其中,
Figure DEST_PATH_IMAGE048
为真实值的得分函数,
Figure DEST_PATH_IMAGE049
为预测值的得分函数。=将问题语句输入训练优化后的模型,模型就会自动标识出问题语句中所涉及的实体及实体类型。
S3识别问题语句中的属性并将识别到的属性映射到知识图谱中相同性质的属性上。
本发明中,通过seq2seq模型把问题中的属性提取出来以便下一步的操作。该模型架构分为两部分,编码器和解码器。
所述编码器包括:
S31获取问题语句每个词的特征向量;
编码器由嵌入层和循环神经网络组成。假设文本序列也就是问题语句
Figure DEST_PATH_IMAGE050
包含
Figure DEST_PATH_IMAGE051
个单词,分别输入嵌入层后得到每个单词的特征向量
Figure DEST_PATH_IMAGE052
,例如
Figure DEST_PATH_IMAGE053
是输入文本序列中的第
Figure DEST_PATH_IMAGE054
个词元的特征向量。
S32把上一时间步的隐状态和当前时间步的特征向量转换为当前时间步的隐状态。
获得特征向量后,接着把每个特征向量输入循环神经网络(RNN),该层可以把上一时间步的隐状态
Figure DEST_PATH_IMAGE055
Figure DEST_PATH_IMAGE056
转换为当前时间步的隐状态
Figure DEST_PATH_IMAGE057
(其与步骤2中的隐状态
Figure DEST_PATH_IMAGE058
不同),具体公式为:
Figure DEST_PATH_IMAGE059
其中,
Figure 285878DEST_PATH_IMAGE057
为当前时间步的状态,
Figure DEST_PATH_IMAGE060
为当前时间步的特征向量,
Figure 8984DEST_PATH_IMAGE055
为上一时间步的隐状态。
S33将问题语句中所有词的隐状态拼合成问题语句的上下文变量,具体为利用公式
Figure DEST_PATH_IMAGE061
进行拼合,其中C为上下文变量,
Figure DEST_PATH_IMAGE062
为时间步1~t的隐状态。
所述解码器包括:
S33通过上一时间步的属性预测值、上一时间步的预测值隐状态、问题语句的上下文变量获取当前时间步隐状态。
假设预测的属性数据为
Figure DEST_PATH_IMAGE063
,把上一时间步的预测值及其隐状态、编码器的上下文变量输入嵌入层和RNN中得到当前时间步的隐状态
Figure DEST_PATH_IMAGE064
,具体如下:
Figure DEST_PATH_IMAGE065
其中,
Figure DEST_PATH_IMAGE066
为当前步的隐状态,
Figure DEST_PATH_IMAGE067
为特征函数,
Figure DEST_PATH_IMAGE068
为上一时间步的预测值,
Figure DEST_PATH_IMAGE070
为编码器的上下文变量,
Figure DEST_PATH_IMAGE071
为预测值在上一时间步的隐状态。
S34通过当前时间步隐状态预测当前时间步的属性预测值。
得到预测值的隐状态后就可以输入全链层,使用softmax函数得到当前时间步的属性预测值
Figure DEST_PATH_IMAGE072
,具体如下:
Figure DEST_PATH_IMAGE073
其中,
Figure 872291DEST_PATH_IMAGE072
为前时间步的属性预测值,st当前时间步的隐状态,
Figure DEST_PATH_IMAGE074
为属性预测权重矩阵,
Figure DEST_PATH_IMAGE075
为偏置。
S35利用当前时间步的属性预测值与当前时间步属性真实值进行对比,从而对模型进行优化,优化函数为:
Figure DEST_PATH_IMAGE076
其中,
Figure 84967DEST_PATH_IMAGE072
为前时间步的属性预测值,
Figure DEST_PATH_IMAGE077
为前时间步的属性真实值,
Figure DEST_PATH_IMAGE078
为损失函数。
将问题语句输入训练优化后的模型,模型会自动识别出问题语句中所涉及的属性并进行映射。例如“电子科技大学好不好啊,它的电子信息工程专业前景怎么样啊”经过模型后属性“前景”被识别出来。
S4根据问题语句的实体、属性从知识图谱中推理出相应的属性值从而获得问题语句的答案,具体步骤包括:
S41从知识图谱中找出问题语句中实体、属性。
构建好的知识图谱是一个由大量<实体,属性,属性值>三元组组成的知识库,某些三元组之间的实体还存在属性关系,如图2所示的简单知识图谱模型。
同样以问题语句“电子科技大学好不好啊,它的电子信息工程专业前景怎么样啊”为例,经过步骤2步骤3已经将实体“电子科技大学”、“电子信息工程系”,属性“前景”识别出来,因此只需要在知识图谱中查找即可。
S42若问题语句中的实体为单一实体,且所述属性属于该实体或者所述属性不属于该实体但与该实体的属性具有相同性质时,则将该属性的属性值作为答案的基础。
假如问题语句是一种简单问题如“请问电子科技大学的全国排名是多少”。该问题语句中实体只有一个“电子科技大学”,而属性“全国排名”也与该实体直联。此时只需将属性对应的属性值“23”作为答案反馈即可。
假如问题语句是“电子信息工程专业前景如何”该问题语句中实体只有一个“电子信息工程专业”,而属性“前景”虽然不与实体直联,但“前景”与“就业率”具有相同性质,同样就就业率的属性值90%作为答案的基础。
所谓答案基础是答复的基本逻辑而并不一定就是答案本身,还需要进行话术配置。关于话术配置在步骤S43中会详细描述,此处不再赘述。
S43若问题语句中的实体为两个或两个以上,且所述属性属于该实体或者所述属性不属于该实体但与其中一个实体N的属性M具有相同性质时,进行推理:若实体I与实体II之间存在属性关系,若实体II与实体III之间存在属性关系,以此类推直到若实体N-1与实体N之间存在属性关系,则实体N与实体I之间也存在属性关系;若上述推理成立,则将实体N的属性M对应的属性值赋予该属性作为答案的基础。
相较于简单问题,复杂问题中的实体(条件)比较多。例如问题语句“电子科技大学好不好啊,它的电子信息工程专业前景怎么样啊”中实体就有“电子科技大学”、“电子信息工程系”两个。而问题语句中属性(问题)只有一个“前景”映射到“就业率”与“电子信息工程系”直联。因此需要验证“就业率”的属性值“90%”是否与实体(条件)“电子科技大学”相关,如果不相关,则有可能出现答非所问的情况。验证过程如下:
假设每一个存在于知识图谱中的三元组<实体,属性,属性值>中实体用e表示,属性值用v表示,实体与实体之间的关系用r表示,假如实体I和实体II之间有属性关系即r1(e1,e2)、实体II与属性值II有属性关系即r2(e2,v2),那么可以推导出属性值II与实体I之间也一定有某种属性关系即r3(e1,v2),推导公式为
Figure DEST_PATH_IMAGE079
可以此类推。
此时由于实体III与实体I之间存在属性关系,那么本来属于实体II的属性的属性值也与实体I相关。
证明了“电子科技大学”、“电子信息工程系”、属性值“90%”相关性后,“电子信息工程系”的属性“就业率”的属性值“90%”可作为实体“电子科技大学”的答案。
由于问题语句中出现了“好不好”,因此回答的时候不能直接将“就业率”90%作为答案,需要进行话术配置。即将就业率90%与阈值相比,高于阈值则为好,低于阈值则为不好。
整个推理过程简单来讲就是:如果电子信息工程系的就业率90%超过阈值,那么电子科技大学就好,用公式表示则为:
专业(电子科技大学,电子信息工程系)∪就业率(电子信息工程系,90%)∪greatThan(90%,阈值)→前景(电子科技大,好)。
S5若问题语句中的属性不存在于知识图谱中,在推理成立后将该属性加入知识图谱中。
推理完成后,知识图谱会产生新的属性“前景”直连于实体“电子科技大”,其属性值为“好”,从而进一步丰富知识图谱。
如图3所示,本发明提供一种基于知识图谱的复杂条件问题作答系统,其特征在于包括:
知识图谱构建模块,用于构建知识图谱,所述知识图谱包括若干实体,每个实体包括若干属性以及所述属性的属性值,并且有属性关系的实体之间相互链接。
实体提取模块,用于提取问题语句中的实体,将实体进行分类。
属性识别模块,用于识别问题语句中的属性并将识别到的属性映射到知识图谱中相同性质的属性上。
推理模块,根据问题语句的实体、属性从知识图谱中推理出相应的属性值从而获得问题语句的答案。
添加模块,用于当问题语句中的属性不存在于知识图谱中,将该属性加入知识图谱。
所述实体提取模块具体包括:
实体类型预测模块,用于获取问题语句中每个词的词向量并进行排序;通过排序后的词向量获取每个词的正向隐状态和反向隐状态;将每个词的正向隐状态和反向隐状态拼合成该词的双向隐状态;利用词的双向隐状态预测该词为某种实体类型的概率;
实体序列预测模块,用于利用各个词为某种实体类型的概率以及各个词转移到下一个词的转移评分预测该问题语句中实体的序列为某种序列的概率。
所述属性识别模块具体包括:
上下文变量获取模块,用于获取问题语句每个词的特征向量;把上一时间步的隐状态和当前时间步的特征向量转换为当前时间步的隐状态;将问题语句中所有词的隐状态拼合成问题语句的上下文变量;
隐状态获取模块,用于通过上一时间步的属性预测值、上一时间步的预测值隐状态、问题语句的上下文变量获取当前时间步隐状态;
属性值预测模块,用于通过当前时间步隐状态预测当前时间步的属性预测值。
所述推理模块具体包括:
查找模块,用于从知识图谱中找出问题语句中实体、属性及属性值;
作答模块,用于当问题语句中的实体为单一实体,且所述属性属于该实体或者所述属性不属于该实体但与该实体的属性具有相同性质时,则将该属性的属性值作为答案的基础;
用于当问题语句中的实体为两个或两个以上,且所述属性属于该实体或者所述属性不属于该实体但与其中一个实体N的属性M具有相同性质时,进行推理:若实体I与实体II之间存在属性关系,若实体II与实体III之间存在属性关系,以此类推直到若实体N-1与实体N之间存在属性关系,则实体N与实体I之间也存在属性关系;若上述推理成立,则将实体N的属性M对应的属性值赋予该属性作为答案的基础。
以上仅是本发明的优选实施方式,应当指出的是,上述优选实施方式不应视为对本发明的限制,本发明的保护范围应当以权利要求所限定的范围为准。对于本技术领域的普通技术人员来说,在不脱离本发明的精神和范围内,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种基于知识图谱的复杂条件问题作答方法,其特征在于包括:
构建知识图谱,所述知识图谱包括若干实体,每个实体包括若干属性以及所述属性的属性值,并且有属性关系的实体之间相互链接;
提取问题语句中的实体,将实体进行分类;
识别问题语句中的属性并将识别到的属性映射到知识图谱中相同性质的属性上;
根据问题语句的实体、属性从知识图谱中推理出相应的属性值从而获得问题语句的答案;
若问题语句中的属性不存在于知识图谱中,则将该属性加入知识图谱。
2.根据权利要求1所述的一种基于知识图谱的复杂条件问题作答方法,其特征在于所述提取问题语句中的实体,将实体进行分类的方法包括:
获取问题语句中每个词的词向量并进行排序;
通过排序后的词向量获取每个词的正向隐状态和反向隐状态;
将每个词的正向隐状态和反向隐状态拼合成该词的双向隐状态;
利用词的双向隐状态预测该词为某种实体类型的概率;
利用各个词为某种实体类型的概率以及各个词转移到下一个词的转移评分预测该问题语句中实体的序列为某种序列的概率。
3.根据权利要求2所述的一种基于知识图谱的复杂条件问题作答方法,其特征在于:获取问题语句中实体的序列为某种序列的概率后,通过最大化正确实体序列的似然函数对模型进行优化。
4.根据权利要求1所述的一种基于知识图谱的复杂条件问题作答方法,其特征在于所述识别问题语句中的属性并将识别到的属性映射到知识图谱中相同性质的属性上的方法包括:
获取问题语句每个词的特征向量;
把上一时间步的隐状态和当前时间步的特征向量转换为当前时间步的隐状态;
将问题语句中所有词的隐状态拼合成问题语句的上下文变量;
通过上一时间步的属性预测值、上一时间步的预测值隐状态、问题语句的上下文变量获取当前时间步隐状态;
通过当前时间步隐状态预测当前时间步的属性预测值。
5.根据权利要求4所述的一种基于知识图谱的复杂条件问题作答方法,其特征在于:利用当前时间步的属性预测值与当前时间步属性真实值进行对比,从而对模型进行优化。
6.根据权利要求1所述的一种基于知识图谱的复杂条件问题作答方法,其特征在于所述从知识图谱中推理出相应的属性值的方法包括:
从知识图谱中找出问题语句中实体、属性;
若问题语句中的实体为单一实体,且所述属性属于该实体或者所述属性不属于该实体但与该实体的属性具有相同性质时,则将该属性的属性值作为答案的基础;
若问题语句中的实体为两个或两个以上,且所述属性属于该实体或者所述属性不属于该实体但与其中一个实体N的属性M具有相同性质时,进行推理:若实体I与实体II之间存在属性关系,若实体II与实体III之间存在属性关系,以此类推直到若实体N-1与实体N之间存在属性关系,则实体N与实体I之间也存在属性关系;若上述推理成立,则将实体N的属性M对应的属性值赋予该属性作为答案的基础。
7.一种基于知识图谱的复杂条件问题作答系统,其特征在于包括:
知识图谱构建模块,用于构建知识图谱,所述知识图谱包括若干实体,每个实体包括若干属性以及所述属性的属性值,并且有属性关系的实体之间相互链接;
实体提取模块,用于提取问题语句中的实体,将实体进行分类;
属性识别模块,用于识别问题语句中的属性并将识别到的属性映射到知识图谱中相同性质的属性上;
推理模块,根据问题语句的实体、属性从知识图谱中推理出相应的属性值从而获得问题语句的答案;
添加模块,用于当问题语句中的属性不存在于知识图谱中,将该属性加入知识图谱。
8.根据权利要求7所述的一种基于知识图谱的复杂条件问题作答系统,其特征在于所述实体提取模块包括:
实体类型预测模块,用于获取问题语句中每个词的词向量并进行排序;通过排序后的词向量获取每个词的正向隐状态和反向隐状态;将每个词的正向隐状态和反向隐状态拼合成该词的双向隐状态;利用词的双向隐状态预测该词为某种实体类型的概率;
实体序列预测模块,用于利用各个词为某种实体类型的概率以及各个词转移到下一个词的转移评分预测该问题语句中实体的序列为某种序列的概率。
9.根据权利要求7所述的一种基于知识图谱的复杂条件问题作答系统,其特征在于所述属性识别模块包括:
上下文变量获取模块,用于获取问题语句每个词的特征向量;把上一时间步的隐状态和当前时间步的特征向量转换为当前时间步的隐状态;将问题语句中所有词的隐状态拼合成问题语句的上下文变量;
隐状态获取模块,用于通过上一时间步的属性预测值、上一时间步的预测值隐状态、问题语句的上下文变量获取当前时间步隐状态;
属性值预测模块,用于通过当前时间步隐状态预测当前时间步的属性预测值。
10.根据权利要求7所述的一种基于知识图谱的复杂条件问题作答系统,其特征在于所述推理模块包括:
查找模块,用于从知识图谱中找出问题语句中实体、属性及属性值;
作答模块,用于当问题语句中的实体为单一实体,且所述属性属于该实体或者所述属性不属于该实体但与该实体的属性具有相同性质时,则将该属性的属性值作为答案的基础;
用于当问题语句中的实体为两个或两个以上,且所述属性属于该实体或者所述属性不属于该实体但与其中一个实体N的属性M具有相同性质时,进行推理:若实体I与实体II之间存在属性关系,若实体II与实体III之间存在属性关系,以此类推直到若实体N-1与实体N之间存在属性关系,则实体N与实体I之间也存在属性关系;若上述推理成立,则将实体N的属性M对应的属性值赋予该属性作为答案的基础。
CN202211570904.9A 2022-12-08 2022-12-08 基于知识图谱的复杂条件问题作答方法及系统 Pending CN115577091A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211570904.9A CN115577091A (zh) 2022-12-08 2022-12-08 基于知识图谱的复杂条件问题作答方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211570904.9A CN115577091A (zh) 2022-12-08 2022-12-08 基于知识图谱的复杂条件问题作答方法及系统

Publications (1)

Publication Number Publication Date
CN115577091A true CN115577091A (zh) 2023-01-06

Family

ID=84590399

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211570904.9A Pending CN115577091A (zh) 2022-12-08 2022-12-08 基于知识图谱的复杂条件问题作答方法及系统

Country Status (1)

Country Link
CN (1) CN115577091A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107748757A (zh) * 2017-09-21 2018-03-02 北京航空航天大学 一种基于知识图谱的问答方法
CN111506722A (zh) * 2020-06-16 2020-08-07 平安科技(深圳)有限公司 基于深度学习技术的知识图谱问答方法、装置及设备
EP3702930A1 (en) * 2017-11-27 2020-09-02 ZTE Corporation Intelligent question and answer method and device
CN112650840A (zh) * 2020-12-04 2021-04-13 天津泰凡科技有限公司 一种基于知识图谱推理的医疗智能问答处理方法及系统
CN113590779A (zh) * 2021-06-30 2021-11-02 四川大学 一种空管领域知识图谱的智能问答系统构建方法
CN114168719A (zh) * 2021-06-22 2022-03-11 北京理工大学 一种基于知识图谱嵌入的可解释性多跳问答方法及系统
CN114443818A (zh) * 2022-01-30 2022-05-06 天津大学 一种对话式知识库问答实现方法
CN115114420A (zh) * 2022-06-17 2022-09-27 厦门渊亭信息科技有限公司 一种知识图谱问答方法、终端设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107748757A (zh) * 2017-09-21 2018-03-02 北京航空航天大学 一种基于知识图谱的问答方法
EP3702930A1 (en) * 2017-11-27 2020-09-02 ZTE Corporation Intelligent question and answer method and device
CN111506722A (zh) * 2020-06-16 2020-08-07 平安科技(深圳)有限公司 基于深度学习技术的知识图谱问答方法、装置及设备
CN112650840A (zh) * 2020-12-04 2021-04-13 天津泰凡科技有限公司 一种基于知识图谱推理的医疗智能问答处理方法及系统
CN114168719A (zh) * 2021-06-22 2022-03-11 北京理工大学 一种基于知识图谱嵌入的可解释性多跳问答方法及系统
CN113590779A (zh) * 2021-06-30 2021-11-02 四川大学 一种空管领域知识图谱的智能问答系统构建方法
CN114443818A (zh) * 2022-01-30 2022-05-06 天津大学 一种对话式知识库问答实现方法
CN115114420A (zh) * 2022-06-17 2022-09-27 厦门渊亭信息科技有限公司 一种知识图谱问答方法、终端设备及存储介质

Similar Documents

Publication Publication Date Title
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN112528676B (zh) 文档级别的事件论元抽取方法
CN109299262A (zh) 一种融合多粒度信息的文本蕴含关系识别方法
CN112818691A (zh) 命名实体识别模型训练方法及装置
CN112819023B (zh) 样本集的获取方法、装置、计算机设备和存储介质
CN111274800A (zh) 基于关系图卷积网络的推理型阅读理解方法
CN107506414A (zh) 一种基于长短期记忆网络的代码推荐方法
CN110347847A (zh) 基于神经网络的知识图谱补全方法
CN112257449B (zh) 命名实体识别方法、装置、计算机设备和存储介质
CN111914550B (zh) 一种面向限定领域的知识图谱更新方法及系统
CN111860193B (zh) 一种基于文本的行人检索自监督视觉表示学习系统及方法
US20230134531A1 (en) Method and system for rapid retrieval of target images based on artificial intelligence
CN111581368A (zh) 一种基于卷积神经网络的面向智能专家推荐的用户画像方法
CN113051922A (zh) 一种基于深度学习的三元组抽取方法及系统
CN110322959A (zh) 一种基于知识的深度医疗问题路由方法及系统
CN114254093A (zh) 多空间知识增强的知识图谱问答方法及系统
CN111598252A (zh) 基于深度学习的大学计算机基础知识解题方法
CN111428502A (zh) 一种面向军事语料的命名实体标注方法
CN112668633B (zh) 一种基于细粒度领域自适应的图迁移学习方法
CN115577091A (zh) 基于知识图谱的复杂条件问题作答方法及系统
CN115906846A (zh) 一种基于双图的层次特征融合的文档级命名实体识别方法
Li et al. Reinforcement learning with dual attention guided graph convolution for relation extraction
CN115293249A (zh) 一种基于动态时序预测的电力系统典型场景概率预测方法
CN112132059B (zh) 一种基于深度条件随机场的行人重识别方法和系统
CN114648005A (zh) 一种多任务联合学习的多片段机器阅读理解方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20230106

RJ01 Rejection of invention patent application after publication