CN113297369B - 基于知识图谱子图检索的智能问答系统 - Google Patents

基于知识图谱子图检索的智能问答系统 Download PDF

Info

Publication number
CN113297369B
CN113297369B CN202110846067.7A CN202110846067A CN113297369B CN 113297369 B CN113297369 B CN 113297369B CN 202110846067 A CN202110846067 A CN 202110846067A CN 113297369 B CN113297369 B CN 113297369B
Authority
CN
China
Prior art keywords
question
entities
knowledge graph
entity
knowledge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110846067.7A
Other languages
English (en)
Other versions
CN113297369A (zh
Inventor
陶建华
于敏
张大伟
刘通
杨国花
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202110846067.7A priority Critical patent/CN113297369B/zh
Publication of CN113297369A publication Critical patent/CN113297369A/zh
Application granted granted Critical
Publication of CN113297369B publication Critical patent/CN113297369B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供基于知识图谱子图检索的智能问答系统,包括:所述问句处理模块识别用户输入问句中的实体,根据所述实体构建输入问句的句法依存树,得到实体之间的关系谓词;利用知识图谱嵌入得到知识图谱中三元组的低维稠密向量表示;将得到的用户输入问句中的实体映射到知识图谱中,得到每个实体在知识图谱中对应的候选实体列表,选择起点实体,引入关系谓词,在知识图谱中检索与之相匹配的知识图谱子图,再引入实体和关系谓词继续检索,迭代至全部的实体和关系谓词都引入完毕,输出检索到的知识图谱子图;再利用知识图谱子图过滤将检索得到的知识图谱子图进行剪枝;最后,输出相应结果。

Description

基于知识图谱子图检索的智能问答系统
技术领域
本发明涉及知识图谱领域,具体涉及基于知识图谱子图检索的智能问答系统。
背景技术
随着科学技术的发展,互联网应用已经渗透到人类生活的方方面面,信息检索是互联网背景下的重要技术应用,是人们获取信息的必要手段。目前,人们搜集信息的主要方式是通过传统搜索引擎,这种搜索方式一般只需要用户输入关键字,搜索引擎便会采取关键词匹配的方法将所有符合匹配条件的搜索结果呈现给用户。然而该方式难以满足用户的需求:一方面,不能返回给用户最直接的答案,而是一些与问题相关的网页或者文档,用户需要重新从这些网页或者文档中寻找最终想要的答案;另一方面,答案质量参差不齐,用户在查找、获取、理解方面存在困难。智能问答系统不仅允许用户以自然语言的方式提问,还能返回给用户准确且简洁的答案,避免了繁琐的人工筛选环节。因此,开放领域智能问答系统的应用能够进一步提高人们获取信息的便捷性、准确性。
公开号为CN111090735A提供一种基于知识图谱的智能问答方法及其性能评价方法。本发明公开了一种基于知识图谱的智能问答方法,其生成答案时的运行工作量更低;具体包括以下步骤:构建知识图谱;接收用户问题并将用户问题和知识图谱内的问题集分别进行向量化;将向量化后的用户问题与问题集中的问题分别进行相似度匹配,并得到多个语义相似度;将多个语义相似度排序,选择问题集中语义相似度最高的问题为命中问题;在知识图谱内检索出命中问题对应的命中答案,然后将命中答案形成完整的答案后输出。
公开号为CN110737763A公开了一种融合知识图谱和深度学习的中文智能问答系统及方法,该系统将用户输入的当前问题传递给语义预处理模块,语义预处理模块处理后将分词结果传递给问题检索模块,问题检索模块找出与当前问题相似的已知问题,并计算当前问题和已知问题的相似度,如果相似度满足阈值,则将已知问题的已知答案作为推荐答案;如果相似度不满足阈值,则知识推理模块对当前问题进行知识推理,如果推理结果的置信度满足阈值,则将推理结果作为推荐答案;如果置信度不满足阈值,则深度学习模型使用深度神经网络模型对分词结果进行预测,将预测结果作为推荐答案;推荐答案返回给用户以实现智能问答,从而本发明能够回答未知问题。
现有技术缺点:
现有的基于知识图谱的问答技术,在单一问题上已取得非常好的效果。但在实际问答场景下,用户的问题往往较为复杂,一旦问题过长或者存在多种关系与实体,现有方法的效果则不尽人意。
发明内容
有鉴于此,本发明提供一种基于知识图谱子图检索的智能问答系统,包括:问句处理模块、知识图谱嵌入模块、知识图谱子图检索模块、知识图谱子图过滤模块和答案输出模块;
所述问句处理模块识别用户输入问句中的实体,根据所述实体构建输入问句的句法依存树,得到实体之间的关系谓词;
所述知识图谱嵌入模块将所述问句处理模块得到的实体、实体之间的关系谓词数据转化为低维稠密的向量;
所述知识图谱嵌入模块将知识图谱的实体、关系、属性或值表示为低维稠密的向量;
所述知识图谱子图检索模块将问句实体集合中的实体映射到知识图谱中,在知识图谱中检索与所述问句实体集合中的实体相匹配的知识图谱子图;
所述知识图谱子图过滤模块采用LDA主题模型对知识图谱子图的节点进行筛选,得到筛选后的知识图谱子图;
所述答案输出模块输出筛选后的知识图谱子图。
在一些实施例中,所述问句处理模块具体的处理过程包括:
使用BERT模型对用户输入问句进行训练,得到问句的语义表示向量;
再将所述问句的语义表示向量输入BiLSTM,得到隐含层矩阵;
同时,将所述问句的语义表示向量输入到CNN,得到特征矩阵;
将所述隐含层矩阵和所述特征矩阵进行拼接,得到融合特征向量;
将所述融合特征向量经过全连接层,得到每个实体对应标签的概率;
采用条件随机场CRF学习标签间的约束关系;
通过Viterbi动态规划算法得到问句标签的最优序列,进而预测实体标签。
在一些实施例中,所述将所述问句的语义表示向量输入CNN,得到特征矩阵的具体方法为:
将每个t时刻的所述问句的语义表示向量以及其上下窗口为l大小的上下文向量合并作为卷积神经网络的输入。
在一些实施例中,所述问句处理模块模型的损失函数为:
Figure 438113DEST_PATH_IMAGE001
其中,Z(x)表示归一化因子,h(yi;x)表示融合特征向量的打分值,g(yk;yk+1 )表示参选训练的转移矩阵。
在一些实施例中,所述知识图谱嵌入模块将知识图谱的实体、关系、属性或值表示为低维稠密的向量的具体形式为:知识图谱K={K1,K2,…,Kn},Ki=<Ei,Ri,Ai>,其中Ki表示第i个向量三元组,Ei,Ri和Ai分别表示第i个三元组的实体、关系谓词和答案;所述答案为知识图谱的属性或值。
在一些实施例中,所述知识图谱嵌入模块将所述问句处理模块得到的实体、实体之间的关系谓词数据转化为低维稠密的向量的具体形式为:K i=<E i, R i>,其中K i表示第i个向量,E i和R i分别表示问句处理模块得到的实体、实体之间的关系。
在一些实施例中,所述在知识库中检索与所述知识图谱相匹配的知识图谱子图的具体方法为:
计算知识库中与所述知识图谱中实体相同或相似的实体节点,形成候选实体列表,选择候选实体列表中候选实体数量最少的实体为起点,引入与起点实体相连接的关系谓词,检索知识库中与其相匹配的子图,再引入实体和关系谓词继续检索,如此迭代,直至所有的实体和关系谓词都引用完毕即可得到最终匹配的知识图谱子图。
在一些实施例中,所述计算知识库中与所述知识图谱中实体相同或相似的实体节点的具体方法为:采用余弦相似度计算知识库中与所述知识图谱中实体相同或相似的实体节点。
在一些实施例中,所述余弦相似度的计算公式为:
Figure 516927DEST_PATH_IMAGE002
在一些实施例中,所述选实体列表的具体形式为:
Figure 952588DEST_PATH_IMAGE003
其中,si:知识图谱中第i个候选实体的标签;
Figure 724234DEST_PATH_IMAGE004
:输入问句中的第
Figure 674873DEST_PATH_IMAGE005
个实体与知识图谱中第
Figure 557378DEST_PATH_IMAGE005
个实体的余弦相似度。
本申请实施例提供的上述技术方案与现有技术相比具有如下优点:
使用BERT模型、BiLSTM网络和CNN对问句进行处理,结合条件随机场对问句中的每个词语进行实体标签预测,能够提高问句实体的识别准确率;得到与问句相匹配的知识图谱子图后,再利用LDA主题模型对检索得到的知识图谱子图进行剪枝,进一步提高子图节点和问句的相关程度,从而提高问答系统针对复杂问题的问答准确率。
附图说明
图1为本发明实施例提供的基于知识图谱子图检索的智能问答系统的结构图;
图2为本发明实施例提供的知识图谱子图过滤模块采用LDA主题模型对知识图谱子图的节点进行筛选示意图;
图3为本发明实施例提供的根据所述实体构建输入问句的句法依存树示意图;
图4为本发明实施例提供的检索到的知识图谱子图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
实施例1:
本实施例提供了一种基于知识图谱子图检索的智能问答系统,包括:问句处理模块、知识图谱嵌入模块、知识图谱子图检索模块、知识图谱子图过滤模块和答案输出模块;
所述问句处理模块识别用户输入问句中的实体,根据所述实体构建输入问句的句法依存树,得到实体之间的关系谓词;
所述知识图谱嵌入模块将所述问句处理模块得到的实体、实体之间的关系谓词数据转化为低维稠密的向量;
所述知识图谱嵌入模块将知识图谱的实体、关系、属性或值表示为低维稠密的向量;
所述知识图谱子图检索模块将问句实体集合中的实体映射到知识图谱中,在知识图谱中检索与所述问句实体集合中的实体相匹配的知识图谱子图;
所述知识图谱子图过滤模块采用LDA主题模型对知识图谱子图的节点进行筛选,得到筛选后的知识图谱子图;
所述答案输出模块输出筛选后的知识图谱子图。
在一些实施例中,所述问句处理模块具体的处理过程包括:
使用BERT模型对用户输入问句进行训练,得到问句的语义表示向量;
再将所述问句的语义表示向量输入BiLSTM,得到隐含层矩阵;
同时,将所述问句的语义表示向量输入到CNN,得到特征矩阵;
将所述隐含层矩阵和所述特征矩阵进行拼接,得到融合特征向量;
将所述融合特征向量经过全连接层,得到每个实体对应标签的概率;
采用条件随机场CRF学习标签间的约束关系;
通过Viterbi动态规划算法得到问句标签的最优序列,进而预测实体标签。
在一些实施例中,所述将所述问句的语义表示向量输入CNN,得到特征矩阵的具体方法为:
将每个t时刻的所述问句的语义表示向量以及其上下窗口为l大小的上下文向量合并作为卷积神经网络的输入。
在一些实施例中,所述问句处理模块模型的损失函数为:
Figure 909862DEST_PATH_IMAGE001
其中,Z(x)表示归一化因子,h(yi;x)表示融合特征向量的打分值,g(yk;yk+1 )表示参选训练的转移矩阵。
在一些实施例中,所述知识图谱嵌入模块将知识图谱的实体、关系、属性或值表示为低维稠密的向量的具体形式为:知识图谱K={K1,K2,…,Kn},Ki=<Ei,Ri,Ai>,其中Ki表示第i个向量三元组,Ei,Ri和Ai分别表示第i个三元组的实体、关系谓词和答案;所述答案为知识图谱的属性或值。
在一些实施例中,所述知识图谱嵌入模块将所述问句处理模块得到的实体、实体之间的关系谓词数据转化为低维稠密的向量的具体形式为:K i=<E i, R i>,其中K i表示第i个向量,E i和R i分别表示问句处理模块得到的实体、实体之间的关系。
在一些实施例中,所述在知识库中检索与所述知识图谱相匹配的知识图谱子图的具体方法为:
计算知识库中与所述知识图谱中实体相同或相似的实体节点,形成候选实体列表,选择候选实体列表中候选实体数量最少的实体为起点,引入与起点实体相连接的关系谓词,检索知识库中与其相匹配的子图,再引入实体和关系谓词继续检索,如此迭代,直至所有的实体和关系谓词都引用完毕即可得到最终匹配的知识图谱子图。
在一些实施例中,所述计算知识库中与所述知识图谱中实体相同或相似的实体节点的具体方法为:采用余弦相似度计算知识库中与所述知识图谱中实体相同或相似的实体节点。
在一些实施例中,所述余弦相似度的计算公式为:
Figure 790094DEST_PATH_IMAGE006
在一些实施例中,所述选实体列表的具体形式为:
Figure 228028DEST_PATH_IMAGE007
其中,si:知识图谱中第i个候选实体的标签;
Figure 648645DEST_PATH_IMAGE008
:输入问句中的第
Figure 121215DEST_PATH_IMAGE005
个实体与知识图谱中第
Figure 234664DEST_PATH_IMAGE005
个实体的余弦相似度。
实施例2:
如图1所示本申请实施例提供的基于知识图谱子图检索的智能问答系统,包括:
问句处理模块、知识图谱嵌入模块、知识图谱子图检索模块、知识图谱子图过滤模块和答案输出模块;
假定输入问句的长度为n;所述问句处理模块识别用户输入问句中的实体,根据所述实体构建输入问句的句法依存树,得到实体之间的关系谓词,具体过程包括:
使用BERT模型对用户输入问句进行训练,得到问句的语义表示向量C=BERT(n),C={C 1, C 2,…, C n };
再将所述问句的语义表示向量C输入BiLSTM,得到隐含层矩阵;
Figure 97578DEST_PATH_IMAGE009
其中
Figure 321886DEST_PATH_IMAGE010
Figure 383383DEST_PATH_IMAGE011
分别表t时刻正反两方向的隐含层向量;H t 为t时刻最终输出向量;假定BiLSTM隐含层数为p,则将C={C 1, C 2,…, C n }经过BiLSTM网络处理后得到n*p大小的隐含层矩阵;
对于语义表示向量C={C 1, C 2,…, C n },为获取t时刻输入的相邻字符特征,同时,将每个t时刻的所述问句的语义表示向量以及其上下窗口为l大小的上下文向量合并输入到CNN,
M t =CNN(C t-l ,…, C t ,…,C t+l }
M t 表示t时刻蕴含邻接字符信息的特征向量,假定CNN最后全连接层节点数为q,向量经过CNN模型后得到n*q大小的特征矩阵Q={Q 1,Q 2,…,Q n };
将所述隐含层矩阵和所述特征矩阵进行拼接,得到融合特征向量T t =[H t ,Q t ];融合特征向量T={T 1,T 2,…,T n }既包含了文本整体特征也包含了字符级的短文本特征;
将所述融合特征向量经过全连接层,得到每个实体对应标签的概率N={N 1,N 2,…,N n },公式如下:
Figure 667734DEST_PATH_IMAGE012
式中,W T 表示训练权重矩阵,b表示偏置项。N ij 则代表问句中第i个token属于标签j的非归一化概率;
为了考虑标签间的约束关系,CRF引入一个转移矩阵AA ij 代表标签转移到标签的转移概率;对于输入句子x来说,输出标签序列y={y1,y2,…,yn }的得分定义为:
Figure 80261DEST_PATH_IMAGE013
对所有输出序列y均计算得分,使用Viterbi算法选出得分最高的序列作为实体识别的输出结果;问句处理模块的目标是最大化真实标签关于输入问句的条件概率,最终的序列得分由融合特征矩阵和CRF打分共同决定。在使用线性链CRF的条件下,模型概率分布如下:
Figure 45943DEST_PATH_IMAGE014
随后采用最大似然函数的方法得到问句处理模块模型的损失函数为:
Figure 227525DEST_PATH_IMAGE015
其中,Z(x)表示归一化因子,h(yi;x)表示融合特征向量的打分值,g(yk;yk+1 )表示参选训练的转移矩阵;
经过以上步骤则可得到用户输入问句中的实体,例如:
用户输入问句“What is the budget of the film directed by Paul Andersonand starred by a Chinese actor”,该句子经过上述步骤,可以得到实体“what”、“film”、“Paul Anderson”、“Chinese”、“actor”;
进一步地,通过识别到的实体构建输入问句的句法依存树,如图3所示;则能够得到实体之间的关系谓词为:<What, (be) budget of, film>, <film, directed by, PaulAnderson>, < film, directed starred by, actor >, < Paul Anderson, directed bystarred by, actor >;
所述知识图谱嵌入模块将所述问句处理模块得到的实体、实体之间的关系谓词数据转化为低维稠密的向量,具体形式为:K i=<E i, R i>,其中K i表示第i个向量,E i和R i分别表示问句处理模块得到的实体、实体之间的关系;
所述知识图谱嵌入模块将知识图谱的实体、关系、属性或值表示为低维稠密的向量,具体形式为:知识图谱K={K1,K2,…,Kn},Ki=<Ei,Ri,Ai>,其中Ki表示第i个向量三元组,Ei,Ri和Ai分别表示第i个三元组的实体、关系谓词和答案;所述答案为知识图谱的属性或值;
所述知识图谱子图检索模块将问句实体集合中的实体映射到知识图谱中,在知识图谱中检索与所述问句实体集合中的实体相匹配的知识图谱子图,具体方法为:
采用余弦相似度计算知识库中与所述知识图谱中实体相同或相似的实体节点,形成候选实体列表,选择候选实体列表中候选实体数量最少的实体为起点,引入与起点实体相连接的关系谓词,检索知识库中与其相匹配的子图,再引入实体和关系谓词继续检索,如此迭代,直至所有的实体和关系谓词都引用完毕即可得到最终匹配的知识图谱子图;
所述余弦相似度的计算公式为:
Figure 417198DEST_PATH_IMAGE016
所述选实体列表的具体形式为:
Figure 317021DEST_PATH_IMAGE017
其中,si:知识图谱中第i个候选实体的标签;
Figure 883132DEST_PATH_IMAGE018
:输入问句中的第
Figure 184800DEST_PATH_IMAGE005
个实体与知识图谱中第
Figure 483057DEST_PATH_IMAGE005
个实体的余弦相似度;
示例地,知识图谱嵌入模块已经得到实体“film”、“Paul Anderson”、“Chinese”、“actor”的向量表示,需要找到上述实体在知识图谱中相对应的实体(可能存在不止一个),形成候选实体列表,例如:
实体“film”的候选实体列表:<film, SE1 )>, <Filmex, SE2>;
实体“Paul Anderson”的候选实体列表:<Paul_Anderson_(actor), SE1>, <PaulS. Anderson, SE2>,<Paul W. S. Anderson, SE3>;
实体“Chinese”的候选实体列表:<Chinese, SE1>, <China, SE2>;
实体“actor”的候选实体列表:<actor, SE1>;
选择候选实体列表中候选实体数量最少的实体为起点,引入与起点实体相连接的关系谓词,检索知识库中与其相匹配的子图,再引入实体和关系谓词继续检索,如此迭代,直至所有的实体和关系谓词都引用完毕即可得到最终匹配的知识图谱子图;
示例地,用户输入问句“What is the budget of the film directed by PaulAnderson and starred by a Chinese actor”检索到的知识图谱子图如图4所示;
所述知识图谱子图过滤模块采用LDA主题模型对知识图谱子图的节点进行筛选,得到筛选后的知识图谱子图;如图2所示,用户输入问句经过LDA主题模型后将得到相关主题分布,再将知识图谱子图中除答案节点之外的扩展节点输入LDA模型中进行判断,剔除掉与输入问句主题相关程度较低的节点作为结果返回;
所述答案输出模块输出筛选后的知识图谱子图。
在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本发明可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本发明范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本说明书中描述的主题及功能操作的实施例可以在以下中实现:数字电子电路、有形体现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序,即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地,程序指令可以被编码在人工生成的传播信号上,例如机器生成的电、光或电磁信号,该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。
本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行,以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)来执行,并且装置也可以实现为专用逻辑电路。
适合用于执行计算机程序的计算机包括,例如通用和/或专用微处理器,或任何其他类型的中央处理单元。通常,中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常,计算机还将包括用于存储数据的一个或多个大容量存储设备,例如磁盘、磁光盘或光盘等,或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据,抑或两种情况兼而有之。然而,计算机不是必须具有这样的设备。此外,计算机可以嵌入在另一设备中,例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏操纵台、全球定位系统(GPS)接收机、或例如通用串行总线(USB)闪存驱动器的便携式存储设备,仅举几例。
适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备,例如包括半导体存储器设备(例如EPROM、EEPROM和闪存设备)、磁盘(例如内部硬盘或可移动盘)、磁光盘以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。
虽然本说明书包含许多具体实施细节,但是这些不应被解释为限制任何发明的范围或所要求保护的范围,而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面,在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外,虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护,但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除,并且所要求保护的组合可以指向子组合或子组合的变型。
类似地,虽然在附图中以特定顺序描绘了操作,但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行,以实现期望的结果。在某些情况下,多任务和并行处理可能是有利的。此外,上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离,并且应当理解,所描述的程序组件和系统通常可以一起集成在单个软件产品中,或者封装成多个软件产品。
由此,主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下,权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外,附图中描绘的处理并非必需所示的特定顺序或顺次顺序,以实现期望的结果。在某些实现中,多任务和并行处理可能是有利的。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (4)

1.基于知识图谱子图检索的智能问答系统,其特征在于,包括:问句处理模块、知识图谱嵌入模块、知识图谱子图检索模块、知识图谱子图过滤模块和答案输出模块;
所述问句处理模块识别用户输入问句中的实体,根据所述实体构建输入问句的句法依存树,得到实体之间的关系谓词;
所述知识图谱嵌入模块将所述问句处理模块得到的实体、实体之间的关系谓词数据转化为低维稠密的向量;
所述知识图谱嵌入模块将知识图谱的实体、关系、属性或值表示为低维稠密的向量;
所述知识图谱子图检索模块将问句实体集合中的实体映射到知识图谱中,在知识图谱中检索与所述问句实体集合中的实体相匹配的知识图谱子图;
所述知识图谱子图过滤模块采用LDA主题模型对知识图谱子图的节点进行筛选,得到筛选后的知识图谱子图;
所述答案输出模块输出筛选后的知识图谱子图;
使用BERT模型对用户输入问句进行训练,得到问句的语义表示向量;
再将所述问句的语义表示向量输入BiLSTM,得到隐含层矩阵;
同时,将所述问句的语义表示向量输入到CNN,得到特征矩阵;
将所述隐含层矩阵和所述特征矩阵进行拼接,得到融合特征向量;
将所述融合特征向量经过全连接层,得到每个实体对应标签的概率;
采用条件随机场CRF学习标签间的约束关系;
通过Viterbi动态规划算法得到问句标签的最优序列,进而预测实体标签;
所述将所述问句的语义表示向量输入CNN,得到特征矩阵的具体方法为:
将每个t时刻的所述问句的语义表示向量以及其上下窗口为l大小的上下文向量合并作为卷积神经网络的输入;
所述知识图谱嵌入模块将知识图谱的实体、关系、属性或值表示为低维稠密的向量的具体形式为:知识图谱K={K1,K2,…,Kn},Ki=<Ei,Ri,Ai>,其中Ki表示第i个向量三元组,Ei,Ri和Ai分别表示第i个三元组的实体、关系谓词和答案;所述答案为知识图谱的属性或值;
所述知识图谱嵌入模块将所述问句处理模块得到的实体、实体之间的关系谓词数据转化为低维稠密的向量的具体形式为:K i=<E i, R i>,其中K i表示第i个向量,E i和R i分别表示问句处理模块得到的实体、实体之间的关系;
假定输入问句的长度为n;所述问句处理模块识别用户输入问句中的实体,根据所述实体构建输入问句的句法依存树,得到实体之间的关系谓词,具体过程包括:
使用BERT模型对用户输入问句进行训练,得到问句的语义表示向量C=BERT(n),C={C 1, C 2,…, C n };
再将所述问句的语义表示向量C输入BiLSTM,得到隐含层矩阵;
Figure 683340DEST_PATH_IMAGE001
其中
Figure 35824DEST_PATH_IMAGE002
Figure 978372DEST_PATH_IMAGE003
分别表t时刻正反两方向的隐含层向量;H t 为t时刻最终输出向量;假定BiLSTM隐含层数为p,则将C={C 1, C 2,…, C n }经过BiLSTM网络处理后得到n*p大小的隐含层矩阵;
对于语义表示向量C={C 1, C 2,…, C n },为获取t时刻输入的相邻字符特征,同时,将每个t时刻的所述问句的语义表示向量以及其上下窗口为l大小的上下文向量合并输入到CNN,
M t =CNN(C t-l ,…, C t ,…,C t+l }
M t 表示t时刻蕴含邻接字符信息的特征向量,假定CNN最后全连接层节点数为q,向量经过CNN模型后得到n*q大小的特征矩阵Q={Q 1, Q 2,…,Q n };
将所述隐含层矩阵和所述特征矩阵进行拼接,得到融合特征向量T t =[H t , Q t ];融合特征向量T={T 1, T 2,…, T n }既包含了文本整体特征也包含了字符级的短文本特征;
将所述融合特征向量经过全连接层,得到每个实体对应标签的概率N={N 1, N 2,…,N n },公式如下:
Figure 416306DEST_PATH_IMAGE004
式中,W T 表示训练权重矩阵,b表示偏置项;N ij 则代表问句中第i个token属于标签j的非归一化概率;
为了考虑标签间的约束关系,CRF引入一个转移矩阵AA ij 代表标签转移到标签的转移概率;对于输入句子x来说,输出标签序列y={y1,y2,…,yn }的得分定义为:
Figure 774606DEST_PATH_IMAGE005
对所有输出序列y均计算得分,使用Viterbi算法选出得分最高的序列作为实体识别的输出结果;问句处理模块的目标是最大化真实标签关于输入问句的条件概率,最终的序列得分由融合特征矩阵和CRF打分共同决定;在使用线性链CRF的条件下,模型概率分布如下:
Figure 247176DEST_PATH_IMAGE006
随后采用最大似然函数的方法得到问句处理模块模型的损失函数为:
Figure 360626DEST_PATH_IMAGE007
其中,Z(x)表示归一化因子,h(yi;x)表示融合特征向量的打分值,g(yk;yk+1 )表示参选训练的转移矩阵;
所述在知识库中检索与所述知识图谱相匹配的知识图谱子图的具体方法为:
计算知识库中与所述知识图谱中实体相同或相似的实体节点,形成候选实体列表,选择候选实体列表中候选实体数量最少的实体为起点,检索知识库中是否存在所述实体及候选实体,若存在则引入与起点的实体相连接的关系谓词进行匹配,若不存在则重新选择其它实体节点重新检索,如此迭代,直至所有的实体和关系谓词都引用完毕即可得到最终匹配的知识图谱子图。
2.根据权利要求1所述的基于知识图谱子图检索的智能问答系统,其特征在于,所述计算知识库中与所述知识图谱中实体相同或相似的实体节点的具体方法为:采用余弦相似度计算知识库中与所述知识图谱中实体相同或相似的实体节点。
3.根据权利要求2所述的基于知识图谱子图检索的智能问答系统,其特征在于,所述余弦相似度的计算公式为:
Figure 285856DEST_PATH_IMAGE008
4.根据权利要求3所述的基于知识图谱子图检索的智能问答系统,其特征在于,所述选实体列表的具体形式为:
Figure 697115DEST_PATH_IMAGE009
其中,
si:知识图谱中第i个候选实体的标签;
Figure 758612DEST_PATH_IMAGE010
:输入问句中的第
Figure 42963DEST_PATH_IMAGE011
个实体与知识图谱中第
Figure DEST_PATH_IMAGE013
个实体的余弦相似度。
CN202110846067.7A 2021-07-26 2021-07-26 基于知识图谱子图检索的智能问答系统 Active CN113297369B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110846067.7A CN113297369B (zh) 2021-07-26 2021-07-26 基于知识图谱子图检索的智能问答系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110846067.7A CN113297369B (zh) 2021-07-26 2021-07-26 基于知识图谱子图检索的智能问答系统

Publications (2)

Publication Number Publication Date
CN113297369A CN113297369A (zh) 2021-08-24
CN113297369B true CN113297369B (zh) 2022-04-01

Family

ID=77330959

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110846067.7A Active CN113297369B (zh) 2021-07-26 2021-07-26 基于知识图谱子图检索的智能问答系统

Country Status (1)

Country Link
CN (1) CN113297369B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114090746B (zh) * 2021-10-09 2022-12-06 北京百分点科技集团股份有限公司 一种基于知识图谱的答案查询方法、装置及电子设备
CN114020885A (zh) * 2021-10-15 2022-02-08 中国石油大学(华东) 一种基于领域知识图谱和斯坦纳树的智能问答方法
CN114691883A (zh) * 2022-03-07 2022-07-01 中国人民解放军国防科技大学 一种基于知识图谱的信息检索方法
CN114637822A (zh) * 2022-03-15 2022-06-17 平安国际智慧城市科技股份有限公司 法律信息查询方法、装置、设备及存储介质
CN115422346A (zh) * 2022-08-29 2022-12-02 浙江极氪智能科技有限公司 基于知识图谱的多轮话题推荐方法
CN117216194B (zh) * 2023-11-08 2024-01-30 天津恒达文博科技股份有限公司 文博领域知识问答方法及装置、设备和介质
CN118132732A (zh) * 2024-05-07 2024-06-04 传申弘安智能(深圳)有限公司 增强式检索用户问答方法、装置、计算机设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112100351A (zh) * 2020-09-11 2020-12-18 陕西师范大学 一种通过问题生成数据集构建智能问答系统的方法及设备
CN112148851A (zh) * 2020-09-09 2020-12-29 常州大学 一种基于知识图谱的医药知识问答系统的构建方法
CN113032516A (zh) * 2021-05-27 2021-06-25 中国科学院自动化研究所 基于近似本体匹配的知识图谱融合方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11727243B2 (en) * 2019-01-30 2023-08-15 Baidu Usa Llc Knowledge-graph-embedding-based question answering
CN111783462B (zh) * 2020-06-30 2023-07-04 大连民族大学 基于双神经网络融合的中文命名实体识别模型及方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112148851A (zh) * 2020-09-09 2020-12-29 常州大学 一种基于知识图谱的医药知识问答系统的构建方法
CN112100351A (zh) * 2020-09-11 2020-12-18 陕西师范大学 一种通过问题生成数据集构建智能问答系统的方法及设备
CN113032516A (zh) * 2021-05-27 2021-06-25 中国科学院自动化研究所 基于近似本体匹配的知识图谱融合方法

Also Published As

Publication number Publication date
CN113297369A (zh) 2021-08-24

Similar Documents

Publication Publication Date Title
CN113297369B (zh) 基于知识图谱子图检索的智能问答系统
CN108984724B (zh) 利用高维表示提高特定属性情感分类准确率方法
CN106845411B (zh) 一种基于深度学习和概率图模型的视频描述生成方法
CN112819023B (zh) 样本集的获取方法、装置、计算机设备和存储介质
CN111858940B (zh) 一种基于多头注意力的法律案例相似度计算方法及系统
CN112966091B (zh) 一种融合实体信息与热度的知识图谱推荐系统
CN112328800A (zh) 自动生成编程规范问题答案的系统及方法
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN111914556A (zh) 基于情感语义转移图谱的情感引导方法及系统
CN113869034B (zh) 基于强化依赖图的方面情感分类方法
CN118069812B (zh) 一种基于大模型的导览方法
CN113934835B (zh) 结合关键词和语义理解表征的检索式回复对话方法及系统
CN114239612A (zh) 一种多模态神经机器翻译方法、计算机设备及存储介质
CN117891939A (zh) 粒子群算法结合cnn卷积神经网络的文本分类方法
CN111931516A (zh) 一种基于强化学习的文本情感分析方法及系统
CN117634615A (zh) 一种基于模态无关对比学习的多任务代码检索方法
CN116167379A (zh) 一种基于bert和实体位置信息的实体关系抽取方法
CN117056575B (zh) 一种基于智能图书推荐系统数据采集的方法
CN116955579B (zh) 一种基于关键词知识检索的聊天回复生成方法和装置
CN113535928A (zh) 基于注意力机制下长短期记忆网络的服务发现方法及系统
CN117435685A (zh) 文档检索方法、装置、计算机设备、存储介质和产品
CN115758159B (zh) 基于混合对比学习和生成式数据增强的零样本文本立场检测方法
CN117371452A (zh) 一种基于演示和标签增强的网格标记细粒度概念方法
CN116975403A (zh) 内容检索模型及内容检索处理方法、装置和计算机设备
CN116167353A (zh) 一种基于孪生长短期记忆网络的文本语义相似度度量方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant