CN111813916A - 一种智能问答方法、装置、计算机设备和介质 - Google Patents
一种智能问答方法、装置、计算机设备和介质 Download PDFInfo
- Publication number
- CN111813916A CN111813916A CN202010705774.XA CN202010705774A CN111813916A CN 111813916 A CN111813916 A CN 111813916A CN 202010705774 A CN202010705774 A CN 202010705774A CN 111813916 A CN111813916 A CN 111813916A
- Authority
- CN
- China
- Prior art keywords
- question
- search
- training
- answer
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 239000013598 vector Substances 0.000 claims abstract description 104
- 238000005516 engineering process Methods 0.000 claims abstract description 13
- 238000003058 natural language processing Methods 0.000 claims abstract description 13
- 238000004458 analytical method Methods 0.000 claims abstract description 9
- 230000000717 retained effect Effects 0.000 claims abstract description 5
- 238000012549 training Methods 0.000 claims description 90
- 238000012360 testing method Methods 0.000 claims description 27
- 238000004422 calculation algorithm Methods 0.000 claims description 18
- 238000010801 machine learning Methods 0.000 claims description 18
- 238000010276 construction Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 11
- 238000009825 accumulation Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 abstract description 3
- 238000012545 processing Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- RWSOTUBLDIXVET-UHFFFAOYSA-N Dihydrogen sulfide Chemical compound S RWSOTUBLDIXVET-UHFFFAOYSA-N 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种智能问答方法、装置、计算机设备和介质,方法包括:对问句进行语法分析得到语法依存树,利用自然语言处理技术识别以下元素:问句类型词QT、问句线索词QF、问句动词QV和问句中心词QC;将所述问句类型词QT、问句线索词QF、问句动词QV和问句中心词QC分别转化为词向量EmQT、EmQF、EmQV、EmQC,构建四种词向量对,并依据所述四种词向量对构建问句特征向量;全量搜索;子图搜索;调整搜索范围;智能问答:利用保留的模型对输入的问句进行智能搜索,输出答案。本发明对知识图谱进行全量搜索,然后进行子图搜索,如果子图搜索产生的结果优于全量搜索的结果,则采用子图搜索确定的候选答案范围,减少了搜索的计算开销。
Description
技术领域
本发明涉及自动问答领域,特别涉及一种智能问答方法、装置、计算机设备和介质。
背景技术
现有技术中,使用在线客服机器人来回答用户咨诉问题的模式已经在很多行业得到广泛应用。
现有在线客服通常的技术路线是:提前准备好不同类别下的问句和其对应的答案对,存储于知识库中;对客户的问句通过分词、词性标注等手段进行处理,提取语义特征,然后再通过各种算法,与知识库中的问句计算相似度,返回相似度最接近的1个或多个问句及对应答案。
这种方法虽然简单直接,但存在较多不足:第一,用户的问法多样性往往超出在线客服提供方的预期,由于知识库中的知识(即问题-答案对)之间没有关联或者关联较少,粒度比较粗糙,很难建立起更紧密层次的联系,依靠相似性计算出的答案准确性不高;第二,知识库的完整性难以保证:建设知识库需要花费大量精力,而且后续维护麻烦。
现有技术中,申请号为CN109145102A、CN201811511468.1的中国专利利用关键词搜索知识图谱,然而现实中用户的提问中词语千变万化,存在大量近义词、同义词。由于没有考虑这种情况,导致该方案存在应用局限性。
申请号为CN201811573361.X的中国专利提及的问句特征提取方法为:结合提问信息之前提出的N个问句作为问句上下文,并结合该问句,利用向量空间模型VSM转化为问句特征。但该方法未对问句进行问句特征的甄别提取,而是将整个问句作为特征,因此引入了很多无关信息,对后续问答的命中率造成比较大的干扰。
发明内容
本发明的目的是提供一种智能问答方法、装置、计算机设备和介质,旨在解决现有智能问答方法搜索效率低、准确性有待提高的问题。
本发明实施例提供一种基于知识图谱多级搜索的智能问答方法,其中,包括:
对问句进行语法分析得到语法依存树,利用自然语言处理技术识别以下元素:问句类型词QT、问句线索词QF、问句动词QV和问句中心词QC;
将所述问句类型词QT、问句线索词QF、问句动词QV和问句中心词QC分别转化为词向量EmQT、EmQF、EmQV、EmQC,构建<EmQC,EmQT>、<EmQC,EmQF>、<EmQC,EmQV>、<EmQV,EmQF>四种词向量对,并依据所述四种词向量对构建问句特征向量;
全量搜索:从问句中心词QC开始,在预先构建的知识图谱里进行搜索,查找所述问句中心词QC的所有关系节点,并将所查找到的关系节点的属性进行向量化,构建关系节点的答案特征向量;采用问句特征向量和答案特征向量构建样本集,并分为训练集和测试集;采用机器学习算法在训练集上进行训练,然后在测试集上进行测试,统计所有问句对应答案的层级分布;
子图搜索:预先设置问句的意图类别,对每类问句,将全量搜索得到的层级分布比例最大的一层,设为第M层,设定训练轮数T;设定答案节点的初始搜索范围为包含第M个关系节点层和其内外共N个关系节点层;利用机器学习算法在知识图谱上寻找答案,在第T轮训练结束后,对初始搜索范围中的每一层,统计各层得到的答案数量占全部问句正确答案的比例,形成层级搜索分布队列;
调整搜索范围:若第T轮训练结束后,找到答案的命中率高于全量搜索的该指标,则结束整个答案搜索过程,并保留知识图谱子图搜索训练产生的模型;若第T轮训练结束后,没有任何一轮找到答案的命中率高于全量搜索的该指标,则保留全量搜索训练产生的模型;
智能问答:利用保留的模型对输入的问句进行智能搜索,输出答案。
进一步,所述对问句进行语法分析得到语法依存树,利用自然语言处理技术识别以下元素:问句类型词QT、问句线索词QF、问句动词QV和问句中心词QC,包括:
对于包含多个问句中心词QC的问句,获取其问句动词QV的数量;
若问句动词QV为1个,则将该问句分割为不同的语义组块,并将各问句中心词QC与问句类型词QT、问句线索词QF和问句动词QV组合形成新的子问句;
若问句动词QV大于1个,则该问句分割为不同的语义组块,并将各问句中心词QC、与之对应的问句动词QV与问句线索词QF和问句动词QV组合形成新的子问句。
进一步,所述依据所述四种词向量对构建问句特征向量,包括:
对所述四个词向量对分别按照从左到右、从右到左顺序,各自拼接成一个临时向量,再对两个临时向量进行拼接,形成问句特征向量。
进一步,所述采用问句特征向量和答案特征向量构建样本集,并分为训练集和测试集,包括:
按<X:Y>的格式构建样本集,其中,X为问句特征向量与关系节点的答案特征向量拼接而成的向量,其中,Y为0或1,Y为1时表示关系节点的属性值为X中问句的正确答案;Y为1时表示关系节点的属性值不是X中问句的正确答案;
将样本集按照比例I:J进行划分,分别得到训练集和测试集,其中,I+J=1。
进一步,所述层级搜索分布队列为:将各层得到的答案数量占全部问句正确答案的比例,按顺序进行排列得到的队列。
进一步,所述若第T轮训练结束后,找到答案的命中率高于全量搜索的该指标,则结束整个答案搜索过程,并保留知识图谱子图搜索训练产生的模型,包括:
若第T轮训练结束后,找到答案的命中率高于全量搜索的该指标,则结束整个答案搜索过程,并从所述层级搜索分布队列中第一个元素开始累加求和,若前K个元素累加之和高于全量搜索的命中率,则保留知识图谱的K层子图搜索训练产生的模型。
进一步,还包括:
若层级搜索分布队列全部元素累加之和小于阈值R,则在下一轮训练时扩大候选答案搜索范围。
本发明实施例还提供一种基于知识图谱多级搜索的智能问答装置,其中,包括:
识别单元,用于对问句进行语法分析得到语法依存树,利用自然语言处理技术识别以下元素:问句类型词QT、问句线索词QF、问句动词QV和问句中心词QC;
向量构建单元,用于将所述问句类型词QT、问句线索词QF、问句动词QV和问句中心词QC分别转化为词向量EmQT、EmQF、EmQV、EmQC,构建<EmQC,EmQT>、<EmQC,EmQF>、<EmQC,EmQV>、<EmQV,EmQF>四种词向量对,并依据所述四种词向量对构建问句特征向量;
全量搜索单元,用于从问句中心词QC开始,在预先构建的知识图谱里进行搜索,查找所述问句中心词QC的所有关系节点,并将所查找到的关系节点的属性进行向量化,构建关系节点的答案特征向量;采用问句特征向量和答案特征向量构建样本集,并分为训练集和测试集;采用机器学习算法在训练集上进行训练,然后在测试集上进行测试,统计所有问句对应答案的层级分布;
子图搜索单元,用于预先设置问句的意图类别,对每类问句,将全量搜索得到的层级分布比例最大的一层,设为第M层,设定训练轮数T;设定答案节点的初始搜索范围为包含第M个关系节点层和其内外共N个关系节点层;利用机器学习算法在知识图谱上寻找答案,在第T轮训练结束后,对初始搜索范围中的每一层,统计各层得到的答案数量占全部问句正确答案的比例,形成层级搜索分布队列;
搜索范围调整单元,用于若第T轮训练结束后,找到答案的命中率高于全量搜索的该指标,则结束整个答案搜索过程,并保留知识图谱子图搜索训练产生的模型;若第T轮训练结束后,没有任何一轮找到答案的命中率高于全量搜索的该指标,则保留全量搜索训练产生的模型;
智能问答单元,用于利用保留的模型对输入的问句进行智能搜索,输出答案。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如上所述的基于知识图谱多级搜索的智能问答方法。
本发明实施例还提供一种计算机可读存储介质,其中,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如上所述的基于知识图谱多级搜索的智能问答方法。
本发明实施例提供了一种智能问答方法、装置、计算机设备和介质,方法包括:对问句进行语法分析得到语法依存树,利用自然语言处理技术识别以下元素:问句类型词QT、问句线索词QF、问句动词QV和问句中心词QC;将所述问句类型词QT、问句线索词QF、问句动词QV和问句中心词QC分别转化为词向量EmQT、EmQF、EmQV、EmQC,构建<EmQC,EmQT>、<EmQC,EmQF>、<EmQC,EmQV>、<EmQV,EmQF>四种词向量对,并依据所述四种词向量对构建问句特征向量;全量搜索;子图搜索;调整搜索范围;智能问答:利用保留的模型对输入的问句进行智能搜索,输出答案。本发明实施例对问句进行了特征提取,然后对知识图谱进行全量搜索得到候选答案命中率的基线,再通过知识图谱的子图搜索,判断子图搜索产生的结果是否优于全量搜索,如果优于后者,则在实际应用环节采用子图搜索确定的候选答案范围,在实际应用时减少了搜索的计算开销。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于知识图谱多级搜索的智能问答方法的流程示意图;
图2为本发明实施例提供的问句特征图的转化原理图;
图3为本发明实施例提供的知识图谱的子图搜索答案的示例图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
本发明实施例提供一种基于知识图谱多级搜索的智能问答方法,其包括:
S101、对问句进行语法分析得到语法依存树,利用自然语言处理技术识别以下元素:问句类型词QT、问句线索词QF、问句动词QV和问句中心词QC;
S102、将所述问句类型词QT、问句线索词QF、问句动词QV和问句中心词QC分别转化为词向量EmQT、EmQF、EmQV、EmQC,构建<EmQC,EmQT>、<EmQC,EmQF>、<EmQC,EmQV>、<EmQV,EmQF>四种词向量对,并依据所述四种词向量对构建问句特征向量;
S103、全量搜索:从问句中心词QC开始,在预先构建的知识图谱里进行搜索,查找所述问句中心词QC的所有关系节点,并将所查找到的关系节点的属性进行向量化,构建关系节点的答案特征向量;采用问句特征向量和答案特征向量构建样本集,并分为训练集和测试集;采用机器学习算法在训练集上进行训练,然后在测试集上进行测试,统计所有问句对应答案的层级分布;
S104、子图搜索:预先设置问句的意图类别,对每类问句,将全量搜索得到的层级分布比例最大的一层,设为第M层,设定训练轮数T;设定答案节点的初始搜索范围为包含第M个关系节点层和其内外共N个关系节点层;利用机器学习算法在知识图谱上寻找答案,在第T轮训练结束后,对初始搜索范围中的每一层,统计各层得到的答案数量占全部问句正确答案的比例,形成层级搜索分布队列;
S105、调整搜索范围:若第T轮训练结束后,找到答案的命中率高于全量搜索的该指标,则结束整个答案搜索过程,并保留知识图谱子图搜索训练产生的模型;若第T轮训练结束后,没有任何一轮找到答案的命中率高于全量搜索的该指标,则保留全量搜索训练产生的模型;
S106、智能问答:利用保留的模型对输入的问句进行智能搜索,输出答案。
在所述步骤S101中,需要对问句进行语法分析得到语法依存树,并且利用自然语言处理技术识别出关键元素。其中,自然语言处理技术是包括词性分析、命名实体识别、关键词匹配、同义词扩展等在内的自然语言处理技术。
所述的关键元素包括问句类型词QT、问句线索词QF、问句动词QV和问句中心词QC。
所述问句类型词QT可以是:“什么/哪里/多少/谁/怎么”等词。通过问句类型词QT可以确定问句的类型。
所述问句线索词QF可以是:姓名/年龄/性别/地址等词。所述问句线索词QF提供了期望答案类型的线索。
所述问句动词QV可以是:转给/汇给/办理等词,所述问句动词QV蕴含了与答案相关的信息。
所述问句中心词QC,是名词。所述问句中心词QC是问句的核心名词。
在一实施例中,如图2所示,所述对问句进行语法分析得到语法依存树,利用自然语言处理技术识别以下元素:问句类型词QT、问句线索词QF、问句动词QV和问句中心词QC,包括:
对于包含多个问句中心词QC的问句,获取其问句动词QV的数量;
若问句动词QV为1个,则将该问句分割为不同的语义组块,并将各问句中心词QC与问句类型词QT、问句线索词QF和问句动词QV组合形成新的子问句;
若问句动词QV大于1个,则该问句分割为不同的语义组块,并将各问句中心词QC、与之对应的问句动词QV与问句线索词QF和问句动词QV组合形成新的子问句。
对于包含多个问句中心词QC的问句,根据从问句中抽取的问句动词QC种类决定下一步操作。若只有1个问句动词QV,将该问句分割为不同的语义组块,与问句类型词QT等组合形成新的子问句,也即将该问句拆分为多个子问句,例如“深圳分行和广州分行的地址在哪里?”被拆分为“深圳分行的地址在哪里?”和“广州分行的地址在哪里?”两个子问句。
若问句动词QV不止一个,如“密码有几位,忘记了怎么办?”,在该问句中存在两个问句动词QV,可以将该问句同样分割为不同的语义组块,再按照上述方式同样进行处理,只是此步骤中,需要将问句中心词QC与对应的问句动词QV组合。
通过识别上述元素,即可形成问句特征图,对于问句“深圳分行的地址在哪里”,通过上述方式处理后得到的问句特征图的结构如图2所示。
在所述步骤S102中,目前已有采用Word2Vec、Glove等方法而训练而得到的成熟词向量库可供下载,本发明实施例可直接在词向量库中查找问句特征词及其对应的词向量,若某个问句特征词在词向量库中不能直接找到其对应的词向量,则可以通过语义相似度算法,在词向量库中查找与问句特征词最接近的词,作为该问句特征词的近似替代问句特征词。
这样可以将所述问句类型词QT、问句线索词QF、问句动词QV和问句中心词QC分别转化为词向量EmQT、EmQF、EmQV、EmQC。构建<EmQC,EmQT>、<EmQC,EmQF>、<EmQC,EmQV>、<EmQV,EmQF>四种词向量对,并依据所述四种词向量对构建问句特征向量。
在一实施例中,所述依据所述四种词向量对构建问句特征向量,包括:
对所述四个词向量对分别按照从左到右、从右到左顺序,各自拼接成一个临时向量,再对两个临时向量进行拼接,形成问句特征向量。
此步骤是将<EmQC,EmQT>、<EmQC,EmQF>、<EmQC,EmQV>、<EmQV,EmQF>,这里面的8个词向量,从左至右拼接,以及从右到左拼接,然后对两个拼接的临时向量拼接,最终得到一个问句特征向量。
在所述步骤S103中,需进行全量搜索。
具体的,从问句中心词QC开始,在预先构建的知识图谱里进行搜索,查找所述问句中心词QC的所有关系节点,并将所查找到的关系节点的属性进行向量化,构建关系节点的答案特征向量。本步骤中,对每一个关系节点的属性进行向量化,可采用TransE或其改进方法(如TransH)进行向量化,这样可以拼接形成该关系节点的答案特征向量。
如果在知识图谱中无法查找到问句中心词QC,则可以通过编辑距离或余弦相似度等方法,找到该问句中心词QC的同义词或近义词,将其确定为近似问句中心词。并以近似问句中心词开始,进行上述同样的处理。
然后采用问句特征向量和答案特征向量构建样本集,并分为训练集和测试集;采用机器学习算法在训练集上进行训练,然后在测试集上进行测试,统计所有问句对应答案的层级分布。
在一实施例中,所述采用问句特征向量和答案特征向量构建样本集,并分为训练集和测试集,包括:
按<X:Y>的格式构建样本集,其中,X为问句特征向量与关系节点的答案特征向量拼接而成的向量,其中,Y为0或1,Y为1时表示关系节点的属性值为X中问句的正确答案;Y为1时表示关系节点的属性值不是X中问句的正确答案;
将样本集按照比例I:J进行划分,分别得到训练集和测试集,其中,I+J=1。
此实施例中,将问句与答案判断视为二分类有监督机器学习问题。
所述所有问句对应答案的层级分布是指,统计问句的每个关系节点层得到的答案数量,分别求它们各自占全部问句正确答案的比例。本发明实施例采用的机器学习算法可以是逻辑回归、决策树、支持向量机、神经网络等方法。
在确定中心词QC后,涉及如何选择该词邻近的节点。范围太大会带来巨大计算量,范围太小则增加搜索的时间。本发明实施例采用机器学习算法来确定答案的搜索范围。
其中,以某个节点为源节点,定义知识图谱中与其直接连接的节点为其关系节点。与源节点有直接连接的节点为源节点1度关系节点,所有1度关系节点构成第1度关系节点层;与源节点1度关系节点有直接连接的节点为源节点的2度关系节点,所有2度关系节点构成第2度关系节点层,以此类推,直到终止关系节点Nt。该节点满足:除了与第n-1度关系节点外,与其他节点无连接。截至到终止关系节点的度数为Hop_Nt。若某节点同时为源节点的多种类型关系节点,以其第一次达到的度数为该节点相对于源节点的度数。
在所述步骤S104中,需进行子图搜索。
具体的,预先设置问句的意图类别,采用机器学习方法对问句按照意图进行分类。对每类问题,全量搜索得到的层级分布比例最大的那一层,设为第M层,设定训练轮数T。
设定答案节点的“初始搜索范围”为包含源节点第M个关系节点层以及其内外共N+1层关系节点层,N为偶数。所述N的取值可以是2、4或6等等。
所述“初始搜索范围”包含源节点的第M个关系节点层,以及第M个关系节点层内N/2和外N/2的关系节点层。
以图3为例,假设问句中心词为深圳分行,确定M=2,则“初始搜索范围”为该节点的第2度关系节点层和第2度节点内外各N/2的关系节点层,即共N+1层关系节点层。
然后开启第一轮训练,利用机器学习算法在知识图谱上寻找答案,过程参照全量搜索的方法进行。
在第T轮训练结束后,对所述“初始搜索范围”中的每一层,统计各层得到的答案数量占全部问句正确答案的比例,形成“层级搜索分布队列”。在一实施例中,所述层级搜索分布队列为:将各层得到的答案数量占全部问句正确答案的比例,按顺序进行排列得到的队列。
假设M=2,N为4,则一共5层,编号为L1、L2、L3,L4,L5,第2层所占比例为20%,第1层比例为35%,第3层比例为25%,第4层比例为10%,第5层比例为10%。则层级搜索分布队列为(0.2,0.35,0.25,0.1,0.1)。
在所述步骤S105中,需进行搜索范围的调整。
具体的,若第T轮训练结束后,找到答案的命中率高于全量搜索的该指标,则结束整个答案搜索过程,并保留知识图谱子图搜索训练产生的模型;若T轮训练结束后,没有任何一轮找到答案的命中率高于全量搜索的该指标,则保留全量搜索训练产生的模型。
在一实施例中,所述若第T轮训练结束后,找到答案的命中率高于全量搜索的该指标,则结束整个答案搜索过程,并保留知识图谱子图搜索训练产生的模型,包括:
若第T轮训练结束后,找到答案的命中率高于全量搜索的该指标,则结束整个答案搜索过程,并从所述层级搜索分布队列中第一个元素开始累加求和,若前K个元素累加之和高于全量搜索的命中率,则保留知识图谱的K层子图搜索训练产生的模型。
也就是说,若第T轮训练结束后,找到答案的命中率高于全量搜索的该指标,结束整个答案搜索过程,选择保留知识图谱子图搜索训练产生的模型。从“层级搜索分布队列”的第一个元素开始累加求和,若队列前K个元素之和已高于全量搜索的命中率之和,则确定以后模型使用时的候选答案搜索范围为该知识图谱的K层子图,否则仍然为第M层子图包括的N+1层子图。
在一实施例中,所述基于知识图谱多级搜索的智能问答方法还包括:
若层级搜索分布队列全部元素累加之和小于阈值R,则在下一轮训练时扩大候选答案搜索范围。
也就是说,若层级搜索分布队列全部元素之和都小于阈值R(阈值R的设定可自行确定,例如设为子图答案命中率不低于全量搜索命中率的90%),则下一轮训练的候选答案搜索范围需要扩大,每次增加2层,直到该轮搜索范围到达整个知识图谱的边界。
在实际处理过程中,由于全量搜索是二分法判断一个实体是否是问句的答案,存在误差,不可能100%准确,所以通过全量搜索这种方式也不可能找到所有问句的答案。
因此通过在选定的知识图谱的子图上执行答案搜索,达到的命中率是有可能高于前者的(比如全量搜索的命中率为70%,这里的子图搜索的命中率有可能达到75%)。同时,层级搜索执行了N+1层,但也可能用不了这么多层,有可能在第K层时,累加的命中率就已经超过全量搜索的这一指标。
例如,假设M=2,N为4则一共5层,编号为L1、L2、L3、L4、L5,假设第2层比例为25%,第1层比例为35%,第3层比例为25%,第4层比例为10%,第5层比例为5%。则层级搜索分布队列为(0.25,0.35,0.25,0.1,0.05)。如果全量搜索的命中率只有80%,队列前K(这里K=4)个元素之和(0.85)就已高于全量搜索的命中率之和。
在所述步骤S106中,智能问答:利用保留的模型对输入的问句进行智能搜索,输出答案。
本发明实施例对问句进行了特征分析,提取了重要特征,包括问句类型词QT、问句线索词QF、问句动词QV、问句中心词QC作为问句特征。先通过对知识图谱进行全量搜索得到候选答案命中率的基线,然后通过知识图谱的子图搜索,判断子图搜索产生的结果是否优于全量搜索,如果优于后者,则在实际应用环节采用子图搜索确定的候选答案范围,在实际应用时减少了搜索的计算开销。
本发明实施例还提供一种基于知识图谱多级搜索的智能问答装置,其包括:
识别单元,用于对问句进行语法分析得到语法依存树,利用自然语言处理技术识别以下元素:问句类型词QT、问句线索词QF、问句动词QV和问句中心词QC;
向量构建单元,用于将所述问句类型词QT、问句线索词QF、问句动词QV和问句中心词QC分别转化为词向量EmQT、EmQF、EmQV、EmQC,构建<EmQC,EmQT>、<EmQC,EmQF>、<EmQC,EmQV>、<EmQV,EmQF>四种词向量对,并依据所述四种词向量对构建问句特征向量;
全量搜索单元,用于从问句中心词QC开始,在预先构建的知识图谱里进行搜索,查找所述问句中心词QC的所有关系节点,并将所查找到的关系节点的属性进行向量化,构建关系节点的答案特征向量;采用问句特征向量和答案特征向量构建样本集,并分为训练集和测试集;采用机器学习算法在训练集上进行训练,然后在测试集上进行测试,统计所有问句对应答案的层级分布;
子图搜索单元,用于预先设置问句的意图类别,对每类问句,将全量搜索得到的层级分布比例最大的一层,设为第M层,设定训练轮数T;设定答案节点的初始搜索范围为包含第M个关系节点层和其内外共N个关系节点层;利用机器学习算法在知识图谱上寻找答案,在第T轮训练结束后,对初始搜索范围中的每一层,统计各层得到的答案数量占全部问句正确答案的比例,形成层级搜索分布队列;
搜索范围调整单元,用于若第T轮训练结束后,找到答案的命中率高于全量搜索的该指标,则结束整个答案搜索过程,并保留知识图谱子图搜索训练产生的模型;若第T轮训练结束后,没有任何一轮找到答案的命中率高于全量搜索的该指标,则保留全量搜索训练产生的模型;
智能问答单元,用于利用保留的模型对输入的问句进行智能搜索,输出答案。
由于装置部分的实施例与方法部分的实施例相互对应,因此装置部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如上所述的基于知识图谱多级搜索的智能问答方法。
本发明实施例还提供一种计算机可读存储介质,其中,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如上所述的基于知识图谱多级搜索的智能问答方法。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
Claims (10)
1.一种基于知识图谱多级搜索的智能问答方法,其特征在于,包括:
对问句进行语法分析得到语法依存树,利用自然语言处理技术识别以下元素:问句类型词QT、问句线索词QF、问句动词QV和问句中心词QC;
将所述问句类型词QT、问句线索词QF、问句动词QV和问句中心词QC分别转化为词向量EmQT、EmQF、EmQV、EmQC,构建<EmQC,EmQT>、<EmQC,EmQF>、<EmQC,EmQV>、<EmQV,EmQF>四种词向量对,并依据所述四种词向量对构建问句特征向量;
全量搜索:从问句中心词QC开始,在预先构建的知识图谱里进行搜索,查找所述问句中心词QC的所有关系节点,并将所查找到的关系节点的属性进行向量化,构建关系节点的答案特征向量;采用问句特征向量和答案特征向量构建样本集,并分为训练集和测试集;采用机器学习算法在训练集上进行训练,然后在测试集上进行测试,统计所有问句对应答案的层级分布;
子图搜索:预先设置问句的意图类别,对每类问句,将全量搜索得到的层级分布比例最大的一层,设为第M层,设定训练轮数T;设定答案节点的初始搜索范围为包含第M个关系节点层和其内外共N个关系节点层;利用机器学习算法在知识图谱上寻找答案,在第T轮训练结束后,对初始搜索范围中的每一层,统计各层得到的答案数量占全部问句正确答案的比例,形成层级搜索分布队列;
调整搜索范围:若第T轮训练结束后,找到答案的命中率高于全量搜索的该指标,则结束整个答案搜索过程,并保留知识图谱子图搜索训练产生的模型;若第T轮训练结束后,没有任何一轮找到答案的命中率高于全量搜索的该指标,则保留全量搜索训练产生的模型;
智能问答:利用保留的模型对输入的问句进行智能搜索,输出答案。
2.根据权利要求1所述的基于知识图谱多级搜索的智能问答方法,其特征在于,所述对问句进行语法分析得到语法依存树,利用自然语言处理技术识别以下元素:问句类型词QT、问句线索词QF、问句动词QV和问句中心词QC,包括:
对于包含多个问句中心词QC的问句,获取其问句动词QV的数量;
若问句动词QV为1个,则将该问句分割为不同的语义组块,并将各问句中心词QC与问句类型词QT、问句线索词QF和问句动词QV组合形成新的子问句;
若问句动词QV大于1个,则该问句分割为不同的语义组块,并将各问句中心词QC、与之对应的问句动词QV与问句线索词QF和问句动词QV组合形成新的子问句。
3.根据权利要求1所述的基于知识图谱多级搜索的智能问答方法,其特征在于,所述依据所述四种词向量对构建问句特征向量,包括:
对所述四个词向量对分别按照从左到右、从右到左顺序,各自拼接成一个临时向量,再对两个临时向量进行拼接,形成问句特征向量。
4.根据权利要求1所述的基于知识图谱多级搜索的智能问答方法,其特征在于,所述采用问句特征向量和答案特征向量构建样本集,并分为训练集和测试集,包括:
按<X:Y>的格式构建样本集,其中,X为问句特征向量与关系节点的答案特征向量拼接而成的向量,其中,Y为0或1,Y为1时表示关系节点的属性值为X中问句的正确答案;Y为1时表示关系节点的属性值不是X中问句的正确答案;
将样本集按照比例I:J进行划分,分别得到训练集和测试集,其中,I+J=1。
5.根据权利要求1所述的基于知识图谱多级搜索的智能问答方法,其特征在于,所述层级搜索分布队列为:将各层得到的答案数量占全部问句正确答案的比例,按顺序进行排列得到的队列。
6.根据权利要求1所述的基于知识图谱多级搜索的智能问答方法,其特征在于,所述若第T轮训练结束后,找到答案的命中率高于全量搜索的该指标,则结束整个答案搜索过程,并保留知识图谱子图搜索训练产生的模型,包括:
若第T轮训练结束后,找到答案的命中率高于全量搜索的该指标,则结束整个答案搜索过程,并从所述层级搜索分布队列中第一个元素开始累加求和,若前K个元素累加之和高于全量搜索的命中率,则保留知识图谱的K层子图搜索训练产生的模型。
7.根据权利要求1所述的基于知识图谱多级搜索的智能问答方法,其特征在于,还包括:
若层级搜索分布队列全部元素累加之和小于阈值R,则在下一轮训练时扩大候选答案搜索范围。
8.一种基于知识图谱多级搜索的智能问答装置,其特征在于,包括:
识别单元,用于对问句进行语法分析得到语法依存树,利用自然语言处理技术识别以下元素:问句类型词QT、问句线索词QF、问句动词QV和问句中心词QC;
向量构建单元,用于将所述问句类型词QT、问句线索词QF、问句动词QV和问句中心词QC分别转化为词向量EmQT、EmQF、EmQV、EmQC,构建<EmQC,EmQT>、<EmQC,EmQF>、<EmQC,EmQV>、<EmQV,EmQF>四种词向量对,并依据所述四种词向量对构建问句特征向量;
全量搜索单元,用于从问句中心词QC开始,在预先构建的知识图谱里进行搜索,查找所述问句中心词QC的所有关系节点,并将所查找到的关系节点的属性进行向量化,构建关系节点的答案特征向量;采用问句特征向量和答案特征向量构建样本集,并分为训练集和测试集;采用机器学习算法在训练集上进行训练,然后在测试集上进行测试,统计所有问句对应答案的层级分布;
子图搜索单元,用于预先设置问句的意图类别,对每类问句,将全量搜索得到的层级分布比例最大的一层,设为第M层,设定训练轮数T;设定答案节点的初始搜索范围为包含第M个关系节点层和其内外共N个关系节点层;利用机器学习算法在知识图谱上寻找答案,在第T轮训练结束后,对初始搜索范围中的每一层,统计各层得到的答案数量占全部问句正确答案的比例,形成层级搜索分布队列;
搜索范围调整单元,用于若第T轮训练结束后,找到答案的命中率高于全量搜索的该指标,则结束整个答案搜索过程,并保留知识图谱子图搜索训练产生的模型;若第T轮训练结束后,没有任何一轮找到答案的命中率高于全量搜索的该指标,则保留全量搜索训练产生的模型;
智能问答单元,用于利用保留的模型对输入的问句进行智能搜索,输出答案。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的基于知识图谱多级搜索的智能问答方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至7任一项所述的基于知识图谱多级搜索的智能问答方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010705774.XA CN111813916B (zh) | 2020-07-21 | 2020-07-21 | 一种智能问答方法、装置、计算机设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010705774.XA CN111813916B (zh) | 2020-07-21 | 2020-07-21 | 一种智能问答方法、装置、计算机设备和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111813916A true CN111813916A (zh) | 2020-10-23 |
CN111813916B CN111813916B (zh) | 2024-03-05 |
Family
ID=72861766
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010705774.XA Active CN111813916B (zh) | 2020-07-21 | 2020-07-21 | 一种智能问答方法、装置、计算机设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111813916B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112632226A (zh) * | 2020-12-29 | 2021-04-09 | 天津汇智星源信息技术有限公司 | 基于法律知识图谱的语义搜索方法、装置和电子设备 |
CN113722452A (zh) * | 2021-07-16 | 2021-11-30 | 上海通办信息服务有限公司 | 一种问答系统中基于语义的快速知识命中方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017181834A1 (zh) * | 2016-04-19 | 2017-10-26 | 中兴通讯股份有限公司 | 一种智能问答方法及装置 |
CN107748757A (zh) * | 2017-09-21 | 2018-03-02 | 北京航空航天大学 | 一种基于知识图谱的问答方法 |
CN107766483A (zh) * | 2017-10-13 | 2018-03-06 | 华中科技大学 | 一种基于知识图谱的交互式问答方法及系统 |
CN111177383A (zh) * | 2019-12-24 | 2020-05-19 | 上海大学 | 一种融合文本语法结构和语义信息的文本实体关系自动分类方法 |
CN111309877A (zh) * | 2018-12-12 | 2020-06-19 | 北京文因互联科技有限公司 | 一种基于知识图谱的智能问答方法及系统 |
-
2020
- 2020-07-21 CN CN202010705774.XA patent/CN111813916B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017181834A1 (zh) * | 2016-04-19 | 2017-10-26 | 中兴通讯股份有限公司 | 一种智能问答方法及装置 |
CN107748757A (zh) * | 2017-09-21 | 2018-03-02 | 北京航空航天大学 | 一种基于知识图谱的问答方法 |
CN107766483A (zh) * | 2017-10-13 | 2018-03-06 | 华中科技大学 | 一种基于知识图谱的交互式问答方法及系统 |
CN111309877A (zh) * | 2018-12-12 | 2020-06-19 | 北京文因互联科技有限公司 | 一种基于知识图谱的智能问答方法及系统 |
CN111177383A (zh) * | 2019-12-24 | 2020-05-19 | 上海大学 | 一种融合文本语法结构和语义信息的文本实体关系自动分类方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112632226A (zh) * | 2020-12-29 | 2021-04-09 | 天津汇智星源信息技术有限公司 | 基于法律知识图谱的语义搜索方法、装置和电子设备 |
CN112632226B (zh) * | 2020-12-29 | 2021-10-26 | 天津汇智星源信息技术有限公司 | 基于法律知识图谱的语义搜索方法、装置和电子设备 |
CN113722452A (zh) * | 2021-07-16 | 2021-11-30 | 上海通办信息服务有限公司 | 一种问答系统中基于语义的快速知识命中方法及装置 |
CN113722452B (zh) * | 2021-07-16 | 2024-01-19 | 上海通办信息服务有限公司 | 一种问答系统中基于语义的快速知识命中方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111813916B (zh) | 2024-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11017178B2 (en) | Methods, devices, and systems for constructing intelligent knowledge base | |
CN108829822B (zh) | 媒体内容的推荐方法和装置、存储介质、电子装置 | |
CN106919655B (zh) | 一种答案提供方法和装置 | |
CN110096567B (zh) | 基于qa知识库推理的多轮对话回复选择方法、系统 | |
CN112163077B (zh) | 一种面向领域问答的知识图谱构建方法 | |
CN109271524B (zh) | 知识库问答系统中的实体链接方法 | |
CN109388743B (zh) | 语言模型的确定方法和装置 | |
US11461613B2 (en) | Method and apparatus for multi-document question answering | |
CN112836029A (zh) | 一种基于图的文档检索方法、系统及其相关组件 | |
CN110765348A (zh) | 一种热词的推荐方法、装置、电子设备及存储介质 | |
CN108763221B (zh) | 一种属性名表征方法及装置 | |
CN111813916B (zh) | 一种智能问答方法、装置、计算机设备和介质 | |
CN113761192B (zh) | 文本处理方法、文本处理装置及文本处理设备 | |
CN118093828A (zh) | 问答方法、系统、装置及介质 | |
CN109977235B (zh) | 一种触发词的确定方法和装置 | |
JP2001188678A (ja) | 言語事例推論装置,言語事例推論方法及び言語事例推論プログラムが記述された記憶媒体 | |
CN114969001B (zh) | 一种数据库元数据字段匹配方法、装置、设备及介质 | |
CN113886535B (zh) | 基于知识图谱的问答方法、装置、存储介质及电子设备 | |
CN111783465B (zh) | 一种命名实体归一化方法、系统及相关装置 | |
CN114676237A (zh) | 语句相似度确定方法、装置、计算机设备和存储介质 | |
CN113763934A (zh) | 音频识别模型的训练方法、装置和存储介质及电子设备 | |
CN111414459A (zh) | 人物关系获取方法、装置、电子设备及存储介质 | |
CN116431774A (zh) | 问答方法及装置 | |
CN114817490A (zh) | 用于辅助外语智能对话的方法及装置、智能对话系统 | |
CN113987135A (zh) | 一种银行产品问题检索方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Country or region after: China Address after: Room 2301, building 2, Fangda Plaza, No.20, Gaofa West Road, Taoyuan community, Taoyuan Street, Nanshan District, Shenzhen, Guangdong 518000 Applicant after: China Resources Digital Technology Co.,Ltd. Address before: Room 2301, building 2, Fangda Plaza, No.20, Gaofa West Road, Taoyuan community, Taoyuan Street, Nanshan District, Shenzhen, Guangdong 518000 Applicant before: Runlian software system (Shenzhen) Co.,Ltd. Country or region before: China |
|
GR01 | Patent grant | ||
GR01 | Patent grant |