CN112100348A - 一种多粒度注意力机制的知识库问答关系检测方法及系统 - Google Patents
一种多粒度注意力机制的知识库问答关系检测方法及系统 Download PDFInfo
- Publication number
- CN112100348A CN112100348A CN202010904078.1A CN202010904078A CN112100348A CN 112100348 A CN112100348 A CN 112100348A CN 202010904078 A CN202010904078 A CN 202010904078A CN 112100348 A CN112100348 A CN 112100348A
- Authority
- CN
- China
- Prior art keywords
- relation
- question
- word
- candidate
- relationship
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000007246 mechanism Effects 0.000 title claims abstract description 46
- 238000001514 detection method Methods 0.000 title claims abstract description 33
- 239000013598 vector Substances 0.000 claims abstract description 60
- 235000019580 granularity Nutrition 0.000 claims abstract description 21
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 14
- 238000000034 method Methods 0.000 claims description 35
- 230000015654 memory Effects 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000002457 bidirectional effect Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 230000003993 interaction Effects 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 4
- 230000014509 gene expression Effects 0.000 abstract description 4
- 238000012545 processing Methods 0.000 abstract description 3
- 238000013528 artificial neural network Methods 0.000 description 7
- 230000007547 defect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 125000004122 cyclic group Chemical group 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000007787 long-term memory Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于网络信息数据处理技术领域,公开了一种多粒度注意力机制的知识库问答关系检测方法及系统,将端到端的思想应用在了知识库问答领域,把知识库问答问题与先进计算机技术相结合,从多个粒度对问题和知识库关系的相关性进行了建模。使用Glove算法将问题和候选关系转换成词嵌入,从词级、关系级两种粒度建立关系表示以获取丰富的关系语义,并引入注意机制实现关系检测中字符之间的细粒度对齐,计算问题向量和候选关系向量的语义相似性,语义相似性最高的候选关系所连接的答案即为正确答案。本发明绕开了最困难的问句理解步骤,并在向量空间模型中保留了丰富的语义信息,使得知识库问答的准确率得到了提高。
Description
技术领域
本发明属于网络信息数据处理技术领域,尤其涉及一种多粒度注意力机制的知识库问答关系检测方法及系统。
背景技术
目前,随着互联网技术的高速发展,网络信息数据指数式增长。在信息大数据时代,在面对海量的信息时,如何迅速准确地获取所需要的信息是用户的迫切需求。知识库问答(Knowledge Base Question Answer)使人们能够使用自然语言查询知识库,并提供了一种可行的信息获取方式,具有重大的实际应用价值,不仅能够快速准确地找到信息可以让人们的生活变得非常便利,例如:查询天气,股票价格,飞机航班情况等,而且可以部分的代替人工劳动,大大减少企业的人力成本,例如:替代人工客服对客户进行自动回答。
知识库问答系统通过从KB元组获取信息来回答问题,对于输入问题,这些系统通常生成一个KB查询,可以执行该查询从KB检索答案。涉及两个子任务:确定问题中提到的主题实体和检测从主题实体到答案的关系路径,即实体链接和关系检测,关系检测在KBQA中起着至关重要的作用。现有的KBQA方法大多遵循编码—比较框架,它们将问题和知识库事实映射到一个公共的嵌入空间,在该空间中,可以方便地计算问题向量和事实向量之间的相似度,由于关系表达的模糊性和语义多样性,因此检测困难。据报道,大多数错误的答案是由关系检测造成的。
通过上述分析,现有技术存在的问题及缺陷为:
语义解析:该方法是一种偏linguistic的方法,主体思想是将自然语言转化为一系列形式化的逻辑形式,通过对逻辑形式进行自底向上的解析,得到一种可以表达整个问题语义的逻辑形式,通过相应的查询语句在知识库中进行查询,从而得出答案。基于语义解析的方法虽然比较符合人类的直觉,但是需要依赖较多的人工标注数据和模板,缺乏灵活性和通用性。
信息抽取:该类方法通过提取问题中的实体,通过在知识库中查询该实体可以得到以该实体节点为中心的知识库子图,子图中的每一个节点或边都可以作为候选答案,通过观察问题依据某些规则或模板进行信息抽取,得到问题特征向量,建立分类器通过输入问题特征向量对候选答案进行筛选,从而得出最终答案,缺点是比较依赖人工模板和先验知识。
向量建模:首先使用一个n-gram的问题文本生成一组候选的知识库事实,然后通过实体检测找到问题中的实体,与该实体相关的关系构成关系候选,通过一个深层神经网络将候选问题和关系名称映射到一个公共的嵌入空间中,然后进行向量比较来度量它们之间的语义相似度。但这种方法有两个缺陷:(1)编码嵌入向量只能捕捉到语义信息,失去了原有的词语交互信息;(2)当使用神经网络将问题或关系编码成一个向量序列时,在计算语义相似度之前向量序列必须合并成固定维向量,此时一些重要信息可能会丢失。
解决以上问题及缺陷的难度为:知识库问答需要深入理解人提出的问题。人们的问题都是以自然语言方式呈现的,问句理解要做的就是要将自然语言转化成计算机可以理解的形式化语言,让计算机理解人类语言是一件非常困难的事情,这也是自然语言处理(Natural Language Processing)要解决核心的问题。虽然基于向量空间建模的方法能够自动学习问句和答案相关信息的向量表示,通过向量在向量空间内的相似度来找到答案,但如何将问题词和关系词转换为分布式表达便成为一个很大的难题。当获得了问题和关系的向量序列,如何捕捉问题词和关系之间的交互信息是更大的一个难题,因为无论多长的句子,最终都要被压缩成一个固定维度的向量表示。这意味着对于越长的语句,语义向量会丢失越多的语义信息,而且早期输入的词语信息容易被后期输入的词语信息覆盖。
解决以上问题及缺陷的意义为:在面对海量的信息时,如何迅速准确地获取所需要的信息是用户的迫切需求。相对于搜索引擎,知识库问答系统可以根据用户提出的自然语言问句,直接返回用户所需要的答案信息,减少用户的获取信息的时间成本。知识库问答系统以其快速精确为用户返回所需信息的特性已经吸引了许多研究者和商业公司的共同关注。并且随着自然语言处理技术的进步和深度学习的快速发展,为知识库问答提供了新的方向和可能。对于基于知识库的自动问答系统的研究,能够使得人们获取信息变得更加简单、快捷和准确,也能够加深对自然语言理解问题的深入研究,同时对于文本分类、推荐系统等其他自然语言处理领域也有重要的参考价值。本发明使用注意力机制及相关网络,学习问题词和关系词之间基于注意力的软对齐,然后再对所学习的单词进行交互比较,捕捉更高层次的信息,解决了知识库问答中编码-比较框架常见的信息丢失问题,在很大程度上提高了知识库问答的准确率。
发明内容
针对现有技术存在的问题,本发明提供了一种多粒度注意力机制的知识库问答关系检测方法及系统。
本发明是这样实现的,一种多粒度注意力机制的知识库问答关系检测方法,应用于客户端,所述多粒度注意力机制的知识库问答关系检测方法包括:
使用Glove算法将问题和候选关系转换成词嵌入,从词级、关系级两种粒度建立关系表示获取丰富的关系语义,并引入注意机制实现关系检测中字符之间的细粒度对齐;
计算问题向量和候选关系向量的语义相似性,语义相似性最高的候选关系所连接的答案即为正确答案。
进一步,使用Glove算法将问题和候选关系转换成词嵌入,从词级、关系级两种粒度建立关系表示获取丰富的关系语义中,包括:将问题中的实体用<entity>代替转换为问题模式P,先将每个单词用Glove预训练成词向量表示,再使用一个双向的GRU网络对词向量进行编码以获得问题的上下文表示;问题和关系中的单词具有相同的词嵌入,问题编码定义如下:
P=Bi-GRU([w1,w2,w3,…wQ])。
进一步,使用Glove算法将问题和候选关系转换成词嵌入,从词级、关系级两种粒度建立关系表示获取丰富的关系语义中,进一步包括:
从单词级和关系级来进行编码,对于候选关系R中的每个关系r,使用Glove模型转换为训练的词嵌入,词级将候选关系中的每一个单词视为token,单词级关注词和短语的信息,不同的词匹配不同长度的短语,但缺乏相对原始的全局信息;
关系级将整个关系名称视为token,当将关系名作为单个标记处理时,不能将问题与关系名匹配,关系名匹配问题中较长的短语,关注全局信息;
单词级输入的关系为rw={r1 w,r2 w,r3 w},关系级输入的关系为rrel,整个模型输入关系视为为r={rw,rrel};
最后结合一个双向的GRU网络表示单词及上下文,关系的上下文感知表示定义如下:
r=Bi-GRU([r1,r2,r3,…rR])。
进一步,引入注意机制实现关系检测中字符之间的细粒度对齐中,注意力机制学习问题与关系之间的细粒度交互,关系的每个部分对问题的关注程度不同决定问题如何表示,将注意的程度作为问题中每个单词的权重;对于候选关系中的每一个关系ri,问题模式wi的注意力表示Pi计算如下:
wij=vT·pi·WT·rj
式中,wij代表问题模式中单词wi和候选关系中单词rj之间的相似度,v和W均是可学习的矩阵,ai,j是问题中单词与关系之间的注意权重,代表问题中第i个单词对关系中第j个单词的注意力权重。
进一步,计算问题向量和候选关系向量的语义相似性,语义相似性最高的候选关系所连接的答案即为正确答案的方法具体包括:
计算问题模式p和候选关系R之间的每个关系r的语义相似度s(p,r),并选择得分最高的关系作为最终结果;
经过两个粒度的问题和关系匹配,得到四个不同方面的特征匹配分数(S1,S2,S3,S4),这里的运算是两个向量的点积,相似性由以下公式计算:
最后使用一个线性层来学习各自对整体匹配分数S(p,r)的贡献,选取语义相似性最高的候选关系对应的答案为最终答案;
s(p,r)=Sigmoid(WT[s1,s2,s3,s4])。
本发明的另一目的在于提供一种所述多粒度注意力机制的知识库问答关系检测方法在端对端的基础上对知识进行读入和写出上的应用。
进一步,在人工客服端对客户端查询天气,股票价格,飞机航班情况进行自动回答的应用。
本发明的另一目的在于提供一种多粒度注意力机制的知识库问答关系检测系统,应用于客户端,所述多粒度注意力机制的知识库问答关系检测系统包括:
丰富关系语义获取模块,用于使用Glove算法将问题和候选关系转换成词嵌入,从词级、关系级两种粒度建立关系表示获取丰富的关系语义,
注意机制检测模块,利用注意机制实现关系检测中字符之间的细粒度对齐;
正确答案获取模块,用于计算问题向量和候选关系向量的语义相似性,语义相似性最高的候选关系所连接的答案即为正确答案。
本发明的另一目的在于提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:
构建问题模式P与候选关系R之间的两个相关粒度即单词级和关系级的匹配,并使用注意力机制捕获问题和候选关系之间更深层次的信息,使语义相似性计算匹配准确。
本发明的另一目的在于提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
构建问题模式P与候选关系R之间的两个相关粒度即单词级和关系级的匹配,并使用注意力机制捕获问题和候选关系之间更深层次的信息,使语义相似性计算匹配准确。
结合上述的所有技术方案,本发明所具备的优点及积极效果为:使用深度学习的方法对文本数据进行处理,在训练问题的向量表达时,用循环神经网络来代替传统的特征工程,循环神经网络由于其特殊的网络结构,能够很好地处理输入词汇之间的上下文信息,从而保留了顺序特征。同时用神经网络提取出的特征的表达性也往往比传统的人工定义的特征的表达性更强大,在训练候选答案的向量表达时,采取与向量空间模型中相似的做法,从词级和关系级两个粒度对答案进行建模和向量表示,最终将这些向量通过Embedding矩阵映射到低维连续空间,得到多个特征向量。将这些特征向量进行简单的加权、组合或求均值,得到的结果可以作为答案的特征向量。由于每个答案都有自己固有的属性,在提出问题时,重点关注与问题关键词相近的答案从而能够快速缩小候选答案的范围,因此引入注意力机制,针对答案自身的不同特征来从问题中获得相应的特征向量。
为了提高关系检测的准确率,本发明将端到端的思想应用在了知识库问答领域,把知识库问答问题与先进计算机技术相结合,在传统的向量空间模型中,从多个粒度对问题和知识库关系的相关性进行了建模。对于一个问题,使用Glove算法将问题和候选关系转换成词嵌入,从词级、关系级两种粒度建立关系表示以获取丰富的关系语义,并引入注意机制实现关系检测中字符之间的细粒度对齐,最后计算问题向量和候选关系向量的语义相似性,语义相似性最高的候选关系所连接的答案即为正确答案。该方法在端对端的基础上对知识进行读入和写出,绕开了最困难的问句理解步骤,并在向量空间模型中保留了丰富的语义信息,使得知识库问答的准确率得到了提高。
本发明在知识库问答中,当检测的实体和关系都正确时,最后的答案才会正确,表1展示了本发明在SimpleQuestions知识库问答上最终任务上的实验效果,对比模型1提出基于character level的注意力机制编码模型,很大程度改善了OOV问题;对比模型2提出的记忆网络模型,通过引入长期记忆组件(long-term memory component)来解决神经网络长程记忆困难的问题;对比模型3使用残差网络解决训练时深层的LSTM陷入局部最优解问题,获取问题和关系之间的层次匹配;对比模型4将擅长处理空间相关数据的CNN与能较好按照顺序处理时间信号的RNN结合,并使用注意力机制同时跟踪实体和关系来捕获综合分层信息;但这些模型忽视了问题关系词和候选关系之间的联系,本文通过计算问题关系词和候选关系的相似性来对候选关系和实体进行排序,再从单词级和关系级分别对候选关系进行建模,使用注意力机制捕获问题和关系之间的深层匹配信息,从而提高了模型的准确率,实验结果表明,本发明对知识库问答终端任务性能有着明显的提升。
表1 SimpleQuestions知识库问答准确率
对比的技术效果或者实验效果包括:
将本发明的关系检测模型与几个基线模型进行对比,在SimpleQuestions知识库上实验效果如图2所示,当去除单词级或者关系级注意力编码时,准确率分别下降0.9%和0.5%,可看出单词级和关系级结合编码可以互补,不仅考虑了单词和短语信息,而且包含了全局上下文信息,多粒度注意力机制能够从多个角度捕获问题和候选关系之间的深层匹配信息,丰富了语义信息从而提高了关系检测准确率。而在去除注意力机制时,关系检测准确率下降的最多为1.9%,证明了本发明多粒度注意力机制的有效性。
表2 SimpleQuestions关系检测准确率
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的多粒度注意力机制的知识库问答关系检测方法流程图。
图2是本发明实施例提供的多粒度注意力匹配模型图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种多粒度注意力机制的知识库问答关系检测方法及系统,下面结合附图对本发明作详细的描述。
如图1所示,本发明提供一种多粒度注意力机制的知识库问答关系检测方法,应用于客户端,包括:
S101,使用Glove算法将问题和候选关系转换成词嵌入,从词级、关系级两种粒度建立关系表示获取丰富的关系语义。
S102,引入注意机制实现关系检测中字符之间的细粒度对齐。
S103,计算问题向量和候选关系向量的语义相似性,语义相似性最高的候选关系所连接的答案即为正确答案。
本发明还提供一种多粒度注意力机制的知识库问答关系检测系统,应用于客户端,所述多粒度注意力机制的知识库问答关系检测系统包括:
丰富关系语义获取模块,用于使用Glove算法将问题和候选关系转换成词嵌入,从词级、关系级两种粒度建立关系表示获取丰富的关系语义,
注意机制检测模块,利用注意机制实现关系检测中字符之间的细粒度对齐;
正确答案获取模块,用于计算问题向量和候选关系向量的语义相似性,语义相似性最高的候选关系所连接的答案即为正确答案。
本发明还提供一种多粒度注意力机制搜索引擎推荐系统,用于客户端,所述多粒度注意力机制搜索引擎推荐系统包括:
问题分析模块,对于用户提出的问题,使用Glove算法提取上下文信息转换为词嵌入。
多粒度注意力模块,使用n-gram方法提取搜索引擎答案中的关键词,分别从词级和关系级进行表示,并使用Glove算法将其转换为词嵌入,使用注意力机制获取用户问题和搜索引擎问题的深层匹配特征,计算它们之间的语义相似性。
答案返回模块,对于用户的问题,根据语义相似性的排序,依次按顺序返回答案供用户参考。
下面结合具体实施例对本发明作进一步描述。
实施例
针对知识库问答中复杂的语义理解问题,本发明直接使用深度学习的方法对问题和知识库的事实进行编码,该方法避开了问句理解过程具有更强的适用性,改善了向量建模过程中容易丢失原有语句信息的问题,本发明构建了问题模式P与候选关系R之间的两个相关粒度即单词级和关系级的匹配,并使用注意力机制捕获问题和候选关系之间更深层次的信息,使得语义相似性计算更为准确,知识库问答准确率得到提高,多粒度注意力匹配模型如图2所示。
具体包括:
第一步,问题模式编码,为了减少实体对特征匹配的干扰,将问题中的实体用<entity>代替转换为问题模式P,为了更好的匹配关系编码层不同级别的关系表示,先将每个单词用Glove预训练成词向量表示,再使用一个双向的GRU网络对词向量进行编码以获得问题的上下文表示。问题和关系中的单词具有相同的词嵌入,问题编码定义如下:
P=Bi-GRU([w1,w2,w3,…wQ])
第二步,关系编码,为了丰富关系表示,从单词级和关系级来进行编码,对于候选关系R中的每个关系r,使用Glove模型转换为可训练的词嵌入,词级将候选关系中的每一个单词视为token,如“people-person-spouse”将被分为单独的单词“people”、“person”、“spouse”,单词级更关注词和短语的信息,不同的词可以匹配不同长度的短语,具有很好的泛化能力,但缺乏相对原始的全局信息。关系级将整个关系名称视为token,如“people-person-spouse”,当将关系名作为单个标记处理时,很难将问题与关系名匹配,关系名可以匹配问题中较长的短语,更关注全局信息。单词级输入的关系为rw={r1 w,r2 w,r3 w},关系级输入的关系为rrel,整个模型输入关系视为为r={rw,rrel}。最后结合一个双向的GRU网络来表示单词及其上下文,关系的上下文感知表示可以正式定义如下:
r=Bi-GRU([r1,r2,r3,…rR])
第三步:注意力机制,注意力机制旨在学习问题与关系之间的细粒度交互,关系的每个部分对问题的关注程度不同从而决定问题如何表示,将注意的程度作为问题中每个单词的权重。对于候选关系中的每一个关系ri,问题模式wi的注意力表示Pi计算如下:
wij=vT·pi·WT·rj
式中,wij代表问题模式中单词wi和候选关系中单词rj之间的相似度,v和W均是可学习的矩阵,ai,j是问题中单词与关系之间的注意权重,代表问题中第i个单词对关系中第j个单词的注意力权重。
第四步:输出层,计算问题模式p和候选关系R之间的每个关系r的语义相似度s(p,r),并选择得分最高的关系作为最终结果。
经过两个粒度的问题和关系匹配,可以得到四个不同方面的特征匹配分数(S1,S2,S3,S4),这里的运算是两个向量的点积,它们的相似性由以下公式计算:
最后使用一个线性层来学习它们各自对整体匹配分数S(p,r)的贡献,选取语义相似性最高的候选关系对应的答案为最终答案。
s(p,r)=Sigmoid(WT[s1,s2,s3,s4])。
具体实施例:
本发明还提供一种基于注意力机制的智能问答系统,应用于高校招生智能问答客户端,使用注意力机制捕获学生问题和知识库问题的深层匹配信息,使学生在招生咨询提问时问题准确率有所提升,主要包括:
构建知识库模块,搜集高校招生时常见的问题集,并撰写对应的答案,将问题和答案分类整理同时存储到知识库中,形成高校招生智能问答知识库。
问题主体识别模块,使用BiLSTM-CRF网络来识别问题中的主体,它具有良好的序列建模能力,主要用来预测问题中的每一个单词是否属于关键词,首先使用Glove初始化问题单词嵌入得到单词级的特征信息,并将其输入到BiLSTM网络中获取上下文信息,使用每个时间步上的隐藏层状态,在每个时间步上分别将正向和反向LSTM的隐藏层状态进行拼接得到向量序列,但经过线性层后输出的实体标签分数有时存在误差,此时接入CRF层来进行最终的预测,提取问题中的关键词。
问题匹配模块,将问题关键词与知识库中的问题进行匹配,在匹配时使用注意力机制捕获学生问题和知识库中问题的相似性,相似性最高的问题即为知识库中最能描述学生问题的问题。
答案返回模块,通过确定的知识库问题,对知识库进行查询,返回知识库中事先存储的答案。
在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上;术语“上”、“下”、“左”、“右”、“内”、“外”、“前端”、“后端”、“头部”、“尾部”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”等仅用于描述目的,而不能理解为指示或暗示相对重要性。
应当注意,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种多粒度注意力机制的知识库问答关系检测方法,应用于客户端,其特征在于,所述多粒度注意力机制的知识库问答关系检测方法包括:
使用Glove算法将问题和候选关系转换成词嵌入,从词级、关系级两种粒度建立关系表示获取丰富的关系语义,并引入注意机制实现关系检测中字符之间的细粒度对齐;
计算问题向量和候选关系向量的语义相似性,语义相似性最高的候选关系所连接的答案即为正确答案。
2.如权利要求1所述的多粒度注意力机制的知识库问答关系检测方法,其特征在于,使用Glove算法将问题和候选关系转换成词嵌入,从词级、关系级两种粒度建立关系表示获取丰富的关系语义中,包括:将问题中的实体用<entity>代替转换为问题模式P,先将每个单词用Glove预训练成词向量表示,再使用一个双向的GRU网络对词向量进行编码以获得问题的上下文表示;问题和关系中的单词具有相同的词嵌入,问题编码定义如下:
P=Bi-GRU([w1,w2,w3,…wQ])。
3.如权利要求1所述的多粒度注意力机制的知识库问答关系检测方法,其特征在于,使用Glove算法将问题和候选关系转换成词嵌入,从词级、关系级两种粒度建立关系表示获取丰富的关系语义中,进一步包括:
从单词级和关系级来进行编码,对于候选关系R中的每个关系r,使用Glove模型转换为训练的词嵌入,词级将候选关系中的每一个单词视为token,单词级关注词和短语的信息,不同的词匹配不同长度的短语,但缺乏相对原始的全局信息;
关系级将整个关系名称视为token,当将关系名作为单个标记处理时,不能将问题与关系名匹配,关系名匹配问题中较长的短语,关注全局信息;
单词级输入的关系为rw={r1 w,r2 w,r3 w},关系级输入的关系为rrel,整个模型输入关系视为为r={rw,rrel};
最后结合一个双向的GRU网络表示单词及上下文,关系的上下文感知表示定义如下:
r=Bi-GRU([r1,r2,r3,…rR])。
5.如权利要求1所述的多粒度注意力机制的知识库问答关系检测方法,其特征在于,计算问题向量和候选关系向量的语义相似性,语义相似性最高的候选关系所连接的答案即为正确答案的方法具体包括:
计算问题模式p和候选关系R之间的每个关系r的语义相似度s(p,r),并选择得分最高的关系作为最终结果;
经过两个粒度的问题和关系匹配,得到四个不同方面的特征匹配分数(S1,S2,S3,S4),这里的运算是两个向量的点积,相似性由以下公式计算:
最后使用一个线性层来学习各自对整体匹配分数S(p,r)的贡献,选取语义相似性最高的候选关系对应的答案为最终答案;
s(p,r)=Sigmoid(WT[s1,s2,s3,s4])。
6.一种如权利要求1~5任意一项所述多粒度注意力机制的知识库问答关系检测方法在端对端的基础上对知识进行读入和写出上的应用。
7.如权利要求6所述的应用,其特征在于,在人工客服端对客户端查询天气,股票价格,飞机航班情况进行自动回答的应用。
8.一种多粒度注意力机制的知识库问答关系检测系统,应用于客户端,其特征在于,所述多粒度注意力机制的知识库问答关系检测系统包括:
丰富关系语义获取模块,用于使用Glove算法将问题和候选关系转换成词嵌入,从词级、关系级两种粒度建立关系表示获取丰富的关系语义,
注意机制检测模块,利用注意机制实现关系检测中字符之间的细粒度对齐;
正确答案获取模块,用于计算问题向量和候选关系向量的语义相似性,语义相似性最高的候选关系所连接的答案即为正确答案。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:
构建问题模式P与候选关系R之间的两个相关粒度即单词级和关系级的匹配,并使用注意力机制捕获问题和候选关系之间更深层次的信息,使语义相似性计算匹配准确。
10.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
构建问题模式P与候选关系R之间的两个相关粒度即单词级和关系级的匹配,并使用注意力机制捕获问题和候选关系之间更深层次的信息,使语义相似性计算匹配准确。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010904078.1A CN112100348A (zh) | 2020-09-01 | 2020-09-01 | 一种多粒度注意力机制的知识库问答关系检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010904078.1A CN112100348A (zh) | 2020-09-01 | 2020-09-01 | 一种多粒度注意力机制的知识库问答关系检测方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112100348A true CN112100348A (zh) | 2020-12-18 |
Family
ID=73757397
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010904078.1A Pending CN112100348A (zh) | 2020-09-01 | 2020-09-01 | 一种多粒度注意力机制的知识库问答关系检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112100348A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112732879A (zh) * | 2020-12-23 | 2021-04-30 | 重庆理工大学 | 一种问答任务的下游任务处理方法及模型 |
CN112966527A (zh) * | 2021-04-21 | 2021-06-15 | 吉林大学 | 一种基于自然语言推理的关系抽取模型 |
CN113157886A (zh) * | 2021-04-19 | 2021-07-23 | 西安交通大学深圳研究院 | 一种自动问答生成方法、系统、终端及可读存储介质 |
CN113268574A (zh) * | 2021-05-25 | 2021-08-17 | 山东交通学院 | 一种基于依赖结构的图卷积网络知识库问答方法及系统 |
CN113590790A (zh) * | 2021-07-30 | 2021-11-02 | 北京壹心壹翼科技有限公司 | 应用于多轮问答的问题检索方法、装置、设备及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170109355A1 (en) * | 2015-10-16 | 2017-04-20 | Baidu Usa Llc | Systems and methods for human inspired simple question answering (hisqa) |
CN110059160A (zh) * | 2019-04-17 | 2019-07-26 | 东南大学 | 一种端到端的基于上下文的知识库问答方法及装置 |
CN111104492A (zh) * | 2019-09-19 | 2020-05-05 | 中国民航信息网络股份有限公司 | 一种基于层次化Attention机制的民航领域自动问答方法 |
CN111400455A (zh) * | 2020-03-18 | 2020-07-10 | 北京工业大学 | 基于知识图谱的问答系统的关系检测方法 |
-
2020
- 2020-09-01 CN CN202010904078.1A patent/CN112100348A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170109355A1 (en) * | 2015-10-16 | 2017-04-20 | Baidu Usa Llc | Systems and methods for human inspired simple question answering (hisqa) |
CN110059160A (zh) * | 2019-04-17 | 2019-07-26 | 东南大学 | 一种端到端的基于上下文的知识库问答方法及装置 |
CN111104492A (zh) * | 2019-09-19 | 2020-05-05 | 中国民航信息网络股份有限公司 | 一种基于层次化Attention机制的民航领域自动问答方法 |
CN111400455A (zh) * | 2020-03-18 | 2020-07-10 | 北京工业大学 | 基于知识图谱的问答系统的关系检测方法 |
Non-Patent Citations (2)
Title |
---|
YANCHAO HAO 等: "An End-to-End Model for Question Answering over Knowledge Base with Cross-Attention Combining Global Knowledge", 《HTTPS://WWW.ACLWEB.ORG/ANTHOLOGY/P17-1021.PDF》 * |
YINGQI QU 等: "Question Answering over Freebase via Attentive RNN with Similarity Matrix based CNN", 《HTTPS://ARXIV.ORG/VC/ARXIV/PAPERS/1804/1804.03317V2.PDF》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112732879A (zh) * | 2020-12-23 | 2021-04-30 | 重庆理工大学 | 一种问答任务的下游任务处理方法及模型 |
CN113157886A (zh) * | 2021-04-19 | 2021-07-23 | 西安交通大学深圳研究院 | 一种自动问答生成方法、系统、终端及可读存储介质 |
CN112966527A (zh) * | 2021-04-21 | 2021-06-15 | 吉林大学 | 一种基于自然语言推理的关系抽取模型 |
CN113268574A (zh) * | 2021-05-25 | 2021-08-17 | 山东交通学院 | 一种基于依赖结构的图卷积网络知识库问答方法及系统 |
CN113590790A (zh) * | 2021-07-30 | 2021-11-02 | 北京壹心壹翼科技有限公司 | 应用于多轮问答的问题检索方法、装置、设备及介质 |
CN113590790B (zh) * | 2021-07-30 | 2023-11-28 | 北京壹心壹翼科技有限公司 | 应用于多轮问答的问题检索方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111444726B (zh) | 基于双向格子结构的长短时记忆网络的中文语义信息提取方法和装置 | |
CN112100348A (zh) | 一种多粒度注意力机制的知识库问答关系检测方法及系统 | |
CN112115238B (zh) | 一种基于bert和知识库的问答方法和系统 | |
Zhu et al. | Knowledge-based question answering by tree-to-sequence learning | |
CN111738003B (zh) | 命名实体识别模型训练方法、命名实体识别方法和介质 | |
CN111639171A (zh) | 一种知识图谱问答方法及装置 | |
CN111046670B (zh) | 基于毒品案件法律文书的实体及关系联合抽取方法 | |
CN110597961A (zh) | 一种文本类目标注方法、装置、电子设备及存储介质 | |
CN112749562A (zh) | 命名实体识别方法、装置、存储介质及电子设备 | |
CN113962219A (zh) | 面向电力变压器知识检索和问答的语义匹配方法及系统 | |
CN112328800A (zh) | 自动生成编程规范问题答案的系统及方法 | |
CN112766507B (zh) | 基于嵌入式和候选子图剪枝的复杂问题知识库问答方法 | |
CN111368058A (zh) | 一种基于迁移学习的问答匹配方法 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN110968708A (zh) | 一种教育信息资源属性标注方法及系统 | |
CN111858896A (zh) | 一种基于深度学习的知识库问答方法 | |
CN113919366A (zh) | 一种面向电力变压器知识问答的语义匹配方法和装置 | |
CN114661872A (zh) | 一种面向初学者的api自适应推荐方法与系统 | |
Wintner | Computational models of language acquisition | |
CN115238691A (zh) | 基于知识融合的嵌入的多意图识别与槽位填充模型 | |
CN113377844A (zh) | 面向大型关系型数据库的对话式数据模糊检索方法及装置 | |
CN115982338B (zh) | 一种基于查询路径排序的领域知识图谱问答方法及系统 | |
CN114757183B (zh) | 一种基于对比对齐网络的跨领域情感分类方法 | |
CN116663539A (zh) | 基于RoBERTa和指针网络的中文实体与关系联合抽取方法及系统 | |
CN116258204A (zh) | 基于知识图谱的工业安全生产违规处罚管理方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201218 |
|
RJ01 | Rejection of invention patent application after publication |