CN110046240B - 结合关键词检索与孪生神经网络的目标领域问答推送方法 - Google Patents

结合关键词检索与孪生神经网络的目标领域问答推送方法 Download PDF

Info

Publication number
CN110046240B
CN110046240B CN201910304381.5A CN201910304381A CN110046240B CN 110046240 B CN110046240 B CN 110046240B CN 201910304381 A CN201910304381 A CN 201910304381A CN 110046240 B CN110046240 B CN 110046240B
Authority
CN
China
Prior art keywords
word
question
neural network
answer
list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910304381.5A
Other languages
English (en)
Other versions
CN110046240A (zh
Inventor
安军
张维碟
庄铭权
王琦晖
吕明琪
金永平
张曼怡
顾昀晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Aiwenge Environmental Protection Technology Co ltd
Original Assignee
Zhejiang Aiwenge Environmental Protection Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Aiwenge Environmental Protection Technology Co ltd filed Critical Zhejiang Aiwenge Environmental Protection Technology Co ltd
Priority to CN201910304381.5A priority Critical patent/CN110046240B/zh
Publication of CN110046240A publication Critical patent/CN110046240A/zh
Application granted granted Critical
Publication of CN110046240B publication Critical patent/CN110046240B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明公开了一种结合关键词检索与孪生神经网络的目标领域问题答案推送方法。本方法基于互联网和专家知识对历史问题进行预处理,然后结合关键词检索方法和基于孪生神经网络的语义相似度模型,对用户提出的实时问题智能推送匹配度最高的答案。本方法能够较好地平衡效率和性能,同时保证方法的召回率和准确率,在智能问答系统领域具有较大的实用意义。

Description

结合关键词检索与孪生神经网络的目标领域问答推送方法
技术领域
本发明涉及数据挖掘和自然语言处理领域,尤其涉及一种结合关键词检索与孪生神经网络的目标领域问答推送方法。
背景技术
与搜索引擎系统类似,智能问答系统也是从大量数据中找到最能满足用户意图的文字信息。然而,两者的不同之处包括:首先,搜索引擎系统要求用户明确地输入关键词,而智能问答系统允许用户输入更符合人类习惯的自由问句。其次,搜索引擎系统返回大量的搜索结果,需要用户自行从中找出最符合其意图的,而智能问答系统返回一个或少量最符合用户意图的结果,能大大提高用户的信息获取效率。因此,智能问答系统比搜索引擎系统具有更高的技术挑战。
根据底层技术的不同,智能问答系统大致可以分为基于信息检索的智能问答系统、基于阅读理解的智能问答系统、基于知识图谱的智能问答系统等。其中,基于信息检索的智能问答系统指在真实历史问答数据中搜索得到最符合用户当前问题的答案。由于真实历史问答数据通常由领域专家提供,因此基于信息检索的智能问答系统通常精确度较高、覆盖率较低,这种特性使得其较为适合实现专业的、对答案质量要求较高的目标领域的智能问答系统。
现有基于信息检索的智能问答系统的实现技术主要包括关键词检索和语义匹配两种。关键词检索指从用户问题中抽取关键词,然后转化成一个全文检索的任务。由于全文检索可以有效地利用数据库索引,因此执行效率很高。然而,将用户问题抽象成几个关键词,丢失了问题整体的语义和关键词间的关联,导致难以找到最符合用户意图的答案。另一方面,语义匹配指将用户问题和历史问题(或历史答案)进行语义相似度计算,然后返回语义相似度最高的若干答案。语义相似度计算通常基于机器学习模型实现,因此能够较为精确地找到符合用户意图的答案。然而,由于需要计算用户问题和每个历史问题(或历史答案)的语义相似度,计算量巨大,在历史数据很大的情况下难以保证系统的实时性。
发明内容
为了克服上述现有技术的不足,本发明提供一种结合关键词检索与孪生神经网络的目标领域智能问答方法,可有效解决上述问题。本发明具体采用的技术方案如下:
一种结合关键词检索与孪生神经网络的目标领域问答推送方法,用于根据用户提出的实时问题推送相应的答案,该方法包括以下步骤:
S1:对目标领域进行知识构建和历史问题数据预处理,具体包含以下子步骤S101~S104:
S101:获取并筛选出与目标领域相关的词条作为概念词,建立领域概念词表;
S102:对领域概念词表中的每个概念词,给出表达方式不同的同义词,在此基础上建立领域概念词消歧表,将不同表达方式的同义领域概念词映射到同一个词;
S103:将领域概念词表加入分词词表,然后对每个历史问题进行分词和去停用词处理;
S104:对每个历史问题,基于领域概念词表和领域概念词消歧表将句子中出现的所有不同表达方式的领域概念词替换为同一个词;
S2:基于孪生神经网络训练语义相似度模型,用以计算任意两个句子的语义相似度值,具体包含以下子步骤S201~S205:
S201:收集短句样本,并根据短句表达的含义将其进行分类,构建训练集TS;所述训练集TS里的每个样本为一个三元组
Figure GDA0002716866270000021
其中
Figure GDA0002716866270000022
Figure GDA0002716866270000023
分别为经过分词、去停用词和消歧预处理的两个短句,yi
Figure GDA0002716866270000024
Figure GDA0002716866270000025
的关系标注,若两个短句属于同一类型则yi为1,属于不同类型则yi为0;
S202:采用孪生神经网络训练语义相似度模型,网络结构包括输入层、卷积层、交互层和输出层;
在所述输入层中,基于词嵌入技术将
Figure GDA0002716866270000026
Figure GDA0002716866270000027
中所有词替换为其对应的向量,对向量进行纵向拼接得到两个矩阵
Figure GDA0002716866270000028
Figure GDA0002716866270000029
然后通过尾部截断或填充全0向量的方式将
Figure GDA00027168662700000210
Figure GDA00027168662700000211
都处理成大小为l×d的输入矩阵,其中l为短句统一长度,d为词向量维度;
在所述卷积层中,采用两个参数完全共享的卷积神经网络分别处理
Figure GDA00027168662700000212
Figure GDA00027168662700000213
每个卷积神经网络首先采用多个不同尺寸的卷积核对输入矩阵进行卷积操作;然后采用MaxPooling Over Time策略对卷积结果进行池化操作;最后拼接池化结果得到卷积特征向量,记
Figure GDA00027168662700000214
Figure GDA00027168662700000215
的卷积特征向量分别为
Figure GDA00027168662700000216
Figure GDA00027168662700000217
在所述交互层中,基于余弦相似度计算
Figure GDA0002716866270000031
Figure GDA0002716866270000032
的相似度;
在所述输出层中,采用对比损失函数作为训练的损失函数,输出
Figure GDA0002716866270000033
Figure GDA0002716866270000034
的预测相似度值;
S3:针对用户输入的实时问题Qi,通过抽取关键词对历史问题进行全文检索,得到候选问题列表,具体包含以下子步骤S301~S304:
S301:对实时问题Qi进行预处理,所述预处理包括分词、去停用词和消歧;
S302:首先基于TextRank算法计算Qi中每个词的重要度权值;然后抽取Qi中所有消歧后的领域概念词,若抽取出的领域概念词数量小于等于关键词数量设定阈值k,则保留所有抽取出的领域概念词;否则保留重要度权值最高的k个抽取出的领域概念词;将最终保留的领域概念词集记为CW(Qi),其包含的词的数量为kCW
S303:若kCW<k,在Qi包含的非领域概念词中挑选重要度权值最高的(k-kCW)个词作为普通关键词,将最终保留的普通关键词集记为NW(Qi);
S304:实时问题Qi的最终关键词集KW(Qi)=CW(Qi)∪NW(Qi),基于Lucene引擎检索至少包含KW(Qi)中一个词的所有预处理后的历史问题,形成候选问题列表CQ(Qi);
S4:匹配度值计算和答案返回:计算实时问题Qi和候选问题列表CQ(Qi)中每个候选问题的关键词一致性和语义相似度,然后融合关键词一致性值和语义相似度值得到每个候选问题的匹配度值,按照匹配度值高低排序返回答案,具体包含以下步骤:
S401:对CQ(Qi)中每个候选问题CQj,计算其包含CW(Qi)中词的数量n(CQj)和包含NW(Qi)中词的数量m(CQj),然后对n(CQj)和m(CQj)进行加权求平均计算关键词一致性值s1(Qi,CQj);
S402:对CQ(Qi)中每个候选问题CQj,将实时问题Qi和CQj输入训练好的语义相似度模型,得到两者的语义相似度预测值s2(Qi,CQj);
S403:对s1(Qi,CQj)和s2(Qi,CQj)加权求和计算匹配度值s(Qi,CQj);
S404:从候选问题中挑选匹配度值最高的一个或多个,其对应的答案作为实时问题Qi的答案进行返回推送。
基于上述技术方案,其中的部分步骤可采用如下优选方式实现。
优选的,步骤S1中所述的与目标领域相关的词条,采用网络爬虫爬取百度百科词条数据,然后由领域专家人工进行筛选得到。
优选的,步骤S3中对实时问题Qi的预处理与S1中对历史问题的预处理相同,均包括分词、去停用词和消歧。
优选的,步骤S2中所述的多个不同尺寸的卷积核的宽度均为w,高度则不同。
优选的,步骤S2中所述的对比损失函数L计算公式如下:
Figure GDA0002716866270000041
ei=|y′i-yi|
其中y′i为样本tsi的预测语义相似度值,yi为样本tsi包含短句的关系标注,N为训练集TS中的样本总数。
优选的,步骤S4中所述的关键词一致性值s1(Qi,CQj)计算公式如下:
Figure GDA0002716866270000042
其中α为领域概念词权重,0<α<1;β为普通关键词权重,0<β<1,并且β<α。
优选的,步骤S4中所述的匹配度值s(Qi,CQj)计算公式如下:
s(Qi,CQj)=λs1(Qi,CQj)+(1-λ)s2(Qi,CQj)
其中λ为关键词一致性值权重,0<λ<1。
优选的,所述的历史问题数据中。每个历史问题均具有对应的答案。
本发明提出的一种结合关键词检索与孪生神经网络的目标领域问题答案推送方法,结合关键词检索和基于孪生神经网络训练语义相似度模型实现目标领域的智能问答及最优答案的推送。相比于传统的答案推送方法,本法明具有如下收益:
1、结合信息检索技术和深度学习技术,有效地平衡了方法的效率和性能;
2、结合领域知识关键词匹配和深度模型相似度匹配,同时保证了方法的召回率和准确率。
附图说明
图1为结合关键词检索与孪生神经网络的目标领域问题答案推送方法的流程图;
图2为语义相似度模型的网络结构图;
图3为匹配度值计算的过程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
如图1所示,一种结合关键词检索与孪生神经网络的目标领域问题答案推送方法,该方法用于在特定的领域中,根据用户提出的实时问题自动推送相应的答案。其基本的实现思路为:(1)结合互联网和专家经验构建领域知识,并基于领域知识对历史问题进行预处理;(2)基于孪生神经网络训练语义相似度模型;(3)对用户提出的实时问题,抽取其包含的关键词,并在此基础上进行全文检索,得到候选问题列表;(4)对每个候选问题,基于领域知识计算其关键词一致性值,基于语义相似度模型计算其语义相似度值,并综合两者计算匹配度值,在此基础上返回匹配度值最高的若干答案。
下面具体描述本实施例中该方法的具体实现步骤:
S1:对目标领域进行知识构建和历史问题数据预处理:收集领域内的百科词条作为概念词建立概念词表,并收集概念词的同义词建立领域概念词消歧表;在此基础上对历史问题数据进行预处理,其中预处理包括分词、去停用词、消歧。
该步骤具体包含以下子步骤S101~S104:
S101:领域概念词表构建:采用网络爬虫爬取与目标领域相关的百度百科词条数据,然后由领域专家人工从中获取并筛选出与目标领域相关的词条作为概念词,建立领域概念词表。当然,这些词条也可以通过其他方式进行获取,但是应当保证与目标领域的相关性,以提高其准确性。
S102:领域概念词消歧表构建:对领域概念词表中的每个概念词,由领域专家给出表达方式不同的同义词,在此基础上建立领域概念词消歧表,将不同表达方式的但具有相同含义的同义领域概念词映射到同一个词,以提高相似度计算的准确性。
S103:分词:将领域概念词表加入分词词表,然后对每个历史问题进行分词和去停用词处理。
S104:消歧:对每个历史问题,基于领域概念词表和领域概念词消歧表将句子中出现的所有不同表达方式的领域概念词替换为同一个词。
历史问题数据中,每个历史问题均预先带有对应的答案,用于供后续调用推送。历史问题的样本应当足量,能够尽可能覆盖用户可能提问的类型。
S2:语义相似度模型训练:基于孪生神经网络训练语义相似度模型,用以计算任意两个句子的语义相似度值,具体包含以下子步骤S201~S205:
S201:训练集构建:收集大量的短句样本,并根据短句表达的含义人工将其进行分类,构建训练集TS。其中,训练集TS里的每个样本为一个三元组
Figure GDA0002716866270000061
Figure GDA0002716866270000062
其中
Figure GDA0002716866270000063
Figure GDA0002716866270000064
分别为经过分词、去停用词和消歧预处理的两个短句,yi
Figure GDA0002716866270000065
Figure GDA0002716866270000066
的关系标注,若两个短句属于同一类型则yi为1,属于不同类型则yi为0。
S202:相似度模型训练:采用孪生神经网络训练语义相似度模型,其网络结构如图2所示,包括输入层、卷积层、交互层和输出层。
在输入层中,基于词嵌入技术将
Figure GDA0002716866270000067
Figure GDA0002716866270000068
中所有词替换为其对应的向量,对向量进行纵向拼接得到两个矩阵
Figure GDA0002716866270000069
Figure GDA00027168662700000610
然后通过尾部截断(长度过长时)或填充全0向量(长度过短时)的方式,将
Figure GDA00027168662700000611
Figure GDA00027168662700000612
都处理成大小为l×d的输入矩阵,其中l为短句统一长度,d为词向量维度。
在卷积层中,采用两个参数完全共享的卷积神经网络分别处理
Figure GDA00027168662700000613
Figure GDA00027168662700000614
每个卷积神经网络首先采用多个不同尺寸的卷积核(卷积核的宽度均为d,高度不同)对输入矩阵进行卷积操作;然后采用Max Pooling Over Time策略对卷积结果进行池化操作;最后拼接池化结果得到卷积特征向量,记
Figure GDA00027168662700000615
Figure GDA00027168662700000616
的卷积特征向量分别为
Figure GDA00027168662700000617
Figure GDA00027168662700000618
在交互层中,基于余弦相似度计算
Figure GDA00027168662700000619
Figure GDA00027168662700000620
的相似度
Figure GDA00027168662700000621
在输出层中,采用对比损失函数作为训练的损失函数,输出
Figure GDA00027168662700000622
Figure GDA00027168662700000623
的预测相似度值。本模型采用对比损失函数L作为训练的损失函数,计算公式如下所示:
Figure GDA00027168662700000624
ei=|y′i-yi|
其中y′i为样本tsi的预测语义相似度值,yi为样本tsi包含短句的关系标注,N为训练集TS中的样本总数,ei为中间参数。
由此,完成语义相似度模型的训练过程,模型精度达到要求后即可用于后续的实际使用。
S3:候选问题检索:当用户输入提问的实时问题Qi时,针对实时问题Qi,通过抽取关键词对历史问题进行全文检索,得到候选问题列表。该步骤具体包含以下子步骤S301~S304:
S301:实时问题预处理:对实时问题Qi进行预处理,此处对实时问题Qi的预处理最好与与S1中对历史问题的预处理相同,即按照S103和S104的方式进行分词、去停用词和消歧步骤。
S302:领域概念词抽取:首先基于TextRank算法计算Qi中每个词的重要度权值;然后抽取Qi中所有消歧后的领域概念词,若抽取出的领域概念词数量小于等于关键词数量设定阈值k,则保留所有抽取出的领域概念词;否则保留重要度权值最高的k个抽取出的领域概念词。将最终保留的领域概念词集记为CW(Qi),其包含的词的数量为kCW
S303:普通关键词抽取:若kCW<k,在Qi包含的非领域概念词中挑选重要度权值最高的(k-kCW)个词作为普通关键词,将最终保留的普通关键词集记为NW(Qi)。
S304:全文检索:实时问题Qi的最终关键词集KW(Qi)=CW(Qi)∪NW(Qi),基于Lucene引擎检索至少包含KW(Qi)中一个词的所有预处理后的历史问题,形成候选问题列表CQ(Qi)。候选问题列表是与实时问题Qi可能相关的问题的集合,可进一步通过筛选后进行推送。
S4:匹配度值计算和答案返回:计算实时问题Qi和候选问题列表CQ(Qi)中每个候选问题的关键词一致性和语义相似度,然后融合关键词一致性值和语义相似度值得到每个候选问题的匹配度值,按照匹配度值高低排序返回答案。本实施例中,匹配度值计算的详细步骤如图3所示,具体包含以下步骤:
S401:关键词一致性计算:对CQ(Qi)中每个候选问题CQj,计算其包含CW(Qi)中词的数量n(CQj)和包含NW(Qi)中词的数量m(CQj),然后对n(CQj)和m(CQj)进行加权求平均计算关键词一致性值s1(Qi,CQj)。本实施例中,关键词一致性值s1(Qi,CQj)计算公式如下:
Figure GDA0002716866270000071
其中α为领域概念词权重,0<α<1;β为普通关键词权重,0<β<1,并且β<α。α、β的具体取值可以根据实际进行调整,选择最佳值。
S402:语义相似度计算:对CQ(Qi)中每个候选问题CQj,将实时问题Qi和CQj输入训练好的语义相似度模型,得到两者的语义相似度预测值s2(Qi,CQj);
S403:匹配度值计算:对s1(Qi,CQj)和s2(Qi,CQj)加权求和计算匹配度值s(Qi,CQj)。本实施例中,匹配度值s(Qi,CQj)计算公式如下:
s(Qi,CQj)=λs1(Qi,CQj)+(1-λ)s2(Qi,CQj)
其中λ为关键词一致性值权重,0<λ<1,取值根据实际进行调整,选择最佳值。
S404:答案返回:经过上述计算,每个候选问题均具有一个与实时问题Qi之间的匹配度值,从候选问题中挑选匹配度值最高的一个或多个,这些候选问题对应的答案就可以作为实时问题Qi的答案,进行返回,推送给用户。推送的候选问题个数可以根据实际需要进行设定。
基于上述方法,可以根据特定的领域,快速构建智能问答系统,其结合关键词检索和基于孪生神经网络训练语义相似度模型实现目标领域的智能问答及最优答案的推送,同时兼顾了效率和性能,保证了方法的召回率和准确率。
以上所述的实施例只是本发明的一种较佳的方案,然其并非用以限制本发明。有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。

Claims (8)

1.一种结合关键词检索与孪生神经网络的目标领域问答推送方法,用于根据用户提出的实时问题推送相应的答案,其特征在于包括以下步骤:
S1:对目标领域进行知识构建和历史问题数据预处理,具体包含以下子步骤S101~S104:
S101:获取并筛选出与目标领域相关的词条作为概念词,建立领域概念词表;
S102:对领域概念词表中的每个概念词,给出表达方式不同的同义词,在此基础上建立领域概念词消歧表,将不同表达方式的同义领域概念词映射到同一个词;
S103:将领域概念词表加入分词词表,然后对每个历史问题进行分词和去停用词处理;
S104:对每个历史问题,基于领域概念词表和领域概念词消歧表将句子中出现的所有不同表达方式的领域概念词替换为同一个词;
S2:基于孪生神经网络训练语义相似度模型,用以计算任意两个句子的语义相似度值,具体包含以下子步骤S201~S205:
S201:收集短句样本,并根据短句表达的含义将其进行分类,构建训练集TS;所述训练集TS里的每个样本为一个三元组
Figure FDA0002716866260000011
其中
Figure FDA0002716866260000012
Figure FDA0002716866260000013
分别为经过分词、去停用词和消歧预处理的两个短句,yi
Figure FDA0002716866260000014
Figure FDA0002716866260000015
的关系标注,若两个短句属于同一类型则yi为1,属于不同类型则yi为0;
S202:采用孪生神经网络训练语义相似度模型,网络结构包括输入层、卷积层、交互层和输出层;
在所述输入层中,基于词嵌入技术将
Figure FDA0002716866260000016
Figure FDA0002716866260000017
中所有词替换为其对应的向量,对向量进行纵向拼接得到两个矩阵
Figure FDA0002716866260000018
Figure FDA0002716866260000019
然后通过尾部截断或填充全0向量的方式将
Figure FDA00027168662600000110
Figure FDA00027168662600000111
都处理成大小为l×d的输入矩阵,其中l为短句统一长度,d为词向量维度;
在所述卷积层中,采用两个参数完全共享的卷积神经网络分别处理
Figure FDA00027168662600000112
Figure FDA00027168662600000113
每个卷积神经网络首先采用多个不同尺寸的卷积核对输入矩阵进行卷积操作;然后采用MaxPooling Over Time策略对卷积结果进行池化操作;最后拼接池化结果得到卷积特征向量,记
Figure FDA00027168662600000114
Figure FDA00027168662600000115
的卷积特征向量分别为
Figure FDA00027168662600000116
Figure FDA00027168662600000117
在所述交互层中,基于余弦相似度计算
Figure FDA00027168662600000118
Figure FDA00027168662600000119
的相似度;
在所述输出层中,采用对比损失函数作为训练的损失函数,输出
Figure FDA00027168662600000120
Figure FDA00027168662600000121
的预测相似度值;
S3:针对用户输入的实时问题Qi,通过抽取关键词对历史问题进行全文检索,得到候选问题列表,具体包含以下子步骤S301~S304:
S301:对实时问题Qi进行预处理,所述预处理包括分词、去停用词和消歧;
S302:首先基于TextRank算法计算Qi中每个词的重要度权值;然后抽取Qi中所有消歧后的领域概念词,若抽取出的领域概念词数量小于等于关键词数量设定阈值k,则保留所有抽取出的领域概念词;否则保留重要度权值最高的k个抽取出的领域概念词;将最终保留的领域概念词集记为CW(Qi),其包含的词的数量为kCW
S303:若kCW<k,在Qi包含的非领域概念词中挑选重要度权值最高的(k-kCW)个词作为普通关键词,将最终保留的普通关键词集记为NW(Qi);
S304:实时问题Qi的最终关键词集KW(Qi)=CW(Qi)∪NW(Qi),基于Lucene引擎检索至少包含KW(Qi)中一个词的所有预处理后的历史问题,形成候选问题列表CQ(Qi);
S4:匹配度值计算和答案返回:计算实时问题Qi和候选问题列表CQ(Qi)中每个候选问题的关键词一致性和语义相似度,然后融合关键词一致性值和语义相似度值得到每个候选问题的匹配度值,按照匹配度值高低排序返回答案,具体包含以下步骤:
S401:对CQ(Qi)中每个候选问题CQj,计算其包含CW(Qi)中词的数量n(CQj)和包含NW(Qi)中词的数量m(CQj),然后对n(CQj)和m(CQj)进行加权求平均计算关键词一致性值s1(Qi,CQj);
S402:对CQ(Qi)中每个候选问题CQj,将实时问题Qi和CQj输入训练好的语义相似度模型,得到两者的语义相似度预测值s2(Qi,CQj);
S403:对s1(Qi,CQj)和s2(Qi,CQj)加权求和计算匹配度值s(Qi,CQj);
S404:从候选问题中挑选匹配度值最高的一个或多个,其对应的答案作为实时问题Qi的答案进行返回推送。
2.根据权利要求1所述的结合关键词检索与孪生神经网络的目标领域问答推送方法,其特征在于步骤S1中所述的与目标领域相关的词条,采用网络爬虫爬取百度百科词条数据,然后由领域专家人工进行筛选得到。
3.根据权利要求1所述的结合关键词检索与孪生神经网络的目标领域问答推送方法,其特征在于步骤S3中对实时问题Qi的预处理与S1中对历史问题的预处理相同,均包括分词、去停用词和消歧。
4.根据权利要求1所述的结合关键词检索与孪生神经网络的目标领域问答推送方法,其特征在于步骤S2中所述的多个不同尺寸的卷积核的宽度均为w,高度则不同。
5.根据权利要求1所述的一种结合关键词检索与孪生神经网络的目标领域问答推送方法,其特征在于步骤S2中所述的对比损失函数L计算公式如下:
Figure FDA0002716866260000031
ei=|y′i-yi|
其中y′i为样本tsi的预测语义相似度值,yi为样本tsi包含短句的关系标注,N为训练集TS中的样本总数。
6.根据权利要求1所述的一种结合关键词检索与孪生神经网络的目标领域问答推送方法,其特征在于步骤S4中所述的关键词一致性值s1(Qi,CQj)计算公式如下:
Figure FDA0002716866260000032
其中α为领域概念词权重,0<α<1;β为普通关键词权重,0<β<1,并且β<α。
7.根据权利要求1所述的一种结合关键词检索与孪生神经网络的目标领域问答推送方法,其特征在于步骤S4中所述的匹配度值s(Qi,CQj)计算公式如下:
s(Qi,CQj)=λs1(Qi,CQj)+(1-λ)s2(Qi,CQj)
其中λ为关键词一致性值权重,0<λ<1。
8.根据权利要求1所述的一种结合关键词检索与孪生神经网络的目标领域问答推送方法,其特征在于所述的历史问题数据中,每个历史问题均具有对应的答案。
CN201910304381.5A 2019-04-16 2019-04-16 结合关键词检索与孪生神经网络的目标领域问答推送方法 Active CN110046240B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910304381.5A CN110046240B (zh) 2019-04-16 2019-04-16 结合关键词检索与孪生神经网络的目标领域问答推送方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910304381.5A CN110046240B (zh) 2019-04-16 2019-04-16 结合关键词检索与孪生神经网络的目标领域问答推送方法

Publications (2)

Publication Number Publication Date
CN110046240A CN110046240A (zh) 2019-07-23
CN110046240B true CN110046240B (zh) 2020-12-08

Family

ID=67277412

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910304381.5A Active CN110046240B (zh) 2019-04-16 2019-04-16 结合关键词检索与孪生神经网络的目标领域问答推送方法

Country Status (1)

Country Link
CN (1) CN110046240B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110427563B (zh) * 2019-08-30 2023-02-28 杭州智策略科技有限公司 一种基于知识图谱的专业领域系统冷启动推荐方法
CN110825860B (zh) * 2019-10-24 2022-08-23 厦门快商通科技股份有限公司 知识库问答抽取方法、系统、移动终端及存储介质
CN110990003B (zh) * 2019-11-15 2021-11-23 南通大学 一种基于词嵌入技术的api推荐方法
CN111159373B (zh) * 2019-12-26 2023-04-07 上海智臻智能网络科技股份有限公司 智能问答系统的知识库建立方法、装置和存储介质
CN113761613A (zh) * 2020-06-05 2021-12-07 中国石油化工股份有限公司 一种钻井液设计方法及系统
CN111737954B (zh) * 2020-06-12 2023-07-28 百度在线网络技术(北京)有限公司 文本相似度确定方法、装置、设备和介质
CN111858883A (zh) * 2020-06-24 2020-10-30 北京百度网讯科技有限公司 三元组样本的生成方法、装置、电子设备及存储介质
CN112115347B (zh) * 2020-07-17 2023-12-12 腾讯科技(深圳)有限公司 搜索结果的获取方法和装置及存储介质
CN112215005A (zh) * 2020-10-12 2021-01-12 小红书科技有限公司 实体识别方法及装置
CN112487274B (zh) * 2020-12-02 2023-02-07 重庆邮电大学 一种基于文本点击率的搜索结果推荐方法及系统
CN112667794A (zh) * 2020-12-31 2021-04-16 民生科技有限责任公司 一种基于孪生网络bert模型的智能问答匹配方法及系统
CN112906895B (zh) * 2021-02-09 2022-12-06 柳州智视科技有限公司 一种题目对象仿造的方法
CN113254609B (zh) * 2021-05-12 2022-08-09 同济大学 一种基于负样本多样性的问答模型集成方法
CN113590791B (zh) * 2021-07-30 2023-11-24 北京壹心壹翼科技有限公司 一种核保问询策略优化方法、装置、设备及存储介质
CN113792153B (zh) * 2021-08-25 2023-12-12 北京度商软件技术有限公司 问答推荐方法及其装置
CN114398883B (zh) * 2022-01-19 2023-07-07 平安科技(深圳)有限公司 演示文稿生成方法、装置、计算机可读存储介质及服务器
CN114417865B (zh) * 2022-01-24 2023-05-26 平安科技(深圳)有限公司 灾害事件的描述文本处理方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180081628A1 (en) * 2016-09-21 2018-03-22 International Business Machines Corporation Preserving Temporal Relevance in a Response to a Query
CN108932342A (zh) * 2018-07-18 2018-12-04 腾讯科技(深圳)有限公司 一种语义匹配的方法、模型的学习方法及服务器
CN109543009A (zh) * 2018-10-17 2019-03-29 龙马智芯(珠海横琴)科技有限公司 文本相似度评估系统及文本相似度评估方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190019058A1 (en) * 2017-07-13 2019-01-17 Endgame, Inc. System and method for detecting homoglyph attacks with a siamese convolutional neural network
EP3454260A1 (en) * 2017-09-11 2019-03-13 Tata Consultancy Services Limited Bilstm-siamese network based classifier for identifying target class of queries and providing responses thereof
CN107967255A (zh) * 2017-11-08 2018-04-27 北京广利核系统工程有限公司 一种判定文本相似性的方法和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180081628A1 (en) * 2016-09-21 2018-03-22 International Business Machines Corporation Preserving Temporal Relevance in a Response to a Query
CN108932342A (zh) * 2018-07-18 2018-12-04 腾讯科技(深圳)有限公司 一种语义匹配的方法、模型的学习方法及服务器
CN109543009A (zh) * 2018-10-17 2019-03-29 龙马智芯(珠海横琴)科技有限公司 文本相似度评估系统及文本相似度评估方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Together We Stand: Siamese Networks for Similar Question Retrieval;Arpita Das etcl;《Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics》;20160812;第378–387页 *
领域问答系统中问句相似度计算方法研究;刘拼拼;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190115;第I138-4326页 *

Also Published As

Publication number Publication date
CN110046240A (zh) 2019-07-23

Similar Documents

Publication Publication Date Title
CN110046240B (zh) 结合关键词检索与孪生神经网络的目标领域问答推送方法
CN110032635B (zh) 一种基于深度特征融合神经网络的问题对匹配方法和装置
CN105808590B (zh) 搜索引擎实现方法、搜索方法以及装置
CN110175227B (zh) 一种基于组队学习和层级推理的对话辅助系统
CN103838833B (zh) 基于相关词语语义分析的全文检索系统
CN105528437B (zh) 一种基于结构化文本知识提取的问答系统构建方法
CN111259127B (zh) 一种基于迁移学习句向量的长文本答案选择方法
CN112015868B (zh) 基于知识图谱补全的问答方法
CN111949787A (zh) 基于知识图谱的自动问答方法、装置、设备及存储介质
CN106951558B (zh) 一种基于深度搜索的税务智能咨询平台的数据处理方法
CN105653840A (zh) 基于词句分布表示的相似病例推荐系统及相应的方法
CN110096567A (zh) 基于qa知识库推理的多轮对话回复选择方法、系统
Landthaler et al. Extending Full Text Search for Legal Document Collections Using Word Embeddings.
CN106557563A (zh) 基于人工智能的查询语句推荐方法及装置
CN108628935A (zh) 一种基于端到端记忆网络的问答方法
CN109597876A (zh) 一种基于强化学习的多轮对话答复选择模型及其方法
CN111309887B (zh) 一种训练文本关键内容提取模型的方法和系统
CN111966810B (zh) 一种用于问答系统的问答对排序方法
CN113254782B (zh) 问答社区专家推荐方法及系统
CN107832439A (zh) 多轮状态追踪的方法、系统及终端设备
CN110321421B (zh) 用于网站知识社区系统的专家推荐方法及计算机存储介质
CN108846138A (zh) 一种融合答案信息的问题分类模型构建方法、装置和介质
Landthaler et al. Extending Thesauri Using Word Embeddings and the Intersection Method.
CN115905487A (zh) 文档问答方法、系统、电子设备及存储介质
AlGhamdi et al. Learning to recommend items to wikidata editors

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant