CN110046240A - 结合关键词检索与孪生神经网络的目标领域问答推送方法 - Google Patents

结合关键词检索与孪生神经网络的目标领域问答推送方法 Download PDF

Info

Publication number
CN110046240A
CN110046240A CN201910304381.5A CN201910304381A CN110046240A CN 110046240 A CN110046240 A CN 110046240A CN 201910304381 A CN201910304381 A CN 201910304381A CN 110046240 A CN110046240 A CN 110046240A
Authority
CN
China
Prior art keywords
word
answer
keyword
target domain
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910304381.5A
Other languages
English (en)
Other versions
CN110046240B (zh
Inventor
安军
张维碟
庄铭权
王琦晖
吕明琪
金永平
张曼怡
顾昀晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Love Environmental Protection Technology Co Ltd
Original Assignee
Zhejiang Love Environmental Protection Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Love Environmental Protection Technology Co Ltd filed Critical Zhejiang Love Environmental Protection Technology Co Ltd
Priority to CN201910304381.5A priority Critical patent/CN110046240B/zh
Publication of CN110046240A publication Critical patent/CN110046240A/zh
Application granted granted Critical
Publication of CN110046240B publication Critical patent/CN110046240B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种结合关键词检索与孪生神经网络的目标领域问题答案推送方法。本方法基于互联网和专家知识对历史问题进行预处理,然后结合关键词检索方法和基于孪生神经网络的语义相似度模型,对用户提出的实时问题智能推送匹配度最高的答案。本方法能够较好地平衡效率和性能,同时保证方法的召回率和准确率,在智能问答系统领域具有较大的实用意义。

Description

结合关键词检索与孪生神经网络的目标领域问答推送方法
技术领域
本发明涉及数据挖掘和自然语言处理领域,尤其涉及一种结合关键词检索与孪生神经网络的目标领域问答推送方法。
背景技术
与搜索引擎系统类似,智能问答系统也是从大量数据中找到最能满足用户意图的文字信息。然而,两者的不同之处包括:首先,搜索引擎系统要求用户明确地输入关键词,而智能问答系统允许用户输入更符合人类习惯的自由问句。其次,搜索引擎系统返回大量的搜索结果,需要用户自行从中找出最符合其意图的,而智能问答系统返回一个或少量最符合用户意图的结果,能大大提高用户的信息获取效率。因此,智能问答系统比搜索引擎系统具有更高的技术挑战。
根据底层技术的不同,智能问答系统大致可以分为基于信息检索的智能问答系统、基于阅读理解的智能问答系统、基于知识图谱的智能问答系统等。其中,基于信息检索的智能问答系统指在真实历史问答数据中搜索得到最符合用户当前问题的答案。由于真实历史问答数据通常由领域专家提供,因此基于信息检索的智能问答系统通常精确度较高、覆盖率较低,这种特性使得其较为适合实现专业的、对答案质量要求较高的目标领域的智能问答系统。
现有基于信息检索的智能问答系统的实现技术主要包括关键词检索和语义匹配两种。关键词检索指从用户问题中抽取关键词,然后转化成一个全文检索的任务。由于全文检索可以有效地利用数据库索引,因此执行效率很高。然而,将用户问题抽象成几个关键词,丢失了问题整体的语义和关键词间的关联,导致难以找到最符合用户意图的答案。另一方面,语义匹配指将用户问题和历史问题(或历史答案)进行语义相似度计算,然后返回语义相似度最高的若干答案。语义相似度计算通常基于机器学习模型实现,因此能够较为精确地找到符合用户意图的答案。然而,由于需要计算用户问题和每个历史问题(或历史答案)的语义相似度,计算量巨大,在历史数据很大的情况下难以保证系统的实时性。
发明内容
为了克服上述现有技术的不足,本发明提供一种结合关键词检索与孪生神经网络的目标领域智能问答方法,可有效解决上述问题。本发明具体采用的技术方案如下:
一种结合关键词检索与孪生神经网络的目标领域问答推送方法,用于根据用户提出的实时问题推送相应的答案,该方法包括以下步骤:
S1:对目标领域进行知识构建和历史问题数据预处理,具体包含以下子步骤 S101~S104:
S101:获取并筛选出与目标领域相关的词条作为概念词,建立领域概念词表;
S102:对领域概念词表中的每个概念词,给出表达方式不同的同义词,在此基础上建立领域概念词消歧表,将不同表达方式的同义领域概念词映射到同一个词;
S103:将领域概念词表加入分词词表,然后对每个历史问题进行分词和去停用词处理;
S104:对每个历史问题,基于领域概念词表和领域概念词消歧表将句子中出现的所有不同表达方式的领域概念词替换为同一个词;
S2:基于孪生神经网络训练语义相似度模型,用以计算任意两个句子的语义相似度值,具体包含以下子步骤S201~S205:
S201:收集短句样本,并根据短句表达的含义将其进行分类,构建训练集 TS;所述训练集TS里的每个样本为一个三元组其中分别为经过分词、去停用词和消歧预处理的两个短句,yi的关系标注,若两个短句属于同一类型则yi为1,属于不同类型则yi为0;
S202:采用孪生神经网络训练语义相似度模型,网络结构包括输入层、卷积层、交互层和输出层;
在所述输入层中,基于词嵌入技术将中所有词替换为其对应的向量,对向量进行纵向拼接得到两个矩阵然后通过尾部截断或填充全0向量的方式将都处理成大小为l×d的输入矩阵,其中l为短句统一长度, d为词向量维度;
在所述卷积层中,采用两个参数完全共享的卷积神经网络分别处理每个卷积神经网络首先采用多个不同尺寸的卷积核对输入矩阵进行卷积操作;然后采用MaxPooling Over Time策略对卷积结果进行池化操作;最后拼接池化结果得到卷积特征向量,记的卷积特征向量分别为
在所述交互层中,基于余弦相似度计算的相似度;
在所述输出层中,采用对比损失函数作为训练的损失函数,输出的预测相似度值;
S3:针对用户输入的实时问题Qi,通过抽取关键词对历史问题进行全文检索,得到候选问题列表,具体包含以下子步骤S301~S304:
S301:对实时问题Qi进行预处理,所述预处理包括分词、去停用词和消歧;
S302:首先基于TextRank算法计算Qi中每个词的重要度权值;然后抽取 Qi中所有消歧后的领域概念词,若抽取出的领域概念词数量小于等于关键词数量设定阈值k,则保留所有抽取出的领域概念词;否则保留重要度权值最高的k个抽取出的领域概念词;将最终保留的领域概念词集记为CW(Qi),其包含的词的数量为kCW
S303:若kCW<k,在Qi包含的非领域概念词中挑选重要度权值最高的(k-kCW) 个词作为普通关键词,将最终保留的普通关键词集记为NW(Qi);
S304:实时问题Qi的最终关键词集KW(Qi)=CW(Qi)∪NW(Qi),基于Lucene 引擎检索至少包含KW(Qi)中一个词的所有预处理后的历史问题,形成候选问题列表CQ(Qi);
S4:匹配度值计算和答案返回:计算实时问题Qi和候选问题列表CQ(Qi)中每个候选问题的关键词一致性和语义相似度,然后融合关键词一致性值和语义相似度值得到每个候选问题的匹配度值,按照匹配度值高低排序返回答案,具体包含以下步骤:
S401:对CQ(Qi)中每个候选问题CQj,计算其包含CW(Qi)中词的数量n(CQj) 和包含NW(Qi)中词的数量m(CQj),然后对n(CQj)和m(CQj)进行加权求平均计算关键词一致性值s1(Qi,CQj);
S402:对CQ(Qi)中每个候选问题CQj,将实时问题Qi和CQj输入训练好的语义相似度模型,得到两者的语义相似度预测值s2(Qi,CQj);
S403:对s1(Qi,CQj)和s2(Qi,CQj)加权求和计算匹配度值s(Qi,CQj);
S404:从候选问题中挑选匹配度值最高的一个或多个,其对应的答案作为实时问题Qi的答案进行返回推送。
基于上述技术方案,其中的部分步骤可采用如下优选方式实现。
优选的,步骤S1中所述的与目标领域相关的词条,采用网络爬虫爬取百度百科词条数据,然后由领域专家人工进行筛选得到。
优选的,步骤S3中对实时问题Qi的预处理与S1中对历史问题的预处理相同,均包括分词、去停用词和消歧。
优选的,步骤(2)中所述的多个不同尺寸的卷积核的宽度均为w,高度则不同。
优选的,步骤(2)中所述的对比损失函数L计算公式如下:
ei=|yi′-yi|
其中yi′为样本tsi的预测语义相似度值,yi为样本tsi包含短句的关系标注,N 为训练集TS中的样本总数。
优选的,步骤(4)中所述的关键词一致性值s1(Qi,CQj)计算公式如下:
其中α为领域概念词权重,0<α<1;β为普通关键词权重,0<β<1,并且β<α。
优选的,步骤(4)中所述的匹配度值s(Qi,CQj)计算公式如下:
s(Qi,CQj)=λs1(Qi,CQj)+(1-λ)s2(Qi,CQj)
其中λ为关键词一致性值权重,0<λ<1。
优选的,所述的历史问题数据中。每个历史问题均具有对应的答案。
本发明提出的一种结合关键词检索与孪生神经网络的目标领域问题答案推送方法,结合关键词检索和基于孪生神经网络训练语义相似度模型实现目标领域的智能问答及最优答案的推送。相比于传统的答案推送方法,本法明具有如下收益:
1、结合信息检索技术和深度学习技术,有效地平衡了方法的效率和性能;
2、结合领域知识关键词匹配和深度模型相似度匹配,同时保证了方法的召回率和准确率。
附图说明
图1为结合关键词检索与孪生神经网络的目标领域问题答案推送方法的流程图;
图2为语义相似度模型的网络结构图;
图3为匹配度值计算的过程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
如图1所示,一种结合关键词检索与孪生神经网络的目标领域问题答案推送方法,该方法用于在特定的领域中,根据用户提出的实时问题自动推送相应的答案。其基本的实现思路为:(1)结合互联网和专家经验构建领域知识,并基于领域知识对历史问题进行预处理;(2)基于孪生神经网络训练语义相似度模型;(3) 对用户提出的实时问题,抽取其包含的关键词,并在此基础上进行全文检索,得到候选问题列表;(4)对每个候选问题,基于领域知识计算其关键词一致性值,基于语义相似度模型计算其语义相似度值,并综合两者计算匹配度值,在此基础上返回匹配度值最高的若干答案。
下面具体描述本实施例中该方法的具体实现步骤:
S1:对目标领域进行知识构建和历史问题数据预处理:收集领域内的百科词条作为概念词建立概念词表,并收集概念词的同义词建立领域概念词消歧表;在此基础上对历史问题数据进行预处理,其中预处理包括分词、去停用词、消歧。
该步骤具体包含以下子步骤S101~S104:
S101:领域概念词表构建:采用网络爬虫爬取与目标领域相关的百度百科词条数据,然后由领域专家人工从中获取并筛选出与目标领域相关的词条作为概念词,建立领域概念词表。当然,这些词条也可以通过其他方式进行获取,但是应当保证与目标领域的相关性,以提高其准确性。
S102:领域概念词消歧表构建:对领域概念词表中的每个概念词,由领域专家给出表达方式不同的同义词,在此基础上建立领域概念词消歧表,将不同表达方式的但具有相同含义的同义领域概念词映射到同一个词,以提高相似度计算的准确性。
S103:分词:将领域概念词表加入分词词表,然后对每个历史问题进行分词和去停用词处理。
S104:消歧:对每个历史问题,基于领域概念词表和领域概念词消歧表将句子中出现的所有不同表达方式的领域概念词替换为同一个词。
历史问题数据中,每个历史问题均预先带有对应的答案,用于供后续调用推送。历史问题的样本应当足量,能够尽可能覆盖用户可能提问的类型。
S2:语义相似度模型训练:基于孪生神经网络训练语义相似度模型,用以计算任意两个句子的语义相似度值,具体包含以下子步骤S201~S205:
S201:训练集构建:收集大量的短句样本,并根据短句表达的含义人工将其进行分类,构建训练集TS。其中,训练集TS里的每个样本为一个三元组 其中分别为经过分词、去停用词和消歧预处理的两个短句,yi的关系标注,若两个短句属于同一类型则yi为1,属于不同类型则yi为0。
S202:相似度模型训练:采用孪生神经网络训练语义相似度模型,其网络结构如图2所示,包括输入层、卷积层、交互层和输出层。
在输入层中,基于词嵌入技术将中所有词替换为其对应的向量,对向量进行纵向拼接得到两个矩阵然后通过尾部截断(长度过长时) 或填充全0向量(长度过短时)的方式,将都处理成大小为l×d的输入矩阵,其中l为短句统一长度,d为词向量维度。
在卷积层中,采用两个参数完全共享的卷积神经网络分别处理每个卷积神经网络首先采用多个不同尺寸的卷积核(卷积核的宽度均为d,高度不同)对输入矩阵进行卷积操作;然后采用Max Pooling Over Time策略对卷积结果进行池化操作;最后拼接池化结果得到卷积特征向量,记的卷积特征向量分别为
在交互层中,基于余弦相似度计算的相似度
在输出层中,采用对比损失函数作为训练的损失函数,输出的预测相似度值。本模型采用对比损失函数L作为训练的损失函数,计算公式如下所示:
ei=|yi′-yi|
其中yi′为样本tsi的预测语义相似度值,yi为样本tsi包含短句的关系标注,N 为训练集TS中的样本总数,ei为中间参数。
由此,完成语义相似度模型的训练过程,模型精度达到要求后即可用于后续的实际使用。
S3:候选问题检索:当用户输入提问的实时问题Qi时,针对实时问题Qi,通过抽取关键词对历史问题进行全文检索,得到候选问题列表。该步骤具体包含以下子步骤S301~S304:
S301:实时问题预处理:对实时问题Qi进行预处理,此处对实时问题Qi的预处理最好与与S1中对历史问题的预处理相同,即按照S103和S104的方式进行分词、去停用词和消歧步骤。
S302:领域概念词抽取:首先基于TextRank算法计算Qi中每个词的重要度权值;然后抽取Qi中所有消歧后的领域概念词,若抽取出的领域概念词数量小于等于关键词数量设定阈值k,则保留所有抽取出的领域概念词;否则保留重要度权值最高的k个抽取出的领域概念词。将最终保留的领域概念词集记为CW(Qi),其包含的词的数量为kCW
S303:普通关键词抽取:若kCW<k,在Qi包含的非领域概念词中挑选重要度权值最高的(k-kCW)个词作为普通关键词,将最终保留的普通关键词集记为NW(Qi)。
S304:全文检索:实时问题Qi的最终关键词集KW(Qi)=CW(Qi)∪NW(Qi),基于Lucene引擎检索至少包含KW(Qi)中一个词的所有预处理后的历史问题,形成候选问题列表CQ(Qi)。候选问题列表是与实时问题Qi可能相关的问题的集合,可进一步通过筛选后进行推送。
S4:匹配度值计算和答案返回:计算实时问题Qi和候选问题列表CQ(Qi)中每个候选问题的关键词一致性和语义相似度,然后融合关键词一致性值和语义相似度值得到每个候选问题的匹配度值,按照匹配度值高低排序返回答案。本实施例中,匹配度值计算的详细步骤如图3所示,具体包含以下步骤:
S401:关键词一致性计算:对CQ(Qi)中每个候选问题CQj,计算其包含CW(Qi) 中词的数量n(CQj)和包含NW(Qi)中词的数量m(CQj),然后对n(CQj)和m(CQj)进行加权求平均计算关键词一致性值s1(Qi,CQj)。本实施例中,关键词一致性值s1(Qi, CQj)计算公式如下:
其中α为领域概念词权重,0<α<1;β为普通关键词权重,0<β<1,并且β<α。α、β的具体取值可以根据实际进行调整,选择最佳值。
S402:语义相似度计算:对CQ(Qi)中每个候选问题CQj,将实时问题Qi和 CQj输入训练好的语义相似度模型,得到两者的语义相似度预测值s2(Qi,CQj);
S403:匹配度值计算:对s1(Qi,CQj)和s2(Qi,CQj)加权求和计算匹配度值s(Qi,CQj)。本实施例中,匹配度值s(Qi,CQj)计算公式如下:
s(Qi,CQj)=λs1(Qi,CQj)+(1-λ)s2(Qi,CQj)
其中λ为关键词一致性值权重,0<λ<1,取值根据实际进行调整,选择最佳值。
S404:答案返回:经过上述计算,每个候选问题均具有一个与实时问题Qi之间的匹配度值,从候选问题中挑选匹配度值最高的一个或多个,这些候选问题对应的答案就可以作为实时问题Qi的答案,进行返回,推送给用户。推送的候选问题个数可以根据实际需要进行设定。
基于上述方法,可以根据特定的领域,快速构建智能问答系统,其结合关键词检索和基于孪生神经网络训练语义相似度模型实现目标领域的智能问答及最优答案的推送,同时兼顾了效率和性能,保证了方法的召回率和准确率。
以上所述的实施例只是本发明的一种较佳的方案,然其并非用以限制本发明。有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。

Claims (8)

1.一种结合关键词检索与孪生神经网络的目标领域问答推送方法,用于根据用户提出的实时问题推送相应的答案,其特征在于包括以下步骤:
S1:对目标领域进行知识构建和历史问题数据预处理,具体包含以下子步骤S101~S104:
S101:获取并筛选出与目标领域相关的词条作为概念词,建立领域概念词表;
S102:对领域概念词表中的每个概念词,给出表达方式不同的同义词,在此基础上建立领域概念词消歧表,将不同表达方式的同义领域概念词映射到同一个词;
S103:将领域概念词表加入分词词表,然后对每个历史问题进行分词和去停用词处理;
S104:对每个历史问题,基于领域概念词表和领域概念词消歧表将句子中出现的所有不同表达方式的领域概念词替换为同一个词;
S2:基于孪生神经网络训练语义相似度模型,用以计算任意两个句子的语义相似度值,具体包含以下子步骤S201~S205:
S201:收集短句样本,并根据短句表达的含义将其进行分类,构建训练集TS;所述训练集TS里的每个样本为一个三元组其中分别为经过分词、去停用词和消歧预处理的两个短句,yi的关系标注,若两个短句属于同一类型则yi为1,属于不同类型则yi为0;
S202:采用孪生神经网络训练语义相似度模型,网络结构包括输入层、卷积层、交互层和输出层;
在所述输入层中,基于词嵌入技术将中所有词替换为其对应的向量,对向量进行纵向拼接得到两个矩阵然后通过尾部截断或填充全0向量的方式将都处理成大小为l×d的输入矩阵,其中l为短句统一长度,d为词向量维度;
在所述卷积层中,采用两个参数完全共享的卷积神经网络分别处理每个卷积神经网络首先采用多个不同尺寸的卷积核对输入矩阵进行卷积操作;然后采用MaxPooling Over Time策略对卷积结果进行池化操作;最后拼接池化结果得到卷积特征向量,记的卷积特征向量分别为
在所述交互层中,基于余弦相似度计算的相似度;
在所述输出层中,采用对比损失函数作为训练的损失函数,输出的预测相似度值;
S3:针对用户输入的实时问题Qi,通过抽取关键词对历史问题进行全文检索,得到候选问题列表,具体包含以下子步骤S301~S304:
S301:对实时问题Qi进行预处理,所述预处理包括分词、去停用词和消歧;
S302:首先基于TextRank算法计算Qi中每个词的重要度权值;然后抽取Qi中所有消歧后的领域概念词,若抽取出的领域概念词数量小于等于关键词数量设定阈值k,则保留所有抽取出的领域概念词;否则保留重要度权值最高的k个抽取出的领域概念词;将最终保留的领域概念词集记为CW(Qi),其包含的词的数量为kCW
S303:若kCW<k,在Qi包含的非领域概念词中挑选重要度权值最高的(k-kCW)个词作为普通关键词,将最终保留的普通关键词集记为NW(Qi);
S304:实时问题Qi的最终关键词集KW(Qi)=CW(Qi)∪NW(Qi),基于Lucene引擎检索至少包含KW(Qi)中一个词的所有预处理后的历史问题,形成候选问题列表CQ(Qi);
S4:匹配度值计算和答案返回:计算实时问题Qi和候选问题列表CQ(Qi)中每个候选问题的关键词一致性和语义相似度,然后融合关键词一致性值和语义相似度值得到每个候选问题的匹配度值,按照匹配度值高低排序返回答案,具体包含以下步骤:
S401:对CQ(Qi)中每个候选问题CQj,计算其包含CW(Qi)中词的数量n(CQj)和包含NW(Qi)中词的数量m(CQj),然后对n(CQj)和m(CQj)进行加权求平均计算关键词一致性值s1(Qi,CQj);
S402:对CQ(Qi)中每个候选问题CQj,将实时问题Qi和CQj输入训练好的语义相似度模型,得到两者的语义相似度预测值s2(Qi,CQj);
S403:对s1(Qi,CQj)和s2(Qi,CQj)加权求和计算匹配度值s(Qi,CQj);
S404:从候选问题中挑选匹配度值最高的一个或多个,其对应的答案作为实时问题Qi的答案进行返回推送。
2.根据权利要求1所述的结合关键词检索与孪生神经网络的目标领域问答推送方法,其特征在于步骤S1中所述的与目标领域相关的词条,采用网络爬虫爬取百度百科词条数据,然后由领域专家人工进行筛选得到。
3.根据权利要求1所述的结合关键词检索与孪生神经网络的目标领域问答推送方法,其特征在于步骤S3中对实时问题Qi的预处理与S1中对历史问题的预处理相同,均包括分词、去停用词和消歧。
4.根据权利要求1所述的结合关键词检索与孪生神经网络的目标领域问答推送方法,其特征在于步骤(2)中所述的多个不同尺寸的卷积核的宽度均为w,高度则不同。
5.根据权利要求1所述的一种结合关键词检索与孪生神经网络的目标领域问答推送方法,其特征在于步骤(2)中所述的对比损失函数L计算公式如下:
ei=|y′i-yi|
其中y′i为样本tsi的预测语义相似度值,yi为样本tsi包含短句的关系标注,N为训练集TS中的样本总数。
6.根据权利要求1所述的一种结合关键词检索与孪生神经网络的目标领域问答推送方法,其特征在于步骤(4)中所述的关键词一致性值s1(Qi,CQj)计算公式如下:
其中α为领域概念词权重,0<α<1;β为普通关键词权重,0<β<1,并且β<α。
7.根据权利要求1所述的一种结合关键词检索与孪生神经网络的目标领域问答推送方法,其特征在于步骤(4)中所述的匹配度值s(Qi,CQj)计算公式如下:
s(Qi,CQj)=λs1(Qi,CQj)+(1-λ)s2(Qi,CQj)
其中λ为关键词一致性值权重,0<λ<1。
8.根据权利要求1所述的一种结合关键词检索与孪生神经网络的目标领域问答推送方法,其特征在于所述的历史问题数据中。每个历史问题均具有对应的答案。
CN201910304381.5A 2019-04-16 2019-04-16 结合关键词检索与孪生神经网络的目标领域问答推送方法 Active CN110046240B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910304381.5A CN110046240B (zh) 2019-04-16 2019-04-16 结合关键词检索与孪生神经网络的目标领域问答推送方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910304381.5A CN110046240B (zh) 2019-04-16 2019-04-16 结合关键词检索与孪生神经网络的目标领域问答推送方法

Publications (2)

Publication Number Publication Date
CN110046240A true CN110046240A (zh) 2019-07-23
CN110046240B CN110046240B (zh) 2020-12-08

Family

ID=67277412

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910304381.5A Active CN110046240B (zh) 2019-04-16 2019-04-16 结合关键词检索与孪生神经网络的目标领域问答推送方法

Country Status (1)

Country Link
CN (1) CN110046240B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110427563A (zh) * 2019-08-30 2019-11-08 杭州智策略科技有限公司 一种基于知识图谱的专业领域系统冷启动推荐方法
CN110825860A (zh) * 2019-10-24 2020-02-21 厦门快商通科技股份有限公司 知识库问答抽取方法、系统、移动终端及存储介质
CN110990003A (zh) * 2019-11-15 2020-04-10 南通大学 一种基于词嵌入技术的api推荐方法
CN111159373A (zh) * 2019-12-26 2020-05-15 上海智臻智能网络科技股份有限公司 智能问答系统的知识库建立方法、装置和存储介质
CN111737954A (zh) * 2020-06-12 2020-10-02 百度在线网络技术(北京)有限公司 文本相似度确定方法、装置、设备和介质
CN111831800A (zh) * 2019-08-13 2020-10-27 北京嘀嘀无限科技发展有限公司 问答交互方法、装置、设备及存储介质
CN112115347A (zh) * 2020-07-17 2020-12-22 腾讯科技(深圳)有限公司 搜索结果的获取方法和装置及存储介质
CN112215005A (zh) * 2020-10-12 2021-01-12 小红书科技有限公司 实体识别方法及装置
CN112487274A (zh) * 2020-12-02 2021-03-12 重庆邮电大学 一种基于文本点击率的搜索结果推荐方法及系统
CN112667794A (zh) * 2020-12-31 2021-04-16 民生科技有限责任公司 一种基于孪生网络bert模型的智能问答匹配方法及系统
CN112906895A (zh) * 2021-02-09 2021-06-04 柳州智视科技有限公司 一种题目对象仿造的方法
CN113254609A (zh) * 2021-05-12 2021-08-13 同济大学 一种基于负样本多样性的问答模型集成方法
CN113590791A (zh) * 2021-07-30 2021-11-02 北京壹心壹翼科技有限公司 一种核保问询策略优化方法、装置、设备及存储介质
CN113761613A (zh) * 2020-06-05 2021-12-07 中国石油化工股份有限公司 一种钻井液设计方法及系统
CN113792153A (zh) * 2021-08-25 2021-12-14 北京百度网讯科技有限公司 问答推荐方法及其装置
US20210406467A1 (en) * 2020-06-24 2021-12-30 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for generating triple sample, electronic device and computer storage medium
CN114398883A (zh) * 2022-01-19 2022-04-26 平安科技(深圳)有限公司 演示文稿生成方法、装置、计算机可读存储介质及服务器
CN114417865A (zh) * 2022-01-24 2022-04-29 平安科技(深圳)有限公司 灾害事件的描述文本处理方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180081628A1 (en) * 2016-09-21 2018-03-22 International Business Machines Corporation Preserving Temporal Relevance in a Response to a Query
CN107967255A (zh) * 2017-11-08 2018-04-27 北京广利核系统工程有限公司 一种判定文本相似性的方法和系统
CN108932342A (zh) * 2018-07-18 2018-12-04 腾讯科技(深圳)有限公司 一种语义匹配的方法、模型的学习方法及服务器
WO2019014527A1 (en) * 2017-07-13 2019-01-17 Endgame, Inc. SYSTEM AND METHOD FOR DETECTION OF HOMOGLYPHE ATTACKS USING A SIAMOIS CONVOLUTIVE NEURAL NETWORK
EP3454260A1 (en) * 2017-09-11 2019-03-13 Tata Consultancy Services Limited Bilstm-siamese network based classifier for identifying target class of queries and providing responses thereof
CN109543009A (zh) * 2018-10-17 2019-03-29 龙马智芯(珠海横琴)科技有限公司 文本相似度评估系统及文本相似度评估方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180081628A1 (en) * 2016-09-21 2018-03-22 International Business Machines Corporation Preserving Temporal Relevance in a Response to a Query
WO2019014527A1 (en) * 2017-07-13 2019-01-17 Endgame, Inc. SYSTEM AND METHOD FOR DETECTION OF HOMOGLYPHE ATTACKS USING A SIAMOIS CONVOLUTIVE NEURAL NETWORK
EP3454260A1 (en) * 2017-09-11 2019-03-13 Tata Consultancy Services Limited Bilstm-siamese network based classifier for identifying target class of queries and providing responses thereof
CN107967255A (zh) * 2017-11-08 2018-04-27 北京广利核系统工程有限公司 一种判定文本相似性的方法和系统
CN108932342A (zh) * 2018-07-18 2018-12-04 腾讯科技(深圳)有限公司 一种语义匹配的方法、模型的学习方法及服务器
CN109543009A (zh) * 2018-10-17 2019-03-29 龙马智芯(珠海横琴)科技有限公司 文本相似度评估系统及文本相似度评估方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ARPITA DAS ETCL: "Together We Stand: Siamese Networks for Similar Question Retrieval", 《PROCEEDINGS OF THE 54TH ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》 *
刘拼拼: "领域问答系统中问句相似度计算方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111831800A (zh) * 2019-08-13 2020-10-27 北京嘀嘀无限科技发展有限公司 问答交互方法、装置、设备及存储介质
CN110427563A (zh) * 2019-08-30 2019-11-08 杭州智策略科技有限公司 一种基于知识图谱的专业领域系统冷启动推荐方法
CN110427563B (zh) * 2019-08-30 2023-02-28 杭州智策略科技有限公司 一种基于知识图谱的专业领域系统冷启动推荐方法
CN110825860A (zh) * 2019-10-24 2020-02-21 厦门快商通科技股份有限公司 知识库问答抽取方法、系统、移动终端及存储介质
CN110825860B (zh) * 2019-10-24 2022-08-23 厦门快商通科技股份有限公司 知识库问答抽取方法、系统、移动终端及存储介质
CN110990003A (zh) * 2019-11-15 2020-04-10 南通大学 一种基于词嵌入技术的api推荐方法
CN111159373A (zh) * 2019-12-26 2020-05-15 上海智臻智能网络科技股份有限公司 智能问答系统的知识库建立方法、装置和存储介质
CN111159373B (zh) * 2019-12-26 2023-04-07 上海智臻智能网络科技股份有限公司 智能问答系统的知识库建立方法、装置和存储介质
CN113761613A (zh) * 2020-06-05 2021-12-07 中国石油化工股份有限公司 一种钻井液设计方法及系统
CN111737954A (zh) * 2020-06-12 2020-10-02 百度在线网络技术(北京)有限公司 文本相似度确定方法、装置、设备和介质
US20210406467A1 (en) * 2020-06-24 2021-12-30 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for generating triple sample, electronic device and computer storage medium
CN112115347A (zh) * 2020-07-17 2020-12-22 腾讯科技(深圳)有限公司 搜索结果的获取方法和装置及存储介质
CN112115347B (zh) * 2020-07-17 2023-12-12 腾讯科技(深圳)有限公司 搜索结果的获取方法和装置及存储介质
CN112215005A (zh) * 2020-10-12 2021-01-12 小红书科技有限公司 实体识别方法及装置
CN112487274B (zh) * 2020-12-02 2023-02-07 重庆邮电大学 一种基于文本点击率的搜索结果推荐方法及系统
CN112487274A (zh) * 2020-12-02 2021-03-12 重庆邮电大学 一种基于文本点击率的搜索结果推荐方法及系统
CN112667794A (zh) * 2020-12-31 2021-04-16 民生科技有限责任公司 一种基于孪生网络bert模型的智能问答匹配方法及系统
CN112906895A (zh) * 2021-02-09 2021-06-04 柳州智视科技有限公司 一种题目对象仿造的方法
CN113254609A (zh) * 2021-05-12 2021-08-13 同济大学 一种基于负样本多样性的问答模型集成方法
CN113590791A (zh) * 2021-07-30 2021-11-02 北京壹心壹翼科技有限公司 一种核保问询策略优化方法、装置、设备及存储介质
CN113590791B (zh) * 2021-07-30 2023-11-24 北京壹心壹翼科技有限公司 一种核保问询策略优化方法、装置、设备及存储介质
CN113792153A (zh) * 2021-08-25 2021-12-14 北京百度网讯科技有限公司 问答推荐方法及其装置
CN113792153B (zh) * 2021-08-25 2023-12-12 北京度商软件技术有限公司 问答推荐方法及其装置
CN114398883A (zh) * 2022-01-19 2022-04-26 平安科技(深圳)有限公司 演示文稿生成方法、装置、计算机可读存储介质及服务器
CN114398883B (zh) * 2022-01-19 2023-07-07 平安科技(深圳)有限公司 演示文稿生成方法、装置、计算机可读存储介质及服务器
CN114417865A (zh) * 2022-01-24 2022-04-29 平安科技(深圳)有限公司 灾害事件的描述文本处理方法、装置、设备及存储介质
CN114417865B (zh) * 2022-01-24 2023-05-26 平安科技(深圳)有限公司 灾害事件的描述文本处理方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN110046240B (zh) 2020-12-08

Similar Documents

Publication Publication Date Title
CN110046240A (zh) 结合关键词检索与孪生神经网络的目标领域问答推送方法
CN111581401B (zh) 一种基于深度相关性匹配的局部引文推荐系统及方法
CN110134946B (zh) 一种针对复杂数据的机器阅读理解方法
CN111310438A (zh) 基于多粒度融合模型的中文句子语义智能匹配方法及装置
CN113743119B (zh) 中文命名实体识别模块、方法、装置及电子设备
DE112013004082T5 (de) Suchsystem der Emotionsentität für das Microblog
CN110458181A (zh) 一种基于宽度随机森林的句法依存模型、训练方法和分析方法
CN108549658A (zh) 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统
CN109597876A (zh) 一种基于强化学习的多轮对话答复选择模型及其方法
CN106991161A (zh) 一种自动生成开放式问题答案的方法
CN110362651A (zh) 检索和生成相结合的对话方法、系统、装置和存储介质
CN107644062A (zh) 一种基于知识图谱的知识内容权重分析系统及方法
CN109472030A (zh) 一种系统回复质量的评价方法及装置
CN114077673A (zh) 一种基于btbc模型的知识图谱构建方法
CN110852089A (zh) 基于智能分词与深度学习的运维项目管理方法
CN114020871B (zh) 基于特征融合的多模态社交媒体情感分析方法
CN113283243B (zh) 一种实体与关系联合抽取的方法
CN110502613A (zh) 一种模型训练方法、智能检索方法、装置和存储介质
CN117828024A (zh) 一种插件检索方法、装置、存储介质及设备
CN113486174A (zh) 模型训练、阅读理解方法、装置、电子设备及存储介质
CN112579739A (zh) 基于ELMo嵌入与门控自注意力机制的阅读理解方法
CN116701665A (zh) 基于深度学习的中医古籍知识图谱构建方法
CN116910190A (zh) 多任务感知模型获取方法、装置、设备及可读存储介质
CN113157892B (zh) 用户意图处理方法、装置、计算机设备及存储介质
CN114925681A (zh) 知识图谱问答问句实体链接方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant