CN109800292A - 问答匹配度的确定方法、装置及设备 - Google Patents

问答匹配度的确定方法、装置及设备 Download PDF

Info

Publication number
CN109800292A
CN109800292A CN201811539899.9A CN201811539899A CN109800292A CN 109800292 A CN109800292 A CN 109800292A CN 201811539899 A CN201811539899 A CN 201811539899A CN 109800292 A CN109800292 A CN 109800292A
Authority
CN
China
Prior art keywords
similarity
information
answer
keywords
matching degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811539899.9A
Other languages
English (en)
Inventor
赖佳伟
袁德璋
杨宇鸿
付志宏
何径舟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201811539899.9A priority Critical patent/CN109800292A/zh
Publication of CN109800292A publication Critical patent/CN109800292A/zh
Pending legal-status Critical Current

Links

Abstract

本发明实施例提供一种问答匹配度的确定方法、装置及设备,该方法包括:获取问题信息和答案信息的第一相似度,第一相似度用于指示问题信息中的语句和答案信息中的语句的相似度;获取问题信息和答案信息的第二相似度,第二相似度用于指示问题信息的关键字和答案信息的关键字的相似度;获取问题信息和答案信息的统计类特征,统计类特征包括问题信息和答案信息之间的编辑距离、问题信息和答案信息的词频逆文本频率指数tfidf值中的至少一种;根据第一相似度、第二相似度和统计类特征,确定问题信息和答案信息的匹配度。提高了确定问题信息和答案信息之间的匹配度的效率。

Description

问答匹配度的确定方法、装置及设备
技术领域
本发明实施例涉及计算机领域,尤其涉及一种问答匹配度的确定方法、装置及设备。
背景技术
目前,用户可以通过网络平台发布问题、以及问题的答案,在很多应用场景中,需要获取问题和答案的匹配度。例如,在对包括问题和答案的网页进行打分时,需要获取该网页中问题和答案的匹配度。
在现有技术中,通常由人工对网络平台中的问题和对应的答案进行审阅,以确定网络平台中的问题和答案的匹配度。然而,工作人员通常仅能根据自身的知识储备确定问题和答案的匹配度,由于工作人员的知识储备通常有限,导致工作人员很多情况下无法准确的确定问题和答案的匹配度,且人工确定网络平台的问题和答案的匹配度的效率低下。
发明内容
本发明实施例提供一种问答匹配度的确定方法、装置及设备,提高了确定问答匹配度的效率。
第一方面,本发明实施例提供一种问答匹配度的确定方法,包括:
获取问题信息和答案信息的第一相似度,所述第一相似度用于指示所述问题信息中的语句和所述答案信息中的语句的相似度;
获取所述问题信息和所述答案信息的第二相似度,所述第二相似度用于指示所述问题信息的关键字和所述答案信息的关键字的相似度;
获取所述问题信息和所述答案信息的统计类特征,所述统计类特征包括所述问题信息和所述答案信息之间的编辑距离、所述问题信息和所述答案信息的词频逆文本频率指数tfidf值中的至少一种;
根据所述第一相似度、所述第二相似度和所述统计类特征,确定所述问题信息和所述答案信息的匹配度。
在一种可能的实施方式中,根据所述第一相似度、所述第二相似度和所述统计类特征,确定所述问题信息和所述答案信息的匹配度,包括:
通过第一模型对所述第一相似度、所述第二相似度和所述统计类特征进行处理,得到所述问题信息和所述答案信息的匹配度;
其中,所述第一模型为对匹配度为不同值的多组样本进行学习得到的,每组样本中包括样本问题和样本答案。
在一种可能的实施方式中,所述第一模型为对匹配度为第一值的多组样本、以及匹配度为第二值的多组样本进行学习得到的,每组样本中包括样本问题和样本答案;其中,所述第一值用于指示匹配,所述第二值用于指示不匹配。
在一种可能的实施方式中,所述通过第一模型对所述第一相似度、所述第二相似度和所述统计类特征进行处理,得到所述问题信息和所述答案信息的匹配度,包括:
在所述第一模型中确定所述第一相似度的第一权重值、所述第二相似度的第二权重值、所述统计类特征中各特征的第三权重值;
根据所述第一相似度、所述第二相似度、所述统计类特征、所述第一权重值、所述第二权重值和所述第三权重值,通过所述第一模型确定所述问题信息和所述答案信息的匹配度。
在一种可能的实施方式中,所述获取所述问题信息和所述答案信息的第二相似度,包括:
获取所述问题信息的第一关键字集合,所述第一关键字集合包括所述问题信息中的至少一个关键字;
获取所述答案信息的第二关键字集合,所述第二关键字集合包括所述答案信息中的至少一个关键字;
根据所述第一关键字集合和所述第二关键字集合,确定所述第二相似度。
在一种可能的实施方式中,根据所述第一关键字集合和所述第二关键字集合,确定所述第二相似度,包括:
获取所述第一关键字集合中每个关键字的第一向量;
获取所述第二关键字集合中每个关键字的第二向量;
根据所述第一关键字集合中每个关键字的第一向量和所述第二关键字集合中每个关键字的第二向量,确定所述第二相似度。
在一种可能的实施方式中,所述获取问题信息和答案信息的第一相似度,包括:
通过匹配矩阵模型和卷积神经网络对所述问题信息和所述答案信息进行处理,得到所述第一相似度。
在一种可能的实施方式中,所述第一相似度为所述问题信息和所述答案信息的语言模型相似度。
第二方面,本发明实施例提供一种问答匹配度的确定装置,包括第一获取模块、第二获取模块、第三获取模块和确定模块,其中,
所述第一获取模块用于,获取问题信息和答案信息的第一相似度,所述第一相似度用于指示所述问题信息中的语句和所述答案信息中的语句的相似度;
所述第二获取模块用于,获取所述问题信息和所述答案信息的第二相似度,所述第二相似度用于指示所述问题信息的关键字和所述答案信息的关键字的相似度;
所述第三获取模块用于,获取所述问题信息和所述答案信息的统计类特征,所述统计类特征包括所述问题信息和所述答案信息之间的编辑距离、所述问题信息和所述答案信息的词频逆文本频率指数tfidf值中的至少一种;
所述确定模块用于,根据所述第一相似度、所述第二相似度和所述统计类特征,确定所述问题信息和所述答案信息的匹配度。
在一种可能的实施方式中,所述确定模块具体用于:
通过第一模型对所述第一相似度、所述第二相似度和所述统计类特征进行处理,得到所述问题信息和所述答案信息的匹配度;
其中,所述第一模型为对匹配度为不同值的多组样本进行学习得到的,每组样本中包括样本问题和样本答案。
在一种可能的实施方式中,所述第一模型为对匹配度为第一值的多组样本、以及匹配度为第二值的多组样本进行学习得到的,每组样本中包括样本问题和样本答案;其中,所述第一值用于指示匹配,所述第二值用于指示不匹配。
在一种可能的实施方式中,所述确定模块具体用于:
在所述第一模型中确定所述第一相似度的第一权重值、所述第二相似度的第二权重值、所述统计类特征中各特征的第三权重值;
根据所述第一相似度、所述第二相似度、所述统计类特征、所述第一权重值、所述第二权重值和所述第三权重值,通过所述第一模型确定所述问题信息和所述答案信息的匹配度。
在一种可能的实施方式中,所述第二获取模块具体用于:
获取所述问题信息的第一关键字集合,所述第一关键字集合包括所述问题信息中的至少一个关键字;
获取所述答案信息的第二关键字集合,所述第二关键字集合包括所述答案信息中的至少一个关键字;
根据所述第一关键字集合和所述第二关键字集合,确定所述第二相似度。
在一种可能的实施方式中,所述第二获取模块具体用于:
获取所述第一关键字集合中每个关键字的第一向量;
获取所述第二关键字集合中每个关键字的第二向量;
根据所述第一关键字集合中每个关键字的第一向量和所述第二关键字集合中每个关键字的第二向量,确定所述第二相似度。
在一种可能的实施方式中,所述第一获取模块具体用于:
通过匹配矩阵模型和卷积神经网络对所述问题信息和所述答案信息进行处理,得到所述第一相似度。
在一种可能的实施方式中,所述第一相似度为所述问题信息和所述答案信息的语言模型相似度。
第三方面,本发明实施例提供一种问答匹配度的确定装置,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上述第一方面任一项所述的问答匹配度的确定方法。
第三方面,本发明实施例提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上述第一方面任一项所述的问答匹配度的确定方法。
本发明实施例提供的问答匹配度的确定方法、装置及设备,当需要获取问题信息和答案信息的匹配度时,获取问题信息和答案信息的第一相似度、第二相似度和统计类特征,并根据第一相似度、第二相似度和统计类特征,确定问题信息和答案信息的匹配度,其中,第一相似度用于指示问题信息中的语句和答案信息中的语句的相似度,第二相似度用于指示问题信息的关键字和答案信息的关键字的相似度,统计类特征包括问题信息和答案信息之间的编辑距离、问题信息和答案信息的词频逆文本频率指数tfidf值中的至少一种。由上可知,第一相似度、第二相似度和统计类特征用于不同的角度描述问题信息和答案信息之间的匹配关系,使得根据第一相似度、第二相似度和统计类特征可以更加准确的确定得到问题信息和答案信息之间的匹配度,进一步的,无需人工进行处理,进而提高了确定问题信息和答案信息之间的匹配度的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的问答匹配度的确定方法的架构图;
图2为本发明实施例提供的问答匹配度的确定方法的流程示意图;
图3为本发明实施例提供的确定第一相似度方法的示意图;
图4为本发明实施例提供的确定第二相似度方法的流程示意图;
图5为本发明实施例提供的确定第二相似度方法的示意图;
图6为本发明实施例提供的问答匹配度的确定装置的结构示意图;
图7为本发明实施例提供的问答匹配度的确定装置的硬件结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的问答匹配度的确定方法的架构图。请参见图1,当需要确定问题信息和答案信息的匹配度时,先基于深度学习方式对问题信息和答案信息进行处理,得到问题信息和答案信息的第一相似度和第二相似度,第一相似度用于指示问题信息和答案信息的语句相似度,第二相似度用于指示问题信息和答案信息中的关键字的相似度。还对问题信息和答案信息进行统计处理,以得到问题信息和答案信息的统计类特征,统计类特征用于指示问题信息和答案信息中的文本相似度。通过第一模型对第一相似度、第二相似度和统计类特征进行处理,以得到问题信息和答案信息的匹配度。
在本申请中,第一相似度用于指示问题信息和答案信息的语句相似度,第二相似度用于指示问题信息和答案信息中的关键字的相似度,统计类特征用于指示问题信息和答案信息中的文本相似度,即,第一相似度、第二相似度和统计类特征从不同的角度对问题信息和答案信息之间的关系进行描述,使得根据第一相似度、第二相似度和统计类特征可以更加准确的确定得到问题信息和答案信息之间的匹配度,进一步的,无需人工进行处理,进而提高了确定问题信息和答案信息之间的匹配度的效率。
下面,通过具体实施例对本申请所示的技术方案进行详细说明。需要说明的是,下面几个具体实施例可以相互结合,对于相同或相似的内容,在不同的实施例中不再进行重复说明。
图2为本发明实施例提供的问答匹配度的确定方法的流程示意图。请参见图2,该方法可以包括:
S201、获取问题信息和答案信息的第一相似度,第一相似度用于指示问题信息中的语句和答案信息中的语句的相似度。
本发明实施例的执行主体可以为问答匹配度的确定装置,该问答匹配度的确定装置可以通过软件实现,也可以通过软件和硬件的结合实现。
可选的,问题信息与答案信息具有对应关系,即,答案信息为对问题信息的回答。
可选的,问题信息和答案信息可以为网络平台中的任意的问题信息和答案信息。
可选的,第一相似度可以为问题信息和答案信息的语言模型相似度。
可选的,语言模型相似度可以为n-gram(汉语语言模型)相似度。
可选的,针对任意两个语句,可以通过该两个语句中包括的共有子串的数量来衡量该两个语句的相似度。其中,两个语句的共有子串的数量越多,则两个语句的相似度越高。
需要说明的是,本发明实施例所示的语句包括至少如下两种可行的形式:
第一种:语句为以标点符号隔开的一个句子。
例如,对于文本“武汉长江大桥位于湖北省武汉市武昌区蛇山和汉阳龟山之间,是万里长江上的第一座大桥,也是新中国成立后在长江上修建的第一座公铁两用桥”,该文本中的语句可以包括:“武汉长江大桥位于湖北省武汉市武昌区蛇山和汉阳龟山之间”、“是万里长江上的第一座大桥”、“也是新中国成立后在长江上修建的第一座公铁两用桥”。
第二中:语句为预设字符长度的字符串。
例如,对于文本“武汉长江大桥位于湖北省武汉市武昌区蛇山和汉阳龟山之间,是万里长江上的第一座大桥,也是新中国成立后在长江上修建的第一座公铁两用桥”,假设预设字符长度为20,则该文本中的语句可以包括“武汉长江大桥位于湖北省武汉市武昌区蛇山和”、“汉阳龟山之间,是万里长江上的第一座大桥,”、“也是新中国成立后在长江上修建的第一座公铁”和“两用桥”。
可选的,可以基于深度学习方法确定问题信息和答案信息的第一相似度。
下面,结合图3,对基于深度学习方法确定第一相似度的过程进行详细说明。
图3为本发明实施例提供的确定第一相似度方法的示意图。请参见图3,可以将问题信息和答案信息输入至匹配矩阵(match matrix)模型,由匹配矩阵模型对问题信息和答案信息进行处理,得到问题信息和答案信息的匹配信息,并将匹配信息输入至卷积神经网络,由卷积神经网络对匹配信息进行处理,得到第一相似度。
S202、获取问题信息和答案信息的第二相似度,第二相似度用于指示问题信息的关键字和答案信息的关键字的相似度。
可选的,可以在问题信息中获取关键字,以及在答案信息中获取关键字,并确定问题信息中的关键字和答案信息中的关键字的相似度。
其中,第二相似度用于表示问题信息和答案信息的题文一致性特征。
可选的,可以基于深度学习方法确定问题信息和答案信息的方法确定问题信息和答案信息的第二相似度。
需要说明的是,在图4所示的实施例中对确定基于深度学习方法确定问题信息和答案信息的第二相似度的过程进行详细说明,此处不再进行赘述。
S203、获取问题信息和答案信息的统计类特征。
其中,统计类特征包括问题信息和答案信息之间的编辑距离、问题信息和答案信息的词频逆文本频率指数(term frequency inverse document frequency,tfidf)值中的至少一种。
可选的,统计类特征为对问题信息的文本和答案信息的文本进行统计得到的,该统计类特征可以指示问题信息和答案信息的文本相似度。
可选的,问题信息和答案信息之间的编辑距离是指,经过多少次处理操作才能将问题信息变成答案信息。其中,处理操作包括字符的删除、加入、更改等操作。
例如,对问题信息进行10次操作可以将问题信息变为答案信息,则问题信息和答案信息之间的编辑距离为10。
可选的,统计类特征还可以包括其它,例如,统计类特征还可以包括问题信息和答案信息的集合度量特征。集合度量特征用于指示问题信息和答案信息中包括的字符的重合程度。
可选的,可以通过如下可行的实现方式获取问题信息和答案信息的集合度量特征:
获取问题信息和答案信息中相同的字符,并根据相同字符在答案信息中的tfidf值和相同字符的个数,确定集合度量特征。
例如,集合度量特征可以为每个相同字符在答案信息中的tfidf值之和与相同字符的个数的比值。
S204、根据第一相似度、第二相似度和统计类特征,确定问题信息和答案信息的匹配度。
可选的,可以通过第一模型对第一相似度、第二相似度和统计类特征进行处理,得到问题信息和答案信息的匹配度。
可选的,第一模型可以为梯度提升决策树(Gradient Boosting Decision Tree,GBDT)模型。
可选的,第一模型中包括第一相似度对应的第一权重值、第二相似度对应的第二权重值和统计类特征对应的第三权重值。
可选的,可以在第一模型中确定第一相似度的第一权重值、第二相似度的第二权重值、统计类特征中各特征的第三权重值,根据第一相似度、第二相似度、统计类特征、第一权重值、第二权重值和第三权重值,通过第一模型确定问题信息和答案信息的匹配度。
例如,可以将第一相似度和第一权重值的乘积、第二相似度与第二权重值的乘积、以及统计类特征与第三权重值的乘积之和,确定为问题信息和答案信息的匹配度。
其中,第一模型为对匹配度为不同值的多组样本进行学习得到的,每组样本中包括样本问题和样本答案。
可选的,第一模型为对匹配度为第一值的多组样本、以及匹配度为第二值的多组样本进行学习得到的,每组样本中包括样本问题和样本答案;其中,第一值用于指示匹配,第二值用于指示不匹配。
可选的,第一值可以为1,第二值可以为0。
需要说明的是,当统计类特征中包括多个特征时,每个特征的第三权重值可以相同,也可以不同。当每个特征的第三权重值不同时,则第一模型中包括统计类特征中每个特征的第三权重值。
可选的,学习得到第一模型的过程即为学习得到第一权重值、第二权重值和第三权重值的过程。
下面,对学习得到第一权重值、第二权重值和第三权重值的过程进行详细说明。
可选的,初始时可以将第一权重值、第二权重值和第三权重值设置为任意值,例如,可以将第一权重值、第二权重值和第三权重值均设置为0.33。
获取匹配度为1的多组样本和匹配度为0的多组样本,针对该多组样本中的每组样本,获取每组样本中样本问题和样本答案的第一相似度、第二相似度和统计类特征。根据每组样本中样本问题和样本答案的第一相似度、第二相似度、统计类特征、第一相似度、第二相似度和统计类特征,计算每组样本中样本问题和样本答案的匹配度。
若计算得到的匹配度为1的多组样本中样本问题和样本答案的匹配度与1的差值大于第一阈值,或者,若计算得到的匹配度为0的多组样本中样本问题和样本答案的匹配度与0的差值大于第二阈值,则调节第一权重值、第二权重值和第三权重值,并再次计算每组样本中样本问题和样本答案的匹配度。重复上述过程,直至匹配度为1的每组样本中样本问题和样本答案的匹配度与1的差值小于或等于第一阈值,且匹配度为0的每组样本中样本问题和样本答案的匹配度与0的差值小于或等于第二阈值时,得到第一权重值、第二权重值和第三权重值。
需要说明的是,在确定问题信息和答案信息的匹配度时,还可以参考其它特征,本发明实施例对此不作具体限定。
例如,在确定问题信息和答案信息的匹配度时,还可以参考答案信息的语音模型特征。答案信息的语言模型特征用于描述答案信息的通顺程度。
需要说明的是,若在确定问题信息和答案信息的匹配度时,还可以参考其它特征,则第一模型中包括该特征对应的权重值。即,在学习第一模型时,需要学习得到该特征对应的权重值。
还需要说明的是,若问题信息和答案信息为网页中的问题信息和答案信息时,则可以根据确定得到的问题信息和答案信息的匹配度,确定网页的质量打分。其中,问题信息和答案信息的匹配度越高,网页的质量打分也越高。
本发明实施例提供的问答匹配度的确定方法,当需要获取问题信息和答案信息的匹配度时,获取问题信息和答案信息的第一相似度、第二相似度和统计类特征,并根据第一相似度、第二相似度和统计类特征,确定问题信息和答案信息的匹配度,其中,第一相似度用于指示问题信息中的语句和答案信息中的语句的相似度,第二相似度用于指示问题信息的关键字和答案信息的关键字的相似度,统计类特征包括问题信息和答案信息之间的编辑距离、问题信息和答案信息的词频逆文本频率指数tfidf值中的至少一种。由上可知,第一相似度、第二相似度和统计类特征用于不同的角度描述问题信息和答案信息之间的匹配关系,使得根据第一相似度、第二相似度和统计类特征可以更加准确的确定得到问题信息和答案信息之间的匹配度,进一步的,无需人工进行处理,进而提高了确定问题信息和答案信息之间的匹配度的效率。
在上述实施例的基础上,下面,通过图4所示的实施例,对确定问题信息和答案信息的第二相似度的过程进行详细说明。
图4为本发明实施例提供的确定第二相似度方法的流程示意图。请参见图4,该方法可以包括:
S401、获取问题信息的第一关键字集合,第一关键字集合包括问题信息中的至少一个关键字。
可选的,可以通过预设算法对问题信息进行处理,以在问题信息中获取第一关键字集合。
例如,预设算法可以为textrank算法。
S402、获取答案信息的第二关键字集合,第二关键字集合包括答案信息中的至少一个关键字。
可选的,可以通过预设算法对答案信息进行处理,以在答案信息中获取第二关键字集合。
例如,预设算法可以为textrank算法。
S403、根据第一关键字集合和第二关键字集合,确定第二相似度。
可选的,可以通过如下可行的实现方式根据第一关键字集合和第二关键字集合,确定第二相似度:获取第一关键字集合中每个关键字的第一向量,获取第二关键字集合中每个关键字的第二向量,根据第一关键字集合中每个关键字的第一向量和第二关键字集合中每个关键字的第二向量,确定第二相似度。
可选的,针对任意一个关键字,可以预先设置关键字的向量,例如,可以通过256维向量表示一个关键字。
可以预先设置关键字和向量之间的对应关系,相应的,可以根据第一关键字集合中的每个关键字和该对应关系,确定第一关键字集合中每个关键字的第一向量,可以根据第二关键字集合中的每个关键字和该对应关系,确定第二关键字集合中每个关键字的第二向量。
可选的,可以对第一关键字集合中的每个关键字的第一向量进行处理,得到第一关键字集合对应的第三向量,该第三向量为问题信息对应的关键字向量。例如,可以对第一关键字集合中每个关键字的第一向量进行合并处理或者相加处理等,得到第三向量。
可选的,可以对第二关键字集合中的每个关键字的第二向量进行处理,得到第二关键字集合对应的第四向量,该第四向量为答案信息对应的关键字向量。例如,可以对第二关键字集合中每个关键字的第二向量进行合并处理或者相加处理等,得到第四向量。
可选的,可以对第三向量和第四向量进行内积运算或cos运算,以得到第二相似度。
在图3所示的实施例中,通过在问题信息中确定第一关键字集合,在答案信息中确定第二关键字集合,并根据第一关键字集合中的关键字的向量和第二关键字集合中的关键字的向量确定问题信息和答案信息的第二相似度,第一关键字集合中的关键字的向量可以精确的表示问题信息中的关键字,第二关键字集合中的关键字的向量可以精确的表示答案信息中的关键字,因此,通过上述方法确定得到的第二相似度的准确性较高。
下面,结合图5,对图4实施例所示的基于深度学习方法确定第二相似度的过程进行详细说明。
图5为本发明实施例提供的确定第二相似度方法的示意图。请参见图5,可以将问题信息输入至textrank模型,以使textrank模型通过textrank算法获取问题信息的第一关键字集合,并获取第一关键集合中每个关键的第一向量,根据每个关键字的第一向量确定问题信息的关键字向量。可以将答案信息输入至textrank模型,以使textrank模型通过textrank算法获取答案信息的第二关键字集合,并获取第二关键集合中每个关键的第二向量,根据每个关键字的第二向量确定答案信息的关键字向量。根据问题信息的关键字向量和答案信息的关键字向量,确定问题信息和答案信息的第二相似度。
图6为本发明实施例提供的问答匹配度的确定装置的结构示意图。请参见图6,该问答匹配度的确定装置10包括第一获取模块11、第二获取模块12、第三获取模块和13确定模块14,其中,
所述第一获取模块11用于,获取问题信息和答案信息的第一相似度,所述第一相似度用于指示所述问题信息中的语句和所述答案信息中的语句的相似度;
所述第二获取模块12用于,获取所述问题信息和所述答案信息的第二相似度,所述第二相似度用于指示所述问题信息的关键字和所述答案信息的关键字的相似度;
所述第三获取模块13用于,获取所述问题信息和所述答案信息的统计类特征,所述统计类特征包括所述问题信息和所述答案信息之间的编辑距离、所述问题信息和所述答案信息的词频逆文本频率指数tfidf值中的至少一种;
所述确定模块14用于,根据所述第一相似度、所述第二相似度和所述统计类特征,确定所述问题信息和所述答案信息的匹配度。
本发明实施例提供的问答匹配度的确定装置可以执行上述方法实施例所示的技术方案,其实现原理以及有益效果类似,此处不再进行赘述。
在一种可能的实施方式中,所述确定模块14具体用于:
通过第一模型对所述第一相似度、所述第二相似度和所述统计类特征进行处理,得到所述问题信息和所述答案信息的匹配度;
其中,所述第一模型为对匹配度为不同值的多组样本进行学习得到的,每组样本中包括样本问题和样本答案。
在一种可能的实施方式中,所述第一模型为对匹配度为第一值的多组样本、以及匹配度为第二值的多组样本进行学习得到的,每组样本中包括样本问题和样本答案;其中,所述第一值用于指示匹配,所述第二值用于指示不匹配。
在一种可能的实施方式中,所述确定模块14具体用于:
在所述第一模型中确定所述第一相似度的第一权重值、所述第二相似度的第二权重值、所述统计类特征中各特征的第三权重值;
根据所述第一相似度、所述第二相似度、所述统计类特征、所述第一权重值、所述第二权重值和所述第三权重值,通过所述第一模型确定所述问题信息和所述答案信息的匹配度。
在一种可能的实施方式中,所述第二获取模块12具体用于:
获取所述问题信息的第一关键字集合,所述第一关键字集合包括所述问题信息中的至少一个关键字;
获取所述答案信息的第二关键字集合,所述第二关键字集合包括所述答案信息中的至少一个关键字;
根据所述第一关键字集合和所述第二关键字集合,确定所述第二相似度。
在一种可能的实施方式中,所述第二获取模块12具体用于:
获取所述第一关键字集合中每个关键字的第一向量;
获取所述第二关键字集合中每个关键字的第二向量;
根据所述第一关键字集合中每个关键字的第一向量和所述第二关键字集合中每个关键字的第二向量,确定所述第二相似度。
在一种可能的实施方式中,所述第一获取模块11具体用于:
通过匹配矩阵模型和卷积神经网络对所述问题信息和所述答案信息进行处理,得到所述第一相似度。
在一种可能的实施方式中,所述第一相似度为所述问题信息和所述答案信息的语言模型相似度。
本发明实施例提供的问答匹配度的确定装置可以执行上述方法实施例所示的技术方案,其实现原理以及有益效果类似,此处不再进行赘述。
图7为本发明实施例提供的问答匹配度的确定装置的硬件结构示意图,如图7所示,该问答匹配度的确定装置20包括:至少一个处理器21和存储器22。可选地,该问答匹配度的确定装置20还包括通信部件23。其中,处理器21、存储器22以及通信部件23通过总线24连接。
在具体实现过程中,至少一个处理器21执行所述存储器22存储的计算机执行指令,使得至少一个处理器21执行如上的问答匹配度的确定方法。
处理器21的具体实现过程可参见上述方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
在上述图7所示的实施例中,应理解,处理器可以是中央处理单元(英文:CentralProcessing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:DigitalSignal Processor,简称:DSP)、专用集成电路(英文:Application Specific IntegratedCircuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器。
总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component,PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上所述的问答匹配度的确定方法。
上述的计算机可读存储介质,上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。
一种示例性的可读存储介质耦合至处理器,从而使处理器能够从该可读存储介质读取信息,且可向该可读存储介质写入信息。当然,可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(Application Specific IntegratedCircuits,简称:ASIC)中。当然,处理器和可读存储介质也可以作为分立组件存在于设备中。
所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (16)

1.一种问答匹配度的确定方法,其特征在于,包括:
获取问题信息和答案信息的第一相似度,所述第一相似度用于指示所述问题信息中的语句和所述答案信息中的语句的相似度;
获取所述问题信息和所述答案信息的第二相似度,所述第二相似度用于指示所述问题信息的关键字和所述答案信息的关键字的相似度;
获取所述问题信息和所述答案信息的统计类特征,所述统计类特征包括所述问题信息和所述答案信息之间的编辑距离、所述问题信息和所述答案信息的词频逆文本频率指数tfidf值中的至少一种;
根据所述第一相似度、所述第二相似度和所述统计类特征,确定所述问题信息和所述答案信息的匹配度。
2.根据权利要求1所述的方法,其特征在于,根据所述第一相似度、所述第二相似度和所述统计类特征,确定所述问题信息和所述答案信息的匹配度,包括:
通过第一模型对所述第一相似度、所述第二相似度和所述统计类特征进行处理,得到所述问题信息和所述答案信息的匹配度;
其中,所述第一模型为对匹配度为不同值的多组样本进行学习得到的,每组样本中包括样本问题和样本答案。
3.根据权利要求2所述的方法,其特征在于,所述第一模型为对匹配度为第一值的多组样本、以及匹配度为第二值的多组样本进行学习得到的,每组样本中包括样本问题和样本答案;其中,所述第一值用于指示匹配,所述第二值用于指示不匹配。
4.根据权利要求3所述的方法,其特征在于,所述通过第一模型对所述第一相似度、所述第二相似度和所述统计类特征进行处理,得到所述问题信息和所述答案信息的匹配度,包括:
在所述第一模型中确定所述第一相似度的第一权重值、所述第二相似度的第二权重值、所述统计类特征中各特征的第三权重值;
根据所述第一相似度、所述第二相似度、所述统计类特征、所述第一权重值、所述第二权重值和所述第三权重值,通过所述第一模型确定所述问题信息和所述答案信息的匹配度。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述获取所述问题信息和所述答案信息的第二相似度,包括:
获取所述问题信息的第一关键字集合,所述第一关键字集合包括所述问题信息中的至少一个关键字;
获取所述答案信息的第二关键字集合,所述第二关键字集合包括所述答案信息中的至少一个关键字;
根据所述第一关键字集合和所述第二关键字集合,确定所述第二相似度。
6.根据权利要求5所述的方法,其特征在于,根据所述第一关键字集合和所述第二关键字集合,确定所述第二相似度,包括:
获取所述第一关键字集合中每个关键字的第一向量;
获取所述第二关键字集合中每个关键字的第二向量;
根据所述第一关键字集合中每个关键字的第一向量和所述第二关键字集合中每个关键字的第二向量,确定所述第二相似度。
7.根据权利要求1-4任一项所述的方法,其特征在于,所述获取问题信息和答案信息的第一相似度,包括:
通过匹配矩阵模型和卷积神经网络对所述问题信息和所述答案信息进行处理,得到所述第一相似度。
8.根据权利要求7所述的方法,其特征在于,所述第一相似度为所述问题信息和所述答案信息的语言模型相似度。
9.一种问答匹配度的确定装置,其特征在于,包括第一获取模块、第二获取模块、第三获取模块和确定模块,其中,
所述第一获取模块用于,获取问题信息和答案信息的第一相似度,所述第一相似度用于指示所述问题信息中的语句和所述答案信息中的语句的相似度;
所述第二获取模块用于,获取所述问题信息和所述答案信息的第二相似度,所述第二相似度用于指示所述问题信息的关键字和所述答案信息的关键字的相似度;
所述第三获取模块用于,获取所述问题信息和所述答案信息的统计类特征,所述统计类特征包括所述问题信息和所述答案信息之间的编辑距离、所述问题信息和所述答案信息的词频逆文本频率指数tfidf值中的至少一种;
所述确定模块用于,根据所述第一相似度、所述第二相似度和所述统计类特征,确定所述问题信息和所述答案信息的匹配度。
10.根据权利要求9所述的装置,其特征在于,所述确定模块具体用于:
通过第一模型对所述第一相似度、所述第二相似度和所述统计类特征进行处理,得到所述问题信息和所述答案信息的匹配度;
其中,所述第一模型为对匹配度为不同值的多组样本进行学习得到的,每组样本中包括样本问题和样本答案。
11.根据权利要求10所述的装置,其特征在于,所述第一模型为对匹配度为第一值的多组样本、以及匹配度为第二值的多组样本进行学习得到的,每组样本中包括样本问题和样本答案;其中,所述第一值用于指示匹配,所述第二值用于指示不匹配。
12.根据权利要求11所述的装置,其特征在于,所述确定模块具体用于:
在所述第一模型中确定所述第一相似度的第一权重值、所述第二相似度的第二权重值、所述统计类特征中各特征的第三权重值;
根据所述第一相似度、所述第二相似度、所述统计类特征、所述第一权重值、所述第二权重值和所述第三权重值,通过所述第一模型确定所述问题信息和所述答案信息的匹配度。
13.根据权利要求9-12任一项所述的装置,其特征在于,所述第二获取模块具体用于:
获取所述问题信息的第一关键字集合,所述第一关键字集合包括所述问题信息中的至少一个关键字;
获取所述答案信息的第二关键字集合,所述第二关键字集合包括所述答案信息中的至少一个关键字;
根据所述第一关键字集合和所述第二关键字集合,确定所述第二相似度。
14.根据权利要求13所述的装置,其特征在于,所述第二获取模块具体用于:
获取所述第一关键字集合中每个关键字的第一向量;
获取所述第二关键字集合中每个关键字的第二向量;
根据所述第一关键字集合中每个关键字的第一向量和所述第二关键字集合中每个关键字的第二向量,确定所述第二相似度。
15.一种问答匹配度的确定装置,其特征在于,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如权利要求1至8任一项所述的问答匹配度的确定方法。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1至8任一项所述的问答匹配度的确定方法。
CN201811539899.9A 2018-12-17 2018-12-17 问答匹配度的确定方法、装置及设备 Pending CN109800292A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811539899.9A CN109800292A (zh) 2018-12-17 2018-12-17 问答匹配度的确定方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811539899.9A CN109800292A (zh) 2018-12-17 2018-12-17 问答匹配度的确定方法、装置及设备

Publications (1)

Publication Number Publication Date
CN109800292A true CN109800292A (zh) 2019-05-24

Family

ID=66557012

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811539899.9A Pending CN109800292A (zh) 2018-12-17 2018-12-17 问答匹配度的确定方法、装置及设备

Country Status (1)

Country Link
CN (1) CN109800292A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110738039A (zh) * 2019-09-03 2020-01-31 平安科技(深圳)有限公司 一种案件辅助信息的提示方法、装置、存储介质和服务器
CN110796338A (zh) * 2019-09-24 2020-02-14 北京谦仁科技有限公司 在线教学监控方法、装置、服务器及存储介质
CN110990528A (zh) * 2019-11-27 2020-04-10 出门问问(苏州)信息科技有限公司 一种问答方法、装置及电子设备
CN111488448A (zh) * 2020-05-27 2020-08-04 支付宝(杭州)信息技术有限公司 一种机器阅读标注数据的生成方法和装置
CN112651860A (zh) * 2020-12-18 2021-04-13 重庆师范大学 讨论式机器人教学系统、方法及装置
CN113687826A (zh) * 2021-08-10 2021-11-23 中国人民解放军陆军工程大学 一种基于需求项提取的测试用例复用系统及方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105630917A (zh) * 2015-12-22 2016-06-01 成都小多科技有限公司 智能应答方法及装置
CN107315772A (zh) * 2017-05-24 2017-11-03 北京邮电大学 基于深度学习的问题匹配方法以及装置
CN108415980A (zh) * 2018-02-09 2018-08-17 平安科技(深圳)有限公司 问答数据处理方法、电子装置及存储介质
WO2018157805A1 (zh) * 2017-03-03 2018-09-07 腾讯科技(深圳)有限公司 一种自动问答处理方法及自动问答系统
CN108536665A (zh) * 2017-03-02 2018-09-14 腾讯科技(深圳)有限公司 一种确定语句一致性的方法及装置
CN108920654A (zh) * 2018-06-29 2018-11-30 泰康保险集团股份有限公司 一种问答文本语义匹配的方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105630917A (zh) * 2015-12-22 2016-06-01 成都小多科技有限公司 智能应答方法及装置
CN108536665A (zh) * 2017-03-02 2018-09-14 腾讯科技(深圳)有限公司 一种确定语句一致性的方法及装置
WO2018157805A1 (zh) * 2017-03-03 2018-09-07 腾讯科技(深圳)有限公司 一种自动问答处理方法及自动问答系统
CN107315772A (zh) * 2017-05-24 2017-11-03 北京邮电大学 基于深度学习的问题匹配方法以及装置
CN108415980A (zh) * 2018-02-09 2018-08-17 平安科技(深圳)有限公司 问答数据处理方法、电子装置及存储介质
CN108920654A (zh) * 2018-06-29 2018-11-30 泰康保险集团股份有限公司 一种问答文本语义匹配的方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
樊重俊: "《大数据分析与应用》", 31 January 2016 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110738039A (zh) * 2019-09-03 2020-01-31 平安科技(深圳)有限公司 一种案件辅助信息的提示方法、装置、存储介质和服务器
CN110796338A (zh) * 2019-09-24 2020-02-14 北京谦仁科技有限公司 在线教学监控方法、装置、服务器及存储介质
CN110990528A (zh) * 2019-11-27 2020-04-10 出门问问(苏州)信息科技有限公司 一种问答方法、装置及电子设备
CN111488448A (zh) * 2020-05-27 2020-08-04 支付宝(杭州)信息技术有限公司 一种机器阅读标注数据的生成方法和装置
CN111488448B (zh) * 2020-05-27 2023-06-20 支付宝(杭州)信息技术有限公司 一种机器阅读标注数据的生成方法和装置
CN112651860A (zh) * 2020-12-18 2021-04-13 重庆师范大学 讨论式机器人教学系统、方法及装置
CN113687826A (zh) * 2021-08-10 2021-11-23 中国人民解放军陆军工程大学 一种基于需求项提取的测试用例复用系统及方法
CN113687826B (zh) * 2021-08-10 2024-02-02 中国人民解放军陆军工程大学 一种基于需求项提取的测试用例复用系统及方法

Similar Documents

Publication Publication Date Title
CN109800292A (zh) 问答匹配度的确定方法、装置及设备
CN110163478B (zh) 一种合同条款的风险审查方法及装置
CN108170818A (zh) 一种文本分类方法、服务器及计算机可读介质
CN109902307A (zh) 命名实体识别方法、命名实体识别模型的训练方法及装置
CN109299269A (zh) 一种文本分类方法和装置
CN108228704A (zh) 识别风险内容的方法及装置、设备
CN109344234A (zh) 机器阅读理解方法、装置、计算机设备和存储介质
CN107437417B (zh) 基于循环神经网络语音识别中语音数据增强方法及装置
CN111222305A (zh) 一种信息结构化方法和装置
CN110046634A (zh) 聚类结果的解释方法和装置
CN110442871A (zh) 文本信息处理方法、装置及设备
CN111695337A (zh) 智能面试中专业术语的提取方法、装置、设备及介质
CN112784582A (zh) 纠错方法、装置和计算设备
CN110019822A (zh) 一种少样本关系分类方法及系统
Aralikatte et al. Fault in your stars: an analysis of android app reviews
CN109902157A (zh) 一种训练样本有效性检测方法及装置
CN110209772B (zh) 一种文本处理方法、装置、设备及可读存储介质
CN114064852A (zh) 自然语言的关系抽取方法、装置、电子设备和存储介质
CN113626576A (zh) 远程监督中关系特征抽取方法、装置、终端及存储介质
CN112016294B (zh) 一种基于文本的新闻重要性评估方法、装置及电子设备
CN109902167A (zh) 嵌入结果的解释方法和装置
CN109597987A (zh) 一种文本还原方法、装置及电子设备
WO2021051957A1 (zh) 司法文本识别方法、文本识别模型获得方法及相关设备
CN116955624A (zh) 文本的识别方法、装置、处理器以及电子设备
CN110287284A (zh) 语义匹配方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190524