CN110297954B - 答案校验处理方法、装置、设备和存储介质 - Google Patents

答案校验处理方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN110297954B
CN110297954B CN201910517893.XA CN201910517893A CN110297954B CN 110297954 B CN110297954 B CN 110297954B CN 201910517893 A CN201910517893 A CN 201910517893A CN 110297954 B CN110297954 B CN 110297954B
Authority
CN
China
Prior art keywords
search
abstract
processing
answer
search query
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910517893.XA
Other languages
English (en)
Other versions
CN110297954A (zh
Inventor
戴松泰
宋勋超
冯欣伟
余淼
周环宇
袁鹏程
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910517893.XA priority Critical patent/CN110297954B/zh
Publication of CN110297954A publication Critical patent/CN110297954A/zh
Application granted granted Critical
Publication of CN110297954B publication Critical patent/CN110297954B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种答案验证处理方法、装置、设备和存储介质,其中,方法包括:根据预设的组织方式,对问题与待检测答案进行组织处理,得到搜索询问式;在搜索引擎中对所述搜索询问式进行搜索处理,得到搜索摘要;计算所述搜索摘要与所述搜索询问式的关联值,作为所述待检测答案的客观程度值。通过组织搜索询问式,将搜索询问式在多搜索引擎中进行搜索处理,在得到的搜索结果中抓取搜索摘要,通过计算搜索摘要与搜索询问式的关联度,来判断待验证答案的客观性,实现了以自动化的方式对问题的待验证答案的客观性进行校验,提高了答案校验的正确率,节省了人工成本,提高了答案校验的效率与速度。

Description

答案校验处理方法、装置、设备和存储介质
技术领域
本申请涉及数据处理领域,尤其涉及一种答案校验处理方法、装置、设备和存储介质。
背景技术
随着人工智能技术的迅速发展,智能问答产品得到了广泛的推广和应用。智能问答产品数据流的构建,涉及到通用答案抽取技术,对于目标问题,需要在给定的短文本中确定出对应的问题答案。在确定出问题答案后,需要对获取到的问题答案的客观性进行校验,以筛选掉与客观事实不符的问题答案。
现有技术中,通过人工总结关键词,或人工总结筛选规则的方式,来进行问题答案客观性的校验,进而实现对与客观事实不符的问题答案的筛选。
然而,人工总结出的关键词和筛选规则的数量是有限的,而且其内容也是固定不变的,根据人工总结出来的关键词和筛选规则,来进行问题答案客观性的校验,存在校验误差大,校验结果不稳定的问题;同时通过人工总结关键词和筛选规则的方式,进行问题答案客观性的校验,校验工作效率低下,人力成本和时间成本耗费巨大。
发明内容
本申请提供一种答案校验处理方法、装置、设备和存储介质,用以解决现有答案校验工作误差大、效率低的问题。
第一方面,本申请提供一种答案校验处理方法,包括:
根据预设的组织方式,对问题与待检测答案进行组织处理,得到搜索询问式;
在搜索引擎中对所述搜索询问式进行搜索处理,得到搜索摘要;
计算所述搜索摘要与所述搜索询问式的关联度,作为所述待检测答案的客观程度值。
进一步地,在搜索引擎中对所述搜索询问式进行搜索处理,得到搜索摘要,包括:
在所述搜索引擎中对所述搜索询问式进行全站点搜索处理,得到第一搜索摘要;
在所述搜索引擎中对所述搜索询问式进行特定站点搜索处理,得到第二搜索摘要;
所述第一搜索摘要和所述第二搜索摘要构成所述搜索摘要。
进一步地,在所述搜索引擎中对所述搜索询问式进行全站点搜索处理,得到第一搜索摘要,包括:
在所述搜索引擎中对所述搜索询问式进行全站点搜索处理,得到第一搜索结果;
在所述第一搜索结果中,抓取预设数量的包含文字内容的搜索结果摘要,构成所述第一搜索摘要。
进一步地,在所述搜索引擎中对所述搜索询问式进行特定站点搜索处理,得到第二搜索摘要,包含:
在所述搜索引擎中对所述搜索询问式进行特定站点搜索处理,得到第二搜索结果;
在所述第二搜索结果中,抓取预设数量的包含文字内容的搜索结果摘要,构成所述第二搜索摘要。
进一步地,所述搜索结果摘要为网页页面中显示的所述搜索结果的缩略内容,抓取所述搜索结果摘要的方法,包括:
在搜索引擎中直接调用所述搜索结果的缩略内容,构成所述搜索结果摘要;或者,
利用网页规则,对所述搜索结果的网页内容进行爬虫处理,得到所述搜索结果摘要。
进一步地,根据预设的组织方式,对问题与待检测答案进行组织处理,得到搜索询问式,包括:
根据以下至少一种组织方式,对所述问题与所述待检测答案进行组织处理:
对所述问题与所述待检测答案进行拼接处理,得到所述搜索询问式;
根据预设的替换规则,将所述问题与所述待检测答案组织成肯定式的陈述性语句,构成所述搜索询问式;
根据预设的替换规则,将所述问题与所述待检测答案组织成否定式的陈述性语句,构成所述搜索询问式;
将所述问题单独构成所述搜索询问式。
进一步地,计算所述搜索摘要与所述搜索询问式的关联度,作为所述待检测答案的客观程度值,包括:
对所述搜索摘要进行文字编码处理,得到构成所述搜索摘要的每个文字的第一词向量;
对所述搜索询问式进行句式编码处理,得到所述搜索询问式的句式向量;
根据所述第一词向量和所述句式向量,计算所述搜索摘要与所述搜索询问式的关联度,作为所述待检测答案的客观程度值。
进一步地,根据所述第一词向量和所述句式向量,计算所述搜索摘要与所述搜索询问式的关联度,作为所述待检测答案的客观程度值,包括:
计算每一个文字的所述第一词向量与所述句式向量的第一交互程度,并把每一个所述第一交互程度添加至对应文字的所述第一词向量中,得到每一个文字的第二词向量;
重复以下步骤,直至计算出所述搜索摘要中每一个文字的第三词向量:在同一所述搜索摘要中,计算指定文字与其他所有文字的第二交互程度,并把所述第二交互程度添加至所述指定文字的所述第二词向量中,得到所述指定文字的所述第三词向量;
对每一个所述搜索摘要内的所有文字的所述第三词向量进行归一化处理,得到用于表征每一个所述搜索摘要的第一摘要向量;
对所有所述搜索摘要的所述第一摘要向量进行归一化处理,得到用于表征所有所述搜索摘要的第二摘要向量;
根据所述第二摘要向量,计算得到所述搜索摘要与所述搜索询问式的关联度,作为所述待检测答案的客观程度值。
第二方面,本申请提供一种答案校验处理装置,包括:
第一处理单元,用于根据预设的组织方式,对问题与待检测答案进行组织处理,得到搜索询问式;
第二处理单元,用于在搜索引擎中对所述搜索询问式进行搜索处理,得到搜索摘要;
第三处理单元,用于计算所述搜索摘要与所述搜索询问式的关联度,作为所述待检测答案的客观程度值。
进一步地,所述第二处理单元,包括:
第一处理子单元,用于在所述搜索引擎中对所述搜索询问式进行全站点搜索处理,得到第一搜索摘要;
第二处理子单元,用于在所述搜索引擎中对所述搜索询问式进行特定站点搜索处理,得到第二搜索摘要;
所述第一搜索摘要和所述第二搜索摘要构成所述搜索摘要。
进一步地,所述第一处理子单元,包括:
第一处理模块,用于在所述搜索引擎中对所述搜索询问式进行全站点搜索处理,得到第一搜索结果;
第二处理模块,用于在所述第一搜索结果中,抓取预设数量的包含文字内容的搜索结果摘要,构成所述第一搜索摘要。
进一步地,所述第二处理子单元,包括:
第一处理模块,用于在所述搜索引擎中对所述搜索询问式进行特定站点搜索处理,得到第二搜索结果;
第二处理模块,用于在所述第二搜索结果中,抓取预设数量的包含文字内容的搜索结果摘要,构成所述第二搜索摘要。
进一步地,所述搜索结果摘要为网页页面中显示的所述搜索结果的缩略内容,抓取所述搜索结果摘要的方法,包括:
在搜索引擎中直接调用所述搜索结果的缩略内容,构成所述搜索结果摘要;或者,
利用网页规则,对所述搜索结果的网页内容进行爬虫处理,得到所述搜索结果摘要。
进一步地,所述第一处理单元,用于根据以下至少一种组织方式,对所述问题与所述待检测答案进行组织处理:
对所述问题与所述待检测答案进行拼接处理,得到所述搜索询问式;
根据预设的替换规则,将所述问题与所述待检测答案组织成肯定式的陈述性语句,构成所述搜索询问式;
根据预设的替换规则,将所述问题与所述待检测答案组织成否定式的陈述性语句,构成所述搜索询问式;
将所述问题单独构成所述搜索询问式。
进一步地,所述第三处理单元,包括:
第一处理子单元,用于对所述搜索摘要进行文字编码处理,得到构成所述搜索摘要的每个文字的第一词向量;
第二处理子单元,用于对所述搜索询问式进行句式编码处理,得到所述搜索询问式的句式向量;
第三处理子单元,用于根据所述第一词向量和所述句式向量,计算所述搜索摘要与所述搜索询问式的关联度,作为所述待检测答案的客观程度值。
进一步地,所述第三处理子单元,包括:
第一处理模块,用于计算每一个文字的所述第一词向量与所述句式向量的第一交互程度,并把每一个所述第一交互程度添加至对应文字的所述第一词向量中,得到每一个文字的第二词向量;
第二处理模块,用于重复以下步骤,直至计算出所述搜索摘要中每一个文字的第三词向量:在同一所述搜索摘要中,计算指定文字与其他所有文字的第二交互程度,并把所述第二交互程度添加至所述指定文字的所述第二词向量中,得到所述指定文字的所述第三词向量;
第三处理模块,用于对每一个所述搜索摘要内的所有文字的所述第三词向量进行归一化处理,得到用于表征每一个所述搜索摘要的第一摘要向量;
第四处理模块,用于对所有所述搜索摘要的所述第一摘要向量进行归一化处理,得到用于表征所有所述搜索摘要的第二摘要向量;
第五处理模块,用于根据所述第二摘要向量,计算得到所述搜索摘要与所述搜索询问式的关联度,作为所述待检测答案的客观程度值。
第三方面,本申请提供一种答案校验处理设备,包括:处理器、存储器以及计算机程序;
其中,计算机程序存储在存储器中,并被配置为由处理器执行以实现如上任一项的方法。
第四方面,本申请提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行以实现如上任一项的方法。
本申请提供一种答案验证处理方法、装置、设备和存储介质,其中,方法包括:根据预设的组织方式,对问题与待检测答案进行组织处理,得到搜索询问式;在搜索引擎中对所述搜索询问式进行搜索处理,得到搜索摘要;计算所述搜索摘要与所述搜索询问式的关联值,作为所述待检测答案的客观程度值。通过组织搜索询问式,将搜索询问式在多搜索引擎中进行搜索处理,在得到的搜索结果中抓取搜索摘要,通过计算搜索摘要与搜索询问式的关联度,来判断待验证答案的客观性,实现了以自动化的方式对问题的待验证答案的客观性进行校验,提高了答案校验的正确率,节省了人工成本,提高了答案校验的效率与速度。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1为本申请实施例提供的一种答案校验处理方法的流程示意图;
图2为本申请实施例提供的又一种答案校验处理方法的流程示意图;
图3为本申请实施例提供的一种答案校验处理装置的结构示意图;
图4为本申请实施例提供的又一种答案校验处理装置的结构示意图;
图5为本申请实施例提供的一种答案校验处理设备的结构示意图。
通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
本申请涉及的名词解释:
全连接层:全连接层的每一个结点都与上一层的所有结点相连,用于把之前提取到的特征进行综合。假设,全连接层的输入为x1、x2、x3,则全连接层的输出为
a1=W11*x1+W12*x2+W13*x3+b1
a2=W21*x1+W22*x2+W23*x3+b2
a3=W31*x1+W32*x2+W33*x3+b3
Sigmoid函数:在信息科学中,由于其单增以及反函数单增等性质,Sigmoid函数常被用作神经网络的阈值函数,用于将变量映射到(0,1)之间。Sigmoid函数的表达式为
Figure BDA0002095599230000071
爬虫处理:利用自动抓取互联网信息的程序或者脚本,将互联网上的网页获取到本地的过程。
本申请具体的应用场景为:随着人工智能技术的迅速发展,智能问答产品得到了广泛的推广和应用。智能问答产品数据流的构建,涉及到通用答案抽取技术,对于目标问题,需要在给定的短文本中确定出对应的问题答案。在确定出问题答案后,需要对获取到的问题答案的客观性进行校验,以筛选掉与客观事实不符的问题答案。现有技术中,通过人工总结关键词,或人工总结筛选规则的方式,来进行问题答案客观性的校验,进而实现对与客观事实不符的问题答案的筛选。
然而,人工总结出的关键词和筛选规则的数量是有限的,而且其内容也是固定不变的,根据人工总结出来的关键词和筛选规则,来进行问题答案客观性的校验,存在校验误差大,校验结果不稳定的问题;同时通过人工总结关键词和筛选规则的方式,进行问题答案客观性的校验,校验工作效率低下,人力成本和时间成本耗费巨大
本申请提供的答案校验处理方法、装置、设备和存储介质,旨在解决现有技术中的如上技术问题。
图1为本申请实施例提供的一种答案校验处理方法的流程示意图,如图1所示,包括:
步骤101、根据预设的组织方式,对问题与待检测答案进行组织处理,得到搜索询问式。
在本实施例中,具体的,本实施例的执行主体为终端设备、或者控制器、服务器,或者其他可以执行本实施例的装置或设备。本实施例以执行主体为终端设备进行说明,可以在终端设备中设置应用软件,然后,终端设备控制应用软件执行本实施例提供的方法。
机器阅读理解领域中,对于目标问题,在给定短语文本中挖掘出问题答案。在确定出目标问题的答案后,需要对答案的客观性进行验证,即需要对答案的准确性进行验证。根据预设的组织方式,对问题与待检测答案进行组织处理,得到搜索询问式。
举例来说,问题是“2017年诺贝尔文学奖得主是谁?”,待检测答案是“石黑一雄”,根据以下至少一种组织方式,对问题与待检测答案进行组织处理:
对问题与待检测答案进行拼接处理,得到搜索询问式:“2017年诺贝尔文学奖得主是谁石黑一雄”;
根据预设的替换规则,将问题与待检测答案组织成肯定式的陈述性语句,构成搜索询问式:“2017年诺贝尔文学奖得主是石黑一雄”;
根据预设的替换规则,将问题与待检测答案组织成否定式的陈述性语句,构成搜索询问式:“2017年诺贝尔文学奖得主不是石黑一雄”;
将问题单独构成搜索询问式:“石黑一雄”。
问题与待检测答案的组织方式,还包括其他能够将问题与待检测答案进行结合的方式。
步骤102、在搜索引擎中对搜索询问式进行搜索处理,得到搜索摘要。
在本实施例中,具体的,在确定出多个搜索询问式后,在多个搜索引擎中对搜索询问式进行搜索处理,得到与搜索询问式相关的搜索结果,搜索结果包括包含文字内容的搜索结果,也包括不包含文字内容,只包含图片、音频、视频等其他数据的搜索结果。在包含文字内容的搜索结果中,确定与搜索询问式对应的搜索摘要。
步骤103、计算搜索摘要与搜索询问式的关联度,作为待检测答案的客观程度值。
在本实施例中,具体的,在确定出与搜索询问式对应的搜索摘要后,以阅读理解模型判别客观性的方法,以自动化方式对待检测答案的客观性进行验证。
本实施例通过根据预设的组织方式,对问题与待检测答案进行组织处理,得到搜索询问式;在搜索引擎中对搜索询问式进行搜索处理,得到搜索摘要;计算搜索摘要与搜索询问式的关联度,作为待检测答案的客观程度值。通过组织搜索询问式,将搜索询问式在多搜索引擎中进行搜索处理,在搜索结果中抓取搜索摘要,通过计算搜索摘要与搜索询问式的关联度,来判断待验证答案的客观性,实现了以自动化的方式对问题的待验证答案的客观性进行校验,提高了答案校验的正确率,以自动化手段进行答案校验,节省了人工成本,提高了答案校验的效率与速度。
图2为本申请实施例提供的又一种答案校验处理方法的流程示意图,如图2所示,包括:
步骤201、根据预设的组织方式,对问题与待检测答案进行组织处理,得到搜索询问式。
在本实施例中,具体的,本步骤可以参见图1的步骤101,不再赘述。
步骤202、在搜索引擎中对搜索询问式进行全站点搜索处理,得到第一搜索摘要。
在本实施例中,具体的,确定出搜索询问式后,在预设的多个搜索引擎中对搜索询问式进行搜索处理,搜索处理得到的自然搜索结果为第一搜索结果,其中,自然搜索结果为在搜索引擎中进行全站点搜索处理的结果,即在搜索引擎中不限制站点的搜索结果,其中,站点为互联网中的网址,特定站点即特定网址。在第一搜索结果中,抓取预设数量的包含文字内容的搜索结果摘要,构成第一搜索摘要,其中,搜索结果摘要为网页页面中显示的搜索结果的缩略内容。抓取搜索结果摘要的方法包括:在搜索引擎中直接调用搜索结果的缩略内容,构成搜索结果摘要;当无法直接从搜索引擎中获取到搜索结果的缩略内容时,利用网页规则,对搜索结果的网页内容进行爬虫处理,得到搜索结果摘要。
举例来说,在baidu.、google.、bing.三个搜索引擎中,对搜索询问式进行全站点搜索处理,在每个搜索引擎的第一搜索结果列表中,抓取前5个包含文字内容的搜索结果摘要,构成第一搜索摘要,其中,第一搜索摘要的数目为15个。
步骤203、在搜索引擎中对搜索询问式进行特定站点搜索处理,得到第二搜索摘要。
在本实施例中,具体的,在预设的某个或者某几个搜索引擎中,对搜索询问式进行特定站点搜索处理,得到第二搜索结果;在第二搜索结果中,抓取预设数量的包含文字内容的搜索结果摘要,构成第二搜索摘要。确定特定站点的方法,包括,在预先确定好的优质站点列表中选择预设数量的站点,构成特定站点。举例来说,在baidu.这一搜索引擎中,对搜索询问式进行基于zhihu.、zhidao.、tieba.三个特定站点的搜索处理,在每个特定站点的第二搜索结果列表中,抓取前5个包含文字内容的搜索结果摘要,构成第二搜索摘要,其中,第二搜索摘要的数目为15个。
步骤204、第一搜索摘要和第二搜索摘要构成搜索摘要,计算搜索摘要与搜索询问式的关联度,作为待检测答案的客观程度值。
本实施例中,具体的,将对搜索询问式进行全站点搜索处理得到的第一搜索摘要,和对搜索询问式进行特定站点搜索处理得到的第二搜索摘要,构成待检测答案的搜索摘要,保证了搜索摘要的多样性和客观性。计算搜索摘要与搜索询问式的关联度,作为待检测答案的客观程度值。具体的,包括:
对搜索摘要进行文字编码处理,得到构成搜索摘要的每个文字的第一词向量;
对搜索询问式进行句式编码处理,得到搜索询问式的句式向量;
计算每一个文字的第一词向量与句式向量的第一交互程度,并把每一个第一交互程度添加至对应文字的第一词向量中,得到每一个文字的第二词向量;
重复以下步骤,直至计算出搜索摘要中每一个文字的第三词向量:在同一搜索摘要中,计算指定文字与其他所有文字的第二交互程度,并把第二交互程度添加至指定文字的第二词向量中,得到指定文字的第三词向量;
对每一个搜索摘要内的所有文字的第三词向量进行归一化处理,得到用于表征每一个搜索摘要的第一摘要向量。具体的,可将某个搜索摘要内的所有文字的第三词向量,输入全连接层,得到用于表征该整个搜索摘要的第一摘要向量;
对所有搜索摘要的第一摘要向量进行归一化处理,得到用于表征所有搜索摘要的第二摘要向量。具体的,对每一个搜索摘要的第一摘要向量的每一维求平均,得到一个用于综合表征所有搜索摘要的第二摘要向量;
根据第二摘要向量,计算得到搜索摘要与搜索询问式的关联值,作为待检测答案的客观程度值。具体的,将第二摘要向量输入全连接层,然后经Sigmoid函数处理得到一个介于(0,1)的标量值,该标量值用于表示事情的可能性程度,因此,计算得到的标量值可用于表示搜索摘要与搜索询问式的关联度,作为待检测答案的客观程度值。
根据搜索询问式对应的搜索摘要,计算得到待检测答案的客观程度值的过程,可通过自动化的方式进行,有利于节省答案验证工作的人工成本,提高了答案校验的效率与速度。
本实施例通过根据预设的组织方式,对问题与待检测答案进行组织处理,得到搜索询问式;在搜索引擎中对搜索询问式进行全站点搜索处理,得到第一搜索摘要;在搜索引擎中对搜索询问式进行特定站点搜索处理,得到第二搜索摘要;第一搜索摘要和第二搜索摘要构成搜索摘要,计算搜索摘要与搜索询问式的关联度,作为待检测答案的客观程度值。利用多种组织方式,对问题与待检测答案进行组织处理,得到多种形式的搜索询问式,保证了搜索询问式的多样性和全覆盖性;对搜索询问式进行全站点搜索处理得到的第一搜索摘要,对搜索询问式进行特定站点搜索处理得到的第二搜索摘要,第一搜索摘要和第二搜索摘要构成待检测答案的搜索摘要,保证了搜索摘要的多样性和客观性,根据搜索摘要确定出的待检测答案的客观程度值,稳定性强,准确度高,参考价值大;通过自动化的方式,根据搜索询问式对应的搜索摘要,计算得到待检测答案的客观程度值,有利于节省答案验证工作的人工成本,有效提高了答案校验的效率与速度。
图3为本申请实施例提供的一种答案校验处理装置的结构示意图,如图3所示,该装置包括:
第一处理单元1,用于根据预设的组织方式,对问题与待检测答案进行组织处理,得到搜索询问式;
第二处理单元2,用于在搜索引擎中对搜索询问式进行搜索处理,得到搜索摘要;
第三处理单元3,用于计算搜索摘要与搜索询问式的关联度,作为待检测答案的客观程度值。
本实施例通过根据预设的组织方式,对问题与待检测答案进行组织处理,得到搜索询问式;在搜索引擎中对搜索询问式进行搜索处理,得到搜索摘要;计算搜索摘要与搜索询问式的关联度,作为待检测答案的客观程度值。通过组织搜索询问式,将搜索询问式在多搜索引擎中进行搜索处理,在搜索结果中抓取搜索摘要,通过计算搜索摘要与搜索询问式的关联度,来判断待验证答案的客观性,实现了以自动化的方式对问题的待验证答案的客观性进行校验,提高了答案校验的正确率,以自动化手段进行答案校验,节省了人工成本,提高了答案校验的效率与速度。
图4为本申请实施例提供的又一种答案校验处理装置的结构示意图,在图3所示实施例的基础上,如图4所示,
第二处理单元2,包括:
第一处理子单元21,用于在搜索引擎中对搜索询问式进行全站点搜索处理,得到第一搜索摘要;
第二处理子单元22,用于在搜索引擎中对搜索询问式进行特定站点搜索处理,得到第二搜索摘要;
第一搜索摘要和第二搜索摘要构成搜索摘要。
第一处理子单元21,包括:
第一处理模块211,用于在搜索引擎中对搜索询问式进行全站点搜索处理,得到第一搜索结果;
第二处理模块212,用于在第一搜索结果中,抓取预设数量的包含文字内容的搜索结果摘要,构成第一搜索摘要。
第二处理子单元22,包括:
第一处理模块221,用于在搜索引擎中对搜索询问式进行特定站点搜索处理,得到第二搜索结果;
第二处理模块222,用于在第二搜索结果中,抓取预设数量的包含文字内容的搜索结果摘要,构成第二搜索摘要。
搜索结果摘要为网页页面中显示的搜索结果的缩略内容,抓取搜索结果摘要的方法,包括:
在搜索引擎中直接调用搜索结果的缩略内容,构成搜索结果摘要;或者,
利用网页规则,对搜索结果的网页内容进行爬虫处理,得到搜索结果摘要。
第一处理单元1,用于根据以下至少一种组织方式,对问题与待检测答案进行组织处理:
对问题与待检测答案进行拼接处理,得到搜索询问式;
根据预设的替换规则,将问题与待检测答案组织成肯定式的陈述性语句,构成搜索询问式;
根据预设的替换规则,将问题与待检测答案组织成否定式的陈述性语句,构成搜索询问式;
将问题单独构成搜索询问式。
第三处理单元3,包括:
第一处理子单元31,用于对搜索摘要进行文字编码处理,得到构成搜索摘要的每个文字的第一词向量;
第二处理子单元32,用于对搜索询问式进行句式编码处理,得到搜索询问式的句式向量;
第三处理子单元33,用于根据第一词向量和句式向量,计算搜索摘要与搜索询问式的关联度,作为待检测答案的客观程度值。
第三处理子单元33,包括:
第一处理模块331,用于计算每一个文字的第一词向量与句式向量的第一交互程度,并把每一个第一交互程度添加至对应文字的第一词向量中,得到每一个文字的第二词向量;
第二处理模块332,用于重复以下步骤,直至计算出搜索摘要中每一个文字的第三词向量:在同一搜索摘要中,计算指定文字与其他所有文字的第二交互程度,并把第二交互程度添加至指定文字的第二词向量中,得到指定文字的第三词向量;
第三处理模块333,用于对每一个搜索摘要内的所有文字的第三词向量进行归一化处理,得到用于表征每一个搜索摘要的第一摘要向量;
第四处理模块334,用于对所有搜索摘要的第一摘要向量进行归一化处理,得到用于表征所有搜索摘要的第二摘要向量;
第五处理模块335,用于根据第二摘要向量,计算得到搜索摘要与搜索询问式的关联度,作为待检测答案的客观程度值。
本实施例通过根据预设的组织方式,对问题与待检测答案进行组织处理,得到搜索询问式;在搜索引擎中对搜索询问式进行全站点搜索处理,得到第一搜索摘要;在搜索引擎中对搜索询问式进行特定站点搜索处理,得到第二搜索摘要;第一搜索摘要和第二搜索摘要构成搜索摘要,计算搜索摘要与搜索询问式的关联度,作为待检测答案的客观程度值。利用多种组织方式,对问题与待检测答案进行组织处理,得到多种形式的搜索询问式,保证了搜索询问式的多样性和全覆盖性;对搜索询问式进行全站点搜索处理得到的第一搜索摘要,对搜索询问式进行特定站点搜索处理得到的第二搜索摘要,第一搜索摘要和第二搜索摘要构成待检测答案的搜索摘要,保证了搜索摘要的多样性和客观性,根据搜索摘要确定出的待检测答案的客观程度值,稳定性强,准确度高,参考价值大;通过自动化的方式,根据搜索询问式对应的搜索摘要,计算得到待检测答案的客观程度值,有利于节省答案验证工作的人工成本,有效提高了答案校验的效率与速度。
图5为本申请实施例提供的一种答案校验处理设备的结构示意图,如图5所示,本申请实施例提供了一种答案校验处理设备,可以用于执行图1-图3所示实施例中答案校验处理设备动作或步骤,具体包括:处理器501,存储器502和通信接口503。
存储器502,用于存储计算机程序。
处理器501,用于执行存储器502中存储的计算机程序,以实现图1-图4所示实施例中答案校验处理设备的动作,不再赘述。
可选的,答案校验处理设备还可以包括总线504。其中,处理器501、存储器502以及通信接口503可以通过总线504相互连接;总线504可以是外设部件互连标准(PeripheralComponent Interconnect,简称PCI)总线或扩展工业标准结构(Extended IndustryStandard Architecture,简称EISA)总线等。上述总线504可以分为地址总线、数据总线和控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
在本申请实施例中,上述各实施例之间可以相互参考和借鉴,相同或相似的步骤以及名词均不再一一赘述。
或者,以上各个模块的部分或全部也可以通过集成电路的形式内嵌于该轨迹预测设备的某一个芯片上来实现。且它们可以单独实现,也可以集成在一起。即以上这些模块可以被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(Digital Singnal Processor,简称DSP),或,一个或者多个现场可编程门阵列(FieldProgrammable Gate Array,简称FPGA)
一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行以实现上述处理方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、轨迹预测设备或数据中心通过有线(例如,同轴电缆、光纤、数字用户线(digitalsubscriber line,DSL))或无线(例如,红外、无线、微波等)方式向另一个网站站点、计算机、轨迹预测设备或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的轨迹预测设备、数据中心等数据存储设备。可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如,固态硬盘(solid state disk,SSD))等。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本申请实施例描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本发明旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求书指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求书来限制。

Claims (10)

1.一种答案校验处理方法,其特征在于,包括:
根据预设的替换规则,将问题与待检测答案组织成肯定式的陈述性语句和/或否定式的陈述性语句,得到搜索询问式;
在搜索引擎中对所述搜索询问式进行搜索处理,得到搜索摘要,所述搜索摘要包括搜索结果摘要,所述搜索结果摘要为网页页面中显示的搜索结果的缩略内容;
计算所述搜索摘要与所述搜索询问式的关联度,作为所述待检测答案的客观程度值,所述客观程度值用于验证所述待检测答案的准确性;
在搜索引擎中对所述搜索询问式进行搜索处理,得到搜索摘要,包括:
在所述搜索引擎中对所述搜索询问式进行全站点搜索处理,得到第一搜索摘要;
在所述搜索引擎中对所述搜索询问式进行特定站点搜索处理,得到第二搜索摘要;
所述第一搜索摘要和所述第二搜索摘要构成所述搜索摘要;计算所述搜索摘要与所述搜索询问式的关联度,作为所述待检测答案的客观程度值,包括:
对所述搜索摘要进行文字编码处理,得到构成所述搜索摘要的每个文字的第一词向量;
对所述搜索询问式进行句式编码处理,得到所述搜索询问式的句式向量;
计算每一个文字的所述第一词向量与所述句式向量的第一交互程度,并把每一个所述第一交互程度添加至对应文字的所述第一词向量中,得到每一个文字的第二词向量;
重复以下步骤,直至计算出所述搜索摘要中每一个文字的第三词向量:在同一所述搜索摘要中,计算指定文字与其他所有文字的第二交互程度,并把所述第二交互程度添加至所述指定文字的所述第二词向量中,得到所述指定文字的所述第三词向量;
对每一个所述搜索摘要内的所有文字的所述第三词向量进行归一化处理,得到用于表征每一个所述搜索摘要的第一摘要向量;
对所有所述搜索摘要的所述第一摘要向量进行归一化处理,得到用于表征所有所述搜索摘要的第二摘要向量;
根据所述第二摘要向量,计算得到所述搜索摘要与所述搜索询问式的关联度,作为所述待检测答案的客观程度值。
2.根据权利要求1所述的方法,其特征在于,在所述搜索引擎中对所述搜索询问式进行全站点搜索处理,得到第一搜索摘要,包括:
在所述搜索引擎中对所述搜索询问式进行全站点搜索处理,得到第一搜索结果;
在所述第一搜索结果中,抓取预设数量的包含文字内容的搜索结果摘要,构成所述第一搜索摘要。
3.根据权利要求1所述的方法,其特征在于,在所述搜索引擎中对所述搜索询问式进行特定站点搜索处理,得到第二搜索摘要,包含:
在所述搜索引擎中对所述搜索询问式进行特定站点搜索处理,得到第二搜索结果;
在所述第二搜索结果中,抓取预设数量的包含文字内容的搜索结果摘要,构成所述第二搜索摘要。
4.根据权利要求2或3所述的方法,其特征在于,抓取所述搜索结果摘要的方法,包括:
在搜索引擎中直接调用所述搜索结果的缩略内容,构成所述搜索结果摘要;或者,
利用网页规则,对所述搜索结果的网页内容进行爬虫处理,得到所述搜索结果摘要。
5.一种答案校验处理装置,其特征在于,包括:
第一处理单元,用于根据预设的替换规则,将问题与待检测答案组织成肯定式的陈述性语句和/或否定式的陈述性语句,得到搜索询问式;
第二处理单元,用于在搜索引擎中对所述搜索询问式进行搜索处理,得到搜索摘要,所述搜索摘要包括搜索结果摘要,所述搜索结果摘要为网页页面中显示的搜索结果的缩略内容;
第三处理单元,用于计算所述搜索摘要与所述搜索询问式的关联度,作为所述待检测答案的客观程度值,所述客观程度值用于验证所述待检测答案的准确性;
所述第二处理单元,包括:
第一处理子单元,用于在所述搜索引擎中对所述搜索询问式进行全站点搜索处理,得到第一搜索摘要;
第二处理子单元,用于在所述搜索引擎中对所述搜索询问式进行特定站点搜索处理,得到第二搜索摘要;
所述第一搜索摘要和所述第二搜索摘要构成所述搜索摘要;
所述第三处理单元,包括:
第一处理子单元,用于对所述搜索摘要进行文字编码处理,得到构成所述搜索摘要的每个文字的第一词向量;
第二处理子单元,用于对所述搜索询问式进行句式编码处理,得到所述搜索询问式的句式向量;
第三处理子单元,用于根据所述第一词向量和所述句式向量,计算所述搜索摘要与所述搜索询问式的关联度,作为所述待检测答案的客观程度值。
所述第三处理子单元,包括:第一处理模块,用于计算每一个文字的所述第一词向量与所述句式向量的第一交互程度,并把每一个所述第一交互程度添加至对应文字的所述第一词向量中,得到每一个文字的第二词向量;
第二处理模块,用于重复以下步骤,直至计算出所述搜索摘要中每一个文字的第三词向量:在同一所述搜索摘要中,计算指定文字与其他所有文字的第二交互程度,并把所述第二交互程度添加至所述指定文字的所述第二词向量中,得到所述指定文字的所述第三词向量;
第三处理模块,用于对每一个所述搜索摘要内的所有文字的所述第三词向量进行归一化处理,得到用于表征每一个所述搜索摘要的第一摘要向量;
第四处理模块,用于对所有所述搜索摘要的所述第一摘要向量进行归一化处理,得到用于表征所有所述搜索摘要的第二摘要向量;
第五处理模块,用于根据所述第二摘要向量,计算得到所述搜索摘要与所述搜索询问式的关联度,作为所述待检测答案的客观程度值。
6.根据权利要求5所述的装置,其特征在于,所述第一处理子单元,包括:
第一处理模块,用于在所述搜索引擎中对所述搜索询问式进行全站点搜索处理,得到第一搜索结果;
第二处理模块,用于在所述第一搜索结果中,抓取预设数量的包含文字内容的搜索结果摘要,构成所述第一搜索摘要。
7.根据权利要求5所述的装置,其特征在于,所述第二处理子单元,包括:
第一处理模块,用于在所述搜索引擎中对所述搜索询问式进行特定站点搜索处理,得到第二搜索结果;
第二处理模块,用于在所述第二搜索结果中,抓取预设数量的包含文字内容的搜索结果摘要,构成所述第二搜索摘要。
8.根据权利要求6或7所述的装置,其特征在于,抓取所述搜索结果摘要的方法,包括:
在搜索引擎中直接调用所述搜索结果的缩略内容,构成所述搜索结果摘要;或者,
利用网页规则,对所述搜索结果的网页内容进行爬虫处理,得到所述搜索结果摘要。
9.一种答案校验处理设备,其特征在于,包括:处理器、存储器以及计算机程序;
其中,计算机程序存储在存储器中,并被配置为由处理器执行以实现如1-4任一项的方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,计算机程序被处理器执行以实现如1-4任一项的方法。
CN201910517893.XA 2019-06-14 2019-06-14 答案校验处理方法、装置、设备和存储介质 Active CN110297954B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910517893.XA CN110297954B (zh) 2019-06-14 2019-06-14 答案校验处理方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910517893.XA CN110297954B (zh) 2019-06-14 2019-06-14 答案校验处理方法、装置、设备和存储介质

Publications (2)

Publication Number Publication Date
CN110297954A CN110297954A (zh) 2019-10-01
CN110297954B true CN110297954B (zh) 2022-08-30

Family

ID=68028016

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910517893.XA Active CN110297954B (zh) 2019-06-14 2019-06-14 答案校验处理方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN110297954B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101000600A (zh) * 2006-12-30 2007-07-18 南京凌越教育科技服务有限公司 学习管理系统及方法
CN101261690A (zh) * 2008-04-18 2008-09-10 北京百问百答网络技术有限公司 一种问题自动生成的系统及其方法
CN106844368A (zh) * 2015-12-03 2017-06-13 华为技术有限公司 用于人机对话的方法、神经网络系统和用户设备
CN108959531A (zh) * 2018-06-29 2018-12-07 北京百度网讯科技有限公司 信息搜索方法、装置、设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7216808B2 (en) * 2004-10-28 2007-05-15 Pitney Bowes Inc. Method for a user to answer questions or queries using electrical contacts
CN108804529A (zh) * 2018-05-02 2018-11-13 深圳智能思创科技有限公司 一种基于Web的问答系统实现方法
CN109783631B (zh) * 2019-02-02 2022-05-17 北京百度网讯科技有限公司 社区问答数据的校验方法、装置、计算机设备和存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101000600A (zh) * 2006-12-30 2007-07-18 南京凌越教育科技服务有限公司 学习管理系统及方法
CN101261690A (zh) * 2008-04-18 2008-09-10 北京百问百答网络技术有限公司 一种问题自动生成的系统及其方法
CN106844368A (zh) * 2015-12-03 2017-06-13 华为技术有限公司 用于人机对话的方法、神经网络系统和用户设备
CN108959531A (zh) * 2018-06-29 2018-12-07 北京百度网讯科技有限公司 信息搜索方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN110297954A (zh) 2019-10-01

Similar Documents

Publication Publication Date Title
CN109062794B (zh) 一种软件测评结果的确定方法、装置及电子设备
US11601462B2 (en) Systems and methods of intelligent and directed dynamic application security testing
CN111859140B (zh) 一种知识推荐的方法、装置、推荐设备及可读存储介质
US9984050B2 (en) Ground truth collection via browser for passage-question pairings
CN106874253A (zh) 识别敏感信息的方法及装置
US20150324350A1 (en) Identifying Content Relationship for Content Copied by a Content Identification Mechanism
CN110909229A (zh) 一种基于模拟浏览器访问的网页数据获取和存储的系统
US20180300336A1 (en) Knowledge point structure-based search apparatus
CN109190014B (zh) 一种正则表达式生成方法、装置及电子设备
CN112100071A (zh) 测试用例生成方法、装置、计算机设备和存储介质
CN111222308A (zh) 案件判决书生成方法、装置、电子设备
CN114553555A (zh) 恶意网址识别方法、装置、存储介质及电子设备
CN111159464A (zh) 一种音频片段的检测方法及相关设备
US11645192B2 (en) Graph-based method for inductive bug localization
CN110297954B (zh) 答案校验处理方法、装置、设备和存储介质
CN111966920A (zh) 舆情传播的稳定条件的预测方法、装置及设备
US9946765B2 (en) Building a domain knowledge and term identity using crowd sourcing
CN111914201B (zh) 网络页面的处理方法及装置
JP7052879B2 (ja) 学習器推定装置、学習器推定方法、リスク評価装置、リスク評価方法、プログラム
CN114117423A (zh) 仿冒应用信息获取方法、装置和设备
JP2022078962A (ja) エラーに関連するコードの行の自動識別
JP2016194684A (ja) キュレーション学習における課題指導
CN113704083A (zh) 测试用例生成方法、装置、存储介质和电子设备
CN111461346A (zh) 一种网络节点表征方法、装置和设备
CN109710828A (zh) 网上学习平台的课程资源管理方法、装置和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant