CN113779360A - 基于多头问答模型的解题方法、装置、设备及存储介质 - Google Patents
基于多头问答模型的解题方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113779360A CN113779360A CN202110948716.4A CN202110948716A CN113779360A CN 113779360 A CN113779360 A CN 113779360A CN 202110948716 A CN202110948716 A CN 202110948716A CN 113779360 A CN113779360 A CN 113779360A
- Authority
- CN
- China
- Prior art keywords
- question
- processed
- text
- information
- solving
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 239000000463 material Substances 0.000 claims abstract description 57
- 238000007781 pre-processing Methods 0.000 claims abstract description 20
- 238000006243 chemical reaction Methods 0.000 claims abstract description 14
- 239000013598 vector Substances 0.000 claims description 86
- 238000012512 characterization method Methods 0.000 claims description 16
- 238000010586 diagram Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 13
- 238000012216 screening Methods 0.000 claims description 7
- 238000012163 sequencing technique Methods 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 4
- 238000005457 optimization Methods 0.000 abstract description 16
- 238000012549 training Methods 0.000 description 24
- 230000008569 process Effects 0.000 description 16
- 230000006870 function Effects 0.000 description 14
- 239000011159 matrix material Substances 0.000 description 14
- 238000005070 sampling Methods 0.000 description 8
- 230000009466 transformation Effects 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 7
- 238000013136 deep learning model Methods 0.000 description 5
- 238000011176 pooling Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 239000000126 substance Substances 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 244000309464 bull Species 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9038—Presentation of query results
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了基于多头问答模型的解题方法、装置、计算机设备及存储介质,起,方法部分包括:获取待处理问题和待处理问题对应的材料内容,并确定待处理问题的问题类型;获取多头问答模型,并对待处理问题和材料内容进行预处理,以获得待处理问题的解题信息,多头问答模型包括一个上下文编码器和多个独立的解题模块;根据待处理问题、待处理问题的解题信息和问题类型确定多头问答模型的输入文本信息,将输入文本信息输入多头问答模型中,经上下文编码器转换后输入对应的解题模块,以获得待处理问题的解题答案;本发明解决了传统模型无法兼顾解题知识共享和针对题型对模型网络结构优化的问题,保证了解题答案的准确性,并提高了解题效率。
Description
技术领域
本发明涉及信息处理领域,尤其涉及一种基于多头问答模型的解题方法、装置、设备及存储介质。
背景技术
随着互联网技术的发展,互联网线上教育成为新的教育趋势。在线上课程中,一般会在课程前后设置相应的问答题,问题所要求的知识仅限于当前课程,以便于引导学生学习新知识的方向或者了解学生对新知识的掌握程度,相应地,需要通过机器进行解题以为问答题设置相应的解题答案以供学生参考。
问答题一般包含判断题、阅读理解题和图表问答三种题型,不同题型的数据格式有很大不同。现有技术中,解题模型一般包括两种,一种是针对某一题型单独设计网络结构,然后基于单独题型的训练获得的解题模型,但在解题过程中,不同解题模型需要重复输入相同的课程内容,导致同一课程不同题型间的解题知识无法共享,解题效率低;另一种是进行不同解题模型的联合训练的方法,获得一个共用网络结构的联合解题模型,该类模型使用的是单一网络结构,所有题型共享同一套网络参数,因此联合解题模型无法针对某一种题型进行网络结构优化,导致模型精度不够,解题答案准确性不高。
因此,传统的解题模型均无法兼顾解题知识共享和针对题型优化网络结构这两个功能,导致解题效率低或者解题答案不够准确。
发明内容
本发明提供一种基于多头问答模型的解题方法、装置、计算机设备及存储介质,以解决传统模型无法兼顾解题知识共享和针对题型优化网络结构,导致解题效率低或者解题答案不够准确的问题。
提供一种基于多头问答模型的解题方法,包括:
获取待处理问题和待处理问题对应的材料内容,并确定待处理问题的问题类型;
获取多头问答模型,并对待处理问题和材料内容进行预处理,以获得待处理问题的解题信息,多头问答模型包括一个上下文编码器和多个解题模块;
根据待处理问题、待处理问题的解题信息和问题类型确定多头问答模型的输入文本信息;
将输入文本信息输入多头问答模型中,经上下文编码器转换后输入对应的解题模块,以获得待处理问题的解题答案。
提供一种基于多头问答模型的解题装置,包括:
获取模块,用于获取待处理问题和待处理问题对应的材料内容,并确定待处理问题的问题类型;
预处理模块,用于获取多头问答模型,并对待处理问题和材料内容进行预处理,以获得待处理问题的解题信息,多头问答模型包括一个上下文编码器和多个解题模块;
确定模块,用于根据待处理问题、待处理问题的解题信息和问题类型确定多头问答模型的输入文本信息;
输入模块,用于将输入文本信息输入多头问答模型中,经上下文编码器转换后输入对应的解题模块,以获得待处理问题的解题答案。
提供一种计算机设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述基于多头问答模型的解题方法的步骤。
提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述基于多头问答模型的解题方法的步骤。
上述基于多头问答模型的解题方法、装置、计算机设备及存储介质所提供的一个方案中,通过获取待处理问题和待处理问题对应的材料内容,并确定待处理问题的问题类型;获取多头问答模型,并对待处理问题和材料内容进行预处理,以获得待处理问题的解题信息,多头问答模型包括一个上下文编码器和多个独立的解题模块;根据待处理问题、待处理问题的解题信息和问题类型确定多头问答模型的输入文本信息,将输入文本信息输入多头问答模型中,经上下文编码器转换后输入对应的解题模块,以获得待处理问题的解题答案;本发明中的多头问答模型,能够通过上下文编码器实现不同题型间的解题知识共享,还能够对不同题型对应的解题模块进行单独优化,解决了传统模型无法兼顾解题知识共享和针对题型对模型网络结构优化的问题,使得多头问答模型具有较好的精度,保证了解题答案的准确性,并提高了解题效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中基于多头问答模型的解题方法的一应用环境示意图;
图2是本发明一实施例中基于多头问答模型的解题方法的一流程示意图;
图3是图2中步骤S20的一实现流程图;
图4是图2中步骤S20的一实现流程图;
图5是多头问答模型的一训练流程示意图;
图6是本发明一实施例中基于多头问答模型的解题装置的一结构示意图;
图7是本发明一实施例中计算机设备的一结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的基于多头问答模型的解题方法,可应用在如图1的应用环境中,其中,终端设备通过网络与服务器进行通信。服务器通过获取终端设备发送的待处理问题和待处理问题对应的材料内容,并确定待处理问题的问题类型;获取多头问答模型,并对待处理问题和材料内容进行预处理,以获得待处理问题的解题信息,多头问答模型包括一个上下文编码器和多个独立的解题模块;根据待处理问题、待处理问题的解题信息和问题类型确定多头问答模型的输入文本信息,将输入文本信息输入多头问答模型中,经上下文编码器转换后输入对应的解题模块,以获得待处理问题的解题答案;本实施例中的多头问答模型,能够通过上下文编码器实现不同题型间的解题知识共享,还能够对不同题型对应的解题模块进行单独优化,解决了传统模型无法兼顾解题知识共享和针对题型对模型网络结构优化的问题,使得多头问答模型具有较好的精度,保证了解题答案的准确性,并提高了解题效率。
其中,终端设备可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一实施例中,如图2所示,提供一种基于多头问答模型的解题方法,以该方法应用在图1中的服务器为例进行说明,包括如下步骤:
S10:获取待处理问题和待处理问题对应的材料内容,并确定待处理问题的问题类型。
在需要解题时,服务器需要获取待处理问题和待处理问题对应的材料内容发送给服务器,并确定待处理问题的问题类型。
其中,材料内容为能够为待处理问题提供相应答案的内容,例如,在课本问题中,材料内容为出现在课本问题前面和/或后面的课程内容;在试卷问题中,材料内容为出现在试卷问题前面的材料内容。
S20:获取多头问答模型,并对待处理问题和材料内容进行预处理,以获得待处理问题的解题信息。
在获取待处理问题和待处理问题对应的材料内容之后,需要对待处理问题和材料内容进行预处理,以获得待处理问题的解题信息,同时,还需要获取多头问答模型,以根据多头问答模型、待处理问题和待处理问题的解题信息等,对待处理问题进行解答。
其中,待处理问题的解题信息为材料内容与待处理问题相关的文本信息,在获取待处理问题和待处理问题对应的材料内容之后,需要查询待处理问题与材料内容中各文本信息的相关性,以选取相关性符合要求的文本信息,作为待处理问题的解题信息。
其中,多头问答模型(Multi-Head TQA,简称MHTQA)包括一个上下文编码器和多个独立的解题模块,即多头问答模型由一个基于自注意力机制的上下文编码器(TextualContext Encoder,简称TCE)以及多个解题模块组成。TCE是基于自注意力机制的变换器,用于将输入的文本信息进行编码,以输出一个定长的上下文特征向量。解题模块用于基于TCE输出的上下文特征向量计算出正确答案,即解题答案;多个解题模块中,每一解题模块用于解决一种类型的问题;多个解题模块相互独立,使用不同的输入网络结构(各解题模块的输入规范不同)。由于常规的问题包括判断题和选择题,选择题又包括阅读理解题和图表问答两种,因此,本实施例中多个解题模块,可以包括与判断题对应的判断题解题模块、与阅读理解题对应的阅读理解题解题模块、与图表问答对应的图表问答解题模块。多头课本问答模型中的多个个解题模块只要满足特定的输入输出规范即可,相互间的网络结构并不耦合,与一个上下文编码器的结构也不耦合。
S30:根据待处理问题、待处理问题的解题信息和问题类型确定多头问答模型的输入文本信息。
在获取待处理问题的解题信息之后,根据待处理问题、待处理问题的解题信息和问题类型确定多头问答模型的输入文本信息。其中,输入文本信息至少包括待处理问题的文本信息和待处理问题的解题信息。
S40:将输入文本信息输入多头问答模型中,经上下文编码器转换后输入对应的解题模块,以获得待处理问题的解题答案。
在获取输入文本信息之后,将输入文本信息输入多头问答模型中,使得上下文编码器将输入文本信息编码为上下文编码向量,然后将上下文编码向量输入对应的解题模块,使得解题模块根据上下文编码向量输出解题答案。
本实施例中的多头问答模型,是基于多题型学习策略(Multi-type QuestionLearning,MQL)训练而成的深度学习模型,由于多头问答模型由一个上下文编码器和多个解题模块组成,各解题模块可以借助同一个上下文编码器实现知识共享,减少同一材料内容下各题型解题的计算量。在需要对整个多头问答模型进行优化时,可以均匀地采样不同类型的问题来进行模型整体优化,可以更加高效地共享不同题型间的知识;而由于上下文编码器和各解题模块在网络结构上并没有耦合,当需要针对一个解题模型进行单独优化时,保持MHTQA的骨干网络不变,只调整对应的解题模块即可实现对解题模型进行优化,而不影响其他解题模块。因此,本实施例中的多头问答模型在实现知识共享的同时,还能够对不同题型的解题模块进行单独优化,解决了传统模型无法兼顾解题知识共享和针对题型对模型网络结构优化的问题,使得多头问答模型具有较好的精度,保证了解题答案的准确性,并提高解题效率。同时,由于多头问答模型可以进行整体或者单独结构优化,使得模型具有较好稳定性和鲁棒性。
本实施例中,通过获取待处理问题和待处理问题对应的材料内容,并确定待处理问题的问题类型;获取多头问答模型,并对待处理问题和材料内容进行预处理,以获得待处理问题的解题信息,多头问答模型包括一个上下文编码器和多个独立的解题模块;根据待处理问题、待处理问题的解题信息和问题类型确定多头问答模型的输入文本信息,将输入文本信息输入多头问答模型中,经上下文编码器转换后输入对应的解题模块,以获得待处理问题的解题答案;本实施例中的多头问答模型,能够通过上下文编码器实现不同题型间的解题知识共享,还能够对不同题型的解题模块进行单独优化,解决了传统模型无法兼顾解题知识共享和针对题型对模型网络结构优化的问题,使得多头问答模型具有较好的精度,保证了解题答案的准确性,并提高了解题效率。
在一实施例中,步骤S20中,图3所示,即对待处理问题和材料内容进行预处理,以获得待处理问题的解题信息,具体包括如下步骤:
S21:将材料内容中的文本内容拆分为多个文本句子输入至搜索引擎中。
在获取待处理问题和待处理问题对应的材料内容后,将材料内容中的文本内容拆分为多个文本句子输入至搜索引擎中。
S22:当待处理问题的问题类型为判断题时,将待处理问题作为待处理问题的查询文本。
在将材料内容中的文本内容拆分为多个文本句子输入至搜索引擎中之后,需要根据待处理问题和问题类型,确定待处理问题的查询文本,以构建查询(query),即可通过搜索引擎计算各个文本句子与查询文本之间的文本相关性。其中,当待处理问题的问题类型为判断题时,将待处理问题作为待处理问题的查询文本。
例如,待处理问题为问题类型为判断题,待处理问题的查询文本即为问题本身:
query(q)=q;
其中,query(q)为判断题的查询文本,q为待处理问题。
资料内容拆分为ns文本句子,若待处理问题为判断题,则将待处理问题作为查询文本直接输入搜索引擎E中,以计算出文本句子与查询文本之间的文本相关性值,从而获得ns个文本相关性值,然后在ns个文本相关性值中,将文本相关性值最高的前预设数量(nr)个文本句子,作为待处理问题的解题信息。
S23:将待处理问题的查询文本输入搜索引擎,以获得文本句子与查询文本之间的文本相关性值。
在根据待处理问题和问题类型,确定待处理问题的查询文本之后,将待处理问题的查询文本输入搜索引擎,进行各个文本句子与查询文本之间的文本相关性计算,即可获得各个文本句子与查询文本之间的文本相关性值。
其中,由于停用词容易对文本信息的有效信息造成噪音干扰,因此,在将待处理问题的查询文本输入搜索引擎之后,搜索引擎在文本句子与查询文本之间的文本相关性值进行运算之前,需要对输入至搜索引擎的文本句子和查询文本进行停用词筛选,以对处理的文本信息进行消除噪音的处理,保证运算出的文本相关性值的准确性。
S24:将文本相关性值最大的前设数量个文本句子,作为待处理问题的解题信息。
在获得各个文本句子与查询文本之间的文本相关性值之后,根据文本相关性值即可确定满足要求的文本句子,然后将满足要求的文本句子作为待处理问题的解题信息。本实施例中,将文本相关性值最大的前设数量个文本句子,作为待处理问题的解题信息,以确保解题信息的准确性和多样性。
本实施例中,通过将材料内容中的文本内容拆分为多个文本句子输入至搜索引擎中,当待处理问题的问题类型为判断题时,将待处理问题作为待处理问题的查询文本;将待处理问题的查询文本输入搜索引擎,以获得文本句子与查询文本之间的文本相关性值;根据文本相关性值确定满足要求的文本句子,作为待处理问题的解题信息,明确了对待处理问题和材料内容进行预处理,以获得待处理问题的解题信息的具体步骤,将文本相关性值最大的前设数量个文本句子,作为待处理问题的解题信息,以确保解题信息的准确性和多样性,为后续获得输入文本信息提供了基础。
在一实施例中,步骤S22中,即根据待处理问题和问题类型,确定待处理问题的查询文本,包括:若待处理问题的问题类型为判断题,则查询文本为待处理问题(即待处理问题的文本信息);
在一实施例中,步骤S21之后,即将材料内容中的文本内容拆分为多个文本句子输入至搜索引擎中之后,该方法还具体包括如下步骤:
S25:当待处理问题的问题类型为选择题时,获取待处理问题的多个候选答案,并将待处理问题与一候选答案组合为候选答案对应的查询文本。
在将材料内容中的文本内容拆分为多个文本句子输入至搜索引擎中之后,当待处理问题的问题类型为选择题时,待处理问题的查询文本包括多个,每一候选答案对应一个查询文本。需要获取待处理问题的多个候选答案,并将待处理问题与一候选答案组合为候选答案对应的查询文本。
S26:将候选答案对应的查询文本输入搜索引擎,以获得文本句子与对应的查询文本之间的文本相关性值。
在将待处理问题与一候选答案组合为候选答案对应的查询文本之后,将候选答案对应的查询文本输入搜索引擎,以使搜索引擎对文本句子和当前候选答案对应的查询文本进行相关性运算,从而获得文本句子与当前候选答案对应的查询文本之间的文本相关性值。
S27:根据文本句子与对应的查询文本之间的文本相关性值,确定候选答案对应的解题信息。
在获得文本句子与对应的查询文本之间的文本相关性值之后,根据文本句子与对应的查询文本之间的文本相关性值,确定候选答案对应的解题信息。
S28:将多个候选答案对应的解题信息,合并为待处理问题的解题信息。
在根据文本句子与对应的查询文本之间的文本相关性值,确定候选答案对应的解题信息之后,将多个候选答案对应的解题信息,合并为待处理问题的解题信息。
若待处理问题的问题类型为选择题(包括阅读理解题和图表问答),则查询文本包括多个候选答案对应的查询文本,查询文本的数量与待处理问题的候选答案数量对应,每一查询文本为待处理问题和待处理问题的一候选答案共同组成的文本。对应地,当待处理问题的问题类型为选择题时,需要将各候选答案对应的查询文本依次输入搜索引擎,以确定各文本句子与各对应的查询文本之间的文本相关性值。
当待处理问题为问题类型为选择题时,待处理问题的查询文本为:
query(q,ak)=concat(q,ak);
其中,query(q,ak)为第k个候选答案对应的查询文本,q为待处理问题,ak为待处理问题的第k个候选答案,concat为字符串拼接函数。从上述公式可知,在选择题中,每个候选答案与待处理问题均形成一个查询文本,各个候选答案对应的查询文本组合后,形成待处理问题的查询文本。
资料内容拆分为ns文本句子,在获得待处理问题的查询文本之后,若待处理问题为选择题,候选答案为m个,待处理问题的查询文本对应包括m个子查询文本,则需要将待处理问题的查询文本,按照各个候选答案的排列顺序,逐个将各候选答案对应的查询文本输入搜索引擎E中,以计算出文本句子与对应的查询文本之间的文本相关性值,从而获得m*ns个文本相关性值,再在m*ns个文本相关性值中,将文本相关性值最高的前预设数量(nr)个文本句子,作为待处理问题的解题信息;若待处理问题为判断题,则将待处理问题的查询文本直接输入搜索引擎E中,以计算出文本句子与查询文本之间的文本相关性值,从而获得ns个文本相关性值,然后在ns个文本相关性值中,将文本相关性值最高的前预设数量(nr)个文本句子,作为待处理问题的解题信息。
本实施例中,在多个文本相关性值中,将文本相关性值最高的前预设数量个文本句子,作为待处理问题的解题信息,仅为示例性说明,在其他实施例中,还可以通过其方式根据多个文本相关性值确定解题信息,在此不再赘述。
本实施例中,将材料内容中的文本内容拆分为多个文本句子输入至搜索引擎中之后,当待处理问题的问题类型为选择题时,获取待处理问题的多个候选答案,并将待处理问题与一候选答案组合为候选答案对应的查询文本;将候选答案对应的查询文本输入搜索引擎,以获得文本句子与对应的查询文本之间的文本相关性值;根据文本句子与对应的查询文本之间的文本相关性值,确定候选答案对应的解题信息;将多个候选答案对应的解题信息,合并为候选答案对应的解题信息,明确了选择题的解题信息的具体步骤,根据资料内容中各文本句子与待处理问题、候选答案的相关性确定解题信息,保证了解题信息的准确性,为后续根据查询文本确定待处理问题的解题信息提供了基础。
在一实施例中,步骤S27中,即根据文本句子与对应的查询文本之间的文本相关性值,确定候选答案对应的解题信息,具体包括如下步骤:
S271:按照各文本句子与查询文本之间的文本相关性值大小,对多个文本句子进行排序,以获得初始排序列表。
在获取文本句子与查询文本之间的文本相关性值大小之后,按照各文本句子与查询文本之间的文本相关性值大小,对多个文本句子进行排序,获得初始排序列表。初始排序列表中,文本句子与查询文本之间的文本相关性值越大,则排序越靠前。
S272:根据候选答案与文本句子的交集大小,对初始排序列表中的文本句子进行筛选,以获得目标排序列表。
其中,候选答案与文本句子的交集大小,是指当前候选答案与文本句子之间相同词语的数量大小。
本实施例中,根据候选答案与文本句子的交集大小,对初始排序列表中的文本句子进行筛选,以获得目标排序列表:需要确定候选答案与文本句子的交集大小是否大于预设值,若大于预设值,表示该文本句子合格,则保留该文本句子,若小于预设值(可以是1),表示该文本句子不合格,则剔除该文本句子,直至遍历完所有文本句子和所有候选答案对应的查询文本,从而得到由多个合格的文本句子组成目标排序列表。
S273:确定目标排序列表中文本句子的数量是否小于预设数量。
在获取目标排序列表之后,需要确定目标排序列表中文本句子的数量是否小于预设数量。
S274:若目标排序列表中文本句子的数量小于预设数量,则将初始排序列表中前预设数量个文本句子,作为候选答案对应的解题信息。
在确定目标排序列表中文本句子的数量是否小于预设数量之后,若目标排序列表中文本句子的数量小于预设数量,表示筛选过后的文本句子数量可能不足,为保证解题信息多样性,将初始排序列表中排序在前的预设数量个文本句子,作为待处理问题的解题信息,以将解题信息的文本句子数量补充到预设数量。
在其他实施例中,若目标排序列表中文本句子的数量小于预设数量,还可以将目标排序列表中文本句子作为解题信息的文本句子,然后在剩余文本句子中,根据文本相关性值的大小排序,选取前面的文本句子作为解题信息的文本句子,以将解题信息的文本句子补充至预设数量。
例如,若预设数量为10,目标排序列表中文本句子的数量为8,则剩余文本句子中,选择与查询文本之间文本相关性值最大的2个文本句子,作为解题信息的文本句子,以使解题信息中文本句子的数量为10。
本实施例中,预设数量为10,目标排序列表中文本句子的数量为8仅为示例性说明,在其他实施例中,预设数量、目标排序列表中文本句子的数量还可以是其他数值,在此不再赘述。
S275:若目标排序列表中文本句子的数量大于或者等于预设数,则将目标排序列表中前预设数量个文本句子,作为候选答案对应的解题信息。
在确定目标排序列表中文本句子的数量是否小于预设数量之后,若目标排序列表中文本句子的数量大于或者等于预设数,表示筛选过后的文本句子数量充足,则直接将目标排序列表中排序在前的预设数量个文本句子,作为待处理问题的解题信息。根据资料内容中文本句子与候选答案的交集大小,对各文本句子进行筛选,保证目标排序列表中各文本句子与候选答案的相关性,进而保证后续解题信息的准确性。
综上所述,当待处理问题为判断题时,待处理问题的解题信息即为资料内容中预设数量个文本句子组成的短文,当待处理问题为选择题时,每一个候选答案均对应有一个解题信息(子解题信息),每一个子解题信息均为资料内容中预设数量个文本句子组成的短文,待处理问题的解题信息包括多个子解题信息。
本实施例中,按照各文本句子与查询文本之间的文本相关性值大小,对多个文本句子进行排序,以获得初始排序列表;根据候选答案与文本句子的交集大小,对初始排序列表中的文本句子进行筛选,以获得目标排序列表;确定目标排序列表中文本句子的数量是否小于预设数量;若目标排序列表中文本句子的数量小于预设数量,则将初始排序列表中前预设数量个文本句子,作为候选答案对应的解题信息;若目标排序列表中文本句子的数量大于或者等于预设数,则将目标排序列表中前预设数量个文本句子,作为候选答案对应的解题信息,明确了根据文本句子与对应的查询文本之间的文本相关性值,确定候选答案对应的解题信息的具体过程,为后续根据解题信息确定输入文本提供了基础。
在一实施例中,步骤S30中,即根据待处理问题、待处理问题的解题信息和问题类型确定多头问答模型的输入文本信息,具体包括如下步骤:
S31:当待处理问题的问题类型为判断题时,将待处理问题和待处理问题的解题信息合并为输入文本信息。
在获取待处理问题的解题信息之后,在确定待处理问题的问题类型是否为判断题,以确定不同题型的输入文本信息。
在确定待处理问题的问题类型是否为判断题之后,若待处理问题的问题类型为判断题,则将待处理问题和待处理问题的解题信息合并为输入文本信息。
S32:当待处理问题的问题类型为选择题时,获取待处理问题的多个候选答案,并根据待处理问题、待处理问题的解题信息和多个候选答案确定输入文本信息。
若待处理问题的问题类型不为判断题,则确定若待处理问题的问题类型是否为选择题,若待处理问题的问题类型为选择题,则获取待处理问题的候选答案,并根据待处理问题、待处理问题的解题信息和多个候选答案确定待处问题的输入文本信息。
其中,若待处理问题的问题类型为选择题,则待处理问题的解题信息包括多个候选答案对应的解题信息,则待处理问题的输入文本信息包括多个,每一输入文本信息由待处理问题、一个候选答案和改候选答案对应的解题信息组成。
其中,根据待处理问题、待处理问题的解题信息和多个候选答案确定输入文本信息,包括:在待处理问题的解题信息中确定各候选答案对应的解题信息;然后将待处理问题、候选答案和该候选答案对应的解题信息组合成该候选答案对应的输入文本信息;将多个候选答案对应的输入文本信息,按照候选答案的排列顺序进行排列,以形成待处问题的输入文本信息。
本实施例中,当待处理问题的问题类型为判断题时,将待处理问题和待处理问题的解题信息合并为输入文本信息;当待处理问题的问题类型为选择题时,获取待处理问题的候选答案,并根据待处理问题、待处理问题的解题信息和候选答案确定待处理问题的输入文本信息,明确了根据待处理问题、待处理问题的解题信息和问题类型确定多头问答模型的输入文本信息的具体步骤,不同类型的问题具有不同的输入文本信息生成方式,增加了输入文本信息的多样性和准确性,进而保证了后续解题答案的准确性。
在一实施例中,如图4所示,步骤S40中,即将输入文本信息输入多头问答模型中,经上下文编码器转换后输入对应的解题模块,以获得待处理问题的解题答案,具体包括如下步骤:
S41:将输入文本信息输入上下文编码器,以获得将上下文编码器转换后的上下文特征向量。
在获得待处理问题的输入文本信息之后,将输入文本信息以文本序列的形式输入上下文编码器,以使上下文编码器根据输入的文本序列顺序对输入文本信息进行编码,从而获得输入文本信息的上下文特征向量。
其中,上下文编码器对输入文本信息的编码方式,与基于变换器的双向表示技术中对词项的编码方式类似。以待处理问题的问题类型为选择题为例,待处理问题的输入文本信息包括多个,每一个输入文本信息包括待处理问题、候选答案和候选答案对应的解题信息,将待处理问题、候选答案和候选答案对应的解题信息输入上下文编码器,上下文编码器包括输入层、变换器和池化矩阵层,上下文编码器在输入层对输入文本信息进行词项切分,然后使用词项的词嵌入、段嵌入和位置嵌入来生成输入序列的最终编码,在变换器将输入序列的最终编码进行变换后,在池化矩阵层进行矩阵池化,从而将输入文本信息转换为上下文特征向量。
对于输入文本信息中的任意文本,定义seq(·)函数来生成输入序列,为了防止输入序列为空,我们使用特殊标记′<s>′和′</s>′将序列包裹起来。例如,对于问题q,其输入序列的生成公式为:
seq(q)=[′<s>′]+BPE(q)+[′</s>′];
其中,函数BPE(q)表示将文本q进行子词的切分,返回切分后的序列
为了在输入序列中区分解题信息、问题和候选答案,我们分别生成序列再进行拼接,因此,对于第k个候选答案ak(1≤k≤K),K为候选答案的数量,第k个候选答案ak对应的输入文本信息的输入序列为:
seq(sk,q,ak)=seq(sk)+seq(q)+seq(ak);
其中,seq(sk,q,ak)就表示解题sk、待处理问题与候选答案ak拼接的输入序列,输入文本信息的输入序列,即也是输入到上下文编码器中的完整输入序列。
上下文编码器的编码生成方式与基于变换器的双向表示技术中对词项的编码方式类似,对于输入序列的每一个词项,上下文编码器使用词项的词嵌入、段嵌入和位置嵌入来生成输入序列的最终编码(即上下文特征向量),最终编码T(k)的计算方式如下:
T(k)=LayerNorm(Emb(S(k)));
其中:
Emb(S(k))=WordE(S(k))+SegE(S(k))+PosE(S(k))
其中,S(k)=seq(sk,q,ak),为输入文本信息的输入序列;嵌入函数WordE、SegE和PosE分别表示词嵌入、段嵌入和位置嵌入的嵌入函数。这些嵌入函数都是用于将稀疏的整数值变换到高维空间,得到1024维的稠密向量。其本质是,每一个整数对应变换矩阵中的某一行的值,而变换矩阵可以在训练过程中不断更新。
接着将最终编码到包含16个头的24层的变换器中,最终得到最终编码T(k)转换后的最终编码:
T′(k)=Trm(24,16,T(k));
其中,T′(k)为转换后的最终编码,Trm(24,16)表示一个24层16个头的变换器。
其中,若资料内容和待处理问题均为英文,可以采用字节对编码算法BPE来将单词切分成子词,BPE可以将英文单词的词根和后缀拆分,比起正则表达式的分词法,BPE可以得到更细的语义粒度的词项,从而可以得到准确的上下文特征向量。
S42:根据上下文特征向量确定待处理问题的问题类型所对应的解题模块。
在获取上下文特征向量之后,将根据上下文特征向量确定待处理问题的问题类型所对应的解题模块。不同特性对应的上下文特征向量具有不同的表达规范,根据上下文特征向量的格式即可确定对应的解题模块。
S43:将上下文特征向量输入对应的解题模块,以获得对应的解题模块输出的解题答案。
在确定待处理问题的问题类型所对应的解题模块之后,将上下文特征向量输入对应的解题模块,以在对应的解题模块对上下文特征向量进行运算,从而获得对应的解题模块输出的解题答案。
(1)当待处理问题的问题类型为判断题时,将输入文本信息转化为上下文特征向量后,将上下文特征向量投影到判断题解题模块的解题空间进行相关性预测,以获得预测值。
其中,设判断题的输入文本信息为(S,q,y),其中,S为解题信息,由多个句子构成,q待处理问题,预测值的计算公式为:
lte=W2(tanh(W1C+b1))+b2;
其中,其中W1和W2为可以学习的变换矩阵,C为文本编码器的输出,即上下文特征向量。lte为深度学习模型输出的2维的向量,可以作为二分类器。
在计算出lte之后,使用负对数似然作为损失函数,损失函数为:
(2)当待处理问题的问题类型为选择题时,以阅读理解题为例,将输入文本信息转化为每个候选答案对应的上下文特征向量后,将每个候选答案对应的上下文特征向量投影到阅读理解题解题模块的解题空间进行预测,以获得每个候选答案对应的预测值,进而根据每个候选答案对应的预测值确定正确候选答案,以输出正确候选答案的序号。
其中,ak表示a中的第k个候选答案,表示候选答案对应的预测值。其中,在对输入文本信息进行编码转换时,需要将ak拼接到输入文本信息(输入序列)的末端,将得到的序列输入到文本上下文编码器中,得到候选答案对应的上下文特征向量Ck,表示矩阵的转置共轭。
对于某个候选答案ak,若该候选答案为正确答案,则其余答案就是错误答案,因此正确答案与错误答案存在互斥关系。为了这个过程进行建模,提出选项融合模块,以将多个候选答案的上下文特征向量进行融合。同时,不同候选答案对应的解题信息有可能是一样的,这会导致输入到上文本编码器中的文本只有候选答案不同,而候选答案的长度较短,因此输出的上下文特征向量在空间上会比较相近,使得模型难以从中甄别出正确答案。因此,首先需要打散特征向量的分布,则使用非线性空间变换公式来将上下文特征向量变换到阅读理解题解题模块解题空间,非线性空间变换公式为:
则第j个候选答案相对于第k个候选答案的注意力分数为αk,j,αk,j为:
最后,使用前馈神经网络作为多分类器,并使用交叉熵作为损失函数,获得预测值。
其中,多分类器为:
其中,W3和W4为可以学习的变换矩阵;为某一候选答案对应的选项融合特征,K为候选答案的数量,H为上下文特征向量的维度大小;lqa为多分类器的输出,表示候选答案a与待处理问题q之间相关性的预测值,根据lqa即可获得正确答案的序号,输出正确答案的序号即可。
本实施例中,通过将输入文本信息输入上下文编码器,以获得将上下文编码器转换后的上下文特征向量,然后根据上下文特征向量确定待处理问题的问题类型所对应的解题模块,再将上下文特征向量输入对应的解题模块,以获得对应的解题模块输出的解题答案,明确了将输入文本信息输入多头问答模型中,经上下文编码器转换后输入对应的解题模块,以获得待处理问题的解题答案的具体过程。
在一实施例中,步骤S43中,即将上下文特征向量输入对应的解题模块,以获得对应的解题模块输出的解题答案,具体包括如下步骤:
S431:确定待处理问题的问题类型是否为图表问答题。
在本实施例中,需要确定待处理问题的问题类型是否为图表问答题。
S432:若待处理问题的问题类型为图表问答题,则在材料内容中获取图表信息。
若确定待处理问题的问题类型是否为图表问答题之后,若待处理问题的问题类型是否为图表问答题,则需要在材料内容中获取图表信息,还需要对材料内容中的图表信息进行处理,以获得图表信息对应的表征向量,然后在图表问答解题模块中,对上下文特征向量和图表信息对应的表征向量进行计算,从而获得正确答案。
S433:对图表信息进行图表分析,以获得图表信息中文字与图像联合的联合表征向量。
在材料内容中获取图表信息之后,对图表信息进行图表分析,以获得图表信息中文字与图像联合的联合表征向量(图表信息对应的表征向量)。
其中,对图表信息进行图表分析,以获得图表信息中文字与图像联合的联合表征向量,包括:
然后,利用预训练的ResNet模型从原始图像中提取出No个组成成分的视觉特征视觉特征(图案)的维度为1000,即接着使用注意力机制模型BUTD(Bottom-Up and Top-Down Attention)来学习视觉和文字联合表征,BUTD模型最终会输出一个和上下文特征向量维度一样的联合表征向量O,其中,K为候选答案的数量,H为上下文特征向量的维度大小。联合表征向量O可以看成是融合了图像和文字特征的联合特征。
S434:将上下文特征向量、联合表征向量输入对应的解题模块,以获得对应的解题模块输出的解题答案。
在获得联合表征向量O之后,将联合表征向量O和候选答案对应的上下文特征向量Ck做哈达玛积,获得sk,
sk=(Ck⊙Ok)Wo;
在获得sk之后,将sk输入全连接层,使用全连接层来输出最终的预测值:
本实施例中,通过确定待处理问题的问题类型是否为图表问答题;若待处理问题的问题类型为图表问答题,则在材料内容中获取图表信息;对图表信息进行图表分析,以获得图表信息中文字与图像联合的联合表征向量;将上下文特征向量、联合表征向量输入对应的解题模块,以获得对应的解题模块输出的解题答案,明确了当待处理问题为图表问答题时,将上下文特征向量输入对应的解题模块,以获得对应的解题模块输出的解题答案的具体过程,通过将图表信息中文字与图像联合的联合表征向量,与上下文特征向量进行答案计算,保证了输出结果的准确性。
在一实施例中,多头问答模型采用多任务学习中的加权损失作为模型的最终损失值。
本实施例中提出的多头问答模型MHTQA分为两部分,上下文文本编码器和多个解题模块,MHTQA模型可以在针对子任务进行模型结构优化的同时,使用骨干网络共享子任务间的解题知识,以达到提升所有子任务性能的效果,这是多任务学习中的硬参数知识共享技术。MHTQA模型需要解决多种任务,每种任务有各自的损失函数,因此需要采取多任务学习中的加权损失作为模型的最终损失值。假设有N个子任务,在一次前向传播中,第k个子任务产生的损失值为Lk,设该任务的损失权重为αk,则本次前向传播的损失值可以通过将各个子任务损失值加权求和得到,各个子任务损失值加权求和的求和公式如下:
其中,Lall为各个子任务损失值加权求和的总损失值。
通过优化Lall则可以同时对这多个子任务进行优化。对于每个子任务都需要设置一个损失权重αk,在实际操作中,αk的设置通常是经验参数,并且αk对模型的优化有极大的影响,这是因为子任务的规模非常不一样。在课本问答场景中,判断题的收敛速度要快于阅读理解题,即判断题的损失值规模要远小于阅读理解题,因此,判断题的损失权重应该小于阅读理解题,这样模型可以花更多精力来优化阅读理解题,从而在训练过程中才能以同等的速度优化两个子任务。
在一实施例中,提出了MHTQA模型的优化策略:第一种是等待多个子任务生成损失值之后,再将损失值进行加权平均,以优化模型;第二种是在各子任务的损失计算出来后立即进行梯度下降,以优化模型。
本实施例中的MHTQA模型只共享底层网络(上下文编码器)而不共享输入层(各解题模块相互独立,具有不同的输入格式),这导致MHTQA模模型在一次前向传播中并不能得到所有任务的损失值,而需要对多个任务进行前向传播计算损失后,才能得到各自任务的损失值。于是造成了在代码实现上存在两种优化策略,一是等待多个任务生成损失值之后,再将损失值进行加权平均。因此,MHTQA模型的优化策略有两种:第一种是等待多个子任务生成损失值之后,再将损失值进行加权平均,以优化模型;第二种是在各子任务的损失计算出来后立即进行梯度下降,以优化模型。
考虑到课本问答场景中,判断题与阅读理解题的数量差异较大,本实施例中采用第二种方式来优化模型。在第二种优化策略中,训练样本的采样方式对模型最终的训练效果有重要影响,因此,还需要确定了MHTQA模型训练样本采样策略。
在一实施例中,MHTQA模型的样本采样策略为多题型学习策略(Multi-typeQuestion Learning),以对不同题型的训练样本进行均匀地采样,从而提供模型的鲁棒性和稳定性。
多题型学习策略具体过程如下:
假设有N种题型,其中,第i种题型的批样本集合为集合大小为Mi,第j个样本为首先,从第一种题型中采样出F1个训练样本,然后,从第二种题型中采样出F2个训练样本,……以此类推直到所有题型的训练样本都被采样到为止。模型的采样顺序如下:
其中,由于模型的训练样本的数量比,约等于批样本集合的集合大小比,即:F1∶F2∶...∶FN≈M1∶M2∶...∶MN,F1,F2,...,FN,因此,将将训练样本的数量比作为题型比例。
在上述的采样策略下,即便在每一轮训练的尾部,样本数量较少的任务也能够得到训练,在训练时,MHTQA模型可以均衡的考虑每一个样本,可以充分利用样本数据来训练MHTQA模型,使得MHTQA模型具有较好的稳定性和鲁棒性。
如图5所示,在课程中,材料内容至少包括文章和文章2,课程对应的N种题型包括判断题、阅读理解题和图表问答题,训练过程如下:
1)、从判断题、中采样出F1个训练样本,从阅读理解题中采样出F2个训练样本,从图表问答题中采样出F3个训练样本,然后进行多个轮次(epoch)的训练,即完成多题型学习获得训练样本。
2)、将材料内容拆分为多个文本句子,将多个文本句子输入搜索引擎Solr中,对各题型的待处理问题进行相关性检测,获得各待处理问题的解题信息,其中,解题信息为多个文本句子拼接的短文,其中,阅读理解题和图表问答题的解题信息包括各选项kth(候选答案)对应的解题信息。根据待处理问题和解题信息确定输入文本信息,其中,判断题的输入文本信息由待处理问题和解题信息(短文)组成,阅读理解题和图表问答题的输入文本信息,由待处理问题、各选项kth、各选项kth对应的解题信息组成。
3)、将各待处理问题对应的输入文本信息输入上下文编辑器,获得对应的上下文特征向量,将对应的上下文特征向量输入对应的解题模块,以获得对应的解题模块输出的正确答案。其中,判断题的上下文特征向量输入判断题解题模块,输出的正确答案为对或者错;阅读理解题的上下文特征向量输入阅读理解题解题模块,输出的正确答案为选项的序号(如选项包括A、B、C、D,则正确答案为A),图表问答题的上下文特征向量输入图表问答题解题模块,此外,还需要从训练样本F3中提取出图表图像(图表信息),以对图表图像进行图表解析,获得视觉特征(图案)和文字特征的联合表征向量,并将联合表征向量输入图表问答题解题模块,以在输入图表问答题解题模块中与上下文特征向量进行计算,从而输出正确答案的序号(如选项包括A、B、C、D,则正确答案为C)。
4)、最后再根据待处理问题的实际答案对多头问答模型进行训练,从而使得多头问答模型输出的正确答案与实际答案一致。
本实施例中,上述步骤2)和步骤3)也是待处理问题的解题过程,具体过程如前文所述,在此不再赘述。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种基于多头问答模型的解题装置,该基于多头问答模型的解题装置与上述实施例中基于多头问答模型的解题方法一一对应。如图6所示,该基于多头问答模型的解题装置包括获取模块601、预处理模块602、确定模块603和输入模块604。各功能模块详细说明如下:
获取模块601,用于获取待处理问题和待处理问题对应的材料内容,并确定待处理问题的问题类型;
预处理模块602,用于获取多头问答模型,并对待处理问题和材料内容进行预处理,以获得待处理问题的解题信息,多头问答模型包括一个上下文编码器和多个解题模块;
确定模块603,用于根据待处理问题、待处理问题的解题信息和问题类型确定多头问答模型的输入文本信息;
输入模块604,用于将输入文本信息输入多头问答模型中,经上下文编码器转换后输入对应的解题模块,以获得待处理问题的解题答案。
进一步地,输入模块604具体用于:
将输入文本信息输入上下文编码器,以获得将上下文编码器转换后的上下文特征向量;
根据上下文特征向量确定问题类型所对应的解题模块;
将上下文特征向量输入对应的解题模块,以获得对应的解题模块输出的解题答案。
进一步地,输入模块604具体还用于:
确定待处理问题的问题类型是否为图表问答题;
若待处理问题的问题类型为图表问答题,则在材料内容中获取图表信息;
对图表信息进行图表分析,以获得图表信息中文字与图像联合的联合表征向量;
将上下文特征向量、联合表征向量输入对应的解题模块,以获得对应的解题模块输出的解题答案。
进一步地,确定模块603具体用于:
当待处理问题的问题类型为判断题时,将待处理问题和待处理问题的解题信息合并为输入文本信息;
当待处理问题的问题类型为选择题时,获取待处理问题的候选答案,并根据待处理问题、待处理问题的解题信息和候选答案确定输入文本信息。
进一步地,预处理模块602具体用于:
将材料内容中的文本内容拆分为多个文本句子输入至搜索引擎中;
当待处理问题的问题类型为判断题时,将待处理问题作为待处理问题的查询文本;
将待处理问题的查询文本输入搜索引擎,以获得文本句子与查询文本之间的文本相关性值;
将文本相关性值最大的前预设数量个文本句子,作为待处理问题的解题信息。
进一步地,将材料内容中的文本内容拆分为多个文本句子输入至搜索引擎中之后,预处理模块602具体还用于:
当待处理问题的问题类型为选择题时,获取待处理问题的多个候选答案,并将待处理问题与一候选答案组合为候选答案对应的查询文本;
将候选答案对应的查询文本输入搜索引擎,以获得文本句子与对应的查询文本之间的文本相关性值;
根据文本句子与对应的查询文本之间的文本相关性值,确定候选答案对应的解题信息;
将多个候选答案对应的解题信息,合并为待处理问题的解题信息。
进一步地,预处理模块602具体用于:
按照各文本句子与查询文本之间的文本相关性值大小,对多个文本句子进行排序,以获得初始排序列表;
根据候选答案与文本句子的交集大小,对初始排序列表中的文本句子进行筛选,以获得目标排序列表;
确定目标排序列表中文本句子的数量是否小于预设数量;
若目标排序列表中文本句子的数量小于预设数量,则将初始排序列表中前预设数量个文本句子,作为候选答案对应的解题信息;
若目标排序列表中文本句子的数量大于或者等于预设数,则将目标排序列表中前预设数量个文本句子,作为候选答案对应的解题信息。
关于基于多头问答模型的解题装置的具体限定可以参见上文中对于基于多头问答模型的解题方法的限定,在此不再赘述。上述基于多头问答模型的解题装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储多头问答模型。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于多头问答模型的解题方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述基于多头问答模型的解题方法的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述基于多头问答模型的解题方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于多头问答模型的解题方法,其特征在于,包括:
获取待处理问题和所述待处理问题对应的材料内容,并确定所述待处理问题的问题类型;
获取多头问答模型,并对所述待处理问题和所述材料内容进行预处理,以获得所述待处理问题的解题信息,所述多头问答模型包括一个上下文编码器和多个解题模块;
根据所述待处理问题、所述待处理问题的解题信息和问题类型确定所述多头问答模型的输入文本信息;
将所述输入文本信息输入所述多头问答模型中,经所述上下文编码器转换后输入对应的解题模块,以获得所述待处理问题的解题答案。
2.如权利要求1所述的基于多头问答模型的解题方法,其特征在于,所述将所述输入文本信息输入所述多头问答模型中,经所述上下文编码器转换后输入对应的解题模块,以获得所述待处理问题的解题答案,包括:
将所述输入文本信息输入所述上下文编码器,以获得将所述上下文编码器转换后的上下文特征向量;
根据所述上下文特征向量确定所述问题类型所对应的解题模块;
将所述上下文特征向量输入所述对应的解题模块,以获得所述对应的解题模块输出的解题答案。
3.如权利要求2所述的基于多头问答模型的解题方法,其特征在于,所述将所述上下文特征向量输入所述对应的解题模块,以获得所述对应的解题模块输出的解题答案,包括:
确定所述待处理问题的问题类型是否为图表问答题;
若所述待处理问题的问题类型为图表问答题,则在所述材料内容中获取图表信息;
对所述图表信息进行图表分析,以获得所述图表信息中文字与图像联合的联合表征向量;
将所述上下文特征向量、所述联合表征向量输入所述对应的解题模块,以获得所述对应的解题模块输出的解题答案。
4.如权利要求1所述的基于多头问答模型的解题方法,其特征在于,所述根据所述待处理问题、所述待处理问题的解题信息和问题类型确定所述多头问答模型的输入文本信息,包括:
当所述待处理问题的问题类型为判断题时,将所述待处理问题和所述待处理问题的解题信息合并为所述输入文本信息;
当所述待处理问题的问题类型为选择题时,获取所述待处理问题的候选答案,并根据所述待处理问题、所述待处理问题的解题信息和候选答案确定所述输入文本信息。
5.如权利要求1所述的基于多头问答模型的解题方法,其特征在于,所述对所述待处理问题和所述材料内容进行预处理,以获得所述待处理问题的解题信息,包括:
将所述材料内容中的文本内容拆分为多个文本句子输入至搜索引擎中;
当所述待处理问题的问题类型为判断题时,将所述待处理问题作为所述待处理问题的查询文本;
将所述待处理问题的查询文本输入所述搜索引擎,以获得所述文本句子与所述查询文本之间的文本相关性值;
将所述文本相关性值最大的前预设数量个文本句子,作为所述待处理问题的解题信息。
6.如权利要求5所述的基于多头问答模型的解题方法,其特征在于,所述将所述材料内容中的文本内容拆分为多个文本句子输入至搜索引擎中之后,所述方法还包括:
当所述待处理问题的问题类型为选择题时,获取所述待处理问题的多个候选答案,并将所述待处理问题与一所述候选答案组合为所述候选答案对应的查询文本;
将所述候选答案对应的查询文本输入所述搜索引擎,以获得所述文本句子与所述对应的查询文本之间的文本相关性值;
根据所述文本句子与所述对应的查询文本之间的文本相关性值,确定所述候选答案对应的解题信息;
将多个所述候选答案对应的解题信息,合并为所述待处理问题的解题信息。
7.如权利要求6所述的基于多头问答模型的解题方法,其特征在于,所述根据所述文本句子与所述对应的查询文本之间的文本相关性值,确定所述候选答案对应的解题信息,包括:
按照各所述文本句子与所述查询文本之间的文本相关性值大小,对所述多个文本句子进行排序,以获得初始排序列表;
根据所述候选答案与所述文本句子的交集大小,对所述初始排序列表中的文本句子进行筛选,以获得目标排序列表;
确定所述目标排序列表中所述文本句子的数量是否小于所述预设数量;
若所述目标排序列表中所述文本句子的数量小于所述预设数量,则将所述初始排序列表中前所述预设数量个文本句子,作为所述候选答案对应的解题信息;
若所述目标排序列表中所述文本句子的数量大于或者等于所述预设数,则将所述目标排序列表中前所述预设数量个文本句子,作为所述候选答案对应的解题信息。
8.一种基于多头问答模型的解题装置,其特征在于,包括:
获取模块,用于获取待处理问题和所述待处理问题对应的材料内容,并确定所述待处理问题的问题类型;
预处理模块,用于获取多头问答模型,并对所述待处理问题和所述材料内容进行预处理,以获得所述待处理问题的解题信息,所述多头问答模型包括一个上下文编码器和多个解题模块;
确定模块,用于根据所述待处理问题、所述待处理问题的解题信息和问题类型确定所述多头问答模型的输入文本信息;
输入模块,用于将所述输入文本信息输入所述多头问答模型中,经所述上下文编码器转换后输入对应的解题模块,以获得所述待处理问题的解题答案。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述基于多头问答模型的解题方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于多头问答模型的解题方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110948716.4A CN113779360A (zh) | 2021-08-18 | 2021-08-18 | 基于多头问答模型的解题方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110948716.4A CN113779360A (zh) | 2021-08-18 | 2021-08-18 | 基于多头问答模型的解题方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113779360A true CN113779360A (zh) | 2021-12-10 |
Family
ID=78838221
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110948716.4A Pending CN113779360A (zh) | 2021-08-18 | 2021-08-18 | 基于多头问答模型的解题方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113779360A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115357705A (zh) * | 2022-10-24 | 2022-11-18 | 成都晓多科技有限公司 | 问题文本中实体属性的生成方法、装置、设备及存储介质 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107193798A (zh) * | 2017-05-17 | 2017-09-22 | 南京大学 | 一种基于规则的试题类自动问答系统中的试题理解方法 |
CN110516055A (zh) * | 2019-08-16 | 2019-11-29 | 西北工业大学 | 一种结合bert的用于教学任务的跨平台智能问答实现方法 |
CN110532397A (zh) * | 2019-07-19 | 2019-12-03 | 平安科技(深圳)有限公司 | 基于人工智能的问答方法、装置、计算机设备及存储介质 |
CN110688491A (zh) * | 2019-09-25 | 2020-01-14 | 暨南大学 | 基于深度学习的机器阅读理解方法、系统、设备及介质 |
CN111339281A (zh) * | 2020-03-24 | 2020-06-26 | 苏州大学 | 一种多视角融合的阅读理解选择题的答案选择方法 |
CN111428021A (zh) * | 2020-06-05 | 2020-07-17 | 平安国际智慧城市科技股份有限公司 | 基于机器学习的文本处理方法、装置、计算机设备及介质 |
CN111460081A (zh) * | 2020-03-30 | 2020-07-28 | 招商局金融科技有限公司 | 基于深度学习的答案生成方法、电子装置及可读存储介质 |
CN111611361A (zh) * | 2020-04-01 | 2020-09-01 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 抽取式机器智能阅读理解问答系统 |
CN111709233A (zh) * | 2020-05-27 | 2020-09-25 | 西安交通大学 | 基于多注意力卷积神经网络的智能导诊方法及系统 |
CN111783423A (zh) * | 2020-07-09 | 2020-10-16 | 北京猿力未来科技有限公司 | 解题模型的训练方法及装置、解题方法及装置 |
CN111858879A (zh) * | 2020-06-18 | 2020-10-30 | 达而观信息科技(上海)有限公司 | 一种基于机器阅读理解的问答方法及系统、存储介质、计算机设备 |
CN111930906A (zh) * | 2020-07-29 | 2020-11-13 | 北京北大软件工程股份有限公司 | 基于语义块的知识图谱问答方法及装置 |
CN112328767A (zh) * | 2020-11-11 | 2021-02-05 | 重庆邮电大学 | 基于bert模型和比较聚合框架的问答匹配方法 |
CN112464641A (zh) * | 2020-10-29 | 2021-03-09 | 平安科技(深圳)有限公司 | 基于bert的机器阅读理解方法、装置、设备及存储介质 |
CN113011196A (zh) * | 2021-04-28 | 2021-06-22 | 广西师范大学 | 一种概念增强表示与单向蕴含注意力的主观题自动阅卷神经网络模型 |
-
2021
- 2021-08-18 CN CN202110948716.4A patent/CN113779360A/zh active Pending
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107193798A (zh) * | 2017-05-17 | 2017-09-22 | 南京大学 | 一种基于规则的试题类自动问答系统中的试题理解方法 |
CN110532397A (zh) * | 2019-07-19 | 2019-12-03 | 平安科技(深圳)有限公司 | 基于人工智能的问答方法、装置、计算机设备及存储介质 |
CN110516055A (zh) * | 2019-08-16 | 2019-11-29 | 西北工业大学 | 一种结合bert的用于教学任务的跨平台智能问答实现方法 |
CN110688491A (zh) * | 2019-09-25 | 2020-01-14 | 暨南大学 | 基于深度学习的机器阅读理解方法、系统、设备及介质 |
CN111339281A (zh) * | 2020-03-24 | 2020-06-26 | 苏州大学 | 一种多视角融合的阅读理解选择题的答案选择方法 |
CN111460081A (zh) * | 2020-03-30 | 2020-07-28 | 招商局金融科技有限公司 | 基于深度学习的答案生成方法、电子装置及可读存储介质 |
CN111611361A (zh) * | 2020-04-01 | 2020-09-01 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 抽取式机器智能阅读理解问答系统 |
CN111709233A (zh) * | 2020-05-27 | 2020-09-25 | 西安交通大学 | 基于多注意力卷积神经网络的智能导诊方法及系统 |
CN111428021A (zh) * | 2020-06-05 | 2020-07-17 | 平安国际智慧城市科技股份有限公司 | 基于机器学习的文本处理方法、装置、计算机设备及介质 |
CN111858879A (zh) * | 2020-06-18 | 2020-10-30 | 达而观信息科技(上海)有限公司 | 一种基于机器阅读理解的问答方法及系统、存储介质、计算机设备 |
CN111783423A (zh) * | 2020-07-09 | 2020-10-16 | 北京猿力未来科技有限公司 | 解题模型的训练方法及装置、解题方法及装置 |
CN111930906A (zh) * | 2020-07-29 | 2020-11-13 | 北京北大软件工程股份有限公司 | 基于语义块的知识图谱问答方法及装置 |
CN112464641A (zh) * | 2020-10-29 | 2021-03-09 | 平安科技(深圳)有限公司 | 基于bert的机器阅读理解方法、装置、设备及存储介质 |
CN112328767A (zh) * | 2020-11-11 | 2021-02-05 | 重庆邮电大学 | 基于bert模型和比较聚合框架的问答匹配方法 |
CN113011196A (zh) * | 2021-04-28 | 2021-06-22 | 广西师范大学 | 一种概念增强表示与单向蕴含注意力的主观题自动阅卷神经网络模型 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115357705A (zh) * | 2022-10-24 | 2022-11-18 | 成都晓多科技有限公司 | 问题文本中实体属性的生成方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113656570B (zh) | 基于深度学习模型的视觉问答方法及装置、介质、设备 | |
CN107506414B (zh) | 一种基于长短期记忆网络的代码推荐方法 | |
CN111859960B (zh) | 基于知识蒸馏的语义匹配方法、装置、计算机设备和介质 | |
EP4131076A1 (en) | Serialized data processing method and device, and text processing method and device | |
CN111966812B (zh) | 一种基于动态词向量的自动问答方法和存储介质 | |
CN110457718B (zh) | 一种文本生成方法、装置、计算机设备及存储介质 | |
CN116579339B (zh) | 任务执行方法和优化任务执行方法 | |
CN111985243B (zh) | 情感模型的训练方法、情感分析方法、装置及存储介质 | |
CN113919319B (zh) | 基于动作场景强化的脚本事件预测方法 | |
CN113641819A (zh) | 基于多任务稀疏共享学习的论辩挖掘系统及方法 | |
CN115017178A (zh) | 数据到文本生成模型的训练方法和装置 | |
CN110991193B (zh) | 一种基于OpenKiWi的翻译矩阵模型选择系统 | |
Bhargav et al. | Translucent answer predictions in multi-hop reading comprehension | |
CN111259147A (zh) | 基于自适应注意力机制的句子级情感预测方法及系统 | |
CN110955765A (zh) | 智能助理的语料构建方法、装置、计算机设备和存储介质 | |
CN110852071A (zh) | 知识点检测方法、装置、设备及可读存储介质 | |
CN113779360A (zh) | 基于多头问答模型的解题方法、装置、设备及存储介质 | |
WO2021027257A1 (zh) | 计算机执行的、利用神经网络进行语言处理的方法及装置 | |
CN114792097B (zh) | 预训练模型提示向量的确定方法、装置及电子设备 | |
CN114970666B (zh) | 一种口语处理方法、装置、电子设备及存储介质 | |
Kırnap et al. | Tree-stack LSTM in transition based dependency parsing | |
CN111324695B (zh) | 一种多任务学习方法及装置 | |
US20230063686A1 (en) | Fine-grained stochastic neural architecture search | |
CN113821610A (zh) | 信息匹配方法、装置、设备及存储介质 | |
CN113761874A (zh) | 事件事实性预测方法、装置、电子设备与存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |