CN112329435B

CN112329435B - 文本处理方法、装置、计算机设备以及存储介质

Info

Publication number: CN112329435B
Application number: CN202011357066.8A
Authority: CN
Inventors: 程轶; 赵瑞辉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-11-27
Filing date: 2020-11-27
Publication date: 2022-06-14
Anticipated expiration: 2040-11-27
Also published as: CN112329435A

Abstract

本申请实施例公开了一种文本处理方法、装置、计算机设备以及存储介质，本申请属于人工智能领域。文本处理方法包括：获取内容文本以及与内容文本具有关联关系的答案文本；调用初始问题文本预测模型，对内容文本和答案文本进行问题文本预测处理，得到预测问题文本；根据预测问题文本与多跳问题类型的匹配程度，以及预测问题文本与内容文本的相关程度，确定反馈奖励量；获取答案文本的参考问题文本，根据反馈奖励量、参考问题文本和预测问题文本，训练初始问题文本预测模型，得到问题文本预测模型，问题文本预测模型是用于生成多跳问题文本。采用本申请，可以提高模型生成多跳问题的准确率。

Description

文本处理方法、装置、计算机设备以及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种文本处理方法、装置、计算机设备以及存储介质。

背景技术

多跳问题是指需要进行一定逻辑推理方可回答的较为复杂的一类问题。此前的问题生成研究中大多还停留在简单问题的生成，对于多跳问题生成的研究还比较少。因此，如何自动生成多跳问题成为研究热点。

目前，通过训练一个模型自动生成多跳问题，在进行训练模型时，基于传统的损失函数来确定模型损失，进而反向调整模型参数。由于传统的损失函数只考虑到了模型生成的预测问题与真实多跳问题之间的字符差异量，但字符差异量并不能保证模型生成的问题是多跳问题，导致模型的训练目标不准确，进而造成训练后的模型不能准确生成多跳问题。

发明内容

本申请实施例提供一种文本处理方法、装置、计算机设备以及存储介质，可以提高模型生成多跳问题的准确率。

本申请实施例一方面提供了一种文本处理方法，包括：

获取内容文本以及与所述内容文本具有关联关系的答案文本；

调用初始问题文本预测模型，对所述内容文本和所述答案文本进行问题文本预测处理，得到预测问题文本；

根据所述预测问题文本与多跳问题类型的匹配程度，以及所述预测问题文本与所述内容文本的相关程度，确定反馈奖励量；

获取所述答案文本的参考问题文本，根据所述反馈奖励量、所述参考问题文本和所述预测问题文本，训练所述初始问题文本预测模型，得到问题文本预测模型，所述问题文本预测模型是用于生成多跳问题文本。

本申请实施例一方面提供了一种文本处理装置，包括：

获取模块，用于获取内容文本以及与所述内容文本具有关联关系的答案文本；

调用模块，用于调用初始问题文本预测模型，对所述内容文本和所述答案文本进行问题文本预测处理，得到预测问题文本；

确定模块，用于根据所述预测问题文本与多跳问题类型的匹配程度，以及所述预测问题文本与所述内容文本的相关程度，确定反馈奖励量；

所述获取模块，还用于获取所述答案文本的参考问题文本；

训练模块，用于根据所述反馈奖励量、所述参考问题文本和所述预测问题文本，训练所述初始问题文本预测模型，得到问题文本预测模型，所述问题文本预测模型是用于生成多跳问题文本。

本申请实施例一方面提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述各实施例中的方法。

本申请实施例一方面提供了一种计算机存储介质，计算机存储介质存储有计算机程序，计算机程序包括程序指令，程序指令当被处理器执行时，执行上述各实施例中的方法。

本申请实施例一方面提供了一种计算机程序产品或计算机程序，计算机程序产品或计算机程序包括计算机指令，计算机指令存储在计算机可读存储介质中，计算机指令被计算机设备的处理器执行时，执行上述各实施例中的方法。

本申请根据模型预测的多跳问题文本与多跳问题类型的匹配程度，以及与内容文的相关程度，来确定模型的反馈奖励量，后续根据模型预测的多跳问题文本、真实问题文本以及反馈奖励量共同训练模型。模型的目标不仅要考虑预测多跳问题文本和真实问题文本之间的差异，更充分评估了预测多跳问题文本的推理难度以及与内容文本的相关性，提高模型训练目标的准确性，基于更准确的训练目标所训练出来的模型可以准确地生成多跳问题文本。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种文本处理的系统架构图；

图2a-图2b是本申请实施例提供的一种文本处理的场景示意图；

图3是本申请实施例提供的一种文本处理方法的流程示意图；

图4是本申请实施例提供的一种模型框架图；

图5是本申请实施例提供的一种确定反馈奖励量的流程示意图；

图6是本申请实施例提供的一种文本处理方法的流程示意图；

图7是本申请实施例提供的一种文本处理装置的结构示意图；

图8是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大图像处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请涉及人工智能下属的机器学习(Machine Learning,ML)，具体是通过机器学习相关技术训练一个模型，训练后的模型可以自动生成多跳问题文本。

机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

本申请涉及机器学习中的人工神经网络以及强化学习，通过人工神经网络预测出预测多跳问题文本，确定该多跳问题文本的反馈奖励量，通过强化学习以及反馈奖励量反向调整人工神经网络的网络参数。

请参见图1，是本发明实施例提供的一种文本处理的系统架构图。服务器10f通过交换机10e和通信总线10d与用户终端集群建立连接，用户终端集群可包括：用户终端10a、用户终端10b、...、用户终端10c。数据库10g中存储了多个样本，每个样本包括内容文本、与该内容文本具有关联关系的答案文本和参考问题文本。服务器10f从数据库10g中提取这多个样本用于训练问题文本预测模型，该问题文本预测模型用于生成多跳问题文本。服务器10f可以将训练好的问题文本预测模型存储在数据库10g中。当服务器10f接收到针对待预测内容文本以及待预测答案文本的预测请求时，基于训练好的问题文本预测模型生成目标多跳问题文本，服务器10f可以将预测到的目标多跳问题文本发送至发送预测请求的终端。

也可以由服务器10f将训练好的问题文本预测模型发送至用户终端集群中的各用户终端，由各用户终端根据业务需求和问题文本预测模型生成多跳问题文本。

图1所示的终端设备10a、终端设备10b、终端设备10c等可以是手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(MID，mobile internet device)、可穿戴设备等具有文本处理功能的智能设备。终端设备集群与服务器10f可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

在本申请中，训练好的问题文本预测模型可以应用于人工智能领域中为MRC(机器阅读理解，Machine Reading Comprehension)任务产生训练数据；可以应用于自动合成FAQ(经常问到的问题，Frequently Asked Questions)文档；还可以应用于教育领域中可以评估学生阅读能力的自动辅导系统。

具体的，当训练好的问题文本预测模型应用于MRC任务时，可以获取样本内容文本以及从该样本内容文本抽取出样本答案文本，将样本内容文本以及样本答案文本输入训练好的问题文本预测模型，模型输出多跳问题文本，将样本内容文本、样本答案文本以及模型预测出来的多跳问题文本组合为一组样本数据。采用相同的方式，可以确定多组样本数据，基于这多组样本数据可以训练一个属于MRC任务的答案文本预测模型。后续，还可以将答案文本预测模型封装为一个问答助手应用软件，或者封装为自动问答系统。

当训练好的问题文本预测模型应用于自动合成FAQ文档时，可以首先获取一个说明文本(例如，软件使用说明文本，旅游攻略文本等)，将说明文本拆分为N个子文本，从每个子文本中抽取出一个答案文本。将每个子文本以及对应的答案文本分别输入训练好的问题文本预测模型，模型分别输出多跳问题文本。后续，可以将这N个答案文本以及模型输出的多跳问题文本组合为FAQ文档并向用户展示，通过问答的方式可以方便用户快速获取到说明文本的主要内容。或者，组合后的FAQ文档也可以用于在线客服，通过匹配FAQ文档中的关键词，帮助用户解决问题，减少人力成本。

当训练好的问题文本预测模型应用于自动辅导系统时，问题文本预测模型就像一个“老师”，给定一段阅读理解文本以及从阅读理解文本中抽取出来的标准答案后，训练好的问题文本预测模型可以基于上述阅读理解文本和标准答案自动生成阅读理解问题，当然，生成的阅读理解问题是多跳问题。后续，可以通过比对标准答案和学生回答的答案来评估学生的阅读理解能力。

或者，训练好的问题文本预测模型还可以应用于教育领域中自动生成阅读理解试卷，通过给定的一段阅读理解文本以及从阅读理解文本中抽取出来的标准答案，自动生成属于多跳问题的阅读理解问题，属于多跳问题的阅读理解问题可以保证试卷的整体质量。

下述以服务器10f为例，说明如何训练多跳问题预测模型(即是前述中用于生成多跳问题文本的问题文本预测模型)。请参见图2a-图2b，其是本申请实施例提供的一种文本处理的场景示意图。服务器10f获取用于模型训练的内容文本20a和内容文本20b，并获取内容文本20a和内容文本20b的答案文本20c和参考问题文本20d。可以知道，参考问题文本20d中的问题是一个多跳问题，即需要同时结合内容文本20a和内容文本20b，以及具有一定的推理过程，才能得到参考问题文本20d的答案。服务器10f将上述答案文本20c、内容文本20a和内容文本20b输入待训练的多跳问题预测模型20e，该多跳问题预测模型会输出一个预测问题文本20f：“谁导演电影A”。可以知道，多跳问题预测模型当前预测出的问题是一个单跳问题，即仅仅通过内容文本20b就可以得到该问题的答案，不需要参考内容文本20a，且不需要推导。

其中，多跳问题预测模型20e基于答案文本20c、内容文本20a和内容文本20b预测出预测问题文本20f的具体过程为：多跳问题预测模型20e可以看作是一个编码器+一个解码器，且编码器和解码器的网络结构可以相同，例如编码器和解码器均可以是循环神经网络。首先，将答案文本20c中的每个词组转换为词向量，以及将内容文本20a和内容文本20b中的每个词组都转换为词向量，多跳问题预测模型20e中的编码器包括内容编码器和答案编码器，因此基于内容编码器将内容文本20a和内容文本20b的所有词向量进行编码，内容编码器输出一个内容编码特征；同样地，基于答案编码器将答案文本20c的所有词向量进行编码，答案编码器输出一个答案编码特征。将上述内容编码特征和答案编码特征拼接为待解码特征，基于多跳问题预测模型20e中的解码器对待解码特征进行解码处理，得到预测问题文本20f：“谁导演电影A”。

模型预测出问题文本后，就需要根据预测值和真实值确定模型损失。如果仅仅根据预测问题文本20f和参考问题文本20d之间的字符差异量来反向调整多跳问题预测模型，并不能很好地适应多跳问题文本生成任务。因此，需要更优秀的任务指标来度量模型损失，进而反向调整多跳问题预测模型的模型参数。具体过程如下：将预测问题文本20f输入已经训练好的分类器，该分类器可以识别出预测问题文本20f属于多跳问题类型的概率以及属于单跳问题类型的概率，当然属于多跳问题类型的概率+属于单跳问题类型的概率＝1。假设该分类器识别出预测问题文本20f属于多跳问题类型的概率为0.2。

由于多跳问题还需要充分利用内容文本，缺任何一个内容文本都不可，因此还需要考察预测问题文本20f与内容文本20a、内容文本20b之间的相关性。相关性越大，说明预测问题文本20f和两个内容文本就越相关；相关性越小，说明预测问题文本20f和其中一个内容文本相关与另一个内容文本不相关，或者说明预测问题文本20f和任一内容文本都不相关。假设预测问题文本20f与内容文本20a、内容文本20b的相关性为0.3。

服务器还可以确定预测问题文本20f和参考问题文本20d之间的交叉熵损失，将预测问题文本20f属于多跳问题类型的概率“0.2”以及预测问题文本20f与内容文本20a、内容文本20b的相关性“0.3”叠加为奖励量，将上述交叉熵损失奖励量的乘积作为多跳问题预测模型20e的模型损失，基于反向传播算法在多跳问题预测模型20e中反向传播该模型损失，以调整多跳问题预测模型20e的模型参数。

至此，服务器10f就基于一个样本(该样本中包括内容文本20a、内容文本20b、答案文本20c和参考问题文本20d)就训练了一次多跳问题预测模型20e。服务器10f可以按照上述方式获取下一组样本，基于下一组样本继续调整多跳问题预测模型20e的模型参数。

当模型损失小于阈值，或者调整次数达到次数阈值，或者调整前的模型参数和调整后的模型参数之间的差异量小于差异量阈值，则说明多跳问题预测模型20e训练完毕。

下面说明如何基于训练好的多跳问题预测模型20e进行多跳问题预测：服务器10f获取待预测的内容文本20g、内容文本20h以及答案文本20i，将上述3个文本输入训练好的多跳问题预测模型20e，训练好的多跳问题预测模型20e预测出问题文本20j，可以知道，问题文本20j对应问题是一个多跳问题。

训练好的多跳问题预测模型20e基于内容文本20g、内容文本20h以及答案文本20i预测出问题文本20j的具体过程和前述中基于答案文本20c、内容文本20a和内容文本20b预测出预测问题文本20f的过程一致，此处就不再赘述。

其中，获取内容文本(如上述实施例中的内容文本20a和内容文本20b)和答案文本(如上述实施例中的答案文本20c)，调用初始问题文本预测模型(如上述实施例中未训练好的多跳问题预测模型20e)预测出预测问题文本(如上述实施例中的预测问题文本20f)，确定反馈奖励量(如上述实施例中预测问题文本20f属于多跳问题类型的概率以及预测问题文本20f与内容文本20a、内容文本20b的相关性)的具体过程可以参见下述图3-图6对应的实施例。

请参见图3，图3是本申请实施例提供的一种文本处理方法的流程示意图，由于模型训练涉及大规模计算，下述实施例以性能更好的服务器(如上述图2a-图2b对应实施例中的服务器10f)为执行主体进行描述，本实施例主要描述待训练模型如何进行前向传播确定预测问题文本，以及如何进行反向传播训练模型参数，文本处理方法包括如下步骤：

步骤S101，获取内容文本以及与所述内容文本具有关联关系的答案文本。

具体的，由于人工智能模型的训练是一个迭代过程，本申请以一个样本训练一次模型为例，说明模型的训练过程。

服务器获取用于模型训练的内容文本(如上述图2a-图2b对应实施例中的内容文本20a和内容文本20b)以及与该内容文本具有关联关系的答案文本(如上述图2a-图2b对应实施例中的答案文本20c)。

一般来说，答案文本都是从内容文本中抽取出来的。

步骤S102，调用初始问题文本预测模型，对所述内容文本和所述答案文本进行问题文本预测处理，得到预测问题文本。

具体的，服务器将内容文本划分为多个内容词组，将答案文本也划分为多个答案词组，调用训练好的词向量模型将上述每个内容词组都转换为词向量(均称为内容词向量)，调用训练好的词向量模型将上述每个答案词组都转换为词向量(均称为答案词向量)。词向量模型可以具体是fasttext模型，也可以是cbow模型。服务器将所有内容词向量组合为内容词向量序列，将所有答案词向量组合为答案词向量序列。

初始问题文本预测模型(如上述图2a-图2b对应实施例中的多跳问题预测模型20e)包括样本编码器和样本解码器，样本编码器又包括内容编码器和答案编码器，且内容编码器和答案编码器可以是RNN(循环神经网络，Recurrent Neural Network)，或者LSTM(长短期记忆人工神经网络，Long Short-Term Memory)，或者GRU(门循环单元，GateRecurrent Unit)。

服务器调用内容编码器对内容词向量序列进行编码处理，得到第一隐藏特征，且第一隐藏特征是一个向量。

服务器调用答案编码器对答案词向量序列进行编码处理，得到第二隐藏特征，且第二隐藏特征是一个向量。

第一隐藏特征和第二隐藏特征的编码顺序没有限定。

下面以内容编码器为LSTM，如何提取第一隐藏特征为例进行具体说明：内容词向量序列包括第一内容词向量x_t和第二内容词向量x_t+1，且第一内容词向量x_t和第二内容词向量x_t+1在内容词向量序列中相邻。将第一内容词向量x_t输入内容编码器，内容编码器对第一内容词向量x_t进行编码，得到第t时刻的隐藏特征h_t，编码过程可以用下述公式(1)表示：

其中，h_t-1表示第t-1时刻输出的隐藏特征，f_t表示第t时刻的遗忘门输出值，c_t表示第t时刻记忆门输出值，o_t表示第t时刻输出门输出值，i_t表示第t时刻输入门输出值。所有的w表示两门之间的权重矩阵。在编码过程中，整个内容编码器中的参数是共享的，即是在计算每一个时刻的隐藏特征h时，上述参数都不变。

服务器将第二内容词向量x_t+1输入内容编码器，基于内容编码器以及t时刻的隐藏特征h_t对第二内容词向量x_t+1进行编码，得到t+1时刻的隐藏特征h_t+1，确定t+1时刻的隐藏特征h_t+1和确定t时刻的隐藏特征h_t的计算过程相同，只是输入不同而已。不断循环，使得内容词向量序列中的所有内容词向量都参与编码，将最后时刻输出的隐藏特征作为内容词向量序列的第一隐藏特征。

确定第二隐藏特征的过程和确定第一隐藏特征的过程基本相同。

至此，服务器就获取到了第一隐藏特征和第二隐藏特征，将第一隐藏特征和第二隐藏特征拼接为内容词向量序列和答案词向量序列的隐藏特征。其中，在进行拼接时，可以第一隐藏特征在前，第二隐藏特征在后；也可以第二隐藏特征在前，第一隐藏特征在后。

服务器调用样本解码器对拼接后的隐藏特征进行解码，样本解码器输出预测问题文本(如上述图2a-图2b对应实施例中的预测问题文本20f)。

样本解码器对隐藏特征进行解码处理的具体过程如下：

样本解码器对隐藏特征进行解码，得到输出特征以及解码隐藏特征，对输出特征进行全连接处理，得到匹配概率集合，该匹配概率集合中的一个匹配概率表示与一个词组的匹配概率，可以从匹配概率集合中选择最大匹配概率，将该最大匹配概率对应词组作为预测词组。确定当前预测词组的词组向量，将词组向量以及解码隐藏特征再输入样本解码器，样本解码器再输出新的输出特征和新的解码隐藏特征，再基于新的输出特征再确定一个新的预测词组，即当前确定的预测词组会作为下一次解码的输入，不断循环，不断地输出预测词组。直至输出的预测词组为<EOS>，停止解码，将所有预测词组按照生成顺序组合为预测问题文本。

步骤S103，根据所述预测问题文本与多跳问题类型的匹配程度，以及所述预测问题文本与所述内容文本的相关程度，确定反馈奖励量。

具体的，服务器调用文本类型识别模型，确定预测问题文本与多跳问题类型的匹配程度R₁。服务器确定预测问题文本和内容文本之间的语义距离R₂，并确定预测问题文本与内容文本之间的充分程度R₃，其中预测问题文本和内容文本之间的语义距离，以及预测问题文本与内容文本之间的充分程度可以组合为预测问题文本与内容文本的相关程度。

服务器可以将上述匹配程度R₁、语义距离R₂以及充分程度R₃叠加为预测问题文本的反馈奖励量。

可以采用下述公式(2)确定反馈奖励量：

R(Q)＝λ₁·R₁+λ₂·R₂+λ₃·R₃ (2)

其中，R(Q)表示反馈奖励量，可以知道反馈奖励量是一个数值，λ₁,λ₂,λ₃是超参数，即在整个训练过程，λ₁,λ₂,λ₃的取值都不变。

值得注意的是，服务器确定匹配程度、语义距离以及充分程度的前后顺序没有限定，且匹配程度的取值越大，说明预测问题文本就越像一个多跳问题，语义距离的取值越大，说明预测问题文本与内容文本之间的语义更接近；充分程度的取值越大，说明预测问题文本充分利用了内容文本中的内容。

步骤S104，获取所述答案文本的参考问题文本，根据所述反馈奖励量、所述参考问题文本和所述预测问题文本，训练所述初始问题文本预测模型，得到问题文本预测模型，所述问题文本预测模型是用于生成多跳问题文本。

具体的，服务器获取答案文本的参考问题文本(如上述图2a-图2b对应实施例中的参考问题文本20d)，参考问题文本对应的问题可以是多跳问题。

服务器可以基于参考问题文本和预测问题文本确定初始损失，此时损失是为了度量预测问题文本和参考问题文本之间的差异量，可以采用交叉熵损失作为初始损失，也可以采用BLEU损失或者ROUGE损失等作为初始损失。可以知道，此处确定初始损失就是传统的确定损失方式，使得预测问题文本和参考问题文本尽可能的接近。

确定参考问题文本和预测问题文本之间的交叉熵损失可以用下述公式(3)进行表示：

其中，L_c表示初始损失，y_t表示预测问题文本中第t个词组，

表示参考问题文本中第t个词组，A,B分别表示内容文本和答案文本，Y<T表示预测问题文本中前t-1个词组。p()代表在给定A,B,Y<T的条件下，

的概率。也就是当前时间步解码出的词概率分布中那个正确词(就是参考问题文本中的词)的概率。比如当t＝3时，

中的第三个词是what。样本解码器在第三个时间步解码出一个词概率分布，我们就去找这个词概率分布中生成what的那个概率。

服务器将上述确定的反馈奖励量作为权重，与交叉熵损失相乘，即可生成初始问题文本预测模型的最终的目标损失，目标损失可以用下述公式(4)表示：

L＝-R(Q)·L_c (4)

其中，L表示目标损失，L_c表示初始损失，R(Q)表示反馈奖励量。

分析公式(4)可以知道，反馈奖励量是一个动态参数，在每一次的训练过程中都不相同，初始损失表示预测问题文本和参考问题文本之间的差异，再乘上反馈奖励量取反，表示在初始损失不变的前提下，反馈奖励量越大，目标损失就越小，说明当前初始问题文本预测模型所预测的预测问题文本已经非常像一个多跳问题，即当前预测准确，对初始问题文本预测模型作细微调整即可；反之，反馈奖励量越小，目标损失就越大，说明当前初始问题文本预测模型所预测的预测问题文本与多跳问题相隔甚远，即当前预测非常不准确，就会鼓励初始问题文本预测模型朝着生成多跳问题的方向调整模型参数。

上述基于反馈奖励量反向调整初始问题文本预测模型是使用了强化学习的思想，若模型预测准确，就会给与更多的奖励(即反向调整更小的损失)；反之，若模型预测不准确，就会给与模型较少的奖励(即反向调整更大的损失)，以促使模型朝着多跳问题方向调整。

服务器确定了初始问题文本预测模型的目标损失后，采用反向传播算法在初始问题文本预测模型中反向传播该目标损失，以调整初始问题文本预测模型的模型参数。反向传播即是基于链式求导法则、预测问题文本、参考问题文本和奖励量确定每个模型参数的导数，基于模型参数更新公式以及求得的导数确定每个模型参数新的取值，将每个模型参数原来的取值调整为新的取值。

至此，服务器就对初始问题文本预测模型的模型参数进行了一次调整，服务器可以获取下一组内容文本、答案文本以及参考问题文本继续迭代训练初始问题文本预测模型的模型参数，当然在下一次训练初始问题文本预测模型时，是在模型参数已经被调整过一次的基础上进一步迭代调整。

不断迭代，不断调整初始问题文本预测模型的模型参数，当模型参数调整后的初始问题文本预测模型满足模型收敛条件时，将调整后的初始问题文本预测模型作为问题文本预测模型，该问题文本预测模型是用于生成多跳问题文本。

其中，若调整次数达到次数阈值，则说明调整后的初始问题文本预测模型满足模型收敛条件；或者，若调整前的模型参数和调整后的模型参数的变化量小于变化量阈值，则说明调整后的初始问题文本预测模型满足模型收敛条件；或者，若当前的目标损失小于损失阈值，则说明调整后的初始问题文本预测模型满足模型收敛条件。

上述可知，本申请引入奖励量，不仅要考虑预测问题文本和真实问题文本之间的差异，更充分评估了预测问题文本的推理难度以及与内容文本的相关性，提高模型训练目标的准确性，基于更准确的训练目标所训练出来的模型可以准确地生成多跳问题文本，后续可自动化地生成大量多跳问题，用这些问题可以扩充QA(自动问答，QuestionAnswering)模型的训练数据集，从而提升QA性能，提高QA模型的推理分析能力。

请参见图4，图4是本申请实施例提供的一种模型框架图，生成模块可以对应本申请中的初始问题文本预测模型，生成模块根据输入的文本和答案，预测对应的问题。预测结果是一个概率分布，代表了多个可能的生成结果的可能性。根据预测的概率分布进行采样，得到一个预测问题文本。取出训练集中给出的对应参考问题文本(可以理解为数据集给的参考答案)。评测模块基于预测问题文本确定奖励(此处的奖励可以对应本申请中的反馈奖励量)，评测模块基于预测问题文本、参考问题文本以及奖励确定模型损失(此处的模型损失可以对应本申请中的目标损失)，将该模型损失反馈给生成模块。生成模块根据模型损失，更新自身参数。其中，基于模型损失调整生成模块自身参数的具体过程可以参见上述图3对应实施例中的步骤S104，且评测模型确定奖励具体过程可以参见上述图3对应实施例中的步骤S103。

请参见图5，图5是本申请实施例提供的一种确定反馈奖励量的流程示意图，确定反馈奖励量包括如下步骤S201-步骤S204，且步骤S201-步骤S204是上述图3对应实施例中步骤S103的一个具体实施例：

步骤S201，调用文本类型识别模型，确定所述预测问题文本与所述多跳问题类型的匹配程度。

具体的，多跳问题类型可以具体分为三种类型，分别为比较问题类型(comparison)、承接问题类型(bridge)以及交叉问题类型(intersection)。

比较问题类型的问题需要对两个实体的特性进行比较。这类问题可以进一步进行拆分，变成多个较为简单的子问题。例如，“A和B谁的年龄比较大？”就可以拆解成：“A的年龄”、“B的年龄”、“较前两个问题答案的大小”。

承接问题类型的问题也可以进一步拆分为两个子问题，q1和q2。而q2的内容与q1的答案密切相关。例如，“谁导演了电影A Perfect Murder的现代翻拍版本”，该问题可以拆分为两个子问题——“哪部电影是A Perfect Murder的现代翻拍版本？”，以及“是谁导演了这部电影？”。后一个子问题直接对前一个子问题的答案进行提问。

交叉问题类型也可以拆分为两个子问题，问题的最终答案是两个子问题的交集。例如“哪位演员同时出演了电影A和电影B”，该问题可拆解为“谁出演了电影A”，“谁出演了电影B”。

在此前的多跳问答(multi-hop)相关工作中，对于上述三类问题的特点已经有比较深入的研究。研究人员基于一定数量的人工标注语料以及特征工程，训练了一个多跳问题类型的文本类型识别模型，其预测类型可能以下四种之一：比较问题类型，承接问题类型，交叉问题类型以及单跳问题类型。单跳问题类型的问题是指该问题不可以进行拆解，也不需要推理，总的来说单跳问题较为简单，多跳问题是单跳问题的进阶版。

因此，在本申请中，可以直接调用文本类型识别模型确定预测问题文本与比较问题类型之间的第一匹配程度，确定预测问题文本与承接问题类型之间的第二匹配程度，确定预测问题文本与交叉问题类型之间的第三匹配程度。将上述第一匹配程度、第二匹配程度和第三匹配程度叠加为预测问题文本和多跳问题类型的匹配程度R₁。

步骤S202，确定所述预测问题文本和所述内容文本之间的语义距离。

具体的，内容文本可以包括第一内容文本和第二内容文本，第一内容文本和第二内容文本互不相同，且第一内容文本包括与答案文本对应的答案来源段落(称为第一答案来源段落)，第二内容文本包括与答案文本对应的答案来源段落(称为第二答案来源段落)，答案来源段落是可以推导出答案的段落。

服务器计算预测问题文本和第一答案来源段落之间的词移距离(Word Mover’sDistance，称为第一词移距离)，获取第一答案来源包含的词组数量，将第一词移距离除以第一答案来源包含的词组数量所得的商，作为预测问题文本和第一答案来源段落之间的第一语义距离；

服务器计算预测问题文本和第二答案来源段落之间的词移距离(称为第二词移距离)，获取第二答案来源包含的词组数量，将第二词移距离除以第二答案来源包含的词组数量所得的商，作为预测问题文本和第二答案来源段落之间的第二语义距离。

上述确定第一语义距离和第二语义距离的具体过程可以用下述公式(5)表示：

其中，D_A，D_B分别表示第一语义距离和第二语义距离，WMD(Y_sample,S_A)，WMD(Y_sample,S_B)分别表示第一词移距离和第二词移距离，Length(S_A)，Length(S_B)分别表示第一答案来源包含的词组数量和第二答案来源包含的词组数量。

服务器确定了第一语义距离和第二语义距离后，将第一语义距离和第二语义距离的乘积的倒数，作为预测问题文本和内容文本之间的语义距离R₂。确定语义距离R₂的具体过程可以用下述公式(6)表示：

其中，D_A，D_B分别表示第一语义距离和第二语义距离。

步骤S203，确定所述预测问题文本与所述内容文本之间的充分程度。

具体的，在回答HotpotQA(多跳问答)中的多跳问题时，QA模型必须同时参考两篇文本(Paragraph A,Paragraph B)才能正确回答。缺少任何一篇文本，模型所必须的信息都是不充分的。另一方面，若生成的问题只涉及一篇文本，则QA模型只需要参考一篇文本即可作答。基于此本申请设计了充分程度指标，用于评测当QA模型的输入减少一篇文本后，其性能的下降程度。

内容文本可以包括第一内容文本和第二内容文本，第一内容文本和第二内容文本互不相同，服务器调用训练好的答案文本预测模型，答案文本预测模型可以认为是本申请所要训练的初始问题文本预测模型的反向模型，答案文本预测模型是基于内容文本和问题文本，预测出该问题文本的答案。服务器将内容文本和预测问题文本输入答案文本预测模型，答案文本预测模型输出内容文本和预测问题文本对应的答案(称为第一待确定答案文本)。若第一待确定答案文本和答案文本的语义相同，即答案文本预测模型回答正确，从第一内容文本和第二内容文本中选择出包含第一待确定答案文本的目标内容文本，可以知道，目标内容文本为第一内容文本或第二内容文本。

服务器再将目标内容文本和预测问题文本输入答案文本预测模型，答案文本预测模型输出目标内容文本和预测问题文本对应的答案(称为第二待确定答案文本)。若第二待确定答案文本和答案文本的语义相同，即答案文本预测模型回答正确，就说明只需要内容文本中的部分信息即可回答正确，内容文本的信息并未被充分利用，因此将充分程度R₃设置为0(数值0为第一阈值)；反之，若第二待确定答案文本和答案文本的语义不同，即答案文本预测模型回答错误，就说明只依赖内容文本中的部分信息是不能回答正常的，内容文本的信息被充分利用，因此将充分程度R₃设置为1(数值1为第二阈值)。

若第一待确定答案文本和答案文本的语义不同，即答案文本预测模型的预测功能失效，不能判别出内容文本的信息是否被充分利用，进而服务器可以将充分程度R₃设置为0.5(数值0.5为第三阈值)。

步骤S204，将所述匹配程度、所述语义距离和所述充分程度叠加为所述反馈奖励量。

具体的，服务器可以将上述匹配程度R₁、语义距离R₂以及充分程度R₃叠加为预测问题文本的反馈奖励量R(Q)。具体可以采用上述公式(2)确定反馈奖励量R(Q)。

上述可知，不同于传统问题生成任务的评测，在多跳问题的评测中还需要判定该问题是否包含推理层级、是否涉及多个部分文本内容，因而多跳问题的评测比一般的任务要更加复杂。此前，都采用人工打分的方式，须耗费大量的人力与时间。而本申请所提出的三个评价指标可以全面且准确预测问题文本是否为多跳问题，除了能够作为强化学习的奖励提升问题生成模型性能外，亦可作为自动化的评价指标，快速完成多跳问题生成任务的评测。

请参见图6，图6是本申请实施例提供的一种文本处理方法的流程示意图，本实施例主要描述训练好的问题文本预测模型如何生成多跳问题，文本处理方法包括如下步骤：

步骤S301，获取内容文本以及与所述内容文本具有关联关系的答案文本，调用初始问题文本预测模型，对所述内容文本和所述答案文本进行问题文本预测处理，得到预测问题文本。

步骤S302，根据所述预测问题文本与多跳问题类型的匹配程度，以及所述预测问题文本与所述内容文本的相关程度，确定反馈奖励量。

步骤S303，获取所述答案文本的参考问题文本，根据所述反馈奖励量、所述参考问题文本和所述预测问题文本，训练所述初始问题文本预测模型，得到问题文本预测模型。

其中，步骤S301-步骤S303的具体实现方式可以参见上述图3对应实施例中的步骤S101-步骤S104。

步骤S304，获取待预测内容文本以及与所述待预测内容文本具有关联关系的待预测答案文本。

具体的，服务器获取待预测内容文本以及与该待预测内容文本具有关联关系的待预测答案文本，此处的待预测内容文本和待预测答案文本可以对应前述中的内容文本和答案文本。

步骤S305，调用所述问题文本预测模型，对所述待预测内容文本和所述待预测答案文本进行问题文本预测处理，得到目标多跳问题文本。

具体的，服务器将待预测内容文本划分为多个待预测内容词组，将待预测答案文本也划分为多个待预测答案词组，调用训练好的词向量模型将上述每个待预测内容词组都转换为词向量(均称为待预测内容词向量)，调用训练好的词向量模型将上述每个待预测答案词组都转换为词向量(均称为待预测答词案向量)。服务器将所有待预测内容词向量组合为待预测内容词向量序列，将所有待预测答案词向量组合为待预测答案词向量序列。

问题文本预测模型包括编码器和解码器(训练好的样本编码器可以对应此处的编码器，训练好的样本解码器可以对应此处的解码器)，服务器调用编码器对待预测内容词向量序列和待预测答案词向量序列进行编码处理，得到目标隐藏特征。

其中，确定目标隐藏特征和前述中确定内容词向量序列和答案词向量序列的隐藏特征的过程一致，只是输入不同而已。

服务器调用解码器对目标隐藏特征进行解码，解码器输出目标多跳问题文本(如上述图2a-图2b对应实施例中的问题文本20j)，当然，目标多跳问题文本对应的问题是多跳问题。其中，解码器对目标隐藏特征解码以得到目标多跳问题文本和前述中样本解码器对隐藏特征解码以得到预测问题文本的过程相同，只是输入不同而已。

步骤S306，输出所述目标多跳问题文本。

本申请训练好的问题文本预测模型可以用于教育领域，具体应用场景为：基于问题文本预测模型生成多跳问题，该多跳问题可以用于评估学生的阅读能力。

进一步的，请参见图7，其是本申请实施例提供的一种文本处理装置的结构示意图。如图7所示，文本处理装置1可以应用于上述图3-图6对应实施例中的服务器。具体的，文本处理装置1可以是运行于计算机设备中的一个计算机程序(包括程序代码)，例如该文本处理装置1为一个应用软件；该文本处理装置1可以用于执行本申请实施例提供的方法中的相应步骤。

文本处理装置1可以包括：获取模块11、调用模块12、确定模块13和训练模块14。

获取模块11，用于获取内容文本以及与所述内容文本具有关联关系的答案文本；

调用模块12，用于调用初始问题文本预测模型，对所述内容文本和所述答案文本进行问题文本预测处理，得到预测问题文本；

确定模块13，用于根据所述预测问题文本与多跳问题类型的匹配程度，以及所述预测问题文本与所述内容文本的相关程度，确定反馈奖励量；

所述获取模块11，还用于获取所述答案文本的参考问题文本；

训练模块14，用于根据所述反馈奖励量、所述参考问题文本和所述预测问题文本，训练所述初始问题文本预测模型，得到问题文本预测模型，所述问题文本预测模型是用于生成多跳问题文本。

在一种可能的实施方式中，所述相关程度包括语义距离和充分程度；

所述确定模块13在用于根据所述预测问题文本与多跳问题类型的匹配程度，以及所述预测问题文本与所述内容文本的相关程度，确定反馈奖励量时，具体用于：

调用文本类型识别模型，确定所述预测问题文本与所述多跳问题类型的匹配程度；

确定所述预测问题文本和所述内容文本之间的语义距离，并确定所述预测问题文本与所述内容文本之间的充分程度；

将所述匹配程度、所述语义距离和所述充分程度叠加为所述反馈奖励量。

在一种可能的实施方式中，所述多跳问题类型包括比较问题类型，承接问题类型以及交叉问题类型；

所述确定模块13在用于调用文本类型识别模型，确定所述预测问题文本与所述多跳问题类型的匹配程度时，具体用于：

调用所述文本类型识别模型，确定所述预测问题文本与所述比较问题类型之间的第一匹配程度、与所述承接问题类型之间的第二匹配程度、与所述交叉问题类型之间的第三匹配程度；

将所述第一匹配程度、所述第二匹配程度和所述第三匹配程度叠加为所述预测问题文本与所述多跳问题类型的匹配程度。

在一种可能的实施方式中，所述内容文本包括第一内容文本和第二内容文本，所述第一内容文本包括与所述答案文本对应的第一答案来源段落，所述第二内容文本包括与所述答案文本对应的第二答案来源段落；

所述确定模块13在用于确定所述预测问题文本和所述内容文本之间的语义距离时，具体用于：

确定所述预测问题文本与所述第一答案来源段落之间的第一词移距离，根据所述第一词移距离和所述第一答案来源段落包含的词组数量，确定第一语义距离；

确定所述预测问题文本与所述第二答案来源段落之间的第二词移距离，根据所述第二词移距离和所述第二答案来源段落包含的词组数量，确定第二语义距离；

根据所述第一语义距离和所述第二语义距离确定所述预测问题文本和所述内容文本之间的语义距离。

在一种可能的实施方式中，所述内容文本包括第一内容文本和第二内容文本，所述第一内容文本和所述第二内容文本互不相同；

所述所述确定模块13在用于确定所述预测问题文本与所述内容文本之间的充分程度时，具体用于：

调用答案文本预测模型，对所述内容文本和所述预测问题文本进行答案文本预测处理，得到第一待确定答案文本；

若所述第一待确定答案文本的语义与所述答案文本的语义相同，则从所述第一内容文本和所述第二内容文本中选出包含所述第一待确定答案文本的目标内容文本，所述目标内容文本包括所述第一内容文本或所述第二内容文本；

根据所述目标内容文本，确定所述预测问题文本与所述内容文本之间的充分程度。

在一种可能的实施方式中，所述确定模块13在用于根据所述目标内容文本，确定所述预测问题文本与所述内容文本之间的充分程度时，具体用于：

调用所述答案文本预测模型，对所述目标内容文本和所述预测问题文本进行答案文本预测处理，得到第二待确定答案文本；

若所述第二待确定答案文本的语义与所述答案文本的语义相同，则将所述充分程度设置为第一阈值；

若所述第二待确定答案文本的语义与所述答案文本的语义不同，则将所述充分程度设置为第二阈值，所述第一阈值小于所述第二阈值。

在一种可能的实施方式中，所述确定模块13还用于：

若所述第一待确定答案文本的语义与所述答案文本的语义不同，则将所述充分程度设置为第三阈值，所述第三阈值大于所述第一阈值且小于所述第二阈值。

在一种可能的实施方式中，所述训练模块14在用于根据所述反馈奖励量、所述参考问题文本和所述预测问题文本，训练所述初始问题文本预测模型，得到问题文本预测模型时，具体用于：

根据所述所述参考问题文本和所述预测问题文本，生成初始损失；

根据所述反馈奖励量和所述初始损失，生成目标损失；

在所述初始问题文本预测模型中反向传播所述目标损失，以调整所述初始问题文本预测模型的模型参数；

当调整后的初始问题文本预测模型满足模型收敛条件时，将调整后的初始问题文本预测模型确定为所述问题文本预测模型。

在一种可能的实施方式中，所述初始问题文本预测模型包括样本编码器和样本解码器；

所述调用模块12在用于调用初始问题文本预测模型，对所述内容文本和所述答案文本进行问题文本预测处理，得到预测问题文本时，具体用于：

将所述内容文本中的词组均转化为内容词向量，将所述答案文本中的词组均转化为答案词向量，将所有内容词向量组合为内容词向量序列，将所有答案词向量组合为答案词向量序列；

调用所述样本编码器对所述内容词向量序列和所述答案词向量序列进行编码处理，得到隐藏特征；

调用所述样本解码器对所述隐藏特征进行解码处理，得到所述预测问题文本。

在一种可能的实施方式中，所述样本编码器包括内容编码器和答案编码器；

所述调用模块12在用于调用所述样本编码器对所述内容词向量序列和所述答案词向量序列进行编码处理，得到隐藏特征时，具体用于：

调用所述内容编码器对所述内容词向量序列进行编码处理，得到第一隐藏特征；

调用所述答案编码器对所述答案词向量序列进行编码处理，得到第二隐藏特征

将所述第一隐藏特征和所述第二隐藏特征拼接为所述隐藏特征。

在一种可能的实施方式中，文本处理装置1还可以包括：输出模块15。

输出模块15，用于获取待预测内容文本以及与所述待预测内容文本具有关联关系的待预测答案文本，调用所述问题文本预测模型，对所述待预测内容文本和所述待预测答案文本进行问题文本预测处理，得到目标多跳问题文本，输出所述目标多跳问题文本。

根据本发明的一个实施例，图3-图6所示的方法所涉及的各个步骤均可以是由图7所示的文本处理装置中的各个模块来执行的。例如，图3中所示的步骤S101-S104可以分别由图7中所示的获取模块11、调用模块12、确定模块13和训练模块14来执行；又如，图5中所示的步骤S201-S204可以由图7中所示的确定模块13来执行；又如，图6中所示的步骤S304-S306可以由图7中所示的输出模块15来执行。

进一步地，请参见图8，是本申请实施例提供的一种计算机设备的结构示意图。上述图3-图6对应实施例中的服务器可以为计算机设备1000。如图8所示，计算机设备1000可以包括：用户接口1002、处理器1004、编码器1006以及存储器1008。信号接收器1016用于经由蜂窝接口1010、WIFI接口1012、...、或NFC接口1014接收或者发送数据。编码器1006将接收到的数据编码为计算机处理的数据格式。存储器1008中存储有计算机程序，处理器1004被设置为通过计算机程序执行上述任一项方法实施例中的步骤。存储器1008可包括易失性存储器(例如，动态随机存取存储器DRAM)，还可以包括非易失性存储器(例如，一次性可编程只读存储器OTPROM)。在一些实例中，存储器1008可进一步包括相对于处理器1004远程设置的存储器，这些远程存储器可以通过网络连接至计算机设备1000。用户接口1002可以包括：键盘1018和显示器1020。

在图8所示的计算机设备1000中，处理器1004可以用于调用存储器1008中存储计算机程序，以实现：

在一个实施例中，所述相关程度包括语义距离和充分程度；

处理器1004在执行根据所述预测问题文本与多跳问题类型的匹配程度，以及所述预测问题文本与所述内容文本的相关程度，确定反馈奖励量时，具体执行以下步骤：

在一个实施例中，所述多跳问题类型包括比较问题类型，承接问题类型以及交叉问题类型；

处理器1004在执行调用文本类型识别模型，确定所述预测问题文本与所述多跳问题类型的匹配程度时，具体执行以下步骤：

在一个实施例中，所述内容文本包括第一内容文本和第二内容文本，所述第一内容文本包括与所述答案文本对应的第一答案来源段落，所述第二内容文本包括与所述答案文本对应的第二答案来源段落；

处理器1004在执行确定所述预测问题文本和所述内容文本之间的语义距离时，具体执行以下步骤：

在一个实施例中，所述内容文本包括第一内容文本和第二内容文本，所述第一内容文本和所述第二内容文本互不相同；

处理器1004在执行确定所述预测问题文本与所述内容文本之间的充分程度时，具体执行以下步骤：

在一个实施例中，处理器1004在执行根据所述目标内容文本，确定所述预测问题文本与所述内容文本之间的充分程度时，具体执行以下步骤：

在一个实施例中，处理器1004还执行以下步骤：

在一个实施例中，处理器1004在执行根据所述反馈奖励量、所述参考问题文本和所述预测问题文本，训练所述初始问题文本预测模型，得到问题文本预测模型时，具体执行以下步骤：

根据所述反馈奖励量和所述初始损失，生成目标损失；

在一个实施例中，初始问题文本预测模型包括样本编码器和样本解码器；处理器1004在执行调用初始问题文本预测模型，对所述内容文本和所述答案文本进行问题文本预测处理，得到预测问题文本时，具体执行以下步骤：

在一个实施例中，所述样本编码器包括内容编码器和答案编码器；

处理器1004在执行调用所述样本编码器对所述内容词向量序列和所述答案词向量序列进行编码处理，得到隐藏特征时，具体执行以下步骤：

在一个实施例中，处理器1004还执行以下步骤：

获取待预测内容文本以及与所述待预测内容文本具有关联关系的待预测答案文本；

调用所述问题文本预测模型，对所述待预测内容文本和所述待预测答案文本进行问题文本预测处理，得到目标多跳问题文本；

输出所述目标多跳问题文本。

应当理解，本申请实施例中所描述的计算机设备1000可执行前文图3-图6所对应实施例中对文本处理方法的描述，也可执行前文图7所对应实施例中对文本处理装置1的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本申请实施例还提供了一种计算机存储介质，且计算机存储介质中存储有前文提及的文本处理装置1所执行的计算机程序，且计算机程序包括程序指令，当处理器执行程序指令时，能够执行前文图3-图6所对应实施例中对文本处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。作为示例，程序指令可以被部署在一个计算机设备上执行，或者在位于一个地点的多个计算机设备上执行，又或者，分布在多个地点且通过通信网络互联的多个计算机设备上执行，分布在多个地点且通过通信网络互联的多个计算机设备可以组合为区块链网络。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备可以执行前文图3到图6所对应实施例中的方法，因此，这里将不再进行赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，上述程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，上述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种文本处理方法，其特征在于，包括：

根据所述预测问题文本与多跳问题类型的匹配程度，以及所述预测问题文本与所述内容文本的相关程度，确定反馈奖励量；所述匹配程度是所述预测问题文本与多个多跳问题类型之间的匹配程度的叠加；

获取所述答案文本的参考问题文本，所述参考问题文本对应的是多跳问题；

根据所述反馈奖励量、所述参考问题文本和所述预测问题文本，训练所述初始问题文本预测模型，得到问题文本预测模型，所述问题文本预测模型是用于生成多跳问题文本。

2.根据权利要求1所述的方法，其特征在于，所述相关程度包括语义距离和充分程度；

所述根据所述预测问题文本与多跳问题类型的匹配程度，以及所述预测问题文本与所述内容文本的相关程度，确定反馈奖励量，包括：

3.根据权利要求2所述的方法，其特征在于，所述多跳问题类型包括比较问题类型，承接问题类型以及交叉问题类型；

所述调用文本类型识别模型，确定所述预测问题文本与所述多跳问题类型的匹配程度，包括：

4.根据权利要求2所述的方法，其特征在于，所述内容文本包括第一内容文本和第二内容文本，所述第一内容文本包括与所述答案文本对应的第一答案来源段落，所述第二内容文本包括与所述答案文本对应的第二答案来源段落；

所述确定所述预测问题文本和所述内容文本之间的语义距离，包括：

5.根据权利要求2所述的方法，其特征在于，所述内容文本包括第一内容文本和第二内容文本，所述第一内容文本和所述第二内容文本互不相同；

所述确定所述预测问题文本与所述内容文本之间的充分程度，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述目标内容文本，确定所述预测问题文本与所述内容文本之间的充分程度，包括：

7.根据权利要求6所述的方法，其特征在于，还包括：

8.根据权利要求1所述的方法，其特征在于，所述根据所述反馈奖励量、所述参考问题文本和所述预测问题文本，训练所述初始问题文本预测模型，得到问题文本预测模型，包括：

根据所述参考问题文本和所述预测问题文本，生成初始损失；

根据所述反馈奖励量和所述初始损失，生成目标损失；

9.根据权利要求1所述的方法，其特征在于，所述初始问题文本预测模型包括样本编码器和样本解码器；

所述调用初始问题文本预测模型，对所述内容文本和所述答案文本进行问题文本预测处理，得到预测问题文本，包括：

10.根据权利要求9所述的方法，其特征在于，所述样本编码器包括内容编码器和答案编码器；

所述调用所述样本编码器对所述内容词向量序列和所述答案词向量序列进行编码处理，得到隐藏特征，包括：

11.根据权利要求1所述的方法，其特征在于，还包括：

输出所述目标多跳问题文本。

12.一种文本处理装置，其特征在于，包括：

确定模块，用于根据所述预测问题文本与多跳问题类型的匹配程度，以及所述预测问题文本与所述内容文本的相关程度，确定反馈奖励量；所述匹配程度是所述预测问题文本与多个多跳问题类型之间的匹配程度的叠加；

所述获取模块，还用于获取所述答案文本的参考问题文本，所述参考问题文本对应的是多跳问题；

13.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行权利要求1-11中任一项所述方法的步骤。

14.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时，执行权利要求1-11任一项所述的方法。