CN112149426B

CN112149426B - 阅读任务处理方法及相关设备

Info

Publication number: CN112149426B
Application number: CN202011035442.1A
Authority: CN
Inventors: 邱耀
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-09-27
Filing date: 2020-09-27
Publication date: 2024-02-09
Anticipated expiration: 2040-09-27
Also published as: CN112149426A

Abstract

本申请涉及人工智能技术领域，提供了一种阅读任务处理方法及相关设备，该阅读任务处理方法包括：获取阅读信息、与阅读信息相关联的目标问题信息和历史对话信息；执行迭代处理步骤直至完成对所有轮次历史对话信息的处理，并将基于最后轮次的历史对话信息确定的阅读信息的当前时刻信息表示作为历史对话信息在阅读信息中的第一信息表示；基于第一信息表示确定目标问题信息在阅读信息中的第二信息表示；基于第二信息表示在阅读信息中确定用于答复目标问题信息的答复信息。本申请的实施有利于提高基于目标问题信息预测答复结果的准确度。

Description

阅读任务处理方法及相关设备

技术领域

本申请涉及人工智能技术领域，具体而言，本申请涉及一种阅读任务处理方法及相关设备。

背景技术

随着人工智能技术的发展，人工智能技术已应用于多个技术领域。当将人工智能技术应用于对话式阅读理解的领域时，一般通过人工智能技术让机器执行阅读理解任务。阅读理解任务主要是指让机器根据指定的阅读信息回答与该阅读信息相关的问题。在机器执行该阅读理解任务时，需要通过模型建模问题信息和阅读信息、问题信息和历史对话信息的关系。

现有技术中，建模问题信息和阅读信息、问题信息和历史对话信息的关系时，一般采用拼接式方法和历史编码方法。其中，拼接式方式是基于预训练的语言模型进行，使用该模型的自注意力机制同时建模问题信息和阅读信息、问题信息和历史对话信息的关系；但是由于模型对于输入的序列有一个最大长度的限制，当阅读信息的内容较多或历史对话信息的轮次较多时，无法考虑全部的对话历史，限制了模型的性能，使得模型基于问题信息预测的答复结果准确度较低。历史编码方法是基于HAE(History Answer Embedding)原理进行，该方法丢失了历史对话信息的时间深度信息(每一轮的历史对话信息与当前轮次对话信息的距离)，还容易让模型在建模时学习到预测数据的捷径，如在现有的数据集中每轮对话的预测答复结果在阅读信息中的位置和历史对话轮次有正相关的关系，即第i轮问题信息的答复结果往往在第i-1轮问题信息的答复结果后面不远的位置，因而模型无法学习到期望的语义分析能力，导致模型基于问题信息预测的答复结果准确度较低。

发明内容

本申请提供了一种阅读任务处理方法及相关设备，可以解决上述至少一种技术问题。所述技术方案如下：

第一方面，提供了一种阅读任务处理方法，包括：获取阅读信息、与所述阅读信息相关联的目标问题信息和至少一轮历史对话信息；

执行迭代处理步骤直至完成对所有轮次历史对话信息的处理，并将基于最后轮次的历史对话信息确定的阅读信息的当前时刻信息表示作为所述至少一轮历史对话信息在所述阅读信息中的第一信息表示，所述迭代处理步骤包括：根据历史对话信息的时间顺序获取当前轮次的历史对话信息；基于所述当前轮次的历史对话信息与阅读信息的上一时刻信息表示确定所述阅读信息的当前时刻信息表示；

基于所述第一信息表示确定所述目标问题信息在所述阅读信息中的第二信息表示；

基于所述第二信息表示在所述阅读信息中确定用于答复所述目标问题信息的答复信息。

结合第一方面，在第一方面的第一种实施方式中，采用阅读任务处理模型执行所述阅读任务处理方法的步骤，所述阅读任务处理模型包括阅读信息更新模块，所述阅读信息更新模块包括基于所述历史对话信息级联设置的循环神经网络；采用级联设置的循环神经网络确定所述第一信息表示与第二信息表示。

结合第一方面的第一种实施方式，在第一方面的第二种实施方式中，所述阅读任务处理模型还包括词嵌入模块；所述历史对话信息包括历史问题信息；所述采用级联设置的循环神经网络确定所述第一信息表示，包括：

针对当前轮次的历史对话信息，通过所述词嵌入模块对历史问题信息进行处理，确定所述历史问题信息的第三信息表示；通过级联设置的循环神经网络基于所述阅读信息的上一时刻信息表示与所述第三信息表示确定所述阅读信息的当前时刻信息表示；

将基于最后一轮历史对话信息中历史问题信息的第三信息表示与所述阅读信息的上一时刻信息表示确定的阅读信息的当前时刻信息表示，确定为第一信息表示；

所述采用级联设置的循环神经网络确定所述第二信息表示，包括：

通过所述词嵌入模块对目标问题信息进行处理，确定所述目标问题信息的目标信息表示；通过所述循环神经网络基于所述第一信息表示与所述目标信息表示确定所述目标问题信息在所述阅读信息中的第二信息表示。

结合第一方面的第一种实施方式，在第一方面的第三种实施方式中，所述循环神经网络包括遗忘控制单元、输入控制单元、输出控制单元以及采用注意力机制设置的建模单元；

所述建模单元用于基于注意力机制建模问题信息与阅读信息的上一时刻信息表示之间的关系；所述阅读信息的上一时刻信息表示包括阅读信息的上一时刻信息状态与隐状态；

所述遗忘控制单元用于在阅读信息的上一时刻信息表示中提取用于计算阅读信息的当前时刻信息表示的内容；

所述输入控制单元用于在当前输入循环神经网络的信息中提取用于计算阅读信息的当前时刻信息表示的内容；

所述输出控制单元用于在阅读信息的当前时刻信息状态中提取用于计算循环神经网络输出的隐状态的内容。

结合第一方面的第一种实施方式，在第一方面的第四种实施方式中，所述阅读任务处理模型还包括答复信息预测模块，所述基于所述第二信息表示在所述阅读信息中确定用于答复所述目标问题信息的答复信息，包括：

通过所述答复信息预测模块对所述第二信息进行处理，在所述阅读信息中确定用于答复所述目标问题信息的答复信息的开始位置信息和结束位置信息；

基于所述开始位置信息与结束位置信息获取所述答复信息。

结合第一方面的第一种实施方式，在第一方面的第五种实施方式中，所述阅读任务处理模型的训练步骤包括：

获取样本信息；所述样本信息包括样本阅读信息以及至少一轮样本对话信息；

基于所述样本信息对所述阅读任务处理模型进行训练，直至所述阅读任务处理模型的总损失函数收敛；

其中，在训练时，将样本阅读信息的上一时刻信息表示与样本对话信息中的样本问题信息输入当前时刻的循环神经网络，得到样本阅读信息的当前时刻信息表示；将样本阅读信息的当前时刻信息表示作为下一时刻的循环神经网络的输入。

结合第一方面的第五种实施方式，在第一方面的第六种实施方式中，所述样本对话信息包括样本问题信息与样本答复信息；所述阅读任务处理模型还包括答复信息预测模块；所述总损失函数包括采用每一轮样本对话信息进行训练时的损失函数；在训练时，当得到当前循环神经网络输出的隐状态时，通过所述答复信息预测模块根据所述隐状态确定与样本问题信息对应的预测答复信息；基于预测答复信息与对应的样本答复信息，计算损失函数。

结合第一方面的第五种实施方式，在第一方面的第七种实施方式中，所述阅读任务处理模型还包括词嵌入模块；在训练时，将样本阅读信息的上一时刻信息表示与样本对话信息中的样本问题信息输入当前时刻的循环神经网络，包括：将样本对话信息中的样本问题信息输入词嵌入模块，得到该样本问题信息的第三信息表示；将所述第三信息表示与样本阅读信息的上一时刻信息表示输入当前时刻的循环神经网络。

第二方面，提供了一种阅读任务处理装置，包括：获取信息模块，用于获取阅读信息、与所述阅读信息相关联的目标问题信息和至少一轮历史对话信息；第一确定模块，用于执行迭代处理步骤直至完成对所有轮次历史对话信息的处理，并将基于最后轮次的历史对话信息确定的阅读信息的当前时刻信息表示作为所述至少一轮历史对话信息在所述阅读信息中的第一信息表示，所述迭代处理步骤包括：根据历史对话信息的时间顺序获取当前轮次的历史对话信息；基于所述当前轮次的历史对话信息与阅读信息的上一时刻信息表示确定所述阅读信息的当前时刻信息表示；第二确定模块，用于基于所述第一信息表示确定所述目标问题信息在所述阅读信息中的第二信息表示；答复确定模块，用于基于所述第二信息表示在所述阅读信息中确定用于答复所述目标问题信息的答复信息。

结合第二方面，在第二方面的第一种实施方式中，采用阅读任务处理模型执行所述阅读任务处理方法的步骤，所述阅读任务处理模型包括阅读信息更新模块，所述阅读信息更新模块包括基于所述历史对话信息级联设置的循环神经网络；采用级联设置的循环神经网络确定所述第一信息表示与第二信息表示。

结合第二方面的第一种实施方式，在第二方面的第二种实施方式中，所述阅读任务处理模型还包括词嵌入模块；所述历史对话信息包括历史问题信息；所述第一确定模块，包括：

迭代单元，用于针对当前轮次的历史对话信息，通过所述词嵌入模块对历史问题信息进行处理，确定所述历史问题信息的第三信息表示；通过级联设置的循环神经网络基于所述阅读信息的上一时刻信息表示与所述第三信息表示确定所述阅读信息的当前时刻信息表示；

第一确定单元，用于将基于最后一轮历史对话信息中历史问题信息的第三信息表示与所述阅读信息的上一时刻信息表示确定的阅读信息的当前时刻信息表示，确定为第一信息表示；

所述第二确定模块，包括：

第二确定单元，用于通过所述词嵌入模块对目标问题信息进行处理，确定所述目标问题信息的目标信息表示；通过所述循环神经网络基于所述第一信息表示与所述目标信息表示确定所述目标问题信息在所述阅读信息中的第二信息表示。

结合第二方面的第一种实施方式，在第二方面的第三种实施方式中，所述循环神经网络包括遗忘控制单元、输入控制单元、输出控制单元以及采用注意力机制设置的建模单元；所述建模单元用于基于注意力机制建模问题信息与阅读信息的上一时刻信息表示之间的关系；所述阅读信息的上一时刻信息表示包括阅读信息的上一时刻信息状态与隐状态；所述遗忘控制单元用于在阅读信息的上一时刻信息表示中提取用于计算阅读信息的当前时刻信息表示的内容；所述输入控制单元用于在当前输入循环神经网络的信息中提取用于计算阅读信息的当前时刻信息表示的内容；所述输出控制单元用于在阅读信息的当前时刻信息状态中提取用于计算循环神经网络输出的隐状态的内容。

结合第二方面的第一种实施方式，在第二方面的第四种实施方式中，所述阅读任务处理模型还包括答复信息预测模块，所述答复确定模块，包括：

答复确定单元，用于通过所述答复信息预测模块对所述第二信息进行处理，在所述阅读信息中确定用于答复所述目标问题信息的答复信息的开始位置信息和结束位置信息；

获取单元，用于基于所述开始位置信息与结束位置信息获取所述答复信息。

结合第二方面的第一种实施方式，在第二方面的第五种实施方式中，所述装置还包括训练单元，用于执行阅读任务处理模型的训练方法步骤，包括：

获取样本单元，用于获取样本信息；所述样本信息包括样本阅读信息以及至少一轮样本对话信息；

训练单元，用于基于所述样本信息对所述阅读任务处理模型进行训练，直至所述阅读任务处理模型的总损失函数收敛；

其中，训练单元还用于在训练时，将样本对话信息与样本阅读信息的上一时刻信息表示输入当前时刻的循环神经网络，得到样本阅读信息的当前时刻信息表示；将样本阅读信息的当前时刻信息表示作为下一时刻的循环神经网络的输入。

结合第二方面的第五种实施方式，在第二方面的第六种实施方式中，所述样本对话信息包括样本问题信息与样本答复信息；所述阅读任务处理模型还包括答复信息预测模块；所述总损失函数包括采用每一轮样本对话信息进行训练时的损失函数；训练单元还用于在训练时，当得到当前循环神经网络的输出信息时，通过所述答复信息预测模块根据所述输出信息确定与样本问题信息对应的预测答复信息；基于预测答复信息与对应的样本答复信息，计算损失函数。

结合第二方面的第五种实施方式，在第二方面的第七种实施方式中，所述阅读任务处理模型还包括词嵌入模块；训练单元包括：

第一输入子单元，用于将样本对话信息中的样本问题信息输入词嵌入模块，得到该样本问题信息的第三信息表示；

第二输入子单元，用于将所述第三信息表示与样本阅读信息的上一时刻信息表示输入当前时刻的循环神经网络。

第三方面，提供了一种电子设备，其包括：一个或多个处理器；存储器；一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于：执行第一方面及第一方面任一种实施方式所述的阅读任务处理方法。

第四方面，提供了一种计算机可读存储介质，所述存储介质存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现第一方面及第一方面任一种实施方式所述的阅读任务处理方法。

本申请提供的技术方案带来的有益效果是：

本申请提供了一种阅读任务处理方法，与现有技术相比，本申请首先通过执行迭代处理步骤，可以将无限轮次的历史对话信息编码进入阅读信息中；其次，基于历史对话信息的时间顺序逐一将每一轮历史对话信息编码进入阅读信息，有利于学习历史对话信息的时间深度信息；再者，在确定历史对话信息在阅读信息中的第一信息表示后，基于第一信息表示确定目标问题信息在阅读信息中的第二信息表示，使得机器在分析目标问题信息在阅读信息中语义表达的同时考虑历史对话信息在阅读信息中的表达，即在确定目标问题信息在阅读信息中的第二信息表示的同时考虑历史对话信息，有利于提高基于目标问题信息预测答复结果的准确度。

本申请附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的一种阅读任务处理方法的流程示意图；

图2为本申请实施例提供的一种阅读任务处理模型的结构示意图；

图3为本申请实施例提供的一种阅读任务处理模型中循环单元的结构示意图；

图4为本申请实施例提供的一种阅读任务处理模型的训练方法的流程示意图；

图5为本申请实施例提供的一种阅读任务处理模型的训练方法的流程示意图；

图6为本申请实施例提供的一种阅读任务处理方法的应用环境示意图；

图7为本申请实施例提供的一种阅读任务处理装置的结构示意图；

图8为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请实施例提供的技术方案涉及人工智能的自然语言处理等技术，自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。本申请实施例主要涉及机器人问答中问题理解(query understanding)和答案抽取(Answer extraction)等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

本申请实施例提供的一种阅读任务处理方法具体可以由本申请实施例提供的电子设备执行，具体地电子设备可以是客户端，也可以是服务器，客户端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器，但并不局限于此。如图1所示，本申请实施例提供的阅读任务处理方法包括以下步骤S101-S104：

S101：获取阅读信息、与阅读信息相关联的目标问题信息和至少一轮历史对话信息。

具体地，阅读信息可以是用于机器阅读的一篇、一段或一句文本信息，当阅读信息是一种文本信息，设备可直接对文本信息进行处理；阅读信息也可以是一种多媒体信息，设备可对多媒体信息进行识别获得特征后，基于识别所得的特征进行处理；本申请实施例在此不做限定。

可选地，在一应用场景中，当获取到与阅读信息相关联的待回答的目标问题信息时，在基于阅读信息确定目标问题信息的答复信息之前，获取与阅读信息相关联的所有历史对话信息进行处理。例如，针对阅读信息A，当前接收到目标问题信息a，且在接收到目标问题信息a之前，针对阅读信息A进行了3轮历史对话，则在确定目标问题信息a对应的答复信息之前，获取该3轮历史对话分别对应的历史对话信息进行处理。

S102：执行迭代处理步骤直至完成对所有轮次历史对话信息的处理，并将基于最后轮次的历史对话信息确定的阅读信息的当前时刻信息表示作为至少一轮历史对话信息在阅读信息中的第一信息表示；迭代处理步骤包括S1021-S1022：

S1021：根据历史对话信息的时间顺序获取当前轮次的历史对话信息。

S1022：基于当前轮次的历史对话信息与阅读信息的上一时刻信息表示确定阅读信息的当前时刻信息表示。

具体地，假设在接收到目标问题信息之前，基于阅读信息进行了3轮历史对话，则基于历史对话的时间顺序(2020年9月1日17:08-历史对话信息1；2020年9月1日17:39-历史对话信息2；2020年9月3日09:03-历史对话信息3)，首先获取历史对话信息1结合阅读信息C确定阅读信息的信息表示C1；进而获取历史对话2结合阅读信息的信息表示C1确定阅读信息的信息表示C2；再者获取历史对话信息3结合阅读信息的信息表示C2确定阅读信息的信息表示C3，并将阅读信息的信息表示C3作为所有历史对话信息在阅读信息C中的第一信息表示。

可选地，步骤S1021根据历史对话信息的时间顺序获取当前轮次的历史对话信息，有利于在将历史对话信息编码进入阅读信息时，学习历史对话信息的时间深度信息，明确每一轮历史对话信息与当前轮次历史对话信息之间的距离。

其中，每一轮历史对话信息包括历史问题信息以及与该历史问题信息相关联的历史答复信息。在一可行的实施例中，进行一轮历史对话的过程包括：接收历史问题信息A，基于该历史问题信息A在阅读信息中找出历史答复信息a。

可选地，第一信息表示可以表征将历史对话信息编码进入阅读信息后，结合历史对话信息的阅读信息处于最新状态下的信息表达。

S103：基于第一信息表示确定目标问题信息在阅读信息中的第二信息表示。

可选地，第二信息表示可以表征目标问题信息与阅读信息、目标问题信息与历史对话信息之间的关系。具体地，在确定第二信息表示时，不仅考虑目标问题信息与阅读信息之间的关系，还考虑到目标问题信息与历史对话信息之间的关系，且三者之间的关系是交互的。

S104：基于第二信息表示在阅读信息中确定用于答复目标问题信息的答复信息。

可选地，基于第二信息表示在阅读信息中确定相应的内容，如确定出该内容的开始位置和结束位置，进而在阅读信息中抽取答复信息，以作为针对目标问题信息的反馈信息。

在一实施例中，采用阅读任务处理模型执行阅读任务处理方法的步骤，如图2所示，阅读任务处理模型包括阅读信息更新模块，阅读信息更新模块包括基于历史对话信息级联设置的循环神经网络；采用级联设置的循环神经网络确定第一信息表示与第二信息表示。

其中，阅读信息更新模块包括一个或多个级联设置的循环神经网络(在模型的整体结构中体现为循环单元)，在采用循环神经网络确定第一信息表示时，循环神经网络运行的次数与历史对话信息的总轮次数相应。

在一实施例中，历史对话信息包括历史问题信息以及相应的历史答复信息；阅读任务处理模块还包括词嵌入模块。采用级联设置的循环神经网络确定第一信息表示，包括以下步骤A1-A2：

步骤A1：针对当前轮次的历史对话信息，通过词嵌入模块对历史问题信息进行处理，确定历史问题信息的第三信息表示；通过级联设置的循环神经网络基于阅读信息的上一时刻信息表示与第三信息表示确定阅读信息的当前时刻信息表示。

步骤A2：将基于最后一轮历史对话信息中历史问题信息的第三信息表示与阅读信息的上一时刻信息表示确定的阅读信息的当前时刻信息表示，确定为第一信息表示。

举例说明：假设当前的阅读信息为B，历史对话信息包括3轮。

针对第1轮历史对话信息：首先采用阅读任务处理模型的词嵌入模块对第1轮历史对话信息中的历史问题信息进行处理，确定该历史问题信息的第三信息表示并输入循环神经网络中，此时循环神经网络进行第1次运行，并建模第1轮历史问题信息与阅读信息的关系，输出经对第1轮历史对话信息的编码后阅读信息的当前时刻信息表示。

针对第2轮历史对话信息：首先采用阅读任务处理模型的词嵌入模块对第2轮历史对话信息中的历史问题信息进行处理，确定该历史问题信息的第三信息表示并输入循环神经网络中，此时循环神经网络进行第2次运行，并建模第2轮历史问题信息与阅读信息的关系(此时采用阅读信息在第1轮中的信息表示)，输出经对第2轮历史对话信息的编码后阅读信息的当前时刻信息表示。

针对第3轮历史对话信息：首先采用阅读任务处理模型的词嵌入模块对第3轮历史对话信息中的历史问题信息进行处理，确定该历史问题信息的第三信息表示并输入循环神经网络中，此时循环神经网络进行第3次运行，并建模第3轮历史问题信息与阅读信息的关系(此时采用阅读信息在第2轮中的信息表示)，输出经第3轮历史对话信息的编码后阅读信息的当前时刻信息表示。第3轮历史对话信息即为最后一轮历史对话信息，此时输出的阅读信息的当前时刻信息表示可以确定为第一信息表示。

经对3轮历史对话信息的编码后，此时可得到历史对话信息在阅读信息中的第一信息表示。

采用级联设置的循环神经网络确定第二信息表示，包括以下步骤A3：

步骤A3：通过词嵌入模块对目标问题信息进行处理，确定目标问题信息的目标信息表示；通过循环神经网络基于第一信息表示与目标信息表示确定目标问题信息在阅读信息中的第二信息表示。

具体地，首先采用词嵌入模块对目标问题信息进行处理，确定出目标问题信息的目标信息表示，进而通过循环神经网络基于目标信息表示与基于步骤A2获得的第一信息表示确定目标问题信息在阅读信息中的第二信息表示。

可选地，在确定第一信息表示后，将目标问题信息输入阅读任务处理模型，此时将首先采用阅读任务处理模型中的词嵌入模块对目标问题信息进行处理，确定目标问题信息的目标信息表示；进而将目标问题信息的目标信息表示与历史对话信息在阅读信息中的第一信息表示输入循环神经网络，进而确定目标问题信息在阅读信息中的第二信息表示(构建目标问题信息与阅读信息、目标问题信息与历史对话信息之间的关系)。

在本申请实施例中，词嵌入模块用于将文本输入(历史问题信息或目标问题信息)转换为密集低维向量形式；具体地，词嵌入模块可以由与训练的BERT模型构成。

在一实施例中，循环神经网络(每一个级联设置的循环单元)包括遗忘控制单元、输入控制单元、输出控制单元以及采用注意力机制(Attention Mechanism)设置的建模单元。

可选地，建模单元用于基于注意力机制建模问题信息与阅读信息的上一时刻信息表示之间的关系；阅读信息的上一时刻信息表示包括阅读信息的上一时刻信息状态与隐状态。

在本申请实施例中，建模单元可以采用QANet模型配置；注意力机制可以理解为将注意力集中放在重要的因素上，而忽略其他不重要的因素；其中，各个因素的重要程度的判断取决于应用场景，在不同的应用场景下，注意力可以区分为空间注意力和时间注意力。在本申请实施例中，在将阅读任务处理方法应用于图像处理(阅读信息为图像信息)时，注意力可以为空间注意力；在将阅读任务处理方法应用于自然语言处理(阅读信息为文本信息)时，注意力可以为时间注意力。

遗忘控制单元用于在阅读信息的上一时刻信息表示中提取用于计算阅读信息的当前时刻信息表示的内容。

输入控制单元用于在当前输入循环神经网络的信息中提取用于计算阅读信息的当前时刻信息表示的内容。

输出控制单元用于在阅读信息的当前时刻信息状态中提取用于计算循环神经网络输出的隐状态的内容。

在本申请实施例中，遗忘控制单元可以配置为遗忘门(forget gate)、输入控制单元可以配置为输入门(input gate)、输出控制单元可以配置为输出门(output gate)，通过采用遗忘控制单元、输入控制单元、输出控制单元配置循环神经网络，可以了解到在将历史对话信息编码进入阅读信息时，在每一轮的对话中舍弃了哪些历史信息、重点关注了阅读信息中的哪些部分，该配置使得模型具有很好的可解释性。

在一可行的实施例中，建模单元还可以采用自注意力机制(Self-attentionMechanism)进行配置，自注意力机制为注意力机制的一种优化，具体可根据实际的应用场景选择不同的机制设置建模单元，本申请在此不作限定。

可选地，阅读任务处理模型还包括答复信息预测模块，在确定每一轮历史对话信息在阅读信息中的表示时，还可采用答复信息预测模块预测每一轮历史问题信息对应的预测答复信息，进以通过预测答复信息与历史答复信息的相关数据对循环神经网络进行调整，进而调整阅读信息在当前时刻的信息表达，提高历史对话信息在阅读信息中第一信息表示的准确度。

在一实施例中，步骤S104基于第二信息表示在阅读信息中确定用于答复目标问题信息的答复信息，包括以下步骤S1041-S1042：

步骤S1041：通过答复信息预测模块对第二信息进行处理，在阅读信息中确定用于答复目标问题信息的答复信息的开始位置信息和结束位置信息。

步骤S1042：基于开始位置信息与结束位置信息获取答复信息。

可选地，答复信息预测模块(可以理解为阅读任务处理模型的预测层，predictionlayer)配置为指针网络(pointer networdk)，通过对第二信息进行处理，可在阅读信息中确定用于答复目标问题信息的答复信息的开始位置信息和结束位置信息；在基于开始位置信息与结束位置信息获取答复信息时，可以直接将该位置信息对应的内容作为答复信息，也可提取对应内容后，对该内容进行归一化、语义表达调整等操作后最终确定为答复信息。其中归一化可理解为对所提取的内容进行文本正则化处理等(考虑到答复信息可能用于进行语音对话，若对所提取的内容进行文本正则化处理有利于提高用户体验)。

在本申请实施例中，训练所得的阅读任务处理模型结合了循环神经网络和注意力机制各自的优势，可以建模无限轮次的对话场景。模型在建模过程中同时建模了目标问题信息与阅读信息、目标问题信息与历史对话信息之间的关系，即在采用注意力机制建模目标问题信息与阅读信息之间的关系时，同时考虑了历史对话信息。另，本申请在建模问题信息与阅读信息、问题信息与历史对话信息之间的关系时是同步处理的，其有利于在两个关系实现交互时，降低噪音，提高模型的性能。

结合上述实施例对阅读任务处理方法的描述，下面针对执行该方法步骤的阅读任务处理模型的相关训练方法步骤进行说明。

在一实施例中，在阅读任务处理方法中第一信息表示、第二信息表示与第三信息表示所表征的内容与阅读任务处理模型的训练方法步骤的实施例中所表征的内容相同。

在本申请实施例中，阅读信息更新模块包括基于样本对话信息级联设置的循环神经网络，具体地，用于训练阅读任务处理模型的样本对话信息包括至少一轮，在配置阅读信息更新模块时，基于样本对话信息的轮次级联设置循环神经网络，如当前用于训练模型的样本对话信息包括n轮，则级联设置的循环神经网络中包括n个循环单元；级联设置的循环神经网络的数据传输过程可理解为将上一时刻循环神经网络输出的数据作为当前时刻循环神经网络的输入数据(结合图2可理解为将上一循环单元输出的数据作为下一循环单元的输入数据)。具体地，阅读任务处理模型设计为LST(LSTM-Styled Transformer)Framework模型，该模型的整体结构如图2所示；其中阅读任务处理模型的阅读信息更新模块包括级联设置的循环神经网络(LST循环单元)。

如图4所示，本申请实施例的训练方法包括以下步骤S401-S402：

S401：获取样本信息；样本信息包括样本阅读信息以及至少一轮样本对话信息。

可选地，样本阅读信息是指用于训练阅读任务处理模型的阅读信息，其可以是用于机器阅读的一篇、一段或一句文本信息。样本阅读信息可以是一种文本信息，设备可直接对文本信息进行处理；样本阅读信息也可以是一种图片格式信息，设备可对图片进行识别获得文本信息后，基于识别所得的文本信息进行处理；本申请实施例在此不做限定。

可选地，样本对话信息是指用于训练阅读任务处理模型的对话信息，其可以是一段或一句对话构成的文本信息(也可以是基于语音信息转换而得的文本信息，本申请对此不做限定)。样本对话信息包括历史已进行对话的样本问题信息和样本答复信息，如基于样本问题信息在样本阅读信息中查找到的样本答复信息。具体地，样本对话信息与样本阅读信息相关联，也可以是基于样本阅读信息设置的样本对话信息。

在一实施例中，样本对话信息的轮次顺序与所训练的阅读任务处理模型基于问题预测答复结果的准确度相关，每轮样本对话信息之间的关联关系可体现在模型准确预测答复结果的能力上。可选地，可以考虑在样本对话信息原有的轮次顺序的基础上，对各轮次的样本对话信息进行随机排序，生成具有其他排序顺序的样本对话信息，进而对模型进行训练，以提高模型语义分析能力。

在本申请实施例中，无需限定样本阅读信息的内容大小，可采用短的文本信息，也可以采用长的文本信息作为样本阅读信息；且样本信息中可以包括多轮样本对话信息，也无需限定样本对话信息的轮次次数。

S402：基于样本信息对阅读任务处理模型进行训练，直至阅读任务处理模型的总损失函数收敛。

可选地，在采用样本信息对阅读任务处理模型进行训练时，采用损失函数(lossfunction)衡量模型的收敛程度，如通过损失值与预设阈值进行比较，衡量当前训练所得模型的收敛程度。

其中，在训练时，将样本对话信息与样本阅读信息的上一时刻信息表示输入当前时刻的循环神经网络，得到样本阅读信息的当前时刻信息表示；将样本阅读信息的当前时刻信息表示作为下一时刻的循环神经网络的输入。举例说明，在模型训练的过程中，当前采用第2轮的样本对话信息对模型进行训练，此时同步获取样本阅读信息经第1轮的样本对话信息训练后的上一时刻信息表示C1输入当前时刻的循环神经网络，得到样本阅读信息的当前时刻信息表示C2，并将样本阅读信息的当前时刻信息表示C2作为下一时刻的循环神经网络的输入；其中，样本阅读信息的当前时刻信息表示C2学习了第1轮和第2轮样本对话信息的内容。其中，样本阅读信息的信息表示可理解为包括将样本对话信息编码进入样本阅读信息后，样本对话信息在样本阅读信息中所表达的语义；样本阅读信息的信息表示的表现形式可以是矩阵或者向量。

上述实施例对训练方法的整体进行了叙述，下面针对模型中构成阅读信息更新模块的循环神经网络的结构进行说明。每一级联设置的循环神经网络在模型的整体结构中体现为一个循环单元，在一实施例中，如图3所示，每一循环单元配置有建模单元、遗忘控制单元、输入控制单元与输出控制单元。可选地，每一循环单元的设置为逻辑设置，可将其理解为一个总的循环神经网络，当样本对话信息的总轮次为n时，循环神经网络被运行n次，每一次运行对应一个状态，该状态表征在第i次时，模型在结合样本对话信息的基础上对样本阅读信息的理解(如语义分析结果)。具体地，循环神经网络用于更新样本阅读信息的信息表示。

其中，建模单元用于建模样本问题信息与样本阅读信息的上一时刻信息表示之间的关系；样本阅读信息的上一时刻信息表示包括样本阅读信息的上一时刻信息状态与隐状态。

可选地，建模单元为一个采用注意力机制配置的单轮阅读理解模块，主要用于建模当前样本对话信息中样本问题信息与样本阅读信息的上一时刻信息表示之间的关系，亦即建模样本问题信息与当前样本阅读信息的信息表示之间的关系，可选地，采用QANet模型(问答网络)配置建模单元。其中，样本阅读信息的信息表示包括样本阅读信息的信息状态和隐状态。在建模单元中，以样本阅读信息的上一时刻信息状态Ct-1和隐状态Ht-1作为输入数据，并输出当前时刻更新之后的信息状态Ct和隐状态Ht。

遗忘控制单元用于在样本阅读信息的上一时刻信息表示中提取用于计算样本阅读信息的当前时刻信息表示的内容。

可选地，遗忘控制单元配置为遗忘门(forget gate)，决定了样本阅读信息的上一时刻信息状态Ct-1有多少内容保存在当前时刻信息状态Ct。

输入控制单元用于在当前输入循环神经网络的信息中提取用于计算样本阅读信息的当前时刻信息表示的内容。

可选地，输入控制单元配置为输入门(input gate)，决定了当前时刻循环神经网络获得的输入(样本问题信息相关内容，It-1)有多少内容保存在样本阅读信息的当前时刻信息状态Ct中。

输出控制单元用于在样本阅读信息的当前时刻信息状态中提取用于计算循环神经网络输出的隐状态的内容。

可选地，输出控制单元配置为输出门(output gate)，决定了样本阅读信息的当前时刻信息状态Ct中有多少内容输出到循环神经网络的当前输出值(隐状态，Ht)中。

可选地，遗忘控制单元、输入控制单元与输出控制单元面向tensor序列。结合图3可见，循环神经网络输出的隐状态由输出控制单元进行控制，输出的隐状态会被输入至答复信息预测模块中预测答复信息在样本阅读信息中的开始位置和结束位置。

在本申请实施例中，通过循环神经网络中三个控制单元，可以清晰地了解到在经每轮样本对话信息进行训练时，阅读任务处理模型舍弃了哪些样本对话信息，重点学习了样本阅读信息中的哪些信息，使得阅读任务处理模型具有良好的可解释性。

在上述实施例中描述了循环神经网络的构成，下面针对经每一轮样本对话信息对模型进行处理后，计算损失函数的内容进行描述。

在一实施例中，样本对话信息包括样本问题信息与样本答复信息；如图2所示，阅读任务处理模型还包括答复信息预测模块；总损失函数包括采用每一轮样本对话信息进行训练时的损失函数loss。

在训练时，当得到当前循环神经网络输出的隐状态时，通过答复信息预测模块根据隐状态确定与样本问题信息对应的预测答复信息。

基于预测答复信息与对应的样本答复信息，计算损失函数。

可选地，样本对话信息中包括的样本问题信息为用于在样本阅读信息抽取预测答复信息的基础，样本答复信息为机器在执行阅读任务时基于样本问题信息在样本阅读信息中抽取的答复信息。在一可行的实施例中，样本对话信息可以是真实场景发生的对话信息，也可以是基于样本阅读信息设定的对话信息。举例说明：样本阅读信息为“我都三十岁了，凭什么要委屈自己”；样本问题信息为“故事中主人公的年龄多大”；样本答复信息为“三十岁”。

其中，循环神经网络经每一轮样本对话信息训练后，将输出当前时刻的隐状态，该隐状态将被输入答复信息预测模块进行答复信息的预测处理。具体地，答复信息预测模块可以是指针网络(pointer network)，样本阅读信息中预测答复信息的开始位置和结束位置，进而根据开始位置和结束位置抽取预测答复信息。

可选地，在循环神经网络经每一轮的样本对话信息训练后，将当前模型输出的预测答复信息与样本答复信息计算损失函数loss。具体地，基于每一轮样本对话信息训练所得的损失值可作为单独的数据衡量模型的收敛程度，也可以将各轮样本对话信息训练所得的损失值进行加权计算确定总损失值进而衡量模型的收敛程度。

在一实施例中，如图5所示，阅读任务处理模型还包括词嵌入模块。可选地，词嵌入模块可以由预训练的BERT模型(语言模型)构成，可用于对样本阅读信息和/或样本问题信息进行分析，得到较好的词向量作为模型的初始参数(如图5中，Doc可理解为样本阅读信息，将样本阅读信息输入预训练的BERT模型后，得到样本阅读信息的初始信息表示C0；Qn可理解为样本问题信息，将样本问题信息输入预训练的BERT模型后，得到样本问题信息的第三信息表示In)。如图5所示，在训练时，将样本阅读信息的上一时刻信息表示与样本对话信息中的样本问题信息输入当前时刻的循环神经网络，包括以下步骤S501-S502：

S501：将样本对话信息中的样本问题信息输入词嵌入模块，得到该样本问题信息的第三信息表示。

可选地，第三信息表示可以包括样本问题信息经词嵌入模块处理所得的词向量，可作为阅读任务处理模型的初始参数。在将样本问题信息输入循环神经网络进行处理之前，将样本问题信息输入预训练的BERT模型进行处理，有利于提高模型对样本问题信息的理解能力和学习效率。

S502：将第三信息表示与样本阅读信息的上一时刻信息表示输入当前时刻的循环神经网络。

具体地，如图5所示，将第三信息表示In与样本阅读信息的上一时刻信息表示(信息状态Cn-1和隐状态Hn-1)输入当前时刻的循环神经网络。

与现有技术相比，本申请实施例提供的阅读任务处理模型包括阅读信息更新模块，阅读信息更新模块包括基于样本对话信息级联设置的循环神经网络；在此基础上，本申请提供的模型训练方法包括获取样本信息，基于样本信息对阅读任务模型进行训练，直至阅读任务处理模型的总损失函数收敛；其中，样本信息包括样本阅读信息以及至少一轮样本对话信息；在训练时，将样本阅读信息的上一时刻信息表示与样本对话信息输入当前时刻的循环神经网络，得到样本阅读信息的当前时刻信息表示；并将样本阅读信息的当前时刻信息表示作为下一时刻的循环神经网络的输入。本申请的实施将阅读任务处理模型中的阅读信息更新模块配置为包括基于样本对话信息级联设置的循环神经网络，并将样本对话信息与样本阅读信息的上一时刻信息表示作为当前时刻的循环神经网络的输入数据，而且将当前时刻的循环神经网络输出的样本阅读信息的当前时刻信息表示作为下一时刻的循环神经网络的输入数据；该模型的配置可以针对无限次的历史对话信息进行建模。训练所得的模型在实际应用中，可以将全部的历史对话信息均在建模时进行编码，有利于提高阅读任务处理模型基于问题信息预测答复结果的准确度。

上述实施例描述了阅读任务处理模型的训练方法，以下针对基于该方法训练而得的阅读任务处理模型的应用

在一实施例中，考虑到上述提供的阅读任务处理方法可应用于客服机器人、语音助手、教育、娱乐、读书等软件中，以下适应提供一种可行的应用例，以助于更好地理解本申请实施例提供的方法，如图6所示，该方法可应用于客户端601或服务端602。

假设上述方法应用于客服机器人，客服机器人通过机器阅读理解产品文档，针对用户的提问作出相应的回答。假设针对产品A，用户Q向客服机器人发起提问X，此时，客服机器人发现在用户Q针对产品A发起提问之前，针对产品A客服机器人已与其他用户发生13轮历史对话(历史对话的相关内容可存储于服务端，也可存储于客户端；在一实施例中，历史对话的总轮次较多，无需限定总轮次的次数)，客服机器人将获取该13轮历史对话的内容并基于用户输入的问题X，采用上述实施例提供的阅读任务处理方法，确定当前针对问题X的答复信息。其中，客服机器人可直接在客户端601采用上述方法完成对答复信息的预测，并向用户反馈(可语音播报，亦可以文本形式展示)；客服机器人还可将用户Q输入的提问X发送至服务端602，由服务端602结合提问X、针对产品A的相关文档、以及13轮历史对话确定相应的答复信息并下发至客户端601，进而向用户反馈。

在一实施例中，如图7所示，提供了一种阅读任务处理装置700，包括：获取信息模块701、第一确定模块702、第二确定模块703和答复确定模块704。

其中，获取信息模块701，用于获取阅读信息、与阅读信息相关联的目标问题信息和至少一轮历史对话信息。

第一确定模块702，用于确定至少一轮历史对话信息在阅读信息中的第一信息表示。

第二确定模块703，用于执行迭代处理步骤直至完成对所有轮次历史对话信息的处理，并将基于最后轮次的历史对话信息确定的阅读信息的当前时刻信息表示作为至少一轮历史对话信息在阅读信息中的第一信息表示，迭代处理步骤包括：根据历史对话信息的时间顺序获取当前轮次的历史对话信息；基于当前轮次的历史对话信息与阅读信息的上一时刻信息表示确定阅读信息的当前时刻信息表示。

答复确定模块704，用于基于第二信息表示在阅读信息中确定用于答复目标问题信息的答复信息。

可选地，采用阅读任务处理模型执行阅读任务处理装置所执行的步骤，阅读任务处理模型包括阅读信息更新模块，阅读信息更新模块包括基于历史对话信息级联设置的循环神经网络；采用级联设置的循环神经网络确定第一信息表示与第二信息表示。

可选地，阅读任务处理模型还包括词嵌入模块；历史对话信息包括历史问题信息；第一确定模块702包括：

迭代单元，用于针对当前轮次的历史对话信息，通过词嵌入模块对历史问题信息进行处理，确定历史问题信息的第三信息表示；通过级联设置的循环神经网络基于阅读信息的上一时刻信息表示与第三信息表示确定阅读信息的当前时刻信息表示。

第一确定单元，用于将基于最后一轮历史对话信息中历史问题信息的第三信息表示与阅读信息的上一时刻信息表示确定的阅读信息的当前时刻信息表示，确定为第一信息表示。

第二确定模块703，包括：第二确定单元，用于通过词嵌入模块对目标问题信息进行处理，确定目标问题信息的目标信息表示；通过循环神经网络基于第一信息表示与目标信息表示确定目标问题信息在阅读信息中的第二信息表示。

可选地，循环神经网络包括遗忘控制单元、输入控制单元、输出控制单元以及采用注意力机制设置的建模单元；建模单元用于基于注意力机制建模问题信息与阅读信息的上一时刻信息表示之间的关系；阅读信息的上一时刻信息表示包括阅读信息的上一时刻信息状态与隐状态；遗忘控制单元用于在阅读信息的上一时刻信息表示中提取用于计算阅读信息的当前时刻信息表示的内容；输入控制单元用于在当前输入循环神经网络的信息中提取用于计算阅读信息的当前时刻信息表示的内容；输出控制单元用于在阅读信息的当前时刻信息状态中提取用于计算循环神经网络输出的隐状态的内容。

可选地，阅读任务处理模型还包括答复信息预测模块，答复确定模块704包括：答复确定单元，用于通过答复信息预测模块对第二信息进行处理，在阅读信息中确定用于答复目标问题信息的答复信息的开始位置信息和结束位置信息；获取单元，用于基于开始位置信息与结束位置信息获取答复信息。

可选地，装置还包括训练单元，用于执行阅读任务处理模型的训练方法步骤，包括获取样本单元和训练单元。

其中，获取样本单元，用于获取样本信息；样本信息包括样本阅读信息以及至少一轮样本对话信息。

其中训练单元，用于基于样本信息对阅读任务处理模型进行训练，直至阅读任务处理模型的总损失函数收敛。

可选地，循环神经网络配置有遗忘控制单元、输入控制单元、输出控制单元以及采用注意力机制设置的建模单元；其中，建模单元用于基于注意力机制建模样本问题信息与样本阅读信息的上一时刻信息表示之间的关系；样本阅读信息的上一时刻信息表示包括样本阅读信息的上一时刻信息状态与隐状态；遗忘控制单元用于在样本阅读信息的上一时刻信息表示中提取用于计算样本阅读信息的当前时刻信息表示的内容；输入控制单元用于在当前输入循环神经网络的信息中提取用于计算样本阅读信息的当前时刻信息表示的内容；输出控制单元用于在样本阅读信息的当前时刻信息状态中提取用于计算循环神经网络输出的隐状态的内容。

可选地，样本对话信息包括样本问题信息与样本答复信息；阅读任务处理模型还包括答复信息预测模块；总损失函数包括采用每一轮样本对话信息进行训练时的损失函数；训练单元还用于在训练时，当得到当前循环神经网络输出的隐状态时，通过答复信息预测模块根据隐状态确定与样本问题信息对应的预测答复信息；基于预测答复信息与对应的样本答复信息，计算损失函数。

可选地，阅读任务处理模型还包括词嵌入模块；训练单元包括：第一输入子单元，用于将样本对话信息中的样本问题信息输入词嵌入模块，得到该样本问题信息的第三信息表示；第二输入子单元，用于将第三信息表示与样本阅读信息的上一时刻信息表示输入当前时刻的循环神经网络。

本申请实施例的阅读任务处理装置可执行本申请的实施例所提供的一种阅读任务处理方法，其实现原理相类似，本申请各实施例中的阅读任务处理装置中的各模块所执行的动作是与本申请各实施例中的阅读任务处理方法中的步骤相对应的，对于阅读任务处理装置的各模块的详细功能描述具体可以参见前文中所示的对应的阅读任务处理方法中的描述，此处不再赘述。

在一个可选实施例中提供了一种电子设备，如图8所示，图8所示的电子设备800包括：处理器801和存储器803。其中，处理器801和存储器803相连，如通过总线802相连。可选地，电子设备800还可以包括收发器804。需要说明的是，实际应用中收发器804不限于一个，该电子设备800的结构并不构成对本申请实施例的限定。

处理器801可以是CPU(Central Processing Unit，中央处理器)，通用处理器，DSP(Digital Signal Processor，数据信号处理器)，ASIC(Application SpecificIntegrated Circuit，专用集成电路)，FPGA(Field Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器801也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线802可包括一通路，在上述组件之间传送信息。总线802可以是PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等。总线802可以分为地址总线、数据总线、控制总线等。为便于表示，图8中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器803可以是ROM(Read Only Memory，只读存储器)或可存储静态信息和指令的其他类型的静态存储设备，RAM(Random Access Memory，随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory，只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器803用于存储执行本申请方案的应用程序代码，并由处理器801来控制执行。处理器801用于执行存储器803中存储的应用程序代码，以实现前述方法实施例所示的内容。

其中，电子设备包括但不限于：移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图8示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实现方式中提供的阅读任务处理模型的训练方法或阅读任务处理方法。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当其在计算机上运行时，使得计算机可以执行前述方法实施例中相应内容。与现有技术相比，本申请方法的实施首先通过执行迭代处理步骤，可以将无限轮次的历史对话信息编码进入阅读信息中；其次，基于历史对话信息的时间顺序逐一将每一轮历史对话信息编码进入阅读信息，有利于学习历史对话信息的时间深度信息；再者，在确定历史对话信息在阅读信息中的第一信息表示后，基于第一信息表示确定目标问题信息在阅读信息中的第二信息表示，使得机器在分析目标问题信息在阅读信息中语义表达的同时考虑历史对话信息在阅读信息中的表达，即在确定目标问题信息在阅读信息中的第二信息表示的同时考虑历史对话信息，有利于提高基于目标问题信息预测答复结果的准确度。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

需要说明的是，本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备执行上述实施例所示的方法。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，模块的名称在某种情况下并不构成对该模块本身的限定，例如，获取信息模块还可以被描述为“用于获取阅读信息、与阅读信息相关联的目标问题信息和至少一轮历史对话信息的模块”。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种阅读任务处理方法，其特征在于，采用阅读任务处理模型执行所述阅读任务处理方法，所述方法包括：

获取阅读信息、与所述阅读信息相关联的目标问题信息和至少一轮历史对话信息；

基于所述第二信息表示在所述阅读信息中确定用于答复所述目标问题信息的答复信息；

其中，所述阅读任务处理模型包括阅读信息更新模块，所述阅读信息更新模块包括词嵌入模块和基于所述历史对话信息级联设置的循环神经网络；所述历史对话信息包括历史问题信息；

采用级联设置的循环神经网络确定所述第一信息表示，包括：针对当前轮次的历史对话信息，通过所述词嵌入模块对历史问题信息进行处理，确定所述历史问题信息的第三信息表示；通过级联设置的循环神经网络基于所述阅读信息的上一时刻信息表示与所述第三信息表示确定所述阅读信息的当前时刻信息表示；将基于最后一轮历史对话信息中历史问题信息的第三信息表示与所述阅读信息的上一时刻信息表示确定的阅读信息的当前时刻信息表示，确定为第一信息表示；

采用级联设置的循环神经网络确定所述第二信息表示，包括：

2.根据权利要求1所述的方法，其特征在于，所述循环神经网络包括遗忘控制单元、输入控制单元、输出控制单元以及采用注意力机制设置的建模单元；

3.根据权利要求1所述的方法，其特征在于，所述阅读任务处理模型还包括答复信息预测模块，所述基于所述第二信息表示在所述阅读信息中确定用于答复所述目标问题信息的答复信息，包括：

基于所述开始位置信息与结束位置信息获取所述答复信息。

4.根据权利要求1所述的方法，其特征在于，所述阅读任务处理模型的训练步骤包括：

其中，在训练时，将样本对话信息与样本阅读信息的上一时刻信息表示输入当前时刻的循环神经网络，得到样本阅读信息的当前时刻信息表示；将样本阅读信息的当前时刻信息表示作为下一时刻的循环神经网络的输入。

5.根据权利要求4所述的方法，其特征在于，所述样本对话信息包括样本问题信息与样本答复信息；所述阅读任务处理模型还包括答复信息预测模块；所述总损失函数包括采用每一轮样本对话信息进行训练时的损失函数；

在训练时，当得到当前循环神经网络的输出信息时，通过所述答复信息预测模块根据所述输出信息确定与样本问题信息对应的预测答复信息；

基于预测答复信息与对应的样本答复信息，计算损失函数。

6.根据权利要求4所述的方法，其特征在于，所述阅读任务处理模型还包括词嵌入模块；

在训练时，将样本阅读信息的上一时刻信息表示与样本对话信息中的样本问题信息输入当前时刻的循环神经网络，包括：

将样本对话信息中的样本问题信息输入词嵌入模块，得到该样本问题信息的第三信息表示；

将所述第三信息表示与样本阅读信息的上一时刻信息表示输入当前时刻的循环神经网络。

7.一种阅读任务处理装置，其特征在于，应用于权利要求1所述的阅读任务处理方法，所述装置包括：

获取信息模块，用于获取阅读信息、与所述阅读信息相关联的目标问题信息和至少一轮历史对话信息；

第一确定模块，用于执行迭代处理步骤直至完成对所有轮次历史对话信息的处理，并将基于最后轮次的历史对话信息确定的阅读信息的当前时刻信息表示作为所述至少一轮历史对话信息在所述阅读信息中的第一信息表示，所述迭代处理步骤包括：根据历史对话信息的时间顺序获取当前轮次的历史对话信息；基于所述当前轮次的历史对话信息与阅读信息的上一时刻信息表示确定所述阅读信息的当前时刻信息表示；

第二确定模块，用于基于所述第一信息表示确定所述目标问题信息在所述阅读信息中的第二信息表示；

答复确定模块，用于基于所述第二信息表示在所述阅读信息中确定用于答复所述目标问题信息的答复信息。

8.一种电子设备，其特征在于，其包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于：执行根据权利要求1～6任一项所述的阅读任务处理方法。

9.一种计算机可读存储介质，其特征在于，所述存储介质存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1～6任一项所述的阅读任务处理方法。