CN113569025A

CN113569025A - 数据处理的方法和装置、电子设备和存储介质

Info

Publication number: CN113569025A
Application number: CN202110838537.5A
Authority: CN
Inventors: 薛小娜; 黄艳香
Original assignee: Shanghai Minglue Artificial Intelligence Group Co Ltd
Current assignee: Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority date: 2021-07-23
Filing date: 2021-07-23
Publication date: 2021-10-29
Anticipated expiration: 2041-07-23
Also published as: CN113569025B

Abstract

本申请提供了一种数据处理的方法和装置、电子设备和存储介质，其中，该方法包括：获取目标帐号的问题数据，其中，问题数据为任一判断题的题干信息；将问题数据输入第一模型内，得到答案依据信息；将答案依据信息和问题数据输入第二模型内，得到答案信息；将答案信息和答案依据信息，作为对问题数据进行二分类的处理结果。通过本申请，解决了相关技术中存在的人工收集判断题等信息来构建判断题库需耗费大量人力成本的问题。

Description

数据处理的方法和装置、电子设备和存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种数据处理的方法和装置、电子设备和存储介质。

背景技术

在现实生活中，判断分析过程无处不在，比如“课间活动时，张三因为李四拿走了他心爱的玩具，便动手打了李四”，老师在处理这件事的时候就需要判断张三和李四的行为是否正确并分析其中的原因。同时，由于判断分析过程不仅可以锻炼人的逻辑思维，也可加深人们对知识的掌握和理解，故该分析过程被融入了判断分析题中，已广泛出现在各类考试试题及答题节目中。

目前，在判断分析题的处理方法上主要为：首先，构建判断题库，具体为人工阅读各种标准文档内容，并根据文档内容人工提出可能的判断题、给出该判断题对应的答案(是或否)、以及从文档内容中截取该判断题对应的判断依据；然后，将<判断题，判断题答案，判断题判断依据>信息存入数据库中；最后，当用户输入判断题时，基于这些存储的判断题信息，先将该判断题与数据库中的判断题进行比较，若二者相同或高度相似则把数据库中的判断题对应的答案和答案依据作为输入判断题的答案和答案依据。

然而，这种处理方法存在人工收集判断题等信息来构建判断题库需耗费大量人力成本的问题。

发明内容

本申请提供了一种数据处理的方法和装置、存储介质和电子设备，以至少解决相关技术中存在人工收集判断题等信息来构建判断题库需耗费大量人力成本的问题。

根据本申请实施例的一个方面，提供了一种数据处理的方法，该方法包括：获取目标帐号的问题数据，其中，所述问题数据为任一判断题的题干信息；将所述问题数据输入第一模型内，得到答案依据信息，其中，所述答案依据信息为给出所述问题数据对应的答案信息的指导信息，所述第一模型是由第一初始模型训练得到的，所述第一初始模型用于将文本段落信息与机器阅读理解相联合，得出与问题样本数据匹配度大于或者等于第一阈值的答案依据样本信息；将所述答案依据信息和所述问题数据输入第二模型内，得到所述答案信息，其中，所述第二模型是由第二初始模型训练得到的，所述第二初始模型用于计算所述问题样本数据与答案依据样本信息之间的相似度，依据所述相似度和第二阈值的比较结果，得出答案样本信息；将所述答案信息和所述答案依据信息，作为对所述问题数据进行二分类的处理结果。

根据本申请实施例的另一个方面，还提供了一种数据处理的装置，该装置包括：第一获取单元，用于获取目标帐号的问题数据，其中，所述问题数据为任一判断题的题干信息；第一得到单元，用于将所述问题数据输入第一模型内，得到答案依据信息，其中，所述答案依据信息为给出所述问题数据对应的答案信息的指导信息，所述第一模型是由第一初始模型训练得到的，所述第一初始模型用于将文本段落信息与机器阅读理解相联合，得出与问题样本数据匹配度大于或者等于第一阈值的答案依据样本信息；第二得到单元，用于将所述答案依据信息和所述问题数据输入第二模型内，得到所述答案信息，其中，所述第二模型是由第二初始模型训练得到的，所述第二初始模型用于计算所述问题样本数据与答案依据样本信息之间的相似度，依据所述相似度和第二阈值的比较结果，得出答案样本信息；第一设置单元，用于将所述答案信息和所述答案依据信息，作为对所述问题数据进行二分类的处理结果。

可选地，该装置还包括：第二获取单元，用于在所述获取目标用户的问题数据之前，获取目标文档数据，其中，所述目标文档数据内包含有对所述问题数据进行答案判断的所述文本段落信息；构建单元，用于利用所述目标文档数据，构建数据库。

可选地，构建单元包括：得到模块，用于根据预设条件对所述目标文档数据进行划分，得到多个子文本段数据；获取模块，用于获取所述子文本段数据所属的文档题目或文档子标题；构建模块，用于将所述子文本段数据和所述子文本段数据所属的文档题目、或所述子文本段数据和所述子文本段数据所属的文档子标题存储在所述数据库内，构建所述数据库。

可选地，该装置还包括：第三获取单元，用于在将所述问题数据输入第一模型内，得到答案依据信息之前，获取所述问题数据中的关键词信息；第二设置单元，用于从所述数据库内查找与所述关键词信息之间相似度大于或者等于第三阈值的所述子文本段数据，作为候选答案依据信息，其中，所述候选答案依据信息包括所述答案依据信息。

可选地，该装置还包括：第四获取单元，用于在将所述问题数据输入第一模型内，得到答案依据信息之前，获取所述问题样本数据、所述答案依据样本信息以及答案依据标识；第三得到单元，用于将所述问题样本数据、所述答案依据样本信息输入所述第一初始模型内，得到输出结果；第四得到单元，用于依据所述输出结果和所述答案依据标识，对所述第一初始模型进行模型参数的调整，得到所述第一模型。

可选地，该装置还包括：第五获取单元，用于在将所述答案依据信息和所述问题数据输入第二模型内，得到所述答案信息之前，获取所述问题样本数据、所述答案依据样本信息以及答案信息标识；第五得到单元，用于将所述问题样本数据、所述答案依据样本信息输入所述第二初始模型内，得到输出结果；第六得到单元，用于依据所述输出结果和所述答案信息标识，对所述第二初始模型进行模型参数的调整，得到所述第二模型。

可选地，该装置还包括：发送单元，用于在将所述答案信息和所述答案依据信息，作为对所述问题数据进行判断二分类的处理结果之后，向所述目标帐号所在的终端设备发送所述处理结果；展示单元，用于将所述处理结果展示在所述终端设备的客户端页面。

根据本申请实施例的又一个方面，还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器、通信接口和存储器通过通信总线完成相互间的通信；其中，存储器，用于存储计算机程序；处理器，用于通过运行所述存储器上所存储的所述计算机程序来执行上述任一实施例中的数据处理的方法步骤。

根据本申请实施例的又一个方面，还提供了一种计算机可读的存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一实施例中的数据处理的方法步骤。

本申请可以应用在深度学习技术领域进行自然语言处理，在本申请实施例中，采用自动处理判断分析题的方式，通过获取目标帐号的问题数据，其中，问题数据为任一判断题的题干信息；将问题数据输入第一模型内，得到答案依据信息，其中，答案依据信息为给出问题数据对应的答案信息的指导信息，第一模型是由第一初始模型训练得到的，第一初始模型用于将文本段落信息与机器阅读理解相联合，得出与问题样本数据匹配度大于或者等于第一阈值的答案依据信息；将答案依据信息输入第二模型内，得到答案信息，其中，第二模型是由第二初始模型训练得到的，第二初始模型用于计算问题样本数据与答案依据样本信息之间的相似度，依据相似度和第二阈值的比较结果，得出答案信息；将答案信息和答案依据信息，作为对问题数据进行二分类的处理结果。由于本申请实施例依据少量的训练样本数据对第一初始训练模型和第二初始训练模型进行模型训练，得到第一模型和第二模型，这样在获取到目标帐号相关的问题数据时，直接利用第一模型和第二模型进行段落文本的匹配和问题数据与答案依据一致性的判断，即可得到对问题数据的二分类的判断处理结果，从而人工收集数据的工作量明显减少，达到了节省人力和成本的技术效果，进而解决了相关技术中存在的人工收集判断题等信息来构建判断题库需耗费大量人力成本的问题。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的一种可选的数据处理的方法的硬件环境的示意图；

图2是根据本申请实施例的一种可选的数据处理的方法的流程示意图；

图3是根据本申请实施例的一种可选的数据处理的装置的结构框图；

图4是根据本申请实施例的一种可选的电子设备的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本申请实施例的一个方面，提供了一种数据处理的方法。可选地，在本实施例中，上述数据处理的方法可以应用于如图1所示的硬件环境中。如图1所示，终端102中可以包含有存储器104、处理器106和显示器108(可选部件)。终端102可以通过网络110与服务器112进行通信连接，该服务器112可用于为终端或终端上安装的客户端提供服务(如应用服务等)，可在服务器112上或独立于服务器112设置数据库114，用于为服务器112提供数据存储服务。此外，服务器112中可以运行有处理引擎116，该处理引擎116可以用于执行由服务器112所执行的步骤。

可选地，终端102可以但不限于为可以计算数据的终端，如移动终端(例如手机、平板电脑)、笔记本电脑、PC(Personal Computer，个人计算机)机等终端上，上述网络可以包括但不限于无线网络或有线网络。其中，该无线网络包括：蓝牙、WIFI(Wireless Fidelity，无线保真)及其他实现无线通信的网络。上述有线网络可以包括但不限于：广域网、城域网、局域网。上述服务器112可以包括但不限于任何可以进行计算的硬件设备。

此外，在本实施例中，上述数据处理的方法还可以但不限于应用于处理能力较强大的独立的处理设备中，而无需进行数据交互。例如，该处理设备可以但不限于为处理能力较强大的终端设备，即，上述数据处理的方法中的各个操作可以集成在一个独立的处理设备中。上述仅是一种示例，本实施例中对此不作任何限定。

可选地，在本实施例中，上述数据处理的方法可以由服务器112来执行，也可以由终端102来执行，还可以是由服务器112和终端102共同执行。其中，终端102执行本申请实施例的数据处理的方法也可以是由安装在其上的客户端来执行。

以运行在服务器为例，图2是根据本申请实施例的一种可选的数据处理的方法的流程示意图，如图2所示，该方法的流程可以包括以下步骤：

步骤S201，获取目标帐号的问题数据，其中，问题数据为任一判断题的题干信息。

可选地，本申请实施例中，服务器可以获取到目标帐号输入的问题数据，其中，目标帐号可以是任一固定帐号，如帐号张三，其可以对应多个使用用户。通过目标帐号输入的问题数据可以是某一判断题的题干信息，比如，问题数据是：时间的单位包含分钟吗？

步骤S202，将问题数据输入第一模型内，得到答案依据信息，其中，答案依据信息为给出问题数据对应的答案信息的指导信息，第一模型是由第一初始模型训练得到的，第一初始模型用于将文本段落信息与机器阅读理解相联合，得出与问题样本数据匹配度大于或者等于第一阈值的答案依据样本信息。

可选地，服务器将问题数据输入到第一模型内，由第一模型输出问题数据的答案依据信息，其中，答案依据信息通常是能够根据问题数据给出对应判断题答案的文本内容，比如，从一文档内容中截取出对该问题数据进行答案判断的判断依据，将该判断依据作为答案依据信息，这时，答案依据信息是在给出答案信息时，具备指导意义的信息。

第一模型是由第一初始模型训练得到的，而该第一初始模型可以是一自研的深度学习模型，其用于将文本段落信息与机器阅读理解相联合，依据输入第一初始模型的问题样本数据，输出与该问题样本数据匹配度大于或者等于第一阈值的答案依据信息。其中，第一阈值可以是一经验数值，可以设置为80％等，问题样本数据可以是人工选取的一些问题训练数据，人工选取出与这些问题样本数据相对应的答案依据样本信息，将选取好的问题样本数据和答案依据样本信息作为训练第一初始模型的训练样本。

步骤S203，将答案依据信息和问题数据输入第二模型内，得到答案信息，其中，第二模型是由第二初始模型训练得到的，第二初始模型用于计算问题样本数据与答案依据样本信息之间的相似度，依据相似度和第二阈值的比较结果，得出答案样本信息。

可选地，服务器将答案依据和问题数据输入到第二模型内，由第二模型输出答案信息，其中，答案信息是依据答案依据和问题数据之间的相似度得出的信息。由于本申请实施例的问题数据是一判断题，所以，得出的答案信息有两种情况，为“是”或“否”。

第二模型是由第二初始模型训练得到的，而该第二初始模型可以是BERT(Bidirectional Encoder Representations from Transformer，基于转换器的双向编码表征)模型，或者ESIM(Enhanced Sequential Inference Model，增强序列推断模型)等，其用于计算问题样本数据与答案依据样本信息之间的相似度，依据相似度和第二阈值的比较结果，得出答案样本信息，若相似度大于或者等于第二阈值，则输出的答案信息为“是”，否则输出“否”。其中，第二阈值可以是一经验数值，可以设置为90％等，问题样本数据可以是人工选取的一些问题训练数据，人工选取出与这些问题样本数据相对应的答案依据样本信息，将选取好的问题样本数据和答案依据样本信息作为训练第二初始模型的训练样本。

步骤S204，将答案信息和答案依据信息，作为对问题数据进行二分类的处理结果。

可选地，将得到的答案信息和答案依据信息作为输出结果，这样输出的处理结果就包括“是”或“否”，以及表征“是”或“否”的文本段落。

在本申请实施例中，采用自动处理判断分析题的方式，通过获取目标帐号的问题数据，其中，问题数据为任一判断题的题干信息；将问题数据输入第一模型内，得到答案依据信息，其中，答案依据信息为给出问题数据对应的答案信息的指导信息，第一模型是由第一初始模型训练得到的，第一初始模型用于将文本段落信息与机器阅读理解相联合，得出与问题样本数据匹配度大于或者等于第一阈值的答案依据信息；将答案依据信息输入第二模型内，得到答案信息，其中，第二模型是由第二初始模型训练得到的，第二初始模型用于计算问题样本数据与答案依据样本信息之间的相似度，依据相似度和第二阈值的比较结果，得出答案信息；将答案信息和答案依据信息，作为对问题数据进行二分类的处理结果。由于本申请实施例依据少量的训练样本数据对第一初始训练模型和第二初始训练模型进行模型训练，得到第一模型和第二模型，这样在获取到目标帐号相关的问题数据时，直接利用第一模型和第二模型进行段落文本的匹配和问题数据与答案依据一致性的判断，即可得到对问题数据的二分类的判断处理结果，从而人工收集数据的工作量明显减少，达到了节省人力和成本的技术效果，进而解决了相关技术中存在的人工收集判断题等信息来构建判断题库需耗费大量人力成本的问题。

作为一种可选实施例，在获取目标用户的问题数据之前，方法还包括：

获取目标文档数据，其中，目标文档数据内包含有对问题数据进行答案判断的文本段落信息；

利用目标文档数据，构建数据库。

可选地，本申请实施例首先进行数据库的建立，这时，服务器会获取到目标文档数据，其中，该目标文档数据内需要包含对问题数据进行答案判断的文本段落，当然，也可以包含除了解答问题数据之外的段落信息，可以理解的是，该目标文档数据应该涵盖到所有关于各个问题数据的答案依据段落信息。

然后依据该目标文档数据，建立出一个数据库，通过该数据库即可匹配出与问题数据相似的答案依据信息。

本申请实施例建立的数据库涵盖问题数据所涉及的所有知识面，不会出现相关技术中倘若询问的判断题与人工收集的判断题完全不同，此时会出现无法回答或者回答错误的情况，具有良好的泛化能力。

作为一种可选实施例，利用目标文档数据，构建数据库包括：

根据预设条件对目标文档数据进行划分，得到多个子文本段数据；

获取子文本段数据所属的文档题目或文档子标题；

将子文本段数据和子文本段数据所属的文档题目、或子文本段数据和子文本段数据所属的文档子标题存储在数据库内，构建数据库。

可选地，本申请实施例中，可以以段落或句子为划分目标文档数据的预设条件，依据该预设条件，得到多个子文本段数据。由于目标文档数据内包含文档题目或文档子标题，这样在获取到多个子文本段数据后，可以找到各个子文本段数据所属的文档题目或文档子标题，然后将子文本段数据和子文本段数据所属的文档题目，或子文本段数据和子文本段数据所属的文档子标题存储在数据库内，构建数据库。

在本申请实施例中，通过对目标文档数据进行段落或句子的划分，得到多各子文本段数据，这样便于根据问题数据定位到判断问题答案的答案依据段落文本，进而能够快速寻找答案依据，完成对问题数据的判别。

作为一种可选实施例，在将问题数据输入第一模型内，得到答案依据信息之前，方法还包括：

获取问题数据中的关键词信息；

从数据库内查找与关键词信息之间相似度大于或者等于第三阈值的子文本段数据，作为候选答案依据信息，其中，候选答案依据信息包括答案依据信息。

可选地，本申请实施例可以先从目标文档数据的多个子文本段数据中找到候选子段落文本数据(即候选答案依据信息)。其中，获取到候选答案依据信息的方式为：获取问题数据中的关键词信息，比如关键词“AA”，关键句子“时间单位包括”等，然后从构建好的数据库中查找与该关键词信息之间相似度大于或者等于第三阈值的子文本段数据，将该子文本段数据作为候选答案依据信息，这样第一模型在从数据库中查找与问题数据相关的子段落信息时，只需要从候选答案依据信息中查找与问题数据更接近的答案依据即可，这样节省了大量遍历数据库中多个子文本段数据的时间。

其中，第三阈值也是一经验数值，可以设置为70％等。

获取问题样本数据、答案依据样本信息以及答案依据标识；

将问题样本数据、答案依据样本信息输入第一初始模型内，得到输出结果；

依据输出结果和答案依据标识，对第一初始模型进行模型参数的调整，得到第一模型。

可选地，可以人工从上述实施例的数据库或者别的试题库中获取一些样本数据，如问题样本数据、答案依据样本信息，同时，对答案依据样本信息进行标识，得到答案依据标识。然后将问题样本数据、答案依据样本信息输入第一初始模型内，得到输出结果，根据输出结果，与事先标记好的答案依据标识进行比较，进而调整第一初始模型的模型参数，直到得出的输出结果与答案依据标识相同或误差低于一数值(如0.1)，进而得到训练好的第一模型。

作为一种可选实施例，在将答案依据信息和问题数据输入第二模型内，得到答案信息之前，方法还包括：

获取问题样本数据、答案依据样本信息以及答案信息标识；

将问题样本数据、答案依据样本信息输入第二初始模型内，得到输出结果；

依据输出结果和答案信息标识，对第二初始模型进行模型参数的调整，得到第二模型。

可选地，可以人工从上述实施例的数据库或者别的试题库中获取一些样本数据，如问题样本数据、答案依据样本信息，同时，将问题样本数据对应的已知答案信息进行标识，得到答案信息标识。然后将问题样本数据、答案依据样本信息输入第二初始模型内，得到输出结果，根据输出结果，与事先标记好的答案信息标识进行比较，进而调整第二初始模型的模型参数，直到得出的输出结果与答案信息标识相同，进而得到训练好的第二模型。

其中，第二初始模型是将问题样本数据与答案依据样本信息进行相似度的比较，在问题样本数据与答案依据样本信息相似度非常高，比如大于或者等于第二阈值90％时，才输出数值1，其中，1对应的答案信息为“是”。举例，问题样本数据为：时间的单位包括分钟吗？答案依据样本信息：时间的单位包括分钟。二者相似度达到90％，所以第二初始模型输出的数值为1。

可以理解的是，第二模型或第二初始模型输出的结果只有0或1，其中，0对应的答案信息为“否”，1对应的答案信息为“是”，而这些结果与输入的数据之间的相似度密切相关。

作为一种可选实施例，在将答案信息和答案依据信息，作为对问题数据进行判断二分类的处理结果之后，方法还包括：

向目标帐号所在的终端设备发送处理结果；

将处理结果展示在终端设备的客户端页面。

可选地，在获取到处理结果后，将处理结果发送到目标帐号所在的用户终端设备处，然后终端设备可以将该处理结果展示在客户端页面。其中，处理结果包含目标帐号输入的问题信息所对应的答案信息以及答案依据信息。客户端页面可以是展示问题数据的页面，在问题数据旁边或下面显示出该处理结果。

在本申请实施例中，通过在客户端展示出处理结果，便于用户及时查看问题数据的答案，同时依据该处理结果可以快速理解答案解析。

作为一种可选实施例，本申请实施例提出的判断分析题处理算法主要步骤包括：数据准备、候选答案依据获取、答案依据筛选、问题与答案依据一致性判别、给出问题答案信息。具体步骤如下：

步骤1(数据准备)：以段落或句子为单位将文档进行切分得到许多文本段，然后结合文档题目、文档小标题等信息存入数据库中；

步骤2(候选答案依据获取)：根据数据问题中的关键信息，从数据库中检索与之内容相似的文本段落。

步骤3(答案依据筛选)：使用第一模型从候选答案依据中筛选出与问题最接近的答案依据。

步骤4(问题与答案依据一致性判别)：将问题与答案依据一致性判别问题看作是文本相似度匹配或分类问题，若问题与步骤3得到的答案依据相似度非常高，则认为输入问题是正确的(该问题的答案为“是”)，反之答案为“否”。其中，使用第二模型来计算问题与答案依据的相似度。

步骤5(给出问题答案信息)：将步骤4判别的答案信息(“是”或“否”)以及步骤3的答案依据作为输出问题的处理结果。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM(Read-Only Memory，只读存储器)/RAM(Random Access Memory，随机存取存储器)、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例的方法。

根据本申请实施例的另一个方面，还提供了一种用于实施上述数据处理的方法的数据处理的装置。图3是根据本申请实施例的一种可选的数据处理的装置的结构框图，如图3所示，该装置可以包括：

第一获取单元301，用于获取目标帐号的问题数据，其中，问题数据为任一判断题的题干信息；

第一得到单元302，用于将问题数据输入第一模型内，得到答案依据信息，其中，答案依据信息为给出问题数据对应的答案信息的指导信息，第一模型是由第一初始模型训练得到的，第一初始模型用于将文本段落信息与机器阅读理解相联合，得出与问题样本数据匹配度大于或者等于第一阈值的答案依据样本信息；

第二得到单元303，用于将答案依据信息和问题数据输入第二模型内，得到答案信息，其中，第二模型是由第二初始模型训练得到的，第二初始模型用于计算问题样本数据与答案依据样本信息之间的相似度，依据相似度和第二阈值的比较结果，得出答案样本信息；

设置单元304，用于将答案信息和答案依据信息，作为对问题数据进行二分类的处理结果。

需要说明的是，该实施例中的第一获取单元301可以用于执行上述步骤S201，该实施例中的第一得到单元302可以用于执行上述步骤S202，该实施例中的第二得到单元303可以用于执行上述步骤S203，该实施例中的设置单元304可以用于执行上述步骤S204。

通过上述模块，本申请实施例依据少量的训练样本数据对第一初始训练模型和第二初始训练模型进行模型训练，得到第一模型和第二模型，这样在获取到目标帐号相关的问题数据时，直接利用第一模型和第二模型进行段落文本的匹配和问题数据与答案依据一致性的判断，即可得到对问题数据的二分类的判断处理结果，从而人工收集数据的工作量明显减少，达到了节省人力和成本的技术效果，进而解决了相关技术中存在的人工收集判断题等信息来构建判断题库需耗费大量人力成本的问题。

作为一种可选的实施例，该装置还包括：第二获取单元，用于在获取目标用户的问题数据之前，获取目标文档数据，其中，目标文档数据内包含有对问题数据进行答案判断的文本段落信息；构建单元，用于利用目标文档数据，构建数据库。

作为一种可选的实施例，构建单元包括：得到模块，用于根据预设条件对目标文档数据进行划分，得到多个子文本段数据；获取模块，用于获取子文本段数据所属的文档题目或文档子标题；构建模块，用于将子文本段数据和子文本段数据所属的文档题目、或子文本段数据和子文本段数据所属的文档子标题存储在数据库内，构建数据库。

作为一种可选的实施例，该装置还包括：第三获取单元，用于在将问题数据输入第一模型内，得到答案依据信息之前，获取问题数据中的关键词信息；第二设置单元，用于从数据库内查找与关键词信息之间相似度大于或者等于第三阈值的子文本段数据，作为候选答案依据信息，其中，候选答案依据信息包括答案依据信息。

作为一种可选的实施例，该装置还包括：第四获取单元，用于在将问题数据输入第一模型内，得到答案依据信息之前，获取问题样本数据、答案依据样本信息以及答案依据标识；第三得到单元，用于将问题样本数据、答案依据样本信息输入第一初始模型内，得到输出结果；第四得到单元，用于依据输出结果和答案依据标识，对第一初始模型进行模型参数的调整，得到第一模型。

作为一种可选的实施例，该装置还包括：第五获取单元，用于在将答案依据信息和问题数据输入第二模型内，得到答案信息之前，获取问题样本数据、答案依据样本信息以及答案信息标识；第五得到单元，用于将问题样本数据、答案依据样本信息输入第二初始模型内，得到输出结果；第六得到单元，用于依据输出结果和答案信息标识，对第二初始模型进行模型参数的调整，得到第二模型。

作为一种可选的实施例，该装置还包括：发送单元，用于在将答案信息和答案依据信息，作为对问题数据进行判断二分类的处理结果之后，向目标帐号所在的终端设备发送处理结果；展示单元，用于将处理结果展示在终端设备的客户端页面。

此处需要说明的是，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在如图1所示的硬件环境中，可以通过软件实现，也可以通过硬件实现，其中，硬件环境包括网络环境。

根据本申请实施例的又一个方面，还提供了一种用于实施上述数据处理的方法的电子设备，该电子设备可以是服务器、终端、或者其组合。

图4是根据本申请实施例的一种可选的电子设备的结构框图，如图4所示，包括处理器401、通信接口402、存储器403和通信总线404，其中，处理器401、通信接口402和存储器403通过通信总线404完成相互间的通信，其中，

存储器403，用于存储计算机程序；

处理器401，用于执行存储器403上所存放的计算机程序时，实现如下步骤：

S1，获取目标帐号的问题数据，其中，问题数据为任一判断题的题干信息；

S2，将问题数据输入第一模型内，得到答案依据信息，其中，答案依据信息为给出问题数据对应的答案信息的指导信息，第一模型是由第一初始模型训练得到的，第一初始模型用于将文本段落信息与机器阅读理解相联合，得出与问题样本数据匹配度大于或者等于第一阈值的答案依据样本信息；

S3，将答案依据信息和问题数据输入第二模型内，得到答案信息，其中，第二模型是由第二初始模型训练得到的，第二初始模型用于计算问题样本数据与答案依据样本信息之间的相似度，依据相似度和第二阈值的比较结果，得出答案样本信息；

S4，将答案信息和答案依据信息，作为对问题数据进行二分类的处理结果。

可选地，在本实施例中，上述的通信总线可以是PCI(Peripheral ComponentInterconnect，外设部件互连标准)总线、或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括RAM，也可以包括非易失性存储器(non-volatile memory)，例如，至少一个磁盘存储器。可选地，存储器还可以是至少一个位于远离前述处理器的存储装置。

作为一种示例，如图4所示，上述存储器403中可以但不限于包括上述数据处理的装置中的第一获取单元301、第一得到单元302、第二得到单元303、设置单元304。此外，还可以包括但不限于上述数据处理的装置中的其他模块单元，本示例中不再赘述。

上述处理器可以是通用处理器，可以包含但不限于：CPU(Central ProcessingUnit，中央处理器)、NP(Network Processor，网络处理器)等；还可以是DSP(DigitalSignal Processing，数字信号处理器)、ASIC(Application Specific IntegratedCircuit，专用集成电路)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

此外，上述电子设备还包括：显示器，用于显示数据处理的结果。

可选地，本实施例中的具体示例可以参考上述实施例中所描述的示例，本实施例在此不再赘述。

本领域普通技术人员可以理解，图4所示的结构仅为示意，实施上述数据处理的方法的设备可以是终端设备，该终端设备可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图4其并不对上述电子设备的结构造成限定。例如，终端设备还可包括比图4中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图4所示的不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、ROM、RAM、磁盘或光盘等。

根据本申请实施例的又一个方面，还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于执行数据处理的方法的程序代码。

可选地，在本实施例中，上述存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：

可选地，本实施例中的具体示例可以参考上述实施例中所描述的示例，本实施例中对此不再赘述。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、ROM、RAM、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

根据本申请实施例的又一个方面，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中；计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述任一个实施例中的数据处理的方法步骤。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例数据处理的方法的全部或部分步骤。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例中所提供的方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种数据处理的方法，其特征在于，所述方法包括：

获取目标帐号的问题数据，其中，所述问题数据为任一判断题的题干信息；

将所述问题数据输入第一模型内，得到答案依据信息，其中，所述答案依据信息为给出所述问题数据对应的答案信息的指导信息，所述第一模型是由第一初始模型训练得到的，所述第一初始模型用于将文本段落信息与机器阅读理解相联合，得出与问题样本数据匹配度大于或者等于第一阈值的答案依据样本信息；

将所述答案依据信息和所述问题数据输入第二模型内，得到所述答案信息，其中，所述第二模型是由第二初始模型训练得到的，所述第二初始模型用于计算所述问题样本数据与所述答案依据样本信息之间的相似度，依据所述相似度和第二阈值的比较结果，得出答案样本信息；

将所述答案信息和所述答案依据信息，作为对所述问题数据进行二分类的处理结果。

2.根据权利要求1所述的方法，其特征在于，在所述获取目标用户的问题数据之前，所述方法还包括：

获取目标文档数据，其中，所述目标文档数据内包含有对所述问题数据进行答案判断的所述文本段落信息；

利用所述目标文档数据，构建数据库。

3.根据权利要求2所述的方法，其特征在于，所述利用所述目标文档数据，构建数据库包括：

根据预设条件对所述目标文档数据进行划分，得到多个子文本段数据；

获取所述子文本段数据所属的文档题目或文档子标题；

将所述子文本段数据和所述子文本段数据所属的文档题目、或所述子文本段数据和所述子文本段数据所属的文档子标题存储在所述数据库内，构建所述数据库。

4.根据权利要求3所述的方法，其特征在于，在所述将所述问题数据输入第一模型内，得到答案依据信息之前，所述方法还包括：

获取所述问题数据中的关键词信息；

从所述数据库内查找与所述关键词信息之间相似度大于或者等于第三阈值的所述子文本段数据，作为候选答案依据信息，其中，所述候选答案依据信息包括所述答案依据信息。

5.根据权利要求4所述的方法，其特征在于，在所述将所述问题数据输入第一模型内，得到答案依据信息之前，所述方法还包括：

获取所述问题样本数据、所述答案依据样本信息以及答案依据标识；

将所述问题样本数据、所述答案依据样本信息输入所述第一初始模型内，得到输出结果；

依据所述输出结果和所述答案依据标识，对所述第一初始模型进行模型参数的调整，得到所述第一模型。

6.根据权利要求5所述的方法，其特征在于，在所述将所述答案依据信息和所述问题数据输入第二模型内，得到所述答案信息之前，所述方法还包括：

获取所述问题样本数据、所述答案依据样本信息以及答案信息标识；

将所述问题样本数据、所述答案依据样本信息输入所述第二初始模型内，得到输出结果；

依据所述输出结果和所述答案信息标识，对所述第二初始模型进行模型参数的调整，得到所述第二模型。

7.根据权利要求1至6任一项所述的方法，其特征在于，在所述将所述答案信息和所述答案依据信息，作为对所述问题数据进行判断二分类的处理结果之后，所述方法还包括：

向所述目标帐号所在的终端设备发送所述处理结果；

将所述处理结果展示在所述终端设备的客户端页面。

8.一种数据处理的装置，其特征在于，所述装置包括：

第一获取单元，用于获取目标帐号的问题数据，其中，所述问题数据为任一判断题的题干信息；

第一得到单元，用于将所述问题数据输入第一模型内，得到答案依据信息，其中，所述答案依据信息为给出所述问题数据对应的答案信息的指导信息，所述第一模型是由第一初始模型训练得到的，所述第一初始模型用于将文本段落信息与机器阅读理解相联合，得出与问题样本数据匹配度大于或者等于第一阈值的答案依据样本信息；

第二得到单元，用于将所述答案依据信息和所述问题数据输入第二模型内，得到所述答案信息，其中，所述第二模型是由第二初始模型训练得到的，所述第二初始模型用于计算所述问题样本数据与答案依据样本信息之间的相似度，依据所述相似度和第二阈值的比较结果，得出答案样本信息；

设置单元，用于将所述答案信息和所述答案依据信息，作为对所述问题数据进行二分类的处理结果。

9.一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，所述处理器、所述通信接口和所述存储器通过所述通信总线完成相互间的通信，其特征在于，

所述存储器，用于存储计算机程序；

所述处理器，用于通过运行所述存储器上所存储的所述计算机程序来执行权利要求1至7中任一项所述的数据处理的方法步骤。

10.一种计算机可读的存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行权利要求1至7中任一项中所述的数据处理的方法步骤。