CN112015903B

CN112015903B - 题目判重方法、装置、存储介质、计算机设备

Info

Publication number: CN112015903B
Application number: CN202011138019.4A
Authority: CN
Inventors: 陈科第; 庞磊; 葛莉; 江琳; 郭志伟; 张铨; 王耿鑫; 熊智
Original assignee: Guangzhou Huaduo Network Technology Co Ltd
Current assignee: Guangzhou Huaduo Network Technology Co Ltd
Priority date: 2020-10-22
Filing date: 2020-10-22
Publication date: 2021-01-22
Anticipated expiration: 2040-10-22
Also published as: CN112015903A

Abstract

本发明提供的一种题目判重方法、装置、存储介质、计算机设备，在题库录入第一题目之前，将第一题目与题库中多个第二题目组成的候选集之间进行比对，确定候选集中与第一题目重复的第二题目集合，以便直观了解当前题库中重复题目的概率和数量，避免题库达到一定量级后，继续大量录入已有题目，从而显著提升录题效率，有效降低录题成本和题目检索难度；并且，本申请使用的判重模型，不仅能够对题目文本进行特征捕捉，还能够对文本中的公式进行特征捕捉，并对捕捉结果组合后进行分类，从而提高模型预测准确度，并根据第二题目集合优先补充重复概率较低的题，更有效地提升题库的题目覆盖面，保证题库中题目的多样性。

Description

题目判重方法、装置、存储介质、计算机设备

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种题目判重方法、装置、存储介质、计算机设备。

背景技术

目前，市面上出现了越来越多的拍照搜题类产品，该类产品的核心竞争力主要在于其题库中所含题目的广度，广度越大，表示题库中包含的题目数量越多，用户搜到原题的概率越大，有利于提升用户体验，增加用户粘性。

现有技术中，为了扩大题库中所含题目的广度，会对题库进行快速扩增，在扩增题库的过程中，由于理科与数学题目中存在大量的latex形式公式，与常规的自然语言有别，导致题库中出现多个重复题，该重复题不仅包括题干部分文本与公式完全一致的题，还包括应用类题目中的实体替换，比如人名，地名等换为其他场景，但题目主干意义不变；题目题干的描述发生语序颠倒，或者同义数学名词替换，或者二者兼有的情况；以及，两个题目中代表题意的公式存在同义不同形的可等价推导特性等。

当出现上述形式的重复题时，由于现有的题目判重方式无法精确识别出该类重复题，导致题库题量迅速增长，增加检索的难度，以及索引系统的负担，却不能带来真实命中率的增长；并且，重复题目的出现会导致题库中题目的多样性不佳，其他相似题目得不到曝光；另外，题库量扩增到一定程度后，再扩增的题目方向变得不明确，如果继续盲目扩张，会录入题库中已存在的题目类型，导致录入成本陡增。

发明内容

本发明的目的旨在至少能解决上述的技术缺陷之一，特别是现有技术中对题目进行判重时，无法精确识别出存在大量latex形式公式的理科与数学类重复题目，导致题库中题目的检索难度增加、题目多样性不佳以及增加题目录入成本的技术缺陷。

本发明实施例提供了一种题目判重方法，所述方法包括：

获取待录入题库的第一题目，以及所述题库中的多个第二题目，确定所述第一题目和所述第二题目中是否包含公式；

若是，则对所述第一题目和所述第二题目进行公式提取，并对公式提取前的第一题目、第二题目以及提取的公式进行数据转换，得到与所述第一题目和第二题目对应的第一输入数据，以及与所述公式对应的第二输入数据；

将所述第一输入数据和所述第二输入数据输入至预先训练好的判重模型中；其中，所述判重模型为双分支组合架构，利用所述题库中已有的题目对所述判重模型的两个分支进行无监督预训练，并将无监督预训练后的模型进行组合分类后，通过监督训练得到最终的判重模型；

利用所述判重模型的两个分支分别对所述第一输入数据和所述第二输入数据进行特征捕捉，并将捕捉结果组合后进行分类，得到与所述第一题目重复的第二题目集合。

可选地，所述对所述第一题目和所述第二题目进行公式提取的步骤之前，还包括：

对所述第一题目和所述第二题目进行预处理；

其中，所述预处理包括对所述第一题目和所述第二题目中的公式的头部和尾部分别添加起始标识和结束标识。

可选地，所述对公式提取前的第一题目、第二题目以及提取的公式进行数据转换，得到与所述第一题目和第二题目对应的第一输入数据，以及与所述公式对应的第二输入数据的步骤，包括：

将所述第一题目分别与各个第二题目进行字符串连接操作，得到与所述第一题目和各个第二题目对应的多个第一输入数据；

将所述第一题目中提取的公式分别与各个第二题目中提取的公式进行字符串连接操作，得到与所述公式对应的多个第二输入数据。

可选地，所述利用所述题库中已有的题目对所述判重模型的两个分支进行无监督预训练的步骤，包括：

获取所述题库中已有的题目，并对所述题目进行预处理后得到第一预训练语料，将所述第一预训练语料输入至其中一个分支对应的第一模型中进行无监督预训练，得到训练后的第一模型；

同时，将所述题目中的公式提取并分词后得到第二预训练语料，将所述第二预训练语料输入至另一个分支对应的第二模型中进行无监督预训练，得到训练后的第二模型。

可选地，所述将无监督预训练后的模型进行组合分类后，通过监督训练得到最终的判重模型的步骤，包括：

将所述训练后的第一模型和所述训练后的第二模型进行组合分类，得到判重模型；

在所述题库中随机抽取预设数量的待训练题目，并将所述待训练题目进行人工标注后，得到所述判重模型的训练集；

对所述训练集中的各个题目进行公式提取，并对公式提取前的题目以及提取的公式进行数据转换，得到训练数据；

利用所述训练数据对所述判重模型进行监督训练后得到最终的判重模型。

可选地，所述利用所述判重模型的两个分支分别对所述第一输入数据和所述第二输入数据进行特征捕捉的步骤，包括：

通过所述判重模型的其中一个分支对所述第一输入数据进行整体上下文的特征捕捉，得到第一捕捉结果；

通过所述判重模型的另一个分支对所述第二输入数据进行公式特征捕捉，得到第二捕捉结果。

可选地，所述第一捕捉结果包括第一高维向量，所述第二捕捉结果包括第二高维向量；

所述将捕捉结果组合后进行分类，得到所述候选集中与所述第一题目重复的第二题目集合的步骤，包括：

将所述第一高维向量和所述第二高维向量进行向量连接，得到第三高维向量；

基于损失函数对所述第三高维向量进行分类，得到所述候选集中与所述第一题目重复的第二题目集合。

本发明实施例还提供了一种题目判重装置，包括：

题目获取模块，用于获取待录入题库的第一题目，以及所述题库中的多个第二题目，确定所述第一题目和所述第二题目中是否包含公式；

数据处理模块，用于若是，则对所述第一题目和所述第二题目进行公式提取，并对公式提取前的第一题目、第二题目以及提取的公式进行数据转换，得到与所述第一题目和第二题目对应的第一输入数据，以及与所述公式对应的第二输入数据；

数据输入模块，用于将所述第一输入数据和所述第二输入数据输入至预先训练好的判重模型中；其中，所述判重模型为双分支组合架构，利用所述题库中已有的题目对所述判重模型的两个分支进行无监督预训练，并将无监督预训练后的模型进行组合分类后，通过监督训练得到最终的判重模型；

题目判重模块，用于利用所述判重模型的两个分支分别对所述第一输入数据和所述第二输入数据进行特征捕捉，并将捕捉结果组合后进行分类，得到与所述第一题目重复的第二题目集合。

本发明实施例还提供了一种存储介质，所述存储介质中存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如上述实施例中任一项所述题目判重方法的步骤。

本发明实施例还提供了一种计算机设备，所述计算机设备中存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如上述实施例中任一项所述题目判重方法的步骤。

从以上技术方案可以看出，本发明实施例具有以下优点：

本发明提供的题目判重方法、装置、存储介质、计算机设备，包括：获取待录入题库的第一题目，以及所述题库中的多个第二题目，确定所述第一题目和所述第二题目中是否包含公式；若是，则对所述第一题目和所述第二题目进行公式提取，并对公式提取前的第一题目、第二题目以及提取的公式进行数据转换，得到与所述第一题目和第二题目对应的第一输入数据，以及与所述公式对应的第二输入数据；将所述第一输入数据和所述第二输入数据输入至预先训练好的判重模型中；其中，所述判重模型为双分支组合架构，利用所述题库中已有的题目对所述判重模型的两个分支进行无监督预训练，并将无监督预训练后的模型进行组合分类后，通过监督训练得到最终的判重模型；利用所述判重模型的两个分支分别对所述第一输入数据和所述第二输入数据进行特征捕捉，并将捕捉结果组合后进行分类，得到与所述第一题目重复的第二题目集合。

本发明在题库录入第一题目之前，将第一题目与题库中多个第二题目组成的候选集之间进行比对，确定候选集中与第一题目重复的第二题目集合，以便直观了解当前题库中重复题目的概率和数量，避免题库达到一定量级后，继续大量录入已有题目，从而显著提升录题效率，有效降低录题成本和题目检索难度；并且，本申请使用的判重模型，不仅能够对题目文本进行特征捕捉，还能够对文本中的公式进行特征捕捉，并对捕捉结果组合后进行分类，最终得到的第二题目集合，不但能够准确捕捉与第一题目重复的所有第二题目，还可以根据第二题目集合优先补充重复概率较低的题，从而更有效地提升题库的题目覆盖面，保证题库中题目的多样性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的应用环境示意图；

图2为本发明实施例提供的一种题目判重方法的流程示意图；

图3为本发明实施例提供的判重模型结构示意图；

图4为本发明实施例提供的一种题目判重装置的结构示意图；

图5为本发明实施例提供的一种计算机设备的内部结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语（包括技术术语和科学术语），具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像本申请实施例中一样被特定定义，否则不会用理想化或过于正式的含义来解释。

因此，本申请提出下述实施方式，以解决现有技术中对题目进行判重时，无法精确识别出存在大量latex形式公式的理科与数学类重复题目，导致题库中题目的检索难度增加、题目多样性不佳以及增加题目录入成本的技术问题。

参考图1所示，图1是本发明实施例提供的应用环境示意图；本申请的技术方案可以基于服务器上实现，如图1中，线上服务器102获取待录入题库的第一题目，以及题库中的多个第二题目后，可对第一题目和第二题目进行数据转换，以便将转换后的数据输入至判重模型中，以实现相关功能；在本申请实施例中，线上服务器102中部署有预先训练好的判重模型，当线上服务器102获取终端设备101输入的待录入题库的第一题目，以及题库中的多个第二题目后，对第一题目和第二题目以及从第一题目和第二题目中提取的公式进行数据转换，可得到第一输入数据和第二输入数据，该第一输入数据表示输入的题目文本，该第二输入数据表示文本中提取的公式，然后将第一输入数据和第二输入数据分别输入至判重模型中，通过判重模型对候选集中与第一题目重复的第二题目的重复概率进行预测，线上服务器102可将预测的与第一题目重复的第二题目集合返回至终端设备101，以便终端设备101用户查看，从而实现题目判重的功能。

需要说明的是，这里的终端设备101包括智能手机、平板电脑、电子阅读器、台式电脑或笔记本电脑等，对此并不做限定；本实施例中的终端设备101中下载有具有搜题功能的产品，该产品可以是拍照搜题的教育方向矩阵产品，如Quesgo。

这里的服务器指的是为终端设备提供线上服务的线上服务器102，可以用独立服务器或多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，图2为本发明实施例提供的一种题目判重方法的流程示意图，本实施例中提出了一种题目判重方法，具体包括如下步骤：

S110：获取待录入题库的第一题目，以及所述题库中的多个第二题目，确定所述第一题目和所述第二题目中是否包含公式。

本申请中，当需要对题库中的题目进行更新时，用户可将待录入至题库的题目与题库中已有的题目之间做查重比对，以确定是否录入该题目，避免题库中存在过多类似题目，导致题库中题量增多的同时题目多样性降低，使用者搜题时检索难度加大，用户体验感降低。

因此，本步骤中，在对题库中的题目进行补充更新之前，可先获取待录入题库的题目，以便检索重复率。该检索过程可以在服务器中实现，如线上服务器102。当线上服务器102响应用户对待录入至题库的题目进行判重请求时，需要先获取待录入至题库的第一题目，并获取题库中的多个第二题目；其中，题库中的多个第二题目组成候选集，与第一题目一并作为输入。

进一步地，在将第一题目与第二题目输入至线上服务器102进行重复率预测之前，还需要确定第一题目和第二题目中是否包含有公式，若包含，则采取一定的技术手段将公式提取出来，以作公式特征捕捉，若不包含，则直接进行题目整体的上下文特征捕捉。

可以理解的是，由于题库中题目的多样性，其中包含有语文、数学、英语、生物、化学、物理等，若直接对第一题目以及第二题目进行上下文特征捕捉，会难以捕捉到一些代表题意的公式中存在同义不同形的可等价推导特性，以及其他带有公式的题目，这样会导致题库中题目的重复率预测准确度降低。因此，本步骤中，在对第一题目以及第二题目进行判重前，需要先确定第一题目以及第二题目中是否包含公式。

更进一步地，上述第一题目的获取过程可通过多种方式实现，例如，当第一题目为文本类型时，可直接输入该题目对应的文本；当第一题目为图片形式时，可先经过OCR识别后转化为文本形式输入，其他可实现本申请中第一题目的获取过程均为本申请的保护范围，在此不做限制。

另外，这里的候选集指的是题库中与第一题目存在重复可能性的多个第二题目的集合；对于第二题目的选取，可以是当前题库中所有的题目，也可以是通过对题库中已有的题目进行检索等方式召回获得的候选集，在此不做限制。

S120：若是，则对所述第一题目和所述第二题目进行公式提取，并对公式提取前的第一题目、第二题目以及提取的公式进行数据转换，得到与所述第一题目和第二题目对应的第一输入数据，以及与所述公式对应的第二输入数据。

本步骤中，当通过步骤S110获取待录入至题库的第一题目，以及题库中的多个第二题目后，需要对第一题目、多个第二题目，以及第一题目与第二题目中带有公式的部分进行相应的处理，以便输入至对应的模型中。

具体地，在确定第一题目和第二题目中是否包含公式之后，进一步地，若第一题目和第二题目中包含有公式的话，可在第一题目、第二题目输入至相应的模型之前，先将第一题目和第二题目中的公式提取出来，然后对提取的公式进行数据转换，得到第二输入数据，第一输入数据由公式提取前的第一题目以及第二题目进行数据转换后得到。

举例来说，当输入的第一题目为带有公式的数学题目时，题库中的第二题目包括但不限定于与第一题目中题干部分类似或属于同一类型的题目、与第一题目中的公式同义不同形的可等价推导的题目，以及与第一题目的题干、公式部分属于不同类型的题目。

因此，若第一题目为带有公式的题目，可对第一题目中的公式提取出来，并将第二题目中带公式的题目的公式提取出来，以便对纯公式部分进行单独的数据转换。

若第一题目中不带有公式，而从题库中召回的第二题目中有带公式的题目，则直接将第一题目与第二题目的整体上下文数据转换，无需提取第二题目中的公式。

当然，这里的公式提取过程可以通过正则表达式进行提取，也可以通过其他能够实现公式提取的方式进行提取，在此不做限制。

进一步地，将第一题目和第二题目中包含有公式的部分提取并做数据转换的同时，可将公式提取前的第一题目、第二题目进行数据转换，以得到第一输入数据。

具体地，对第一题目、第二题目以及提取的公式进行数据转换的过程包括但不限于将第一题目与各个第二题目分别进行字符串连接操作，以及将第一题目中提取的公式与各个第二题目中提取的公式进行字符串连接操作。

例如，若第一输入数据输入的模型为bert模型时，由于bert模型的输入为线性序列，因此，需要将第一题目与各个第二题目分别连接为一个字符串的形式进行输入，对于公式部分亦做同样的处理。

S130：将所述第一输入数据和所述第二输入数据输入至预先训练好的判重模型中；其中，所述判重模型为双分支组合架构，利用所述题库中已有的题目对所述判重模型的两个分支进行无监督预训练，并将无监督预训练后的模型进行组合分类后，通过监督训练得到最终的判重模型。

本步骤中，当第一题目、第二题目以及提取的公式均做相应的处理后，得到第一输入数据以及第二输入数据，该第一输入数据对应于第一题目与第二题目中的所有文本内容，第二输入数据对应于提取的公式。当获取到第一输入数据以及第二输入数据后，可将两者分别输入至预先训练好的判重模型中，以对第二题目中与第一题目重复的题目进行预测。

进一步地，这里的判重模型为判断题目重复率的双分支组合架构，该双分支组合架构可利用题库中已有的题目先对两个分支进行无监督预训练，然后再将无监督预训练后的模型进行组合并分类，通过监督训练得到最终的判重模型。

其中，无监督预训练指的是输入数据没有被标记，也没有确定的结果，样本数据类别未知，需要根据样本间的相似性对样本集进行分类（聚类，clustering），试图使类内差距最小化，类间差距最大化；监督训练指的是从给定的训练数据集中学习出一个函数（模型参数），当新的数据到来时，可以根据这个函数预测结果。

因此，在得到判重模型之前，需要通过题库中已有的题目对初建的模型中的两个分支进行无监督预训练，使得其中一个分支实现对题目的整体上下文进行特征捕捉，另一个分支实现对题目中提取的公式部分进行特征捕捉。

当通过无监督预训练后，需要将训练后的两个分支进行组合并添加分类层得到初建的判重模型，然后再重新获取题库中的题目对判重模型进行监督训练，且由于监督训练的训练集要求包括输入输出，也可以说是特征和目标。因此，可通过人工标注训练集中的目标，并通过已有的训练样本去训练得到一个最优模型，该最优模型表示某个评价准则下的最佳模型，即最终的判重模型，该判重模型可实现对未知数据分类的能力，即区分出输入的第二题目中与第一题目重复的题目集合。

S140：利用所述判重模型的两个分支分别对所述第一输入数据和所述第二输入数据进行特征捕捉，并将捕捉结果组合后进行分类，得到与所述第一题目重复的第二题目集合。

本步骤中，当通过步骤S130将第一输入数据以及第二输入数据分别输入至判重模型后，由于判重模型为双分支组合架构，因此，可通过判重模型分别对第一输入数据和第二输入数据进行特征捕捉。

例如，第一输入数据表示第一题目与各个第二题目进行数据转换后得到的数据，将第一输入数据输入到判重模型中实现题目整体上下文特征捕捉的分支中，得到对应的捕捉结果；第二输入数据表示从第一题目和第二题目中提取的公式进行数据转换后得到的数据，将第二输入数据输入到判重模型中实现公式特征捕捉的分支中，得到对应的捕捉结果。

当通过第一输入数据以及第二输入数据分别得到两者的捕捉结果后，可将两者的捕捉结果进行组合后分类，即可得到与第一题目重复的第二题目集合。

具体地，当通过对第一输入数据进行上下文整体的特征捕捉后，得到的是与该第一输入数据对应的捕捉结果，当通过对第二输入数据进行公式特征捕捉后，得到的是与该第二输入数据对应的捕捉结果，两者可以通过相同或不同维度的向量进行表征，但为了提升预测结果的准确度，需要将两者的捕捉结果进行组合，如将两个相同或不同维度的向量进行连接，得到一个新的向量，该向量表征通过两个分支组合得到的捕捉结果。

当得到组合后的捕捉结果时，还可以对该捕捉结果进行简单的分类，以实现题目判重的功能。例如，可对捕捉结果进行二分类，输出第一题目与某一第二题目是原题的概率，当对所有的第一题目与第二题目的组合进行判重后，即可得到与第一题目重复的第二题目集合。

上述实施例中，在题库录入第一题目之前，将第一题目与题库中多个第二题目组成的候选集之间进行比对，确定候选集中与第一题目重复的第二题目集合，以便直观了解当前题库中重复题目的概率和数量，避免题库达到一定量级后，继续大量录入已有题目，从而显著提升录题效率，有效降低录题成本和题目检索难度；并且，本申请使用的判重模型，不仅能够对题目文本进行特征捕捉，还能够对文本中的公式进行特征捕捉，并对捕捉结果组合后进行分类，最终得到的第二题目集合，不但能够准确捕捉与第一题目重复的所有第二题目，还可以根据第二题目集合优先补充重复概率较低的题，从而更有效地提升题库的题目覆盖面，保证题库中题目的多样性。

在一个实施例中，步骤S120中若是，则对所述第一题目和所述第二题目进行公式提取的步骤之前，还可以包括：

S111：对所述第一题目和所述第二题目进行预处理；

S112：其中，所述预处理包括对所述第一题目和所述第二题目中的公式的头部和尾部分别添加起始标识和结束标识。

本实施例中，在对第一题目和所述第二题目进行公式提取之前，还需要对第一题目和第二题目进行预处理操作，该预处理过程包括但不限于对于第一题目和第二题目中的公式的头部和尾部分别添加起始标识和结束标识，以便模型识别。

具体地，对于没有公式的题目不做处理，对于有公式的题目，为了让模型能感知公式的开头与结尾的特征，将公式分隔符换成两个不同的标签，例如在公式的头部和尾部分别加上[FST]和[FET]两个标签，标识公式的开始和结束。

举例来说，对于数学或理综类题型，该题型中的大多数题目都带有公式，且由于公式部分一般使用latex进行描述，所以一般会使用双美元符号进行标识；例如：在公式(x+y)^2的头部和尾部添加双美元符号，得到$$ (x+y)^2 $$，与普通文本进行区分。

在一个实施例中，步骤S120中对公式提取前的第一题目、第二题目以及提取的公式进行数据转换，得到与所述第一题目和第二题目对应的第一输入数据，以及与所述公式对应的第二输入数据的步骤，可以包括：

S121：将所述第一题目分别与各个第二题目进行字符串连接操作，得到与所述第一题目和各个第二题目对应的多个第一输入数据；

S122：将所述第一题目中提取的公式分别与各个第二题目中提取的公式进行字符串连接操作，得到与所述公式对应的多个第二输入数据。

本实施例中，对于有公式的题目，可事先将公式部分提取出来，然后将公式部分进行字符串连接操作。

如单次输入第一题目A、第二题目B，当第一题目A以及第二题目B中都包含有公式时，可先将第一题目A和第二题目B中的公式提取出来，然后将第一题目A中提取的公式与第二题目B中提取的公式之间进行字符串连接操作，并在两道题目中间加入分隔符，以及在连接后的字符串头部和尾部分别加入相应的标识，以得到最终输入的第二输入数据。

由于判重模型为双分支组合架构，该判重模型的一个分支输入为纯公式的第二输入数据，另一分支输入为题目整体上下文对应的第一输入数据。

因此，在对单次输入的第一题目A、第二题目B中的公式进行提取得到第二输入数据的同时，可将公式提取前的第一题目A与第二题目B进行字符串连接操作，并在两道题目中间加入分隔符，以及在连接后的字符串头部和尾部分别加入相应的标识，以得到最终输入的第一输入数据。

例如，对于bert模型来说，其输入的线性序列有一定的约定条件。当单次输入第一题目A和第二题目B时，先将第一题目A和第二题目B连接成一个字符串，然后在两个题目之间添加分隔符“[SEP]”，同时在连接后的字符串头部加入“[CLS]”，尾部加入“[SEP]”。

其中，[CLS]用于代表整个句子的向量，[SEP]用于区分第一题目A、第二题目B文本的范围。

进一步地，当第二题目为多个时，可将第一题目分别与各个第二题目连接成一个字符串的形式，由此得到多个第一输入数据。

在一个实施例中，步骤S130中利用所述题库中已有的题目对所述判重模型的两个分支进行无监督预训练的步骤，可以包括：

S131：获取所述题库中已有的题目，并对所述题目进行预处理后得到第一预训练语料，将所述第一预训练语料输入至其中一个分支对应的第一模型中进行无监督预训练，得到训练后的第一模型；

S132：同时，将所述题目中的公式提取并分词后得到第二预训练语料，将所述第二预训练语料输入至另一个分支对应的第二模型中进行无监督预训练，得到训练后的第二模型。

本实施例中，判重模型在对第一题目和第二题目进行判重之前，需要经过预先训练，以使判重模型中的各项参数达到最优，最终预测的结果也更加准确。

本申请中判重模型的训练过程包括无监督预训练过程以及监督训练过程；其中，无监督预训练过程主要是利用题库中已有的题目对判重模型中的左右两个分支进行预训练，并根据样本间的相似性对样本集进行分类（聚类，clustering），试图使类内差距最小化，类间差距最大化。

示意性地，如图3所示，图3为本发明实施例提供的判重模型结构示意图；图3中的判重模型为双分支架构，其中，左分支的第一模型使用bert模型，右分支的第二模型使用字符级别的Transformer编码器，模型组合部分使用concatenate embedding，模型分类使用Logistic Loss。

当使用图3中的各部分结构对判重模型进行无监督预训练时，其左分支模型主要做增量预训练，该增量预训练步骤包括：

i.将bert词表中的unused1和unused2两个位置替换为[FST]和[FET]；

ii.对题库中的题目进行预处理，预处理操作包括对题目A和题目B中的公式的头部和尾部分别添加起始标识和结束标识，生成增量预训练的第一预训练语料，并使用bert自带的分词器进行分词；

iii.加载base bert官方的预训练权重，并使用步骤i中替换的词表，对bert模型进行40~60万步的增量预训练，并存储预训练完成的第一模型。

在对左分支的第一模型做无监督预训练的同时，右分支的第二模型也同样需要做无监督预训练，由于公式部分的建模，训练语料为纯公式，而不是常规意义上的自然语料，因此语料与bert公布的预训练语料区别极大，所以需要重新预训练，该重新预训练的步骤包括：

i.通过正则表达式将题库中所有题目的公式单独提取出来，并将公式以单个字符为一个词的方式，进行分词后得到第二预训练语料；例如：(x+y)^2=0这个公式，会分词为：“（” 、“x”、“+”、“y”、“）”、“^”、“2”、“=”、“0”这9个词；

ii.以26个英文字母，9个数字，以及所有的英文标点作为词表，采用small bert模型，以mask language model，不加载官方预训练权重，利用第二预训练语料重新开始预训练，步数为40~60w步，并存储预训练完成的第二模型。

在一个实施例中，步骤S130中将无监督预训练后的模型进行组合分类后，通过监督训练得到最终的判重模型的步骤，可以包括：

S133：将所述训练后的第一模型和所述训练后的第二模型进行组合分类，得到判重模型；

S134：在所述题库中随机抽取预设数量的待训练题目，并将所述待训练题目进行人工标注后，得到所述判重模型的训练集；

S135：对所述训练集中的各个题目进行公式提取，并对公式提取前的题目以及提取的公式进行数据转换，得到训练数据；

S136：利用所述训练数据对所述判重模型进行监督训练后得到最终的判重模型。

本实施例中，当第一模型和第二模型都完成预训练后，需要将两个模型进行组合并分类，即在两个模型的输出部分添加连接层和分类层，如图3中的concatenateembedding和Logistic Loss。

本判重模型中使用concatenate embedding作为向量连接层，主要考虑到上述两个分支输入的数据为向量形式；使用logistic loss，主要是因为判重模型最终是需要进行二分类（是，否原题），Logistic loss也是二分类的首选损失函数，Logistic loss输出的是A，B两个题目是原题的概率，且训练的过程即是将这个概率估计的准确度最大化。

在对模型进行无监督预训练后，可将训练后的第一模型和训练后的第二模型进行组合分类，得到判重模型，然后通过题库中已有的题目对判重模型进行监督训练，以便从给定的训练数据集中学习出一个函数（模型参数），当新的数据到来时，可以根据这个函数预测结果。

对判重模型进行监督训练的过程可以包括如下步骤：

a）人工标注一定量的A，B题是否为重复题的数据，作为监督训练的训练集；

b）将a步骤数据中所有的A题目和B题目，分别连接为一个字符串，并在两道题目中间加入分隔符“[SEP]”，同时在连接后的字符串头部加入“[CLS]”，尾部加入“[SEP]”；

c）将a步骤数据中所有的A题目和B题目中的公式分别单独提取出来，并与b)步骤做相同的处理；

d）使用b、c步骤得到的数据，对组合模型进行监督训练，训练遍历的数据次数可为3~5次，训练完成后，存储监督训练得到的模型，作为最终的判重模型。

其中，公式的提取过程可通过正则表达式提取，模型的遍历次数为训练参数之一，可根据训练模型在测试集上的效果而定，在此不做限制。

在一个实施例中，步骤S140中利用所述判重模型的两个分支分别对所述第一输入数据和所述第二输入数据进行特征捕捉的步骤，可以包括：

S141：通过所述判重模型的其中一个分支对所述第一输入数据进行整体上下文的特征捕捉，得到第一捕捉结果；

S142：通过所述判重模型的另一个分支对所述第二输入数据进行公式特征捕捉，得到第二捕捉结果。

本实施例中，如图3所示，由于判重模型为双分支组合架构，且左右分支各自通过不同的模型分别对题目的整体上下文，以及纯公式进行判重预测，因此，将第一输入数据和第二输入数据分别输入到左右各分支模型中进行特征捕捉，得到第一捕捉结果和第二捕捉结果。

在一个实施例中，所述第一捕捉结果可以包括第一高维向量，所述第二捕捉结果可以包括第二高维向量；步骤S140中将捕捉结果组合后进行分类，得到所述候选集中与所述第一题目重复的第二题目集合的步骤，可以包括：

S143：将所述第一高维向量和所述第二高维向量进行向量连接，得到第三高维向量；

S144：基于损失函数对所述第三高维向量进行分类，得到所述候选集中与所述第一题目重复的第二题目集合。

本实施例中，如图3所示，判重模型的左分支建模A、B两题文本与公式的混合体，用于捕捉两道题目整体的上下文特征；右分支单独建模A、B两题按逐个字符分词的公式字符序列，从而更为显著地捕捉公式特征。

其中，左右分支分别输出一个D1维和D2维的高维度向量，即第一高维向量和第二高维向量，分别代表了整个题目和公式部分在高维向量空间中的表征。而后将两个高维向量连接，生成D1+D2维度的高维向量，即第三高维向量，并通过Logistic Loss单元，进行二分类，最终输出A、B两题是重复题的概率。

需要说明的是，这里的第一高维向量和第二高维向量的维度可以一致，也可不一致，二者的大小主要根据技术应用所要求的响应性能和准确性来取舍，一般而言，右分支的公式的向量表征可以是整个题目向量表征的二分之一，左分支取512维；这里的高维向量指的是维度超过3维的向量。

在一个实施例中，如图4所示，图4为本发明实施例提供的一种题目判重装置的结构示意图；本发明实施例还提供了一种题目判重装置，包括题目获取模块210、数据处理模块220、数据输入模块230、题目判重模块240，具体包括如下步骤：

题目获取模块210，用于获取待录入题库的第一题目，以及所述题库中的多个第二题目，确定所述第一题目和所述第二题目中是否包含公式；

数据处理模块220，用于若是，则对所述第一题目和所述第二题目进行公式提取，并对公式提取前的第一题目、第二题目以及提取的公式进行数据转换，得到与所述第一题目和第二题目对应的第一输入数据，以及与所述公式对应的第二输入数据；

数据输入模块230，用于将所述第一输入数据和所述第二输入数据输入至预先训练好的判重模型中；其中，所述判重模型为双分支组合架构，利用所述题库中已有的题目对所述判重模型的两个分支进行无监督预训练，并将无监督预训练后的模型进行组合分类后，通过监督训练得到最终的判重模型；

题目判重模块240，用于利用所述判重模型的两个分支分别对所述第一输入数据和所述第二输入数据进行特征捕捉，并将捕捉结果组合后进行分类，得到与所述第一题目重复的第二题目集合。

关于题目判重装置的具体限定可以参见上文中对于题目判重方法的限定，在此不再赘述。上述题目判重装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于终端设备中的处理器中，也可以以软件形式存储于终端设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，本发明还提供了一种存储介质，所述存储介质中存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如上述实施例中任一项所述题目判重方法的步骤。

在一个实施例中，本发明还提供了一种计算机设备，所述计算机设备中存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如上述实施例中任一项所述题目判重方法的步骤。

示意性地，如图5所示，图5为本发明实施例提供的一种计算机设备的内部结构示意图，该计算机设备300可以被提供为一服务器。参照图5，计算机设备300包括处理组件302，其进一步包括一个或多个处理器，以及由存储器301所代表的存储器资源，用于存储可由处理组件302的执行的指令，例如应用程序。存储器301中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件302被配置为执行指令，以执行上述任意实施例的题目判重方法。

计算机设备300还可以包括一个电源组件303被配置为执行计算机设备300的电源管理，一个有线或无线网络接口304被配置为将计算机设备300连接到网络，和一个输入输出（I/O）接口305。计算机设备300可以操作基于存储在存储器301的操作系统，例如WindowsServer TM、Mac OS XTM、Unix TM、Linux TM、Free BSDTM或类似。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种题目判重方法，其特征在于，所述方法包括：

利用所述判重模型的两个分支中的一个分支对所述第一输入数据进行特征捕捉，另一个分支对所述第二输入数据进行特征捕捉，并将捕捉结果组合后进行分类，得到与所述第一题目重复的第二题目集合。

2.根据权利要求1所述的题目判重方法，其特征在于，所述对所述第一题目和所述第二题目进行公式提取的步骤之前，还包括：

对所述第一题目和所述第二题目进行预处理；

3.根据权利要求1所述的题目判重方法，其特征在于，所述对公式提取前的第一题目、第二题目以及提取的公式进行数据转换，得到与所述第一题目和第二题目对应的第一输入数据，以及与所述公式对应的第二输入数据的步骤，包括：

4.根据权利要求1所述的题目判重方法，其特征在于，所述利用所述题库中已有的题目对所述判重模型的两个分支进行无监督预训练的步骤，包括：

5.根据权利要求4所述的题目判重方法，其特征在于，所述将无监督预训练后的模型进行组合分类后，通过监督训练得到最终的判重模型的步骤，包括：

6.根据权利要求1所述的题目判重方法，其特征在于，所述利用所述判重模型的两个分支中的一个分支对所述第一输入数据进行特征捕捉，另一个分支对所述第二输入数据进行特征捕捉的步骤，包括：

7.根据权利要求6所述的题目判重方法，其特征在于，所述第一捕捉结果包括第一高维向量，所述第二捕捉结果包括第二高维向量；

所述将捕捉结果组合后进行分类，得到与所述第一题目重复的第二题目集合的步骤，包括：

基于损失函数对所述第三高维向量进行分类，得到与所述第一题目重复的第二题目集合。

8.一种题目判重装置，其特征在于，包括：

题目判重模块，用于利用所述判重模型的两个分支中的一个分支对所述第一输入数据进行特征捕捉，另一个分支对所述第二输入数据进行特征捕捉，并将捕捉结果组合后进行分类，得到与所述第一题目重复的第二题目集合。

9.一种存储介质，其特征在于：所述存储介质中存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如权利要求1至7中任一项所述题目判重方法的步骤。

10.一种计算机设备，其特征在于：所述计算机设备中存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如权利要求1至7中任一项所述题目判重方法的步骤。