CN114329181A

CN114329181A - 一种题目推荐方法、装置及电子设备

Info

Publication number: CN114329181A
Application number: CN202111430517.0A
Authority: CN
Inventors: 黄通文
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-11-29
Filing date: 2021-11-29
Publication date: 2022-04-12

Abstract

本申请实施例公开了一种题目推荐方法、装置及电子设备，包括：接收来自客户端的第一题的信息；基于第一题的信息从数据题库中获取候选题库，第一题的信息包括第一题的题目信息，候选题库包括至少一个候选题；基于第一题的信息和特征排序算法对候选题库中的候选题进行排序，得到候选题表；使用重排序算法对候选题表进行处理，得到推荐题目表；向客户端发送推荐信息，推荐信息包括推荐题目表。本申请实施例，可以结合用户使用场景提高推荐题目的准确性。

Description

一种题目推荐方法、装置及电子设备

技术领域

本申请实施例涉及人工智能(AI，artificial intelligence)技术领域，尤其涉及一种题目推荐方法、装置及电子设备。

背景技术

在教育领域，学生通常会通过练习题目的方式来掌握并熟练学习的内容。例如，在学生做错某一题的情况下，往往需要通过相似的题目进行进一步的训练；老师刚刚解答过一个题目的情况下，需要让同学练习相关的题目，掌握这个知识点。目前，给用户推荐题目的过程中，可以基于已知题目给用户(例如，老师、学生等)推荐相似的题目。然而，对于不同的场景，对于推荐的题目有不同的要求。例如，对于某个年级的同学，推荐的题目范围不能超纲；对应老师刚刚讲过的知识点，推荐题目应当重点考察这个知识点；对于用户已经掌握的题目，不应当再推荐给这个用户；对于已经使用了很多年的考题，不应推荐给用户……由于用户在不同的使用场景下，需要针对场景不同场景具体选取推荐的题目，因此，仅仅考虑已知题目向用户推荐，推荐题目可能不符合用户的需求和场景的使用，导致推荐的题目准确性较差。

发明内容

本申请实施例公开了一种题目推荐方法、装置及电子设备，可以结合用户使用场景提高推荐题目的准确性。

第一方面公开一种题目推荐方法，所述方法包括：接收来自客户端的第一题的信息；基于所述第一题的信息从数据题库中获取候选题库，所述第一题的信息包括第一题的题目信息，所述候选题库包括至少一个候选题；基于所述第一题的信息和特征排序算法对所述候选题库中的候选题进行排序，得到候选题表；使用重排序算法对所述候选题表进行处理，得到推荐题目表；向所述客户端发送推荐信息，所述推荐信息包括所述推荐题目表。

作为一种可能的实施方式，所述基于所述第一题的信息从数据题库中获取候选题库，包括：从所述第一题的信息中提取关键词；基于所述关键词检索所述数据题库，得到候选题库。

作为一种可能的实施方式，所述第一题的信息包括第一题的标签信息，所述基于所述第一题的信息从数据题库中获取候选题库，包括：将所述第一题的标签信息与所述数据题库中每个题目的标签信息进行匹配，确定所述第一题的标签信息与所述数据题库中每个题目的标签信息之间的匹配度，所述数据题库中的每个题目均存在相应的标签信息；将所述数据题库中标签信息的匹配度大于第一匹配阈值的题目确定为候选题。

作为一种可能的实施方式，所述基于所述第一题的信息从数据题库中获取候选题库，包括：通过特征表示模型提取所述第一题的向量表示；将所述第一题的向量表示与所述数据题库中每个题目的向量表示进行匹配，确定所述第一题的向量表示与所述数据题库中每个题目的向量表示之间的匹配度，所述数据题库中的每个题目均存在相应的向量表示；将所述数据题库中向量表示的匹配度大于第二匹配阈值的题目确定为候选题。

作为一种可能的实施方式，所述特征排序算法包括特征抽取器和语义分类网络，所述基于所述第一题的信息和特征排序算法对所述候选题库中的候选题进行排序，得到候选题表，包括：使用所述特征抽取器提取所述第一题和所述候选题的特征；使用所述语义分类网络基于所述第一题和所述候选题的特征，计算所述第一题与所述候选题中每个题之间的匹配度，按照所述匹配度从大到小的顺序对所述候选题进行排序，得到候选题表。

作为一种可能的实施方式，所述使用重排序算法对所述候选题表进行处理，得到推荐题目表，包括：获取场景要求信息，所述场景要求信息包括知识范围信息、黑白题目名单信息、强调知识点信息、题型信息和排序策略信息中的一种或多种；基于所述场景要求信息对所述候选题表进行去重、筛选和添加中至少一种处理，得到推荐题目表。

第二方面公开一种题目推荐装置，包括：

接收单元，用于接收来自客户端的第一题的信息；

获取单元，用于基于所述第一题的信息从数据题库中获取候选题库，所述第一题的信息包括第一题的题目信息，所述候选题库包括至少一个候选题；

排序单元，用于基于所述第一题的信息和特征排序算法对所述候选题库中的候选题进行排序，得到候选题表；

处理单元，用于使用重排序算法对所述候选题表进行处理，得到推荐题目表；

发送单元，用于向所述客户端发送推荐信息，所述推荐信息包括所述推荐题目表。

作为一种可能的实施方式，所述第一题的信息包括第一题的标签信息，所述获取单元具体用于：

从所述第一题的信息中提取关键词；

基于所述关键词检索所述数据题库，得到候选题库。

作为一种可能的实施方式，所述获取单元具体用于：

将所述第一题的标签信息与所述数据题库中每个题目的标签信息进行匹配，确定所述第一题的标签信息与所述数据题库中每个题目的标签信息之间的匹配度，所述数据题库中的每个题目均存在相应的标签信息；

将所述数据题库中标签信息的匹配度大于第一匹配阈值的题目确定为候选题。

作为一种可能的实施方式，所述获取单元具体用于：

通过特征表示模型提取所述第一题的向量表示；

将所述第一题的向量表示与所述数据题库中每个题目的向量表示进行匹配，确定所述第一题的向量表示与所述数据题库中每个题目的向量表示之间的匹配度，所述数据题库中的每个题目均存在相应的向量表示；

将所述数据题库中向量表示的匹配度大于第二匹配阈值的题目确定为候选题。

作为一种可能的实施方式，所述特征排序算法包括特征抽取器和语义分类网络，所述排序单元具体用于：

使用所述特征抽取器提取所述第一题和所述候选题的特征；

使用所述语义分类网络基于所述第一题和所述候选题的特征，计算所述第一题与所述候选题中每个题之间的匹配度，按照所述匹配度从大到小的顺序对所述候选题进行排序，得到候选题表。

作为一种可能的实施方式，所述处理单元具体用于：

获取场景要求信息，所述场景要求信息包括知识范围信息、黑白题目名单信息、强调知识点信息、题型信息和排序策略信息中的一种或多种；

基于所述场景要求信息对所述候选题表进行去重、筛选和添加中至少一种处理，得到推荐题目表。

第三方面公开一种电子设备，该文件分类系统的检测设备可以包括：处理器、存储器、输入接口和输出接口，所述输入接口用于接收来自所述装置之外的其它装置的信息，所述输出接口用于向所述装置之外的其它装置输出信息，当所述处理器执行所述存储器存储的计算机程序时，使得所述处理器执行第一方面或第一方面的任一实施方式公开的题目推荐方法。

第四方面公开一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序或计算机指令，当所述计算机程序或计算机指令被运行时，实现如上述第一方面或第一方面的任一实施方式公开的题目推荐方法。

第五方面公开一种计算机程序产品，该计算机程序产品包括计算机程序代码，当该计算机程序代码被运行时，使得上述的方法被执行。

本申请实施例中，首先，基于召回模块301能够快速且高效为不同的场景输出不同的候选题库，满足了不同业务场景的需要，保证候选题的全面性；其次，排序模型302能够在基于召回模块的候选题库使用复杂的精排模型准确地按照相似度得分高低进行排序，输送给重排序模块303，保证排序之后的候选题表的精准性和可靠性；最后，重排序模块303，针对不同业务场景使用的策略对相似题的推荐结果进行重排序，比如，去重、筛选、过滤等，动态的输出特定场景的题目，可以保证不同场景中题目的适用性和准确性。这样，可以针对不同的用户场景或者业务场景，高效快速地向用户推荐准确的题目。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例公开的一种客户端和服务端的网络结构示意图；

图2是本申请实施例公开的一种题目推荐方法流程示意图；

图3是本申请实施例公开的一种题目推荐系统的结构示意图；

图4是本申请实施例公开的一种语义向量召回模块的结构示意图；

图5是本申请实施例公开的一种特征表示模型的训练过程的示意图；

图6是本申请实施例公开的一种召回模块301的结构示意图；

图7是本申请实施例公开的一种排序模块的结构示意图；

图8是本申请实施例公开的一种题目推荐装置的结构示意图；

图9是本申请实施例公开的一种电子设备的结构示意图。

具体实施方式

本申请实施例公开了一种题目推荐方法、装置及电子设备，可以结合用户使用场景提高推荐题目的准确性。以下进行详细说明。

为了便于理解本申请实施例公开的一种题目推荐方法、装置及电子设备。下面先对本申请实施例涉及的相关技术进行介绍：

一、检索引擎

检索引擎，就是根据用户需求与一定算法，运用特定策略从互联网检索出制定信息反馈给用户的一门检索技术。搜索引擎依托于多种技术，如网络爬虫技术、检索排序技术、网页处理技术、大数据处理技术、自然语言处理技术等，为信息检索用户提供快速、高相关性的信息服务。搜索引擎技术的核心模块一般包括爬虫、索引、检索和排序等，同时可添加其他一系列辅助模块，以为用户创造更好的网络使用环境。

弹性搜索(Elastic search)是一个分布式可扩展的实时搜索和分析引擎。Elastic search是一个分布式、高扩展、高实时的搜索与引擎。它能很方便的使大量数据具有搜索、分析和探索的能力。充分利用Elastic search的水平伸缩性，能使数据在生产环境变得更有价值。Elastic search的实现原理主要分为以下几个步骤，首先用户将数据提交到Elastic search数据库中，再通过分词控制器去将对应的语句分词，将其权重和分词结果一并存入数据，当用户搜索数据时候，再根据权重将结果排名，打分，再将返回结果呈现给用户。

二、向量检索

所谓向量就是由n个数字(二值向量由n个比特组成)组成的数组，称之为n维向量。而向量检索就是在一个给定向量数据集中，按照某种度量方式，检索出与查询向量相近的K个向量(K-Nearest Neighbor，KNN)，但由于KNN计算量过大，通常只关注近邻搜索(Approximate Nearest Neighbor，ANN)问题。

向量相似度检索，即根据一个向量Q从海量的向量库中寻找TopK(前K个)个与Q最相似或者距离最近的向量，其在工业中有着广泛的应用场景，比如图像检索、文本语义检索以及推荐系统中基于Embedding向量召回等。在生产环境中，被查找的向量库往往是海量，甚至超过了内存的限制，而且面临着高并发与低延迟的需求。暴力算法(Brute-force)查找的效率太低，为了加快查找的速度，生产实践中诞生了ANN。其中，脸书人工智能相似性搜索(facebook AI similarity search，FAISS)算法是ANN其中的一种，FAISS的使用主要分两步：1.构建索引：这部分一般离线完成，也可以全量构建也可以增量构建，对于带倒排的索引需要有一个训练(train)的步骤。2.在线查询：线上服务部分，根据输入的查询向量返回topK相似的向量。

三、分类网络

神经网络是当前机器学习领域普遍所应用的，例如，可利用神经网络进行图像识别、语音识别等，从而将其拓展应用于自动驾驶汽车。它是一种高度并行的信息处理系统，具有很强的自适应学习能力，不依赖于研究对象的数学模型，对被控对象的的系统参数变化及外界干扰有很好的鲁棒性，能处理复杂的多输入、多输出非线性系统，神经网络要解决的基本问题是分类问题。以下说明三种神经网络：

(1)多层感知机(multilayer perceptron，MLP)也叫人工神经网络(ANN，artificial neural network)，最典型的MLP包括三层：输入层、隐层和输出层，MLP神经网络不同层之间是全连接的(全连接的意思就是：上一层的任何一个神经元与下一层的所有神经元都有连接)。

(2)卷积神经网络(convolutional neuron network，CNN)卷积神经网络是一种包含卷积计算且具有深度结构的前馈神经网络。卷积神经网络可以包括卷积层。

卷积层的功能是对输入数据进行特征提取，其内部包括多个卷积核，组成卷积核的每个元素都对应一个权重系数和一个偏差量(bias)，类似于一种前馈神经网络的神经元(neuron)。卷积层的参数可以包括卷积核大小，步长和填充，三者决定了卷积核输出特征图的尺寸。其中，卷积核的大小可以指定为小于输入图像尺寸的任意值，卷积核越大，可提取的输入特征越复杂。卷积步长定义了卷积核相邻两次扫过特征图时的位置的距离，卷积步长为1时，卷积核逐个扫过特征图的元素；步长为n时，会在下一次扫描跳过n-1个像素。由于卷积核的计算可知，随着卷积层的堆叠，特征图的尺寸会逐步减小，例如16×16的输入图像在经过单位步长、无填充的5×5的卷积核后，会输出12×12的特征图。为此，填充是在特征图通过卷积核之前人为增大其尺寸以抵消计算中尺寸收缩影响的方法。常见的填充方法为按零填充和重复边界值填充(replication padding)。

(3)循环神经网络(recurrent neural network,RNN)是一类以序列(sequence)数据为输入，在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络(recursive neural network)。对循环神经网络的研究始于二十世纪80-90年代，并在二十一世纪初发展为深度学习(deep learning)算法之一，其中双向循环神经网络(bidirectional RNN,Bi-RNN)和长短期记忆网络(long short-term memory networks，LSTM)是常见的循环神经网络。循环神经网络具有记忆性、参数共享并且图灵完备(turingcompleteness)，因此在对序列的非线性特征进行学习时具有一定优势。循环神经网络在自然语言处理(natural language processing，NLP)，例如语音识别、语言建模、机器翻译等领域有应用，也被用于各类时间序列预报。引入了卷积神经网络构筑的循环神经网络可以处理包含序列输入的计算机视觉问题。

(4)编码器transformer的分类网络和注意力Attention一样，也采用编码-解码(encoder-decoder)架构，但是其结构比attention更加复杂，encoder层可以由多个encoder堆叠在一起，decoder层也可以由多个decoder堆叠在一起。其中，encoder层可以包含两层，一个self-attention层和一个前馈神经网络，self-attention能帮助当前节点不仅仅只关注当前的词，从而能获取到上下文的语义。decoder也包含encoder提到的两层网络(即，一个self-attention层和一个前馈神经网络)，但是在这两层中间还有一层attention层，帮助当前节点获取到当前需要关注的重点内容。

四、语义检索

当您输入语句进行搜索时，搜索引擎会将这个语句分成一个个的词，并按一定规范重新组合，从而判断您真实的搜索意图，将符合您需求的内容展现出来。

Embedding，中文直译为“嵌入”，常被翻译为“向量化”或者“向量映射”。在整个深度学习框架中都是十分重要的“基本操作”，不论是自然语言处理(natural languageprocessing，NLP)、搜索排序，还是推荐系统，或是点击通过率(click-through-rate，CTR)模型，Embedding都扮演着重要的角色。形式上讲，Embedding就是用一个低维稠密的向量“表示”一个对象，这里所说的对象可以是一个词，也可以是一个物品，亦或是网络关系中的节点。其中“表示”这个词意味着Embedding向量能够表达相应对象的某些特征，同时向量之间的距离反映了对象之间的相似性。下面说明快速文本(fastText)模型和双向的编码器的变换结构表示(bidirectional encoder representations from transformers，BERT)的两种基于Embedding的表示模型：

(1)fastText模型：输入一个词序列(一段文本或者一句话)，序列中的词与词组成特征向量，然后特征向量通过线性变换映射到中间层，中间层再映射到标签。输出这个词序列属于不同类别的概率。其中fastText在预测标签是使用了非线性激活函数，但在中间层不使用非线性激活函数。

(2)BERT的模型：架构是一个多层的双向编码器(Transformer)。BERT是一个无监督的NLP与训练模型，结构上是Transformer的编码部分，在具体任务中，主要分为模型预训练和模型微调两个阶段。在模型预训练阶段，因为模型参数巨大，通常是上千万乃至上亿的数量级，所以需要大量的数据训练，所幸这时候模型是无监督的，只需要爬取或使用开源数据集即可。在模型微调阶段，需要针对具体的任务来微调模型，已达到较好的效果。

SBERT模型，即sentence-BERT，SBERT模型结构在实际生产上非常有意义，它能够预先通过SBERT计算得到。然后，通过向量搜索引擎处理这些向量，检索到最相似语义的文本。这种方式能非常快速实现海量相似文本的查询、排序，而无需再进行高延迟的模型。

(3)attention机制

attention机制广泛的应用于各种领域，在图像处理领域，由于图像的每个像素均赋予不同的权重。attention机制可以帮助模型对输入的图像每个部分赋予不同的权重，取出更加关键以及重要的信息，使得模型作出更加准确的判断，同时不会对模型的计算和存储带来更大的开销。

图1是本申请实施例提供的一种客户端和服务端的网络结构示意图。如图1所示，该网络架构可以包括服务端和客户端。其中，客户端具体可以包括一个或者多个终端设备。客户端可以与服务端通过有线或无线通信方式进行直接或间接地网络连接，以便于客户端可以通过该网络连接与服务端之间进行数据交互。

其中，客户端中的每个终端设备均可以包括：智能手机、平板电脑、笔记本电脑、台式计算机、智能家居、可穿戴设备、车载终端、等具有图像数据处理功能的智能终端。

其中，服务端可以为客户端对应的服务器，该服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

其中，客户端上可以安装采集组件，这里的采集组件可以为客户端上用于采集第一题的信息。

可以理解的是，本申请所提供的题目推荐方法可以由计算机设备执行，该计算机设备可以为上述客户端，也可以为上述服务端，还可以为客户端和服务端共同组成。一种可能的情况下，在本申请所提供的题目推荐方法由客户端执行的情况下，客户端可以基于采集组件获取到第一题的信息，并通过题目推荐系统对第一题的信息进行处理，得到推荐题目表，之后可以基于推荐题目表显示推荐信息。另一种可能的情况下，在本申请所提供的题目推荐方法由服务端执行的情况下，客户端可以基于采集组件获取到第一题的信息，之后客户端可以将第一题的信息发送至服务端，这样，服务端在接收到第一题的信息，之后可以通过题目推荐系统对第一题的信息进行处理，得到推荐题目表。之后服务端可以向客户端发送推荐题目表，客户端可以基于推荐题目表显示推荐信息。具体可以参考图2中的方法流程的描述，不加赘述。

在教育领域，当前的学生在学习的过程中，往往通过题目来进行联系，来达到掌握知识和提高熟悉程度的目的。例如，巩固练习场景，相似题组卷练习，错题本的举一反三等应用场景。在学生尚未掌握某一种题目的情况下，需要通过相似题进一步练习。相似题推荐针对学生作业或考试中未掌握的题型，结合知识图谱应用挖掘出薄弱知识点，针对性地推荐相关相似题，从而避免学生盲目寻题或者漫无目的的题海战术。尤其是在双减政策下，如果避免无效和重复练习，相似题推荐起着至关重要的作用。此时，可以基于学生当前练习的题目(参考题目)获取与之相似的题目，进而可以推荐给学生使用。以下说明一种题目推荐的实施方式：

在一种可能的实施方式中，人工筛选的方式推荐题目。电子设备可以将当前已经做好分类和标签化的题目显示给与用户，用户可以基于不同的标签来查询和选题与参考题目相似的题目。例如，电子设备可以显示当前的题库中所有题目的分类方式和标签信息，老师可以基于当前参考题目的标签和分类从题库中选择至少一个题目为推荐题目。并基于知识点进行人工筛选，选出与学生的当前的相似题目。

上述实施方式可知，人工筛选的方式虽然准确，但是需要依赖大量的教研资源从海量的题库中选择相似的题目，成本较大，难度较高。另外，由于题库中标注结果通常是一个固定的相似题序列，针对新增和删除的题目，无法做到相似题目的序列的实时更新，因此方案的灵活性和变通性较差。

在另一种可能的实施方式中，通过机器判决的方式推荐题目。机器判决可以判断参考题目和题库中的题目之间的相似程度，选取题库中的题目达到一定相似程度的题目，将选出的题目推荐给用户。机器判决的方式可以分为有监督和无监督的判决方式。其中，在无监督的方式中，可以对参考题目的题干信息进行抽取和分词，之后可以结合题目的属性信息(例如，知识点、难度和题型等)计算相似度。在有监督的方式中，人工可以标记判决的结果。在计算得到相似度的情况下，可以人为判断相似度的结果是否合理，并调整判决模型，使得判决结果越来越接近人工判定结果，即可以根据人工标记来训练判决模型。

上述实施方式可知，对于无监督的方式，通过对题干信息进行公式抽取、分词等操作，结合题目的其它属性进行判断虽然简单，但是一般效果都较差，无法去学习一些隐含的语义信息表示。对于有监督的方式，效果虽然较无监督方式好，但是前期需要投入一定的教研资源进行标注和监督。

在上述的两种实施方式中，人工筛选和机器判决的方式仅仅是给出与参考题目相似的题目，但均未结合不同的场景进行相似题目适配。例如，在一些场景中，只需要推荐与参考题目相同题型的题目；在另一些场景中，需要推荐与参考题目难度相当的题目；在又一些场景中，需要推荐比参考题目难度更大的题目；在又一些场景中，需要不超纲的题目……而事先的人工筛选和机器判决的方式通常结果是固定的，针对特定的场景无法进行满足。因此，如何结合用户使用场景针对性地给用户推荐准确的相似题目是一个亟待解决的问题。

针对上述问题，在本申请实施例中，题目推荐系统可以基于接收到的第一题的信息从数据题库中进行召回，获取候选题库；之后可以基于第一题的信息和特征排序算法对候选题库中的候选题进行排序，得到候选题表；使用重排序算法对候选题表进行处理，得到推荐题目表。其中，第一题为用户已知的参考题目，即推荐与第一题相似的题目。第一题的信息包括第一题的题目信息，候选题库包括至少一个候选题。这样，召回、排序、重排序的相似题的方式，能够结合场景准确地推出适合不同场景的相似题目序列。

请参阅图2，如图2所示是本申请实施例公开的一种题目推荐方法流程示意图。其中，一种题目推荐方法可以包括以下步骤：

请参阅图3，如图3所示是本申请实施例公开的一种题目推荐系统的结构示意图。如图3所示，题目推荐系统可以包括召回(recall)模块301、排序(ranking)模块302和重排序(rerank)模块303。排序模块302可以分别与召回模块301和重排序模块303相连接。其中，召回模块301用于从数据题库中快速高效地找到候选题，获取候选题库，召回模块301可以包括关键词召回模块3011、标签召回模块3012和语义向量召回模块3013的一种或多种；排序模块302用于基于候选题库中的题目特征对题目进行排序，重排序模块303用于针对特定的场景进行对候选的相似题进行重排序。其中，图3所示的题目推荐系统可以为服务端的题目推荐系统。结合图3，上述题目推荐方法可以包括但不限于以下步骤：

S201、题目推荐系统接收来自客户端的第一题的信息。

客户端可以采集第一题的信息。用户可以点击输入第一题的信息或者用户可以点击确定当前为第一题的控件，客户端可以接收到上述的操作，响应于上述用户操作，可以确定用户输入的信息为第一题的信息或者用户点击对应的题目的信息为第一题的信息。之后客户端可以将第一题的信息发送给服务端的题目推荐系统。对应地，题目推荐系统可以接收来自客户端的第一题的信息。

其中，第一题为当前用户需要推荐相似题的参考题目，即推荐的题目为第一题的相似题。第一题的信息至少包括第一题的题目信息，例如，分析题的题干信息，选择题的题干信息和选项信息等。此外，第一题的信息可以包括标签信息、难度信息、知识点信息、知识范围信息、年份信息、题型信息等中的一种或多种。

S202、题目推荐系统基于第一题的信息从数据题库中获取候选题库。

在题目推荐系统获取到第一题的信息之后，题目推荐系统的召回模块301可以基于第一题的信息从数据题库中获取候选题库。即召回模块301可以基于第一题的信息从数据题库中进行召回，得到候选题库。其中，候选题库包括至少一个候选题。数据题库中可以包括海量的题目，以及题目的相关信息。例如，题目对应的知识点信息，题型信息、年份信息、难度信息和标签信息等。数据题库中的题目是可以不断更新的，即可以将新增加的题目加入数据题库中，使得数据题库的范围变大，数据题库涵盖得题目数量越全面，越能够保证选取的候选题的准确性。

数据题库可以包括百万级的题目，数据量很大，直接进行匹配计算量会非常大，计算所需要的时间也较长。例如，一次匹配耗时2ms，一千万数量的题目进行匹配，需要耗时约5.5小时。单次匹配的时间较短，但是整个题库的进行匹配，所需要的时间将会很长。因此，为了节省题目推荐的时间，提高推荐效率，本申请实施例引入了召回的方式对数据题库中与第一题相似的题目进行召回，从而可以节省匹配时间。为了保证候选题库的丰富性和全面性，本申请实施例的召回路包括三种召回方式中的一种或多种：关键词召回方式、标签召回方式和语义向量召回方式。即召回模块301基于第一题的信息从数据题库中获取候选题库的方式包括关键词召回方式、标签召回方式和语义向量召回方式中的一种或多种，以下分别说明：

关键词召回方式：按照第一题的信息中的关键词搜索数据题库，获取第一候选题库。

在召回模块301包括关键词召回模块3011的情况下，关键词召回模块3011可以先从第一题的信息中提取关键词，之后可以将基于关键词检索数据题库，得到第一候选题库。即关键词召回模块3011可以对第一题的题目信息进行分词和抽取，得到一个关键词序列的表示。关键词序列的表示可以为以空格进行分割的多个词语序列。之后将关键词输入检索引擎对数据题库进行检索，得到第一候选题库。其中，检索引擎可以是elastic search检索引擎，也可以是solr检索引擎，不加限定。在通过检索引擎检索之前，可以基于数据题库建立题目索引。

示例性地，第一题的题目信息为“鸡兔同笼，鸡兔共有35个头，94条腿，问鸡兔各多少只？”基于题目信息提取关键词为：“鸡兔同笼头腿”。将关键词“鸡兔同笼头腿”输入检索引擎进行检索，得到候选题库。例如，候选题库包括：“鸡兔同笼，鸡比兔多15只，共132条腿，问鸡兔各多少只？”

需要说明的是，在关键词召回模块3011中，召回模块301可以基于第一题的关键词最直接进行搜索，得到第一候选题库，这一过程计算速度快，筛选范围广，能够提高推荐效率的同时，保证推荐题目的准确性。

标签召回方式：将第一题的标签信息与数据库中题目的标签信息进行匹配，得到第二候选题库。

在召回模块301包括标签召回模块3012的情况下，标签召回模块3012可以将第一题的标签信息与数据题库中每个题目的标签信息进行匹配，确定第一题的标签信息与所述数据题库中每个题目的标签信息之间的匹配度(即标签匹配度)。之后标签召回模块3012可以将数据题库中标签信息的匹配度大于第一匹配阈值的题目确定为第二候选题库。其中，数据题库中的每个题目均存在相应的标签信息，第一题的信息包括标签信息。标签信息可以包括题目的难度标签、质量标签、年份标签、年级标签和题型标签等中的一种或多种。例如，第一题的标签信息为5年级(年级标签)、鸡兔同笼问题(题型标签)和中等难度(难度标签)。第一匹配阈值可以为90％，75％，80％等，不加限定。

示例性地，标签召回模块3012可以获取第一题的标签信息，将标签信息与当前数据题库中题目的标签信息进行比较，获取数据题库中每个题目的标签匹配度。其中，数据题库中所有题目共10万道题，其中，标签匹配度大于85％(第一匹配阈值)有27道。将这27道题目确定为第二候选题库中的题目。

需要说明的是，在标签召回模块3012中，召回模块301可以基于数据题库的标签进行匹配，选择与第一题近似的题目。比如，难度相近、题型一样的题目，保证选取的候选题更多的满足用户要求，从而提高用户体验。

语义向量召回方式：将通过特征表示模型提取的第一题的特征向量与数据题库中每个题目的向量表示进行匹配，将匹配度高的向量表示对应的题目确定为第三候选题库。

在召回模块301包括语义向量召回模块3013的情况下，语义向量召回模块3013可以通过特征表示模型提取所述第一题的向量表示，将第一题的向量表示与数据题库中每个题目的向量表示进行匹配，确定第一题的向量表示与数据题库中每个题目的向量表示之间的匹配度(即向量匹配度)，将数据题库中向量表示的匹配度大于第二匹配阈值的题目确定为第三候选题库。其中，数据题库中的每个题目均存在相应的向量表示，这些向量表示均是通过特征表示模型得到数据题库中的每个题目的向量表示。

图4是本申请实施例公开的一种语义向量召回模块的结构示意图。如图4所示，向量召回模块可以包括特征表示模型401和向量匹配模块402。其中，特征表示模型可以对输入的题目的信息提取向量特征。其中，特征表示模型可以是fastText、SBERT模型等。由于语义向量召回模块可以提前训练并存储数据题目中题目的向量表示(即提前离线训练，得到数据题库对应的向量库)，因此，向量匹配模块402可以基于获取的第一题的向量表示对已知的向量库进行向量检索，得到数据题库中题目的向量表示与第一题的向量表示的匹配度。之后向量匹配模块402可以将数据题库中题目按照上述匹配度的大小进行排序，并将大于第二匹配阈值的数据题库中对应的题目确定为第三候选题库。其中，匹配模块402可以基于获取的第一题的向量表示对已知的向量库进行向量检索的过程可以通过近邻搜索ANN的工具，例如，FAISS。不加限定。

在通过特征表示模型提取所述第一题的向量表示，需要先训练特征表示模型。下面具体说明特征表示模型的具体训练方法：

图5是本申请实施例公开的一种特征表示模型的训练过程的示意图。如图5所述，可以将训练题1的信息和训练题2的信息输入待训练特征表示模型。其中，训练题1和训练题2是相似题，即训练题1的向量表示和训练题2的向量表示的应当是十分接近的，也可以理解为，经过匹配模块进行向量检索，训练题1的向量表示和训练题2的向量表示是应当可以相互检索到的。因此，在获得训练题1的向量表示和训练题2的向量表示之后，可以将基于两者的向量表示的接近程度进行调整待训练特征表示模型。例如，在训练题1和训练题2的相似度为80％的情况下，训练题1的向量表示和训练题2的向量表示的匹配度为60％，便可以反馈调整当前的待训练特征表示模型的参数，使得训练题1的向量表示和训练题2的向量表示的匹配度达到80％。经过数次的训练，使得带训练特征表示模型的结果趋于稳定，进而可以成为上述的特征表示模型进行使用。在训练完成之后，可以对数据题库里面的所有题目通过训练完成的特征表示模型进行特征抽取，得到相应的向量表示，形成一个数据题库对应的向量库。之后可以基于FAISS建立向量索引，以便后续匹配模块进行向量检索，从而可以提高向量检索的效率。

上述的实施方式中，一种有三种召回的方式，本申请实施例中的召回模块301可以至少包括上述的三种召回方式中的一种。图6是本申请实施例公开的一种召回模块301的结构示意图。图6中包括7中可能召回的方式。如图6中的(A)所示，召回模块301可以仅仅包括关键词召回模块，此时，候选题库包括上述的第一候选题库；如图6中的(B)所示，召回模块301可以仅仅包括标签召回模块，此时，候选题库包括上述的第二候选题库；如图6中的(C)所示，召回模块301可以仅仅包括语义向量召回模块，此时，候选题库包括上述的第三候选题库；如图6中的(D)所示，召回模块301可以包括关键词召回模块和标签召回模块，此时，候选题库包括上述的第一候选题库和第二候选题库；如图6中的(E)所示，召回模块301可以包括关键词召回模块和语义向量召回模块，此时，候选题库包括上述的第一候选题库和第三候选题库；如图6中的(F)所示，召回模块301可以包括标签召回模块和语义向量召回模块，此时，候选题库包括上述的第二候选题库和第三候选题库；如图6中的(G)所示，召回模块301可以包括关键词召回模块、标签召回模块和语义向量召回模块，此时，候选题库包括上述的第一候选题库、第二候选题库和第三候选题库。

在上述的实施方式中，通过三种召回方式，可以增加召回的候选题库中候选题的丰富性。即可以从不同的维度对数据题库中的题库进行召回，得到不同的候选题，取并集得到候选题库。因此，可以防止筛选候选题库过程中的遗漏和偏颇，保证选取的候选题的完整性和全面性。

S203、题目推荐系统基于第一题的信息和特征排序算法对候选题库中的候选题进行排序，得到候选题表。

题目推荐系统可以通过排序模块302使用特征抽取器提取第一题和候选题的特征，之后使用语义分类网络基于第一题和候选题的特征，计算第一题与候选题中每个题之间的匹配度(即特征匹配度)，按照匹配度从大到小的顺序对候选题进行排序，得到候选题表。

图7是本申请实施例公开的一种排序模块的结构示意图。如图7所示，排序模块302可以包括特征抽取器701和语义分类网络702。其中，特征抽取器701用于与第一题和候选题进行特征抽取。特征抽取器701可以包括特征抽取模型，特征抽取模型可以是BERT模型。BERT模型中可以多层包括编码器(transformer)层，transformer层可以包括一些自注意力(self-attention)网络构成，例如，多头注意力(multi-head attention)机制等中的一种。语义分类网络702可以用于对第一题和候选题的特征向量进行语义分类，得到较为相似的题目形成候选题表。语义分类网络702可以为多层感知机(multilayer perceptron，MLP)、卷积神经网络(CNN)和循环神经网络(RNN)中的一种网络。题目推荐系统可以将第一题的信息和候选题的信息输入特征抽取器701，得到第一题和候选题的特征向量。之后可以对第一题和候选题的特征向量输入语义分类网络702进行分类，得到每个题目的相似度值。按照题目的相似度值进行排序，选择候选题中的前N个题目形成候选题表，或者选取将题目中相似度大于相似度阈值的题目形成候选题表。其中，N为正整数，例如，10。相似度阈值可以是设定的阈值，例如，75％。候选题表中的题目的相似度从大到小排序。

可选地，上述的特征抽取器701中可以包括的最后一层的隐层。这一隐层可以用于将提取的特征矩阵进行计算得到特征向量。此时，特征矩阵的大小为d*k，d可以表示第一题和候选题的特征维度，例如，128、512等，k是特征维度的大小、例如，k＝768。通过隐层提取特征是一种聚合特征的过程，一种情况下，这一隐层可以针对词的维度提取d的最大值(max)，形成特征向量。例如，隐层表示的d*k的特征矩阵的大小为128*768，针对词的维度提取128的最大值，从而可以得到k维(768维)特征向量。另一种情况下，这一隐层用于提取特征矩阵的第一列的向量(即上下文向量(CLS))，形成特征向量。例如，隐层表示的d*k的特征矩阵的大小为128*768，针对词的维度提取128的第一个值，从而可以得到k维(768维)特征向量。

需要说明的是，在上述的实施方式中，题目推荐系统可以从候选题库中找到排序模块302认可的相似题目的列表，其中特征抽取器701基于特征组合的方法，这里的排序模块利用的特征信息更丰富，编码了更多的语义特征和交互特征，使得确定出的候选题表更加准确。

S204、题目推荐系统使用重排序算法对候选题表进行处理，得到推荐题目表。

题目推荐系统可以通过重排序模块303获取场景要求信息，并基于场景要求信息对候选题表进行去重、筛选和添加中至少一种处理，得到推荐题目表。所述场景要求信息包括知识范围信息、黑白题目名单信息、强调知识点信息、题型信息和排序策略信息中的一种或多种。

重排序模块303可以对候选题表中的题目进行重新调整，形成推荐题目表。下面说明几种可能的调整方式：

调整方式1：将候选题表的题目进行去重。

在重排序模块303可以对候选题表中的题目进行去重处理，即将候选题表中相同的题目进行删除，留下重复题目中的一个即可。

调整方式2：将候选题表的题目进行知识范围删选。

在场景要求信息包括知识范围信息的情况下，重排序模块303可以对候选题表中的题目按照知识范围信息进行筛选，符合知识范围信息的题目可以保留，超出知识范围信息的题目进行删除。例如，根据用户输入的教材版本和所学章节(知识范围信息)，以及当前的知识点(知识范围信息)进行过滤，如果候选题表中的题目超过当前所学章节，将超出范围的题目滤除。具体使用场景有，学生对应的单元练习，需要通过知识范围信息选择性的过滤候选题。

调整方式3：将候选题表的题目进行题型筛选。

在场景要求信息包括题型信息的情况下，重排序模块303可以对候选题表中的题目按照题型信息进行筛选，保留符合题型的题目，删除不符合题型信息的题目。例如，针对特定需要出某种题型比如客观题的场景下(题型信息的含义为保留客观题)，需要对推荐的题目做相同题型保留，将选择题判断题等删除，将客观题保留。

调整方式4：将候选题表的题目进行知识点筛选。

在场景要求信息包括强调知识点信息的情况下，重排序模块303可以对候选题表中的题目按照强调知识点信息进行筛选。强调知识点信息包括一个或几个知识点。重排序模块303可以保留候选题中包括知识点的题目，删除不包括上述知识点的题目。例如，强调知识点包括三角函数的知识，对包含三角函数的候选题保留，删除不包含三角函数的候选题。需要说明的是，推荐结果的相似题不能和原始题目差异太大，做一些知识点的过滤，可以进一步保障推荐结果的精准性。

调整方式5：将候选题表的题目进行黑白名单调整。

在场景要求信息包括黑白题目名单信息的情况下，重排序模块303可以对候选题表中的题目按照黑白题目名单信息进行筛选。黑白题目名单信息中可以包括和黑名单题目和/或白名单题目。其中，黑名单题目用于表示不再向用户推荐的题目，白名单题目表示需要向用户推荐的题目。在重排序模块303获取黑名单题目的情况下，可以将候选题中为黑名单题目中的题进行删除，将白名单题目中的题进行保留，且将题目排序向前调整，例如，将候选题目中包括的白名单中的题目置顶。在一些场景中，某些题目年代较远、不够新颖的题目，有的题目用户已经练习过数次，完全掌握，可以将这些题目确定为黑名单中的题目。在另一些场景中，一些题目是重点的题目或者较为新的题目，需要让用户使用到，因此可以将这些题目列为白名单题目。

调整方式6：将候选题表的题目按照排序策略进行顺序调整。

在场景要求信息包括排序策略信息的情况下，重排序模块303可以对候选题表中的题目按照排序策略信息进行调整。排序策略信息可以为难度排序策略，也可以为题型排序策略。例如，在排序策略信息为按照题目难度排序的情况下，重排序模块303可以按照候选题表中题目按照难度进行排序。在排序策略信息为按照题型排序策略的情况下，重排序模块303可以按照候选题表中题目按照选择题、填空题和简答题的顺序进行排序。

上述的几种实施方式中，六种调整方式中，重排序模块303可以至少执行一种调整方式，也可以之执行多种调整方式，执行顺序不加限定。

在重排序过程中，针对不同的场景可以对候选题表中的题目进行调整。不需要进行重新的标注数据和训练模型就能满足各种业务的一些需求，能够提高推荐题目的准确性，更加符合用户的使用场景，提高用户推荐体验。

S205、题目推荐系统向客户端发送推荐信息，推荐信息包括推荐题目表。

在题目推荐系统获取到推荐题目表之后，可以向客户端发送推荐信息，推荐信息包括推荐题目表。对应地，客户端接收到来自服务端包括的题目推荐系统的推荐信息之后，可以基于题目推荐信息显示推荐题目。其中，推荐题目包括推荐题目表中的题目。客户端显示推荐题目的顺序可以按照推荐题目表进行显示。

上述的实施例中，首先，基于召回模块301能够快速且高效为不同的场景输出不同的候选题库，满足了不同业务场景的需要，保证候选题的全面性；其次，排序模型302能够在基于召回模块的候选题库使用复杂的精排模型准确地按照相似度得分高低进行排序，输送给重排序模块303，保证排序之后的候选题表的精准性和可靠性；最后，重排序模块303，针对不同业务场景使用的策略对相似题的推荐结果进行重排序，比如，去重、筛选、过滤等，动态的输出特定场景的题目，可以保证不同场景中题目的适用性和准确性。这样，可以针对不同的用户场景或者业务场景，高效快速地向用户推荐准确的题目。

请参阅图8，图8是本申请实施例公开的一种题目推荐装置的结构示意图。其中，该题目推荐装置可以包括：

接收单元801，用于接收来自客户端的第一题的信息；

获取单元802，用于基于所述第一题的信息从数据题库中获取候选题库，所述第一题的信息包括第一题的题目信息，所述候选题库包括至少一个候选题；

排序单元803，用于基于所述第一题的信息和特征排序算法对所述候选题库中的候选题进行排序，得到候选题表；

处理单元804，用于使用重排序算法对所述候选题表进行处理，得到推荐题目表；

发送单元805，用于向所述客户端发送推荐信息，所述推荐信息包括所述推荐题目表。

作为一种可能的实施方式，所述第一题的信息包括第一题的标签信息，所述获取单元802具体用于：

从所述第一题的信息中提取关键词；

基于所述关键词检索所述数据题库，得到候选题库。

作为一种可能的实施方式，所述获取单元802具体用于：

通过特征表示模型提取所述第一题的向量表示；

作为一种可能的实施方式，所述特征排序算法包括特征抽取器和语义分类网络，所述排序单元803具体用于：

使用所述特征抽取器提取所述第一题和所述候选题的特征；

作为一种可能的实施方式，所述处理单元804具体用于：

基于上述的描述，请参阅图9，图9是本申请实施例公开的一种电子设备的结构示意图。如图9所示，该设备可以包括处理器901、存储器902、输入接口903、输出接口904和总线905。存储器902可以是独立存在的，可以通过总线905与处理器901相连接。其中，输入接口903用于接收来自其它设备的信息，输出接口904用于向其它设备输出、调度或者发送信息。存储器902也可以和处理器901集成在一起。其中，总线905用于实现这些组件之间的连接。

在一个实施例中，该电子设备可以为题目推荐系统或者题目推荐系统内的模块(例如，芯片)，存储器902中存储的计算机程序指令被执行时，该处理器901用于接收单元801、获取单元802、排序单元803、处理单元804和发送单元805执行上述实施例中执行的操作，输入接口903用于接收来自其他设备的信息，输出接口904用于输出检测结果。上述电子设备或者电子设备内的模块还可以用于执行上述图2方法实施例中的各种方法，不再赘述。

本申请实施例还公开一种计算机可读存储介质，其上存储有指令，该指令被执行时执行上述方法实施例中的方法。

本申请实施例还公开一种包括指令的计算机程序产品，该指令被执行时执行上述方法实施例中的方法。

以上所述的具体实施方式，对本申请的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本申请的具体实施方式而已，并不用于限定本申请的保护范围，凡在本申请的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本申请的保护范围之内。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如DVD)、或者半导体介质(例如固态硬盘)等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，该流程可以由计算机程序来指令相关的硬件完成，该程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。而前述的存储介质包括：ROM或随机存储记忆体RAM、磁碟或者光盘等各种可存储程序代码的介质。

Claims

1.一种题目推荐方法，其特征在于，所述方法包括：

接收来自客户端的第一题的信息；

基于所述第一题的信息从数据题库中获取候选题库，所述第一题的信息包括第一题的题目信息，所述候选题库包括至少一个候选题；

基于所述第一题的信息和特征排序算法对所述候选题库中的候选题进行排序，得到候选题表；

使用重排序算法对所述候选题表进行处理，得到推荐题目表；

向所述客户端发送推荐信息，所述推荐信息包括所述推荐题目表。

2.根据权利要求1所述的方法，其特征在于，所述基于所述第一题的信息从数据题库中获取候选题库，包括：

从所述第一题的信息中提取关键词；

基于所述关键词检索所述数据题库，得到候选题库。

3.根据权利要求1所述的方法，其特征在于，所述第一题的信息包括第一题的标签信息，所述基于所述第一题的信息从数据题库中获取候选题库，包括：

4.根据权利要求1所述的方法，其特征在于，所述基于所述第一题的信息从数据题库中获取候选题库，包括：

通过特征表示模型提取所述第一题的向量表示；

5.根据权利要求1所述的方法，其特征在于，所述特征排序算法包括特征抽取器和语义分类网络，所述基于所述第一题的信息和特征排序算法对所述候选题库中的候选题进行排序，得到候选题表，包括：

使用所述特征抽取器提取所述第一题和所述候选题的特征；

6.根据权利要求1所述的方法，其特征在于，所述使用重排序算法对所述候选题表进行处理，得到推荐题目表，包括：

7.一种题目推荐装置，其特征在于，包括：

接收单元，用于接收来自客户端的第一题的信息；

8.一种电子设备，其特征在于，包括：处理器和存储器；所述处理器与存储器相连，其中，所述存储器用于存储计算机程序，所述处理器用于调用所述计算机程序，以使得所述计算机设备执行权利要求1-6任一项所述的方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序或计算机指令，当所述计算机程序或计算机指令被运行时，实现如权利要求1-6任一项所述的方法。

10.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序代码，当该计算机程序代码被运行时，所述权利要求1-6任一项所述的方法被执行。