CN112559676B

CN112559676B - 相似题目的检索方法、装置及计算机存储介质

Info

Publication number: CN112559676B
Application number: CN201910913733.7A
Authority: CN
Inventors: 蔡柳; 吴士婷
Original assignee: Beijing Xintang Sichuang Educational Technology Co Ltd
Current assignee: Beijing Xintang Sichuang Educational Technology Co Ltd
Priority date: 2019-09-25
Filing date: 2019-09-25
Publication date: 2022-05-17
Anticipated expiration: 2039-09-25
Also published as: CN112559676A

Abstract

本发明实施例提供一种相似题目的检索方法、装置及计算机存储介质。其中，所述方法包括：对目标题目执行特征提取操作，以获得所述目标题目的题目特征数据；基于所述题目特征数据包括的第一特征数据，查找预先建立的题目索引，以确定所述目标题目的相似题目的候选集；基于所述题目特征数据包括的第二特征数据，对所述目标题目的相似题目的候选集中的题目执行筛选操作，以确定所述目标题目的相似题目的检索结果。通过本发明实施例，能够既快速又准确地检索到目标题目的相似题目。

Description

相似题目的检索方法、装置及计算机存储介质

技术领域

本发明实施例涉及教育互联网技术领域，尤其涉及一种相似题目的检索方法、装置及计算机存储介质。

背景技术

老师在备课和出题组卷的过程中，经常需要在题目数据库中找到与某道题目相似的题目，方便进行题目的替换。在某些场景下，系统需要针对某一个学生做的错题推荐相应的拓展练习，同样需要用到相似题目的检索功能。但由于系统中题目的数量较多，人力不可能比较系统中的每一道题目，确定两道题目是否相似。因此，如何在巨大的题目数据库中快速准确地检索到目标题目的相似题目成为当前亟待解决的技术问题。

现有的相似题目的检索方案都是通过老师预先对题目数据库中的题目进行标签，通过题目的标签对题目数据库中的题目进行分类，然后通过相同的标签来检索与目标题目相似的题目。这种检索方案的主要缺点在于需要老师提前对题目数据库中的题目进行标签，人力成本高，并且相似题目的检索结果受标签的颗粒度的影响非常大，如果标签的颗粒度比较粗的情况下，检索到的相似题目很可能实际上并不相似，例如，标签同样为相似三角形的两道题目，一道题目实际考察相似三角形的定义，另一道题目实际考察相似三角形的性质，其实对老师而言，相似题目的检索结果准确性不高。此外，该检索方案对于完全没有标签的题目是无法处理的。

发明内容

有鉴于此，本发明实施例所解决的技术问题之一在于提供一种相似题目的检索方法、装置及计算机存储介质，用以解决现有技术中存在的如何快速准确地检索到目标题目的相似题目的技术问题。

本发明实施例提供一种相似题目的检索方法。所述方法包括：对目标题目执行特征提取操作，以获得所述目标题目的题目特征数据；基于所述题目特征数据包括的第一特征数据，查找预先建立的题目索引，以确定所述目标题目的相似题目的候选集，其中，所述第一特征数据包括所述目标题目的第一题干文本特征数据和/或第一知识点特征数据；基于所述题目特征数据包括的第二特征数据，对所述目标题目的相似题目的候选集中的题目执行筛选操作，以确定所述目标题目的相似题目的检索结果，其中，所述第二特征数据包括以下中的至少一者：所述第一题干文本特征数据、所述第一知识点特征数据、所述目标题目的第一公式内容特征数据、所述目标题目的第一图片内容特征数据、所述目标题目的第一题型特征数据。

本发明实施例还提供一种计算机可读介质，所述计算机存储介质存储有可读程序，所述可读程序包括：用于对目标题目执行特征提取操作，以获得所述目标题目的题目特征数据的指令；用于基于所述题目特征数据包括的第一特征数据，查找预先建立的题目索引，以确定所述目标题目的相似题目的候选集的指令，其中，所述第一特征数据包括所述目标题目的第一题干文本特征数据和/或第一知识点特征数据；用于基于所述题目特征数据包括的第二特征数据，对所述目标题目的相似题目的候选集中的题目执行筛选操作，以确定所述目标题目的相似题目的检索结果的指令，其中，所述第二特征数据包括以下中的至少一者：所述第一题干文本特征数据、所述第一知识点特征数据、所述目标题目的第一公式内容特征数据、所述目标题目的第一图片内容特征数据、所述目标题目的第一题型特征数据。

根据本发明实施例提供的相似题目的检索方案，对目标题目执行特征提取操作，以获得目标题目的题目特征数据，并基于题目特征数据包括的第一特征数据，查找预先建立的题目索引，以确定目标题目的相似题目的候选集，再基于题目特征数据包括的第二特征数据，对目标题目的相似题目的候选集中的题目执行筛选操作，以确定目标题目的相似题目的检索结果，与现有的其它方式相比，能够基于题目特征数据包括的第一特征数据，查找预先建立的题目索引，确定目标题目的相似题目的候选集，并基于题目特征数据包括的第二特征数据，对目标题目的相似题目的候选集中的题目执行筛选操作，确定目标题目的相似题目的检索结果，其中，第一特征数据包括目标题目的第一题干文本特征数据和/或第一知识点特征数据，第二特征数据包括以下中的至少一者：目标题目的第一题干文本特征数据、目标题目的第一知识点特征数据、目标题目的第一公式内容特征数据、目标题目的第一图片内容特征数据、目标题目的第一题型特征数据，因此，能够快速准确地检索到目标题目的相似题目。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1A示出了根据本发明实施例一的一种相似题目的检索方法的步骤流程图；

图1B示出了根据本发明实施例一的题目特征提取过程的示意图；

图1C示出了根据本发明实施例一的相似度矩阵获取过程的示意图；

图2A示出了根据本发明实施例二的一种相似题目的检索方法的步骤流程图；

图2B示出了根据本发明实施例二的相似题目的检索结果的获取过程的示意图；

图3示出了根据本发明实施例三的一种相似题目的检索装置的结构示意图。

具体实施方式

为了使本领域的人员更好地理解本发明实施例中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明实施例一部分实施例，而不是全部的实施例。基于本发明实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本发明实施例保护的范围。

下面结合本发明实施例附图进一步说明本发明实施例具体实现。

实施例一

参照图1A，示出了根据本发明实施例一的一种相似题目的检索方法的步骤流程图。本发明实施例提供的一种相似题目的检索方法包括以下步骤：

在步骤S101中，对目标题目执行特征提取操作，以获得所述目标题目的题目特征数据。

本实施例中，所述目标题目可理解为组卷出题场景中待替换的题目、备课换题场景中待替换的题目，或者错题扩展场景中待扩展的题目(做错的题目)等。如果所述目标题目不为题目数据库中的题目，可通过人工或相关算法获取所述目标题目的具体内容和标签信息。如果所述目标题目为题目数据库中的题目，则从题目数据库中获取所述目标题目的标识信息，并根据所述目标题目的标识信息，从题目数据库中的关联的数据表中，获取所述目标题目的具体内容和所有的标签信息，并对目标题目的具体内容和所有的标签信息进行解析，以获得所述目标题目的题干文本、知识点标签、公式内容、图片内容、题型的结构形式。其中，所述数据表为题目的标签信息的数据表，例如，题型数据表、题目知识点标签数据表、题目难度标签数据表。具体地，从题目数据库中获取目标题目的内容和标签信息之后，对目标题目的内容和标签信息进行解析，以获得json格式的字符串：

其中，目标题目的id字段对应存储着目标题目的唯一标识。目标题目的文本内容存储于content字段中，该content字段包含存储题干文本的body字段和存储目标题目的答案的answer字段，其中题干文本中有部分的图片内容，通过<img>html标签，记录图片存储在云端的地址。目标题目的文本内容中的公式是标准latex形式，例如，“x^2”代表x的平方，“\dfrac{a}{b}”代表a除以b。tags字段内则是目标题目的所有标签，一般由录题的老师人工进行标注，或通过相关算法进行自动标注，主要包含存储目标题目的题型的标签的type字段，存储目标题目的知识点标签的knowledge字段，及存储目标题目的难度标签的"difficulty字段等。例如，以下为一道高中数学填空题的具体题目结构形式：

{"question":{"id":"7w25grewfvgrenj535ruk","content":{"body":"如图，已知双曲线以长方形\$ABCD\$的顶点\$A\$，\$B\$为左、右焦点，且双曲线过\$C\$，\$D\$两顶点.若\$AB＝4\$，\$BC＝3\$，则此双曲线的标准方程为▁▁▁▁▁▁.\n<imgsrc＝\"http://seg-img.oss-cn-beijing.com/fermion/23184c85c75881beb7ba38c384bc505c.png\"width＝\"150\"/>"},"answer":"\$x^2-\\dfrac{y^2}{3}＝1\$"},"tags":{"knowledge":"【知识点】解析几何>基本量与方程>双曲线的基本量与方程","type":"填空题","difficulty":3}}。可以理解的是，以上描述仅为示例性的，本发明实施例对此不做任何限定。

可选的，在获得所述目标题目的内容和标签信息组成的json格式的字符串之后，可对目标题目执行特征提取操作，以获得所述目标题目的题目特征数据。其中，所述题目特征数据包括以下中的至少一者：所述目标题目的第一题干文本特征数据、所述目标题目的第一知识点特征数据、所述目标题目的第一公式内容特征数据、所述目标题目的第一图片内容特征数据、所述目标题目的第一题型特征数据。所述题目特征数据包括的各种特征数据从不同的角度对目标题目进行描述，能够有效修正描述目标题目的单一特征所带来的检索错误。可以理解的是，以上描述仅为示例性的，本发明实施例对此不做任何限定。

可选的，当所述题目特征数据包括所述第一题干文本特征数据时，所述对目标题目执行特征提取操作，以获得所述目标题目的题目特征数据，包括：对所述目标题目的题目文本内容数据执行预处理操作，以获得所述目标题目的题干文本内容数据；对所述题干文本内容数据执行拆分操作，以获得所述目标题目的题干的多个部分的文本内容数据；基于所述多个部分的文本内容数据，确定所述第一题干文本特征数据。籍此，通过针对题干文本内容数据的拆分操所获得的目标题目的题干的多个部分的文本内容数据，能够准确地确定目标题目的第一题干文本特征数据。可以理解的是，以上描述仅为示例性的，本发明实施例对此不做任何限定。

可选的，在基于所述多个部分的文本内容数据，确定所述第一题干文本特征数据时，基于所述多个部分中每个部分的文本内容数据中的词语的语义表征向量，确定所述每个部分的文本内容数据所对应的文本特征数据；基于获得的所述目标题目的题型，确定用于表征所述每个部分的文本内容数据对于所述目标题目的题目文本内容数据的重要程度的权重数据；基于所述每个部分的文本内容数据所对应的所述文本特征数据和所述权重数据，确定所述第一题干文本特征数据。籍此，通过每个部分的文本内容数据所对应的文本特征数据和用于表征每个部分的文本内容数据对于目标题目的题目文本内容数据的重要程度的权重数据，能够准确地确定目标题目的第一题干文本特征数据。可以理解的是，以上描述仅为示例性的，本发明实施例对此不做任何限定。

可选的，对目标题目的json格式的字符串中content字段的内容进行预处理，除去img标签和一些特殊的符号后，剩下的文本内容即为目标题目的题干文本内容。在此通过文本结构分析，将题干文本内容拆分为多个部分：基于关键短语或关键词、句子在题干文本内容中的位置以及句子间的断句符号、题型等，将题干文本内容拆分为多个部分，例如，背景部分(background，切分条件以逗号切分，一般在目标题目的开始，如图、如下图、如表、已知等词开头的多个短句)，条件部分(condition，切分条件以逗号或句号分割，一般是以假设、若等词开头的多个短句)，设问部分(question，切分条件以逗号、句号、问号分割，一般在目标题目的结束，以请问、则、求、回答等词开头的多个短句)，选项部分(choose，选择题的选项，一般是以a、b、c、d等开头的短句，对于其他题型则为空)。举例说明，上述高中数学填空题的题干可切分为：

{"backgroud":["双曲线以长方形ABCD的顶点A，B为左、右焦点","双曲线过C，D两顶点"],"condition":["AB＝4，BC＝3"],"question":["双曲线的标准方程为"],"choose":[],}。在将题干文本内容拆分为多个部分之后，对于每一个部分分别进行分词，以获得每一个部分的分词，并通过word2vec模型训练每一个分词的词向量(即语义表征向量)，再通过叠加词向量，计算出每一个部分对应的文本特征向量。最后，对于题干的不同部分相对目标题目文本内容的重要性进行加权，例如，对于应用题，背景部分的权重数据预先配置为0.5，条件部分的权重数据预先配置为0.2，问题部分的权重数据预先配置为0.3；对于选择题，背景部分的权重数据预先配置为0.4，条件部分的权重数据预先配置为0.1，问题部分的权重数据预先配置为0.1，选项部分的权重数据预先配置为0.4。最终，通过加权平均每一个部分对应的文本特征向量，融合成一个新的向量作为目标题目的第一题干文本特征数据，存储至题目数据库中。可以理解的是，以上描述仅为示例性的，本发明实施例对此不做任何限定。

可选的，当所述题目特征数据包括所述第一公式内容特征数据时，所述对目标题目执行特征提取操作，以获得所述目标题目的题目特征数据，包括：通过正则表达式，对所述目标题目的题目文本内容数据执行文本提取操作，以获得所述目标题目对应的公式文本内容数据；基于预设的映射规则，对所述公式文本内容数据执行映射操作，以获得所述公式文本内容数据对应的第一公式的集合；基于所述第一公式的集合，确定所述第一公式内容特征数据。籍此，通过公式文本内容数据对应的第一公式的集合，能够准确地确定目标题目的第一公式内容特征数据。可以理解的是，以上描述仅为示例性的，本发明实施例对此不做任何限定。

可选的，在基于所述第一公式的集合，确定所述第一公式内容特征数据时，基于预设的公式长度阈值，对所述第一公式的集合执行过滤操作，以获得公式长度满足所述公式长度阈值的第二公式；对所述第二公式中的变量进行替换，以获得所述第二公式的标准的公式结构；对所述第二公式的标准的公式结构执行映射操作，以获得所述第二公式的公式特征词；基于所述第二公式的公式特征词，确定所述第一公式内容特征数据。籍此，通过公式长度满足所述公式长度阈值的第二公式的公式特征词，能够准确地确定目标题目的第一公式内容特征数据。可以理解的是，以上描述仅为示例性的，本发明实施例对此不做任何限定。

在实际应用中，试题中的公式文本一般是latex形式的文本形式，标志位为“\\”或“$$”。通过预先配置的正则表达式，从目标题目的json格式的字符串中content字段的内容中提取目标题目的公式文本内容，并通过latex符号映射等预设的映射规则对公式文本内容执行映射操作，以获得公式文本内容对应的公式集合。对于试题中的数学公式和理化生公式，需要首先设定公式长度阈值，过滤一定长度的短公式(如单个的a，b，c字母，由于在不同的题目中指代意义不明，不能被明确的指定为单个公式结构)。因此，在获得公式文本内容对应的公式集合之后，需要对公式集合执行过滤操作，获得公式长度满足公式长度阈值的公式。再然后，通过变量替换，获得公式长度满足公式长度阈值的公式的标准的公式结构，并对标准的公式结构进行关键词的映射，以获得公式特征词，并对公式特征词进行特征编码，以获得公式特征编码向量，也即是目标题目的第一公式内容特征数据，存储至题目数据库中。例如，目标题目的题干如下：

设\$m\\in{\\mathbf{R}}\$，解关于\$x\$的不等式\${m^2}{x^2}+2mx-3<0\$.其中，in{mathbf{}}在latex中代表集合的属于符号，{}代表括号。

通过正则表达式提取公式的过程如下：

{"formula":["m∈R","x","{m^2}{x^2}+2mx-3<0"]}正则过滤，latex符号映射

＝{"formula":["m∈R","{m^2}{x^2}+2mx-3<0"]}过滤单个的字母公式

＝{"formula":["m∈R","a(x^2)+bx+c<0"]}

＝{"formula":["实数范围","一元二次不等式"]}

＝{"formula":["3123","2134"]}存储特征编码，节省存储空间

其中，对x^2前面的变量替换为变量+a，对于x前面的变量替换为+b，对于常数变量-3替换为+c，再根据标准的公式结构，映射得到关键词组，因此，对于“[]∈R”的结构，识别为实数范围，对于“ax^2+bx+c<0”或“ax^2+bx+c<0”的公式结构，识别为一元二次不等式。这样，可将公式的信息提取出来，并且具有可以理解的意义。又例如，

{"formula":["\$\\dfrac{x^2}{a}-\\dfrac{y^2}{b}＝1\$","{x^2}+m*x+n＝0\\","a_n"]}

＝{"formula":"(x^2)/(a)-(y^2)/(b)＝1","a(x^2)+b*x+c＝0","a_n"}latex符号映射和变量变换

＝{"formula":"双曲线方程","一元二次方程","数列"}标准的公式结构映射为公式特征词。可以理解的是，以上描述仅为示例性的，本发明实施例对此不做任何限定。

可选的，当所述题目特征数据包括所述第一图片内容特征数据时，所述对目标题目执行特征提取操作，以获得所述目标题目的题目特征数据，包括：获取所述目标题目的题目文本内容数据中的图片存储地址数据；基于所述图片存储地址数据，下载所述图片存储地址数据所对应的图片数据；对所述图片数据进行二值化处理，以将所述图片数据的数据类型转换为可操作的数据类型；通过图片内容特征提取模型，对属于所述可操作的数据类型的所述图片数据进行特征提取操作，以获得所述第一图片内容特征数据。籍此，通过图片数据的二值化处理和图片内容特征提取模型，能够准确地确定目标题目的第一图片内容特征数据。可以理解的是，以上描述仅为示例性的，本发明实施例对此不做任何限定。

可选的，由于大部分有用的图片内容都是几何类图片，因此，需要下载img标签内url地址对应的图片，并对图片进行二值化处理，将图片的数据类型转换为计算机可以操作的数据类型，通过图片内容特征提取模型，对图片进行特征提取，以获得图片的内容特征数据，也即是目标题目的第一图片内容特征数据，并存储于题目数据库中。其中，所述图片内容特征提取模型可以是任意适当的可实现特征提取或目标对象检测的神经网络模型，包括但不限于卷积神经网络、增强学习神经网络、对抗神经网络中的生成网络等。神经网络中具体结构的设置可以由本领域技术人员根据实际需求适当设定，如卷积层的层数、卷积核的大小、通道数等。可以理解的是，以上描述仅为示例性的，本发明实施例对此不做任何限定。

可选的，当所述题目特征数据包括所述第一题型特征数据时，可对目标题目执行特征提取操作，以获得所述目标题目的第一题型特征数据。具体地，目标题目的题型标签一般在录入目标题目时，由录题的人员进行人工标注，存入题目数据库中。在解析得到目标题目的题型标签时，根据目标题目的题型标签进行编码，例如，选择题题型编码为1，填空题题型编码为2，然后存储至题目数据库中的特征库中。一般，一道题目只会有一个题型标签。可以理解的是，以上描述仅为示例性的，本发明实施例对此不做任何限定。

可选的，当所述题目特征数据包括所述第一知识点特征数据时，可对目标题目执行特征提取操作，以获得所述目标题目的第一知识点特征数据。具体地，一般在录入目标题目时，通过人工或者算法标注的形式，打上目标题目的知识点的标签。例如，上述题目的知识点标签是：【解析几何、基本量与方程、双曲线的基本量方程】，将题目的所有知识点进行顺序编码，这样单道题目的知识点标签转化为【43004，43005，43007】的向量，存储于题目数据库的特征数据库中。一般一道题目会有多个知识点标签。可以理解的是，以上描述仅为示例性的，本发明实施例对此不做任何限定。

在步骤S102中，基于所述题目特征数据包括的第一特征数据，查找预先建立的题目索引，以确定所述目标题目的相似题目的候选集。

本实施例中，所述第一特征数据可理解为用于确定目标题目的相似题目的候选集的特征数据。所述第一特征数据包括所述目标题目的第一题干文本特征数据和/或第一知识点特征数据。所述预先建立的题目索引可理解为题目数据库中题目样本的特征数据到题目数据库中题目样本的索引。可以理解的是，以上描述仅为示例性的，本发明实施例对此不做任何限定。

可选的，所述基于所述题目特征数据包括的第一特征数据，查找预先建立的题目索引之前，所述方法还包括：对题目数据库中的题目样本进行特征提取操作，以获得所述题目样本的第二题干文本特征数据和/或第二知识点特征数据；建立所述第二题干文本特征数据到所述题目样本的题目索引和/或所述第二知识点特征数据到所述题目样本的题目索引。这样，便可通过读取题目索引的方式，迅速地召回目标题目的相似题目的候选集，避免了需要将目标题目与题目数据库中所有的题目样本进行比较，减少了需要比较的数量，在尽可能小的计算量下带来较高的检索正确率。与此同时，也保证了不具有知识点标签(第一知识点特征数据)的目标题目，同样可以根据第二题干文本特征数据到题目样本的题目索引来召回目标题目的相似题目的候选集。可以理解的是，以上描述仅为示例性的，本发明实施例对此不做任何限定。

可选的，所述对题目数据库中的题目样本进行特征提取操作的具体实施方式与上述对目标题目进行特征提取操作的具体实施方式类似，在此不再赘述。在建立所述第二知识点特征数据到所述题目样本的题目索引时，为了达到在线快速检索题目的目的，给题目样本的知识点标签(第二知识点特征数据)建立倒排索引。一般正常的知识点标签的存储方式是题目样本标识到题目样本的知识点标签这样的键值形式，但如果需要找到与目标题目的知识点标签相同的题目样本时，处理较为麻烦，因此，将知识点标签建立倒排索引，存储记录每个知识点标签对应的题目样本标识，从而可以快速地召回与目标题目具有相同知识点的相似题目的候选集。可以理解的是，以上描述仅为示例性的，本发明实施例对此不做任何限定。

可选的，在基于所述题目特征数据包括的第一特征数据，查找预先建立的题目索引，以确定所述目标题目的相似题目的候选集时，基于所述第一题干文本特征数据，查找所述第二题干文本特征数据到所述题目样本的题目索引，以确定所述第二题干文本特征数据与所述第一题干文本特征数据相似的题目样本的第一集合；和/或基于所述第一知识点特征数据，查找所述第二知识点特征数据到所述题目样本的题目索引，以确定所述第二知识点特征数据与所述第一知识点特征数据相同的题目样本的第二集合；基于所述第一集合和/或所述第二集合，确定所述目标题目的相似题目的候选集。籍此，通过确定第二题干文本特征数据与第一题干文本特征数据相似的题目样本的第一集合和/或第二知识点特征数据与第一知识点特征数据相同的题目样本的第二集合，能够有效提高目标题目的相似题目检索的召回率。可以理解的是，以上描述仅为示例性的，本发明实施例对此不做任何限定。

可选的，如图1B所示，题目数据库中的题目样本与目标题目类似，同样提取了题干文本特征数据、知识点特征数据、公式内容特征数据、图片内容特征数据、题型特征数据。虽然题目样本提取了多种特征数据，但是仅仅对于题干文本特征数据和/或知识点特征数据建立了索引，来保证可以根据目标题目的第一题干文本特征数据和/或第一知识点特征数据，迅速地召回目标题目的相似题目的候选集。这是由于在衡量两道题目是否相似时，大部分的衡量标准即是题目的题干是否相似，或者两道题目是否考察了相同的知识点。仅具有相同题型的两道题目，是不一定相似的。此外，在知识点标签不准，或者颗粒度太粗的情况下，仅通过知识点特征数据，得到的两道相似题目可能也不是理想的结果。因此，本实施例通过同时建立第二题干文本特征数据到题目样本的题目索引和第二知识点特征数据到题目样本的题目索引，这样可以单独通过题干文本特征数据或知识点特征数据召回目标题目的相似题目的候选集。也可以分别通过题干文本特征数据和知识点特征数据召回，找到与目标题目的题干相似的题目的集合和与目标题目的知识点相似的题目的集合，组成一个大的候选集合，从而提高了目标题目的相似题目检索的召回率。可以理解的是，以上描述仅为示例性的，本发明实施例对此不做任何限定。

可选的，在基于第一题干文本特征数据，查找第二题干文本特征数据到题目样本的题目索引，以确定第二题干文本特征数据与第一题干文本特征数据相似的题目样本的第一集合时，确定多个与所述第一题干文本特征数据最邻近的第二题干文本特征数据分别对应的第一搜索单元；基于所述第一搜索单元，确定所述第一题干文本特征数据所对应的第二搜索单元；确定对应于所述第二搜索单元的第二题干文本特征数据与所述第一题干文本特征数据的距离，并基于所述距离，确定所述第二题干文本特征数据与所述第一题干文本特征数据相似的题目样本的第一集合。籍此，通过确定对应于第二搜索单元的第二题干文本特征数据与第一题干文本特征数据的距离，并基于所述距离，确定第二题干文本特征数据与第一题干文本特征数据相似的题目样本的第一集合，能够避免在第二题干文本特征数据到题目样本的题目索引中暴力搜索与第一题干文本特征数据相似的第二题干文本特征数据，不仅节省了计算资源，而且还提高了计算速度。可以理解的是，以上描述仅为示例性的，本发明实施例对此不做任何限定。

可选的，第二题干文本特征数据到题目样本的题目索引主要用来快速检索与目标题目的第一题干文本特征数据相似的n个第二题干文本特征数据。具体地，给定目标题目的第一题干文本特征向量，通过KNN算法搜索与目标题目的第一题干文本特征向量的余弦相似度距离最近的k个题目样本的第二题干文本特征向量，这个过程被称为召回。为节省计算资源并提高计算速度，在此根据泰森多边形生成算法，将题目样本的第二题干文本特征向量的搜索空间划分为数个小的搜索单元，将需要搜索的第二题干文本特征向量通过数学关系映射于对应的搜索单元中，通过控制搜索单元的数目，仅搜索邻近的搜索单元，从而避免暴力搜索所有题目样本的第二题干文本特征向量。可以理解的是，以上描述仅为示例性的，本发明实施例对此不做任何限定。

在步骤S103中，基于所述题目特征数据包括的第二特征数据，对所述目标题目的相似题目的候选集中的题目执行筛选操作，以确定所述目标题目的相似题目的检索结果。

本实施例中，所述第二特征数据可理解为用于确定目标题目的相似题目的检索结果的特征数据。所述第二特征数据包括以下中的至少一者：所述第一题干文本特征数据、所述第一知识点特征数据、所述第一公式内容特征数据、所述第一图片内容特征数据、所述第一题型特征数据。可以理解的是，以上描述仅为示例性的，本发明实施例对此不做任何限定。

可选的，在基于所述题目特征数据包括的第二特征数据，对所述目标题目的相似题目的候选集中的题目执行筛选操作时，基于所述第二特征数据，确定所述目标题目与所述候选集中的题目的相似度；基于所述相似度，确定所述相似题目的检索结果。籍此，通过目标题目与候选集中的题目的相似度，能够准确地确定目标题目的相似题目的检索结果。可以理解的是，以上描述仅为示例性的，本发明实施例对此不做任何限定。

可选的，在基于所述第二特征数据，确定所述目标题目与所述候选集中的题目的相似度时，确定所述第一题干文本特征数据与所述候选集中的题目的第二题干文本特征数据的第一相似度；确定所述第一知识点特征数据与所述候选集中的题目的第二知识点特征数据的第二相似度；确定所述第一公式内容特征数据与所述候选集中的题目的第二公式内容特征数据的第三相似度；确定所述第一图片内容特征数据与所述候选集中的题目的第二图片内容特征数据的第四相似度；确定所述第一题型特征数据与所述候选集中的题目的第二题型特征数据的第五相似度；基于所述第一相似度、所述第二相似度、所述第三相似度、所述第四相似度，及所述第五相似度，确定所述目标题目与所述候选集中的题目的相似度。籍此，通过所述第一相似度、所述第二相似度、所述第三相似度、所述第四相似度，及所述第五相似度，能够准确地确定目标题目与候选集中的题目的相似度。可以理解的是，以上描述仅为示例性的，本发明实施例对此不做任何限定。

可选的，在确定所述第一题干文本特征数据与所述候选集中的题目的第二题干文本特征数据的第一相似度时，计算所述第一题干文本特征向量与所述候选集中的题目的第二题干文本特征向量的余弦相似度。在确定所述第一知识点特征数据与所述候选集中的题目的第二知识点特征数据的第二相似度时，计算所述第一知识点特征向量与所述候选集中的题目的第二知识点特征向量的杰卡德相似度。在确定所述第一公式内容特征数据与所述候选集中的题目的第二公式内容特征数据的第三相似度时，计算所述第一公式内容特征向量与所述候选集中的题目的第二公式内容特征向量的杰卡德相似度。在确定所述第一图片内容特征数据与所述候选集中的题目的第二图片内容特征数据的第四相似度时，计算所述第一图片内容特征向量与所述候选集中的题目的第二图片内容特征向量的余弦相似度。在确定所述第一题型特征数据与所述候选集中的题目的第二题型特征数据的第五相似度时，计算所述第一题型特征向量与所述候选集中的题目的第二题型特征向量的杰卡德相似度。具体地，对于题干文本特征向量和图片内容特征向量这种数值型的特征向量可计算其余弦相似度。对于知识点特征向量、公式内容特征向量和题型特征向量这种编码型的特征向量可计算其杰卡德相似度。最终，确定得到的所述第一相似度、所述第二相似度、所述第三相似度、所述第四相似度，及所述第五相似度组成特征相似度的矩阵。可以理解的是，以上描述仅为示例性的，本发明实施例对此不做任何限定。

可选的，在基于所述第一相似度、所述第二相似度、所述第三相似度、所述第四相似度，及所述第五相似度，确定所述目标题目与所述候选集中的题目的相似度时，基于相似题目需求数据，确定所述第一相似度、所述第二相似度、所述第三相似度、所述第四相似度，及所述第五相似度分别对应的权重数据；基于所述第一相似度、所述第二相似度、所述第三相似度、所述第四相似度，及所述第五相似度分别对应的权重数据、所述第一相似度、所述第二相似度、所述第三相似度、所述第四相似度，及所述第五相似度，确定所述目标题目与所述候选集中的题目的相似度。籍此，通过基于用户针对相似题目的需求数据确定的目标题目与候选集中的题目的相似度，能够既快速又准确地检索到符合用户需求的相似题目。可以理解的是，以上描述仅为示例性的，本发明实施例对此不做任何限定。

可选的，在试卷换题的场景下，有的时候需要两道相似题目在题干文本尽可能的相似，例如，应用题仅修改数字，有的时候需要题目知识点相似即可，不要求题型、题意一致，有的时候需要改变题型，例如选择题改成填空题。在题目文本内容有限的几何题中，则需要题目的图片内容尽可能的相似。同时，用户在不同的场景下对于相似题目的需求也不全相同，有的场景下，希望公式能够越近似越好，有的场景下则只需找到有相同图片的题目。在具体实施时，可通过相似题目需求数据来表征用户针对相似题目的需求。所述相似题目需求数据可为目标题目的检索场景特征数据，或者用户针对相似题目的要求数据等。当所述相似题目需求数据为目标题目的检索场景特征数据时，可根据预先为检索场景配置的权重数据，确定所述第一相似度、所述第二相似度、所述第三相似度、所述第四相似度，及所述第五相似度分别对应的权重数据。当所述相似题目需求数据为用户针对相似题目的要求数据时，可根据用户实时调整的权重数据，确定所述第一相似度、所述第二相似度、所述第三相似度、所述第四相似度，及所述第五相似度分别对应的权重数据。其中，可预先配置相似题目需求数据，或者在相似题目的检索系统中的页面中实时获取用于设置的相似题目需求数据。可以理解的是，以上描述仅为示例性的，本发明实施例对此不做任何限定。

可选的，在基于所述第一相似度、所述第二相似度、所述第三相似度、所述第四相似度，及所述第五相似度分别对应的权重数据、所述第一相似度、所述第二相似度、所述第三相似度、所述第四相似度，及所述第五相似度，确定所述目标题目与所述候选集中的题目的相似度时，基于所述第一相似度、所述第二相似度、所述第三相似度、所述第四相似度，及所述第五相似度分别对应的权重数据、所述第一相似度、所述第二相似度、所述第三相似度、所述第四相似度，及所述第五相似度进行加权求和或加权平均的计算，可获得目标题目与候选集中的题目的相似度。可以理解的是，以上描述仅为示例性的，本发明实施例对此不做任何限定。

可选的，在基于所述相似度，确定所述相似题目的检索结果时，当相似题目的检索系统没有人使用时，相似题目的检索系统处于冷启动时期，相似题目的检索系统没有用户的使用数据积累，算法对于多个特征相似度采用加权求和的方式，建立新的相似度得分函数，也即对于不同特征的相似度赋予不同的权重，得到一个最终的相似度得分，并按照最终的相似度得分，对候选集中的题目进行排序，输出相似度得分最高的前N道题目，并将相似度得分最高的前N道题目返回给用户。可以理解的是，以上描述仅为示例性的，本发明实施例对此不做任何限定。

可选的，如图1C所示，如果目标题目为题目数据库中的题目，获取目标题目的标识信息，并根据目标题目的标识信息，从题目特征存储库中，获取所述目标题目的题目特征数据。在获取目标题目的题目特征数据之前，相似题目的检索系统预先对题目数据库中的所有题目执行特征提取操作，以获得题目数据库中的所有题目的题目特征数据，并将所有题目的题目特征数据存储于题目特征存储库中。在获取所述目标题目的题目特征数据之后，基于所述目标题目的题目特征数据中的知识点特征数据，查找预先建立的知识点特征数据到题目数据库中题目样本的题目索引，召回基于知识点的相似题目的候选集，以及基于所述目标题目的题目特征数据中的题干文本特征数据，查找预先建立的题干文本特征数据到题目数据库中题目样本的题目索引，召回基于题干文本的相似题目的候选集。然后，将基于知识点的相似题目的候选集与基于题干文本的相似题目的候选集相加，组成一个大的候选集。接着，基于大的候选集中的题目的标识信息，从题目特征存储库中，获取所述大的候选集中的题目的题目特征数据。然后，将所述目标题目的题目特征数据与所述大的候选集中的题目的题目特征数据进行特征匹配。具体地，计算所述大的候选集中的题目的题目特征数据包括的各项特征数据分别与所述目标题目的题目特征数据包括的各项特征的相似度，组成相似度矩阵。可以理解的是，以上描述仅为示例性的，本发明实施例对此不做任何限定。

通过本发明实施例提供的相似题目的检索方法，对目标题目执行特征提取操作，以获得目标题目的题目特征数据，并基于题目特征数据包括的第一特征数据，查找预先建立的题目索引，以确定目标题目的相似题目的候选集，再基于题目特征数据包括的第二特征数据，对目标题目的相似题目的候选集中的题目执行筛选操作，以确定目标题目的相似题目的检索结果，与现有的其它方式相比，能够基于题目特征数据包括的第一特征数据，查找预先建立的题目索引，确定目标题目的相似题目的候选集，并基于题目特征数据包括的第二特征数据，对目标题目的相似题目的候选集中的题目执行筛选操作，确定目标题目的相似题目的检索结果，其中，第一特征数据包括目标题目的第一题干文本特征数据和/或第一知识点特征数据，第二特征数据包括以下中的至少一者：目标题目的第一题干文本特征数据、目标题目的第一知识点特征数据、目标题目的第一公式内容特征数据、目标题目的第一图片内容特征数据、目标题目的第一题型特征数据，因此，能够快速准确地检索到目标题目的相似题目。

本实施例的相似题目的检索方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：摄像头、终端、移动终端、PC机、服务器、车载设备、娱乐设备、广告设备、个人数码助理(PDA)、平板电脑、笔记本电脑、掌上游戏机、智能眼镜、智能手表、可穿戴设备、虚拟显示设备或显示增强设备(如Google Glass、Oculus Rift、Hololens、Gear VR)等。

实施例二

参照图2A，示出了根据本发明实施例二的一种相似题目的检索方法的步骤流程图。本发明实施例提供的一种相似题目的检索方法包括以下步骤：

在步骤S201中，对目标题目执行特征提取操作，以获得所述目标题目的题目特征数据。

由于该步骤S201与上述步骤S101类似，在此不再赘述。

在步骤S202中，基于所述题目特征数据包括的第一特征数据，查找预先建立的题目索引，以确定所述目标题目的相似题目的候选集。

由于该步骤S202与上述步骤S102类似，在此不再赘述。

在步骤S203中，基于所述第二特征数据，确定所述目标题目与所述候选集中的题目的相似度。

本实施例中，所述步骤S203的具体实施方式与上文基于所述第二特征数据，确定所述目标题目与所述候选集中的题目的相似度的具体实施方式类似，在此不再赘述。可以理解的是，以上描述仅为示例性的，本发明实施例对此不做任何限定。

在步骤S204中，通过点击率预测模型，基于所述相似度和获得的检索场景特征数据，预测用户在所述检索场景特征数据指示的检索场景中针对所述候选集中的题目的点击概率。

本实施例中，所述点击率预测模型可以是任意适当的可实现特征提取或目标对象检测的神经网络模型，包括但不限于卷积神经网络、增强学习神经网络、对抗神经网络中的生成网络等。神经网络中具体结构的设置可以由本领域技术人员根据实际需求适当设定，如卷积层的层数、卷积核的大小、通道数等。所述检索场景特征数据可理解为用于表征检索场景的特征数据。具体地，用户检索相似题目的检索场景可在相似题目的检索系统中进行归类，例如，组卷出题场景、备课换题场景、错题拓展场景三种场景。对于每一种检索场景，可采用OneHot编码向量对其进行编码，从而获得每一种检索场景的OneHot编码向量，也即是检索场景特征数据。例如，组卷出题场景、备课换题场景、错题拓展场景三种场景的OneHot编码向量的表示方法分别为1，0，0；0，1，0以及0，0，1。可以理解的是，以上描述仅为示例性的，本发明实施例对此不做任何限定。

可选的，所述通过点击率预测模型，基于所述相似度和获得的检索场景特征数据，预测用户在所述检索场景特征数据指示的检索场景中针对所述候选集中的题目的点击概率之前，所述方法还包括：基于历史时间段内用户在不同的检索场景中针对所述相似题目的检索结果的点击结果，对待训练的所述点击率预测模型进行训练，以获得训练后的所述点击率预测模型。其中，所述点击结果可理解为用户未点击相似题目的检索结果，或者用户点击了相似题目的检索结果，也即是用户点击相似题目的检索结果的概率为0或1。籍此，通过历史时间段内用户在不同的检索场景中针对所述相似题目的检索结果的点击结果，对待训练的点击率预测模型进行训练，能够使得训练得到的点击率预测模型能够有效预测用户在检索场景特征数据指示的检索场景中针对候选集中的题目的点击概率。可以理解的是，以上描述仅为示例性的，本发明实施例对此不做任何限定。

可选的，当不同的用户在相似题目的检索系统中获取相似题目的检索结果之后，用户在不同的检索场景中针对相似题目的检索结果有不同的点击行为。当相似题目的检索系统逐渐开始积累用户在不同的检索场景中针对相似题目的检索结果的点击行为数据时，相似题目的检索系统通过页面获取相似题目的检索场景，在不同的页面进行数据埋点，采集用户对于相似题目的检索结果的点击行为数据(点击结果)。相似题目的检索系统积累一部分用户在不同的检索场景中针对相似题目的检索结果的点击行为数据后，根据历史时间段内用户在不同的检索场景中针对相似题目的检索结果的点击行为数据，训练点击率预测模型。具体地，通过建立点击概率为目标函数，转换为一个预测用户是否会点击相似题目的检索结果的二分类模型，通过训练一个深度学习模型来学习各项参数。点击行为数据积累的越多，点击率预测模型越能学习到在不同的检索场景下不同特征的重要性，也就更能满足用户的需求。可以理解的是，以上描述仅为示例性的，本发明实施例对此不做任何限定。

可选的，点击率预测模型的输入特征数据包括两个部分，第一个部分为目标题目与候选集中的题目的相似度，第二个部分为检索场景的OneHot编码向量，也即是检索场景特征数据。具体的，对目标题目与候选集中的题目的相似度组成的相似度向量与检索场景的OneHot编码向量进行列拼接，组成最终的特征矩阵。选取检索场景的OneHot编码向量作为点击率预测模型的输入特征数据的主要原因为，对于不同的检索场景，不同的特征的相似度的权重占比是不一样的。例如，对于组卷出题场景而言，用户检索相似题目的目的主要是为了考察相同的知识点，并且需要相同的题型去填补该题的空缺，此时知识点相似度和题型相似度的权重占比较大，对于题干和公式的相似度权重占比较小。对于错题扩展场景，用户检索相似题目需要两道题目尽可能的题干相似，例如题目改一下数字，或者填空题改一下选择题，此时则题干相似度的权重较大。可以理解的是，以上描述仅为示例性的，本发明实施例对此不做任何限定。

可选的，在通过点击率预测模型，基于所述相似度和获得的检索场景特征数据，预测用户在所述检索场景特征数据指示的检索场景中针对所述候选集中的题目的点击概率时，获取用户在不同的检索场景中针对所述候选集中的题目的难度偏好特征数据和题型偏好特征数据；通过点击率预测模型，基于所述相似度、所述检索场景特征数据、所述难度偏好特征数据和所述题型偏好特征数据，预测用户在所述检索场景特征数据指示的检索场景中针对所述候选集中的题目的点击概率。籍此，通过所述相似度、所述检索场景特征数据、所述难度偏好特征数据和所述题型偏好特征数据，能够更加准确地预测用户在检索场景特征数据指示的检索场景中针对候选集中的题目的点击概率。可以理解的是，以上描述仅为示例性的，本发明实施例对此不做任何限定。

可选的，在获取用户在不同的检索场景中针对所述候选集中的题目的难度偏好特征数据和题型偏好特征数据时，基于历史时间段内用户在不同的检索场景中针对所述相似题目的检索结果的点击结果，确定用户在不同的检索场景中针对不同难度的题目的第一点击概率，以及用户在不同的检索场景中针对不同题型的题目的第二点击概率；基于用户在不同的检索场景中针对不同难度的题目的第一点击概率，确定用户在不同的检索场景中针对所述候选集中的题目的难度偏好特征数据；基于用户在不同的检索场景中针对不同题型的题目的第二点击概率，确定用户在不同的检索场景中针对所述候选集中的题目的题型偏好特征数据。籍此，通过用户在不同的检索场景中针对不同难度的题目的第一点击概率，以及用户在不同的检索场景中针对不同题型的题目的第二点击概率，能够准确地确定用户在不同的检索场景中针对候选集中的题目的难度偏好特征数据和题型偏好特征数据。可以理解的是，以上描述仅为示例性的，本发明实施例对此不做任何限定。

可选的，点击率预测模型的输入特征数据包括三个部分，第一个部分为目标题目与候选集中的题目的相似度，第二个部分为检索场景的OneHot编码向量，也即是检索场景特征数据，第三个部分为用户在特定的检索场景中针对所述候选集中的题目的难度偏好特征数据和题型偏好特征数据。第三个部分的特征数据为通过历史时间段内用户在不同的检索场景中针对相似题目的检索结果的点击结果，获取用户在不同的检索场景下对于题目的难度和题型的偏好特征数据，三个部分的特征数据进行列拼接，组成最终的特征矩阵。具体地，用户对于题目难度和题型的偏好特征需要通过历史时间段内用户在不同场景下，对于题目的点击行为数据来计算。首先，计算历史时间段内用户在不同的检索场景下分别选择不同难度和题型的题目的点击概率，从而获得点击候选集中的题目对应的难度或题型的点击概率，即为难度偏好特征数据或者题型偏好特征数据。例如，在出题组卷场景中，在题目的难度划分为[1，2，3，4，5]五个等级的情况下，用户对于题目的难度选择的概率为[0.3，0.4，0.2，0.1，0]，候选集中的题目的难度分别为3，3，2，则难度偏好特征数据为[0.2，0.2，0.4]，此时，候选集中的题目的对应难度的点击概率即为用户的难度偏好特征数据。题型偏好特征数据的获取方式与难度偏好特征数据的获取方式类似，在此不再赘述。可以理解的是，以上描述仅为示例性的，本发明实施例对此不做任何限定。

在步骤S205中，基于所述点击概率，确定用户在所述检索场景中针对所述相似题目的检索结果。

本实施例中，对于不同的检索场景进行了建模。通过建立的点击率预测模型，预测用户在不同的检索场景下点击候选集中的题目的点击概率，将用户最有可能选择的题目进行重新排序，提高了检索的准确性。具体地，输入题目各项特征的相似度、检索场景特征数据、难度偏好特征数据和题型偏好特征数据拼接的总和特征，预测用户对通过题目索引召回的候选集中的题目的点击概率，从大到小排序，最终返回排序在前的预设个数的相似题目的检索结果，推荐用户最有可能点击的相似题目，而不是每个检索场景下都是千篇一律的相似题目的检索结果。可以理解的是，以上描述仅为示例性的，本发明实施例对此不做任何限定。

可选的，如图2B所示，在获得特征相似度矩阵之后，判断相似题目的检索系统是否是冷启动。如果相似题目的检索系统是冷启动，对相似度矩阵中的相似度进行加权求和，以获得目标题目与候选集中的题目的相似度得分。然后，基于目标题目与候选集中的题目的相似度得分，对候选集中的题目进行排序，以获得候选集中的题目的排序结果。最后，基于候选集中的题目的排序结果，确定目标题目的相似题目的检索结果。如果相似题目的检索系统不是冷启动，对特征相似度和检索场景编码特征数据进行拼接，获得拼接后的特征数据，并将拼接后的特征数据输入点击率预测模型，点击率预测模型输出用户点击候选集中的题目的概率。然后，基于用户点击候选集中的题目的概率，对候选集中的题目进行排序，以获得候选集中的题目的排序结果。最后，基于候选集中的题目的排序结果，确定目标题目的相似题目的检索结果。其中，在将拼接后的特征数据输入点击率预测模型之前，采集历史时间段内用户在不同的检索场景中针对相似题目的检索结果的点击行为数据，并基于历史时间段内用户在不同的检索场景中针对相似题目的检索结果的点击行为数据，训练点击率预测模型。可以理解的是，以上描述仅为示例性的，本发明实施例对此不做任何限定。

在实施例一的基础上，基于题目特征数据包括的第二特征数据，确定目标题目与目标题目的相似题目的候选集中的题目的相似度，并通过点击率预测模型，基于所述相似度和获得的检索场景特征数据，预测用户在检索场景特征数据指示的检索场景中针对候选集中的题目的点击概率，再基于所述点击概率，确定用户在检索场景中针对相似题目的检索结果，与现有的其它方式相比，能够快速准确地检索到符合用户在特定的检索场景中的需求的相似题目。

参照图3，示出了根据本发明实施例三的一种相似题目的检索装置的结构示意图。

本实施例的相似题目的检索装置包括：特征提取模块301，用于对目标题目执行特征提取操作，以获得所述目标题目的题目特征数据；查找模块302，用于基于所述题目特征数据包括的第一特征数据，查找预先建立的题目索引，以确定所述目标题目的相似题目的候选集，其中，所述第一特征数据包括所述目标题目的第一题干文本特征数据和/或第一知识点特征数据；筛选模块303，用于基于所述题目特征数据包括的第二特征数据，对所述目标题目的相似题目的候选集中的题目执行筛选操作，以确定所述目标题目的相似题目的检索结果，其中，所述第二特征数据包括以下中的至少一者：所述第一题干文本特征数据、所述第一知识点特征数据、所述目标题目的第一公式内容特征数据、所述目标题目的第一图片内容特征数据、所述目标题目的第一题型特征数据。

本实施例的相似题目的检索装置用于实现前述多个方法实施例中相应的相似题目的检索方法，并具有相应的方法实施例的有益效果，在此不再赘述。

实施例四

可选的，当所述题目特征数据包括所述第一题干文本特征数据时，所述用于对目标题目执行特征提取操作，以获得所述目标题目的题目特征数据的指令，包括：用于对所述目标题目的题目文本内容数据执行预处理操作，以获得所述目标题目的题干文本内容数据的指令；用于对所述题干文本内容数据执行拆分操作，以获得所述目标题目的题干的多个部分的文本内容数据的指令；用于基于所述多个部分的文本内容数据，确定所述第一题干文本特征数据的指令。

可选的，所述用于基于所述多个部分的文本内容数据，确定所述第一题干文本特征数据的指令，包括：用于基于所述多个部分中每个部分的文本内容数据中的词语的语义表征向量，确定所述每个部分的文本内容数据所对应的文本特征数据的指令；用于基于获得的所述目标题目的题型，确定用于表征所述每个部分的文本内容数据对于所述目标题目的题目文本内容数据的重要程度的权重数据的指令；用于基于所述每个部分的文本内容数据所对应的所述文本特征数据和所述权重数据，确定所述第一题干文本特征数据的指令。

可选的，当所述题目特征数据包括所述第一公式内容特征数据时，所述用于对目标题目执行特征提取操作，以获得所述目标题目的题目特征数据的指令，包括：用于通过正则表达式，对所述目标题目的题目文本内容数据执行文本提取操作，以获得所述目标题目对应的公式文本内容数据的指令；用于基于预设的映射规则，对所述公式文本内容数据执行映射操作，以获得所述公式文本内容数据对应的第一公式的集合的指令；用于基于所述第一公式的集合，确定所述第一公式内容特征数据的指令。

可选的，所述用于基于所述第一公式的集合，确定所述第一公式内容特征数据的指令，包括：用于基于预设的公式长度阈值，对所述第一公式的集合执行过滤操作，以获得公式长度满足所述公式长度阈值的第二公式的指令；用于对所述第二公式中的变量进行替换，以获得所述第二公式的标准的公式结构的指令；用于对所述第二公式的标准的公式结构执行映射操作，以获得所述第二公式的公式特征词的指令；用于基于所述第二公式的公式特征词，确定所述第一公式内容特征数据的指令。

可选的，当所述题目特征数据包括所述第一图片内容特征数据时，所述用于对目标题目执行特征提取操作，以获得所述目标题目的题目特征数据的指令，包括：用于获取所述目标题目的题目文本内容数据中的图片存储地址数据的指令；用于基于所述图片存储地址数据，下载所述图片存储地址数据所对应的图片数据的指令；用于对所述图片数据进行二值化处理，以将所述图片数据的数据类型转换为可操作的数据类型的指令；用于通过图片内容特征提取模型，对属于所述可操作的数据类型的所述图片数据进行特征提取操作，以获得所述第一图片内容特征数据的指令。

可选的，所述用于基于所述题目特征数据包括的第一特征数据，查找预先建立的题目索引的指令之前，所述可读程序还包括：用于对题目数据库中的题目样本进行特征提取操作，以获得所述题目样本的第二题干文本特征数据和/或第二知识点特征数据的指令；用于建立所述第二题干文本特征数据到所述题目样本的题目索引和/或所述第二知识点特征数据到所述题目样本的题目索引的指令。

可选的，所述用于基于所述题目特征数据包括的第一特征数据，查找预先建立的题目索引，以确定所述目标题目的相似题目的候选集的指令，包括：用于基于所述第一题干文本特征数据，查找所述第二题干文本特征数据到所述题目样本的题目索引，以确定所述第二题干文本特征数据与所述第一题干文本特征数据相似的题目样本的第一集合的指令；和/或用于基于所述第一知识点特征数据，查找所述第二知识点特征数据到所述题目样本的题目索引，以确定所述第二知识点特征数据与所述第一知识点特征数据相同的题目样本的第二集合的指令；用于基于所述第一集合和/或所述第二集合，确定所述目标题目的相似题目的候选集的指令。

可选的，所述用于基于所述第一题干文本特征数据，查找所述第二题干文本特征数据到所述题目样本的题目索引，以确定所述第二题干文本特征数据与所述第一题干文本特征数据相似的题目样本的第一集合的指令，包括：用于确定多个与所述第一题干文本特征数据最邻近的第二题干文本特征数据分别对应的第一搜索单元的指令；用于基于所述第一搜索单元，确定所述第一题干文本特征数据所对应的第二搜索单元的指令；用于确定对应于所述第二搜索单元的第二题干文本特征数据与所述第一题干文本特征数据的距离，并基于所述距离，确定所述第二题干文本特征数据与所述第一题干文本特征数据相似的题目样本的第一集合的指令。

可选的，所述用于基于所述题目特征数据包括的第二特征数据，对所述目标题目的相似题目的候选集中的题目执行筛选操作，以确定所述目标题目的相似题目的检索结果的指令，包括：用于基于所述第二特征数据，确定所述目标题目与所述候选集中的题目的相似度的指令；用于基于所述相似度，确定所述相似题目的检索结果的指令。

可选的，所述用于基于所述第二特征数据，确定所述目标题目与所述候选集中的题目的相似度的指令，包括：用于确定所述第一题干文本特征数据与所述候选集中的题目的第二题干文本特征数据的第一相似度的指令；用于确定所述第一知识点特征数据与所述候选集中的题目的第二知识点特征数据的第二相似度的指令；用于确定所述第一公式内容特征数据与所述候选集中的题目的第二公式内容特征数据的第三相似度的指令；用于确定所述第一图片内容特征数据与所述候选集中的题目的第二图片内容特征数据的第四相似度的指令；用于确定所述第一题型特征数据与所述候选集中的题目的第二题型特征数据的第五相似度的指令；用于基于所述第一相似度、所述第二相似度、所述第三相似度、所述第四相似度，及所述第五相似度，确定所述目标题目与所述候选集中的题目的相似度的指令。

可选的，所述用于基于所述第一相似度、所述第二相似度、所述第三相似度、所述第四相似度，及所述第五相似度，确定所述目标题目与所述候选集中的题目的相似度的指令，包括：用于基于相似题目需求数据，确定所述第一相似度、所述第二相似度、所述第三相似度、所述第四相似度，及所述第五相似度分别对应的权重数据的指令；用于基于所述第一相似度、所述第二相似度、所述第三相似度、所述第四相似度，及所述第五相似度分别对应的权重数据、所述第一相似度、所述第二相似度、所述第三相似度、所述第四相似度，及所述第五相似度，确定所述目标题目与所述候选集中的题目的相似度的指令。

可选的，所述用于基于所述题目特征数据包括的第二特征数据，对所述目标题目的相似题目的候选集中的题目执行筛选操作，以确定所述目标题目的相似题目的检索结果的指令，包括：用于基于所述第二特征数据，确定所述目标题目与所述候选集中的题目的相似度的指令；用于通过点击率预测模型，基于所述相似度和获得的检索场景特征数据，预测用户在所述检索场景特征数据指示的检索场景中针对所述候选集中的题目的点击概率的指令；用于基于所述点击概率，确定用户在所述检索场景中针对所述相似题目的检索结果的指令。

可选的，所述用于通过点击率预测模型，基于所述相似度和获得的检索场景特征数据，预测用户在所述检索场景特征数据指示的检索场景中针对所述候选集中的题目的点击概率的指令之前，所述可读程序还包括：用于基于历史时间段内用户在不同的检索场景中针对所述相似题目的检索结果的点击结果，对待训练的所述点击率预测模型进行训练，以获得训练后的所述点击率预测模型的指令。

可选的，所述用于通过点击率预测模型，基于所述相似度和获得的检索场景特征数据，预测用户在所述检索场景特征数据指示的检索场景中针对所述候选集中的题目的点击概率的指令，包括：用于获取用户在不同的检索场景中针对所述候选集中的题目的难度偏好特征数据和题型偏好特征数据的指令；用于通过点击率预测模型，基于所述相似度、所述检索场景特征数据、所述难度偏好特征数据和所述题型偏好特征数据，预测用户在所述检索场景特征数据指示的检索场景中针对所述候选集中的题目的点击概率的指令。

可选的，所述用于获取用户在不同的检索场景中针对所述候选集中的题目的难度偏好特征数据和题型偏好特征数据的指令，包括：用于基于历史时间段内用户在不同的检索场景中针对所述相似题目的检索结果的点击结果，确定用户在不同的检索场景中针对不同难度的题目的第一点击概率，以及用户在不同的检索场景中针对不同题型的题目的第二点击概率的指令；用于基于用户在不同的检索场景中针对不同难度的题目的第一点击概率，确定用户在不同的检索场景中针对所述候选集中的题目的难度偏好特征数据的指令；用于基于用户在不同的检索场景中针对不同题型的题目的第二点击概率，确定用户在不同的检索场景中针对所述候选集中的题目的题型偏好特征数据的指令。

通过本申请实施例提供的计算机可读介质，对目标题目执行特征提取操作，以获得目标题目的题目特征数据，并基于题目特征数据包括的第一特征数据，查找预先建立的题目索引，以确定目标题目的相似题目的候选集，再基于题目特征数据包括的第二特征数据，对目标题目的相似题目的候选集中的题目执行筛选操作，以确定目标题目的相似题目的检索结果，与现有的其它方式相比，能够基于题目特征数据包括的第一特征数据，查找预先建立的题目索引，确定目标题目的相似题目的候选集，并基于题目特征数据包括的第二特征数据，对目标题目的相似题目的候选集中的题目执行筛选操作，确定目标题目的相似题目的检索结果，其中，第一特征数据包括目标题目的第一题干文本特征数据和/或第一知识点特征数据，第二特征数据包括以下中的至少一者：目标题目的第一题干文本特征数据、目标题目的第一知识点特征数据、目标题目的第一公式内容特征数据、目标题目的第一图片内容特征数据、目标题目的第一题型特征数据，因此，能够快速准确地检索到目标题目的相似题目。

需要指出，根据实施的需要，可将本发明实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本发明实施例的目的。

上述根据本发明实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，RAM、ROM、闪存等)，当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的教师风格的确定方法。此外，当通用计算机访问用于实现在此示出的教师风格的确定方法的代码时，代码的执行将通用计算机转换为用于执行在此示出的教师风格的确定方法的专用计算机。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明实施例的范围。

以上实施方式仅用于说明本发明实施例，而并非对本发明实施例的限制，有关技术领域的普通技术人员，在不脱离本发明实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明实施例的范畴，本发明实施例的专利保护范围应由权利要求限定。

Claims

1.一种相似题目的检索方法，其特征在于，所述方法包括：

对目标题目执行特征提取操作，以获得所述目标题目的题目特征数据；

基于所述题目特征数据包括的第一特征数据，查找预先建立的题目索引，以确定所述目标题目的相似题目的候选集，其中，所述第一特征数据包括所述目标题目的第一题干文本特征数据和/或第一知识点特征数据；

基于所述题目特征数据包括的第二特征数据，对所述目标题目的相似题目的候选集中的题目执行筛选操作，以确定所述目标题目的相似题目的检索结果，

其中，所述第二特征数据包括所述第一题干文本特征数据、所述第一知识点特征数据，以及以下中的至少一者：所述目标题目的第一公式内容特征数据、所述目标题目的第一图片内容特征数据、所述目标题目的第一题型特征数据。

2.根据权利要求1所述的方法，其特征在于，当所述题目特征数据包括所述第一题干文本特征数据时，所述对目标题目执行特征提取操作，以获得所述目标题目的题目特征数据，包括：

对所述目标题目的题目文本内容数据执行预处理操作，以获得所述目标题目的题干文本内容数据；

对所述题干文本内容数据执行拆分操作，以获得所述目标题目的题干的多个部分的文本内容数据；

基于所述多个部分的文本内容数据，确定所述第一题干文本特征数据。

3.根据权利要求2所述的方法，其特征在于，所述基于所述多个部分的文本内容数据，确定所述第一题干文本特征数据，包括：

基于所述多个部分中每个部分的文本内容数据中的词语的语义表征向量，确定所述每个部分的文本内容数据所对应的文本特征数据；

基于获得的所述目标题目的题型，确定用于表征所述每个部分的文本内容数据对于所述目标题目的题目文本内容数据的重要程度的权重数据；

基于所述每个部分的文本内容数据所对应的所述文本特征数据和所述权重数据，确定所述第一题干文本特征数据。

4.根据权利要求1所述的方法，其特征在于，当所述题目特征数据包括所述第一公式内容特征数据时，所述对目标题目执行特征提取操作，以获得所述目标题目的题目特征数据，包括：

通过正则表达式，对所述目标题目的题目文本内容数据执行文本提取操作，以获得所述目标题目对应的公式文本内容数据；

基于预设的映射规则，对所述公式文本内容数据执行映射操作，以获得所述公式文本内容数据对应的第一公式的集合；

基于所述第一公式的集合，确定所述第一公式内容特征数据。

5.根据权利要求4所述的方法，其特征在于，所述基于所述第一公式的集合，确定所述第一公式内容特征数据，包括：

基于预设的公式长度阈值，对所述第一公式的集合执行过滤操作，以获得公式长度满足所述公式长度阈值的第二公式；

对所述第二公式中的变量进行替换，以获得所述第二公式的标准的公式结构；

对所述第二公式的标准的公式结构执行映射操作，以获得所述第二公式的公式特征词；

基于所述第二公式的公式特征词，确定所述第一公式内容特征数据。

6.根据权利要求1所述的方法，其特征在于，当所述题目特征数据包括所述第一图片内容特征数据时，所述对目标题目执行特征提取操作，以获得所述目标题目的题目特征数据，包括：

获取所述目标题目的题目文本内容数据中的图片存储地址数据；

基于所述图片存储地址数据，下载所述图片存储地址数据所对应的图片数据；

对所述图片数据进行二值化处理，以将所述图片数据的数据类型转换为可操作的数据类型；

通过图片内容特征提取模型，对属于所述可操作的数据类型的所述图片数据进行特征提取操作，以获得所述第一图片内容特征数据。

7.根据权利要求1所述的方法，其特征在于，所述基于所述题目特征数据包括的第一特征数据，查找预先建立的题目索引之前，所述方法还包括：

对题目数据库中的题目样本进行特征提取操作，以获得所述题目样本的第二题干文本特征数据和/或第二知识点特征数据；

建立所述第二题干文本特征数据到所述题目样本的题目索引和/或所述第二知识点特征数据到所述题目样本的题目索引。

8.根据权利要求7所述的方法，其特征在于，所述基于所述题目特征数据包括的第一特征数据，查找预先建立的题目索引，以确定所述目标题目的相似题目的候选集，包括：

基于所述第一题干文本特征数据，查找所述第二题干文本特征数据到所述题目样本的题目索引，以确定所述第二题干文本特征数据与所述第一题干文本特征数据相似的题目样本的第一集合；和/或

基于所述第一知识点特征数据，查找所述第二知识点特征数据到所述题目样本的题目索引，以确定所述第二知识点特征数据与所述第一知识点特征数据相同的题目样本的第二集合；

基于所述第一集合和/或所述第二集合，确定所述目标题目的相似题目的候选集。

9.根据权利要求8所述的方法，其特征在于，所述基于所述第一题干文本特征数据，查找所述第二题干文本特征数据到所述题目样本的题目索引，以确定所述第二题干文本特征数据与所述第一题干文本特征数据相似的题目样本的第一集合，包括：

确定多个与所述第一题干文本特征数据最邻近的第二题干文本特征数据分别对应的第一搜索单元；

基于所述第一搜索单元，确定所述第一题干文本特征数据所对应的第二搜索单元；

确定对应于所述第二搜索单元的第二题干文本特征数据与所述第一题干文本特征数据的距离，并基于所述距离，确定所述第二题干文本特征数据与所述第一题干文本特征数据相似的题目样本的第一集合。

10.根据权利要求1所述的方法，其特征在于，所述基于所述题目特征数据包括的第二特征数据，对所述目标题目的相似题目的候选集中的题目执行筛选操作，以确定所述目标题目的相似题目的检索结果，包括：

基于所述第二特征数据，确定所述目标题目与所述候选集中的题目的相似度；

基于所述相似度，确定所述相似题目的检索结果。

11.根据权利要求10所述的方法，其特征在于，所述基于所述第二特征数据，确定所述目标题目与所述候选集中的题目的相似度，包括：

确定所述第一题干文本特征数据与所述候选集中的题目的第二题干文本特征数据的第一相似度；

确定所述第一知识点特征数据与所述候选集中的题目的第二知识点特征数据的第二相似度；

确定所述第一公式内容特征数据与所述候选集中的题目的第二公式内容特征数据的第三相似度；

确定所述第一图片内容特征数据与所述候选集中的题目的第二图片内容特征数据的第四相似度；

确定所述第一题型特征数据与所述候选集中的题目的第二题型特征数据的第五相似度；

基于所述第一相似度、所述第二相似度、所述第三相似度、所述第四相似度，及所述第五相似度，确定所述目标题目与所述候选集中的题目的相似度。

12.根据权利要求11所述的方法，其特征在于，所述基于所述第一相似度、所述第二相似度、所述第三相似度、所述第四相似度，及所述第五相似度，确定所述目标题目与所述候选集中的题目的相似度，包括：

基于相似题目需求数据，确定所述第一相似度、所述第二相似度、所述第三相似度、所述第四相似度，及所述第五相似度分别对应的权重数据；

基于所述第一相似度、所述第二相似度、所述第三相似度、所述第四相似度，及所述第五相似度分别对应的权重数据、所述第一相似度、所述第二相似度、所述第三相似度、所述第四相似度，及所述第五相似度，确定所述目标题目与所述候选集中的题目的相似度。

13.根据权利要求1所述的方法，其特征在于，所述基于所述题目特征数据包括的第二特征数据，对所述目标题目的相似题目的候选集中的题目执行筛选操作，以确定所述目标题目的相似题目的检索结果，包括：

通过点击率预测模型，基于所述相似度和获得的检索场景特征数据，预测用户在所述检索场景特征数据指示的检索场景中针对所述候选集中的题目的点击概率；

基于所述点击概率，确定用户在所述检索场景中针对所述相似题目的检索结果。

14.根据权利要求13所述的方法，其特征在于，所述通过点击率预测模型，基于所述相似度和获得的检索场景特征数据，预测用户在所述检索场景特征数据指示的检索场景中针对所述候选集中的题目的点击概率之前，所述方法还包括：

基于历史时间段内用户在不同的检索场景中针对所述相似题目的检索结果的点击结果，对待训练的所述点击率预测模型进行训练，以获得训练后的所述点击率预测模型。

15.根据权利要求13所述的方法，其特征在于，所述通过点击率预测模型，基于所述相似度和获得的检索场景特征数据，预测用户在所述检索场景特征数据指示的检索场景中针对所述候选集中的题目的点击概率，包括：

获取用户在不同的检索场景中针对所述候选集中的题目的难度偏好特征数据和题型偏好特征数据；

通过点击率预测模型，基于所述相似度、所述检索场景特征数据、所述难度偏好特征数据和所述题型偏好特征数据，预测用户在所述检索场景特征数据指示的检索场景中针对所述候选集中的题目的点击概率。

16.根据权利要求15所述的方法，其特征在于，所述获取用户在不同的检索场景中针对所述候选集中的题目的难度偏好特征数据和题型偏好特征数据，包括：

基于历史时间段内用户在不同的检索场景中针对所述相似题目的检索结果的点击结果，确定用户在不同的检索场景中针对不同难度的题目的第一点击概率，以及用户在不同的检索场景中针对不同题型的题目的第二点击概率；

基于用户在不同的检索场景中针对不同难度的题目的第一点击概率，确定用户在不同的检索场景中针对所述候选集中的题目的难度偏好特征数据；

基于用户在不同的检索场景中针对不同题型的题目的第二点击概率，确定用户在不同的检索场景中针对所述候选集中的题目的题型偏好特征数据。

17.一种计算机可读介质，其特征在于，所述计算机存储介质存储有可读程序，所述可读程序包括：

用于对目标题目执行特征提取操作，以获得所述目标题目的题目特征数据的指令；

用于基于所述题目特征数据包括的第一特征数据，查找预先建立的题目索引，以确定所述目标题目的相似题目的候选集的指令，

其中，所述第一特征数据包括所述目标题目的第一题干文本特征数据和/或第一知识点特征数据；

用于基于所述题目特征数据包括的第二特征数据，对所述目标题目的相似题目的候选集中的题目执行筛选操作，以确定所述目标题目的相似题目的检索结果的指令，

18.一种相似题目的检索装置，其特征在于，所述装置包括：

特征提取模块，用于对目标题目执行特征提取操作，以获得所述目标题目的题目特征数据；

查找模块，用于基于所述题目特征数据包括的第一特征数据，查找预先建立的题目索引，以确定所述目标题目的相似题目的候选集，其中，所述第一特征数据包括所述目标题目的第一题干文本特征数据和/或第一知识点特征数据；

筛选模块，用于基于所述题目特征数据包括的第二特征数据，对所述目标题目的相似题目的候选集中的题目执行筛选操作，以确定所述目标题目的相似题目的检索结果，