CN114021004A

CN114021004A - 一种理科相似题推荐方法、装置、设备及可读存储介质

Info

Publication number: CN114021004A
Application number: CN202111278966.8A
Authority: CN
Inventors: 熊丹妮; 邓璇; 汤博阳; 张新访; 邓嘉
Original assignee: Wuhan Tianyu Information Industry Co Ltd
Current assignee: Wuhan Tianyu Information Industry Co Ltd
Priority date: 2021-10-31
Filing date: 2021-10-31
Publication date: 2022-02-08

Abstract

本申请涉及一种理科相似题推荐方法、装置、设备及可读存储介质，涉及教育技术领域，包括：将待处理试题导入试题文本向量模型，得到待处理试题的文本特征向量；抽取待处理试题中公式的基础特征向量和公式知识特征向量，将抽取得到的基础特征向量和公式知识特征向量进行拼接，得到待处理试题的公式特征向量；对待处理试题进行知识实体抽取，将知识实体导入学科知识体系模型，得到待处理试题的知识点特征向量；将文本特征向量、公式特征向量和知识点特征向量进行拼接和融合，得到待处理试题的综合特征向量；将综合特征向量与预设题库中历史试题的综合特征向量进行相似度计算，根据相似度确定待推荐相似题。本申请可有效提高试题推荐的准确性。

Description

一种理科相似题推荐方法、装置、设备及可读存储介质

技术领域

本申请涉及教育技术领域，特别涉及一种理科相似题推荐方法、装置、设备及可读存储介质。

背景技术

随着互联网技术的快速发展，互联网技术已经渗入到教育行业的方方面面，使得越来越多的人通过将互联网技术与因材施教相结合来提高因材施教的可行性，比如，可通过互联网技术向学生推荐相似题进行有针对性的试题练习，进而为学生提供更加多元化和个性化的教学方案。

相关技术中，往往是直接利用试题自身信息的通用试题进行相似题推荐(其不携带用户偏好信息)，该通用试题推荐方法主要涉及文科题目领域，比如通过对试题进行句法分析，得到存在句法关联的关联分词，基于试题间关联分词之间的相似度，实现语法变式题的推荐。但是，由于理科试题中往往包含公式等具有理科特性的关键信息，该关键信息无法通过简单的文本处理得到，以致缺乏对理科试题中关键特征的充分利用，进而导致试题推荐的准确性较差。

发明内容

本申请提供一种理科相似题推荐方法、装置、设备及可读存储介质，以解决相关技术中存在的试题推荐的准确性较差的问题。

第一方面，提供了一种理科相似题推荐方法，包括以下步骤：

将待处理试题导入试题文本向量模型，得到所述待处理试题的文本特征向量；

抽取所述待处理试题中公式的基础特征向量和公式知识特征向量，将抽取得到的基础特征向量和公式知识特征向量进行拼接，得到所述待处理试题的公式特征向量；

对所述待处理试题进行知识实体抽取，将所述知识实体导入学科知识体系模型，得到所述待处理试题的知识点特征向量；

将所述文本特征向量、所述公式特征向量和所述知识点特征向量进行拼接和融合，得到所述待处理试题的综合特征向量；

将所述待处理试题的综合特征向量与预设题库中历史试题的综合特征向量进行相似度计算，根据所述相似度确定待推荐相似题。

一些实施例中，所述抽取所述待处理试题中公式的基础特征向量，包括：

基于TangentCRF模型识别出所述待处理试题中的所有公式；

对各个所述公式进行树形结构的归一化处理，生成公式元组集合；

基于FastText n-gram词嵌入模型分别对所述公式元组集合中的各组公式元组进行词嵌入处理，得到基础特征向量，所述基础特征向量包括公式位置、公式数量和公式自身信息。

一些实施例中，所述抽取所述待处理试题中公式的公式知识特征向量，包括：

基于所述基础特征向量从预设的公式库中查找出与所述待处理试题中公式相关的历史公式，所述公式库包括历史公式与知识点之间的映射关系；

将所述历史公式的知识点进行融合，得到所述待处理试题中公式的公式知识特征向量。

一些实施例中，在所述将所述知识实体导入学科知识体系模型的步骤之前，还包括：

对历史试题的知识实体进行抽取，基于抽取出的知识实体构建各个学科的知识图谱；

基于所述知识图谱创建学科知识体系模型。

一些实施例中，所述将所述待处理试题的综合特征向量分别与预设题库中历史试题的综合特征向量进行相似度计算，包括：

基于Faiss高维向量查询工具计算所述待处理试题的综合特征向量与预设题库中历史试题的综合特征向量的相似度。

一些实施例中，所述根据所述相似度确定待推荐相似题，包括：

按照相似度由高到低的顺序，对所述历史试题进行排序，得到排序队列；

从所述排序队列中选取排列在前N位的历史试题作为待推荐相似题。

一些实施例中，在所述将待处理试题导入试题文本向量模型的步骤之前，还包括：

基于历史试题和预训练词向量创建试题文本向量模型。

第二方面，提供了一种理科相似题推荐装置，包括：

第一处理单元，其用于将待处理试题导入试题文本向量模型，得到所述待处理试题的文本特征向量；

第二处理单元，其用于抽取所述待处理试题中公式的基础特征向量和公式知识特征向量，将抽取得到的基础特征向量和公式知识特征向量进行拼接，得到所述待处理试题的公式特征向量；

第三处理单元，其用于对所述待处理试题进行知识实体抽取，将所述知识实体导入学科知识体系模型，得到所述待处理试题的知识点特征向量；

拼接融合单元，其用于将所述文本特征向量、所述公式特征向量和所述知识点特征向量进行拼接和融合，得到所述待处理试题的综合特征向量；

计算单元，其用于将所述待处理试题的综合特征向量与预设题库中历史试题的综合特征向量进行相似度计算，根据所述相似度确定待推荐相似题。

第三方面，提供了一种理科相似题推荐设备，包括：存储器和处理器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行，以实现前述的理科相似题推荐方法。

第四方面，提供了一种计算机可读存储介质，所述计算机存储介质存储有计算机指令，当所述计算机指令被计算机执行时，使得所述计算机执行前述的理科相似题推荐方法。

本申请提供的技术方案带来的有益效果包括：可有效提高理科试题推荐的准确性。

本申请提供了一种理科相似题推荐方法、装置、设备及可读存储介质，包括：将待处理试题导入试题文本向量模型，得到所述待处理试题的文本特征向量；抽取所述待处理试题中公式的基础特征向量和公式知识特征向量，将抽取得到的基础特征向量和公式知识特征向量进行拼接，得到所述待处理试题的公式特征向量；对所述待处理试题进行知识实体抽取，将所述知识实体导入学科知识体系模型，得到所述待处理试题的知识点特征向量；将所述文本特征向量、所述公式特征向量和所述知识点特征向量进行拼接和融合，得到所述待处理试题的综合特征向量；将所述待处理试题的综合特征向量与预设题库中历史试题的综合特征向量进行相似度计算，根据所述相似度确定待推荐相似题。本申请通过文本、公式、知识点三个维度对待处理试题中的信息进行了提取和增强，对理科试题数据进行了充分的挖掘，极大地提升题目信息表征向量的质量，进而有效提高试题推荐的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种理科相似题推荐方法的流程示意图；

图2为本申请实施例提供的一种理科相似题推荐装置的结构示意图；

图3为本申请实施例提供的一种理科相似题推荐设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供了一种理科相似题推荐方法、装置、设备及可读存储介质，其能解决相关技术中存在的试题推荐的准确性较差的问题。

图1是本申请实施例提供的一种理科相似题推荐方法的流程示意图，包括以下步骤：

步骤S10：将待处理试题导入试题文本向量模型，得到所述待处理试题的文本特征向量；

进一步的，在所述将待处理试题导入试题文本向量模型的步骤之前，还包括以下步骤：基于历史试题和预训练词向量创建试题文本向量模型。

示范性的，在本申请实施例中，首先对理科类(比如数学、物理、化学等)的历史试题的文本进行清洗，再根据历史试题语料(其中，历史试题语料包括但不限于历史试题对应的题干、答案以及解析)对GloVe(GloVe为一种词嵌入方法)中文预训练词向量进行训练微调，得到微调后的词向量模型，然后通过该词向量模型对历史试题的文本信息进行训练，得到试题文本向量模型；再将待处理试题导入该试题文本向量模型即可得到固定长度的、可充分表征待处理试题文本信息的文本特征向量。其中，本申请中所指的待处理试题为理科试题，可以为物理，也可以为数学，还可以为化学，具体为哪个学科的试题，可根据实际需求确定，在此不作限定。

步骤S20：抽取所述待处理试题中公式的基础特征向量和公式知识特征向量，将抽取得到的基础特征向量和公式知识特征向量进行拼接，得到所述待处理试题的公式特征向量；

进一步的，所述抽取所述待处理试题中公式的基础特征向量，具体包括以下步骤：

基于TangentCRF(Conditional Random Field)模型识别出所述待处理试题中的所有公式；

进一步的，所述抽取所述待处理试题中公式的公式知识特征向量，具体包括以下步骤：

基于所述基础特征向量从预设的公式库中查找出与所述待处理试题中公式最相似的历史公式，所述公式库包括历史公式与知识点之间的映射关系；

示范性的，在本申请实施例中，公式特征向量的构建主要分为两个部分，一个是基于待处理试题的题目公式本身的识别和向量化后得到的基础特征向量，另一部分是公式与知识点间的映射和向量化后得到的公式知识特征向量。

具体的，针对基础特征向量部分：使用TangentCRF模型识别出待处理试题文本中的公式(该公式一般为MathML格式或者LaTex格式)，并对识别出的公式进行树形结构的归一化处理，使得每个数学公式都会生成一组对应的公式元组，进而形成公式元组集合，其中，每组公式元组包含了其对应的公式中的所有元素的表示以及连接相邻两个元素的关系表示；再通过FastText(词向量与文本分类工具)中的n-gram词嵌入模型对每个公式的元组进行嵌入，最终得到一个固定维度的基础特征向量，该基础特征向量包含了试题中各个公式的位置、数量以及公式本身的信息，其能有效对待处理试题中的公式内容信息进行抽取和总结。

针对知识特征部分：首先基于题库中每个历史题目所包含的历史公式和知识点标签信息，使用共现矩阵的方式构建公式与知识点间的关联关系，再经过公式间的融合和压缩降维等方式得到预设的公式库；对于待处理试题，使用其基础特征向量在公式库中查找最相似的前n个公式，再将n个公式的知识点信息进行融合，即可得到固定长度的公式知识特征向量。最后将基础特征向量和公式知识特征向量进行拼接得到最终的公式特征向量。

步骤S30：对所述待处理试题进行知识实体抽取，将所述知识实体导入学科知识体系模型，得到所述待处理试题的知识点特征向量；

进一步的，在所述将所述知识实体导入学科知识体系模型的步骤之前，还包括以下步骤：

基于所述知识图谱创建学科知识体系模型。

示范性的，在本申请实施例中，通过对教材、教辅、试题、百度百科等开源数据(该开源数据包括各个学科的历史试题)进行整理清洗，使用实体识别和关系抽取等方法来构建各个学科在不同教育阶段的知识图谱；然后通过采用K-BERT(基于知识图谱的语言表示模型)模型对词向量进行训练，即首先对历史试题中的实体进行识别并引入其对应的知识图谱三元组信息构建为句子树，然后引入可见矩阵以减少引入知识带来的语义错误，最终利用历史试题-知识点关系数据进行文本分类任务的训练，并将其嵌入层存储为知识实体对应的向量词表，进而建立各个学科对应的学科知识体系模型；再将抽取得到的待处理试题中的知识实体导入学科知识体系模型，即可得到待处理试题的知识点特征向量。

步骤S40：将所述文本特征向量、所述公式特征向量和所述知识点特征向量进行拼接和融合，得到一个固定长度的待处理试题的综合特征向量；

示范性的，在本申请实施例中，将历史试题的三个特征向量进行横向拼接，将拼接好的向量作为输入，将人工标注的题目间相似关系的标签作为输出，建立向量分类模型并进行训练。在模型构建和训练过程中会先对拼接向量进行压缩、降维等操作进行融合，最终得到能充分表征每个历史试题特征的固定长度的综合特征向量库以及向量映射模型，利用该向量映射模型将待处理试题的拼接向量转换为其综合特征向量。

步骤S50：将所述待处理试题的综合特征向量与预设题库中历史试题的综合特征向量进行相似度计算，根据所述相似度确定待推荐相似题。

进一步的，所述将所述待处理试题的综合特征向量分别与预设题库中历史试题的综合特征向量进行相似度计算，具体包括以下步骤：

进一步的，所述根据所述相似度确定待推荐相似题，具体包括以下步骤：

示范性的，在本申请实施例中，通过使用Faiss(Facebook AI SimilaritySearch，高维向量查询工具)为综合特征向量构建向量索引，即在推荐相似题时，使用Faiss工具对待处理试题的综合特征向量与预设题库中的历史试题的综合特征向量进行相似度计算，再按照相似度由高到低的顺序，对历史试题进行排序，得到排序队列，并从排序队列中选取排列在前N位的历史试题作为待推荐相似题，比如，推荐相似度最高的前10个历史试题，其中，该N值的设定可根据具体需求确定，在此不作限定。

由此可见，本申请通过文本、公式、知识点三个维度对待处理试题中的信息进行了提取和增强，对理科试题数据进行了充分的挖掘，极大地提升题目信息表征向量的质量，进而有效提高试题推荐的准确性；且通过Faiss高效相似度搜索工具极大地提升了查找效率。

参见图2所示，本申请实施例还提供了一种理科相似题推荐装置，包括：

由此可见，本申请应用新的特征工程和模块设计，获取到更优质的特征，从而使理科(如数学、物理、化学等)试题推荐装置更加完善，另外通过添加公式特征来完善理科题试题推荐过程，并结合Faiss工具提高在百万题库中的推荐检索效率。

更进一步的，在本申请实施例中，所述第二处理单元具体用于：

基于Tangent Combined FastText模型识别出所述待处理试题中的所有公式；

基于FastText模型分别对所述公式元组集合中的各组公式元组进行词嵌入处理，得到基础特征向量，所述基础特征向量包括公式位置、公式数量和公式自身信息。

更进一步的，在本申请实施例中，所述第三处理单元还用于：

基于所述知识图谱创建学科知识体系模型。

更进一步的，在本申请实施例中，所述计算单元具体用于：

更进一步的，在本申请实施例中，所述第一处理单元还用于：基于历史试题和预训练词向量创建试题文本向量模型。

需要说明的是，所属本领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和各单元的具体工作过程，可以参考前述理科相似题推荐方法实施例中的对应过程，在此不再赘述。

上述实施例提供的装置可以实现为一种计算机程序的形式，该计算机程序可以在如图3所示的理科相似题推荐设备上运行。

本申请实施例还提供了一种理科相似题推荐设备，包括：通过系统总线连接的存储器、处理器和网络接口，存储器中存储有至少一条指令，至少一条指令由处理器加载并执行，以实现前述的理科相似题推荐方法的全部步骤或部分步骤。

其中，网络接口用于进行网络通信，如发送分配的任务等。本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

处理器可以是CPU，还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程逻辑门阵列(FieldProgrammable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件分立硬件组件等。通用处理器可以是微处理器，或者该处理器也可以是任何常规的处理器等，处理器是计算机装置的控制中心，利用各种接口和线路连接整个计算机装置的各个部分。

存储器可用于存储计算机程序和/或模块，处理器通过运行或执行存储在存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现计算机装置的各种功能。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如视频播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如视频数据、图像数据等)等。此外，存储器可以包括高速随存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(SmartMedia Card，SMC)，安全数字(Secure digital，SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件或其他易失性固态存储器件。

本申请施例还提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现前述的理科相似题推荐方法的全部步骤或部分步骤。

本申请实施例实现前述的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法的步骤。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的仼何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only memory，ROM)、随机存取存储器(Random Accessmemory，RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、服务器或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅是本申请的具体实施方式，使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种理科相似题推荐方法，其特征在于，包括以下步骤：

2.如权利要求1所述的理科相似题推荐方法，其特征在于，所述抽取所述待处理试题中公式的基础特征向量，包括：

基于TangentCRF模型识别出所述待处理试题中的所有公式；

3.如权利要求2所述的理科相似题推荐方法，其特征在于，所述抽取所述待处理试题中公式的公式知识特征向量，包括：

4.如权利要求1所述的理科相似题推荐方法，其特征在于，在所述将所述知识实体导入学科知识体系模型的步骤之前，还包括：

基于所述知识图谱创建学科知识体系模型。

5.如权利要求1所述的理科相似题推荐方法，其特征在于，所述将所述待处理试题的综合特征向量分别与预设题库中历史试题的综合特征向量进行相似度计算，包括：

6.如权利要求5所述的理科相似题推荐方法，其特征在于，所述根据所述相似度确定待推荐相似题，包括：

7.如权利要求1所述的理科相似题推荐方法，其特征在于，在所述将待处理试题导入试题文本向量模型的步骤之前，还包括：

基于历史试题和预训练词向量创建试题文本向量模型。

8.一种理科相似题推荐装置，其特征在于，包括：

9.一种理科相似题推荐设备，其特征在于，包括：存储器和处理器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行，以实现权利要求1至7中任一项所述的理科相似题推荐方法。

10.一种计算机可读存储介质，其特征在于：所述计算机存储介质存储有计算机指令，当所述计算机指令被计算机执行时，使得所述计算机执行权利要求1至7中任一项所述的理科相似题推荐方法。