CN116680422A

CN116680422A - 一种多模态题库资源查重方法、系统、装置及存储介质

Info

Publication number: CN116680422A
Application number: CN202310943746.5A
Authority: CN
Inventors: 马磊; 袁峰; 郭成锋; 邢金宝; 薛勇; 韩百龙
Original assignee: SHANDONG SHANDA OUMA SOFTWARE CO Ltd
Current assignee: SHANDONG SHANDA OUMA SOFTWARE CO Ltd
Priority date: 2023-07-31
Filing date: 2023-07-31
Publication date: 2023-09-01

Abstract

本发明提出的一种多模态题库资源查重方法、系统、装置及存储介质，属于考试评测技术领域。所述方法包括：建立资源查重库，对待入库资源进行预处理和解析，提取其中的公式、图片和文字，然后进行特征抽取并建立索引；待查重题目解析，对待查重题目进行预处理和解析，提取其中的公式、图片和文字，并提取特征；相似度计算，进行多路相似资源的召回和去重，然后进行语义计算排序，输出相似资源列表。本发明在查重过程中综合考虑文本、图片和公式的因素，并且从文本语义的角度计算相似度，同时满足重复资源和相似资源的查找，查重效率高，查重精度高。

Description

一种多模态题库资源查重方法、系统、装置及存储介质

技术领域

本发明涉及考试评测技术领域，更具体的说是涉及一种多模态题库资源查重方法、系统、装置及存储介质。

背景技术

在考试命题工作中，题库资源查重是其中的重要环节，通过题库资源查重能够有效筛选出相同或者相似的命题，有效的保证了考试命题的质量。但是随着当前信息化的不断发展，各种电子资源越来越多，各种形式的考题层出不穷，传统手动查重方式已经不能完全满足试题要求。亟需智能化的查重方法解决传统手工方式效率低，容易遗漏的问题。相较于传统的仅检查文本的要求，对多模态资源的查重需求越来越大。

在题库资源中，文字是题库资源最重要的一种载体，除了文字，常见的题库资源还包含各种图片，比如数理化学科都含有大量示意图，如果忽略图片，则查重效果明显降低。公式查重也是题库资源查重的一个重要方面，题库资源中包含大量的公式。由于各种原因，题库资源中的公式有多种保存形式，比如图片形式，MathML形式，Latex形式，其中图片公式居多，给公式查重带来了很大的困难，仅仅使用图片查重或者Latex代码字面对比是无法解决公式的相似问题，需要考虑公式的语义相似性。

综上所述，如何实现多模态题库资源的查重是我们亟待解决的问题。

发明内容

针对现有技术中存在的问题，本发明的目的在于提供一种多模态题库资源查重方法、系统、装置及存储介质，通过对多模态题库资源的特征提取和分析，实现了整题目查重、图片查重和公式查重功能，有效提高了题库资源的查重速度和查重精度。

本发明为实现上述目的，通过以下技术方案实现：

一种多模态题库资源查重方法，包括如下步骤：

S1：对待入库资源进行预处理和解析，利用数据提取机制提取待入库资源中的公式、图片和文字，利用第一特征抽取机制进行特征抽取，并建立索引，以建立资源查重库；

S2：对待查重题目进行预处理和解析，利用数据提取机制提取待查重题目中的公式、图片和文字，并利用第二特征抽取机制进行特征抽取；

S3：根据待查重题目中抽取的特征，在资源查重库进行多路相似资源的召回和去重，进行语义计算排序，并输出相似资源列表。

进一步，所述数据提取机制包括：

公式提取：（1）从资源内容中抽取由第一标识符包围的Latex形式的行内公式；（2）从资源内容中抽取由第二标识符包围的Latex形式的行间公式；（3）从资源内容中查找<math>标签，抽取包含<math>标签的内容，提取MathML公式，并将MathML格式的公式转化为Latex形式；

图片提取：从资源内容中查找<img>标签，抽取<img>标签内的内容，提取图片；

文字提取：从资源内容中删除<img>标签及其内容；从资源内容删除由第一标识符包围的Latex形式行内公式，从资源内容删除由第二标识符包围的Latex形式行间公式；从资源内容中删除<math>标签及其内容；删除所有的HTML标签；

图片处理：（1）删除小于32×32像素的图片；（2）图片内容提取，利用预先训练的Image转Latex模型检测并提取图片中的公式，若提取到公式则将该公式归并入资源内容的公式部分；利用预先训练的OCR模型提取图片中的文字，若提取到文字，则将识别的文字归并入资源内容的文本部分，同时在提取到的文字中抽取实体词作为图片的标签。

进一步，所述第一特征抽取机制包括：

图片特征抽取：利用预先训练的卷积神经网络提取图片特征，建立哈希索引；

公式特征抽取：利用预先训练的LSTM模型提取Latex公式的语义特征，建立哈希索引；

文本特征抽取：利用预先训练的中英文BERT模型提取文字部分的文本语义特征；对文字部分进行文本分词，提取实体词，并利用实体词建立资源倒排索引；若资源为中文资源，以词为单位进行分词；若资源为英文资源，以空格进行分词，并且对分词后的单词进行词干提取和词形还原。

进一步，所述第二特征抽取机制包括：

图片特征抽取：利用预先训练的卷积神经网络提取图片特征；

公式特征抽取：利用预先训练的LSTM模型提取Latex公式的语义特征；

文本特征抽取：利用预先训练的中英文BERT模型提取文字部分的文本语义特征；对文字部分进行文本分词，提取实体词；若资源为中文资源，以词为单位进行分词；若资源为英文资源，以空格进行分词，并且对分词后的单词进行词干提取和词形还原。

进一步，本方法能够支持整题目查重、图片查重和公式查重。

进一步，当进行整题目查重时，所述步骤S3具体包括如下步骤：

S301: 获取在提取待查重题目中抽取的公式特征、图片特征、文本语义特征和实体词；

S302:依据待查重题目实体词，利用倒排索引对资源查重库中的相关资源进行召回；若待查重题目含有图片特征，利用局部敏感哈希算法在资源查重库中查找相似图片，召回含相似图片的资源；若待查题目含有公式特征，利用局部敏感哈希算法在资源查重库中查找相似公式，召回含相似公式的资源；对所有召回的资源进行去重处理；

S303:计算待查重题目文本语义特征和召回资源的文本语义特征之间的余弦距离相似度，并依据余弦距离相似度进行排序，输出相似资源列表。

进一步，当进行图片查重时，所述步骤S3具体包括如下步骤：

S311：获取待查重图片，利用预先训练的卷积神经网络提取图片特征，利用局部敏感哈希算法在资源查重库中查找相似图片；

S312：利用预先训练的OCR模型提取待查重图片中的文字, 若提取到文字，则抽取实体词，并利用图片的标签在资源查重库中查找相似图片；

S313:对查找到的相似图片进行去重处理，输出包含相似图片的资源列表。

进一步，当进行公式查重时，所述步骤S3具体包括如下步骤：

S321：获取待查重公式，并对待查重公式进行预处理，若待查重公式为图片格式，利用预先训练的Image转Latex模型提取图片中的Latex公式；若待查重公式为MathML格式，则将MathML公式的公式转化为Latex形式；

S322：利用预先训练的LSTM模型提取Latex公式语义特征，利用局部敏感哈希算法在资源查重库中查找相似公式，相似公式所在资源为相似资源，输出包含相似公式的资源列表。

相应的，本发明还公开了一种多模态题库资源查重系统，包括：

资源解析模块，用于对资源进行预处理和解析，利用数据提取机制提取资源中的公式、图片和文字；

资源入库模块，用于调用资源解析模块完成资源解析，利用第一特征抽取机制进行特征进行特征抽取，并建立相应的索引，保存到资源查重库中；

待查重题目处理模块，用于对待查重题目进行预处理和解析，利用数据提取机制提取待查重题目中的公式、图片和文字，并利用第二特征抽取机制进行特征抽取；

检索模块，用于据待查重题目中抽取的特征，在资源查重库进行多路相似资源的召回和去重，进行语义计算排序，并输出相似资源列表。

相应的，本发明公开了一种多模态题库资源查重装置，包括：

存储器，用于存储多模态题库资源查重程序；

处理器，用于执行所述多模态题库资源查重程序时实现如上文任一项所述多模态题库资源查重方法的步骤。

相应的，本发明公开了一种可读存储介质，所述可读存储介质上存储有多模态题库资源查重程序，所述多模态题库资源查重程序被处理器执行时实现如上文任一项所述多模态题库资源查重方法的步骤。

对比现有技术，本发明有益效果在于：本发明公开了一种多模态题库资源查重方法、系统、装置及存储介质，综合考虑了文本、图片和公式对查重的影响，并且从文本语义的角度计算相似度，满足重复资源的查找的需求。同时，还兼顾了相似资源的查找，查重速度快，查重精度高。本发明不但实现了整题目的查重，还实现了图片查重和公式查重。在进行图片查重时，除了视觉特征之外，还综合考虑了图片可能包含的文字，提高图片的召回率，降低漏查概率。另外，由于题库资源中的公式一般包含多种格式，本发明能够将多种公式格式转换为统一的格式，并且利用语义特征进行公式相似度的比较，提高了相似度的计算精度。

由此可见，本发明与现有技术相比，具有突出的实质性特点和显著的进步，其实施的有益效果也是显而易见的。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1是本发明具体实施方式的方法流程图。

图2是本发明具体实施方式的数据提取机制的方法流程图。

图3是本发明具体实施方式的第一特征抽取机制的方法流程图。

图4是本发明具体实施方式的第而特征抽取机制的方法流程图。

图5是本发明具体实施方式的系统结构图。

图中，1、资源解析模块；2、资源入库模块；3、待查重题目处理模块；4、检索模块。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一：

如图1所示，本实施例提供了一种多模态题库资源查重方法，包括如下步骤：

S1：对待入库资源进行预处理和解析，利用数据提取机制提取待入库资源中的公式、图片和文字，利用第一特征抽取机制进行特征抽取，并建立索引，以建立资源查重库。

S2：对待查重题目进行预处理和解析，利用数据提取机制提取待查重题目中的公式、图片和文字，并利用第二特征抽取机制进行特征抽取。

在具体实施方式中，如图2所示，数据提取机制具体包括如下步骤：

S101: 公式抽取,（1）从资源内容中抽取由‘$...$’包围的Latex形式的行内公式；（2）从资源内容中抽取由‘$$...$$’包围的Latex形式的行间公式；（3）从资源内容中查找<math>标签，抽取包含<math>标签的内容，提取MathML公式，并将MathML格式的公式转化为Latex形式。

S102: 图片抽取，从资源内容中查找<img>标签，抽取<img>标签内的内容，提取图片。

S103：文字提取，从资源内容中删除<img>标签及其内容；从资源内容删除由‘$...$’包围的Latex形式行内公式，从资源内容删除由‘$$...$$’包围的Latex形式行间公式；从资源内容中删除<math>标签及其内容；删除所有的HTML标签。

通过以上步骤，资源被分为公式部分和图片部分、文字部分。

S104: 图片内容处理，（1）删除小于32×32像素的小图片。（2）图片内容提取，利用预先训练的Image转Latex模型检测并提取图片中的公式，若提取到公式将这部分公式归并入资源的公式部分；然后利用预先训练的OCR模型提取图片中的文字，若提取到文字，则将识别的文字归并入文本部分，同时将提取到的文字抽取实体词作为图片的标签。

在具体实施方式中，如图3所示，第一特征抽取机制具体包括如下步骤：

S111: 图片特征抽取，利用预先训练的卷积神经网络提取图片特征，建立哈希索引。

S112：公式特征抽取，利用预先训练的LSTM模型提取Latex公式语义特征，建立哈希索引。

S113：文本特征抽取，利用预先训练的中英文BERT模型提取文字部分的文本语义特征。同时对文字部分进行文本分词，提取实体词，并利用实体词建立资源倒排索引。若资源为中文资源，以词为单位进行分词，若资源为英文资源以空格进行分词，并且对分词后的单词进行词干提取和词形还原。

在具体实施方式中，如图4所示，第二特征抽取机制具体包括如下步骤：

S201: 图片特征抽取，利用预先训练的卷积神经网络提取图片特征。

S202：公式特征抽取，利用预先训练的LSTM模型提取Latex公式语义特征。

S203：文本特征抽取，利用预先训练的中英文BERT模型提取文字部分的文本语义特征。同时对文字部分进行文本分词，提取实体词。若资源为中文资源，以词为单位进行分词，若资源为英文资源以空格进行分词，并且对分词后的单词进行词干提取和词形还原。

在具体实施方式中，本方法能够支持整题目查重功能、图片查重功能和公式查重功能。针对不同功能，本方法的步骤S3的具体实现过程如下：

当进行整题目查重时，所述步骤S3具体包括如下步骤：

S301: 获取在提取待查重题目中抽取的公式特征、图片特征、文本语义特征和实体词。

S302: 相似资源召回。依据待查重题目实体词，利用倒排索引对资源查重库中的相关资源进行召回；若待查重题目含有图片特征，利用局部敏感哈希算法在资源查重库中查找相似图片，召回含相似图片的资源；若待查题目含有公式特征，利用局部敏感哈希算法在资源查重库中查找相似公式，召回含相似公式的资源；对所有召回的资源进行去重处理。

S303: 相似资源精排序。计算待查重题目文本语义特征和召回资源的文本语义特征之间的余弦距离相似度，并依据余弦距离相似度进行排序，输出相似资源列表。

当进行图片查重时，所述步骤S3具体包括如下步骤：

S311：获取待查重图片，利用预先训练的卷积神经网络提取图片特征，利用局部敏感哈希算法在资源查重库中查找相似图片。

S312：利用预先训练的OCR模型提取待查重图片中的文字, 若提取到文字，则抽取实体词，并利用图片的标签在资源查重库中查找相似图片。

当进行公式查重时，所述步骤S3具体包括如下步骤：

S321：获取待查重公式，并对待查重公式进行预处理，若待查重公式为图片格式，利用预先训练的Image转Latex模型提取图片中的Latex公式；若待查重公式为MathML格式，则将MathML公式的公式转化为Latex形式。

实施例二：

基于实施例一，如图5所示，本发明还公开了一种多模态题库资源查重系统，包括：资源解析模块1、资源入库模块2、待查重题目处理模块3、检索模块4。

资源解析模块1，用于对资源进行预处理和解析，利用数据提取机制提取资源中的公式、图片和文字。

资源入库模块2，用于调用资源解析模块完成资源解析，利用第一特征抽取机制进行特征进行特征抽取，并建立相应的索引，保存到资源查重库中。

待查重题目处理模块3，用于对待查重题目进行预处理和解析，利用数据提取机制提取待查重题目中的公式、图片和文字，并利用第二特征抽取机制进行特征抽取。

检索模块4，用于据待查重题目中抽取的特征，在资源查重库进行多路相似资源的召回和去重，进行语义计算排序，并输出相似资源列表。

实施例三：

本实施例公开了一种多模态题库资源查重装置，包括处理器和存储器；其中，所述处理器执行所述存储器中保存的多模态题库资源查重程序时实现以下步骤：

1、对待入库资源进行预处理和解析，利用数据提取机制提取待入库资源中的公式、图片和文字，利用第一特征抽取机制进行特征抽取，并建立索引，以建立资源查重库。

2、对待查重题目进行预处理和解析，利用数据提取机制提取待查重题目中的公式、图片和文字，并利用第二特征抽取机制进行特征抽取。

3、根据待查重题目中抽取的特征，在资源查重库进行多路相似资源的召回和去重，进行语义计算排序，并输出相似资源列表。

进一步的，本实施例中的多模态题库资源查重装置，还可以包括：

输入接口，用于获取外界导入的多模态题库资源查重程序，并将获取到的多模态题库资源查重程序保存至所述存储器中，还可以用于获取外界终端设备传输的各种指令和参数，并传输至处理器中，以便处理器利用上述各种指令和参数展开相应的处理。本实施例中，所述输入接口具体可以包括但不限于USB接口、串行接口、语音输入接口、指纹输入接口、硬盘读取接口等。

输出接口，用于将处理器产生的各种数据输出至与其相连的终端设备，以便于与输出接口相连的其他终端设备能够获取到处理器产生的各种数据。本实施例中，所述输出接口具体可以包括但不限于USB接口、串行接口等。

通讯单元，用于在多模态题库资源查重装置和外部服务器之间建立远程通讯连接，以便于多模态题库资源查重装置能够将镜像文件挂载到外部服务器中。本实施例中，通讯单元具体可以包括但不限于基于无线通讯技术或有线通讯技术的远程通讯单元。

键盘，用于获取用户通过实时敲击键帽而输入的各种参数数据或指令。

显示器，用于运行多模态题库资源查重过程的相关信息进行实时显示。

鼠标，可以用于协助用户输入数据并简化用户的操作。

实施例四：

本实施例还公开了一种可读存储介质，这里所说的可读存储介质包括随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动硬盘、CD-ROM或技术领域内所公知的任意其他形式的存储介质。可读存储介质中存储有多模态题库资源查重程序，所述多模态题库资源查重程序被处理器执行时实现以下步骤：

综上所述，本发明通过对多模态题库资源的特征提取和分析，实现了整题目查重、图片查重和公式查重功能，有效提高了题库资源的查重速度和查重精度。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的方法而言，由于其与实施例公开的系统相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统、系统和方法，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，系统或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个单元中。

同理，在本发明各个实施例中的各处理单元可以集成在一个功能模块中，也可以是各个处理单元物理存在，也可以两个或两个以上处理单元集成在一个功能模块中。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本发明所提供的多模态题库资源查重方法、系统、装置及可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种多模态题库资源查重方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的多模态题库资源查重方法，其特征在于，所述数据提取机制包括：

3.根据权利要求2所述的多模态题库资源查重方法，其特征在于，所述第一特征抽取机制包括：

4.根据权利要求3所述的多模态题库资源查重方法，其特征在于，所述第二特征抽取机制包括：

5.根据权利要求4所述的多模态题库资源查重方法，其特征在于，所述步骤S3具体包括如下步骤：

6.根据权利要求4所述的多模态题库资源查重方法，其特征在于，所述步骤S3具体包括如下步骤：

7.根据权利要求4所述的多模态题库资源查重方法，其特征在于，所述步骤S3具体包括如下步骤：

8.一种多模态题库资源查重系统，其特征在于，包括：

9.一种多模态题库资源查重装置，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至7任一项所述多模态题库资源查重方法的步骤。

10.一种可读存储介质，其特征在于：所述可读存储介质上存储有多模态题库资源查重程序，所述多模态题库资源查重程序被处理器执行时实现如权利要求1至7任一项权利要求所述的多模态题库资源查重方法的步骤。