CN113220921A

CN113220921A - 一种基于文本和图像搜索的题库录入自动化方法

Info

Publication number: CN113220921A
Application number: CN202110616692.2A
Authority: CN
Inventors: 江人杰
Original assignee: Nanjing Hongsong Information Technology Co ltd
Current assignee: Nanjing Hongsong Information Technology Co ltd
Priority date: 2021-06-03
Filing date: 2021-06-03
Publication date: 2021-08-06

Abstract

本发明涉及一种基于文本和图像搜索的题库录入自动化方法，具体包括以下步骤：S1：选取待录入题目并对待录入题目内容进行向量化处理，获得文本特征向量或/和图像特征向量；S2：根据文本特征向量判断待录入题目的文本内容是否为题目类别，若是题目类别，则进行步骤S4，否则返回步骤S1；S3：根据图像特征向量判断待录入题目的图像内容是否为有效图像，若是，则进行步骤S4，否则返回步骤S1；S4：根据待录入题目内容的文本特征向量和图像特征向量，在题库中查找是否有相似的题目，获得特征相似度；S5：根据设定相似阈值判断该待录入题目是否已录入过题库，若已录入过，则对该待录入题目不进行录入；若没录入过，则录入题库。

Description

一种基于文本和图像搜索的题库录入自动化方法

技术领域

本发明涉及计算机应用技术领域，尤其涉及一种基于文本和图像搜索的题库录入自动化方法。

背景技术

伴随着人工智能和大数据技术在实际应用中的发展，智能化教育从互联网终端发起，开始逐渐被人们所熟知，正悄无声息地改变着人们的生活观念和生活方式。智能化教育的背后，离不开庞大的数据做支撑，其中在线教育平台和考试的自动化批阅平台都需要大数据的题库。通过题库的扩展和丰富，不仅可以在老师录入题目的过程中增加可选题目的多样性，而且可以在无母卷的自动化批阅条件下实现更高的精准度。正如此，题目的录入成为题库扩展的一个重要环节，无疑也是一项重点技术，解决这类技术问题变得亟不可待。

当前题库的录入主要是采取人工方式，依靠人工审核、校验和比对等。这不仅增加了人工劳作的成本，同时也成为加重了人工负担，而实际录入过程中存在很多相似度较高的待录入题，单靠人工方式进行审核，很难保证录入的准确性，不经达不到完全排重的目的，甚至会将相同的题目重复录入至题库系统中。同时，大量的题目不仅包含文本格式的信息，还包含不同图像格式的信息，造成传统方法在题库录入方面无法满足现状的窘境，存在操作繁琐，错误率较高的情形。此外，相同或相似题干内容和图像信息会造成数据库过于庞大和冗余，面临对题库数据检索时导致服务器压力过大的问题，既影响题库检索速度，也影响检索多样性结果的呈现效果。

发明内容

本发明要解决的技术问题是，提供一种基于文本和图像搜索的题库录入自动化方法，实现了文本和图像的检索功能和题库的自动化录入功能，对录入条件有更加精准的判断，同时减轻了人工录入的工作量，提高题库录入的效率，使题库内容更加规范。

为了解决上述技术问题，本发明采用的技术方案是：该基于文本和图像搜索的题库录入自动化方法，具体包括以下步骤：

S1：选取待录入题目，并对待录入题目内容进行向量化处理，获得文本特征向量或/和图像特征向量；

S2：根据文本特征向量判断待录入题目的文本内容是否为题目类别，若是题目类别，则进行步骤S4，否则返回步骤S1重新选取题目；

S3：根据图像特征向量判断待录入题目的图像内容是否为有效图像，若是有效图像，则进行步骤S4，否则返回步骤S1重新选取题目；

S4：根据待录入题目内容的文本特征向量和图像特征向量，在题库中查找是否有相似的题目，获得特征相似度；

S5：根据设定相似阈值判断该待录入题目是否已录入过题库，若已录入过，则对该待录入题目不进行录入；若没有录入过，则将该待录入题目录入题库。

采用上述技术方案，首先获取待录入题目的内容，然后对该内容进行文字向量化处理和图像的向量化处理，接着判断该内容是否为题目内容，最后根据向量化信息的检索结果判断该内容是否在题库中存在与其高度相似的其他题目；不仅符合高效率作业的要求，而且充分使用文字和图像的信息，可以对录入的条件有更加精准的判断，能够使用待录入内容的图像和文字多种向量化信息进行检索并实现题库自动录入功能；同时减轻了人工录入的工作量，提高题库录入的效率，使题库内容更加规范。

作为本发明的优选技术方案，所述步骤S1的具体步骤为：

S11：若待录入题目的信息为纯文本内容，使用文本向量化模型提取文本特征向量，特征向量可以表示为：[x₁，x₂，x₃...x_n]；

S12：若待录入题目的信息中只包含图像内容不包含文字内容或同时包含图像内容和文本内容，具体包括步骤为：

S121：先使用OCR识别图像中的文字内容，并从图像中提取文字内容，则转至步骤S122；若没有提取到文字内容，则转至步骤S123；

S122：采用步骤S11中的文本向量化模型提取文本特征向量，再对待录入题目内容中提取文字内容后的图像内容进行处理；

S123：使用图像向量化模型提取图像特征向量；图像特征向量可以表示为：[y₁，y₂，y₃...y_n]；

S13：若待录入题目中没有检测到文字内容或者文字内容过少，则放弃当前待录入题目，不录入题库。步骤S12中先将使用OCR识别到的图像中的文字内容和待录入题目的信息中原始的文本内容进行结合，再使用文本向量化模型使用文本向量化模型提取文本特征向量，其中有图像内容的使用图像向量化模型提取图像特征向量。

作为本发明的优选技术方案，所述步骤S122中对待录入题目内容中提取文字内容后的图像内容进行处理的具体方法为：将图像中提取出文字内容的区域置为空白，以减少后续图像特征提取时的文字影像产生的干扰。该处理只针对图像中提取了文字内容的，如果没有提取出文字内容，则不需要对图像进行特殊处理。

作为本发明的优选技术方案，所述步骤S1中的文本向量化模型是可训练的句向量模型，通过以下步骤训练得到：对于题目文本集中的文本信息进行二维特征向量提取，从而得到所述文本向量化模型；所述图像向量化模型是卷积神经网络模型。文本特征向量和图像特征向量分别为两个独立的特征向量，不对其进行特征拼接或者特征融合。

作为本发明的优选技术方案，所述步骤S2具体包括以下步骤：

S21：采用第一题目分类模型对步骤S1中得到的文本特征向量进行分类并判断是否为题目，若判断待录入题目的文本内容为题目类别，若是则转至S22；若不是则放弃该待录入题目，转至步骤S1重新选取待录入题目；

S22：再使用第二题目分类模型对步骤S21中得到的文本特征向量进行分类并判断是否为题目标题类别，若是则转至步骤S4，若不是，则不录入该待录入题目，转至步骤S1重新选取待录入题目。待录入的文本内容信息很有可能不是可信的题目信息，例如可能会包含“课后故事”“每日佳句”“考试名称”等无用噪声信息，这些非题目内容不应在录入题库中。录入之前需要将这些非题目的内容排除。因为题目的文字内容一般具有较为明显的特征，所以可以使用第一题目分类模型对步骤S1得到的文本特征向量进行分类并判断是否为题目，如果判断待录入信息为非题目类别，则不录入改内容；待录入的文本内容也可能是残缺不全的信息，只包含题目标题，例如“判断题”“填一填”“应用题”，这些内容会造成题库题集的冗余，并且此内容对于后续检索没有帮助，影响检索结果的精度；所以可以使用第二题目分类模型对步骤S1得到的文本特征向量进行分类并判断是否为题目标题；如果判断待录入信息为题目标题类别，则不录入改内容。

作为本发明的优选技术方案，所述第一题目分类模型和第二题目分类模型是基于神经网络的文本分类模型，即基于CNN或者RNN模型或者线性分类器；所述第一题目分类模型和第二题目分类模型通过以下步骤训练得到：将题目训练样本集作为正样本集，同时构建非题目数据集作为负样本集，从而训练得到第一题目分类模型和第二题目分类模型。

作为本发明的优选技术方案，所述步骤S3中使用图像分类模型对步骤S1中得到的图像特征向量进行判断分类，若为非有效图像，则不对该待入题目的图像内容的图像特征向量进行录入和检索；所采用的图像分类模型是卷积神经网络模型，卷积神经网络模型是根据现有的CNN卷积神经网络预训练特征提取模型进行迁移学习获得的；CNN预训练模型可以使用ResNet，VggNet,GoogleNet等现有的CNN模型。例如纯文字图像，网格图像为非有效图像。在进行了步骤S122的图像处理之后，可能变成空白图像，这些内容对于图像特征的检索会造成一定的干扰，纯文字图像可能文本内容完全不同，但是因为字体，大小等特征，完全不同内容的纯文字图像之间的特征相似度可能很高，这对于检索结果有很大的影响。所以使用图像分类模型对步骤S1得到的图像特征向量进行分类，如果分类为非有效图像，则不对该内容的图像特征向量进行录入和检索。

作为本发明的优选技术方案，所述步骤S4具体包括以下步骤：

S41：根据所述步骤S1中的获得的待录入题目文本特征向量或/和图像特征向量，先在文本索引模型中查找与该待录入题目的文本特征向量最近的特征向量并获得两个特征向量之间的特征相似度，记为：similarity1；

S42：若题目特征向量列表包含图像特征向量，则在图像索引模型中查找与该待录入题目的图像特征向量最近的图像特征向量并获得两个特征向量之间的特征相似度，记为：similarity2。

作为本发明的优选技术方案，所述步骤S4中的所述文本索引模型和图像索引模型均通过以下步骤获得：对题库中每一道题目内容，采用步骤S1的方向进行向量化处理，得到所有题目的文本特征向量和图像特征向量；再根据所有题目的文本特征向量训练文本向量索引模型；根据所有题目的图像特征向量训练出图像向量索引模型。其中构建文本向量索引模型和图像向量索引模型是对于训练样本集内容进行无监督的聚类训练；文本特征向量和图像特征向量查找均可通过向量近似检索的方式查找。其中文本向量索引模型和图像向量索引模型均是现有技术。

作为本发明的优选技术方案，所述步骤S5具体包括以下步骤：

S51：若该待录入题目中只包含文本信息，当文本的特征相似度similarity1大于预设文字相似阈值threshold1，那么判断为高度相似，则对该题目不进行录入，并且返回题库中相似度最高的K个题目以便后续人工审查；反之则录入该待录入题目；

S52：若待录入题目中包含有图像信息，当文本的特征相似度similarity1大于预设文字相似阈值threshold1或者图像的特征相似度similarity2大于预设图像相似阈值threshold2，则判断为高度相似，则对该待录入题目不进行录入，并且返回题库中相似度最高的K个题目以便后续人工审查，反之则录入该待录入题目；其中K为待检索内容和题库中所有题目相似度大于文字相似阈值threshold1的个数，K的值不超过预设最大返回数量。

与现有技术相比，本发明具有的有益效果是：该基于文本和图像搜索的题库录入自动化方法不仅符合高效率作业的要求，而且充分使用文字和图像的信息，可以对录入的条件有更加精准的判断，能够使用待录入内容的图像和文字多种向量化信息进行检索并实现题库自动录入功能；同时减轻了人工录入的工作量，提高题库录入的效率，使题库内容更加规范。

附图说明

下面结合附图进一步描述本发明的技术方案：

图1是本发明的基于文本和图像搜索的题库录入自动化方法的流程图。

具体实施方式

为了加深对本发明的理解，下面将结合附图和实施例对本发明做进一步详细描述，该实施例仅用于解释本发明，并不对本发明的保护范围构成限定。

实施例：如图1所示，该基于文本和图像搜索的题库录入自动化方法，具体包括以下步骤：

所述步骤S1具体包括以下步骤：

所述步骤S122中对待录入题目内容中提取文字内容后的图像内容进行处理的具体方法为：将图像中提取出文字内容的区域置为空白，以减少后续图像特征提取时的文字影像产生的干扰。该处理只针对图像中提取了文字内容的，如果没有提取出文字内容，则不需要对图像进行特殊处理；

S13：若待录入题目中没有检测到文字内容或者文字内容过少，则放弃当前待录入题目，不录入题库。步骤S12中先将使用OCR识别到的图像中的文字内容和待录入题目的信息中原始的文本内容进行结合，再使用文本向量化模型使用文本向量化模型提取文本特征向量，其中有图像内容的使用图像向量化模型提取图像特征向量；所述步骤S1中的文本向量化模型是可训练的句向量模型，通过以下步骤训练得到：对于题目文本集中的文本信息进行二维特征向量提取，从而得到所述文本向量化模型；所述图像向量化模型是卷积神经网络模型；文本特征向量和图像特征向量分别为两个独立的特征向量，不对其进行特征拼接或者特征融合；

所述步骤S2具体包括以下步骤：

S22：再使用第二题目分类模型对步骤S21中得到的文本特征向量进行分类并判断是否为题目标题类别，若是则转至步骤S4，若不是，则不录入该待录入题目，转至步骤S1重新选取待录入题目；所述第一题目分类模型和第二题目分类模型是基于神经网络的文本分类模型，即基于CNN或者RNN模型或者线性分类器；所述第一题目分类模型和第二题目分类模型通过以下步骤训练得到：将题目训练样本集作为正样本集，同时构建非题目数据集作为负样本集，从而训练得到第一题目分类模型和第二题目分类模型；

待录入的文本内容信息很有可能不是可信的题目信息，例如可能会包含“课后故事”“每日佳句”“考试名称”等无用噪声信息，这些非题目内容不应在录入题库中；录入之前需要将这些非题目的内容排除；因为题目的文字内容一般具有较为明显的特征，所以可以使用第一题目分类模型对步骤S1得到的文本特征向量进行分类并判断是否为题目，如果判断待录入信息为非题目类别，则不录入改内容；待录入的文本内容也可能是残缺不全的信息，只包含题目标题，例如“判断题”“填一填”“应用题”，这些内容会造成题库题集的冗余，并且此内容对于后续检索没有帮助，影响检索结果的精度；所以可以使用第二题目分类模型对步骤S1得到的文本特征向量进行分类并判断是否为题目标题；如果判断待录入信息为题目标题类别，则不录入改内容；

所述步骤S3中使用图像分类模型对步骤S1中得到的图像特征向量进行判断分类，若为非有效图像，则不对该待入题目的图像内容的图像特征向量进行录入和检索；所采用的图像分类模型是卷积神经网络模型，卷积神经网络模型是根据现有的CNN卷积神经网络预训练特征提取模型进行迁移学习获得的；CNN预训练模型可以使用ResNet，VggNet,GoogleNet等现有的CNN模型；例如纯文字图像，网格图像为非有效图像。在进行了步骤S122的图像处理之后，可能变成空白图像，这些内容对于图像特征的检索会造成一定的干扰，纯文字图像可能文本内容完全不同，但是因为字体，大小等特征，完全不同内容的纯文字图像之间的特征相似度可能很高，这对于检索结果有很大的影响。所以使用图像分类模型对步骤S1得到的图像特征向量进行分类，如果分类为非有效图像，则不对该内容的图像特征向量进行录入和检索；

所述步骤S4具体包括以下步骤：

S42：若题目特征向量列表包含图像特征向量，则在图像索引模型中查找与该待录入题目的图像特征向量最近的图像特征向量并获得两个特征向量之间的特征相似度，记为：similarity2；

所述步骤S4中的所述文本索引模型和图像索引模型均通过以下步骤获得：对题库中每一道题目内容，采用步骤S1的方向进行向量化处理，得到所有题目的文本特征向量和图像特征向量；再根据所有题目的文本特征向量训练文本向量索引模型；根据所有题目的图像特征向量训练出图像向量索引模型。其中构建文本向量索引模型和图像向量索引模型是对于训练样本集内容进行无监督的聚类训练；文本特征向量和图像特征向量查找均可通过向量近似检索的方式查找；其中文本向量索引模型和图像向量索引模型均是现有技术；

S5：根据设定相似阈值判断该待录入题目是否已录入过题库，若已录入过，则对该待录入题目不进行录入；若没有录入过，则将该待录入题目录入题库；

所述步骤S5具体包括以下步骤：

对于本领域的普通技术人员而言，具体实施例只是对本发明进行了示例性描述，显然本发明具体实现并不受上述方式的限制，只要采用了本发明的方法构思和技术方案进行的各种非实质性的改进，或未经改进将本发明的构思和技术方案直接应用于其它场合的，均在本发明的保护范围之内。

Claims

1.一种基于文本和图像搜索的题库录入自动化方法，其特征在于，具体包括以下步骤：

2.根据权利要求1所述的基于文本和图像搜索的题库录入自动化方法，其特征在于，所述步骤S1的具体步骤为：

S13：若待录入题目中没有检测到文字内容或者文字内容过少，则放弃当前待录入题目，不录入题库。

3.根据权利要求2所述的基于文本和图像搜索的题库录入自动化方法，其特征在于，所述步骤S122中对待录入题目内容中提取文字内容后的图像内容进行处理的具体方法为：将图像中提取出文字内容的区域置为空白，以减少后续图像特征提取时的文字影像产生的干扰。

4.根据权利要求2所述的基于文本和图像搜索的题库录入自动化方法，其特征在于，所述步骤S1中的文本向量化模型是可训练的句向量模型，通过以下步骤训练得到：对于题目文本集中的文本信息进行二维特征向量提取，从而得到所述文本向量化模型；所述图像向量化模型是卷积神经网络模型。

5.根据权利要求2所述的基于文本和图像搜索的题库录入自动化方法，其特征在于，所述步骤S2具体包括以下步骤：

S22：再使用第二题目分类模型对步骤S21中得到的文本特征向量进行分类并判断是否为题目标题类别，若是则转至步骤S4，若不是，则不录入该待录入题目，转至步骤S1重新选取待录入题目。

6.根据权利要求5所述的基于文本和图像搜索的题库录入自动化方法，其特征在于，所述第一题目分类模型和第二题目分类模型是基于神经网络的文本分类模型，即基于CNN或者RNN模型或者线性分类器；所述第一题目分类模型和第二题目分类模型通过以下步骤训练得到：将题目训练样本集作为正样本集，同时构建非题目数据集作为负样本集，从而训练得到第一题目分类模型和第二题目分类模型。

7.根据权利要求5所述的基于文本和图像搜索的题库录入自动化方法，其特征在于，所述步骤S3中使用图像分类模型对步骤S1中得到的图像特征向量进行判断分类，若为非有效图像，则不对该待入题目的图像内容的图像特征向量进行录入和检索；所采用的图像分类模型是卷积神经网络模型。

8.根据权利要求5所述的基于文本和图像搜索的题库录入自动化方法，其特征在于，所述步骤S4具体包括以下步骤：

9.根据权利要求8所述的基于文本和图像搜索的题库录入自动化方法，其特征在于，所述步骤S4中的所述文本索引模型和图像索引模型均通过以下步骤获得：对题库中每一道题目内容，采用步骤S1的方向进行向量化处理，得到所有题目的文本特征向量和图像特征向量；再根据所有题目的文本特征向量训练文本向量索引模型；根据所有题目的图像特征向量训练出图像向量索引模型。

10.根据权利要求9所述的基于文本和图像搜索的题库录入自动化方法，其特征在于，所述步骤S5具体包括以下步骤：