CN113220921A - 一种基于文本和图像搜索的题库录入自动化方法 - Google Patents
一种基于文本和图像搜索的题库录入自动化方法 Download PDFInfo
- Publication number
- CN113220921A CN113220921A CN202110616692.2A CN202110616692A CN113220921A CN 113220921 A CN113220921 A CN 113220921A CN 202110616692 A CN202110616692 A CN 202110616692A CN 113220921 A CN113220921 A CN 113220921A
- Authority
- CN
- China
- Prior art keywords
- text
- question
- image
- input
- content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 239000013598 vector Substances 0.000 claims abstract description 154
- 238000013145 classification model Methods 0.000 claims description 38
- 238000012549 training Methods 0.000 claims description 26
- 238000013527 convolutional neural network Methods 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 17
- 238000012015 optical character recognition Methods 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000012905 input function Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013526 transfer learning Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000002354 daily effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000000699 topical effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/5866—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Library & Information Science (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于文本和图像搜索的题库录入自动化方法,具体包括以下步骤:S1:选取待录入题目并对待录入题目内容进行向量化处理,获得文本特征向量或/和图像特征向量;S2:根据文本特征向量判断待录入题目的文本内容是否为题目类别,若是题目类别,则进行步骤S4,否则返回步骤S1;S3:根据图像特征向量判断待录入题目的图像内容是否为有效图像,若是,则进行步骤S4,否则返回步骤S1;S4:根据待录入题目内容的文本特征向量和图像特征向量,在题库中查找是否有相似的题目,获得特征相似度;S5:根据设定相似阈值判断该待录入题目是否已录入过题库,若已录入过,则对该待录入题目不进行录入;若没录入过,则录入题库。
Description
技术领域
本发明涉及计算机应用技术领域,尤其涉及一种基于文本和图像搜索的题库录入自动化方法。
背景技术
伴随着人工智能和大数据技术在实际应用中的发展,智能化教育从互联网终端发起,开始逐渐被人们所熟知,正悄无声息地改变着人们的生活观念和生活方式。智能化教育的背后,离不开庞大的数据做支撑,其中在线教育平台和考试的自动化批阅平台都需要大数据的题库。通过题库的扩展和丰富,不仅可以在老师录入题目的过程中增加可选题目的多样性,而且可以在无母卷的自动化批阅条件下实现更高的精准度。正如此,题目的录入成为题库扩展的一个重要环节,无疑也是一项重点技术,解决这类技术问题变得亟不可待。
当前题库的录入主要是采取人工方式,依靠人工审核、校验和比对等。这不仅增加了人工劳作的成本,同时也成为加重了人工负担,而实际录入过程中存在很多相似度较高的待录入题,单靠人工方式进行审核,很难保证录入的准确性,不经达不到完全排重的目的,甚至会将相同的题目重复录入至题库系统中。同时,大量的题目不仅包含文本格式的信息,还包含不同图像格式的信息,造成传统方法在题库录入方面无法满足现状的窘境,存在操作繁琐,错误率较高的情形。此外,相同或相似题干内容和图像信息会造成数据库过于庞大和冗余,面临对题库数据检索时导致服务器压力过大的问题,既影响题库检索速度,也影响检索多样性结果的呈现效果。
发明内容
本发明要解决的技术问题是,提供一种基于文本和图像搜索的题库录入自动化方法,实现了文本和图像的检索功能和题库的自动化录入功能,对录入条件有更加精准的判断,同时减轻了人工录入的工作量,提高题库录入的效率,使题库内容更加规范。
为了解决上述技术问题,本发明采用的技术方案是:该基于文本和图像搜索的题库录入自动化方法,具体包括以下步骤:
S1:选取待录入题目,并对待录入题目内容进行向量化处理,获得文本特征向量或/和图像特征向量;
S2:根据文本特征向量判断待录入题目的文本内容是否为题目类别,若是题目类别,则进行步骤S4,否则返回步骤S1重新选取题目;
S3:根据图像特征向量判断待录入题目的图像内容是否为有效图像,若是有效图像,则进行步骤S4,否则返回步骤S1重新选取题目;
S4:根据待录入题目内容的文本特征向量和图像特征向量,在题库中查找是否有相似的题目,获得特征相似度;
S5:根据设定相似阈值判断该待录入题目是否已录入过题库,若已录入过,则对该待录入题目不进行录入;若没有录入过,则将该待录入题目录入题库。
采用上述技术方案,首先获取待录入题目的内容,然后对该内容进行文字向量化处理和图像的向量化处理,接着判断该内容是否为题目内容,最后根据向量化信息的检索结果判断该内容是否在题库中存在与其高度相似的其他题目;不仅符合高效率作业的要求,而且充分使用文字和图像的信息,可以对录入的条件有更加精准的判断,能够使用待录入内容的图像和文字多种向量化信息进行检索并实现题库自动录入功能;同时减轻了人工录入的工作量,提高题库录入的效率,使题库内容更加规范。
作为本发明的优选技术方案,所述步骤S1的具体步骤为:
S11:若待录入题目的信息为纯文本内容,使用文本向量化模型提取文本特征向量,特征向量可以表示为:[x1,x2,x3...xn];
S12:若待录入题目的信息中只包含图像内容不包含文字内容或同时包含图像内容和文本内容,具体包括步骤为:
S121:先使用OCR识别图像中的文字内容,并从图像中提取文字内容,则转至步骤S122;若没有提取到文字内容,则转至步骤S123;
S122:采用步骤S11中的文本向量化模型提取文本特征向量,再对待录入题目内容中提取文字内容后的图像内容进行处理;
S123:使用图像向量化模型提取图像特征向量;图像特征向量可以表示为:[y1,y2,y3...yn];
S13:若待录入题目中没有检测到文字内容或者文字内容过少,则放弃当前待录入题目,不录入题库。步骤S12中先将使用OCR识别到的图像中的文字内容和待录入题目的信息中原始的文本内容进行结合,再使用文本向量化模型使用文本向量化模型提取文本特征向量,其中有图像内容的使用图像向量化模型提取图像特征向量。
作为本发明的优选技术方案,所述步骤S122中对待录入题目内容中提取文字内容后的图像内容进行处理的具体方法为:将图像中提取出文字内容的区域置为空白,以减少后续图像特征提取时的文字影像产生的干扰。该处理只针对图像中提取了文字内容的,如果没有提取出文字内容,则不需要对图像进行特殊处理。
作为本发明的优选技术方案,所述步骤S1中的文本向量化模型是可训练的句向量模型,通过以下步骤训练得到:对于题目文本集中的文本信息进行二维特征向量提取,从而得到所述文本向量化模型;所述图像向量化模型是卷积神经网络模型。文本特征向量和图像特征向量分别为两个独立的特征向量,不对其进行特征拼接或者特征融合。
作为本发明的优选技术方案,所述步骤S2具体包括以下步骤:
S21:采用第一题目分类模型对步骤S1中得到的文本特征向量进行分类并判断是否为题目,若判断待录入题目的文本内容为题目类别,若是则转至S22;若不是则放弃该待录入题目,转至步骤S1重新选取待录入题目;
S22:再使用第二题目分类模型对步骤S21中得到的文本特征向量进行分类并判断是否为题目标题类别,若是则转至步骤S4,若不是,则不录入该待录入题目,转至步骤S1重新选取待录入题目。待录入的文本内容信息很有可能不是可信的题目信息,例如可能会包含“课后故事”“每日佳句”“考试名称”等无用噪声信息,这些非题目内容不应在录入题库中。录入之前需要将这些非题目的内容排除。因为题目的文字内容一般具有较为明显的特征,所以可以使用第一题目分类模型对步骤S1得到的文本特征向量进行分类并判断是否为题目,如果判断待录入信息为非题目类别,则不录入改内容;待录入的文本内容也可能是残缺不全的信息,只包含题目标题,例如“判断题”“填一填”“应用题”,这些内容会造成题库题集的冗余,并且此内容对于后续检索没有帮助,影响检索结果的精度;所以可以使用第二题目分类模型对步骤S1得到的文本特征向量进行分类并判断是否为题目标题;如果判断待录入信息为题目标题类别,则不录入改内容。
作为本发明的优选技术方案,所述第一题目分类模型和第二题目分类模型是基于神经网络的文本分类模型,即基于CNN或者RNN模型或者线性分类器;所述第一题目分类模型和第二题目分类模型通过以下步骤训练得到:将题目训练样本集作为正样本集,同时构建非题目数据集作为负样本集,从而训练得到第一题目分类模型和第二题目分类模型。
作为本发明的优选技术方案,所述步骤S3中使用图像分类模型对步骤S1中得到的图像特征向量进行判断分类,若为非有效图像,则不对该待入题目的图像内容的图像特征向量进行录入和检索;所采用的图像分类模型是卷积神经网络模型,卷积神经网络模型是根据现有的CNN卷积神经网络预训练特征提取模型进行迁移学习获得的;CNN预训练模型可以使用ResNet,VggNet,GoogleNet等现有的CNN模型。例如纯文字图像,网格图像为非有效图像。在进行了步骤S122的图像处理之后,可能变成空白图像,这些内容对于图像特征的检索会造成一定的干扰,纯文字图像可能文本内容完全不同,但是因为字体,大小等特征,完全不同内容的纯文字图像之间的特征相似度可能很高,这对于检索结果有很大的影响。所以使用图像分类模型对步骤S1得到的图像特征向量进行分类,如果分类为非有效图像,则不对该内容的图像特征向量进行录入和检索。
作为本发明的优选技术方案,所述步骤S4具体包括以下步骤:
S41:根据所述步骤S1中的获得的待录入题目文本特征向量或/和图像特征向量,先在文本索引模型中查找与该待录入题目的文本特征向量最近的特征向量并获得两个特征向量之间的特征相似度,记为:similarity1;
S42:若题目特征向量列表包含图像特征向量,则在图像索引模型中查找与该待录入题目的图像特征向量最近的图像特征向量并获得两个特征向量之间的特征相似度,记为:similarity2。
作为本发明的优选技术方案,所述步骤S4中的所述文本索引模型和图像索引模型均通过以下步骤获得:对题库中每一道题目内容,采用步骤S1的方向进行向量化处理,得到所有题目的文本特征向量和图像特征向量;再根据所有题目的文本特征向量训练文本向量索引模型;根据所有题目的图像特征向量训练出图像向量索引模型。其中构建文本向量索引模型和图像向量索引模型是对于训练样本集内容进行无监督的聚类训练;文本特征向量和图像特征向量查找均可通过向量近似检索的方式查找。其中文本向量索引模型和图像向量索引模型均是现有技术。
作为本发明的优选技术方案,所述步骤S5具体包括以下步骤:
S51:若该待录入题目中只包含文本信息,当文本的特征相似度similarity1大于预设文字相似阈值threshold1,那么判断为高度相似,则对该题目不进行录入,并且返回题库中相似度最高的K个题目以便后续人工审查;反之则录入该待录入题目;
S52:若待录入题目中包含有图像信息,当文本的特征相似度similarity1大于预设文字相似阈值threshold1或者图像的特征相似度similarity2大于预设图像相似阈值threshold2,则判断为高度相似,则对该待录入题目不进行录入,并且返回题库中相似度最高的K个题目以便后续人工审查,反之则录入该待录入题目;其中K为待检索内容和题库中所有题目相似度大于文字相似阈值threshold1的个数,K的值不超过预设最大返回数量。
与现有技术相比,本发明具有的有益效果是:该基于文本和图像搜索的题库录入自动化方法不仅符合高效率作业的要求,而且充分使用文字和图像的信息,可以对录入的条件有更加精准的判断,能够使用待录入内容的图像和文字多种向量化信息进行检索并实现题库自动录入功能;同时减轻了人工录入的工作量,提高题库录入的效率,使题库内容更加规范。
附图说明
下面结合附图进一步描述本发明的技术方案:
图1是本发明的基于文本和图像搜索的题库录入自动化方法的流程图。
具体实施方式
为了加深对本发明的理解,下面将结合附图和实施例对本发明做进一步详细描述,该实施例仅用于解释本发明,并不对本发明的保护范围构成限定。
实施例:如图1所示,该基于文本和图像搜索的题库录入自动化方法,具体包括以下步骤:
S1:选取待录入题目,并对待录入题目内容进行向量化处理,获得文本特征向量或/和图像特征向量;
所述步骤S1具体包括以下步骤:
S11:若待录入题目的信息为纯文本内容,使用文本向量化模型提取文本特征向量,特征向量可以表示为:[x1,x2,x3...xn];
S12:若待录入题目的信息中只包含图像内容不包含文字内容或同时包含图像内容和文本内容,具体包括步骤为:
S121:先使用OCR识别图像中的文字内容,并从图像中提取文字内容,则转至步骤S122;若没有提取到文字内容,则转至步骤S123;
S122:采用步骤S11中的文本向量化模型提取文本特征向量,再对待录入题目内容中提取文字内容后的图像内容进行处理;
所述步骤S122中对待录入题目内容中提取文字内容后的图像内容进行处理的具体方法为:将图像中提取出文字内容的区域置为空白,以减少后续图像特征提取时的文字影像产生的干扰。该处理只针对图像中提取了文字内容的,如果没有提取出文字内容,则不需要对图像进行特殊处理;
S123:使用图像向量化模型提取图像特征向量;图像特征向量可以表示为:[y1,y2,y3...yn];
S13:若待录入题目中没有检测到文字内容或者文字内容过少,则放弃当前待录入题目,不录入题库。步骤S12中先将使用OCR识别到的图像中的文字内容和待录入题目的信息中原始的文本内容进行结合,再使用文本向量化模型使用文本向量化模型提取文本特征向量,其中有图像内容的使用图像向量化模型提取图像特征向量;所述步骤S1中的文本向量化模型是可训练的句向量模型,通过以下步骤训练得到:对于题目文本集中的文本信息进行二维特征向量提取,从而得到所述文本向量化模型;所述图像向量化模型是卷积神经网络模型;文本特征向量和图像特征向量分别为两个独立的特征向量,不对其进行特征拼接或者特征融合;
S2:根据文本特征向量判断待录入题目的文本内容是否为题目类别,若是题目类别,则进行步骤S4,否则返回步骤S1重新选取题目;
所述步骤S2具体包括以下步骤:
S21:采用第一题目分类模型对步骤S1中得到的文本特征向量进行分类并判断是否为题目,若判断待录入题目的文本内容为题目类别,若是则转至S22;若不是则放弃该待录入题目,转至步骤S1重新选取待录入题目;
S22:再使用第二题目分类模型对步骤S21中得到的文本特征向量进行分类并判断是否为题目标题类别,若是则转至步骤S4,若不是,则不录入该待录入题目,转至步骤S1重新选取待录入题目;所述第一题目分类模型和第二题目分类模型是基于神经网络的文本分类模型,即基于CNN或者RNN模型或者线性分类器;所述第一题目分类模型和第二题目分类模型通过以下步骤训练得到:将题目训练样本集作为正样本集,同时构建非题目数据集作为负样本集,从而训练得到第一题目分类模型和第二题目分类模型;
待录入的文本内容信息很有可能不是可信的题目信息,例如可能会包含“课后故事”“每日佳句”“考试名称”等无用噪声信息,这些非题目内容不应在录入题库中;录入之前需要将这些非题目的内容排除;因为题目的文字内容一般具有较为明显的特征,所以可以使用第一题目分类模型对步骤S1得到的文本特征向量进行分类并判断是否为题目,如果判断待录入信息为非题目类别,则不录入改内容;待录入的文本内容也可能是残缺不全的信息,只包含题目标题,例如“判断题”“填一填”“应用题”,这些内容会造成题库题集的冗余,并且此内容对于后续检索没有帮助,影响检索结果的精度;所以可以使用第二题目分类模型对步骤S1得到的文本特征向量进行分类并判断是否为题目标题;如果判断待录入信息为题目标题类别,则不录入改内容;
S3:根据图像特征向量判断待录入题目的图像内容是否为有效图像,若是有效图像,则进行步骤S4,否则返回步骤S1重新选取题目;
所述步骤S3中使用图像分类模型对步骤S1中得到的图像特征向量进行判断分类,若为非有效图像,则不对该待入题目的图像内容的图像特征向量进行录入和检索;所采用的图像分类模型是卷积神经网络模型,卷积神经网络模型是根据现有的CNN卷积神经网络预训练特征提取模型进行迁移学习获得的;CNN预训练模型可以使用ResNet,VggNet,GoogleNet等现有的CNN模型;例如纯文字图像,网格图像为非有效图像。在进行了步骤S122的图像处理之后,可能变成空白图像,这些内容对于图像特征的检索会造成一定的干扰,纯文字图像可能文本内容完全不同,但是因为字体,大小等特征,完全不同内容的纯文字图像之间的特征相似度可能很高,这对于检索结果有很大的影响。所以使用图像分类模型对步骤S1得到的图像特征向量进行分类,如果分类为非有效图像,则不对该内容的图像特征向量进行录入和检索;
S4:根据待录入题目内容的文本特征向量和图像特征向量,在题库中查找是否有相似的题目,获得特征相似度;
所述步骤S4具体包括以下步骤:
S41:根据所述步骤S1中的获得的待录入题目文本特征向量或/和图像特征向量,先在文本索引模型中查找与该待录入题目的文本特征向量最近的特征向量并获得两个特征向量之间的特征相似度,记为:similarity1;
S42:若题目特征向量列表包含图像特征向量,则在图像索引模型中查找与该待录入题目的图像特征向量最近的图像特征向量并获得两个特征向量之间的特征相似度,记为:similarity2;
所述步骤S4中的所述文本索引模型和图像索引模型均通过以下步骤获得:对题库中每一道题目内容,采用步骤S1的方向进行向量化处理,得到所有题目的文本特征向量和图像特征向量;再根据所有题目的文本特征向量训练文本向量索引模型;根据所有题目的图像特征向量训练出图像向量索引模型。其中构建文本向量索引模型和图像向量索引模型是对于训练样本集内容进行无监督的聚类训练;文本特征向量和图像特征向量查找均可通过向量近似检索的方式查找;其中文本向量索引模型和图像向量索引模型均是现有技术;
S5:根据设定相似阈值判断该待录入题目是否已录入过题库,若已录入过,则对该待录入题目不进行录入;若没有录入过,则将该待录入题目录入题库;
所述步骤S5具体包括以下步骤:
S51:若该待录入题目中只包含文本信息,当文本的特征相似度similarity1大于预设文字相似阈值threshold1,那么判断为高度相似,则对该题目不进行录入,并且返回题库中相似度最高的K个题目以便后续人工审查;反之则录入该待录入题目;
S52:若待录入题目中包含有图像信息,当文本的特征相似度similarity1大于预设文字相似阈值threshold1或者图像的特征相似度similarity2大于预设图像相似阈值threshold2,则判断为高度相似,则对该待录入题目不进行录入,并且返回题库中相似度最高的K个题目以便后续人工审查,反之则录入该待录入题目;其中K为待检索内容和题库中所有题目相似度大于文字相似阈值threshold1的个数,K的值不超过预设最大返回数量。
对于本领域的普通技术人员而言,具体实施例只是对本发明进行了示例性描述,显然本发明具体实现并不受上述方式的限制,只要采用了本发明的方法构思和技术方案进行的各种非实质性的改进,或未经改进将本发明的构思和技术方案直接应用于其它场合的,均在本发明的保护范围之内。
Claims (10)
1.一种基于文本和图像搜索的题库录入自动化方法,其特征在于,具体包括以下步骤:
S1:选取待录入题目,并对待录入题目内容进行向量化处理,获得文本特征向量或/和图像特征向量;
S2:根据文本特征向量判断待录入题目的文本内容是否为题目类别,若是题目类别,则进行步骤S4,否则返回步骤S1重新选取题目;
S3:根据图像特征向量判断待录入题目的图像内容是否为有效图像,若是有效图像,则进行步骤S4,否则返回步骤S1重新选取题目;
S4:根据待录入题目内容的文本特征向量和图像特征向量,在题库中查找是否有相似的题目,获得特征相似度;
S5:根据设定相似阈值判断该待录入题目是否已录入过题库,若已录入过,则对该待录入题目不进行录入;若没有录入过,则将该待录入题目录入题库。
2.根据权利要求1所述的基于文本和图像搜索的题库录入自动化方法,其特征在于,所述步骤S1的具体步骤为:
S11:若待录入题目的信息为纯文本内容,使用文本向量化模型提取文本特征向量,特征向量可以表示为:[x1,x2,x3...xn];
S12:若待录入题目的信息中只包含图像内容不包含文字内容或同时包含图像内容和文本内容,具体包括步骤为:
S121:先使用OCR识别图像中的文字内容,并从图像中提取文字内容,则转至步骤S122;若没有提取到文字内容,则转至步骤S123;
S122:采用步骤S11中的文本向量化模型提取文本特征向量,再对待录入题目内容中提取文字内容后的图像内容进行处理;
S123:使用图像向量化模型提取图像特征向量;图像特征向量可以表示为:[y1,y2,y3...yn];
S13:若待录入题目中没有检测到文字内容或者文字内容过少,则放弃当前待录入题目,不录入题库。
3.根据权利要求2所述的基于文本和图像搜索的题库录入自动化方法,其特征在于,所述步骤S122中对待录入题目内容中提取文字内容后的图像内容进行处理的具体方法为:将图像中提取出文字内容的区域置为空白,以减少后续图像特征提取时的文字影像产生的干扰。
4.根据权利要求2所述的基于文本和图像搜索的题库录入自动化方法,其特征在于,所述步骤S1中的文本向量化模型是可训练的句向量模型,通过以下步骤训练得到:对于题目文本集中的文本信息进行二维特征向量提取,从而得到所述文本向量化模型;所述图像向量化模型是卷积神经网络模型。
5.根据权利要求2所述的基于文本和图像搜索的题库录入自动化方法,其特征在于,所述步骤S2具体包括以下步骤:
S21:采用第一题目分类模型对步骤S1中得到的文本特征向量进行分类并判断是否为题目,若判断待录入题目的文本内容为题目类别,若是则转至S22;若不是则放弃该待录入题目,转至步骤S1重新选取待录入题目;
S22:再使用第二题目分类模型对步骤S21中得到的文本特征向量进行分类并判断是否为题目标题类别,若是则转至步骤S4,若不是,则不录入该待录入题目,转至步骤S1重新选取待录入题目。
6.根据权利要求5所述的基于文本和图像搜索的题库录入自动化方法,其特征在于,所述第一题目分类模型和第二题目分类模型是基于神经网络的文本分类模型,即基于CNN或者RNN模型或者线性分类器;所述第一题目分类模型和第二题目分类模型通过以下步骤训练得到:将题目训练样本集作为正样本集,同时构建非题目数据集作为负样本集,从而训练得到第一题目分类模型和第二题目分类模型。
7.根据权利要求5所述的基于文本和图像搜索的题库录入自动化方法,其特征在于,所述步骤S3中使用图像分类模型对步骤S1中得到的图像特征向量进行判断分类,若为非有效图像,则不对该待入题目的图像内容的图像特征向量进行录入和检索;所采用的图像分类模型是卷积神经网络模型。
8.根据权利要求5所述的基于文本和图像搜索的题库录入自动化方法,其特征在于,所述步骤S4具体包括以下步骤:
S41:根据所述步骤S1中的获得的待录入题目文本特征向量或/和图像特征向量,先在文本索引模型中查找与该待录入题目的文本特征向量最近的特征向量并获得两个特征向量之间的特征相似度,记为:similarity1;
S42:若题目特征向量列表包含图像特征向量,则在图像索引模型中查找与该待录入题目的图像特征向量最近的图像特征向量并获得两个特征向量之间的特征相似度,记为:similarity2。
9.根据权利要求8所述的基于文本和图像搜索的题库录入自动化方法,其特征在于,所述步骤S4中的所述文本索引模型和图像索引模型均通过以下步骤获得:对题库中每一道题目内容,采用步骤S1的方向进行向量化处理,得到所有题目的文本特征向量和图像特征向量;再根据所有题目的文本特征向量训练文本向量索引模型;根据所有题目的图像特征向量训练出图像向量索引模型。
10.根据权利要求9所述的基于文本和图像搜索的题库录入自动化方法,其特征在于,所述步骤S5具体包括以下步骤:
S51:若该待录入题目中只包含文本信息,当文本的特征相似度similarity1大于预设文字相似阈值threshold1,那么判断为高度相似,则对该题目不进行录入,并且返回题库中相似度最高的K个题目以便后续人工审查;反之则录入该待录入题目;
S52:若待录入题目中包含有图像信息,当文本的特征相似度similarity1大于预设文字相似阈值threshold1或者图像的特征相似度similarity2大于预设图像相似阈值threshold2,则判断为高度相似,则对该待录入题目不进行录入,并且返回题库中相似度最高的K个题目以便后续人工审查,反之则录入该待录入题目;其中K为待检索内容和题库中所有题目相似度大于文字相似阈值threshold1的个数,K的值不超过预设最大返回数量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110616692.2A CN113220921A (zh) | 2021-06-03 | 2021-06-03 | 一种基于文本和图像搜索的题库录入自动化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110616692.2A CN113220921A (zh) | 2021-06-03 | 2021-06-03 | 一种基于文本和图像搜索的题库录入自动化方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113220921A true CN113220921A (zh) | 2021-08-06 |
Family
ID=77082603
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110616692.2A Pending CN113220921A (zh) | 2021-06-03 | 2021-06-03 | 一种基于文本和图像搜索的题库录入自动化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113220921A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113723539A (zh) * | 2021-09-02 | 2021-11-30 | 北京云蝶智学科技有限公司 | 试题信息采集方法及装置 |
CN114282531A (zh) * | 2021-08-24 | 2022-04-05 | 腾讯科技(深圳)有限公司 | 一种题目检测方法、装置、电子设备和存储介质 |
CN116662305A (zh) * | 2023-06-06 | 2023-08-29 | 森纵艾数(北京)科技有限公司 | 一种题库管理方法、系统、电子设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109271401A (zh) * | 2018-09-26 | 2019-01-25 | 杭州大拿科技股份有限公司 | 一种题目搜索、批改方法、装置、电子设备和存储介质 |
CN109871847A (zh) * | 2019-03-13 | 2019-06-11 | 厦门商集网络科技有限责任公司 | 一种ocr识别方法及终端 |
US20200090539A1 (en) * | 2018-08-13 | 2020-03-19 | Hangzhou Dana Technology Inc. | Method and system for intelligent identification and correction of questions |
CN111241314A (zh) * | 2020-01-13 | 2020-06-05 | 北京迈格威科技有限公司 | 指纹底库录入方法、装置、电子设备及存储介质 |
CN112381099A (zh) * | 2020-11-24 | 2021-02-19 | 中教云智数字科技有限公司 | 一种基于数字教育资源的录题系统 |
CN112861864A (zh) * | 2021-01-28 | 2021-05-28 | 广东国粒教育技术有限公司 | 一种题目录入方法、题目录入装置、电子设备及计算机可读存储介质 |
-
2021
- 2021-06-03 CN CN202110616692.2A patent/CN113220921A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200090539A1 (en) * | 2018-08-13 | 2020-03-19 | Hangzhou Dana Technology Inc. | Method and system for intelligent identification and correction of questions |
CN109271401A (zh) * | 2018-09-26 | 2019-01-25 | 杭州大拿科技股份有限公司 | 一种题目搜索、批改方法、装置、电子设备和存储介质 |
CN109871847A (zh) * | 2019-03-13 | 2019-06-11 | 厦门商集网络科技有限责任公司 | 一种ocr识别方法及终端 |
CN111241314A (zh) * | 2020-01-13 | 2020-06-05 | 北京迈格威科技有限公司 | 指纹底库录入方法、装置、电子设备及存储介质 |
CN112381099A (zh) * | 2020-11-24 | 2021-02-19 | 中教云智数字科技有限公司 | 一种基于数字教育资源的录题系统 |
CN112861864A (zh) * | 2021-01-28 | 2021-05-28 | 广东国粒教育技术有限公司 | 一种题目录入方法、题目录入装置、电子设备及计算机可读存储介质 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114282531A (zh) * | 2021-08-24 | 2022-04-05 | 腾讯科技(深圳)有限公司 | 一种题目检测方法、装置、电子设备和存储介质 |
CN113723539A (zh) * | 2021-09-02 | 2021-11-30 | 北京云蝶智学科技有限公司 | 试题信息采集方法及装置 |
CN116662305A (zh) * | 2023-06-06 | 2023-08-29 | 森纵艾数(北京)科技有限公司 | 一种题库管理方法、系统、电子设备及存储介质 |
CN116662305B (zh) * | 2023-06-06 | 2024-07-30 | 森纵艾数(北京)科技有限公司 | 一种题库管理方法、系统、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN110334705B (zh) | 一种结合全局和局部信息的场景文本图像的语种识别方法 | |
CN110795543B (zh) | 基于深度学习的非结构化数据抽取方法、装置及存储介质 | |
CN113220921A (zh) | 一种基于文本和图像搜索的题库录入自动化方法 | |
US11113323B2 (en) | Answer selection using a compare-aggregate model with language model and condensed similarity information from latent clustering | |
CN108595708A (zh) | 一种基于知识图谱的异常信息文本分类方法 | |
CN110046250A (zh) | 三嵌入卷积神经网络模型及其文本多分类方法 | |
CN112347244A (zh) | 基于混合特征分析的涉黄、涉赌网站检测方法 | |
CN112732916A (zh) | 一种基于bert的多特征融合模糊文本分类模型 | |
CN109446333A (zh) | 一种实现中文文本分类的方法及相关设备 | |
CN112836702B (zh) | 一种基于多尺度特征提取的文本识别方法 | |
CN112541347B (zh) | 一种基于预训练模型的机器阅读理解方法 | |
CN115017266A (zh) | 一种基于文本检测和语义匹配的场景文本检索模型、方法及计算机设备 | |
CN115080750B (zh) | 基于融合提示序列的弱监督文本分类方法、系统和装置 | |
CN113469214A (zh) | 虚假新闻检测方法、装置、电子设备和存储介质 | |
CN112579666A (zh) | 智能问答系统和方法及相关设备 | |
TWI734085B (zh) | 使用意圖偵測集成學習之對話系統及其方法 | |
CN111460147A (zh) | 一种基于语义增强的标题短文本分类方法 | |
CN114780723A (zh) | 基于向导网络文本分类的画像生成方法、系统和介质 | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 | |
Mars et al. | Combination of DE-GAN with CNN-LSTM for Arabic OCR on Images with Colorful Backgrounds | |
CN116958677A (zh) | 一种基于多模态大数据的互联网短视频分类方法 | |
CN117216617A (zh) | 文本分类模型训练方法、装置、计算机设备和存储介质 | |
CN115712869A (zh) | 基于分层注意力网络的多模态谣言检测方法及系统 | |
CN112765940B (zh) | 一种基于主题特征和内容语义的网页去重方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |