CN114817163A - 习题分类录入方法、系统及电子设备 - Google Patents
习题分类录入方法、系统及电子设备 Download PDFInfo
- Publication number
- CN114817163A CN114817163A CN202210439259.0A CN202210439259A CN114817163A CN 114817163 A CN114817163 A CN 114817163A CN 202210439259 A CN202210439259 A CN 202210439259A CN 114817163 A CN114817163 A CN 114817163A
- Authority
- CN
- China
- Prior art keywords
- exercise
- text
- knowledge point
- contained
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/16—File or folder operations, e.g. details of user interfaces specifically adapted to file systems
- G06F16/164—File meta data generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/11—File system administration, e.g. details of archiving or snapshots
- G06F16/116—Details of conversion of file system types or formats
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种习题分类录入方法、系统及电子设备,涉及数据分析技术领域,该方法通过对习题图片上的题目进行自动的习题分割、文本获取、标签获取、知识点提取以及分类录入,可利用已完成训练的题目检测模型、文本检测模型、标签检测模型、知识点匹配模型实现习题的自动化分类录入,可一次性完成大批量的习题分类录入,解决了现有习题分类录入过程中存在的效率低的问题。
Description
技术领域
本发明涉及数据分析技术领域,尤其是涉及一种习题分类录入方法、系统及电子设备。
背景技术
随着线上教育模式的推广,更多用户通过使用电子设备实现了数字化学习,常见的使用场景如:在线答题、在线搜题等。在线上教育领域中,需要将大量在书本试卷等纸质习题进行分类,最终录入到相关数据库中。数据库越丰富,用户能够搜到更丰富更准确的电子习题,从而更好的实现对知识点的查漏补缺,从而提高学习效率。
现有技术中对习题的分类录入主要是将纸质习题扫描成pdf格式或者图片格式的扫描文件,然后通过手动框选或者键盘输入的方式将扫描文件上的习题录入数据库。由于涉及众多学科,包含了海量的知识点,因此通过手动输入的方式费时费力,且效率很低。
综上所述,现有的习题分类录入过程中还存在着效率低的问题。
发明内容
有鉴于此,本发明的目的在于提供一种习题分类录入方法、系统及电子设备,通过对习题图片上的题目进行自动的习题分割、文本获取、标签获取、知识点提取以及分类录入,可利用已完成训练的题目检测模型、文本检测模型、标签检测模型、知识点匹配模型实现习题的自动化分类录入,可一次性完成大批量的习题分类录入,解决了现有习题分类录入过程中存在的效率低的问题。
第一方面,本发明实施例提供了一种习题分类录入方法,该方法包括以下步骤:
获取包含多个不同习题的纸质文本,并将纸质文本转化为习题图片;
按照不同习题的习题编号,提取习题图片中包含的习题区域;
识别习题区域中包含的习题文本,并将习题文本格式化为与习题编号对应的字符串;
提取字符串中包含的所有分词标签,并根据分词标签确定习题编号对应的知识点;
根据知识点将习题文本进行分类,并将完成分类的习题文本录入至预设的知识点目录中。
在一些实施方式中,获取包含多个不同习题的纸质文本,并将纸质文本转化为习题图片的步骤之后,方法还包括:
获取习题图像中包含的文本;
根据习题图像中文本的显示效果,确定习题图像的增强策略;
利用增强策略对习题图像进行增强处理;增强策略至少包含:添加噪声、模糊化、缩放、旋转以及背景融合所对应的上述一种或多种图像处理算法。
在一些实施方式中,按照不同习题的习题编号,提取习题图片中包含的习题区域的步骤,包括:
将习题图片输入至已完成训练的题目检测模型;
题目检测模型根据习题图片中包含的习题编号,提取并输出习题图片中包含的习题区域;
其中,题目检测模型的训练过程,包括:
获取多个包含不同习题的习题图片;
对习题图片中各习题对应的题目进行多边形标注,得到标注区域;
将习题图片与标注区域对应的位置坐标确定为训练集,并将训练集按批次分别输入至已初始化的第一卷积神经网络模型中进行训练;
当第一卷积神经网络模型的损失值满足预设条件时停止训练,并将第一卷积神经网络模型确定为题目检测模型。
在一些实施方式中,识别习题区域中包含的习题文本,并将习题文本格式化为与习题编号对应的字符串的步骤,包括:
将习题区域对应的习题图片输入至已完成训练的文本检测模型;
文本检测模型根据习题图片中习题区域包含的文本行,提取并输出习题区域中包含的习题文本;
将文本行通过标志位格式化为行字符,并将行字符与习题文本按照习题编号进行排列,得到与习题编号对应的字符串;
其中,文本检测模型的训练过程,包括:
获取多个包含不同习题的习题图片;
对习题图片中各习题对应的文本行进行多边形标注,得到标注区域;
将习题图片与标注区域对应的位置坐标确定为训练集,并将训练集按批次分别输入至已初始化的第二卷积神经网络模型中进行训练;
当第二卷积神经网络模型的损失值满足预设条件时停止训练,并将第二卷积神经网络模型确定为文本检测模型。
在一些实施方式中,提取字符串中包含的所有分词标签的过程,包括:
将字符串输入至已完成训练的标签检测模型;
标签检测模型根据字符串对应的习题文本所包含的所有分词,提取并输出分词对应的分词标签;
其中,标签检测模型的训练过程,包括:
获取多个包含不同习题的习题文本;
对习题文本中包含的分词进行标注,得到分词标签;
将习题文本与分词标签确定为训练集,并将训练集按批次分别输入至已初始化的第三卷积神经网络模型中进行训练;
当第三卷积神经网络模型的损失值满足预设条件时停止训练,并将第三卷积神经网络模型确定为标签检测模型。
在一些实施方式中,根据分词标签确定习题编号对应的知识点的过程,包括:
将分词标签输入至已完成训练的知识点匹配模型;
知识点匹配模型根据分词标签对应的内容,按照习题编号提取并输出与分词标签对应的知识点;
其中,知识点匹配模型的训练过程,包括:
将多个包含不同习题的习题文本及其对应的知识点确定为第一训练集;
对第一训练集中包含的习题文本及其对应的知识点进行数据清洗操作,得到第二训练集;其中,数据清洗操作包括:同义词替换、特殊字符删除以及标签符号删除上述一种或多种数据转换操作;
将第二训练集按批次分别输入至已初始化的第四卷积神经网络模型中进行训练;
当第四卷积神经网络模型的损失值满足预设条件时停止训练,并将第四卷积神经网络模型确定为知识点匹配模型。
在一些实施方式中,根据知识点将习题文本进行分类,并将完成分类的习题文本录入至预设的知识点目录中的步骤,包括:
根据知识点目录中对应的知识点类型,确定知识点类型列表;
查找知识点是否包含于知识点类型列表中;
若知识点包含于知识点类型列表中,则将知识点对应的习题文本录入至对应的知识点目录中。
在一些实施方式中,若知识点不包含于知识点类型列表中,则将知识点更新至知识点目录后,将知识点对应的习题文本录入至对应的知识点目录中。
第二方面,本发明实施例提供了一种习题分类录入系统,该系统包括:
格式转换模块,用于获取包含多个不同习题的纸质文本,并将纸质文本转化为习题图片;
习题区域提取模块,用于按照不同习题的习题编号,提取习题图片中包含的习题区域;
文本提取模块,用于识别习题区域中包含的习题文本,并将习题文本格式化为与习题编号对应的字符串;
知识点确定模块,用于提取字符串中包含的所有分词标签,并根据分词标签确定习题编号对应的知识点;
分类录入模块,用于根据知识点将习题文本进行分类,并将完成分类的习题文本录入至预设的知识点目录中。
第三方面,本发明实施例提供了一种电子设备,该电子设备包括:处理器和存储装置;存储装置上存储有计算机程序,计算机程序在被处理器运行时执行如第一方面提供的习题分类录入方法的步骤。
第四方面,本发明实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时实现上述第一方面提供的习题分类录入方法的步骤。
本发明实施例带来了以下有益效果:本发明实施例提供了一种习题分类录入方法、系统及电子设备,该方法首先获取包含多个不同习题的纸质文本,并将纸质文本转化为习题图片;并按照不同习题的习题编号,提取习题图片中包含的习题区域;再识别习题区域中包含的习题文本,并将习题文本格式化为与习题编号对应的字符串;然后提取字符串中包含的所有分词标签,并根据分词标签确定习题编号对应的知识点;最后根据知识点将习题文本进行分类,并将完成分类的习题文本录入至预设的知识点目录中。该方法通过对习题图片上的题目进行自动的习题分割、文本获取、标签获取、知识点提取以及分类录入,可利用已完成训练的题目检测模型、文本检测模型、标签检测模型、知识点匹配模型实现习题的自动化分类录入,可一次性完成大批量的习题分类录入,解决了现有习题分类录入过程中存在的效率低的问题。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种习题分类录入方法的流程图;
图2为本发明实施例提供的一种习题分类录入方法中,获取包含多个不同习题的纸质文本,并将纸质文本转化为习题图片的步骤之后的流程图;
图3为本发明实施例提供的一种习题分类录入方法中步骤S102的流程图;
图4为本发明实施例提供的一种习题分类录入方法中步骤S103的流程图;
图5为本发明实施例提供的一种习题分类录入方法中提取字符串中包含的所有分词标签的流程图;
图6为本发明实施例提供的一种习题分类录入方法中根据分词标签确定习题编号对应的知识点的流程图;
图7为本发明实施例提供的一种习题分类录入方法中步骤S105的流程图;
图8为本发明实施例提供的另一种习题分类录入方法的流程图;
图9为本发明实施例提供的一种习题分类录入系统的结构示意图;
图10为本发明实施例提供的一种电子设备的结构示意图。
图标:
910-格式转换模块;920-习题区域提取模块;930-文本提取模块;940-知识点确定模块;950-分类录入模块;
101-处理器;102-存储器;103-总线;104-通信接口。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
随着线上教育模式的推广,更多用户通过使用电子设备实现了数字化学习,常见的使用场景如:在线答题、在线搜题等。在线上教育领域中,需要将大量在书本试卷等纸质习题进行分类,最终录入到相关数据库中。数据库越丰富,用户能够搜到更丰富更准确的电子习题,从而更好的实现对知识点的查漏补缺,从而提高学习效率。
现有技术中对习题的分类录入主要是将纸质习题扫描成pdf格式或者图片格式的扫描文件,然后通过手动框选或者键盘输入的方式将扫描文件上的习题录入数据库。习题类型根据学科及阶段的不同进行划分,比如初中化学,涉及到的知识点标签有500个左右。由于涉及众多学科,包含了海量的知识点,因此通过手动输入的方式费时费力,且效率很低。可见,现有的习题分类录入过程中还存在着效率低的问题。
针对上述问题,本发明提出一种习题分类录入方法、系统及电子设备,通过对习题图片上的题目进行自动的习题分割、文本获取、标签获取、知识点提取以及分类录入,可利用已完成训练的题目检测模型、文本检测模型、标签检测模型、知识点匹配模型实现习题的自动化分类录入,可一次性完成大批量的习题分类录入,解决了现有习题分类录入过程中存在的效率低的问题。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种习题分类录入方法进行详细介绍,该方法的流程图如图1所示,包括:
步骤S101,获取包含多个不同习题的纸质文本,并将纸质文本转化为习题图片。
纸质文本包括不同年级不同学科的习题书籍、试卷等,通过扫描仪或相机拍照的方式将纸质文本扫描为数字图像,并以图片格式进行保存。习题图片转化过程中尽可能保持统一的光照环境,纸张文本尽可能的保持平整,防止在后续习题分类过程中由于文字遮挡影响分类录入效果。
步骤S102,按照不同习题的习题编号,提取习题图片中包含的习题区域。
一般来说习题都是有统一的标号来进行区分,除最后一个习题之外,任意两个编号之间所包含的文字一般都是习题区域。实际操作过程中可通过截取习题编号之间的区域来对习题区域进行划分,也可根据预设的划分规则来提取习题区域。划分规则中可设置相关模板,能够对非习题的文字进行提取并忽略,以降低习题区域的误判率。
步骤S103,识别习题区域中包含的习题文本,并将习题文本格式化为与习题编号对应的字符串。
习题区域中包含了每一套完整题目,可利用相关OCR算法来识别习题区域中包含的习题文本,也可利用已训练完成的卷积神经网络来提取。由于习题类型众多,包含选择题、填空题、问答题等,而每一类型的题目格式也不尽相同,包含的特殊符号也不相同。例如,选择题中会包括:题干和选项,题干中的开头一般为题号,一些题干中还包括括号、下划线等作为空白区域,用于选项的选择;而选项的开头诸如“A”、“B”、“C”、“D”等选项编号,且多个选项普遍位于不同的行中。因此在提取习题文本的文字后,还需要结合习题的类型将其格式化为相应的字符串。除了上述提到的选择题之外,填空题中一般会使用下划线作为填空区域,这个下划线通过文字提取后可能会转化为其它格式字符或者是错误文字,例如下划线、破折号在经过转换后很容易转换为文字“一”或者减号“-”,因此在格式化过程中需要对上述字符进行进一步处理。
步骤S104,提取字符串中包含的所有分词标签,并根据分词标签确定习题编号对应的知识点。
字符串获取后,利用相关分词工具对字符串中包含的分词进行提取汇总,得到该习题包含的分词标签。分词标签能够表征该习题的大体内容,因此需要通过该习题对应字符串中包含的所有分词的含义进行分析,从而得到其对应的分词标签。分词标签确定后,根据分词标签的内容来确定其包含的知识点,该过程可通过相应的卷积神经网络来实现,该网络可通过对分词标签进行同义词替换,并将该同义词进行汇总处理,得到该习题的知识点。
步骤S105,根据知识点将习题文本进行分类,并将完成分类的习题文本录入至预设的知识点目录中。
上述步骤得到了习题文本对应的知识点,通过该知识点将习题文本录入至预设的知识点目录中,完成了对该习题文本的录入过程。
由于习题图片在获取的过程中,难以保证拍摄环境的统一,因此有必要对习题图片进行增强处理。具体在一些实施方式中,获取包含多个不同习题的纸质文本,并将纸质文本转化为习题图片的步骤之后,如图2所示,该方法还包括:
步骤S201,获取习题图像中包含的文本。
步骤S202,根据习题图像中文本的显示效果,确定习题图像的增强策略。
图像文本的显示效果在表征习题图像中文字的清晰程度时,其增强策略主要对应锐化和模糊;当表征习题图像中文字的方向和尺寸时,其增强策略主要对应缩放和旋转等。
步骤S203,利用增强策略对习题图像进行增强处理;增强策略至少包含:添加噪声、模糊化、缩放、旋转以及背景融合所对应的上述一种或多种图像处理算法。
增强处理过程主要利用增强策略对应的数字图像处理算法来实现,具体不再赘述。
在一些实施方式中,按照不同习题的习题编号,提取习题图片中包含的习题区域的步骤S102可利用已完成训练的题目检测模型来实现,具体如图3所示,包括:
步骤S301,将习题图片输入至已完成训练的题目检测模型。
具体的,题目检测模型的训练过程,主要包括以下步骤:
首先,获取多个包含不同习题的习题图片;然后对习题图片中各习题对应的题目进行多边形标注,得到标注区域;再将习题图片与标注区域对应的位置坐标确定为训练集,并将训练集按批次分别输入至已初始化的第一卷积神经网络模型中进行训练;当第一卷积神经网络模型的损失值满足预设条件时停止训练,并将第一卷积神经网络模型确定为题目检测模型。
步骤S302,题目检测模型根据习题图片中包含的习题编号,提取并输出习题图片中包含的习题区域。
类似的,识别习题区域中包含的习题文本,并将习题文本格式化为与习题编号对应的字符串的步骤S103可利用已完成训练的文本检测模型来实现,具体如图4所示,包括:
步骤S401,将习题区域对应的习题图片输入至已完成训练的文本检测模型。
具体的,文本检测模型的训练过程,主要包括以下步骤:
首先,获取多个包含不同习题的习题图片;然后对习题图片中各习题对应的文本行进行多边形标注,得到标注区域;再将习题图片与标注区域对应的位置坐标确定为训练集,并将训练集按批次分别输入至已初始化的第二卷积神经网络模型中进行训练;当第二卷积神经网络模型的损失值满足预设条件时停止训练,并将第二卷积神经网络模型确定为文本检测模型。
步骤S402,文本检测模型根据习题图片中习题区域包含的文本行,提取并输出习题区域中包含的习题文本。
文本行是指习题中每一行的文本数据,由于选择题中题干和选项是不同的行,因此按照文本行进行提取能够尽可能的保证习题文本的精度。
步骤S403,将文本行通过标志位格式化为行字符,并将行字符与习题文本按照习题编号进行排列,得到与习题编号对应的字符串。
标志位主要是指选择题中包含的题目标志、选项标志等,通过题目标志即可判断出该文本行对应的是题干;通过选项标志即可判断出该文本行对应的是选项。将题目和题干中对应的文本按照习题编号进行排列,即可得到一个与习题编号对应的字符串。
在一些实施方式中,提取字符串中包含的所有分词标签的过程可利用已完成训练的标签检测模型中来实现,如图5所示,包括:
步骤S501,将字符串输入至已完成训练的标签检测模型。
具体的,标签检测模型的训练过程,主要包括以下步骤:
首先,获取多个包含不同习题的习题文本;再对习题文本中包含的分词进行标注,得到分词标签;然后将习题文本与分词标签确定为训练集,并将训练集按批次分别输入至已初始化的第三卷积神经网络模型中进行训练;当第三卷积神经网络模型的损失值满足预设条件时停止训练,并将第三卷积神经网络模型确定为标签检测模型。
步骤S502,标签检测模型根据字符串对应的习题文本所包含的所有分词,提取并输出分词对应的分词标签。
在一些实施方式中,根据分词标签确定习题编号对应的知识点的过程可利用已完成训练的知识点匹配模型来实现,具体如图6所示,包括:
步骤S601,将分词标签输入至已完成训练的知识点匹配模型。
具体的,知识点匹配模型的训练过程,主要包括以下步骤:
首先,将多个包含不同习题的习题文本及其对应的知识点确定为第一训练集;并对第一训练集中包含的习题文本及其对应的知识点进行数据清洗操作,得到第二训练集;其中,数据清洗操作包括:同义词替换、特殊字符删除以及标签符号删除上述一种或多种数据转换操作;再将第二训练集按批次分别输入至已初始化的第四卷积神经网络模型中进行训练;当第四卷积神经网络模型的损失值满足预设条件时停止训练,并将第四卷积神经网络模型确定为知识点匹配模型。
步骤S602,知识点匹配模型根据分词标签对应的内容,按照习题编号提取并输出与分词标签对应的知识点;
在一些实施方式中,根据知识点将习题文本进行分类,并将完成分类的习题文本录入至预设的知识点目录中的步骤S105,如图7所示,包括:
步骤S701,根据知识点目录中对应的知识点类型,确定知识点类型列表。
知识点目录中对应不同的知识点类型,通过对知识点类型进行汇总,得到该知识点目录对应的知识点类型列表。实际场景中,该列表可保存在本地服务端中,防止在上传过程中向远程服务器中知识点目录进行频繁请求。
步骤S702,查找知识点是否包含于知识点类型列表中。
由于知识点类型列表在本地服务端,因此通过相应的查找算法即可快速得到结果。
步骤S703,若知识点包含于知识点类型列表中,则将知识点对应的习题文本录入至对应的知识点目录中。
如果该知识点包含于知识点类型列表时,再调用远程服务器中的知识点目录,将该知识点对应的习题文本录入至知识点目录中。
在一些实施方式中,若知识点不包含于知识点类型列表中,则将知识点更新至知识点目录后,将知识点对应的习题文本录入至对应的知识点目录中。
上述的所有模型在习题分类录入过程中的示意图如图8所示,再次不再赘述。通过上述实施例提到的习题分类录入方法可知,该方法通过对习题图片上的题目进行自动的习题分割、文本获取、标签获取、知识点提取以及分类录入,可利用已完成训练的题目检测模型、文本检测模型、标签检测模型、知识点匹配模型实现习题的自动化分类录入,可一次性完成大批量的习题分类录入,解决了现有习题分类录入过程中存在的效率低的问题。
本实施例还提供一种习题分类录入系统,如图9所示,该系统包括:
格式转换模块910,用于获取包含多个不同习题的纸质文本,并将纸质文本转化为习题图片;
习题区域提取模块920,用于按照不同习题的习题编号,提取习题图片中包含的习题区域;
文本提取模块930,用于识别习题区域中包含的习题文本,并将习题文本格式化为与习题编号对应的字符串;
知识点确定模块940,用于提取字符串中包含的所有分词标签,并根据分词标签确定习题编号对应的知识点;
分类录入模块950,用于根据知识点将习题文本进行分类,并将完成分类的习题文本录入至预设的知识点目录中。
本发明实施例所提供的习题分类录入系统,其实现原理及产生的技术效果和前述习题分类录入方法是相同的,为简要描述,实施例部分未提及之处,可参考前述方法实施例中相应内容。
本实施例还提供一种电子设备,为该电子设备的结构示意图如图10所示,该设备包括处理器101和存储器102;其中,存储器102用于存储一条或多条计算机指令,一条或多条计算机指令被处理器执行,以实现上述习题分类录入方法。
图10所示的服务器还包括总线103和通信接口104,处理器101、通信接口104和存储器102通过总线103连接。
其中,存储器102可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。总线103可以是ISA总线、PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图10中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
通信接口104用于通过网络接口与至少一个用户终端及其它网络单元连接,将封装好的IPv4报文或IPv4报文通过网络接口发送至用户终端。
处理器101可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器101中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器101可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DigitalSignal Processor,简称DSP)、专用集成电路(Application Specific IntegratedCircuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本公开实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本公开实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器102,处理器101读取存储器102中的信息,结合其硬件完成前述实施例的方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行前述实施例的方法的步骤。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、设备和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,设备或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以用软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种习题分类录入方法,其特征在于,所述方法包括:
获取包含多个不同习题的纸质文本,并将所述纸质文本转化为习题图片;
按照所述不同习题的习题编号,提取所述习题图片中包含的习题区域;
识别所述习题区域中包含的习题文本,并将所述习题文本格式化为与所述习题编号对应的字符串;
提取所述字符串中包含的所有分词标签,并根据所述分词标签确定所述习题编号对应的知识点;
根据所述知识点将所述习题文本进行分类,并将完成分类的所述习题文本录入至预设的知识点目录中。
2.根据权利要求1所述的习题分类录入方法,其特征在于,获取包含多个不同习题的纸质文本,并将所述纸质文本转化为习题图片的步骤之后,所述方法还包括:
获取所述习题图像中包含的文本;
根据所述习题图像中所述文本的显示效果,确定所述习题图像的增强策略;
利用所述增强策略对所述习题图像进行增强处理;所述增强策略至少包含:添加噪声、模糊化、缩放、旋转以及背景融合所对应的上述一种或多种图像处理算法。
3.根据权利要求1所述的习题分类录入方法,其特征在于,按照所述不同习题的习题编号,提取所述习题图片中包含的习题区域的步骤,包括:
将所述习题图片输入至已完成训练的题目检测模型;
所述题目检测模型根据所述习题图片中包含的习题编号,提取并输出所述习题图片中包含的习题区域;
其中,所述题目检测模型的训练过程,包括:
获取多个包含不同习题的习题图片;
对所述习题图片中各习题对应的题目进行多边形标注,得到标注区域;
将所述习题图片与所述标注区域对应的位置坐标确定为训练集,并将所述训练集按批次分别输入至已初始化的第一卷积神经网络模型中进行训练;
当所述第一卷积神经网络模型的损失值满足预设条件时停止训练,并将所述第一卷积神经网络模型确定为所述题目检测模型。
4.根据权利要求1所述的习题分类录入方法,其特征在于,识别所述习题区域中包含的习题文本,并将所述习题文本格式化为与所述习题编号对应的字符串的步骤,包括:
将所述习题区域对应的习题图片输入至已完成训练的文本检测模型;
所述文本检测模型根据所述习题图片中所述习题区域包含的文本行,提取并输出所述习题区域中包含的习题文本;
将所述文本行通过标志位格式化为行字符,并将所述行字符与所述习题文本按照所述习题编号进行排列,得到与所述习题编号对应的字符串;
其中,所述文本检测模型的训练过程,包括:
获取多个包含不同习题的习题图片;
对所述习题图片中各习题对应的文本行进行多边形标注,得到标注区域;
将所述习题图片与所述标注区域对应的位置坐标确定为训练集,并将所述训练集按批次分别输入至已初始化的第二卷积神经网络模型中进行训练;
当所述第二卷积神经网络模型的损失值满足预设条件时停止训练,并将所述第二卷积神经网络模型确定为所述文本检测模型。
5.根据权利要求1所述的习题分类录入方法,其特征在于,提取所述字符串中包含的所有分词标签的过程,包括:
将所述字符串输入至已完成训练的标签检测模型;
所述标签检测模型根据所述字符串对应的习题文本所包含的所有分词,提取并输出所述分词对应的分词标签;
其中,所述标签检测模型的训练过程,包括:
获取多个包含不同习题的习题文本;
对所述习题文本中包含的分词进行标注,得到分词标签;
将所述习题文本与所述分词标签确定为训练集,并将所述训练集按批次分别输入至已初始化的第三卷积神经网络模型中进行训练;
当所述第三卷积神经网络模型的损失值满足预设条件时停止训练,并将所述第三卷积神经网络模型确定为所述标签检测模型。
6.根据权利要求1所述的习题分类录入方法,其特征在于,根据所述分词标签确定所述习题编号对应的知识点的过程,包括:
将所述分词标签输入至已完成训练的知识点匹配模型;
所述知识点匹配模型根据所述分词标签对应的内容,按照所述习题编号提取并输出与所述分词标签对应的知识点;
其中,所述知识点匹配模型的训练过程,包括:
将多个包含不同习题的习题文本及其对应的知识点确定为第一训练集;
对所述第一训练集中包含的所述习题文本及其对应的所述知识点进行数据清洗操作,得到第二训练集;其中,所述数据清洗操作包括:同义词替换、特殊字符删除以及标签符号删除上述一种或多种数据转换操作;
将所述第二训练集按批次分别输入至已初始化的第四卷积神经网络模型中进行训练;
当所述第四卷积神经网络模型的损失值满足预设条件时停止训练,并将所述第四卷积神经网络模型确定为所述知识点匹配模型。
7.根据权利要求1所述的习题分类录入方法,其特征在于,根据所述知识点将所述习题文本进行分类,并将完成分类的所述习题文本录入至预设的知识点目录中的步骤,包括:
根据所述知识点目录中对应的知识点类型,确定知识点类型列表;
查找所述知识点是否包含于所述知识点类型列表中;
若所述知识点包含于所述知识点类型列表中,则将所述知识点对应的习题文本录入至对应的所述知识点目录中。
8.根据权利要求7所述的习题分类录入方法,其特征在于,若所述知识点不包含于所述知识点类型列表中,则将所述知识点更新至所述知识点目录后,将所述知识点对应的习题文本录入至对应的所述知识点目录中。
9.一种习题分类录入系统,其特征在于,所述系统包括:
格式转换模块,用于获取包含多个不同习题的纸质文本,并将所述纸质文本转化为习题图片;
习题区域提取模块,用于按照所述不同习题的习题编号,提取所述习题图片中包含的习题区域;
文本提取模块,用于识别所述习题区域中包含的习题文本,并将所述习题文本格式化为与所述习题编号对应的字符串;
知识点确定模块,用于提取所述字符串中包含的所有分词标签,并根据所述分词标签确定所述习题编号对应的知识点;
分类录入模块,用于根据所述知识点将所述习题文本进行分类,并将完成分类的所述习题文本录入至预设的知识点目录中。
10.一种电子设备,其特征在于,包括:处理器和存储装置;所述存储装置上存储有计算机程序,所述计算机程序在被所述处理器运行时实现如权利要求1至8任一项所述的习题分类录入方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210439259.0A CN114817163A (zh) | 2022-04-25 | 2022-04-25 | 习题分类录入方法、系统及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210439259.0A CN114817163A (zh) | 2022-04-25 | 2022-04-25 | 习题分类录入方法、系统及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114817163A true CN114817163A (zh) | 2022-07-29 |
Family
ID=82508609
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210439259.0A Pending CN114817163A (zh) | 2022-04-25 | 2022-04-25 | 习题分类录入方法、系统及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114817163A (zh) |
-
2022
- 2022-04-25 CN CN202210439259.0A patent/CN114817163A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110135411B (zh) | 名片识别方法和装置 | |
US11790641B2 (en) | Answer evaluation method, answer evaluation system, electronic device, and medium | |
JP4366108B2 (ja) | 文書検索装置、文書検索方法及びコンピュータプログラム | |
CN110929573A (zh) | 基于图像检测的试题检查方法及相关设备 | |
CN102053991B (zh) | 用于多语言文档检索的方法及系统 | |
RU2613846C2 (ru) | Метод и система извлечения данных из изображений слабоструктурированных документов | |
CN111274239B (zh) | 试卷结构化处理方法、装置和设备 | |
CN111144079B (zh) | 一种智能获取学习资源的方法、装置、打印机和存储介质 | |
CN111581367A (zh) | 一种题目录入的方法和系统 | |
CN111753120A (zh) | 一种搜题的方法、装置、电子设备和存储介质 | |
CN112149680A (zh) | 错字检测识别方法、装置、电子设备及存储介质 | |
CN113205046B (zh) | 题册识别方法、系统、装置及介质 | |
CN112860845A (zh) | 一种试题检索方法、装置、电子设备及存储介质 | |
US20220253603A1 (en) | E-mail classification device, e-mail classification method, and computer program | |
CN109670183B (zh) | 一种文本重要性的计算方法、装置、设备和存储介质 | |
CN116860747A (zh) | 训练样本的生成方法、装置、电子设备及存储介质 | |
Budig | Extracting spatial information from historical maps: algorithms and interaction | |
CN112560849B (zh) | 基于神经网络算法的文理分割方法及系统 | |
CN113486171B (zh) | 一种图像处理方法及装置、电子设备 | |
CN114817163A (zh) | 习题分类录入方法、系统及电子设备 | |
CN115828856A (zh) | 试卷生成的方法、装置、设备和存储介质 | |
CN115393865A (zh) | 文字检索方法、设备以及计算机可读存储介质 | |
CN114647682A (zh) | 一种习题整理方法、装置、电子设备以及存储介质 | |
CN114067343A (zh) | 一种数据集的构建方法、模型训练方法和对应装置 | |
CN112364640A (zh) | 实体名词链接方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |