CN112766125A

CN112766125A - 一种基于机器学习算法的试题上传工具及其上传方法

Info

Publication number: CN112766125A
Application number: CN202110036115.6A
Authority: CN
Inventors: 陈麟; 许青
Original assignee: Xuzhou Jinlin Artificial Intelligence Technology Co ltd
Current assignee: Xuzhou Jinlin Artificial Intelligence Technology Co ltd
Priority date: 2021-01-12
Filing date: 2021-01-12
Publication date: 2021-05-07

Abstract

本发明公开了一种基于机器学习算法的试题上传工具及其上传方法，所述试题上传工具包括：输入端：扫描头负责对于试卷进行扫描，对于电子文档文件则采用USB端口进行文件传输；识别模块：包括试卷插图识别模块和文字识别模块，负责对于传输的试卷文件进行识别；试卷插图识别模块：采用目标识别算法，该模块用来将扫描件、照片中的试题插图识别出并与识别出的文本一起还原出原试题；文字识别模块：采用文字方向识别算法和不可编辑文字识别算法，模块用来将扫描件、照片中的文字使用OCR技术识别为可编辑的文本。本发明大大节省人力，提高了试题上传效率。

Description

一种基于机器学习算法的试题上传工具及其上传方法

技术领域

本发明涉及运用机器学习的试题上传技术领域，具体为一种基于机器学习算法的试题上传工具及其上传方法。

背景技术

随着社会经济的快速发展，机器学习是人工智能的一个分支，其通过海量数据和强大的计算机算力学习得到数据背后的一般规律以实现人工智能；在线教育是一种基于网络的教育行为，其通过应用信息科技和互联网技术进行内容传播和快速学习，代表性的在线教育平台有网易云课堂、酷学习等，代表性的在线教育移动应用有作业帮、猿辅导、题拍拍等。

但是，现有的在线教育教学资源的收集依旧需要依靠大量的人力进行简单重复劳动，效率低下且容易出错，试题上传后续需要人工操作步骤多；因此，不满足现有的需求，对此我们提出了一种基于机器学习算法的试题上传工具及其上传方法。

发明内容

本发明的目的在于提供一种基于机器学习算法的试题上传工具及其上传方法，以解决上述背景技术中提出的现有的在线教育教学资源的收集依旧需要依靠大量的人力进行简单重复劳动，效率低下且容易出错，试题上传后续需要人工操作步骤多等问题。

为实现上述目的，本发明提供如下技术方案：一种基于机器学习算法的试题上传工具，其特征在于，所述试题上传工具包括：

输入端：扫描头负责对于试卷进行扫描，对于电子文档文件则采用USB端口进行文件传输；

识别模块：包括试卷插图识别模块和文字识别模块，负责对于传输的试卷文件进行识别；

试卷插图识别模块：采用目标识别算法，该模块用来将扫描件、照片中的试题插图识别出并与识别出的文本一起还原出原试题；

文字识别模块：采用文字方向识别算法和不可编辑文字识别算法，模块用来将扫描件、照片中的文字使用OCR技术识别为可编辑的文本；

试题相似度对比模块：针对识别和经过算法后所获取的试题与现有试题库中的试题进行比对获取比对相似度；

试题库：存储上传上来的试题数据的存储库。

优选的，所述试题插图包括题图、几何图形和配图。

优选的，所述照片中的文字包括中文、英文、数字和公式。

优选的，所述比对相似度高于百分之九十八的试题，将作为重复数据被删除。

优选的，所述目标识别算法基于机器学习算法和计算机视觉算法，可以识别扫描试题、图片试题中的插图、图形、图像。

优选的，所述文字方向识别算法可自动识别作答的文字方向并在进行识别之前做相应的角度变换。

优选的，所述不可编辑文字识别算法基于机器学习算法和计算机视觉算法可以将扫描文字、图片文字识别为可编辑的文字、公式和图片。

一种基于机器学习算法的试题上传方法，其特征在于，包括如下步骤：

步骤一：将电子格式的试题文件采用U盘或者云盘上传至试题库，纸质试卷采用扫描仪扫描至系统中；

步骤二：识别模块针对文字进行算法识别，在识别之前做相应的角度变换，将不可编辑的文字识别为可编辑的文字、公式和图片；

步骤三：试卷插图识别模块采用机器学习算法和计算机视觉算法识别扫描试题中的插图、图形和图像数据；

步骤四：针对已经扫描入库的数据与现有试题库中的试题比对；

步骤五：对比完成后的试题数据上传至试题库中，并同步至云端

优选的，所述试题比对过程中相似度高于百分之九十八的试题数据将作为重复数据被删除。

与现有技术相比，本发明的有益效果是：

本发明通过将工具所在设备本地的扫描件、图片文件直接上传至云端计算中心；通过调用设备图像采集装饰采集试题图片并上传，上传之后系统可通过多种方式下发解析结果，如下发至上传工具、上传人的邮箱、网盘，上传后的试题会进一步比对重复率进行处理后再正式确定入库，大大节省人力，提高了试题上传效率。

附图说明

图1为本发明试题上传工具的整体系统结构示意图；

图2为本发明试题上传方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

请参阅图1至图2，本发明提供的一种实施例：一种基于机器学习算法的试题上传工具，其特征在于，试题上传工具包括：

试题库：存储上传上来的试题数据的存储库。

进一步，试题插图包括题图、几何图形和配图。

进一步，照片中的文字包括中文、英文、数字和公式。

进一步，比对相似度高于百分之九十八的试题，将作为重复数据被删除。

进一步，目标识别算法基于机器学习算法和计算机视觉算法，可以识别扫描试题、图片试题中的插图、图形、图像。

进一步，文字方向识别算法可自动识别作答的文字方向并在进行识别之前做相应的角度变换。

进一步，不可编辑文字识别算法基于机器学习算法和计算机视觉算法可以将扫描文字、图片文字识别为可编辑的文字、公式和图片。

进一步，试题比对过程中相似度高于百分之九十八的试题数据将作为重复数据被删除。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims

1.一种基于机器学习算法的试题上传工具，其特征在于，所述试题上传工具包括：

试题库：存储上传上来的试题数据的存储库。

2.根据权利要求1所述的一种基于机器学习算法的试题上传工具，其特征在于：所述试题插图包括题图、几何图形和配图。

3.根据权利要求1所述的一种基于机器学习算法的试题上传工具，其特征在于：所述照片中的文字包括中文、英文、数字和公式。

4.根据权利要求1所述的一种基于机器学习算法的试题上传工具，其特征在于：所述比对相似度高于百分之九十八的试题，将作为重复数据被删除。

5.根据权利要求1所述的一种基于机器学习算法的试题上传工具，其特征在于：所述目标识别算法基于机器学习算法和计算机视觉算法，可以识别扫描试题、图片试题中的插图、图形、图像。

6.根据权利要求1所述的一种基于机器学习算法的试题上传工具，其特征在于：所述文字方向识别算法可自动识别作答的文字方向并在进行识别之前做相应的角度变换。

7.根据权利要求1所述的一种基于机器学习算法的试题上传工具，其特征在于：所述不可编辑文字识别算法基于机器学习算法和计算机视觉算法可以将扫描文字、图片文字识别为可编辑的文字、公式和图片。

8.一种基于机器学习算法的试题上传方法，其特征在于，包括如下步骤：

步骤五：对比完成后的试题数据上传至试题库中，并同步至云端。

9.根据权利要求8所述的一种基于机器学习算法的试题上传方法，其特征在于：所述试题比对过程中相似度高于百分之九十八的试题数据将作为重复数据被删除。