CN112766125A - 一种基于机器学习算法的试题上传工具及其上传方法 - Google Patents

一种基于机器学习算法的试题上传工具及其上传方法 Download PDF

Info

Publication number
CN112766125A
CN112766125A CN202110036115.6A CN202110036115A CN112766125A CN 112766125 A CN112766125 A CN 112766125A CN 202110036115 A CN202110036115 A CN 202110036115A CN 112766125 A CN112766125 A CN 112766125A
Authority
CN
China
Prior art keywords
test
test question
algorithm
uploading
machine learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110036115.6A
Other languages
English (en)
Inventor
陈麟
许青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xuzhou Jinlin Artificial Intelligence Technology Co ltd
Original Assignee
Xuzhou Jinlin Artificial Intelligence Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xuzhou Jinlin Artificial Intelligence Technology Co ltd filed Critical Xuzhou Jinlin Artificial Intelligence Technology Co ltd
Priority to CN202110036115.6A priority Critical patent/CN112766125A/zh
Publication of CN112766125A publication Critical patent/CN112766125A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • G06Q50/205Education administration or guidance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/242Aligning, centring, orientation detection or correction of the image by image rotation, e.g. by 90 degrees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1475Inclination or skew detection or correction of characters or of image to be recognised
    • G06V30/1478Inclination or skew detection or correction of characters or of image to be recognised of characters or characters lines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Artificial Intelligence (AREA)
  • Tourism & Hospitality (AREA)
  • Software Systems (AREA)
  • Strategic Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Educational Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Educational Administration (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • General Business, Economics & Management (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种基于机器学习算法的试题上传工具及其上传方法,所述试题上传工具包括:输入端:扫描头负责对于试卷进行扫描,对于电子文档文件则采用USB端口进行文件传输;识别模块:包括试卷插图识别模块和文字识别模块,负责对于传输的试卷文件进行识别;试卷插图识别模块:采用目标识别算法,该模块用来将扫描件、照片中的试题插图识别出并与识别出的文本一起还原出原试题;文字识别模块:采用文字方向识别算法和不可编辑文字识别算法,模块用来将扫描件、照片中的文字使用OCR技术识别为可编辑的文本。本发明大大节省人力,提高了试题上传效率。

Description

一种基于机器学习算法的试题上传工具及其上传方法
技术领域
本发明涉及运用机器学习的试题上传技术领域,具体为一种基于机器学习算法的试题上传工具及其上传方法。
背景技术
随着社会经济的快速发展,机器学习是人工智能的一个分支,其通过海量数据和强大的计算机算力学习得到数据背后的一般规律以实现人工智能;在线教育是一种基于网络的教育行为,其通过应用信息科技和互联网技术进行内容传播和快速学习,代表性的在线教育平台有网易云课堂、酷学习等,代表性的在线教育移动应用有作业帮、猿辅导、题拍拍等。
但是,现有的在线教育教学资源的收集依旧需要依靠大量的人力进行简单重复劳动,效率低下且容易出错,试题上传后续需要人工操作步骤多;因此,不满足现有的需求,对此我们提出了一种基于机器学习算法的试题上传工具及其上传方法。
发明内容
本发明的目的在于提供一种基于机器学习算法的试题上传工具及其上传方法,以解决上述背景技术中提出的现有的在线教育教学资源的收集依旧需要依靠大量的人力进行简单重复劳动,效率低下且容易出错,试题上传后续需要人工操作步骤多等问题。
为实现上述目的,本发明提供如下技术方案:一种基于机器学习算法的试题上传工具,其特征在于,所述试题上传工具包括:
输入端:扫描头负责对于试卷进行扫描,对于电子文档文件则采用USB端口进行文件传输;
识别模块:包括试卷插图识别模块和文字识别模块,负责对于传输的试卷文件进行识别;
试卷插图识别模块:采用目标识别算法,该模块用来将扫描件、照片中的试题插图识别出并与识别出的文本一起还原出原试题;
文字识别模块:采用文字方向识别算法和不可编辑文字识别算法,模块用来将扫描件、照片中的文字使用OCR技术识别为可编辑的文本;
试题相似度对比模块:针对识别和经过算法后所获取的试题与现有试题库中的试题进行比对获取比对相似度;
试题库:存储上传上来的试题数据的存储库。
优选的,所述试题插图包括题图、几何图形和配图。
优选的,所述照片中的文字包括中文、英文、数字和公式。
优选的,所述比对相似度高于百分之九十八的试题,将作为重复数据被删除。
优选的,所述目标识别算法基于机器学习算法和计算机视觉算法,可以识别扫描试题、图片试题中的插图、图形、图像。
优选的,所述文字方向识别算法可自动识别作答的文字方向并在进行识别之前做相应的角度变换。
优选的,所述不可编辑文字识别算法基于机器学习算法和计算机视觉算法可以将扫描文字、图片文字识别为可编辑的文字、公式和图片。
一种基于机器学习算法的试题上传方法,其特征在于,包括如下步骤:
步骤一:将电子格式的试题文件采用U盘或者云盘上传至试题库,纸质试卷采用扫描仪扫描至系统中;
步骤二:识别模块针对文字进行算法识别,在识别之前做相应的角度变换,将不可编辑的文字识别为可编辑的文字、公式和图片;
步骤三:试卷插图识别模块采用机器学习算法和计算机视觉算法识别扫描试题中的插图、图形和图像数据;
步骤四:针对已经扫描入库的数据与现有试题库中的试题比对;
步骤五:对比完成后的试题数据上传至试题库中,并同步至云端
优选的,所述试题比对过程中相似度高于百分之九十八的试题数据将作为重复数据被删除。
与现有技术相比,本发明的有益效果是:
本发明通过将工具所在设备本地的扫描件、图片文件直接上传至云端计算中心;通过调用设备图像采集装饰采集试题图片并上传,上传之后系统可通过多种方式下发解析结果,如下发至上传工具、上传人的邮箱、网盘,上传后的试题会进一步比对重复率进行处理后再正式确定入库,大大节省人力,提高了试题上传效率。
附图说明
图1为本发明试题上传工具的整体系统结构示意图;
图2为本发明试题上传方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
请参阅图1至图2,本发明提供的一种实施例:一种基于机器学习算法的试题上传工具,其特征在于,试题上传工具包括:
输入端:扫描头负责对于试卷进行扫描,对于电子文档文件则采用USB端口进行文件传输;
识别模块:包括试卷插图识别模块和文字识别模块,负责对于传输的试卷文件进行识别;
试卷插图识别模块:采用目标识别算法,该模块用来将扫描件、照片中的试题插图识别出并与识别出的文本一起还原出原试题;
文字识别模块:采用文字方向识别算法和不可编辑文字识别算法,模块用来将扫描件、照片中的文字使用OCR技术识别为可编辑的文本;
试题相似度对比模块:针对识别和经过算法后所获取的试题与现有试题库中的试题进行比对获取比对相似度;
试题库:存储上传上来的试题数据的存储库。
进一步,试题插图包括题图、几何图形和配图。
进一步,照片中的文字包括中文、英文、数字和公式。
进一步,比对相似度高于百分之九十八的试题,将作为重复数据被删除。
进一步,目标识别算法基于机器学习算法和计算机视觉算法,可以识别扫描试题、图片试题中的插图、图形、图像。
进一步,文字方向识别算法可自动识别作答的文字方向并在进行识别之前做相应的角度变换。
进一步,不可编辑文字识别算法基于机器学习算法和计算机视觉算法可以将扫描文字、图片文字识别为可编辑的文字、公式和图片。
一种基于机器学习算法的试题上传方法,其特征在于,包括如下步骤:
步骤一:将电子格式的试题文件采用U盘或者云盘上传至试题库,纸质试卷采用扫描仪扫描至系统中;
步骤二:识别模块针对文字进行算法识别,在识别之前做相应的角度变换,将不可编辑的文字识别为可编辑的文字、公式和图片;
步骤三:试卷插图识别模块采用机器学习算法和计算机视觉算法识别扫描试题中的插图、图形和图像数据;
步骤四:针对已经扫描入库的数据与现有试题库中的试题比对;
步骤五:对比完成后的试题数据上传至试题库中,并同步至云端
进一步,试题比对过程中相似度高于百分之九十八的试题数据将作为重复数据被删除。
本发明通过将工具所在设备本地的扫描件、图片文件直接上传至云端计算中心;通过调用设备图像采集装饰采集试题图片并上传,上传之后系统可通过多种方式下发解析结果,如下发至上传工具、上传人的邮箱、网盘,上传后的试题会进一步比对重复率进行处理后再正式确定入库,大大节省人力,提高了试题上传效率。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims (9)

1.一种基于机器学习算法的试题上传工具,其特征在于,所述试题上传工具包括:
输入端:扫描头负责对于试卷进行扫描,对于电子文档文件则采用USB端口进行文件传输;
识别模块:包括试卷插图识别模块和文字识别模块,负责对于传输的试卷文件进行识别;
试卷插图识别模块:采用目标识别算法,该模块用来将扫描件、照片中的试题插图识别出并与识别出的文本一起还原出原试题;
文字识别模块:采用文字方向识别算法和不可编辑文字识别算法,模块用来将扫描件、照片中的文字使用OCR技术识别为可编辑的文本;
试题相似度对比模块:针对识别和经过算法后所获取的试题与现有试题库中的试题进行比对获取比对相似度;
试题库:存储上传上来的试题数据的存储库。
2.根据权利要求1所述的一种基于机器学习算法的试题上传工具,其特征在于:所述试题插图包括题图、几何图形和配图。
3.根据权利要求1所述的一种基于机器学习算法的试题上传工具,其特征在于:所述照片中的文字包括中文、英文、数字和公式。
4.根据权利要求1所述的一种基于机器学习算法的试题上传工具,其特征在于:所述比对相似度高于百分之九十八的试题,将作为重复数据被删除。
5.根据权利要求1所述的一种基于机器学习算法的试题上传工具,其特征在于:所述目标识别算法基于机器学习算法和计算机视觉算法,可以识别扫描试题、图片试题中的插图、图形、图像。
6.根据权利要求1所述的一种基于机器学习算法的试题上传工具,其特征在于:所述文字方向识别算法可自动识别作答的文字方向并在进行识别之前做相应的角度变换。
7.根据权利要求1所述的一种基于机器学习算法的试题上传工具,其特征在于:所述不可编辑文字识别算法基于机器学习算法和计算机视觉算法可以将扫描文字、图片文字识别为可编辑的文字、公式和图片。
8.一种基于机器学习算法的试题上传方法,其特征在于,包括如下步骤:
步骤一:将电子格式的试题文件采用U盘或者云盘上传至试题库,纸质试卷采用扫描仪扫描至系统中;
步骤二:识别模块针对文字进行算法识别,在识别之前做相应的角度变换,将不可编辑的文字识别为可编辑的文字、公式和图片;
步骤三:试卷插图识别模块采用机器学习算法和计算机视觉算法识别扫描试题中的插图、图形和图像数据;
步骤四:针对已经扫描入库的数据与现有试题库中的试题比对;
步骤五:对比完成后的试题数据上传至试题库中,并同步至云端。
9.根据权利要求8所述的一种基于机器学习算法的试题上传方法,其特征在于:所述试题比对过程中相似度高于百分之九十八的试题数据将作为重复数据被删除。
CN202110036115.6A 2021-01-12 2021-01-12 一种基于机器学习算法的试题上传工具及其上传方法 Pending CN112766125A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110036115.6A CN112766125A (zh) 2021-01-12 2021-01-12 一种基于机器学习算法的试题上传工具及其上传方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110036115.6A CN112766125A (zh) 2021-01-12 2021-01-12 一种基于机器学习算法的试题上传工具及其上传方法

Publications (1)

Publication Number Publication Date
CN112766125A true CN112766125A (zh) 2021-05-07

Family

ID=75701593

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110036115.6A Pending CN112766125A (zh) 2021-01-12 2021-01-12 一种基于机器学习算法的试题上传工具及其上传方法

Country Status (1)

Country Link
CN (1) CN112766125A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101801153B1 (ko) * 2016-12-30 2017-11-27 이경민 기계학습 기반의 문자 인식 시스템
CN109389061A (zh) * 2018-09-26 2019-02-26 苏州友教习亦教育科技有限公司 试卷识别方法和系统
CN109472014A (zh) * 2018-10-30 2019-03-15 南京红松信息技术有限公司 一种错题集自动识别生成方法及其装置
CN110647885A (zh) * 2019-09-17 2020-01-03 广州光大教育软件科技股份有限公司 基于图片识别的试卷拆分方法、装置、设备以及介质
CN110781648A (zh) * 2019-10-12 2020-02-11 安徽七天教育科技有限公司 一种基于深度学习的试卷自动转录系统及方法
CN111309953A (zh) * 2020-02-03 2020-06-19 联想(北京)有限公司 一种图像识别方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101801153B1 (ko) * 2016-12-30 2017-11-27 이경민 기계학습 기반의 문자 인식 시스템
CN109389061A (zh) * 2018-09-26 2019-02-26 苏州友教习亦教育科技有限公司 试卷识别方法和系统
CN109472014A (zh) * 2018-10-30 2019-03-15 南京红松信息技术有限公司 一种错题集自动识别生成方法及其装置
CN110647885A (zh) * 2019-09-17 2020-01-03 广州光大教育软件科技股份有限公司 基于图片识别的试卷拆分方法、装置、设备以及介质
CN110781648A (zh) * 2019-10-12 2020-02-11 安徽七天教育科技有限公司 一种基于深度学习的试卷自动转录系统及方法
CN111309953A (zh) * 2020-02-03 2020-06-19 联想(北京)有限公司 一种图像识别方法和装置

Similar Documents

Publication Publication Date Title
US11790641B2 (en) Answer evaluation method, answer evaluation system, electronic device, and medium
CN113781356B (zh) 图像去噪模型的训练方法、图像去噪方法、装置及设备
CN113360699A (zh) 模型训练方法和装置、图像问答方法和装置
CN112257665A (zh) 图像内容的识别方法、图像识别模型的训练方法及介质
CN110766015A (zh) 一种答题卡识别方法、装置和服务器、系统及存储介质
CN112528799B (zh) 一种教学直播方法、装置、计算机设备和存储介质
Hwang et al. A spelling based CAPTCHA system by using click
CN117173730A (zh) 一种基于多模态信息的文档图像智能分析及处理方法
CN112990142B (zh) 一种基于ocr的视频导图生成方法、装置、设备及存储介质
CN112749257A (zh) 一种基于机器学习算法的智能阅卷系统
CN111881900B (zh) 语料生成、翻译模型训练、翻译方法、装置、设备及介质
CN113051457A (zh) 一种图文提取方法及终端
CN112395834A (zh) 基于图片输入的脑图生成方法、装置、设备及存储介质
CN114579796B (zh) 机器阅读理解方法及装置
CN111753108A (zh) 演示文稿生成方法、装置、设备及介质
KR102043693B1 (ko) 기계 학습 기반의 문서 관리 시스템
CN112766125A (zh) 一种基于机器学习算法的试题上传工具及其上传方法
CN114399782B (zh) 文本图像处理方法、装置、设备、存储介质及程序产品
CN115565181A (zh) 字符识别的方法、电子设备及计算机可读存储介质
CN112927109B (zh) 一种智能辅助实践实训课程类别的教学系统
CN113849622A (zh) 一种民航文档视觉认知问答方法及系统
CN115565193A (zh) 问卷信息录入方法、装置、电子设备及存储介质
CN115331236A (zh) 一种手写整行样本的生成方法和装置
Sable et al. Doc-handler: Document scanner, manipulator, and translator based on image and natural language processing
CN113920527B (zh) 一种文本识别方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination