CN110110585B - 基于深度学习的智能阅卷实现方法及系统、计算机程序 - Google Patents
基于深度学习的智能阅卷实现方法及系统、计算机程序 Download PDFInfo
- Publication number
- CN110110585B CN110110585B CN201910195561.4A CN201910195561A CN110110585B CN 110110585 B CN110110585 B CN 110110585B CN 201910195561 A CN201910195561 A CN 201910195561A CN 110110585 B CN110110585 B CN 110110585B
- Authority
- CN
- China
- Prior art keywords
- word
- text
- words
- paper
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
- G06Q50/205—Education administration or guidance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明属于人工智能技术领域,公开了一种基于深度学习的智能阅卷实现方法及系统、计算机程序;扫描学生的试卷,将纸质试卷信息转化为图片信息储存在本地电脑硬盘上;通过光学字符识别,利用自然场景文本检测模型检测考生主观题答案位置,利用文本识别模型和联结主义时间分类模型识别出考生所答内容的文本信息;通过自然语言处理,帮助批卷人进行主观题评分,通过分词进行相似度匹配,然后通过上下文的语义分析发现拼写和语法错误,辅助批卷人给定该试卷的分数。本发明能够对手写文本进行高精准识别,并可以帮助批卷人对客观题、主观题进行正确评分;大大减少了阅卷时间,增强了考试的客观性,节省了人力资源劳动;减少了购买昂贵阅卷机带来的成本损失。
Description
技术领域
本发明属于人工智能技术领域,尤其涉及一种基于深度学习的智能阅卷实现方法及系统、计算机程序。
背景技术
目前,业内现有技术是这样的:在社会快速发展的信息化时代,教学内容的丰富一方面使得学生的学习任务不断加重,另一方面教师的负担也随之加重。尤其是在应试教育状况尚未完全改变的今天,高效率的改卷方式逐渐成为广大高校的呼声。而在当下阅卷模式中,人工装订试卷、登分和试卷流转的人工等待都在很大程度上拖延了阅卷的进程,并且会产生很多不必要的人为失误;即使是机器阅卷,不仅价格高昂,而且仅能起到评阅选择题的辅助作用,占大部分的主观题仍然是由教师批改,教师的负担依旧很重。因此,把教师从繁杂易出错的阅卷和统计工作中解放出来,使老师将充足的精力放在考试诊断上,并确保阅卷质量,不失为现有条件下减轻老师负担的有效手段,通过智能阅卷系统完成自动阅卷也就成为对这一问题的解决方案。
其次,传统的人工阅卷方式不能及时的屏蔽考生信息,造成了人情分、印象分等不合理评分现象时有发生;不同老师的评判标准不同,情绪状态不同也会导致分值差异,一些由主观因素造成的分值差异情况在所难免。
综上所述,现有技术存在的问题是:
(1)在当下阅卷模式中,人工装订试卷、登分和试卷流转的人工等待都在很大程度上拖延了阅卷的进程,并且会产生很多不必要的人为失误。
(2)现有的机器阅卷,不仅价格高昂,而且仅能起到评阅选择题的辅助作用,占大部分的主观题仍然是由教师批改,教师的负担依旧很重。
(3)传统的人工阅卷方式不能及时的屏蔽考生信息,造成了不同老师的评判标准不同,由主观因素造成的分值差异。
发明内容
针对现有技术存在的问题,本发明提供了一种基于深度学习的智能阅卷实现方法及系统、计算机程序。
本发明是这样实现的,一种基于深度学习的智能阅卷实现方法,所述基于深度学习的智能阅卷实现方法包括:
第一步,扫描学生的试卷,将纸质试卷信息转化为图片信息储存在本地电脑硬盘上;
第二部,通过光学字符识别,利用自然场景文本检测模型检测考生主观题答案位置,利用文本识别模型和联结主义时间分类模型识别出考生所答内容的文本信息;
第三步,通过自然语言处理,帮助进行主观题评分,通过分词进行相似度匹配,然后通过上下文的语义分析发现拼写和语法错误,辅助批卷人给定该试卷的分数。
进一步,通过光学字符识别,利用自然场景文本检测模型检测考生主观题答案位置具体包括:
(1)卷积神经网络提取特征,获得大小为N×C×H×W的feature map;
(2)在得到的feature map上做3×3的滑动窗口,输出N×9C×H×W的featuremap;
(3)将得到的feature map进行reshape,结果如下:
N×9C×H×W→(NH)×W×9C;
以Batch=NH且最大时间长度Tmax=W的数据流输入双向LSTM,学习每一行的序列特征。双向LSTM(NH)×W×256,再经reshape恢复形状:
(NH)×W×256→N×256×H×W;
经过全连接神经网络,将特征的尺寸变为N×512×H×W;
经过RPN网络,获得textproposals,实现对文字的定位;
(4)对textproposals内的部分进行二值化处理,绘制其灰度图;
统计x轴的直方图,根据像素的峰谷值进行切割,获得每个字的检测位置。
进一步,利用文本识别模型和联结主义时间分类模型识别出考生所答内容的文本信息具体包括:
(1)卷积神经网络提取特征,获得大小为N×C×H×W的feature map;
(2)对feature map进行自适应池化,得到字体图片的特征向量;
(3)构造全连接神经网络,将特征向量输入其中,利用梯度传播,训练分类器;
(4)利用分类原理,识别字体标签,返回对应的印刷字体;
(5)将切割的字体全部识别后进行拼接,返回一行的印刷字体;
(6)对每一行的识别结果进行整合,得到全部的识别结果。
进一步,通过自然语言处理,进行主观题评分,通过分词进行相似度匹配具体包括:
(1)获取图像识别出的文本;
(2)将文本进行分句处理;
(3)将图像中读取的学生答案文本和标准答案文本使用开源工具jieba进行分词处理,并去除常见的停用词;
(4)将词语利用工具word2vec进行词向量化,将文本转换为计算机处理的向量形式存储;
(5)利用训练好的LSTM simamese network模型计算文本与标准答案的相似度;
(6)文本相似度匹配想要从语义层面上进行匹配,而非根据固有词特异性,关键在于词向量和神经网络模型的训练情况;
(7)语料库是从现实生活中大量语料中搜集;
(8)文本语义相似度匹配的模型训练和优化。
进一步,将图像中读取的学生答案文本和标准答案文本使用开源工具jieba进行分词处理,并去除常见的停用词中;英文单词以每个空格为间隔;对于中文采用结巴中文分词工具进行分词;
在算法上采用基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图;采用动态规划查找最大概率路径,找出基于词频的最大切分组合;
对于未登录词,采用基于汉字成词能力的HMM模型,使用了Viterbi算法;
结巴分词支持三种分词模式,其中默认的精确模式可以简易的将句子精确的切开,适合用于文本分析。
进一步,将词语利用工具word2vec进行词向量化,将文本转换为计算机处理的向量形式存储中,Word2Vec由两种不同思想实现:CBOW和Skip-gram;CBOW的目标是根据上下文来预测当前词语的概率,且上下文所有的词对当前词出现概率的影响的权重一样;
Skip-gram刚好相反:根据当前词语来预测上下文的概率;
每个单词都是一个随机N维向量。经过训练之后,该算法利用CBOW或者Skip-gram的方法获得每个单词的最优向量;
通过工具Word2Vec,文本的表示通过词向量的表示方式,把文本数据从高纬度稀疏的神经网络难处理的方式。
进一步,通过上下文的语义分析发现拼写和语法错误具体包括:
利用开源工具language-tool检查语法错误;
将单词和词库的单词进行比对,若词库没有出现过,则利用贝叶斯定理,取出编辑距离为2以内的词库出现频率最高的单词做替换;以相对比较大的文本文件作文样本,分析每个单词出现的概率作为语言模型和词典;如果用户输入的单词不在词典中,则产生编辑距离为2的所有可能单词;编辑距离为1就是对用户输入的单词进行删除1个字符、添加一个字符、交换相邻字符、替换1个字符产生的所有单词;编辑距离为2就是对单词进行一次上述所有变换,因此最后产生的单词集会很大。
本发明的另一目的在于提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的基于深度学习的智能阅卷实现方法。
本发明的另一目的在于提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述的基于深度学习的智能阅卷实现方法。
本发明的另一目的在于提供一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述的基于深度学习的智能阅卷实现方法。
综上所述,本发明的优点及积极效果为:本发明基于深度学习的智能阅卷实现方法,能够对手写文本进行高精准识别,并可以帮助批卷人对客观题、主观题进行正确评分。在当下大数据背景下通过深度学习实现了高效率、高质量的阅卷机制,大大减少了阅卷时间,增强了考试的客观性,节省了人力资源劳动。本发明减少了购买昂贵阅卷机带来的成本损失,试卷录入阶段通过扫描仪即可完成对内容的提取。
附图说明
图1是本发明实施例提供的基于深度学习的智能阅卷实现方法流程图。
图2是本发明实施例提供的基于深度学习的智能阅卷实现方法的实现流程图。
图3是本发明实施例提供的基于文本语义相似度评分流程图。
图4是本发明实施例提供的主要技术实现流程图。
图5是本发明实施例提供的文字检测与识别具体流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
为了克服现有技术人工装订试卷、登分和试卷流转的人工等待都在很大程度上拖延了阅卷的进程,并且产生很多不必要的人为失误;现有的机器阅卷,不仅价格高昂,主观题仍然是由教师批改,教师的负担依旧很重;传统的人工阅卷方式不能及时的屏蔽考生信息,造成了不同老师的评判标准不同,由主观因素造成的分值差异等问题,本发明提供智能阅卷方法及系统,可以辅助批卷人对考生的答卷进行评判,评价其相应的成绩,评判的关键在于本系统评价算法,依照本系统的评价算法进而确定最终的成绩,以达到自动阅卷的目的。
下面结合附图对本发明的应用原理做详细的描述。
如图1所示,本发明实施例提供的基于深度学习的智能阅卷实现方法包括以下步骤:
S101:扫描学生的试卷,将纸质试卷信息转化为图片信息储存在本地电脑硬盘上,为自动阅卷做准备;
S102:通过光学字符识别(OCR),利用自然场景文本检测(CPTN)模型检测考生主观题答案位置;再利用文本识别(CRNN)模型和联结主义时间分类(CTC loss)模型识别出考生所答内容的文本信息;
S103:通过自然语言处理(NLP),进行主观题评分,通过分词进行相似度匹配,然后通过上下文的语义分析发现拼写和语法错误,给定该试卷的分数。
在另一本发明的实施例中,步骤“通过光学字符识别(OCR),利用自然场景文本检测(CPTN)模型检测考生主观题答案位置,再利用文本识别(CRNN)模型和联结主义时间分类(CTC loss)模型识别出考生所答内容的文本信息。”具体包括:
步骤(1):通过扫描仪,将试卷转换为图片或PDF格式。
步骤(2):利用卷积神经网络提取特征获得特定大小的特征映射;然后在此特征映射上做滑动窗口,再进行reshape,最后经全连接神经网络,改变特征尺寸,经RPN网络,实现对文字的定位;对textproposals内的部分进行二值化处理,绘制灰度图;统计x直方图,获得每个字的检测位置。
步骤(3):利用卷积神经网络提取特征获得特定大小的特征映射;然后对此特征映射进行自适应池化,得到特征向量;构造全连接神经网络,将特征向量输入,训练分类器;识别分类标签,返回对应的印刷字体;识别全部切割的字体后拼接,返回一行印刷字体;对每一行识别结果整合,得到全部识别结果。
在另一本发明的实施例中,步骤“通过自然语言处理(NLP),进行主观题评分,通过分词进行相似度匹配,然后通过上下文的语义分析发现拼写和语法错误,从而给定该试卷的分数。”具体包括:
步骤(1):获取图像识别出的文本,将文本进行分句处理;将句子使用开源工具jieba分词,并去除停用词;将词语利用工具word2vec进行词向量化;利用训练好的模型计算文本与标准答案的相似度。
步骤(2):利用开源工具language-tool检查语法错误。
步骤(3):将单词和词库的单词进行比对,若词库没有出现过,则用贝叶斯定理,取出编辑距离为2以内的词库出现频率最高的单词做替换。
针对英文试卷中的非选择题的客观题,将文字识别出来的文本分词后喝正确答案比对,若单词无误则得分。
针对英文试卷中的主观题(除作文),具体包括:
获取图像识别出的文本;将文本进行分句处理;将句子分词,并去除停用词;将词语序列答案关键词比对,判断单词拼写,若有单词拼写错误则按一定比例扣分,该比例可人为设定;用语法检查器判断语法错误,若有语法错误则按一定比例扣分,该比例可人为设定;进行语义匹配;给予分数。
针对英文试卷中的作文题,将语法错误和拼写错误标记出来,提示老师扣分点。
针对中文试卷中的有固定答案范围的填空题、或非选择题的客观题,将文字识别出来的词和正确答案比对,若词无误则得分。
针对中文试卷中科目为历史、地理、生物的主观题,具体包括:
获取图像识别的文本;将文本进行分句处理;将句子使用开源工具jieba分词,并去除停用词;将词语和标准答案中的得分关键词比对;根据和关键词的匹配数给予相应分数。
针对中文试卷中科目为政治、语文(除作文),具体包括:
获取图像识别出的文本;将文本进行分句处理;将句子使用开源工具jieba分词,并去除停用词;将词语利用工具word2vec进行词量化;利用训练好的LSTM simamesenetwork模型计算文本与标准答案的语义相似度;给予得分。
下面结合具体实施例对本发明的应用原理作进一步的描述。
本发明实施例提供的基于深度学习的智能阅卷方法,包括:
(1)扫描学生的试卷,将纸质试卷信息转化为图片信息储存在本地电脑硬盘上,来为自动阅卷做准备;
(2)通过光学字符识别(OCR),利用自然场景文本检测(CPTN)模型检测考生主观题答案位置,再利用文本识别(CRNN)模型和联结主义时间分类(CTC loss)模型识别出考生所答内容的文本信息;
(3)通过自然语言处理(NLP),进行主观题评分,通过分词进行相似度匹配,然后通过上下文的语义分析发现拼写和语法错误,从而给定该试卷的分数。
本发明实施例提供的基于深度学习的智能阅卷方法“通过光学字符识别(OCR),利用自然场景文本检测(CPTN)模型检测考生主观题答案位置,再利用文本识别(CRNN)模型和联结主义时间分类(CTC loss)模型识别出考生所答内容的文本信息;”具体包括2个模块:检测模块;识别模块;
检测模块利用CTPN模型,具体包括:
卷积神经网络提取特征,获得大小为N×C×H×W的feature map;
在第一步得到的feature map上做3×3的滑动窗口,输出N×9C×H×W的featuremap;
将第二步得到的feature map进行reshape,过程即结果如下:
N×9C×H×W→(NH)×W×9C;
以Batch=NH且最大时间长度Tmax=W的数据流输入双向LSTM,学习每一行的序列特征。双向LSTM(NH)×W×256,再经reshape恢复形状:
(NH)×W×256→N×256×H×W;
经过全连接神经网络,将特征的尺寸变为N×512×H×W;
经过RPN网络,获得textproposals,实现对文字的定位;
对textproposals内的部分进行二值化处理,绘制其灰度图;
统计x轴的直方图,根据像素的峰谷值进行切割,获得每个字的检测位置。
识别模块利用CRNN模型和CTC loss模型,具体包括:
卷积神经网络提取特征,获得大小为N×C×H×W的feature map;
对feature map进行自适应池化,得到字体图片的特征向量;
构造全连接神经网络,将特征向量输入其中,利用梯度传播,训练分类器;
利用分类原理,识别字体标签,返回对应的印刷字体;
将切割的字体全部识别后进行拼接,返回一行的印刷字体;
对每一行的识别结果进行整合,得到全部的识别结果。
本发明实施例提供的基于深度学习的智能阅卷方法“通过自然语言处理(NLP),进行主观题评分,通过分词进行相似度匹配,然后通过上下文的语义分析发现拼写和语法错误,从而给定该试卷的分数。“具体包括4个模块:语义匹配模块;关键词匹配模块;语法检查模块;拼写检查模块;
最后通过反馈系统,将模型参数进行调整,以得到更适应的模型。
语义匹配模块具体包括:
将文本进行分句处理;
将图像中读取的学生答案文本和标准答案文本使用开源工具jieba进行分词处理,并去除常见的停用词,分词的准确与否会对后续的正确性产生很重要的影响;
将词语利用工具word2vec进行词向量化,将文本转换为计算机可以处理的向量形式存储;
利用训练好的LSTM simamese network模型计算文本与标准答案的相似度并给予分数;
文本相似度匹配想要从语义层面上进行匹配,而非根据固有词特异性,关键在于词向量和神经网络模型的训练情况;
语料库是从现实生活中大量语料中搜集得来,想要在试卷上获得更优的结果,必须有针对性的对模型进行参数调整;
模型的训练和优化是文本语义相似度匹配的关键环节,决定了系统的性能;
本发明实施例提供的基于深度学习的智能阅卷方法“将图像中读取的学生答案文本和标准答案文本使用开源工具jieba进行分词处理,并去除常见的停用词“,具体包括:
英文单词以每个空格为间隔;
对于中文采用结巴中文分词工具进行分词;
在算法上:采用了基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG);采用了动态规划查找最大概率路径,找出基于词频的最大切分组合;对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法;
结巴分词支持三种分词模式,其中默认的精确模式可以简易的将句子精确的切开,适合用于文本分析;
本发明实施例提供的基于深度学习的智能阅卷方法“将词语利用工具word2vec进行词向量化,将文本转换为计算机可以处理的向量形式存储”,具体包括:
Word2Vec由两种不同思想实现:CBOW(Continuous Bag of Words)和Skip-gram;CBOW的目标是根据上下文来预测当前词语的概率,且上下文所有的词对当前词出现概率的影响的权重一样;
Skip-gram刚好相反:根据当前词语来预测上下文的概率。
这两种方法都利用人工神经网络作为它们的分类算法。起初每个单词都是一个随机N维向量。经过训练之后,该算法利用CBOW或者Skip-gram的方法获得了每个单词的最优向量。
通过工具Word2Vec,文本的表示通过词向量的表示方式,把文本数据从高纬度稀疏的神经网络难处理的方式,变成了类似图像、语言的连续稠密数据。
“关键词匹配模块”实施方法为获取图像识别出的文本;将文本进行分句处理;将句子使用开源工具jieba分词,并去除停用词;将词语和标准答案的得分关键词比对。
“语法检查模块”实施方法为利用开源工具language-tool检查语法错误。
“拼写检查模块”实施方法为将单词和词库的单词进行比对,若词库没有出现过,则利用贝叶斯定理,取出编辑距离为2以内的词库出现频率最高的单词做替换;
具体包括:
以相对比较大的文本文件作文样本,分析每个单词出现的概率作为语言模型和词典;
如果用户输入的单词不在词典中,则产生编辑距离(Edit Distance)为2的所有可能单词;
编辑距离为1就是对用户输入的单词进行删除1个字符、添加一个字符、交换相邻字符、替换1个字符产生的所有单词。而编辑距离为2就是对这些单词进行一次上述所有变换,因此最后产生的单词集会很大。与词典作差集,只保留词典中存在的单词;
假设事件c是猜测用户可能想要输入的单词,而事件w是用户实际输入的错误单词;
根据贝叶斯公式可知:这里的P(w)对于每个单词均一样,可以忽略。而P(w|c)是误差模型(ErrorModel),是用户想要输入w却输入c的概率,这需要大量样本数据和事实依据得到。因此,找出编辑距离为2的单词集中P(c)概率最大的几个来提示用户。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于深度学习的智能阅卷实现方法,其特征在于,所述基于深度学习的智能阅卷实现方法包括:
第一步,扫描学生的试卷,将纸质试卷信息转化为图片信息储存在本地电脑硬盘上;
第二步,通过光学字符识别,利用自然场景文本检测模型检测考生主观题答案位置,利用文本识别模型和联结主义时间分类模型识别出考生所答内容的文本信息;
第三步,通过自然语言处理,进行主观题评分,通过分词进行相似度匹配,然后通过上下文的语义分析发现拼写和语法错误,给定该试卷的分数,具体包括:
获取图像识别出的文本;
将文本进行分句处理;
将图像中读取的学生答案文本和标准答案文本使用开源工具jieba进行分词处理,并去除常见的停用词;
将词语利用工具word2vec进行词向量化,将文本转换为计算机处理的向量形式存储;
利用训练好的LSTM simamese network模型计算文本与标准答案的相似度并给予分数;
对文本语义相似度匹配的模型训练和优化;
获取图像识别出的文本;将文本进行分句处理;将句子使用开源工具jieba分词,并去除停用词;将词语和标准答案的得分关键词比对;
利用开源工具language-tool检查语法错误;
将单词和词库的单词进行比对,若词库没有出现过,则利用贝叶斯定理,取出编辑距离为2以内的词库出现概率最大的单词做替换,具体包括:以文本文件作为样本,分析每个单词出现的概率作为语言模型和词典;如果用户输入的单词不在词典中,则产生编辑距离为2的所有单词;编辑距离为1的所有单词就是对用户输入的单词进行删除1个字符、添加一个字符、交换相邻字符、替换1个字符产生的所有单词;编辑距离为2的所有单词就是对编辑距离为1的所有单词进行一次删除1个字符、添加一个字符、交换相邻字符、替换1个字符产生的所有单词,与词典作差集,只保留词典中存在的单词;
假设事件c是猜测用户可能想要输入的单词,而事件w是用户实际输入的错误单词;
通过光学字符识别,利用自然场景文本检测模型检测考生主观题答案位置具体包括:
(1)卷积神经网络提取特征,获得大小为N×C×H×W的feature map;
(2)在得到的feature map上做3×3的滑动窗口,输出N×9C×H×W的feature map;
(3)将得到的feature map进行reshape,结果如下:
N×9C×H×W→(NH)×W×9C;
以Batch=NH且最大时间长度Tmax=W的数据流输入双向LSTM,学习每一行的序列特征;
双向LSTM(NH)×W×256,再经reshape恢复形状:
(NH)×W×256→N×256×H×W;
经过全连接神经网络,将特征的尺寸变为N×512×H×W;
经过RPN网络,获得textproposals,实现对文字的定位;
(4)对textproposals内的部分进行二值化处理,绘制其灰度图;
根据像素的峰谷值进行切割,获得每个字的检测位置。
2.如权利要求1所述的基于深度学习的智能阅卷实现方法,其特征在于,利用文本识别模型和联结主义时间分类模型识别出考生所答内容的文本信息具体包括:
(1)卷积神经网络提取特征,获得大小为N×C×H×W的feature map;
(2)对feature map进行自适应池化,得到字体图片的特征向量;
(3)构造全连接神经网络,将特征向量输入其中,利用梯度传播,训练分类器;
(4)利用分类原理,识别字体标签,返回对应的印刷字体;
(5)将切割的字体全部识别后进行拼接,返回一行的印刷字体;
(6)对每一行的识别结果进行整合,得到全部的识别结果。
3.如权利要求1所述的基于深度学习的智能阅卷实现方法,其特征在于,将图像中读取的学生答案文本和标准答案文本使用开源工具jieba进行分词处理,并去除常见的停用词,具体包括:英文单词以每个空格为间隔;对于中文采用结巴中文分词工具进行分词;
采用基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图;采用动态规划查找最大概率路径,找出基于词频的最大切分组合;
对于未登录词,采用基于汉字成词能力的HMM模型,使用了Viterbi算法;
结巴分词支持三种分词模式,其中默认的精确模式可以简易的将句子精确的切开,适合用于文本分析。
4.如权利要求1所述的基于深度学习的智能阅卷实现方法,其特征在于,将词语利用工具word2vec进行词向量化,将文本转换为计算机处理的向量形式存储中,Word2Vec由两种不同思想实现:CBOW和Skip-gram;CBOW的目标是根据上下文来预测当前词语的概率,且上下文所有的词对当前词出现概率的影响的权重一样;
Skip-gram是根据当前词语来预测上下文的概率;
每个单词都是一个随机N维向量;经过训练之后,利用CBOW或者Skip-gram的方法获得每个单词的最优向量;
通过工具Word2Vec,文本的表示通过词向量的表示方式,把文本数据从高纬度稀疏的神经网络难处理的方式。
5.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1~4任意一项所述的基于深度学习的智能阅卷实现方法。
6.一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现权利要求1~4任意一项所述的基于深度学习的智能阅卷实现方法。
7.一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1~4任意一项所述的基于深度学习的智能阅卷实现方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910195561.4A CN110110585B (zh) | 2019-03-15 | 2019-03-15 | 基于深度学习的智能阅卷实现方法及系统、计算机程序 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910195561.4A CN110110585B (zh) | 2019-03-15 | 2019-03-15 | 基于深度学习的智能阅卷实现方法及系统、计算机程序 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110110585A CN110110585A (zh) | 2019-08-09 |
CN110110585B true CN110110585B (zh) | 2023-05-30 |
Family
ID=67484284
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910195561.4A Active CN110110585B (zh) | 2019-03-15 | 2019-03-15 | 基于深度学习的智能阅卷实现方法及系统、计算机程序 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110110585B (zh) |
Families Citing this family (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110598566A (zh) * | 2019-08-16 | 2019-12-20 | 深圳中兴网信科技有限公司 | 图像处理方法、装置、终端和计算机可读存储介质 |
CN110795997B (zh) * | 2019-09-19 | 2023-07-28 | 平安科技(深圳)有限公司 | 基于长短期记忆的教学方法、装置和计算机设备 |
CN110689018A (zh) * | 2019-09-24 | 2020-01-14 | 华南理工大学 | 一种智能阅卷系统及其处理方法 |
CN112733522A (zh) * | 2019-10-14 | 2021-04-30 | 上海流利说信息技术有限公司 | 一种离题检测方法、装置、设备及可读存储介质 |
CN110599839A (zh) * | 2019-10-23 | 2019-12-20 | 济南盈佳科技有限责任公司 | 一种基于智能组卷和文本分析评阅的在线考试方法和系统 |
CN110969412A (zh) * | 2019-11-25 | 2020-04-07 | 大连理工大学 | 一种电子实验报告生成、智能批阅、存储及下载系统 |
CN111079641B (zh) * | 2019-12-13 | 2024-04-16 | 科大讯飞股份有限公司 | 作答内容识别方法、相关设备及可读存储介质 |
CN113052315B (zh) * | 2019-12-26 | 2022-05-17 | 北京易真学思教育科技有限公司 | 组卷模型训练及其组卷方法、装置及计算机存储介质 |
CN111221936B (zh) * | 2020-01-02 | 2023-11-07 | 鼎富智能科技有限公司 | 一种信息匹配方法、装置、电子设备及存储介质 |
CN111242131A (zh) * | 2020-01-06 | 2020-06-05 | 北京十六进制科技有限公司 | 一种智能阅卷中图像识别的方法、存储介质及装置 |
CN111402659B (zh) * | 2020-04-07 | 2022-04-22 | 科大讯飞股份有限公司 | 填空题标准答案确定方法、装置、电子设备和存储介质 |
CN111597908A (zh) * | 2020-04-22 | 2020-08-28 | 深圳中兴网信科技有限公司 | 试卷批改方法和试卷批改装置 |
CN111737412A (zh) * | 2020-05-21 | 2020-10-02 | 电子科技大学 | 基于自然语言处理和知识图谱的公民来访引导方法 |
CN111931486A (zh) * | 2020-08-12 | 2020-11-13 | 广东讯飞启明科技发展有限公司 | 一种人工评分用样卷筛选的方法及装置 |
CN112199946A (zh) * | 2020-09-15 | 2021-01-08 | 北京大米科技有限公司 | 数据处理方法、装置、电子设备和可读存储介质 |
CN112163508A (zh) * | 2020-09-25 | 2021-01-01 | 中国电子科技集团公司第十五研究所 | 一种基于真实场景的文字识别方法、系统及ocr终端 |
CN112287925A (zh) * | 2020-10-19 | 2021-01-29 | 南京数件技术研究院有限公司 | 一种基于实时轨迹采集的数学判题系统 |
CN112364601B (zh) * | 2020-10-28 | 2023-04-07 | 南阳理工学院 | 基于TF-IDF算法和TextRank算法的智能阅卷方法及装置 |
CN112132143B (zh) * | 2020-11-23 | 2021-02-23 | 北京易真学思教育科技有限公司 | 数据处理方法、电子设备及计算机可读介质 |
CN112613500A (zh) * | 2020-12-21 | 2021-04-06 | 安徽科迅教育装备集团有限公司 | 一种基于深度学习的校园动态阅卷系统 |
CN112949455B (zh) * | 2021-02-26 | 2024-04-05 | 武汉天喻信息产业股份有限公司 | 一种增值税发票识别系统及方法 |
CN113296863A (zh) * | 2021-05-26 | 2021-08-24 | 平安国际智慧城市科技股份有限公司 | 基于ios系统的动态换肤方法、装置、设备及存储介质 |
CN113111154B (zh) * | 2021-06-11 | 2021-10-29 | 北京世纪好未来教育科技有限公司 | 相似度评估方法、答案搜索方法、装置、设备及介质 |
CN113435441A (zh) * | 2021-07-22 | 2021-09-24 | 广州华腾教育科技股份有限公司 | 基于Bi-LSTM机制的四则运算算式图像智能批改方法 |
CN113971805A (zh) * | 2021-12-22 | 2022-01-25 | 深圳市迪博企业风险管理技术有限公司 | 一种结合机器视觉和语义分析的智能阅卷评分方法 |
CN114245194A (zh) * | 2021-12-23 | 2022-03-25 | 深圳市优必选科技股份有限公司 | 视频教学交互方法、装置及电子设备 |
CN114140803B (zh) * | 2022-01-30 | 2022-06-17 | 杭州实在智能科技有限公司 | 基于深度学习的文档单字坐标检测和修正方法及系统 |
CN114743421B (zh) * | 2022-04-27 | 2023-05-16 | 广东亚外国际文化产业有限公司 | 一种外语学习智慧教学综合考核系统及方法 |
CN115080690A (zh) * | 2022-06-17 | 2022-09-20 | 瀚云瑞科技(北京)有限公司 | 一种基于nlp的试卷文本自动化批改方法及系统 |
CN116662585B (zh) * | 2023-07-26 | 2023-10-17 | 陕西淼华智脑科技有限公司 | 一种基于校园题库的数字信息检测方法及检测系统 |
CN117437094A (zh) * | 2023-08-04 | 2024-01-23 | 北京信诺软通信息技术有限公司 | 一种答题试卷分类的方法、电子设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20120088261A (ko) * | 2011-01-31 | 2012-08-08 | 김정원 | 바코드를 이용한 시험지 채점 시스템 및 그 방법 |
US9037967B1 (en) * | 2014-02-18 | 2015-05-19 | King Fahd University Of Petroleum And Minerals | Arabic spell checking technique |
KR20170139922A (ko) * | 2016-06-10 | 2017-12-20 | 주식회사 아이디엘 | 한글 철자 검사지의 검사 결과 해석 시스템 |
WO2018006294A1 (zh) * | 2016-07-06 | 2018-01-11 | 王楚 | 一种基于图像模式识别技术的阅卷系统、装置和方法 |
CN107832768A (zh) * | 2017-11-23 | 2018-03-23 | 盐城线尚天使科技企业孵化器有限公司 | 基于深度学习的高效阅卷方法和阅卷系统 |
CN108830195A (zh) * | 2018-05-31 | 2018-11-16 | 西安电子科技大学 | 基于现场可编程门阵列fpga的图像分类方法 |
CN108959261A (zh) * | 2018-07-06 | 2018-12-07 | 京工博创(北京)科技有限公司 | 基于自然语言的试卷主观题判题装置及方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009040790A2 (en) * | 2007-09-24 | 2009-04-02 | Robert Iakobashvili | Method and system for spell checking |
WO2018165579A1 (en) * | 2017-03-10 | 2018-09-13 | Eduworks Corporation | Automated tool for question generation |
CN108566627A (zh) * | 2017-11-27 | 2018-09-21 | 浙江鹏信信息科技股份有限公司 | 一种利用深度学习识别诈骗短信的方法及系统 |
CN108052504B (zh) * | 2017-12-26 | 2020-11-20 | 浙江讯飞智能科技有限公司 | 数学主观题解答结果的结构分析方法及系统 |
CN108764074B (zh) * | 2018-05-14 | 2019-03-19 | 山东师范大学 | 基于深度学习的主观题智能阅卷方法、系统及存储介质 |
CN108710866B (zh) * | 2018-06-04 | 2024-02-20 | 平安科技(深圳)有限公司 | 汉字模型训练方法、汉字识别方法、装置、设备及介质 |
CN109102037B (zh) * | 2018-06-04 | 2024-03-05 | 平安科技(深圳)有限公司 | 中文模型训练、中文图像识别方法、装置、设备及介质 |
CN109034050B (zh) * | 2018-07-23 | 2022-05-03 | 顺丰科技有限公司 | 基于深度学习的身份证图像文本识别方法及装置 |
CN109299274B (zh) * | 2018-11-07 | 2021-12-17 | 南京大学 | 一种基于全卷积神经网络的自然场景文本检测方法 |
-
2019
- 2019-03-15 CN CN201910195561.4A patent/CN110110585B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20120088261A (ko) * | 2011-01-31 | 2012-08-08 | 김정원 | 바코드를 이용한 시험지 채점 시스템 및 그 방법 |
US9037967B1 (en) * | 2014-02-18 | 2015-05-19 | King Fahd University Of Petroleum And Minerals | Arabic spell checking technique |
KR20170139922A (ko) * | 2016-06-10 | 2017-12-20 | 주식회사 아이디엘 | 한글 철자 검사지의 검사 결과 해석 시스템 |
WO2018006294A1 (zh) * | 2016-07-06 | 2018-01-11 | 王楚 | 一种基于图像模式识别技术的阅卷系统、装置和方法 |
CN107832768A (zh) * | 2017-11-23 | 2018-03-23 | 盐城线尚天使科技企业孵化器有限公司 | 基于深度学习的高效阅卷方法和阅卷系统 |
CN108830195A (zh) * | 2018-05-31 | 2018-11-16 | 西安电子科技大学 | 基于现场可编程门阵列fpga的图像分类方法 |
CN108959261A (zh) * | 2018-07-06 | 2018-12-07 | 京工博创(北京)科技有限公司 | 基于自然语言的试卷主观题判题装置及方法 |
Non-Patent Citations (4)
Title |
---|
A statistical and rule-based spelling and grammar checker for Indonesian text;Fahda A , Purwarianti A;2017 International Conference on Data and Software Engineering;全文 * |
一种基于短文本相似度计算的主观题自动阅卷方法;张均胜;石崇德;徐红姣;高影繁;何彦青;;图书情报工作(19);全文 * |
主观题自动阅卷技术研究;田甜;张振国;;计算机工程与设计(16);全文 * |
人工智能评测技术在大规模中英文作文阅卷中的应用探索;何屹松;中国考试;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110110585A (zh) | 2019-08-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110110585B (zh) | 基于深度学习的智能阅卷实现方法及系统、计算机程序 | |
US11790641B2 (en) | Answer evaluation method, answer evaluation system, electronic device, and medium | |
CN107506360B (zh) | 一种文章评分方法及系统 | |
CN108121702B (zh) | 数学主观题评阅方法及系统 | |
CN110096698B (zh) | 一种考虑主题的机器阅读理解模型生成方法与系统 | |
CN111597908A (zh) | 试卷批改方法和试卷批改装置 | |
CN108052504B (zh) | 数学主观题解答结果的结构分析方法及系统 | |
CN111259897A (zh) | 知识感知的文本识别方法和系统 | |
CN110276069A (zh) | 一种中国盲文错误自动检测方法、系统及存储介质 | |
CN111737968A (zh) | 一种作文自动批改及评分的方法及终端 | |
CN112527968A (zh) | 一种基于神经网络的作文评阅方法和系统 | |
CN111680684A (zh) | 一种基于深度学习的书脊文本识别方法、设备及存储介质 | |
CN112686263B (zh) | 文字识别方法、装置、电子设备及存储介质 | |
CN112434686B (zh) | 针对ocr图片的端到端含错文本分类识别仪 | |
CN110969005A (zh) | 一种确定实体语料之间的相似性的方法及装置 | |
CN107783958B (zh) | 一种目标语句识别方法及装置 | |
CN116822634A (zh) | 一种基于布局感知提示的文档视觉语言推理方法 | |
CN107992482B (zh) | 数学主观题解答步骤的规约方法及系统 | |
Khosrobeigi et al. | A rule-based post-processing approach to improve Persian OCR performance | |
Nguyen et al. | Handwriting recognition and automatic scoring for descriptive answers in Japanese language tests | |
CN112085985B (zh) | 一种面向英语考试翻译题目的学生答案自动评分方法 | |
Lin et al. | Design and implementation of intelligent scoring system for handwritten short answer based on deep learning | |
Le et al. | An Attention-Based Encoder–Decoder for Recognizing Japanese Historical Documents | |
CN114357990B (zh) | 文本数据标注方法、装置、电子设备和存储介质 | |
CN112464664B (zh) | 一种多模型融合中文词汇复述抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |