CN110110585B

CN110110585B - 基于深度学习的智能阅卷实现方法及系统、计算机程序

Info

Publication number: CN110110585B
Application number: CN201910195561.4A
Authority: CN
Inventors: 龙衍鑫; 夏晓波; 王文婷; 张文庆; 刘子晴; 任新鳞; 尹鋆泰; 吴嘉欣; 赵子懿
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2019-03-15
Filing date: 2019-03-15
Publication date: 2023-05-30
Anticipated expiration: 2039-03-15
Also published as: CN110110585A

Abstract

本发明属于人工智能技术领域，公开了一种基于深度学习的智能阅卷实现方法及系统、计算机程序；扫描学生的试卷，将纸质试卷信息转化为图片信息储存在本地电脑硬盘上；通过光学字符识别，利用自然场景文本检测模型检测考生主观题答案位置，利用文本识别模型和联结主义时间分类模型识别出考生所答内容的文本信息；通过自然语言处理，帮助批卷人进行主观题评分，通过分词进行相似度匹配，然后通过上下文的语义分析发现拼写和语法错误，辅助批卷人给定该试卷的分数。本发明能够对手写文本进行高精准识别，并可以帮助批卷人对客观题、主观题进行正确评分；大大减少了阅卷时间，增强了考试的客观性，节省了人力资源劳动；减少了购买昂贵阅卷机带来的成本损失。

Description

基于深度学习的智能阅卷实现方法及系统、计算机程序

技术领域

本发明属于人工智能技术领域，尤其涉及一种基于深度学习的智能阅卷实现方法及系统、计算机程序。

背景技术

目前，业内现有技术是这样的：在社会快速发展的信息化时代，教学内容的丰富一方面使得学生的学习任务不断加重，另一方面教师的负担也随之加重。尤其是在应试教育状况尚未完全改变的今天，高效率的改卷方式逐渐成为广大高校的呼声。而在当下阅卷模式中，人工装订试卷、登分和试卷流转的人工等待都在很大程度上拖延了阅卷的进程，并且会产生很多不必要的人为失误；即使是机器阅卷，不仅价格高昂，而且仅能起到评阅选择题的辅助作用，占大部分的主观题仍然是由教师批改，教师的负担依旧很重。因此，把教师从繁杂易出错的阅卷和统计工作中解放出来，使老师将充足的精力放在考试诊断上，并确保阅卷质量，不失为现有条件下减轻老师负担的有效手段，通过智能阅卷系统完成自动阅卷也就成为对这一问题的解决方案。

其次，传统的人工阅卷方式不能及时的屏蔽考生信息，造成了人情分、印象分等不合理评分现象时有发生；不同老师的评判标准不同，情绪状态不同也会导致分值差异，一些由主观因素造成的分值差异情况在所难免。

综上所述，现有技术存在的问题是：

(1)在当下阅卷模式中，人工装订试卷、登分和试卷流转的人工等待都在很大程度上拖延了阅卷的进程，并且会产生很多不必要的人为失误。

(2)现有的机器阅卷，不仅价格高昂，而且仅能起到评阅选择题的辅助作用，占大部分的主观题仍然是由教师批改，教师的负担依旧很重。

(3)传统的人工阅卷方式不能及时的屏蔽考生信息，造成了不同老师的评判标准不同，由主观因素造成的分值差异。

发明内容

针对现有技术存在的问题，本发明提供了一种基于深度学习的智能阅卷实现方法及系统、计算机程序。

本发明是这样实现的，一种基于深度学习的智能阅卷实现方法，所述基于深度学习的智能阅卷实现方法包括：

第一步，扫描学生的试卷，将纸质试卷信息转化为图片信息储存在本地电脑硬盘上；

第二部，通过光学字符识别，利用自然场景文本检测模型检测考生主观题答案位置，利用文本识别模型和联结主义时间分类模型识别出考生所答内容的文本信息；

第三步，通过自然语言处理，帮助进行主观题评分，通过分词进行相似度匹配，然后通过上下文的语义分析发现拼写和语法错误，辅助批卷人给定该试卷的分数。

进一步，通过光学字符识别，利用自然场景文本检测模型检测考生主观题答案位置具体包括：

(1)卷积神经网络提取特征，获得大小为N×C×H×W的feature map；

(2)在得到的feature map上做3×3的滑动窗口，输出N×9C×H×W的featuremap；

(3)将得到的feature map进行reshape，结果如下：

N×9C×H×W→(NH)×W×9C；

以Batch＝NH且最大时间长度T_max＝W的数据流输入双向LSTM，学习每一行的序列特征。双向LSTM(NH)×W×256，再经reshape恢复形状：

(NH)×W×256→N×256×H×W；

经过全连接神经网络，将特征的尺寸变为N×512×H×W；

经过RPN网络，获得textproposals，实现对文字的定位；

(4)对textproposals内的部分进行二值化处理，绘制其灰度图；

统计x轴的直方图，根据像素的峰谷值进行切割，获得每个字的检测位置。

进一步，利用文本识别模型和联结主义时间分类模型识别出考生所答内容的文本信息具体包括：

(1)卷积神经网络提取特征，获得大小为N×C×H×W的feature map；

(2)对feature map进行自适应池化，得到字体图片的特征向量；

(3)构造全连接神经网络，将特征向量输入其中，利用梯度传播，训练分类器；

(4)利用分类原理，识别字体标签，返回对应的印刷字体；

(5)将切割的字体全部识别后进行拼接，返回一行的印刷字体；

(6)对每一行的识别结果进行整合，得到全部的识别结果。

进一步，通过自然语言处理，进行主观题评分，通过分词进行相似度匹配具体包括：

(1)获取图像识别出的文本；

(2)将文本进行分句处理；

(3)将图像中读取的学生答案文本和标准答案文本使用开源工具jieba进行分词处理，并去除常见的停用词；

(4)将词语利用工具word2vec进行词向量化，将文本转换为计算机处理的向量形式存储；

(5)利用训练好的LSTM simamese network模型计算文本与标准答案的相似度；

(6)文本相似度匹配想要从语义层面上进行匹配，而非根据固有词特异性，关键在于词向量和神经网络模型的训练情况；

(7)语料库是从现实生活中大量语料中搜集；

(8)文本语义相似度匹配的模型训练和优化。

进一步，将图像中读取的学生答案文本和标准答案文本使用开源工具jieba进行分词处理，并去除常见的停用词中；英文单词以每个空格为间隔；对于中文采用结巴中文分词工具进行分词；

在算法上采用基于前缀词典实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图；采用动态规划查找最大概率路径，找出基于词频的最大切分组合；

对于未登录词，采用基于汉字成词能力的HMM模型，使用了Viterbi算法；

结巴分词支持三种分词模式，其中默认的精确模式可以简易的将句子精确的切开，适合用于文本分析。

进一步，将词语利用工具word2vec进行词向量化，将文本转换为计算机处理的向量形式存储中，Word2Vec由两种不同思想实现：CBOW和Skip-gram；CBOW的目标是根据上下文来预测当前词语的概率，且上下文所有的词对当前词出现概率的影响的权重一样；

Skip-gram刚好相反：根据当前词语来预测上下文的概率；

每个单词都是一个随机N维向量。经过训练之后，该算法利用CBOW或者Skip-gram的方法获得每个单词的最优向量；

通过工具Word2Vec，文本的表示通过词向量的表示方式，把文本数据从高纬度稀疏的神经网络难处理的方式。

进一步，通过上下文的语义分析发现拼写和语法错误具体包括：

利用开源工具language-tool检查语法错误；

将单词和词库的单词进行比对，若词库没有出现过，则利用贝叶斯定理，取出编辑距离为2以内的词库出现频率最高的单词做替换；以相对比较大的文本文件作文样本，分析每个单词出现的概率作为语言模型和词典；如果用户输入的单词不在词典中，则产生编辑距离为2的所有可能单词；编辑距离为1就是对用户输入的单词进行删除1个字符、添加一个字符、交换相邻字符、替换1个字符产生的所有单词；编辑距离为2就是对单词进行一次上述所有变换，因此最后产生的单词集会很大。

本发明的另一目的在于提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述的基于深度学习的智能阅卷实现方法。

本发明的另一目的在于提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现所述的基于深度学习的智能阅卷实现方法。

本发明的另一目的在于提供一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述的基于深度学习的智能阅卷实现方法。

综上所述，本发明的优点及积极效果为：本发明基于深度学习的智能阅卷实现方法，能够对手写文本进行高精准识别，并可以帮助批卷人对客观题、主观题进行正确评分。在当下大数据背景下通过深度学习实现了高效率、高质量的阅卷机制，大大减少了阅卷时间，增强了考试的客观性，节省了人力资源劳动。本发明减少了购买昂贵阅卷机带来的成本损失，试卷录入阶段通过扫描仪即可完成对内容的提取。

附图说明

图1是本发明实施例提供的基于深度学习的智能阅卷实现方法流程图。

图2是本发明实施例提供的基于深度学习的智能阅卷实现方法的实现流程图。

图3是本发明实施例提供的基于文本语义相似度评分流程图。

图4是本发明实施例提供的主要技术实现流程图。

图5是本发明实施例提供的文字检测与识别具体流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了克服现有技术人工装订试卷、登分和试卷流转的人工等待都在很大程度上拖延了阅卷的进程，并且产生很多不必要的人为失误；现有的机器阅卷，不仅价格高昂，主观题仍然是由教师批改，教师的负担依旧很重；传统的人工阅卷方式不能及时的屏蔽考生信息，造成了不同老师的评判标准不同，由主观因素造成的分值差异等问题，本发明提供智能阅卷方法及系统，可以辅助批卷人对考生的答卷进行评判，评价其相应的成绩，评判的关键在于本系统评价算法，依照本系统的评价算法进而确定最终的成绩，以达到自动阅卷的目的。

下面结合附图对本发明的应用原理做详细的描述。

如图1所示，本发明实施例提供的基于深度学习的智能阅卷实现方法包括以下步骤：

S101：扫描学生的试卷，将纸质试卷信息转化为图片信息储存在本地电脑硬盘上，为自动阅卷做准备；

S102：通过光学字符识别(OCR)，利用自然场景文本检测(CPTN)模型检测考生主观题答案位置；再利用文本识别(CRNN)模型和联结主义时间分类(CTC loss)模型识别出考生所答内容的文本信息；

S103：通过自然语言处理(NLP)，进行主观题评分，通过分词进行相似度匹配，然后通过上下文的语义分析发现拼写和语法错误，给定该试卷的分数。

在另一本发明的实施例中，步骤“通过光学字符识别(OCR)，利用自然场景文本检测(CPTN)模型检测考生主观题答案位置，再利用文本识别(CRNN)模型和联结主义时间分类(CTC loss)模型识别出考生所答内容的文本信息。”具体包括：

步骤(1)：通过扫描仪，将试卷转换为图片或PDF格式。

步骤(2)：利用卷积神经网络提取特征获得特定大小的特征映射；然后在此特征映射上做滑动窗口，再进行reshape，最后经全连接神经网络，改变特征尺寸，经RPN网络，实现对文字的定位；对textproposals内的部分进行二值化处理，绘制灰度图；统计x直方图，获得每个字的检测位置。

步骤(3)：利用卷积神经网络提取特征获得特定大小的特征映射；然后对此特征映射进行自适应池化，得到特征向量；构造全连接神经网络，将特征向量输入，训练分类器；识别分类标签，返回对应的印刷字体；识别全部切割的字体后拼接，返回一行印刷字体；对每一行识别结果整合，得到全部识别结果。

在另一本发明的实施例中，步骤“通过自然语言处理(NLP)，进行主观题评分，通过分词进行相似度匹配，然后通过上下文的语义分析发现拼写和语法错误，从而给定该试卷的分数。”具体包括：

步骤(1)：获取图像识别出的文本，将文本进行分句处理；将句子使用开源工具jieba分词，并去除停用词；将词语利用工具word2vec进行词向量化；利用训练好的模型计算文本与标准答案的相似度。

步骤(2)：利用开源工具language-tool检查语法错误。

步骤(3)：将单词和词库的单词进行比对，若词库没有出现过，则用贝叶斯定理，取出编辑距离为2以内的词库出现频率最高的单词做替换。

针对英文试卷中的非选择题的客观题，将文字识别出来的文本分词后喝正确答案比对，若单词无误则得分。

针对英文试卷中的主观题(除作文)，具体包括：

获取图像识别出的文本；将文本进行分句处理；将句子分词，并去除停用词；将词语序列答案关键词比对，判断单词拼写，若有单词拼写错误则按一定比例扣分，该比例可人为设定；用语法检查器判断语法错误，若有语法错误则按一定比例扣分，该比例可人为设定；进行语义匹配；给予分数。

针对英文试卷中的作文题，将语法错误和拼写错误标记出来，提示老师扣分点。

针对中文试卷中的有固定答案范围的填空题、或非选择题的客观题，将文字识别出来的词和正确答案比对，若词无误则得分。

针对中文试卷中科目为历史、地理、生物的主观题，具体包括：

获取图像识别的文本；将文本进行分句处理；将句子使用开源工具jieba分词，并去除停用词；将词语和标准答案中的得分关键词比对；根据和关键词的匹配数给予相应分数。

针对中文试卷中科目为政治、语文(除作文)，具体包括：

获取图像识别出的文本；将文本进行分句处理；将句子使用开源工具jieba分词，并去除停用词；将词语利用工具word2vec进行词量化；利用训练好的LSTM simamesenetwork模型计算文本与标准答案的语义相似度；给予得分。

下面结合具体实施例对本发明的应用原理作进一步的描述。

本发明实施例提供的基于深度学习的智能阅卷方法，包括：

(1)扫描学生的试卷，将纸质试卷信息转化为图片信息储存在本地电脑硬盘上，来为自动阅卷做准备；

(2)通过光学字符识别(OCR)，利用自然场景文本检测(CPTN)模型检测考生主观题答案位置，再利用文本识别(CRNN)模型和联结主义时间分类(CTC loss)模型识别出考生所答内容的文本信息；

(3)通过自然语言处理(NLP)，进行主观题评分，通过分词进行相似度匹配，然后通过上下文的语义分析发现拼写和语法错误，从而给定该试卷的分数。

本发明实施例提供的基于深度学习的智能阅卷方法“通过光学字符识别(OCR)，利用自然场景文本检测(CPTN)模型检测考生主观题答案位置，再利用文本识别(CRNN)模型和联结主义时间分类(CTC loss)模型识别出考生所答内容的文本信息；”具体包括2个模块：检测模块；识别模块；

检测模块利用CTPN模型，具体包括：

卷积神经网络提取特征，获得大小为N×C×H×W的feature map；

在第一步得到的feature map上做3×3的滑动窗口，输出N×9C×H×W的featuremap；

将第二步得到的feature map进行reshape，过程即结果如下：

N×9C×H×W→(NH)×W×9C；

(NH)×W×256→N×256×H×W；

经过全连接神经网络，将特征的尺寸变为N×512×H×W；

经过RPN网络，获得textproposals，实现对文字的定位；

对textproposals内的部分进行二值化处理，绘制其灰度图；

识别模块利用CRNN模型和CTC loss模型，具体包括：

卷积神经网络提取特征，获得大小为N×C×H×W的feature map；

对feature map进行自适应池化，得到字体图片的特征向量；

构造全连接神经网络，将特征向量输入其中，利用梯度传播，训练分类器；

利用分类原理，识别字体标签，返回对应的印刷字体；

将切割的字体全部识别后进行拼接，返回一行的印刷字体；

对每一行的识别结果进行整合，得到全部的识别结果。

本发明实施例提供的基于深度学习的智能阅卷方法“通过自然语言处理(NLP)，进行主观题评分，通过分词进行相似度匹配，然后通过上下文的语义分析发现拼写和语法错误，从而给定该试卷的分数。“具体包括4个模块：语义匹配模块；关键词匹配模块；语法检查模块；拼写检查模块；

最后通过反馈系统，将模型参数进行调整，以得到更适应的模型。

语义匹配模块具体包括：

将文本进行分句处理；

将图像中读取的学生答案文本和标准答案文本使用开源工具jieba进行分词处理，并去除常见的停用词，分词的准确与否会对后续的正确性产生很重要的影响；

将词语利用工具word2vec进行词向量化，将文本转换为计算机可以处理的向量形式存储；

利用训练好的LSTM simamese network模型计算文本与标准答案的相似度并给予分数；

文本相似度匹配想要从语义层面上进行匹配，而非根据固有词特异性，关键在于词向量和神经网络模型的训练情况；

语料库是从现实生活中大量语料中搜集得来，想要在试卷上获得更优的结果，必须有针对性的对模型进行参数调整；

模型的训练和优化是文本语义相似度匹配的关键环节，决定了系统的性能；

本发明实施例提供的基于深度学习的智能阅卷方法“将图像中读取的学生答案文本和标准答案文本使用开源工具jieba进行分词处理，并去除常见的停用词“，具体包括：

英文单词以每个空格为间隔；

对于中文采用结巴中文分词工具进行分词；

在算法上：采用了基于前缀词典实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)；采用了动态规划查找最大概率路径,找出基于词频的最大切分组合；对于未登录词，采用了基于汉字成词能力的HMM模型，使用了Viterbi算法；

结巴分词支持三种分词模式，其中默认的精确模式可以简易的将句子精确的切开，适合用于文本分析；

本发明实施例提供的基于深度学习的智能阅卷方法“将词语利用工具word2vec进行词向量化，将文本转换为计算机可以处理的向量形式存储”，具体包括：

Word2Vec由两种不同思想实现：CBOW(Continuous Bag of Words)和Skip-gram；CBOW的目标是根据上下文来预测当前词语的概率，且上下文所有的词对当前词出现概率的影响的权重一样；

Skip-gram刚好相反：根据当前词语来预测上下文的概率。

这两种方法都利用人工神经网络作为它们的分类算法。起初每个单词都是一个随机N维向量。经过训练之后，该算法利用CBOW或者Skip-gram的方法获得了每个单词的最优向量。

通过工具Word2Vec，文本的表示通过词向量的表示方式，把文本数据从高纬度稀疏的神经网络难处理的方式，变成了类似图像、语言的连续稠密数据。

“关键词匹配模块”实施方法为获取图像识别出的文本；将文本进行分句处理；将句子使用开源工具jieba分词，并去除停用词；将词语和标准答案的得分关键词比对。

“语法检查模块”实施方法为利用开源工具language-tool检查语法错误。

“拼写检查模块”实施方法为将单词和词库的单词进行比对，若词库没有出现过，则利用贝叶斯定理，取出编辑距离为2以内的词库出现频率最高的单词做替换；

具体包括：

以相对比较大的文本文件作文样本，分析每个单词出现的概率作为语言模型和词典；

如果用户输入的单词不在词典中，则产生编辑距离(Edit Distance)为2的所有可能单词；

编辑距离为1就是对用户输入的单词进行删除1个字符、添加一个字符、交换相邻字符、替换1个字符产生的所有单词。而编辑距离为2就是对这些单词进行一次上述所有变换，因此最后产生的单词集会很大。与词典作差集，只保留词典中存在的单词；

假设事件c是猜测用户可能想要输入的单词，而事件w是用户实际输入的错误单词；

根据贝叶斯公式可知：

这里的P(w)对于每个单词均一样，可以忽略。而P(w|c)是误差模型(ErrorModel)，是用户想要输入w却输入c的概率，这需要大量样本数据和事实依据得到。因此，找出编辑距离为2的单词集中P(c)概率最大的几个来提示用户。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现，所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的智能阅卷实现方法，其特征在于，所述基于深度学习的智能阅卷实现方法包括：

第二步，通过光学字符识别，利用自然场景文本检测模型检测考生主观题答案位置，利用文本识别模型和联结主义时间分类模型识别出考生所答内容的文本信息；

第三步，通过自然语言处理，进行主观题评分，通过分词进行相似度匹配，然后通过上下文的语义分析发现拼写和语法错误，给定该试卷的分数，具体包括：

获取图像识别出的文本；

将文本进行分句处理；

将图像中读取的学生答案文本和标准答案文本使用开源工具jieba进行分词处理，并去除常见的停用词；

将词语利用工具word2vec进行词向量化，将文本转换为计算机处理的向量形式存储；

对文本语义相似度匹配的模型训练和优化；

获取图像识别出的文本；将文本进行分句处理；将句子使用开源工具jieba分词，并去除停用词；将词语和标准答案的得分关键词比对；

利用开源工具language-tool检查语法错误；

将单词和词库的单词进行比对，若词库没有出现过，则利用贝叶斯定理，取出编辑距离为2以内的词库出现概率最大的单词做替换，具体包括：以文本文件作为样本，分析每个单词出现的概率作为语言模型和词典；如果用户输入的单词不在词典中，则产生编辑距离为2的所有单词；编辑距离为1的所有单词就是对用户输入的单词进行删除1个字符、添加一个字符、交换相邻字符、替换1个字符产生的所有单词；编辑距离为2的所有单词就是对编辑距离为1的所有单词进行一次删除1个字符、添加一个字符、交换相邻字符、替换1个字符产生的所有单词，与词典作差集，只保留词典中存在的单词；

根据贝叶斯公式可知：

P(w)对于每个单词均一样，P(w|c)是误差模型，是用户想要输入w却输入c的概率，找出编辑距离为2的单词集中P(c)概率最大的单词提示用户；

通过光学字符识别，利用自然场景文本检测模型检测考生主观题答案位置具体包括：

(1)卷积神经网络提取特征，获得大小为N×C×H×W的feature map；

(2)在得到的feature map上做3×3的滑动窗口，输出N×9C×H×W的feature map；

(3)将得到的feature map进行reshape，结果如下：

N×9C×H×W→(NH)×W×9C；

以Batch＝NH且最大时间长度Tmax＝W的数据流输入双向LSTM，学习每一行的序列特征；

双向LSTM(NH)×W×256，再经reshape恢复形状：

(NH)×W×256→N×256×H×W；

经过全连接神经网络，将特征的尺寸变为N×512×H×W；

经过RPN网络，获得textproposals，实现对文字的定位；

(4)对textproposals内的部分进行二值化处理，绘制其灰度图；

根据像素的峰谷值进行切割，获得每个字的检测位置。

2.如权利要求1所述的基于深度学习的智能阅卷实现方法，其特征在于，利用文本识别模型和联结主义时间分类模型识别出考生所答内容的文本信息具体包括：

(1)卷积神经网络提取特征，获得大小为N×C×H×W的feature map；

(2)对feature map进行自适应池化，得到字体图片的特征向量；

(4)利用分类原理，识别字体标签，返回对应的印刷字体；

(6)对每一行的识别结果进行整合，得到全部的识别结果。

3.如权利要求1所述的基于深度学习的智能阅卷实现方法，其特征在于，将图像中读取的学生答案文本和标准答案文本使用开源工具jieba进行分词处理，并去除常见的停用词，具体包括：英文单词以每个空格为间隔；对于中文采用结巴中文分词工具进行分词；

采用基于前缀词典实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图；采用动态规划查找最大概率路径，找出基于词频的最大切分组合；

4.如权利要求1所述的基于深度学习的智能阅卷实现方法，其特征在于，将词语利用工具word2vec进行词向量化，将文本转换为计算机处理的向量形式存储中，Word2Vec由两种不同思想实现：CBOW和Skip-gram；CBOW的目标是根据上下文来预测当前词语的概率，且上下文所有的词对当前词出现概率的影响的权重一样；

Skip-gram是根据当前词语来预测上下文的概率；

每个单词都是一个随机N维向量；经过训练之后，利用CBOW或者Skip-gram的方法获得每个单词的最优向量；

5.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现权利要求1～4任意一项所述的基于深度学习的智能阅卷实现方法。

6.一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现权利要求1～4任意一项所述的基于深度学习的智能阅卷实现方法。

7.一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1～4任意一项所述的基于深度学习的智能阅卷实现方法。