CN112364601B

CN112364601B - 基于TF-IDF算法和TextRank算法的智能阅卷方法及装置

Info

Publication number: CN112364601B
Application number: CN202011184933.2A
Authority: CN
Inventors: 王玥
Original assignee: Nanyang Institute of Technology
Current assignee: Nanyang Institute of Technology
Priority date: 2020-10-28
Filing date: 2020-10-28
Publication date: 2023-04-07
Anticipated expiration: 2040-10-28
Also published as: CN112364601A

Abstract

本申请实施例公开了一种基于TF‑IDF算法和TextRank算法的智能阅卷方法、装置、设备及存储介质，属于大数据处理技术领域，该方法包括:获取阅卷人员预先写入的标准答案；基于TF‑IDF算法和TextRank算法对所述主观题答案集进行文字关键词提取；获取待审阅的答题文档；基于Matlab模型的BP神经网络算法获取选择答案测试集；使用Tesseract‑OCR文字识别技术，获取主观答案测试集；基于TF‑IDF算法和TextRank算法对所述主观答案测试集进行文字关键词提取；分别获取选择题的分值和主观题的分值，再获取最终分值。本申请有助于教师或者审阅人员进行快速阅卷，节省了人力物力和时间消耗。

Description

基于TF-IDF算法和TextRank算法的智能阅卷方法及装置

技术领域

本申请涉及数据处理技术领域，尤其涉及一种基于TF-IDF算法和TextRank算法的智能阅卷方法、装置、设备及存储介质。

背景技术

对考试答案进行阅卷和给出分值，用以评估学生在近一阶段的学习状况，是我国在推广素质教育中的一项重要评估方式。目前，在大型的重要考试中，常常采用答题卡的方式，这种方式主要的阅卷方法是先给出用黑色2B签字笔涂写的标准选择题答案，生成标准矩阵，在进行阅卷时，获取考生涂写的答案，生成待审矩阵，将标准矩阵和待审矩阵进行相似度计算，获取选择题的答案，但是，这种采用答题卡的方式如果推广到每一次的考试中，消耗的成本较高。

目前较为普遍的阅卷方式为人力阅卷，主要由教师进行直接批改，给出分值，或者由教师使用一些阅卷APP进行阅卷，但是，无论是教师直接阅卷或者由阅卷APP进行阅卷，都是找出出错的点，最后给出总分。由此可知，现有技术进行阅卷时，具有耗费大量人力物力的问题。

发明内容

本申请实施例的目的在于提出一种基于TF-IDF算法和TextRank算法的智能阅卷方法、装置、设备及存储介质，以解决现有技术进行阅卷时耗费大量人力物力的问题。

为了解决上述技术问题，本申请实施例提供一种基于TF-IDF算法和TextRank算法的智能阅卷方法，采用了如下所述的技术方案：

一种基于TF-IDF算法和TextRank算法的智能阅卷方法，包括：

获取阅卷人员预先写入的标准答案，基于消息队列的形式，将所述标准答案读出到文档中，生成选择题答案集和主观题答案集；

基于TF-IDF算法和TextRank算法对所述主观题答案集进行文字关键词提取，将提取到的文字关键词作为主观题答案集的特征文字，同时，直接获取选择题答案集中的全部字符，作为选择题答案集的特征文字；

获取待审阅的答题文档，并对其进行扫描，获取到所述答题文档的扫描图片；

基于Matlab模型的BP神经网络算法识别出所述扫描图片中的字母部分，若所述扫描图片中的字母部分为连续片段，则将所述字母部分作为选择答案测试集；

基于预设汉字语言包，使用Tesseract-OCR文字识别技术，识别出所述答题图片中的汉字部分，作为主观答案测试集；

将所述选择答案测试集中元素与所述选择题答案集的特征文字进行对比，获取到两两相同的字母个数，将所述个数与单个选择题对应的分值进行相乘，获取到所述选择答案测试集对应的实际分值M₁；

基于TF-IDF算法和TextRank算法对所述主观答案测试集进行文字关键词提取，将提取到的文字关键词作为主观答案测试集的特征文字，将所述主观答案测试集的特征文字与所述主观题答案集的特征文字进行相似度计算，使用百分比的格式表示所述相似度，并基于预设的算法公式:M₂＝c×D,获取到主观答案测试集的实际分值M₂,其中，c为所述相似度，D为主观题的总分值；

基于预设的加值法M＝M₁+M₂，分别获取所述所述选择答案测试集对应的实际分值M₁和所述主观答案测试集的实际分值M₂，获取到M，即为本次阅卷的最终分值。

进一步的，所述基于TF-IDF算法和TextRank算法的智能阅卷方法，所述获取阅卷人员预先写入的标准答案，包括:

预先提供可输入答案的输入框，获取阅卷人员输入的内容饼加入到消息队列中。

进一步的，所述基于TF-IDF算法和TextRank算法的智能阅卷方法，所述基于消息队列的形式，将所述标准答案读出到文档中，包括:

基于RabbitMq进行消息队列的传输和持久化缓存，同时，所述消息队列基于“先进先出”的原则，缓存获取到的标准答案，并读出到文档中。

进一步的，所述基于TF-IDF算法和TextRank算法的智能阅卷方法，所述在生成选择题答案集和主观题答案集之前和所述缓存获取到的标准答案之后，包括:

基于预设的ASCII码转化模型，对获取到的被缓存的标准答案，依次按照单个字符的顺序进行ASCII码转换，获取ASCII码值；

若所述缓存的标准答案在预设的连续时间段内，所述单个字符对应的所述ASCII码值的范围都在[65,90]之间，则将所述单个字符进行区别保存，生成选择题答案集；

若所述缓存的标准答案中单个字符进行ASCII码值转换时，转换结果为NULL，则依次获取所述单个字符，进行区别保存，生成主观题答案集，其中，若存在两个字符的转换结果都为NULL，且所述两个字符间存在其他字符的转换结果非NULL，则所述其他字符按照其转换的顺序保存到主观题答案集中。

进一步的，所述基于TF-IDF算法和TextRank算法的智能阅卷方法，所述若所述扫描图片中的字母部分为连续片段，判断方式包括:

在所述扫描图片上按照字符的高度设置行号，按照字符的宽度设置标尺码，在识别所述扫描图片中的字母部分时，获取所述字母部分中每一个字母对应的行号和标尺，若存在字母间的行号与标尺不在连续，则结束识别，将已经识别出的行号和标尺连续的字母部分作为选择答案测试集。

进一步的，所述基于TF-IDF算法和TextRank算法的智能阅卷方法，所述基于TF-IDF算法和TextRank算法对所述主观题答案集进行文字关键词提取或者所述基于TF-IDF算法和TextRank算法对所述主观答案测试集进行文字关键词提取，包括:

步骤一，基于TF-IDF算法对所述主观题答案集或者主观答案测试集进行文字关键词提取，获取到若干关键词，具体步骤如下,基于预设分词工具，对所述主观题答案集或者主观答案测试集中所有文字按照词性进行分词处理，获取到若干词语片段，统计所述词语片段的总个数N，基于预设的算法公式：

计算每一个词语片段在所述主观题答案集或者主观答案测试集中的权重，其中，T为每一个所述词语片段在所述N中出现的总次数；

步骤二，基于TextRank算法对所述主观题答案集或者主观答案测试集进行文字关键词提取，获取到若干关键词，具体步骤如下,基于预设分词工具，对所述主观题答案集或者主观答案测试集中所有文字按照词性进行分词处理，获取到若干词语片段，统计所述词语片段的总个数N，对所述若干词语片段构建网络节点模型，使用textrank函数，获取每一个词语片段在所述主观题答案集或者主观答案测试集中的权重；

步骤三，将所述步骤一获取到的权重基于从高到低的顺序排序，选择出前m个权重对应的词语片段，作为关键词的第一候选词集，同时，将所述步骤二获取到的权重基于从高到低的顺序排序，选择出前m个权重对应的词语片段，作为关键词的第二候选词集；

步骤四，将所述第一候选词集和第二候选词集中的词语片段进行匹配，若存在某个词语片段，同时属于第一候选词集和第二候选词集，则将所述词语片段进行筛选，加入到最终候选集中，将所述最终候选集中的词语片段作为主观题答案集或者主观答案测试集的特征文字。

为了解决上述技术问题，本申请实施例还提供了一种基于TF-IDF算法和TextRank算法的智能阅卷装置，采用了如下所述的技术方案：

一种基于TF-IDF算法和TextRank算法的智能阅卷装置，包括：

标准答案获取模块，用于获取阅卷人员预先写入的标准答案，基于消息队列的形式，将所述标准答案读出到文档中，生成选择题答案集和主观题答案集；

特征文字提取模块，用于基于TF-IDF算法和TextRank算法对所述主观题答案集进行文字关键词提取，将提取到的文字关键词作为主观题答案集的特征文字，同时，直接获取选择题答案集中的全部字符，作为选择题答案集的特征文字；

待审文档获取模块，用于获取待审阅的答题文档，并对其进行扫描，获取到所述答题文档的扫描图片；

选择题答案获取模块，用于基于Matlab模型的BP神经网络算法识别出所述扫描图片中的字母部分，若所述扫描图片中的字母部分为连续片段，则将所述字母部分作为选择答案测试集；

主观题答案获取模块，用于基于预设汉字语言包，使用Tesseract-OCR文字识别技术，识别出所述答题图片中的汉字部分，作为主观答案测试集；

选择题分值确定模块，用于将所述选择答案测试集中元素与所述选择题答案集的特征文字进行对比，获取到两两相同的字母个数，将所述个数与单个选择题对应的分值进行相乘，获取到所述选择答案测试集对应的实际分值M₁；

主观题分值确定模块，用于基于TF-IDF算法和TextRank算法对所述主观答案测试集进行文字关键词提取，将提取到的文字关键词作为主观答案测试集的特征文字，将所述主观答案测试集的特征文字与所述主观题答案集的特征文字进行相似度计算，使用百分比的格式表示所述相似度，并基于预设的算法公式:M₂＝c×D,获取到主观答案测试集的实际分值M₂,其中，c为所述相似度，D为主观题的总分值；

最终分值计算模块，用于基于预设的加值法M＝M₁+M₂，分别获取所述所述选择答案测试集对应的实际分值M₁和所述主观答案测试集的实际分值M₂，获取到M，即为本次阅卷的最终分值。

为了解决上述技术问题，本申请实施例还提供一种计算机设备，采用了如下所述的技术方案：

一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时实现本申请实施例中提出的一种基于TF-IDF算法和TextRank算法的智能阅卷方法的步骤。

为了解决上述技术问题，本申请实施例还提供一种非易失性计算机可读存储介质，采用了如下所述的技术方案：

一种非易失性计算机可读存储介质，计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现本申请实施例中提出的一种基于TF-IDF算法和TextRank算法的智能阅卷方法的步骤。

与现有技术相比，本申请实施例主要有以下有益效果：

本申请实施例公开了基于TF-IDF算法和TextRank算法的智能阅卷方法、装置、设备及存储介质，通过获取阅卷人员预先写入的标准答案；基于TF-IDF算法和TextRank算法对所述主观题答案集进行文字关键词提取；获取待审阅的答题文档；基于Matlab模型的BP神经网络算法获取选择答案测试集；使用Tesseract-OCR文字识别技术，获取主观答案测试集；基于TF-IDF算法和TextRank算法对所述主观答案测试集进行文字关键词提取；分别获取选择题的分值和主观题的分值，再获取最终分值，使用了选择题与主观题分别阅卷的方式，使用特征文字的方式审阅主观题，是的阅卷结果更加准确合理。本申请有助于教师或者审阅人员进行快速阅卷，节省了人力物力和时间消耗。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例可以应用于其中的示例性系统架构图；

图2为本申请实施例中所述基于TF-IDF算法和TextRank算法的智能阅卷方法的一个实施例的流程图；

图3为本申请实施例中所述基于TF-IDF算法和TextRank算法的智能阅卷装置的一个实施例的结构示意图；

图4为本申请实施例中计算机设备的一个实施例的结构示意图；

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

如图1所示，系统架构1可以包括终端设备1-1、1-2、1-3，网络1-4和服务器1-5。网络1-4用以在终端设备1-1、1-2、1-3和服务器1-5之间提供通信链路的介质。网络1-4可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备1-1、1-2、1-3通过网络1-4与服务器1-5交互，以接收或发送消息等。终端设备1-1、1-2、1-3上可以安装有各种通讯客户端应用，例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备1-1、1-2、1-3可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture ExpertsGroup Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器1-5可以是提供各种服务的服务器，例如对终端设备1-1、1-2、1-3上显示的页面提供支持的后台服务器。

需要说明的是，本申请实施例所提供的基于TF-IDF算法和TextRank算法的智能阅卷方法一般由服务器/终端设备执行，相应地，基于TF-IDF算法和TextRank算法的智能阅卷装置一般设置于服务器/终端设备中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，图中示出了本申请的基于TF-IDF算法和TextRank算法的智能阅卷方法的一个实施例的流程图，所述的基于TF-IDF算法和TextRank算法的智能阅卷方法包括以下步骤：

步骤2-1，获取阅卷人员预先写入的标准答案，基于消息队列的形式，将所述标准答案读出到文档中，生成选择题答案集和主观题答案集。

在本申请实施例中，所述获取阅卷人员预先写入的标准答案，包括:预先提供可输入答案的输入框，获取阅卷人员输入的内容饼加入到消息队列中。

解释：提供可输入标准答案的输入框，由阅卷人员进行输入，后台直接从输入界面上获取阅卷人员输入的标准答案，在缓存之前，通过消息队列的方式将获取到的标准答案，依次进行缓存。

在本申请实施例中，所述基于消息队列的形式，将所述标准答案读出到文档中，包括:基于RabbitMq进行消息队列的传输和持久化缓存，同时，所述消息队列基于“先进先出”的原则，缓存获取到的标准答案，并读出到文档中。

解释：RabbitMq进行消息队列缓存时，为持久化缓存，能够做到一次缓存，多次复用；另外，消息队列遵循消息内容“先进先出”的原则，这样，阅卷人员只需按照顺序输入，后台也会同步性的按照输入顺序接收标准答案内容。

在本申请实施例中，所述在生成选择题答案集和主观题答案集之前和所述缓存获取到的标准答案之后，包括:基于预设的ASCII码转化模型，对获取到的被缓存的标准答案，依次按照单个字符的顺序进行ASCII码转换，获取ASCII码值；若所述缓存的标准答案在预设的连续时间段内，所述单个字符对应的所述ASCII码值的范围都在[65,90]之间，则将所述单个字符进行区别保存，生成选择题答案集；若所述缓存的标准答案中单个字符进行ASCII码值转换时，转换结果为NULL，则依次获取所述单个字符，进行区别保存，生成主观题答案集，其中，若存在两个字符的转换结果都为NULL，且所述两个字符间存在其他字符的转换结果非NULL，则所述其他字符按照其转换的顺序保存到主观题答案集中。

解释：在对由消息队列传输的标准答案进行缓存为文档时，为了将选择题答案与主观题答案进行区别保存，在缓存为文档之前，将经过消息队列接收的标准答案，通过预设ASCII转码模型进行转码处理，所述的预设ASCII转码模型，具体处理方式如下：将A至Z的26个大写英文字母转化为65至90的ASCII码值，因此，只需要判断经过ASCII转码模型获取的ASCII码值，是否在范围[65,90]之间，若在范围[65,90]之间，则可以确定在进行ASCII转码之前，所述进行缓存为文档的内容为大写字母；若经过预设ASCII转码模型进行转码后的ASCII码值为NULL，则说明所述进行缓存为文档的内容为汉字字符，无ASCII码值，确定为主观题答案部分，从第一个NULL开始，依次获取待进行缓存为文档的内容，直到最后一个NULL时，获取结束，所获取的文档内容为主观题答案。

其中，若在出现NULL之后，待进行缓存为文档的内容经过ASCII转码模型可以获取到范围[65,90]之间的ASCII码值，此时，将所述范围[65,90]之间的ASCII码值对应的大写字母，作为主观题答案部分。

此外，若在出现NULL之后，待进行缓存为文档的内容经过ASCII转码模型可以获取到ASCII码值，包括标点符号对应的ASCII码值，数值对应的ASCII值，小写字母对应的ASCII值，此时，将所述ASCII码值对应的待缓存为文档的内容作为主观题答案部分。

步骤2-2，基于TF-IDF算法和TextRank算法对所述主观题答案集进行文字关键词提取，将提取到的文字关键词作为主观题答案集的特征文字，同时，直接获取选择题答案集中的全部字符，作为选择题答案集的特征文字。

在本申请实施例中，所述基于TF-IDF算法和TextRank算法对所述主观题答案集进行文字关键词提取，包括:

步骤2-2-1，基于TF-IDF算法对所述主观题答案集进行文字关键词提取，获取到若干关键词，具体步骤如下,基于预设分词工具，对所述主观题答案集中所有文字按照词性进行分词处理，获取到若干词语片段，统计所述词语片段的总个数N，基于预设的算法公式：

计算每一个词语片段在所述主观题答案集中的权重，其中，T为每一个所述词语片段在所述N中出现的总次数；

解释：所述TF-IDF算法具体包括:对于所述主观题答案集中内容进行采用结巴分词的方式，保留名词,副词,动词,形容词，量词这几个词性的词语，最终得到N个候选关键词，即N为所有分词的个数,T为每一个分词在N中出现的频率；计算每一个分词在文本N中的词频，即

计算每一个分词在整个语料中的IDF，

Dt为语料库中所述分词ti出现的文档个数，在本申请实施例中，标准答案文档数为1，则

计算得到所述分词ti的TF-IDF＝TF*IDF，并重复得到所有所述分词的TF-IDF数值；对候选关键词计算结果进行倒序排列，得到排名前TopN个词汇作为所述主观题答案集的关键词。

步骤2-2-2，基于TextRank算法对所述主观题答案集进行文字关键词提取，获取到若干关键词，具体步骤如下,基于预设分词工具，对所述主观题答案集中所有文字按照词性进行分词处理，获取到若干词语片段，统计所述词语片段的总个数N，对所述若干词语片段构建网络节点模型，使用textrank函数，获取每一个词语片段在所述主观题答案集中的权重；

解释：对所述主观题答案集采用结巴分词，保留名词,副词,动词,形容词，量词这几个词性的词语，最终得到N个候选关键词，即N为所有分词的个数；构建候选关键词图G＝(V,E)，其中V为节点集，所述节点集由候选关键词组成，并采用共现关系构造任两点之间的边，两个节点之间仅当它们对应的词汇在长度为K的窗口中共现则存在边，K表示窗口大小即最多共现K个词汇；根据公式迭代计算各节点的权重，直至收敛；对节点权重进行倒序排列，得到排名前TopN个词汇作为文本关键词。

其中，Jieba库中包含textrank函数可直接实现TextRank算法，本申请直接采用该函数进行TextRank算法的实现，获取排名前TopN个词汇作为所述主观题答案集的关键词。

具体方式如下：在本申请实施例中，TextRank在构建图的时候将节点由网页改成了分词，并为节点之间的边引入了权值，其中权值表示两个分词的相似程度，本质上构建的是一个带权无向图，其计算公式如下：

其中，w_ji为候选关键词图G＝(V,E)重节点v_i到v_j的边的权重，d为阻尼系数，In(v_i)为指向节点v_i的集合，Out(v_j)为节点v_j指出的集合。在TextRank构建的图中，默认节点就是分词，权重w_ji为两个分词s_i和s_j的相似度分数，公式如下：

计算图中各节点的得分时，同样需要给图中的节点指定任意的初值，通常都设为1。然后递归计算直到收敛，将最后的得分按照降序排列，获取排名前TopN个词汇作为所述主观题答案集的关键词。

步骤2-2-3，将所述步骤2-2-1获取到的权重基于从高到低的顺序排序，选择出前m个权重对应的词语片段，作为关键词的第一候选词集，同时，将所述步骤2-2-2获取到的权重基于从高到低的顺序排序，选择出前m个权重对应的词语片段，作为关键词的第二候选词集；

解释：将通过TF-IDF算法获取的所述主观题答案集的排名前TopN个词汇作为关键词的第一候选词集，将通过TextRank算法获取的所述主观题答案集的排名前TopN个词汇作为关键词的第二候选词集，TopN与m相等为非零正整数，假设m＝10,即第一候选词集和第二候选词集都包含10个关键词。

步骤2-2-4，将所述第一候选词集和第二候选词集中的词语片段进行匹配，若存在某个词语片段，同时属于第一候选词集和第二候选词集，则将所述词语片段进行筛选，加入到最终候选集中，将所述最终候选集中的词语片段作为主观题答案集的特征文字。

步骤2-3，获取待审阅的答题文档，并对其进行扫描，获取到所述答题文档的扫描图片。

在本申请实施例中，所述若所述扫描图片中的字母部分为连续片段，判断方式包括:在所述扫描图片上按照字符的高度设置行号，按照字符的宽度设置标尺码，在识别所述扫描图片中的字母部分时，获取所述字母部分中每一个字母对应的行号和标尺，若存在字母间的行号与标尺不在连续，则结束识别，将已经识别出的行号和标尺连续的字母部分作为选择答案测试集。

解释：在扫描时，引入文档的标尺和行号功能，对扫描出的图片按照标尺确定宽度，按照行号确定长度；在对扫描图片中的字母进行确定时，同时获取所述字母所在的行号和标尺信息，直到某个字母识别结束，或者某个字母识别出的行号与标尺与前一个字母的识别标尺与行号在扫描图片中不相邻，则将本次之前获取的所有字母，作为选择题答案测试集。

步骤2-4，基于Matlab模型的BP神经网络算法识别出所述扫描图片中的字母部分，若所述扫描图片中的字母部分为连续片段，则将所述字母部分作为选择答案测试集。

步骤2-5，基于预设汉字语言包，使用Tesseract-OCR文字识别技术，识别出所述答题图片中的汉字部分，作为主观答案测试集。

步骤2-6，将所述选择答案测试集中元素与所述选择题答案集的特征文字进行对比，获取到两两相同的字母个数，将所述个数与单个选择题对应的分值进行相乘，获取到所述选择答案测试集对应的实际分值M₁。

步骤2-7，基于TF-IDF算法和TextRank算法对所述主观答案测试集进行文字关键词提取，将提取到的文字关键词作为主观答案测试集的特征文字，将所述主观答案测试集的特征文字与所述主观题答案集的特征文字进行相似度计算，使用百分比的格式表示所述相似度，并基于预设的算法公式:M₂＝c×D,获取到主观答案测试集的实际分值M₂,其中，c为所述相似度，D为主观题的总分值。

在本申请实施例中，所述基于TF-IDF算法和TextRank算法对所述主观答案测试集进行文字关键词提取，包括:

步骤2-7-1，基于TF-IDF算法对所述主观答案测试集进行文字关键词提取，获取到若干关键词，具体步骤如下,基于预设分词工具，对所述主观答案测试集中所有文字按照词性进行分词处理，获取到若干词语片段，统计所述词语片段的总个数N，基于预设的算法公式：

计算每一个词语片段在所述主观答案测试集中的权重，其中，T为每一个所述词语片段在所述N中出现的总次数；

步骤2-7-2，基于TextRank算法对所述主观答案测试集进行文字关键词提取，获取到若干关键词，具体步骤如下,基于预设分词工具，对所述主观答案测试集中所有文字按照词性进行分词处理，获取到若干词语片段，统计所述词语片段的总个数N，对所述若干词语片段构建网络节点模型，使用textrank函数，获取每一个词语片段在所述主观答案测试集中的权重；

步骤2-7-3，将所述步骤2-7-1获取到的权重基于从高到低的顺序排序，选择出前m个权重对应的词语片段，作为关键词的第一候选词集，同时，将所述步骤2-7-2获取到的权重基于从高到低的顺序排序，选择出前m个权重对应的词语片段，作为关键词的第二候选词集；

步骤2-7-4，将所述第一候选词集和第二候选词集中的词语片段进行匹配，若存在某个词语片段，同时属于第一候选词集和第二候选词集，则将所述词语片段进行筛选，加入到最终候选集中，将所述最终候选集中的词语片段作为主观答案测试集的特征文字。

步骤2-8，基于预设的加值法M＝M₁+M₂，分别获取所述所述选择答案测试集对应的实际分值M₁和所述主观答案测试集的实际分值M₂，获取到M，即为本次阅卷的最终分值。

本申请实施例中所述的基于TF-IDF算法和TextRank算法的智能阅卷方法，可以通过获取阅卷人员预先写入的标准答案；基于TF-IDF算法和TextRank算法对所述主观题答案集进行文字关键词提取；获取待审阅的答题文档；基于Matlab模型的BP神经网络算法获取选择答案测试集；使用Tesseract-OCR文字识别技术，获取主观答案测试集；基于TF-IDF算法和TextRank算法对所述主观答案测试集进行文字关键词提取；分别获取选择题的分值和主观题的分值，再获取最终分值，使用了选择题与主观题分别阅卷的方式，使用特征文字的方式审阅主观题，是的阅卷结果更加准确合理。本申请有助于教师或者审阅人员进行快速阅卷，节省了人力物力和时间消耗。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

进一步参考图3，作为对上述图2所示方法的实现，本申请提供了一种基于TF-IDF算法和TextRank算法的智能阅卷装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图3所示，本实施例所述的基于TF-IDF算法和TextRank算法的智能阅卷装置3包括：标准答案获取模块3-1、特征文字提取模块3-2、待审文档获取模块3-3、选择题答案获取模块3-4、主观题答案获取模块3-5、选择题分值确定模块3-6、主观题分值确定模块3-7和最终分值计算模块3-8。其中：

标准答案获取模块3-1，用于获取阅卷人员预先写入的标准答案，基于消息队列的形式，将所述标准答案读出到文档中，生成选择题答案集和主观题答案集；

特征文字提取模块3-2，用于基于TF-IDF算法和TextRank算法对所述主观题答案集进行文字关键词提取，将提取到的文字关键词作为主观题答案集的特征文字，同时，直接获取选择题答案集中的全部字符，作为选择题答案集的特征文字；

待审文档获取模块3-3，用于获取待审阅的答题文档，并对其进行扫描，获取到所述答题文档的扫描图片；

选择题答案获取模块3-4，用于基于Matlab模型的BP神经网络算法识别出所述扫描图片中的字母部分，若所述扫描图片中的字母部分为连续片段，则将所述字母部分作为选择答案测试集；

主观题答案获取模块3-5，用于基于预设汉字语言包，使用Tesseract-OCR文字识别技术，识别出所述答题图片中的汉字部分，作为主观答案测试集；

选择题分值确定模块3-6，用于将所述选择答案测试集中元素与所述选择题答案集的特征文字进行对比，获取到两两相同的字母个数，将所述个数与单个选择题对应的分值进行相乘，获取到所述选择答案测试集对应的实际分值M₁；

主观题分值确定模块3-7，用于基于TF-IDF算法和TextRank算法对所述主观答案测试集进行文字关键词提取，将提取到的文字关键词作为主观答案测试集的特征文字，将所述主观答案测试集的特征文字与所述主观题答案集的特征文字进行相似度计算，使用百分比的格式表示所述相似度，并基于预设的算法公式:M₂＝c×D,获取到主观答案测试集的实际分值M₂,其中，c为所述相似度，D为主观题的总分值；

最终分值计算模块3-8，用于基于预设的加值法M＝M₁+M₂，分别获取所述所述选择答案测试集对应的实际分值M₁和所述主观答案测试集的实际分值M₂，获取到M，即为本次阅卷的最终分值。

本申请实施例所述的基于TF-IDF算法和TextRank算法的智能阅卷装置，通过获取阅卷人员预先写入的标准答案；基于TF-IDF算法和TextRank算法对所述主观题答案集进行文字关键词提取；获取待审阅的答题文档；基于Matlab模型的BP神经网络算法获取选择答案测试集；使用Tesseract-OCR文字识别技术，获取主观答案测试集；基于TF-IDF算法和TextRank算法对所述主观答案测试集进行文字关键词提取；分别获取选择题的分值和主观题的分值，再获取最终分值，使用了选择题与主观题分别阅卷的方式，使用特征文字的方式审阅主观题，是的阅卷结果更加准确合理。本申请有助于教师或者审阅人员进行快速阅卷，节省了人力物力和时间消耗。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图4，图4为本实施例计算机设备基本结构框图。

所述计算机设备4包括通过系统总线相互通信连接存储器4-1、处理器4-2、网络接口4-3。需要指出的是，图中仅示出了具有组件4-1、4-2、4-3的计算机设备4，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程门阵列(Field-Programmable Gate Array，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器4-1至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器4-1可以是所述计算机设备4的内部存储单元，例如该计算机设备4的硬盘或内存。在另一些实施例中，所述存储器4-1也可以是所述计算机设备4的外部存储设备，例如该计算机设备4上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。当然，所述存储器4-1还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中，所述存储器4-1通常用于存储安装于所述计算机设备4的操作系统和各类应用软件，例如基于TF-IDF算法和TextRank算法的智能阅卷方法的程序代码等。此外，所述存储器4-1还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器4-2在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器4-2通常用于控制所述计算机设备4的总体操作。本实施例中，所述处理器4-2用于运行所述存储器4-1中存储的程序代码或者处理数据，例如运行所述基于TF-IDF算法和TextRank算法的智能阅卷方法的程序代码。

所述网络接口4-3可包括无线网络接口或有线网络接口，该网络接口4-3通常用于在所述计算机设备4与其他电子设备之间建立通信连接。

本申请还提供了另一种实施方式，即提供一种非易失性计算机可读存储介质，所述非易失性计算机可读存储介质存储有基于TF-IDF算法和TextRank算法的智能阅卷程序，所述基于TF-IDF算法和TextRank算法的智能阅卷程序可被至少一个处理器执行，以使所述至少一个处理器执行如上述的基于TF-IDF算法和TextRank算法的智能阅卷方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

1.一种基于TF-IDF算法和TextRank算法的智能阅卷方法，其特征在于，包括下述步骤：

基于TF-IDF算法和TextRank算法对所述主观题答案集进行文字关键词提取或者基于TF-IDF算法和TextRank算法对主观答案测试集进行文字关键词提取，包括:步骤一，基于TF-IDF算法对所述主观题答案集或者主观答案测试集进行文字关键词提取，获取到若干关键词，具体步骤如下,基于预设分词工具，对所述主观题答案集或者主观答案测试集中所有文字按照词性进行分词处理，获取到若干词语片段，统计所述词语片段的总个数N，基于预设的算法公式：

计算每一个词语片段在所述主观题答案集或者主观答案测试集中的权重，其中，T为每一个所述词语片段在所述N中出现的总次数；步骤二，基于TextRank算法对所述主观题答案集或者主观答案测试集进行文字关键词提取，获取到若干关键词，具体步骤如下,基于预设分词工具，对所述主观题答案集或者主观答案测试集中所有文字按照词性进行分词处理，获取到若干词语片段，统计所述词语片段的总个数N，对所述若干词语片段构建网络节点模型，使用textrank函数，获取每一个词语片段在所述主观题答案集或者主观答案测试集中的权重；步骤三，将所述步骤一获取到的权重基于从高到低的顺序排序，选择出前m个权重对应的词语片段，作为关键词的第一候选词集，同时，将所述步骤二获取到的权重基于从高到低的顺序排序，选择出前m个权重对应的词语片段，作为关键词的第二候选词集；步骤四，将所述第一候选词集和第二候选词集中的词语片段进行匹配，若存在某个词语片段，同时属于第一候选词集和第二候选词集，则将所述词语片段进行筛选，加入到最终候选集中，将所述最终候选集中的词语片段作为主观题答案集或者主观答案测试集的特征文字；同时，直接获取选择题答案集中的全部字符，作为选择题答案集的特征文字；

基于预设汉字语言包，使用Tesseract-OCR文字识别技术，识别出答题图片中的汉字部分，作为主观答案测试集；

基于TF-IDF算法和TextRank算法对所述主观答案测试集进行文字关键词提取，所述TF-IDF算法具体包括对于所述主观题答案集中内容进行采用结巴分词的方式，对候选关键词计算结果进行倒序排列，得到排名前TopN个词汇作为所述主观题答案集的关键词，将提取到的文字关键词作为主观答案测试集的特征文字，将所述主观答案测试集的特征文字与所述主观题答案集的特征文字进行相似度计算，使用百分比的格式表示所述相似度，并基于预设的算法公式M₂＝c×D:,获取到主观答案测试集的实际分值M₂,其中，c为所述相似度，D为主观题的总分值；

基于预设的加值法M＝M₁+M₂，分别获取所述选择答案测试集对应的实际分值M₁和所述主观答案测试集的实际分值M₂，获取到M，即为本次阅卷的最终分值。

2.根据权利要求1所述的基于TF-IDF算法和TextRank算法的智能阅卷方法，其特征在于，所述获取阅卷人员预先写入的标准答案，包括:

3.根据权利要求2所述的基于TF-IDF算法和TextRank算法的智能阅卷方法，其特征在于，所述基于消息队列的形式，将所述标准答案读出到文档中，包括:

4.根据权利要求1至3任一项所述的基于TF-IDF算法和TextRank算法的智能阅卷方法，其特征在于，所述在生成选择题答案集和主观题答案集之前和缓存获取到的标准答案之后，包括:

5.根据权利要求4所述的基于TF-IDF算法和TextRank算法的智能阅卷方法，其特征在于，所述若所述扫描图片中的字母部分为连续片段，判断方式包括:

6.一种基于TF-IDF算法和TextRank算法的智能阅卷装置，其特征在于，包括：

特征文字提取模块，用于基于TF-IDF算法和TextRank算法对所述主观题答案集进行文字关键词提取或者基于TF-IDF算法和TextRank算法对主观答案测试集进行文字关键词提取，包括:步骤一，基于TF-IDF算法对所述主观题答案集或者主观答案测试集进行文字关键词提取，获取到若干关键词，具体步骤如下,基于预设分词工具，对所述主观题答案集或者主观答案测试集中所有文字按照词性进行分词处理，获取到若干词语片段，统计所述词语片段的总个数N，基于预设的算法公式：

主观题答案获取模块，用于基于预设汉字语言包，使用Tesseract-OCR文字识别技术，识别出答题图片中的汉字部分，作为主观答案测试集；

主观题分值确定模块，用于基于TF-IDF算法和TextRank算法对所述主观答案测试集进行文字关键词提取，所述TF-IDF算法具体包括对于所述主观题答案集中内容进行采用结巴分词的方式，对候选关键词计算结果进行倒序排列，得到排名前TopN个词汇作为所述主观题答案集的关键词，将提取到的文字关键词作为主观答案测试集的特征文字，将所述主观答案测试集的特征文字与所述主观题答案集的特征文字进行相似度计算，使用百分比的格式表示所述相似度，并基于预设的算法公式M₂＝c×D:,获取到主观答案测试集的实际分值M₂,其中，c为所述相似度，D为主观题的总分值；

最终分值计算模块，用于基于预设的加值法M＝M₁+M₂，分别获取所述选择答案测试集对应的实际分值M₁和所述主观答案测试集的实际分值M₂，获取到M，即为本次阅卷的最终分值。

7.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述的基于TF-IDF算法和TextRank算法的智能阅卷方法的步骤。

8.一种非易失性计算机可读存储介质，其特征在于，所述非易失性计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的基于TF-IDF算法和TextRank算法的智能阅卷方法的步骤。