CN107506360B

CN107506360B - 一种文章评分方法及系统

Info

Publication number: CN107506360B
Application number: CN201610427512.5A
Authority: CN
Inventors: 付瑞吉; 施亮亮; 巩捷甫; 王士进; 胡国平; 宋巍; 秦兵; 刘挺
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2016-06-14
Filing date: 2016-06-14
Publication date: 2020-09-11
Anticipated expiration: 2036-06-14
Also published as: CN107506360A

Abstract

本发明公开了一种文章评分方法及系统，该方法包括：获取待评分文章的文本；提取所述文本的评分特征，所述评分特征包括：词汇特征和/或文采特征，还包括以下任意一种或多种特征：立意特征、篇章结构特征、词汇级语义特征；基于所述文本的评分特征及预先构建的评分模型，得到文章的评分。由于所述评分特征包括：词汇特征和/或文采特征，还包括以下任意一种或多种特征：立意特征、篇章结构特征词汇级语义特征，这些特征使得本发明可以从整体和局部等多个维度考察待评分文章的质量：篇章结构、主题、文采、词汇量等，使得本发明能实现对文章的自动评分。

Description

一种文章评分方法及系统

技术领域

本发明涉及教育信息化和自然语言理解领域，具体涉及一种文章评分方法及系统。

背景技术

国内的基础教育阶段，学生学习状况主要依靠各种类型的考试进行考核，考试试卷主要依靠人工进行阅卷。但是，人工阅卷存在人力消耗大、主观性强等问题。

随着计算机科学与技术的发展，自动化信息处理能力和水平也得到了显著的提高。自动阅卷系统的出现将人从繁重的机械劳动中解放出来。机器阅卷不仅有利于对学生的成绩做出客观公正的评价，而且利于对阅卷的结果进行保存、统计和查询。但主观部分，例如作文的阅卷还只能依靠人工阅卷，并且为了尽量减少不同阅卷老师的主观差异带来的评分影响，还需要对阅卷老师进行各类培训以统一标准，还可能需要多轮次多人综合评价等，费时费力，且客观性难以得到保证。

此外，当前处于一个信息大爆炸的时代，每天都有海量的文章、评论等充斥在各种媒体终端，如何选取出高质量的内容以供人们阅读，也成为亟待解决的问题。

发明内容

本发明实施例提供一种文章评分方法及系统，以解决现有技术中文章只能通过人工进行评价的问题。

为此，本发明实施例提供如下技术方案：

一种文章评分方法，包括：

获取待评分文章的文本；

提取所述文本的评分特征，所述评分特征包括：词汇特征和/或文采特征，还包括以下任意一种或多种特征：立意特征、篇章结构特征、词汇级语义特征；

基于所述文本的评分特征及预先构建的评分模型，得到文章的评分。

优选地，所述待评分文章为考试作文，所述评分特征还包括：作文长度特征；

所述待评分文章包含手写内容，所述评分特征还包括：书写整洁度特征和/或字体工整度特征。

优选地，所述词汇特征包括以下任意一种或多种特征：不重复词汇的数量特征、成语数量特征和高级词汇数量特征；

所述文采特征包括以下任意一种或多种特征：修辞手法特征和表达特征；

所述立意特征包括以下任意一种或多种特征：中心思想集中度特征和主题得分特征；

所述篇章结构特征包括以下任意一种或多种特征：连贯性分布特征、词汇链特征、词向量特征和句子长度特征。

优选地，所述修辞手法特征包括以下任意一种或多种特征：排比特征、引用特征、比喻特征和拟人特征。

优选地，所述书写整洁度特征包括以下任意一种或多种：插入行特征、涂抹特征和粘连特征；

提取所述字体工整度特征包括：对所述手写内容进行单字切分，对各单字进行笔画提取，根据各单字的笔画及预设的标准笔画提取字体工整度特征；

提取所述作文长度特征包括：根据预设的作文长度阈值提取作文长度特征。

优选地，所述不重复词汇的数量特征为：待评分文章中包含的不重复词汇的数量；

所述成语数量特征为：待评分文章中包含的成语数量；

所述高级词汇数量特征为：待评分文章中包含的高级词汇数量，所述高级词汇包括以下任意一种或多种：文言词汇、生僻词语、专业术语；

所述修辞手法特征包括以下任意一种或多种：使用修辞手法的数量、种类及使用修辞手法的句子在文章中的占比；

提取所述表达特征包括：预先构建分类模型，将待评分文章中句子输入所述分类模型，得到表达优美度；

所述中心思想集中度特征为：待评分文章属于各预设主题的概率的集中度；

所述主题得分特征包括：待评分文章的主题分布与定标高分文章的主题分布的相似度；

所述连贯性分布特征为：待评分文章中连接性词语的使用数量；

所述词汇链特征为：待评分文章中是否存在全局链或局部链；

所述词向量特征为：待评分文章中所有词的词向量；

所述句子长度特征为：待评分文章中所有句子的长度。

优选地，所述排比特征包括：使用排比的总数量、使用排比的句子长度、使用不同排比的数量；

所述引用特征包括：引用的次数、引用的主题是否和文章主题匹配、引用的出处和引用的作者信息；

所述比喻特征包括：使用比喻的总数量、使用比喻的句子长度、使用不同比喻的数量；

所述拟人特征包括：使用拟人的总数量、使用拟人的句子长度、使用不同拟人的数量。

优选地，所述方法还包括：

在提取所述文本的评分特征之前，对所述待评分文章进行异常检测；

如果存在异常，则进行标识或提示，所述异常包括以下任意一种或多种：抄袭、随意涂抹。

优选地，所述方法还包括：按以下方式构建所述评分模型：

选取训练数据；

对所述训练数据进行评分标注；

提取所述训练数据的评分特征；

基于所述训练数据的评分特征及评分标注信息训练评分模型。

一种文章评分系统，包括：

文本获取模块，用于获取待评分文章的文本；

特征提取模块，用于提取所述文本的评分特征，所述评分特征包括：词汇特征和/或文采特征，还包括以下任意一种或多种特征：立意特征、篇章结构特征、词汇级语义特征；

文章评分模块，用于基于所述文本的评分特征及预先构建的评分模型，得到文章的评分。

优选地，所述系统还包括：

异常检测模块，用于在特征提取模块提取所述文本的评分特征之前，对所述待评分文章进行异常检测；

标示模块，用于如果存在异常，则进行标识或提示，所述异常包括以下任意一种或多种：抄袭、随意涂抹。

优选地，所述系统还包括：

模型构建模块，用于构建所述评分模型，包括：

选取单元，用于选取训练数据；

标注单元，用于对所述训练数据进行评分标注；

提取单元，用于提取所述训练数据的评分特征；

训练单元，用于基于所述训练数据的评分特征及评分标注信息训练评分模型。

本发明实施例提供的文章评分方法及系统，通过从待评分文章的文本中提取评分特征，然后基于所述文本的评分特征及预先构建的评分模型，得到文章的评分。由于所述评分特征包括：词汇特征和/或文采特征，还包括以下任意一种或多种特征：立意特征、篇章结构特征词汇级语义特征，这些特征使得本发明可以从整体和局部等多个维度考察待评分文章的质量：篇章结构、主题、文采、词汇量等，能实现对文章的自动评分。

进一步地，当所述待评分文章为考试作文时，所述评分特征还包括：作文长度特征；由于考试或测试中作文的长度一般有一定的要求，比如高考作文通常要求篇幅不少于800字，因此作文的长度是评分中一个较为直观的特征。

进一步地，所述待评分文章包含手写内容时，所述评分特征还包括：书写整洁度特征和/或字体工整度特征；由于书写整洁度能体现出人们的预先构思能力以及写作态度等，通过该特征可以对其进行考察；优美的书写能使读者赏心悦目，通过该特征可以对书写的优美度进行客观评价。

进一步地，本发明还对所述评分特征进行了细化，以更全面的对待评分文章进行评分，其中，所述词汇特征包括以下任意一种或多种特征：不重复词汇的数量特征、成语数量特征和高级词汇数量特征；所述文采特征包括以下任意一种或多种特征：修辞手法特征和表达特征；所述立意特征包括以下任意一种或多种特征：中心思想集中度特征和主题得分特征；所述篇章结构特征包括以下任意一种或多种特征：连贯性分布特征、词汇链特征、词向量特征和句子长度特征。

进一步地，本发明还对所述修辞手法特征进行细化，其中，所述修辞手法特征包括以下任意一种或多种特征：排比特征、引用特征、比喻特征和拟人特征，这样使得本发明能更全面的对待评分文章进行评分。

进一步地，本发明还提供了各种评分特征的提取方法或定义，以便于计算机自动提取上述特征。

进一步地，本发明在获取待评分文章的文本之后，对所述待评分文章进行异常检测，当存在异常时，进行标识或提示；所述异常包括以下任意一种或多种：抄袭、随意涂抹。这样可以对文本化的待评分文章进行预处理，所述预处理主要包括乱写、抄袭等异常文章的检测、拒评。

进一步地，本发明提供了构建所述评分模型的步骤，以便于高效的构建评分模型。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的文章评分方法的一种流程图；

图2是本发明实施例提供的文章评分方法的另一种流程图；

图3是本发明实施例提供的构建评分模型的方法的一种流程图；

图4是本发明实施例提供的文章评分系统的一种结构示意图；

图5是本发明实施例提供的文章评分系统的另一种结构示意图；

图6是本发明实施例提供的文章评分系统的又一种结构示意图；

图7是本发明实施例提供的模型构建模块的一种结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例的方案，下面结合附图和实施方式对本发明作进一步的详细说明。以下实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本发明提供的文章评分方法及系统，通过从待评分文章的文本中提取评分特征，并输入预先构建的评分模型来获取文章的评分，由于各评分特征可以由计算机自动提取，因而可以自动对待评分文章进行评分。此外，由于所述评分特征包括：词汇特征和/或文采特征，还包括以下任意一种或多种特征：立意特征、篇章结构特征词汇级语义特征，这些特征使得本发明可以从整体和局部等多个维度考察待评分文章的质量，因而能给出客观公正的评分。

为了更好的理解本发明的技术方案和技术效果，以下将结合流程图和具体的实施例进行详细的描述。

如图1所示，是本发明实施例提供的文章评分方法的流程图，包括以下步骤：

步骤S01，获取待评分文章的文本。

在本实施例中，所述待评分文章的体裁包括但不限于：记叙文、说明文、议论文、应用文、演讲稿等，例如，该文章可以为考试作文、评论、稿件等。该待评分文章可以是中文、英文等各种语言种类的文章。

待评分文章可以为文字形式，当然也可以是图片格式，此外，也可以是包含图片的文本，例如，对名画、名书法的点评文章等，实际应用中仅点评文本内容，还是同时也对文章中包含的图片中文字内容进行评分，具体视使用需求而定。当待评分文章为图片格式，可以通过图像处理及文字识别等技术获取待评分文章的文本；当待评分文章没有电子版本时，可以采用扫描仪设备进行扫描，或者采用高拍仪、移动成像设备等获取文章图像，此外，也可以是从扫描图像中截取的文章图像等，然后通过光学字符识别(Optical CharacterRecognition，OCR)获取待评分文章的文本，在此不做限定。

需要强调的是，本发明尤其适用于作文评分，现有技术中，对于作文的评分，多还是采用人工评分方式，耗费大量人力。尤其是大规模的考试，如高考、中考等，往往需要在非常短时间内完成阅卷评分工作，这对阅卷员的体力、脑力均是很大的考验。且作文是主观性最强的题目，为了尽量减少不同阅卷老师的主观差异带来的评分影响，还需要各类培训统一评分标注或进行多轮次多人评价等，而本发明可以根据后续提取的评分特征自动对作文进行评分，相较于人工评分更加客观公正。

步骤S02，提取所述文本的评分特征，所述评分特征包括：词汇特征和/或文采特征，还包括以下任意一种或多种特征：立意特征、篇章结构特征、词汇级语义特征。

在本实施例中，所述词汇特征包括以下任意一种或多种特征：不重复词汇的数量特征、成语数量特征和高级词汇数量特征；所述文采特征包括以下任意一种或多种特征：修辞手法特征和表达特征；所述立意特征包括以下任意一种或多种特征：中心思想集中度特征和主题得分特征；所述篇章结构特征包括以下任意一种或多种特征：连贯性分布特征、词汇链特征、词向量特征和句子长度特征。

其中，词汇特征可以反映待评分文章包含的词汇量、成语数量、高级词汇数量。具体地，词汇特征可以为一个多维特征向量，例如：使用的词汇数量、不同词汇数量、成语数量、不同成语数量、高级词汇数量、不同高级词汇数量等。此外，也可以是表示使用不当词汇或错误词汇的数量，例如，错别字/词数量、不恰当词汇数量等。其中，不当词汇或错误词汇的识别方法可以同现有技术，例如，深入到语义层面进行分析，在此不做限定。

文采特征可以反映文章使用的修辞手法的数量、种类、表达的优美度以及不当修辞手法的数量等，具体可以包括：使用修辞手法的数量、种类及使用修辞手法的句子在文章中的占比、优美度等，其中，修辞手法包括但不限于：比喻、拟人、夸张、排比、对偶、反复、设问、反问、引用、对比、借代、反语，修辞手法的判定方法可以采用现有技术，在此不再详述；优美度可以采用深度学习的方式对待评分文章或待评分文章的句子进行评价，例如将待评分文章的句子输入训练好的优美度评价模型(如采用循环神经网络(Recurrent NeuralNetworks，RNN)构建的优美度评价模型)，得到输入句子的优美度评价，例如：优美、不优美，又例如：优、良、中、差，当然也可以是分值；该优美度评价模型的具体训练方法同现有技术，不再详述。

立意特征可以从宏观上反映文章的立意的好坏，例如，该文章是否具有中心思想、具有几个中心思想或主题思想、中心思想是否积极向上等。具体地，可以通过文档主题生成模型获取待评分文章的主题，然后根据主题数及主题集中度判断中心思想等，最终分析得到文章的立意特征，该主题生成模型可以为文档主题生成(Latent DirichletAllocation，LDA)模型、概率潜在语义分析模型(Probabilistic Latent SemanticAnalysis，PLSA)、潜在语义分析模型(Latent Semantic Analysis，LSA)、词频-逆向文件频率模型(Term Frequency-Inverse Document Frequency，TF-IDF)等，在此不做限定。

篇章结构特征由于从宏观结构反映文章的质量，篇章结构在文章评分标准中属于基础等级的表达部分，根据表达质量可分为：结构严谨、结构完整、结构基本完整和结构混乱等，当然也可以采用其他分档方式。实际应用中，准确自动识别出篇章结构的等级可作为文章评分的重要特征，直接作用于文章得分。具体地，可以采用机器学习的方法来识别，例如，采用有序分类(ordinal classification)方法得到待评分文章的篇章结构特征，该特征可以是具体的档位或得分等。

词汇级语义特征可以看作是对文章词汇级语义的评分，具体地，该特征可以为受限玻尔兹曼机(Restricted Boltzmann Machine，RBM)，对于文章评分任务，RBM模型的输入为文章的词向量，输出为词汇级的评分。可以训练回归模型，优选地，使用岭回归模型，即可将文章的词袋向量转换为一个低维的实数向量，将向量的每一维看作一个RBM特征，从而实现采用RBM模型对文章的表示。需要说明的是：RBM输入的词向量可以分为三种，分别为单字符Unigram向量、双字符Bigram向量和三字符Trigram向量，然后分别得到Unigram词汇级的评分、Bigram词汇级的评分和Trigram词汇级的评分。

特别地，当所述待评分文章为考试作文时，所述评分特征还包括：作文长度特征；所述待评分文章包含手写内容时，所述评分特征还包括：书写整洁度特征和/或字体工整度特征。

其中，书写整洁度特征能反映手写内容部分是否整洁，是否存在涂抹、插入内容等，具体地，所述书写整洁度特征包括以下任意一种或多种：插入行特征、涂抹特征和粘连特征；插入行特征可以为插入行数、插入行占所有行数的比例等多维特征向量，具体地，所述插入行行数比例特征可以在手写内容的图片的灰度图中获得，该特征为所有插入行的行数与所有行的行数的比值；所述插入行面积比例特征为：所有插入行的联通体所占的面积与所有行的面积的比值。涂抹特征、粘连特征与插入行特征类似，具体提取方法同现有技术，在此不再详述。

字体工整度特征反映单字书写是否规范，对于汉字：字体笔画是否横评竖直；对于其他语种文字，具体评价方法根据该文字的书写特点而定，例如，对于英文，判断单词下边界是否水平或与印刷体进行比较，判断工整度等。以汉字为例进行说明，提取所述字体工整度特征可以包括：对所述手写内容进行单字切分，对各单字进行笔画提取，根据各单字的笔画及预设的标准笔画提取字体工整度特征。具体的，首先通过手写体识别、对齐，进行单字切分；再使用预先设计好的笔画类型(如长横、长竖、短横、短竖、撇、捺、点等)对单字进行笔画提取，根据提取的笔画与标准笔画的倾斜角判断字体工整度，如提取出的长横，根据长横与水平方向的夹角的范围得到字体工整度，所述夹角的范围与字体工整度的隐射关系一般由系统预先设定，例如，夹角在正负20度之间，认为该长横书写工整；在正20度至正35度或负20度至负35度之间，认为书写较为工整，大于正35度或小于负35度，认为书写不工整。

作文长度特征从侧面反映作文内容的丰富度，提取所述作文长度特征包括：根据预设的作文长度阈值提取作文长度特征。考试或测试中作文的长度一般有一定的要求，比如高考作文通常要求篇幅不少于800字，因此作文的长度是评分中一个较为直观的特征。因考虑到作文长度一旦达到其篇幅要求，该特征的重要性就明显下降，因而需要对字数进行一个变换使得其符合实际长度特征作用范围，例如采用分段函数等来得到作文长度特征(将实际字数与分段函数相乘，将字数转换为作文长度特征)，当然也可以采用正余弦函数等，在此不做限定。优选地，采用Sigmoid函数对字数进行变换，当x>0的部分,使得x大于某一值的时候(对应作文字数大于预设字数阈值的时候)，S(x)差别很小。

步骤S03，基于所述文本的评分特征及预先构建的评分模型，得到文章的评分。

在本实施例中，将步骤S02中提取的各评分特征输入所述评分模型，即可得到文章的评分。需要说明的是，也可以单独训练卷面质量模型，将上述书写整洁度特征和字体工整度特征输入该卷面质量模型得到卷面质量得分，然后利用卷面质量得分调整文章的评分，上述各评分特征都可以按照此方法单独训练相应模型，然后再利用得到的得分调整文章的评分，在此不做限定。

本发明实施例提供的文章评分方法，将从待评分文章的文本中提取的评分特征，输入预先构建的评分模型，即可得到文章的评分。由于所述评分特征包括：词汇特征和/或文采特征，还包括以下任意一种或多种特征：立意特征、篇章结构特征词汇级语义特征，可以从整体和局部等多个维度考察待评分文章的质量，例如：篇章结构、主题、文采、词汇量等，能实现对文章的自动评分，且评价结果客观公正。

在另一个实施例中，本发明还对部分评分特征进行了细化，以更全面的对待评分文章进行评分，其中，所述词汇特征包括以下任意一种或多种特征：不重复词汇的数量特征、成语数量特征和高级词汇数量特征；所述文采特征包括以下任意一种或多种特征：修辞手法特征和表达特征；所述立意特征包括以下任意一种或多种特征：中心思想集中度特征和主题得分特征；所述篇章结构特征包括以下任意一种或多种特征：连贯性分布特征、词汇链特征、词向量特征和句子长度特征；所述修辞手法特征包括以下任意一种或多种特征：排比特征、引用特征、比喻特征和拟人特征。

在又一个实施例中，本发明还进一步限定了各评分特征的内容和/或提取方法，以便于计算机自动提取上述评分特征。具体地包括：

所述不重复词汇的数量特征为：待评分文章中包含的不重复词汇的数量；所述成语数量特征为：待评分文章中包含的成语数量；所述高级词汇数量特征为：待评分文章中包含的高级词汇数量，所述高级词汇包括以下任意一种或多种：文言词汇、生僻词语、专业术语等。具体可以通过预先设定的成语库、高级词汇库等进行匹配，再通过统计的方法得到词汇特征。

所述排比特征包括：使用排比的总数量、使用排比的句子长度、使用不同排比的数量；所述引用特征包括：引用的次数、引用的主题是否和文章主题匹配、引用的出处和引用的作者信息；所述比喻特征包括：使用比喻的总数量、使用比喻的句子长度、使用不同比喻的数量；所述拟人特征包括：使用拟人的总数量、使用拟人的句子长度、使用不同拟人的数量；提取所述表达特征可以包括：预先构建分类模型，将待评分文章中句子输入所述分类模型，得到表达优美度。

其中，引用特征通过引用识别获取，包括名人名言、古语诗词的引用，亦反映了文章的文采，也体现了学生的阅读范围。具体可以通过构建名人名言库、古诗文库进行引用识别，该库包括文章出处、作者、主题等信息。基于库中的信息，采用文本检索的方式识别文章中引用，并将文章中出现引用的次数、引用的主题是否和文章匹配、出处和作者信息等编码作为特征。

比喻、拟人等其他常见修辞手法的识别：基于机器学习进行修辞手法识别，提取文章的词向量特征、词性向量特征、实体类型特征，训练分类模型进行比喻、拟人等常见修辞手法的识别，具体可以采用支持向量机分类模型。所述词向量特征具体指句子的词向量。所述词性向量特征具体指句子中词语的词性，如名词、形容词、动词等。以下通过一个具体例子说明比喻、拟人的识别过程：如一个句子中只有名词、动词，则该句子的词性向量表示为约几十维的词性向量中，表示名词和动词的维为1，其余维为0。所述实体类型特征与词性向量特征类似，即将命名实体分成不同类型，如人名、动物名、地址名等，得到句子中实体类别向量。

所述中心思想集中度特征为：待评分文章属于各预设主题的概率的集中度。具体地，以考试作文为例进行说明，采用本次考试的大量数据训练LDA模型，得到本次考试全局的主题分布。在分析当前作文中心思想是否集中时，具体的，可以将当前作文向量化，输入已经训练好的LDA模型，得到该作文属于各主题的概率，如果在各主题上概率都比较平均，则主题不集中；反之，如果仅在小部分主题上概率比较高，则主题集中。可以采用信息熵的形式来反映：H＝-∑Pi log2(Pi)，其中，Pi为作文属于主题i的概率。

所述主题得分特征包括：待评分文章的主题分布与定标高分文章的主题分布的相似度。具体地，可以获取少量人工定标文章，将文章向量化输入到LDA模型，得到文章的主题分布情况，人工定标分数的高低可以反映主题得分的高低。在测试时，根据待考察文章的主题分布来计算主题得分特征，一般认为如果待评分文章的主题分布与定标高分文章相近，则主题得分较高。反之亦然，如果待评分文章的主题分布于定标低分文章相近，则主题得分较低。其中，人工定标文章指的是具有人工标注的文章得分信息的文章。

所述连贯性分布特征为：待评分文章中连接性词语的使用数量。所述连贯性分布特征指考察句子中是否存在连接性的词语，比如“首先”、“其次”等，一般预先设定哪些为连接性词，再通过统计的方法得到句子的连贯性分布特征。

所述词汇链特征为：待评分文章中是否存在全局链或局部链。当然，还可以包括链数量。所述词汇链特征，指使用该词的向量(word embedding)表示来计算词汇相似度，把文章中相似的词连成链，贯穿全文的链叫全局链，仅出现在局部的链叫局部链，句子中有无出现在两种词汇链中的词可以作为特征。

所述词向量特征为：待评分文章中所有词的词向量；所述句子长度特征为：待评分文章中所有句子的长度。

如图2所示，为本发明实施例提供的文章评分方法的另一种流程图，包括：

步骤S21，获取待评分文章的文本。

步骤S22，对所述待评分文章进行异常检测。

在本实施例中，所述随意涂抹检测主要指卷面涂抹严重、扫描不清晰等，其判断方法采用现有的图像处理技术，在此不再详细阐述。

所述抄袭检测，主要包括范文的抄袭、考生间作弊抄袭。具体地，可以通过收集大量范文，以及同批文章构成对比文库，根据相似度检索对比文库中是否存在与待评分文章相似度超过一定阈值的文章，例如60％，若有，则判定为抄袭。

步骤S23，如果存在异常，则进行标识或提示，所述异常包括以下任意一种或多种：抄袭、随意涂抹。

在本实施例中，可以展现包含异常的语句和/或文章；和/或如果所述待评分文章包含异常，则向用户展现和/或语音播报提示信息。具体地，以声音或色彩的形式展现包含异常的语句或待评分文章。当然，还可以进一步展现包含异常的语句和/或文章对应的候选纠正语句和/或候选字词，并标记所述异常。需要说明的是，当对异常进行标识或提示后，可以根据预先设定的指令或异常停止阈值等判断是否继续对存在异常的待评分文章进行评分，在此不做限定。

步骤S24，如果不存在异常，则提取所述文本的评分特征，所述评分特征包括：词汇特征、和/或文采特征，还包括以下任意一种或多种特征：立意特征、篇章结构特征、词汇级语义特征；基于所述文本的评分特征及预先构建的评分模型，得到文章的评分。

在本发明实施例中，还对所述待评分文章进行异常检测，当存在异常时，进行标识或提示；所述异常包括以下任意一种或多种：抄袭、随意涂抹。这样可以对文本化的待评分文章进行乱写、抄袭等异常文章的检测、拒评。当待评分文章包含异常时，给出提示，由人工决定后续如何处理，以避免自动评分时由于没考虑上述异常情况导致给出的结果不够客观公正的现象。

如图3所示，为本法实施例提供的构建评分模型的方法的一种流程图，包括：

步骤S31，选取训练数据。

在本实施例中，所述训练数据可以是考试作文、评论、稿件等，训练数据的体裁包括但不限于：记叙文、说明文、议论文、应用文、演讲稿。训练数据的语种应当和待评分文章的语种一致；优选地，形式也应当和待评分文章的一致，以便于后续提取出对应的评分特征，例如，当待评分文章包含手写内容时，优选包含手写内容的文章作为训练数据。

以考试作文作为训练数据为例进行说明，从本次考试或测试中，按照作文长度分布、非作文题得分分布、平时作文水平分布中的一种或多种，进行训练数据选取。

步骤S32，对所述训练数据进行评分标注。

可以通过人工对所述训练数据进行评分标注。需要说明的是，当训练数据已经具有评分标注信息时，可以省略该步骤。

步骤S33，提取所述训练数据的评分特征。

具体参考步骤S02，在此不再详述。

步骤S34，基于所述训练数据的评分特征及评分标注信息训练评分模型。

在本实施例中，所述评分模型可以为回归模型，优选采用支持向量回归模型，具体的模型构建方法可以包括：将提取的评分特征作为回归模型的输入，基于现有常见的回归模型训练方法进行训练，模型的输出为文章的分数，通过调整模型参数使得输出的分数趋近于人工标注的评分。优选地，采用支持向量回归方法。

在本发明实施例中，提供了构建所述评分模型的步骤，以便于高效的构建评分模型。

如图4所示，为本法实施例提供的文章评分系统的一种结构示意图。

文本获取模块401，用于获取待评分文章的文本；

特征提取模块402，用于提取所述文本的评分特征，所述评分特征包括：词汇特征和/或文采特征，还包括以下任意一种或多种特征：立意特征、篇章结构特征、词汇级语义特征；

文章评分模块403，用于基于所述文本的评分特征及预先构建的评分模型，得到文章的评分。

特别的，当所述待评分文章为考试作文时，所述评分特征还包括：作文长度特征；

当所述待评分文章包含手写内容时，所述评分特征还包括：书写整洁度特征和/或字体工整度特征。

进一步地，所述修辞手法特征还可以细分为更多特征，以更全面的考核待评分文章的修辞手法水平，具体可以包括以下任意一种或多种特征：排比特征、引用特征、比喻特征和拟人特征。

进一步地，所述排比特征包括：使用排比的总数量、使用排比的句子长度、使用不同排比的数量；

如图5所示，为本发明实施例提供的文章评分系统的另一种结构示意图，该系统具体可以包括：

异常检测模块504，用于在特征提取模块402提取所述文本的评分特征之前，对所述待评分文章进行异常检测；

标示模块505，用于如果存在异常，则进行标识或提示，所述异常包括以下任意一种或多种：抄袭、随意涂抹。

本系统对所述待评分文章进行异常检测，当存在异常时，进行标识或提示以提高最终的文章评分的客观公正度。

如图6所示，为本发明实施例提供的文章评分系统的又一种结构示意图，其中，所述系统还包括：

模型构建模块606，用于构建所述评分模型，如图7所示，为本发明实施例提供的模型构建模块606的一种结构示意图，包括：

选取单元6061，用于选取训练数据；

标注单元6062，用于对所述训练数据进行评分标注；

提取单元6063，用于提取所述训练数据的评分特征；

训练单元6064，用于基于所述训练数据的评分特征及评分标注信息训练评分模型。

此外，该系统还可以进一步包括存储模块(未图示)，用于保存模型参数、各评分特征的数据等相关信息。这样，以方便对待评分文章进行计算机自动处理。并最终存储待评分文章的得分。

本发明实施例提供的文章评分系统，通过文本获取模块401获取待评分文章的文本，然后由特征提取模块402提取所述文本的评分特征，由文章评分模块403基于所述文本的评分特征及预先构建的评分模型，得到文章的评分。由于所述评分特征包括：词汇特征和/或文采特征，还包括以下任意一种或多种特征：立意特征、篇章结构特征、词汇级语义特征，使得本发明可以从整体和局部等多个维度考察待评分文章的质量：篇章结构、主题、文采、词汇量等，能实现对文章的自动评分。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本发明实施例进行了详细介绍，本文中应用了具体实施方式对本发明进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及系统；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种文章评分方法，其特征在于，包括：

获取待评分文章的文本；

提取所述文本的评分特征，所述评分特征包括：词汇特征和/或文采特征，还包括以下任意一种或多种特征：立意特征、篇章结构特征、词汇级语义特征；当所述待评分文章包含手写内容时，所述评分特征还包括：书写整洁度特征和/或字体工整度特征，其中所述书写整洁度特征包括以下任意一种或多种：插入行特征、涂抹特征和粘连特征；

2.根据权利要求1所述的方法，其特征在于，

所述待评分文章为考试作文，所述评分特征还包括：作文长度特征。

3.根据权利要求1所述的方法，其特征在于，

所述词汇特征包括以下任意一种或多种特征：不重复词汇的数量特征、成语数量特征和高级词汇数量特征；

4.根据权利要求3所述的方法，其特征在于，所述修辞手法特征包括以下任意一种或多种特征：排比特征、引用特征、比喻特征和拟人特征。

5.根据权利要求2所述的方法，其特征在于，

6.根据权利要求3所述的方法，其特征在于，

所述不重复词汇的数量特征为：待评分文章中包含的不重复词汇的数量；

所述成语数量特征为：待评分文章中包含的成语数量；

所述词向量特征为：待评分文章中所有词的词向量；

所述句子长度特征为：待评分文章中所有句子的长度。

7.根据权利要求4所述的方法，其特征在于，

所述排比特征包括：使用排比的总数量、使用排比的句子长度、使用不同排比的数量；

8.根据权利要求1至7任一项所述的方法，其特征在于，所述方法还包括：

9.根据权利要求1至7任一项所述的方法，其特征在于，所述方法还包括：按以下方式构建所述评分模型：

选取训练数据；

对所述训练数据进行评分标注；

提取所述训练数据的评分特征；

10.一种文章评分系统，其特征在于，包括：

文本获取模块，用于获取待评分文章的文本；

特征提取模块，用于提取所述文本的评分特征，所述评分特征包括：词汇特征和/或文采特征，还包括以下任意一种或多种特征：立意特征、篇章结构特征、词汇级语义特征；当所述待评分文章包含手写内容时，所述评分特征还包括：书写整洁度特征和/或字体工整度特征，其中所述书写整洁度特征包括以下任意一种或多种：插入行特征、涂抹特征和粘连特征；

11.根据权利要求10所述的系统，其特征在于，

12.根据权利要求10所述的系统，其特征在于，

13.根据权利要求12所述的系统，其特征在于，所述修辞手法特征包括以下任意一种或多种特征：排比特征、引用特征、比喻特征和拟人特征。

14.根据权利要求13所述的系统，其特征在于，

15.根据权利要求10至14任一项所述的系统，其特征在于，所述系统还包括：

16.根据权利要求10至14任一项所述的系统，其特征在于，所述系统还包括：

模型构建模块，用于构建所述评分模型，包括：

选取单元，用于选取训练数据；

标注单元，用于对所述训练数据进行评分标注；

提取单元，用于提取所述训练数据的评分特征；