CN110427609B - 一种写人作文篇章结构合理性自动评测方法 - Google Patents
一种写人作文篇章结构合理性自动评测方法 Download PDFInfo
- Publication number
- CN110427609B CN110427609B CN201910552305.6A CN201910552305A CN110427609B CN 110427609 B CN110427609 B CN 110427609B CN 201910552305 A CN201910552305 A CN 201910552305A CN 110427609 B CN110427609 B CN 110427609B
- Authority
- CN
- China
- Prior art keywords
- text
- paragraph
- paragraphs
- discourse
- continuity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 68
- 239000000203 mixture Substances 0.000 title claims description 64
- 238000000034 method Methods 0.000 claims abstract description 29
- 238000012549 training Methods 0.000 claims description 44
- 238000012360 testing method Methods 0.000 claims description 42
- 238000010801 machine learning Methods 0.000 claims description 27
- 238000013210 evaluation model Methods 0.000 claims description 22
- 238000000605 extraction Methods 0.000 claims description 12
- 238000013136 deep learning model Methods 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 6
- 230000001427 coherent effect Effects 0.000 claims description 5
- 239000013598 vector Substances 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 4
- 102100031554 Double C2-like domain-containing protein alpha Human genes 0.000 claims description 2
- 101000866272 Homo sapiens Double C2-like domain-containing protein alpha Proteins 0.000 claims description 2
- 230000009977 dual effect Effects 0.000 abstract 1
- 238000011160 research Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 230000007704 transition Effects 0.000 description 4
- 230000010354 integration Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 230000000576 supplementary effect Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及写人作文篇章结构合理性评测方法及综合评测方法,能够从结构组合和段落连贯性双重角度科学、全面的评测篇章结构合理性,并使机器评测与传统文本等级实现良好衔接。
Description
技术领域
本发明涉及计算机技术领域,具体的,涉及一种篇章结构合理性自动评测方法。
背景技术
中文写人作文是记叙文的重要组成部分,但由于中小学生知识储备匮缺,在写作过程中常常会出现篇章结构不合理现象,因此,对篇章结构合理性评测及反馈显得尤为重要。目前,中小学作文的评价主要是人工批阅,这对于教师而言,要耗费大量的时间和精力,并且评价客观性较差,具有较大的差异性。
随着计算机硬件及软件技术的迅猛发展,计算机性能已取得了跨越式进步,计算机已应用到各行各业,并且也逐步进入作文测评领域,可以有效地减少教师工作量及增强评价的客观性。
例如,一方面,利用计算机将学生论文段落分为不同的语义块,对各个语义块进行分析,或对语义块描述的内容进行分类,可以作为辅助手段有效地协助教师快速查看、批阅作文结构及其内容。另一方面,利用计算机将作文段落进行分类描述,显示文章框架的篇章结构,也可以作为辅助手段协助学生在写作时把握文章的整体结构,为学生写作提供参考。
然而,虽然现有技术中已产生对作文段落进行语义分析及分类的相关研究,并产生了对作文整体进行评测打分的研究,但其基本上都是基于回归和分类的方法对作文进行整体评测,容易导致精确度不高的问题。而对于篇章语义评测的相关研究尚较少,对于篇章结构合理性自动评测的研究更是鲜有深入探讨。
发明内容
针对现有技术中存在的问题,本发明一方面,提供一种写人作文篇章结构合理性评测方法,其特征在于,包括篇章结构组成评测的步骤以基于该评测结果从结构组成角度评估篇章结构合理性;所述篇章结构组成评测包括待评测文本自动分类的步骤:
(a1)获取文本样本集,所述文本样本集中每一文本均包含若干段落,所述段落均具有事先确定的段落类别标签;
(a2)将所述文本样本集中的一部分文本作为训练集,另一部分作为测试集;
(a3)提取所述训练集中文本的文本特征,并与所述训练集中文本以及所述训练集中所述事先确定的段落类别标签一同输入机器学习模型中进行机器学习训练;
(a4)提取所述测试集中文本的文本特征,并与所述测试集中文本一同输入经所述训练后的机器学习模型,获得所述测试集中文本段落对应的段落类别标签;
(a5)若所述测试集中文本的所述获得的段落类别标签,相对于所述测试集中文本的所述事先确定的段落类别标签的准确率未达到第一预定准确率则返回步骤(a3)和(a4)迭代训练,直至达到所述第一预定准确率后进入步骤(a6);
(a6)将所述待评测文本集输入步骤(a5)中达到所述第一预定准确率后的机器学习模型,以获得所述待评测文本集中文本的各段落对应的段落类别标签;
其中,所述段落类别标签为:“文章开篇”、“人物描写”、“事件描写”、“总结结尾”和“其他”5类。
进一步的,在所述步骤(a3)和(a4)中,提取的文本特征均为:词性占比的特征提取、方差的特征提取和Doc2Vec的特征提取;
其中,所述词性占比的特征提取为提取文本中各段落中的名词、动词、形容词和副词占比;
所述方差的特征提取为:提取各特征词在不同类别的段落中的经归一化处理的平均偏方差V(t)归一,如下式所示:
式中,m的取值为1,2,3,4,5,分别代表所述“文章开篇”、“人物描写”、“事件描写”、“总结结尾”和“其他”5类段落类别标签,Dfi(t)表示特征词t在ci中出现的频度,ci为某种类别的段落,代表t在各类段落中的平均值;所述特征词为名词、动词、形容词和副词中之一;
所述Doc2Vec的特征提取为利用Doc2Vec算法对文本中各段落进行向量化运算并提取特征向量。
进一步的,所述机器学习模型为基于条件随机场CRF算法的模型。
进一步的,所述篇章结构组成评测还包括篇章结构组成评分的步骤:
(b1)判断所述5类段落类别标签中的每一类在所述步骤(a6)分类后的待评测文本集中的存在情况,如下式所示:
n的取值为1,2,3,4,5,分别代表所述“文章开篇”、“人物描写”、“事件描写”、“总结结尾”和“其他”5类段落类别标签,comvaln代表类别n的赋值;
(b2)将“文章开篇”、“人物描写”、“事件描写”、“总结结尾”和“其他”5类段落类别标签分别赋予权重comweightn,如下式所示:
(b3)综合步骤(b1)中存在情况的表达式和步骤(b2)中赋予权重的表达式,得到篇章结构组成评测模型comscore,如下式所示,以对篇章结构组成进行评分:
进一步的,所述篇章结构合理性评测方法还进一步包括:篇章结构段落连贯性评测的步骤,以基于该评测结果从段落连贯性角度补充评估篇章结构合理性;所述篇章结构段落连贯性评测包括待评测文本连贯性判断的步骤:
(c1)获取文本样本集,其中每一文本均包含若干段落;
(c2)每一文本中从第一个段落起,以相邻的两个段落作为一个输入单元,将每一文本均划分为若干输入单元;
(c3)对每一输入单元进行词类预处理;
(c4)将相邻两段落前后连贯的输入单元作为正输入单元,将相邻两段落前后不连贯的输入单元作为负输入单元;并将一部分正输入单元和负输入单元作为训练集,另一部分正输入单元和负输入单元作为测试集;
(c5)将作为训练集的正负输入单元放入RNN深度学习模型中训练;
(c6)将作为测试集的输入单元放入所述训练后的RNN深度学习模型,获得输入单元为正或负的测试结果;
(c7)将测试结果与实际结果比较,如果准确率未达到第二预定准确率则返回步骤(c5)和(c6)迭代训练,直至达到所述第二预定准确率后进入步骤(c8);
(c8)将所述待评测文本集首先经步骤(c2)和(c3)的处理,然后输入步骤(c7)中达到所述第二预定准确率后的RNN深度学习模型,以获得所述待评测文本集中文本的相邻段落是否连贯的结果。
进一步的,所述词类预处理为:分词、词性标注和去停用词。
进一步的,所述篇章结构段落连贯性评测还包括篇章结构段落连贯性评分的步骤:
(d1)判断待评测文本集中文本的段落连贯性情况,如下式所示:
p的取值为1,2,…,q-1,分别代表由文本中q个段落划分成的包含相邻两段落的q-1个输入单元,cohvalp代表输入单元p是否连贯的赋值;
(d2)将q-1个输入单元分别赋予相同的权重cohweightp,如下式所示:
(d3)综合步骤(d1)中连贯性情况的表达式和步骤(d2)中赋予权重的表达式,得到篇章结构段落连贯性评测模型cohscore,如下式所示,以对篇章结构段落连贯性进行评分:
本发明另一方面,提供一种写人作文篇章结构合理性综合评测方法,其特征在于,所述综合评价方法包括如上所述的篇章结构组成评测的步骤和如上所述的篇章结构段落连贯性评测的步骤;
在所述篇章结构组成评测和篇章结构段落连贯性评测的步骤之后,得出篇章结构合理性综合测评模型scoretext,如下式所示,以对篇章结构合理性进行综合评分:
scoretext=comscore*weightcom+cohscore*weightcoh
其中,weightcom和weightcoh分别为篇章结构组成和篇章结构段落连贯性的权重。
进一步的,weightcom为0.6,且weightcoh为0.4。
进一步的,当scoretext取值为[0.84,1]时,对应文本的篇章结构合理性等级为“优”;取值为[0.65,0.84),对应等级为“良”;取值为[0.46,0.65)时,对应等级为“中”;取值为[0,0.46)时,对应等级为“差”。
本发明至少具有以下有益效果:
本发明的通过分类的方法研究篇章结构组成合理性评测,实现了对篇章结构的合理性评测;本发明进一步通过深度学习的方法研究段落间衔接合理性评测,从而对篇章结构的合理性评测起到了良好的补充效果,提高了评测的全面性和科学性;本发明更进一步将篇章结构组成评测与段落间衔接合理性评测相融合为篇章结构合理性评测模型,并科学合理分配两者权重以对待测文本的篇章结构合理性进行综合评分,从而得到相应篇章结构合理性等级标签,使机器评测与传统文本等级实现良好衔接。
附图说明
图1为本发明篇章结构组成评测部分、篇章结构段落连贯性评测部分以及综合两者评测部分的过程示意图;
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明通过分别构建篇章结构组成评测模型与篇章结构段落连贯性评测模型,进而形成篇章结构合理性评测模型。所述篇章结构组成评测模型与篇章结构段落连贯性评测模型分别基于篇章结构组成的评测和篇章结构段落连贯性的评测而建立。
第一方面,本发明篇章结构组成的评测主要是基于:通常一篇结构完整的写人作文应当由“文章开篇”,“人物描写”,“事件描写”,“总结结尾”以及“其他”五个部分组成。首先,整合传统段落类别标签形成本发明的段落类别标签;然后,基于“词性占比+方差+doc2vec”的特征提取训练和测试机器学习模型;最后,根据5类段落在文本中存在情况,评测待测文本篇章结构组成的合理性。
第二方面,本发明篇章结构段落连贯性的评测主要是基于:首先,提取输入单元(即文本中相邻的两段落);然后,对提取的输入单元样本进行词类预处理(如分词、词性标注、去停用词);接着,通过训练与测试获得训练好的RNN模型;最后,对待测文本篇章结构段落连贯性进行评测。
第三方面,本发明篇章结构合理性综合评测主要是基于:篇章结构组成与段落连贯性在文本篇章结构中所占得权重是不同的,将篇章结构组成、段落连贯性赋予不同的权重,实现篇章结构合理性综合评测模型,并通过该模型对待测文本的篇章结构合理性进行综合评分,基于统计结果将之与篇章结果合理性等级对应起来,合理评定出待测文本的等级。
因而如上所述,本发明的篇章结构合理性自动评测方法可以单独实施篇章结构组成评测或者篇章结构段落连贯性评测以实现对某一侧重方面的篇章结构合理性评测,以解决其相应的技术效果并解决其技术问题。两者相融合进行评测时,可视为一种补充方案,具有更为科学和全面评测的效果。更为优选的,本发明可综合篇章结构组成评测和篇章结构段落连贯性评测以实现篇章结构合理性的综合评测。
其中,篇章结构组成评测、篇章结构段落连贯性评测和篇章结构合理性综合评测的步骤详细分析如下:
(一)篇章结构组成的评测
1.段落类别标签的设置
写人作文的各个段落通常对应相应的段落类别(如某段落是进行人物描写的,则其类别为人物描写),在对段落进行分类时,通常令某一段落类别对应一段落类别标签以便于计算机辨识和机器处理。
写人作文一般包括:文章开篇、人物描写、时间描写和总结结尾四个部分,此外还可以具有其他部分(如过渡、承上启下)以作为第五部分,然而其他部分并不是必须的。传统的段落类别标签设置是烦冗而复杂的(如下表1所示),例如“设置悬念,开门见山,总领全文,文章开篇,概括介绍,背景介绍,对话开篇,故事开篇,俗语开篇,歌词开篇,诗歌开篇,题记开篇”等类别标签均可以表达“文章开篇”的含义。再如,对于并非必要的“其他部分”却采用了“过渡,转折,承上启下,铺垫,顺承,因果,启下,过渡段,解说,递进,并列,假设”等诸多段落类别标签。这对计算机快速实施段落分类是不利的,对构建更为简便及较少资源占用的分类模型以及提高分类准确度也是不利的。
因此,本发明经过段落标签整合,将传统的段落类别标签整合为5类,分别是:文章开篇,人物描写,事件描写,总结结尾和其他(因“过渡、转折、承上启下”等段落比较少,对文章主题所起作用较小,所以统称为其他)。这样使文本的段落标签更加集中,每一类别对应的段落数量大幅度增加,提高了分类模型的准确度。
此外,本发明还具有段落类别标签存储单元,用于存储上述5类段落类别标签,并可供计算机其他单元调用。
表1 段落类别标签整合结果
2.段落类别的自动分类
本发明段落类别自动分类的步骤主要包括:
首先,获取文本样本集(或称作文样本集,该样本集是记叙文样本集),其中样本集中每一文本均包含若干段落;
其次,构建训练集和测试集;其方法可以为:将所述获取的文本样本集作为训练集,另外获取一定数量文本作为测试集。或者,将所述获取的文本样本集中的一部分文本(如2/3)作为训练集,另一部分(如1/3)作为测试集。
其中,训练集和测试集中各文本的各段落均具有事先确定的分类(即事先已分配相应的段落类别标签,下文称之为:真实的段落类别标签)和篇章结构合理性等级标签(其定义可参见下文第(三)部分“篇章结构合理性的综合评测”相关内容,下文称为:真实的篇章结构合理性等级标签)。
然后,利用所述训练集对机器学习模型进行训练;包括:针对每一类别的各段落进行词性占比、方差和doc2vec的计算,将该计算结果作为特征提取输入到机器学习模型中进行机器学习。
所述机器学习模型优选选自:SVM(支持向量机)、Naive Bayes(朴素贝叶斯)或者CRF(条件随机场)。其中经验证,CRF在本发明段落自动分类中,相对于另外两者具有更高的分类准确性,因此本发明的机器学习模型更优选为CRF。
接着,利用训练好的机器学习模型对测试集进行段落类别的自动分类;其包括:利用训练好的机器学习模型计算测试集中各文本各段落的词性占比、方差和doc2vec,并由机器学习模型根据计算结果确定各段落的类别(即分配相应的段落类别标签,下文称为:测试的段落类别标签)。
进一步,将测试集中各文本各段落的“测试的段落类别标签”与“真实的段落类别标签”进行比较和统计,从而评估段落类别自动分类的准确率。
最后,当准确率达到预期阈值后(通过迭代训练),将待评测文本集输入训练好的机器学习模型中进行段落类别的自动分类。
需要说明的是,本发明亦可提取文本的其他特征输入机器学习模型中进行训练和测试,或者,可以单独或两两组合的选择“词性占比”、“方差”和“doc2vec”作为文本的提取特征输入机器学习模型,或者,将“词性占比”、“方差”和“doc2vec”中的一者或两者与文本的其他特征相组合输入机器学习模型进行训练和测试。经实验研究,本发明最为优选采用“词性占比+方差+doc2vec”作为文本的提取特征输入机器学习模型中进行训练和测试,以获得更高的分类准确率。
下面详述该文本特征提取过程:
(1)词性占比的特征提取
首先,使用分词系统对每一段落进行词性标注并去除停用词,在上述处理后分别计算出各个词性占相应段落中所有词性的比例(简称词性占比)。
结果统计发现,以“事件描写”为主的文本,动词、副词的占比较高;以“人物描写”为主的,名词、形容词占比较高;又因人物类中文作文中,以“事件描写、人物描写”标签段落为主。因此本发明在写人作文中,优选仅对名词、动词、形容词和副词等4类特征词进行词性占比计算和特征提取。
(2)方差的特征提取
计算各类特征词在不同类别的段落中的平均偏方差(或者称为:“特征词类间平均偏方差”)。
其计算表达式为:
其中,m为段落类别数(对本发明而言m优选为5,即文章开篇,人物描写,事件描写,总结结尾和其他)。Dfi(t)表示特征词t(如名词)在ci中出现的频度,ci为某种类别的段落(如c1为文章开篇类别的段落,c2为人物描写类别的段落……),代表t在各类段落中的平均值。特征词t在每个类别中的平均偏方差V(t),反映了t在类别间的离散趋势,V(t)越大,该特征词在类别间分布越集中;反之,则分布越均衡。如果该特征均匀地分布在各个类别间,则V(t)为0,对分类毫无意义。同时,为了降低个别高频词对低频词的抑制作用,需要对V(t)进行归一化,如下式所示:
在对训练集运行时,由于训练集中文本已具有事先确定的段落类别标签,因而m的取值根据段落类别标签对应的情况即可。
在对测试集和待评测文本,由于其自身并不具有事先确定的段落类别标签,因而需要对m=1、2、3、4、5每一情况均计算V(t)归一,根据其结果可与各个类别训练出来的对应结果相比较从而判断该段落属于哪一类别。
特征词t在ci内分布概率θi定义为:
其中Df(t,ci)同样为特征词t在类别ci中的频率,|ci|为类别ci的段落总数。θi越大,表明t在类别ci内大多数样本中均匀出现,即t对类别ci具有较高的代表性。
该方法一方面利用特征词类间平均偏方差选取集中在某个类别中分布的特征,另一方面利用特征词t在类别ci内的分布概率,保留与分类总体性能相关的高频特征而滤除掉对分类毫无意义的类内分布稀有词。基于方差的特征选择算法所构造的特征评估函数为:
T(t)=V(t)归一×θ' (4)
(3)Doc2Vec的特征提取
Doc2Vec是在word2vec基础上增加一个段落向量,对段落文本进行语义空间映射,将段落向量化。本发明将Doc2Vec也作为特征提取技术,将每篇文本的段落压缩成预定维度的特征向量。
在一具体实施例中,本发明获取中小学各年级人物类中文作文4545篇作为文本样本集,该样本集中各文本的各段落均具有事先确定的分类(真实的段落类别标签):文章开篇4212个、人物描写5142个、事件描写5364个,总结结尾4031个、其他1573个。以“词性占比+方差+doc2vec”特征选取方法进行特征选取,1/3作为测试集,另外的2/3为训练集进行训练。训练和测试所采用的机器学习模型为:CRF(条件随机场)。
其中,在词性占比的特征提取过程中,使用NLPIR汉语分词系统进行词性标注。在方差的特征提取过程中,计算出段落中特征词在各个段落类别中的分布,将方差结果从大到小进行排序,取前5000个词作为使用的段落类别特征词。在Doc2Vec的特征提取过程中,通过全部文本4545篇的训练,将每篇文档的段落文本压缩成400维的特征向量。
该具体实施例的自动分类结果如下表2所示:
表2 段落标签的自动分类结果(基于CRF)
3.篇章结构组成的评分
在上述待评测文本集输入训练好的机器学习模型中进行段落类别的自动分类的基础上,进一步对篇章结构组成进行评分。其主要包括:
(1)判断每个类别段落存在的情况
以本发明优选的“文章开篇、人物描写、事件描写、总结结尾、其他”5个类别为例,判断一个文本中“文章开篇、人物描写、事件描写、总结结尾、其他”5个段落类别标签存在情况,若存在的则将该类别标记为1;反之,则标记为0。如下式所示:
n的取值为1,2,3,4,5,分别代表上述五5个类别,即“文章开篇”,“人物描写”,“事件描写”,“总结结尾”以及“其他”,comvaln代表类别n的赋值。
(2)按类别赋权重及评分计算
“文章开篇”,“人物描写”,“事件描写”,“总结结尾”以及“其他”5个类别在人物类中文作文中重要性不同,一般,“人物描写、事件描写”在作文中所占篇幅及比重较大,“文章开篇、总结结尾”则在作文中所占篇幅及比重相对较小,“其他”所占篇幅及比重最小。作为优选方式,本发明结合5个类别在语料中的统计结果,分别为每个类别赋予一定的权重,如表3所示:
表3 5个类别在写人作文中权重
即,赋予每个类别的权重为:
基于上述过程对篇章结构组成进行评分,篇章结构组成评测模型为:
即篇章结构组成的评分为每个类别的赋值与该类别权重乘积之和。
(二)篇章结构段落连贯性的评测
篇章的段落结构不仅要完整,而且段落之间也需要连贯,连贯的语言可以使文章读起来如行云流水,给人一气呵成之感。段落与段落之间有着千丝万缕的联系,一篇好的篇章段落间必定是紧凑的、连贯的,因此需要对篇章结段落之间的连贯性进行评测。
1.段落连贯性的判断
其主要包括:
首先,获取文本样本集(或称作文样本集,该样本集是写人作文样本集),其中样本集中每一文本均包含若干段落;将所述获取的文本样本集中的一部分文本(如4/5)作为训练集,另一部分(如1/5)作为测试集。
其次,对训练集和测试集中每一文本,提取相邻两个段落作为一个输入单元;
例如,一个中文写人作文文本有q个段落,则共形成q-1个输入单元。如有5个段落,则形成{{1,2},{2,3},{3,4},{4,5}}共4个输入单元。
然后,事先对训练集和测试集中每一输入单元进行词类预处理(分词、词性标注、去停用词),并将每一输入单元标记为正输入单元或负输入单元(下文称:真实的正负输入单元标记)。
其中,正输入单元为相邻两个段落前后连贯的情况(如文章开篇类别的段落应当在事件描写类别的段落之前,再如总结结尾类别的段落应当在事件描写类别的段落之后),负输入单元为相邻两个段落前后不连贯的情况。如下表4所示:
表4 正、负输入单元示例
接着,从处理和标记后的训练集中,将大致1:1比例的正负输入单元放入RNN中进行深度学习模型迭代训练和参数调整;
进一步,利用训练好的RNN模型对测试集中的每一输入单元进行正负输入单元判断并标记(下文称:测试的正负输入单元标记);将测试集中各输入单元的“测试的正负输入单元标记”与“真实的正负输入单元标记”进行比较和统计,从而评估段落连贯性判断的准确率。
最后,当准确率达到预期阈值后(通过迭代训练,如80%),将待评测文本集(已具有段落分类标签,参见下文第2节“篇章结构段落连贯性的评分”)经上述输入单元划分和词类预处理后,输入训练好的RNN模型中进行段落连贯性的判断。
2.篇章结构段落连贯性的评分
将待评测文本集在上述段落连贯性判断的基础上,进一步对篇章结构段落连贯性进行评分,其主要包括:
(1)判断相邻两段落连贯性是否合理
首先,将待评测文本集先经段落分类预处理,即对待评测文本集中各文本的各段落分配段落类别标签(如上述5种类别中的一个),该类别标签可以是事先分配的也可以是采用上文第(一)部分“篇章结构组成的评测”中第2节“段落类别的自动分类”中的方式进行段落分类处理。
然后,采用上文第1节“段落连贯性的判断”中的方式,判断每相邻两段间连贯性。若相邻两段落间连贯,则将该部分标记为1;反之,若相邻两段落间不连贯,则标记为0。如下式所示:
p的取值为1,2,...,q-1,分别代表由q个段落组成的中文写人作文抽取相邻两段落得到的q-1个输入单元,cohvalp代表输入单元p连贯性是否合理的赋值。
(2)赋权重及评分计算
一篇待测中文写人作文篇章结构段落连贯性评测,对q-1个输入单元的相邻段落间连贯性进行整合。本发明赋予每个输入单元相同的权重,即:
通过以上过程对待评测的写人作文全文篇章结构连贯性进行评分,篇章结构段落连贯性评测模型为:
即篇章结构段落连贯性的评分为每个输入单元的赋值与该输入单元权重的乘积之和。
(三)篇章结构合理性的综合评测
综合上述篇章结构组成的评测和篇章结构段落连贯性的评测方法,可进行篇章结构合理性的综合评测:
因为一篇写人作文首先“文章开篇、人物描写、事件描写、总结结尾、其他”5个组成部分齐全,结构才完整,是文章结构合理性最基本的要求,在结构完整的基础上,才能评测段落间的连贯性,所以篇章结构组成与段落间连贯性在一篇中文作文篇章结构中所占得权重是不同,为了尽量合理给出待测作文等级或分数,本发明将篇章结构组成、段落间连贯性权重设为0.6(weightcom)和0.4(weightcoh),则篇章结构合理性综合测评模型即为:
scoretext=comscore*weightcom+cohscore*weightcoh (11)
在一具体实施方式中,本发明将上述4545篇文本样本集中的每一文本,利用式(11)所示的篇章结构合理性综合测评模型计算出分值,根据分值所在区间对其标记相应的篇章结构合理性等级标签,所述篇章结构合理性等级标签包括“优,良,中,差”4个等级,得到等级与分值范围对应关系如下表5所示。
表5 每个等级对应评分
这里,等级与分值范围对应关系的得出,可以是:基于事先已具有篇章结构合理性等级标签的文本样本集,对其中每一文本利用所述篇章结构合理性综合测评模型计算出分值,然后统计得出每个等级对应的分值范围。
在该具体实施方式中,选取的4545篇语料事先已具有“优、良、中、差”的篇章结构合理性等级标签;然后,从每个等级筛选出250篇,共1000篇作为研究对象;接着,对每篇文本分别按照综合评测模型进行实验研究;最后,将实验等级结果与真实的篇章结构合理性等级标签进行比较和统计,得出各等级的综合测评准确率,如下表6所示:
表6 综合评测模型及等级准确率
由表6所示,篇章结构合理性综合评测模型准确率达75.50%;“优、良、中、差”各个等级的准确率分别为70.20%、74.8%、78.40%、71.6%。因而,本发明可对作文篇章结构合理性的教师评测起到智能辅助作用。
此外,虽然已经显示并描述了本发明总体构思的若干实施例和优选实施方式,但是本领域的技术人员应该理解,在不脱离本发明总体构思的原理和精神的情况下,可以对这些实施例进行改变,本发明的总体构思由权利要求及其等同物限定。
Claims (8)
1.一种写人作文篇章结构合理性评测方法,其特征在于,包括篇章结构组成评测的步骤以基于该篇章结构组成评测的结果从结构组成角度评估篇章结构合理性;所述篇章结构组成评测包括待评测文本自动分类的步骤:
(a1)获取文本样本集,所述文本样本集中每一文本均包含若干段落,所述段落均具有事先确定的段落类别标签;
(a2)将所述文本样本集中的一部分文本作为训练集,另一部分作为测试集;
(a3)提取所述训练集中文本的文本特征,并与所述训练集中文本以及所述训练集中所述事先确定的段落类别标签一同输入机器学习模型中进行机器学习训练;
(a4)提取所述测试集中文本的文本特征,并与所述测试集中文本一同输入经所述机器学习训练的机器学习模型,获得所述测试集中文本段落对应的段落类别标签;
(a5)若所述测试集中文本的获得的测试集中文本段落对应的段落类别标签,相对于所述测试集中文本的所述事先确定的段落类别标签的准确率未达到第一预定准确率则返回步骤(a3)和(a4)迭代训练,直至达到所述第一预定准确率后进入步骤(a6);
(a6)将待评测文本集输入步骤(a5)中达到所述第一预定准确率后的机器学习模型,以获得所述待评测文本集中文本的各段落对应的段落类别标签;
其中,所述段落类别标签为:“文章开篇”、“人物描写”、“事件描写”、“总结结尾”和“其他”5类;
其中,在所述步骤(a3)和(a4)中,提取的文本特征均为:词性占比的特征提取、方差的特征提取和Doc2Vec的特征提取;
其中,所述词性占比的特征提取为提取文本中各段落中的名词、动词、形容词和副词占比;
所述方差的特征提取为:提取各特征词在不同类别的段落中的经归一化处理的平均偏方差V(t)归一,如下式所示:
式中,m的取值为1,2,3,4,5,分别代表所述“文章开篇”、“人物描写”、“事件描写”、“总结结尾”和“其他”5类段落类别标签,Dfi(t)表示特征词t在ci中出现的频度,ci为某种类别的段落,代表t在各类段落中的平均值;所述特征词为名词、动词、形容词和副词中之一;
所述Doc2Vec的特征提取为利用Doc2Vec算法对文本中各段落进行向量化运算并提取特征向量;
并且,所述机器学习模型为基于条件随机场CRF算法的模型。
2.根据权利要求1所述的写人作文篇章结构合理性评测方法,其特征在于:所述篇章结构组成评测还包括篇章结构组成评分的步骤:
(b1)判断所述5类段落类别标签中的每一类在所述步骤(a6)分类后的待评测文本集中的存在情况,如下式所示:
n的取值为1,2,3,4,5,分别代表所述“文章开篇”、“人物描写”、“事件描写”、“总结结尾”和“其他”5类段落类别标签,comvaln代表类别n的赋值;
(b2)将“文章开篇”、“人物描写”、“事件描写”、“总结结尾”和“其他”5类段落类别标签分别赋予权重comweightn,如下式所示:
(b3)综合步骤(b1)中存在情况的表达式和步骤(b2)中赋予权重的表达式,得到篇章结构组成评测模型comscore,如下式所示,以对篇章结构组成进行评分:
3.根据权利要求2所述的写人作文篇章结构合理性评测方法,其特征在于,所述篇章结构合理性评测方法还进一步包括:篇章结构段落连贯性评测的步骤,以基于该篇章结构段落连贯性评测的结果从段落连贯性角度补充评估篇章结构合理性;所述篇章结构段落连贯性评测包括待评测文本连贯性判断的步骤:
(c1)获取文本样本集,其中每一文本均包含若干段落;
(c2)每一文本中从第一个段落起,以相邻的两个段落作为一个输入单元,将每一文本均划分为若干输入单元;
(c3)对每一输入单元进行词类预处理;
(c4)将相邻两段落前后连贯的输入单元作为正输入单元,将相邻两段落前后不连贯的输入单元作为负输入单元;并将一部分正输入单元和负输入单元作为训练集,另一部分正输入单元和负输入单元作为测试集;
(c5)将作为训练集的正负输入单元放入RNN深度学习模型中训练;
(c6)将作为测试集的输入单元放入经所述步骤(c5)中训练的RNN深度学习模型,获得输入单元为正或负的测试结果;
(c7)将测试结果与实际结果比较,如果准确率未达到第二预定准确率则返回步骤(c5)和(c6)迭代训练,直至达到所述第二预定准确率后进入步骤(c8);
(c8)将所述待评测文本集首先经步骤(c2)和(c3)的处理,然后输入步骤(c7)中达到所述第二预定准确率后的RNN深度学习模型,以获得所述待评测文本集中文本的相邻段落是否连贯的结果。
4.根据权利要求3所述写人作文篇章结构合理性评测方法,其特征在于,所述词类预处理为:分词、词性标注和去停用词。
6.一种写人作文篇章结构合理性综合评测方法,其特征在于,所述综合评测方法包括如权利要求2所述的篇章结构组成评测的步骤和如权利要求5所述的篇章结构段落连贯性评测的步骤;
在所述篇章结构组成评测和篇章结构段落连贯性评测的步骤之后,得出篇章结构合理性综合测评模型scoretext,如下式所示,以对篇章结构合理性进行综合评分:
scoretext=comscore*weightcom+cohscore*weightcoh
其中,weightcom和weightcoh分别为篇章结构组成和篇章结构段落连贯性的权重。
7.根据权利要求6所述的写人作文篇章结构合理性综合评测方法,其特征在于,weightcom为0.6,且weightcoh为0.4。
8.根据权利要求6或7所述的写人作文篇章结构合理性综合评测方法,其特征在于,当scoretext取值为[0.84,1]时,对应文本的篇章结构合理性等级为“优”;取值为[0.65,0.84),对应等级为“良”;取值为[0.46,0.65)时,对应等级为“中”;取值为[0,0.46)时,对应等级为“差”。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910552305.6A CN110427609B (zh) | 2019-06-25 | 2019-06-25 | 一种写人作文篇章结构合理性自动评测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910552305.6A CN110427609B (zh) | 2019-06-25 | 2019-06-25 | 一种写人作文篇章结构合理性自动评测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110427609A CN110427609A (zh) | 2019-11-08 |
CN110427609B true CN110427609B (zh) | 2020-08-18 |
Family
ID=68409517
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910552305.6A Active CN110427609B (zh) | 2019-06-25 | 2019-06-25 | 一种写人作文篇章结构合理性自动评测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110427609B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111259663B (zh) * | 2020-01-14 | 2023-05-26 | 北京百度网讯科技有限公司 | 信息处理方法和装置 |
CN111581379B (zh) * | 2020-04-28 | 2022-03-25 | 电子科技大学 | 一种基于作文扣题度的自动作文评分计算方法 |
CN112784878B (zh) * | 2020-12-31 | 2024-10-15 | 北京华图宏阳网络科技有限公司 | 一种中文议论文智能批改方法及系统 |
CN113239190B (zh) * | 2021-04-27 | 2024-02-20 | 天九共享网络科技集团有限公司 | 文档分类方法、装置、存储介质及电子设备 |
CN113392218A (zh) * | 2021-07-12 | 2021-09-14 | 北京百度网讯科技有限公司 | 文本质量评估模型的训练方法和确定文本质量的方法 |
CN113743050B (zh) * | 2021-09-07 | 2023-11-24 | 平安科技(深圳)有限公司 | 文章布局评估方法、装置、电子设备、存储介质 |
CN113836306B (zh) * | 2021-09-30 | 2023-05-16 | 北方工业大学 | 基于篇章成分识别的作文自动测评方法、设备和存储介质 |
CN114387602B (zh) * | 2022-03-24 | 2022-07-08 | 北京智源人工智能研究院 | 医疗ocr数据优化模型训练方法、优化方法及设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107220293A (zh) * | 2017-04-26 | 2017-09-29 | 天津大学 | 基于情绪的文本分类方法 |
CN109062958A (zh) * | 2018-06-26 | 2018-12-21 | 华中师范大学 | 一种基于TextRank和卷积神经网络的小学作文自动分类方法 |
-
2019
- 2019-06-25 CN CN201910552305.6A patent/CN110427609B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107220293A (zh) * | 2017-04-26 | 2017-09-29 | 天津大学 | 基于情绪的文本分类方法 |
CN109062958A (zh) * | 2018-06-26 | 2018-12-21 | 华中师范大学 | 一种基于TextRank和卷积神经网络的小学作文自动分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110427609A (zh) | 2019-11-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110427609B (zh) | 一种写人作文篇章结构合理性自动评测方法 | |
CN111767741B (zh) | 一种基于深度学习和tfidf算法的文本情感分析方法 | |
CN111914532B (zh) | 一种中文作文评分方法 | |
US9959776B1 (en) | System and method for automated scoring of texual responses to picture-based items | |
US8147250B2 (en) | Cooccurrence and constructions | |
CN103207913B (zh) | 商品细粒度语义关系的获取方法和系统 | |
CN110727796B (zh) | 面向分级读物的多尺度难度向量分类方法 | |
CN110472203B (zh) | 一种文章的查重检测方法、装置、设备及存储介质 | |
CN106484675A (zh) | 融合分布式语义和句义特征的人物关系抽取方法 | |
Chang et al. | Research on detection methods based on Doc2vec abnormal comments | |
CN108763214B (zh) | 一种针对商品评论的情感词典自动构建方法 | |
WO2020253583A1 (zh) | 一种作文离题检测方法 | |
KR20080021017A (ko) | 텍스트 기반의 문서 비교 | |
Hughes et al. | The relevant population in forensic voice comparison: Effects of varying delimitations of social class and age | |
CN103020167B (zh) | 一种计算机中文文本分类方法 | |
CN107818173B (zh) | 一种基于向量空间模型的中文虚假评论过滤方法 | |
KR102484007B1 (ko) | 국어 텍스트 자동 분석을 통한 독해지수 측정 방법 및 시스템 | |
CN110399483A (zh) | 一种主题分类方法、装置、电子设备及可读存储介质 | |
CN111832281A (zh) | 作文评分方法、装置、计算机设备及计算机可读存储介质 | |
Wadud et al. | Text coherence analysis based on misspelling oblivious word embeddings and deep neural network | |
CN110674296A (zh) | 一种基于关键词的资讯摘要提取方法及系统 | |
Ströbel et al. | Text Genre Classification Based on Linguistic Complexity Contours Using A Recurrent Neural Network. | |
CN112184021A (zh) | 一种基于相似支持集的答案质量评估方法 | |
CN113934814B (zh) | 古诗文主观题自动评分方法 | |
Sinha et al. | NLP-based automatic answer evaluation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20220209 Address after: 100144 Beijing City, Shijingshan District Jin Yuan Zhuang Road No. 5 Patentee after: NORTH CHINA University OF TECHNOLOGY Address before: 100048 No. 105 West Third Ring Road North, Beijing, Haidian District Patentee before: Capital Normal University |