CN113569560A

CN113569560A - 一种汉语二语作文自动评分方法

Info

Publication number: CN113569560A
Application number: CN202110896135.0A
Authority: CN
Inventors: 胡韧奋; 王予沛; 彭一平; 宾帅
Original assignee: Beijing Normal University
Current assignee: Beijing Normal University
Priority date: 2021-08-05
Filing date: 2021-08-05
Publication date: 2021-10-29

Abstract

本发明提出一种汉语二语作文自动评分方法,包括抽取作文的语言特征、多粒度文本表示特征和切题特征；将所述语言特征输入评分模型，获得分数，其中，语言特征包括语言复杂度特征、语言偏误特征。本发明针对汉语二语评分设计了较为全面的、多维度的作文评分显式特征集，并通过有序逻辑回归分析获得评价模型，该评价模型的评分与人类评分员评分有较好的一致性和相关性，可以科学、高效地衡量汉语二语作文的质量和水平。

Description

一种汉语二语作文自动评分方法

技术领域

本发明涉及人工智能技术领域，更具体地，涉及一种汉语二语作文自动评分方法。

背景技术

随着中国经济快速发展和国际地位的日益提高，世界范围内学习汉语的人数不断增加，汉语二语教学受到了越来越多的关注。在二语教学中，写作是一个核心模块，因为作文可以综合反映写作者词汇、句法、行文组织等多个方面的语言知识水平及运用能力。随着自然语言处理技术及相关语言资源的发展，写作能力测试及评估逐步向信息化、智能化发展。

美国教育考试服务中心(ETS)自1999年以来便开始使用作文自动评分系统，并陆续于2003年和2006年发布了更新版本，之后也一直在优化相应系统，该系统已被广泛应用于GMAT、托福等考试中作文的备考和批改。该系统包含两个功能，一个是评分引擎，主要实现自动对学生作文进行评分；另一个是反馈模块，对作文的词汇、语法错误进行评估并提供反馈，并且支持识别文章的语篇结构和不良的文体特征等。系统从训练数据中抽取了50多个特征，使用逐步线性回归来选择对作文分数预测有显著贡献的特征。对于每个作文题目，训练得到一个回归方程。将相应主题下新作文的对应特征值带入方程便可得到该作文分数的预测值，将其四舍五入得到一个整数分数。

中国科学院自动化所于2011年开发了一种面向少数民族汉语水平考试(MHK)作文的自动评分模型。该模型对ETS的词汇评分机制进行了改进，并在词汇评分的基础上，抽取了与主题内容和文章条理相关的一些简单特征，建立了较为全面的少数民族汉语作文评分体系。

新加坡国立大学的Taghipour和Ng在2016年在英文ASAP作文数据集的基础上开发了一种基于卷积神经网络(CNN)和循环神经网络(LSTM)的作文自动评分模型，该模型隐式地抽取作文特征抽取，以神经网络各层参数的形式将学习到的特征保存下来，作为评分的依据，该模型简单而有效，后续很多基于神经网络的作文自动评分的模型都是在该模型的基础上改进得到的。

哈工大讯飞联合实验室在2020年开发了一种面向中国高考作文评分的弱监督预训练作文自动评分模型。该方法采用多阶段预训练，结合多层次的监督策略，首先进行大规模粗评分有监督训练，然后引入跨主题作文训练，最后针对目标主题的数据展开训练。通过这种多阶段迁移学习的手段，大大降低了模型的训练数据成本。

北京语言大学于2020年开发了一种面向汉语二语学习者的作文自动评分系统。其设计了词汇水平、切题程度、句型难度、表达准确度、篇幅长度等特征来衡量写作质量，并提供错误点评和词汇拓展两个反馈功能。

在特征利用的层面上，目前的模型或者是隐式利用特征，或者是显式利用特征。隐式利用特征的现有技术，往往不具有可解释性或可解释性较差；显式利用特征的现有技术，往往挖掘的显性特征较少或较浅层，难以全面、准确地描述作文特点。同时，现有的研究方法主要面向母语作文评分，个别涉及少数民族和二语作文评分，在特征设计上均未考虑到汉语二语写作的特点。

另外，现有的方法大部分需要区分作文主题构建自动评分模型，这使得模型在面对新题目的作文时，因为难以获得足够的与新题目相关的训练数据，而难以处理。

发明内容

为克服现有技术的上述缺陷，本发明意在构建一套多层次的显式特征和对新主题不敏感的模型，充分考虑汉语二语习得中的重点和难点，以更好地服务于汉语二语作文的质量评估，适用于日常话题下各种主题的议论文和记叙文评分。

根据本发明，提出了一种汉语二语作文自动评分方法,包括：

S1、抽取作文的语言特征；

S2、抽取多粒度文本表示特征；

S3、抽取切题特征；

S4、将所述语言特征输入评分模型，获得分数。

进一步地，语言特征包括语言复杂度特征、语言偏误特征；所述语言复杂度特征包含字词复杂度特征、句法复杂度特征、依存复杂度特征和语法点复杂度特征。

进一步地，句法复杂度特征，用于从语句、搭配、二元组三个维度对作文进行衡量，语句维度的特征包括平均大句长、平均小句长、平均T单位长、平均小句数、平均T单位数，搭配维度的特征包括整体搭配的多样性、跨语言通用搭配的多样性、汉语特有搭配的多样性、每类句法搭配的多样性、低频搭配比例、汉语特有搭配比例、二元组的多样性和低频二元组比例。

进一步地，依存复杂度特征，用于反映句法结构中词与词之间的关系，包括每种依存类型三元组的多样性、比例和平均依存距离、依存三元组多样性、低频依存三元组比例、所有三元组的平均依存距离、定中三元组多样性、状中三元组多样性、动宾三元组多样性、定中三元组多样性、动宾结构的平均距离、主谓结构的平均距离、依存关系的多样性、高级依存三元组的比例。

进一步地，语法点复杂度特征，用于捕捉二语作文句法复杂度和成熟度；优选的，包括10个语法点比例和11个语法点密度。

进一步地，句法搭配类型包括动宾搭配、主谓搭配、形名搭配、状中搭配、量名搭配、框式介词搭配、介动搭配、述补搭配。

进一步地，所述低频二元组比例的获取方法包括：

通过外部教材语料库提取二元组及其频次，并设定阈值；

将外部教材语料库中频次低于阈值的二元组界定为低频二元组；

计算作文文本中的低频二元组占比；

所述低频依存三元组比例的获取方法包括：

通过外部教材语料库提取三元组及其频次，并设定阈值；

将外部教材语料库中频次低于阈值的三元组界定为低频三元组；

计算作文文本中的低频三元组占比。

进一步地，所述多粒度文本复杂度特征的获取方法包括：

提取作文中汉字、词汇和词性的一元组、二元组和三元组；

计算汉字、词汇和词性的一元组、二元组和三元组的TF-IDF权重；

使用TF-IDF权重对汉字、词汇和词性的一元组、二元组和三元组进行加权表示，从而获得作文的文本向量表示。

进一步地，所述将作文题目和作文语句输入切题模型获取所述切题特征，所述切题模型为二分类模型，优选的，所述切题模型由顺次连接的BERT模型和全连接层构成的，激活函数为sigmoid函数；优选的，切题模型的训练方法包括：

将训练集中“原作文题目+该题目下正文”视为正例，将“随机选取一个其他题目+原题目下的正文”视为负例，随机采样构造第一正负样本；

将训练集中“原作文题目+该题目下正文中句子”视为正例，将“随机选取一个其他题目+原题目下的正文中句子”视为负例，构造第二正负样本；

使用第一正负样本训练切题模型，从而得到切题模型的第一参数，使用第二正负样本训练切题模型，从而得到切题模型的第二参数。

进一步地，所述评分模型的获取方法包括：

S41、根据步骤S1抽取训练集中作文的语言特征；

S42、采用逐步回归方法对特征作进一步筛选，排除与作文分数无显著相关性的特征，得到用于构建评分模型的语言特征集合；

S43、将筛选出的语言特征进行标准化处理；

S44、根据步骤S2抽取训练集中作文的多粒度文本表示特征；

S45、根据步骤S3抽取训练集中作文的切题特征；

S46、将标准化处理后的语言特征和多粒度文本表示特征、切题特征拼接，得到最终的特征集；

S47、采用基于阈值的有序逻辑回归模型进行评分学习，以获得评分模型。

优选的，所述有序逻辑回归模型中的损失函数是全阈值损失函数：

其中h(z)：＝log(1+exp(z))，标记k∈{1，...，l}对应区间(θ_k-1，θ_k)，θ₀和θ_l分别表示-∞和+∞，

是训练样本{y₁，...，y_n}，y_i∈{1，...，l}是与其对应的标签。

本发明的有益效果是：

(1)本发明针对汉语二语评分设计了较为全面的、多维度的作文评分显式特征集。按该方案抽取汉语二语作文的语言复杂度特征、语言偏误特征、多粒度文本表示特征和切题特征，可以科学、高效地衡量汉语二语作文的语言运用能力。

(2)本发明的自动评分方法，可以获得和人类行为相对一致的评分结果，改善了HSK考试中作文只能依靠人工评分的现状，减轻人工阅卷的压力，降低语言测评成本，提高测评精度。

(3)本发明设计的评分算法不依赖作文的主题，可以对日常话题下的记叙文和议论文依据其语言运用情况进行评分。

(4)本发明能够对每篇作文各层面语言运用水平给出建议，个性化帮助学生系统提高写作能力。

附图说明

图1是根据本发明一个实施例的自动评分方法的流程示意图；

图2是根据本发明一个实施例的语言复杂度特征的结构示意图；

图3是根据本发明一个实施例的依存句法分析结果示意图；

图4是根据本发明一个实施例的评分模型的训练流程图。

具体实施方式

下面结合附图和具体实施例对本发明提供的一种汉语二语作文自动评分方法进行详细描述。

在以下的描述中，对于本领域内的普通技术人员而言，可以仅仅利用本发明的一些或者全部结构或者流程来实施本发明。为了解释的明确性而言，阐述了特定的数目、配置和顺序，但是很明显，在没有这些特定细节的情况下也可以实施本发明。在其他情况下，为了不混淆本发明，对于一些众所周知的特征将不再进行详细阐述。

根据本发明提出了一种汉语二语作文自动评分方法,如图1所示，包括：

S1、抽取作文的语言特征；

S2、抽取多粒度文本表示特征；

S3、抽取切题特征；

S4、将上述特征输入评分模型，获得分数。

其中，语言特征包括语言复杂度特征、语言偏误特征。下面具体说明特征的含义及获得方法。

一、语言复杂度特征为多层次的语言复杂度特征，如图2所示，包含字词复杂度特征、句法复杂度特征、依存复杂度特征和语法点复杂度特征。

1.在字词层面，字词复杂度特征包括文章字数、词数、词汇多样性、词汇复杂性等特征。

文章字数指作文中汉字数量(不包括标点、数字、符号等)；词数可通过自动分词工具获取分词结果，进而统计词语数量；词汇多样性程度，可通过RTTR公式计算，其中，N_token为文中全部词形(token)数量，N_type为文中词种(type)数，即去重后的词语数量。分母开根号用于缓解文章长度带来的影响。RTTR公式可以较好地反映文中词汇丰富多样程度。

词汇复杂度，指文中复杂词语占文中词汇的比例。在本发明中，将新HSK全球汉语水平考试词汇等级大纲(HSK词汇大纲共5000词，从易到难分为一至六级)中的五级词、六级词及超纲词界定为复杂词。

RTTR公式在本发明中多次使用，当计算词汇多样性时，Ntype是词种数(不重复的词语数量)，Ntoken是词形数(整篇文章的总词数)；当计算搭配多样性时，Ntype是去重后的搭配数量，Ntoken是搭配总数。

2.在句法复杂度方面，从语句、搭配、二元组这三个维度对作文进行衡量。

(1)语句维度包括如下5个特征。

平均大句长：通过分词工具对文本进行分句(分成以句号、省略号、感叹号结尾的句子)得到大句，然后统计大句的数量和总的字数，从而计算出平均每个大句的字数，即平均大句长。

平均小句长：对大句继续分割得到小句，如通过逗号和分号进一步分割，同理，计算平均小句长。

平均T单位长：判定小句是否属于独立T单位，然后计算T单位长度均值。具体来说，首先参考学界研究将T单位界定为“包含一个独立谓语和其他附属小句或嵌入小句的独立主句”，然后采用如下条件对T单位进行判定：(a)该小句包含核心谓词；或者(b)该小句包含核心谓词的子节点，且其与核心谓词构成并列依存关系；或者(c)该小句包含(b)类节点的子节点，且其与(b)类节点构成并列依存关系。符合上述条件之一的小句可视为T单位。得到文中独立T单位数量后，取文本总长度/独立T单位数，得到平均T单位长度。具体来说，可以先通过工具对文本做依存句法分析，得到依存树，进而可以提取上述(a)(b)(c)条件中的“核心谓词”、“父子节点”、“并列依存关系”等特征，从而按照条件进行T单位判定。

平均小句数：文本中的小句总数/大句总数。

平均T单位数：文本中的T单位总数/大句总数。

(2)搭配维度特征通过如下步骤进行获取：

1)自动抽取作文中的八类句法搭配，包括动词+宾语搭配、主语+谓语搭配、形容词+名词搭配、状语+中心语搭配、量词+名词搭配、介词+后置词搭配、介词+动词搭配、述语+补语搭配。其中，前面四种属于跨语言通用的搭配类型，后面四种属于汉语所特有的搭配类型，是汉语二语教学中的重点和难点。具体示例见表1。

表1搭配类型

比如，“学生在教室里参加考试。”这句话可以抽取出：

动宾搭配：参加考试

框式介词搭配：在X里

主谓搭配：学生参加

2)参考词汇多样性的测量，提取如下11个特征衡量搭配多样性。

整体搭配的多样性：可通过上文的RTTR公式计算，其中，Ntype是去重后的搭配数量，Ntoken是搭配总数。

跨语言通用搭配的多样性：即动宾搭配、主谓搭配、形名搭配、状中搭配这四种类型的多样性，同样通过RTTR公式计算，其中，Ntype是去重后的跨语言通用搭配数量，Ntoken是跨语言通用搭配总数。

汉语特有搭配的多样性：即量名搭配、框式介词搭配、介动搭配、述补搭配这四种类型的多样性，同样通过RTTR公式计算，其中，Ntype是去重后的汉语特有搭配数量，Ntoken是汉语特有搭配总数。

八种类型中每类搭配的多样性：对上述每种搭配均通过RTTR公式计算多样性，其中，Ntype是去重后的每类搭配数量，Ntoken是每类搭配总数。

3)本技术进一步提出搭配的复杂性还体现在两个方面：一是低频复杂搭配的使用，二是汉语所特有的搭配结构的运用，据此提出了以下2个特征：

低频搭配比例：按表1提取外部教材语料库中作文的搭配频次，并设定阈值为10，将教材语料库中频次低于10次的搭配界定为低频搭配，进而计算学生作文文本中的低频搭配占比。

在一个实施例中，使用了汉语国际教育动态语料库为外部语料库：

http://www.aihanyu.org/basic_v2/index.html#/index？_k＝y7vnx2

该库包括了近200册汉语二语教材的课文。

采用上文所述的搭配自动抽取工具对这些课文进行搭配提取，获得搭配库，其中包括每个搭配在教材语料库中出现的频次。

汉语特有搭配比例：统计文本中量名搭配、框式介词搭配、介动搭配、述补搭配这四种汉语特有类型搭配的数量，并计算其占总搭配数量的比例。

(3)考虑到上述八类句法搭配不能覆盖所有的语言现象，进一步提出计算二元组的多样性和复杂性。

1)基于分词结果提取文本中的二元组，如下例所示：

例句：今天天气很不错。

分词结果：今天天气很不错。

二元组：“今天天气”、“天气很”、“很不错”、“不错。”

2)提取如下2个特征：

二元组多样性：通过RTTR公式计算二元组的多样性。公式中，Ntype是不重复的二元组数量，Ntoken为全部二元组数量。

低频二元组比例：通过外部教材语料库提取二元组频次，并设定阈值(如为10)，将教材语料库中频次低于阈值的二元组界定为低频二元组，进而计算学生作文文本中的低频二元组占比。从外部教材语料库中提取的二元组，并计算其频次，代表了母语中正确的用法。如果在教材中频次高，说明比较常用(越常用则越简单)，低频的话则比较难。

3.依存复杂度特征

依存句法分析能够很好地反映句法结构中词与词之间的关系，因而对句法复杂度的衡量有重要意义。考虑到不同依存句法分析所参考的理论体系有所差异，在一个实施例中，分别基于LTP和stanza依存分析体系提取并设计了基于依存句法的特征。

(1)基于LTP

LTP语言技术平台的句法依存分析标注体系如下：

表2LTP句法依存关系及示例

考虑到汉语句法结构的多样性和灵活性，各种依存类型的结构在汉语二语学习中都有重要意义，因此，本发明中得到句子的依存句法分析树之后，获取作文中如表3所示的依存三元组类型及特征。

表3基于LTP的依存句法复杂度特征

依存三元组定义为(relation,head,tail)，例句“老师帮助我掌握了高效的学习方法。”的依存句法分析结果如图3所示，其中(SBV，帮助，老师)、(VOB，掌握，方法)、(ATT，方法，高效)为依存三元组。

提取每种类型的三元组的多样性、比例、三元组头尾两个词的平均依存距离为特征。以SBV型三元组为例，三种特征的具体计算方法为：

·SBV_RTTR：通过RTTR公式计算SBV类依存三元组的多样性。其中，Ntype为不重复的SBV三元组数量，Ntoken为全部SBV三元组数量。

·SBV_RATIO：文章中具有SBV依存关系的三元组的数量除以所有三元组的数量。

·SBV_DIST：文章中具有SBV依存关系的三元组的两个词在句中距离的平均值。

除此之外，本发明还抽取了三个能反映依存三元组全局信息的特征：

·依存三元组多样性：文章中所有依存三元组的RTTR。

·低频(复杂)依存三元组比例：与上文的低频搭配比例、低频二元组比例一致，即通过外部教材语料库提取三元组频次，并设定阈值(如为10)，将教材语料库种频次低于阈值的三元组界定为低频三元组，然后计算学生作文文本中的低频三元组占比。

·所有三元组的平均依存距离。

(2)基于stanza

相较于LTP专为汉语开发设计，stanza建立了一套整合了数十种语言的分析框架，具有更丰富的依存类型，兼顾了不同母语背景汉语二语习得者的句法认知结构。考虑到汉语以动词为中心和缺少形态修饰的特点，我们主要考察了主谓、动宾、定中、状中这四种依存类型三元组，设计了以下特征：

定中三元组多样性、状中三元组多样性、动宾三元组多样性、定中三元组多样性、动宾结构的平均距离、主谓结构的平均距离、依存三元组多样性、依存关系的多样性、高级依存三元组的比例。

特征的说明见表4，其中后面3个特征能反映整体三元组信息的指标。

表4基于stanza的依存句法复杂度特征

Stanza界定的依存关系参见：https://universaldependencies.org/u/dep/index.html。

4.语法点复杂度特征

语法点是汉语二语教学中的重点和难点，为了更好地捕捉二语作文句法复杂度和成熟度，本发明引入语法点的比例和密度作为评分特征。

在一个实施例中，以教育部最新发布的《国际中文教育中文水平等级标准》(以下简称为《标准》)为依据，例如“方位名词”(一级)、固定短语“不A不B”(三级)、复句“虽……，但/可/却/也……”(六级)。

抽取作文的词形、词性、语法结构、依存关系等特征，然后识别其中的语法点(识别语法点可以通过现有工具识别)，并计算各级别语法点的比例和密度。

(1)语法点比例

由于《标准》七至九级未作具体划分，比例复杂度特征首先包含6个各级别语法点比例。同时，为了避免数据稀疏，本技术进行级别等距划分，得到初级(一级、二级)、中(三级、四级)、中高(五级、六级)、高级(七至九级)语法点，进一步计算其比例，共计得到10个特征，如下所示：

一级语法点比例：一级语法点数量/所有语法点数量

二级语法点比例：二级语法点数量/所有语法点数量

三级语法点比例：三级语法点数量/所有语法点数量

四级语法点比例：四级语法点数量/所有语法点数量

五级语法点比例：五级语法点数量/所有语法点数量

六级语法点比例：六级语法点数量/所有语法点数量

初级语法点比例：一级、二级语法点数量/所有语法点数量

中级语法点比例：三级、四级语法点数量/所有语法点数量

中高级语法点比例：五级、六级语法点数量/所有语法点数量

高级语法点比例：七至九级语法点数量/所有语法点数量

(2)语法点密度

语法点密度定义为：语法点数量/文章字数。与比例特征类似地，定义了如下11个语法点密度特征：

整体语法点密度：所有语法点数量/文章字数

一级语法点密度：一级语法点数量/文章字数

二级语法点密度：二级语法点数量/文章字数

三级语法点密度：三级语法点数量/文章字数

四级语法点密度：四级语法点数量/文章字数

五级语法点密度：五级语法点数量/文章字数

六级语法点密度：六级语法点数量/文章字数

初级语法点密度：一级、二级语法点数量/文章字数

中级语法点密度：三级、四级语法点数量/文章字数

中高级语法点密度：五级、六级语法点数量/文章字数

高级语法点密度：七至九级语法点数量/文章字数

二、语言偏误特征

除了上述语言复杂度特征外，语言表达的准确性也是衡量作文质量的重要因素。因此，本技术方案提取了标点错误数量、汉字错误数量、词汇错误数量、句式错误数量、语篇错误数量这5个语言偏误方面的特征。特征的提取既可以通过作文自动批改工具获得，也可以通过人工标注文本得到。

三、多粒度文本表示特征

除了上述语言复杂度和偏误特征外，本发明还提出了多粒度的文本表示特征。具体来说，提取作文中汉字、词汇和词性的一元组、二元组和三元组，然后计算这些特征的TF-IDF权重，使用TF-IDF对这些特征进行加权表示，每篇文章可以表示为一个文本向量如下：

TextVec＝(tfidf₁，tfidf₂，...，tfidf_N)

例如，“我很喜欢这本书。”经过分词词性标注后，得到：

我/r很/d喜欢/v这/r本/q书/n。/w

其中，字母标示了词性，例如r是代词、d是副词、v是动词、q是量词、n是名词。分词和词性标注也可以通过LTP分析得到的。

抽取词性一元组就是r、d、v、r、q，抽取词性二元组可以得到rd、dv、vr等。

本方法可从多粒度反映语言用法，并比神经网络方法产生的词表示，如词向量等，更具可解释性。因为，神经网络方法训练得到的词向量，每一维具体的含义是未知的，类似于：

北京：[0.25,0.98,0.01,…,-0.69]

明天：[0.03,0.45,0.96,…,0.77]

而tfidf权重表示的文本向量可以反映每篇文章用字、用词、词性的情况，如何计算是清楚的、可解释的。

四、切题特征

一些作文语言表达水平较好，但内容偏离了题目要求。这种情况下，仅借助语言特征构建的评分模型会出现一定的误差，所以本发明引入切题特征，通过切题模型进行提取。

切题模型为二分类模型，优选的，包括顺次连接的BERT模型和全连接层，BERT模型为预训练的中文BERT模型，其激活函数设置为sigmoid函数。切题模型的训练步骤如下：

(1)将自动评分的训练集改造为一个判断是否切题的二分类数据集。具体做法是，将训练集中“原作文题目+该题目下正文”作为正例，相应地，将“随机选取一个其他题目+原题目下的正文”作为负例，随机采样构造正负样本，使其比例为1：1。

(2)使用上述切题二分类数据集训练该模型得到该模型的第一参数。将输入新的样本(题目和正文语句)输入使用第一参数的切题模型后，即可从sigmoid函数处获得0-1之间的实数作为输出，这个数值即可作为“作文题-作文”的切题特征。

在一个实施例中，切题模型除此之外，还可定义“作文题-句子”平均切题特征。将训练集中“原作文题目+该题目下正文中句子”作为正例，相应地，将“随机选取一个其他题目+原题目下的正文中句子”作为负例。按照上述训练方法训练切题模型得到该模型的第二参数。同样的，将题目和正文语句输入使用第二参数的切题模型后，得到“作文题-句子”的切题特征值，优选的，取作文所有句子切题特征值的平均值作为最终的“作文题-句子”切题特征值。

可将两类特征拼接，得到2×1维的切题特征向量。

在步骤S4中，评分模型为OLR-AT模型，如图4所示，具体的训练方法包括：

S41、通过步骤S1抽取训练集中作文的语言特征。

在本步骤中，利用上面所述的方法抽取训练集中作文的语言特征，所抽取出的特征已经数值化，即特征为数值。

S42、采用逐步回归方法对特征作进一步筛选，排除与作文分数无显著相关性的特征，得到用于构建评分模型的语言特征集合。

优选的，在训练模型之前，根据训练集进行特征筛选，即排除与分数明显不相关的特征，对于存在高度共线性关系的特征仅保留其一，即检验不同类型的语言复杂度特征、写作偏误特征、切题特征对作文分数的预测能力，排除与作文分数无显著相关性的特征。然后，为了避免特征之间的共线性依赖，采用逐步回归方法对特征作进一步筛选，得到用于构建模型的语言特征集合。

这样的话，每组特征就对应一个新的模型。比如，对美国和韩国学生的作文进行评分，不同特征的重要性是不一样的，因此要根据训练集进行特征选择。

因为每份作文数据集进行筛选得到的特征集合会不一样，而不作筛选则会有共线性的问题。因此，在研发评分模型的过程中，通过逐步回归筛选可以找到比较适合本任务数据的特征集合。

S43、将筛选出的语言特征进行标准化处理，如归一化处理：

这里是对特征的数值进行归一化变换，使得不同的特征都映射到0-1之间。比如，数据集中有一万篇文章，其长度特征可能分布在100-500之间，而词汇多样性特征是0.1到5之间，不同的特征大小分布差异比较大，因此需要标准化处理。y_i是特征转换后的数值，x_i是特征转换前的数值，min{x_j}为特征的最小值，max(x_j)为特征的最大值。

例如，某篇文章的长度特征值是273，数据集中最长的文章是500，最短是100，那么该文章长度特征标准化后的结果是(273-100)/(500-100)＝0.4325。

S44、根据步骤S2抽取训练集中作文的多粒度文本表示特征；

本发明曾尝试汉字、词汇和词性的一元组、二元组和三元组多种组合方式，发现词汇及词性一元组作为多粒度文本表示时性能最佳。因此将词汇一元组、词性一元组的TFIDF向量拼接，作为作文的多粒度文本表示。

S45、根据步骤S3抽取训练集中作文的切题特征；

本发明采用“作文题-作文”和“作文题-句子”两种切题特征计算方法，得到一个二维向量表示切题特征。

S46、将标准化处理后的语言特征和多粒度文本表示特征、切题特征拼接，得到最终的特征集。

与传统的分类模型相比，有序逻辑回归模型能够充分考虑到类别之间序的关系，较为适合作文评分任务。训练集中作文具有分数，这个分数可以用来与模型输出进行比较，从而训练模型。

普通逻辑回归的损失函数是其对数似然函数的相反数(得到的表达式等价于各样本因变量的预测值和真实值的差值的和)，它只关注预测值和真实值的差异；而有序逻辑回归的损失函数实际上是各样本的预测类别和所有可能类别间的“距离”(即因变量的预测值和真实值的差值)的罚函数的和。差值的罚函数前的正负号索引保证了求差总为正，即刻画了“距离”。由于综合考虑了预测类别和所有可能类别间的“距离”，有序逻辑回归的损失函数(如全阈值损失函数)既能够充分贴近正确类别，也能主动远离错误类别。这在类别之间有先后(或大小)关系时尤其有效，即有效刻画了所归类之间的序关系。

有序逻辑回归模型中，一种实用的损失函数是基于阈值的(Threshold-based)，其中最有效的一种是全阈值(All-threshold)损失。

将正则化的逻辑回归损失

带入全阈值损失通式得到损失函数如下：

其中h(z)：＝log(1+exp(z))。标记k∈{1，...，l}对应区间(θ_k-1，θ_k)。θ₀和θ_l分别表示-∞和+∞。

有序逻辑回归模型需要从数据中学习的参数是LossATL表达式中的w，得到这个参数的方式是最小化损失函数。所以事实上训练过程是一个无约束函数最小化问题，该问题的解就是这个w。

实验中直接调用mord库中的LogisticAT类方法。该类方法中的求解使用了L-BFGS-B算法，此算法是一类拟牛顿算法，是无约束优化问题中经典而有效的一类算法。事实上，这个函数最小化问题可以使用各种不同的最优化方法求解，如梯度下降，非线性共轭梯度法等都可求解之。有序逻辑回归的核心特色是损失函数的定义而非训练过程。

拟合后(即训练完成)的模型参数相比初始值发生了变化，便可以预测新作文的分数。为使模型充分利用语料库数据，以保证结果的可靠性，须进行多折(如五折)交叉验证，再给出平均结果。

为考察该模型效果，和线性回归、普通逻辑回归、随机森林回归、XGBoost回归，CNN+LSTM神经网络，ATT+BiLSTM神经网络进行了比较，效果使用后文提到的这些指标来衡量。实验结果见下图。加粗的是每一种模式下效果最好的。非神经网络的模型的mode指的是各种特征的组合。神经网络模型的mode是预训练词向量的不同类别。

上表中，LiR指线性回归，LoR指逻辑回归，RFR指随机森林回归，XGBR指XGBoost回归，OLR-AT指全阈值损失的有序逻辑回归，CNN+LSTM和Att-BLSTM即为上述神经网络方法的全名。

Mode中，非神经网络方法由两种模式中，ling+err是语言复杂度特征和偏误信息特征两者的结合。Ling+err+text是前两者和文本表示特征三者的结合。而神经网络方法的两种Mode，Random指网络中Embedding层的参数是随机初始化的；Sogou指网络中Embedding层的参数是由在Sogou上训练得到的词向量进行初始化的。两者维度相同，均是300维。评价指标有三种，QWK是二次加权Kappa，RMSE是均方根误差，Pears.是皮尔逊相关系数。最后，可以借助一些衡量数值向量一致性的指标，如二次加权卡帕系数和皮尔逊相关系数，以及一些衡量偏差的指标，如二次均方根误差等来评估模型的效果。

本发明基于自然语言处理技术，抽取了汉语二语者作文在字词、句子、搭配、依存关系、语法点等多维度的语言复杂度特征，还包括写作偏误信息特征、多粒度高维文本表示特征、切题程度方面的特征，较为完整地描述了汉语二语作文写作质量评价中各个方面的重点，可以高效、准确地实现对汉语二语作文的自动评分。

本发明所提取的特征皆为显式特征，可以很好地进行可解释性应用，即为写作学习者从多个层次提供写作反馈和改进指导，使得本发明除了可作为汉语水平考试作文评分模块的有力工具，更成为汉语学习者写作学习过程中的智能辅助教具。

本发明不依赖特定的作文主题进行构建，可以对常规话题下的记叙文和议论文进行较为可靠的评分，对主题变化不敏感，具有很强的泛化能力。

最后应说明的是，以上实施例仅用以描述本发明的技术方案而不是对本技术方法进行限制，本发明在应用上可以延伸为其他的修改、变化、应用和实施例，并且因此认为所有这样的修改、变化、应用、实施例都在本发明的精神和教导范围内。

Claims

1.一种汉语二语作文自动评分方法,包括：

S1、抽取作文的语言特征；

S2、抽取多粒度文本表示特征；

S3、抽取切题特征；

S4、将语言特征、多粒度文本表示特征和切题特征输入评分模型，获得分数。

2.根据权利要求1所述的评分方法，其中，所述语言特征包括语言复杂度特征和语言偏误特征；所述语言复杂度特征包含字词复杂度特征、句法复杂度特征、依存复杂度特征和语法点复杂度特征。

3.根据权利要求2所述的评分方法，其中，句法复杂度特征，用于从语句、搭配、二元组三个维度对作文进行衡量，语句维度的特征包括平均大句长、平均小句长、平均T单位长、平均小句数、平均T单位数，搭配维度的特征包括整体搭配的多样性、跨语言通用搭配的多样性、汉语特有搭配的多样性、每类句法搭配的多样性、低频搭配比例、汉语特有搭配比例、二元组的多样性和低频二元组比例。

4.根据权利要求2所述的评分方法，其中，依存复杂度特征，用于反映句法结构中词与词之间的关系，包括每种依存类型三元组的多样性、比例和平均依存距离、依存三元组多样性、低频依存三元组比例、所有三元组的平均依存距离、定中三元组多样性、状中三元组多样性、动宾三元组多样性、定中三元组多样性、动宾结构的平均距离、主谓结构的平均距离、依存关系的多样性、高级依存三元组的比例。

5.根据权利要求2所述的评分方法，其中，语法点复杂度特征，用于捕捉二语作文句法复杂度和成熟度；优选的，包括10个语法点比例和11个语法点密度。

6.根据权利要求3所述的评分方法，其中，句法搭配类型包括动宾搭配、主谓搭配、形名搭配、状中搭配、量名搭配、框式介词搭配、介动搭配、述补搭配。

7.根据权利要求3所述的评分方法，其中，所述低频二元组比例的获取方法包括：

通过外部教材语料库提取二元组及其频次，并设定阈值；

计算作文文本中的低频二元组占比；

所述低频依存三元组比例的获取方法包括：

通过外部教材语料库提取三元组及其频次，并设定阈值；

计算作文文本中的低频三元组占比。

8.根据权利要求1所述的评分方法，其中，在步骤S2中，所述多粒度文本表示特征的获取方法包括：

提取作文中汉字、词汇和词性的一元组、二元组和三元组；

9.根据权利要求1所述的评分方法，其中，在所述步骤S3中，将作文题目和作文语句输入切题模型获取所述切题特征，所述切题模型为二分类模型，优选的，所述切题模型由顺次连接的BERT模型和全连接层构成的，激活函数为sigmoid函数；

优选的，切题模型的训练方法包括：

将训练集中“原作文题目+该题目下正文”作为正例，将“随机选取一个其他题目+原题目下的正文”作为负例，随机采样构造第一正负样本；

将训练集中“原作文题目+该题目下正文中句子”作为正例，将“随机选取一个其他题目+原题目下的正文中句子”作为负例，构造第二正负样本；

10.根据权利要求1所述的评分方法，其中，所述评分模型的获取方法包括：

S41、根据步骤S1抽取训练集中作文的语言特征；

S43、将筛选出的语言特征进行标准化处理；

S44、根据步骤S2抽取训练集中作文的多粒度文本表示特征；

S45、根据步骤S3抽取训练集中作文的切题特征；