CN111104789A

CN111104789A - 文本评分方法、装置和系统

Info

Publication number: CN111104789A
Application number: CN201911161565.7A
Authority: CN
Inventors: 黄涛; 张�浩; 刘三女牙; 杨宗凯; 杨华利; 刘子迁
Original assignee: Central China Normal University
Current assignee: Central China Normal University
Priority date: 2019-11-22
Filing date: 2019-11-22
Publication date: 2020-05-05
Anticipated expiration: 2039-11-22
Also published as: CN111104789B

Abstract

本发明提供了一种文本评分方法、装置和系统；该方法包括：获取待评分的文本；提取文本的文本特征；文本特征包括浅层语言特征、句法特征、语义特征和主题特征；其中，语义特征用于表征文本内的语义连贯度；主题特征用于表征文本与预设的文本主题的相关度；将文本特征输入至预先设定的评分模型中，得到输出结果；根据输出结果确定文本的评分。该方法从待评分的文本中提取浅层语言特征、句法特征、语义特征和主题特征作为文本特征，将上述文本特征输入到预先设定的评分模型中，将评分模型输出的输出结果作为该文本的评分。该方式中针对浅层语言特征、句法特征、语义特征和主题特征这四个方面进行全面的评价分析，可以增强评分结果的可靠性。

Description

文本评分方法、装置和系统

技术领域

本发明涉及深度学习技术领域，尤其是涉及一种文本评分方法、装置和系统。

背景技术

相关技术中，传统的文本评分方法主要是提取文本的浅层文本特征或者提取文本的语义信息，并用简单的回归、分类、排序方法对提取到的特征进行训练；由于该评分方式中提取的特征较为单一，导致评分结果的可靠性不高。

发明内容

有鉴于此，本发明的目的在于提供一种文本评分方法、装置和系统，以增强评分结果的可靠性。

第一方面，本发明实施例提供了一种文本评分方法，包括：获取待评分的文本；提取文本的文本特征；文本特征包括浅层语言特征、句法特征、语义特征和主题特征；其中，语义特征用于表征文本内的语义连贯度；主题特征用于表征文本与预设的文本主题的相关度；将文本特征输入至预先设定的评分模型中，得到输出结果；根据输出结果确定文本的评分。

在本发明较佳的实施例中，上述提取文本的文本特征的步骤，包括：通过预设的transformer编码器，从文本中提取浅层语言特征、句法特征、语义特征和主题特征。

在本发明较佳的实施例中，上述通过预设的transformer编码器，从文本中提取浅层语言特征的步骤，包括：计算文本的文本长度、平均句子长度和平均词汇长度；通过预设的transformer编码器将文本长度、平均句子长度和平均词汇长度转化为特征向量，得到浅层语言特征。

在本发明较佳的实施例中，上述通过预设的transformer编码器，从文本中提取句法特征的步骤，包括：通过预设的词性识别工具，识别文本中字符的词性，得到识别结果；通过预设的transformer编码器将识别结果转化为特征向量，得到句法特征。

在本发明较佳的实施例中，上述通过预设的transformer编码器，从文本中提取语义特征的步骤，包括：检测文本中字符的位置，得到文本中字符的位置信息；通过预设的transformer编码器将文本和文本中字符的位置信息转化为特征向量，得到语义特征。

在本发明较佳的实施例中，上述预设的transformer编码器中预先构建有预训练语言模型BERT(Bidirectional Encoder Representations from Transformers)；上述通过预设的transformer编码器，从文本中提取主题特征的步骤，包括：将文本输入至预训练语言模型BERT中，输出主题特征。

在本发明较佳的实施例中，上述评分模型通过以下步骤建立：基于预设的训练集确定训练文本；训练文本携带有标准评分；提取训练文本的文本特征；文本特征包括浅层语言特征、句法特征、语义特征和主题特征；将浅层语言特征输入至第一预设子网络中，输出浅层语言评分；将句法特征输入至第二预设子网络中，输出句法评分；将语义特征输入至第三预设子网络中，输出语义评分；将主题特征输入至第四预设子网络中，输出主题评分；根据述浅层语言评分、句法评分、语义评分、主题评分、以及设的权值参数，确定训练文本的训练评分；根据标准评分和训练评分，调整权值参数；继续执行基于预设的训练集确定训练文本的步骤，直至训练评分与标准评分的误差在预设范围内，得到评分模型。

第二方面，本发明实施例还提供一种文本评分装置，包括：文本获取模块，用于获取待评分的文本；特征提取模块，用于提取文本的文本特征；文本特征包括浅层语言特征、句法特征、语义特征和主题特征；其中，语义特征用于表征文本内的语义连贯度；主题特征用于表征文本与预设的文本主题的相关度；结果输出模块，用于将文本特征输入至预先设定的评分模型中，得到输出结果；评分确定模块，用于根据输出结果确定文本的评分。

第三方面，本发明实施例提供了一种文本评分系统，包括：文本解析单元和文本评分单元；文本评分单元，用于执行上述文本评分方法；文本解析单元，用于确定文本中的语法错误和词法错误。

在本发明较佳的实施例中，上述文本解析单元，还用于：通过拼写检查工具确定文本中的语法错误；通过爬取网页的方式确定文本中的词法错误。

本发明实施例带来了以下有益效果：

本发明实施例提供的文本评分方法、装置和系统，从待评分的文本中提取浅层语言特征、句法特征、语义特征和主题特征作为文本特征，将上述文本特征输入到预先设定的评分模型中，将评分模型输出的输出结果作为该文本的评分。该方式中针对浅层语言特征、句法特征、语义特征和主题特征这四个方面进行全面的评价分析，可以增强评分结果的可靠性。

本公开的其他特征和优点将在随后的说明书中阐述，或者，部分特征和优点可以从说明书推知或毫无疑义地确定，或者通过实施本公开的上述技术即可得知。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种文本评分方法的流程图；

图2为本发明实施例提供的另一种文本评分方法的流程图；

图3为本发明实施例提供的一种文本评分方法的框架图；

图4为本发明实施例提供的一种文本评分方法的模型结构框图；

图5为本发明实施例提供的一种文本评分模型生成过程的流程图；

图6为本发明实施例提供的一种文本评分装置的结构示意图；

图7为本发明实施例提供的一种文本评分系统的结构示意图；

图8为本发明实施例提供的一种文本评分单元的结构图；

图9为本发明实施例提供的一种评分模型训练的流程图；

图10为本发明实施例提供的一种文本分数预测流程图；

图11为本发明实施例提供的一种文本解析单元的结构图；

图12为本发明实施例提供的一种文本评分系统的总体结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前，英语作为中国学生必修的一门语言课程，英语课程的考试成绩在升学考试中影响很大。在英语课程考试中，作文这一项的分值占据了很大比重，而目前英语作文的评分方式主要还是采用人工评分，虽然该领域的专家设定了评分标准，并选择优秀的英语教师进行评分，但目前人工评分方法仍然存在一些不足。首先是耗费大量人力，英语作文相比于其它客观题来说批阅难度大，需要更多更专业的教师谨慎评分，尤其是针对大型的英语考试，耗费的人力更大。其次是主观性强、误差大，容易受到阅卷老师个人喜好和评判标准的影响等。最后，反馈时间比较长，学生需要等待很长时间才能知道作文分数，而且除了分数，没有其他反馈信息，这对提高学生的写作能力没有很大帮助。近年来，随着自然语言处理技术的发展，AES(Automated Essay Scoring，作文自动评分)越来越受到人们的重视，并在作文评分领域得到了广泛的应用。作文自动评分相比于人工评分具有客观公正、成本低、反馈及时等优势，因此，研究英语的作文自动评分具有重要意义。

传统的作文自动评分方法主要通过人工抽取作文中浅层的词汇、句子以及语义特征，并利用机器学习方法对作文进行评分。基于机器学习的作文自动评分方法主要是利用回归、分类、排序方法对作文实现自动评分。基于回归的方法，主要是把提取的文本特征和作文分数分别看作回归方程的自变量和因变量，并借助机器学习中的回归模型进行训练，从而得到回归模型的特征参数。传统的作文自动评分方法只考虑作文浅层的语言特征和语义特征，忽略了作文中更细粒度的特征，比如内容更深层的语义信息、语意连贯性等，而且依赖于人工抽取的启发式规则特征，特征工程的工作量很大并且抽取的特征也不全面。

近年来，随着NLP(Natural Language Processing，自然语言处理)技术和深度学习的发展，将其应用到NLP领域的各个任务中，都取得了显著效果，这其中也包括作文自动评分领域。然而，将NLP技术和深度学习应用到文本评分的情况，一般只考虑语义特征，考虑的并不全面。

综上，传统的文本评分方法主要是提取文本的浅层文本特征或者提取文本的语义信息，并用简单的回归、分类、排序方法对提取到的特征进行训练；由于该评分方式中提取的特征较为单一，导致评分结果的可靠性不高。基于此，本发明实施例提供的一种文本评分方法、装置和系统，该技术应用于自然语言处理和深度学习的技术领域，具体涉及一种英语作文自动评分方法。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种文本评分方法进行详细介绍。

实施例1

参见图1所示的一种文本评分方法的流程图，该方法包括如下步骤：

步骤S102，获取待评分的文本。

待评分的文本是指需要对内容进行评分的文本，文本可以为英文作文、英文文章等，也可以是其他语言的文本。评分是指对该文本的语法、句法、语义和主题相关程度做出一个评判，一般来说，评分越高，则说明该待评分的文本的语法不存在错误、句法形式丰富、语义正确、并且文本内容与主题相关程度高。

步骤S104，提取文本的文本特征；该文本特征包括浅层语言特征、句法特征、语义特征和主题特征；其中，上述语义特征用于表征文本内的语义连贯度；上述主题特征用于表征文本与预设的文本主题的相关度。

文本特征是指表达文本某一方面的特征，一般通过构建特征向量的方式确定文本特征。浅层语言特征指的是一些简单的作文单词、句子等表层文本特征，如作文长度、句子深度等，而不考虑单词、句子表示的具体含义；句法特征是以句子为单位研究包括句子成分、时态、语态以及句子结构(如简单的主语+谓语+宾语、复杂的主语从句、宾语从句等)等语言学特征。语义特征用于表征文本内的语义连贯度；主题特征用于表征文本与预设的文本主题的相关度。

步骤S106，将文本特征输入至预先设定的评分模型中，得到输出结果。

评分模型预先设定，会对改文本的语法、句法、语义和主题相关程度做出综合评定，评分模型根据输入的浅层语言特征、句法特征、语义特征和主题特征，输出该待评分的文本的评分，上述待评分的文本的评分就是评分模型的输出结果。

步骤S108，根据输出结果确定文本的评分。

本发明实施例提供的一种文本评分方法，从待评分的文本中提取浅层语言特征、句法特征、语义特征和主题特征作为文本特征，将上述文本特征输入到预先设定的评分模型中，将评分模型输出的输出结果作为该文本的评分。该方式中针对浅层语言特征、句法特征、语义特征和主题特征这四个方面进行全面的评价分析，可以增强评分结果的可靠性。

实施例2

本发明实施例还提供另一种文本评分方法；该方法在上述实施例方法的基础上实现；该方法重点描述提取文本的文本特征的具体实现方式。

如图2所示的另一种文本评分方法的流程图，该方法包括如下步骤：

步骤S202，获取待评分的文本。

步骤S204，通过预设的transformer编码器，从文本中提取浅层语言特征、句法特征、语义特征和主题特征。

通过对国内初中英语新课程标准关于写作方面的要求和英语作文评分标准的分析可知，初中英语作文评分主要从内容和语言两大方面进行考虑，并且认为内容方面(内容要点、语意连贯等)的重要性要大于语言本身(语法结构、单词拼写等)的重要性。

经过上述研究分析，本实施例将从内容和语言两大方面构建初中英语作文评分模型，其中内容特征又细分为主题相关特征和语意连贯特征，语言特征又包括浅层语言特征和句法特征，然后根据这四方面的特征进行特征抽取，最后通过混合神经网络预测作文分数。

本实施例主要通过transformer编码器提取文本的文本特征，对于文本特征，transformer编码器提取对应文本特征的方法存在一些不同，对于浅层语言特征，transformer编码器通过以下步骤提取：

计算文本的文本长度、平均句子长度和平均词汇长度；通过预设的transformer编码器将文本长度、平均句子长度和平均词汇长度转化为特征向量，得到浅层语言特征。

传统的作文自动评分系统提取的特征就是浅层语言学特征，且目前大多数作文自动评分系统中，浅层语言学特征仍然占有很大比重，基于浅层语言学特征的评分效果还是比较显著的。由此可以看出，这些浅层语言学特征可以在很大程度上反映学生的写作水平。比如作文字数多的作文相比于字数少的作文内容会更加丰富，此外单词长度也能在一定程度上反映作文水平，因为一般情况下，语言水平不好的学生只会使用简短的单词。其中浅层语言特征如表1所示：

表1浅层语言特征

有表1可知，Word_1数值越大，分数越高，因为作文越长，说明内容越丰富，在实际的人工作文评分中，老师有时候也会根据作文的长短给分。word_2数值越大，分数越高，因为如果你的作文虽然很长，但是里面大部分的词语都是重复的或者是一些停用词如标点符号、“to”、“this”等，没有什么实际内容，但是如果word_2越大，说明作文的用词更多样化，从而反应作者的语言水平。word_3数值越大，分数越高，因为word_3越大，说明整篇作文的用词比较复杂(一般单词越长，越高级复杂)。

word_4越大，说明作文中每个单词长度的变化波动比较大。word_5-word_8，是统计作文中常见的各种词性(名词、形容词、动词、介词)个数，来反映作文所用的各种词性分布特征。word_9数值越大，说明作文的拼写错误个数越多，从而作文分数越低。sent_10,sent_11和上述的平均单词长度和方差是一个意思，作文句子的平均长度越长，说明文章的句式越复杂，可以从一定层面反映作者的语言功底，句子长度的方差也是反映句子长度值的波动情况。

sent_12，sent_13文章的平均从句数量越多，从句长度越长，说明文章的句式结构越复杂，即作者的语言功底越强。sent_14,sent_15也是从侧面反映文章句式结构的复杂性，句子深度越深，说明句式结构越复杂。

单词方面的特征：作文长度，去停用词、去重后作文词表大小，单词平均长度和方差，名词、形容词、动词、介词个数，这些基于统计特性的单词特征，本文采用python脚本实现。至于单词拼写错误个数，本文使用拼写检查工具Aspell，python开源社区提供了调用Aspell的第三方接口，所以可以直接使用Aspell对文章进行单词拼写检查，进而统计文章中单词拼写不正确的个数。关于句子方面的特征：平均句子长度和方差，平均从句数量，平均从句长度，句子深度的平均值和最大值，这些浅层句法特征的获取需要借助斯坦福句法解析工具Stanford Parser，它可以将一个句子解析成句法树，句法树上的每个节点表示该单词承担的句子成分，从句法树中可以获取每个句子的从句数量、从句长度以及整个句子的深度，从而得到相关的句法特征。

提取简称语言特征的transformer编码器称为浅层语言网络，浅层语言网络基于上述人工抽取的启发式规则特征，共计15种特征，本实施例首先使用15维的one-hot编码将每个特征向量化并利用transformer编码器模型的embedding_lookup层embedding，然后通过堆叠的transformer编码器形成

对于句法特征，transformer编码器通过以下步骤提取：通过预设的词性识别工具，识别文本中字符的词性，得到识别结果；通过预设的transformer编码器将识别结果转化为特征向量，得到句法特征。

句法特征是以句子为单位研究包括句子成分、时态、语态以及句子结构(如简单的主语+谓语+宾语、复杂的主语从句、宾语从句等)等语言学特征。而这些句子内部语言学特征的获取依赖于最基本的要素，即单词的词性，因此本实施例从单词的词性出发，抽取文章句法方面的特征。

通过句法网络提取句法特征，句法网络根据不同句法成分之间的句法关系对文章进行编码，本实施例采用了斯坦福词性标注工具Stanford Tagger标记作文中每个单词的词性，共计36种不同类型，然后同样通过模型的embedding_lookup层将词性文章和相应的位置信息embedding，得到了词性embedding和位置embedding，并使用6层的transformerblocks对上述embedding进行训练得到能表示整篇作文句法特征的向量表示。最后通过一个sigmoid函数的线性转换层，得到一个[0,1]区间的分数值。

对于语义特征，transformer编码器通过以下步骤提取：检测文本中字符的位置，得到文本中字符的位置信息；通过预设的transformer编码器将文本和文本中字符的位置信息转化为特征向量，得到语义特征。

浅层语言学特征、句法特征只是从英语语言学的角度评价作文的质量，但是对于初中英语的写作要求来说，单纯从语法角度来评估作文质量是远远不够的，初中英语更多的是对作文内容方面的要求，即需要对文章的语义进行挖掘。本实施例通过语义网络提取语义特征，在语义网络部分，本实施例首先使用transformer编码器的embedding_lookup层将整篇作文以及相应的位置信息embedding，得到语义网络的输入embedding和位置embedding，然后在输入embedding和位置embedding的基础上堆叠了6层的transformerblocks，从而得到整篇文章的语义表示

并通过一个带有sigmoid函数的线性转换层,得到一个[0,1]区间的分数值。

对于主题特征，预设的transformer编码器中预先构建有预训练语言模型BERT，然后通过以下步骤提取主题特征：

通过预设的transformer编码器，从文本中提取主题特征的步骤，包括：将文本输入至预训练语言模型BERT中，输出主题特征。

预训练语言模型BERT就是一个神经网络模型，可以将一个语言符号序列(如汉语、英语等)通过该网络结构变成一个数值向量，而该数值向量蕴含了该符号序列的一些文本特征，最后通过对该向量进行线性变换可以变成某个具体的数值。语言模型是自然语言处理领域最基本的模型，所有自然语言处理任务如：文本分类任务、阅读理解任务、机器翻译任务等都是建立在语言模型的基础上。

前面主要从作文的词汇、句法、语义等方面对作文进行特征选取，但是有时候作文是否切题也是评分中需要考虑的一个关键要素。初中英语作文一般会要求学生围绕给定的作文主题进行写作，因此本实施例将从主题相关度方面对作文进行特征抽取。判断一篇文章是否与主题相关，可以通过计算题目文本和作文文本之间的相似度。常见的一些文本相似度计算方法如统计单词重合数的相似性计算方法，即通过计算两个文本之间的词重叠比率判断相似性，但是主题文本一般字数较少，简单的统计题目文本和作文文本的词汇重合会使特征比较稀疏，况且主题文本中的词汇在作文中出现频率很高也不一定能够说明作文与主题相关度很高。另一种文本相似度计算方法是利用word2vec把主题文本中的单词和作文文本中的单词表示为单词向量，然后计算所有单词向量之间的余弦相似度，提取文本相似度特征。

还有就是目前比较广泛使用的基于文本向量表示的相似度计算方法，如LDA(Latent Dirichlet allocation，三层贝叶斯概率)主题模型，利用Gibbs抽样方法，得到作文文本和主题文本的主题分布向量，并计算它们之间的相似性，以及采用doc2vec模型构造主题文本和作文文本的向量表示，并将它们之间的余弦相似性计算结果作为特征。本实施例利用语言模型BERT在语言建模方面的显著优势，对主题文本进行向量表示，并计算生成的主题文本向量与作文语义向量之间的余弦相似度来抽取作文的相关度特征。

步骤S206，将浅层语言特征、句法特征、语义特征和主题特征输入至预先设定的评分模型中，得到输出结果。

评分模型需要预先设定，并且，该评分模型主要包含3个子网络，分别是语义网络、句法网络和浅层语言网络。评分模型可以通过以下步骤S11-步骤S16设定：

步骤S11，基于预设的训练集确定训练文本；训练文本携带有标准评分；

预设的训练集包括文本和文本对应的评分，训练集包括的文本即为训练文本，训练文本携带对应的标准评分。

步骤S12，提取训练文本的文本特征；文本特征包括浅层语言特征、句法特征、语义特征和主题特征；

提取训练文本的文本特征的方法与上文提到的浅层语言特征、句法特征、语义特征和主题特征的提取方法相同。

步骤S13，将浅层语言特征输入至第一预设子网络中，输出浅层语言评分；将句法特征输入至第二预设子网络中，输出句法评分；将语义特征输入至第三预设子网络中，输出语义评分；将主题特征输入至第四预设子网络中，输出主题评分；

第一预设子网络即为上文提到的浅层语言网络，第二预设子网络即为上文提到的句法网络，第三预设子网络即为上文提到的语义网络；这三个预设子网络输出格子评分的方法在前文已经说明，这里不再赘述。

对于第四预设子网络中输出主题评分的方法，本实施例采用了基于文章向量表示的文本语义相似度计算方法，将语义网络中最终形成的文章语义表示

和经过基于transformer encoder构建的预训练语言模型BERT生成的主题文本向量

进行余弦相似度计算得到主题相关度方面的评分。

步骤S14，根据述浅层语言评分、句法评分、语义评分、主题评分、以及设的权值参数，确定训练文本的训练评分；

将上述几个方面的评分结果进行加权求和得到最终的训练评分，关于各部分的权值，首先通过取平均值初始化，然后通过模型不断学习训练来确定最佳的权值分布。由于最后加权求和的结果仍是一个[0,1]的小数，而公开数据集中的人工评分是不同范围的整数，因此，需要将结果放大到相应分数范围。

通过以下公式计算训练评分：

X_i＝transformer_encoder(EM₁,EM₂,…,EM_n)；

其中，α_i是各个部分的权重系数，sim是主题特征的向量X₀和语义特征向量X₁的余弦相似度，但是余弦值的范围一般是[-1,1]，为了将相似度映射到[0,1]区间，做了上述归一化处理。σ是sigmoid函数，用于将计算结果映射到[0,1]区间，X_i是经过transformerencoder模型生成的向量表示，分别表示主题向量、语义向量、句法向量以及浅层语言向量。W和b是线性层的权重矩阵和偏置，R是作文相应评分范围的最大值。

步骤S15，根据标准评分和训练评分，调整权值参数；

标准评分和训练评分做出对比，分析区别，然后根据区别调整评价模型的权值参数。

步骤S16，继续执行基于预设的训练集确定训练文本的步骤，直至训练评分与标准评分的误差在预设范围内，得到评分模型。

每使用一个训练文本确定训练评分与对应的标准评分做出对比并调整权值参数后，都会判断该区别是否符合预设的预设范围求，如果符合，则停止调整，得到评分模型。除此以外，也可以设定一个阈值，当重复调整权值参数的次数达到该阈值时，停止条恒，得到评分模型。

本实施例构建的评分模型是基于transformer编码器的混合神经网络(HybridNeural Network based on Transformer Encoder，HNNTE)评分模型。如图3所示的一种文本评分方法的框架图，该评分模型主要包含3个子网络，分别是语义网络、句法网络和浅层语言网络。语义网络通过堆叠的transformer encoder模块对作文进行向量化表示

来学习作文的语义信息，从而理解文章是关于什么内容；此外文章中不同句子结构之间的连接可以通过句法网络进一步获取得到

从而学习文章的句法结构；最后文章的浅层语言能力可以通过人工抽取的启发式规则特征代入浅层语言网络得到

上述特征都通过堆叠的transformer encoder模块编码不同的嵌入来分别获取不同的特征，其输出最后被输入sigmoid线性层从而得到不同特征的分数。另一方面将上述编码后的语义特征向量

和经过transformer encoder模型得到的主题特征向量

进行相似度计算得到主题相关度方面的评分，最后将上述几个[0,1]区间的数值进行加权求和并映射到相应作文的评分范围得到作文的最终评分。

步骤S208，根据输出结果确定文本的评分。

具体的文本评分流程可以参见图4所示的一种文本评分方法的模型结构框图，如图4所示，用户在前端网页的输入框输入文本，经过数据采集获得作文文本，首先经过预处理，也就是去噪，把作文文本的明显的噪声去掉，例如重复的单词，明显的乱码等等。然后进行特征提取，特征提取包括浅层语言特征、句法特征、语义特征和主题特征这四个方面的特征提取，分别构建4个特征向量，输入到对应的四个子模型中，通过混合神经网络(也就是评价模型)输出评分，将该评分反馈给用户。

评分模型的构建流程可以参见图5所示一种文本评分模型生成过程的流程图；如图5所示：作文实例就是前文提到的训练集中的训练文本，根据作文实例进行特征提取，设定初始化权值，进行子模型的生成、训练和子模型的线性组合，根据预测误差率(也就是误差的预设范围)更新权值参数，最后生成评分模型。

上述方式中，说明了通过预设的transformer编码器，从文本中提取浅层语言特征、句法特征、语义特征和主题特征的具体方法，以及评分模型的构建方法，该方式中针对浅层语言特征、句法特征、语义特征和主题特征这四个方面进行全面的评价分析，可以增强评分结果的可靠性。

需要说明的是，上述各方法实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

实施例3

对应于上述方法实施例，本发明实施例提供了一种文本评分装置，如图6所示的一种文本评分装置的结构示意图，该装置包括：

文本获取模块61，用于获取待评分的文本；

特征提取模块62，用于提取文本的文本特征；文本特征包括浅层语言特征、句法特征、语义特征和主题特征；其中，语义特征用于表征文本内的语义连贯度；主题特征用于表征文本与预设的文本主题的相关度；

结果输出模块63，用于将文本特征输入至预先设定的评分模型中，得到输出结果；

评分确定模块64，用于根据输出结果确定文本的评分。

本发明实施例提供的一种文本评分装置，从待评分的文本中提取浅层语言特征、句法特征、语义特征和主题特征作为文本特征，将上述文本特征输入到预先设定的评分模型中，将评分模型输出的输出结果作为该文本的评分。该方式中针对浅层语言特征、句法特征、语义特征和主题特征这四个方面进行全面的评价分析，可以增强评分结果的可靠性。

在一些实施例中，特征提取模块，用于：通过预设的transformer编码器，从文本中提取浅层语言特征、句法特征、语义特征和主题特征。

在一些实施例中，特征提取模块，用于：计算文本的文本长度、平均句子长度和平均词汇长度；通过预设的transformer编码器将文本长度、平均句子长度和平均词汇长度转化为特征向量，得到浅层语言特征。

在一些实施例中，特征提取模块，用于：通过预设的词性识别工具，识别文本中字符的词性，得到识别结果；通过预设的transformer编码器将识别结果转化为特征向量，得到句法特征。

在一些实施例中，特征提取模块，用于：检测文本中字符的位置，得到文本中字符的位置信息；通过预设的transformer编码器将文本和文本中字符的位置信息转化为特征向量，得到语义特征。

在一些实施例中，预设的transformer编码器中预先构建有预训练语言模型BERT；特征提取模块，用于：将文本输入至预训练语言模型BERT中，输出主题特征。

在一些实施例中，评分模型通过以下步骤建立：基于预设的训练集确定训练文本；训练文本携带有标准评分；提取训练文本的文本特征；文本特征包括浅层语言特征、句法特征、语义特征和主题特征；将浅层语言特征输入至第一预设子网络中，输出浅层语言评分；将句法特征输入至第二预设子网络中，输出句法评分；将语义特征输入至第三预设子网络中，输出语义评分；将主题特征输入至第四预设子网络中，输出主题评分；根据述浅层语言评分、句法评分、语义评分、主题评分、以及设的权值参数，确定训练文本的训练评分；根据标准评分和训练评分，调整权值参数；继续执行基于预设的训练集确定训练文本的步骤，直至训练评分与标准评分的误差在预设范围内，得到评分模型。

本发明实施例提供的文本评分装置，与上述实施例提供的文本评分方法具有相同的技术特征，所以也能解决相同的技术问题，达到相同的技术效果。

实施例4

本发明实施例提供一种文本评分系统，参见图7所示的一种文本评分系统的结构示意图，该系统包括：文本评分单元71和文本解析单元72；

文本评分单元71，用于执行上述文本评分方法；

作文评分单元，其主要功能是基于前面研究的利用HNNTE构建的英语作文自动评分模型，采用经过人工标注的作文集训练模型，然后用训练好的模型来预测用户输入的一篇新作文的分数。此外，该系统还从英语作文的评分标准出发，从不同维度对用户输入的作文进行分数反馈。评分模块的整体架构图请参照图8所示的一种文本评分单元的结构图，该评分单元主要包含评分模型的训练和待评分作文的分数预测两部分。评分模型的训练是基于前面提到的初中英语作文评分模型，并利用基于transformer encoder的混合神经网络模型分别从语言、句法、内容、主题相关度这几个方面对作文进行评分，最后得出一个综合评分。

模型训练过程请参照图9所示的一种评分模型训练的流程图，在模型训练部分，首先获取人工评分的作文数据集，然后对数据集进行预处理，包括按一定比例(60％、20％、20％)划分训练集、测试集和验证集等。数据预处理之后，然后对处理后的数据进行特征提取，主要按照上面设计的初中英语作文评分模型，对作文的表层语言特征、深层句法特征、内容特征、主题相关特征分别进行提取。其中表层语言方面的特征，主要是一些浅层的词法和句法特征，具体的表层语言特征包括以下几项：作文长度、平均句子长度、平均词汇长度等(参照表1)，关于深层句法特征，主要是利用Stanford Tagger将作文转换成词性序列得到作文的句法特征，然后对这些语言学特征(浅层语言特征和深层句法特征)进行编码带入基于transformer encoder的混合神经网络模型进行训练。

内容方面的评分主要通过将文章中的单词表示成向量，并代入语义网络模型进行训练得到作文的向量表示，最后得到内容方面的评分。主题相关度的得分主要把作文文本和主题文本表示成语义向量，然后将两者之间的相似性计算结果作为文章的主题相关度得分。通过上述方法，我们可以得到各个方面的得分，然后对这些得分进行加权平均，得到最终的得分模型。因为作文的评分结果和作文所属的体裁、以及是否考虑主题相关等因素有关，因此本系统在设计前端页面时，允许用户进行作文体裁、是否主题相关两个方面的选择，服务端根据用户提交的选择结果对输入的作文调用相应训练好的模型对作文进行分数预测。

预测一篇用户新输入的作文的分数，是基于已经训练好的评分模型。针对用户输入的一篇新作文，经过数据预处理、特征提取等环节，并利用训练后的评分模型来预测分数。文章的评分结果通过网页的形式显示给用户，显示界面除了作文分数，还包括对文章的浅层语言、句法、内容、主题相关性四个方面的评价结果。待评分作文的分数预测流程请参照图10所示的一种文本分数预测流程图。如图10所示，根据用户输入的作文进行预处理，然后进行特征提取，将提取的四个特征输入评分模型，得到评分结果并将该评分结果反馈给用户。

文本解析单元72，用于确定文本中的语法错误和词法错误。

文本解析单元主要是检查文本的语法错误和词法错误。可以通过人工或者非人工的方式进行检查，一般来说，可以通过拼写工具和词法检查工具进行检查。

本发明实施例提供的一种评分系统，通过文本评分方法单元执行上述文本评分方法，通过文本解析单元解析语法错误和词法错误，该方式中针对浅层语言特征、句法特征、语义特征和主题特征这四个方面进行全面的评价分析，可以增强评分结果的可靠性。

需要说明的是，对于文本解析单元，还用于：通过拼写检查工具确定文本中的语法错误；通过爬取网页的方式确定文本中的词法错误。

作文解析单元，其主要功能是将用户输入的作文进行分析，然后给出语法错误反馈信息，错误的内容包括单词拼写不正确、词组搭配错误以及相应的建议表达等，整个解析模块的结构框架请参照图11所示的一种文本解析单元的结构图。整个解析模块主要分为词法错误和句法错误两方面的解析。用户在前端页面的输入框输入需要评分的作文，前端网页将作文发送给后台，后台作文解析程序对作文进行预处理，并调用拼写检查工具aspell找出文中拼写错误的单词，并给出拼写正确的单词，将结果送回给前端网页。句法错误检查主要通过爬取相关网页的形式实现，爬取的网页数据主要有英语文本校对网站，举例说明，页面内容包含错误位置信息、错误信息，以及推荐表达等内容。具体实现过程如下：(1)通过脚本模拟用户向上述网页输入作文这一请求过程；(2)获取网站返回的应答信息；(3)分析返回的数据格式，并对数据进行处理，从而转化成本系统最终的解析数据呈现在前端页面。

文本评分系统可以参见图12所示的一种文本评分系统的总体结构图，用户输入的作文会由Aspell进行拼写检查，通过作文评分单元输出一个评分，通过作文解析单元检查词法错误和语法错误，最后输出作文分数(即作文评分单元输出的评分)和作文解析单元得到的作文解析信息。

上述方式中说明了作文解析单元通过拼写检查工具确定文本中的语法错误；通过爬取网页的方式确定文本中的词法错误。文本评分系统不仅能够为用户提供及时的分数反馈，还能提供更细致的文章点评信息，帮助用户快速提高作文水平。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和/或终端设备的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种文本评分方法，其特征在于，包括：

获取待评分的文本；

提取所述文本的文本特征；所述文本特征包括浅层语言特征、句法特征、语义特征和主题特征；其中，所述语义特征用于表征所述文本内的语义连贯度；所述主题特征用于表征所述文本与预设的文本主题的相关度；

将所述文本特征输入至预先设定的评分模型中，得到输出结果；

根据所述输出结果确定所述文本的评分。

2.根据权利要求1所述的方法，其特征在于，提取所述文本的文本特征的步骤，包括：

通过预设的transformer编码器，从所述文本中提取所述浅层语言特征、所述句法特征、所述语义特征和所述主题特征。

3.根据权利要求2所述的方法，其特征在于，通过预设的transformer编码器，从所述文本中提取所述浅层语言特征的步骤，包括：

计算所述文本的文本长度、平均句子长度和平均词汇长度；

通过预设的transformer编码器将所述文本长度、所述平均句子长度和所述平均词汇长度转化为特征向量，得到所述浅层语言特征。

4.根据权利要求2所述的方法，其特征在于，通过预设的transformer编码器，从所述文本中提取所述句法特征的步骤，包括：

通过预设的词性识别工具，识别所述文本中字符的词性，得到识别结果；

通过预设的transformer编码器将所述识别结果转化为特征向量，得到所述句法特征。

5.根据权利要求2所述的方法，其特征在于，通过预设的transformer编码器，从所述文本中提取所述语义特征的步骤，包括：

检测所述文本中字符的位置，得到所述文本中字符的位置信息；

通过预设的transformer编码器将所述文本和所述文本中字符的位置信息转化为特征向量，得到所述语义特征。

6.根据权利要求2所述的方法，其特征在于，预设的transformer编码器中预先构建有预训练语言模型BERT；

所述通过预设的transformer编码器，从所述文本中提取所述主题特征的步骤，包括：将所述文本输入至所述预训练语言模型BERT中，输出所述主题特征。

7.根据权利要求1所述的方法，其特征在于，所述评分模型通过以下步骤建立：

基于预设的训练集确定训练文本；所述训练文本携带有标准评分；

提取所述训练文本的文本特征；所述文本特征包括浅层语言特征、句法特征、语义特征和主题特征；

将所述浅层语言特征输入至第一预设子网络中，输出浅层语言评分；将所述句法特征输入至第二预设子网络中，输出句法评分；将所述语义特征输入至第三预设子网络中，输出语义评分；将所述主题特征输入至第四预设子网络中，输出主题评分；

根据述浅层语言评分、所述句法评分、所述语义评分、所述主题评分、以及设的权值参数，确定所述训练文本的训练评分；

根据所述标准评分和所述训练评分，调整所述权值参数；

继续执行基于预设的训练集确定训练文本的步骤，直至所述训练评分与所述标准评分的误差在预设范围内，得到评分模型。

8.一种文本评分装置，其特征在于，包括：

文本获取模块，用于获取待评分的文本；

特征提取模块，用于提取所述文本的文本特征；所述文本特征包括浅层语言特征、句法特征、语义特征和主题特征；其中，所述语义特征用于表征所述文本内的语义连贯度；所述主题特征用于表征所述文本与预设的文本主题的相关度；

结果输出模块，用于将所述文本特征输入至预先设定的评分模型中，得到输出结果；

评分确定模块，用于根据所述输出结果确定所述文本的评分。

9.一种文本评分系统，其特征在于，包括：文本解析单元和文本评分单元；

所述文本评分单元，用于执行权利要求1-7任一项所述的文本评分方法；

所述文本解析单元，用于确定文本中的语法错误和词法错误。

10.根据权利要求9所述的系统，其特征在于，所述文本解析单元，还用于：

通过拼写检查工具确定所述文本中的语法错误；

通过爬取网页的方式确定所述文本中的词法错误。