CN110705306A

CN110705306A - 一种作文文题一致性的测评方法

Info

Publication number: CN110705306A
Application number: CN201910807298.XA
Authority: CN
Inventors: 刘杰; 周建设; 张凯; 史金生; 刘丽珍
Original assignee: Capital Normal University
Current assignee: North China University of Technology
Priority date: 2019-08-29
Filing date: 2019-08-29
Publication date: 2020-01-17
Anticipated expiration: 2039-08-29
Also published as: CN110705306B

Abstract

本发明公开了一种作文文题一致性的测评方法，该测评方法包括：提取待测作文特征，包括抽取待测作文的人物性格形象向量和故事描写向量；构建文题一致性判别模型，判别模型可以根据待测作文的人物性格形象特征与故事描写特征，实现两部分特征的一致度判断，完成对文题一致性的测评。本发明构建的模型可以在无监督的条件下进行训练，并对未知的作文进行文题一致性测评，从而解决了文题一致性评测模型对人工标注的依赖这一问题。本发明的测评方法准确率高，无需依赖人工标注数据，可适用于一般作文的文题一致性测评。

Description

一种作文文题一致性的测评方法

技术领域

本发明涉及计算机技术领域，具体地，涉及一种作文文题一致性的测评方法。

背景技术

文题一致性在作文评测中起着关键作用。目前，国内对于作文自动测评系统的设计及其算法的研究已经初步形成规模。这些研究主要采取自然语言处理技术，抽取待测作文中的文本信息，通过监督型机器学习模型，将其转化成分类或回归问题，实现作文的评级或评分。在这些研究中，用于作文评测所抽取的文本信息主要是文本的浅层特征，这是鉴于自然语言处理领域中利用浅层文本特征实现文本分类/回归任务的趋势。

现有技术虽然能实现语料库驱动的针对文本句式句群、用语习惯和词语搭配的测评，也可以实现对于全文主题的分类及主题词、特征词的提取，但对于作文文题一致性测评这一复杂任务还不能达到所要求的准确性。中小学人物类作文往往句式灵活复杂，感情丰富，主题多样且段落主题之间的关系多样灵活。所以，对于中小学人物类作文段与段的关系、每段与全文主题的关系，不仅仅需要传统的主题分析实现，也需要潜在语义模型的技术以及知识图谱的技术共同解决。

发明内容

本发明旨在提出一种作文文题一致性的测评方法，以解决文题一致性评测模型对人工标注的依赖的技术问题。

为实现上述目的，本发明采用如下技术方案，

一种作文文题一致性的测评方法，所述测评方法包括：

提取待测作文特征，包括抽取待测作文的人物性格形象向量和故事描写向量；

构建文题一致性判别模型，完成对文题一致性的测评，包括：

S1.将人物性格形象向量与故事描写向量映射到同一维度，得到相同维度的人物抽象特征和故事抽象特征；

S2.使用一层共享权值的神经网络提取抽象特征，以使人物抽象特征与故事抽象特征映射至同一个抽象特征空间内；

S3.在最终的抽象特征空间计算样本的相似度。

进一步地，在提取待测作文特征之前，包括前期步骤：

a.人工构建外貌名词词库；

b.构建外貌搭配字典；

c.人工构建性格词库，对性格词的同义词与近义词进行扩展；

d.构建指代消解程序，利用指代消解程序筛选并构建核心人物库；

e.利用特征选择技术筛选事件类关键词。

进一步地，抽取待测作文的人物性格形象向量，具体包括步骤：

S01.抽取人物出现频次向量；

S02.抽取核心人物的性格关键词特征向量；

S03.抽取核心人物的外貌搭配向量；

S04.通过逆向语义推理的方式获取待测作文核心人物的隐式性格特征向量；

S05.对步骤S01-S04的特征向量进行拼合，获得待测作文中描述核心人物的人物性格形象向量。

进一步地，抽取待测作文的故事描写向量，具体包括：

采用Biterm-LDA无监督主题模型抽取主题特征向量；将主题特征向量与步骤e中事件类关键词对应的tf-idf向量拼合，获得待测作文的故事描写向量。

进一步地，步骤S1中，网络不共享参量，对人物性格形象向量与故事描写向量的映射过程彼此独立。

进一步地，步骤S1中，对人物性格形象向量的映射包括：采用矩阵对人物性格形象向量进行线性映射；采用激活函数激活，得到人物抽象特征；

激活函数公式如下，

F_{layer_1_fig}＝activation(W_{l_1_fig}X^fig)

其中，W_{l_1_fig}为对人物性格形象向量进行线性映射的矩阵，形状为[200，m]，m为人物性格形象向量的维度，X^fig为输入的人物性格形象向量。

进一步地，步骤S1中，对故事描写向量的映射包括：采用矩阵对人物性格形象向量进行线性映射；采用激活函数激活，得到故事抽象特征；

激活函数公式如下，

F_{layer_1_st}＝activation(W_{l_1_st}X^st)

其中，W_{1_1_st}为对故事描写向量进行线性映射的矩阵，形状为[200，n]，n为故事描写向量的维度，X^st为输入的故事描写向量。

进一步地，步骤S2中，对人物抽象特征与故事抽象特征的映射包括：

采用同一个映射矩阵W_C和偏置b_c对人物抽象特征与故事抽象特征进行映射，其中W_C维度为[75,200]，b_c为列向量，维度为75；

采用激活函数激活，从而将人物抽象特征与故事抽象特征映射至同一抽象特征空间内。

进一步地，步骤S3中，通过计算最终的抽象特征空间内人物抽象特征与故事抽象特征的余弦相似度，得到作文文题一致性分数；余弦相似度函数为，

其中，F_fig为将人物抽象特征映射至最终的抽象特征空间的函数，F_st为将故事抽象特征映射至最终的抽象特征空间的函数。

进一步地，构建文题一致性判别模型过程中，还包括对所述判别模型进行训练，训练时采用的网络损失函数为，

其中，

是训练集中第i篇作文的人物性格形象特征向量，

为训练集中第i篇作文的故事描写特征向量，

为训练集中第j篇作文的故事描写特征向量，其中，第j篇与第i篇作文的核心人物不同；β为正例损失强度系数。

本发明具有以下有益效果：

本发明的作文文题一致性的测评方法，抽取待测作文的人物性格形象向量和故事描写向量，并构建文题一致性判别模型，判别模型可以根据待测作文的人物性格形象特征与故事描写特征，实现两部分特征的一致度判断，完成对文题一致性的测评。本发明构建的模型可以在无监督的条件下进行训练，并对未知的作文进行文题一致性测评，在保证预测准确率的同时，解决了文题一致性评测模型对人工标注的依赖的问题。

附图说明

附图1为本发明文题一致性判别模型示意图。

具体实施方式

以下结合附图对本发明的实施例进行详细说明，但是本发明可以由下述所限定和覆盖的多种不同方式实施。

本发明的作文文题一致性的测评方法，包括：

S3.在最终的抽象特征空间计算样本的相似度。

本发明的作文文题一致性的测评方法，抽取待测作文的人物性格形象向量和故事描写向量，并构建文题一致性判别模型，判别模型可以根据待测作文的人物性格形象特征与故事描写特征，实现两部分特征的一致度判断，完成对文题一致性的测评。本发明构建的模型可以在无监督的条件下进行训练，并对未知的作文进行文题一致性测评，从而解决了文题一致性评测模型对人工标注的依赖这一问题。

本实施例中，在提取待测作文特征之前，包括前期步骤：

a.人工构建外貌名词词库。

利用人工遴选的方式，选取共计186个较高频率的外貌类名词，作为选取外貌搭配的种子名词。

b.构建外貌搭配字典。

获取无标注的人物类作文文本40986篇，在这些文本中抽取所有频次>30的外貌搭配。优选地，利用LTP语言云平台按照固定句法模式抽取文本中所有固定的搭配，并经人工遴选获得共计98个有信息价值的外貌搭配。

c.人工构建性格词库，对性格词的同义词与近义词进行扩展。

通过人工遴选的方式获取628个频率比较高的性格词语，形成性格列表，并对性格词的同义词与近义词进行扩展。

d.构建指代消解程序，利用指代消解程序筛选并构建核心人物库。

具体地，指代消解程序的输入为人工制定的人物-代词元组序列，以及无标注的人物类作文文本经LTP语言云平台进行分词及词性标注的语料，筛选出其中所有的代词，根据这些代词的上下文环境，程序将每个代词映射到一个人物类别上，最后，程序会为作文中出现的所有人物按出现频次排序，出现最高频次的人物即设定为文本所描写的核心人物。手工指定的人物类别总数为76。

e.利用特征选择技术筛选事件类关键词。

获取仅标注了人物标签的人物类作文文本7644篇，利用特征选择的技术完成事件类关键词的筛选。具体步骤为：首先，对仅标注了人物标签的人物类作文文本利用LTP工具进行分词和词性标注，过滤步骤c中所构建的性格词库中所有性格关键词，最后利用tf-idf文本表示方式将集合中所有的文本表示为tf-idf向量形式。由此得到4393维的故事类关键词向量。

在完成前期步骤后，抽取待测作文的人物性格形象向量和故事描写向量。

本实施例中，抽取待测作文的人物性格形象向量，具体包括步骤：

S01.抽取人物出现频次向量。

S02.抽取核心人物的性格关键词特征向量。

在前期步骤c中已构建了常用的人物性格词628个。在抽取核心人物性格关键词之前，首先利用前期步骤d中的指代消解程序将待测作文中核心人物识别出来，然后再分割出核心人物出现的句子。在此假定核心人物出现的句子中所包含的性格关键词为对文本有价值的性格词特征。利用tf-idf文本表示方式将作文中的所有性格词转化为628维的向量，向量中每个成分对应一个性格词的特征值，同时使用同义词/近义词扩展的方法对相同意义的性格特征进行填补。

S03.抽取核心人物的外貌搭配向量。

在前期步骤b中已经利用LTP语言云平台，抽取了全体文本中的外貌搭配。在此,首先根据指代消解程序分割出核心人物出现的语句，再从这些语句中抽取外貌搭配。由于外貌搭配字典中一共有98种外貌搭配，所以全文核心人物的外貌搭配用98维向量表示，利用tf-idf文本表示技术表示每篇文本中核心人物对应的外貌搭配特征。

S04.通过逆向语义推理的方式获取待测作文核心人物的隐式性格特征向量。待测作文核心人物的隐式性格特征表示为18维的向量

步骤S01-S04从待测作文中提取中心思想，即核心人物性格形象向量，涵盖了对人物出现频次向量、性格关键词特征向量、外貌搭配向量与隐式性格特征向量的提取过程，这四步分别提取了76维、628维、98维和18维的特征信息，最后，拼合这部分向量，获得描述待测作文核心人物性格形象的820维向量。在后续的模型训练与预测中，针对所有作文均应用人物性格形象向量进行核心人物形象的形式化定量表示。

本实施例中，抽取待测作文的故事描写向量，具体包括：

获取无标注的人物类作文文本39785篇作为训练集，训练Biterm-LDA无监督主题模型来进行主题特征抽取，训练的主题模型的两个先验超参数为α＝0.1，β＝0.01，主题数K＝220，从而形成220维的主题向量特征，将这部分特征与步骤e中事件类关键词对应的4393维tf-idf向量拼合，形成最终的作文4613维故事描写向量，即故事段落文本的特征量化表示。

本实施例中，在针对作文的人物性格形象描写和故事描写段落分别抽取了人物性格形象向量和故事描写向量后，利用这两部分的数据构建文题一致性判别模型，完成对文题一致性的测评。针对作文的人物性格形象特征与故事描写特征的语义级对应问题，设计了直接应用人工神经网络模型实现人物性格形象特征与故事描写特征之间的对应关系训练。该模型设计的动机是将同一篇作文中的人物性格形象描写向量与故事描写向量映射到相近的抽象语义空间内，而不同人物对应的故事描写向量与该篇作文的人物性格形象向量在映射后，会出现较远的距离。

图1所示的文题一致性判别模型为本发明采用的神经网络模型Match_Net_Saimese。神经网络模型的左下部分为从每篇文本中抽取的人物性格形象向量，右下部分为从每篇文本中抽取的故事描写向量，在网络的第一层神经网络模型执行步骤S1。优选地，步骤S1中，网络不共享参量，对人物性格形象向量与故事描写向量的映射过程彼此独立。

本实施例的步骤S1中，对人物性格形象向量的映射包括：采用矩阵对人物性格形象向量进行线性映射；采用激活函数激活，得到人物抽象特征；

激活函数公式如下，

F_{layer_1_fig}＝activation(W_{l-1_fig}X^fig)

其中，W_{l_1_fig}为对人物性格形象向量进行线性映射的矩阵，形状为[200,m]，m为人物性格形象向量的维度，X^fig为输入的人物性格形象向量。

优选地，对人物性格形象向量进行线性映射的矩阵W_{l_1_fig}形状为[200,820]。

人物性格形象向量被线性映射并经过激活函数激活，得到200维的人物抽象特征，记为Layer_{_1_fig}。

本实施例的步骤S1中，对故事描写向量的映射包括：采用矩阵对人物性格形象向量进行线性映射；采用激活函数激活，得到故事抽象特征；

激活函数公式如下，

F_{layer_1_st}＝activation(W_{l_1_st}X^st)

其中，W_{l_1_st}为对故事描写向量进行线性映射的矩阵，形状为[200,n]，n为故事描写向量的维度，X^st为输入的故事描写向量。

优选地，对故事描写向量进行线性映射的矩阵W_{l_1_story}形状为[200,4613]。

故事描写向量被线性映射并经过激活函数激活，得到200维的故事抽象特征，记为Layer_{_1_story}。

如图1所示，神经网络模型的第二层为孪生网络设置，在神经网络模型的第二层执行步骤S2时，利用同一组参数，将人物抽象特征与故事抽象特征映射到同一抽象特征空间内。在该抽象特征空间内，网络优化的目标是使来自同一篇文本内的人物形象性格向量与故事描写向量邻近，使来自不同核心人物的作文人物形象向量与故事描写向量的距离疏远。

本实施例的步骤S2中，对人物抽象特征与故事抽象特征的映射包括:

采用同一个映射矩阵W_C和偏置b_c对人物抽象特征与故事抽象特征分别进行映射，其中W_C维度为[75,200],b_c为列向量，维度为75；

优选地，步骤S2中采用的激活函数与步骤S1中采用的激活函数相同。

如图1所示，神经网络模型的第三层即为最终的抽象特征空间。

本实施例的步骤S3中，通过计算最终的抽象特征空间内人物抽象特征与故事抽象特征的余弦相似度，得到作文文题一致性分数；余弦相似度函数为，

优选地，函数F_fig、F_st与步骤S2中采用的激活函数相同。

本实施例中，为了有效提高模型的测评准确度，构建文题一致性判别模型过程中，还包括对该神经网络模型进行训练，训练时采用的网络损失函数为，

其中，

是训练集中第i篇作文的人物性格形象特征向量，

为训练集中第i篇作文的故事描写特征向量，

在对该神经网络模型进行训练时，彼此对应的人物性格特征向量与故事向量称为正例，否则为反例。实际训练时，输入数据为三个向量，前两个为对应的人物性格特征向量与故事特征向量，然后再从与该篇作文核心人物不同的所有作文中随机取出一篇，取其故事描写特征向量，组成一组训练数据。这组数据经步骤S1和步骤S2两层网络映射后，使用网络损失函数可以计算出它的损失。

本发明采用的网络损失函数，可实现在训练数据中来自不同的核心人物的人物性格特征向量与故事向量在最终的抽象特征空间内余弦相似度<＝0时，不做惩罚，采用“不敏感代价”的处理方式，实现抗过拟合的效果。

优选地，在训练神经网络模型Match_Net_Saimese时，选择AdamOptimizer的自适应学习算法为神经网络每次训练迭代中的每个参数指定学习步长，因此使得每个参数可以根据历史步长做出相应的变更，加速神经网络的训练。

优选地，在训练神经网络模型Match_Net_Saimese时，使用0.0006作为学习率，模型在一次优化训练中处理32个正例和32个反例。L2正则化向参数Lamda选择为5*10^-5，网络学习的轮次设为20，使用指数下降法动态调整学习率，设置折损率decay_rate为0.8，即每个学习轮次后将学习率折损0.8倍，动态地学习率有助于更好地调节训练步长，使得模型训练易于收敛，避免在损失函数的局部极小点进行剧烈震荡。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种作文文题一致性的测评方法，其特征在于，所述测评方法包括：

S3.在最终的抽象特征空间计算样本的相似度。

2.根据权利要求1所述的作文文题一致性的测评方法，其特征在于，

在提取待测作文特征之前，包括前期步骤：

a.人工构建外貌名词词库；

b.构建外貌搭配字典；

e.利用特征选择技术筛选事件类关键词。

3.根据权利要求2所述的作文文题一致性的测评方法，其特征在于，

抽取待测作文的人物性格形象向量，具体包括步骤：

S01.抽取人物出现频次向量；

S02.抽取核心人物的性格关键词特征向量；

S03.抽取核心人物的外貌搭配向量；

4.根据权利要求2所述的作文文题一致性的测评方法，其特征在于，

抽取待测作文的故事描写向量，具体包括：

采用Biterm-LDA无监督主题模型抽取主题特征向量；

将主题特征向量与步骤e中事件类关键词对应的tf-idf向量拼合，获得待测作文的故事描写向量。

5.根据权利要求1所述的作文文题一致性的测评方法，其特征在于，

步骤S1中，网络不共享参量，对人物性格形象向量与故事描写向量的映射过程彼此独立。

6.根据权利要求1所述的作文文题一致性的测评方法，其特征在于，

步骤S1中，对人物性格形象向量的映射包括：

采用矩阵对人物性格形象向量进行线性映射；

采用激活函数激活，得到人物抽象特征；

所述激活函数公式如下，

F_{layer_1_fig}＝activation(W_{l_1_fig}X^fig)

7.根据权利要求1所述的作文文题一致性的测评方法，其特征在于，

步骤S1中，对故事描写向量的映射包括：

采用矩阵对人物性格形象向量进行线性映射；

采用激活函数激活，得到故事抽象特征；

所述激活函数公式如下，

F_{layer_1_story}＝activation(W_{l_1_st}X^st)

8.根据权利要求1所述的作文文题一致性的测评方法，其特征在于，

步骤S2中，对人物抽象特征与故事抽象特征的映射包括:

采用同一个映射矩阵W_C和偏置b_c对人物抽象特征与故事抽象特征进行映射，其中W_C维度为[75,200],b_c为列向量，维度为75；

9.根据权利要求1所述的作文文题一致性的测评方法，其特征在于，

步骤S3中，通过计算最终的抽象特征空间内人物抽象特征与故事抽象特征的余弦相似度，得到作文文题一致性分数；余弦相似度函数为，

10.根据权利要求9所述的作文文题一致性的测评方法，其特征在于，

构建文题一致性判别模型过程中，还包括对所述判别模型进行训练，训练时采用的网络损失函数为，

其中，X_i ^fig是训练集中第i篇作文的人物性格形象特征向量，X_i ^st为训练集中第i篇作文的故事描写特征向量，X_j ^st为训练集中第j篇作文的故事描写特征向量，其中，第j篇与第i篇作文的核心人物不同；β为正例损失强度系数。