CN114881029B

CN114881029B - 基于混合神经网络的中文文本可读性评价方法

Info

Publication number: CN114881029B
Application number: CN202210651472.8A
Authority: CN
Inventors: 刘春丽; 曹梦莹
Original assignee: Hefei University of Technology; Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Current assignee: Hefei University of Technology; Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Priority date: 2022-06-09
Filing date: 2022-06-09
Publication date: 2024-03-01
Anticipated expiration: 2042-06-09
Also published as: CN114881029A

Abstract

本发明公开了一种基于混合神经网络的中文文本可读性评价方法，是通过构建中文环境下的可读性词典，把语料库中文本对应的可读性分值与使用Word2vec和GloVe两种算法进行训练得到相应的词向量相乘，得到了带有明确的“可读性”的特征文本矩，然后再并行输入到BiGRU和CNN中训练出可读性评价模型，构造的特征从全局和局部的角度充分考虑包含了文本的可读性信息，从而可以在训练过程中更好地利用文本信息，使得文本可读性不再由人为主观评价，提高了文本可读性评价的准确度，具有更高的可用性。

Description

基于混合神经网络的中文文本可读性评价方法

技术领域

本发明涉及自然语言处理技术领域，具体为基于混合神经网络的中文文本可读性评价方法。

背景技术

可读性是文本沟通的基石，可读性通常用来形容某种书面语言阅读和理解的容易程度，鉴于文本可读性在满足人们的信息需求方面的重要性，以及现代信息量的爆炸式增长，文本可读性的度量需求不断增加，实现有效的文本可读性评估所带来的影响力也与日俱增，可读性研究的核心是对文本进行可读性评价，即通过对获取文本进行分析，给出该文本的难度值来表示相应文本的阅读难度水平或者用来指示给定人群对相应文本的阅读水平和理解能力。

现有的中文文本可读性评价方法，来估计文章的阅读难度等级或分数，一般基于传统特征的可读性公式法的度量指标主要依赖于两个影响可读性的因素：语义单位的熟悉程度以及语法的复杂性，现有的基于传统特征的可读性公式法计算简易，首先传统可读性公式法很少依赖于文本可读性的内在特征，难以捕捉到深度的词汇语义特征以至于其不能够丰富的表征文本来度量文本的阅读难度，导致其可用性不佳，其次传统的可读性度量仅仅基于文本的表面特征，而未挖掘更深层次的文本信息，导致现有的中文文本可读性评价方法准确性不佳。

发明内容

本发明是为了解决上述现有技术存在的不足之处，提出一种基于混合神经网络的中文文本可读性评价方法，以期能更好地利用文本信息，使得文本可读性不再由人为主观评价，并能提高文本可读性评价的准确度，具有更高的可用性，从而能提高文本可读性评价的准确度。

本发明为达到上述发明目的，采用如下技术方案：

本发明一种基于混合神经网络的中文文本可读性评价方法的特点在于，包括以下步骤：

步骤1、构建可读性词典D；

步骤1.1、构建词库中每个词语的特征集，包括：字数、整体笔画数、使用词频和部件数；

步骤1.2、将每个词语的特征集输入SVM模型进行训练，得到预测模型，利用所述预测模型对词库中的词语进行预测，得到所有词语的可读性得分，从而构建可读性词典D；

步骤2、获取待评估的中文文本信息集并进行分词和去停用词处理，用于构建标准语料库A；

步骤2.1、通过python爬取待评估的中文文本信息集，记为T＝{t₁,t₂,...,t_k}，其中，t_k表示第k条文本信息，k为文本信息的总条数；

步骤2.2、通过中文分词工具对中文文本信息集T进行分词，得到分词结果，其中，第k条文本信息t_k的分词结果记为其中，w_n,k表示所述第k条文本信息t_k中第n个文本词，N_k表示第k条文本信息t_k的最大词汇长度；

步骤2.3、对所有文本信息的分词结果进行去停用词处理后，构建标准语料库记为A；

步骤2.4、将标准语料库A分为训练文本集S＝{s₁,s₂,...,s_n}和测试文本集U＝{u₁,u₂,...,u_n′}，其中，s_n表示所述训练文本集S中第n个文本词，u_n′表示所述测试文本集U中第n′个文本词；n表示训练文本集S中的文本词总数，n′表示所述测试文本集U中的文本词总数；

步骤3、训练词向量；

步骤3.1、将训练文本集S输入GloVe模型中进行训练，得到各个文本词的d维词向量并组成共线矩阵P＝{p₁,p₂,...,p_n}，p_n表示第n个文本词s_n的d维词向量；

步骤3.2、将训练文本集S通过Word2vec模型进行训练，得到各个文本词的K维词向量并组成词向量矩阵Q＝{q₁,q₂,...,q_n}，q_n表示第n个文本词s_n的K维词向量；

步骤4、获取含有可读性信息的文本矩阵；

步骤4.1、将训练文本集S中的第n个文本词s_n对应的可读性得分c_n与共线矩阵P中相应的d维词向量p_n相乘，得到第n个含有可读性信息的文本词x_n，从而得到矩阵X＝{x₁,x₂,...,x_n}；

步骤4.2、将训练文本集S中的第n个文本词s_n对应的可读性得分c_n与词向量矩阵Q中相应的K维词向量q_n相乘，得到第n个含有可读性信息的文本词y_n，从而得到矩阵Y＝{y₁,y₂,...,y_n}；

步骤5、构建可读性评价模型，包括：BiGRU网络、CNN网络、全连接层以及softmax层；

步骤5.1、所述矩阵X＝{x₁,x₂,...,x_n}输入BiGRU网络中进行处理，并利用式(1)对x_n进行特征提取，得到第n个包含上下文信息的全局特征g_n，从而得到包含上下文语义信息的全局特征G＝{g₁,g₂,...,g_n}：

式(1)中，分别代表前向、后向GRU单元；

步骤5.2、所述矩阵Y＝{y₁,y₂,...,y_n}输入CNN网络中，利用式(2)对文本词y_n进行自上而下滑动处理，并通过第n次卷积操作得到第n个局部特征m_n，从而得到局部特征矩阵M＝{m₁,m₂,...,m_n}：

m_n＝f(w.y_n+a) (2)

式(2)中，f为非线性的ReLU激活函数；w代表卷积核的参数；a为偏置项；

步骤5.3、将所述局部特征矩阵M和全局特征G进行拼接后输出拼接向量Λ＝{Λ₁,Λ₂,...,Λ_n}，其中，Λ_n为第n个拼接后的词向量；

步骤5.4、所述拼接向量Λ依次输入到全连接层和softmax层中，并使用式(3)计算得到所有文本的可读性概率r，用于可读性分类处理：

r＝softmax(W_Λ+b) (3)

式(3)中，W为权重矩阵，b为偏置项；

步骤6、利用梯度下降法对所述可读性评价模型进行训练，并利用式(4)计算损失函数L，以更新网络参数，当迭代次数达到最大迭代次数时，停止训练，从而得到最优可读性评价模型：

步骤7、将测试文本集U输入所述最优可读性评价模型进行预测，并输出可读性评价结果。

与现有技术相比，本发明的有益效果在于：

本发明通过构建中文环境下的可读性词典，把语料库中文本对应的可读性分值与使用Word2vec和GloVe两种算法进行训练得到相应的词向量相乘，得到了带有明确的可读性的特征文本矩阵，然后再并行输入到BiGRU和CNN中训练出可读性评价模型，构造的特征是从全局和局部的角度充分考虑了文本的特征，并与可读性词典结合强调了文本的可读性信息，从而可以在训练过程中更好地利用文本信息，使得文本可读性不再由人为主观评价，提高了文本可读性评价的准确度，具有更高的可用性。

附图说明

图1为本发明CNN模型提取局部特征以及BiGRU模型提取全局特征的结构图。

具体实施方式

请参阅图1，本实施例中，一种基于混合神经网络的中文文本可读性评价方法，包括以下步骤：

步骤1、构建可读性词典D；

步骤1.1、构建词库中每个词语的特征集，包括：字数、整体笔画数、使用词频和部件数，其中，字数为每个词语的个数，整体笔画数为每个词语的笔画数总和，使用词频为每个词语在词库中出现的次数，部件数是每个词语的部件数总和；

步骤1.2、将每个词语的特征集输入SVM模型进行训练，得到预测模型，利用预测模型对词库中的词语进行预测，得到所有词语的可读性得分，从而构建可读性词典D；

步骤2、获取待评估中文文本信息集，进行分词处理后再去停用词，并根据结果构建标准语料库A；

步骤2.1、通过python爬取待评估中文文本信息集，记为T＝{t₁，t₂，......，t_k}，其中，t_k表示第k条文本信息，k为文本信息的总条数；

步骤2.2、通过中文分词工具对中文文本信息集T进行分词，得到分词结果，其中，第k条文本信息t_k的分词结果记为其中，w_n,k表示第k条文本信息t_k中第n个文本词，N_k表示第k条文本信息t_k的最大词汇长度，jieba分词是python自带的中文分词，可以保证分词准确；

步骤2.4、将标准语料库A分为训练文本集S＝{s₁,s₂,...,s_n}和测试文本集U＝{u₁,u₂,...,u_n′}，其中，s_n表示训练文本集S中第n个文本词，u_n′表示测试文本集U中第n′个文本词；n表示训练文本集S中的文本词总数，n′表示测试文本集U中的文本词总数；

步骤3、训练词向量；

步骤4、获取含有“可读性信息”的文本矩阵；

步骤5.1、矩阵X＝{x₁,x₂,...,x_n}输入BiGRU网络中进行处理，并利用式(1)对x_n进行特征提取，得到第n个包含上下文信息的全局特征g_n，从而得到包含上下文语义信息的全局特征G＝{g₁,g₂,...,g_n}：

式(1)中，分别代表前向、后向GRU单元；

作为BiGRU网络的输入，BiGRU网络模型结构由三部分组成，三部分组成为文本向量化输入层、隐含层和输出层，其中，输入层就是输入即文本处理成BiGRU层能够直接接收并能处理的序列向量形式；隐含层的作用就是计算BiGRU层输出的词向量，文本词向量为BiGRU层的输入向量。BiGRU层的目的主要是对输入的文本向量进行文本深层次特征的提取，然后计算每个词向量应分配的概率权重；

步骤5.2、所述矩阵Y＝{y₁,y₂,...,y_n}输入CNN网络中，利用式(2)对y_n进行自上而下滑动处理，通过第n次卷积操作得到第n个局部特征m_n，从而得到局部特征矩阵M＝{m₁,m₂,...,m_n}：

m_n＝f(w.y_n+a) (2)

CNN模型结构总共由四部分组成，四部分包括了输入层、卷积层、池化层和输出层，CNN模型可以将产生信息输出，若输出信息错误，将会进行反向传播，以不断改变权值矩阵权重和偏差值，CNN部分使用不同尺寸的卷积核提取不同粒度的文本局部特征信息；

步骤5.3、将局部特征矩阵M和全局特征G进行拼接后输出拼接向量Λ＝{Λ₁,Λ₂,...,Λ_n}，其中，Λ_n为第n个拼接后的词向量；

步骤5.4、拼接向量Λ依次输入到全连接层和softmax层中，并使用式(3)计算得到所有文本的可读性概率r，进行可读性分类处理：

r＝softmax(W_Λ+b) (3)

式(3)中，W为权重矩阵，b为偏置项；

步骤6、利用梯度下降法对可读性评价模型进行训练，并利用式(4)计算损失函数L，以更新网络参数，当迭代次数达到最大迭代次数时，停止训练，从而得到最优可读性评价模型：

步骤7、将测试文本集U输入最优可读性评价模型进行预测，并输出可读性评价结果。

Claims

1.一种基于混合神经网络的中文文本可读性评价方法，其特征在于，包括以下步骤：

步骤1、构建可读性词典D；

步骤3、训练词向量；

步骤4、获取含有可读性信息的文本矩阵；

式(1)中，分别代表前向、后向GRU单元；

m_n＝f(w.y_n+a) (2)

r＝soft max(W_Λ+b) (3)

式(3)中，W为权重矩阵，b为偏置项；