CN110309306B

CN110309306B - 一种基于wsd层级记忆网络的文档建模分类方法

Info

Publication number: CN110309306B
Application number: CN201910530095.0A
Authority: CN
Inventors: 李翔; 张柯文; 朱全银; 方强强; 李文婷; 周泓; 丁瑾; 冯万利
Original assignee: Huaiyin Institute of Technology
Current assignee: Huaiyin Institute of Technology
Priority date: 2019-06-19
Filing date: 2019-06-19
Publication date: 2022-08-26
Anticipated expiration: 2039-06-19
Also published as: CN110309306A

Abstract

本发明公开了一种基于WSD层级记忆网络的文档建模分类方法。首先，通过Bert算法基于词向量得到相似句子文本的句嵌入矩阵，以获得词语之间语义信息；然后，将句子映射到句嵌入矩阵空间得到句子的向量化表示；最后，将分完句文档的序列数据输入到BiLSTM模型中，同时获取每个句子的注意力权重，得到文档的向量化表示，保留了文档内部语义联系。本发明方法可有效获取一种准确度最高的文档建模，充分考虑到词句级联的层次关系，增加文档建模内部的语义联系，对于类间数据相似性较高的文档分类更加准确。

Description

一种基于WSD层级记忆网络的文档建模分类方法

技术领域

本发明属于自然语言处理和文档分类技术领域，特别涉及一种基于WSD层级记忆网络的文档建模分类方法。

背景技术

本发明中的文档建模分类算法对传统的有监督文档分类有重要的作用和意义。以往在面对文本标签的分类问题的时候，研究者们会选择将向量空间模型融入到文本分类中，该类方法要求将文本映射到向量空间中进行有监督的训练后，从而利用训练好的分类器对未分类文本进行分类，但是在此过程中需要对大量的特征进行人工设计，且忽略了文本内部的语义联系。因此，为发掘历史文档之间的语义关系，对文档进行从词到句，句到文档建模以提高标签分类的准确度，结合神经网络算法为相关系统提供准确高效的文档建模分类方案。

李翔，朱全银等人已有的研究基础包括：X.Li,Z.Wang,S.Gao,R.Hu,Q.Zhu andL.Wang,"An Intelligent Context-Aware Management Framework for Cold ChainLogistics Distribution,"in IEEE Transactions on Intelligent TransportationSystems.doi:10.1109/TITS.2018.2889069；严云洋,瞿学新,朱全银,李翔,赵阳.基于离群点检测的分类结果置信度的度量方法[J].南京大学学报(自然科学),2019,55(01):102-109；李翔,朱全银.联合聚类和评分矩阵共享的协同过滤推荐[J].计算机科学与探索,2014,8(6):751-759；李翔,朱全银.Adaboost算法改进BP神经网络预测研究[J].计算机工程与科学,2013,35(08):96-102.；李翔,朱全银,王尊.基于可变基函数和GentleAdaBoost的小波神经网络研究[J].山东大学学报(工学版),2013,43(05):31-38；朱全银,潘禄,刘文儒,等.Web科技新闻分类抽取算法[J].淮阴工学院学报,2015,24(5):18-24；Quanyin Zhu,Sunqun Cao.A Novel Classifier-independent Feature Selection Algorithm forImbalanced Datasets.2009,p:77-82；Quanyin Zhu,Yunyang Yan,Jin Ding,JinQian.The Case Study for Price Extracting ofMobile Phone Sell Online.2011,p:282-285；Quanyin Zhu,Suqun Cao,Pei Zhou,Yunyang Yan,Hong Zhou.Integrated PriceForecast based on Dichotomy Backfilling and Disturbance FactorAlgorithm.International Review on Computers and Software,2011,Vol.6(6):1089-1093；朱全银，冯万利等人申请、公开与授权的相关专利：李翔，朱全银，王留洋.一种基于集成学习的PM2.5预报方法:ZL201410174923.2,2014.04.28；李翔，朱全银，胡荣林，周泓.一种基于谱聚类的冷链物流配载智能推荐方法.中国专利公开号:CN105654267A,2016.06.08；朱全银，胡蓉静，何苏群，周培等.一种基于线性插补与自适应滑动窗口的商品价格预测方法.中国专利:ZL 201110423015.5,2015.07.01；朱全银，曹苏群，严云洋，胡蓉静等，一种基于二分数据修补与扰乱因子的商品价格预测方法.中国专利:ZL201110422274.6,2013.01.02。

BERT模型：

2018年Google发布了基于双向Transformer的大规模预训练语言模型BERT，最好地表征词和句子以理解其潜在的含义和关系。Bert模型在情感分类、命名实体识别等任务中取得了很好的效果。主要优势在于它是首个用于自然语言处理预训练的无监督、深度双向系统。Bert模型于深度学习中使用三层嵌入层联合调节上下文对文本训练，包括tokenembedding、segment embeddings和position embeddings，相对于传统的向量空间模型，是一种很好的保留语义的语言模型。

BiLSTM神经网络

在BiLSTM神经网络中添加Attention机制，即在不同时刻计算输出特征向量的权重，突出句子的重要特征，从而增加文档表示之间的语义联系，使整个模型获得更好的效果。通过BiLSTM结合Attention实现文档的向量化建模，对样本训练分类，有效加强对分类样本的特征表示，提高分类模型的准确率。

赵燕清，魏墨济，朱世伟等.一种基于方差的文档分类方法.中国专利:ZL201410215035.7,2014.05.21，根据文档中词频方差的不同将待分类文档合理的区分开，但这种方式不能有效的保留句子之间复杂的语言关系，对于类间相似度很高的文档难以准确的分类；李双印，潘嵘.一种文档建模方法.中国专利公开号:CN107357927A,2017,11,17，通过设计一种能够同时利用单词和标签信息，以及自动利用标签种类信息，对半结构化文档进行有效的建模，却忽略了词到句，句到文档的组成特点；黄英仁，王子文，薛云.基于层次性多注意力网络的文档分类方法.中国专利公开号:CN 109558487A,2019,04,02，引入CNN attention，利用CNN模型获取窗口内句子之间的局部相关特征，利用BiGRU序列模型来对文档进行从词到句，句到文档建模。虽然模型使用Attention机制之后性能水平能够得到提升，但是计算量的增加使模型的训练时间加长。

上述各种模型在文档分类任务上取得了显著的效果。然而，传统的文档建模还存在以下问题：1、通过词嵌入基于词频方差的方法实现文档的向量化，然而该方法并不能充分利用文本语义之间的关系；2、使用注意力网络对模型训练的时间加长，且无法有效地利用文档内部的结构信息，在多标签分类准确度方面无法满足实际应用需求。针对这些问题，本发明提出一种基于WSD层级记忆网络的文档建模分类方法。首先，通过一种基于Bert模型的句嵌入方式进行句子表示，增强句子表示的语义关系；然后，利用BiLSTM记忆网络结合Attention机制，对每个时刻输出信息的重要程度进行表示，加强句子之间的内在联系，从数据中学习连续的文档表示。对于类间文本特征相似度很高的数据集，达到理想的分类效果。

发明内容

发明目的：针对上述问题，本发明提供一种基于WSD层级记忆网络的文档建模分类方法，可优化分类准确度和速度，缩减从业者的工作时长，提高相关产品的运行效率。

技术方案：本发明提出一种基于WSD层级记忆网络的文档建模分类方法，包括如下步骤：

(1)输入文档语料，定义D1为待清洗文档数据集，将待清洗文档数据集D1去重，对内容分句和去标点符号，清洗后得到文档数据集D2；

(2)建立Bert模型，提取待处理文档数据集D2中所有句子文本数据集S1并进行分词，将每个词转换成固定维度的向量，基于词向量句子序列两两组合形成句子对并进行相似语义学习，将学习到的每个句子嵌入到句子的每个标记中，以获取词语间的上下文信息，得到文本句向量空间矩阵E；

(3)将步骤(1)中待处理文档数据集D2映射到文本句向量空间矩阵E中，得到句向量表示的待分类文档数据集D3；

(4)经步骤(3)生成的D3作为双向长短时记忆网络即BiLSTM的输入，通过正向和反向的顺序，结合Attention机制提取句子上下文语义信息，得到基于语义表示的向量化文档，通过Softmax层进行文档分类，输出文档分类的概率。

进一步的，所述步骤(1)中得到文档数据集D2的具体步骤如下：

(1.1)定义Text为单篇待清洗文档，定义id,title,content,label分别为单篇文档的序号、标题、内容和标签，并且满足关系Text_a＝{id_a,title_a,content_a,label_a}；

(1.2)定义D1为待清洗文档数据集，D1＝{Text₁,Text₂,…Text_a,…Text_len(D1)}，Text_a为D1中第a个单篇待分类文档，其中，len(D1)为D1中文档数量，变量a∈[1,len(D1)]；

(1.3)D1中每篇文档的标题以句子形式保存于内容之前，去重后将每篇文档内容切分成句，过滤掉空值及重复句；

(1.4)得到待处理文档数据集D2＝{T1₁,T1₂,…T1_n,…T1_len(D2)}，其中，D2为分词后的文档序列集合，len(D2)为文档数量，T1_n表示D2中第n个单篇待处理文档序列，变量n∈[1,len(D2)]。

进一步的，所述步骤(2)中得到文本句向量空间矩阵E的具体步骤如下：

(2.1)将步骤(1)清洗后的数据集D2作为语料库按句子输入；

(2.2)得到待处理句子文本数据集S1，S1＝{sentence₁,sentence₂,…sentence_c,…sentence_len(s1)}，其中len(S1)为S1中句子数量，sentence_c为S1中的句子文本，c∈[1,len(S1)]；

(2.3)定义循环变量i1用来遍历S1，i1赋初值为1；

(2.4)如果i1≤len(S1)则跳转到步骤(2.5)，否则跳转到步骤(2.6)；

(2.5)建立Bert模型，输入句子文本sentence_i1，待处理句子文本数据集中句子进行分词，将每个词转换成固定维度的向量，得到基于词向量的句子序列seg_sentence_i1；

(2.6)i1＝i1+1；

(2.7)得到向量化句子序列集合S2＝{seg_sentence₁,seg_sentence₂,…seg_sentence_d,…seg_sentence_len(S2)}，其中，len(S2)为S2中句子数量，seg_sentence_d为向量化句子序列集合S2中第d个句向量，变量d∈[1,len(S2)]；

(2.8)将S2中基于词向量的句子序列两两组合形成句子对；

(2.9)输入(2.8)形成的句子对组成一个序列，每个序列的第一个词以特殊的标记[CLS]表示，每个句子对被组合为一个序列，通过特殊的标记[SEP]将每个句子分开；

(2.10)将学习到的每个句子分别标记为v₁,v₂,…v_m…,v_len(E)，语义相同的嵌入到同一个标记中，v_m为学习到包含语义的句向量；

(2.11)得到句向量空间矩阵E＝{v₁,v₂,…v_m…,v_len(E)}，其中，len(E)为E的维度，v_m为句向量空间矩阵中第m个句子向量，变量m∈[1,len(E)]。

进一步的，所述步骤(3)中得到待分类文档数据集D3的具体步骤如下：

(3.1)定义循环变量i2用来遍历步骤(1)中获得的待处理文档数据集D2，D2＝{T1₁,T1₂,…T1_n,…T1_len(D2)}，len(D2)为待处理文档数据集中文档数量，T1_n表示D2中第n个文档，变量n∈[1,len(D2)]，i2赋初值为1；

(3.2)如果i2≤len(D2)则跳转到步骤(3.3)，否则跳转到步骤(3.9)；

(3.3)定义循环变量i3用来遍历T1_i2,T1_i2为D2中第i2篇文档，i3赋初值为1，len(T1_i2)为第i2篇文档中句子数量；

(3.4)如果i3≤len(T1_i2)则跳转到步骤(3.5)，否则跳转到步骤(3.8)；

(3.5)将T1_i2中的句子通过步骤(2)训练好的Bert模型，实现与空间句嵌入矩阵E的映射；

(3.6)得到向量化表示的单篇文档T2_i2，T2_i2＝{seg₁,seg₂,…seg_e,…seg_len(Ti21)}，其中，seg_e为T2_i2中第e个句向量，变量e∈[1,len(T1_i2)]；

(3.7)i3＝i3+1；

(3.8)：i2＝i2+1；

(3.9)：得到向量化表示的待分类文档集合D3，D3＝{T2₁,T2₂,…T2_f,…T2_len(D2)}，其中，T2_f为向量化后文档集中第f个文档，变量f∈[1,len(D2)]。

进一步的，所述步骤(4)中输出文档分类的概率的具体步骤如下：

(4.1)定义步骤(3)生成的待分类文档集合D3为待处理集，D3＝{T2₁,T2₂,…T2_i,…,T2_len(D2)}，其中，T2_i为向量化后文档集中第i个文档，变量i∈[1,len(D2)]，len(D2)为文档数量；

(4.2)以句子序列T2_i为例作为双向长短时记忆网络即BiLSTM的输入，通过正向和反向的顺序，同时获取正向的句子序列的语义信息L_i＝{L_i1,L_i2,L_i3,…,L_it}和反向的句子序列的语义信息

具体公式如下：

其中，L_it为D3中第i个序列T2_i的第t个正向语义信息输出，

为D3中第i个序列T2_i的第t个反向语义信息输出，T2_it为T2_i中第t个句子；

(4.3)前向与后向合并后的语义信息得到包含序列上下文信息的语义输出h_i＝{h_i1,h_i2,h_i3,…,h_it}，具体公式如下：

其中，L_it为步骤(4.2)得到的正向语义信息输出，

为步骤(4.2)得到的反向语义信息输出；

(4.4)将包含语义信息的h_i输入到单层感知机中获得单篇文档隐藏层的输出score(h_i)，具体公式如下：

sCore(h_i)＝v^Ttanh(W_lh_i+b₁)

其中，h_i为包含序列上下文信息的语义输出，W₁为h_i的权重矩阵，b₁为h_i的偏置；

(4.5)通过Attention机制进行文本内各句子注意力权重矩阵α_i的计算，即计算每时刻隐藏层的输出在整个文本中表示向量的匹配得分占总体得分的比重，具体公式如下：

其中，h_i为包含序列上下文信息的语义输出，len(T2_i)为T2_i序列长度；

(4.6)通过权重矩阵α_i与文本特征向量h_i进行加权和，得到包含文档各句子重要性信息的向量c_i，具体公式如下：

其中，len(T2_i)为T_i序列长度；

(4.7)将步骤(4.6)得到的文档向量化表示c_i作为分类器的输入，输入到全连接层，并对其归一化操作，采用softmax函数进行文档分类预测，输出分类结果

具体公式如下：

其中，

为文档的预测概率，W₂为c_i的权重矩阵，b₂为c_i的偏置。

本发明采用上述技术方案，具有以下有益效果：

本发明方法基于已有的综合文本标签集，利用Bert语言模型和BiLSTM结合Attention机制，实现基于文档词句级联层次记忆网络的建模并有效分类，具体描述如下：本发明利用Bert语言模型获取词语之间语义信息实现句子的向量化表示；然后BiLSTM模型结合Attention机制学习训练获取句子上下文的语义信息得到文档表示，通过softmax分类输出，对文本进行有监督训练，实现较高准确度的类间高相似度的文档建模和分类，可优化分类准确度和速度，缩减从业者的工作时长，提高相关产品的运行效率。

附图说明

图1为本发明的总体流程图；

图2为图1中数据清洗的具体流程图；

图3为图1中Bert模型训练词向量的具体流程图；

图4为图1中句子向量化表示的具体流程图；

图5为图1中BiLSTM-Attention记忆网络文档建模的流程图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1-图5所示，本发明所述的一种基于WSD层级记忆网络的文档建模分类方法，包括如下步骤：

步骤1：输入文档语料，定义D1为待清洗文档数据集，文档去重，内容分句和去标点符号，将清洗后的文档数据集D2，具体方法为：

步骤1.1：定义Text为单篇待清洗文档，定义id,title,content,label分别为单篇文档的序号、标题、内容和标签，并且满足关系Text_a＝{id_a,title_a,content_a,label_a}；

步骤1.2：定义D1为待清洗文档数据集，D1＝{Text₁,Text₂,…Text_a,…Text_len(D1)}，Text_a为D1中第a个单篇待清洗文档，其中，len(D1)为D1中文档数量，变量a∈[1,len(D1)]；

步骤1.3：D1中每篇文档的标题以句子形式保存于内容之前，去重后将每篇文档内容切分成句，过滤掉空值及重复句；

步骤1.4：得到待处理文档数据集D2＝{T1₁,T1₂,…T1_n,…T1_len(D2)}，其中，D2为分词后的文档序列集合，len(D2)为文档数量，T1_n表示D2中第n个单篇待处理文档序列，变量n∈[1,len(D2)]。

步骤2：建立Bert模型，提取待处理文档数据集D2中所有句子文本数据集S1并进行分词，将每个词转换成固定维度的向量，基于词向量句子序列两两组合形成句子对并进行相似语义学习，将学习到的每个句子嵌入到句子的每个标记中，以获取词语间的上下文信息，得到文本句向量空间矩阵E，具体方法为：

步骤2.1：将步骤1清洗后的数据集D2作为语料库按句子输入；

步骤2.2：得到待处理句子文本数据集S1，S1＝{sentence₁,sentence₂,…sentence_c,…sentence_len(s1)}，其中len(S1)为S1中句子数量，sentence_c为S1中的句子文本，c∈[1,len(S1)]；

步骤2.3：定义循环变量i1用来遍历S1，i1赋初值为1；

步骤2.4：如果i1≤len(S1)则跳转到步骤2.5，否则跳转到步骤2.6；

步骤2.5：建立Bert模型，输入句子文本sentence_i1，待处理句子文本数据集中句子进行分词，将每个词转换成固定维度的向量，得到基于词向量的句子序列seg_sentence_i1；

步骤2.6：i1＝i1+1；

步骤2.7：得到向量化句子序列集合S2＝{seg_sentence₁,seg_sentence₂,…seg_sentence_d,…seg_sentence_len(S2)}，其中，len(S2)为S2中句子数量，seg_sentence_d为向量化句子序列集合S2中第d个句向量，变量d∈[1,len(S2)]；

步骤2.8：将S2中基于词向量的句子序列两两组合形成句子对；

步骤2.9：输入步骤2.8形成的句子对组成一个序列，每个序列的第一个词以特殊的标记[CLS]表示。每个句子对被组合为一个序列，通过特殊的标记[SEP]将每个句子分开；

步骤2.10：将学习到的每个句子分别标记为v₁,v₂,…v_m…,v_len(E)，语义相同的嵌入到同一个标记中，v_m为学习到包含语义的句向量；

步骤2.11：得到句向量空间矩阵E＝{v₁,v₂,…v_m…,v_len(E)}，其中，len(E)为E的维度，v_m为句向量空间矩阵中第m个句子向量，变量m∈[1,len(E)]。

步骤3：将步骤1中待处理文档数据集D2映射到文本句向量空间矩阵E中，得到句向量表示的待分类文档数据集D3，具体方法为：

步骤3.1：定义循环变量i2用来遍历步骤1中获得的待处理文档数据集D2，D2＝{T1₁,T1₂,…T1_n,…T1_len(D2)}，len(D2)为待处理文档数据集中文档数量，T1_n表示D2中第n个文档，变量n∈[1,len(D2)]，i2赋初值为1；

步骤3.2：如果i2≤len(D2)则跳转到步骤3.3，否则跳转到步骤3.9；

步骤3.3：定义循环变量i3用来遍历T1_i2,T1_i2为D2中第i2篇文档，i3赋初值为1，len(T1_i2)为第i2篇文档中句子数量；

步骤3.4：如果i3≤len(T1_i2)则跳转到步骤3.5，否则跳转到步骤3.8

步骤3.5：将T1_i2中的句子通过步骤2训练好的Bert模型，实现与空间句嵌入矩阵E的映射；

步骤3.6：得到向量化表示的单篇文档T2_i2，T2_i2＝{seg₁,seg₂,…seg_e,…seg_len(Ti21)}，其中，seg_e为T2_i2中第e个句向量，变量e∈[1,len(T1_i2)]；

步骤3.7：i3＝i3+1；

步骤3.8：i2＝i2+1；

步骤3.9：得到向量化表示的待分类文档集合D3，D3＝{T2₁,T2₂,…T2_f,…T2_len(D2)}，其中，T2_f为向量化后文档集中第f个文档，变量f∈[1,len(D2)]。

步骤4：经步骤3生成的D3作为双向长短时记忆网络即BiLSTM的输入，通过正向和反向的顺序，结合Attention机制提取句子上下文语义信息，得到基于语义表示的向量化文档，通过Softmax层进行文档分类，输出文档分类的概率

具体方法为：

步骤4.1：定义步骤3生成的待分类文档集合D3为待处理集，D3＝{T2₁,T2₂,…T2_i,…,T2_len(D2)}，其中，T2_i为向量化后文档集中第i个文档，变量i∈[1,len(D2)，len(D2)为文档数量；

步骤4.2：以句子序列T2_i为例作为双向长短时记忆网络即BiLSTM的输入，通过正向和反向的顺序，同时获取正向的句子序列的语义信息L_i＝{L_i1,L_i2,L_i3,…,L_it}和反向的句子序列的语义信息

具体公式如下：

其中，L_it为D3中第i个序列T2_i的第t个正向语义信息输出，

步骤4.3：前向与后向合并后的语义信息得到包含序列上下文信息的语义输出h_i＝{h_i1,h_i2,h_i3,…,h_it}，具体公式如下：

其中，L_it为步骤4.2得到的正向语义信息输出，

为步骤4.2得到的反向语义信息输出；

步骤4.4：将包含语义信息的h_i输入到单层感知机中获得单篇文档隐藏层的输出score(h_i)，具体公式如下：

score(h_i)＝v^Ttanh(W₁h_i+b₁)

步骤4.5：通过Attention机制进行文本内各句子注意力权重矩阵α_i的计算，即计算每时刻隐藏层的输出在整个文本中表示向量的匹配得分占总体得分的比重，具体公式如下：

步骤4.6：通过权重矩阵α_i与文本特征向量h_i进行加权和，得到包含文档各句子重要性信息的向量c_i，具体公式如下：

其中，len(T2_i)为T_i序列长度；

步骤4.7：将步骤4.6得到的文档向量化表示c_i作为分类器的输入，输入到全连接层，并对其归一化操作，采用softmax函数进行文档分类预测，输出分类结果

具体公式如下：

其中，

为文档的预测概率，W₂为c_i的权重矩阵，b₂为c_i的偏置。

通过对207434条化工新闻文档数据集进行预处理，利用Bert语言模型进行句向量表示，结合BiLSTM和Attention对于句向量序列进行文档建模并分类。基于WSD层级记忆网络的文档建模分类方法准确率较其他方法提高了10％-20％，证明本发明算法在类间数据相似度高数据集上的分类准确度，在多标签一共10个标签的化工新闻文档分类中达到了96％的分类准确度。

表1变量说明表

Claims

1.一种基于WSD层级记忆网络的文档建模分类方法，其特征在于，包括如下步骤：

(2)建立Bert模型，提取待处理文档数据集D2中所有句子文本数据集S1并进行分词，将每个词转换成固定维度的向量，基于词向量句子序列两两组合形成句子对并进行语义相似度计算与学习，将学习到的每个句子分别进行标记，同时，语义相同的句子也嵌入到同一个标记中，以获取词语间的上下文信息，得到文本句向量空间矩阵E；

2.根据权利要求1所述的一种基于WSD层级记忆网络的文档建模分类方法，其特征在于，所述步骤(1)中得到文档数据集D2的具体步骤如下：

(1.2)定义D1为待清洗文档数据集，D1＝{Text₁,Text₂,…Text_a,…Text_len(D1)}，Text_a为D1中第a个单篇待清洗文档，其中，len(D1)为D1中文档数量，变量a∈[1,len(D1)]；

3.根据权利要求1所述的一种基于WSD层级记忆网络的文档建模分类方法，其特征在于，所述步骤(2)中得到文本句向量空间矩阵E的具体步骤如下：

(2.1)将步骤(1)清洗后的数据集D2作为语料库按句子输入；

(2.3)定义循环变量i1用来遍历S1，i1赋初值为1；

(2.4)如果i1≤len(S1)则跳转到步骤(2.5)，否则跳转到步骤(2.6)；

(2.6)i1＝i1+1；

(2.8)将S2中基于词向量的句子序列两两组合形成句子对；