CN110309306B - 一种基于wsd层级记忆网络的文档建模分类方法 - Google Patents
一种基于wsd层级记忆网络的文档建模分类方法 Download PDFInfo
- Publication number
- CN110309306B CN110309306B CN201910530095.0A CN201910530095A CN110309306B CN 110309306 B CN110309306 B CN 110309306B CN 201910530095 A CN201910530095 A CN 201910530095A CN 110309306 B CN110309306 B CN 110309306B
- Authority
- CN
- China
- Prior art keywords
- sentence
- document
- len
- text
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于WSD层级记忆网络的文档建模分类方法。首先,通过Bert算法基于词向量得到相似句子文本的句嵌入矩阵,以获得词语之间语义信息;然后,将句子映射到句嵌入矩阵空间得到句子的向量化表示;最后,将分完句文档的序列数据输入到BiLSTM模型中,同时获取每个句子的注意力权重,得到文档的向量化表示,保留了文档内部语义联系。本发明方法可有效获取一种准确度最高的文档建模,充分考虑到词句级联的层次关系,增加文档建模内部的语义联系,对于类间数据相似性较高的文档分类更加准确。
Description
技术领域
本发明属于自然语言处理和文档分类技术领域,特别涉及一种基于WSD层级记忆网络的文档建模分类方法。
背景技术
本发明中的文档建模分类算法对传统的有监督文档分类有重要的作用和意义。以往在面对文本标签的分类问题的时候,研究者们会选择将向量空间模型融入到文本分类中,该类方法要求将文本映射到向量空间中进行有监督的训练后,从而利用训练好的分类器对未分类文本进行分类,但是在此过程中需要对大量的特征进行人工设计,且忽略了文本内部的语义联系。因此,为发掘历史文档之间的语义关系,对文档进行从词到句,句到文档建模以提高标签分类的准确度,结合神经网络算法为相关系统提供准确高效的文档建模分类方案。
李翔,朱全银等人已有的研究基础包括:X.Li,Z.Wang,S.Gao,R.Hu,Q.Zhu andL.Wang,"An Intelligent Context-Aware Management Framework for Cold ChainLogistics Distribution,"in IEEE Transactions on Intelligent TransportationSystems.doi:10.1109/TITS.2018.2889069;严云洋,瞿学新,朱全银,李翔,赵阳.基于离群点检测的分类结果置信度的度量方法[J].南京大学学报(自然科学),2019,55(01):102-109;李翔,朱全银.联合聚类和评分矩阵共享的协同过滤推荐[J].计算机科学与探索,2014,8(6):751-759;李翔,朱全银.Adaboost算法改进BP神经网络预测研究[J].计算机工程与科学,2013,35(08):96-102.;李翔,朱全银,王尊.基于可变基函数和GentleAdaBoost的小波神经网络研究[J].山东大学学报(工学版),2013,43(05):31-38;朱全银,潘禄,刘文儒,等.Web科技新闻分类抽取算法[J].淮阴工学院学报,2015,24(5):18-24;Quanyin Zhu,Sunqun Cao.A Novel Classifier-independent Feature Selection Algorithm forImbalanced Datasets.2009,p:77-82;Quanyin Zhu,Yunyang Yan,Jin Ding,JinQian.The Case Study for Price Extracting ofMobile Phone Sell Online.2011,p:282-285;Quanyin Zhu,Suqun Cao,Pei Zhou,Yunyang Yan,Hong Zhou.Integrated PriceForecast based on Dichotomy Backfilling and Disturbance FactorAlgorithm.International Review on Computers and Software,2011,Vol.6(6):1089-1093;朱全银,冯万利等人申请、公开与授权的相关专利:李翔,朱全银,王留洋.一种基于集成学习的PM2.5预报方法:ZL201410174923.2,2014.04.28;李翔,朱全银,胡荣林,周泓.一种基于谱聚类的冷链物流配载智能推荐方法.中国专利公开号:CN105654267A,2016.06.08;朱全银,胡蓉静,何苏群,周培等.一种基于线性插补与自适应滑动窗口的商品价格预测方法.中国专利:ZL 201110423015.5,2015.07.01;朱全银,曹苏群,严云洋,胡蓉静等,一种基于二分数据修补与扰乱因子的商品价格预测方法.中国专利:ZL201110422274.6,2013.01.02。
BERT模型:
2018年Google发布了基于双向Transformer的大规模预训练语言模型BERT,最好地表征词和句子以理解其潜在的含义和关系。Bert模型在情感分类、命名实体识别等任务中取得了很好的效果。主要优势在于它是首个用于自然语言处理预训练的无监督、深度双向系统。Bert模型于深度学习中使用三层嵌入层联合调节上下文对文本训练,包括tokenembedding、segment embeddings和position embeddings,相对于传统的向量空间模型,是一种很好的保留语义的语言模型。
BiLSTM神经网络
在BiLSTM神经网络中添加Attention机制,即在不同时刻计算输出特征向量的权重,突出句子的重要特征,从而增加文档表示之间的语义联系,使整个模型获得更好的效果。通过BiLSTM结合Attention实现文档的向量化建模,对样本训练分类,有效加强对分类样本的特征表示,提高分类模型的准确率。
赵燕清,魏墨济,朱世伟等.一种基于方差的文档分类方法.中国专利:ZL201410215035.7,2014.05.21,根据文档中词频方差的不同将待分类文档合理的区分开,但这种方式不能有效的保留句子之间复杂的语言关系,对于类间相似度很高的文档难以准确的分类;李双印,潘嵘.一种文档建模方法.中国专利公开号:CN107357927A,2017,11,17,通过设计一种能够同时利用单词和标签信息,以及自动利用标签种类信息,对半结构化文档进行有效的建模,却忽略了词到句,句到文档的组成特点;黄英仁,王子文,薛云.基于层次性多注意力网络的文档分类方法.中国专利公开号:CN 109558487A,2019,04,02,引入CNN attention,利用CNN模型获取窗口内句子之间的局部相关特征,利用BiGRU序列模型来对文档进行从词到句,句到文档建模。虽然模型使用Attention机制之后性能水平能够得到提升,但是计算量的增加使模型的训练时间加长。
上述各种模型在文档分类任务上取得了显著的效果。然而,传统的文档建模还存在以下问题:1、通过词嵌入基于词频方差的方法实现文档的向量化,然而该方法并不能充分利用文本语义之间的关系;2、使用注意力网络对模型训练的时间加长,且无法有效地利用文档内部的结构信息,在多标签分类准确度方面无法满足实际应用需求。针对这些问题,本发明提出一种基于WSD层级记忆网络的文档建模分类方法。首先,通过一种基于Bert模型的句嵌入方式进行句子表示,增强句子表示的语义关系;然后,利用BiLSTM记忆网络结合Attention机制,对每个时刻输出信息的重要程度进行表示,加强句子之间的内在联系,从数据中学习连续的文档表示。对于类间文本特征相似度很高的数据集,达到理想的分类效果。
发明内容
发明目的:针对上述问题,本发明提供一种基于WSD层级记忆网络的文档建模分类方法,可优化分类准确度和速度,缩减从业者的工作时长,提高相关产品的运行效率。
技术方案:本发明提出一种基于WSD层级记忆网络的文档建模分类方法,包括如下步骤:
(1)输入文档语料,定义D1为待清洗文档数据集,将待清洗文档数据集D1去重,对内容分句和去标点符号,清洗后得到文档数据集D2;
(2)建立Bert模型,提取待处理文档数据集D2中所有句子文本数据集S1并进行分词,将每个词转换成固定维度的向量,基于词向量句子序列两两组合形成句子对并进行相似语义学习,将学习到的每个句子嵌入到句子的每个标记中,以获取词语间的上下文信息,得到文本句向量空间矩阵E;
(3)将步骤(1)中待处理文档数据集D2映射到文本句向量空间矩阵E中,得到句向量表示的待分类文档数据集D3;
(4)经步骤(3)生成的D3作为双向长短时记忆网络即BiLSTM的输入,通过正向和反向的顺序,结合Attention机制提取句子上下文语义信息,得到基于语义表示的向量化文档,通过Softmax层进行文档分类,输出文档分类的概率。
进一步的,所述步骤(1)中得到文档数据集D2的具体步骤如下:
(1.1)定义Text为单篇待清洗文档,定义id,title,content,label分别为单篇文档的序号、标题、内容和标签,并且满足关系Texta={ida,titlea,contenta,labela};
(1.2)定义D1为待清洗文档数据集,D1={Text1,Text2,…Texta,…Textlen(D1)},Texta为D1中第a个单篇待分类文档,其中,len(D1)为D1中文档数量,变量a∈[1,len(D1)];
(1.3)D1中每篇文档的标题以句子形式保存于内容之前,去重后将每篇文档内容切分成句,过滤掉空值及重复句;
(1.4)得到待处理文档数据集D2={T11,T12,…T1n,…T1len(D2)},其中,D2为分词后的文档序列集合,len(D2)为文档数量,T1n表示D2中第n个单篇待处理文档序列,变量n∈[1,len(D2)]。
进一步的,所述步骤(2)中得到文本句向量空间矩阵E的具体步骤如下:
(2.1)将步骤(1)清洗后的数据集D2作为语料库按句子输入;
(2.2)得到待处理句子文本数据集S1,S1={sentence1,sentence2,…sentencec,…sentencelen(s1)},其中len(S1)为S1中句子数量,sentencec为S1中的句子文本,c∈[1,len(S1)];
(2.3)定义循环变量i1用来遍历S1,i1赋初值为1;
(2.4)如果i1≤len(S1)则跳转到步骤(2.5),否则跳转到步骤(2.6);
(2.5)建立Bert模型,输入句子文本sentencei1,待处理句子文本数据集中句子进行分词,将每个词转换成固定维度的向量,得到基于词向量的句子序列seg_sentencei1;
(2.6)i1=i1+1;
(2.7)得到向量化句子序列集合S2={seg_sentence1,seg_sentence2,…seg_sentenced,…seg_sentencelen(S2)},其中,len(S2)为S2中句子数量,seg_sentenced为向量化句子序列集合S2中第d个句向量,变量d∈[1,len(S2)];
(2.8)将S2中基于词向量的句子序列两两组合形成句子对;
(2.9)输入(2.8)形成的句子对组成一个序列,每个序列的第一个词以特殊的标记[CLS]表示,每个句子对被组合为一个序列,通过特殊的标记[SEP]将每个句子分开;
(2.10)将学习到的每个句子分别标记为v1,v2,…vm…,vlen(E),语义相同的嵌入到同一个标记中,vm为学习到包含语义的句向量;
(2.11)得到句向量空间矩阵E={v1,v2,…vm…,vlen(E)},其中,len(E)为E的维度,vm为句向量空间矩阵中第m个句子向量,变量m∈[1,len(E)]。
进一步的,所述步骤(3)中得到待分类文档数据集D3的具体步骤如下:
(3.1)定义循环变量i2用来遍历步骤(1)中获得的待处理文档数据集D2,D2={T11,T12,…T1n,…T1len(D2)},len(D2)为待处理文档数据集中文档数量,T1n表示D2中第n个文档,变量n∈[1,len(D2)],i2赋初值为1;
(3.2)如果i2≤len(D2)则跳转到步骤(3.3),否则跳转到步骤(3.9);
(3.3)定义循环变量i3用来遍历T1i2,T1i2为D2中第i2篇文档,i3赋初值为1,len(T1i2)为第i2篇文档中句子数量;
(3.4)如果i3≤len(T1i2)则跳转到步骤(3.5),否则跳转到步骤(3.8);
(3.5)将T1i2中的句子通过步骤(2)训练好的Bert模型,实现与空间句嵌入矩阵E的映射;
(3.6)得到向量化表示的单篇文档T2i2,T2i2={seg1,seg2,…sege,…seglen(Ti21)},其中,sege为T2i2中第e个句向量,变量e∈[1,len(T1i2)];
(3.7)i3=i3+1;
(3.8):i2=i2+1;
(3.9):得到向量化表示的待分类文档集合D3,D3={T21,T22,…T2f,…T2len(D2)},其中,T2f为向量化后文档集中第f个文档,变量f∈[1,len(D2)]。
进一步的,所述步骤(4)中输出文档分类的概率的具体步骤如下:
(4.1)定义步骤(3)生成的待分类文档集合D3为待处理集,D3={T21,T22,…T2i,…,T2len(D2)},其中,T2i为向量化后文档集中第i个文档,变量i∈[1,len(D2)],len(D2)为文档数量;
(4.2)以句子序列T2i为例作为双向长短时记忆网络即BiLSTM的输入,通过正向和反向的顺序,同时获取正向的句子序列的语义信息Li={Li1,Li2,Li3,…,Lit}和反向的句子序列的语义信息具体公式如下:
(4.3)前向与后向合并后的语义信息得到包含序列上下文信息的语义输出hi={hi1,hi2,hi3,…,hit},具体公式如下:
(4.4)将包含语义信息的hi输入到单层感知机中获得单篇文档隐藏层的输出score(hi),具体公式如下:
sCore(hi)=vTtanh(Wlhi+b1)
其中,hi为包含序列上下文信息的语义输出,W1为hi的权重矩阵,b1为hi的偏置;
(4.5)通过Attention机制进行文本内各句子注意力权重矩阵αi的计算,即计算每时刻隐藏层的输出在整个文本中表示向量的匹配得分占总体得分的比重,具体公式如下:
其中,hi为包含序列上下文信息的语义输出,len(T2i)为T2i序列长度;
(4.6)通过权重矩阵αi与文本特征向量hi进行加权和,得到包含文档各句子重要性信息的向量ci,具体公式如下:
其中,len(T2i)为Ti序列长度;
本发明采用上述技术方案,具有以下有益效果:
本发明方法基于已有的综合文本标签集,利用Bert语言模型和BiLSTM结合Attention机制,实现基于文档词句级联层次记忆网络的建模并有效分类,具体描述如下:本发明利用Bert语言模型获取词语之间语义信息实现句子的向量化表示;然后BiLSTM模型结合Attention机制学习训练获取句子上下文的语义信息得到文档表示,通过softmax分类输出,对文本进行有监督训练,实现较高准确度的类间高相似度的文档建模和分类,可优化分类准确度和速度,缩减从业者的工作时长,提高相关产品的运行效率。
附图说明
图1为本发明的总体流程图;
图2为图1中数据清洗的具体流程图;
图3为图1中Bert模型训练词向量的具体流程图;
图4为图1中句子向量化表示的具体流程图;
图5为图1中BiLSTM-Attention记忆网络文档建模的流程图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1-图5所示,本发明所述的一种基于WSD层级记忆网络的文档建模分类方法,包括如下步骤:
步骤1:输入文档语料,定义D1为待清洗文档数据集,文档去重,内容分句和去标点符号,将清洗后的文档数据集D2,具体方法为:
步骤1.1:定义Text为单篇待清洗文档,定义id,title,content,label分别为单篇文档的序号、标题、内容和标签,并且满足关系Texta={ida,titlea,contenta,labela};
步骤1.2:定义D1为待清洗文档数据集,D1={Text1,Text2,…Texta,…Textlen(D1)},Texta为D1中第a个单篇待清洗文档,其中,len(D1)为D1中文档数量,变量a∈[1,len(D1)];
步骤1.3:D1中每篇文档的标题以句子形式保存于内容之前,去重后将每篇文档内容切分成句,过滤掉空值及重复句;
步骤1.4:得到待处理文档数据集D2={T11,T12,…T1n,…T1len(D2)},其中,D2为分词后的文档序列集合,len(D2)为文档数量,T1n表示D2中第n个单篇待处理文档序列,变量n∈[1,len(D2)]。
步骤2:建立Bert模型,提取待处理文档数据集D2中所有句子文本数据集S1并进行分词,将每个词转换成固定维度的向量,基于词向量句子序列两两组合形成句子对并进行相似语义学习,将学习到的每个句子嵌入到句子的每个标记中,以获取词语间的上下文信息,得到文本句向量空间矩阵E,具体方法为:
步骤2.1:将步骤1清洗后的数据集D2作为语料库按句子输入;
步骤2.2:得到待处理句子文本数据集S1,S1={sentence1,sentence2,…sentencec,…sentencelen(s1)},其中len(S1)为S1中句子数量,sentencec为S1中的句子文本,c∈[1,len(S1)];
步骤2.3:定义循环变量i1用来遍历S1,i1赋初值为1;
步骤2.4:如果i1≤len(S1)则跳转到步骤2.5,否则跳转到步骤2.6;
步骤2.5:建立Bert模型,输入句子文本sentencei1,待处理句子文本数据集中句子进行分词,将每个词转换成固定维度的向量,得到基于词向量的句子序列seg_sentencei1;
步骤2.6:i1=i1+1;
步骤2.7:得到向量化句子序列集合S2={seg_sentence1,seg_sentence2,…seg_sentenced,…seg_sentencelen(S2)},其中,len(S2)为S2中句子数量,seg_sentenced为向量化句子序列集合S2中第d个句向量,变量d∈[1,len(S2)];
步骤2.8:将S2中基于词向量的句子序列两两组合形成句子对;
步骤2.9:输入步骤2.8形成的句子对组成一个序列,每个序列的第一个词以特殊的标记[CLS]表示。每个句子对被组合为一个序列,通过特殊的标记[SEP]将每个句子分开;
步骤2.10:将学习到的每个句子分别标记为v1,v2,…vm…,vlen(E),语义相同的嵌入到同一个标记中,vm为学习到包含语义的句向量;
步骤2.11:得到句向量空间矩阵E={v1,v2,…vm…,vlen(E)},其中,len(E)为E的维度,vm为句向量空间矩阵中第m个句子向量,变量m∈[1,len(E)]。
步骤3:将步骤1中待处理文档数据集D2映射到文本句向量空间矩阵E中,得到句向量表示的待分类文档数据集D3,具体方法为:
步骤3.1:定义循环变量i2用来遍历步骤1中获得的待处理文档数据集D2,D2={T11,T12,…T1n,…T1len(D2)},len(D2)为待处理文档数据集中文档数量,T1n表示D2中第n个文档,变量n∈[1,len(D2)],i2赋初值为1;
步骤3.2:如果i2≤len(D2)则跳转到步骤3.3,否则跳转到步骤3.9;
步骤3.3:定义循环变量i3用来遍历T1i2,T1i2为D2中第i2篇文档,i3赋初值为1,len(T1i2)为第i2篇文档中句子数量;
步骤3.4:如果i3≤len(T1i2)则跳转到步骤3.5,否则跳转到步骤3.8
步骤3.5:将T1i2中的句子通过步骤2训练好的Bert模型,实现与空间句嵌入矩阵E的映射;
步骤3.6:得到向量化表示的单篇文档T2i2,T2i2={seg1,seg2,…sege,…seglen(Ti21)},其中,sege为T2i2中第e个句向量,变量e∈[1,len(T1i2)];
步骤3.7:i3=i3+1;
步骤3.8:i2=i2+1;
步骤3.9:得到向量化表示的待分类文档集合D3,D3={T21,T22,…T2f,…T2len(D2)},其中,T2f为向量化后文档集中第f个文档,变量f∈[1,len(D2)]。
步骤4:经步骤3生成的D3作为双向长短时记忆网络即BiLSTM的输入,通过正向和反向的顺序,结合Attention机制提取句子上下文语义信息,得到基于语义表示的向量化文档,通过Softmax层进行文档分类,输出文档分类的概率具体方法为:
步骤4.1:定义步骤3生成的待分类文档集合D3为待处理集,D3={T21,T22,…T2i,…,T2len(D2)},其中,T2i为向量化后文档集中第i个文档,变量i∈[1,len(D2),len(D2)为文档数量;
步骤4.2:以句子序列T2i为例作为双向长短时记忆网络即BiLSTM的输入,通过正向和反向的顺序,同时获取正向的句子序列的语义信息Li={Li1,Li2,Li3,…,Lit}和反向的句子序列的语义信息具体公式如下:
步骤4.3:前向与后向合并后的语义信息得到包含序列上下文信息的语义输出hi={hi1,hi2,hi3,…,hit},具体公式如下:
步骤4.4:将包含语义信息的hi输入到单层感知机中获得单篇文档隐藏层的输出score(hi),具体公式如下:
score(hi)=vTtanh(W1hi+b1)
其中,hi为包含序列上下文信息的语义输出,W1为hi的权重矩阵,b1为hi的偏置;
步骤4.5:通过Attention机制进行文本内各句子注意力权重矩阵αi的计算,即计算每时刻隐藏层的输出在整个文本中表示向量的匹配得分占总体得分的比重,具体公式如下:
其中,hi为包含序列上下文信息的语义输出,len(T2i)为T2i序列长度;
步骤4.6:通过权重矩阵αi与文本特征向量hi进行加权和,得到包含文档各句子重要性信息的向量ci,具体公式如下:
其中,len(T2i)为Ti序列长度;
通过对207434条化工新闻文档数据集进行预处理,利用Bert语言模型进行句向量表示,结合BiLSTM和Attention对于句向量序列进行文档建模并分类。基于WSD层级记忆网络的文档建模分类方法准确率较其他方法提高了10%-20%,证明本发明算法在类间数据相似度高数据集上的分类准确度,在多标签一共10个标签的化工新闻文档分类中达到了96%的分类准确度。
表1变量说明表
Claims (5)
1.一种基于WSD层级记忆网络的文档建模分类方法,其特征在于,包括如下步骤:
(1)输入文档语料,定义D1为待清洗文档数据集,将待清洗文档数据集D1去重,对内容分句和去标点符号,清洗后得到文档数据集D2;
(2)建立Bert模型,提取待处理文档数据集D2中所有句子文本数据集S1并进行分词,将每个词转换成固定维度的向量,基于词向量句子序列两两组合形成句子对并进行语义相似度计算与学习,将学习到的每个句子分别进行标记,同时,语义相同的句子也嵌入到同一个标记中,以获取词语间的上下文信息,得到文本句向量空间矩阵E;
(3)将步骤(1)中待处理文档数据集D2映射到文本句向量空间矩阵E中,得到句向量表示的待分类文档数据集D3;
(4)经步骤(3)生成的D3作为双向长短时记忆网络即BiLSTM的输入,通过正向和反向的顺序,结合Attention机制提取句子上下文语义信息,得到基于语义表示的向量化文档,通过Softmax层进行文档分类,输出文档分类的概率。
2.根据权利要求1所述的一种基于WSD层级记忆网络的文档建模分类方法,其特征在于,所述步骤(1)中得到文档数据集D2的具体步骤如下:
(1.1)定义Text为单篇待清洗文档,定义id,title,content,label分别为单篇文档的序号、标题、内容和标签,并且满足关系Texta={ida,titlea,contenta,labela};
(1.2)定义D1为待清洗文档数据集,D1={Text1,Text2,…Texta,…Textlen(D1)},Texta为D1中第a个单篇待清洗文档,其中,len(D1)为D1中文档数量,变量a∈[1,len(D1)];
(1.3)D1中每篇文档的标题以句子形式保存于内容之前,去重后将每篇文档内容切分成句,过滤掉空值及重复句;
(1.4)得到待处理文档数据集D2={T11,T12,…T1n,…T1len(D2)},其中,D2为分词后的文档序列集合,len(D2)为文档数量,T1n表示D2中第n个单篇待处理文档序列,变量n∈[1,len(D2)]。
3.根据权利要求1所述的一种基于WSD层级记忆网络的文档建模分类方法,其特征在于,所述步骤(2)中得到文本句向量空间矩阵E的具体步骤如下:
(2.1)将步骤(1)清洗后的数据集D2作为语料库按句子输入;
(2.2)得到待处理句子文本数据集S1,S1={sentence1,sentence2,…sentencec,…sentencelen(s1)},其中len(S1)为S1中句子数量,sentencec为S1中的句子文本,c∈[1,len(S1)];
(2.3)定义循环变量i1用来遍历S1,i1赋初值为1;
(2.4)如果i1≤len(S1)则跳转到步骤(2.5),否则跳转到步骤(2.6);
(2.5)建立Bert模型,输入句子文本sentencei1,待处理句子文本数据集中句子进行分词,将每个词转换成固定维度的向量,得到基于词向量的句子序列seg_sentencei1;
(2.6)i1=i1+1;
(2.7)得到向量化句子序列集合S2={seg_sentence1,seg_sentence2,…seg_sentenced,…seg_sentencelen(S2)},其中,len(S2)为S2中句子数量,seg_sentenced为向量化句子序列集合S2中第d个句向量,变量d∈[1,len(S2)];
(2.8)将S2中基于词向量的句子序列两两组合形成句子对;
(2.9)输入(2.8)形成的句子对组成一个序列,每个序列的第一个词以特殊的标记[CLS]表示,每个句子对被组合为一个序列,通过特殊的标记[SEP]将每个句子分开;
(2.10)将学习到的每个句子分别标记为v1,v2,…vm…,vlen(E),语义相同的嵌入到同一个标记中,vm为学习到包含语义的句向量;
(2.11)得到句向量空间矩阵E={v1,v2,…vm…,vlen(E)},其中,len(E)为E的维度,vm为句向量空间矩阵中第m个句子向量,变量m∈[1,len(E)]。
4.根据权利要求1所述的一种基于WSD层级记忆网络的文档建模分类方法,其特征在于,所述步骤(3)中得到待分类文档数据集D3的具体步骤如下:
(3.1)定义循环变量i2用来遍历步骤(1)中获得的待处理文档数据集D2,D2={T11,T12,…T1n,…T1len(D2)},len(D2)为待处理文档数据集中文档数量,T1n表示D2中第n个文档,变量n∈[1,len(D2)],i2赋初值为1;
(3.2)如果i2≤len(D2)则跳转到步骤(3.3),否则跳转到步骤(3.9);
(3.3)定义循环变量i3用来遍历T1i2,T1i2为D2中第i2篇文档,i3赋初值为1,len(T1i2)为第i2篇文档中句子数量;
(3.4)如果i3≤len(T1i2)则跳转到步骤(3.5),否则跳转到步骤(3.8);
(3.5)将T1i2中的句子通过步骤(2)训练好的Bert模型,实现与空间句嵌入矩阵E的映射;
(3.6)得到向量化表示的单篇文档T2i2,T2i2={seg1,seg2,…sege,…seglen(Ti21)},其中,sege为T2i2中第e个句向量,变量e∈[1,len(T1i2)];
(3.7)i3=i3+1;
(3.8):i2=i2+1;
(3.9):得到向量化表示的待分类文档集合D3,D3={T21,T22,…T2f,…T2len(D2)},其中,T2f为向量化后文档集中第f个文档,变量f∈[1,len(D2)]。
5.根据权利要求1所述的一种基于WSD层级记忆网络的文档建模分类方法,其特征在于,所述步骤(4)中输出文档分类的概率的具体步骤如下:
(4.1)定义步骤(3)生成的待分类文档集合D3为待处理集,D3={T21,T22,…T2i,…,T2len(D2)},其中,T2i为向量化后文档集中第i个文档,变量i∈[1,len(D2),len(D2)为文档数量;
(4.2)以句子序列T2i为例作为双向长短时记忆网络即BiLSTM的输入,通过正向和反向的顺序,同时获取正向的句子序列的语义信息Li={Li1,Li2,Li3,…,Lit}和反向的句子序列的语义信息具体公式如下:
(4.3)前向与后向合并后的语义信息得到包含序列上下文信息的语义输出hi={hi1,hi2,hi3,…,hit},具体公式如下:
(4.4)将包含语义信息的hi输入到单层感知机中获得单篇文档隐藏层的输出score(hi),具体公式如下:
其中,hi为包含序列上下文信息的语义输出,W1为hi的权重矩阵,b1为hi的偏置;
(4.5)通过Attention机制进行文本内各句子注意力权重矩阵αi的计算,即计算每时刻隐藏层的输出在整个文本中表示向量的匹配得分占总体得分的比重,具体公式如下:
其中,hi为包含序列上下文信息的语义输出,len(T2i)为T2i序列长度;
(4.6)通过权重矩阵αi与文本特征向量hi进行加权和,得到包含文档各句子重要性信息的向量ci,具体公式如下:
其中,len(T2i)为Ti序列长度;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910530095.0A CN110309306B (zh) | 2019-06-19 | 2019-06-19 | 一种基于wsd层级记忆网络的文档建模分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910530095.0A CN110309306B (zh) | 2019-06-19 | 2019-06-19 | 一种基于wsd层级记忆网络的文档建模分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110309306A CN110309306A (zh) | 2019-10-08 |
CN110309306B true CN110309306B (zh) | 2022-08-26 |
Family
ID=68076605
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910530095.0A Active CN110309306B (zh) | 2019-06-19 | 2019-06-19 | 一种基于wsd层级记忆网络的文档建模分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110309306B (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110909549B (zh) * | 2019-10-11 | 2021-05-18 | 北京师范大学 | 对古汉语进行断句的方法、装置以及存储介质 |
CN111221939B (zh) * | 2019-11-22 | 2023-09-08 | 华中师范大学 | 评分方法、装置和电子设备 |
CN110990608A (zh) * | 2019-12-03 | 2020-04-10 | 哈尔滨工业大学 | 一种基于Siamese结构双向长短时记忆网络的三维模型检索方法 |
CN111078878B (zh) * | 2019-12-06 | 2023-07-04 | 北京百度网讯科技有限公司 | 文本处理方法、装置、设备及计算机可读存储介质 |
CN111400492B (zh) * | 2020-02-17 | 2022-08-19 | 合肥工业大学 | 基于sfm-dcnn的层次特征文本分类方法和系统 |
CN111581229B (zh) * | 2020-03-25 | 2023-04-18 | 平安科技(深圳)有限公司 | Sql语句的生成方法、装置、计算机设备及存储介质 |
CN111523140B (zh) * | 2020-04-23 | 2024-02-23 | 国网浙江省电力有限公司物资分公司 | 签名文档的加密方法、装置、训练方法、存储介质及设备 |
CN111597340A (zh) * | 2020-05-22 | 2020-08-28 | 迪爱斯信息技术股份有限公司 | 一种文本分类方法及装置、可读存储介质 |
CN111651605B (zh) * | 2020-06-04 | 2022-07-05 | 电子科技大学 | 基于多标签分类的肺癌前沿趋势预测方法 |
CN111666414B (zh) * | 2020-06-12 | 2023-10-17 | 上海观安信息技术股份有限公司 | 一种敏感数据检测云服务的方法和云服务平台 |
CN112308370B (zh) * | 2020-09-16 | 2024-03-05 | 湘潭大学 | 一种基于Transformer的面向思政课程的主观题自动评分方法 |
CN112214599B (zh) * | 2020-10-20 | 2022-06-24 | 电子科技大学 | 基于统计学和预训练语言模型的多标签文本分类方法 |
CN112347766A (zh) * | 2020-11-27 | 2021-02-09 | 北京工业大学 | 一种处理微博文本认知歪曲的多标签分类方法 |
CN112463972B (zh) * | 2021-01-28 | 2021-05-18 | 成都数联铭品科技有限公司 | 一种基于类别不均衡的文本样本分类方法 |
CN113076720B (zh) * | 2021-04-29 | 2022-01-28 | 新声科技(深圳)有限公司 | 长文本的分段方法及装置、存储介质、电子装置 |
CN113297375B (zh) * | 2021-05-17 | 2022-03-25 | 广州锋网信息科技有限公司 | 一种基于标签的文档分类方法、系统、装置及存储介质 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107220231A (zh) * | 2016-03-22 | 2017-09-29 | 索尼公司 | 用于自然语言处理的电子设备和方法以及训练方法 |
JP2017174004A (ja) * | 2016-03-22 | 2017-09-28 | 日本電信電話株式会社 | 文意味分類算出装置、モデル学習装置、方法、及びプログラム |
US11176188B2 (en) * | 2017-01-11 | 2021-11-16 | Siemens Healthcare Gmbh | Visualization framework based on document representation learning |
EP3711046A4 (en) * | 2017-11-13 | 2021-08-18 | Promptu Systems Corporation | SYSTEMS AND PROCESSES FOR ADAPTIVE RECOGNITION AND UNDERSTANDING OF PROPER NAME ENTITIES |
US11106716B2 (en) * | 2017-11-13 | 2021-08-31 | Accenture Global Solutions Limited | Automatic hierarchical classification and metadata identification of document using machine learning and fuzzy matching |
CN108763204A (zh) * | 2018-05-21 | 2018-11-06 | 浙江大学 | 一种多层次的文本情感特征提取方法和模型 |
CN109325114A (zh) * | 2018-07-24 | 2019-02-12 | 武汉理工大学 | 一种融合统计特征与Attention机制的文本分类算法 |
CN109558487A (zh) * | 2018-11-06 | 2019-04-02 | 华南师范大学 | 基于层次性多注意力网络的文档分类方法 |
CN109446331B (zh) * | 2018-12-07 | 2021-03-26 | 华中科技大学 | 一种文本情绪分类模型建立方法及文本情绪分类方法 |
CN109710761A (zh) * | 2018-12-21 | 2019-05-03 | 中国标准化研究院 | 基于注意力增强的双向lstm模型的情感分析方法 |
CN109815336B (zh) * | 2019-01-28 | 2021-07-09 | 无码科技(杭州)有限公司 | 一种文本聚合方法及系统 |
CN109710770A (zh) * | 2019-01-31 | 2019-05-03 | 北京牡丹电子集团有限责任公司数字电视技术中心 | 一种基于迁移学习的文本分类方法及装置 |
-
2019
- 2019-06-19 CN CN201910530095.0A patent/CN110309306B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110309306A (zh) | 2019-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110309306B (zh) | 一种基于wsd层级记忆网络的文档建模分类方法 | |
Xu et al. | Survey on multi-output learning | |
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN113239181B (zh) | 基于深度学习的科技文献引文推荐方法 | |
Manoharan | Capsule network algorithm for performance optimization of text classification | |
Jin et al. | Automatic image annotation using feature selection based on improving quantum particle swarm optimization | |
CN108897815B (zh) | 一种基于相似度模型和FastText的多标签文本分类方法 | |
Li et al. | Image sentiment prediction based on textual descriptions with adjective noun pairs | |
Rodrigues et al. | Deep hashing for multi-label image retrieval: a survey | |
Niu et al. | Knowledge-based topic model for unsupervised object discovery and localization | |
CN114896388A (zh) | 一种基于混合注意力的层级多标签文本分类方法 | |
Hoefel et al. | Learning a two-stage SVM/CRF sequence classifier | |
CN110008365B (zh) | 一种图像处理方法、装置、设备及可读存储介质 | |
Diallo et al. | Auto-attention mechanism for multi-view deep embedding clustering | |
Anandika et al. | A study on machine learning approaches for named entity recognition | |
Al-Hmouz et al. | Enhanced numeral recognition for handwritten multi-language numerals using fuzzy set-based decision mechanism | |
Jain | Convolutional neural network based advertisement classification models for online English newspapers | |
CN114138971A (zh) | 一种基于遗传算法的极大多标签分类方法 | |
Huang et al. | Multi-view opinion mining with deep learning | |
CN116823321B (zh) | 一种电商用经济管理数据分析方法及系统 | |
CN112925907A (zh) | 基于事件图卷积神经网络的微博评论观点对象分类方法 | |
Marconi et al. | Hyperbolic manifold regression | |
Ye et al. | TS2V: A transformer-based Siamese network for representation learning of univariate time-series data | |
Fuangkhon | Effect of the distance functions on the distance-based instance selection for the feed-forward neural network | |
Chen et al. | D-trace: deep triply-aligned clustering |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |