CN112559680B - 基于多层次特征提取的文本分类方法、模型及存储介质 - Google Patents

基于多层次特征提取的文本分类方法、模型及存储介质 Download PDF

Info

Publication number
CN112559680B
CN112559680B CN202011384063.3A CN202011384063A CN112559680B CN 112559680 B CN112559680 B CN 112559680B CN 202011384063 A CN202011384063 A CN 202011384063A CN 112559680 B CN112559680 B CN 112559680B
Authority
CN
China
Prior art keywords
text
capsule
input
matrix
level feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011384063.3A
Other languages
English (en)
Other versions
CN112559680A (zh
Inventor
余本功
朱晓洁
杨善林
张强
张子薇
王惠灵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN202011384063.3A priority Critical patent/CN112559680B/zh
Publication of CN112559680A publication Critical patent/CN112559680A/zh
Application granted granted Critical
Publication of CN112559680B publication Critical patent/CN112559680B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施方式提供一种基于多层次特征提取的文本分类方法、模型及存储介质,属于自然语言处理技术。所述文本分类方法包括:将输入文本进行词嵌入操作以获得所述输入文本的词嵌入矩阵;获取所述词嵌入矩阵的上下文语义信息;对所述上下文语义信息给予不同的关注以得到全局特征;基于所述全局特征进行高层次特征提取以得到对应的高层次特征表示;根据所述高层次特征表示确定所述输入文本被分类至各个类别的分类概率;根据所述分类概率确定所述输入文本的分类结果。该文本分类方法能够通过提取深层次的局部语义信息,从而实现文本的准确分类。

Description

基于多层次特征提取的文本分类方法、模型及存储介质
技术领域
本发明涉及自然语言处理技术,具体地涉及一种基于多层次特征提取的文本分类方法、模型及存储介质。
背景技术
随着互联网技术的发展和移动社交网络平台的普及,各大新闻网站、社交媒体、电子邮件等新媒体平台产生的文本信息呈指数式增长,这些文本信息具有较强的时效性,且隐藏着潜在的经济价值。例如对电商用户评论文本进行观点挖掘和情感分析,企业可以分析客户偏好、了解用户需求,并及时发现企业在运营过程中的不足,改进相关产品和客户服务,对提升企业竞争力具有重要作用,能为不同企业带来巨大的价值。
有效的组织和管理文本信息是开展分析工作的基础,面对非结构化的海量文本,传统的人工处理方式耗时费力,因此需要设计出一种能够快速有效处理文本数据的方法。对文本进行分类是一种有效的文本信息组织和管理方法,被广泛应用于信息分类、标签推荐、情感分析、垃圾邮件过滤、用户意图分析等领域。近年来,深度学习利用词向量的分布式表示构建模型的输入,主流的深度学习模型,如卷积神经网络和循环神经网络在文本分类任务上都取得了不错的效果。
由于机器学习算法具有无法很好表征文本上下文信息等局限性,深度学习算法开始被广泛应用到文本分类任务上。对文本分类任务而言,基于深度学习的文本分类算法进行文本特征提取主要是利用word2vec、glove等模型获取词向量,word2vec词向量可以定量地度量词语之间的语义关系,挖掘词语之间的联系。
有学者使用CNN模型进行文本分类,通过多通道卷积获取局部信息,也有学者将卷积神经网络应用于字符级别的文本分类,但卷积神经网络只能提取局部语义信息,为解决CNN局部提取的局限性,很多学者利用循环神经网络提取序列文本特征,其中LSTM的研究更为广泛。另外也有人提出TextRNN,利用BiLSTM的输出表达上下文信息。利用LSTM和attention机制捕获上下文特征,循环神经网络的另一个变种是GRU,与LSTM设置的输入门、输出门和遗忘门不同,GRU组合了输入们和遗忘门,构造更加简单,使用较少的参数加快了训练数据的速度。朱茂然等学者利用BiGRU结合层次注意力对文本中的比较关系进行识别。Tang等学者提出了一种利用BiGRU对文档进行全局特征表示的情感分类模型,结果表明循环网络在文本情感分类任务上取得了不错的效果。这类方法提高了文本分类模型在全局上下文特征提取上的性能,但无法很好地提取深层次的局部语义信息。
发明内容
本发明实施方式的目的是提供一种基于多层次特征提取的文本分类方法、模型及存储介质,该文本分类方法能够通过提取深层次的局部语义信息,从而实现文本的准确分类。
为了实现上述目的,本发明实施方式提供一种基于多层次特征提取的文本分类方法,包括:
将输入文本进行词嵌入操作以获得所述输入文本的词嵌入矩阵;
获取所述词嵌入矩阵的上下文语义信息;
对所述上下文语义信息给予不同的关注以得到全局特征;
基于所述全局特征进行高层次特征提取以得到对应的高层次特征表示;
根据所述高层次特征表示确定所述输入文本被分类至各个类别的分类概率;
根据所述分类概率确定所述输入文本的分类结果。
可选地,所述将输入文本进行词嵌入操作以获得所述输入文本的词嵌入矩阵具体包括:
采用Word2vec模型的skip-gram模型处理所述输入文本以得到所述词嵌入矩阵。
可选地,采用Word2vec模型的skip-gram模型处理所述输入文本以得到所述词嵌入矩阵具体包括:
对所述输入文本执行预处理操作,其中,所述预处理操作包括文本清洗、去除停用词、去重以及分词中的至少一者;
采用变换矩阵E与所述输入文本中的每个单词xi对应的one-hot向量点乘以得到每个单词xi对应的嵌入向量;
组合所有的嵌入向量以得到所述词嵌入矩阵。
可选地,获取所述词嵌入矩阵的上下文语义信息具体包括:
将所述词嵌入矩阵输入前向门控循环单元和后向门控循环单元中以得到所述上下文语义信息。
可选地,对所述上下文语义信息给予不同的关注以得到全局特征具体包括:
采用权值注意力层对所述上下文语义信息给予不同的关注。
可选地,基于所述全局特征进行高层次特征提取以得到对应的高层次特征表示具体包括:
将所述全局特征输入卷积层中以得到对应的特征矩阵;
将所述特征矩阵输入主胶囊层以得到对应的主胶囊;
采用动态路由算法处理所述主胶囊以得到文本胶囊,其中,所述文本胶囊为所述高层次特征表示。
可选地,采用动态路由算法处理所述主胶囊以得到文本胶囊具体包括:
根据公式(1)和公式(2)计算所述文本胶囊的输入sj
Figure GDA0003747034620000041
Figure GDA0003747034620000042
其中,ui为主胶囊中第i个胶囊,wj第j个共享权值矩阵,cij为第i个胶囊与第j个共享权值矩阵的耦合系数;
根据公式(3)计算输出向量vj
Figure GDA0003747034620000043
其中,ε为预设的参数值;
判断迭代次数是否大于或等于预设值;
在判断所述迭代次数小于所述预设值的情况下,根据公式(4)和公式(5)更新耦合系数cij
Figure GDA0003747034620000044
Figure GDA0003747034620000045
再次根据公式(1)和公式(2)计算所述文本胶囊的输入sj,直到判断所述迭代次数大于或等于所述预设值;
在判断所述迭代次数大于或等于所述预设值的情况下,将所述输出向量vj作为所述文本胶囊。
可选地,根据所述高层次特征表示确定所述输入文本被分类至各个类别的分类概率具体包括:
将所述高层次特征表示输入全连接层中以得到所述分类概率。
另一方面,本发明还提供一种基于多层次特征提取的文本分类模型,所述文本分类模型包括:
输入层,用于将输入文本进行词嵌入操作以获得所述输入文本的词嵌入矩阵;
BiGRU层,用于获取所述词嵌入矩阵的上下文语义信息;
权值注意力层,用于对所述上下文语义信息给予不同的关注以得到全局特征;
卷积层、主胶囊层以及文本胶囊层,用于基于所述全局特征进行高层次特征提取以得到对应的高层次特征表示;以及
输出层,用于根据所述高层次特征表示确定所述输入文本被分类至各个类别的分类概率,并根据所述分类概率确定所述输入文本的分类结果。
再一方面,本发明还提供一种存储介质,所述存储介质存储有指令,所述指令用于被机器读取以使得所述机器执行如上述任一所述的文本分类方法。
通过上述技术方案,本发明提供的基于多层次特征提取的文本分类方法、模型及存储介质首先通过采用输入层获取输入文本的嵌入矩阵,再设置BiGRU层提取上下文语义信息,然后针对上下文语义信息采用权值注意力层予以不同的关注,接着采用卷积层、主胶囊层以及文本胶囊层获取高层次特征表示,最后采用输出层根据该高层次特征表示确定输入文本的分类结果。通过输入层、BiGRU层、权值注意力层、卷积层、主胶囊层、文本胶囊层以及输出层各自的特性,实现了对输入文本高层次特征表示的提取以及精确的分类,克服了现有技术中的文本分类模型无法很好地提取深层次的局部语义信息的技术缺陷。
本发明实施方式的其它特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本发明实施方式的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明实施方式,但并不构成对本发明实施方式的限制。在附图中:
图1是根据本发明的一个实施方式的基于多层次特征提取的文本分类方法的流程图;
图2是根据本发明的一个实施方式的获取词嵌入矩阵的方法的流程图;
图3是根据本发明的一个实施方式的前向门控循环单元和后向门控循环单元的具体工作方式的示意图;
图4是根据本发明的一个实施方式的获取高层次特征表示的方法的流程图;
图5是根据本发明的一个实施方式的动态路由算法的流程图;
图6是根据本发明的一个实施方式的动态路由算法的示意图;以及
图7是根据本发明的一个实施方式的基于多层次特征提取的文本分类模型的结构示意图。
具体实施方式
以下结合附图对本发明实施方式的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明实施方式,并不用于限制本发明实施方式。
在本发明实施方式中,在未作相反说明的情况下,使用的方位词如“上、下、顶、底”通常是针对附图所示的方向而言的或者是针对竖直、垂直或重力方向上而言的各部件相互位置关系描述用词。
另外,若本发明实施方式中有涉及“第一”、“第二”等的描述,则该“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施方式之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
如图1所示是根据本发明的一个实施方式的基于多层次特征提取的文本分类方法的流程图。在图1中,该方法可以包括:
在步骤S10中,将输入文本进行词嵌入操作以获得输入文本的词嵌入矩阵。在该实施方式中,可以是采用Word2vec模型的skip-gram模型处理输入文本以得到该词嵌入矩阵。具体地,获取该词嵌入矩阵的方式可以包括如图2中所示出的步骤。在图2中,该步骤S10可以包括:
在步骤S20中,对输入文本执行预处理操作。其中,该预处理操作可以包括文本清洗、去除停用词、去重以及分词中的至少一者。在针对不同类型的输入文本,可以对文本清洗、去除停用词、去重以及分词等操作进行删减或增加。另外,为了使得词向量矩阵的维度保持一致,在该步骤中,可以将输入文本的长度设置为L。
在步骤S21中,采用变换矩阵E与输入文本中的每个单词xi对应的one-hot向量点乘以得到每个单词xi对应的嵌入向量ei
在步骤S22中,组合所有的嵌入向量ei以得到词嵌入矩阵e={e1,e2,e3,…,eL}。其中,该词嵌入矩阵e可以一个具有d个行向量,L个列向量的矩阵,即:e∈RL×d。e1、e2等均可以为该预处理后的输入文本S={x1,x2,x3,…,xL}中的单词xi所对应的嵌入向量。
在步骤S11中,获取词嵌入矩阵的上下文语义信息。上下文语义信息可以用于表示词嵌入矩阵中上下文之间的相关关系。传统的GRU模型虽然能够捕捉输入文本中的长距离信息。但是,就某一位置而言,传统的GRU模型只能够捕获在该位置之前的文本信息。就汉语的习惯而言,在语言表述时常常存在转折、过渡等语句,例如“文本A,但是,文本B”,其中,文本A和文本B所要表达的内容完全相反。因此要获取文本实质要表达的内容,势必需要结合输入文本的整体内容来确定。所以传统的GRU模型显然难以满足这一技术条件。故在该实施方式中,该步骤S11可以是将词嵌入矩阵输入前向门控循环单元和后向门控循环单元中。对于该前向门控循环单元和后向门控循环单元的具体工作方式,可以是如图3所示。在图3中,前向门控循环单元(Forward GRU)和后向门控循环单元(Backward GRU)均可以包括多个隐藏单元(h1 (1)、h2 (1)、h3 (1)、h1 (2)、h2 (2)、h3 (2)…)。其中,前向门控循环单元的隐藏单元(h1 (1)、h2 (1)、h3 (1))和后向门控循环单元(h1 (2)、h2 (2)、h3 (2))的顺序相反。其具体过程如可以是如公式(1)(前向门控循环单元)和公式(2)(后向门控循环单元)所示,
Figure GDA0003747034620000081
Figure GDA0003747034620000082
其中,
Figure GDA0003747034620000083
为t时刻前向门控循环单元的输出,et为t时刻的词嵌入矩阵输入的词向量,
Figure GDA0003747034620000084
为t-1时刻前向门控循环单元的输出,
Figure GDA0003747034620000085
为t时刻后向门控循环单元的输出,
Figure GDA0003747034620000086
为t-1时刻后向门控循环单元的输出。
因此,在接收到词嵌入矩阵时,前向门控循环单元和后向门控循环单元分别从两个方向(从前到后和从后到前)进行处理,并相互拼接,从而得到该上下文语义信息H=(h1、h2…ht)。具体地,该拼接过程可以是如公式(3)和公式(4)所示,
Figure GDA0003747034620000087
H=[h1,h2,…,hn],(4)。
由于前向门控循环单元和后向门控循环单元分别从两个方向进行处理,克服了现有技术中单个GRU无法结合上下文信息而导致出现文本分类错误的技术缺陷,大大提高了本发明提供的文本分类方法的识别准确度。
在步骤S12中,对上下文语义信息给予不同的关注以得到全局特征。在确定表示单个单词的上下文语义信息后,为了得到全局特征,可以针对每个上下文语义信息赋予对应的关注。具体地,如图3所示,可以是采用权值注意力层(Attention)对该上下文信息给予不同的关注。其中,关注αt的数值可以是0-1范围内,且所有的关注αt的总和为1,其具体的计算公式可以是如公式(5)和(6)所示,
ct=tanh(Wtht+bt),(5)
Figure GDA0003747034620000091
其中,Wt为权值注意力层的更新参数,bt为可更新的偏置项。
经过该步骤S12,该全局特征也可以表示为公式(7)和公式(8),
h′t=αt*ht,(7)
H′=[h′1,h′2…,h′n],(8)
其中,H′为该全局特征,h′t、h′1、h′2以及h′n均为全局特征中的向量。
在步骤S13中,基于全局特征进行高层次特征提取以得到对应的高层次特征表示。具体地,该步骤S13可以进一步包括如图4中所示出的步骤。在图4中,该步骤S13可以包括:
在步骤S30中,将全局特征输入卷积层中以得到对应的特征矩阵。全局特征H′是一个具有L个行向量,2V个列向量的矩阵(H′∈RL×2V)。在该卷积层中,包括B个大小为Wa∈RK×2V(K为卷积滤波器的高度,2V为该卷积滤波器的宽度)的卷积滤波器。该B个卷积滤波器在步长为1的情况下提取该矩阵中不同位置的n-gram特征。具体地,该过程可以是如公式(9)所示,
Figure GDA0003747034620000092
其中,
Figure GDA0003747034620000093
为卷积滤波器Wa与序列窗口Xi:i+k-1生成的第i个特征映射,a∈{1,2,…,B},f表示非线性激活函数,f=max(0,x);
Figure GDA0003747034620000094
表示卷积运算,b1为偏置项。由于该卷积滤波器的数量为B,因此所产生的特征映射的数量自然也为B,即如公式(10)所示,
M=[m1,m2,…,mB]∈R(L-K+1)×B且ma∈R(L-K+1),(10)
其中,M为特征矩阵。
在步骤S31中,将特征矩阵输入主胶囊层以得到对应的主胶囊。该主胶囊层中包括C个滤波器,该滤波器Wd的大小为B×d,即:Wb∈RB×d。在该步骤S31中,滤波器Wb通过在特征矩阵上滑动以选取对应的向量,并根据公式(11)处理以得到对应的主胶囊,
Figure GDA0003747034620000101
其中,ui为主胶囊中的一个(第i个)胶囊,squash为非线性挤压函数,Mi∈RB为选取的向量,
Figure GDA0003747034620000102
为卷积运算,b2为偏置项。
在步骤S32中,采用动态路由算法处理主胶囊以得到文本胶囊。其中,该文本胶囊即为高层次特征表示。具体地,该步骤S32可以包括如图5所示的步骤,而其流程的示意图则可以是如图6所示。在图5和图6中,该步骤S32可以包括:
在步骤S40中,根据公式(12)和公式(13)计算文本胶囊的输入sj
Figure GDA0003747034620000103
Figure GDA0003747034620000104
其中,ui为主胶囊中第i个胶囊,wj第j个共享权值矩阵,cij为第i个胶囊与第j个共享权值矩阵的耦合系数,表示主胶囊中各个胶囊之间的连接概率;
在步骤S41中,根据公式(14)计算输出向量vj
Figure GDA0003747034620000105
其中,为预设的参数值。在本发明的一个示例中,该参数值可以是1e-7。
在步骤S42中,判断迭代次数是否大于或等于预设值。
在步骤S43中,在判断迭代次数小于预设值的情况下,根据公式(4)和公式(5)更新耦合系数cij
Figure GDA0003747034620000111
Figure GDA0003747034620000112
再次根据公式(12)和公式(13)计算文本胶囊的输入sj(即返回执行步骤S40),直到判断迭代次数大于或等于预设值。
在步骤S44中,在判断迭代次数大于或等于预设值的情况下,将输出向量vj作为文本胶囊。
在步骤S14中,根据高层次特征表示确定输入文本被分类至各个类别的分类概率。具体地,可以是将高层次特征表示输入全连接层中以得到分类概率。对于该全连接层,其激活函数可以是例如softmax函数。
在步骤S15中,根据分类概率确定输入文本的分类结果。例如选择概率值最大的类作为最终的分类结果。
另一方面,本发明还提供一种基于多层次特征提取的文本分类模型,如图7所示,该文本分类模型可以包括输入层01、BiGRU层02、权值注意力层03、卷积层04、主胶囊层05、文本胶囊层06以及输出层07。其中,输入层01可以用于将输入文本进行词嵌入操作以获得输入文本的词嵌入矩阵;BiGRU层02可以用于获取词嵌入矩阵的上下文语义信息;权值注意力层03可以用于对上下文语义信息给予不同的关注以得到全局特征;卷积层04、主胶囊层05以及文本胶囊层06可以用于基于全局特征进行高层次特征提取以得到对应的高层次特征表示;输出层07(Dense)则可以用于根据高层次特征表示确定输入文本被分类至各个类别的分类概率,并根据该分类概率确定输入文本的分类结果。由于其中各个层的工作方式在前文中已经详述,故此处不再赘述。
再一方面,本发明还提供一种存储介质,该存储介质可以存储有指令,该指令可以用于被机器读取以使得机器执行如上述任一所述的文本分类方法。
通过上述技术方案,本发明提供的基于多层次特征提取的文本分类方法、模型及存储介质首先通过采用输入层获取输入文本的嵌入矩阵,再设置BiGRU层提取上下文语义信息,然后针对上下文语义信息采用权值注意力层予以不同的关注,接着采用卷积层、主胶囊层以及文本胶囊层获取高层次特征表示,最后采用输出层根据该高层次特征表示确定输入文本的分类结果。通过输入层、BiGRU层、权值注意力层、卷积层、主胶囊层、文本胶囊层以及输出层各自的特性,实现了对输入文本高层次特征表示的提取以及精确的分类,克服了现有技术中的文本分类模型无法很好地提取深层次的局部语义信息的技术缺陷。
为了进一步验证本发明提供的文本分类方法的技术效果,在采用同样数据集的情况下,分别采用现有技术中常用的TextRNN、GRU-Capule、TextRCNN以及本发明提供的方法(a multi-level feature extraction capsule network model for textclassfication,MLF-CapsNet)进行识别,其结果如表1所示,
表1
Figure GDA0003747034620000121
Figure GDA0003747034620000131
其中,精确率、召回率以及F1值均为评价文本识别结果优劣的指标,且该指标越接近1,文本识别结果越准确。
从表1中可以看出,无论是关于汽车评论的文本,还是电信投诉或头条新闻的文本,本发明提供的文本识别方法均优于其余的神经网络模型。
以上结合附图详细描述了本发明例的可选实施方式,但是,本发明实施方式并不限于上述实施方式中的具体细节,在本发明实施方式的技术构思范围内,可以对本发明实施方式的技术方案进行多种简单变型,这些简单变型均属于本发明实施方式的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本发明实施方式对各种可能的组合方式不再另行说明。
本领域技术人员可以理解实现上述实施方式方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个可以是单片机,芯片等或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
此外,本发明实施方式的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明实施方式的思想,其同样应当视为本发明实施方式所公开的内容。

Claims (8)

1.一种基于多层次特征提取的文本分类方法,其特征在于,所述文本分类方法包括:
将输入文本进行词嵌入操作以获得所述输入文本的词嵌入矩阵;
获取所述词嵌入矩阵的上下文语义信息;
对所述上下文语义信息给予不同的关注以得到全局特征;
基于所述全局特征进行高层次特征提取以得到对应的高层次特征表示;
根据所述高层次特征表示确定所述输入文本被分类至各个类别的分类概率;
根据所述分类概率确定所述输入文本的分类结果;
基于所述全局特征进行高层次特征提取以得到对应的高层次特征表示具体包括:
将所述全局特征输入卷积层中以得到对应的特征矩阵;
将所述特征矩阵输入主胶囊层以得到对应的主胶囊;
采用动态路由算法处理所述主胶囊以得到文本胶囊,其中,所述文本胶囊为所述高层次特征表示;
采用动态路由算法处理所述主胶囊以得到文本胶囊具体包括:
根据公式(1)和公式(2)计算所述文本胶囊的输入sj
Figure FDA0003747034610000011
Figure FDA0003747034610000012
其中,ui为主胶囊中第i个胶囊,wj第j个共享权值矩阵,cij为第i个胶囊与第j个共享权值矩阵的耦合系数;
根据公式(3)计算输出向量vj
Figure FDA0003747034610000013
其中,ε为预设的参数值;
判断迭代次数是否大于或等于预设值;
在判断所述迭代次数小于所述预设值的情况下,根据公式(4)和公式(5)更新耦合系数cij
Figure FDA0003747034610000021
Figure FDA0003747034610000022
再次根据公式(1)和公式(2)计算所述文本胶囊的输入sj,直到判断所述迭代次数大于或等于所述预设值;
在判断所述迭代次数大于或等于所述预设值的情况下,将所述输出向量vj作为所述文本胶囊。
2.根据权利要求1所述的文本分类方法,其特征在于,所述将输入文本进行词嵌入操作以获得所述输入文本的词嵌入矩阵具体包括:
采用Word2vec模型的skip-gram模型处理所述输入文本以得到所述词嵌入矩阵。
3.根据权利要求2所述的文本分类方法,其特征在于,采用Word2vec模型的skip-gram模型处理所述输入文本以得到所述词嵌入矩阵具体包括:
对所述输入文本执行预处理操作,其中,所述预处理操作包括文本清洗、去除停用词、去重以及分词中的至少一者;
采用变换矩阵E与所述输入文本中的每个单词xi对应的one-hot向量点乘以得到每个单词xi对应的嵌入向量;
组合所有的嵌入向量以得到所述词嵌入矩阵。
4.根据权利要求1所述的文本分类方法,其特征在于,获取所述词嵌入矩阵的上下文语义信息具体包括:
将所述词嵌入矩阵输入前向门控循环单元和后向门控循环单元中以得到所述上下文语义信息。
5.根据权利要求1所述的文本分类方法,其特征在于,对所述上下文语义信息给予不同的关注以得到全局特征具体包括:
采用权值注意力层对所述上下文语义信息给予不同的关注。
6.根据权利要求1所述的文本分类方法,其特征在于,根据所述高层次特征表示确定所述输入文本被分类至各个类别的分类概率具体包括:
将所述高层次特征表示输入全连接层中以得到所述分类概率。
7.一种基于多层次特征提取的文本分类模型,其特征在于,所述文本分类模型包括:
输入层,用于将输入文本进行词嵌入操作以获得所述输入文本的词嵌入矩阵;
BiGRU层,用于获取所述词嵌入矩阵的上下文语义信息;
权值注意力层,用于对所述上下文语义信息给予不同的关注以得到全局特征;
卷积层、主胶囊层以及文本胶囊层,用于基于所述全局特征进行高层次特征提取以得到对应的高层次特征表示;以及
输出层,用于根据所述高层次特征表示确定所述输入文本被分类至各个类别的分类概率,并根据所述分类概率确定所述输入文本的分类结果;
基于所述全局特征进行高层次特征提取以得到对应的高层次特征表示具体包括:
将所述全局特征输入卷积层中以得到对应的特征矩阵;
将所述特征矩阵输入主胶囊层以得到对应的主胶囊;
采用动态路由算法处理所述主胶囊以得到文本胶囊,其中,所述文本胶囊为所述高层次特征表示;
采用动态路由算法处理所述主胶囊以得到文本胶囊具体包括:
根据公式(1)和公式(2)计算所述文本胶囊的输入sj
Figure FDA0003747034610000041
Figure FDA0003747034610000042
其中,ui为主胶囊中第i个胶囊,wj第j个共享权值矩阵,cij为第i个胶囊与第j个共享权值矩阵的耦合系数;
根据公式(3)计算输出向量vj
Figure FDA0003747034610000043
其中,ε为预设的参数值;
判断迭代次数是否大于或等于预设值;
在判断所述迭代次数小于所述预设值的情况下,根据公式(4)和公式(5)更新耦合系数cij
Figure FDA0003747034610000044
Figure FDA0003747034610000045
再次根据公式(1)和公式(2)计算所述文本胶囊的输入sj,直到判断所述迭代次数大于或等于所述预设值;
在判断所述迭代次数大于或等于所述预设值的情况下,将所述输出向量vj作为所述文本胶囊。
8.一种存储介质,其特征在于,所述存储介质存储有指令,所述指令用于被机器读取以使得所述机器执行如权利要求1至6任一所述的文本分类方法。
CN202011384063.3A 2020-12-01 2020-12-01 基于多层次特征提取的文本分类方法、模型及存储介质 Active CN112559680B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011384063.3A CN112559680B (zh) 2020-12-01 2020-12-01 基于多层次特征提取的文本分类方法、模型及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011384063.3A CN112559680B (zh) 2020-12-01 2020-12-01 基于多层次特征提取的文本分类方法、模型及存储介质

Publications (2)

Publication Number Publication Date
CN112559680A CN112559680A (zh) 2021-03-26
CN112559680B true CN112559680B (zh) 2022-10-04

Family

ID=75045946

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011384063.3A Active CN112559680B (zh) 2020-12-01 2020-12-01 基于多层次特征提取的文本分类方法、模型及存储介质

Country Status (1)

Country Link
CN (1) CN112559680B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113762237B (zh) * 2021-04-26 2023-08-18 腾讯科技(深圳)有限公司 文本图像处理方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110826336A (zh) * 2019-09-18 2020-02-21 华南师范大学 一种情感分类方法、系统、存储介质及设备
CN111914085A (zh) * 2020-06-18 2020-11-10 华南理工大学 文本细粒度情感分类方法、系统、装置及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11494615B2 (en) * 2019-03-28 2022-11-08 Baidu Usa Llc Systems and methods for deep skip-gram network based text classification

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110826336A (zh) * 2019-09-18 2020-02-21 华南师范大学 一种情感分类方法、系统、存储介质及设备
CN111914085A (zh) * 2020-06-18 2020-11-10 华南理工大学 文本细粒度情感分类方法、系统、装置及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Capsule Network on Social Media Text: An Application to Automatic Detection of Clickbaits";Uddipta Bhattacharjee;《2019 11th International Conference on Communication Systems & Networks (COMSNETS)》;20190513;第1-4页 *
"基于门控循环单元和胶囊特征的文本情感分析";杨云龙等;《计算机应用》;20200429;第2531-2535页 *

Also Published As

Publication number Publication date
CN112559680A (zh) 2021-03-26

Similar Documents

Publication Publication Date Title
US20220269707A1 (en) Method and system for analyzing entities
CN111783474B (zh) 一种评论文本观点信息处理方法、装置及存储介质
CN107992531A (zh) 基于深度学习的新闻个性化智能推荐方法与系统
CN110083833B (zh) 中文字词向量和方面词向量联合嵌入情感分析方法
CN113254648A (zh) 一种基于多层次图池化的文本情感分析方法
CN110750635B (zh) 一种基于联合深度学习模型的法条推荐方法
CN112464656A (zh) 关键词抽取方法、装置、电子设备和存储介质
CN112487189B (zh) 一种图卷积网络增强的隐式篇章文本关系分类方法
CN108664512B (zh) 文本对象分类方法及装置
CN111581966A (zh) 一种融合上下文特征方面级情感分类方法和装置
CN112183056A (zh) 基于CNN-BiLSTM框架的上下文依赖的多分类情感分析方法和系统
CN114860930A (zh) 一种文本分类方法、装置以及存储介质
CN110110218B (zh) 一种身份关联方法及终端
CN112559680B (zh) 基于多层次特征提取的文本分类方法、模型及存储介质
CN116257601A (zh) 一种基于深度学习的违法词库构建方法及系统
CN112579583B (zh) 一种面向事实检测的证据与声明联合抽取方法
CN114882409A (zh) 一种基于多模态特征融合的智能暴力行为检测方法及装置
CN114020901A (zh) 一种结合主题挖掘和情感分析的金融舆情分析方法
KR102282328B1 (ko) Lstm을 이용한 국가별 선호도 예측 시스템 및 방법
CN113688633A (zh) 一种提纲确定方法及装置
CN113535928A (zh) 基于注意力机制下长短期记忆网络的服务发现方法及系统
Arora et al. Evaluation Of Product Reviews Using Deep Learning Classifier Models
CN112364666B (zh) 文本表征方法、装置及计算机设备
CN116089624B (zh) 基于知识图谱的数据推荐方法、装置和系统
CN114898339B (zh) 驾驶行为预测模型的训练方法、装置、设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant