CN111026845B - 一种获取多层次上下文语义的文本分类方法 - Google Patents

一种获取多层次上下文语义的文本分类方法 Download PDF

Info

Publication number
CN111026845B
CN111026845B CN201911246473.9A CN201911246473A CN111026845B CN 111026845 B CN111026845 B CN 111026845B CN 201911246473 A CN201911246473 A CN 201911246473A CN 111026845 B CN111026845 B CN 111026845B
Authority
CN
China
Prior art keywords
layer
output
intermediate layer
text
lstm network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911246473.9A
Other languages
English (en)
Other versions
CN111026845A (zh
Inventor
姜庆鸿
张华平
商建云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN201911246473.9A priority Critical patent/CN111026845B/zh
Publication of CN111026845A publication Critical patent/CN111026845A/zh
Application granted granted Critical
Publication of CN111026845B publication Critical patent/CN111026845B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种获取多层次上下文语义的文本分类方法,属于自然语言处理文本分类技术领域。使用稠密连接的双向循环神经网络Bi‑LSTM获取多层次的上下文语义,使用卷积神经网络CNN的max‑pooling层对抽取的多层次上下文语义进行语义特征提取,再将文本中每个词的词向量和该词的多层次上下文语义特征向量进行连接得到的结果输入到分类层,实现文本分类。所述方法最大程度的保留了上下文语义信息;每个中间层都能获取到一定层次的语义,且将当前层获得的语义传递到下一层,获取更深层次的语义;极大的降低了神经网络梯度消失的概率;既保留了卷积神经网络特征抽取能力强的优点,又省去了卷积层,从而降低了训练参数和时间复杂度。

Description

一种获取多层次上下文语义的文本分类方法
技术领域
本发明涉及一种获取多层次上下文语义的文本分类方法,属于自然语言处理文本分类技术领域。
背景技术
文本分类是自然语言处理领域的重要研究任务之一,是指按照一定的分类体系或标准进行自动分类标记。从传统的基于统计规则的方法到机器学习方法,再到基于深度学习的文本分类方法,这些方法在某些领域都取得了不错的效果。但在分类准确率上仍存在瓶颈。
传统的统计规则方法主要通过特征选择进行文本分类,特征选择就是选择最能代表文本含义的元素,它在文本分类中起着重要的作用。特征选择不仅可以减少问题的规模,还可以改善分类任务的执行。不同的特征对文本分类任务性能有不同的影响。但是这种方法的缺点是需要大量的人工参与,分类准确率依赖于特征选择的结果。
现有的机器学习算法,如朴素贝叶斯(NB),支持向量机(SVM)等;深度学习方法,如CNN等更多关注的是特征的抽取。对文本进行自动特征抽取,节省了大量的人工,获取最能表示文本的特征,从而进行分类。然而这些方法忽略了上下文语义在文本分类中的重要性。而上下文语义对文本分类任务的准确率有很大影响。
现有的一些获取文本上下文语义的技术集中在直接获取文本中词的浅层上下文语义。而往往很多有意义的上下文要通过挖掘更多层次的上下文语义获取到。
如何更好的获取文本的上下文语义,从而提高文本分类的准确率,已经成为文本分类领域一个重要的研究方向。然而目前在效率和准确率方面仍然有瓶颈。传统的循环神经网络通过记忆力机制获取上下文语义,然而弊端是容易出现梯度消失的情况,后来出现的LSTM长短时记忆网络,通过长短时的记忆机制,很好的改善了传统循环神经网络容易出现梯度消失的问题。双向LSTM通过增加反向信息能获取更多的上下文语义。
然而这些方法只能获取浅层的上下文语义,多层循环神经网络和Stacked-LSTM等模型可以实现获取深层次的语义信息,但是往往在获取更深层次上下文语义的时候丢失一些浅层上下文语义。目前还没有方法可以很好的获取文本的多层次的上下文语义,缺少语义信息导致文本的特征词语义稀疏也是影响文本分类准确率的一个瓶颈。
本发明针对如何获取多层次的上下文语义信息,抽取文本特征,提高文本分类的准确率,提出了Dense-BLSTM-CNN模型。
发明内容
本发明的目的在于针对现有文本分类技术,存在无法获取多层次的上下文语义信息的不足,提出了一种获取多层次上下文语义的文本分类方法。
本发明的核心思想是:使用稠密连接的双向循环神经网络Bi-LSTM获取多层次的上下文语义,使用卷积神经网络CNN的max-pooling层对抽取的多层次上下文语义进行语义特征提取,再将文本中每个词的词向量和该词的多层次上下文语义特征向量进行连接得到的结果输入到分类层,实现文本分类。
本发明是通过以下技术方案实现。
所述获取多层次上下文语义的文本分类方法,包括如下步骤:
步骤1)对获取数据集中的文本进行分词、预训练词向量以及拼接,生成拼接后的文本矩阵;
其中,获取数据集包括训练集及验证集;
具体包括如下子步骤:
步骤1-1)对获取的数据集进行分词;
其中,获取的数据集包括训练集及验证集;训练集中包含M条文本,其中每一条文本的长度相同,记为m;
步骤1-2)预训练词向量,即使用word2vec模型对训练集进行预训练,得到v个不同的词;
其中,v个不同的词中每个词的词向量维度为d;
步骤1-3)依次拼接训练集中每条文本的词向量得到M个文本矩阵;
步骤1-3),具体包括如下子步骤:
步骤1-3-1)初始化变量j=1,
其中,j取值范围是1≤j≤M;
步骤1-3-2)基于(1)拼接第j条文本的所有词向量得到文本矩阵X:
X=[x1,x2,...,xi,...,xm]m×d (1)
其中,xi∈Rd表示第j条文本中第i个词的词向量;
步骤2)将步骤1-3-2)得到的文本矩阵输入到Dense-BLSTM-CNN模型的第一个中间层,得到第一个中间层的输出向量,通过第一个中间层的输出向量得到第二个中间层的输出向量,依次得到所有中间层的输出向量C1,C2,…,CL
其中,Dense-BLSTM-CNN模型有L个中间层,每个中间层包括两部分:双向循环神经网络Bi-LSTM和CNN卷积网络的Max-pooling层;
每个中间层的输入即Bi-LSTM网络的输入,每个中间层的输出为Max-pooling层的输出,Bi-LSTM网络的输出作为Max-pooling层的输入;
具体包括如下子步骤:
步骤2-1)初始化变量l=1;
其中,l表示第l个中间层,取值范围1≤l≤L
步骤2-2)将步骤1-3-2)得到的文本矩阵输入到Dense-BLSTM-CNN模型的第一个中间层,得到第一个中间层中Bi-LSTM网络的输出B1
Figure BDA0002305655620000031
其中,
Figure BDA0002305655620000032
表示第一个中间层的Bi-LSTM网络输出的第i个位置的词向量表示,k表示每个Bi-LSTM网络的隐藏层尺寸,因此2k是Bi-LSTM网络的输出尺寸;
步骤2-3)循环变量l,得到每个中间层中Bi-LSTM网络的输出Bl,具体通过步骤2-3-1)到步骤2-3-4)实现:
步骤2-3-1):将第一个中间层的输入,即1-3-2)得到的文本矩阵和前l-1个中间层中Bi-LSTM网络的输出B1,B2,…,Bl-1拼接,得到第l层的输入Xl,具体为:
步骤2-3-1-1)基于(3)拆分第l-1个中间层Bi-LSTM网络输出的上下文词向量
Figure BDA0002305655620000033
得到上文表示
Figure BDA0002305655620000034
和下文表示
Figure BDA0002305655620000035
Figure BDA0002305655620000036
步骤2-3-1-2)连接第一个中间层的输入,即1-3-2)得到的文本矩阵和前l-1个中间层中Bi-LSTM网络的输出B1,B2,…,Bl-1,得到第l个中间层的输入Xl
Figure BDA0002305655620000041
其中,
Figure BDA0002305655620000042
表示第i个位置的词向量,连接操作表示为(5):
Figure BDA0002305655620000043
其中,
Figure BDA0002305655620000044
n为每个词向量的维度,因为第一个中间层的输入词向量维度为d,每个中间层中Bi-LSTM网络的输出尺寸为2k,因此n表示为(6):
n=d+(l-1)×2k (6)
步骤2-3-2):将第l个中间层的输入Xl输入到Dense-BLSTM-CNN模型的第l个中间层,得到第l个中间层中Bi-LSTM网络的输出Bl,具体通过(7)实现:
Figure BDA0002305655620000045
其中:
Figure BDA0002305655620000046
表示第l个中间层中Bi-LSTM网络输出的第i个位置的词向量;k表示每个Bi-LSTM网络的隐藏层尺寸,因此2k是Bi-LSTM网络的输出尺寸;
步骤2-3-3):l值增加1;判断l的值,若l≤L,跳转至步骤2-3);否则当l>L,跳转至步骤2-4);
步骤2-4)将每个中间层中Bi-LSTM网络的输出B1,B2,…,BL分别输入到每个中间层的Max-pooling层,给出每个中间层的输出C1,C2,…,CL
其中,Max-pooling窗口大小为p×2k;
其中,p<m,2k是每个Bi-LSTM网络的输出尺寸,步长为s,填充窗口尺寸pd,具体为:
步骤2-4-1)依次循环L个中间层,将每个中间层中Bi-LSTM网络的输出Bl输入到该中间层的Max-pooling层,得到Cl
其中,Cl是一个q维的向量,表示为:
Figure BDA0002305655620000047
q=(m-p+pd)÷s+1 (9)
步骤3)连接Dense-BLSTM-CNN模型所有中间层的输出向量C1,C2,…,CL,基于(10)拼接每个中间层的输出,得到特征向量F:
F=(C1,C2,...,CL) (10)
其中,C1,C2,...,CL来源于公式(8);
步骤4)将步骤3)得到的特征向量输入到全连接神经网络层中进行分类,得到分类结果。
步骤5)j值增加1,判断j的值,若1≤j≤M,跳转至步骤1-3-2);否则当j>M,结束本方法。
有益效果
本发明中提出的一种获取多层次上下文语义的文本分类方法,与现有技术相比,具有如下有益效果:
1.和卷积神经网络、双向循环神经网络相比,本发明通过使用稠密连接的双向循环神经网络,最大程度的保留了上下文语义信息;
2.每个中间层都能获取到一定层次的语义,并且将当前层获得的语义传递到下一层,继续获取更深层次的语义;
3.通过稠密连接的结构,极大的降低了神经网络梯度消失的概率;
4.在获取到多层次上下文语义的基础上,使用卷积神经网络CNN的Max-pooling层进行特征抽取,既保留了卷积神经网络特征抽取能力强的优点,又省去了卷积层,从而降低了训练参数和时间复杂度。
附图说明
图1是本发明所述一种获取多层次上下文语义的文本分类方法依托的Dense-BLSTM-CNN模型整体架构;
图2是本发明所述一种获取多层次上下文语义的文本分类方法依托的Dense-BLSTM-CNN模型中每个中间层的详细架构;
图3是本发明所述一种获取多层次上下文语义的文本分类方法的具体实施流程图。
具体实施方式
为了使本发明的目的,技术方案及优点更加清楚明白,以下结合附图通过具体实施例,对本发明进一步详细说明。应当理解,此处所描述的具体实施例,仅仅用以解释本发明,并不用于限定本发明。
实施例1
本实施例描述了本发明所述一种获取多层次上下文语义的文本分类方法的具体实施。
本发明具体实施时,步骤1)中获取数据集可以是下述三个公开数据集中的一个;
A)从http://qwone.com/jason/20Newsgroup/获取的20NewsGroup数据集;
B)从http://www.di.unipi.it/gulli/AG.corpus_of_news_articles.html获取的AG数据集;
C)从http://thuctc.thunlp.org/message获取的THUNews数据集。
其中,20NewsGroup数据集拆分了训练集和验证集,AG数据集和THUNews数据集未拆分训练集和验证集;
其中,A)、B)以及C)分别对应于发明内容中步骤1)中获取数据集;
对于没有拆分训练集和验证集的数据集,首先要将数据集拆分成训练集和验证集,然后对训练集和验证集进行分词,即分词对应着步骤1)中“对获取数据集中的文本进行分词”的操作。
本实施例是基于本方法,能够更有效的获取文本的多层次上下文语义信息。通过分析双向循环神经网络具有获取文本上下文语义的能力,但是缺少多层次的语义信息,而稠密连接的双向循环神经网络可以获得多层次的上下文语义,CNN卷积神经网络在提取特征方面有很好的表现。
本发明提出的Dense-BLSTM-CNN模型结构图,如图1所示,包括三个部分:
A)文本输入部分;
B)多个稠密连接的中间层,其中图1中每个虚线框内的部分是一个中间层;
C)连接文本输入特征向量和所有中间层输出向量并将最终的结果向量输入到线性分类层;
其中,Dense-BLSTM-CNN模型,即对应发明内容中步骤2)中的“Dense-BLSTM-CNN模型”。
图2是每个中间层的结构图,每个中间层包括两部分:双向循环神经网络Bi-LSTM和卷积神经网络CNN的Max-pooling层;
此部分图2中的中间层,对应发明内容中步骤2)和步骤3)中的Dense-BLSTM-CNN模型中的中间层;
图3是实施示意图,包括对获取的数据集进行分词,此部分对应发明内容中步骤1)中的获取数据集中的文本进行分词。
使用Word2vec对训练集进行预训练得到预训练词向量,此部分对应发明内容中步骤1)中的预训练词向量
将训练集的文本拼接成文本矩阵,此部分对应发明内容中步骤1)中的生成拼接文本矩阵。
将文本矩阵输入到Dense-BLSTM-CNN模型的第一个中间层,循环得到所有中间层中Bi-LSTM网络的输出后,经过Max-pooling层给出每个中间层的输出,此部分对应发明内容中步骤2)中的依次得到所有中间层的输出向量C1,C2,…,CL
连接所有中间层的输出向量,此部分对应发明内容中步骤3)中的特征向量向量F。
将所有中间层的输出向量输入到全连接网络层得到分类结果,此部分对应发明内容中步骤4)中的全连接神经网络层。
使用本发明提出的方法,对公开数据集20NewsGroup,AG和THUNews进行了对比实验。表2是数据集的基本情况:20NewsGroup训练集有18k(18000)条训练数据,其他数据集以此为例;20NewsGroup,AG和THUNews的分类数分别为20分类、4分类、14分类;其中20NewsGroup,AG是英文的数据集,THUNews是中文数据集。
表2数据集说明
数据集 20NewsGroup AG THUNews
训练集 18k 120k 114.78k
验证集 2k 7.6k 13.51k
分类数 20 4 14
平均词数 367 41 165
分别对公开数据集20NewsGroup,AG和THUNews进行分词,将分词后的训练数据整理后使用word2vec模型训练得到词向量表示。
逐条对训练集中的文本进行训练,每条分词后的文本,根据word2vec模型训练得到的词向量,拼接成文本的矩阵表示,并将其输入到Dense-BLSTM-CNN模型中。
经过稠密连接的双向循环神经网络Bi-LSTM获取到文本中词的多层次上下文语义,并将得到的语义词向量,输入到CNN卷积网络的Max-pooling层中,进行多层次上下文语义特征抽取,并将每个中间层得到的特征表示向量进行拼接。
拼接后的向量输入到分类器中得到分类结果。实验结果见表3,准确率较其他文本分类模型都有所提高。
表3实验结果对比表
模型 20NewsGroup AG THUNews
TF-IDF 82.3 57.31 91.5
TextCNN 90.5 63.78 98.85
Bi-LSTM 92.31 62.65 99.98
RCNN 93.39 61.67 99.93
Dense-BLSTM-CNN 97.3 65.75 99.98
以上所述为本发明的较佳实施例而已,本发明不应该局限于该实施例和附图所公开的内容。凡是不脱离本发明所公开的精神下完成的等效或修改,都落入本发明保护的范围。

Claims (3)

1.一种获取多层次上下文语义的文本分类方法,其特征在于:包括如下步骤:
步骤1)对获取数据集中的文本进行分词、预训练词向量以及拼接,生成拼接后的文本矩阵;
其中,获取数据集包括训练集及验证集;
具体包括如下子步骤:
步骤1-1)对获取的数据集进行分词;
其中,获取的数据集包括训练集及验证集;训练集中包含M条文本,其中每一条文本的长度相同,记为m;
步骤1-2)预训练词向量,即使用word2vec模型对训练集进行预训练,得到v个不同的词;
其中,v个不同的词中每个词的词向量维度为d;
步骤1-3)依次拼接训练集中每条文本的词向量得到M个文本矩阵;
步骤1-3),具体包括如下子步骤:
步骤1-3-1)初始化变量j=1,
步骤1-3-2)基于(1)拼接第j条文本的所有词向量得到文本矩阵X;
X=[x1,x2,...,xi,...,xm]m×d (1)
其中,xi∈Rd表示第j条文本中第i个词的词向量;
步骤2)将步骤1-3-2)得到的文本矩阵输入到Dense-BLSTM-CNN模型的第一个中间层,得到第一个中间层的输出向量,通过第一个中间层的输出向量得到第二个中间层的输出向量,依次得到所有中间层的输出向量C1,C2,…,CL
其中,Dense-BLSTM-CNN模型有L个中间层,每个中间层包括两部分:双向循环神经网络Bi-LSTM和CNN卷积网络的Max-pooling层;
具体包括如下子步骤:
步骤2-1)初始化变量l=1;
其中,l表示第l个中间层,取值范围1≤l≤L
步骤2-2)将步骤1-3-2)得到的文本矩阵输入到Dense-BLSTM-CNN模型的第一个中间层,得到第一个中间层中Bi-LSTM网络的输出B1
Figure FDA0003200324930000011
其中,
Figure FDA0003200324930000012
表示第一个中间层的Bi-LSTM网络输出的第i个位置的词向量表示,k表示每个Bi-LSTM网络的隐藏层尺寸,因此2k是Bi-LSTM网络的输出尺寸;
步骤2-3)循环变量l,得到每个中间层中Bi-LSTM网络的输出Bl,具体通过步骤2-3-1)到步骤2-3-4)实现:
步骤2-3-1):将第一个中间层的输入,即1-3-2)得到的文本矩阵和前l-1个中间层中Bi-LSTM网络的输出B1,B2,…,Bl-1拼接,得到第l层的输入Xl,具体为:
步骤2-3-1-1)基于(3)拆分第l-1个中间层Bi-LSTM网络输出的上下文词向量
Figure FDA0003200324930000021
得到上文表示
Figure FDA0003200324930000022
和下文表示
Figure FDA0003200324930000023
Figure FDA0003200324930000024
步骤2-3-1-2)连接第一个中间层的输入,即1-3-2)得到的文本矩阵和前l-1个中间层中Bi-LSTM网络的输出B1,B2,…,Bl-1,得到第l个中间层的输入Xl
Figure FDA0003200324930000025
其中,
Figure FDA0003200324930000026
表示第i个位置的词向量,连接操作表示为(5):
Figure FDA0003200324930000027
其中,
Figure FDA0003200324930000028
n为每个词向量的维度,因为第一个中间层的输入词向量维度为d,每个中间层中Bi-LSTM网络的输出尺寸为2k,因此n表示为(6):
n=d+(l-1)×2k (6)
步骤2-3-2):将第l个中间层的输入Xl输入到Dense-BLSTM-CNN模型的第l个中间层,得到第l个中间层中Bi-LSTM网络的输出Bl,具体通过(7)实现:
Figure FDA0003200324930000029
其中:
Figure FDA00032003249300000210
表示第l个中间层中Bi-LSTM网络输出的第i个位置的词向量;k表示每个Bi-LSTM网络的隐藏层尺寸,因此2k是Bi-LSTM网络的输出尺寸;
步骤2-3-3):l值增加1;判断l的值,若l≤L,跳转至步骤2-3);否则当l>L,跳转至步骤2-4);
步骤2-4)将每个中间层中Bi-LSTM网络的输出B1,B2,…,BL分别输入到每个中间层的Max-pooling层,给出每个中间层的输出C1,C2,…,CL
其中,Max-pooling窗口大小为p×2k;
其中,p<m,2k是每个Bi-LSTM网络的输出尺寸,步长为s,填充窗口尺寸pd,具体为:
步骤2-4-1)依次循环L个中间层,将每个中间层中Bi-LSTM网络的输出Bl输入到该中间层的Max-pooling层,得到Cl
其中,Cl是一个q维的向量,表示为:
Figure FDA0003200324930000031
q=(m-p+pd)÷s+1 (9)
步骤3)连接Dense-BLSTM-CNN模型所有中间层的输出向量C1,C2,…,CL,基于(10)拼接每个中间层的输出,得到特征向量F:
F=(C1,C2,...,CL) (10)
其中,C1,C2,...,CL来源于公式(8);
步骤4)将步骤3)得到的特征向量输入到全连接神经网络层中进行分类,得到分类结果;
步骤5)j值增加1,判断j的值,若1≤j≤M,跳转至步骤1-3-2);否则当j>M,结束本方法。
2.根据权利要求1所述 的一种获取多层次上下文语义的文本分类方法,其特征在于:步骤1-3-1)中,j取值范围是1≤j≤M。
3.根据权利要求1所述 的一种获取多层次上下文语义的文本分类方法,其特征在于:步骤2)中每个中间层的输入即Bi-LSTM网络的输入,每个中间层的输出为Max-pooling层的输出,Bi-LSTM网络的输出作为Max-pooling层的输入。
CN201911246473.9A 2019-12-06 2019-12-06 一种获取多层次上下文语义的文本分类方法 Active CN111026845B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911246473.9A CN111026845B (zh) 2019-12-06 2019-12-06 一种获取多层次上下文语义的文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911246473.9A CN111026845B (zh) 2019-12-06 2019-12-06 一种获取多层次上下文语义的文本分类方法

Publications (2)

Publication Number Publication Date
CN111026845A CN111026845A (zh) 2020-04-17
CN111026845B true CN111026845B (zh) 2021-09-21

Family

ID=70204804

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911246473.9A Active CN111026845B (zh) 2019-12-06 2019-12-06 一种获取多层次上下文语义的文本分类方法

Country Status (1)

Country Link
CN (1) CN111026845B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113297845B (zh) * 2021-06-21 2022-07-26 南京航空航天大学 一种基于多层次双向循环神经网络的简历块分类方法
CN113591240B (zh) * 2021-07-27 2023-09-05 重庆大学 基于双向lstm网络的磨齿机热误差模型建模方法
CN115062118B (zh) * 2022-07-26 2023-01-31 神州医疗科技股份有限公司 双通道信息抽取方法、装置、电子设备和介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107729311A (zh) * 2017-08-28 2018-02-23 云南大学 一种融合文本语气的中文文本特征提取方法
CN109299262A (zh) * 2018-10-09 2019-02-01 中山大学 一种融合多粒度信息的文本蕴含关系识别方法
CN109508377A (zh) * 2018-11-26 2019-03-22 南京云思创智信息科技有限公司 基于融合模型的文本特征提取方法、装置、聊天机器人和存储介质
US10282546B1 (en) * 2016-06-21 2019-05-07 Symatec Corporation Systems and methods for detecting malware based on event dependencies
CN110046353A (zh) * 2019-04-22 2019-07-23 重庆理工大学 一种基于多语言层次机制的方面级情感分析方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10282546B1 (en) * 2016-06-21 2019-05-07 Symatec Corporation Systems and methods for detecting malware based on event dependencies
CN107729311A (zh) * 2017-08-28 2018-02-23 云南大学 一种融合文本语气的中文文本特征提取方法
CN109299262A (zh) * 2018-10-09 2019-02-01 中山大学 一种融合多粒度信息的文本蕴含关系识别方法
CN109508377A (zh) * 2018-11-26 2019-03-22 南京云思创智信息科技有限公司 基于融合模型的文本特征提取方法、装置、聊天机器人和存储介质
CN110046353A (zh) * 2019-04-22 2019-07-23 重庆理工大学 一种基于多语言层次机制的方面级情感分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Investigating lstm with k-max pooling for text classification;Bo Shu et al.;《11th International Conference on Intelligent Computation Technology and Automation》;20181029;第31-34页 *

Also Published As

Publication number Publication date
CN111026845A (zh) 2020-04-17

Similar Documents

Publication Publication Date Title
CN109299342B (zh) 一种基于循环生成式对抗网络的跨模态检索方法
CN110442707B (zh) 一种基于seq2seq的多标签文本分类方法
Lopez et al. Deep Learning applied to NLP
CN107943784B (zh) 基于生成对抗网络的关系抽取方法
CN111026845B (zh) 一种获取多层次上下文语义的文本分类方法
US11288324B2 (en) Chart question answering
CN111738169B (zh) 一种基于端对端网络模型的手写公式识别方法
CN112749274B (zh) 基于注意力机制和干扰词删除的中文文本分类方法
CN110188195B (zh) 一种基于深度学习的文本意图识别方法、装置及设备
WO2021098585A1 (en) Image search based on combined local and global information
CN111639186B (zh) 动态嵌入投影门控的多类别多标签文本分类模型及装置
CN112163092B (zh) 实体及关系抽取方法及系统、装置、介质
CN111522908A (zh) 一种基于BiGRU和注意力机制的多标签文本分类方法
CN110263174B (zh) —基于焦点关注的主题类别分析方法
CN110968725B (zh) 图像内容描述信息生成方法、电子设备及存储介质
CN113220890A (zh) 一种基于预训练的结合新闻标题和新闻长文本内容的深度学习方法
US11568140B2 (en) Optical character recognition using a combination of neural network models
CN112115702A (zh) 意图识别方法、装置、对话机器人和计算机可读存储介质
Nikitha et al. Handwritten text recognition using deep learning
Engin et al. Multimodal deep neural networks for banking document classification
Le et al. Multi visual and textual embedding on visual question answering for blind people
CN112199503B (zh) 一种基于特征增强的非平衡Bi-LSTM的中文文本分类方法
CN112434686B (zh) 针对ocr图片的端到端含错文本分类识别仪
CN113779966A (zh) 一种基于注意力的双向cnn-rnn深度模型的蒙文情感分析方法
CN112560440A (zh) 一种基于深度学习的面向方面级情感分析的句法依赖方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant