CN109753567A - 一种结合标题与正文注意力机制的文本分类方法 - Google Patents
一种结合标题与正文注意力机制的文本分类方法 Download PDFInfo
- Publication number
- CN109753567A CN109753567A CN201910095696.3A CN201910095696A CN109753567A CN 109753567 A CN109753567 A CN 109753567A CN 201910095696 A CN201910095696 A CN 201910095696A CN 109753567 A CN109753567 A CN 109753567A
- Authority
- CN
- China
- Prior art keywords
- text
- vector
- word
- title
- context
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 230000007246 mechanism Effects 0.000 title claims abstract description 30
- 238000012549 training Methods 0.000 claims abstract description 23
- 238000013528 artificial neural network Methods 0.000 claims abstract description 14
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 9
- 238000012545 processing Methods 0.000 claims abstract description 9
- 230000004913 activation Effects 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 11
- 230000009466 transformation Effects 0.000 claims description 5
- 230000000306 recurrent effect Effects 0.000 claims description 4
- 230000006870 function Effects 0.000 abstract description 9
- 238000010586 diagram Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 230000008859 change Effects 0.000 description 3
- 241000208340 Araliaceae Species 0.000 description 2
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 2
- 235000003140 Panax quinquefolius Nutrition 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 235000008434 ginseng Nutrition 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种结合标题与正文注意力机制的文本分类方法。首先对每篇文档的标题与正文进行分词预处理,得到标题词集合和正文词集合;采用word2vec的CBOW模型训练词向量,用双向循环神经网络学习每个词结合上下文语义的表示,通过串联词向量及其左右上下文的表示,得到一个词的潜在语义向量;分别将标题词集合及正文词集合中每个词的潜在语义向量进行最大池化处理,得到标题向量及正文向量;使用标题与正文注意力机制,得到注意力向量;在计算整篇文档的向量表示后,通过soft max函数输出概率预测文本的类别。本发明解决了现有的带有标题的文本分类时忽略标题内容的重要性,把标题当作正文的一部分或忽略标题信息,导致分类结果准确度低的问题。
Description
技术领域
本发明属于自然语言处理领域,具体涉及一种结合标题与正文注意力机制的文本分类方法。
背景技术:
随着我国各行各业信息化平台的迅速发展,在线文本数据已经浩瀚如海。海量的文本数据中蕴含着重要的价值,但如何高效的组织并利用这些数据成了一大问题,自然语言处理中文本分类技术是一个有效的解决方法。
文本分类技术是用先文本数据构造分类器模型,按照建立好的分类器模型对新的文本划分类别的过程。传统的文本分类方法,集中在处理特征工程和选择分类器两大问题上,存在着文本表示高维度高稀疏,特征表达能力弱,需要进行人工特征工程等问题。近年来,词向量和深度神经网络的出现,解决了文本表示以及获取特征表达能力的问题,取得了更优秀的效果。
注意力机制源于对人类视觉的研究,它决定了需要关注输入的哪一部分,分配有限的资源给更重要的部分。目前,注意力机制被广泛应用在自然语言处理、图像识别、语音识别等不同类型的深度学习任务中,均取得了很好的效果。
对于中文文本而言,词是构成文本的基本单位,可以根据一个词的上下文信息可以获取词在文本中的语义并帮助消除歧义。很多结构化含标题的文档,往往都包含标题和正文两部分,且标题大多数对分类有很大帮助。然而,目前针对含标题的文本分类的研究存在一定的缺陷:
首先,现有的文本分类方法直接使用文本预处理后词的词向量作为文本特征,忽略了词在上下文中的语义信息。
其次,与普通的文本不同,含有标题的文本都包括标题和正文两部分,标题往往是正文信息的高度总结的一句话。而现有大多文本分类方法都是把标题当作正文的一部分或者直接忽略标题信息,忽略了标题信息对分类的重要性。
发明内容
本发明的目的在于:提供一种结合标题与正文注意力机制的文本分类方法,解决了现有的含有标题的文本分类方法忽略标题内容的重要性,把标题当作正文的一部分或者直接忽略标题信息,导致分类结果精确度低的问题。
为实现上述目的,本发明采用以下技术方案:一种结合标题与正文注意力机制的文本分类方法,包括以下步骤:
步骤1:对每篇文档的标题与正文进行分词预处理,得到标题词集合和正文词集合;
步骤2:采用词向量训练模型训练标题词集合和正文词集合向量,得到每一个词的分布式表示;
步骤3:通过双向循环神经网络捕捉每个词的上下文语义,得到每个词的左侧上下文向量和右侧上下文向量;
步骤4:将每个词的左上下文向量、词向量、右上下文向量串联,得到每个词结合上下文语义的表示,对词义的表示应用线性变换并使用tanh激活函数获得这个词的潜在语义向量;
步骤5:分别把标题词集合及正文词集合中各个词的潜在语义向量进行最大池化处理,得到标题向量及正文向量;
步骤6:应用标题与正文注意力机制得到每篇文档的注意力向量,代表标题以及正文的权重;
步骤7:计算整篇文本的向量表示,使用softmax函数输出概率来预测文本的类别。
进一步的,步骤1中对每篇文档标题与正文进行分词预处理具体是采用以下步骤:对一篇包含标题和正文的文本,使用jieba分词工具对文本的标题和正文进行分词,分别得到分词后的标题词集合和正文词集合。
进一步的,步骤2的词向量训练模型为Glove模型或者word2vec的CBOW模型。
进一步的,步骤3中通过双向循环神经网络捕捉每个词的上下文语义具体采用以下步骤:单词wi的左侧上下文cl(wi)使用下面公式1计算:
cl(wi)=f(W(l)cl(wi-1)+W(sl)e(wi-1)) (1)
其中:cl(wi)为词wi的左侧上下文向量,通过循环神经网络对文本的正向扫描得到;e(wi-1)是前一个词wi-1的词向量,cl(wi-1)表示词wi-1的左侧上下文;W(l)是一个将隐藏层转换为下一个隐藏层的矩阵;W(sl)是一个用于将当前词的语义与下一个词的左上下文相结合的矩阵,f是一个非线性的激活函数,每篇文档第一个词的左侧上下文使用相同的共享参数cl(w1);右侧上下文cr(wi)使用下面公式2计算
cr(wi)=f(W(r)cr(wi+1)+W(sr)e(wi+1)) (2)
其中:cr(wi)为词wi的右侧上下文向量表示,通过循环神经网络对文本的反向扫描得到;
e(wi+1)是后一个词wi+1的词向量,cr(wi+1)表示词wi+1的右侧上下文;W(r)是一个将隐藏层转换为下一个隐藏层的矩阵,W(sr)是一个用于将当前词的语义与上一个词的右上下文相结合的矩阵,f是一个非线性的激活函数;每篇文本中最后一个词的右侧上下文共享参数cr(wn)。
进一步的,步骤4中每个词结合上下文语义采用下面公式3表示:
xi=[cl(wi);e(wi);cr(wi)] (3)
其中:xi是词wi结合上下文语义;xi是词wi结合左侧上下文信息与右侧上下文信息得到的结合上下文语义的表示。
进一步的,步骤4中将每个词结合上下文语义的表示应用线性变换与tanh激活函数获得这个词的潜在语义向量采用下面公式4表示:
其中:W(2)与b(2)是随机初始化并在训练中自动学习的权值和偏置。
进一步的,标题向量及正文向量的获得具体采用以下步骤:
采用公式5分别把标题词集合及正文词集合中各个词的潜在语义向量进行最大池化处理:
其中:是词的潜在语义向量,其中每个语义因子都决定用于表示文本的最有用因子;
y(3)的第k个元素是的第k个元素中的最大元素。
进一步的,中文档的注意力向量具体采用以下步骤获得:
采用非线性激活函数公示6获取标题向量或者正文向量的深层语义向量:
其中:是标题或正文向量,Ws与bs是在训练时随机初始化并自动学习的权值和偏置参数;使用公式7获取标题与正文的注意力向量:
其中:us是一个随机初始化的,在训练中学习的上下文向量;
最后,通过公式8求得整篇文档的向量表示v;
进一步的,步骤7中在得到输出使用softmax函数输出概率具体步骤如下:
soft max函数如公式9,将输出数字转换为概率,预测文本的类别;
p=soft max(W(4)v+b(4)) (9)
其中W(4)和b(4)为训练时随机初始化并自动学习的权值和偏置参数。
本发明采用以上技术方案与现有的技术相比,具有以下优点:
(1)本发明采用word2vec的CBOW模型来训练词向量,使用双向循环神经网络捕获词的上下文语义,通过将一个词的词向量与上下文语义进行连接来表示一个词的含义,能够更好地消除歧义以及有效的表示词在文本中的信息。
(2)本发明提出一种结合标题与正文注意力机制的文本分类方法,引入了标题与正文注意力机制,强调了标题对含有标题的文档分类的重要性,结合注意力向量来表示一篇文本,能够充分完整的表示整篇文档的特征,从而提高文本分类的准确度。
附图说明
图1是实施例的流程示意图。
图2是实施例词向量训练的示意图。
图3是实施例对词上下文向量编码的示意图。
图4是实施例提取标题或正文向量的示意图。
图5是实施例标题与正文级别注意力机制的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元
如图1所示,本实例的文本分类方法包括以下VII阶段。
阶段I是对每篇文档的标题与正文进行分词预处理,得到每篇文档的标题词集合和正文的词集合;
阶段II是采用word2vec的CBOW模型训练每篇文档的词向量,得到每一个词的分布式表示;
阶段III是通过双向循环神经网络捕捉每个词的上下文语义,得到每个词的左上下文向量和右上下文向量;
阶段IV是将每个词的左上下文向量、词向量、右上下文向量串联,得到每个词结合上下文语义的向量表示;
阶段V是分别把标题词集合及正文词集合中各个词的潜在语义向量进行最大池化处理,得到标题向量及正文向量;
阶段VI是应用标题与正文注意力机制得到每篇文档的注意力向量,代表标题以及正文的权重。
阶段VII是计算整篇文档的向量表示,使用softmax函数输出概率来预测文本的类别。
以下对于本发明所提出的一种结合标题与正文注意力机制的文本分类方法,具体举例说明。
步骤1:使用jieba分词工具,对每篇文档的标题与正文进行分词预处理,得到标题词集合和正文的词集合{w1,w2,…,wn};
步骤2:采用word2vec的CBOW模型训练词向量,得到每一个词的分布式表示
步骤3:通过双向循环神经网络捕捉每个词的上下文语义,得到每个词的左上下文向量cl(wi)和右上下文向量以及cr(wi);
步骤4:将每个词的左上下文向量、词向量、右上下文向量串联,得到每个词结合上下文语义的表示xi;
步骤5:分别把标题词集合及正文词集合中各个词的潜在语义向量进行最大池化处理,得到标题向量及正文向量
步骤6:应用标题与正文注意力机制得到每篇文档的注意力向量,代表标题以αi及正文的权重αj。
步骤7:计算整篇文档的向量表示v,使用softmax函数输出概率来预测文本的类别。
下面详细说明本发明的技术方案以及所依据的科学原理。
本发明使用的训练文本是使用网络爬虫从网上采集的教育政策数据,经过数据清洗后使用jieba分词工具进行分词,划分后得到教育政策训练集与测试集。
词向量的训练过程如图2所示。本发明使用的训练语料是wiki百科中文语料,分词后用word2vec工具的CBOW模型训练词向量。具体过程如下:
(1)CBOW模型输入层:假设教育政策训练文本的词集合为{w1,w2,…,wn},wi是集合中的第i个词,用wi前后t个词来预测它。wi的上下文ci=wi-t,…,wi-1,wi+1,…,wi+t,根据CBOW模型求出该词wi出现的条件概率为:
其中ci表示上下文信息,
则建立词向量的目标函数为
(2)CBOW模型投影层:用嵌入矩阵WW∈RT×N把词wi投影到一个N维度的特征空间中,得到词wi投影后的向量:
(3)CBOW模型输出层:通过随机梯度算法对嵌入矩阵的结果进行预测,使得F最大化。此时是wi的词向量,得到文本词向量集合
词的上下文向量编码的示意图如图3所示,本发明使用双向循环神经网络获得词的上下文语义向量表示的具体过程如下:
(1)定义cl(wi)作为词wt的左上下文,cr(wi)作为它的右上下文。cl(wi)以及cr(wi)是含有|c|真正有价值的密集向量。单词wi的左侧上下文cl(wi)使用下面公式计算:
cl(wi)=f(W(l)cl(wi-1)+W(sl)e(wi-1))
这里e(wi-1)是词wi-1的词向量,cl(wi-1)表示前一个词wi-1的左侧上下文。每篇文档的第一个词的左侧上下文使用相同的共享参数cl(w1)。W(l)是一个将隐藏层(上下文)转换为下一个隐藏层的矩阵。W(sl)是一个用于将当前词的语义与下一个词的左上下文相结合的矩阵。f是一个非线性的激活函数。
右侧上下文cr(wi)以类似的方式计算:
cr(wi)=f(W(r)cr(wi+1)+W(sr)e(wi+1))
其中,每篇文档中最后一个词的右侧的上下文共享参数cr(wn)。
提取标题或正文向量的示意图如图4所示,分为卷积层和最大池化层。图4为句子“关于加快市域义务教育优质均衡发展的实施意见”的一部分示例。
(1)通过把每个词的左上下文向量、词向量、右上下文向量串联的方式,得到每个词wi结合上下文语义的表示。获取每个词结合上下文语义的表示公式如下:
xi=[cl(wi);e(wi);cr(wi)]
与仅使用固定窗口的传统神经模型相比,使用该上下文信息可以更好地消除词wi含义的歧义。
在获得wi这个词的表示xi之后,将线性变换与tanh激活函数一起应用于xi,获取到这个
词的潜在语义向量,使用如下公式:
(2)把标题词集合及正文词集合中各个词的潜在语义向量进行最大池化处理,得到标题向量及正文向量:
是词的潜在语义向量,其中每个语义因子都决定用于表示文本的最有用因子。y(3)的第k个元素是的第k个元素中的最大元素。
如图5所示,是标题与正文注意力机制示意图,本发明通过标题与正文注意力机制得到每篇文档的注意力向量,具体过程如下:
为了奖励作为正确分类文档的线索的部分,引入标题与正文级别的注意力机制,使用注意力向量来衡量标题或正文的重要性。
首先,用一个非线性激活函数获取标题向量或者正文向量的深层语义向量;
其中是标题或正文向量,bs是注意力机制的偏置参数;
接着,使用下面的公式获取标题与正文的注意力向量
其中,us是一个随机初始化的,在训练中学习的上下文向量。
最后,通过下面公式求得整篇文档的向量表示:
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种结合标题与正文注意力机制的文本分类方法,其特征在于包括以下步骤:
步骤1:对每篇文档的标题与正文进行分词预处理,得到标题词集合和正文词集合;
步骤2:采用词向量训练模型训练标题词集合和正文词集合向量,得到每一个词的分布式表示;
步骤3:通过双向循环神经网络捕捉每个词的上下文语义,得到每个词的左侧上下文向量和右侧上下文向量;
步骤4:将每个词的左上下文向量、词向量、右上下文向量串联,得到每个词结合上下文语义的表示,对词义的表示应用线性变换并使用tanh激活函数获得这个词的潜在语义向量;
步骤5:分别把标题词集合及正文词集合中各个词的潜在语义向量进行最大池化处理,得到标题向量及正文向量;
步骤6:应用标题与正文注意力机制得到每篇文档的注意力向量,代表标题以及正文的权重;
步骤7:计算整篇文本的向量表示,使用soft max函数输出概率来预测文本的类别。
2.根据权利要求1所述的一种结合标题与正文注意力机制的文本分类方法,其特征在于:所述步骤1中对每篇文档标题与正文进行分词预处理具体是采用以下步骤:对一篇包含标题和正文的文本,使用jieba分词工具对文本的标题和正文进行分词,分别得到分词后的标题词集合和正文词集合。
3.根据权利要求1所述的一种结合标题与正文注意力机制的文本分类方法,其特征在于:所述步骤2的词向量训练模型为Glove模型或者word2vec的CBOW模型。
4.根据权利要求1所述的一种结合标题与正文注意力机制的文本分类方法,其特征在于:所述步骤3中通过双向循环神经网络捕捉每个词的上下文语义具体采用以下步骤:
单词wi的左侧上下文cl(wi)使用下面公式1计算:
cl(wi)=f(W(l)cl(wi-1)+W(sl)e(wi-1)) (1)
其中:cl(wi)为词wi的左侧上下文向量,通过循环神经网络对文本的正向扫描得到;e(wi-1)是前一个词wi-1的词向量,cl(wi-1)表示词wi-1的左侧上下文;W(l)是一个将隐藏层转换为下一个隐藏层的矩阵;W(sl)是一个用于将当前词的语义与下一个词的左上下文相结合的矩阵,f是一个非线性的激活函数,每篇文档第一个词的左侧上下文使用相同的共享参数cl(w1);右侧上下文cr(wi)使用下面公式2计算
cr(wi)=f(W(r)cr(wi+1)+W(sr)e(wi+1)) (2)
其中:cr(wi)为词wi的右侧上下文向量表示,通过循环神经网络对文本的反向扫描得到;e(wi+1)是后一个词wi+1的词向量,cr(wi+1)表示词wi+1的右侧上下文;W(r)是一个将隐藏层转换为下一个隐藏层的矩阵,W(sr)是一个用于将当前词的语义与上一个词的右上下文相结合的矩阵,f是一个非线性的激活函数;每篇文本中最后一个词的右侧上下文共享参数cr(wn)。
5.根据权利要求1所述的一种结合标题与正文注意力机制的文本分类方法,其特征在于:所述步骤4中每个词结合上下文语义采用下面公式3表示:
xi=[cl(wi);e(wi);cr(wi)] (3)
其中:xi是词wi结合上下文语义;xi是词wi结合左侧上下文信息与右侧上下文信息得到的结合上下文语义的表示。
6.根据权利要求1所述的一种结合标题与正文注意力机制的文本分类方法,其特征在于:所述步骤4中将每个词结合上下文语义的表示应用线性变换与tanh激活函数获得这个词的潜在语义向量采用下面公式4表示:
yi (2)=tanh(W(2)xi+b(2)) (4)
其中:W(2)与b(2)是随机初始化并在训练中自动学习的权值和偏置。
7.根据权利要求1所述的一种结合标题与正文注意力机制的文本分类方法,其特征在于:所述标题向量及正文向量的获得具体采用以下步骤:
采用公式5分别把标题词集合及正文词集合中各个词的潜在语义向量进行最大池化处理:
其中:是词的潜在语义向量,其中每个语义因子都决定用于表示文本的最有用因子;
y(3)的第k个元素是的第k个元素中的最大元素。
8.根据权利要求1所述的一种结合标题与正文注意力机制的文本分类方法,其特征在于:所述中文档的注意力向量具体采用以下步骤获得:
采用非线性激活函数公示6获取标题向量或者正文向量的深层语义向量:
其中:是标题或正文向量,Ws与bs是在训练时随机初始化并自动学习的权值和偏置参数;使用公式7获取标题与正文的注意力向量:
其中:us是一个随机初始化的,在训练中学习的上下文向量;
最后,通过公式8求得整篇文档的向量表示v:
9.根据权利要求1所述的一种结合标题与正文注意力机制的文本分类方法,其特征在于:所述步骤7中在得到输出使用softmax函数输出概率具体步骤如下:
soft max函数如公式9,将输出数字转换为概率,预测文本的类别;
p=soft max(W(4)v+b(4)) (9)
其中W(4)和b(4)为训练时随机初始化并自动学习的权值和偏置参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910095696.3A CN109753567A (zh) | 2019-01-31 | 2019-01-31 | 一种结合标题与正文注意力机制的文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910095696.3A CN109753567A (zh) | 2019-01-31 | 2019-01-31 | 一种结合标题与正文注意力机制的文本分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109753567A true CN109753567A (zh) | 2019-05-14 |
Family
ID=66406578
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910095696.3A Pending CN109753567A (zh) | 2019-01-31 | 2019-01-31 | 一种结合标题与正文注意力机制的文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109753567A (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110134789A (zh) * | 2019-05-17 | 2019-08-16 | 电子科技大学 | 一种引入多路选择融合机制的多标签长文本分类方法 |
CN110389932A (zh) * | 2019-07-02 | 2019-10-29 | 华北电力科学研究院有限责任公司 | 电力文件自动分类方法及装置 |
CN110457562A (zh) * | 2019-08-15 | 2019-11-15 | 中国农业大学 | 一种基于神经网络模型的食品安全事件分类方法及装置 |
CN110569361A (zh) * | 2019-09-06 | 2019-12-13 | 腾讯科技(深圳)有限公司 | 一种文本识别方法及设备 |
CN110826336A (zh) * | 2019-09-18 | 2020-02-21 | 华南师范大学 | 一种情感分类方法、系统、存储介质及设备 |
CN111241234A (zh) * | 2019-12-27 | 2020-06-05 | 北京百度网讯科技有限公司 | 文本分类方法及装置 |
CN111324728A (zh) * | 2020-01-22 | 2020-06-23 | 腾讯科技(深圳)有限公司 | 文本事件摘要的生成方法、装置、电子设备及存储介质 |
CN111552802A (zh) * | 2020-03-09 | 2020-08-18 | 北京达佳互联信息技术有限公司 | 文本分类模型训练方法和装置 |
CN112287105A (zh) * | 2020-09-30 | 2021-01-29 | 昆明理工大学 | 融合标题和正文双向互注意力的涉法新闻相关性分析方法 |
CN112347255A (zh) * | 2020-11-06 | 2021-02-09 | 天津大学 | 基于图网络的标题和正文结合的文本分类方法 |
CN112507114A (zh) * | 2020-11-04 | 2021-03-16 | 福州大学 | 一种基于词注意力机制的多输入lstm_cnn文本分类方法及系统 |
CN112632269A (zh) * | 2019-09-24 | 2021-04-09 | 北京国双科技有限公司 | 一种文档分类模型训练的方法和相关装置 |
CN112749274A (zh) * | 2019-10-30 | 2021-05-04 | 中南大学 | 基于注意力机制和干扰词删除的中文文本分类方法 |
CN112966103A (zh) * | 2021-02-05 | 2021-06-15 | 成都信息工程大学 | 一种基于多任务学习的混合注意力机制文本标题匹配方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101556580A (zh) * | 2009-05-20 | 2009-10-14 | 北京工商大学 | 一种基于篇章结构分析的股评观点分类系统及方法 |
CA2668306A1 (en) * | 2009-06-08 | 2010-12-08 | Stephen R. Germann | Method and system for applying metadata to data sets of file objects |
CN108829823A (zh) * | 2018-06-13 | 2018-11-16 | 北京信息科技大学 | 一种文本分类方法 |
CN109145190A (zh) * | 2018-08-27 | 2019-01-04 | 安徽大学 | 一种基于神经机器翻译技术的局部引文推荐方法及系统 |
-
2019
- 2019-01-31 CN CN201910095696.3A patent/CN109753567A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101556580A (zh) * | 2009-05-20 | 2009-10-14 | 北京工商大学 | 一种基于篇章结构分析的股评观点分类系统及方法 |
CA2668306A1 (en) * | 2009-06-08 | 2010-12-08 | Stephen R. Germann | Method and system for applying metadata to data sets of file objects |
CN108829823A (zh) * | 2018-06-13 | 2018-11-16 | 北京信息科技大学 | 一种文本分类方法 |
CN109145190A (zh) * | 2018-08-27 | 2019-01-04 | 安徽大学 | 一种基于神经机器翻译技术的局部引文推荐方法及系统 |
Non-Patent Citations (1)
Title |
---|
SIWEI LAI ET AL.: ""Recurrent convolutional neural networks for text classification"", 《ACM:PROCEEDINGS OF THE TWENTY-NINTH AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE》 * |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110134789A (zh) * | 2019-05-17 | 2019-08-16 | 电子科技大学 | 一种引入多路选择融合机制的多标签长文本分类方法 |
CN110389932A (zh) * | 2019-07-02 | 2019-10-29 | 华北电力科学研究院有限责任公司 | 电力文件自动分类方法及装置 |
CN110389932B (zh) * | 2019-07-02 | 2023-01-13 | 华北电力科学研究院有限责任公司 | 电力文件自动分类方法及装置 |
CN110457562A (zh) * | 2019-08-15 | 2019-11-15 | 中国农业大学 | 一种基于神经网络模型的食品安全事件分类方法及装置 |
CN110569361A (zh) * | 2019-09-06 | 2019-12-13 | 腾讯科技(深圳)有限公司 | 一种文本识别方法及设备 |
CN110569361B (zh) * | 2019-09-06 | 2021-10-19 | 腾讯科技(深圳)有限公司 | 一种文本识别方法及设备 |
CN110826336A (zh) * | 2019-09-18 | 2020-02-21 | 华南师范大学 | 一种情感分类方法、系统、存储介质及设备 |
CN110826336B (zh) * | 2019-09-18 | 2020-11-06 | 华南师范大学 | 一种情感分类方法、系统、存储介质及设备 |
CN112632269A (zh) * | 2019-09-24 | 2021-04-09 | 北京国双科技有限公司 | 一种文档分类模型训练的方法和相关装置 |
CN112749274A (zh) * | 2019-10-30 | 2021-05-04 | 中南大学 | 基于注意力机制和干扰词删除的中文文本分类方法 |
CN111241234A (zh) * | 2019-12-27 | 2020-06-05 | 北京百度网讯科技有限公司 | 文本分类方法及装置 |
CN111241234B (zh) * | 2019-12-27 | 2023-07-18 | 北京百度网讯科技有限公司 | 文本分类方法及装置 |
CN111324728A (zh) * | 2020-01-22 | 2020-06-23 | 腾讯科技(深圳)有限公司 | 文本事件摘要的生成方法、装置、电子设备及存储介质 |
CN111324728B (zh) * | 2020-01-22 | 2023-08-22 | 腾讯科技(深圳)有限公司 | 文本事件摘要的生成方法、装置、电子设备及存储介质 |
CN111552802A (zh) * | 2020-03-09 | 2020-08-18 | 北京达佳互联信息技术有限公司 | 文本分类模型训练方法和装置 |
CN112287105A (zh) * | 2020-09-30 | 2021-01-29 | 昆明理工大学 | 融合标题和正文双向互注意力的涉法新闻相关性分析方法 |
CN112287105B (zh) * | 2020-09-30 | 2023-09-12 | 昆明理工大学 | 融合标题和正文双向互注意力的涉法新闻相关性分析方法 |
CN112507114A (zh) * | 2020-11-04 | 2021-03-16 | 福州大学 | 一种基于词注意力机制的多输入lstm_cnn文本分类方法及系统 |
CN112347255A (zh) * | 2020-11-06 | 2021-02-09 | 天津大学 | 基于图网络的标题和正文结合的文本分类方法 |
CN112966103A (zh) * | 2021-02-05 | 2021-06-15 | 成都信息工程大学 | 一种基于多任务学习的混合注意力机制文本标题匹配方法 |
CN112966103B (zh) * | 2021-02-05 | 2022-04-19 | 成都信息工程大学 | 一种基于多任务学习的混合注意力机制文本标题匹配方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109753567A (zh) | 一种结合标题与正文注意力机制的文本分类方法 | |
CN108415977B (zh) | 一个基于深度神经网络及强化学习的生成式机器阅读理解方法 | |
CN109344288B (zh) | 一种基于多模态特征结合多层注意力机制的结合视频描述方法 | |
CN108664632A (zh) | 一种基于卷积神经网络和注意力机制的文本情感分类算法 | |
CN110134771A (zh) | 一种基于多注意力机制融合网络问答系统的实现方法 | |
CN108984530A (zh) | 一种网络敏感内容的检测方法及检测系统 | |
CN110298037A (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN109684912A (zh) | 一种基于信息损失函数的视频描述方法和系统 | |
CN110134954B (zh) | 一种基于Attention机制的命名实体识别方法 | |
CN111401061A (zh) | 基于BERT及BiLSTM-Attention的涉案新闻观点句识别方法 | |
CN110287323B (zh) | 一种面向目标的情感分类方法 | |
CN108830287A (zh) | 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法 | |
CN109933664A (zh) | 一种基于情感词嵌入的细粒度情绪分析改进方法 | |
CN110909736B (zh) | 一种基于长短期记忆模型与目标检测算法的图像描述方法 | |
CN109543722A (zh) | 一种基于情感分析模型的情感趋势预测方法 | |
CN110083700A (zh) | 一种基于卷积神经网络的企业舆情情感分类方法及系统 | |
CN108416065A (zh) | 基于层级神经网络的图像-句子描述生成系统及方法 | |
Wu et al. | Recall what you see continually using gridlstm in image captioning | |
CN110046248A (zh) | 用于文本分析的模型训练方法、文本分类方法和装置 | |
CN108549658A (zh) | 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统 | |
CN110263174B (zh) | —基于焦点关注的主题类别分析方法 | |
Van Nguyen et al. | Enhancing lexical-based approach with external knowledge for Vietnamese multiple-choice machine reading comprehension | |
CN110825850B (zh) | 一种自然语言主题分类方法及装置 | |
KR20200010672A (ko) | 딥러닝을 이용한 스마트 상품 검색 방법 및 시스템 | |
CN113836306B (zh) | 基于篇章成分识别的作文自动测评方法、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190514 |