CN108595590A - 一种基于融合注意力模型的中文文本分类方法 - Google Patents

一种基于融合注意力模型的中文文本分类方法 Download PDF

Info

Publication number
CN108595590A
CN108595590A CN201810352667.6A CN201810352667A CN108595590A CN 108595590 A CN108595590 A CN 108595590A CN 201810352667 A CN201810352667 A CN 201810352667A CN 108595590 A CN108595590 A CN 108595590A
Authority
CN
China
Prior art keywords
word
vector
attention
text
semantic coding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810352667.6A
Other languages
English (en)
Inventor
胡岩峰
乔雪
岳才杰
范远来
段贺
陈星�
彭晨
刘振
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Research Institute Institute Of Electronics Chinese Academy Of Sciences
Original Assignee
Suzhou Research Institute Institute Of Electronics Chinese Academy Of Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Research Institute Institute Of Electronics Chinese Academy Of Sciences filed Critical Suzhou Research Institute Institute Of Electronics Chinese Academy Of Sciences
Priority to CN201810352667.6A priority Critical patent/CN108595590A/zh
Publication of CN108595590A publication Critical patent/CN108595590A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于融合注意力模型的中文文本分类方法,通过分词预处理和分字预处理分别将文本切分为对应的词集合和字集合,并根据得到的词集合和字集合,采用特征嵌入的方法训练文本对应的词向量和字向量;采用双向门循环单元神经网络作为编码器分别对词向量和字向量进行语义编码,并采用词向量注意力机制和字向量注意力机制获取文本中的词注意力向量和字注意力向量;得到融合注意力向量;通过softmax分类器预测文本类别,解决了现有的中文文本分类方法忽略文本的字特征信息,导致提取的文本特征单一,难以涵盖文本所有的语义信息,并且没有重点关注对分类有明显贡献的特征,导致分类过程中存在较多的冗余特征的问题。

Description

一种基于融合注意力模型的中文文本分类方法
技术领域
本发明属于自然语言处理领域,具体涉及一种中文文本分类的方法。
背景技术
近年来,随着电子信息技术的飞速发展,海量的信息数据以文本的形式充斥着互联网。如何对这些文本进行有效的分类,进而挖掘有价值的信息成为了自然语言处理研究领域的热点之一。文本分类的目的是将文本分配到预先定义的某个主题类别中。传统的文本分类算法大部分都基于浅层的机器学习模型,最近随着深度学习在计算机视觉和语音识别中取得的巨大成功,越来越多的研究尝试将深度学习应用到中文文本分类中。与传统的文本分类方法不同的是,深度学习方法通过深度神经网络模型来学习文本的词特征,进而构建文本特征以实现文本分类。基于深度神经网络模型的方法在中文文本分类任务中取得了比传统的浅层模型更好的分类效果。
深度神经网络中的注意力机制最早是用在图像处理领域,目的是为了让神经网络在处理数据时重点关注某些信息。随着研究的推进,注意力机制成功融入自然语言处理领域。目前,注意力机制已经在机器翻译和自动问答等方面取得了令人瞩目的成果。
针对中文文本而言,字是构成词的独立基本单元,从构成词的字中可以推断出词的语义信息。然而,目前针对中文文本分类的研究存在一定的缺陷:
首先,现有方法通常将词特征作为构成文本特征的基本单元,却忽略了文本中重要的字特征信息,导致提取的文本特征较为单一,不足以涵盖文本所有的语义信息。
其次,现有的中文文本分类方法认为文本中每一个词特征对于分类的重要性相同,笼统地用文本中所有的词特征来表示文本特征,而没有考虑通过注意力机制来重点关注对分类有明显贡献的词特征,导致分类过程中存在较多的冗余特征。
发明内容
本发明所要解决的技术问题是提供了一种基于融合注意力模型的中文文本分类方法,解决了现有的中文文本分类方法忽略文本的字特征信息,导致提取的文本特征单一,难以涵盖文本所有的语义信息。
本发明为解决上述技术问题采用以下技术方案:
一种基于融合注意力模型的中文文本分类方法,具体包含如下步骤:
步骤1,通过分词预处理和分字预处理分别将文本切分为对应的词集合和字集合;
步骤2,根据得到的词集合和字集合,采用特征嵌入的方法训练文本对应的词向量和字向量,分别得到词向量集合和字向量集合;
步骤3,分别对词向量和字向量进行语义编码,得到词向量语义编码集合、字向量语义编码集合;
步骤4,根据词向量集合、词向量语义编码集合获取文本中的词注意力向量,根据字向量集合、字向量语义编码集合获取文本中的字注意力向量;
步骤5,通过注意力融合方法将词注意力向量和字注意力向量进行融合,得到融合注意力向量;
步骤6,通过softmax分类器预测文本类别。
进一步的,本发明所提出一种基于融合注意力模型的中文文本分类方法,步骤2中是基于CBOW模型采用特征嵌入的方法训练文本对应的词向量,具体过程如下:
在CBOW模型输入层中,假设{w1,w2,…,wD}是中文文本语料分词后的词集合,wd是词集合中的第d个词,利用wd前后各a个词去预测wd,则建立目标函数为:
其中,Jword表示训练词向量的目标函数,D表示词集合中的词数量,wd+j表示第j个前后词,p(wd|wd+j)表示前后各a个词出现的概率;
在CBOW模型投影层中,通过嵌入矩阵Ww∈RD×M将wd投影到一个M维的特征空间中:
其中,表示wd经过投影后的向量;
在CBOW模型输出层中,通过随机梯度上升算法对嵌入矩阵Ww的结果进行预测,使得Jword最大化,则此时的即是wd对应的词向量,由此得到词向量集合为
进一步的,本发明所提出一种基于融合注意力模型的中文文本分类方法,步骤2中是基于CBOW模型采用特征嵌入的方法训练文本对应的字向量,具体过程如下:
在CBOW模型的输入层中,假设{c1,c2,…,cN}是中文文本语料分字后的字集合,cn是字集合中的第n个字,利用cn前后各a个字去预测cn,则建立目标函数为:
其中,Jchar表示训练字向量的目标函数,N表示字集合中的字数量,cn+j表示第j个前后字,p(cn|cn+j)表示前后各a个字出现的概率;
在CBOW模型的投影层中,通过嵌入矩阵Wc∈RN×M将cn投影到一个M维的特征空间中:
其中,表示cn经过投影后的向量;
在CBOW模型的输出层中,通过随机梯度上升算法对嵌入矩阵Wc的结果进行预测,使得Jchar最大化,则此时的即是cn对应的字向量,由此可得字向量集合为
进一步的,本发明所提出一种基于融合注意力模型的中文文本分类方法,所述步骤3采用BGRU神经网络作为编码器对词向量进行语义编码,具体包含如下:
首先,给定词向量集合通过BGRU神经网络分别得到词向量的前向语义编码和后向语义编码:
其中,分别表示BGRU神经网络中的前向隐藏层和后向隐藏层,分别表示第d个词向量的前向语义编码和第d个词向量的后向语义编码;
其次,通过结合获得文本的词向量语义编码:
最终得到词向量语义编码集合
进一步的,本发明所提出一种基于融合注意力模型的中文文本分类方法,所述步骤3采用BGRU神经网络作为编码器对字向量进行语义编码,具体如下:
首先,给定字向量集合通过BGRU神经网络分别得到字向量的前向语义编码和后向语义编码:
其中,分别表示第n个字向量的前向语义编码和第n个字向量的后向语义编码;
然后,通过结合获得文本的字向量语义编码:
最终得到字向量语义编码集合
进一步的,本发明所提出一种基于融合注意力模型的中文文本分类方法,步骤4中根据词向量集合、词向量语义编码集合获取文本中的词注意力向量,具体如下:
首先通过一个单层感知机来获得词向量语义编码的隐向量:
其中,表示词向量语义编码的隐向量,Ww表示词向量注意力的权重参数,bw表示词向量注意力的偏置参数;
然后,获得与上下文相关的词注意力向量vw,计算方法如下:
其中,表示对应的权重,D代表词向量的个数,词注意力向量vw中的信息包含每个词向量语义编码对于文本分类的重要程度。
进一步的,本发明所提出一种基于融合注意力模型的中文文本分类方法,根据字向量集合、字向量语义编码集合获取文本中的字注意力向量,具体如下:
首先,通过一个单层感知机来获得字向量语义编码的隐向量:
其中,表示字向量语义编码的隐向量,Wc表示字向量注意力的权重参数,bc表示字向量注意力的偏置参数;
然后,通过以下公式获得与上下文相关的字注意力向量vc,计算方法如下:
其中,表示对应的权重,n代表字向量的个数,字注意力向量vc中的信息包含每个字向量语义编码对于文本分类的重要程度。
进一步的,本发明所提出一种基于融合注意力模型的中文文本分类方法,步骤5中,融合注意力向量的每一维度上的值由词注意力向量和字注意力向量对应维度上的值乘积得到,具体计算如下:
其中,代表融合注意力向量,vw代表词注意力向量,vc代表字注意力向量,L表示融合注意力向量的维度。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
(1)本发明采用特征嵌入的方法来训练文本中的字向量,对文本中的词向量进行补充和辅助,弥补了单一的词向量无法涵盖文本所有的语义信息的不足,从而能够获得更全面的文本特征。
(2)本发明采用BGRU神经网络作为编码器分别对词向量和字向量进行语义编码,从正反两个方向有效地捕捉文本中的语义依赖关系,解决了文本的长距离语义依赖问题。
(3)本发明提出了词向量注意力机制和字向量注意力机制,重点关注对分类有显著效果的词向量和字向量,得到词注意力向量和字注意力向量,减少了对文本分类没有帮助的冗余特征。
(4)本发明提出了一种注意力融合方法,将文本中的词注意力向量和字注意力向量进行融合,最终利用得到的融合注意力向量来表示文本特征,使得文本特征所表示的语义信息更加准确和丰富。
附图说明
图1是本发明方法的流程示意图。
图2是词向量和字向量的训练示意图。
图3是词向量和字向量的编码示意图。
图4是词向量注意力机制和字向量注意力机制的示意图。
图5是注意力融合方法的示意图。
具体实施方式
下面结合附图对本发明的技术方案做进一步的详细说明:
本技术领域技术人员可以理解的是,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
如图1所示,本发明方法主要分为VI个阶段:
阶段I是分词预处理和分字预处理,通过NLPIR工具将文本切分为对应的词集合和字集合;
阶段II是训练词向量和字向量;
阶段III是采用BGRU神经网络作为编码器分别对词向量和字向量进行语义编码;
阶段IV是采用词向量注意力机制和字向量注意力机制获取文本中的词注意力向量和字注意力向量;
阶段V是通过注意力融合方法将词注意力向量和字注意力向量进行融合,得到融合注意力向量;
阶段VI是通过softmax分类器预测文本类别。
以下对于本发明所提出的基于融合注意力模型的中文文本分类方法,具体举例说明。
步骤1:在百度百科和搜狗新闻上搜集中文文本语料,然后利用NLPIR工具对语料进行分词预处理和分字预处理处理,分别得到词集合{w1,w2,…,wD}和字集合{c1,c2,…,cN};
步骤2:通过CBOW模型训练词集合{w1,w2,…,wD}和字集合{c1,c2,…,cN},分别得到文本对应的词向量集合和字向量集合
步骤3:采用BGRU神经网络对词向量集合和字向量集合进行语义编码,分别得到词向量语义编码集合和字向量语义编码集合
步骤4:利用词向量注意力机制在词向量语义编码集合中获得词注意力向量vw,利用字向量注意力机制在字向量语义编码集合中获得字注意力向量vc
步骤5:采用注意力融合方法将词注意力向量vw和字注意力向量vc进行融合,得到融合注意力向量
步骤6:将融合注意力向量作为文本特征,输入softmax分类器预测文本类别。
下面详细说明本发明的技术方案以及所依据的科学原理。
词向量和字向量的训练示意图,如图2所示,本发明采用连续词袋(continuousbag-of-words,CBOW)模型作为词向量和字向量的训练模型,并采用大规模的百度百科和搜狗新闻中的语料作为词向量和字向量的训练语料,分别训练词向量和字向量。
本发明采用特征嵌入的方法训练文本的词向量和字向量。首先在百度百科和搜狗新闻上搜集中文文本语料,然后利用NLPIR工具对语料进行分词和分字处理,最后通过CBOW模型训练词向量和字向量。具体过程为:
(1)词向量:在输入层中,假设{w1,w2,…,wD}是中文文本语料分词后的词集合,wd是词集合中的第d个词,CBOW模型的任务是利用wd前后各a个词去预测wd,则目标函数为:
其中,Jword表示训练词向量的目标函数,D表示词集合中的词数量,wd+j表示第j个前后词,p(wd|wd+j)表示前后各a个词出现的概率。在投影层中,CBOW模型通过嵌入矩阵Ww∈RD×M将wd投影到一个M维的特征空间中:
其中,表示wd经过投影后的向量。在输出层中,通过随机梯度上升算法对嵌入矩阵Ww的结果进行预测,使得Jword最大化,则此时的即是wd对应的词向量。由此可得词向量集合为
(2)字向量:在输入层中,假设{c1,c2,…,cN}是中文文本语料分字后的字集合,cn是字集合中的第n个字,CBOW模型的任务是利用cn前后各a个字去预测cn,则目标函数为:
其中,Jchar表示训练字向量的目标函数,N表示字集合中的字数量,cn+j表示第j个前后字,p(cn|cn+j)表示前后各a个字出现的概率。在投影层中,CBOW模型通过嵌入矩阵Wc∈RN×M将cn投影到一个M维的特征空间中:
其中,表示cn经过投影后的向量。在输出层中,通过随机梯度上升算法对嵌入矩阵Wc的结果进行预测,使得Jchar最大化,则此时的即是cn对应的字向量。由此可得字向量集合为
词向量和字向量的编码示意图如图3所示,本发明采用BGRU神经网络作为编码器分别对词向量和字向量进行语义编码,获得词向量语义编码和字向量语义编码。
本发明采用BGRU神经网络作为词向量和字向量的编码器。具体过程为:
(1)词向量编码:给定词向量集合通过BGRU神经网络可以分别得到词向量的前向语义编码和后向语义编码:
其中,分别表示BGRU神经网络中的前向隐藏层和后向隐藏层,分别表示第d个词向量的前向语义编码和第d个词向量的后向语义编码。通过结合获得文本的词向量语义编码:
最终得到词向量语义编码集合
(2)字向量编码:给定字向量集合通过BGRU神经网络可以分别得到字向量的前向语义编码和后向语义编码:
其中,分别表示第n个字向量的前向语义编码和第n个字向量的后向语义编码。最终通过结合获得文本的字向量语义编码:
最终得到字向量语义编码集合
图4是词向量注意力机制和字向量注意力机制的示意图,本发明将注意力机制分别与词向量语义编码和字向量语义编码结合,进而提出了词向量注意力机制和字向量注意力机制,以获得对文本分类有贡献的词注意力向量和字注意力向量。
本发明将注意力机制分别与词向量语义编码和字向量语义编码结合,进而提出了词向量注意力机制和字向量注意力机制,以获得对文本分类有贡献的词注意力向量和字注意力向量。
(1)词向量注意力机制:给定词向量集合以及词向量语义编码集合本发明首先通过一个单层感知机来获得词向量语义编码的隐向量:
其中,表示的隐向量,Ww表示词向量注意力机制的权重参数,bw表示词向量注意力机制的偏置参数。然后,通过词向量注意力机制就可以获得与上下文相关的词注意力向量vw,计算方法如下:
其中,表示对应的权重,词注意力向量vw中的信息包含每个词向量语义编码对于文本分类的重要程度。
(2)字向量注意力机制:给定字向量集合及字向量语义编码集合本发明首先通过一个单层感知机来获得字向量语义编码的隐向量:
其中,表示的隐向量,Wc表示字向量注意力机制的权重参数,bc表示字向量注意力机制的偏置参数。然后,通过字向量注意力机制就可以获得与上下文相关的字注意力向量vc,计算方法如下:
其中,表示对应的权重,字注意力向量vc中的信息包含每个字向量语义编码对于文本分类的重要程度。
图5是注意力融合方法的示意图,本发明通过注意力融合方法对词注意力向量和字注意力向量进行融合,并利用得到的融合注意力向量来表示文本特征。
本发明采用注意力融合方法将词注意力向量vw和字注意力向量vc进行融合,得到融合注意力向量计算方法如下:
其中,L表示融合注意力向量的维度,每一维度上的值由vw和vc对应维度上的值乘积得到。
本技术领域技术人员可以理解的是,可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来生成机器,从而通过计算机或其他可编程数据处理方法的处理器来执行的指令创建了用于实现结构图和/或框图和/或流图的框或多个框中指定的方法。
上面结合附图对本发明的实施方式作了详细地说明,但是本发明并不局限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims (8)

1.一种基于融合注意力模型的中文文本分类方法,其特征在于,具体包含如下步骤:
步骤1,通过分词预处理和分字预处理分别将文本切分为对应的词集合和字集合;
步骤2,根据得到的词集合和字集合,采用特征嵌入的方法训练文本对应的词向量和字向量,分别得到词向量集合和字向量集合;
步骤3,分别对词向量和字向量进行语义编码,得到词向量语义编码集合、字向量语义编码集合;
步骤4,根据词向量集合、词向量语义编码集合获取文本中的词注意力向量,根据字向量集合、字向量语义编码集合获取文本中的字注意力向量;
步骤5,通过注意力融合方法将词注意力向量和字注意力向量进行融合,得到融合注意力向量;
步骤6,通过softmax分类器预测文本类别。
2.根据权利要求1所述的一种基于融合注意力模型的中文文本分类方法,其特征在于,步骤2中是基于CBOW模型采用特征嵌入的方法训练文本对应的词向量,具体过程如下:
在CBOW模型输入层中,假设{w1,w2,…,wD}是中文文本语料分词后的词集合,wd是词集合中的第d个词,利用wd前后各a个词去预测wd,则建立目标函数为:
其中,Jword表示训练词向量的目标函数,D表示词集合中的词数量,wd+j表示第j个前后词,p(wd|wd+j)表示前后各a个词出现的概率;
在CBOW模型投影层中,通过嵌入矩阵Ww∈RD×M将wd投影到一个M维的特征空间中:
其中,表示wd经过投影后的向量;
在CBOW模型输出层中,通过随机梯度上升算法对嵌入矩阵Ww的结果进行预测,使得Jword最大化,则此时的即是wd对应的词向量,由此得到词向量集合为
3.根据权利要求1所述的一种基于融合注意力模型的中文文本分类方法,其特征在于,步骤2中是基于CBOW模型采用特征嵌入的方法训练文本对应的字向量,具体过程如下:
在CBOW模型的输入层中,假设{c1,c2,…,cN}是中文文本语料分字后的字集合,cn是字集合中的第n个字,利用cn前后各a个字去预测cn,则建立目标函数为:
其中,Jchar表示训练字向量的目标函数,N表示字集合中的字数量,cn+j表示第j个前后字,p(cn|cn+j)表示前后各a个字出现的概率;
在CBOW模型的投影层中,通过嵌入矩阵Wc∈RN×M将cn投影到一个M维的特征空间中:
其中,表示cn经过投影后的向量;
在CBOW模型的输出层中,通过随机梯度上升算法对嵌入矩阵Wc的结果进行预测,使得Jchar最大化,则此时的即是cn对应的字向量,由此可得字向量集合为
4.根据权利要求1或2任一所述的一种基于融合注意力模型的中文文本分类方法,其特征在于,所述步骤3采用BGRU神经网络作为编码器对词向量进行语义编码,具体包含如下:
首先,给定词向量集合通过BGRU神经网络分别得到词向量的前向语义编码和后向语义编码:
其中,分别表示BGRU神经网络中的前向隐藏层和后向隐藏层,分别表示第d个词向量的前向语义编码和第d个词向量的后向语义编码;
其次,通过结合获得文本的词向量语义编码:
最终得到词向量语义编码集合
5.根据权利要求1或3任一所述的一种基于融合注意力模型的中文文本分类方法,其特征在于,所述步骤3采用BGRU神经网络作为编码器对字向量进行语义编码,具体如下:
首先,给定字向量集合通过BGRU神经网络分别得到字向量的前向语义编码和后向语义编码:
其中,分别表示第n个字向量的前向语义编码和第n个字向量的后向语义编码;然后,通过结合获得文本的字向量语义编码:
最终得到字向量语义编码集合
6.根据权利要求1所述的一种基于融合注意力模型的中文文本分类方法,其特征在于,步骤4中根据词向量集合、词向量语义编码集合获取文本中的词注意力向量,具体如下:
首先通过一个单层感知机来获得词向量语义编码的隐向量:
其中,表示词向量语义编码的隐向量,Ww表示词向量注意力的权重参数,bw表示词向量注意力的偏置参数;
然后,获得与上下文相关的词注意力向量vw,计算方法如下:
其中,表示对应的权重,D代表词向量的个数,词注意力向量vw中的信息包含每个词向量语义编码对于文本分类的重要程度。
7.根据权利要求1所述的一种基于融合注意力模型的中文文本分类方法,其特征在于,根据字向量集合、字向量语义编码集合获取文本中的字注意力向量,具体如下:
首先,通过一个单层感知机来获得字向量语义编码的隐向量:
其中,表示字向量语义编码的隐向量,Wc表示字向量注意力的权重参数,bc表示字向量注意力的偏置参数;
然后,通过以下公式获得与上下文相关的字注意力向量vc,计算方法如下:
其中,表示对应的权重,n代表字向量的个数,字注意力向量vc中的信息包含每个字向量语义编码对于文本分类的重要程度。
8.根据权利要求1所述的一种基于融合注意力模型的中文文本分类方法,其特征在于:步骤5中,融合注意力向量的每一维度上的值由词注意力向量和字注意力向量对应维度上的值乘积得到,具体计算如下:
其中,代表融合注意力向量,vw代表词注意力向量,vc代表字注意力向量,L表示融合注意力向量的维度。
CN201810352667.6A 2018-04-19 2018-04-19 一种基于融合注意力模型的中文文本分类方法 Pending CN108595590A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810352667.6A CN108595590A (zh) 2018-04-19 2018-04-19 一种基于融合注意力模型的中文文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810352667.6A CN108595590A (zh) 2018-04-19 2018-04-19 一种基于融合注意力模型的中文文本分类方法

Publications (1)

Publication Number Publication Date
CN108595590A true CN108595590A (zh) 2018-09-28

Family

ID=63613762

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810352667.6A Pending CN108595590A (zh) 2018-04-19 2018-04-19 一种基于融合注意力模型的中文文本分类方法

Country Status (1)

Country Link
CN (1) CN108595590A (zh)

Cited By (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109376240A (zh) * 2018-10-11 2019-02-22 平安科技(深圳)有限公司 一种文本分析方法及终端
CN109710800A (zh) * 2018-11-08 2019-05-03 北京奇艺世纪科技有限公司 模型生成方法、视频分类方法、装置、终端及存储介质
CN109740158A (zh) * 2018-12-29 2019-05-10 安徽省泰岳祥升软件有限公司 一种文本语义解析方法及装置
CN109815490A (zh) * 2019-01-04 2019-05-28 平安科技(深圳)有限公司 文本分析方法、装置、设备及存储介质
CN109829478A (zh) * 2018-12-29 2019-05-31 平安科技(深圳)有限公司 一种基于变分自编码器的问题分类方法和装置
CN109857844A (zh) * 2018-12-29 2019-06-07 北京三快在线科技有限公司 基于点餐对话文本的意图识别方法、装置、电子设备
CN109992775A (zh) * 2019-03-25 2019-07-09 浙江大学 一种基于高级语义的文本摘要生成方法
CN110096591A (zh) * 2019-04-04 2019-08-06 平安科技(深圳)有限公司 基于词袋模型的长文本分类方法、装置、计算机设备及存储介质
CN110287961A (zh) * 2019-05-06 2019-09-27 平安科技(深圳)有限公司 中文分词方法、电子装置及可读存储介质
CN110297889A (zh) * 2019-06-28 2019-10-01 南京冰鉴信息科技有限公司 一种基于特征融合的企业情感倾向分析方法
CN110348025A (zh) * 2019-07-18 2019-10-18 北京香侬慧语科技有限责任公司 一种基于字形的翻译方法、装置、存储介质及电子设备
CN110457562A (zh) * 2019-08-15 2019-11-15 中国农业大学 一种基于神经网络模型的食品安全事件分类方法及装置
CN110532549A (zh) * 2019-08-13 2019-12-03 青岛理工大学 一种基于双通道深度学习模型的文本情感分析方法
CN110580288A (zh) * 2019-08-23 2019-12-17 腾讯科技(深圳)有限公司 基于人工智能的文本分类方法和装置
CN110598671A (zh) * 2019-09-23 2019-12-20 腾讯科技(深圳)有限公司 基于文本的虚拟形象行为控制方法、设备和介质
CN110705302A (zh) * 2019-10-11 2020-01-17 掌阅科技股份有限公司 命名实体的识别方法、电子设备及计算机存储介质
CN110705315A (zh) * 2019-10-09 2020-01-17 宁波深擎信息科技有限公司 一种基于通道和空间维度的词向量训练方法
CN110825845A (zh) * 2019-10-23 2020-02-21 中南大学 一种基于字符与自注意力机制的层次文本分类方法及中文文本分类方法
CN111008283A (zh) * 2019-10-31 2020-04-14 中电药明数据科技(成都)有限公司 一种基于复合边界信息的序列标注方法及系统
CN111078833A (zh) * 2019-12-03 2020-04-28 哈尔滨工程大学 一种基于神经网络的文本分类方法
CN111143548A (zh) * 2018-11-02 2020-05-12 北大方正集团有限公司 图书分类方法、装置、设备及计算机可读存储介质
CN111160020A (zh) * 2019-11-26 2020-05-15 华东师范大学 一种具有多种子模块信息的中文词向量生成方法
CN111199153A (zh) * 2018-10-31 2020-05-26 北京国双科技有限公司 一种词向量的生成方法及相关设备
CN111259666A (zh) * 2020-01-15 2020-06-09 上海勃池信息技术有限公司 一种结合多头自注意力机制的cnn文本分类方法
CN111354333A (zh) * 2018-12-21 2020-06-30 中国科学院声学研究所 一种基于自注意力的汉语韵律层级预测方法及系统
CN111382249A (zh) * 2018-12-29 2020-07-07 深圳市优必选科技有限公司 聊天语料的清洗方法、装置、计算机设备和存储介质
CN111382243A (zh) * 2018-12-29 2020-07-07 深圳市优必选科技有限公司 文本的类别匹配方法、类别匹配装置及终端
CN111428012A (zh) * 2020-03-02 2020-07-17 平安科技(深圳)有限公司 基于注意力机制的智能问答方法、装置、设备和存储介质
CN111488455A (zh) * 2020-04-03 2020-08-04 上海携旅信息技术有限公司 模型训练的方法、文本分类的方法、系统、设备及介质
CN111581335A (zh) * 2020-05-14 2020-08-25 腾讯科技(深圳)有限公司 一种文本表示方法及装置
CN111626062A (zh) * 2020-05-29 2020-09-04 苏州思必驰信息科技有限公司 文本语义编码方法及系统
CN111737458A (zh) * 2020-05-21 2020-10-02 平安国际智慧城市科技股份有限公司 基于注意力机制的意图识别方法、装置、设备及存储介质
CN112131391A (zh) * 2020-11-25 2020-12-25 江苏电力信息技术有限公司 一种基于胶囊网络的供电服务客户诉求文本分类方法
CN112131864A (zh) * 2020-09-10 2020-12-25 上海交通大学 一种基于自注意机制的中文词向量训练方法
CN112434720A (zh) * 2020-10-22 2021-03-02 暨南大学 一种基于图注意力网络的中文短文本分类方法
CN113011172A (zh) * 2021-03-15 2021-06-22 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机设备和存储介质
CN113051897A (zh) * 2021-05-25 2021-06-29 中国电子科技集团公司第三十研究所 一种基于Performer结构的GPT2文本自动生成方法
CN113051371A (zh) * 2021-04-12 2021-06-29 平安国际智慧城市科技股份有限公司 中文机器阅读理解方法、装置、电子设备及存储介质
CN113239663A (zh) * 2021-03-23 2021-08-10 国家计算机网络与信息安全管理中心 一种基于知网的多义词中文实体关系识别方法
CN113627590A (zh) * 2021-07-29 2021-11-09 中汽创智科技有限公司 一种卷积神经网络的注意力模块、注意力机制及卷积神经网络
CN114330357A (zh) * 2021-08-04 2022-04-12 腾讯科技(深圳)有限公司 一种文本处理方法、装置、计算机设备和存储介质
CN116521870A (zh) * 2023-04-28 2023-08-01 重庆邮电大学 一种基于大数据的法律文书要素智能识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106227721A (zh) * 2016-08-08 2016-12-14 中国科学院自动化研究所 汉语韵律层级结构预测系统
CN106897568A (zh) * 2017-02-28 2017-06-27 北京大数医达科技有限公司 病历结构化的处理方法和装置
CN107656990A (zh) * 2017-09-14 2018-02-02 中山大学 一种基于字和词两个层面特征信息的文本分类方法
CN107908698A (zh) * 2017-11-03 2018-04-13 广州索答信息科技有限公司 一种主题网络爬虫方法、电子设备、存储介质、系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106227721A (zh) * 2016-08-08 2016-12-14 中国科学院自动化研究所 汉语韵律层级结构预测系统
CN106897568A (zh) * 2017-02-28 2017-06-27 北京大数医达科技有限公司 病历结构化的处理方法和装置
CN107656990A (zh) * 2017-09-14 2018-02-02 中山大学 一种基于字和词两个层面特征信息的文本分类方法
CN107908698A (zh) * 2017-11-03 2018-04-13 广州索答信息科技有限公司 一种主题网络爬虫方法、电子设备、存储介质、系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
XINXIONG CHEN ET AL.: "Joint Learning of Character and Word Embeddings", 《PROCEEDINGS OF THE 24TH INTERNATIONAL CONFERENCE ON ARTIFICIAL INTELLIGENCE》 *
李伟康 等: "深度学习中汉语字向量和词向量结合方式探究", 《中文信息学报》 *
滨城之恋: "Hierarchical Attention Networks for Document Classification 阅读笔记", 《知乎专栏-HTTPS://ZHUANLAN.ZHIHU.COM/P/26892711》 *
郑雄风 等: "基于用户和产品Attention机制的层次GBRU模型", 《计算机工程与应用》 *

Cited By (66)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109376240A (zh) * 2018-10-11 2019-02-22 平安科技(深圳)有限公司 一种文本分析方法及终端
CN111199153B (zh) * 2018-10-31 2023-08-25 北京国双科技有限公司 一种词向量的生成方法及相关设备
CN111199153A (zh) * 2018-10-31 2020-05-26 北京国双科技有限公司 一种词向量的生成方法及相关设备
CN111143548A (zh) * 2018-11-02 2020-05-12 北大方正集团有限公司 图书分类方法、装置、设备及计算机可读存储介质
CN109710800A (zh) * 2018-11-08 2019-05-03 北京奇艺世纪科技有限公司 模型生成方法、视频分类方法、装置、终端及存储介质
CN111354333B (zh) * 2018-12-21 2023-11-10 中国科学院声学研究所 一种基于自注意力的汉语韵律层级预测方法及系统
CN111354333A (zh) * 2018-12-21 2020-06-30 中国科学院声学研究所 一种基于自注意力的汉语韵律层级预测方法及系统
CN109857844B (zh) * 2018-12-29 2022-01-14 北京三快在线科技有限公司 基于点餐对话文本的意图识别方法、装置、电子设备
CN109857844A (zh) * 2018-12-29 2019-06-07 北京三快在线科技有限公司 基于点餐对话文本的意图识别方法、装置、电子设备
CN109829478B (zh) * 2018-12-29 2024-05-07 平安科技(深圳)有限公司 一种基于变分自编码器的问题分类方法和装置
CN109740158A (zh) * 2018-12-29 2019-05-10 安徽省泰岳祥升软件有限公司 一种文本语义解析方法及装置
CN111382249A (zh) * 2018-12-29 2020-07-07 深圳市优必选科技有限公司 聊天语料的清洗方法、装置、计算机设备和存储介质
CN111382243A (zh) * 2018-12-29 2020-07-07 深圳市优必选科技有限公司 文本的类别匹配方法、类别匹配装置及终端
CN109829478A (zh) * 2018-12-29 2019-05-31 平安科技(深圳)有限公司 一种基于变分自编码器的问题分类方法和装置
CN111382249B (zh) * 2018-12-29 2023-10-10 深圳市优必选科技有限公司 聊天语料的清洗方法、装置、计算机设备和存储介质
CN109740158B (zh) * 2018-12-29 2023-04-07 安徽省泰岳祥升软件有限公司 一种文本语义解析方法及装置
CN109815490B (zh) * 2019-01-04 2023-11-14 平安科技(深圳)有限公司 文本分析方法、装置、设备及存储介质
CN109815490A (zh) * 2019-01-04 2019-05-28 平安科技(深圳)有限公司 文本分析方法、装置、设备及存储介质
CN109992775A (zh) * 2019-03-25 2019-07-09 浙江大学 一种基于高级语义的文本摘要生成方法
CN110096591A (zh) * 2019-04-04 2019-08-06 平安科技(深圳)有限公司 基于词袋模型的长文本分类方法、装置、计算机设备及存储介质
CN110287961A (zh) * 2019-05-06 2019-09-27 平安科技(深圳)有限公司 中文分词方法、电子装置及可读存储介质
CN110287961B (zh) * 2019-05-06 2024-04-09 平安科技(深圳)有限公司 中文分词方法、电子装置及可读存储介质
CN110297889A (zh) * 2019-06-28 2019-10-01 南京冰鉴信息科技有限公司 一种基于特征融合的企业情感倾向分析方法
CN110297889B (zh) * 2019-06-28 2020-10-23 南京冰鉴信息科技有限公司 一种基于特征融合的企业情感倾向分析方法
CN110348025A (zh) * 2019-07-18 2019-10-18 北京香侬慧语科技有限责任公司 一种基于字形的翻译方法、装置、存储介质及电子设备
CN110532549A (zh) * 2019-08-13 2019-12-03 青岛理工大学 一种基于双通道深度学习模型的文本情感分析方法
CN110457562A (zh) * 2019-08-15 2019-11-15 中国农业大学 一种基于神经网络模型的食品安全事件分类方法及装置
CN110580288A (zh) * 2019-08-23 2019-12-17 腾讯科技(深圳)有限公司 基于人工智能的文本分类方法和装置
CN110598671A (zh) * 2019-09-23 2019-12-20 腾讯科技(深圳)有限公司 基于文本的虚拟形象行为控制方法、设备和介质
CN110598671B (zh) * 2019-09-23 2022-09-27 腾讯科技(深圳)有限公司 基于文本的虚拟形象行为控制方法、设备和介质
CN110705315A (zh) * 2019-10-09 2020-01-17 宁波深擎信息科技有限公司 一种基于通道和空间维度的词向量训练方法
CN110705315B (zh) * 2019-10-09 2022-12-30 宁波深擎信息科技有限公司 一种基于通道和空间维度的词向量训练方法
CN110705302A (zh) * 2019-10-11 2020-01-17 掌阅科技股份有限公司 命名实体的识别方法、电子设备及计算机存储介质
CN110705302B (zh) * 2019-10-11 2023-12-12 掌阅科技股份有限公司 命名实体的识别方法、电子设备及计算机存储介质
CN110825845B (zh) * 2019-10-23 2022-09-23 中南大学 一种基于字符与自注意力机制的层次文本分类方法及中文文本分类方法
CN110825845A (zh) * 2019-10-23 2020-02-21 中南大学 一种基于字符与自注意力机制的层次文本分类方法及中文文本分类方法
CN111008283A (zh) * 2019-10-31 2020-04-14 中电药明数据科技(成都)有限公司 一种基于复合边界信息的序列标注方法及系统
CN111008283B (zh) * 2019-10-31 2023-06-20 中电药明数据科技(成都)有限公司 一种基于复合边界信息的序列标注方法及系统
CN111160020A (zh) * 2019-11-26 2020-05-15 华东师范大学 一种具有多种子模块信息的中文词向量生成方法
CN111160020B (zh) * 2019-11-26 2023-05-12 华东师范大学 一种具有多种子模块信息的中文词向量生成方法
CN111078833A (zh) * 2019-12-03 2020-04-28 哈尔滨工程大学 一种基于神经网络的文本分类方法
CN111078833B (zh) * 2019-12-03 2022-05-20 哈尔滨工程大学 一种基于神经网络的文本分类方法
CN111259666A (zh) * 2020-01-15 2020-06-09 上海勃池信息技术有限公司 一种结合多头自注意力机制的cnn文本分类方法
CN111428012A (zh) * 2020-03-02 2020-07-17 平安科技(深圳)有限公司 基于注意力机制的智能问答方法、装置、设备和存储介质
CN111428012B (zh) * 2020-03-02 2023-05-26 平安科技(深圳)有限公司 基于注意力机制的智能问答方法、装置、设备和存储介质
CN111488455A (zh) * 2020-04-03 2020-08-04 上海携旅信息技术有限公司 模型训练的方法、文本分类的方法、系统、设备及介质
CN111581335B (zh) * 2020-05-14 2023-11-24 腾讯科技(深圳)有限公司 一种文本表示方法及装置
CN111581335A (zh) * 2020-05-14 2020-08-25 腾讯科技(深圳)有限公司 一种文本表示方法及装置
CN111737458B (zh) * 2020-05-21 2024-05-21 深圳赛安特技术服务有限公司 基于注意力机制的意图识别方法、装置、设备及存储介质
CN111737458A (zh) * 2020-05-21 2020-10-02 平安国际智慧城市科技股份有限公司 基于注意力机制的意图识别方法、装置、设备及存储介质
CN111626062A (zh) * 2020-05-29 2020-09-04 苏州思必驰信息科技有限公司 文本语义编码方法及系统
CN112131864A (zh) * 2020-09-10 2020-12-25 上海交通大学 一种基于自注意机制的中文词向量训练方法
CN112434720B (zh) * 2020-10-22 2023-08-29 暨南大学 一种基于图注意力网络的中文短文本分类方法
CN112434720A (zh) * 2020-10-22 2021-03-02 暨南大学 一种基于图注意力网络的中文短文本分类方法
CN112131391B (zh) * 2020-11-25 2021-09-17 江苏电力信息技术有限公司 一种基于胶囊网络的供电服务客户诉求文本分类方法
CN112131391A (zh) * 2020-11-25 2020-12-25 江苏电力信息技术有限公司 一种基于胶囊网络的供电服务客户诉求文本分类方法
CN113011172A (zh) * 2021-03-15 2021-06-22 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机设备和存储介质
CN113011172B (zh) * 2021-03-15 2023-08-22 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机设备和存储介质
CN113239663B (zh) * 2021-03-23 2022-07-12 国家计算机网络与信息安全管理中心 一种基于知网的多义词中文实体关系识别方法
CN113239663A (zh) * 2021-03-23 2021-08-10 国家计算机网络与信息安全管理中心 一种基于知网的多义词中文实体关系识别方法
CN113051371A (zh) * 2021-04-12 2021-06-29 平安国际智慧城市科技股份有限公司 中文机器阅读理解方法、装置、电子设备及存储介质
CN113051897A (zh) * 2021-05-25 2021-06-29 中国电子科技集团公司第三十研究所 一种基于Performer结构的GPT2文本自动生成方法
CN113627590A (zh) * 2021-07-29 2021-11-09 中汽创智科技有限公司 一种卷积神经网络的注意力模块、注意力机制及卷积神经网络
CN114330357A (zh) * 2021-08-04 2022-04-12 腾讯科技(深圳)有限公司 一种文本处理方法、装置、计算机设备和存储介质
CN114330357B (zh) * 2021-08-04 2024-05-10 腾讯科技(深圳)有限公司 一种文本处理方法、装置、计算机设备和存储介质
CN116521870A (zh) * 2023-04-28 2023-08-01 重庆邮电大学 一种基于大数据的法律文书要素智能识别方法

Similar Documents

Publication Publication Date Title
CN108595590A (zh) 一种基于融合注意力模型的中文文本分类方法
CN107066445B (zh) 一种属性情感词向量的深度学习方法
CN110427875B (zh) 基于深度迁移学习和极限学习机的红外图像目标检测方法
CN108363753A (zh) 评论文本情感分类模型训练与情感分类方法、装置及设备
CN110569508A (zh) 融合词性和自注意力机制的情感倾向性分类方法及系统
CN110188192B (zh) 一种多任务网络构建与多尺度的罪名法条联合预测方法
CN109544524A (zh) 一种基于注意力机制的多属性图像美学评价系统
CN110083700A (zh) 一种基于卷积神经网络的企业舆情情感分类方法及系统
CN112465790A (zh) 基于多尺度卷积和三线性全局注意力的表面缺陷检测方法
CN111144448A (zh) 基于多尺度注意力卷积编码网络的视频弹幕情感分析方法
CN110210499A (zh) 一种图像语义描述的自适应生成系统
CN108427740B (zh) 一种基于深度度量学习的图像情感分类与检索算法
CN109858041A (zh) 一种半监督学习结合自定义词典的命名实体识别方法
CN110334187A (zh) 基于迁移学习的缅语情感分析方法及装置
CN109033107A (zh) 图像检索方法和装置、计算机设备和存储介质
CN110472042A (zh) 一种细粒度情感分类方法
CN111832573B (zh) 一种基于类激活映射和视觉显著性的图像情感分类方法
CN112417098A (zh) 基于CNN-BiMGU模型的短文本情感分类方法
CN110196945A (zh) 一种基于LSTM与LeNet融合的微博用户年龄预测方法
CN108052625A (zh) 一种实体精细分类方法
CN110083702A (zh) 一种基于多任务学习的方面级别文本情感转换方法
CN113420543B (zh) 基于改进Seq2Seq模型的数学试题自动标注方法
CN109919175A (zh) 一种结合属性信息的实体多分类方法
CN114912423A (zh) 一种基于迁移学习的方面级别情感分析方法及装置
CN113657115A (zh) 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180928

RJ01 Rejection of invention patent application after publication