CN104572892A - 一种基于循环卷积网络的文本分类方法 - Google Patents

一种基于循环卷积网络的文本分类方法 Download PDF

Info

Publication number
CN104572892A
CN104572892A CN201410817856.8A CN201410817856A CN104572892A CN 104572892 A CN104572892 A CN 104572892A CN 201410817856 A CN201410817856 A CN 201410817856A CN 104572892 A CN104572892 A CN 104572892A
Authority
CN
China
Prior art keywords
vector
expression
text
word
text classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410817856.8A
Other languages
English (en)
Other versions
CN104572892B (zh
Inventor
徐立恒
刘康
赵军
来斯惟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201410817856.8A priority Critical patent/CN104572892B/zh
Publication of CN104572892A publication Critical patent/CN104572892A/zh
Application granted granted Critical
Publication of CN104572892B publication Critical patent/CN104572892B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes

Abstract

本发明公开了一种基于循环卷积网络的文本分类方法,包括以下步骤:步骤1,利用双向循环网络对所有词进行上下文向量的表示;步骤2,将上下文向量及当前词的词向量组合成当前词的表示;步骤3,利用最大池化技术提取最重要的上下文信息得到文本表示;步骤4,利用文本表示进行文本分类。该方法能够较多地保留文本中的词序信息,捕捉长距离的文本依赖关系,精确刻画词的语义,并通过最大池化技术找到对文本分类影响最大的词和短语。有效地提高了文本分类的准确率。经过试验证明,本方法在多个文本分类数据集上平均提升1%。

Description

一种基于循环卷积网络的文本分类方法
技术领域
本发明涉及自然语言处理技术领域,特别涉及一种基于循环卷积网络的文本分类方法。
背景技术
文本分类技术是自然语言处理中的一个重要技术,它是网页检索、情感分析、垃圾邮件识别等任务中的关键步骤。文本分类的目标是给定若干已经分类的文本集合,利用这些文本,学习一种分类方法,对于其它文本也归纳到已知的类别中。
文本分类中的关键问题在于特征表示,其中最常用的特征表示方法是词袋子模型。词袋子模型中,最常用的特征是词、二元词组、多元词组(n-gram)以及一些人工抽取的模版特征。在特征表示之后,传统模型往往使用词频、互信息、LDA等方法筛选出最有效的特征。然而,传统方法在表示文本时,会忽略上下文信息,或者说,会丢失词序信息。尽管传统特征中诸如多元词组以及更复杂的特征(如树核)也能捕获词序信息,但是这些特征往往会遇到数据稀疏问题,影响到文本分类的精度。而且人工设计特征也总是一项非常耗费时间的工作。
现已有若干基于深度神经网络技术的文本分类算法,如递归神经网络、循环神经网络、卷积神经网络。这些方法虽然可以较好地解决数据稀疏问题,但也有各自的缺陷。如递归神经网络在构建文本语义时,需要先构建一个树形结构,这个步骤可能会依赖于句法树的精度;循环神经网络在构建文本语义时,语义会偏向文本中靠后的的内容,但是实际上并非所有文本的重点信息均在最后部分;卷积神经网络在构建文本语义时需要人工设定一个窗口来捕获上下文信息,然而分类结果对窗口的大小比较敏感,如果窗口太小,保留的词序信息以及上下文依赖关系就会不足,如果窗口太大,则会引入大量噪声,对结果造成不利影响。
发明内容
为了克服现有技术存在的缺陷,本发明提出了一种基于循环卷积网络的文本分类方法,实现了对文本更加有效地分类。
本发明提出的一种基于循环卷积网络的文本分类方法,包括以下步骤:
步骤1,利用双向循环网络对所有词进行上下文向量的表示;
步骤2,将上下文向量及当前词的词向量组合成当前词的表示;
步骤3,利用最大池化技术提取最重要的上下文信息得到文本表示;
步骤4,利用文本表示进行文本分类。
优选的,步骤1所述的上下文向量的表示通过如下计算得到:
上文向量的表示的计算公式为
cl(wi)=f(W(l)cl(wi-1)+W(sl)e(wi-1))
下文向量的表示的计算公式为
cr(wi)=f(W(r)cr(wi+1)+W(sr)e(wi+1))
其中cl(wi)表示词wi的上文向量的表示,cr(wi)表示词wi的下文向量的表示,e(wi)表示词wi的词向量,W(l)、W(r)、W(sl)、W(sr)均为转移矩阵,f为非线性激活函数。
优选的,步骤2所述上的当前词的表示为上文向量的表示、下文向量的表示和当前词的词向量的串接,具体表示为
xi=[cl(wi);e(wi);cr(wi)]
其中xi为当前词的表示。
优选的,步骤3中利用最大池化技术提取最重要的上下文信息得到文本表示的方法为:将步骤2得到的当前词的表示映射到一个新的语义空间,对新语义空间中的每个向量,逐个元素求最大值,具体公式为
y i ( 2 ) = tan ( W ( 2 ) x i + b ( 2 ) )
y i ( 3 ) = max 1 ≤ i ≤ n y i ( 2 )
其中为第i个词的隐含语义表示,为整个文档的语义表示,W(2)为语义转移矩阵,b(2)为偏移项,n表示文档的长度。
优选的,在步骤4利用logistic回归对文本表示进行文本分类。
优选的,非线性激活函数f为tanh函数。
本发明采用模块化方法进行功能实现,包括词表示模块、文本表示模块、文本分类模块。词表示模块用于构建各个词的上下文信息以对词进行消歧,将上下文表示和词结合在一起表示词的语义,供文本表示模块选用;文本表示模块,用于构建整个文本的语义,利用最大池化技术选择对文本分类最重要的词及其上下文,总结出整个文本的语义表示;文本分类模块,利用logistic分类算法对文本表示进行分类。
本发明采用循环结构构建上下文语义表示,可以刻画长距离的文本依赖关系,保留更多的词序信息,同时减少数据稀疏问题,从而提升文本分类的性能。
附图说明
图1是本发明中基于循环卷积网络的文本分类方法原理图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
本发明的基本思想是构建一个较好的上下文表示,从而得以对词进行消歧,进而得到一个好的文本表示,用于文本分类。
对于文本分类,其核心问题在于文本表示。传统方法往往会丢失词序信息,其改进方法也存在数据稀疏性问题。针对这两点,本方法提出使用循环网络对上下文进行建模,保留尽可能长的词序信息,优化当前词的表示;并使用最大池化技术抽取对文本分类最有用词和短语。
根据上述思路,本发明主要从文本分类存在的难点入手,成功地使用循环卷积网络做文本分类任务。通过实验证明,该方法有效地提高了文本分类的平均准确率。
如图1所示,该方法主要包括词义表示、文本语义表示和文本分类三个过程。具体步骤如下:
步骤1,使用双向循环网络表示所有词的上下文向量的表示。其中上文向量的表示按照以下公式计算得到:
cl(wi)=f(W(l)cl(wi-1)+W(sl)e(wi-1))
下文向量的表示按照以下公式计算得到:
cr(wi)=f(W(r)cr(wi+1)+W(sr)e(wi+1))
其中cl(wi)表示词wi的上文向量的表示,cr(wi)表示词wi的下文向量,e(wi)表示词wi的词向量,W(l)、W(r)、W(sl)、W(sr)均为转移矩阵,f为非线性激活函数,优选使用tanh函数。
步骤2,将上下文向量及当前词的词向量组合成当前词的表示。当前词的表示xi具体表示为上文向量的表示、下文向量的表示和当前词的词向量的串接,表示公式为
xi=[cl(wi);e(wi);cr(wi)]
步骤3,使用最大池化技术提取最重要的上下文信息得到文本表示。将步骤2得到的当前词的表示映射到一个新的语义空间,对新语义空间中的每个向量,逐个元素求最大值,计算公式为
y i ( 2 ) = tan ( W ( 2 ) x i + b ( 2 ) )
y i ( 3 ) = max 1 ≤ i ≤ n y i ( 2 )
其中为第i个词的隐含语义表示,为整个文档的语义表示,W(2)为语义转移矩阵,b(2)为偏移项,n表示文档的长度。
步骤4,利用文本表示进行文本分类。本实施例采用logistic回归对文本表示进行文本分类。
本发明采用模块化方法进行功能实现,包括词表示模块、文本表示模块、文本分类模块,这三个模块分别为图1中的左中右三个部分。词表示模块用于构建各个词的上下文信息以对词进行消歧,将上下文表示和词结合在一起表示词的语义,供文本表示模块选用;文本表示模块,用于构建整个文本的语义,利用最大池化技术选择对文本分类最重要的词及其上下文,总结出整个文本的语义表示;文本分类模块,利用logistic分类算法对文本表示进行分类。
为了说明系统的性能,本发明做了实验来验证本方法的性能。
1)测试语料
使用20Newsgroups、复旦分类语料(Fudan Set)、ACL论文语料、情感树库(Sentiment Treebank)这四个常用的文本分类数据集进行测试。这些数据集覆盖了学科体系分类、作者母语分类、情感分类等不同分类体系。数据集语言也包括英语和汉语两种。
2)循环卷积网络的提高
通过对比循环卷积网络的结果与其他常用方法的结果来说明本方法的有效性。结果如下表:
表1  循环卷积网络和其它方法结果对比
表格中最上面部分为基于词袋子的文本分类方法。中间部分为该数据集上此前的最好成绩,包括LDA、树核特征、递归神经网络等方法。从上表可以看到,相对于其他常用方法,循环卷积网络均取得了最好的成绩。
从上述实验结果可以看到,使用循环卷积网络在文本分类任务中取得了不错的效果。这个方法被证明是有效的。
本发明的借助循环卷积网络用于文本分类任务的方法,不同于传统基于人工设计特征的文本分类方法,使用神经网络自动学习特征,利用循环结构捕获了长距离的文本依赖关系,得到了较好的上下文表示,从而对词义消歧,进而表示出文本的语义。经过实验表明,对于文本分类的准确率在多个数据集上均有提升。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于循环卷积网络的文本分类方法,其特征在于,包括以下步骤:
步骤1,利用双向循环网络对所有词进行上下文向量的表示;
步骤2,将上下文向量及当前词的词向量组合成当前词的表示;
步骤3,利用最大池化技术提取最重要的上下文信息得到文本表示;
步骤4,利用文本表示进行文本分类。
2.根据权利要求1所述的方法,其特征在于,步骤1所述的上下文向量的表示通过如下计算得到:
上文向量的表示的计算公式为
cl(wi)=f(W(l)cl(wi-1)+W(sl)e(wi-1))
下文向量的表示的计算公式为
cr(wi)f(W(r)cr(wi+1)+W(sr)e(wi+1))
其中cl(wi)表示词wi的上文向量的表示,cr(wi)表示词wi的下文向量的表示,e(wi)表示词wi的词向量,W(l)、W(r)、W(sl)、W(sr)均为转移矩阵,f为非线性激活函数。
3.根据权利要求2所述的方法,其特征在于,步骤2所述上的当前词的表示为上文向量的表示、下文向量的表示和当前词的词向量的串接,具体表示为
xi=[cl(wi);e(wi);cr(wi)]
其中xi为当前词的表示。
4.根据权利要求3所述方法,其特征在于,步骤3中利用最大池化技术提取最重要的上下文信息得到文本表示的方法为:将步骤2得到的当前词的表示映射到一个新的语义空间,对新语义空间中的每个向量,逐个元素求最大值,具体公式为
y i ( 2 ) = tan ( W ( 2 ) x i + b ( 2 ) )
y i ( 3 ) = max 1 ≤ i ≤ n y i ( 2 )
其中为第i个词的隐含语义表示,为整个文档的语义表示,W(2)为语义转移矩阵,b(2)为偏移项,n表示文档的长度。
5.根据权利要求4所述的方法,其特征在于,在步骤4利用logistic回归对文本表示进行文本分类。
6.根据权利要求5所述的方法,其特征在于,非线性激活函数f为tanh函数。
CN201410817856.8A 2014-12-24 2014-12-24 一种基于循环卷积网络的文本分类方法 Active CN104572892B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410817856.8A CN104572892B (zh) 2014-12-24 2014-12-24 一种基于循环卷积网络的文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410817856.8A CN104572892B (zh) 2014-12-24 2014-12-24 一种基于循环卷积网络的文本分类方法

Publications (2)

Publication Number Publication Date
CN104572892A true CN104572892A (zh) 2015-04-29
CN104572892B CN104572892B (zh) 2017-10-03

Family

ID=53088954

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410817856.8A Active CN104572892B (zh) 2014-12-24 2014-12-24 一种基于循环卷积网络的文本分类方法

Country Status (1)

Country Link
CN (1) CN104572892B (zh)

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105183646A (zh) * 2015-08-28 2015-12-23 百度在线网络技术(北京)有限公司 Rnn代码测试方法及装置
CN105654127A (zh) * 2015-12-30 2016-06-08 成都数联铭品科技有限公司 基于端到端的图片文字序列连续识别方法
CN105678293A (zh) * 2015-12-30 2016-06-15 成都数联铭品科技有限公司 一种基于cnn-rnn的复杂图像字序列识别方法
CN105868181A (zh) * 2016-04-21 2016-08-17 南京大学 基于新型神经网络的自然语言并列结构的自动识别方法
CN105975497A (zh) * 2016-04-27 2016-09-28 清华大学 微博话题自动推荐方法及装置
CN106202044A (zh) * 2016-07-07 2016-12-07 武汉理工大学 一种基于深度神经网络的实体关系抽取方法
CN106407211A (zh) * 2015-07-30 2017-02-15 富士通株式会社 对实体词的语义关系进行分类的方法和装置
CN106547885A (zh) * 2016-10-27 2017-03-29 桂林电子科技大学 一种文本分类系统及方法
CN106570181A (zh) * 2016-11-09 2017-04-19 武汉泰迪智慧科技有限公司 基于上下文管理的智能交互方法及系统
CN106776580A (zh) * 2017-01-20 2017-05-31 中山大学 混合的深度神经网络cnn和rnn的主题句识别方法
CN106844738A (zh) * 2017-02-14 2017-06-13 华南理工大学 基于神经网络的食材之间容克关系的分类方法
CN106897254A (zh) * 2015-12-18 2017-06-27 清华大学 一种网络表示学习方法
CN106980811A (zh) * 2016-10-21 2017-07-25 商汤集团有限公司 人脸表情识别方法和人脸表情识别装置
CN107103754A (zh) * 2017-05-10 2017-08-29 华南师范大学 一种道路交通状况预测方法及系统
CN107102989A (zh) * 2017-05-24 2017-08-29 南京大学 一种基于词向量、卷积神经网络的实体消歧方法
CN107145484A (zh) * 2017-04-24 2017-09-08 北京邮电大学 一种基于隐多粒度局部特征的中文分词方法
CN107169035A (zh) * 2017-04-19 2017-09-15 华南理工大学 一种混合长短期记忆网络和卷积神经网络的文本分类方法
CN107784303A (zh) * 2016-12-15 2018-03-09 平安科技(深圳)有限公司 车牌识别方法及装置
CN108229677A (zh) * 2016-12-14 2018-06-29 三星电子株式会社 用于使用循环模型执行识别和训练循环模型的方法和设备
CN108363790A (zh) * 2018-02-12 2018-08-03 百度在线网络技术(北京)有限公司 用于对评论进行评估的方法、装置、设备和存储介质
CN108664633A (zh) * 2018-05-15 2018-10-16 南京大学 一种利用多样化文本特征进行文本分类的方法
CN108694443A (zh) * 2017-04-05 2018-10-23 富士通株式会社 基于神经网络的语言模型训练方法和装置
CN108763402A (zh) * 2018-05-22 2018-11-06 广西师范大学 基于依存关系、词性和语义词典的类中心向量文本分类法
CN108804423A (zh) * 2018-05-30 2018-11-13 平安医疗健康管理股份有限公司 医疗文本特征提取与自动匹配方法和系统
CN108897852A (zh) * 2018-06-29 2018-11-27 北京百度网讯科技有限公司 对话内容连贯性的判断方法、装置以及设备
CN109213861A (zh) * 2018-08-01 2019-01-15 上海电力学院 结合At_GRU神经网络与情感词典的旅游评价情感分类方法
CN109376242A (zh) * 2018-10-18 2019-02-22 西安工程大学 基于循环神经网络变体和卷积神经网络的文本分类算法
CN109388706A (zh) * 2017-08-10 2019-02-26 华东师范大学 一种问题细粒度分类方法、系统与装置
CN110489551A (zh) * 2019-07-16 2019-11-22 哈尔滨工程大学 一种基于写作习惯的作者识别方法
CN110569495A (zh) * 2018-06-05 2019-12-13 北京四维图新科技股份有限公司 一种基于用户评论的情感倾向分类方法、装置及存储介质
WO2020244066A1 (zh) * 2019-06-04 2020-12-10 平安科技(深圳)有限公司 一种文本分类方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008016454A1 (en) * 2006-07-31 2008-02-07 Microsoft Corporation Two tiered text recognition
CN103729459A (zh) * 2014-01-10 2014-04-16 北京邮电大学 一种构建情感分类模型的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008016454A1 (en) * 2006-07-31 2008-02-07 Microsoft Corporation Two tiered text recognition
CN103729459A (zh) * 2014-01-10 2014-04-16 北京邮电大学 一种构建情感分类模型的方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
MICHAEL .H .ETC: ""Recurrent Neural Networks for Time Series Classification"", 《NEUROCOMPUTING》 *
ROMAN COLLOBERT .ETC: ""Natural Language Processing (almost) from Scratch"", 《ARXIV》 *
TAO WANG .ETC: ""End-to-end text recognition with convolutional neural network"", 《PATTERN RECOGNITION(ICPR),2012 21ST INTERNATIONAL CONFERENCE ON》 *
陈钢,等: ""连续时间递归神经网络的稳定性分析"", 《沈阳理工大学学报》 *

Cited By (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407211B (zh) * 2015-07-30 2019-08-06 富士通株式会社 对实体词的语义关系进行分类的方法和装置
CN106407211A (zh) * 2015-07-30 2017-02-15 富士通株式会社 对实体词的语义关系进行分类的方法和装置
CN105183646A (zh) * 2015-08-28 2015-12-23 百度在线网络技术(北京)有限公司 Rnn代码测试方法及装置
CN105183646B (zh) * 2015-08-28 2017-12-26 百度在线网络技术(北京)有限公司 Rnn代码测试方法及装置
CN106897254B (zh) * 2015-12-18 2020-01-21 清华大学 一种网络表示学习方法
CN106897254A (zh) * 2015-12-18 2017-06-27 清华大学 一种网络表示学习方法
CN105654127A (zh) * 2015-12-30 2016-06-08 成都数联铭品科技有限公司 基于端到端的图片文字序列连续识别方法
CN105678293A (zh) * 2015-12-30 2016-06-15 成都数联铭品科技有限公司 一种基于cnn-rnn的复杂图像字序列识别方法
CN105868181A (zh) * 2016-04-21 2016-08-17 南京大学 基于新型神经网络的自然语言并列结构的自动识别方法
CN105868181B (zh) * 2016-04-21 2018-08-21 南京大学 基于新型神经网络的自然语言并列结构的自动识别方法
CN105975497A (zh) * 2016-04-27 2016-09-28 清华大学 微博话题自动推荐方法及装置
CN106202044A (zh) * 2016-07-07 2016-12-07 武汉理工大学 一种基于深度神经网络的实体关系抽取方法
CN106980811A (zh) * 2016-10-21 2017-07-25 商汤集团有限公司 人脸表情识别方法和人脸表情识别装置
CN106547885B (zh) * 2016-10-27 2020-04-10 桂林电子科技大学 一种文本分类系统及方法
CN106547885A (zh) * 2016-10-27 2017-03-29 桂林电子科技大学 一种文本分类系统及方法
CN106570181B (zh) * 2016-11-09 2020-07-28 武汉泰迪智慧科技有限公司 基于上下文管理的智能交互方法及系统
CN106570181A (zh) * 2016-11-09 2017-04-19 武汉泰迪智慧科技有限公司 基于上下文管理的智能交互方法及系统
CN108229677B (zh) * 2016-12-14 2023-06-30 三星电子株式会社 用于使用循环模型执行识别和训练循环模型的方法和设备
CN108229677A (zh) * 2016-12-14 2018-06-29 三星电子株式会社 用于使用循环模型执行识别和训练循环模型的方法和设备
CN107784303A (zh) * 2016-12-15 2018-03-09 平安科技(深圳)有限公司 车牌识别方法及装置
CN106776580A (zh) * 2017-01-20 2017-05-31 中山大学 混合的深度神经网络cnn和rnn的主题句识别方法
CN106844738B (zh) * 2017-02-14 2019-07-16 华南理工大学 基于神经网络的食材之间容克关系的分类方法
CN106844738A (zh) * 2017-02-14 2017-06-13 华南理工大学 基于神经网络的食材之间容克关系的分类方法
CN108694443B (zh) * 2017-04-05 2021-09-17 富士通株式会社 基于神经网络的语言模型训练方法和装置
CN108694443A (zh) * 2017-04-05 2018-10-23 富士通株式会社 基于神经网络的语言模型训练方法和装置
CN107169035B (zh) * 2017-04-19 2019-10-18 华南理工大学 一种混合长短期记忆网络和卷积神经网络的文本分类方法
CN107169035A (zh) * 2017-04-19 2017-09-15 华南理工大学 一种混合长短期记忆网络和卷积神经网络的文本分类方法
CN107145484A (zh) * 2017-04-24 2017-09-08 北京邮电大学 一种基于隐多粒度局部特征的中文分词方法
CN107103754A (zh) * 2017-05-10 2017-08-29 华南师范大学 一种道路交通状况预测方法及系统
CN107102989A (zh) * 2017-05-24 2017-08-29 南京大学 一种基于词向量、卷积神经网络的实体消歧方法
CN107102989B (zh) * 2017-05-24 2020-09-29 南京大学 一种基于词向量、卷积神经网络的实体消歧方法
CN109388706A (zh) * 2017-08-10 2019-02-26 华东师范大学 一种问题细粒度分类方法、系统与装置
US11403680B2 (en) 2018-02-12 2022-08-02 Baidu Online Network Technology (Beijing) Co., Ltd. Method, apparatus for evaluating review, device and storage medium
CN108363790A (zh) * 2018-02-12 2018-08-03 百度在线网络技术(北京)有限公司 用于对评论进行评估的方法、装置、设备和存储介质
CN108664633B (zh) * 2018-05-15 2020-12-04 南京大学 一种利用多样化文本特征进行文本分类的方法
CN108664633A (zh) * 2018-05-15 2018-10-16 南京大学 一种利用多样化文本特征进行文本分类的方法
CN108763402A (zh) * 2018-05-22 2018-11-06 广西师范大学 基于依存关系、词性和语义词典的类中心向量文本分类法
CN108763402B (zh) * 2018-05-22 2021-08-27 广西师范大学 基于依存关系、词性和语义词典的类中心向量文本分类法
CN108804423B (zh) * 2018-05-30 2023-09-08 深圳平安医疗健康科技服务有限公司 医疗文本特征提取与自动匹配方法和系统
CN108804423A (zh) * 2018-05-30 2018-11-13 平安医疗健康管理股份有限公司 医疗文本特征提取与自动匹配方法和系统
CN110569495A (zh) * 2018-06-05 2019-12-13 北京四维图新科技股份有限公司 一种基于用户评论的情感倾向分类方法、装置及存储介质
CN108897852B (zh) * 2018-06-29 2020-10-23 北京百度网讯科技有限公司 对话内容连贯性的判断方法、装置以及设备
CN108897852A (zh) * 2018-06-29 2018-11-27 北京百度网讯科技有限公司 对话内容连贯性的判断方法、装置以及设备
CN109213861B (zh) * 2018-08-01 2022-03-29 上海电力学院 结合At_GRU神经网络与情感词典的旅游评价情感分类方法
CN109213861A (zh) * 2018-08-01 2019-01-15 上海电力学院 结合At_GRU神经网络与情感词典的旅游评价情感分类方法
CN109376242A (zh) * 2018-10-18 2019-02-22 西安工程大学 基于循环神经网络变体和卷积神经网络的文本分类算法
CN109376242B (zh) * 2018-10-18 2020-11-17 西安工程大学 基于循环神经网络变体和卷积神经网络的文本分类方法
WO2020244066A1 (zh) * 2019-06-04 2020-12-10 平安科技(深圳)有限公司 一种文本分类方法、装置、设备及存储介质
CN110489551B (zh) * 2019-07-16 2023-05-30 哈尔滨工程大学 一种基于写作习惯的作者识别方法
CN110489551A (zh) * 2019-07-16 2019-11-22 哈尔滨工程大学 一种基于写作习惯的作者识别方法

Also Published As

Publication number Publication date
CN104572892B (zh) 2017-10-03

Similar Documents

Publication Publication Date Title
CN104572892A (zh) 一种基于循环卷积网络的文本分类方法
CN110866117B (zh) 一种基于语义增强与多层次标签嵌入的短文本分类方法
Alwehaibi et al. Comparison of pre-trained word vectors for arabic text classification using deep learning approach
CN107766324B (zh) 一种基于深度神经网络的文本一致性分析方法
CN107273358B (zh) 一种基于管道模式的端到端英文篇章结构自动分析方法
CN110362819B (zh) 基于卷积神经网络的文本情感分析方法
CN104268160A (zh) 一种基于领域词典和语义角色的评价对象抽取方法
CN106502994A (zh) 一种文本的关键词提取的方法和装置
CN107122349A (zh) 一种基于word2vec‑LDA模型的文本主题词提取方法
DE112013004082T5 (de) Suchsystem der Emotionsentität für das Microblog
Altowayan et al. Improving Arabic sentiment analysis with sentiment-specific embeddings
CN108388554B (zh) 基于协同过滤注意力机制的文本情感识别系统
CN108509409A (zh) 一种自动生成语义相近句子样本的方法
CN108804608A (zh) 一种基于层次attention的微博谣言立场检测方法
CN107463658A (zh) 文本分类方法及装置
CN104778204A (zh) 基于两层聚类的多文档主题发现方法
CN113505200B (zh) 一种结合文档关键信息的句子级中文事件检测的方法
CN110188359B (zh) 一种文本实体抽取方法
WO2021043087A1 (zh) 文字布局方法、装置、电子设备及计算机可读存储介质
CN113094596A (zh) 一种基于双向传播图的多任务谣言检测方法
CN105975497A (zh) 微博话题自动推荐方法及装置
El Desouki et al. Exploring the recent trends of paraphrase detection
Han et al. An attention-based neural framework for uncertainty identification on social media texts
CN111814476A (zh) 一种实体关系的抽取方法和装置
Bölücü et al. Hate Speech and Offensive Content Identification with Graph Convolutional Networks.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant