CN104572892B - 一种基于循环卷积网络的文本分类方法 - Google Patents
一种基于循环卷积网络的文本分类方法 Download PDFInfo
- Publication number
- CN104572892B CN104572892B CN201410817856.8A CN201410817856A CN104572892B CN 104572892 B CN104572892 B CN 104572892B CN 201410817856 A CN201410817856 A CN 201410817856A CN 104572892 B CN104572892 B CN 104572892B
- Authority
- CN
- China
- Prior art keywords
- mrow
- word
- expression
- text
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 125000004122 cyclic group Chemical group 0.000 title claims abstract description 15
- 238000005516 engineering process Methods 0.000 claims abstract description 13
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 10
- 238000012546 transfer Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims 1
- 238000012360 testing method Methods 0.000 abstract description 3
- 238000013528 artificial neural network Methods 0.000 description 5
- 230000000306 recurrent effect Effects 0.000 description 4
- 239000000463 material Substances 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 206010068052 Mosaicism Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000003134 recirculating effect Effects 0.000 description 1
- 210000003765 sex chromosome Anatomy 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于循环卷积网络的文本分类方法,包括以下步骤:步骤1,利用双向循环网络对所有词进行上下文向量的表示;步骤2,将上下文向量及当前词的词向量组合成当前词的表示;步骤3,利用最大池化技术提取最重要的上下文信息得到文本表示;步骤4,利用文本表示进行文本分类。该方法能够较多地保留文本中的词序信息,捕捉长距离的文本依赖关系,精确刻画词的语义,并通过最大池化技术找到对文本分类影响最大的词和短语。有效地提高了文本分类的准确率。经过试验证明,本方法在多个文本分类数据集上平均提升1%。
Description
技术领域
本发明涉及自然语言处理技术领域,特别涉及一种基于循环卷积网络的文本分类方法。
背景技术
文本分类技术是自然语言处理中的一个重要技术,它是网页检索、情感分析、垃圾邮件识别等任务中的关键步骤。文本分类的目标是给定若干已经分类的文本集合,利用这些文本,学习一种分类方法,对于其它文本也归纳到已知的类别中。
文本分类中的关键问题在于特征表示,其中最常用的特征表示方法是词袋子模型。词袋子模型中,最常用的特征是词、二元词组、多元词组(n-gram)以及一些人工抽取的模版特征。在特征表示之后,传统模型往往使用词频、互信息、LDA等方法筛选出最有效的特征。然而,传统方法在表示文本时,会忽略上下文信息,或者说,会丢失词序信息。尽管传统特征中诸如多元词组以及更复杂的特征(如树核)也能捕获词序信息,但是这些特征往往会遇到数据稀疏问题,影响到文本分类的精度。而且人工设计特征也总是一项非常耗费时间的工作。
现已有若干基于深度神经网络技术的文本分类算法,如递归神经网络、循环神经网络、卷积神经网络。这些方法虽然可以较好地解决数据稀疏问题,但也有各自的缺陷。如递归神经网络在构建文本语义时,需要先构建一个树形结构,这个步骤可能会依赖于句法树的精度;循环神经网络在构建文本语义时,语义会偏向文本中靠后的的内容,但是实际上并非所有文本的重点信息均在最后部分;卷积神经网络在构建文本语义时需要人工设定一个窗口来捕获上下文信息,然而分类结果对窗口的大小比较敏感,如果窗口太小,保留的词序信息以及上下文依赖关系就会不足,如果窗口太大,则会引入大量噪声,对结果造成不利影响。
发明内容
为了克服现有技术存在的缺陷,本发明提出了一种基于循环卷积网络的文本分类方法,实现了对文本更加有效地分类。
本发明提出的一种基于循环卷积网络的文本分类方法,包括以下步骤:
步骤1,利用双向循环网络对所有词进行上下文向量的表示;
步骤2,将上下文向量及当前词的词向量组合成当前词的表示;
步骤3,利用最大池化技术提取最重要的上下文信息得到文本表示;
步骤4,利用文本表示进行文本分类。
优选的,步骤1所述的上下文向量的表示通过如下计算得到:
上文向量的表示的计算公式为
cl(wi)=f(W(l)cl(wi-1)+W(sl)e(wi-1))
下文向量的表示的计算公式为
cr(wi)=f(W(r)cr(wi+1)+W(sr)e(wi+1))
其中cl(wi)表示词wi的上文向量的表示,cr(wi)表示词wi的下文向量的表示,e(wi)表示词wi的词向量,W(l)、W(r)、W(sl)、W(sr)均为转移矩阵,f为非线性激活函数。
优选的,步骤2所述当前词的表示为上文向量的表示、下文向量的表示和当前词的词向量的串接,具体表示为
xi=[cl(wi);e(wi);cr(wi)]
其中xi为当前词的表示。
优选的,步骤3中利用最大池化技术提取最重要的上下文信息得到文本表示的方法为:将步骤2得到的当前词的表示映射到一个新的语义空间,对新语义空间中的每个向量,逐个元素求最大值,具体公式为
yi (2)=tan(W(2)xi+b(2))
其中yi (2)为第i个词的隐含语义表示,yi (3)为整个文档的语义表示,W(2)为语义转移矩阵,b(2)为偏移项,n表示文档的长度。
优选的,在步骤4利用logistic回归对文本表示进行文本分类。
优选的,非线性激活函数f为tanh函数。
本发明采用模块化方法进行功能实现,包括词表示模块、文本表示模块、文本分类模块。词表示模块用于构建各个词的上下文信息以对词进行消歧,将上下文表示和词结合在一起表示词的语义,供文本表示模块选用;文本表示模块,用于构建整个文本的语义,利用最大池化技术选择对文本分类最重要的词及其上下文,总结出整个文本的语义表示;文本分类模块,利用logistic分类算法对文本表示进行分类。
本发明采用循环结构构建上下文语义表示,可以刻画长距离的文本依赖关系,保留更多的词序信息,同时减少数据稀疏问题,从而提升文本分类的性能。
附图说明
图1是本发明中基于循环卷积网络的文本分类方法原理图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
本发明的基本思想是构建一个较好的上下文表示,从而得以对词进行消歧,进而得到一个好的文本表示,用于文本分类。
对于文本分类,其核心问题在于文本表示。传统方法往往会丢失词序信息,其改进方法也存在数据稀疏性问题。针对这两点,本方法提出使用循环网络对上下文进行建模,保留尽可能长的词序信息,优化当前词的表示;并使用最大池化技术抽取对文本分类最有用词和短语。
根据上述思路,本发明主要从文本分类存在的难点入手,成功地使用循环卷积网络做文本分类任务。通过实验证明,该方法有效地提高了文本分类的平均准确率。
如图1所示,该方法主要包括词义表示、文本语义表示和文本分类三个过程。具体步骤如下:
步骤1,使用双向循环网络表示所有词的上下文向量的表示。其中上文向量的表示按照以下公式计算得到:
cl(wi)=f(W(l)cl(wi-1)+W(sl)e(wi-1))
下文向量的表示按照以下公式计算得到:
cr(wi)=f(W(r)cr(wi+1)+W(sr)e(wi+1))
其中cl(wi)表示词wi的上文向量的表示,cr(wi)表示词wi的下文向量,e(wi)表示词wi的词向量,W(l)、W(r)、W(sl)、W(sr)均为转移矩阵,f为非线性激活函数,优选使用tanh函数。
步骤2,将上下文向量及当前词的词向量组合成当前词的表示。当前词的表示xi具体表示为上文向量的表示、下文向量的表示和当前词的词向量的串接,表示公式为
xi=[cl(wi);e(wi);cr(wi)]
步骤3,使用最大池化技术提取最重要的上下文信息得到文本表示。将步骤2得到的当前词的表示映射到一个新的语义空间,对新语义空间中的每个向量,逐个元素求最大值,计算公式为
yi (2)=tan(W(2)xi+b(2))
其中yi (2)为第i个词的隐含语义表示,yi (3)为整个文档的语义表示,W(2)为语义转移矩阵,b(2)为偏移项,n表示文档的长度。
步骤4,利用文本表示进行文本分类。本实施例采用logistic回归对文本表示进行文本分类。
本发明采用模块化方法进行功能实现,包括词表示模块、文本表示模块、文本分类模块,这三个模块分别为图1中的左中右三个部分。词表示模块用于构建各个词的上下文信息以对词进行消歧,将上下文表示和词结合在一起表示词的语义,供文本表示模块选用;文本表示模块,用于构建整个文本的语义,利用最大池化技术选择对文本分类最重要的词及其上下文,总结出整个文本的语义表示;文本分类模块,利用logistic分类算法对文本表示进行分类。
为了说明系统的性能,本发明做了实验来验证本方法的性能。
1)测试语料
使用20Newsgroups、复旦分类语料(Fudan Set)、ACL论文语料、情感树库(Sentiment Treebank)这四个常用的文本分类数据集进行测试。这些数据集覆盖了学科体系分类、作者母语分类、情感分类等不同分类体系。数据集语言也包括英语和汉语两种。
2)循环卷积网络的提高
通过对比循环卷积网络的结果与其他常用方法的结果来说明本方法的有效性。结果如下表:
表1循环卷积网络和其它方法结果对比
表格中最上面部分为基于词袋子的文本分类方法。中间部分为该数据集上此前的最好成绩,包括LDA、树核特征、递归神经网络等方法。从上表可以看到,相对于其他常用方法,循环卷积网络均取得了最好的成绩。
从上述实验结果可以看到,使用循环卷积网络在文本分类任务中取得了不错的效果。这个方法被证明是有效的。
本发明的借助循环卷积网络用于文本分类任务的方法,不同于传统基于人工设计特征的文本分类方法,使用神经网络自动学习特征,利用循环结构捕获了长距离的文本依赖关系,得到了较好的上下文表示,从而对词义消歧,进而表示出文本的语义。经过实验表明,对于文本分类的准确率在多个数据集上均有提升。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种基于循环卷积网络的文本分类方法,其特征在于,包括以下步骤:
步骤1,利用双向循环网络对所有词进行上下文向量的表示;
步骤2,将上下文向量及当前词的词向量组合成当前词的表示;
步骤3,利用最大池化技术提取最重要的上下文信息得到文本表示;
步骤4,利用文本表示进行文本分类。
2.根据权利要求1所述的方法,其特征在于,步骤1所述的上下文向量的表示通过如下计算得到:
上文向量的表示的计算公式为
cl(wi)=f(W(l)cl(wi-1)+W(sl)e(wi-1))
下文向量的表示的计算公式为
cr(wi)=f(W(r)cr(wi+1)+W(sr)e(wi+1))
其中cl(wi)表示词wi的上文向量的表示,cr(wi)表示词wi的下文向量的表示,e(wi)表示词wi的词向量,W(l)、W(r)、W(sl)、W(sr)均为转移矩阵,f为非线性激活函数。
3.根据权利要求2所述的方法,其特征在于,步骤2所述当前词的表示为上文向量的表示、下文向量的表示和当前词的词向量的串接,具体表示为
xi=[cl(wi);e(wi);cr(wi)]
其中xi为当前词的表示。
4.根据权利要求3所述方法,其特征在于,步骤3中利用最大池化技术提取最重要的上下文信息得到文本表示的方法为:将步骤2得到的当前词的表示映射到一个新的语义空间,对新语义空间中的每个向量,逐个元素求最大值,具体公式为
<mrow>
<msubsup>
<mi>y</mi>
<mi>i</mi>
<mrow>
<mo>(</mo>
<mn>2</mn>
<mo>)</mo>
</mrow>
</msubsup>
<mo>=</mo>
<mi>t</mi>
<mi>a</mi>
<mi>n</mi>
<mrow>
<mo>(</mo>
<msup>
<mi>W</mi>
<mrow>
<mo>(</mo>
<mn>2</mn>
<mo>)</mo>
</mrow>
</msup>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
<mo>+</mo>
<msup>
<mi>b</mi>
<mrow>
<mo>(</mo>
<mn>2</mn>
<mo>)</mo>
</mrow>
</msup>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<msubsup>
<mi>y</mi>
<mi>i</mi>
<mrow>
<mo>(</mo>
<mn>3</mn>
<mo>)</mo>
</mrow>
</msubsup>
<mo>=</mo>
<munder>
<mrow>
<mi>m</mi>
<mi>a</mi>
<mi>x</mi>
</mrow>
<mrow>
<mn>1</mn>
<mo>&le;</mo>
<mi>i</mi>
<mo>&le;</mo>
<mi>n</mi>
</mrow>
</munder>
<msubsup>
<mi>y</mi>
<mi>i</mi>
<mrow>
<mo>(</mo>
<mn>2</mn>
<mo>)</mo>
</mrow>
</msubsup>
</mrow>
其中为第i个词的隐含语义表示,为整个文档的语义表示,W(2)为语义转移矩阵,b(2)为偏移项,n表示文档的长度。
5.根据权利要求4所述的方法,其特征在于,在步骤4利用logistic回归对文本表示进行文本分类。
6.根据权利要求5所述的方法,其特征在于,非线性激活函数f为tanh函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410817856.8A CN104572892B (zh) | 2014-12-24 | 2014-12-24 | 一种基于循环卷积网络的文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410817856.8A CN104572892B (zh) | 2014-12-24 | 2014-12-24 | 一种基于循环卷积网络的文本分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104572892A CN104572892A (zh) | 2015-04-29 |
CN104572892B true CN104572892B (zh) | 2017-10-03 |
Family
ID=53088954
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410817856.8A Active CN104572892B (zh) | 2014-12-24 | 2014-12-24 | 一种基于循环卷积网络的文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104572892B (zh) |
Families Citing this family (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106407211B (zh) * | 2015-07-30 | 2019-08-06 | 富士通株式会社 | 对实体词的语义关系进行分类的方法和装置 |
CN105183646B (zh) * | 2015-08-28 | 2017-12-26 | 百度在线网络技术(北京)有限公司 | Rnn代码测试方法及装置 |
CN106897254B (zh) * | 2015-12-18 | 2020-01-21 | 清华大学 | 一种网络表示学习方法 |
CN105654127A (zh) * | 2015-12-30 | 2016-06-08 | 成都数联铭品科技有限公司 | 基于端到端的图片文字序列连续识别方法 |
CN105678293A (zh) * | 2015-12-30 | 2016-06-15 | 成都数联铭品科技有限公司 | 一种基于cnn-rnn的复杂图像字序列识别方法 |
CN105868181B (zh) * | 2016-04-21 | 2018-08-21 | 南京大学 | 基于新型神经网络的自然语言并列结构的自动识别方法 |
CN105975497A (zh) * | 2016-04-27 | 2016-09-28 | 清华大学 | 微博话题自动推荐方法及装置 |
CN106202044A (zh) * | 2016-07-07 | 2016-12-07 | 武汉理工大学 | 一种基于深度神经网络的实体关系抽取方法 |
CN106980811A (zh) * | 2016-10-21 | 2017-07-25 | 商汤集团有限公司 | 人脸表情识别方法和人脸表情识别装置 |
CN106547885B (zh) * | 2016-10-27 | 2020-04-10 | 桂林电子科技大学 | 一种文本分类系统及方法 |
CN106570181B (zh) * | 2016-11-09 | 2020-07-28 | 武汉泰迪智慧科技有限公司 | 基于上下文管理的智能交互方法及系统 |
KR20180068475A (ko) * | 2016-12-14 | 2018-06-22 | 삼성전자주식회사 | 순환 모델에 기초한 인식 및 순환 모델을 트레이닝하는 방법과 장치 |
CN107784303A (zh) * | 2016-12-15 | 2018-03-09 | 平安科技(深圳)有限公司 | 车牌识别方法及装置 |
CN106776580A (zh) * | 2017-01-20 | 2017-05-31 | 中山大学 | 混合的深度神经网络cnn和rnn的主题句识别方法 |
CN106844738B (zh) * | 2017-02-14 | 2019-07-16 | 华南理工大学 | 基于神经网络的食材之间容克关系的分类方法 |
CN108694443B (zh) * | 2017-04-05 | 2021-09-17 | 富士通株式会社 | 基于神经网络的语言模型训练方法和装置 |
CN107169035B (zh) * | 2017-04-19 | 2019-10-18 | 华南理工大学 | 一种混合长短期记忆网络和卷积神经网络的文本分类方法 |
CN107145484A (zh) * | 2017-04-24 | 2017-09-08 | 北京邮电大学 | 一种基于隐多粒度局部特征的中文分词方法 |
CN107103754B (zh) * | 2017-05-10 | 2020-05-22 | 华南师范大学 | 一种道路交通状况预测方法及系统 |
CN107102989B (zh) * | 2017-05-24 | 2020-09-29 | 南京大学 | 一种基于词向量、卷积神经网络的实体消歧方法 |
CN109388706A (zh) * | 2017-08-10 | 2019-02-26 | 华东师范大学 | 一种问题细粒度分类方法、系统与装置 |
CN108363790B (zh) * | 2018-02-12 | 2021-10-22 | 百度在线网络技术(北京)有限公司 | 用于对评论进行评估的方法、装置、设备和存储介质 |
CN108664633B (zh) * | 2018-05-15 | 2020-12-04 | 南京大学 | 一种利用多样化文本特征进行文本分类的方法 |
CN108763402B (zh) * | 2018-05-22 | 2021-08-27 | 广西师范大学 | 基于依存关系、词性和语义词典的类中心向量文本分类法 |
CN108804423B (zh) * | 2018-05-30 | 2023-09-08 | 深圳平安医疗健康科技服务有限公司 | 医疗文本特征提取与自动匹配方法和系统 |
CN110569495A (zh) * | 2018-06-05 | 2019-12-13 | 北京四维图新科技股份有限公司 | 一种基于用户评论的情感倾向分类方法、装置及存储介质 |
CN108897852B (zh) * | 2018-06-29 | 2020-10-23 | 北京百度网讯科技有限公司 | 对话内容连贯性的判断方法、装置以及设备 |
CN109213861B (zh) * | 2018-08-01 | 2022-03-29 | 上海电力学院 | 结合At_GRU神经网络与情感词典的旅游评价情感分类方法 |
CN109376242B (zh) * | 2018-10-18 | 2020-11-17 | 西安工程大学 | 基于循环神经网络变体和卷积神经网络的文本分类方法 |
CN110309304A (zh) * | 2019-06-04 | 2019-10-08 | 平安科技(深圳)有限公司 | 一种文本分类方法、装置、设备及存储介质 |
CN110489551B (zh) * | 2019-07-16 | 2023-05-30 | 哈尔滨工程大学 | 一种基于写作习惯的作者识别方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103729459A (zh) * | 2014-01-10 | 2014-04-16 | 北京邮电大学 | 一种构建情感分类模型的方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7724957B2 (en) * | 2006-07-31 | 2010-05-25 | Microsoft Corporation | Two tiered text recognition |
-
2014
- 2014-12-24 CN CN201410817856.8A patent/CN104572892B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103729459A (zh) * | 2014-01-10 | 2014-04-16 | 北京邮电大学 | 一种构建情感分类模型的方法 |
Non-Patent Citations (4)
Title |
---|
"End-to-end text recognition with convolutional neural network";Tao Wang .etc;《Pattern Recognition(ICPR),2012 21st International Conference on》;20121115;全文 * |
"Natural Language Processing (almost) from Scratch";Roman Collobert .etc;《arXiv》;20091231;全文 * |
"Recurrent Neural Networks for Time Series Classification";Michael .H .etc;《Neurocomputing》;20031231;全文 * |
"连续时间递归神经网络的稳定性分析";陈钢,等;《沈阳理工大学学报》;20070430;第26卷(第2期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN104572892A (zh) | 2015-04-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104572892B (zh) | 一种基于循环卷积网络的文本分类方法 | |
CN107239446B (zh) | 一种基于神经网络与注意力机制的情报关系提取方法 | |
CN107944559B (zh) | 一种实体关系自动识别方法及系统 | |
CN107766324B (zh) | 一种基于深度神经网络的文本一致性分析方法 | |
Alwehaibi et al. | Comparison of pre-trained word vectors for arabic text classification using deep learning approach | |
CN110209806A (zh) | 文本分类方法、文本分类装置及计算机可读存储介质 | |
CN108108354B (zh) | 一种基于深度学习的微博用户性别预测方法 | |
CN110222178A (zh) | 文本情感分类方法、装置、电子设备及可读存储介质 | |
CN107092596A (zh) | 基于attention CNNs和CCR的文本情感分析方法 | |
US20120253792A1 (en) | Sentiment Classification Based on Supervised Latent N-Gram Analysis | |
CN110059188A (zh) | 一种基于双向时间卷积网络的中文情感分析方法 | |
CN107291795A (zh) | 一种结合动态词嵌入和词性标注的文本分类方法 | |
CN110502742B (zh) | 一种复杂实体抽取方法、装置、介质及系统 | |
CN107122349A (zh) | 一种基于word2vec‑LDA模型的文本主题词提取方法 | |
CN108388554B (zh) | 基于协同过滤注意力机制的文本情感识别系统 | |
CN103020167B (zh) | 一种计算机中文文本分类方法 | |
CN113094596A (zh) | 一种基于双向传播图的多任务谣言检测方法 | |
CN110188781A (zh) | 一种基于深度学习的古诗文自动识别方法 | |
CN108090099B (zh) | 一种文本处理方法及装置 | |
CN107832290B (zh) | 中文语义关系的识别方法及装置 | |
CN104166643A (zh) | 一种智能问答系统中的对话行为分析方法 | |
CN108052504A (zh) | 数学主观题解答结果的结构分析方法及系统 | |
CN107220655A (zh) | 一种基于深度学习的手写、印刷文本的分类方法 | |
CN103150303A (zh) | 汉语语义格分层识别方法 | |
CN105975497A (zh) | 微博话题自动推荐方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |