CN108399230A - 一种基于卷积神经网络的中文财经新闻文本分类方法 - Google Patents
一种基于卷积神经网络的中文财经新闻文本分类方法 Download PDFInfo
- Publication number
- CN108399230A CN108399230A CN201810147792.3A CN201810147792A CN108399230A CN 108399230 A CN108399230 A CN 108399230A CN 201810147792 A CN201810147792 A CN 201810147792A CN 108399230 A CN108399230 A CN 108399230A
- Authority
- CN
- China
- Prior art keywords
- economic
- term vector
- training
- feature
- neural networks
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 31
- 239000013598 vector Substances 0.000 claims abstract description 53
- 238000012549 training Methods 0.000 claims abstract description 41
- 230000008449 language Effects 0.000 claims abstract description 12
- 239000000463 material Substances 0.000 claims abstract description 4
- 238000013528 artificial neural network Methods 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 13
- 239000011159 matrix material Substances 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 230000001351 cycling effect Effects 0.000 claims description 2
- 239000000284 extract Substances 0.000 claims description 2
- 238000000605 extraction Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 claims description 2
- 238000011176 pooling Methods 0.000 claims description 2
- 238000005070 sampling Methods 0.000 claims description 2
- 238000003062 neural network model Methods 0.000 abstract 1
- 238000003058 natural language processing Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 238000002790 cross-validation Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 235000006693 Cassia laevigata Nutrition 0.000 description 1
- 244000097202 Rathbunia alamosensis Species 0.000 description 1
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 1
- 241000522641 Senna Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 229940124513 senna glycoside Drugs 0.000 description 1
- IPQVTOJGNYVQEO-KGFNBKMBSA-N sennoside A Chemical compound O[C@@H]1[C@@H](O)[C@H](O)[C@@H](CO)O[C@H]1OC1=CC=CC2=C1C(=O)C1=C(O)C=C(C(O)=O)C=C1[C@@H]2[C@H]1C2=CC(C(O)=O)=CC(O)=C2C(=O)C2=C(O[C@H]3[C@@H]([C@@H](O)[C@H](O)[C@@H](CO)O3)O)C=CC=C21 IPQVTOJGNYVQEO-KGFNBKMBSA-N 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Abstract
本发明公开了一种基于卷积神经网络的中文财经新闻文本分类方法,主要分为词向量训练、文本预处理、神经网络模型训练、新闻分类四个部分。使用大规模财经新闻语料,通过无监督学习的方法,训练获得一个广义通用的财经类词向量模型,并有效地将词向量引入到卷积神经网络模型的训练中,通过动态调整词向量的方法増加模型的统计信息。使用的卷积网络模型结构简单,针对小样本集也能表现优异的性能,不仅有效解决中文财经新闻分类问题,还充分证明了卷积神经网络在处理文本分类问题中的有效性。
Description
技术领域
本发明涉及计算机自然语言处理领域,特别涉及一种基于卷积神经网络的中文财经新闻文本分类方法。
背景技术
财经新闻的内容覆盖了与经济相关的所有领域,包括从生产到消费,从农村到城市,从微观到宏观,从经济工作到社会、政治生活等。简练的文字涵盖海量的信息,同时由于互联网的出现,其传播速度得到迅速提高,读者可以第一时间了解相关信息,特别对企业家与投资者而言,财经新闻是其判断市场变化的重要依据。但面对新闻数据呈爆炸式增长且杂乱无章序的现象,用户获取有用信息的难度同比增加,对海量财经新闻正负性的分类存在迫切需要,然而当前对于财经新闻的分类研究却很少,至今没有一种有效的分类方法被提出。如何利用当前计算机技术实现对财经新闻的有效分类,是一个急需解决的问题。
实现财经新闻分类的基础是文本分类技术。应用文本分类方法可以有效解决信息紊乱的问题,较大程度地帮助用户定位有用信息。目前,传统的文本分类方法及其存在的缺陷有:1)支持向量机(SVM):对缺失数据敏感,且在非线性问题上无通用解决方案;2)决策树分类:不适用训练大样本集,在噪声影响下容易导致过分拟合;3)朴素贝叶斯分类:假设条件在现实中无法满足,不能达到各属性相互独立,影响正确分类。
相比传统的分类方法,近年来兴起的人工神经网络方法则表现出了良好的智能特性:1)自适应性:对周围环境具有学习适应能力;2)容错性:对噪声和信息缺失的敏感程度低;3)模式识别性:能很好得识别多变量的模式。
文本分类是自然语言处理中常见的任务,根据学习方法可分为有监督学习和无监督学习。目前大部分研究方法都采用有监督得学习方式,如基于文本特征向量相关性方法、基于遗传算法的方法、基于关联的方法、基于EM算法的方法等都是典型的有监督学习方法。
2003年,Bengio等最早提出用神经网络构建二元语言模型NNLM(Neural NetworkLan-guage Model),实现将词映射转换到低维实数向量,提出可以通过词之间的距离来判断各词的语义相似度,同时结合非线性神经网络提出了n-gram模型。
Andriy Mnih等人则提出通过层次Log-Bilinear模型来进行语言模型训练。
Socher等人使用基于词向量的递归神经网络,实现对文本的向量表示,该网络可以有效用于文本分析。
John Son提出基于词表达方式的卷积神经网络模型,显示了词序特征在文本分类中的有效性。
Collobert等结合多层一维卷积神经网络实现了同时包含处理词性标注、语块切分、命名实体识别、语义角色标注四个典型自然语言处理任务的SENNA系统,并取得了当时最好的性能效果。
Mikolov借鉴Log-Bilinear模型的思想,通过添加隐藏层的多次递归提高了语言模型性能,在词预测的准确率方面超越了当时最好的基准系统。
Zhou等提出一种称为主动深度网络(Active deep network,ADN)的半监督学习算法用于解决情感分类问题。
Blunsom等在2014年提出动态卷积神经网络句子语义模型,在StanfordSentiment Treebank的二元分类与多元分类上再次取得一定的进步。
Kim将Collobert构建的CNN模型结合1000亿个单词训练的向量模型应用于电影评论分类中,取得了了88.1%的当时最好性能。
在硬件方面,基于神经网络的预训练过程通常需要高性能计算的支持,如图形处理单元GPU、多核计算等。同时RBM、Auto-encoders为深度神经网络结构中的组成单元提供算法支持。
发明内容
本发明的目的是在于针对现今财经领域内新闻数据杂乱无章、缺乏自动高效管理等问题,提供一种基于卷积神经网络的中文财经新闻分类方法。
本发明的目的通过以下技术方案来达到:
一种基于卷积神经网络的中文财经新闻文本分类方法,实现对财经新闻正负性的分类;具体操作步骤如下:
1)词向量训练:将分好词的语料文本使用神经网络来训练,在训练过程中生成一组向量,将每个词映射到一个n维词向量;
2)文本预处理:利用训练好的词向量模型将待训练样本转化为以词向量为元素的序列表示,得到一个2维矩阵,用于后续神经网络的训练;
3)CNN模型训练:将训练集通过多块卷积神经网络进行有监督的学习训练;
4)新闻分类:通过使用softmax方式完成对句子的分类。
所述步骤1)中,使用Google公司开源的word2vec工具训练一个财经类词向量模型,对数据的处理包括:去除非法字符、停用词处理、分词处理、编码处理四部分;中文文本与英文文本主要不同之处是不存在天然分隔符,因此需要进行分词处理,同时,中文文本都存在半角、全角两种字符,需要对文本进行编码规范;训练所得的财经类词向量用于完成财经类NLP中词性标注、命名实体识别、短语识别、语义角色标注的任务。
所述步骤2)中,文本预处理时将财经新闻的数据集,标注为正负两类,对经济市场产生积极正面影响的标注为正,对经济市场产生滞后影响或报道负面的标注为负,并利用JIEBA分词工具对实验数据集进行分词、去除非法字符、停用词处理。
所述步骤3)中,使用的卷积神经网络是前馈神经网络的一种,由卷积层和池化层叠加组合而成;卷积层作为特征提取层,通过滤波器提取局部特征,经过卷积核函数运算产生特征图,输出到池化层,池化层属于特征映射层,对卷积层产生的特征图进行降采样,输出局部最优特征;具体包括:
(1)词向量层:将词序列中的元素转化为词向量,令xi∈Rk为第i个词对应的k维词向量,长度为n的句子表示为:
其中⊕为级联运算符,则xi:i+h-1表示由第i到第i+h-1个词组成的局部特征矩阵;
(2)卷积层:对不同大小的滤波器建立不同的卷积层,若滤波器大小为h*k,其中h为卷积核窗口中的词数量,则对输入的特征矩阵进行卷积操作后,生成特征ci为:
ci=f(w·xi:i+h-1+b) (2)
其中b∈R为偏差项,w∈Rh*k为卷积核的权重矩阵,f是卷积核函数;该滤波器应用于句子{x1:h,x2:h+1,...,xn-h+1:n}得到特征图C为:
C=[c1,c2,c3,c4,...,cn-h+1] (3)
其中c∈Rn-h+1;
(3)池化层:池化层采用max-over-time pooling方法进行特征采样,对卷积层的输出特征进一步抽象,保留最重要的特征
(4)全连接层:全连接层由池化层输出的多个特征向量构成,若有大小不同的滤波器p种,每种滤波的数量为q,则全连接层的特征向量为V为:
在模型训练阶段,采用Adadelta Update Rule进行随机梯度下降更新模型。
所述步骤4)中,输出层使用全连接的softmax层完成分类任务,通过动态调整词向量増加神经网络句子模型的统计语义信息,有效提升模型的分类能力。
与现有技术相比,本发明的有益效果是:
本发明方法不仅有效解决了中文财经新闻的分类问题,还充分证明了卷积神经网络在自然语言处理文本分类中的有效性。而通过word2vec训练得到的财经类词向量作为广义通用的语言信息,可被重复用做不同神经网络的句子输入,同时也表明word2vec在自然语言处理中重要意义。
附图说明
图1是本发明方法整体流程图。
图2是卷积神经网络模型示意图。
图3是word2vec词语相似度比较示意图。
具体实施方式
本发明的优先实施例结合附图说明如下:
如图1所示,一种基于卷积神经网络的中文财经新闻文本分类方法,使用大规模财经新闻语料,通过无监督学习的方法,训练获得一个广义通用的财经类词向量模型,并有效地将词向量引入到卷积神经网络模型的训练中,通过动态调整词向量的方法増加模型的统计信息。
本实例共采集新浪财经7*24小时平台上28万条最新财经资讯;采集搜狗词库中12965个财经相关词汇的百度百科内容;同花顺财经网上证A股、深证A股、中小板及创业板全部共2768个股票相关简介及百度百科内容。
1)词向量训练:将分好词的语料文本使用神经网络来训练,在训练过程中生成一组向量,将每个词映射到一个n维词向量。word2vec模型有两种,分别是CBOW模型及Skip-gram模型。实例采用的是Skip-gram模型。训练参数参见表1。
表1
训练语料中共包含55745009个词汇,通过训练共得到222950个词汇的向量表示。以词语“中国银行”为例,可以得到其向量位置及其与其他词汇向量的相似度,参见图3。
2)文本预处理:使用的数据集包含8138条财经新闻,标注为正负两类,对经济市场产生积极正面影响的标注为正,对经济市场产生滞后影响或报道负面的标注为负,参见表2。
表2
经人工标注,正向新闻4121条,负向新闻4017,最长文本长度为50。利用训练好的词向量模型将待训练样本转化为以词向量为元素的序列表示,得到一个2维矩阵,用于后续神经网络的训练。
3)CNN模型训练:将训练集通过多块卷积神经网络进行有监督得学习训练。模型机构参见图2。采用表3所示的卷积神经网络模型可调参数设置,使用窗口大小为3,4,5的滤波器各100个。
表3
在模型训练阶段,采用Zeiler在2012年提出的Adadelta Update Rule进行随机梯度下降更新模型,参数取0.5。
使用静态词向量和动态词向量两种不同形式的通道模式。
CNN静态词向量,使用word2vec词向量,在训练过程中保持所有词向量静态。若存在新词汇不在word2vec词向量模型中,则随机初始化。
CNN动态词向量,使用word2vec词向量,但需重新做预训练,根据不同任务对所有词向量进行调整。
4)新闻分类:通过使用softmax方式完成对句子的分类。为了降低其他随机因素对上述变化的影响,该实例进行十折交叉验证(10-fold cross-validation)来评估方法的准确性。将样本数据分成十组,轮流将九组数据作为训练集用于训练,剩下一组为测试集,即每组数据依次作为测试集使用。每次测试均得到一个正确率,最后取十次测试结果的平均值用于总体评估。在两种模式下结果正确率见表4。
表4
以上所述仅为本发明的实施例,并非因此限制本发明的保护范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (5)
1.一种基于卷积神经网络的中文财经新闻文本分类方法,实现对财经新闻正负性的分类;其特征在于,具体操作步骤如下:
1)词向量训练:将分好词的语料文本使用神经网络来训练,在训练过程中生成一组向量,将每个词映射到一个n维词向量;
2)文本预处理:利用训练好的词向量模型将待训练样本转化为以词向量为元素的序列表示,得到一个2维矩阵,用于后续神经网络的训练;
3)CNN模型训练:将训练集通过多块卷积神经网络进行有监督的学习训练;
4)新闻分类:通过使用softmax方式完成对句子的分类。
2.根据权利要求1所述的基于卷积神经网络的中文财经新闻文本分类方法,其特征在于,所述步骤1)中,使用Google公司开源的word2vec工具训练一个财经类词向量模型,对数据的处理包括:去除非法字符、停用词处理、分词处理、编码处理四部分;中文文本与英文文本主要不同之处是不存在天然分隔符,因此需要进行分词处理,同时,中文文本都存在半角、全角两种字符,需要对文本进行编码规范;训练所得的财经类词向量用于完成财经类NLP中词性标注、命名实体识别、短语识别、语义角色标注的任务。
3.根据权利要求1所述的基于卷积神经网络的中文财经新闻文本分类方法,其特征在于,所述步骤2)中,文本预处理时将财经新闻的数据集,标注为正负两类,对经济市场产生积极正面影响的标注为正,对经济市场产生滞后影响或报道负面的标注为负,并利用JIEBA分词工具对实验数据集进行分词、去除非法字符、停用词处理。
4.根据权利要求1所述的基于卷积神经网络的中文财经新闻文本分类方法,其特征在于,所述步骤3)中,使用的卷积神经网络是前馈神经网络的一种,由卷积层和池化层叠加组合而成;卷积层作为特征提取层,通过滤波器提取局部特征,经过卷积核函数运算产生特征图,输出到池化层,池化层属于特征映射层,对卷积层产生的特征图进行降采样,输出局部最优特征;具体包括:
(1)词向量层:将词序列中的元素转化为词向量,令xi∈Rk为第i个词对应的k维词向量,长度为n的句子表示为:
其中为级联运算符,则xi:i+h-1表示由第i到第i+h-1个词组成的局部特征矩阵;
(2)卷积层:对不同大小的滤波器建立不同的卷积层,若滤波器大小为h*k,其中h为卷积核窗口中的词数量,则对输入的特征矩阵进行卷积操作后,生成特征ci为:
ci=f(w·xi:i+h-1+b) (2)
其中b∈R为偏差项,w∈Rh*k为卷积核的权重矩阵,f是卷积核函数;该滤波器应用于句子{x1:h,x2:h+1,...,xn-h+1:n}得到特征图C为:
C=[c1,c2,c3,c4,...,cn-h+1] (3)
其中c∈Rn-h+1;
(3)池化层:池化层采用max-over-time pooling方法进行特征采样,对卷积层的输出特征进一步抽象,保留最重要的特征
(4)全连接层:全连接层由池化层输出的多个特征向量构成,若有大小不同的滤波器p种,每种滤波的数量为q,则全连接层的特征向量为V为:
在模型训练阶段,采用Adadelta Update Rule进行随机梯度下降更新模型。
5.根据权利要求1所述的基于卷积神经网络的中文财经新闻文本分类方法,其特征在于,所述步骤4)中,输出层使用全连接的softmax层完成分类任务,通过动态调整词向量増加神经网络句子模型的统计语义信息,有效提升模型的分类能力。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810147792.3A CN108399230A (zh) | 2018-02-13 | 2018-02-13 | 一种基于卷积神经网络的中文财经新闻文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810147792.3A CN108399230A (zh) | 2018-02-13 | 2018-02-13 | 一种基于卷积神经网络的中文财经新闻文本分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108399230A true CN108399230A (zh) | 2018-08-14 |
Family
ID=63096647
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810147792.3A Pending CN108399230A (zh) | 2018-02-13 | 2018-02-13 | 一种基于卷积神经网络的中文财经新闻文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108399230A (zh) |
Cited By (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108875034A (zh) * | 2018-06-25 | 2018-11-23 | 湖南丹尼尔智能科技有限公司 | 一种基于层次化长短期记忆网络的中文文本分类方法 |
CN109086463A (zh) * | 2018-09-28 | 2018-12-25 | 武汉大学 | 一种基于区域卷积神经网络的问答社区标签推荐方法 |
CN109189925A (zh) * | 2018-08-16 | 2019-01-11 | 华南师范大学 | 基于点互信息的词向量模型和基于cnn的文本分类方法 |
CN109241530A (zh) * | 2018-08-29 | 2019-01-18 | 昆明理工大学 | 一种基于N-gram向量和卷积神经网络的中文文本多分类方法 |
CN109299270A (zh) * | 2018-10-30 | 2019-02-01 | 云南电网有限责任公司信息中心 | 一种基于卷积神经网络的文本数据无监督聚类方法 |
CN109299291A (zh) * | 2018-09-28 | 2019-02-01 | 武汉大学 | 一种基于卷积神经网络的问答社区标签推荐方法 |
CN109472470A (zh) * | 2018-10-23 | 2019-03-15 | 重庆誉存大数据科技有限公司 | 结合深度学习和逻辑规则的企业新闻数据风险分类方法 |
CN109493931A (zh) * | 2018-10-25 | 2019-03-19 | 平安科技(深圳)有限公司 | 一种病历文件的编码方法、服务器及计算机可读存储介质 |
CN109492097A (zh) * | 2018-10-23 | 2019-03-19 | 重庆誉存大数据科技有限公司 | 一种企业新闻数据风险分类方法 |
CN109740164A (zh) * | 2019-01-09 | 2019-05-10 | 国网浙江省电力有限公司舟山供电公司 | 基于深度语义匹配的电力缺陷等级识别方法 |
CN109753566A (zh) * | 2019-01-09 | 2019-05-14 | 大连民族大学 | 基于卷积神经网络的跨领域情感分析的模型训练方法 |
CN109766410A (zh) * | 2019-01-07 | 2019-05-17 | 东华大学 | 一种基于fastText算法的新闻文本自动分类系统 |
CN109872162A (zh) * | 2018-11-21 | 2019-06-11 | 阿里巴巴集团控股有限公司 | 一种处理用户投诉信息的风控分类识别方法及系统 |
CN109920501A (zh) * | 2019-01-24 | 2019-06-21 | 西安交通大学 | 基于卷积神经网络和主动学习的电子病历分类方法及系统 |
CN109918497A (zh) * | 2018-12-21 | 2019-06-21 | 厦门市美亚柏科信息股份有限公司 | 一种基于改进textCNN模型的文本分类方法、装置及存储介质 |
CN110008341A (zh) * | 2019-03-29 | 2019-07-12 | 电子科技大学 | 一种自适应错词和生词的印尼新闻文本分类方法 |
CN110083700A (zh) * | 2019-03-19 | 2019-08-02 | 北京中兴通网络科技股份有限公司 | 一种基于卷积神经网络的企业舆情情感分类方法及系统 |
CN110232188A (zh) * | 2019-06-04 | 2019-09-13 | 上海电力学院 | 电网用户故障报修工单的文本自动分类方法 |
CN110263304A (zh) * | 2018-11-29 | 2019-09-20 | 腾讯科技(深圳)有限公司 | 语句编码方法、语句解码方法、装置、存储介质及设备 |
CN110275954A (zh) * | 2019-06-21 | 2019-09-24 | 深圳大学 | 基于时间卷积网络的中文文本分类方法 |
CN110287236A (zh) * | 2019-06-25 | 2019-09-27 | 平安科技(深圳)有限公司 | 一种基于面试信息的数据挖掘方法、系统及终端设备 |
CN110298403A (zh) * | 2019-07-02 | 2019-10-01 | 郭刚 | 一种财经新闻中企业主体的情感分析方法和系统 |
CN110347826A (zh) * | 2019-06-17 | 2019-10-18 | 昆明理工大学 | 一种基于字符提取老挝语词特征的方法 |
CN110442720A (zh) * | 2019-08-09 | 2019-11-12 | 中国电子技术标准化研究院 | 一种基于lstm卷积神经网络的多标签文本分类方法 |
CN110532392A (zh) * | 2019-09-02 | 2019-12-03 | 河南理工大学 | 一种基于卷积神经网络短文本分类方法 |
CN111242146A (zh) * | 2018-11-09 | 2020-06-05 | 蔚来汽车有限公司 | 基于卷积神经网络的poi信息分类 |
CN111368026A (zh) * | 2020-02-25 | 2020-07-03 | 杭州电子科技大学 | 基于词语义关系与动态卷积神经网络的文本蕴含分析方法 |
CN111460100A (zh) * | 2020-03-30 | 2020-07-28 | 中南大学 | 一种刑事法律文书罪名的推荐方法和系统 |
CN111581368A (zh) * | 2019-02-19 | 2020-08-25 | 中国科学院信息工程研究所 | 一种基于卷积神经网络的面向智能专家推荐的用户画像方法 |
CN111767398A (zh) * | 2020-06-30 | 2020-10-13 | 国网新疆电力有限公司电力科学研究院 | 基于卷积神经网络的二次设备故障短文本数据分类方法 |
CN112182219A (zh) * | 2020-10-09 | 2021-01-05 | 杭州电子科技大学 | 一种基于日志语义分析的在线服务异常检测方法 |
CN112287669A (zh) * | 2020-12-28 | 2021-01-29 | 深圳追一科技有限公司 | 文本处理方法、装置、计算机设备和存储介质 |
CN112905742A (zh) * | 2021-02-20 | 2021-06-04 | 厦门吉比特网络技术股份有限公司 | 基于语义模型神经网络识别新词汇的方法、装置、系统、存储介质 |
CN113157913A (zh) * | 2021-01-30 | 2021-07-23 | 暨南大学 | 一种基于社会新闻数据集的伦理行为判别方法 |
CN113297361A (zh) * | 2021-05-24 | 2021-08-24 | 陕西合友网络科技有限公司 | 一种基于可视化流程图的智能问答交互系统及其方法 |
CN113420145A (zh) * | 2021-05-11 | 2021-09-21 | 杭州未名信科科技有限公司 | 一种基于半监督学习的招标文本分类方法与系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107038480A (zh) * | 2017-05-12 | 2017-08-11 | 东华大学 | 一种基于卷积神经网络的文本情感分类方法 |
CN107102989A (zh) * | 2017-05-24 | 2017-08-29 | 南京大学 | 一种基于词向量、卷积神经网络的实体消歧方法 |
CN107301246A (zh) * | 2017-07-14 | 2017-10-27 | 河北工业大学 | 基于超深卷积神经网络结构模型的中文文本分类方法 |
CN107577662A (zh) * | 2017-08-08 | 2018-01-12 | 上海交通大学 | 面向中文文本的语义理解系统及方法 |
-
2018
- 2018-02-13 CN CN201810147792.3A patent/CN108399230A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107038480A (zh) * | 2017-05-12 | 2017-08-11 | 东华大学 | 一种基于卷积神经网络的文本情感分类方法 |
CN107102989A (zh) * | 2017-05-24 | 2017-08-29 | 南京大学 | 一种基于词向量、卷积神经网络的实体消歧方法 |
CN107301246A (zh) * | 2017-07-14 | 2017-10-27 | 河北工业大学 | 基于超深卷积神经网络结构模型的中文文本分类方法 |
CN107577662A (zh) * | 2017-08-08 | 2018-01-12 | 上海交通大学 | 面向中文文本的语义理解系统及方法 |
Non-Patent Citations (2)
Title |
---|
YOON KIM: ""Convolutional Neural Networks for Sentence Classification"", 《ARXIV:1408.5882V2 [CS.CL]》 * |
陈钊 等: ""结合卷积神经网络和词语情感序列特征的中文情感分析"", 《中文信息学报》 * |
Cited By (51)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108875034A (zh) * | 2018-06-25 | 2018-11-23 | 湖南丹尼尔智能科技有限公司 | 一种基于层次化长短期记忆网络的中文文本分类方法 |
CN109189925A (zh) * | 2018-08-16 | 2019-01-11 | 华南师范大学 | 基于点互信息的词向量模型和基于cnn的文本分类方法 |
CN109241530A (zh) * | 2018-08-29 | 2019-01-18 | 昆明理工大学 | 一种基于N-gram向量和卷积神经网络的中文文本多分类方法 |
CN109241530B (zh) * | 2018-08-29 | 2021-08-20 | 昆明理工大学 | 一种基于N-gram向量和卷积神经网络的中文文本多分类方法 |
CN109086463A (zh) * | 2018-09-28 | 2018-12-25 | 武汉大学 | 一种基于区域卷积神经网络的问答社区标签推荐方法 |
CN109299291A (zh) * | 2018-09-28 | 2019-02-01 | 武汉大学 | 一种基于卷积神经网络的问答社区标签推荐方法 |
CN109299291B (zh) * | 2018-09-28 | 2022-04-29 | 武汉大学 | 一种基于卷积神经网络的问答社区标签推荐方法 |
CN109086463B (zh) * | 2018-09-28 | 2022-04-29 | 武汉大学 | 一种基于区域卷积神经网络的问答社区标签推荐方法 |
CN109472470A (zh) * | 2018-10-23 | 2019-03-15 | 重庆誉存大数据科技有限公司 | 结合深度学习和逻辑规则的企业新闻数据风险分类方法 |
CN109492097A (zh) * | 2018-10-23 | 2019-03-19 | 重庆誉存大数据科技有限公司 | 一种企业新闻数据风险分类方法 |
CN109492097B (zh) * | 2018-10-23 | 2021-11-16 | 重庆誉存大数据科技有限公司 | 一种企业新闻数据风险分类方法 |
CN109493931A (zh) * | 2018-10-25 | 2019-03-19 | 平安科技(深圳)有限公司 | 一种病历文件的编码方法、服务器及计算机可读存储介质 |
CN109299270A (zh) * | 2018-10-30 | 2019-02-01 | 云南电网有限责任公司信息中心 | 一种基于卷积神经网络的文本数据无监督聚类方法 |
CN111242146B (zh) * | 2018-11-09 | 2023-08-25 | 蔚来(安徽)控股有限公司 | 基于卷积神经网络的poi信息分类 |
CN111242146A (zh) * | 2018-11-09 | 2020-06-05 | 蔚来汽车有限公司 | 基于卷积神经网络的poi信息分类 |
CN109872162B (zh) * | 2018-11-21 | 2023-06-16 | 创新先进技术有限公司 | 一种处理用户投诉信息的风控分类识别方法及系统 |
CN109872162A (zh) * | 2018-11-21 | 2019-06-11 | 阿里巴巴集团控股有限公司 | 一种处理用户投诉信息的风控分类识别方法及系统 |
CN110263304A (zh) * | 2018-11-29 | 2019-09-20 | 腾讯科技(深圳)有限公司 | 语句编码方法、语句解码方法、装置、存储介质及设备 |
CN110263304B (zh) * | 2018-11-29 | 2023-01-10 | 腾讯科技(深圳)有限公司 | 语句编码方法、语句解码方法、装置、存储介质及设备 |
CN109918497A (zh) * | 2018-12-21 | 2019-06-21 | 厦门市美亚柏科信息股份有限公司 | 一种基于改进textCNN模型的文本分类方法、装置及存储介质 |
CN109766410A (zh) * | 2019-01-07 | 2019-05-17 | 东华大学 | 一种基于fastText算法的新闻文本自动分类系统 |
CN109753566B (zh) * | 2019-01-09 | 2020-11-24 | 大连民族大学 | 基于卷积神经网络的跨领域情感分析的模型训练方法 |
CN109753566A (zh) * | 2019-01-09 | 2019-05-14 | 大连民族大学 | 基于卷积神经网络的跨领域情感分析的模型训练方法 |
CN109740164A (zh) * | 2019-01-09 | 2019-05-10 | 国网浙江省电力有限公司舟山供电公司 | 基于深度语义匹配的电力缺陷等级识别方法 |
CN109740164B (zh) * | 2019-01-09 | 2023-08-15 | 国网浙江省电力有限公司舟山供电公司 | 基于深度语义匹配的电力缺陷等级识别方法 |
CN109920501B (zh) * | 2019-01-24 | 2021-04-20 | 西安交通大学 | 基于卷积神经网络和主动学习的电子病历分类方法及系统 |
CN109920501A (zh) * | 2019-01-24 | 2019-06-21 | 西安交通大学 | 基于卷积神经网络和主动学习的电子病历分类方法及系统 |
CN111581368A (zh) * | 2019-02-19 | 2020-08-25 | 中国科学院信息工程研究所 | 一种基于卷积神经网络的面向智能专家推荐的用户画像方法 |
CN110083700A (zh) * | 2019-03-19 | 2019-08-02 | 北京中兴通网络科技股份有限公司 | 一种基于卷积神经网络的企业舆情情感分类方法及系统 |
CN110008341A (zh) * | 2019-03-29 | 2019-07-12 | 电子科技大学 | 一种自适应错词和生词的印尼新闻文本分类方法 |
CN110232188A (zh) * | 2019-06-04 | 2019-09-13 | 上海电力学院 | 电网用户故障报修工单的文本自动分类方法 |
CN110347826A (zh) * | 2019-06-17 | 2019-10-18 | 昆明理工大学 | 一种基于字符提取老挝语词特征的方法 |
CN110275954A (zh) * | 2019-06-21 | 2019-09-24 | 深圳大学 | 基于时间卷积网络的中文文本分类方法 |
CN110287236B (zh) * | 2019-06-25 | 2024-03-19 | 平安科技(深圳)有限公司 | 一种基于面试信息的数据挖掘方法、系统及终端设备 |
CN110287236A (zh) * | 2019-06-25 | 2019-09-27 | 平安科技(深圳)有限公司 | 一种基于面试信息的数据挖掘方法、系统及终端设备 |
CN110298403B (zh) * | 2019-07-02 | 2023-12-12 | 北京金融大数据有限公司 | 一种财经新闻中企业主体的情感分析方法和系统 |
CN110298403A (zh) * | 2019-07-02 | 2019-10-01 | 郭刚 | 一种财经新闻中企业主体的情感分析方法和系统 |
CN110442720A (zh) * | 2019-08-09 | 2019-11-12 | 中国电子技术标准化研究院 | 一种基于lstm卷积神经网络的多标签文本分类方法 |
CN110532392A (zh) * | 2019-09-02 | 2019-12-03 | 河南理工大学 | 一种基于卷积神经网络短文本分类方法 |
CN111368026A (zh) * | 2020-02-25 | 2020-07-03 | 杭州电子科技大学 | 基于词语义关系与动态卷积神经网络的文本蕴含分析方法 |
CN111368026B (zh) * | 2020-02-25 | 2020-11-24 | 杭州电子科技大学 | 基于词语义关系与动态卷积神经网络的文本蕴含分析方法 |
CN111460100A (zh) * | 2020-03-30 | 2020-07-28 | 中南大学 | 一种刑事法律文书罪名的推荐方法和系统 |
CN111767398A (zh) * | 2020-06-30 | 2020-10-13 | 国网新疆电力有限公司电力科学研究院 | 基于卷积神经网络的二次设备故障短文本数据分类方法 |
CN112182219A (zh) * | 2020-10-09 | 2021-01-05 | 杭州电子科技大学 | 一种基于日志语义分析的在线服务异常检测方法 |
CN112287669B (zh) * | 2020-12-28 | 2021-05-25 | 深圳追一科技有限公司 | 文本处理方法、装置、计算机设备和存储介质 |
CN112287669A (zh) * | 2020-12-28 | 2021-01-29 | 深圳追一科技有限公司 | 文本处理方法、装置、计算机设备和存储介质 |
CN113157913A (zh) * | 2021-01-30 | 2021-07-23 | 暨南大学 | 一种基于社会新闻数据集的伦理行为判别方法 |
CN112905742A (zh) * | 2021-02-20 | 2021-06-04 | 厦门吉比特网络技术股份有限公司 | 基于语义模型神经网络识别新词汇的方法、装置、系统、存储介质 |
CN112905742B (zh) * | 2021-02-20 | 2022-07-29 | 厦门吉比特网络技术股份有限公司 | 基于语义模型神经网络识别新词汇的方法、装置 |
CN113420145A (zh) * | 2021-05-11 | 2021-09-21 | 杭州未名信科科技有限公司 | 一种基于半监督学习的招标文本分类方法与系统 |
CN113297361A (zh) * | 2021-05-24 | 2021-08-24 | 陕西合友网络科技有限公司 | 一种基于可视化流程图的智能问答交互系统及其方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108399230A (zh) | 一种基于卷积神经网络的中文财经新闻文本分类方法 | |
Zhang et al. | A text sentiment classification modeling method based on coordinated CNN‐LSTM‐attention model | |
CN108897857B (zh) | 面向领域的中文文本主题句生成方法 | |
CN108595632B (zh) | 一种融合摘要与主体特征的混合神经网络文本分类方法 | |
Vateekul et al. | A study of sentiment analysis using deep learning techniques on Thai Twitter data | |
Lai et al. | Fine-grained emotion classification of Chinese microblogs based on graph convolution networks | |
Wang et al. | Chinese text sentiment analysis using LSTM network based on L2 and Nadam | |
Zhang et al. | Sentiment Classification Based on Piecewise Pooling Convolutional Neural Network. | |
CN111966917A (zh) | 一种基于预训练语言模型的事件检测与摘要方法 | |
CN111767725B (zh) | 一种基于情感极性分析模型的数据处理方法及装置 | |
CN113962293A (zh) | 一种基于LightGBM分类与表示学习的姓名消歧方法和系统 | |
CN111984791A (zh) | 一种基于注意力机制的长文分类方法 | |
Rajalakshmi et al. | Sentimental analysis of code-mixed Hindi language | |
CN112925907A (zh) | 基于事件图卷积神经网络的微博评论观点对象分类方法 | |
Yildiz | A comparative study of author gender identification | |
CN110674293B (zh) | 一种基于语义迁移的文本分类方法 | |
Xiao et al. | Multi-Task CNN for classification of Chinese legal questions | |
Lin et al. | Text classification feature extraction method based on deep learning for unbalanced data sets | |
CN115098690A (zh) | 一种基于聚类分析的多数据文档分类方法及系统 | |
Kai et al. | Research on Text Summary Generation Based on Bidirectional Encoder Representation from Transformers | |
Li et al. | Label-attentive hierarchical attention network for text classification | |
Yu et al. | Multi-module Fusion Relevance Attention Network for Multi-label Text Classification. | |
El Bazi et al. | Is Stemming Beneficial for Learning Better Arabic Word Representations? | |
Aalaa Abdulwahab et al. | Documents classification based on deep learning | |
CN111767730A (zh) | 一种事件类型识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180814 |