CN110909167A - 一种微博文本分类系统 - Google Patents
一种微博文本分类系统 Download PDFInfo
- Publication number
- CN110909167A CN110909167A CN201911197204.8A CN201911197204A CN110909167A CN 110909167 A CN110909167 A CN 110909167A CN 201911197204 A CN201911197204 A CN 201911197204A CN 110909167 A CN110909167 A CN 110909167A
- Authority
- CN
- China
- Prior art keywords
- user
- microblog
- word
- word vector
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000013598 vector Substances 0.000 claims abstract description 77
- 230000008451 emotion Effects 0.000 claims abstract description 14
- 238000000605 extraction Methods 0.000 claims abstract description 12
- 230000002996 emotional effect Effects 0.000 claims abstract description 11
- 238000010276 construction Methods 0.000 claims abstract description 8
- 238000011176 pooling Methods 0.000 claims abstract description 8
- 238000004140 cleaning Methods 0.000 claims abstract description 7
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 230000007935 neutral effect Effects 0.000 claims abstract description 4
- 230000009193 crawling Effects 0.000 claims abstract description 3
- 230000002708 enhancing effect Effects 0.000 claims abstract description 3
- 230000000694 effects Effects 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 14
- 238000000034 method Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 6
- 230000003213 activating effect Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000007423 decrease Effects 0.000 claims description 5
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000000926 separation method Methods 0.000 claims description 3
- 238000009795 derivation Methods 0.000 claims description 2
- 230000005484 gravity Effects 0.000 claims description 2
- 230000010365 information processing Effects 0.000 claims description 2
- 238000003672 processing method Methods 0.000 claims description 2
- 230000004913 activation Effects 0.000 abstract description 2
- 238000010801 machine learning Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 3
- 230000000692 anti-sense effect Effects 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明请求保护一种微博文本分类系统,具体包括以下模块:数据预处理模块:用python爬虫软件爬取微博博文信息和微博用户信息,清洗缺失的数据,并根据情感极性进行人工打标;词向量词性增强模块:通过word2vec构造微博博文信息的词向量,在原始词向量的基础上,根据情感词词典和程度副词词典增强词性信息;新特征构造模块:用于对微博用户信息进行特征提取工作,在原始特征的基础上构造出新的特征;分类模块:利用改进的textCNN模型,先通过卷积层和池化层学习词向量信息,再通过全连接层融入用户信息,最后用softmax函数激活,将微博文本分为积极、消极和中性三种类型。
Description
技术领域
本发明属于网络舆情领域,具体涉及一种用于网络的分类系统。
背景技术
随着互联网时代的到来,越来越多的民众通过互联网获取信息和发布信息。互联网已经成为民众对政府管理以及各种社会现象和问题表达态度、意见和情绪的平台。这使得网络聚集增多,网络平台也逐渐成为社会舆论新的中心点。与传统传播平台相比,社交网络中观点的交流与情感的传播更加活跃、影响范围更大,这些信息在被进一步的讨论和放大后,就容易造成网络空间群体性事件(简称网群事件)。因此,如果不加以管控,网群事件将造成比较严重的负面影响,比如网络舆论的爆发、不法分子的恶意引导、网络谣言的肆意传播,这严重破坏网络空间的健康与和谐。
微博文本分类主要分为基于词典的分类方法和基于机器学习的分类方法。基于词典的分类方法虽然简单,但是过于依赖语料库和规则语料库,语料库的质量决定了文本分类的效果。基于机器学习的分类方法总体的分类效果优于词典的分类方法。机器学习又进一步分为传统的机器学习和深度学习。传统的机器学习方法大多以统计学为基础,通过提取有效的特征训练分类器,得到最终的分类模型,模型的好坏很大程度上取决于特征的质量。因此,特征工程对于传统的机器学习算法尤为重要,但是文本表示的特征表达能力弱,且十分耗时耗力,成本很高。近年来,随着神经网络的发展,依赖上下文语义相似度的文本分类方法逐渐流行,但语义理解的程度对反义词存在很大的局限性,在文本分类中容易混淆。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种提高微博文本分类的准确率的分类系统。本发明的技术方案如下:
一种微博文本分类系统,其包括:数据预处理模块:用python爬虫软件爬取微博博文信息和微博用户信息,清洗缺失的数据,并根据情感极性进行人工打标;
词向量词性增强模块:通过word2vec构造微博博文信息的词向量,在原始词向量的基础上,根据情感词词典和程度副词词典增强词性信息;
新特征构造模块:用于对微博用户信息进行特征提取工作,在原始特征的基础上构造出用户活跃度和用户影响力两个新特征;
分类模块:利用改进的textCNN文本卷积神经网络模型,先通过卷积层和池化层学习词向量信息,再通过全连接层融入用户信息,最后用softmax函数激活,得到最终的分类结果。textCNN模型的改进主要在全连接层对语义特征和用户特征进行融合,使其在学习语义信息的同时还学习到用户信息。
进一步的,数据清洗和打标具体包括:
去除爬取的数据中包含缺失字段的样本,使每个样本都包含博文内容和用户的性别、发博时间、粉丝数、关注数、博文数、点赞数七个字段;
根据博文内容对每个样本的情感极性打标,其中0代表中性,1代表积极,2代表消极,为保证数据的多样性,打标的样本量大于等于10000条。
进一步的,所述词向量词性增强模块具体包括:
计算Hownet词典中所有情感词和程度副词的词向量T{t1,t1,t3,...,tn},ti表示词典中第i个词的词向量,n表示词典中所有情感词的数量,并利用语料库中的得分进行词性增强;
将词性增强后的情感词和程度副词替换原有的word2vec模型中的情感词和程度副词;
利用结巴对样本进行分词和去停用词的处理,通过训练好优化后的word2vec模型计算所有样本的词向量集合,由于微博客户端限制了博文的长度,因此每条微博的词汇量不会超过100,不足100的微博用0补齐。
进一步的,所述词向量词性增强模块根据情感词词典和程度副词词典增强词性信息,具体包括:
移动ti至ti′,ti′表示经过一次迭代后目标词的位置,使ti′距离Si的距离之和最小,为了预防所有目标词朝同一个方向移动,约束了ti的移动距离,其目标函数公式如下:
其中,dist表示两个向量的欧几里得距离,ti表示待增强词向量的初始位置位置,ti′表示经过一次增强后词向量的位置,参数α和β为权值系数,用于约束ti的移动距离和ti′与其最近的k个词的距离的比重,α越大表示ti′更接近其原始向量,相反,β越大表示ti′更接近Si,且有:
α+β=1
当α=1,β=0时目标词将不会移动。随着比值的减小,约束也逐渐减小,Ti′可以更接近Si;α=0,β=1意味着约束是失效的,两个词向量的距离为他们的欧几里得距离,其公式如下:
其中,p和q表示任意两个词的词向量,D为词向量的维度,最后,对目标函数求偏导得到ti′,更新原目标词向量ti,使得:
ti=ti′
迭代上述步骤,直至ti的移动距离收敛到某个阈值。
进一步的,所述新特征构造模块在微博用户特征提取中,需要提取用户活跃度、用户影响力、用户发博时间和用户性别。
进一步的,所述用户活跃度的计算步骤包括:
对用户累计博文数和用户关注数进行归一化处理,用户活跃度可表示为:
其中,factivation(u)为用户活跃度,upost表示用户主动发布的次数,urepost表示用户主转发的次数,uattention表示用户关注的人数,T为时间周期。
进一步的,所述用户影响力的计算步骤包括:
对用户粉丝数和其他用户对该条博文的点赞数进行归一化处理,用户影响力可表示为:
finfluence(u)=λ1ufans+λ2ulike+λ3uverified
其中,finfluence(u)表示用户影响力,ufans表示用户粉丝数,ulike表示用户被点赞数,uverified表示用户身份认证值,其计算公式如下:
λ1、λ2、λ3分别为用户粉丝数、用户被点赞数、用户身份认证值的权值。
进一步的,所述用户性别特征提取步骤包括:利用one_hot编码方式对性别特征进行编码,最终得到一个长度为二的向量。
进一步的,所述用户发博时间特征提取步骤包括:先对连续型时间数据进行分箱处理,再利用one_hot编码方式对时间特征进行编码,最终得到一个长度为七的向量。
进一步的,所述分类模块对模型训练的步骤包括:
将预先训练好的词向量集合W送入textCNN,分别用宽度为2、3、4的卷积核进行训练;
将卷积层的输出送入最大池化层,得到博文内容的知识表示;
将博文信息与用户特征拼接,利用交叉熵作为损失函数,放入全连接层训练;
用softmax函数激活,得到最终的训练结果。
本发明的优点及有益效果如下:
本发明在词向量词性增强模块、新特征构造模块和分类模块进行了创新。
(1)在词向量词性增强模块中,本发明通过引入Hownet情感词典对词性进行增强,区分出语境相似但语义相反的词。在传统的词向量训练中,多是通过单词在上下文中出现位置计算的,但是极性相反的词之间往往有着相似的使用习惯。例如‘好’和‘坏’两词在语义相反,但在使用上通常都用来形容某个名词,这使得传统的词向量难以区分两者的差别。本发明通过引入语料库作为先验知识,对原始词向量进行迭代更新,通过最小化目标词与同义词的距离、最大化目标词与反义词的距离,移动其在向量空间中的位置。最后,对目标词的移动范围进行约束,使其学习到更为完整的语义信息。
(2)在新特征构造模块中,本发明引入微博发出者的用户信息对文本分类的特征集进行补充,提高文本分类的效果。不同的社会群体在非正式的环境中用语习惯有着巨大差异,通过提取不同人群的语言习惯可提高微博文本分类的准确性。本发明通过用户的原始特征构造出用户活跃度和用户影响力两个复合特征,并利用离散化方法对用户性别进行编码,拼接得到最终的用户特征集。用户特征集能使分类模型充分地学习到用户群的用语习惯,区分不同群体中语言的差异性,并在一定程度上降低模型的过拟合。
(3)在分类模块中,本发明优化了textCNN(文本卷积神经网络)模型,使其能同时训练词向量特征和用户特征。传统的textCNN模型以嵌入层的二维词向量矩阵作为唯一输入,模型的训练仅依赖于词向量特征。本发明在全连接层处输入了用户特征,将其与卷积、池化后的词向量矩阵进行拼接,使模型同时可以学习两种不同形式不同维度的特征,提高了模型的分类效果。
附图说明
图1是本发明提供优选实施例提供微博文本分类的总体流程图;
图2是本发明提供情感词向量构造的流程图;
图3是本发明提供用户特征提取的流程图;
图4是本发明提供文本分类器构造的模型图;
图5是本发明提供优选实施例分类系统示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
图1示出根据本发明示例性实施例的针对微博情进行分类的总体流程图。这里,作为示例,所述方法可以作为计算机程序来执行,也可作为插件在其他程序中执行。
在步骤S10中,对数据进行采集和预处理。
作为示例,所述的采集方法是开发微博爬虫软件,通过设置待爬取事件名和发博时间,爬取目标微博的所有博文信息和博文所属用户信息。其中,博文信息为该条微博所包含的博文内容,用户信息包括用户的性别、发博时间、粉丝数、关注数、博文数、点赞数。
作为示例,所述的数据预处理包括数据清洗和数据打标两个阶段。在数据清洗阶段,去除爬取的数据中包含缺失字段的样本,使每个样本都包含完整的信息。在数据打标阶段。根据博文内容对每个样本的情感极性打标。其中0代表中性,1代表积极,2代表消极,为保证数据的多样性,打标的样本量大于等于10000条。
在步骤S20中,通过word2vec构造微博博文信息的词向量,在原始词向量的基础上,根据情感词词典和程度副词词典增强词性信息。
作为示例,利用结巴对样本进行分词和去停用词的处理,通过训练好优化后的word2vec模型计算所有样本的词向量集合,由于微博客户端限制了博文的长度,因此每条微博的词汇量不会超过100,不足100的微博用0补齐。
在步骤S30中,微博用户信息进行特征提取工作,在原始特征的基础上构造出新的特征。
在步骤S40中,利用改进的textCNN模型,先通过卷积层和池化层学习词向量信息,再通过全连接层融入用户信息,最后用softmax函数激活,得到最终的分类结果。
具体的,如图2所示,步骤S20包括:
步骤S21,利用训练好的word2vec模型计算Hownet词典中所有情感词和程度副词的原始词向量T{t1,t1,t3,...,tn},ti表示词典中第i个词的词向量;
步骤S24,移动ti至ti′,ti′表示经过一次迭代后目标词的位置,使ti′距离Si的距离之和最小,为了预防所有目标词朝同一个方向移动,约束了ti的移动距离,其目标函数公式如下:
其中,dist表示两个向量的欧几里得距离,ti表示待增强词向量的初始位置位置,ti′表示经过一次增强后词向量的位置,参数α和β为权值系数,用于约束ti的移动距离和ti′与其最近的k个词的距离的比重。α越大表示ti′更接近其原始向量,相反,β越大表示ti′更接近Si,且有:
α+β=1
当α=1,β=0时目标词将不会移动。随着比值的减小,约束也逐渐减小,Ti′可以更接近Si。α=0,β=1意味着约束是失效的。两个词向量的距离为他们的欧几里得距离。其公式如下:
其中,p和q表示任意两个词的词向量,D为词向量的维度。最后,对目标函数求偏导得到ti′,其计算公式如下:
更新原目标词向量ti,使得:
ti=ti′
迭代上述步骤,直至ti的移动距离收敛到某个阈值。
具体的,如图3所示,步骤S30包括:
步骤S31,提取用户属性特征和用户行为特征,对用户的粉丝数、关注数、博文数和点赞数进行归一化处理。由于数据没有明确边界且可能存在极端数据值,本发明采用均值方差归一化。其计算公式如下:
xscale表示归一化后的数据,x表示原始数据,xmean表示所有样本中该列数据的均值,s表示所有样本中该列数据的方差。
步骤S32,在提取的用户特征的基础上,构造用户活跃度、用户影响力两个复合特征。
具体的,用户活跃度特征的计算步骤包括:
对用户累计博文数和用户关注数进行归一化处理,用户活跃度可表示为:
其中,factivation(u)为用户活跃度,upost表示用户主动发布的次数,urepost表示用户主转发的次数,uattention表示用户关注的人数,T为时间周期。
具体的,用户影响力的计算步骤包括:
对用户粉丝数和其他用户对该条博文的点赞数进行归一化处理,用户影响力可表示为:
用户影响力可表示为:
finfluence(u)=λ1ufans+λ2ulike+λ3uverified
其中,finfluence(u)表示用户影响力,ufans表示用户粉丝数,ulike表示用户被点赞数,uverified表示用户身份认证值,其计算公式如下:
λ1、λ2、λ3分别为用户粉丝数、用户被点赞数、用户身份认证值的权值。
步骤S33,将用户性别和用户发博时间编码。
具体的,用户性别特征提取步骤包括:
利用one_hot编码方式对性别特征进行编码,最终得到一个长度为二的向量,其公式如下:
具体的,用户发博时间特征提取步骤包括:
对连续型时间数据进行分箱处理,将时间分为凌晨、早晨、上午、中午、下午、晚上、深夜七个时段,再利用one_hot编码方式对时间特征进行编码,最终得到一个长度为七的向量。
具体的,如图4所示:
将预先训练好的词向量集合W送入textCNN,分别用宽度为2、3、4的卷积核进行训练;
将卷积层的输出送入最大池化层,得到博文内容的知识表示;
将博文信息与用户特征拼接,利用交叉熵作为损失函数,放入全连接层训练;
用softmax函数激活,得到最终的训练结果。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。
Claims (10)
1.一种微博文本分类系统,其特征在于,包括:
数据预处理模块:用python爬虫软件爬取微博博文信息和微博用户信息,清洗缺失的数据,并根据情感极性进行人工打标;
词向量词性增强模块:通过word2vec构造微博博文信息的词向量,在原始词向量的基础上,根据情感词词典和程度副词词典增强词性信息;
新特征构造模块:用于对微博用户信息进行特征提取工作,在原始特征的基础上构造出用户活跃度和用户影响力两个新特征;
分类模块:利用改进的textCNN卷积神经网络模型,先通过卷积层和池化层学习词向量信息,再通过全连接层融入用户信息,最后用softmax函数激活,得到最终的分类结果。textCNN模型的改进主要在全连接层对语义特征和用户特征进行融合,使其在学习语义信息的同时还学习到用户信息。
2.根据权利要求1所述的一种微博文本分类系统,其特征在于,所述数据预处理模块中,数据清洗和打标具体包括:
去除爬取的数据中包含缺失字段的样本,使每个样本都包含博文内容和用户的性别、发博时间、粉丝数、关注数、博文数、点赞数七个字段;
根据博文内容对每个样本的情感极性打标,其中0代表中性,1代表积极,2代表消极,为保证数据的多样性,打标的样本量大于等于10000条。
3.根据权利要求1所述的一种微博文本分类系统,其特征在于,所述词向量词性增强模块具体包括:
计算Hownet词典中所有情感词和程度副词的词向量T{t1,t1,t3,...,tn},ti表示词典中第i个词的词向量,n表示词典中所有情感词的数量,并利用语料库中的得分进行词性增强;
将词性增强后的情感词和程度副词替换原有的word2vec模型中的情感词和程度副词;
利用结巴对样本进行分词和去停用词的处理,通过训练好优化后的word2vec模型计算所有样本的词向量集合,由于微博客户端限制了博文的长度,因此每条微博的词汇量不会超过100,不足100的微博用0补齐。
4.根据权利要求3所述的一种微博文本分类系统,其特征在于,所述词向量词性增强模块根据情感词词典和程度副词词典增强词性信息,具体包括:
移动ti至ti′,ti′表示经过一次迭代后目标词的位置,使ti′距离Si的距离之和最小,为了预防所有目标词朝同一个方向移动,约束了ti的移动距离,其目标函数公式如下:
其中,dist表示两个向量的欧几里得距离,ti表示待增强词向量的初始位置位置,ti′表示经过一次增强后词向量的位置,参数α和β为权值系数,用于约束ti的移动距离和ti′与其最近的k个词的距离的比重,α越大表示ti′更接近其原始向量,相反,β越大表示ti′更接近Si,且有:
α+β=1
当α=1,β=0时目标词将不会移动。随着比值的减小,约束也逐渐减小,Ti′可以更接近Si;α=0,β=1意味着约束是失效的,两个词向量的距离为他们的欧几里得距离,其公式如下:
ti=ti′
迭代上述步骤,直至ti的移动距离收敛到某个阈值。
5.根据权利要求4所述的一种微博文本分类系统,其特征在于,所述新特征构造模块在微博用户特征提取中,需要提取用户活跃度、用户影响力、用户发博时间和用户性别。
8.根据权利要求书5所述的微博文本分类系统,其特征在于,所述用户性别特征提取步骤包括:利用one_hot编码方式对性别特征进行编码,最终得到一个长度为二的向量。
9.根据权利要求书5所述的微博文本分类系统,其特征在于,所述用户发博时间特征提取步骤包括:先对连续型时间数据进行分箱处理,再利用one_hot编码方式对时间特征进行编码,最终得到一个长度为七的向量。
10.根据权利要求书5所述的微博文本分类系统,其特征在于,所述分类模块对模型训练的步骤包括:
将预先训练好的词向量集合W送入textCNN,分别用宽度为2、3、4的卷积核进行训练;
将卷积层的输出送入最大池化层,得到博文内容的知识表示;
将博文信息与用户特征拼接,利用交叉熵作为损失函数,放入全连接层训练;
用softmax函数激活,得到最终的训练结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911197204.8A CN110909167B (zh) | 2019-11-29 | 2019-11-29 | 一种微博文本分类系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911197204.8A CN110909167B (zh) | 2019-11-29 | 2019-11-29 | 一种微博文本分类系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110909167A true CN110909167A (zh) | 2020-03-24 |
CN110909167B CN110909167B (zh) | 2022-07-01 |
Family
ID=69820470
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911197204.8A Active CN110909167B (zh) | 2019-11-29 | 2019-11-29 | 一种微博文本分类系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110909167B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111797238A (zh) * | 2020-07-23 | 2020-10-20 | 深圳壹账通智能科技有限公司 | Ugc质量的监控方法、装置、终端设备及存储介质 |
CN114298427A (zh) * | 2021-12-30 | 2022-04-08 | 北京金堤科技有限公司 | 企业属性数据预测方法、装置、电子设备及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106599933A (zh) * | 2016-12-26 | 2017-04-26 | 哈尔滨工业大学 | 一种基于联合深度学习模型的文本情感分类方法 |
CN107590134A (zh) * | 2017-10-26 | 2018-01-16 | 福建亿榕信息技术有限公司 | 文本情感分类方法、存储介质及计算机 |
CN108038205A (zh) * | 2017-12-15 | 2018-05-15 | 福州大学 | 针对中文微博的观点分析原型系统 |
CN108427670A (zh) * | 2018-04-08 | 2018-08-21 | 重庆邮电大学 | 一种基于语境词向量和深度学习的情感分析方法 |
CN109933795A (zh) * | 2019-03-19 | 2019-06-25 | 上海交通大学 | 基于上下文-情感词向量的文本情感分析系统 |
CN109977413A (zh) * | 2019-03-29 | 2019-07-05 | 南京邮电大学 | 一种基于改进cnn-lda的情感分析方法 |
CN110134934A (zh) * | 2018-02-02 | 2019-08-16 | 普天信息技术有限公司 | 文本情感分析方法和装置 |
US10423773B1 (en) * | 2019-04-12 | 2019-09-24 | Coupang, Corp. | Computerized systems and methods for determining authenticity using micro expressions |
CN110362819A (zh) * | 2019-06-14 | 2019-10-22 | 中电万维信息技术有限责任公司 | 基于卷积神经网络的文本情感分析方法 |
-
2019
- 2019-11-29 CN CN201911197204.8A patent/CN110909167B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106599933A (zh) * | 2016-12-26 | 2017-04-26 | 哈尔滨工业大学 | 一种基于联合深度学习模型的文本情感分类方法 |
CN107590134A (zh) * | 2017-10-26 | 2018-01-16 | 福建亿榕信息技术有限公司 | 文本情感分类方法、存储介质及计算机 |
CN108038205A (zh) * | 2017-12-15 | 2018-05-15 | 福州大学 | 针对中文微博的观点分析原型系统 |
CN110134934A (zh) * | 2018-02-02 | 2019-08-16 | 普天信息技术有限公司 | 文本情感分析方法和装置 |
CN108427670A (zh) * | 2018-04-08 | 2018-08-21 | 重庆邮电大学 | 一种基于语境词向量和深度学习的情感分析方法 |
CN109933795A (zh) * | 2019-03-19 | 2019-06-25 | 上海交通大学 | 基于上下文-情感词向量的文本情感分析系统 |
CN109977413A (zh) * | 2019-03-29 | 2019-07-05 | 南京邮电大学 | 一种基于改进cnn-lda的情感分析方法 |
US10423773B1 (en) * | 2019-04-12 | 2019-09-24 | Coupang, Corp. | Computerized systems and methods for determining authenticity using micro expressions |
CN110362819A (zh) * | 2019-06-14 | 2019-10-22 | 中电万维信息技术有限责任公司 | 基于卷积神经网络的文本情感分析方法 |
Non-Patent Citations (4)
Title |
---|
QINLU ZHAO 等: "Commented content classification with deep neural network based on attention mechanism", 《2017 IEEE 2ND ADVANCED INFORMATION TECHNOLOGY, ELECTRONIC AND AUTOMATION CONTROL CONFERENCE (IAEAC)》, 2 October 2017 (2017-10-02), pages 2016 - 2019 * |
Y WU 等: "Weibo Sentiment Classification Based on Two Channels Text Convolution Neural Network with Multi-Feature", 《2020 INTERNATIONAL CONFERENCE ON CYBER-ENABLED DISTRIBUTED COMPUTING AND KNOWLEDGE DISCOVERY(CYBERC)》, 1 October 2020 (2020-10-01), pages 1 - 10 * |
凌海彬 等: "多特征融合的图文微博情感分析", 《计算机应用研究》, vol. 37, no. 7, 6 June 2019 (2019-06-06), pages 1935 - 1939 * |
赵珍妮: "微博用户情感演化及网络事件相关性分析", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》, no. 02, 15 February 2021 (2021-02-15), pages 138 - 2650 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111797238A (zh) * | 2020-07-23 | 2020-10-20 | 深圳壹账通智能科技有限公司 | Ugc质量的监控方法、装置、终端设备及存储介质 |
CN114298427A (zh) * | 2021-12-30 | 2022-04-08 | 北京金堤科技有限公司 | 企业属性数据预测方法、装置、电子设备及存储介质 |
CN114298427B (zh) * | 2021-12-30 | 2024-04-19 | 北京金堤科技有限公司 | 企业属性数据预测方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110909167B (zh) | 2022-07-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111368996B (zh) | 可传递自然语言表示的重新训练投影网络 | |
CN109492157B (zh) | 基于rnn、注意力机制的新闻推荐方法及主题表征方法 | |
Agrawal | Clickbait detection using deep learning | |
CN109933664B (zh) | 一种基于情感词嵌入的细粒度情绪分析改进方法 | |
CN107133213B (zh) | 一种基于算法的文本摘要自动提取方法与系统 | |
Liu et al. | Content-oriented user modeling for personalized response ranking in chatbots | |
CN107025299B (zh) | 一种基于加权lda主题模型的金融舆情感知方法 | |
CN111767725B (zh) | 一种基于情感极性分析模型的数据处理方法及装置 | |
CN107122455A (zh) | 一种基于微博的网络用户增强表示方法 | |
CN106202053B (zh) | 一种社交关系驱动的微博主题情感分析方法 | |
CN110134788B (zh) | 一种基于文本挖掘的微博发布优化方法及系统 | |
CN113553510B (zh) | 一种文本信息推荐方法、装置及可读介质 | |
CN111126067B (zh) | 实体关系抽取方法及装置 | |
Kavitha et al. | Chatbot for healthcare system using Artificial Intelligence | |
CN110909167B (zh) | 一种微博文本分类系统 | |
CN111460146A (zh) | 一种基于多特征融合的短文本分类方法及系统 | |
CN110297986A (zh) | 一种微博热点话题的情感倾向分析方法 | |
CN111221964B (zh) | 一种不同分面观点演化趋势引导的文本生成方法 | |
Chakraborty et al. | Sentiment analysis of Bengali facebook data using classical and deep learning approaches | |
CN113934835B (zh) | 结合关键词和语义理解表征的检索式回复对话方法及系统 | |
CN115934951A (zh) | 一种网络热点话题用户情绪预测方法 | |
Jia et al. | Attention in character-based BiLSTM-CRF for Chinese named entity recognition | |
CN113741759B (zh) | 评论信息的展示方法、装置、计算机设备和存储介质 | |
Huang et al. | Contribution of improved character embedding and latent posting styles to authorship attribution of short texts | |
Ahuja et al. | Fusion of semantic, visual and network information for detection of misinformation on social media |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |