CN108038205B - 针对中文微博的观点分析原型系统 - Google Patents

针对中文微博的观点分析原型系统 Download PDF

Info

Publication number
CN108038205B
CN108038205B CN201711344068.1A CN201711344068A CN108038205B CN 108038205 B CN108038205 B CN 108038205B CN 201711344068 A CN201711344068 A CN 201711344068A CN 108038205 B CN108038205 B CN 108038205B
Authority
CN
China
Prior art keywords
text
microblog
chinese
viewpoint
consistency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711344068.1A
Other languages
English (en)
Other versions
CN108038205A (zh
Inventor
廖祥文
陈国龙
张丽瑶
杨定达
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN201711344068.1A priority Critical patent/CN108038205B/zh
Publication of CN108038205A publication Critical patent/CN108038205A/zh
Application granted granted Critical
Publication of CN108038205B publication Critical patent/CN108038205B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Business, Economics & Management (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种针对中文微博的观点分析原型系统。包括:一中文微博数据预处理模块,用于将不同用户在不同话题下发表的微博及其评论文本进行对话序列级联、中文分词,得到词向量字典;一一致性挖掘模块,对用户‑观点、话题‑观点、用户‑文本和话题‑文本之间的一致性构建抽象向量,从全局的角度刻画中文微博的特征,利用四者之间的相互联系挖掘出隐含的文本语义和观点信息;一特征抽取模块,基于上下文和卷积神经网络模型从局部和全局的角度抽取出不同类型的特征,并根据误差不断更新参数;一分类结果输出模块,用分类函数得到最终的观点分析结果。本发明能够自动抽取出有效特征,并对特征进行抽象和组合,最终识别出中文微博的不同观点类别。

Description

针对中文微博的观点分析原型系统
技术领域
本发明涉及情感分析和观点挖掘领域,更具体地,涉及一种针对中文微博的观点分析原型系统,能够较好地进行观点类别的分析且通用性强,能应用于中文微博帖子和评论。
背景技术
当前,有很多技术方法可用于中文微博的观点分析。传统的文本观点分析方法主要分为基于词典和规则、基于机器学习等两大类。第一类方法需要事先获得与情感表达有关的词典,这些词典因语言和类型的不同而不同,然后分析所有出现的情感词的得分,并根据总的分值进行类别判定。这种方法比较粗糙,忽略了一词多义的现象,所以学者们引入了句法分析和语法规则进行更加精细的分析,但规则库或模式库的建立比较复杂,需要对大量语料进行分析和总结,且分析过程比较耗时。第二类方法分为有监督和无监督的,它们将数据分为训练集和测试集,在完成特征抽取和特征加权后,对训练数据加以学习,得到数学模型,进而预测待分类文本所属的类别。有监督方法准确度较高,但需要大量的人工标注,且和标注人员的主观意志有很大关系,而无监督方法节约人力,但准确度较低且受到基准词典的影响较大。
当前,存在着不同的文本表示模型,包括基于集合论的布尔模型、基于代数论的向量空间模型、基于概率统计的检索模型、N元语法模型和词向量模型。布尔模型简单直观,效果也不错,但存在“维数灾难”和“词汇鸿沟”的隐患;向量空间模型有一定的灵活性,效果也比较明显,但其独立性假设忽略了词之间的语义关联;基于概率统计的模型需要事先估计参数;词向量模型基于语言模型,将词转换成向量的形式,被广泛地用于词向量的初始化。
当前,还存在着不同的上下文信息的利用方式。对于中文微博而言,可分为内容上下文(content context)、结构上下文(structure context)和使用上下文。内容上下文指的是微博文本中词语、句子或段落间的前后关系,结构上下文指的是微博文本与话题、事件、人物等的隐含语义关系以及与图片、链接、视频的关联关系,使用上下文主要包括不同用户间的交互关系(如点赞、评论、回复、转发等)和用户操作记录。它们蕴含了大量的语义信息,既是一种知识,又是理解文本内容的重要线索。
然而,无论是基于词典和规则的方法还是基于机器学习的方法,都需要人工构造大量的特征,特征的迁移性较差,但对分类效果的影响非常大。近年来,随着深度学习被引入到自然语言处理领域,词向量和神经网络模型的研究受到了大量的关注,并在观点分析领域中取得了一系列突破性的成果。深度学习主要有以下4种模型:词袋模型、基于循环神经网络的序列模型、基于拓扑结构的递归神经网络、卷积神经网络。神经网络模型能够自动抽取出有效的特征,在英文领域已有大量的研究和应用,但用于中文微博观点分析的工作并不多,仍有很大的探索空间。
目前的中文微博观点分析方法大部分借鉴传统的文本分析方法,普遍存在数据稀疏问题,很大程度上受限于规则和特征的选择。此外,这些方法未充分利用中文微博的特点,无法有效地挖掘出潜在的观点信息。随着社交网络的日益普及和生活化,中文微博用户多、信息量大、更新速度快、涉及范围广,具有极高的研究和应用价值,需要通过数据挖掘和观点分析技术来发现其中的有用信息,以用于舆情监控、用户决策、市场分析和舆论引导等,这就对中文微博观点分析技术提出了一个挑战:如何构建一个有效的观点分析原型系统来满足其需要。因此,人们迫切希望有一种准确高效的中文微博观点分析方法,该方法能够自动抽取出有效特征,并对特征进行抽象和组合,最终识别出中文微博的不同观点类别。
发明内容
本发明的目的在于提供一种针对中文微博的观点分析原型系统,能够自动抽取出有效特征,并对特征进行抽象和组合,最终识别出中文微博的不同观点类别。
为实现上述目的,本发明的技术方案是:一种针对中文微博的观点分析原型系统,包括:
一中文微博数据预处理模块,用于将不同用户在不同话题下发表的微博及其评论文本进行对话序列级联、中文分词,得到词向量字典;
一一致性挖掘模块,对用户-观点、话题-观点、用户-文本和话题-文本之间的一致性构建抽象向量,从全局的角度刻画中文微博的特征,利用四者之间的相互联系挖掘出隐含的文本语义和观点信息;
一特征抽取模块,基于上下文和卷积神经网络模型从局部和全局的角度抽取出不同类型的特征,并根据误差不断更新参数;
一分类结果输出模块,用分类函数得到最终的观点分析结果。
优选的,所述中文微博数据预处理模块中的对话序列级联操作利用交互上下文,将当前微博与原始微博和上一级微博级联,以扩充不同主题下的微博内容。
优选的,所述中文微博数据预处理模块中的词向量字典借助Google开源的word2vec工具对训练数据集训练得到。
优选的,所述一致性挖掘模块考虑了除中文微博文本以外的用户和话题两个因素对微博的文本表达和观点表达的影响,构建了分别表征用户和话题的矩阵、向量。
优选的,所述卷积神经网络模型包括卷积层和池化层,分别从局部和全局进行特征抽取。
优选的,所述卷积层利用过滤器的局部感受域和权值共享,将指定窗口内的文本信息进行处理和映射,实现特征的抽象化,其形式为
Figure DEST_PATH_IMAGE002
,每一维上的数值
Figure DEST_PATH_IMAGE004
代表该微博隐含的某种情感特征。
优选的,所述池化层采用最大池化对卷积层得到的特征进行筛选,从全局角度进一步选出最能代表微博所包含的观点信息的特征。
优选的,所述卷积神经网络模型还包括若干个全连接层和向量拼接,将卷积神经网络模型得到的特征进一步抽象化,并将文本特征和用户、话题特征进行融合,得到最终的中文微博文本向量。
优选的,所述分类结果输出模块采用softmax函数对所得到的中文微博文本向量处理,预测各微博的观点类别。
优选的,在所述分类结果输出模块的模型训练阶段,词向量和权重矩阵都是参数,根据信息的前向传播和误差的后向传播将不断地对他们进行调整,逐步优化目标函数。
相较于现有技术,本发明具有以下有益效果:本发明能够自动抽取出有效特征,并对特征进行抽象和组合,最终识别出中文微博的不同观点类别。
附图说明
图1为本发明在中文微博所采用的观点分析原型系统的示意配置图。
具体实施方式
下面结合附图,对本发明的技术方案进行具体说明。
本发明的一种针对中文微博的观点分析原型系统,包括:
一中文微博数据预处理模块,用于将不同用户在不同话题下发表的微博及其评论文本进行对话序列级联、中文分词,得到词向量字典;
一一致性挖掘模块,对用户-观点、话题-观点、用户-文本和话题-文本之间的一致性构建抽象向量,从全局的角度刻画中文微博的特征,利用四者之间的相互联系挖掘出隐含的文本语义和观点信息;
一特征抽取模块,基于上下文和卷积神经网络模型从局部和全局的角度抽取出不同类型的特征,并根据误差不断更新参数;
一分类结果输出模块,用分类函数得到最终的观点分析结果。
所述中文微博数据预处理模块中的对话序列级联操作利用交互上下文,将当前微博与原始微博和上一级微博级联,以扩充不同主题下的微博内容。所述中文微博数据预处理模块中的词向量字典借助Google开源的word2vec工具对训练数据集训练得到。
所述一致性挖掘模块考虑了除中文微博文本以外的用户和话题两个因素对微博的文本表达和观点表达的影响,构建了分别表征用户和话题的矩阵、向量。
所述卷积神经网络模型包括卷积层和池化层,分别从局部和全局进行特征抽取。所述卷积层利用过滤器的局部感受域和权值共享,将指定窗口内的文本信息进行处理和映射,实现特征的抽象化,其形式为
Figure 111798DEST_PATH_IMAGE002
,每一维上的数值
Figure 91255DEST_PATH_IMAGE004
代表该微博隐含的某种情感特征。所述池化层采用最大池化对卷积层得到的特征进行筛选,从全局角度进一步选出最能代表微博所包含的观点信息的特征。所述卷积神经网络模型还包括若干个全连接层和向量拼接,将卷积神经网络模型得到的特征进一步抽象化,并将文本特征和用户、话题特征进行融合,得到最终的中文微博文本向量。
所述分类结果输出模块采用softmax函数对所得到的中文微博文本向量处理,预测各微博的观点类别。在所述分类结果输出模块的模型训练阶段,词向量和权重矩阵都是参数,根据信息的前向传播和误差的后向传播将不断地对他们进行调整,逐步优化目标函数。
以下为本发明的具体实施例。
如图1所示,根据本发明实施例在中文微博所采用的观点分析原型系统包括:数据预处理模块1,用于对话序列级联、中文分词,得到词向量字典;一致性挖掘模块2,对用户-观点、话题-观点、用户-文本和话题-文本之间的一致性构建抽象向量,挖掘出隐含的文本语义和观点信息;特征抽取模块3,基于上下文和卷积神经网络模型从局部和全局的角度抽取出不同类型的特征,并不断更新参数;分类结果输出模块4,用于观点分析结果的输出。下面分别详细描述各模块的配置。
1)数据预处理模块1
首先,描述数据预处理模块1如何将不同用户在不同话题下发表的微博及其评论文本进行对话序列级联、中文分词,并得到词向量字典。
因为神经网络的输入数据一般是向量,以便模型的端到端训练,因此需要首先对文本数据进行向量化表示。为了便于数据的处理和分析,在本发明的数据预处理模块,我们根据采集得到的原始微博数据集的对话序列,将当前微博与原始微博和上一级微博的文本进行级联,然后采用ICTCLAS工具实现分词操作,且不过滤停用词。预处理后输出两个文件,即微博词序列和词向量字典,通过查表即可将中文微博数据从文本形式转换成向量形式。
2)一致性挖掘模块2
下面描述一致性挖掘模块2是如何从用户和话题的角度出发刻画中文微博的全局特征的。主要思想是用伪矩阵分别表示用户-文本关系信息和话题-文本关系信息,通过矩阵-向量乘法与词向量融合,并用伪向量分别表示用户-观点关系信息和话题-观点关系信息,通过向量拼接与经过特征抽取后的中文微博数据融合,经过多次参数优化后得到最终的中文微博文本向量。
本发明定义了以下四个与用户和话题相关的概念:
①用户-观点一致性:用户发表的微博或评论与自身性格有很大的关系,某一用户可能倾向于发表积极或者消极的帖子。因此,同一用户或者相似度较大的同类用户所发表的微博所表达的观点很可能具有较大的相似度。
②话题-观点一致性:微博话题本身可能倾向于拥有某一种极性的帖子,因此,同一话题下的帖子所表达的情感很可能具有较大的相似度。
③用户-文本一致性:每个用户有自己的词汇理解和语言表达习惯,同一个词被使用时可能表达了不同意思,同一观点可能有很多表达方式。
④话题-文本一致性:不同话题有自身的特色,各自的语言结构、用词、表达风格等很可能存在不同。
对于用户-文本一致性和话题-文本一致性,采用向量组合的思想进行建模。具体地,对于用户
Figure DEST_PATH_IMAGE006
发表的关于主题
Figure DEST_PATH_IMAGE008
的一条微博或者评论
Figure DEST_PATH_IMAGE010
,用两个实数矩阵
Figure DEST_PATH_IMAGE012
Figure DEST_PATH_IMAGE014
分别表示用户
Figure 431844DEST_PATH_IMAGE006
和话题
Figure 686108DEST_PATH_IMAGE008
,其中
Figure DEST_PATH_IMAGE016
为词向量长度,
Figure DEST_PATH_IMAGE018
Figure DEST_PATH_IMAGE020
为各部分输出向量的长度。然后用矩阵-向量乘法将它们与原有的词向量进行语义组合,分别得到含有用户信息和话题信息的词向量。最后,将两个向量进行连接,即得到融合了用户-文本一致性和话题-文本一致性的词向量,作为特征抽取模块的输入。
对于用户-观点一致性和话题-观点一致性,把它们分别抽象为实数型向量
Figure DEST_PATH_IMAGE022
Figure DEST_PATH_IMAGE024
Figure DEST_PATH_IMAGE026
Figure DEST_PATH_IMAGE028
分别为两个向量的长度,然后将它们与特征抽取模块的输出进行拼接,得到中文微博文本的最终表示,作为分类结果输出模块的输入。
3)特征抽取模块3
下面描述特征抽取模块3是如何将上一模块得到的数据进行特征抽取的。此模块由卷积层和池化层两个部分组成。卷积层的核心是过滤器,不同过滤器在不同范围内对局部信息进行组合,从而挖掘中文微博数据中不同类型的特征。每个卷积层有一个固定大小的滑动窗口,每次只处理窗口内的信息,利用过滤器的局部感受域和权值共享,使它们被抽象成若干个特征向量,其形式均为
Figure 936698DEST_PATH_IMAGE002
,每一维上的数值
Figure 555899DEST_PATH_IMAGE004
代表该微博隐含的某种情感特征。此后,比较有利于微博观点分类的特征已凸显出来,在此基础上,我们用最大池化从全局角度对以上特征进行筛选,进一步选出最能代表微博所包含的观点信息的特征,对于输入的微博特征向量c,其具体计算为
Figure DEST_PATH_IMAGE030
。为了将特征进一步抽象以挖掘更深层次的语义,我们在池化层后设置2个全连接映射层,得到初始文本向量,然后将其与一致性挖掘模块的输出进行拼接,得到中文微博文本的最终表示,作为分类结果输出模块的输入。
4)分类结果输出模块4
最后,将描述分类结果输出模块4。将模块1)和2)的输出向量进行拼接后得到了最终的中文微博文本向量,分类结果输出模块利用softmax分类函数对所得向量逐一计算,根据设定的阈值得到该微博所属的观点类别预测值。在训练阶段,需要将预测值与目标值求误差,并利用随机梯度下降法和后向传播对整个系统的参数进行迭代更新;否则,只需将得到的预测值输出即可。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。

Claims (10)

1.一种针对中文微博的观点分析原型系统,其特征在于:包括:
一中文微博数据预处理模块,用于将不同用户在不同话题下发表的微博及其评论文本进行对话序列级联、中文分词,得到词向量字典;
一一致性挖掘模块,对用户-观点、话题-观点、用户-文本和话题-文本之间的一致性构建抽象向量,从全局的角度刻画中文微博的特征,利用四者之间的相互联系挖掘出隐含的文本语义和观点信息;
对于用户-文本一致性和话题-文本一致性,采用向量组合的思想进行建模:具体地,对于用户i发表的关于主题j的一条微博或者评论dk,用两个实数矩阵
Figure FDA0003294396950000011
分别表示用户i和话题j,其中d为词向量长度,dU和dZ为各部分输出向量的长度;然后用矩阵-向量乘法将它们与原有的词向量进行语义组合,分别得到含有用户信息和话题信息的词向量;最后,将两个向量进行连接,即得到融合用户-文本一致性和话题-文本一致性的词向量,作为特征抽取模块的输入;
对于用户-观点一致性和话题-观点一致性,把它们分别抽象为实数型向量
Figure FDA0003294396950000012
Figure FDA0003294396950000013
du和dz分别为两个向量的长度,然后将它们与特征抽取模块的输出进行拼接,得到中文微博文本的最终表示,作为分类结果输出模块的输入;
一特征抽取模块,基于上下文和卷积神经网络模型从局部和全局的角度抽取出不同类型的特征,并根据误差不断更新参数;
一分类结果输出模块,用分类函数得到最终的观点分析结果。
2.根据权利要求1所述的系统,其特征在于:所述中文微博数据预处理模块中的对话序列级联操作利用交互上下文,将当前微博与原始微博和上一级微博级联,以扩充不同主题下的微博内容。
3.根据权利要求1所述的系统,其特征在于:所述中文微博数据预处理模块中的词向量字典借助Google开源的word2vec工具对训练数据集训练得到。
4.根据权利要求1所述的系统,其特征在于:所述一致性挖掘模块考虑了除中文微博文本以外的用户和话题两个因素对微博的文本表达和观点表达的影响,构建了分别表征用户和话题的矩阵、向量。
5.根据权利要求1所述的系统,其特征在于:所述卷积神经网络模型包括卷积层和池化层,分别从局部和全局进行特征抽取。
6.根据权利要求5所述的系统,其特征在于:所述卷积层利用过滤器的局部感受域和权值共享,将指定窗口内的文本信息进行处理和映射,实现特征的抽象化,其形式为c=[c1,c2,...,cn-rs+1],每一维上的数值ci代表该微博隐含的某种情感特征。
7.根据权利要求5所述的系统,其特征在于:所述池化层采用最大池化对卷积层得到的特征进行筛选,从全局角度进一步选出最能代表微博所包含的观点信息的特征。
8.根据权利要求5所述的系统,其特征在于:所述卷积神经网络模型还包括若干个全连接层和向量拼接,将卷积神经网络模型得到的特征进一步抽象化,并将文本特征和用户、话题特征进行融合,得到最终的中文微博文本向量。
9.根据权利要求1所述的系统,其特征在于:所述分类结果输出模块采用softmax函数对所得到的中文微博文本向量处理,预测各微博的观点类别。
10.根据权利要求1或9所述的系统,其特征在于:在所述分类结果输出模块的模型训练阶段,词向量和权重矩阵都是参数,根据信息的前向传播和误差的后向传播将不断地对他们进行调整,逐步优化目标函数。
CN201711344068.1A 2017-12-15 2017-12-15 针对中文微博的观点分析原型系统 Active CN108038205B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711344068.1A CN108038205B (zh) 2017-12-15 2017-12-15 针对中文微博的观点分析原型系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711344068.1A CN108038205B (zh) 2017-12-15 2017-12-15 针对中文微博的观点分析原型系统

Publications (2)

Publication Number Publication Date
CN108038205A CN108038205A (zh) 2018-05-15
CN108038205B true CN108038205B (zh) 2021-12-21

Family

ID=62103386

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711344068.1A Active CN108038205B (zh) 2017-12-15 2017-12-15 针对中文微博的观点分析原型系统

Country Status (1)

Country Link
CN (1) CN108038205B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108595717A (zh) * 2018-05-18 2018-09-28 北京慧闻科技发展有限公司 用于文本分类的数据处理方法、数据处理装置和电子设备
CN108763384A (zh) * 2018-05-18 2018-11-06 北京慧闻科技发展有限公司 用于文本分类的数据处理方法、数据处理装置和电子设备
CN110727758B (zh) * 2018-06-28 2023-07-18 郑州芯兰德网络科技有限公司 一种基于多长度文本向量拼接的舆情分析方法及其系统
CN110059190A (zh) * 2019-04-18 2019-07-26 东南大学 一种基于社交媒体内容和结构的用户实时观点检测方法
CN110188158B (zh) * 2019-05-06 2022-12-27 腾讯科技(深圳)有限公司 关键词及话题标签生成方法、装置、介质及电子设备
CN110209815A (zh) * 2019-05-23 2019-09-06 国家计算机网络与信息安全管理中心 一种卷积神经网络的新闻用户兴趣挖掘方法
CN110909167B (zh) * 2019-11-29 2022-07-01 重庆邮电大学 一种微博文本分类系统
CN111160037B (zh) * 2019-12-02 2021-10-26 广州大学 一种支持跨语言迁移的细粒度情感分析方法
CN111639484A (zh) * 2020-05-15 2020-09-08 北京青牛技术股份有限公司 坐席通话内容的分析方法
CN111797197B (zh) * 2020-06-04 2021-03-26 南京擎盾信息科技有限公司 舆情分析的方法及装置
CN111985247B (zh) * 2020-08-31 2022-08-26 华侨大学 一种基于多粒度文本特征表示的微博用户兴趣识别方法和系统
CN114970556A (zh) * 2022-04-18 2022-08-30 中国科学院空天信息创新研究院 立场分析模型训练方法、立场分析方法、装置及设备
CN117453916A (zh) * 2023-10-26 2024-01-26 重庆邮电大学 一种基于大数据的微博异常用户检测方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101901230A (zh) * 2009-05-31 2010-12-01 国际商业机器公司 信息检索方法和用户评论处理方法及其系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140337328A1 (en) * 2013-05-09 2014-11-13 Veooz Labs Private Limited System and method for retrieving and presenting concept centric information in social media networks

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101901230A (zh) * 2009-05-31 2010-12-01 国际商业机器公司 信息检索方法和用户评论处理方法及其系统

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
Composition in Distributional Models of Semantics;Mitchell J et al;《Cognitive Science A Multidisciplinary Journal》;20101231;第34卷(第8期);第1388-1429页 *
Hidden Topic Sentiment Model;Md Mustafizur Rahman et al;《Proceedings of the 25th International Conference on World Wide Web》;20160430;第155-165页 *
Sentiment Analysis of Microblog text based on joint sentiment-topic model;Hui Zhang et al;《2014 IEEE 3rd International Conference on Cloud Computing and Intelligence Systems》;20150806;第46-54页 *
User-sentiment topic model: refining user"s topics with sentiment information;Tong Zhao et al;《Proceedings of the ACM SIGKDD Workshop on Mining Data Semantics》;20120831;第1-9页 *
基于卷积神经网络的中文微博观点分类;廖祥文 等;《模式识别与人工智能》;20161231;第29卷(第12期);第1075-1082页 *
基于多特征融合的微博主题情感挖掘;黄发良 等;《计算机学报》;20170430;第40卷(第4期);第872-888页 *
面向移动终端的微博信息推荐方法;宋双永 等;《计算机科学》;20111130;第38卷(第11期);第137-139,166页 *

Also Published As

Publication number Publication date
CN108038205A (zh) 2018-05-15

Similar Documents

Publication Publication Date Title
CN108038205B (zh) 针对中文微博的观点分析原型系统
CN108573411B (zh) 基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法
CN107766324B (zh) 一种基于深度神经网络的文本一致性分析方法
CN113239186B (zh) 一种基于多依存关系表示机制的图卷积网络关系抽取方法
Snyder et al. Interactive learning for identifying relevant tweets to support real-time situational awareness
CN112199608B (zh) 基于网络信息传播图建模的社交媒体谣言检测方法
CN109299268A (zh) 一种基于双通道模型的文本情感分析方法
CN109740154A (zh) 一种基于多任务学习的在线评论细粒度情感分析方法
CN111143576A (zh) 一种面向事件的动态知识图谱构建方法和装置
CN107092596A (zh) 基于attention CNNs和CCR的文本情感分析方法
CN106951438A (zh) 一种面向开放域的事件抽取系统及方法
CN110765769B (zh) 一种基于子句特征的实体属性依赖情感分析方法
CN109992784B (zh) 一种融合多模态信息的异构网络构建和距离度量方法
CN107423288A (zh) 一种基于无监督学习的中文分词系统及方法
CN111914185A (zh) 一种基于图注意力网络的社交网络中文本情感分析方法
Mehndiratta et al. Identification of sarcasm using word embeddings and hyperparameters tuning
CN110442728A (zh) 基于word2vec汽车产品领域的情感词典构建方法
CN104778256A (zh) 一种领域问答系统咨询的快速可增量聚类方法
CN113239143B (zh) 融合电网故障案例库的输变电设备故障处理方法及系统
Zhang et al. Exploring deep recurrent convolution neural networks for subjectivity classification
Feng et al. Modeling multi-targets sentiment classification via graph convolutional networks and auxiliary relation
Nguyen et al. Emotion analysis using multilayered networks for graphical representation of tweets
Kanev et al. Sentiment analysis of multilingual texts using machine learning methods
CN114547303A (zh) 基于Bert-LSTM的文本多特征分类方法及装置
CN114626367A (zh) 基于新闻文章内容的情感分析方法、系统、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant