CN107797983A - 微博数据处理方法、装置、计算机设备及存储介质 - Google Patents

微博数据处理方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN107797983A
CN107797983A CN201710225681.5A CN201710225681A CN107797983A CN 107797983 A CN107797983 A CN 107797983A CN 201710225681 A CN201710225681 A CN 201710225681A CN 107797983 A CN107797983 A CN 107797983A
Authority
CN
China
Prior art keywords
microblogging
focus incident
sentiment orientation
affection index
index value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710225681.5A
Other languages
English (en)
Inventor
王健宗
黄章成
吴天博
肖京
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201710225681.5A priority Critical patent/CN107797983A/zh
Publication of CN107797983A publication Critical patent/CN107797983A/zh
Priority to PCT/CN2018/081697 priority patent/WO2018184518A1/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Abstract

本发明提出了一种基于微博数据处理方法,所述方法包括:通过监控微博流数据实时发现热点事件;对含有所述热点事件的微博进行情感倾向分析;根据所述情感倾向分析确定相应的情感指数值;根据所述情感指数值生成时间序列的情感指数走势图。该微博数据处理方法能够充分直观的反映投资者的注意力和情绪。此外,还提出了一种微博数处理装置、计算机设备以及存储介质。

Description

微博数据处理方法、装置、计算机设备及存储介质
技术领域
本发明涉及计算机处理领域,特别是涉及一种微博数据处理方法、装置、计算机设备及存储介质。
背景技术
随着社交媒体的发展,社交网站、在线社区、微博等已逐渐成为人们生活中不可或缺的一部分,也是当今时代信息传播的主要渠道。信息传播形态的巨大变革,冲击着投资者原有的信息利用模式与投资信念,并深刻影响了资本市场的信息传递与金融生态。行为金融理论认为投资者的投资决策行为受到投资者注意力、情绪等因素的共同影响,而传统的股市预测模型中虽然也有涉及到情感倾向分析,但是大多数情感分析是基于新闻网页,其并不能真正反映投资者注意力和情绪,导致在进行股市预测时往往会出现较大偏差。
发明内容
基于此,有必要针对上述不能反映投资者注意力和情绪的问题,提出一种可靠的能够反映投资者注意和情绪的微博数据处理方法、装置、计算机设备以及存储介质。
一种微博数据处理方法,所述方法包括:通过监控微博流数据实时发现热点事件;对含有所述热点事件的微博进行情感倾向分析;根据所述情感倾向分析确定相应的情感指数值;根据所述情感指数值生成时间序列的情感指数走势图。
在其中一个实施例中,所述通过监控微博流数据实时发现热点事件的步骤包括:实时获取微博流数据,将所述微博流数据向量化;监控向量化后的微博流数据,记录每个特征词出现的频率和次数;根据每个特征词出现的频率和次数确定当前的热点事件。
在其中一个实施例中,所述将含有所述热点事件的微博进行情感倾向分析的步骤包括:抽取获取到的含有热点事件的每条微博的LDA主题特征和word2vec词向量特征;将所述LDA主题特征和word2vec词向量特征代入情感倾向分析模型,输出每条微博的情感倾向。
在其中一个实施例中,所述根据所述情感倾向分析确定相应的情感指数值的步骤包括:根据所述情感倾向分析将含有热点事件的微博按照情感类别进行分类,分别统计每一类情感对应的微博数;根据统计出的所述每一类情感对应的微博数确定所述热点事件对应的情感指数值。
在其中一个实施例中,在所述根据所述情感指数值生成时间序列的情感指数走势图的步骤之后还包括:根据所述情感指数走势图确定影响股市数据的情感因子;将所述情感因子和其他股市数据一起作为股市预测模型的预测因子进行相应的股市预测。
一种微博数据处理装置,所述装置包括:发现模块,用于通过监控微博流数据实时发现热点事件;分析模块,用于对含有所述热点事件的微博进行情感倾向分析;确定模块,用于根据所述情感倾向分析确定相应的情感指数值;生成模块,用于根据所述情感指数值生成时间序列的情感指数走势图。
在其中一个实施例中,所述发现模块包括:获取模块,用于实时获取微博流数据,将所述微博流数据向量化;记录模块,用于监控向量化后的微博流数据,记录每个特征词出现的频率和次数;热点事件确定模块,用于根据每个特征词出现的频率和次数确定当前的热点事件。
在其中一个实施例中,所述分析模块包括:抽取模块,用于抽取获取到的含有热点事件的每条微博的LDA主题特征和word2vec词向量特征;输出模块,用于将所述LDA主题特征和word2vec词向量特征代入情感倾向分析模型,输出每条微博的情感倾向。
在其中一个实施例中,所述确定模块包括:统计模块,用于根据所述情感倾向分析将含有热点事件的微博按照情感类别进行分类,分别统计每一类情感对应的微博数;情感指数值确定模块,用于根据统计出的所述每一类情感对应的微博数确定所述热点事件对应的情感指数值。
在其中一个实施例中,所述装置还包括:股市预测模块,用于根据所述情感指数走势图确定影响股市数据的情感因子,将所述情感因子和其他股市数据一起作为股市预测模型的预测因子进行相应的股市预测。
一种计算机设备,所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:通过监控微博流数据实时发现热点事件;对含有所述热点事件的微博进行情感倾向分析;根据所述情感倾向分析确定相应的情感指数值;根据所述情感指数值生成时间序列的情感指数走势图
一个或多个存储有计算机可执行指令的非易失性计算机可读存储介质,所述计算机可执行指令被一个或多个处理器执行时,使得所述一个或多个处理器执行以下步骤:通过监控微博流数据实时发现热点事件;对含有所述热点事件的微博进行情感倾向分析;根据所述情感倾向分析确定相应的情感指数值;根据所述情感指数值生成时间序列的情感指数走势图
上述微博数据处理方法、装置、计算机设备以及存储介质,通过监控微博流数据实时发现热点事件,对含有热点事件的微博进行情感倾向分析,进而根据情感倾向分析确定相应的情感指数值,根据所述情感指数值生成时间序列的情感指数走势图。该微博数据处理方法选出了能够反应投资者注意力和情绪的微博热点事件,通过对该微博热点事件进行情感倾向分析,并根据情感指数值生成时间序列的情感指数走势图,该情感指数走势图能够充分直观的反映投资者的注意力和情绪,若应用于股市预测有利于提升股市预测的准确率。
附图说明
图1为一个实施例中终端的内部结构框图;
图2为一个实施例中服务器的内部结构框图;
图3为一个实施例中微博数据处理方法的流程图;
图4为一个实施例中通过监控微博流数据实时发现热点事件的方法流程图;
图5为一个实施例中将含有热点事件的微博进行情感倾向分析的方法流程图;
图6为一个实施例中根据情感倾向分析确定相应的情感指数值的方法流程图;
图7为一个实施例中微博数据处理装置的结构框图;
图8为一个实施例中发现模块的结构框图;
图9为一个实施例中分析模块的结构框图;
图10为一个实施例中确定模块的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,在一个实施例中,终端102的内部结构如图1所示,包括通过系统总线连接的处理器、内存储器、非易失性存储介质、网络接口、显示屏和输入装置。其中,终端102的非易失性存储介质存储有操作系统,还包括微博数据处理装置,该基于微博数据处理装置用于实现一种微博数据处理方法。该处理器用于提供计算和控制能力,支撑整个终端的运行。终端中的内存储器为非易失性存储介质中的微博数据处理装置的运行提供环境,该内存储器中存有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种微博数据处理方法。网络接口用于连接到网络进行通信。终端102的显示屏可以是液晶显示屏或者电子墨水显示屏等,输入装置可以是显示屏上覆盖的触摸层,也可以是电子设备外壳上设置的按键、轨迹球或触控板,也可以是外接的键盘、触控板或鼠标等。该终端可以是平板电脑、笔记本电脑、台式计算机等。本领域技术人员可以理解,图1中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的终端的限定,具体的终端可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
如图2所示,在一个实施例中,服务器104的内部结构如图2所示,包括通过系统总线连接的处理器、非易失性存储介质、内存储器和网络接口。其中,该非易失存储介质包括操作系统和微博数据处理装置。该微博数据处理装置用于实现一种微博数据处理方法,该服务器的处理器用于提供计算和控制能力,支撑整个服务器的运行。该内存储器中可储存有计算机可读指令,该计算机可读指令被所述处理器执行时,可使得所述处理器执行一种微博数据处理方法。该服务器的网络接口用于与外部的服务器和终端通过网络连接通信。本领域技术人员可以理解,图2中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的服务器的限定,具体的服务器可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
如图3所示,在一个实施例中,提出了一种微博数据处理方法,该方法可应用于终端或服务器中,具体包括以下步骤:
步骤302,通过监控微博流数据实时发现热点事件。
在本实施例中,热点事件是指当前关注度或影响力比较大的事件。通过监控微博平台的数据流数据可以实时发现当前的热点话题,热点话题对应的事件就是热点事件。热点事件能够反映出投资者的注意力和情感倾向,所以及时发现热点事件有利于发现投资者的注意力和情感倾向。
在一个实施例中,通过社交媒体实时热点发现算法发掘微博平台实时热点话题。具体地,首先,利用动态更新微博流算法,获取微博平台实时主微博流。其中,主微博流是指从大量实时微博数据流中抽样出的最具代表性的那部分微博数据流。动态更新微博流算法实际上是指对监控的微博账号的更新规则,该更新规则用于保证通过监控账号获取到的微博数据流能够全面反映整体微博流。举个例子,比如,微博数据流最初是通过采集选定的10万个微博账号中的微博构建的,但是这10万个账号随着时间推移,可能会出现不同的运营状况,比如,停止更新、被盗号之类的,或者这10万个微博账号的实时微博流不能很好地代表整个实时微博数据流,那么就需要动态更新选择的微博账号,比如,删除超过5天不更新的账号,加入新的活跃账号。其次,将主微博流向量化,计算一阶词频和二阶词频出现的加速度。其中,向量化是指将获取到的主微博流以词向量的形式进行表示,具体可以采用word2vec方法将该主微博流表示为向量的形式,word2vec是一个将单词转换成向量形式的工具,可以把文本内容的处理简化为向量空间中的向量运算。因为自然语言理解的问题要转换为机器学习的问题,首先需要将这些文本数学化,即将文本转换为数学的表示形式。举个例子,话筒表示为[0.792,-0.177,-0.107,0.109.-0.542,……]。即将文本以数学化的向量进行表示。可以通过计算出向量空间上的相似度就可以表示文本语义上的相似度。一阶词频是指单个词出现的频率,二阶词频是指同时两个词出现的频率。最后,根据预先设置的各个加速度阈值,实时监控发现微博热点话题。比如,可以设置一阶词频和二阶词频对应的加速度阈值,当达到该加速度阈值时,将对应的话题确定为热点话题,相应的事件也就是热点事件。此外,还可以通过关注关键词的变化来获取热点话题内关注度的迁徙,通过监控热点事件关注点的迁移,可以实时获取与之相关的受到影响的股票。
在另一个实施例中,首先,实时获取微博流数据,将微博流数据向量化;其次,监控向量化后的微博数据流,记录每个词出现的频率和次数;最后,根据每个词出现的频率和次数确定当前的热点事件。在该实施例中,为了对微博流进行实时监控,需要将微博流数据转换为向量的表示形式来进行监控,所以当获取到微博流数据后,将每一条微博转换为向量的形式来表示。然后监控向量化的微博数据,记录每个词出现的频率和次数,当某个词出现的频率和次数都比较高时,将对应的事件确定为热点事件。
步骤304,对含有热点事件的微博进行情感倾向分析。
在本实施例中,为了获取投资者的情感倾向,当获取到包含热点事件的微博后,对每一条微博进行情感倾向分析。在情感倾向划分方面,根据心理学最新的一份研究结果,将人类情感分为四类,分别为快乐、悲伤、愤怒和惊奇。具体地,为了对每条微博进行情感倾向分析,需要建立一个情感倾向分析模型。在情感倾向分析模型建立之前,首先需要确定训练集,用于对情感倾向分析模型进行训练。训练集是经过情感标注后的四分类微博数据集,其中,情感标注是基于动态情感词典的机器标注和人工标注相结合的混合标注方法。该混合标注方法的优势是,一方面可以避免单纯采用一类标注方法的误差,另一方面,可以节省人工标注的时间。其次,从进行情感标注后的微博文本中抽取特征用于对情感倾向分析模型进行训练。在一个实施例中,采用LDA模型和word2vec模型进行特征的抽取,其中,LDA模型用于预测每条微博的主题分布;word2vec模型用于获取每条微博的词向量表示。在另一个实施例中,也可以采用主成分分析法进行特征的抽取。最后,采用情感倾向分析模型进行情感倾向分析,其中,若情感倾向分析模型在训练时是基于抽取的LDA主题特征和word2vec词向量特征进行训练的,那么该情感倾向分析模型训练完成后,将获取到的新的微博对应的LDA主题特征和word2vec词向量特征一起作为情感倾向分析模型的输入向量,经过该情感倾向分析模型输出每条微博对应的情感倾向。情感倾向也分为四种,快乐、悲伤、愤怒和惊奇。
步骤306,根据情感倾向分析确定相应的情感指数值。
在本实施例中,在根据情感倾向分析模型对包含热点事件的微博进行情感倾向分析后,统计每一类情感对应的微博数目,按照情感类别,可以将情感分为四类,分别是快乐、悲伤、愤怒和惊奇。根据统计出来的每一类情感对应的微博数目来计算热点事件对应的情感指数值。其中,情感指数包括快乐情感占比、悲伤情感占比、愤怒情感占比、惊奇情感占比以及情感效价中的一种或多种。其中,情感效价是指整体微博情绪的反映值,情感效价计算公式为:SentmentValence=log{(1+P)/(1+N)},其中,P为积极情感微博总数,N为消极情感微博总数。积极情感微博总数为快乐和惊奇情感微博数量之和,消极情感微博总数为悲伤和愤怒情感微博数量之和。具体地,比如当天的热点事件相关的总微博数目为10万条,其中,快乐情感的微博条数为3万,悲伤情感的微博条数为1万,愤怒情感的微博条数为1万,惊奇情感的微博条数为5万,那么对应的快乐情感占比为0.3,悲伤和愤怒情感占比都是0.1,惊奇情感占比为0.5。情感效价为log3。
步骤308,根据情感指数值生成时间序列的情感指数走势图。
在本实施例中,通过情感倾向分析确定相应的情感指数值后,将该情感指数值与对应的统计时间点或时间段进行对应存储,通过记录一段时间内的每一个时间点对应的情感指数值后,按照时间的顺序生成时间序列的情感指数走势图,该情感指数走势图能够充分的且直观的反映出一段时间内投资者情绪的波动。在一个实施例中,通过将该情感指数的走势与股票大盘走势进行相关性分析,可以确定出影响股市走势的情感因子。后续可以将该情感因子和其他股市数据一起作为股市预测模型的预测因子进行相应的股市预测,由于充分考虑了投注者的注意力和情绪,有利于提高股市预测的准确率。
在本实施例中,通过监控微博流数据实时发现热点事件,对含有热点事件的微博进行情感倾向分析,进而根据情感倾向分析确定相应的情感指数值,根据所述情感指数值生成时间序列的情感指数走势图。该微博数据处理方法选出了能够反应投资者注意力和情绪的微博热点事件,通过对该微博热点事件进行情感倾向分析,并根据情感指数值生成时间序列的情感指数走势图,该情感指数走势图能够充分直观的反映投资者的注意力和情绪,若应用于股市预测有利于提升股市预测的准确率。
如图4所示,在一个实施例中,通过监控微博流数据实时发现热点事件的步骤302包括:
步骤302A,实时获取微博流数据,将微博流数据向量化。
在本实施例中,为了能够及时的获取到投资者的注意和情绪,实时获取微博流数据,最初获取到的微博数据流为文本数据,文本数据与普通的数值数据或者类属数据不同,文本数据是一种半结构化数据,在进行文本数据分析之前,需要对文本数据进行预处理,采用向量化的数值来表达这些半结构的文本数据。在一个实施例中,在进行向量化之前,先对文本数据进行分词处理,经过分词处理后,一个文本数据就可以表示为由若干关键词来表示的多维向量,便于后续进行特征词的监控。
步骤302B,监控向量化后的微博流数据,记录每个特征词出现的频率和次数。
在本实施例中,特征词是指能够代表某个事件的词汇,一条微博文本中并不是所有的词语都需要记录,因为有一些常用词在任何事件中都可能出现,所以记录这些常用词并没有意义,比如,助词“的”、“地”等。将微博流数据向量化后,实时监控向量化后的微博流数据,监控每个特征词出现的频率和次数,频率是指单位时间内该词语出现的次数。次数是指该词语出现的总数量。通过监控每个特征词出现的频率可以发现短时间内出现的热点话题,通过记录每个特征词出现的次数,可以考察较长一段时间内人们对某个话题的关注度。
步骤302C,根据每个特征词出现的频率和次数确定当前的热点事件。
在本实施例中,监听并记录每个特征词出现的频率和次数,当一个或多个特征词的频率或次数达到了预设阈值时,则判定该一个或多个特征词对应的事件为热点事件。可以分别设置频率阈值和次数阈值,一个实施例中,当特征词出现的频率达到了频率阈值或者当特征词出现的次数达到了次数阈值,则将特征词对应的事件确定为热点事件。在另一个实施例中,当特征词出现的频率达到了频率阈值,且,次数也达到了次数阈值时,则将该特征词对应的事件确定为热点事件。根据监控到的一个或多个特征词出现的频率可以发现短时间内的热点事件,而通过监控一个或多个特征词出现的次数则可以考察一段时间内的热点话题,进而确定该话题的热度和持续时间。该方法有利于及时发现并记录热点事件。
如图5所示,在一个实施例中,将含有热点事件的微博进行情感倾向分析的步骤包括:
步骤304A,抽取获取到的含有热点事件的每条微博的LDA主题特征和word2vec词向量特征。
在本实施例中,当通过监控微博流数据发现热点事件后,获取含有该热点事件的所有微博,对获取到的含有热点事件的每条微博分别抽取相应的LDA主体特征和word2vec词向量特征。预先训练好LDA主题模型和word2vec词向量模型,其中,通过将每条微博的向量文本输入该LDA主题模型可以预测该条微博的主题分布,比如,将前250维的概率分布作为该条微博的250维特征;通过将每条微博的向量文本输入该word2vec模型可以获取任一微博词语的向量表示,同样可以选取前250维作为特征,通过简单的同维相加,可以获取该条微博的500维词向量表示。其中,word2vec是一款将词表征为实数值向量的高效工具,其利用深度学习的思想,可以通过训练,把对文本内容的处理简化为k维向量空间中的向量运算。
步骤304B,将LDA主题特征和word2vec词向量特征代入情感倾向分析模型,输出每条微博的情感倾向。
在本实施例中,在获取到每条微博对应的LDA主题特征和word2vec词向量特征后,该获取到的特征代入情感倾向分析模型,输出每条微博的情感倾向。其中,情感倾向分析模型可以采用Boosted tree算法建立,其中,Boosted tree算法主要用于多分类问题的预测。在本实施例中,情感倾向分为四类,分别是快乐、悲伤、愤怒和惊奇。在采用情感倾向分析模型之前,首先需要建立情感倾向分析模型,具体地,采用四分类标注的方法对微博数据集进行情感标注,将进行情感标注后的微博数据集作为训练集,从训练集中的每条微博中抽取LDA主题特征和word2vec词向量特征代入初始化的情感倾向分析模型进行训练,得到相应的模型参数,从而得到最终的情感倾向分析模型。其中,初始化的情感倾向分析模型是采用Boosted tree方法进行建立的。在训练之前需要对每个特征进行标准化处理,指标标准化的公式为:ZXt=(Xt-X)/σ,其中,Xt是每维特征具体的数值,ZXt是对应的每维数据标准化后的值,X为该列特征所有数值的均值,σ是该列特征所有数值的标准差,利用该公式对每维特征做标准化处理,便于后续进行机器学习得到情感倾向分析模型。所以对含有热点事件的每条微博进行情感倾向分析时,需要抽取每条微博中的LDA主题特征和word2vec词向量作为情感倾向分析模型的输入向量,然后输出每条微博对应的情感倾向,比如,是快乐的还是悲伤的,是愤怒的还是惊奇的。
如图6所示,在一个实施例中,根据情感倾向分析确定相应的情感指数值的步骤包括:
步骤306A,根据情感倾向分析将含有热点事件的微博按照情感类别进行分类,分别统计每一类情感对应的微博数。
在本实施例中,对包含热点事件的每条微博进行情感性分析以后,将含有热点事件的微博按照情感类别进行分类,分别统计每一类情感对应的微博数。其中,情感类别分为四类,分别是快乐、悲伤、愤怒和惊奇。为了获取投资者的情绪,分别统计每一类情感对应的微博数,便于后续进行情感指数的计算。
步骤306B,根据统计出的每一类情感对应的微博数确定热点事件对应的情感指数值。
在本实施例中,情感指数包括快乐情感占比、悲伤情感占比、愤怒情感占比、惊奇情感占比以及情感效价中的一种或多种。其中,情感效价是指整体微博情绪的反映值,情感效价计算公式为:SentmentValence=log{(1+P)/(1+N)},其中,P为积极情感微博总数,N为消极情感微博总数。积极情感微博总数为快乐和惊奇情感微博数量之和,消极情感微博总数为悲伤和愤怒情感微博数量之和。情感指数值就是相应的情感指数的值。比如,当天的热点事件相关的总微博数目为10万条,其中,快乐情感的微博条数为3万,悲伤情感的微博条数为1万,愤怒情感的微博条数为1万,惊奇情感的微博条数为5万,那么情感指数值包括:快乐情感占比0.3,悲伤和愤怒情感占比都是0.1,惊奇情感占比0.5,情感效价log3。后续根据计算得到的情感指数值进行股市的预测。需要说明的是,这里的热点事件并不是指一个热点事件,而是一段时间内的所有热点事件。
在一个实施例中,在根据情感指数值生成时间序列的情感指数走势图的步骤之后包括:根据所述情感指数走势图确定影响股市数据的情感因子,将情感因子和其他股市数据一起作为股市预测模型的预测因子进行相应的股市预测。
在本实施例中,在获取到时间序列的情感指数走势图后,通过情感指数走势图确定影响股市数据的情感因子。通过将时间序列的情感指数走势图与大盘日收益率、价格和交易额进行相关项分析,将存在相关性的情感指数抽取为股市大盘的预测因子,即确定影响股市数据的情感因子。其中,情感指数包括情感效价、快乐情感占比、悲伤情感占比、愤怒情感占比、惊奇情感占比等。所以在分析时,需要将每个因素都进行分析,筛选出对股市数据有影响的一个或多个因素,共同作为股市数据的情感因子。然后将确定的情感因子和其他传统的股市因子一起作为股市预测模型的预测因子进行相应的股市预测。其他股市数据包括开盘价、收盘价、最高价、最低价、成交额、收益率等数据。具体地,首先,需要通过对情感指数与大盘日收益率、价格和交易额进行相关性分析,存在相关性的情感指数抽取为股市大盘的预测特征,采用机器学习算法,训练得到包含情感特征的股市预测模型,进而根据计算得到的情感指数值(即情感因子对应的情感指数值)和获取的其他股市数据采用该股市预测模型进行相应的股市预测。这里的股市预测,可以预测大盘的收益状况,也可以预测单支股票的收益状况,不同的预测目的,采用的数据不同。通过考虑投资者注意力和情绪进行相应的股市预测,有利于提高股市预测的准确率和可靠性,为决策者提供可靠的依据。
此外,在一个实施例中,通过监控微博流数据还可以发现对社会影响巨大,且持续时间较久的热点事件,通过分析该影响大的热点事件有利于股票的选择。因为影响大的热点事件会引起投资大众的过度关注,造成当前价格的非理性波动,而未来一段时间后会回归基本价值,所以这中间会存在一些买入时机。具体地,首先,确定热点事件的事件影响力,当事件影响力大于预设阈值时,选择股市中股票名称或者股票行业分类名称中包含事件关键字的股票或行业,构成候选股票池;根据股票信息从候选股票池中选出基本面好股票;根据事件周期和大盘走势确定对相关股票的影响度,然后根据相应的影响度反馈给选股择时模型,用于进行股票的选择。比如,美国大选对于黄金、石油等价格引起的短时间内的非理性波动,可以选择合适的时机抄底买入。
如图7所示,在一个实施例中,提出了一种微博数据处理装置,该装置包括:
发现模块702,用于通过监控微博流数据实时发现热点事件。
分析模块704,用于对含有所述热点事件的微博进行情感倾向分析。
确定模块706,用于根据所述情感倾向分析确定相应的情感指数值。
生成模块708,用于根据情感指数值生成时间序列的情感指数走势图。
如图8所示,在一个实施例中,发现模块702包括:
获取模块702A,用于实时获取微博流数据,将所述微博流数据向量化。
记录模块702B,用于监控向量化后的微博流数据,记录每个特征词出现的频率和次数。
热点事件确定模块702C,用于根据每个特征词出现的频率和次数确定当前的热点事件。
如图9所示,在一个实施例中,分析模块704包括:
抽取模块704A,用于抽取获取到的含有热点事件的每条微博的LDA主题特征和word2vec词向量特征。
输出模块704B,用于将所述LDA主题特征和word2vec词向量特征代入情感倾向分析模型,输出每条微博的情感倾向。
如图10所示,在一个实施例中,确定模块706包括:
统计模块706A,用于根据情感倾向分析将含有热点事件的微博按照情感类别进行分类,分别统计每一类情感对应的微博数。
情感指数值确定模块706B,用于根据统计出的所述每一类情感对应的微博数确定所述热点事件对应的情感指数值。
在一个实施例中,上述微博数据处理装置还包括:股市预测模块,用于根据所述情感指数走势图确定影响股市数据的情感因子,将所述情感因子和其他股市数据一起作为股市预测模型的预测因子进行相应的股市预测。
在一个实施例中,提出了一种计算机设备,所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:通过监控微博流数据实时发现热点事件;对含有所述热点事件的微博进行情感倾向分析;根据所述情感倾向分析确定相应的情感指数值;根据情感指数值生成时间序列的情感指数走势图。
在一个实施例中,所述处理器所述执行的所述通过监控微博流数据实时发现热点事件包括:实时获取微博流数据,将所述微博流数据向量化;监控向量化后的微博流数据,记录每个特征词出现的频率和次数;根据每个特征词出现的频率和次数确定当前的热点事件。
在一个实施例中,所述处理器所述执行的所述将含有所述热点事件的微博进行情感倾向分析包括:抽取获取到的含有热点事件的每条微博的LDA主题特征和word2vec词向量特征;将所述LDA主题特征和word2vec词向量特征代入情感倾向分析模型,输出每条微博的情感倾向。
在一个实施例中,所述处理器所述执行的所述根据所述情感倾向分析确定相应的情感指数值包括:按照情感类别,分别统计每一类情感对应的微博数;根据统计出的所述每一类情感对应的微博数确定所述热点事件对应的情感指数值。
在一个实施例中,所述处理器还用于执行以下步骤:根据所述情感指数走势图确定影响股市数据的情感因子,将所述情感因子和其他股市数据一起作为股市预测模型的预测因子进行相应的股市预测。
在一个实施例中,提出了一个或多个存储有计算机可执行指令的非易失性计算机可读存储介质,所述计算机可执行指令被一个或多个处理器执行时,使得所述一个或多个处理器执行以下步骤:通过监控微博流数据实时发现热点事件;对含有所述热点事件的微博进行情感倾向分析;根据所述情感倾向分析确定相应的情感指数值;根据情感指数值生成时间序列的情感指数走势图。
在一个实施例中,所述处理器所述执行的所述通过监控微博流数据实时发现热点事件包括:实时获取微博流数据,将所述微博流数据向量化;监控向量化后的微博流数据,记录每个特征词出现的频率和次数;根据每个特征词出现的频率和次数确定当前的热点事件。
在一个实施例中,所述处理器所述执行的所述将含有所述热点事件的微博进行情感倾向分析包括:抽取获取到的含有热点事件的每条微博的LDA主题特征和word2vec词向量特征;将所述LDA主题特征和word2vec词向量特征代入情感倾向分析模型,输出每条微博的情感倾向。
在一个实施例中,所述处理器所述执行的所述根据所述情感倾向分析确定相应的情感指数值包括:按照情感类别,分别统计每一类情感对应的微博数;根据统计出的所述每一类情感对应的微博数确定所述热点事件对应的情感指数值。
在一个实施例中,所述处理器还用于执行以下步骤:根据所述情感指数走势图确定影响股市数据的情感因子,将所述情感因子和其他股市数据一起作为股市预测模型的预测因子进行相应的股市预测。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种微博数据处理方法,所述方法包括:
通过监控微博流数据实时发现热点事件;
对含有所述热点事件的微博进行情感倾向分析;
根据所述情感倾向分析确定相应的情感指数值;
根据所述情感指数值生成时间序列的情感指数走势图。
2.根据权利要求1所述的方法,所述通过监控微博流数据实时发现热点事件的步骤包括:
实时获取微博流数据,将所述微博流数据向量化;
监控向量化后的微博流数据,记录每个特征词出现的频率和次数;
根据每个特征词出现的频率和次数确定当前的热点事件。
3.根据权利要求1所述的方法,其特征在于,所述将含有所述热点事件的微博进行情感倾向分析的步骤包括:
抽取获取到的含有热点事件的每条微博的LDA主题特征和word2vec词向量特征;
将所述LDA主题特征和word2vec词向量特征代入情感倾向分析模型,输出每条微博的情感倾向。
4.根据权利要求1所述的方法,其特征在于,所述根据所述情感倾向分析确定相应的情感指数值的步骤包括:
根据所述情感倾向分析将含有热点事件的微博按照情感类别进行分类,分别统计每一类情感对应的微博数;
根据统计出的所述每一类情感对应的微博数确定所述热点事件对应的情感指数值。
5.根据权利要求1所述的方法,其特征在于,在所述根据所述情感指数值生成时间序列的情感指数走势图的步骤之后还包括:
根据所述情感指数走势图确定影响股市数据的情感因子;
将所述情感因子和其他股市数据一起作为股市预测模型的预测因子进行相应的股市预测。
6.一种微博数据处理装置,其特征在于,所述装置包括:
发现模块,用于通过监控微博流数据实时发现热点事件;
分析模块,用于对含有所述热点事件的微博进行情感倾向分析;
确定模块,用于根据所述情感倾向分析确定相应的情感指数值;
生成模块,用于根据所述情感指数值生成时间序列的情感指数走势图。
7.根据权利要求6所述的装置,所述发现模块包括:
获取模块,用于实时获取微博流数据,将所述微博流数据向量化;
记录模块,用于监控向量化后的微博流数据,记录每个特征词出现的频率和次数;
热点事件确定模块,用于根据每个特征词出现的频率和次数确定当前的热点事件。
8.根据权利要求6所述的装置,其特征在于,所述分析模块包括:
抽取模块,用于抽取获取到的含有热点事件的每条微博的LDA主题特征和word2vec词向量特征;
输出模块,用于将所述LDA主题特征和word2vec词向量特征代入情感倾向分析模型,输出每条微博的情感倾向。
9.一种计算机设备,所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
通过监控微博流数据实时发现热点事件;
对含有所述热点事件的微博进行情感倾向分析;
根据所述情感倾向分析确定相应的情感指数值;
根据所述情感指数值生成时间序列的情感指数走势图。
10.一个或多个存储有计算机可执行指令的非易失性计算机可读存储介质,所述计算机可执行指令被一个或多个处理器执行时,使得所述一个或多个处理器执行以下步骤:
通过监控微博流数据实时发现热点事件;
对含有所述热点事件的微博进行情感倾向分析;
根据所述情感倾向分析确定相应的情感指数值;
根据所述情感指数值生成时间序列的情感指数走势图。
CN201710225681.5A 2017-04-07 2017-04-07 微博数据处理方法、装置、计算机设备及存储介质 Pending CN107797983A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710225681.5A CN107797983A (zh) 2017-04-07 2017-04-07 微博数据处理方法、装置、计算机设备及存储介质
PCT/CN2018/081697 WO2018184518A1 (zh) 2017-04-07 2018-04-03 微博数据处理方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710225681.5A CN107797983A (zh) 2017-04-07 2017-04-07 微博数据处理方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN107797983A true CN107797983A (zh) 2018-03-13

Family

ID=61531049

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710225681.5A Pending CN107797983A (zh) 2017-04-07 2017-04-07 微博数据处理方法、装置、计算机设备及存储介质

Country Status (2)

Country Link
CN (1) CN107797983A (zh)
WO (1) WO2018184518A1 (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108595519A (zh) * 2018-03-26 2018-09-28 平安科技(深圳)有限公司 热点事件分类方法、装置及存储介质
WO2018184518A1 (zh) * 2017-04-07 2018-10-11 平安科技(深圳)有限公司 微博数据处理方法、装置、计算机设备及存储介质
CN108959479A (zh) * 2018-06-21 2018-12-07 成都睿码科技有限责任公司 一种基于文本相似度的事件情感分类方法
CN109213934A (zh) * 2018-08-23 2019-01-15 阿里巴巴集团控股有限公司 一种资源的处理方法、装置及设备
CN109344248A (zh) * 2018-07-27 2019-02-15 中山大学 一种基于科技文献摘要聚类的学术主题生命周期分析方法
WO2019214046A1 (zh) * 2018-05-08 2019-11-14 平安科技(深圳)有限公司 资产走势分析的方法、装置、计算机设备和存储介质
WO2019214048A1 (zh) * 2018-05-08 2019-11-14 平安科技(深圳)有限公司 自动生成投资建议的方法、装置、计算机设备和存储介质
CN110968696A (zh) * 2019-11-20 2020-04-07 国元证券股份有限公司 一种财经博客文本分析方法
CN111047353A (zh) * 2019-11-27 2020-04-21 泰康保险集团股份有限公司 数据处理方法、系统及电子设备
CN111159166A (zh) * 2019-12-27 2020-05-15 沃民高新科技(北京)股份有限公司 事件的预测方法及装置、存储介质及处理器
CN113190682A (zh) * 2021-06-30 2021-07-30 平安科技(深圳)有限公司 基于树模型的事件影响度获取方法、装置及计算机设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103116605A (zh) * 2013-01-17 2013-05-22 上海交通大学 一种基于监测子网的微博热点事件实时检测方法及系统
CN103500175A (zh) * 2013-08-13 2014-01-08 中国人民解放军国防科学技术大学 一种基于情感分析在线检测微博热点事件的方法
CN104239383A (zh) * 2014-06-09 2014-12-24 合肥工业大学 一种微博情感可视化方法
CN104598632A (zh) * 2015-02-05 2015-05-06 北京航空航天大学 热点事件检测方法和装置
CN105740228A (zh) * 2016-01-25 2016-07-06 云南大学 一种互联网舆情分析方法
CN106250513A (zh) * 2016-08-02 2016-12-21 西南石油大学 一种基于事件建模的事件个性化分类方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104537097B (zh) * 2015-01-09 2017-08-11 成都布林特信息技术有限公司 微博舆情监测系统
CN105589941A (zh) * 2015-12-15 2016-05-18 北京百分点信息科技有限公司 网络文本的情感信息检测方法和装置
CN107797983A (zh) * 2017-04-07 2018-03-13 平安科技(深圳)有限公司 微博数据处理方法、装置、计算机设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103116605A (zh) * 2013-01-17 2013-05-22 上海交通大学 一种基于监测子网的微博热点事件实时检测方法及系统
CN103500175A (zh) * 2013-08-13 2014-01-08 中国人民解放军国防科学技术大学 一种基于情感分析在线检测微博热点事件的方法
CN104239383A (zh) * 2014-06-09 2014-12-24 合肥工业大学 一种微博情感可视化方法
CN104598632A (zh) * 2015-02-05 2015-05-06 北京航空航天大学 热点事件检测方法和装置
CN105740228A (zh) * 2016-01-25 2016-07-06 云南大学 一种互联网舆情分析方法
CN106250513A (zh) * 2016-08-02 2016-12-21 西南石油大学 一种基于事件建模的事件个性化分类方法及系统

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018184518A1 (zh) * 2017-04-07 2018-10-11 平安科技(深圳)有限公司 微博数据处理方法、装置、计算机设备及存储介质
CN108595519A (zh) * 2018-03-26 2018-09-28 平安科技(深圳)有限公司 热点事件分类方法、装置及存储介质
WO2019184217A1 (zh) * 2018-03-26 2019-10-03 平安科技(深圳)有限公司 热点事件分类方法、装置及存储介质
WO2019214048A1 (zh) * 2018-05-08 2019-11-14 平安科技(深圳)有限公司 自动生成投资建议的方法、装置、计算机设备和存储介质
WO2019214046A1 (zh) * 2018-05-08 2019-11-14 平安科技(深圳)有限公司 资产走势分析的方法、装置、计算机设备和存储介质
CN108959479A (zh) * 2018-06-21 2018-12-07 成都睿码科技有限责任公司 一种基于文本相似度的事件情感分类方法
CN108959479B (zh) * 2018-06-21 2022-03-25 成都睿码科技有限责任公司 一种基于文本相似度的事件情感分类方法
CN109344248B (zh) * 2018-07-27 2021-10-22 中山大学 一种基于科技文献摘要聚类的学术主题生命周期分析方法
CN109344248A (zh) * 2018-07-27 2019-02-15 中山大学 一种基于科技文献摘要聚类的学术主题生命周期分析方法
CN109213934A (zh) * 2018-08-23 2019-01-15 阿里巴巴集团控股有限公司 一种资源的处理方法、装置及设备
CN110968696A (zh) * 2019-11-20 2020-04-07 国元证券股份有限公司 一种财经博客文本分析方法
CN110968696B (zh) * 2019-11-20 2023-06-06 国元证券股份有限公司 一种财经博客文本分析方法
CN111047353A (zh) * 2019-11-27 2020-04-21 泰康保险集团股份有限公司 数据处理方法、系统及电子设备
CN111159166A (zh) * 2019-12-27 2020-05-15 沃民高新科技(北京)股份有限公司 事件的预测方法及装置、存储介质及处理器
CN113190682A (zh) * 2021-06-30 2021-07-30 平安科技(深圳)有限公司 基于树模型的事件影响度获取方法、装置及计算机设备
WO2023273303A1 (zh) * 2021-06-30 2023-01-05 平安科技(深圳)有限公司 基于树模型的事件影响度获取方法、装置及计算机设备

Also Published As

Publication number Publication date
WO2018184518A1 (zh) 2018-10-11

Similar Documents

Publication Publication Date Title
CN107797983A (zh) 微博数据处理方法、装置、计算机设备及存储介质
Yue et al. A survey of sentiment analysis in social media
Liu et al. A two-stage model based on BERT for short fake news detection
El‐Assady et al. NEREx: Named‐Entity Relationship Exploration in Multi‐Party Conversations
CN107358315A (zh) 一种信息预测方法及终端
Du et al. News text summarization based on multi-feature and fuzzy logic
CN109087205A (zh) 舆情指数的预测方法及装置、计算机设备和可读存储介质
Li et al. Predicting social emotions from readers’ perspective
CN104965823A (zh) 一种基于大数据的观点抽取方法
Gao et al. Text classification research based on improved Word2vec and CNN
CN104965930A (zh) 一种基于大数据的突发事件演化分析方法
Chu et al. Language interpretation in travel guidance platform: Text mining and sentiment analysis of TripAdvisor reviews
Khatter et al. Content curation algorithm on blog posts using hybrid computing
Medya et al. An exploratory study of stock price movements from earnings calls
Wei et al. GP-GCN: Global features of orthogonal projection and local dependency fused graph convolutional networks for aspect-level sentiment classification
Saleiro et al. TexRep: A text mining framework for online reputation monitoring
Gao et al. Chatbot or Chat-Blocker: Predicting chatbot popularity before deployment
WO2023060633A1 (zh) 增强语义的关系抽取方法、装置、计算机设备及存储介质
Barbaglia et al. Monitoring the business cycle with fine-grained, aspect-based sentiment extraction from news
Li et al. Abstractive financial news summarization via transformer-BiLSTM encoder and graph attention-based decoder
Vu et al. Lexical-semantic resources: yet powerful resources for automatic personality classification
Du et al. FinSenticNet: A concept-level lexicon for financial sentiment analysis
Liang et al. Attention-based bi-lstm-crf network for emotion cause extraction in texts
Corredera Arbide et al. Affective computing for smart operations: a survey and comparative analysis of the available tools, libraries and web services
Sawhney et al. Modeling financial uncertainty with multivariate temporal entropy-based curriculums.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180313