CN111047353A - 数据处理方法、系统及电子设备 - Google Patents

数据处理方法、系统及电子设备 Download PDF

Info

Publication number
CN111047353A
CN111047353A CN201911179107.6A CN201911179107A CN111047353A CN 111047353 A CN111047353 A CN 111047353A CN 201911179107 A CN201911179107 A CN 201911179107A CN 111047353 A CN111047353 A CN 111047353A
Authority
CN
China
Prior art keywords
statistical time
time point
news text
emotion
news
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911179107.6A
Other languages
English (en)
Inventor
崔勇
杨光
杨雪松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taikang Asset Management Co ltd
Taikang Insurance Group Co Ltd
Original Assignee
Taikang Asset Management Co ltd
Taikang Insurance Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taikang Asset Management Co ltd, Taikang Insurance Group Co Ltd filed Critical Taikang Asset Management Co ltd
Priority to CN201911179107.6A priority Critical patent/CN111047353A/zh
Publication of CN111047353A publication Critical patent/CN111047353A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种数据处理方法、系统、介质及电子设备,该方法包括:由计时装置确定是否到达统计时间点,在到达统计时间点时向计算装置发送到达该统计时间点的通知;由所述计算装置响应于接收到所述通知,基于该统计时间点前预定时段内的新闻文本所对应的情感倾向得分,计算该统计时间点所对应的情绪分数;由所述计算装置根据多个统计时间点所对应的情绪分数,生成情绪走势并发送给展示装置;由所述展示装置展示所生成的情绪走势。本发明实施例的技术方案提高了市场情绪走势分析的准确性,为市场投资决策提供更准确的客观判断依据。

Description

数据处理方法、系统及电子设备
技术领域
本发明涉及数据处理技术领域,具体而言,涉及一种数据处理方法、系统、介质及电子设备。
背景技术
投资者的投资决策行为受到投资者的注意力、兴趣、情绪等主观因素的影响,也受到政策、市场情绪走势等客观因素的影响。情绪分析现已广泛应用于股市预测等金融领域,用于给投资者做个性分析和推荐。现有的情绪分析方法很多是基于微博等社交网络数据来展开分析的,其中,首先将社交网络数据进行转换得到词汇向量,然后将每一词汇向量与预设的关键词进行相似度计算,得到相似度最高的多个关键词对应的主观情绪预测观点,由此确定投资者的最新主观情绪观点。另外,还可以通过将从社交网络中提取的特征作为输入,利用情感倾向分析模型来获得情感倾向,根据情感倾向可以确定情感指数值,并且生成基于时间的情绪走势,用于后续的分析(例如进行股市预测、投资决策等)。
然而,上述这些用于情绪分析的数据主要来源于如微博等的社交网络,大都是主观因素,没有考虑客观因素的影响,因而分析结果的准确度不高。而大量的新闻文本(诸如股票新闻、政府政策新闻)中也蕴含了政府或相关机构和用户等第三方对金融、证券等市场投资中的市场发展变化的观点,因此,新闻文本数据也会影响投资者对于市场趋势的判断,很大程度上影响投资者的决策,进而影响市场走势。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本发明的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
为克服上述现有技术中存在的问题,根据本发明实施例的第一方面,提供了一种数据处理方法,包括:由计时装置确定是否到达统计时间点,在到达统计时间点时向计算装置发送到达该统计时间点的通知;由所述计算装置响应于接收到所述通知,基于该统计时间点前预定时段内的新闻文本所对应的情感倾向得分,计算该统计时间点所对应的情绪分数;由所述计算装置根据多个统计时间点所对应的情绪分数,生成情绪走势并发送给展示装置;由所述展示装置展示所生成的情绪走势。
在本发明的一些实施例中,由所述计算装置响应于接收到所述通知,基于该统计时间点前预定时段内的新闻文本所对应的情感倾向得分,计算该统计时间点所对应的情绪分数包括:由所述计算装置对该统计时间点前预定时段内的新闻文本所对应的情感倾向得分进行加权平均,得到该统计时间点所对应的情绪分数。
在本发明的一些实施例中,基于前述方案,由所述计算装置根据下式计算该统计时间点所对应的情绪分数:
Figure BDA0002290784610000021
Figure BDA0002290784610000022
其中,N表示该统计时间点前的预定时段内的新闻文本的数量;Si表示N个新闻文本中的第i个新闻文本的情感倾向得分并且S0=0;Wi表示第i个新闻文本的权重并且W0=0;δi表示第i个新闻文本的发布时间距离该统计时间点的时间差;H表示预设的时间差。
在本发明的一些实施例中,基于前述方案,根据以下步骤计算新闻文本所对应的情感倾向得分:由爬虫装置从新闻网站抓取新闻文本并且发送给所述计算装置;由所述计算装置将所述新闻文本进行分词,得到所述新闻文本的一个或多个关键词;由所述计算装置将所述一个或多个关键词输入训练好的词向量模型,得到与所述一个或多个关键词对应的所述新闻文本的一个或多个词向量;由所述计算装置将所述新闻文本的一个或多个词向量输入训练好的情感分析模型,得到所述新闻文本的情感倾向得分。
在本发明的一些实施例中,基于前述方案,还包括:由所述爬虫装置从新闻网站抓取训练用新闻文本并且发送给模型训练装置;由所述模型训练装置获取训练用新闻文本,对每个训练用新闻文本进行分词,以得到的关键词为输入,训练所述词向量模型,以及,以每个训练用新闻文本的关键词所对应的词向量为输入,训练所述情感分析模型。
在本发明的一些实施例中,所述情感分析模型由卷积神经网络和长短期记忆神经网络组成,通过以训练用新闻文本的词向量为输入,对卷积神经网络和长短期记忆神经网络进行训练,获得训练好的情感分析模型。
在本发明的一些实施例中,相邻两个统计时间点之间的时间差可以为一天或多天。
根据本发明实施例的第二方面,提供了一种数据处理系统,包括:计时装置、计算装置和展示装置。所述计时装置用于确定是否到达统计时间点,在到达统计时间点时向所述计算装置发送到达该统计时间点的通知;所述计算装置用于响应于接收到所述通知,基于该统计时间点前预定时段内的新闻文本所对应的情感倾向得分,计算该统计时间点所对应的情绪分数,以及根据多个统计时间点所对应的情绪分数,生成情绪走势并发送给所述展示装置;所述展示装置用于展示所生成的情绪走势。
根据本发明实施例的第三方面,提供了一种计算机可读介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述实施例中第一方面所述的方法。
根据本发明实施例的第四方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个计算机程序,当所述一个或多个计算机程序被所述一个或多个处理器执行时,使得所述电子设备实现如上述实施例中第一方面所述的方法。
本发明实施例提供的技术方案可以包括以下有益效果:
本发明实施例考虑了新闻文本中蕴含的较为客观的观点,根据新闻文本得到代表客观市场情感倾向的情感倾向得分,并在此基础上生成情绪走势,能够为市场投资决策提供较准确的客观判断依据。其中,在生成每个新闻文本的情感倾向得分时,利用了CNN神经网络和LSTM神经网络组成的情感分析模型,能够精确有效地区分新闻文本的情感倾向。此外,为生成情绪走势,采用按时间衰减的加权移动平均模型来计算每个统计时间点对应的情绪分数,能够有效消除异常或者热点新闻对情绪分数造成的冲击,从而得到更加稳定、准确的情绪分数。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示意性示出了根据本发明一个实施例的数据处理方法的流程图;
图2示意性示出了根据本发明一个实施例的计算统计时间点所对应的情绪分数的方法的流程图;
图3示意性示出了根据本发明一个实施例的数据处理系统的框图;
图4示出了适于用来实现本发明实施例的电子设备的计算机系统的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本发明将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本发明的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本发明的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
图1示意性示出了根据本发明一个实施例的数据处理方法的流程图,如图1所示,根据本发明实施例的数据处理方法包括步骤S110-步骤S150,下面进行详细描述。
在步骤S110中,执行预处理过程。
在一个实施例中,执行预处理过程包括:由模型训练装置训练词向量模型以及情感分析模型。
具体地,由爬虫装置从新闻网站抓取训练用新闻文本并且发送给模型训练装置,例如可以从新闻网站中获取100天内的金融新闻文本;由模型训练装置对每个训练用新闻文本进行分词,得到每个新闻文本中的一个或多个关键词。随后,以得到的关键词为输入,训练基于Word2Vec词向量算法的词向量模型,训练好的词向量模型可以针对输入的关键词输出对应的n维(其中n为正整数)词向量。在训练完词向量模型之后,由模型训练装置以每个训练用新闻文本的关键词所对应的词向量为输入,训练情感分析模型,其中,情感分析模型可以由卷积神经网络(Convolutional Neural Network,简称CNN神经网络)和长短期记忆神经网络(Long Short-Term Memory,简称LSTM神经网络)组成。训练好的情感分析模型可以针对输入的某个新闻文本的词向量,输出对应的情感倾向得分,即该新闻文本的情感倾向得分。在一个实施例中,情感倾向得分的取值范围为0~1,其中,情感倾向得分越接近1则表示该新闻文本越偏向正面情绪,而情感倾向得分越接近0则表示该新闻文本越偏向负面情绪。使用CNN神经网络+LSTM神经网络的好处在于:前者能够重复捕捉新闻文本语料中关键词附近的上下文信息,而后者能够记忆前面较长文本中的信息对当前关键词的影响,从而更加精确、有效地区分新闻文本的情感倾向。
在步骤S120中,由计时装置确定是否到达统计时间点,在到达统计时间点时向计算装置发送到达该统计时间点的通知。
在步骤S130中,由计算装置响应于接收到通知,基于该统计时间点前预定时段内的新闻文本所对应的情感倾向得分,计算该统计时间点所对应的情绪分数。参见图2,步骤S130可以包括如下的子步骤:
步骤S1301.由计算装置获取该统计时间点前预定时段内的新闻文本及其对应的情感倾向得分。其中,统计时间点的间隔可以是一天、一周、一个月等。
举例而言,可以由爬虫装置从新闻网站中抓取该统计时间点前30天内的新闻文本并且发送给计算装置;由计算装置对于所获取的每个新闻文本,计算其对应的情感倾向得分。其中,由计算装置根据以下步骤计算所获取的每个新闻文本所对应的情感倾向得分:
利用分词工具将该新闻文本进行分词,得到该新闻文本的一个或多个关键词;将所得到的每个关键词输入训练好的词向量模型,得到该关键词对应的词向量;将该新闻文本的一个或多个关键词对应的一个或多个词向量输入训练好的情感分析模型,得到该新闻文本的情感倾向得分。
步骤S1302.由计算装置基于所获取的新闻文本所对应的情感倾向得分,计算该统计时间点所对应的情绪分数。
在本发明的一个实施例中,由计算装置对所获取的新闻文本(即,该统计时间点前预定时段内的新闻文本,如30天内的新闻文本)所对应的情感倾向得分进行加权平均,得到该统计时间点所对应的情绪分数。在本发明的一个实施例中,可以采用按时间衰减的加权移动平均模型来计算统计时间点所对应的情绪分数,该加权移动平均模型表示如下:
Figure BDA0002290784610000061
Figure BDA0002290784610000062
其中,Mscore表示该统计时间点所对应的情绪分数;N表示该统计时间点前的预定时段内的新闻文本的数量;Si表示N个新闻文本中的第i个新闻文本的情感倾向得分并且S0=0;Wi表示第i个新闻文本的权重并且W0=0;δi表示第i个新闻文本的发布时间距离该统计时间点的时间差;H表示预设的时间差。
基于上式,假设以天数为时间粒度并且H为10天;则δi=0代表第i个新闻文本的发布时间是该统计时间点当天,对应地Wi=1;δi=30代表第i个新闻文本的发布时间距离该统计时间点30天,对应地Wi=(0.5)3。可见,新闻文本的发布时间距离统计时间点越久,该新闻文本的权重也就越小;新闻文本的发布时间距离统计时间点越近,该新闻文本的权重也就越大。这消除了异常或者热点新闻对情绪分数造成的冲击,并且平滑了情绪分数,使得计算得到的统计时间点所对应的情绪分数更为准确。
另外,上述公式还考虑了统计时间点前的预定时段内没有新闻文本的情况,在预定时段内没有新闻文本的情况下,Mscore=(0.5*0.5)/0.5=0.5,正好对应一个中性的结果,即位于正面情绪和负面情绪中间。
在步骤S140中,由计算装置根据多个统计时间点所对应的情绪分数,生成情绪走势并发送给展示装置。
如上文所述,统计时间点之间的间隔可以是一天、一周、一个月等等,在得到了多个统计时间点对应的情绪分数后,可以按时间顺序生成包括多个统计时间点及其对应的情绪分数的表格,例如Excel表的形式,并且发送给展示装置以显示给用户。另一种更直观的方式是形成趋势曲线图发送给展示装置以显示给用户,曲线图的横坐标可以为统计时间点,而纵坐标可以为对应的情绪分数。
在步骤S150中,由所述展示装置展示所生成的情绪走势。
上述实施例中,考虑了新闻文本中蕴含的较为客观的观点,根据新闻文本得到代表客观市场情感倾向的情感倾向得分,并在此基础上生成情绪走势,能够为市场投资决策提供较准确的客观判断依据。其中,在生成每个新闻文本的情感倾向得分时,利用了CNN神经网络和LSTM神经网络组成的情感分析模型,能够精确有效地区分新闻文本的情感倾向。此外,为生成情绪走势,采用按时间衰减的加权移动平均模型来计算每个统计时间点对应的情绪分数,能够有效消除异常或者热点新闻对情绪分数造成的冲击,从而得到更加稳定、准确的情绪分数。
以下结合附图介绍本发明的系统实施例。
图3示意性示出了根据本发明的一个实施例的数据处理系统的框图。如图3所示,根据本发明一个实施例的数据处理系统300包括:计时装置301、计算装置302、展示装置303、爬虫装置304以及模型训练装置305。
其中,计时装置301用于确定是否到达统计时间点,在到达统计时间点时向计算装置发送到达该统计时间点的通知。计算装置302用于响应于接收到通知,基于该统计时间点前预定时段内的新闻文本所对应的情感倾向得分,计算该统计时间点所对应的情绪分数;以及,根据多个统计时间点所对应的情绪分数,生成情绪走势并发送给展示装置;展示装置303用于展示所生成的情绪走势。
根据本发明的一个实施例,计算装置302用于对统计时间点前预定时段内的新闻文本所对应的情感倾向得分进行加权平均,得到该统计时间点所对应的情绪分数。根据本发明的一个实施例,计算装置302可以根据公式(1)来计算该统计时间点所对应的情绪分数。
根据本发明的一个实施例,爬虫装置304用于从新闻网站抓取新闻文本并且发送给计算装置301。计算装置301用于将新闻文本进行分词,得到新闻文本的一个或多个关键词;将一个或多个关键词输入训练好的词向量模型,得到与一个或多个关键词对应的该新闻文本的一个或多个词向量;将该新闻文本的一个或多个词向量输入训练好的情感分析模型,得到该新闻文本的情感倾向得分。
根据本发明的一个实施例,爬虫装置304还用于从新闻网站抓取训练用新闻文本并且发送给模型训练装置305。模型训练装置305用于获取训练用新闻文本;对每个训练用新闻文本进行分词,以得到的关键词为输入,训练词向量模型;以及,以每个训练用新闻文本的关键词所对应的词向量为输入,训练情感分析模型。
根据本发明的一个实施例,情感分析模型由卷积神经网络和长短期记忆神经网络组成;并且相邻两个统计时间点之间的时间差为一天或多天。
下面参考图4,其示出了适于用来实现本发明实施例的电子设备的计算机系统400的结构示意图。图4示出的电子设备的计算机系统400仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,计算机系统400包括中央处理单元(CPU)401,其可以根据存储在只读存储器(ROM)402中的程序或者从存储部分408加载到随机访问存储器(RAM)403中的程序而执行各种适当的动作和处理。在RAM 403中,还存储有系统操作所需的各种程序和数据。CPU401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。
以下部件连接至I/O接口405:包括键盘、鼠标等的输入部分406;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分407;包括硬盘等的存储部分408;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至I/O接口405。可拆卸介质411,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器410上,以便于从其上读出的计算机程序根据需要被安装入存储部分408。
特别地,根据本发明的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分409从网络上被下载和安装,和/或从可拆卸介质411被安装。在该计算机程序被中央处理单元(CPU)401执行时,执行本申请的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现如上述实施例中所述的数据处理方法。
例如,所述的电子设备可以实现:确定是否到达统计时间点,在到达统计时间点时发送到达该统计时间点的通知;响应于接收到通知,基于该统计时间点前预定时段内的新闻文本所对应的情感倾向得分,计算该统计时间点所对应的情绪分数;以及,根据多个统计时间点所对应的情绪分数,生成情绪走势并发送给展示装置。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本发明实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (10)

1.一种数据处理方法,其特征在于,包括:
由计时装置确定是否到达统计时间点,在到达统计时间点时向计算装置发送到达该统计时间点的通知;
由所述计算装置响应于接收到所述通知,基于该统计时间点前预定时段内的新闻文本所对应的情感倾向得分,计算该统计时间点所对应的情绪分数;
由所述计算装置根据多个统计时间点所对应的情绪分数,生成情绪走势并发送给展示装置;
由所述展示装置展示所生成的情绪走势。
2.根据权利要求1所述的方法,其特征在于,由所述计算装置响应于接收到所述通知,基于该统计时间点前预定时段内的新闻文本所对应的情感倾向得分,计算该统计时间点所对应的情绪分数包括:
由所述计算装置对该统计时间点前预定时段内的新闻文本所对应的情感倾向得分进行加权平均,得到该统计时间点所对应的情绪分数。
3.根据权利要求1所述的方法,其特征在于,由所述计算装置根据下式计算该统计时间点所对应的情绪分数:
Figure FDA0002290784600000011
Figure FDA0002290784600000012
其中,N表示该统计时间点前的预定时段内的新闻文本的数量;Si表示N个新闻文本中的第i个新闻文本的情感倾向得分并且S0=0;Wi表示第i个新闻文本的权重并且W0=0;δi表示第i个新闻文本的发布时间距离该统计时间点的时间差;H表示预设的时间差。
4.根据权利要求1-3中任一项所述的方法,其特征在于,根据以下步骤计算新闻文本所对应的情感倾向得分:
由爬虫装置从新闻网站抓取新闻文本并且发送给所述计算装置;
由所述计算装置将所述新闻文本进行分词,得到所述新闻文本的一个或多个关键词;
由所述计算装置将所述一个或多个关键词输入训练好的词向量模型,得到与所述一个或多个关键词对应的所述新闻文本的一个或多个词向量;
由所述计算装置将所述新闻文本的一个或多个词向量输入训练好的情感分析模型,得到所述新闻文本的情感倾向得分。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
由所述爬虫装置从新闻网站抓取训练用新闻文本并且发送给模型训练装置;
由所述模型训练装置获取训练用新闻文本;
由所述模型训练装置对每个训练用新闻文本进行分词,以得到的关键词为输入,训练所述词向量模型;以及
由所述模型训练装置以每个训练用新闻文本的关键词所对应的词向量为输入,训练所述情感分析模型。
6.根据权利要求5所述的方法,其特征在于,所述情感分析模型由卷积神经网络和长短期记忆神经网络组成。
7.根据权利要求1-3中任一项所述的方法,其特征在于,相邻两个统计时间点之间的时间差为一天或多天。
8.一种数据处理系统,其特征在于,包括:
计时装置、计算装置和展示装置;
所述计时装置用于确定是否到达统计时间点,在到达统计时间点时向计算装置发送到达该统计时间点的通知;
所述计算装置用于响应于接收到所述通知,基于该统计时间点前预定时段内的新闻文本所对应的情感倾向得分,计算该统计时间点所对应的情绪分数;以及,根据多个统计时间点所对应的情绪分数,生成情绪走势并发送给展示装置;
所述展示装置用于展示所生成的情绪走势。
9.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的方法。
10.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个计算机程序,当所述一个或多个计算机程序被所述一个或多个处理器执行时,使得所述电子设备实现如权利要求1-7中任一项所述的方法。
CN201911179107.6A 2019-11-27 2019-11-27 数据处理方法、系统及电子设备 Pending CN111047353A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911179107.6A CN111047353A (zh) 2019-11-27 2019-11-27 数据处理方法、系统及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911179107.6A CN111047353A (zh) 2019-11-27 2019-11-27 数据处理方法、系统及电子设备

Publications (1)

Publication Number Publication Date
CN111047353A true CN111047353A (zh) 2020-04-21

Family

ID=70233615

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911179107.6A Pending CN111047353A (zh) 2019-11-27 2019-11-27 数据处理方法、系统及电子设备

Country Status (1)

Country Link
CN (1) CN111047353A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107633044A (zh) * 2017-09-14 2018-01-26 国家计算机网络与信息安全管理中心 一种基于热点事件的舆情知识图谱构建方法
CN107797983A (zh) * 2017-04-07 2018-03-13 平安科技(深圳)有限公司 微博数据处理方法、装置、计算机设备及存储介质
CN107992596A (zh) * 2017-12-12 2018-05-04 百度在线网络技术(北京)有限公司 一种文本聚类方法、装置、服务器和存储介质
CN108717406A (zh) * 2018-05-10 2018-10-30 平安科技(深圳)有限公司 文本情绪分析方法、装置及存储介质
CN110189170A (zh) * 2019-05-27 2019-08-30 中译语通科技股份有限公司 市场情绪分析方法和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107797983A (zh) * 2017-04-07 2018-03-13 平安科技(深圳)有限公司 微博数据处理方法、装置、计算机设备及存储介质
CN107633044A (zh) * 2017-09-14 2018-01-26 国家计算机网络与信息安全管理中心 一种基于热点事件的舆情知识图谱构建方法
CN107992596A (zh) * 2017-12-12 2018-05-04 百度在线网络技术(北京)有限公司 一种文本聚类方法、装置、服务器和存储介质
CN108717406A (zh) * 2018-05-10 2018-10-30 平安科技(深圳)有限公司 文本情绪分析方法、装置及存储介质
CN110189170A (zh) * 2019-05-27 2019-08-30 中译语通科技股份有限公司 市场情绪分析方法和系统

Similar Documents

Publication Publication Date Title
US20210224653A1 (en) Batch normalization layers
CN110069709B (zh) 意图识别方法、装置、计算机可读介质及电子设备
US11443170B2 (en) Semi-supervised training of neural networks
CN110390408B (zh) 交易对象预测方法和装置
CN106611375A (zh) 一种基于文本分析的信用风险评估方法及装置
US11488067B2 (en) Training machine learning models using teacher annealing
CN111061877A (zh) 文本主题提取方法和装置
CN111695335A (zh) 一种智能面试方法、装置及终端设备
CN112395391A (zh) 概念图谱构建方法、装置、计算机设备及存储介质
CN110826327A (zh) 情感分析方法、装置、计算机可读介质及电子设备
CN113392920B (zh) 生成作弊预测模型的方法、装置、设备、介质及程序产品
CN108197274B (zh) 基于对话的异常个性检测方法及装置
CN111460224B (zh) 评论数据的质量标注方法、装置、设备及存储介质
EP4116884A2 (en) Method and apparatus for training tag recommendation model, and method and apparatus for obtaining tag
CN116204624A (zh) 应答方法、装置、电子设备及存储介质
CN113051396B (zh) 文档的分类识别方法、装置和电子设备
CN111047353A (zh) 数据处理方法、系统及电子设备
Zhang et al. Probabilistic verb selection for data-to-text generation
CN115186677A (zh) 基于多头注意力语义聚焦和语义增强的分析方法及装置
US20210150595A1 (en) Experience Sensing Engine
CN115048487A (zh) 基于人工智能的舆情分析方法、装置、计算机设备及介质
CN114926322A (zh) 图像生成方法、装置、电子设备和存储介质
CN113887214A (zh) 基于人工智能的意愿推测方法、及其相关设备
CN114218431A (zh) 视频搜索方法、装置、电子设备以及存储介质
CN113806541A (zh) 情感分类的方法和情感分类模型的训练方法、装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination