CN106897388A - 预测微博事件热度的方法及装置 - Google Patents

预测微博事件热度的方法及装置 Download PDF

Info

Publication number
CN106897388A
CN106897388A CN201710059472.8A CN201710059472A CN106897388A CN 106897388 A CN106897388 A CN 106897388A CN 201710059472 A CN201710059472 A CN 201710059472A CN 106897388 A CN106897388 A CN 106897388A
Authority
CN
China
Prior art keywords
gru
target
heat value
vector
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710059472.8A
Other languages
English (en)
Inventor
李建欣
钟盛海
李晨
彭浩
张日崇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN201710059472.8A priority Critical patent/CN106897388A/zh
Publication of CN106897388A publication Critical patent/CN106897388A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种预测微博事件热度的方法及装置。本发明提供的预测微博事件热度的方法包括:获取与微博事件相关联的K个第一关键词,并获取各第一关键词各自在当前日的当前热度值;其中,K≥2,且K为正整数;以各当前热度值作为输入,通过基于门控循环单元GRU的循环神经网络模型预测得到所述微博事件在下一日的目标热度值。本发明的预测微博事件热度的方法及装置,对微博事件预测日的预测结果准确且预测耗时少。

Description

预测微博事件热度的方法及装置
技术领域
本发明涉及机器学习技术,尤其涉及一种预测微博事件热度的方法及装置。
背景技术
根据微博事件的热度可以有效的了解微博用户的兴趣变化,为政府舆情预警和企业商业决策提供有效的技术支持。因此,对事件未来的热度进行预测具有重要的实际意义。微博事件热度预测是指根据微博事件的历史热度数据对微博事件在未来某个时刻的热度值进行预测。
现有技术中,预测微博事件热度的方法主要为采用单关键词对微博事件进行表示,根据该关键词的历史热度,通过自回归积分滑动平均模型(AutoregressiveIntegrated Moving Average Model,ARIMA)对微博事件在未来某个时刻的热度值进行预测。
但是,上述预测微博事件热度的方法,只采用单个关键词微博事件进行表示,并根据该单个关键词的历史热度对微博事件在未来某个时刻的热度值进行预测,预测结果不够准确。
发明内容
本发明提供一种预测微博事件热度的方法及装置,以克服现有技术中的预测方法预测结果不准确的技术问题。
本发明提供一种预测微博事件热度的方法,包括:
获取与微博事件相关联的K个第一关键词,并获取各第一关键词各自在当前日的当前热度值;其中,K≥2,且K为正整数;
以各所述当前热度值作为输入,通过基于门控循环单元GRU的循环神经网络模型预测得到所述微博事件在下一日的目标热度值。
如上所述的方法,所述基于GRU的循环神经网络模型包括输入层、隐藏层和输出层,所述GRU为隐藏层节点;
在所述以各当前热度值作为输入,通过GRU的循环神经网络模型预测得到所述微博事件在下一日的目标热度值之前,所述方法还包括:
获取各所述第一关键词在多个历史日各自对应的热度值hn,k,n=1,2……N,N为正整数,k=1,2……K;其中,hn,k表示第k个关键词在所述当前日之前的前n天的热度值;
根据所述第一关键词的热度值hn,k,采用基于GRU的循环神经网络模型学习得到目标预测参数,其中,所述目标预测参数包括:所述输入层的节点和所述GRU之间的第一目标连接权重、GRU和所述输出层的节点之间的第二目标连接权重和GRU的目标向量参数;
相应地,所述以各当前热度值作为输入,采用基于GRU的循环神经网络模型预测得到所述微博事件在下一日的目标热度值,包括:
以各当前热度值作为输入,根据所述目标预测参数,通过基于GRU的循环神经网络模型预测得到所述微博事件在下一日的目标热度值。
如上所述的方法,所述输入层的节点为K个,所述GRU为M个,所述输出层节点为1个,其中,K=M;
所述根据所述第一关键词的热度值hn,k,采用基于GRU的循环神经网络模型学习得到目标预测参数,包括:
根据所述基于GRU的循环神经网络模型的第n-1次学习时的输出与hN-n+1,k的实际权重平均的平方误差,采用误差反向传播算法对第n-1次学习时对应的第一连接权重wn-1,k,m、第二连接权重wn-1,m,o和GRU的向量参数进行更新,得到第n次学习时对应的第一连接权重wn,k,m、第二连接权重wn,m,o和GRU的向量参数;其中,所述第n-1次学习时的输出为hN-n+1,k的预测权重平均,wn,k,m表示第n次学习时对应的第k个输入节点与第m个GRU之间的第一连接权重,wn,m,o表示第n次学习时第m个GRU与输出层节点之间的第二连接权重,m=1,2……M;
以hN-n+1,k作为第n次学习时的输入,以hN-n,k的实际权重平均作为第n次学习时的期望输出,根据得到的第n次学习时的第一连接权重wn,k,m、第二连接权重wn,m,o和GRU的向量参数,采用基于GRU的循环神经网络模型学习得到的hN-n,k的预测权重平均;
根据hN-n,k的预测权重平均与hN-n,k的实际权重平均的平方误差,采用误差反向传播算法对第n次学习时对应的第一连接权重wn,k,m、第二连接权重wn,m,o和GRU的向量参数进行更新,得到第n+1次学习时第一连接权重wn+1,k,m、第二连接权重wn+1,m,o和GRU的向量参数;
重复执行更新相应学习次数对应的第一连接权重、第二连接权重和GRU的向量参数的操作,直至学习次数达到N次,将对第N次学习时对应的GRU的向量参数和第一连接权重wN,k,m、第二连接权重wN,m,o进行更新后得到的第一连接权重wN+1,k,m、第二连接权重wN+1,m,o和GRU的向量参数作为所述目标预测参数。
如上所述的方法,所述目标向量参数包括:第一目标更新向量Wz、第二目标更新向量Uz、第一目标重置向量Wr、第二目标重置向量Ur、第一目标输出向量Wh、第二目标输出向量Uh、第三目标更新向量bz、第三目标重置向量br、第三目标输出向量lh和第四目标输出向量bh
所述以各当前热度值作为输入,根据所述目标预测参数,通过基于门控循环单元GRU的循环神经网络模型预测得到所述微博事件在下一日的目标热度值,包括:
将各所述第一关键词的各自的当前热度值输入至输入层;
通过公式一获取第m个GRU的输入xo,m
xo,m=w1.mho,1+w2,.mho,2+....+wk,.mho,k+...wK,.mho,K 公式一;
其中,ho,k为第k个第一关键的当前热度值,wk,m为第k个输入节点和第m个GRU的第一目标连接权重;wN+1,k,m和wk,m相同;
采用所述GRU的更新子单元,通过公式二获取第m个GRU的更新比例zm
zm=σg(Wzxo,m+Uzh1+bz) 公式二;
其中,h1为获取目标预测参数的过程中,第N-1次学习得到的h1,k的预测权重平均,σg表示sigmoid函数;
采用所述GRU的重置子单元,通过公式三获取第m个GRU的重置比例rm
rm=σg(Wrxo,m+Urh1+br) 公式三;
采用所述GRU的第一生成子单元,通过公式四获取第m个GRU的第一输出热度值gm
其中,表示哈达马乘积,σh表示双曲线Hyperbolic函数;
采用所述GRU的第二生成子单元,通过公式五获取第m个GRU的第二输出热度值Gm
将所述Gm作为输出层的输入,在输出层采用预测函数公式运算得到目标热度值P,所述预测函数公式为:
P=w1,og1+w2,.og2+....+wmgm+...wM,ogM 公式六;
其中,wm,o为第m个GRU与输出节点之间的第二目标连接权重,wN+1,m,o和wm,o相同。
如上所述的方法,所述获取与微博事件相关联的K个第一关键词,包括:
对所述微博事件对应的文本进行分词,得到I个第二关键词;
获取所述当前日之前的前j天中与所述微博事件相关的所有微博,并将所述所有微博对应的文本组成一个文档;j=1,2……J;
通过公式七和公式八获取各第二关键词的词频Ti
其中,tfi,j是第i个第二关键词相对于第j个文档的词频,ni,j表示第i个第二关键词在第j个文档中出现的次数;所述第j个文档为所述当前日之前的前j天中与所述微博事件相关的所有微博对应的文本组成的文档;
通过公式九获取各第二关键词的逆文档频率idfi
其中,|{j:ti∈Jj}|,表示包括第i个第二关键词的文档数目;
通过公式十获取各第二关键词的逆文档频率Fi
Fi=Ti×idfi 公式十;
按照逆文档频率Fi从大到小的顺序进行排序,将排序位于前K的K个第二关键词作为所述第一关键词。
本发明还提供一种预测微博事件热度的装置,包括:
第一关键词获取模块,所述第一关键词获取模块用于获取与微博事件相关联的K个第一关键词;
热度值获取模块,所述热度值获取模块用于获取各第一关键词各自在当前日的当前热度值;其中,K≥2,且K为正整数;
目标热度值预测模块,所述目标热度值预测模块用于以各所述当前热度值作为输入,通过基于门控循环单元GRU的循环神经网络模型预测得到所述微博事件在下一日的目标热度值。
如上所述的装置,所述热度值获取模块还用于获取各所述第一关键词在多个历史日各自对应的热度值hn,k,n=1,2……N,N为正整数,k=1,2……K;其中,hn,k表示第k个关键词在所述当前日之前的前n天的热度值;
所述装置还包括:
目标预测参数获取模块,所述目标预测参数获取模块用于根据所述第一关键词的热度值hn,k,采用基于GRU的循环神经网络模型学习得到目标预测参数,其中,所述目标预测参数包括:所述输入层的节点和所述GRU之间的第一目标连接权重、GRU和所述输出层的节点之间的第二目标连接权重和GRU的目标向量参数;
其中,所述基于GRU的循环神经网络模型包括输入层、隐藏层和输出层,所述GRU为隐藏层节点。
如上所述的装置,所述第一关键词获取模块具体用于:
对所述微博事件对应的文本进行分词,得到I个第二关键词;
获取所述当前日之前的前j天中与所述微博事件相关的所有微博,并将所述所有微博对应的文本组成一个文档;j=1,2……J;
通过公式七和公式八获取各第二关键词的词频Ti
其中,tfi,j是第i个第二关键词相对于第j个文档的词频,ni,j表示第i个第二关键词在第j个文档中出现的次数;所述第j个文档为所述当前日之前的前j天中与所述微博事件相关的所有微博对应的文本组成的文档;
通过公式九获取各第二关键词的逆文档频率idf:
其中,|{j:ti∈Jj}|,表示包括第i个第二关键词的文档数目;
通过公式十获取各第二关键词的逆文档频率Fi
Fi=Ti×idfi 公式十;
按照逆文档频率Fi从大到小的顺序进行排序,将排序位于前K的K个第二关键词作为所述第一关键词。
本发明提供一种预测微博事件热度的方法及装置。本发明提供的预测微博事件热度的方法包括:获取与微博事件相关联的K个第一关键词,并获取各第一关键词各自在当前日的当前热度值;其中,K≥2,且K为正整数;以各当前热度值作为输入,通过基于门控循环单元GRU的循环神经网络模型预测得到所述微博事件在下一日的目标热度值。本发明的预测微博事件热度的方法及装置,对微博事件预测日的预测结果准确且预测耗时少。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的预测微博事件热度的方法的流程图;
图2为本发明提供的基于GRU的循环神经网络模型的示意图一;
图3为本发明提供的预测微博事件热度的装置实施例一的结构示意图;
图4为本发明提供的预测微博事件热度的装置实施例二的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现有技术中,预测微博事件热度的方法主要为采用单关键词对微博事件进行表示,根据该关键词的历史热度,通过ARIMA方法对微博事件在未来某个时刻的热度值进行预测。但是,上述预测微博事件热度的方法,只采用单个关键词微博事件进行表示,并根据该单个关键词的历史热度对微博事件在未来某个时刻的热度值进行预测,预测结果不准确。为了解决上述问题,本发明提出一种预测微博事件热度的方法及装置。下面对本发明进行详细的说明。
图1为本发明提供的预测微博事件热度的方法的流程图,如图1所示,本实施例的方法可以包括:
步骤S101、获取与微博事件相关联的K个第一关键词,并获取各第一关键词各自在当前日的当前热度值;其中,K≥2,且K为正整数;
步骤S102、以各当前热度值作为输入,通过基于门控循环单元GRU的循环神经网络模型预测得到微博事件在下一日的目标热度值。
具体地,对于微博事件,其为一件具体的微博,比如有关春运的一件微博。
其中,步骤“获取与微博事件相关联的K个第一关键词,的具体方法为:
(1)对微博事件对应的文本进行分词,得到I个第二关键词。
其中,文本分词的方法可以采用现有技术中的分词方法,优选为NLPIR分词方法。
(2)获取当前日之前的前j天中与微博事件相关的所有微博,并将所有微博对应的文本组成一个文档;j=1,2……J。
下面举例说明当前日之前的前j天的具体含义:当前日之前的日期也称为历史日;若当前日为今天,当前日之前的前1天指的是昨天,当前日之前的前2天指的是前天,依次类推。
获取当前日之前的前j天中与微博事件相关的所有微博,比如与题目“今日开始春运”的微博事件相关的所有微博,将该天中所有微博对应的文本组合在一起,得到一篇文档。每个历史日得到一篇文档,J个历史日就能得到J篇文档。
(3)通过公式七和公式八获取各第二关键词的词频Ti
其中,tfi,j是第i个第二关键词相对于第j个文档的词频,nij表示第i个第二关键词在第j个文档中出现的次数;第j个文档为当前日之前的前j天中与微博事件相关的所有微博对应的文本组成的文档;
词频(Term Frequency,TF)指的是某一个事件的关键词在微博对应的文档中出现的次数。
(4)通过公式九获取各第二关键词的逆文档频率idfi
其中,|{j:ti∈Jj}|,表示包括第i个第二关键词的文档数目;
某一关键词的逆文档频率(Inverse Document Frequency,IDF)越大,说明该关键词与对应文档的相关度更高。
(5)通过公式十获取各第二关键词的逆文档频率Fi
Fi=Ti×idfi 公式十;
按照逆文档频率Fi从大到小的顺序进行排序,将排序位于前K的K个第二关键词作为第一关键词。
在获取到了微博事件的K个第一关键词之后,接着获取各第一关键词在当前日的各自的当前热度值。
本实施例中,关键词的热度值指的是在某一天相关微博的数量。比如,题目为“今日开始春运”的微博事件,其中第一关键词为春运,则获取当前日中所有与“春运”相关的微博,当前日中所有与“春运”相关的微博的数量即为第一关键词“春运”的当前热度值。
接着,采用获取当前热度值相同的方法,获取各第一关键词在多个历史日各自对应的热度值hnk,n=1,2……N,N为正整数,k=1,2……K;其中,hnk表示第k个关键词在当前日之前的前n天的热度值;
根据第一关键词的热度值hnk,采用基于门控循环单元(Gated RecurrentUnit,简称GRU)的循环神经网络模型学习得到目标预测参数,其中,目标预测参数包括:输入层的节点和GRU之间的第一目标连接权重、GRU和输出层的节点之间的第二目标连接权重和GRU的目标向量参数。
其中,图2为本发明提供的基于GRU的循环神经网络模型的示意图。参见图2,基于GRU的循环神经网络模型包括输入层、隐藏层和输出层,GRU为隐藏层节点。输入层的节点11为K个,GRU12为M个,输出层节点13为1个,其中,K=M。以下描述中出现的m的取值范围为:m=1,2……M。
下面对获取目标预设参数的过程进行详细的说明。
初始化每个输入层的节点与每个GRU之间的第一连接权重w1,k,m,每个GRU与输出层节点的第二连接权重w1,m,o,每个GRU的向量参数:第一更新向量W1z、第二更新向量U1z、第一重置向量W1r、第二重置向量U1r、第一输出向量W1h和第二输出向量U1h、第三更新向量b1z、第三重置向量b1r、第三输出向量l1h和第四输出向量b1h;所有向量和向量中的元素均根据标准正态分布随机产生。
以hN,k作为第1次学习时的输入,以hN-1,k的实际权重平均作为第1次学习时的期望输出,根据初始化的第一连接权重w1,k,m(w1,k,m表示第1次学习时第k个输入节点与第m个GRU之间的第一连接权重)、第二连接权重w1,m,o(w1,m,o表示第1次学习时第m个GRU与输出层节点之间的第二连接权重)、GRU的第一更新向量W1z、第二更新向量U1z、第一重置向量W1r、第二重置向量U1r、第一输出向量W1h、第二输出向量U1h、第三更新向量b1z、第三重置向量b1r、第三输出向量l1h和第四输出向量b1h,采用基于GRU的循环神经网络模型学习得到的hN-1,k的预测权重平均PN-1,即第一学习输出层输出的为hN-1,k的预测权重平均PN-1;其中,在输出层得到PN-1时采用的预测函数为:PN-1=w1,m,og1,1+w1,2,.og1.2+....+w1,m,og1,m+...w1,M,og1,M,其中,g1,m为第1次学习第m个GRU单元的输出,也是输出层其中的一个输入,输出层一共具有M个输入,也就是说每个GRU的输出均为输出层的输入。相应地,hN-1,k的实际权重平均pN-1的计算方法为:pN-1=w1,1,ohN-1,1+w1,2,.ohN-1.2+....+w1,m,ohN-1,k+...wM,ohN-1,K
在学习得到PN-1后,获取PN-1与pN-1的平方误差L1:L1=(pN-1-PN-1)2,根据L1采用误差反向传播算法更新第一连接权重w1,k,m,第二连接权重w1,m,o,第一更新向量W1z、第二更新向量U1z、第一重置向量W1r、第二重置向量U1r、第一输出向量W1h、第二输出向量U1h、第三更新向量b1z、第三重置向量b1r、第三输出向量l1h和第四输出向量b1h,得到第2次学习时的第一连接权重w2,k,m,第二连接权重w2,m,o,第一更新向量W2z、第二更新向量U2z、第一重置向量W2r、第二重置向量U2r、第一输出向量W2h、第二输出向量U2h、第三更新向量b2z、第三重置向量b2r、第三输出向量l2h和第四输出向量b2h
以hN-1,k作为第2次学习时的输入,以hN-2,k的实际权重平均作为第2次学习时的期望输出,根据第一连接权重w2,k,m(w2,k,m表示第2次学习时第k个输入节点与第m个GRU之间的第一连接权重)、第二连接权重w2,m,o(w2,m,o表示第2次学习时第m个GRU与输出层节点之间的第二连接权重)、第一更新向量W2z、第二更新向量U2z、第一重置向量W2r、第二重置向量U2r、第一输出向量W2h、第二输出向量U2h、第三更新向量b2z、第三重置向量b2r、第三输出向量l2h和第四输出向量b2h,采用基于GRU的循环神经网络模型学习得到的hN-2,k的预测权重平均PN-2,即第一学习输出层输出的为hN-2,k的预测权重平均PN-2;其中,在输出层得到PN-2时采用的预测函数为:PN-2=w2,1,og2,1+w2,2,.og2.2+....+w2,m,og2,m+...w2,M,og2,M,其中,g2,m为第2次学习时第m个GRU单元的输出。相应地,hN-2,k的实际权重平均pN-2的计算方法为:pN-2=w2,m,ohN-2,1+w2,2,ohN-2.2+....+w2,m,ohN-2,k+...w2,M,ohN-2,K
……
根据第n-1次学习时的输出PN-n+1与hN-n+1,k的实际权重平均pN-n+1的平方误差Ln-1,采用误差反向传播算法对第n-1次学习时对应的第一连接权重wn-1,k,m、第二连接权重wn-1,m,o和GRU的第一更新向量Wn-1,z、第二更新向量Un-1,z、第一重置向量Wn-1,r、第二重置向量Un-1,r、第一输出向量Wn-1,h、第二输出向量Un-1,h、第三更新向量bn-1,z、第三重置向量bn-1,r、第三输出向量ln-1,h和第四输出向量bn-1,h进行更新,得到第n次学习时对应的第一连接权重wn,k,m、第二连接权重wn,m,o和GRU的第一更新向量Wnz、第二更新向量Unz、第一重置向量Wnr、第二重置向量Unr、第一输出向量Wnh、第二输出向量Unh、第三更新向量bnz、第三重置向量bnr、第三输出向量lnh和第四输出向量bnh;其中,第n-1次学习时的输出为hN-n+1,k的预测权重平均,wn,k,m表示第n次学习时对应的第k个输入节点与第m个GRU之间的第一连接权重,wn,m,o表示第n次学习时第m个GRU与输出层节点之间的第二连接权重;
以hN-n+1,k作为第n次学习时的输入,以hN-n,k的实际权重平均pN-n作为第n次学习时的期望输出,根据得到的第n次学习时的第一连接权重wn,k,m、第二连接权重wn,m,o和GRU的第一更新向量Wnz、第二更新向量Unz、第一重置向量Wnr、第二重置向量Unr、第一输出向量Wnh和第二输出向量Unh、第三更新向量bnz、第三重置向量bnr、第三输出向量lnh和第四输出向量bnh,采用基于GRU的循环神经网络模型学习得到的hN-n,k的预测权重平均PN-n
根据hN-n,k的预测权重平均PN-n与hN-n,k的实际权重平均pN-n的平方误差Ln,采用误差反向传播算法对第n次学习时对应的第一连接权重wn,k,m、第二连接权重wn,m,o和GRU的第一更新向量Wnz、第二更新向量Unz、第一重置向量Wnr、第二重置向量Unr、第一输出向量Wnh、第二输出向量Unh、第三更新向量bnz、第三重置向量bnr、第三输出向量lnh和第四输出向量bnh进行更新,得到第n+1次学习时第一连接权重wn+1,k,m、第二连接权重wn+1,m,o和GRU的第一更新向量Wn+1,z、第二更新向量Un+1,z、第一重置向量Wn+1,r、第二重置向量Un+1,r、第一输出向量Wn+1,h、第二输出向量Un+1,h、第三更新向量bn+1,z、第三重置向量bn+1,r、第三输出向量ln+1,h和第四输出向量bn+1,h
重复执行更新相应学习次数对应的第一连接权重、第二连接权重和GRU的向量参数的操作,直至学习次数达到N次,将对第N次学习时对应的第一连接权重wN,k,m、第二连接权重wN,m,o和GRU的第一更新向量WN,z、第二更新向量UN,z、第一重置向量WN,r、第二重置向量UN,r、第一输出向量WN,h、第二输出向量UN,h、第三更新向量bN,z和第三重置向量bN,r、第三输出向量lN,h和第四输出向量bN,h进行更新后得到的第一目标连接权重wN+1,k,m、第一目标连接权重wN+1,m,o和GRU的第一目标更新向量Wz、第二目标更新向量Uz、第一目标重置向量Wr、第二目标重置向量Ur、第一目标输出向量Wh、第二目标输出向量Uh、第三目标更新向量bz、第三目标重置向量br、第三目标输出向量lh和第四目标输出向量bh作为目标预测参数。
本领域技术人员可以理解的是,N的取值应该尽可能的大,以使各目标预测参数趋于收敛。每次学习采用的预测函数和平方误差的获取公式均相同。
在得到了目标预测参数后,便以各当前热度值作为输入,根据目标预测参数,通过基于GRU的循环神经网络模型预测得到微博事件在下一日的目标热度值。
下面对获取目标热度值的方法进行详细的说明。
其中,目标向量参数包括:第一目标更新向量Wz、第二目标更新向量Uz、第一目标重置向量Wr、第二目标重置向量Ur、第一目标输出向量Wh和第二目标输出向量Uh、第三目标更新向量bz、第三目标重置向量br、第三目标输出向量lh和第四目标输出向量bh
将各第一关键词的各自的当前热度值输入至输入层;
通过公式一获取第m个GRU的输入xo,m
xo,m=w1.mho,1+w2,.mho,2+....+wk,.mho,k+...wK,.mho,K 公式一;
其中,ho,k为第k个第一关键的当前热度值,wk,m为第k个输入节点和第m个GRU的第一目标连接权重;wk,m与wN+1,k,m相同;
采用GRU的更新子单元,通过公式二获取更新比例zm
zm=σg(Wzxo,m+Uzh1+bz) 公式二;
其中,h1为获取目标预测参数的过程中,第N-1次学习得到的h1,k的预测权重平均,也就是第N-1次学习时的输出,σg表示sigmoid函数;
采用GRU的重置子单元,通过公式三获取第m个GRU的重置比例rm
rm=σg(Wrxo,m+Urh1+br) 公式三;
采用GRU的第一生成子单元,通过公式四获取第m个GRU的第一输出热度值gm
其中,表示哈达马乘积,σh表示双曲线Hyperbolic函数;
采用GRU的第二生成子单元,通过公式五获取第m个GRU的第二输出热度值Gm
将Gm作为输出层的输入,在输出层采用预测函数公式运算得到目标热度值P,预测函数公式为:
P=w1,og1+w2,.og2+....+wm,ogm+...wM,ogM 公式六;
其中,wm,o为第m个GRU与输出节点之间的第二目标连接权重;wm,o和wN+1,m,o相同。
在本实施例中,采用多关键词的历史热度趋势预测微博事件的未来某一时刻的热度,可以使预测结果更准确;根据多个关键词的历史热度值,利用基于GRU的循环神经网络模型,预测微博事件的预测日的热度,计算量小且准确,而且不仅考虑到了预测日前一天的该微博事件的热度,还考虑到了预测日前2天的该微博事件的热度,进一步保证了预测结果的准确性。
在获取到微博事件在预测日的热度值后,可以根据微博事件在预测日的热度值与微博事件在预测日的前一日的热度值的大小关系,确定微博事件的热度趋势,若预测日的热度值大于前一日的热度值,说明微博事件在预测日的热度相对于前一日的热度上升,反之,说明博事件在预测日的热度相对于前一日的热度下降。
本实施例的预测微博事件热度的方法包括:获取与微博事件相关联的K个第一关键词,并获取各第一关键词各自在当前日的当前热度值;其中,K≥2,且K为正整数;以各当前热度值作为输入,通过基于门控循环单元GRU的循环神经网络模型预测得到微博事件在下一日的目标热度值。本实施例的预测微博事件热度的方法预测结果准确且预测耗时少。
图3为本发明提供的预测微博事件热度的装置实施例一的结构示意图,如图3所示,本实施例的装置可以包括:第一关键词获取模块31、热度值获取模块32和目标热度值预测模块33,其中,第一关键词获取模块31用于获取与微博事件相关联的K个第一关键词;热度值获取模块32用于获取各第一关键词各自在当前日的当前热度值;其中,K≥2,且K为正整数;目标热度值预测模块33用于以各当前热度值作为输入,通过基于门控循环单元GRU的循环神经网络模型预测得到微博事件在下一日的目标热度值。
其中,第一关键词获取模块具体用于:
对微博事件对应的文本进行分词,得到I个第二关键词;
获取当前日之前的前j天中与微博事件相关的所有微博,并将所有微博对应的文本组成一个文档;j=1,2……J;
通过公式七和公式八获取各第二关键词的词频Ti
其中,tfi,j是第i个第二关键词相对于第j个文档的词频,ni,j表示第i个第二关键词在第j个文档中出现的次数;第j个文档为当前日之前的前j天中与微博事件相关的所有微博对应的文本组成的文档;
通过公式九获取各第二关键词的逆文档频率idfi
其中,|{j:ti∈Jj}|,表示包括第i个第二关键词的文档数目;
通过公式十获取各第二关键词的逆文档频率Fi
Fi=Ti×idfi 公式十;
按照逆文档频率Fi从大到小的顺序进行排序,将排序位于前K的K个第二关键词作为第一关键词。
本实施例的装置,可以用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图4为本发明提供的预测微博事件热度的装置实施例二的结构示意图,如图4所示,本实施例的装置在图3所示装置结构的基础上,进一步地,还可以包括:目标预测参数获取模块34。其中,热度值获取模块32还用于获取各第一关键词在多个历史日各自对应的热度值hnk,n=1,2……N,N为正整数,k=1,2……K;其中,hnk表示第k个关键词在当前日之前的前n天的热度值;目标预测参数获取模块34用于根据第一关键词的热度值hnk,采用基于GRU的循环神经网络模型学习得到目标预测参数,其中,目标预测参数包括:输入层的节点和GRU之间的第一目标连接权重、GRU和输出层的节点之间的第二目标连接权重和GRU的目标向量参数;基于GRU的循环神经网络模型包括输入层、隐藏层和输出层,GRU为隐藏层节点。
其中,目标预测参数获取模块34具体用于根据基于GRU的循环神经网络模型的第n-1次学习时的输出与hN-n+1k的实际权重平均的平方误差,采用误差反向传播算法对第n-1次学习时对应的第一连接权重wn-1,k,m、第二连接权重wn-1,m,o和GRU的向量参数进行更新,得到第n次学习时对应的第一连接权重wn,k,m、第二连接权重wn,m,o和GRU的向量参数;其中,第n-1次学习时的输出为hN-n+1,k的预测权重平均,wn,k,m表示第n次学习时对应的第k个输入节点与第m个GRU之间的第一连接权重,wn,m,o表示第n次学习时第m个GRU与输出层节点之间的第二连接权重,m=1,2……M;
以hN-n+1,k作为第n次学习时的输入,以hN-n,k的实际权重平均作为第n次学习时的期望输出,根据得到的第n次学习时的第一连接权重wn,k,m、第二连接权重wn,m,o和GRU的向量参数,采用基于GRU的循环神经网络模型学习得到的hN-n,k的预测权重平均;
根据hN-n,k的预测权重平均与hN-n,k的实际权重平均的平方误差,采用误差反向传播算法对第n次学习时对应的第一连接权重wn,k,m、第二连接权重wn,m,o和GRU的向量参数进行更新,得到第n+1次学习时第一连接权重wn+1,k,m、第二连接权重wn+1,m,o和GRU的向量参数;
重复执行更新相应学习次数对应的第一连接权重、第二连接权重和GRU的向量参数的操作,直至学习次数达到N次,将对第N次学习时对应的GRU的向量参数和第一连接权重wN,k,m、第二连接权重wN,m,o进行更新后得到的第一连接权重wN+1,k,m、第二连接权重wN+1,m,o和GRU的向量参数作为目标预测参数。
目标热度值预测模块33具体用于,通过公式一获取第m个GRU的输入xo,m
xo,m=w1.mho,1+w2,.mho,2+....+wk,.mho,k+...wK,.mho,K 公式一;
其中,ho,k为第k个第一关键的当前热度值,wk,m为第k个输入节点和第m个GRU的第一目标连接权重;wN+1,k,m和wk,m相同;
采用GRU的更新子单元,通过公式二获取第m个GRU的更新比例zm
zm=σg(Wzxo,m+Uzh1+bz) 公式二;
其中,h1为获取目标预测参数的过程中,第N-1次学习得到的h1,k的预测权重平均,σg表示sigmoid函数;
采用GRU的重置子单元,通过公式三获取第m个GRU的重置比例rm
rm=σg(Wrxo,m+Urh1+br) 公式三;
采用GRU的第一生成子单元,通过公式四获取第m个GRU的第一输出热度值gm
其中,表示哈达马乘积,σh表示双曲线Hyperbolic函数;
采用GRU的第二生成子单元,通过公式五获取第m个GRU的第二输出热度值Gm
将Gm作为输出层的输入,在输出层采用预测函数公式运算得到目标热度值P,预测函数公式为:
P=w1,og1+w2,.og2+....+wm,ogm+...wM,ogM 公式六;
其中,wm,o为第m个GRU与输出节点之间的第二目标连接权重,wN+1,m,o和wm,o相同。
本实施例的装置,可以用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (8)

1.一种预测微博事件热度的方法,其特征在于,包括:
获取与微博事件相关联的K个第一关键词,并获取各第一关键词各自在当前日的当前热度值;其中,K≥2,且K为正整数;
以各所述当前热度值作为输入,通过基于门控循环单元GRU的循环神经网络模型预测得到所述微博事件在下一日的目标热度值。
2.根据权利要求1所述的方法,其特征在于,所述基于GRU的循环神经网络模型包括输入层、隐藏层和输出层,所述GRU为隐藏层节点;
在所述以各当前热度值作为输入,通过GRU的循环神经网络模型预测得到所述微博事件在下一日的目标热度值之前,所述方法还包括:
获取各所述第一关键词在多个历史日各自对应的热度值hn,k,n=1,2……N,N为正整数,k=1,2……K;其中,hnk表示第k个关键词在所述当前日之前的前n天的热度值;
根据所述第一关键词的热度值hn,k,采用基于GRU的循环神经网络模型学习得到目标预测参数,其中,所述目标预测参数包括:所述输入层的节点和所述GRU之间的第一目标连接权重、GRU和所述输出层的节点之间的第二目标连接权重和GRU的目标向量参数;
相应地,所述以各当前热度值作为输入,采用基于GRU的循环神经网络模型预测得到所述微博事件在下一日的目标热度值,包括:
以各当前热度值作为输入,根据所述目标预测参数,通过基于GRU的循环神经网络模型预测得到所述微博事件在下一日的目标热度值。
3.根据权利要求2所述的方法,其特征在于,所述输入层的节点为K个,所述GRU为M个,所述输出层节点为1个,其中,K=M;
所述根据所述第一关键词的热度值hn,k,采用基于GRU的循环神经网络模型学习得到目标预测参数,包括:
根据所述基于GRU的循环神经网络模型的第n-1次学习时的输出与hN-n+1,k的实际权重平均的平方误差,采用误差反向传播算法对第n-1次学习时对应的第一连接权重wn-1,k,m、第二连接权重wn-1,m,o和GRU的向量参数进行更新,得到第n次学习时对应的第一连接权重wn,k,m、第二连接权重wn,m,o和GRU的向量参数;其中,所述第n-1次学习时的输出为hN-n+1,k的预测权重平均,wn,k,m表示第n次学习时对应的第k个输入节点与第m个GRU之间的第一连接权重,wn,m,o表示第n次学习时第m个GRU与输出层节点之间的第二连接权重,m=1,2……M;
以hN-n+1,k作为第n次学习时的输入,以hN-n,k的实际权重平均作为第n次学习时的期望输出,根据得到的第n次学习时的第一连接权重wn,k,m、第二连接权重wn,m,o和GRU的向量参数,采用基于GRU的循环神经网络模型学习得到的hN-n,k的预测权重平均;
根据hN-n,k的预测权重平均与hN-n,k的实际权重平均的平方误差,采用误差反向传播算法对第n次学习时对应的第一连接权重wn,k,m、第二连接权重wn,m,o和GRU的向量参数进行更新,得到第n+1次学习时第一连接权重wn+1,k,m、第二连接权重wn+1,m,o和GRU的向量参数;
重复执行更新相应学习次数对应的第一连接权重、第二连接权重和GRU的向量参数的操作,直至学习次数达到N次,将对第N次学习时对应的GRU的向量参数和第一连接权重wN,k,m、第二连接权重wN,m,o进行更新后得到的第一连接权重wN+1,k,m、第二连接权重wN+1,m,o和GRU的向量参数作为所述目标预测参数。
4.根据权利要求3所述的方法,其特征在于,所述目标向量参数包括:第一目标更新向量Wz、第二目标更新向量Uz、第一目标重置向量Wr、第二目标重置向量Ur、第一目标输出向量Wh、第二目标输出向量Uh、第三目标更新向量bz、第三目标重置向量br、第三目标输出向量lh和第四目标输出向量bh
所述以各当前热度值作为输入,根据所述目标预测参数,通过基于门控循环单元GRU的循环神经网络模型预测得到所述微博事件在下一日的目标热度值,包括:
将各所述第一关键词的各自的当前热度值输入至输入层;
通过公式一获取第m个GRU的输入xo,m
xo,m=w1.mho,1+w2,.mho,2+....+wk,.mho,k+...wK,.mho,K 公式一;
其中,ho,k为第k个第一关键的当前热度值,wk,m为第k个输入节点和第m个GRU的第一目标连接权重;wN+1,k,m和wk,m相同;
采用所述GRU的更新子单元,通过公式二获取第m个GRU的更新比例zm
zm=σg(Wzxo,m+Uzh1+bz) 公式二;
其中,h1为获取目标预测参数的过程中,第N-1次学习得到的h1k的预测权重平均,σg表示sigmoid函数;
采用所述GRU的重置子单元,通过公式三获取第m个GRU的重置比例rm
rm=σg(Wrxo,m+Urh1+br) 公式三;
采用所述GRU的第一生成子单元,通过公式四获取第m个GRU的第一输出热度值gm
其中,表示哈达马乘积,σh表示双曲线Hyperbolic函数;
采用所述GRU的第二生成子单元,通过公式五获取第m个GRU的第二输出热度值Gm
将所述Gm作为输出层的输入,在输出层采用预测函数公式运算得到目标热度值P,所述预测函数公式为:
P=w1,og1+w2,.og2+....+wmgm+...wM,ogM 公式六;
其中,wm,o为第m个GRU与输出节点之间的第二目标连接权重,wN+1,m,o和wm,o相同。
5.根据权利要求1所述的方法,其特征在于,所述获取与微博事件相关联的K个第一关键词,包括:
对所述微博事件对应的文本进行分词,得到I个第二关键词;
获取所述当前日之前的前j天中与所述微博事件相关的所有微博,并将所述所有微博对应的文本组成一个文档;j=1,2……J;
通过公式七和公式八获取各第二关键词的词频Ti
其中,tfi,j是第i个第二关键词相对于第j个文档的词频,ni,j表示第i个第二关键词在第j个文档中出现的次数;所述第j个文档为所述当前日之前的前j天中与所述微博事件相关的所有微博对应的文本组成的文档;
通过公式九获取各第二关键词的逆文档频率idfi
其中,|{j:ti∈Jj}|,表示包括第i个第二关键词的文档数目;
通过公式十获取各第二关键词的逆文档频率Fi
Fi=Ti×idfi 公式十;
按照逆文档频率Fi从大到小的顺序进行排序,将排序位于前K的K个第二关键词作为所述第一关键词。
6.一种预测微博事件热度的装置,其特征在于,包括:
第一关键词获取模块,所述第一关键词获取模块用于获取与微博事件相关联的K个第一关键词;
热度值获取模块,所述热度值获取模块用于获取各第一关键词各自在当前日的当前热度值;其中,K≥2,且K为正整数;
目标热度值预测模块,所述目标热度值预测模块用于以各所述当前热度值作为输入,通过基于门控循环单元GRU的循环神经网络模型预测得到所述微博事件在下一日的目标热度值。
7.根据权利要求6所述的装置,其特征在于,所述热度值获取模块还用于获取各所述第一关键词在多个历史日各自对应的热度值hnk,n=1,2……N,N为正整数,k=1,2……K;其中,hn,k表示第k个关键词在所述当前日之前的前n天的热度值;
所述装置还包括:
目标预测参数获取模块,所述目标预测参数获取模块用于根据所述第一关键词的热度值hnk,采用基于GRU的循环神经网络模型学习得到目标预测参数,其中,所述目标预测参数包括:所述输入层的节点和所述GRU之间的第一目标连接权重、GRU和所述输出层的节点之间的第二目标连接权重和GRU的目标向量参数;
其中,所述基于GRU的循环神经网络模型包括输入层、隐藏层和输出层,所述GRU为隐藏层节点。
8.根据权利要求6所述的装置,其特征在于,所述第一关键词获取模块具体用于:
对所述微博事件对应的文本进行分词,得到I个第二关键词;
获取所述当前日之前的前j天中与所述微博事件相关的所有微博,并将所述所有微博对应的文本组成一个文档;j=1,2……J;
通过公式七和公式八获取各第二关键词的词频Ti
其中,tfi,j是第i个第二关键词相对于第j个文档的词频,ni,j表示第i个第二关键词在第j个文档中出现的次数;所述第j个文档为所述当前日之前的前j天中与所述微博事件相关的所有微博对应的文本组成的文档;
通过公式九获取各第二关键词的逆文档频率idfi
其中,|{j:ti∈Jj}|,表示包括第i个第二关键词的文档数目;
通过公式十获取各第二关键词的逆文档频率Fi
Fi=Ti×idfi 公式十;
按照逆文档频率Fi从大到小的顺序进行排序,将排序位于前K的K个第二关键词作为所述第一关键词。
CN201710059472.8A 2017-01-24 2017-01-24 预测微博事件热度的方法及装置 Pending CN106897388A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710059472.8A CN106897388A (zh) 2017-01-24 2017-01-24 预测微博事件热度的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710059472.8A CN106897388A (zh) 2017-01-24 2017-01-24 预测微博事件热度的方法及装置

Publications (1)

Publication Number Publication Date
CN106897388A true CN106897388A (zh) 2017-06-27

Family

ID=59199247

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710059472.8A Pending CN106897388A (zh) 2017-01-24 2017-01-24 预测微博事件热度的方法及装置

Country Status (1)

Country Link
CN (1) CN106897388A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107944610A (zh) * 2017-11-17 2018-04-20 平安科技(深圳)有限公司 预测事件流行度方法、服务器及计算机可读存储介质
CN108182239A (zh) * 2017-12-27 2018-06-19 成都寻道科技有限公司 一种文章热度预测系统及预测方法
CN109508416A (zh) * 2018-11-09 2019-03-22 四川大学 基于评论数量的微博舆情事件热度与发展趋势预测方法
CN109886387A (zh) * 2019-01-07 2019-06-14 北京大学 一种基于门控网络和梯度提升回归的交通时序预测方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107944610A (zh) * 2017-11-17 2018-04-20 平安科技(深圳)有限公司 预测事件流行度方法、服务器及计算机可读存储介质
CN108182239A (zh) * 2017-12-27 2018-06-19 成都寻道科技有限公司 一种文章热度预测系统及预测方法
CN109508416A (zh) * 2018-11-09 2019-03-22 四川大学 基于评论数量的微博舆情事件热度与发展趋势预测方法
CN109508416B (zh) * 2018-11-09 2021-11-23 四川大学 基于评论数量的微博舆情事件热度与发展趋势预测方法
CN109886387A (zh) * 2019-01-07 2019-06-14 北京大学 一种基于门控网络和梯度提升回归的交通时序预测方法

Similar Documents

Publication Publication Date Title
US11544573B2 (en) Projection neural networks
CN110457589B (zh) 一种车辆推荐方法、装置、设备及存储介质
EP3711000B1 (en) Regularized neural network architecture search
WO2019218263A1 (zh) 基于极限学习机的极限ts模糊推理方法及系统
US11941527B2 (en) Population based training of neural networks
Lee et al. Scalable deep learning-based recommendation systems
Marichelvam An improved hybrid Cuckoo Search (IHCS) metaheuristics algorithm for permutation flow shop scheduling problems
Singh et al. Layer-specific adaptive learning rates for deep networks
Chien et al. Deep unfolding for topic models
EP3574454A1 (en) Learning neural network structure
CN109840833B (zh) 贝叶斯协同过滤推荐方法
CN106897388A (zh) 预测微博事件热度的方法及装置
Navgaran et al. Evolutionary based matrix factorization method for collaborative filtering systems
CN108921342B (zh) 一种物流客户流失预测方法、介质和系统
Mu et al. Stochastic gradient made stable: A manifold propagation approach for large-scale optimization
WO2020220757A1 (zh) 基于强化学习模型向用户推送对象的方法和装置
CN114298851A (zh) 基于图表征学习的网络用户社交行为分析方法、装置及存储介质
CN114116995B (zh) 基于增强图神经网络的会话推荐方法、系统及介质
CN110232151A (zh) 一种混合概率分布检测的QoS预测模型的构建方法
CN114691838A (zh) 聊天机器人搜索推荐模型的训练、推荐方法及电子设备
CN116975686A (zh) 训练学生模型的方法、行为预测方法和装置
CN116611731A (zh) 一种评分模型训练方法、用户推送方法及装置
Ding et al. Efficient model-based collaborative filtering with fast adaptive PCA
CN116094977A (zh) 基于时间感知面向特征优化的服务Qos预测的深度学习方法
CN114860939A (zh) 文本分类模型的训练方法、装置、设备和计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170627

RJ01 Rejection of invention patent application after publication