CN111079084A - 一种基于长短时记忆网络的信息转发概率预测方法及系统 - Google Patents
一种基于长短时记忆网络的信息转发概率预测方法及系统 Download PDFInfo
- Publication number
- CN111079084A CN111079084A CN201911229629.2A CN201911229629A CN111079084A CN 111079084 A CN111079084 A CN 111079084A CN 201911229629 A CN201911229629 A CN 201911229629A CN 111079084 A CN111079084 A CN 111079084A
- Authority
- CN
- China
- Prior art keywords
- information
- model
- long
- memory network
- browsing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000015654 memory Effects 0.000 title claims abstract description 67
- 238000000034 method Methods 0.000 title claims abstract description 67
- 238000012549 training Methods 0.000 claims abstract description 37
- 230000007787 long-term memory Effects 0.000 claims abstract description 25
- 239000013598 vector Substances 0.000 claims description 71
- 230000006403 short-term memory Effects 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 9
- 238000007477 logistic regression Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 238000004891 communication Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000003993 interaction Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011056 performance test Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Optimization (AREA)
- Business, Economics & Management (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供一种基于长短时记忆网络的信息转发概率预测方法及系统,该方法包括:根据用户当前浏览的目标信息和预设历史时间段内浏览的若干条历史信息,获取浏览信息序列;根据所述浏览信息序列和训练后的预测模型,获取所述目标信息的转发概率,训练后的预测模型是基于浏览信息序列样本数据和预设的浏览信息序列标签进行训练后得到,预测模型包括文本模型,所述文本模型用于获取所述浏览信息序列中每一信息的文本信息。本发明实施例提供的一种基于长短时记忆网络的信息转发概率预测方法及系统,通过文本模型充分利用信息的文本内容,更好地提升预测模型的准确性和预测模型自身的可拓展性,从而提高了转发概率的预测精度。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于长短时记忆网络的信息转发概率预测方法及系统。
背景技术
社交网络在中国迅速发展,成为人们生活中不可缺少的部分。根据2018年第四季度公开的数据,某社交网络的月活跃用户达4.46亿,日活跃用户超过2亿。层出不穷的社交网络平台已经逐渐成为了新闻和信息传播的主要媒介。其中,新的在线社交网络中的信息传播机制逐渐成为研究热点。自然灾害预警、公共信息、广告营销都是以一种新的形式于在线社交网络平台中迅速传播。因此研究信息在社交网络中的传播,预测用户转发一条信息的概率具有非常重要的意义。
Myers等人率先基于IP(全称Infection Probability)模型,考虑多信息之间相互影响,对用户转发一条信息的概率进行了建模,提出了IMM(全称Information MixingModel)模型,但是IMM模型忽略了信息的文本内容,在IMM模型当中并未引入文本内容的分析,每一个信息的类别表示也是通过学习的办法得到的,从而导致IMM模型的预测精度较低。
发明内容
为了解决上述问题,本发明实施例提供一种基于长短时记忆网络的信息转发概率预测方法及系统。
第一方面,本发明实施例提供一种基于长短时记忆网络的信息转发概率预测方法,包括:
根据用户当前浏览的目标信息和预设历史时间段内浏览的若干条历史信息,获取浏览信息序列;
根据所述浏览信息序列和训练后的预测模型,获取所述目标信息的转发概率,训练后的预测模型是基于浏览信息序列样本数据和预设的浏览信息序列标签进行训练后得到,预测模型包括文本模型,所述文本模型用于获取所述浏览信息序列中每一信息的文本信息。
优选地,所述预测模型还包括信息长短时记忆网络模型,所述信息长短时记忆网络模型位于所述文本模型之后,所述信息长短时记忆网络模型包括长短时记忆网络模块和预测模块,其中:
所述长短时记忆网络模块用于根据所述浏览信息序列中每一信息对应的句向量,获取输出向量;
所述预测模块用于对所述输出向量进行逻辑斯蒂回归处理,获取所述目标信息的转发概率。
优选地,所述长短时记忆网络模块还用于通过Dropout技术对所述输出向量进行过处理,将处理后的结果重新作为所述输出向量。
优选地,所述预测模块用于对所述输出向量进行逻辑斯蒂回归处理,获取所述目标信息的转发概率,具体包括:
其中,P(X|Y1,…,YK)表示所述目标信息的转发概率,q表示所述输出向量,w为权重向量。
优选地,所述长短时记忆网络模块还用于通过Dropout技术对所述输出向量进行过处理,将处理后的结果重新作为所述输出向量,具体包括:
优选地,训练后的预测模型通过如下方法获得:
根据所述浏览信息序列样本数据和所述文本模型,获取浏览信息序列样本的句向量;
根据浏览信息序列样本的句向量和所述浏览信息序列标签,对所述信息长短时记忆网络模型进行训练,获取训练后的信息长短时记忆网络模型;
将所述文本模型和训练后的信息长短时记忆网络模型作为训练后的预测模型。
优选地,训练后的预测模型通过如下方法获得:
根据所述浏览信息序列样本数据和所述浏览信息序列标签,对所述文本模型和所述信息长短时记忆网络模型进行训练,获取训练后的文本模型和训练后的信息长短时记忆网络模型;
将训练后的文本模型和训练后的信息长短时记忆网络模型作为训练后的预测模型。
第二方面,本发明实施例提供一种基于长短时记忆网络的信息转发概率预测系统,包括:
序列模块,用于根据用户当前浏览的目标信息和预设历史时间段内浏览的若干条历史信息,获取浏览信息序列;
转发模块,用于根据所述浏览信息序列和训练后的预测模型,获取所述目标信息的转发概率,训练后的预测模型是基于浏览信息序列样本数据和预设的浏览信息序列标签进行训练后得到,预测模型包括文本模型,所述文本模型用于获取所述浏览信息序列中每一信息的文本信息。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现本发明第一方面提供的一种基于长短时记忆网络的信息转发概率预测方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现本发明第一方面提供的一种基于长短时记忆网络的信息转发概率预测方法的步骤。
本发明实施例提供的一种基于长短时记忆网络的信息转发概率预测方法及系统,通过文本模型充分利用信息的文本内容,更好地提升预测模型的准确性和预测模型自身的可拓展性,从而提高了转发概率的预测精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供一种基于长短时记忆网络的信息转发概率预测方法的流程图;
图2为本发明实施例中每个模型的F1和AUC两个指标比较示意图;
图3为本发明实施例提供的一种基于长短时记忆网络的信息转发概率预测系统的结构示意图;
图4为本发明实施例提供的一种电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在社交网络当中,海量的信息往往不是简单独立地在社交网络中传播。相关的信息之间相互影响和耦合,存在着增强或抑制的作用,从而形成多信息共存的复杂传播过程。因此,研究多信息的传播过程,对于如何更加迅速、准确地传播有益的信息,而有效地限制有害的谣言、不良信息等问题都具有重要的意义。
现有技术中常见的IMM模型考虑多信息之间相互影响,对用户转发一条信息的概率进行了建模。
在介绍IMM模型之前,先介绍最基础的IP模型:
最为简单的预测用户转发信息的概率是IP模型。该模型假定所有用户是同质的,即对于一个同一个信息u,所有用户转发它的概率均为Pu。IP模型采用所有看到信息u用户中,转发此信息的用户比例来近似转发概率Pu,即:
IMM模型预测信息转发概率方法的具体步骤如下:
步骤一、用户浏览信息序列及转发信息概率建模。
IMM模型中假定共有N条信息在社交网络中共同传播,其中每一条信息被标记为ui,i=1,…,N。对于每一条信息ui,根据IP模型,都有其独立传播情况下固有的转发概率令随机变量X代表用户当前浏览到的目标信息,{Yk},k=1,…,K是在浏览X之前用户浏览过的第k条信息。实际用户转发此信息的概率会受到之前浏览过的K条信息的影响,变为P(X|Y1,…,YK)。基于浏览过的信息Yk对转发信息X的影响是相互独立的假设,此概率可以被拆分为
式中,叠加项被称为信息交互项,它代表了在浏览到信息X之前第k条浏览的是信息Yk对于转发信息X概率的影响。当时有P(X|Yk)>P(X),即信息Yk使得转发信息X的概率提高,从而促进了后者的传播;反之,当时有P(X|Yk)<P(X),即浏览信息Yk会降低转发X的概率,因此信息Yk抑制了信息X的传播。
步骤二、信息的类别表示与问题简化。
假设数据集中一共有N条信息,考虑到数据集中的信息数量往往非常多,因此需要确定信息影响矩阵的参数数量K×N2过于庞大。为解决此问题,可以采用信息的类别表示的方法。对于任意信息ui,可以采用一个T维潜在类别向量Mi来表述(T<<N)。该向量的每一个维度代表了一个信息的潜在类别,而在第t维度上的值Mi,t则代表了该信息在第t个潜在类别ct中所占的比例,因此有且定义类别影响矩阵其第r行、第s列的元素表示当第s类别信息出现在第r类信息之前k个时,对后者转发概率的影响大小。据此,可以得到间隔k条的信息uj对于信息ui影响的类别表示为
在这种情况下,每个信息的T维类别表示(N×T个参数)和类别影响矩阵(K×T2个参数)需要确定。这样需要确定的参数总数维N×T+K×T2个参数需要确定。当T<<N时,需要确定的参数数量被大幅度减小。
步骤三、参数的学习。
采用随机梯度下降的方式使得-L取得最小化的Mi,i=1,…,N和即为最终解。根据以上公式便可以利用训练数据集训练得到所有参数。经过测试集的验证,IMM模型在在预测用户转发信息概率任务中取得了良好的效果,AUC指标相较于IP模型提升了4倍。
但是,IMM模型忽略了信息的文本内容。在实际社交网络中,海量的信息是由文本所构成或者包含了文本信息的。正是因为这些文本信息的相互作用,才使用户对于后浏览的信息转发概率发生了变化。在IMM模型当中并未引入文本内容的分析。
针对该问题,图1为本发明实施例提供一种基于长短时记忆网络的信息转发概率预测方法的流程图,如图1所示,该方法包括:
S1,根据用户当前浏览的目标信息和预设历史时间段内浏览的若干条历史信息,获取浏览信息序列;
S2,根据所述浏览信息序列和训练后的预测模型,获取所述目标信息的转发概率,训练后的预测模型是基于浏览信息序列样本数据和预设浏览信息序列标签进行训练后得到,预测模型包括文本模型,所述文本模型用于获取所述浏览信息序列中每一信息的文本信息。
首先获取用户当前正在浏览的目标信息和前一段时间内(也就是预设历史时间段内)浏览的每一条历史信息,该目标信息和每一条历史信息组成了浏览信息序列,然后将浏览信息序列输入到训练后的预测模型中,就可以预测出该目标信息的转发概率。
通过预测出的目标信息的转发概率,通过进一步处理,可以判断用户是否会对该目标信息进行转发,也可以判断用户是否对该目标信息感兴趣,或者计算转发流量等。
具体地,训练后的预测模型是由浏览信息序列样本数据和预设的浏览序列标签对预测模型进行训练后得到。
本发明实施例中预测模型包括文本模型,文本模型用于获取输入预测模型中的信息转中的文本信息。本发明实施例中,该文本模型采用BERT模型,BERT模型对用户浏览的目标信息进行量化,通过BERT模型可以将每一条信息中的文本信息转化为句向量,以此更好地提升预测模型的准确性和预测模型自身的可拓展性。
需要说明的是,BERT模型借助大规模语料,通过对语言模型等基础任务的训练,实现了对任意输入信息的量化,即句向量表示。
其中,BERT模型引入了选词填空和上下句关系判断的任务,训练得到的BERT模型能够更好地捕捉输入语句的全局含义和逻辑关系,从而给出输入语料更优的向量表示。
本发明实施例提供一种基于长短时记忆网络的信息转发概率预测方法,通过文本模型充分利用信息的文本内容,更好地提升预测模型的准确性和预测模型自身的可拓展性,从而提高了转发概率的预测精度。
在上述实施例的基础上,优选地,所述预测模型还包括信息长短时记忆网络模型,所述信息长短时记忆网络模型位于所述文本模型之后,所述信息长短时记忆网络模型包括长短时记忆网络模块和预测模块,其中:
所述长短时记忆网络模块用于根据所述浏览信息序列中每一信息对应的句向量,获取输出向量;
所述预测模块用于对所述输出向量进行逻辑斯蒂回归处理,获取所述目标信息的转发概率。
具体地,该预测模型还包括信息长短时记忆网络模型,信息长短时记忆网络模型位于文本模型之后,并且信息长短时记忆网络模型是由长短时记忆网络模块和预测模块组成。
下面通过预测目标信息的转发概率的过程,对信息长短时记忆网络模型进行具体描述:
首先对浏览信息序列和转发行为进行建模,本发明实施例中所采用的建模方法与前面IMM模型的对浏览信息序列建模过程相同,用户按照时间顺序浏览信息,建立浏览信息序列。
假设用户当前正在浏览的目标信息为X,其之前浏览过的K条历史信息,按照浏览顺序由前至后依次为Yk,…,Y1,这K条历史信息会对用户是否会转发目标信息X产生影响。定义该用户在前K条历史信息影响下转发目标信息X的概率为P(X|Y1,…,YK)。
假设每一条信息均包含文本内容并且是已知的,并且所有用户在接触到相同的浏览信息序列{YK,…,Y1,X}后,转发目标信息X的概率均为P(X|Y1,…,YK),本发明实施例旨在对任意的文本信息序列{YK,…,Y1,X},给出概率P(X|Y1,…,YK)的预测。
将建立好的浏览信息序列模型输入到预测模型中,预测模型中的BERT模型根据浏览信息序列中每条信息的文本信息,生成每条信息对应的句向量。
具体地,BERT模型将每条信息的文本内容映射到一个dB维的句向量。根据本法实施例中的BERT模型,dB=768。即对于第i条信息ui,其对应的句向量为:
将每条信息对应的句向量都输入到长短时记忆网络模块中,长短时记忆网络模块为双层LSTM模型。
双层LSTM模型共有K+1个单元,每个单元的输入对应于当前序列{Yk,…,Y1,X}的句向量{vYk,…,vY1,vX}。每一个LSTM单元的输出是维度为dq=200维的向量。
循环神经网络是神经网络结构中的一个分支,专为输入为序列结构的任务所设计,在各类拟合、预测和分类任务中取得了良好的效果。其中长短时记忆网络(Long Short-Term Memory,简称LSTM)的设计考虑了人类记忆和遗忘的过程,将记忆的变化建模为状态向量随输入的变化,LSTM网络在机器翻译、情感分析、金融数据预测、视频行为检测等任务中均有广泛应用。
将浏览信息序列中每条信息对应的句向量输入到长短时记忆网络模块中,可以得到对应的输出向量,然后预测模块对输出向量进行逻辑斯蒂回归处理,就可以得到目标信息的转发概率。
具体地,本发明实施例中,进行逻辑斯蒂回归处理的具体公式如下:
其中,P(X|Y1,…,YK)表示所述目标信息的转发概率,q表示所述输出向量,w为权重向量。
现有技术中,IMM模型基于浏览过的K条信息对当前正在浏览信息的影响是独立的。然而,在实际社交网络中,用户所浏览过的多条信息往往是共同影响该用户是否转发当前所浏览信息的。例如用户浏览过的信息Y2是新闻事件的介绍;Y1是一篇相关的评论文章,但与用户观点不符,从而不会转发Y1;而用户当前浏览的X是另一篇评论文章,且与用户的观点一致,最终转发该信息。在这一情况下,用户最终转发X是Y2和Y1共同作用的结果。这种情况在IMM模型中不能被精确地表示。
而本发明实施例中,通过引入LSTM模型来增强浏览过信息之间的相互作用及影响,从而解决上述缺陷。
在上述实施例的基础上,优选地,所述长短时记忆网络模块还用于通过Dropout技术对所述输出向量进行过处理,将处理后的结果重新作为所述输出向量。
具体地,将浏览信息序列中每条信息对应的句向量输入到长短时记忆网络模块后,得到输出向量,为了防止过拟合,本发明实施例中长短时记忆模块还通过Dropout技术对输出向量进行处理,将处理后的结果重新作为输出向量。
具体计算公式如下:
对预测模型进行训练的方法如下:
首先,将一段时间内的全部信息按照用户以及其好友关系,整理成为用户的个人信息流。每一个用户的个人信息流中包含了在一段时间内该用户自己发布、转发和浏览的信息,该用户转发和浏览的信息可以是该用户的好友发布和转发的信息,这些信息完全按照时间顺序进行排列,代表了用户浏览这些信息的顺序。
其次,通过个人信息流来生成训练样本。
按照前述IMM模型对于浏览信息序列的建模,可以把每一个用户的个人信息流划分为长度为K的若干段,从而得到每个用户的多个浏览信息序列。需要注意的是每个社交网站平台中,用户浏览信息的顺序可能不同。
本发明实施例中以微博平台为例,最新发布的微博会被用户首先浏览,所以发布越晚的信息在序列中的位置反而应该更靠前。对于每一个浏览信息序列,如果最终用户转发了浏览信息序列中最后浏览的信息,则此浏览信息序列的标签为y=1;反之,若用户最终并未转发该浏览信息序列最后浏览的信息,则此序列的标签为y=0。
在实际操作时,由于实际数据集中负样本(y=0)的序列远多于正样本(y=1),为了避免模型的有偏性,按照正负样本比例为1:5的比例来随机丢弃负样本序列。
最后是将训练数据集按照一定比例划分为训练集、验证集和测试集来进行学习任务以及指标评价。在本发明实施例中,按照全部训练样本的80%,10%,10%的比例来随机生成三个集合。
通过训练集中的样本数据对预测模型进行训练,就可以得到训练后的预测模型,具体地,本发明实施例中,对预测模型的训练包括两种训练方法:
第一、Fixed embedding,具体如下:
根据所述浏览信息序列样本数据和所述文本模型,获取浏览信息序列样本的句向量;
根据浏览信息序列样本的句向量和所述浏览信息序列标签,对所述信息长短时记忆网络模型进行训练,获取训练后的信息长短时记忆网络模型;
将所述文本模型和训练后的信息长短时记忆网络模型作为训练后的预测模型。
该方法在训练过程中不会对BERT模型的参数进行调整,当浏览信息序列样本数据输入到BERT模型后,BERT模型中将浏览信息序列样本数据中的每个信息转化为句向量,然后根据每个句向量对信息长短时记忆网络模型进行训练,得到训练后的信息长短时记忆网络模型。BERT模型和训练后的增强模型就是训练后的预测模型。
第二、Non-fixed embedding,具体包括:
根据所述浏览信息序列样本数据和所述预设浏览信息序列标签,对所述文本模型和所述信息长短时记忆网络模型进行训练,获取训练后的文本模型和训练后的信息长短时记忆网络模型;
将训练后的文本模型和训练后的信息长短时记忆网络模型作为训练后的预测模型。
通过浏览信息序列样本数据对BERT模型和信息长短时记忆网络模型同时进行训练,同时对两个模型的参数进行调整,以寻找两个模型最佳参数,训练后的BERT模型和训练后的信息长短时记忆网络模型就是训练后的预测模型。
在训练中有以下超参数需要确定:(1)初始学习率,取值集合为{1,0.3,0.1,0.03,0.01,0.003,0,001};(2)Dropout概率,取值集合为{0.5,0.4,0.3,0.2,0.1};(3)模型内部参数。对于信息长短时记忆网络模型,这部分的参数指句向量低维表示的维度dh,其取值范围是{8,16,32,64,128,256}。
可以通过不同的组合进行枚举,得到超参数的最优配置。
为了综合考察预测模型的表现,对测试集的预测准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1分数(F1 score)以及AUC进行记录。同时为了避免程序的随机性产生的影响,每一个衡量的模型均独立地随机训练5次,并记录每一个指标的均值(mean)、标准差(std)、最大值(max)以及最小值(min)。
表1
为体现技术优势,本发明选取了IP模型和IMM模型作为基准模型,连同本发明所提出的预测模型,在相同的训练集上进行训练,并以上述各项指标来衡量各方法的性能,表1为本发明实施例中预测模型、IP模型和IMM模型的性能测试表,测试结果如表1所示。
图2为本发明实施例中每个模型的F1和AUC两个指标比较示意图,如图2所示,结合表1和图2,预测模型1表示按照第一种训练方法对预测模型进行训练,预测模型2表示按照第二种训练方法对预测模型进行训练,可以观察到如下结论:
预测模型相比IMM模型,在四个评测指标上均有大幅提升。预测模型的F1分数的均值达到了64.75%。从稳定性而言,可以观察到预测模型5项指标的标准差均低于其它模型相应指标的标准差,这说明了预测模型每一次实验的差距并不大,从而具有更好地稳定性。仅从衡量指标的角度考虑,该预测模型全面优于IP模型和IMM模型。
两种训练方法对预测模型的精度影响较大。是否固定固定BERT模型部分的参数不变对预测模型的参数对于各项指标的均值和标准差影响均不大,这进一步说明了预测模型的鲁棒性。
综上,在预测社交网络用户转发信息概率建模这一任务中,本发明使用预训练语言模型(BERT模型)对用户浏览的文本进行量化,即将每一条信息的文本内容映射成一个维度为dB=768维的句向量。在此基础之上拓展了IMM模型,提出信息长短时记忆网络模型,直接利用每一条信息的句向量对用户转发信息概率进行预测。
原始IMM模型中,每条信息被当作独立的个体;在引入BERT模型之后,语义相似的文本拥有了相似的向量表示。它们在训练过程中紧密联系,不再孤立,这样有效地提高了训练效率。除此之外,原始IMM模型中,无法应对未被训练过的信息(因为其无法获取新信息所对应的句向量);但利用BERT模型,任何信息都能够被转化为句向量,进而作为后续信息长短时记忆网络模型的输入。本发明创新性地引入BERT模型,一定程度上克服了前文中提到现有模型的缺点。
图3为本发明实施例提供的一种基于长短时记忆网络的信息转发概率预测系统的结构示意图,如图3所示,该系统包括:序列模块301和转发模块302,其中:
序列模块301用于根据用户当前浏览的目标信息和预设历史时间段内浏览的若干条历史信息,获取浏览信息序列;
转发模块302用于根据所述浏览信息序列和训练后的预测模型,获取所述目标信息的转发概率,训练后的预测模型是基于浏览信息序列样本数据和预设浏览信息序列标签进行训练后得到,预测模型包括文本模型,所述文本模型用于获取所述浏览信息序列中每一信息的文本信息。
具体地,序列模块301将根据用户当前浏览的目标信息和前一段时间浏览的若干条历史信息,得到浏览信息序列,转发模块302将浏览信息序列输入到训练后的预测模型中,可以得到用户转发该目标信息的概率。由于预测模型中包括一个文本模型,该文本模型可以获取信息中的文本信息,从而使得预测模型在预测转发概率时,考虑到了该信息中的文本信息,进而提高了预测的精度。
本系统实施例的具体执行过程与上述方法实施例的具体执行过程相同,详情请参考上述方法实施例,本系统实施例在此不再赘述。
图4为本发明实施例提供的一种电子设备的实体结构示意图,如图4所示,该电子设备可以包括:处理器(processor)401、通信接口(Communications Interface)402、存储器(memory)403和总线404,其中,处理器401,通信接口402,存储器403通过总线404完成相互间的通信。通信接口402可以用于电子设备的信息传输。处理器401可以调用存储器403中的逻辑指令,以执行包括如下的方法:
根据用户当前浏览的目标信息和预设历史时间段内浏览的若干条历史信息,获取浏览信息序列;
根据所述浏览信息序列和训练后的预测模型,获取所述目标信息的转发概率,训练后的预测模型是基于浏览信息序列样本数据和预设浏览信息序列标签进行训练后得到,预测模型包括文本模型,所述文本模型用于获取所述浏览信息序列中每一信息的文本信息。
此外,上述的存储器403中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明上述各方法实施例的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的传输方法,例如包括:
根据用户当前浏览的目标信息和预设历史时间段内浏览的若干条历史信息,获取浏览信息序列;
根据所述浏览信息序列和训练后的预测模型,获取所述目标信息的转发概率,训练后的预测模型是基于浏览信息序列样本数据和预设浏览信息序列标签进行训练后得到,预测模型包括文本模型,所述文本模型用于获取所述浏览信息序列中每一信息的文本信息。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于长短时记忆网络的信息转发概率预测方法,其特征在于,包括:
根据用户当前浏览的目标信息和预设历史时间段内浏览的若干条历史信息,获取浏览信息序列;
根据所述浏览信息序列和训练后的预测模型,获取所述目标信息的转发概率,训练后的预测模型是基于浏览信息序列样本数据和预设的浏览信息序列标签进行训练后得到,预测模型包括文本模型,所述文本模型用于获取所述浏览信息序列中每一信息的文本信息。
2.根据权利要求1所述的基于长短时记忆网络的信息转发概率预测方法,其特征在于,所述预测模型还包括信息长短时记忆网络模型,所述信息长短时记忆网络模型位于所述文本模型之后,所述信息长短时记忆网络模型包括长短时记忆网络模块和预测模块,其中:
所述长短时记忆网络模块用于根据所述浏览信息序列中每一信息对应的句向量,获取输出向量;
所述预测模块用于对所述输出向量进行逻辑斯蒂回归处理,获取所述目标信息的转发概率。
3.根据权利要求2所述的基于长短时记忆网络的信息转发概率预测方法,其特征在于,所述长短时记忆网络模块还用于通过Dropout技术对所述输出向量进行过处理,将处理后的结果重新作为所述输出向量。
6.根据权利要求1所述的基于长短时记忆网络的信息转发概率预测方法,其特征在于,训练后的预测模型通过如下方法获得:
根据所述浏览信息序列样本数据和所述文本模型,获取浏览信息序列样本的句向量;
根据浏览信息序列样本的句向量和所述浏览信息序列标签,对所述信息长短时记忆网络模型进行训练,获取训练后的信息长短时记忆网络模型;
将所述文本模型和训练后的信息长短时记忆网络模型作为训练后的预测模型。
7.根据权利要求1所述的基于长短时记忆网络的信息转发概率预测方法,其特征在于,训练后的预测模型通过如下方法获得:
根据所述浏览信息序列样本数据和所述浏览信息序列标签,对所述文本模型和所述信息长短时记忆网络模型进行训练,获取训练后的文本模型和训练后的信息长短时记忆网络模型;
将训练后的文本模型和训练后的信息长短时记忆网络模型作为训练后的预测模型。
8.一种基于长短时记忆网络的信息转发概率预测系统,其特征在于,包括:
序列模块,用于根据用户当前浏览的目标信息和预设历史时间段内浏览的若干条历史信息,获取浏览信息序列;
转发模块,用于根据所述浏览信息序列和训练后的预测模型,获取所述目标信息的转发概率,训练后的预测模型是基于浏览信息序列样本数据和预设的浏览信息序列标签进行训练后得到,预测模型包括文本模型,所述文本模型用于获取所述浏览信息序列中每一信息的文本信息。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述基于长短时记忆网络的信息转发概率预测方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7任一项所述基于长短时记忆网络的信息转发概率预测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911229629.2A CN111079084B (zh) | 2019-12-04 | 2019-12-04 | 一种基于长短时记忆网络的信息转发概率预测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911229629.2A CN111079084B (zh) | 2019-12-04 | 2019-12-04 | 一种基于长短时记忆网络的信息转发概率预测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111079084A true CN111079084A (zh) | 2020-04-28 |
CN111079084B CN111079084B (zh) | 2021-09-10 |
Family
ID=70312863
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911229629.2A Active CN111079084B (zh) | 2019-12-04 | 2019-12-04 | 一种基于长短时记忆网络的信息转发概率预测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111079084B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112069046A (zh) * | 2020-08-28 | 2020-12-11 | 平安科技(深圳)有限公司 | 数据泄露提醒方法、装置、设备及计算机可读存储介质 |
CN112561171A (zh) * | 2020-12-17 | 2021-03-26 | 杭州鲁尔物联科技有限公司 | 一种滑坡的预测方法、装置、设备及存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103294800A (zh) * | 2013-05-27 | 2013-09-11 | 华为技术有限公司 | 一种信息推送方法及装置 |
CN105975504A (zh) * | 2016-04-28 | 2016-09-28 | 中国科学院计算技术研究所 | 一种基于循环神经网络的社交网络消息爆发检测方法及系统 |
CN106681989A (zh) * | 2015-11-09 | 2017-05-17 | 郑州大学 | 一种预测微博转发概率的方法 |
CN107392392A (zh) * | 2017-08-17 | 2017-11-24 | 中国科学技术大学苏州研究院 | 基于深度学习的微博转发预测方法 |
US20180144208A1 (en) * | 2016-11-18 | 2018-05-24 | Salesforce.Com, Inc. | Adaptive attention model for image captioning |
CN108229731A (zh) * | 2017-12-20 | 2018-06-29 | 重庆邮电大学 | 一种热点话题下多消息互影响的用户行为预测系统及方法 |
US20180276535A1 (en) * | 2017-03-27 | 2018-09-27 | Microsoft Technology Licensing, Llc | Input-output example encoding |
CN108717587A (zh) * | 2018-05-25 | 2018-10-30 | 杭州知智能科技有限公司 | 一种基于多面排序网络解决推文预测转发任务的方法 |
CN109063927A (zh) * | 2018-08-28 | 2018-12-21 | 成都信息工程大学 | 一种基于ts-lstm和dnn的微博转发量预测方法 |
CN110321422A (zh) * | 2018-03-28 | 2019-10-11 | 腾讯科技(深圳)有限公司 | 在线训练模型的方法、推送方法、装置以及设备 |
-
2019
- 2019-12-04 CN CN201911229629.2A patent/CN111079084B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103294800A (zh) * | 2013-05-27 | 2013-09-11 | 华为技术有限公司 | 一种信息推送方法及装置 |
CN106681989A (zh) * | 2015-11-09 | 2017-05-17 | 郑州大学 | 一种预测微博转发概率的方法 |
CN105975504A (zh) * | 2016-04-28 | 2016-09-28 | 中国科学院计算技术研究所 | 一种基于循环神经网络的社交网络消息爆发检测方法及系统 |
US20180144208A1 (en) * | 2016-11-18 | 2018-05-24 | Salesforce.Com, Inc. | Adaptive attention model for image captioning |
US20180276535A1 (en) * | 2017-03-27 | 2018-09-27 | Microsoft Technology Licensing, Llc | Input-output example encoding |
CN107392392A (zh) * | 2017-08-17 | 2017-11-24 | 中国科学技术大学苏州研究院 | 基于深度学习的微博转发预测方法 |
CN108229731A (zh) * | 2017-12-20 | 2018-06-29 | 重庆邮电大学 | 一种热点话题下多消息互影响的用户行为预测系统及方法 |
CN110321422A (zh) * | 2018-03-28 | 2019-10-11 | 腾讯科技(深圳)有限公司 | 在线训练模型的方法、推送方法、装置以及设备 |
CN108717587A (zh) * | 2018-05-25 | 2018-10-30 | 杭州知智能科技有限公司 | 一种基于多面排序网络解决推文预测转发任务的方法 |
CN109063927A (zh) * | 2018-08-28 | 2018-12-21 | 成都信息工程大学 | 一种基于ts-lstm和dnn的微博转发量预测方法 |
Non-Patent Citations (1)
Title |
---|
郭亚等: "基于主题模型的微博转发行为预测", 《中文信息学报》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112069046A (zh) * | 2020-08-28 | 2020-12-11 | 平安科技(深圳)有限公司 | 数据泄露提醒方法、装置、设备及计算机可读存储介质 |
WO2021151360A1 (zh) * | 2020-08-28 | 2021-08-05 | 平安科技(深圳)有限公司 | 数据泄露提醒方法、装置、设备及计算机可读存储介质 |
CN112069046B (zh) * | 2020-08-28 | 2022-03-29 | 平安科技(深圳)有限公司 | 数据泄露提醒方法、装置、设备及计算机可读存储介质 |
CN112561171A (zh) * | 2020-12-17 | 2021-03-26 | 杭州鲁尔物联科技有限公司 | 一种滑坡的预测方法、装置、设备及存储介质 |
CN112561171B (zh) * | 2020-12-17 | 2023-12-05 | 杭州鲁尔物联科技有限公司 | 一种滑坡的预测方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111079084B (zh) | 2021-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110892395B (zh) | 提供增强的通信会话服务的虚拟助手 | |
CN110869969B (zh) | 用于在通信会话内生成个性化响应的虚拟助手 | |
US10891322B2 (en) | Automatic conversation creator for news | |
Edo-Osagie et al. | Twitter mining using semi-supervised classification for relevance filtering in syndromic surveillance | |
CN110991742A (zh) | 一种社交网络信息转发概率预测方法及系统 | |
CN110476169A (zh) | 在会话中提供情感关怀 | |
CN105183717A (zh) | 一种基于随机森林和用户关系的osn用户情感分析方法 | |
CN113139052B (zh) | 基于图神经网络特征聚合的谣言检测方法及装置 | |
CN111079084B (zh) | 一种基于长短时记忆网络的信息转发概率预测方法及系统 | |
CN110909230A (zh) | 一种网络热点分析方法及系统 | |
CN110321918A (zh) | 基于微博的舆论机器人系统情感分析和图像标注的方法 | |
CN115577316A (zh) | 一种基于多模态数据融合的用户人格预测方法与应用 | |
CN110781428A (zh) | 评论展示方法、装置、计算机设备及存储介质 | |
CN113722487A (zh) | 用户情感分析方法、装置、设备及存储介质 | |
Akila et al. | Opinion mining on food services using topic modeling and machine learning algorithms | |
CN110489552A (zh) | 一种微博用户自杀风险检测方法及装置 | |
Mughal et al. | Comparative Analysis of Deep Natural Networks and Large Language Models for Aspect-Based Sentiment Analysis | |
Chan et al. | Optimization of language models by word computing | |
İş et al. | A Profile Analysis of User Interaction in Social Media Using Deep Learning. | |
Archana et al. | Explicit sarcasm handling in emotion level computation of tweets-A big data approach | |
Thanarattananakin et al. | Spam detection using word embedding-based LSTM | |
KR102341959B1 (ko) | 문장 데이터의 감성 분석을 처리하는 시스템 및 방법 | |
CN115712712A (zh) | 样本构建方法及装置 | |
Sharma et al. | Sentiment analysis on social networking: A literature review | |
Arifianto et al. | Developing an LSTM-based Classification Model of IndiHome Customer Feedbacks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |