CN111475726A - 一种基于多因数@优化模型的Twitter网络信息推送最大化方法 - Google Patents

一种基于多因数@优化模型的Twitter网络信息推送最大化方法 Download PDF

Info

Publication number
CN111475726A
CN111475726A CN202010261426.8A CN202010261426A CN111475726A CN 111475726 A CN111475726 A CN 111475726A CN 202010261426 A CN202010261426 A CN 202010261426A CN 111475726 A CN111475726 A CN 111475726A
Authority
CN
China
Prior art keywords
user
time
period
users
twitter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010261426.8A
Other languages
English (en)
Other versions
CN111475726B (zh
Inventor
丁兆云
刘铁军
朱先强
黄松平
朱承
汪祥
周鋆
刘斌
汤罗浩
刘毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202010261426.8A priority Critical patent/CN111475726B/zh
Publication of CN111475726A publication Critical patent/CN111475726A/zh
Application granted granted Critical
Publication of CN111475726B publication Critical patent/CN111475726B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种基于多因数@优化模型的Twitter网络信息推送最大化方法,首先综合考虑兴趣相似度与转推意愿二个因素确定目标用户群,随后,将Twitter中的提及@问题转换为线性规划问题,根据用户使用Twitter的实际情况,将用户一天内的发帖模式根据小时划分为24个时间窗口,计算Twitter用户在每个时间窗口的上线概率,并同时考虑了用户在一天24小时内的时序模式和持续一段时间内的整体时序模式,通过将不平衡指派问题转换为平衡指派问题,采用匈牙利算法来解决该指派问题。采用本方法,使得我方账号能够在发布大量帖子的基础上,能够提及@充足的用户,且保障提及@到的用户尽可能及时的接受我方账号的观点。

Description

一种基于多因数@优化模型的Twitter网络信息推送最大化 方法
技术领域
本发明涉及海量数据分析处理技术领域,具体为一种基于多因数@优化模型的Twitter网络信息推送最大化方法。
背景技术
舆情引导需要解决的关键技术为如何使得引导帖子能够在Twitter中大范围传播,使得大量Twitter用户知晓引导观点。Twitter扩散信息通常依靠3种手段:(1)拥有大量的粉丝;(2)被大量用户转发;(3)利用提及@手段将信息推送给Twitter中的其他用户。
第1种手段需要具有高数量粉丝的用户;第2种手段需要Twitter中的其他用户利用“RT @”手段转发我方观点的信息,因此需要分析Twitter中目标用户的转推概率,以及找到对推送帖子感兴趣的目标用户群;第3种手段利用提及@手段将信息推送给Twitter中的其他用户,需要解决的关键问题之一为推送的信息为提及@到的用户所感兴趣的,否则提及@到的用户有很高的概率认为该信息为垃圾信息而删除或者举报该信息;同时,需要解决的关键问题之二为提及@到的用户是否处于上线状态,只有处于上线状态的用户才能够及时发现我方舆情引导的观点,且该用户若对我方观点感兴趣,才能够及时将信息利用“RT@”手段将信息转发出去,使得舆情引导具有及时性。
为了使得引导信息推送影响力最大化,首先需要在Twitter中注册表达我方观点的账号,利用这类账号提及@其他用户,而将我方观点扩散出去。扩散信息最理想的方式是仅仅注册一个账号,利用该账号能够提及@Twitter中的大量用户,但是在实际的Twitter平台中,每个账号通常发布的帖子数量有限,如果一个账号在一段时间内发布大量的帖子,则Twitter平台有很大概率认为这类账号为垃圾账号,从而Twitter平台将会封掉这类账号。
发明内容
本发明的目的在于提供一种基于多因数@优化模型的Twitter网络信息推送最大化方法,使得我方账号能够在发布大量帖子的基础上,能够提及@充足的用户,且保障提及@到的用户尽可能及时的接受我方账号的观点。
本发明采用的技术方案如下:一种基于多因数@优化模型的Twitter网络信息推送最大化方法,包括:
(1)综合考虑兴趣相似度与转推意愿二个因素确定目标用户群{u1,u2,...,un};
(2)计算目标用户群{u1,u2,...,un}在一天24小时内不同时间段的上线概率:
(2.1)按小时将目标用户的时间段划分为24个时间窗口,根据用户持续一段时间T内的发帖模式,统计用户在每个时间窗口的发帖数量以及每个时间窗口的发帖分布,推断用户在时间窗口内的上线概率,计算模型如下:
p=E{[X-E(X)]2}×n=∑n[X-E(X)]2
其中,X表示用户具体发帖时间与时间窗口整点时刻的时间间隔;E(X)表示用户在持续一段时间T内的具体时间窗口中所有时间间隔的期望值;n表示用户在一段持续时间T内的具体时间窗口中发帖数量;
(2.2)为了统计用户在持续一段时间T内的具体时间窗口中所有的时间间隔,首先根据用户在持续一段时间T内的具体时间窗口中的博文来提取用户的发帖时间{t1,t2,...,tn},其中ti表示离每天凌晨相差的秒级数量,时间间隔计算方法如下:
Δti=(ti-t0)/3600
随后,统计用户在具体时间窗口内的所有时间间隔{Δt1,Δt2,...,Δtn},由此,计算用户的上线概率模型被转换为如下:
Figure BDA0002439444300000021
其中,
Figure BDA0002439444300000022
表示时间间隔{Δt1,Δt2,...,Δtn}的期望值;
(2.3)统计用户在持续一段时间T内按天为粒度的发帖时间{d1,d2,...,dm},为了与小时为单位的发帖模式统一量纲,采用如下归一化方法:
Figure BDA0002439444300000023
其中,d0表示以天为单位的时间起点,设置为0;|T|表示持续一段时间T内的总天数; (2.4)持续一段时间T内按天为粒度的时间间隔被统计为{Δd1,Δd2,...,Δdn},基于用户在持续一段时间T内发帖时序行为按天为粒度的分布,计算用户的上线概率如下:
Figure BDA0002439444300000024
其中,
Figure BDA0002439444300000025
表示持续一段时间T内按天为粒度的时间间隔{Δd1,Δd2,...,Δdn}的期望值;
(2.5)综合用户在持续一段时间T内每个时间窗口的发帖数量和发帖分布,以及持续一段时间T内发帖时序行为按天为粒度的分布,计算用户的上线概率如下:
p=ph×py
(2.6)利用上述方法计算具体用户在每个小时时间窗口的上线概率,对于任何一个用户,可以用一个向量表示用户在每个小时时间窗口的上线概率:
Figure BDA0002439444300000031
其中,i表示目标用户群{u1,u2,...,un}的第i个用户;
(2.7)针对目标用户群{u1,u2,...,un}的所有用户,将能够根据用户的上线概率向量构造一个如下的受益矩阵:
Figure BDA0002439444300000032
其中,n表示目标用户群{u1,u2,...,un}的用户数目;
(3)为解决我方账号每个小时内提及@用户次数的上限问题,构造如下优化模型:
Figure BDA0002439444300000033
Figure BDA0002439444300000034
其中,xij表示第j个用户是否在第i个小时被提及@;如果第j个用户在第i个小时被提及@,则xij等于1;反之,xij等于0;cij表示上线概率,是矩阵PT的一个元素;m表示时间窗口的数量,以小时为粒度划分时间窗口设置为24;n表示Twitter的所有用户数目;为了克服信息过载问题,设置我方观点用户第i小时提及@的用户数目上限为σi,即
Figure BDA0002439444300000035
为了简化问题,发布的每篇博文中最多仅仅只提及@一个用户,即
Figure BDA0002439444300000036
另外,实际提及@的目标用户群的数目少于阈值δ,即
Figure BDA0002439444300000037
(4)调整上述受益矩阵,使得适应传统的不平衡指派问题,将上述受益矩阵转换为如下新的矩阵H:
Figure BDA0002439444300000041
其中,σi表示第i个人完成σi任务,对第i个时间窗口,在受益矩阵中增加σi个相同的人,同时,设置矩阵中的第
Figure BDA0002439444300000042
行为0,表示开销为0的虚拟人完成剩下的任务;另外,原始的没有变形的优化问题是通过将任务分配给最合适的人,使得收益值最大,变形过程中,通过在原始矩阵中加入大常数M,将原始收益最大化问题转换为收益最小化问题;
(5)根据变形的收益矩阵H,得到如下优化模型:
Figure BDA0002439444300000043
Figure BDA0002439444300000044
采用匈牙利算法来求解该模型。
进一步地,设置每个小时窗口内的发帖上限σi为不一样,用如下模型度量Twitter用户的上线行为模式:p={s1,s2,…,s24},其中,si表示第i个小时内统计的总发帖数目,我方观点用户在每个小时提及@的用户数目在si基础上,增加一个常数c的规约因子,为了我方观点用户在每个小时提及@的用户数目不超过上限约束,定义如下σi
σi=si/c
我方观点的一个用户不可能提及@目标用户群{u1,u2,...,un}中的所有用户,即存在如下约束:
Figure BDA0002439444300000045
采用本发明的基于多因数@优化模型的Twitter网络信息推送最大化方法,充分利用我方注册的账号资源,使得我方账号能够在发布大量帖子的基础上,能够提及@充足的用户,且保障提及@到的用户尽可能及时的接受我方账号的观点。本发明提出了一种不平衡的指派问题来对引导过程建模,在指派问题中,利用约束来限制我方账号提及@的用户数量,进一步地,将不平衡指派问题巧妙的转换为平衡指派问题,利用匈牙利算法对模型求解。
具体实施方式
为进一步了解本发明的内容,结合实施例对本发明作详细描述,以下实施例用于说明本发明,但不用来限制本发明的范围。
如果我方观点用户希望在Twitter中引导其他用户,由于Twitter用户数量巨大,盲目的引导将大大降低引导效果,且有可能被其他用户误认为是垃圾用户。因此,引导工作的首要任务为在Twitter中定位到真正感兴趣的用户、以及乐意转发帖子的用户,由此,本发明综合考虑了兴趣相似度与转推意愿二个因素构造目标用户群{u1,u2,...,un}。
随后,需要将用户群{u1,u2,...,un}分配到我方观点用户的不同发帖的时间窗口内,使得我方观点用户提及@的目标对象以最大的概率接受我方观点用户的信息。
本发明将提及@问题转换为一个线性规划问题。根据用户使用Twitter的实际情况,将用户一天内的发帖模式根据小时划分为24个时间窗口,计算目标用户群{u1,u2,...,un}在一天24 小时内不同时间段的上线概率。
由于在Twitter中,用户什么时候上线的数据无法获取,因此,需要通过间接方法来推断用户的上线概率。直接地,用户只要在一个时间段内在Twitter中发帖了,就说明该用户在该时间段处于上线状态。因此,按小时将目标用户的时间段划分为24个时间窗口,根据用户持续一段时间T内的发帖模式,统计用户在每个时间窗口的发帖数量,通常认为用户在具体某个时间窗口内的发帖的数量越多,说明用户在该时间窗口内的上线概率越高。
另外,不仅考虑用户在持续一段时间T内每个时间窗口的发帖数量,还需要考虑用户在持续一段时间T内每个时间窗口的发帖分布。用户在一个小时内的发帖分布范围越广,则该小时内推断用户的上线概率越逼近于用户真实的上线情况。
因此,综合目标用户在每个时间窗口内的发帖数量和发帖分布来推断用户在时间窗口内的上线概率,用户在某个时间窗口内发帖数量越多、分布越广泛,说明用户在该时间窗口内的上线概率越高。
在数学模型中,方差通常表示数据的分布程度。因此,基于方差的概率,给出如下模型用来推断用户在时间窗口内的上线概率:
p=E{[X-E(X)]2}×n=∑n[X-E(X)]2
上述模型中,X表示用户具体发帖时间与时间窗口整点时刻的时间间隔;E(X)表示用户在持续一段时间T内的具体时间窗口中所有时间间隔的期望值;n表示用户在一段持续时间T 内的具体时间窗口中发帖数量。
为了统计用户在持续一段时间T内的具体时间窗口中所有的时间间隔,首先根据用户在持续一段时间T内的具体时间窗口中的博文来提取用户的发帖时间{t1,t2,...,tn},其中ti表示离每天凌晨相差的秒级数量。因此,时间间隔计算方法如下:
Δti=(ti-t0)/3600
其中,t0表示每个时间窗口整点时刻与每天凌晨相差的秒级数量;ti表示具体博文时间离每天凌晨相差的秒级数量。
随后,可以统计用户在具体时间窗口内的所有时间间隔{Δt1,Δt2,...,Δtn},因此,计算用户的上线概率模型被转换为如下:
Figure BDA0002439444300000061
其中,
Figure BDA0002439444300000062
表示时间间隔{Δt1,Δt2,...,Δtn}的期望值。上述公式表示用户在具体时间窗口内的上线概率与两个因素相关:发帖数量和发帖分布。
上述公式统计了一段持续时间T内用户在每个小时内的发帖情况。Twitter中存在部分用户可能在一段短时间范围内处于高活跃状态,这些用户在短时间范围内发布了大量的博文,利用上述公式可以计算这类用户在时间窗口内具有较高的上线概率。但是,短时间的活跃状态并不能代表此类用户的日常上线行为模式,此类用户在后期并不一定具有较高的上线概率。因此,仅仅考虑用户在持续一段时间T内每个时间窗口的发帖数量和发帖分布两个因素不足以全面衡量一个用户的上线概率。
为了克服上述问题,不仅考虑了用户在持续一段时间T内每个时间窗口的发帖数量和发帖分布两个因素,而且还考虑了用户在持续一段时间T内的发帖模式,即用户在一段持续时间T内发帖时序行为按天为粒度的分布情况。直觉地,用户在持续一段时间T内发帖按天分布越广泛,则说明用户更加持续的使用Twitter,说明用户的日常上线行为模式更具有规律性。
因此,对任何一个用户,统计用户在持续一段时间T内按天为粒度的发帖时间{d1,d2,...,dm}。为了与小时为单位的发帖模式统一量纲,采用如下归一化方法:
Figure BDA0002439444300000063
其中,d0表示以天为单位的时间起点,设置为0;|T|表示持续一段时间T内的总天数。
同样地,持续一段时间T内按天为粒度的时间间隔被统计为{Δd1,Δd2,...,Δdn}。基于用户在持续一段时间T内发帖时序行为按天为粒度的分布,计算用户的上线概率如下:
Figure BDA0002439444300000064
其中,
Figure BDA0002439444300000071
表示持续一段时间T内按天为粒度的时间间隔{Δd1,Δd2,...,Δdn}的期望值。上述公式表明用户在持续一段时间T内的上线概率与两个因素相关:用户的发帖数目和用户的发帖按天为粒度的分布情况。
因此,综合用户在持续一段时间T内每个时间窗口的发帖数量和发帖分布,以及持续一段时间T内发帖时序行为按天为粒度的分布,计算用户的上线概率如下:
p=ph×py
显然,用户在持续一段时间T内具体时间窗口发帖分布性越广泛,且该时间窗口以天为粒度的分布越广泛,说明用户在该时间窗口内的上线概率越高。
随后,对每个用户一天内的24小时时间窗口,可以利用上述方法计算具体用户在每个小时时间窗口的上线概率,因此,对于任何一个用户,可以用一个向量表示用户在每个小时时间窗口的上线概率:
Figure BDA0002439444300000072
其中,i表示目标用户群{u1,u2,...,un}的第i个用户。
针对目标用户群{u1,u2,...,un}的所有用户,将能够根据用户的上线概率向量构造一个如下的受益矩阵:
Figure BDA0002439444300000073
其中,n表示目标用户群{u1,u2,...,un}的用户数目。
对于Twitter中一个表达我方观点的账号,扩散信息最朴素的方法为在每个时间窗口利用提及@功能尽可能地提及大量的其他用户,但在实际的Twitter平台中,每个账号通常发布的帖子数量有限,如果一个账号在一段时间内发布大量的帖子,则Twitter平台有很大概率认为这类账号为垃圾账号,从而Twitter平台将会封掉这类账号。
为了解决我方账号每个小时内提及@用户次数的上限问题,使得我方账号提及@其他用户的受益最大化,我方账号应该尽可能地提及@正在上线的用户,使得上线用户能够及时阅读我方观点信息。
同时为了简化问题,发布的每篇博文中仅仅只提及@一个用户,如果一篇博文中提及@ 的用户数量过多,则被提及@到的对象将误认为我方引导账号为垃圾账号,具有很大概率向Twitter平台举报我方引导账号。
基于上述分析,借鉴线性优化问题的思想,构造如下优化模型:
Figure BDA0002439444300000081
Figure BDA0002439444300000082
其中,xij表示第j个用户是否在第i个小时被提及@;如果第j个用户在第i个小时被提及@,则xij等于1;反之,xij等于0。cij表示上线概率,是矩阵PT的一个元素。m表示时间窗口的数量,本章以小时为粒度划分时间窗口,设置为24。n表示Twitter的所有用户数目。为了克服信息过载问题,设置我方观点用户第i小时提及@的用户数目上限为σi,即
Figure BDA0002439444300000083
为了简化问题,发布的每篇博文中最多仅仅只提及@一个用户,即
Figure BDA0002439444300000084
另外,实际提及 @的目标用户群的数目少于阈值δ,即
Figure BDA0002439444300000085
为了让我方观点用户发帖模式更加拟人化,设置每个小时窗口内的发帖上限σi是不一样的。通常正常用户从凌晨零点到早上六点上线的概率较低,发帖的数量也相对较少,因此,在这段时间内,我方观点用户只需要模拟正常用户发布少量的帖子,提及@少量在线的用户即可。反之,正常用户通常从晚上九点到晚上11点上线的概率较高,发帖的数量也相对较多,因此,在这段时间内,我方观点用户则需要模拟正常用户发布数量较多的帖子,尽可能地提及@多的在线用户。因此,可以用如下模型度量Twitter用户的上线行为模式:
p={s1,s2,…,s24}
其中,si表示第i个小时内统计的总发帖数目。因此,我方观点用户在每个小时提及@的用户数目在si基础上,增加一个常数c的规约因子,为了我方观点用户在每个小时提及@的用户数目不超过上限约束。即定义如下σi
σi=si/c
通常,我方观点的一个用户不可能提及@目标用户群{u1,u2,...,un}中的所有用户,即存在如下约束:
Figure BDA0002439444300000091
传统的指派问题通常是平衡的,即一个任务通常被分配到一个人,一个人仅仅只完成一个任务,因此,任务的数量和人的数量是相同的。传统的指派问题通常利用匈牙利算法来求解。
如果任务的数量多于人的数量,次数指派问题将被称为不平衡的。为了采用匈牙利算法求解不平衡的指派问题,在模型中加入一些虚拟人,这些虚拟人完成任务的开销为0,使得指派问题中任务数目等于人的数目。
本发明的模型不同于传统的不平衡指派问题,传统的不平衡指派问题中,一个人仅仅只完成一个任务。但是,在本发明的模型中,由于一个时间窗口通常都被分配多个任务,因此,一个人需要完成多个任务。为了采用匈牙利算法求解本模型,需要调整前述的受益矩阵,使得适应传统的不平衡指派问题。基本的调整受益矩阵的思想是在受益矩阵中加入多个相同的人,使得一个人完成多个任务转换为多个相同的人完成多个任务。另外,我方观点的一个用户不可能提及@目标用户群{u1,u2,...,un}中的所有用户,因此,部分任务将不会被分配到时间窗口中,这些任务将被分配到开销为0的虚拟账号中。
基于上述分析,将前述的受益矩阵PT转换为如下新的矩阵H:
Figure BDA0002439444300000092
其中,σi表示第i个人完成σi任务,因此,对第i个时间窗口,在受益矩阵中增加σi个相同的人。同时,设置矩阵中的第
Figure BDA0002439444300000093
行为0,表示开销为0的虚拟人完成剩下的任务。另外,原始的没有变形的优化问题是通过将任务分配给最合适的人,使得收益值最大。变形过程中,通过在原始矩阵中加入大常数M,将原始收益最大化问题转换为收益最小化问题。
根据变形的收益矩阵H,得到如下优化模型:
Figure BDA0002439444300000101
Figure BDA0002439444300000102
上述的优化模型被称为平衡指派问题,可采用匈牙利算法来求解该模型。
本发明首先综合考虑兴趣相似度与转推意愿二个因素来确定目标用户群,随后,将Twitter 中的提及@问题转换为一个线性规划问题。根据用户使用Twitter的实际情况,将用户一天内的发帖模式根据小时划分为24个时间窗口。为了计算Twitter用户在每个时间窗口的上线概率,本发明同时考虑了用户在一天24小时内的时序模式和持续一段时间内的整体时序模式。为了解决上述不平衡指派问题,本发明灵活地将不平衡指派问题转换为平衡指派问题,随后,采用匈牙利算法来解决上述的指派问题,实验结果表明了本方法的有效性。
在前述说明书与相关附图中存在的教导的帮助下,本发明所属领域的技术人员将会想到本发明的许多修改和其它实施方案。因此,要理解的是,本发明不限于公开的具体实施方案,修改和其它实施方案被认为包括在所附权利要求的范围内。尽管本文中使用了特定术语,它们仅以一般和描述性意义使用,而不用于限制。

Claims (2)

1.一种基于多因数@优化模型的Twitter网络信息推送最大化方法,其特征在于,包括:
(1)综合考虑兴趣相似度与转推意愿二个因素确定目标用户群{u1,u2,...,un};
(2)计算目标用户群{u1,u2,...,un}在一天24小时内不同时间段的上线概率:
(2.1)按小时将目标用户的时间段划分为24个时间窗口,根据用户持续一段时间T内的发帖模式,统计用户在每个时间窗口的发帖数量以及每个时间窗口的发帖分布,推断用户在时间窗口内的上线概率,计算模型如下:
p=E{[X-E(X)]2}×n=∑n[X-E(X)]2
其中,X表示用户具体发帖时间与时间窗口整点时刻的时间间隔;E(X)表示用户在持续一段时间T内的具体时间窗口中所有时间间隔的期望值;n表示用户在一段持续时间T内的具体时间窗口中发帖数量;
(2.2)为了统计用户在持续一段时间T内的具体时间窗口中所有的时间间隔,首先根据用户在持续一段时间T内的具体时间窗口中的博文来提取用户的发帖时间{t1,t2,...,tn},其中ti表示离每天凌晨相差的秒级数量,时间间隔计算方法如下:
Δti=(ti-t0)/3600
随后,统计用户在具体时间窗口内的所有时间间隔{Δt1,Δt2,...,Δtn},由此,计算用户的上线概率模型被转换为如下:
Figure FDA0002439444290000011
其中,
Figure FDA0002439444290000012
表示时间间隔{Δt1,Δt2,...,Δtn}的期望值;
(2.3)统计用户在持续一段时间T内按天为粒度的发帖时间{d1,d2,...,dm},为了与小时为单位的发帖模式统一量纲,采用如下归一化方法:
Figure FDA0002439444290000013
其中,d0表示以天为单位的时间起点,设置为0;|T|表示持续一段时间T内的总天数;
(2.4)持续一段时间T内按天为粒度的时间间隔被统计为{Δd1,Δd2,...,Δdn},基于用户在持续一段时间T内发帖时序行为按天为粒度的分布,计算用户的上线概率如下:
Figure FDA0002439444290000014
其中,
Figure FDA0002439444290000015
表示持续一段时间T内按天为粒度的时间间隔{Δd1,Δd2,...,Δdn}的期望值;
(2.5)综合用户在持续一段时间T内每个时间窗口的发帖数量和发帖分布,以及持续一段时间T内发帖时序行为按天为粒度的分布,计算用户的上线概率如下:
p=ph×py
(2.6)利用上述方法计算具体用户在每个小时时间窗口的上线概率,对于任何一个用户,可以用一个向量表示用户在每个小时时间窗口的上线概率:
Figure FDA0002439444290000021
其中,i表示目标用户群{u1,u2,...,un}的第i个用户;
(2.7)针对目标用户群{u1,u2,...,un}的所有用户,将能够根据用户的上线概率向量构造一个如下的受益矩阵:
Figure FDA0002439444290000022
其中,n表示目标用户群{u1,u2,...,un}的用户数目;
(3)为解决我方账号每个小时内提及@用户次数的上限问题,构造如下优化模型:
Figure FDA0002439444290000023
Figure FDA0002439444290000024
其中,xij表示第j个用户是否在第i个小时被提及@;如果第j个用户在第i个小时被提及@,则xij等于1;反之,xij等于0;cij表示上线概率,是矩阵PT的一个元素;m表示时间窗口的数量,以小时为粒度划分时间窗口设置为24;n表示Twitter的所有用户数目;为了克服信息过载问题,设置我方观点用户第i小时提及@的用户数目上限为σi,即
Figure FDA0002439444290000025
为了简化问题,发布的每篇博文中最多仅仅只提及@一个用户,即
Figure FDA0002439444290000026
另外,实际提及@的目标用户群的数目少于阈值δ,即
Figure FDA0002439444290000027
(4)调整上述受益矩阵,使得适应传统的不平衡指派问题,将上述受益矩阵转换为如下新的矩阵H:
Figure FDA0002439444290000031
其中,σi表示第i个人完成σi任务,对第i个时间窗口,在受益矩阵中增加σi个相同的人,同时,设置矩阵中的第
Figure FDA0002439444290000032
行为0,表示开销为0的虚拟人完成剩下的任务;另外,原始的没有变形的优化问题是通过将任务分配给最合适的人,使得收益值最大,变形过程中,通过在原始矩阵中加入大常数M,将原始收益最大化问题转换为收益最小化问题;
(5)根据变形的收益矩阵H,得到如下优化模型:
Figure FDA0002439444290000033
Figure FDA0002439444290000034
采用匈牙利算法来求解该模型。
2.如权利要求1所述的一种基于多因数@优化模型的Twitter网络信息推送最大化方法,其特征在于:设置每个小时窗口内的发帖上限σi为不一样,用如下模型度量Twitter用户的上线行为模式:p={s1,s2,…,s24},其中,si表示第i个小时内统计的总发帖数目,我方观点用户在每个小时提及@的用户数目在si基础上,增加一个常数c的规约因子,为了我方观点用户在每个小时提及@的用户数目不超过上限约束,定义如下σi
σi=si/c
我方观点的一个用户不可能提及@目标用户群{u1,u2,...,un}中的所有用户,即存在如下约束:
Figure FDA0002439444290000035
CN202010261426.8A 2020-04-03 2020-04-03 一种基于多因数@优化模型的Twitter网络信息推送最大化方法 Active CN111475726B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010261426.8A CN111475726B (zh) 2020-04-03 2020-04-03 一种基于多因数@优化模型的Twitter网络信息推送最大化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010261426.8A CN111475726B (zh) 2020-04-03 2020-04-03 一种基于多因数@优化模型的Twitter网络信息推送最大化方法

Publications (2)

Publication Number Publication Date
CN111475726A true CN111475726A (zh) 2020-07-31
CN111475726B CN111475726B (zh) 2022-05-03

Family

ID=71750545

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010261426.8A Active CN111475726B (zh) 2020-04-03 2020-04-03 一种基于多因数@优化模型的Twitter网络信息推送最大化方法

Country Status (1)

Country Link
CN (1) CN111475726B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103164804A (zh) * 2011-12-16 2013-06-19 阿里巴巴集团控股有限公司 一种个性化的信息推送方法及装置
TW201443812A (zh) * 2013-01-02 2014-11-16 Microsoft Corp 社群媒體影響性評估(二)
CN110825980A (zh) * 2019-11-05 2020-02-21 重庆邮电大学 一种基于对抗生成网络的微博话题推送方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103164804A (zh) * 2011-12-16 2013-06-19 阿里巴巴集团控股有限公司 一种个性化的信息推送方法及装置
TW201443812A (zh) * 2013-01-02 2014-11-16 Microsoft Corp 社群媒體影響性評估(二)
CN110825980A (zh) * 2019-11-05 2020-02-21 重庆邮电大学 一种基于对抗生成网络的微博话题推送方法

Also Published As

Publication number Publication date
CN111475726B (zh) 2022-05-03

Similar Documents

Publication Publication Date Title
US10325289B2 (en) User similarity groups for on-line marketing
Lacey et al. Projections overview and highlights, 2016-26
US9965767B2 (en) Attribution of demographics to census data
US8478697B2 (en) Determining whether to provide an advertisement to a user of a social network
US9990649B2 (en) System and method for managing message campaign data
US9524472B2 (en) Distributed scalable incrementally updated models in decisioning systems
CN104156392A (zh) 好友及应用个性化推荐方法及系统
US20190139079A1 (en) Autonomous marketing campaign optimization for targeting and placement of digital advertisements
CN111460294A (zh) 消息推送方法、装置、计算机设备及存储介质
Gelman et al. High-frequency polling with non-representative data
US11170131B1 (en) Differentially private top-k selection
US20190080116A1 (en) Random noise based privacy mechanism
CN110213209B (zh) 一种推送信息点击的作弊检测方法、装置及存储介质
CN117668361B (zh) 一种基于大数据的推送方法及系统
CN111475726B (zh) 一种基于多因数@优化模型的Twitter网络信息推送最大化方法
US20230195798A1 (en) Utility based inquiry selection in a streaming data pipeline
Yablochnikov et al. Synchronization of Real and Virtual Processes in the Context of the Industrial Revolution 4.0
Carlsen et al. Wage formation, regional migration and local labour market tightness
TWM630550U (zh) 鎖定廣告受眾的運算系統
US20100114647A1 (en) System and method for for granular inventory forecasting of online advertisement impressions
US8706550B1 (en) External-signal influence on content item performance
Palmer et al. Health economics
Nadella et al. Subscriber gender prediction in telecom using deep learning
Zimmermann et al. Promoting Sports and Wellness with Social Media Advertising–An Analysis of Different Marketing Channels
Ben-Shalom et al. Risk of Workforce Exit due to Disability: State Differences in 2003–2016

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant