CN111652662B - 一种信息处理方法和装置 - Google Patents
一种信息处理方法和装置 Download PDFInfo
- Publication number
- CN111652662B CN111652662B CN202010770466.5A CN202010770466A CN111652662B CN 111652662 B CN111652662 B CN 111652662B CN 202010770466 A CN202010770466 A CN 202010770466A CN 111652662 B CN111652662 B CN 111652662B
- Authority
- CN
- China
- Prior art keywords
- data
- information
- time sequence
- piece
- sequence data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 55
- 238000003672 processing method Methods 0.000 title claims abstract description 28
- 238000012545 processing Methods 0.000 claims abstract description 69
- 238000000034 method Methods 0.000 claims abstract description 37
- 230000003993 interaction Effects 0.000 claims abstract description 22
- 230000002159 abnormal effect Effects 0.000 claims description 38
- 238000001914 filtration Methods 0.000 claims description 27
- 238000011156 evaluation Methods 0.000 claims description 10
- 238000010606 normalization Methods 0.000 claims description 8
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims 3
- 230000006399 behavior Effects 0.000 description 7
- 230000001680 brushing effect Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000012935 Averaging Methods 0.000 description 3
- 230000005856 abnormality Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000013145 classification model Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0242—Determining effectiveness of advertisements
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Marketing (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种信息处理方法和装置,涉及数据处理领域。为解决现有的KOL影响力识别的准确率较低的问题而发明。本发明实施例提供的技术方案包括:获取待预测账号发布的至少一条信息的至少两个互动类型的时间序列数据;分别获取每条信息的每个时间序列数据的造假比例;分别获取每条信息的每两个时间序列数据之间的相关系数;根据每条信息对应的造假比例和相关系数,获取对应信息的信息造假率;根据所述待预测账号发布的至少一条信息的信息造假率,获取所述待预测账号的账号造假率。该方案可以应用在KOL影响力识别等领域。
Description
技术领域
本发明涉及数据处理领域,特别是涉及一种信息处理方法和装置。
背景技术
随着网络的飞速发展,把生活建立在数据流量基础上的人越来越多,对于广告主而言数据流量更是具有极大的商业价值。而在社交平台上进行商业化投放,如何识别关键意见领袖(Key Opinion Leader,KOL)的影响力,是广告主进行商业化投放所要解决的重要难题。
数据流量的巨大价值也诱发了各种数据流量造假的行为,使得判断KOL的影响力变得愈发困难。现有技术中,一般用粉丝量来识别一个KOL的影响力,然而这种简单粗暴的方法随着注册虚假账号刷流量行为的出现准确率也越来越低。
发明内容
有鉴于此,本发明的主要目的在于解决KOL影响力识别的准确率较低的问题。
一方面,本发明实施例提供一种信息处理方法,包括:获取待预测账号发布的至少一条信息的至少两个互动类型的时间序列数据;分别获取每条信息的每个时间序列数据的造假比例;分别获取每条信息的每两个时间序列数据之间的相关系数;根据每条信息对应的造假比例和相关系数,获取对应信息的信息造假率;根据所述待预测账号发布的至少一条信息的信息造假率,获取所述待预测账号的账号造假率。
另一方面,本发明实施例提供一种信息处理装置,包括:
时间序列数据获取单元,用于获取待预测账号发布的至少一条信息的至少两个互动类型的时间序列数据;
造假比例获取单元,与所述时间序列数据获取单元相连,用于分别获取每条信息的每个时间序列数据的造假比例;
相关系数获取单元,与所述时间序列数据获取单元相连,用于分别获取每条信息的每两个时间序列数据之间的相关系数;
信息造假率获取单元,分别与所述造假比例获取单元和所述相关系数获取单元相连,用于根据每条信息对应的造假比例和相关系数,获取对应信息的信息造假率;
账号造假率获取单元,与所述信息造假率获取单元相连,用于根据所述待预测账号发布的至少一条信息的信息造假率,获取所述待预测账号的账号造假率。
综上所述,本发明提供的信息处理方法和装置,通过每条信息的信息造假率确定待预测账号的账号造假率,进而为识别KOL影响力提供依据。本发明提供的技术方案,在获取信息造假率时,不仅引入了造假比例,还引入了相关系数,能够进一步消除误判,从而提高账号造假率的准确率,进而提高KOL影响力识别的准确率;该方案解决了随着注册虚假账号刷流量行为的出现,用粉丝量来识别一个KOL的影响力准确率也越来越低的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1提供的信息处理方法的流程图一;
图2为本发明实施例1提供的信息处理方法的流程图二;
图3为本发明实施例2提供的信息处理方法的流程图一;
图4为本发明实施例2提供的信息处理方法的流程图二;
图5为本发明实施例3提供的信息处理装置的结构示意图一;
图6为本发明实施例3提供的信息处理装置的结构示意图二;
图7为本发明实施例4提供的信息处理装置的结构示意图一;
图8为本发明实施例4提供的信息处理装置的结构示意图二。
具体实施方式
下面将结合本发明的附图,对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
如图1所示,本发明提供一种信息处理方法,包括:
步骤101,获取待预测账号发布的至少一条信息的至少两个互动类型的时间序列数据。
在本实施例中,步骤101中待预测账号发布的至少一条信息,既可以是原创信息,也可以是转发信息,在此不作限制;该信息的形式可以为文字、视频、文字+视频等形式,在此不再一一赘述。
在本实施例中,步骤101中的互动类型可以为评论、转发或点赞等;即至少两个互动类型的时间序列数据,可以包括评论的时间序列数据、点赞的时间序列数据、转发的时间序列数据等中的至少两种,在此不再一一赘述。
步骤102,分别获取每条信息的每个时间序列数据的造假比例。
在本实施例中,通过步骤102获取造假比例的过程包括:分别判断每条信息的每个时间序列数据是否符合预设过滤规则;当时间序列数据符合预设过滤规则时,获取该时间序列数据的造假比例0;当时间序列数据不符合预设过滤规则时,对该时间序列数据进行处理,获取该时间序列数据的造假比例。该预设过滤规则可以包括:时间序列数据/增量时间序列数据中所有数据之和小于预设第一阈值;和/或时间序列数据/增量时间序列数据中的最大数据小于预设第二阈值;和/或时间序列数据/增量时间序列数据中数据的互动时刻的统计值小于预设第三阈值。该第一、第二、第三阈值为预先设定的,特别的,针对不同的互动类型,可以设置不同的第一/二/三阈值,在此不再一一赘述。
其中,对该时间序列数据进行处理,获取该时间序列数据的造假比例的过程包括:对该时间序列数据进行差分处理,得到增量时间序列数据;对该增量时间序列数据进行归一化,得到归一化数据;对归一化数据进行首尾复制填充,得到填充数据;对填充数据进行两次差分处理,得到差分数据;判断差分数据中每个点是否异常,得到判断结果;根据增量时间序列数据对判断结果进行修正,得到该时间序列数据的造假比例。
在本实施例中,以归一化数据为A、B、C为例,首尾复制填充即为复制首尾的数据A和C,然后将复制的第一个数据填充到原始第一个数据之前,将复制的最后一个数据填充到原始的最后一个数据之后,得到填充数据A、A、B、C、C。
在本实施例中,判断差分数据中每个点是否异常,得到判断结果,包括:根据预设滑动窗口的大小,在差分数据的前后填充数据0,得到滑动填充数据;通过预设滑动窗口对滑动填充数据进行处理,得到至少一组数据;分别判断至少一组数据的中心点是否异常,得到差分数据中每个点是否异常的判断结果。其中,预设滑动窗口的大小n为奇数,在差分数据前后填充数据0的个数分别为(n-1)/2。
其中,通过设置滑动窗口以及填充数据的大小,能够使每组数据的中心点代表初始的差分数据;分别判断至少一组数据的中心点是否异常的方式可以为,通过预先训练的分类模型如决策树模型、SVM模型、逻辑回归模型等判断至少一组数据的中心点是否异常。
在本实施例中,根据增量时间序列数据对判断结果进行修正,得到该时间序列数据的造假比例的过程包括:分别获取判断结果中每个异常点对应的评估值;根据每个异常点对应的评估值和对应增量时间序列数据的实际值获取每个异常点的水分;根据水分大于预设水分阈值的所有异常点的水分和,以及增量时间序列数据的数据和,获取该时间序列数据的造假比例。
其中,分别获取判断结果中每个异常点对应的评估值,可以为通过插值等方法计算每个异常点对应的评估值。
步骤103,分别获取每条信息的每两个时间序列数据之间的相关系数。
在本实施例中,对于任意信息的任意两个时间序列数据,通过步骤103获取相关系数的过程包括:对该两个时间序列数据进行差分处理,得到两个增量时间序列数据;对该两个增量时间序列数据进行相关处理,得到该两个时间序列数据之间的相关系数;为了仅关注较大值错位,防止较小值影响相关系数的计算,该过程还可以包括:对该两个时间序列数据进行差分处理,得到两个增量时间序列数据;将该两个增量时间序列数据中符合预设策略的较小值置为0,得到两组待处理数据;对两组待处理数据进行Spearman秩相关处理,得到该两个时间序列数据之间的相关系数。其中,相关处理,包括:Pearson相关、Spearman秩相关或者kendall相关;预设策略,包括:将增量时间序列数据中小于预设第四阈值的数据认定为较小值;或者由小到大将增量时间序列数据中预设个数比例的数据认定为较小值。
步骤104,根据每条信息对应的造假比例和相关系数,获取对应信息的信息造假率。
在本实施例中,步骤104可以通过预先训练的回归模型如线性回归模型、SVM模型、GBDT模型等获取信息造假率,在此不再一一赘述。该预先训练的回归模型可以通过一定的特征工程手段提取高阶特征,以达到特征交叉的目的,提高模型的准确度,例如提取交叉二阶特征,交叉的三阶特征等,在此不再一一赘述。
步骤105,根据待预测账号发布的至少一条信息的信息造假率,获取待预测账号的账号造假率。
在本实施例中,通过步骤105获取账号造假率的过程包括:根据待预测账号发布的至少一条信息的信息造假率均值,获取待预测账号的账号造假率。特别的,由于数据距离当前时间越近,越具有代表性,因此通过步骤105获取账号造假率的过程还可以包括:根据每条信息的发布时间,对待预测账号发布的至少一条信息的信息造假率进行加权平均,得到待预测账号的账号造假率;该加权平均过程可以为指数加权平均或移动加权平均等,在此不作限制。为了体现数据的代表性,可以设置距离当前时间越近的数据的权重越大,该权重可以是预先设置的。
进一步的,为了提高造假比例和相关系数的准确率,进而提高账号造假率的准确率,如图2所示,在步骤102之前,还可以包括:
步骤106,根据每条信息的每个时间序列数据中各个数据的互动时间,对每条信息的每个时间序列数据进行等间距插值,得到等时间间距的插值时间序列数据。
此时,步骤102具体为,分别获取每条信息的每个插值时间序列数据的造假比例;此时,步骤102中对时间序列数据的处理过程替换为对插值时间序列数据的处理即可,在此不再一一赘述。
步骤103具体为,分别获取每条信息的每两个插值时间序列数据之间的相关系数;此时,步骤103中对时间序列数据的处理过程替换为对插值时间序列数据的处理即可,在此不再一一赘述。
综上,本发明提供的信息处理方法,通过每条信息的信息造假率确定待预测账号的账号造假率,进而为识别KOL影响力提供依据。本发明提供的技术方案,在获取信息造假率时,不仅引入了造假比例,还引入了相关系数,能够进一步消除误判,从而提高账号造假率的准确率,进而提高KOL影响力识别的准确率;该方案解决了随着注册虚假账号刷流量行为的出现,用粉丝量来识别一个KOL的影响力准确率也越来越低的问题。
实施例2
如图3所示,本发明提供一种信息处理方法,包括:
步骤301,获取待预测账号发布的至少一条信息的至少两个互动类型的时间序列数据。
该过程与图1所示的步骤101类似,在此不再一一赘述。
步骤302,分别对每条信息的每个时间序列数据进行差分处理,得到对应的增量时间序列数据。
步骤303,分别获取每条信息的每个增量时间序列数据的造假比例。
在本实施例中,通过步骤303获取造假比例的过程包括:分别判断每条信息的每个增量时间序列数据是否符合预设过滤规则;当增量时间序列数据符合预设过滤规则时,获取该增量时间序列数据的造假比例0;当增量时间序列数据不符合预设过滤规则时,对该增量时间序列数据进行处理,获取该增量时间序列数据的造假比例。该预设过滤规则,包括增量时间序列数据/时间序列数据中所有数据之和小于预设第一阈值;和/或增量时间序列数据/时间序列数据中的最大数据小于预设第二阈值;和/或增量时间序列数据/时间序列数据中数据的互动时刻的统计值小于预设第三阈值。该第一、第二、第三阈值为预先设定的,特别的,针对不同的互动类型,可以设置不同的第一/二/三阈值,在此不再一一赘述。
其中,对该增量时间序列数据进行处理,获取该增量时间序列数据的造假比例,包括:对该增量时间序列数据进行归一化,得到归一化数据;对归一化数据进行首尾复制填充,得到填充数据;对填充数据进行两次差分处理,得到差分数据;判断差分数据中每个点是否异常,得到判断结果;根据增量时间序列数据对判断结果进行修正,得到该时间序列数据的造假比例。
在本实施例中,首尾复制填充、判断异常以及对判断结果修正的过程,与图1所示的步骤102相似,在此不再一一赘述。
步骤304,分别获取每条信息的每两个增量时间序列数据之间的相关系数。
在本实施例中,通过步骤304获取相关系数的过程包括:对该两个增量时间序列数据进行相关处理,得到该两个增量时间序列数据之间的相关系数。为了仅关注较大值错位,防止较小值影响相关系数的计算,该过程还可以包括:将该两个增量时间序列数据中符合预设策略的较小值置为0,得到两组待处理数据;对两组待处理数据进行Spearman秩相关处理,得到该两个增量时间序列数据之间的相关系数。其中,相关处理,包括:Pearson相关、Spearman秩相关或者kendall相关;预设策略,包括:将增量时间序列数据中小于预设第四阈值的数据认定为较小值;或者由小到大将增量时间序列数据中预设个数比例的数据认定为较小值。
步骤305至步骤306,获取对应信息的信息造假率和待预测账号的账号造假率。该过程与图1所示的步骤104至步骤105类似,在此不再一一赘述。
进一步的,如图4所示,在步骤302之前,还包括:
步骤307,根据每条信息的每个时间序列数据中各个数据的互动时间,对每条信息的每个时间序列数据进行等间距插值,得到等时间间距的插值时间序列数据。
此时,步骤302具体为,分别对每条信息的每个插值时间序列数据进行差分处理,得到对应的增量时间序列数据。
综上,本发明提供的信息处理方法,通过每条信息的信息造假率确定待预测账号的账号造假率,进而为识别KOL影响力提供依据。本发明提供的技术方案,在获取信息造假率时,不仅引入了造假比例,还引入了相关系数,能够进一步消除误判,从而提高账号造假率的准确率,进而提高KOL影响力识别的准确率;该方案解决了随着注册虚假账号刷流量行为的出现,用粉丝量来识别一个KOL的影响力准确率也越来越低的问题。
实施例3
如图5所示,本发明提供一种信息处理装置,包括:
时间序列数据获取单元501,用于获取待预测账号发布的至少一条信息的至少两个互动类型的时间序列数据;
造假比例获取单元502,与时间序列数据获取单元相连,用于分别获取每条信息的每个时间序列数据的造假比例;
相关系数获取单元503,与时间序列数据获取单元相连,用于分别获取每条信息的每两个时间序列数据之间的相关系数;
信息造假率获取单元504,分别与造假比例获取单元和相关系数获取单元相连,用于根据每条信息对应的造假比例和相关系数,获取对应信息的信息造假率;
账号造假率获取单元505,与信息造假率获取单元相连,用于根据待预测账号发布的至少一条信息的信息造假率,获取待预测账号的账号造假率。
在本实施例中,通过时间序列数据获取单元501至账号造假率获取单元505获取待预测账号的账号造假率的过程,与本发明实施例1提供的相似,在此不再一一赘述。
进一步的,本实施例提供的信息处理装置中造假比例获取单元,包括:
第一判断模块,用于分别判断每条信息的每个时间序列数据是否符合预设过滤规则;
第一获取模块,与第一判断模块相连,用于当时间序列数据符合预设过滤规则时,获取该时间序列数据的造假比例0;
第二获取模块,与第一判断模块相连,用于当时间序列数据不符合预设过滤规则时,对该时间序列数据进行处理,获取该时间序列数据的造假比例。
在本实施例中,通过造假比例获取单元的各个模块实现造假比例的获取过程,与本发明实施例1提供的相似,在此不再一一赘述。
进一步的,本实施例提供的信息处理装置中第二获取模块,包括:
第一差分子模块,用于对该时间序列数据进行差分处理,得到增量时间序列数据;
第一归一化子模块,与第一差分子模块相连,用于对该增量时间序列数据进行归一化,得到归一化数据;
第一填充子模块,与第一归一化子模块相连,用于对归一化数据进行首尾复制填充,得到填充数据;
第二差分子模块,与第一填充子模块相连,用于对填充数据进行两次差分处理,得到差分数据;
第一判断子模块,与第二差分子模块相连,用于判断差分数据中每个点是否异常,得到判断结果;
第一比例获取子模块,分别与第一判断子模块和第一差分子模块相连,用于根据增量时间序列数据对判断结果进行修正,得到该时间序列数据的造假比例。
在本实施例中,通过第二获取模块的各个子模块计算造假比例的过程,与本发明实施例1提供的相似,在此不再一一赘述。
其中,第一判断子模块,可以包括:
用于根据预设滑动窗口的大小,在差分数据的前后填充数据0,得到滑动填充数据的结构;
用于通过预设滑动窗口对滑动填充数据进行处理,得到至少一组数据的结构;
用于分别判断至少一组数据的中心点是否异常,得到差分数据中每个点是否异常的判断结果的结构。
在本实施例中,通过上述结构判断异常的过程,与本发明实施例1提供的类似,在此不再一一赘述。
第一比例获取子模块,可以包括:
用于分别获取判断结果中每个异常点对应的评估值的结构;
用于根据每个异常点对应的评估值和对应增量时间序列数据的实际值获取每个异常点的水分的结构;
用于根据水分大于预设水分阈值的所有异常点的水分和,以及增量时间序列数据的数据和,获取该时间序列数据的造假比例的结构。
在本实施例中,通过上述结构实现造假比例获取的过程,与本发明实施例1提供的近似,在此不再一一赘述。
进一步的,对于任意信息的任意两个时间序列数据,本实施例提供的信息处理装置中相关系数获取单元,包括:
第三差分模块,用于对该两个时间序列数据进行差分处理,得到两个增量时间序列数据;
第一处理模块,与第三差分模块相连,用于将该两个增量时间序列数据中符合预设策略的较小值置为0,得到两组待处理数据;
第一相关模块,与第一处理模块相连,用于对两组待处理数据进行Spearman秩相关处理,得到该两个时间序列数据之间的相关系数。
在本实施例中,通过相关系数获取单元的各个模块实现相关系数的获取过程,与本发明实施例1提供的相似,在此不再一一赘述。
进一步的,如图6所示,本实施例提供的信息处理装置,还包括:
第一插值单元506,根据每条信息的每个时间序列数据中各个数据的互动时间,对每条信息的每个时间序列数据进行等间距插值,得到等时间间距的插值时间序列数据;
此时,造假比例获取单元,具体用于分别获取每条信息的每个插值时间序列数据的造假比例;
相关系数获取单元,具体用于分别获取每条信息的每两个插值时间序列数据之间的相关系数。
在本实施例中,当信息处理装置还包括第一插值单元时,实现信息处理的过程,与本发明实施例1提供的相似,在此不再一一赘述。
综上,本发明提供的信息处理装置,通过每条信息的信息造假率确定待预测账号的账号造假率,进而为识别KOL影响力提供依据。本发明提供的技术方案,在获取信息造假率时,不仅引入了造假比例,还引入了相关系数,能够进一步消除误判,从而提高账号造假率的准确率,进而提高KOL影响力识别的准确率;该方案解决了随着注册虚假账号刷流量行为的出现,用粉丝量来识别一个KOL的影响力准确率也越来越低的问题。
实施例4
如图7所示,本实施例提供一种信息处理装置,包括:
时间序列数据获取单元701,用于获取待预测账号发布的至少一条信息的至少两个互动类型的时间序列数据;
第四差分单元702,分别与时间序列数据获取单元、造假比例获取单元和相关系数获取单元相连,用于分别对每条信息的每个时间序列数据进行差分处理,得到对应的增量时间序列数据;
造假比例获取单元703,具体用于分别获取每条信息的每个增量时间序列数据的造假比例;
相关系数获取单元704,具体用于分别获取每条信息的每两个增量时间序列数据之间的相关系数。
信息造假率获取单元705,分别与造假比例获取单元和相关系数获取单元相连,用于根据每条信息对应的造假比例和相关系数,获取对应信息的信息造假率;
账号造假率获取单元706,与信息造假率获取单元相连,用于根据待预测账号发布的至少一条信息的信息造假率,获取待预测账号的账号造假率。
在本实施例中,通过时间序列数据获取单元701至账号造假率获取单元706实现账号造假率的获取过程,与本发明实施例2提供的类似,在此不再一一赘述。
进一步的,本实施例提供的信息处理装置中造假比例获取单元,包括:
第二判断模块,用于分别判断每条信息的每个增量时间序列数据是否符合预设过滤规则;
第三获取模块,与第二判断模块相连,用于当增量时间序列数据符合预设过滤规则时,获取该增量时间序列数据的造假比例0;
第四获取模块,与第二判断模块相连,用于当增量时间序列数据不符合预设过滤规则时,对该增量时间序列数据进行处理,获取该增量时间序列数据的造假比例。
在本实施例中,通过造假比例获取单元的各个模块实现造假比例的获取过程,与本发明实施例2提供的类似,在此不再一一赘述。
进一步的,本实施例提供的信息处理装置中第四获取模块,包括:
第二归一化子模块,用于对该增量时间序列数据进行归一化,得到归一化数据;
第二填充子模块,与第二归一化子模块相连,用于对归一化数据进行首尾复制填充,得到填充数据;
第五差分子模块,与第二填充子模块相连,用于对填充数据进行两次差分处理,得到差分数据;
第二判断子模块,与第五差分子模块相连,用于判断差分数据中每个点是否异常,得到判断结果;
第二比例获取子模块,与第二判断子模块相连,用于根据增量时间序列数据对判断结果进行修正,得到该时间序列数据的造假比例。
在本实施例中,通过第四获取模块的各个子模块实现造假比例的获取过程,与本发明实施例2提供的类似,在此不再一一赘述。
其中,第二判断子模块,可以包括:
用于根据预设滑动窗口的大小,在差分数据的前后填充数据0,得到滑动填充数据的结构;
用于通过预设滑动窗口对滑动填充数据进行处理,得到至少一组数据的结构;
用于分别判断至少一组数据的中心点是否异常,得到差分数据中每个点是否异常的判断结果的结构。
在本实施例中,通过上述结构判断异常的过程,与本发明实施例2提供的类似,在此不再一一赘述。
第二比例获取子模块,可以包括:
用于分别获取判断结果中每个异常点对应的评估值的结构;
用于根据每个异常点对应的评估值和对应增量时间序列数据的实际值获取每个异常点的水分的结构;
用于根据水分大于预设水分阈值的所有异常点的水分和,以及增量时间序列数据的数据和,获取该时间序列数据的造假比例的结构。
在本实施例中,通过上述结构实现造假比例获取的过程,与本发明实施例2提供的近似,在此不再一一赘述。
进一步的,本实施例提供的信息处理装置中相关系数获取单元,包括:
第二处理模块,用于将该两个增量时间序列数据中符合预设策略的较小值置为0,得到两组待处理数据;
第二相关模块,与第二处理模块相连,用于对两组待处理数据进行Spearman秩相关处理,得到该两个增量时间序列数据的相关系数。
在本实施例中,通过相关系数获取单元的各个模块获取相关系数的过程,与本发明实施例2提供的类似,在此不再一一赘述。
进一步的,如图8所示,本实施例提供的信息处理装置,还可以包括:
第二插值单元707,用于根据每条信息的每个时间序列数据中各个数据的互动时间,对每条信息的每个时间序列数据进行等间距插值,得到等时间间距的插值时间序列数据;
第四差分单元,具体用于分别对每条信息的每个插值时间序列数据进行差分处理,得到对应的增量时间序列数据。
在本实施例中,信息处理装置还包括第二插值单元时,实现待预测账号的账号造假率的获取过程,与本发明实施例2提供的类似,在此不再一一赘述。
综上,本发明提供的信息处理方法和装置,通过每条信息的信息造假率确定待预测账号的账号造假率,进而为识别KOL影响力提供依据。本发明提供的技术方案,在获取信息造假率时,不仅引入了造假比例,还引入了相关系数,能够进一步消除误判,从而提高账号造假率的准确率,进而提高KOL影响力识别的准确率;该方案解决了随着注册虚假账号刷流量行为的出现,用粉丝量来识别一个KOL的影响力准确率也越来越低的问题。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (19)
1.一种信息处理方法,其特征在于,包括:
获取待预测账号发布的至少一条信息的至少两个互动类型的时间序列数据;
分别获取每条信息的每个时间序列数据的造假比例;
分别获取每条信息的每两个时间序列数据之间的相关系数;
根据每条信息对应的造假比例和相关系数,获取对应信息的信息造假率;
根据所述待预测账号发布的至少一条信息的信息造假率,获取所述待预测账号的账号造假率;
所述分别获取每条信息的每个时间序列数据的造假比例,包括:
分别判断每条信息的每个时间序列数据是否符合预设过滤规则;
当时间序列数据符合预设过滤规则时,获取该时间序列数据的造假比例0;
当时间序列数据不符合预设过滤规则时,对该时间序列数据进行处理,获取该时间序列数据的造假比例;
对于任意信息的任意两个时间序列数据,所述分别获取每条信息的每两个时间序列数据之间的相关系数,包括:
对该两个时间序列数据进行差分处理,得到两个增量时间序列数据;对该两个增量时间序列数据进行相关处理,得到该两个时间序列数据之间的相关系数;或者,
对该两个时间序列数据进行差分处理,得到两个增量时间序列数据;将该两个增量时间序列数据中符合预设策略的较小值置为0,得到两组待处理数据;对两组待处理数据进行Spearman秩相关处理,得到该两个时间序列数据之间的相关系数;
所述根据每条信息对应的造假比例和相关系数,获取对应信息的信息造假率,包括:通过预先训练的回归模型根据每条信息对应的造假比例和相关系数,获取对应信息的信息造假率。
2.根据权利要求1所述的信息处理方法,其特征在于,所述对该时间序列数据进行处理,获取该时间序列数据的造假比例的过程包括:
对该时间序列数据进行差分处理,得到增量时间序列数据;
对该增量时间序列数据进行归一化,得到归一化数据;
对所述归一化数据进行首尾复制填充,得到填充数据;
对所述填充数据进行两次差分处理,得到差分数据;
判断所述差分数据中每个点是否异常,得到判断结果;
根据所述增量时间序列数据对所述判断结果进行修正,得到该时间序列数据的造假比例。
3.根据权利要求1所述的信息处理方法,其特征在于,在所述分别获取每条信息的每个时间序列数据的造假比例之前,还包括:
分别对每条信息的每个时间序列数据进行差分处理,得到对应的增量时间序列数据;
所述分别获取每条信息的每个时间序列数据的造假比例,具体为分别获取每条信息的每个增量时间序列数据的造假比例;
所述分别获取每条信息的每两个时间序列数据之间的相关系数,具体为分别获取每条信息的每两个增量时间序列数据之间的相关系数。
4.根据权利要求3所述的信息处理方法,其特征在于,所述分别获取每条信息的每个增量时间序列数据的造假比例,包括:
分别判断每条信息的每个增量时间序列数据是否符合预设过滤规则;
当增量时间序列数据符合预设过滤规则时,获取该增量时间序列数据的造假比例0;
当增量时间序列数据不符合预设过滤规则时,对该增量时间序列数据进行处理,获取该增量时间序列数据的造假比例。
5.根据权利要求4所述的信息处理方法,其特征在于,所述对该增量时间序列数据进行处理,获取该增量时间序列数据的造假比例,包括:
对该增量时间序列数据进行归一化,得到归一化数据;
对所述归一化数据进行首尾复制填充,得到填充数据;
对所述填充数据进行两次差分处理,得到差分数据;
判断所述差分数据中每个点是否异常,得到判断结果;
根据所述增量时间序列数据对所述判断结果进行修正,得到该时间序列数据的造假比例。
6.根据权利要求3所述的信息处理方法,其特征在于,所述分别获取每条信息的每两个增量时间序列数据之间的相关系数,包括:
对该两个增量时间序列数据进行相关处理,得到该两个增量时间序列数据之间的相关系数;或者
将该两个增量时间序列数据中符合预设策略的较小值置为0,得到两组待处理数据;对两组待处理数据进行Spearman秩相关处理,得到该两个增量时间序列数据之间的相关系数。
7.根据权利要求1所述的信息处理方法,其特征在于,所述根据所述待预测账号发布的至少一条信息的信息造假率,获取所述待预测账号的账号造假率,包括:
根据所述待预测账号发布的至少一条信息的信息造假率均值,获取所述待预测账号的账号造假率;或者
根据每条信息的发布时间,对所述待预测账号发布的至少一条信息的信息造假率进行加权平均,得到所述待预测账号的账号造假率。
8.根据权利要求1所述的信息处理方法,其特征在于,在所述分别获取每条信息的每个时间序列数据的造假比例之前,还包括:
根据每条信息的每个时间序列数据中各个数据的互动时间,对每条信息的每个时间序列数据进行等间距插值,得到等时间间距的插值时间序列数据;
所述分别获取每条信息的每个时间序列数据的造假比例,包括:分别获取每条信息的每个插值时间序列数据的造假比例;
所述分别获取每条信息的每两个时间序列数据之间的相关系数,包括:分别获取每条信息的每两个插值时间序列数据之间的相关系数。
9.根据权利要求1或4所述的信息处理方法,其特征在于,所述预设过滤规则,包括:
时间序列数据/增量时间序列数据中所有数据之和小于预设第一阈值;和/或
时间序列数据/增量时间序列数据中的最大数据小于预设第二阈值;和/或
时间序列数据/增量时间序列数据中数据的互动时刻的统计值小于预设第三阈值。
10.根据权利要求2或5所述的信息处理方法,其特征在于,所述判断所述差分数据中每个点是否异常,得到判断结果,包括:
根据预设滑动窗口的大小,在所述差分数据的前后填充数据0,得到滑动填充数据;
通过所述预设滑动窗口对所述滑动填充数据进行处理,得到至少一组数据;
分别判断所述至少一组数据的中心点是否异常,得到差分数据中每个点是否异常的判断结果。
11.根据权利要求2或5所述的信息处理方法,其特征在于,所述根据所述增量时间序列数据对所述判断结果进行修正,得到该时间序列数据的造假比例,包括:
分别获取判断结果中每个异常点对应的评估值;
根据每个异常点对应的评估值和对应所述增量时间序列数据的实际值获取每个异常点的水分;
根据水分大于预设水分阈值的所有异常点的水分和,以及所述增量时间序列数据的数据和,获取该时间序列数据的造假比例。
12.根据权利要求1或6所述的信息处理方法,其特征在于,
所述相关处理,包括:Pearson相关、Spearman秩相关或者kendall相关;
所述预设策略,包括:将增量时间序列数据中小于预设第四阈值的数据认定为较小值;或者由小到大将增量时间序列数据中预设个数比例的数据认定为较小值。
13.根据权利要求3所述的信息处理方法,其特征在于,在所述分别对每条信息的每个时间序列数据进行差分处理,得到对应的增量时间序列数据之前,还包括:
根据每条信息的每个时间序列数据中各个数据的互动时间,对每条信息的每个时间序列数据进行等间距插值,得到等时间间距的插值时间序列数据;
所述分别对每条信息的每个时间序列数据进行差分处理,得到对应的增量时间序列数据,具体为分别对每条信息的每个插值时间序列数据进行差分处理,得到对应的增量时间序列数据。
14.一种信息处理装置,其特征在于,包括:
时间序列数据获取单元,用于获取待预测账号发布的至少一条信息的至少两个互动类型的时间序列数据;
造假比例获取单元,与所述时间序列数据获取单元相连,用于分别获取每条信息的每个时间序列数据的造假比例;
相关系数获取单元,与所述时间序列数据获取单元相连,用于分别获取每条信息的每两个时间序列数据之间的相关系数;
信息造假率获取单元,分别与所述造假比例获取单元和所述相关系数获取单元相连,用于根据每条信息对应的造假比例和相关系数,获取对应信息的信息造假率;
账号造假率获取单元,与所述信息造假率获取单元相连,用于根据所述待预测账号发布的至少一条信息的信息造假率,获取所述待预测账号的账号造假率;
所述造假比例获取单元,包括:
第一判断模块,用于分别判断每条信息的每个时间序列数据是否符合预设过滤规则;
第一获取模块,与所述第一判断模块相连,用于当时间序列数据符合预设过滤规则时,获取该时间序列数据的造假比例0;
第二获取模块,与所述第一判断模块相连,用于当时间序列数据不符合预设过滤规则时,对该时间序列数据进行处理,获取该时间序列数据的造假比例;
对于任意信息的任意两个时间序列数据,所述相关系数获取单元,包括:
第三差分模块,用于对该两个时间序列数据进行差分处理,得到两个增量时间序列数据;
第一处理模块,与所述第三差分模块相连,用于将该两个增量时间序列数据中符合预设策略的较小值置为0,得到两组待处理数据;
第一相关模块,与所述第一处理模块相连,用于对两组待处理数据进行Spearman秩相关处理,得到该两个时间序列数据之间的相关系数;
信息造假率获取单元,具体用于通过预先训练的回归模型根据每条信息对应的造假比例和相关系数,获取对应信息的信息造假率。
15.根据权利要求14所述的信息处理装置,其特征在于,所述第二获取模块,包括:
第一差分子模块,用于对该时间序列数据进行差分处理,得到增量时间序列数据;
第一归一化子模块,与所述第一差分子模块相连,用于对该增量时间序列数据进行归一化,得到归一化数据;
第一填充子模块,与所述第一归一化子模块相连,用于对所述归一化数据进行首尾复制填充,得到填充数据;
第二差分子模块,与所述第一填充子模块相连,用于对所述填充数据进行两次差分处理,得到差分数据;
第一判断子模块,与所述第二差分子模块相连,用于判断所述差分数据中每个点是否异常,得到判断结果;
第一比例获取子模块,分别与所述第一判断子模块和第一差分子模块相连,用于根据所述增量时间序列数据对所述判断结果进行修正,得到该时间序列数据的造假比例。
16.根据权利要求14所述的信息处理装置,其特征在于,还包括:
第四差分单元,分别与所述时间序列数据获取单元、造假比例获取单元和相关系数获取单元相连,用于分别对每条信息的每个时间序列数据进行差分处理,得到对应的增量时间序列数据;
所述造假比例获取单元,具体用于分别获取每条信息的每个增量时间序列数据的造假比例;
所述相关系数获取单元,具体用于分别获取每条信息的每两个增量时间序列数据之间的相关系数。
17.根据权利要求16所述的信息处理装置,其特征在于,所述造假比例获取单元,包括:
第二判断模块,用于分别判断每条信息的每个增量时间序列数据是否符合预设过滤规则;
第三获取模块,与所述第二判断模块相连,用于当增量时间序列数据符合预设过滤规则时,获取该增量时间序列数据的造假比例0;
第四获取模块,与所述第二判断模块相连,用于当增量时间序列数据不符合预设过滤规则时,对该增量时间序列数据进行处理,获取该增量时间序列数据的造假比例。
18.根据权利要求17所述的信息处理装置,其特征在于,所述第四获取模块,包括:
第二归一化子模块,用于对该增量时间序列数据进行归一化,得到归一化数据;
第二填充子模块,与所述第二归一化子模块相连,用于对所述归一化数据进行首尾复制填充,得到填充数据;
第五差分子模块,与所述第二填充子模块相连,用于对所述填充数据进行两次差分处理,得到差分数据;
第二判断子模块,与所述第五差分子模块相连,用于判断所述差分数据中每个点是否异常,得到判断结果;
第二比例获取子模块,与所述第二判断子模块相连,用于根据所述增量时间序列数据对所述判断结果进行修正,得到该时间序列数据的造假比例。
19.根据权利要求16所述的信息处理装置,其特征在于,所述相关系数获取单元,包括:
第二处理模块,用于将该两个增量时间序列数据中符合预设策略的较小值置为0,得到两组待处理数据;
第二相关模块,与所述第二处理模块相连,用于对两组待处理数据进行Spearman秩相关处理,得到该两个增量时间序列数据的相关系数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010770466.5A CN111652662B (zh) | 2020-08-04 | 2020-08-04 | 一种信息处理方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010770466.5A CN111652662B (zh) | 2020-08-04 | 2020-08-04 | 一种信息处理方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111652662A CN111652662A (zh) | 2020-09-11 |
CN111652662B true CN111652662B (zh) | 2020-11-06 |
Family
ID=72342843
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010770466.5A Active CN111652662B (zh) | 2020-08-04 | 2020-08-04 | 一种信息处理方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111652662B (zh) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040073476A1 (en) * | 2002-10-10 | 2004-04-15 | Prolink Services Llc | Method and system for identifying key opinion leaders |
CN107659647A (zh) * | 2017-09-26 | 2018-02-02 | 精硕科技(北京)股份有限公司 | 水帖识别方法和装置 |
CN110570025A (zh) * | 2019-08-20 | 2019-12-13 | 精硕科技(北京)股份有限公司 | 一种微信文章真实阅读率的预测方法、装置及设备 |
CN110689382A (zh) * | 2019-10-11 | 2020-01-14 | 精硕科技(北京)股份有限公司 | 一种信息处理的方法、装置、计算机存储介质及终端 |
-
2020
- 2020-08-04 CN CN202010770466.5A patent/CN111652662B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111652662A (zh) | 2020-09-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108737406B (zh) | 一种异常流量数据的检测方法及系统 | |
CN110297968B (zh) | 产品推送方法、装置、计算机设备及存储介质 | |
CN110728543B (zh) | 异常账号的识别方法及装置 | |
CN105095238A (zh) | 用于检测欺诈交易的决策树生成方法 | |
CN110458576B (zh) | 一种融合事前预测和事中检测的网络交易反欺诈方法 | |
CN115222303B (zh) | 基于大数据的行业风险数据分析方法、系统及存储介质 | |
CN107015993B (zh) | 一种用户类型识别方法及装置 | |
CN116108991A (zh) | 数据处理方法、装置、设备及存储介质 | |
CN111652662B (zh) | 一种信息处理方法和装置 | |
CN112468444B (zh) | 互联网域名滥用识别方法和装置,电子设备,存储介质 | |
CN116151840B (zh) | 一种基于大数据的用户服务数据智能管理系统及方法 | |
CN117392577A (zh) | 用于司法视频场景中行为识别方法、存储介质及电子设备 | |
CN113379212B (zh) | 基于区块链的物流信息平台违约风险评估方法、装置、设备及介质 | |
CN115439265A (zh) | 一种保险行业智能赔付异常交易风险控制系统 | |
CN115496160A (zh) | 基于深度学习时间因子的无监督异常交易订单检测方法 | |
CN115423514A (zh) | 一种基于mlp的车企用户综合线索的评级方法 | |
CN111209567B (zh) | 提高检测模型鲁棒性的可知性判断方法及装置 | |
CN114549216A (zh) | 基于专家规则的人工智能模型结果溯源方法、系统、装置 | |
CN110570025A (zh) | 一种微信文章真实阅读率的预测方法、装置及设备 | |
CN112766981A (zh) | 一种基于机器学习的商圈树构建方法及系统 | |
CN112215420A (zh) | 一种居民用电的客户过户识别方法及系统 | |
CN117114686B (zh) | 一种基于大宗交易平台的信用监管方法及系统 | |
CN113743532B (zh) | 异常检测方法、装置、设备及计算机存储介质 | |
Widder et al. | An Approach for Automatic Fraud Detection in the Insurance Domain. | |
CN118013248B (zh) | 基于半机理模型筛选的工况识别方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CB03 | Change of inventor or designer information | ||
CB03 | Change of inventor or designer information |
Inventor after: Xu Yang Inventor after: Yuan Yihan Inventor after: Deng Jijie Inventor after: Bai Xingan Inventor after: Lin Xing Inventor before: Yuan Yihan Inventor before: Deng Jijie Inventor before: Lin Xing Inventor before: Bai Xingan Inventor before: Xu Yang |