CN112149037A - 基于逻辑回归的实时识别异常关注的方法及系统 - Google Patents
基于逻辑回归的实时识别异常关注的方法及系统 Download PDFInfo
- Publication number
- CN112149037A CN112149037A CN202011039074.8A CN202011039074A CN112149037A CN 112149037 A CN112149037 A CN 112149037A CN 202011039074 A CN202011039074 A CN 202011039074A CN 112149037 A CN112149037 A CN 112149037A
- Authority
- CN
- China
- Prior art keywords
- user
- behavior
- attention
- logistic regression
- users
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 105
- 238000007477 logistic regression Methods 0.000 title claims abstract description 105
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000012549 training Methods 0.000 claims abstract description 77
- 239000013598 vector Substances 0.000 claims description 50
- 239000011159 matrix material Substances 0.000 claims description 28
- 230000000737 periodic effect Effects 0.000 claims description 21
- 238000012512 characterization method Methods 0.000 claims description 14
- 230000000977 initiatory effect Effects 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 8
- 238000012163 sequencing technique Methods 0.000 claims description 7
- 230000001960 triggered effect Effects 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 230000006698 induction Effects 0.000 claims description 2
- 230000006399 behavior Effects 0.000 description 195
- 230000006870 function Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000001680 brushing effect Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013515 script Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供一种基于逻辑回归的实时识别异常关注的方法及系统,包括:获取用户行为日志,将预设时间段内每个用户的所有行为特征形成各自相应的行为特征列表;根据每个用户的行为特征列表,周期性统计在前一预设时间段内的各用户相应的行为特征表征值并保存在数据库内;收到某一用户向其他用户发起的关注请求时,自数据库中获取该用户的最新行为特征表征值、该用户所要关注的其他用户的最新行为特征表征值;并利用预先训练的用户特征逻辑回归模型进行训练,返回逻辑回归训练结果;将逻辑回归训练结果与预设概率阈值进行比较,判断该用户向其他用户发起的关注是否为异常关注。有效的实时的判断当前关注行为是否为异常,降低对正常用户的干扰。
Description
技术领域
本发明涉及互联网领域,具体涉及一种基于逻辑回归的实时识别异常关注的方法及系统。
背景技术
在现代的社交媒体的互联网帐号中,以及在现代的社交媒体的互联网社交平台中,关注关系是一种非常重要的关系。于是出现大量不法分子利用脚本批量的刷关注,这些非法的关注行为称为异常关注。异常关注是对普通用户和对平台都不利的,要想办法找出来。
在实现本发明过程中,申请人发现现有技术中至少存在如下问题:现有技术采用在客户端上做频次限制。比如,在客户端上每20秒统计一次这20秒的发起关注次数,如果大于5次则该用户接下来60秒内不能再发起关注。采用此种方法的的缺点为:如果不法分子账号很多,这一限制就无法找出。而且这一技术有可能会干扰正常用户的使用。最关键的是,不法分子如果不在客户端上发起请求则可以轻松避开这一限制。
发明内容
本发明实施例提供基于逻辑回归的实时识别异常关注的方法及系统,有效的实时的判断当前关注行为是否为异常,降低对正常用户的干扰。
为达上述目的,一方面,本发明实施例提供一种基于逻辑回归的实时识别异常关注的方法,包括:
获取用户行为日志,提取每个用户的行为特征,将预设时间段内每个用户的所有行为特征形成各自相应的行为特征列表;
根据每个用户的行为特征列表,周期性统计在前一预设时间段内的各用户相应的行为特征表征值并保存在数据库内,所述用户的行为特征表征值包括:用户的固有周期行为特征在所有行为特征中的出现比率、用户占比最多的行为特征在所有行为特征中的占比、以及预设时间段内提出关注请求的次数;其中,所述固有周期行为特征是指由后台触发并向用户推送的行为特征;
当收到某一用户向其他用户发起的关注请求时,自数据库中获取该用户的最新行为特征表征值、该用户所要关注的其他用户的最新行为特征表征值;利用预先训练的用户特征逻辑回归模型训练该用户的最新行为特征表征值、该用户所要关注的其他用户的最新行为特征表征值,返回逻辑回归训练结果,所述逻辑回归训练结果用于表征所述用户向其他用户发起的关注为异常关注的概率;
将逻辑回归训练结果与预设概率阈值进行比较,判断该用户向其他用户发起的关注是否为异常关注。
另一方面,本发明实施例提供一种基于逻辑回归的实时识别异常关注的系统,包括:
行为提取单元,用于获取用户行为日志,提取每个用户的行为特征,将预设时间段内每个用户的所有行为特征形成各自相应的行为特征列表;
表征值统计单元,用于根据每个用户的行为特征列表,周期性统计在前一预设时间段内的各用户相应的行为特征表征值并保存在数据库内,所述用户的行为特征表征值包括:用户的固有周期行为特征在所有行为特征中的出现比率、用户占比最多的行为特征在所有行为特征中的占比、以及预设时间段内提出关注请求的次数;其中,所述固有周期行为特征是指由后台触发并向用户推送的行为特征;
实时训练单元,用于当收到某一用户向其他用户发起的关注请求时,自数据库中获取该用户的最新行为特征表征值、该用户所要关注的其他用户的最新行为特征表征值;利用预先训练的用户特征逻辑回归模型训练该用户的最新行为特征表征值、该用户所要关注的其他用户的最新行为特征表征值,返回逻辑回归训练结果,所述逻辑回归训练结果用于表征所述用户向其他用户发起的关注为异常关注的概率;
结果判断单元,用于将逻辑回归训练结果与预设概率阈值进行比较,判断该用户向其他用户发起的关注是否为异常关注。
上述技术方案具有如下有益效果:能有效的实时的判断当前关注行为是否为异常,降低对正常用户的干扰。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的一种基于逻辑回归的实时识别异常关注的方法的流程图;
图2是本发明实施例的一种基于逻辑回归的实时识别异常关注的系统的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,结合本发明的实施例,提供一种基于逻辑回归的实时识别异常关注的方法,包括:
S101:获取用户行为日志,提取每个用户的行为特征,将预设时间段内每个用户的所有行为特征形成各自相应的行为特征列表;
S102:根据每个用户的行为特征列表,周期性统计在前一预设时间段内的各用户相应的行为特征表征值并保存在数据库内,所述用户的行为特征表征值包括:用户的固有周期行为特征在所有行为特征中的出现比率、用户占比最多的行为特征在所有行为特征中的占比、以及预设时间段内提出关注请求的次数;其中,所述固有周期行为特征是指由后台触发并向用户推送的行为特征;
S103:当收到某一用户向其他用户发起的关注请求时,自数据库中获取该用户的最新行为特征表征值、该用户所要关注的其他用户的最新行为特征表征值;利用预先训练的用户特征逻辑回归模型训练该用户的最新行为特征表征值、该用户所要关注的其他用户的最新行为特征表征值,返回逻辑回归训练结果,所述逻辑回归训练结果用于表征所述用户向其他用户发起的关注为异常关注的概率;
S104:将逻辑回归训练结果与预设概率阈值进行比较,判断该用户向其他用户发起的关注是否为异常关注。
优选地,步骤101具体包括:
S1011:获取用户行为日志,自用户行为日志中提取与用户行为特征相关的信息,并将所提取的与用户行为特征相关的信息转化成数据格式;其中,所述与用户行为特征相关的信息包括:行为特征、行为特征发生时间、发生行为特征的用户的唯一账号名uid;
S1012:针对每个用户,根据该用户的具有数据格式的与用户行为特征相关的信息提取该用户的行为特征,将提取出的行为特征形成相应用户的行为特征列表;所述用户的行为特征列表包括当前时间之前的预设时间段内的所有以数据格式体现的与用户行为特征相关的信息。
优选地,还包括S105:训练用户特征逻辑回归模型;步骤105的所述用户特征逻辑回归模型的训练方法,具体包括:
S1051:自数据库中获取一批样本用户在发起关注请求时的最新行为特征表征值、以及该批样本用户所要关注的其他用户的最新行为特征表征值;
S1052:以关注请求为单位,将发起关注请求的样本用户的最新行为特征表征值与其所要关注的其他用户的最新行为特征表征值排序形成一个样本数据点;所述样本数据点相对应的关注的异常关注标记为已知量,如果是异常关注,则异常关注标记取值为1,如果是正常关注,则异常关注标记取值为0;
S1053将每个样本数据点作为矩阵的行,形成数据点矩阵X;以及将每个样本数据点所对应的异常关注标记作为行,形成向量Y;其中,每个样本数据点对应一个行向量,行向量的元素数量为该样本数据点包括的行为特征表征值的数量,异常关注标记在向量Y所在的行与其相应的样本数据点在数据点矩阵X所在的行相同;
S1054:利用逻辑回归训练数据点矩阵X、向量Y,得到用户特征逻辑回归模型。
优选地,所述步骤103具体包括:
S1031:将该用户的最新行为特征表征值与其所要关注的用户的最新行为特征表征值排序形成一个待识别数据点,该待识别数据点对应行向量X1,待识别数据点对应的行向量X1与数据点矩阵X中各行向量的元素数量相同;
S1032:利用用户特征逻辑回归模型训练该待识别数据点对应的行向量X1,得到逻辑回归训练结果Y1,其中,0≤Y1≤1。
优选地,所述步骤104具体包括:
S1041:当逻辑回归训练结果Y1大于预设概率阈值时,判定该用户向其他用户发起的关注为异常关注;
S1042:当逻辑回归训练结果Y1不大于预设概率阈值时,判定该用户向其他用户发起请求的关注为正常关注。
如图2所示,结合本发明的实施例,提供一种基于逻辑回归的实时识别异常关注的系统,包括:
行为提取单元21,用于获取用户行为日志,提取每个用户的行为特征,将预设时间段内每个用户的所有行为特征形成各自相应的行为特征列表;
表征值统计单元22,用于根据每个用户的行为特征列表,周期性统计在前一预设时间段内的各用户相应的行为特征表征值并保存在数据库内,所述用户的行为特征表征值包括:用户的固有周期行为特征在所有行为特征中的出现比率、用户占比最多的行为特征在所有行为特征中的占比、以及预设时间段内提出关注请求的次数;其中,所述固有周期行为特征是指由后台触发并向用户推送的行为特征;
实时训练单元23,用于当收到某一用户向其他用户发起的关注请求时,自数据库中获取该用户的最新行为特征表征值、该用户所要关注的其他用户的最新行为特征表征值;利用预先训练的用户特征逻辑回归模型训练该用户的最新行为特征表征值、该用户所要关注的其他用户的最新行为特征表征值,返回逻辑回归训练结果,所述逻辑回归训练结果用于表征所述用户向其他用户发起的关注为异常关注的概率;
结果判断单元24,用于将逻辑回归训练结果与预设概率阈值进行比较,判断该用户向其他用户发起的关注是否为异常关注。
优选地,所述行为提取单元21包括:
特征信息子单元211,用于获取用户行为日志,自用户行为日志中提取与用户行为特征相关的信息,并将所提取的与用户行为特征相关的信息转化成数据格式;其中,所述与用户行为特征相关的信息包括:行为特征、行为特征发生时间、发生行为特征的用户的唯一账号名uid;
特征信息归纳子单元212,用于针对每个用户,根据该用户的具有数据格式的与用户行为特征相关的信息提取该用户的行为特征,将提取出的行为特征形成相应用户的行为特征列表;所述用户的行为特征列表包括当前时间之前的预设时间段内的所有以数据格式体现的与用户行为特征相关的信息。
优选地,还包括用户特征逻辑回归模型训练单元25,具体包括:
请求数据获取子单元251,用于自数据库中获取一批样本用户在发起关注请求时的最新行为特征表征值、以及该批样本用户所要关注的其他用户的最新行为特征表征值;
请求标记子单元252,用于以关注请求为单位,将发起关注请求的样本用户的最新行为特征表征值与其所要关注的其他用户的最新行为特征表征值排序形成一个样本数据点;所述样本数据点相对应的关注的异常关注标记为已知量,如果是异常关注,则异常关注标记取值为1,如果是正常关注,则异常关注标记取值为0;
第一数据转换子单元253,用于将每个样本数据点作为矩阵的行,形成数据点矩阵X;以及将每个样本数据点所对应的异常关注标记作为行,形成向量Y;其中,每个样本数据点对应一个行向量,行向量的元素数量为该样本数据点包括的行为特征表征值的数量,异常关注标记在向量Y所在的行与其相应的样本数据点在数据点矩阵X所在的行相同;
第一训练子单元254,用于利用逻辑回归训练数据点矩阵X、向量Y,得到用户特征逻辑回归模型。
优选地,所述实时训练单元23包括:
第二数据转换子单元231,用于将该用户的最新行为特征表征值与其所要关注的用户的最新行为特征表征值排序形成一个待识别数据点,该待识别数据点对应行向量X1,待识别数据点对应的行向量X1与数据点矩阵X中各行向量的元素数量相同;
第二训练结果形成子单元232,用于利用用户特征逻辑回归模型训练该待识别数据点对应的行向量X1,得到逻辑回归训练结果Y1,其中,0≤Y1≤1。
优选地,所述结果判断单元24包括:
异常关注判定子单元241,用于当逻辑回归训练结果Y1大于预设概率阈值时,判定该用户向其他用户发起的关注为异常关注;
正常关注判定子单元242,用于当逻辑回归训练结果Y1不大于预设概率阈值时,判定该用户向其他用户发起请求的关注为正常关注。
本发明实施例所取得的有益效果为:通过本发明的系统能有效的实时的判断当前关注行为是否为异常,降低对正常用户的干扰,而且根据用户的固有周期行为在所有行为中的出现比率通过逻辑回归算法识别出请求是否真的从客户端上发起。
下面结合具体的应用实例对本发明实施例上述技术方案进行详细说明,实施过程中没有介绍到的技术细节,可以参考前文的相关描述。
本发明涉及的缩略语和关键术语定义
行为日志:互联网帐号进行上行操作时所记录的日志,如点赞,评论,关注等行为。其信息有操作行为号,帐号,时间,目标等信息。
逻辑回归:一种机器学习分类算法,能够以一些有标签数据来进行训练,然后对数据进行分类预测。
本发明为一种基于逻辑回归的实时的异常关注识别系统,所要解决的问题是:如何来实时的判断某次关注行为是否为异常关注。并且这和以往的一些准实时系统的原理不同,以往是事后判断,而这套系统的目的是在异常关注发生的时候就将其拒绝。所以,通过本发明的系统能有效的实时的判断当前关注行为是否为异常,降低对正常用户的干扰,而且还能通过逻辑回归算法识别出请求是否真的从客户端上发起。
基于逻辑回归的实时的异常关注识别系统分两部分,一部分是特征提取部分,一部分是实时部分;且实时部分要求延时极低。
对于特征提取部分:
1、接收行为日志,提取每个用户的行为特征,即:自行为日志中提取与每个用户的行为特征相关的信息,并将所提取的与用户行为特征相关的信息转化成数据格式A的数据;其中,所述与用户行为特征相关的信息包括:行为特征、行为特征发生时间、发生行为特征的用户的唯一账号名uid;即:(时间,用户id(uid),行为)这种数据格式A的数据。
2、针对每个用户,根据该用户的具有数据格式的与用户行为特征相关的信息提取该用户的行为特征,将提取出的行为特征形成相应用户的行为特征列表;所述用户的行为特征列表包括当前时间之前的预设时间段内的所有以数据格式体现的与用户行为特征相关的信息。具体操作为:对每个用户Ui(uid-i,Ui就是第i个uid)建立一个信息收集列表(用户的行为特征列表)Li,收集其uid的所有A型的数据。这些信息收集列表有自动过期的功能,自动丢弃与当前时间相差D分钟的A型数据。这样所有的Li里都是最近D分钟的行为数据。
3、根据每个用户的行为特征列表,周期性统计在前一预设时间段内的各用户相应的行为特征表征值并保存在数据库内,所述用户的行为特征表征值包括:用户的固有周期行为特征在所有行为特征中的出现比率pS、用户占比最多的行为特征在所有行为特征中的占比pA、以及预设时间段(D分钟)内提出关注请求的次数。具体操作为:每隔T秒钟,对所有的Ui,Li执行:统计Li中固有周期行为在Li中所有行为的出现比率pS,占比最多的行为占所有行为的比率pA,D分钟内总加关注次数t。将Ui:[pS,pA,t]存于高速内存数据库K中。这一步目的是周期性的更新Ui的pS,pA,t等数据。其中,所述固有周期行为特征是指由后台触发并向用户推送的行为特征,比如查推送之类的行为。
4、人工的标注一些数据用来训练用户特征逻辑回归模型:自数据库中获取一批样本用户在发起关注请求时的最新行为特征表征值(即在接收到该批用户发起关注请求时进行获取),在数据库中获取该批用户的最新行为特征表征值、以及所要关注的用户的最新行为特征表征值;以关注请求为单位,将发起关注请求的用户的最新行为特征表征值与其所要关注的其他用户的最新行为特征表征值排序形成一个样本数据点;所述样本数据点相对应的关注的异常关注标记为已知量,如果是异常关注,则异常关注标记取值为1,如果是正常关注,则异常关注标记取值为0;将每个样本数据点作为矩阵的行,形成数据点矩阵X;以及将每个样本数据点所对应的异常关注标记作为行,形成向量Y;其中,每个样本数据点对应一个行向量,行向量的元素数量为该样本数据点包括的行为特征表征值的数量,异常关注标记在向量Y所在的行与其相应的样本数据点在数据点矩阵X所在的行相同;利用逻辑回归训练数据点矩阵X、向量Y,得到用户特征逻辑回归模型。具体操作为:
取一部分用户Ui要向Uj发起关注的请求,总共m个关注行为,在K中查询Ui的[pS,pA,t],Uj的[pS,pA,t],形成一批样本数据点,数据点个数记为m,n为每个样本数据点内的特征,n的个数也就是6个(Ui的pS、pA、t为3个特征,Uj的pS、pA、t为3个特征)。人工的去判断这一批数据是否为异常关注,若异常则y为1,正常则y为0。形成的训练数据格式是(X,Y),其中,X是m*n的矩阵,Y是m*1的向量。用X,Y训练逻辑回归模型L,得到用户特征逻辑回归模型。
接下来进入实时部分,对于实时部分:
1、当收到某一用户向其他用户发起的关注请求时,自数据库中获取该用户的最新行为特征表征值、该用户所要关注的其他用户的最新行为特征表征值。具体操作为:收到用户Ui要向Uj发起关注的请求,在K中查询Ui的[pSi,pAi,ti],Uj的[pSj,pAj,tj]。
2、利用预先训练的用户特征逻辑回归模型训练该用户的最新行为特征表征值、该用户所要关注的其他用户的最新行为特征表征值,返回逻辑回归训练结果,所述逻辑回归训练结果用于表征所述用户向其他用户发起的关注为异常关注的概率(将该用户的最新行为特征表征值与其所要关注的用户的最新行为特征表征值排序形成一个待识别数据点,该待识别数据点对应行向量X1,待识别数据点对应的行向量X1与数据点矩阵X中各行向量的元素数量相同。利用用户特征逻辑回归模型训练该待识别数据点对应的行向量X1,得到逻辑回归训练结果Y1,其中,0≤Y1≤1)。具体操作为:使用预先训练的用户特征逻辑回归模型L对X1=[pSi,pAi,ti,pSj,pAj,tj]进行训练,对Y1的预测,返回逻辑回归训练结果,所述逻辑回归训练结果用于表征所述用户向其他用户发起的关注为异常关注的概率。
3、将逻辑回归训练结果与预设概率阈值进行比较,判断该用户向其他用户发起的关注是否为异常关注。即若Y1>人为确定的预设概率阈值Y0,则认为此次关注为异常关注。如果要判断该次关注是否为异常关注,则:
L.predict(X1)
可以获得一个0-1的浮点数Y1,再根据与预设概率阈值Y0的大小关系可用于判断关注是否为异常关注。实时部分是要求低延迟的,实时部分的步骤都采用了高速的设计,尽量减少实时部分的计算延迟。
具体举例如下:
对于特征提取部分:
1、接收行为日志,转化成(时间,用户id(uid),行为)这种数据格式A的数据。
如现在有好多格式A的数据:
20191209221920 34B
20191209221921 34C
20191209221922 34E
20191209221922 5B
……
2、对每个用户Ui(uid-i,Ui就是第i个uid)建立一个信息收集列表Li,收集其uid的所有A型的数据。这些信息收集列表有自动过期的功能,自动丢弃与当前时间相差D分钟的A型数据。这样所有的Li里都是最近D分钟的行为数据。
比如对34号用户,D如果取60,则形成L34:[B,C,E]
3、每隔T秒钟,对所有的Ui,Li执行:统计Li中固有周期行为在Li中所有行为的出现比率pS,占比最多的行为占所有行为的比率pA,D分钟内总加关注次数t。将Ui:[pS,pA,t]存于高速内存数据库K中。这一步目的是周期性的更新Ui的pS,pA,t等数据。
固有周期行为,就是客户端上会固定的周期性进行的行为,如取消息列表等,假设此处B代表所有的固有周期行为。
每隔5秒钟,对于D分钟之内的U34来说,计算固有周期行为在Li中所有行为的出现比率pS=0.33,占比最多的行为占所有行为的比率pA=0.33,D分钟内总加关注次数t=1,形成U34:[0.33,0.33,1]存于k中。
4、人工的标注一些数据用来训练逻辑回归模型:取一部分用户Ui要向Uj发起关注的请求,总共m个关注行为,在K中查询Ui的[pS,pA,t],Uj的[pS,pA,t],形成一批数据点,数据点个数记为m,n为特征的个数也就是6个。人工的去看这一批数据是否为异常关注,若异常则y为1,正常则y为0.形成的训练数据格式是(X,Y),其中,X是m*n的矩阵,Y是m*1的向量。用X,Y训练逻辑回归模型L。
这一步是模型训练,取m个关注行为,先人工标记其是否是异常关注,若异常则y为1,正常则y为0,写成一个m*1的向量Y。用户Ui要向Uj发起关注的请求,在K中查询Ui的[pS,pA,t]和Uj的[pS,pA,t],得到[0.33,0.5,1][0,0,100],写成一个向量则是[0.33,0.5,1,0,0,100]。因为现在查的是m个关注行为,则形成m个向量,从上到下写成m*6的矩阵X。
在python中:
L=LogisticRegression()
M.fit(X,Y)
此时L已经训练好了,得到行为特征逻辑回归模型L。
对于实时部分:
收到用户Ui要向Uj发起关注的请求,在K中查询Ui的[pSi,pAi,ti],Uj的[pSj,pAj,tj]。
使用L对X1=[pSi,pAi,ti,pSj,pAj,tj]进行训练,对Y1的预测,返回逻辑回归训练结果,若Y1>预设阈值Y0,则认为此次关注为异常关注;如果有要判断该次关注是否为异常关注,
L.predict(X1)
可以获得一个0-1的浮点数Y1,再根据与Y0的大小关系可用于判断关注是否为异常关注。实时部分是要求低延迟的,实时部分的步骤都采用了高速的设计,尽量减少实时部分的计算延迟。
本发明所取得的有益效果为:
通过本发明的系统能有效的实时的判断当前关注行为是否为异常,降低对正常用户的干扰,而且根据用户的固有周期行为在所有行为中的出现比率通过逻辑回归算法识别出请求是否真的从客户端上发起。
应该明白,公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好,应该理解,过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素,并且不是要限于所述的特定顺序或层次。
在上述的详细描述中,各种特征一起组合在单个的实施方案中,以简化本公开。不应该将这种公开方法解释为反映了这样的意图,即,所要求保护的主题的实施方案需要比清楚地在每个权利要求中所陈述的特征更多的特征。相反,如所附的权利要求书所反映的那样,本发明处于比所公开的单个实施方案的全部特征少的状态。因此,所附的权利要求书特此清楚地被并入详细描述中,其中每项权利要求独自作为本发明单独的优选实施方案。
为使本领域内的任何技术人员能够实现或者使用本发明,上面对所公开实施例进行了描述。对于本领域技术人员来说;这些实施例的各种修改方式都是显而易见的,并且本文定义的一般原理也可以在不脱离本公开的精神和保护范围的基础上适用于其它实施例。因此,本公开并不限于本文给出的实施例,而是与本申请公开的原理和新颖性特征的最广范围相一致。
上文的描述包括一个或多个实施例的举例。当然,为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的,但是本领域普通技术人员应该认识到,各个实施例可以做进一步的组合和排列。因此,本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外,就说明书或权利要求书中使用的术语“包含”,该词的涵盖方式类似于术语“包括”,就如同“包括,”在权利要求中用作衔接词所解释的那样。此外,使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。
本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块(illustrative logical block),单元,和步骤可以通过电子硬件、电脑软件,或两者的结合进行实现。为清楚展示硬件和软件的可替换性(interchangeability),上述的各种说明性部件(illustrative components),单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用,可以使用各种方法实现所述的功能,但这种实现不应被理解为超出本发明实施例保护的范围。
本发明实施例中所描述的各种说明性的逻辑块,或单元都可以通过通用处理器,数字信号处理器,专用集成电路(ASIC),现场可编程门阵列或其它可编程逻辑装置,离散门或晶体管逻辑,离散硬件部件,或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器,可选地,该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现,例如数字信号处理器和微处理器,多个微处理器,一个或多个微处理器联合一个数字信号处理器核,或任何其它类似的配置来实现。
本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模块、或者这两者的结合。软件模块可以存储于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意形式的存储媒介中。示例性地,存储媒介可以与处理器连接,以使得处理器可以从存储媒介中读取信息,并可以向存储媒介存写信息。可选地,存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中,ASIC可以设置于用户终端中。可选地,处理器和存储媒介也可以设置于用户终端中的不同的部件中。
在一个或多个示例性的设计中,本发明实施例所描述的上述功能可以在硬件、软件、固件或这三者的任意组合来实现。如果在软件中实现,这些功能可以存储与电脑可读的媒介上,或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是任何通用或特殊电脑可以接入访问的可用媒体。例如,这样的电脑可读媒体可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁性存储装置,或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理器读取形式的程序代码的媒介。此外,任何连接都可以被适当地定义为电脑可读媒介,例如,如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电缆、双绞线、数字用户线(DSL)或以例如红外、无线和微波等无线方式传输的也被包含在所定义的电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、镭射盘、光盘、DVD、软盘和蓝光光盘,磁盘通常以磁性复制数据,而碟片通常以激光进行光学复制数据。上述的组合也可以包含在电脑可读媒介中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于逻辑回归的实时识别异常关注的方法,其特征在于,包括:
获取用户行为日志,提取每个用户的行为特征,将预设时间段内每个用户的所有行为特征形成各自相应的行为特征列表;
根据每个用户的行为特征列表,周期性统计在前一预设时间段内的各用户相应的行为特征表征值并保存在数据库内,所述用户的行为特征表征值包括:用户的固有周期行为特征在所有行为特征中的出现比率、用户占比最多的行为特征在所有行为特征中的占比、以及预设时间段内提出关注请求的次数;其中,所述固有周期行为特征是指由后台触发并向用户推送的行为特征;
当收到某一用户向其他用户发起的关注请求时,自数据库中获取该用户的最新行为特征表征值、该用户所要关注的其他用户的最新行为特征表征值;利用预先训练的用户特征逻辑回归模型训练该用户的最新行为特征表征值、该用户所要关注的其他用户的最新行为特征表征值,返回逻辑回归训练结果,所述逻辑回归训练结果用于表征所述用户向其他用户发起的关注为异常关注的概率;
将逻辑回归训练结果与预设概率阈值进行比较,判断该用户向其他用户发起的关注是否为异常关注。
2.根据权利要求1所述的基于逻辑回归的实时识别异常关注的方法,其特征在于,所述获取用户行为日志,提取每个用户的行为特征,将预设时间段内每个用户的所有行为特征形成各自相应的行为特征列表,具体包括:
获取用户行为日志,自用户行为日志中提取与用户行为特征相关的信息,并将所提取的与用户行为特征相关的信息转化成数据格式;其中,所述与用户行为特征相关的信息包括:行为特征、行为特征发生时间、发生行为特征的用户的唯一账号名uid;
针对每个用户,根据该用户的具有数据格式的与用户行为特征相关的信息提取该用户的行为特征,将提取出的行为特征形成相应用户的行为特征列表;所述用户的行为特征列表包括当前时间之前的预设时间段内的所有以数据格式体现的与用户行为特征相关的信息。
3.根据权利要求1所述的基于逻辑回归的实时识别异常关注的方法,其特征在于,所述用户特征逻辑回归模型的训练方法,具体包括:
自数据库中获取一批样本用户在发起关注请求时的最新行为特征表征值、以及该批样本用户所要关注的其他用户的最新行为特征表征值;
以关注请求为单位,将发起关注请求的样本用户的最新行为特征表征值与其所要关注的其他用户的最新行为特征表征值排序形成一个样本数据点;所述样本数据点相对应的关注的异常关注标记为已知量,如果是异常关注,则异常关注标记取值为1,如果是正常关注,则异常关注标记取值为0;
将每个样本数据点作为矩阵的行,形成数据点矩阵X;以及将每个样本数据点所对应的异常关注标记作为行,形成向量Y;其中,每个样本数据点对应一个行向量,行向量的元素数量为该样本数据点包括的行为特征表征值的数量,异常关注标记在向量Y所在的行与其相应的样本数据点在数据点矩阵X所在的行相同;
利用逻辑回归训练数据点矩阵X、向量Y,得到用户特征逻辑回归模型。
4.根据权利要求3所述的基于逻辑回归的实时识别异常关注的方法,其特征在于,所述利用预先训练的用户特征逻辑回归模型训练该用户的最新行为特征表征值、该用户所要关注的其他用户的最新行为特征表征值,返回逻辑回归训练结果,具体包括:
将该用户的最新行为特征表征值与其所要关注的用户的最新行为特征表征值排序形成一个待识别数据点,该待识别数据点对应行向量X1,待识别数据点对应的行向量X1与数据点矩阵X中各行向量的元素数量相同;
利用用户特征逻辑回归模型训练该待识别数据点对应的行向量X1,得到逻辑回归训练结果Y1,其中,0≤Y1≤1。
5.根据权利要求4所述的基于逻辑回归的实时识别异常关注的方法,其特征在于,所述将逻辑回归结果与预设阈值进行比较以判断该用户向其他用户发起请求的关注是否为异常关注,具体包括:
当逻辑回归训练结果Y1大于预设概率阈值时,判定该用户向其他用户发起的关注为异常关注;
当逻辑回归训练结果Y1不大于预设概率阈值时,判定该用户向其他用户发起请求的关注为正常关注。
6.一种基于逻辑回归的实时识别异常关注的系统,其特征在于,包括:
行为提取单元,用于获取用户行为日志,提取每个用户的行为特征,将预设时间段内每个用户的所有行为特征形成各自相应的行为特征列表;
表征值统计单元,用于根据每个用户的行为特征列表,周期性统计在前一预设时间段内的各用户相应的行为特征表征值并保存在数据库内,所述用户的行为特征表征值包括:用户的固有周期行为特征在所有行为特征中的出现比率、用户占比最多的行为特征在所有行为特征中的占比、以及预设时间段内提出关注请求的次数;其中,所述固有周期行为特征是指由后台触发并向用户推送的行为特征;
实时训练单元,用于当收到某一用户向其他用户发起的关注请求时,自数据库中获取该用户的最新行为特征表征值、该用户所要关注的其他用户的最新行为特征表征值;利用预先训练的用户特征逻辑回归模型训练该用户的最新行为特征表征值、该用户所要关注的其他用户的最新行为特征表征值,返回逻辑回归训练结果,所述逻辑回归训练结果用于表征所述用户向其他用户发起的关注为异常关注的概率;
结果判断单元,用于将逻辑回归训练结果与预设概率阈值进行比较,判断该用户向其他用户发起的关注是否为异常关注。
7.根据权利要求6所述的基于逻辑回归的实时识别异常关注的系统,其特征在于,所述行为提取单元包括:
特征信息子单元,用于获取用户行为日志,自用户行为日志中提取与用户行为特征相关的信息,并将所提取的与用户行为特征相关的信息转化成数据格式;其中,所述与用户行为特征相关的信息包括:行为特征、行为特征发生时间、发生行为特征的用户的唯一账号名uid;
特征信息归纳子单元,用于针对每个用户,根据该用户的具有数据格式的与用户行为特征相关的信息提取该用户的行为特征,将提取出的行为特征形成相应用户的行为特征列表;所述用户的行为特征列表包括当前时间之前的预设时间段内的所有以数据格式体现的与用户行为特征相关的信息。
8.根据权利要求6所述的基于逻辑回归的实时识别异常关注的系统,其特征在于,还包括用户特征逻辑回归模型训练单元,具体包括:
请求数据获取子单元,用于自数据库中获取一批样本用户在发起关注请求时的最新行为特征表征值、以及该批样本用户所要关注的其他用户的最新行为特征表征值;
请求标记子单元,用于以关注请求为单位,将发起关注请求的样本用户的最新行为特征表征值与其所要关注的其他用户的最新行为特征表征值排序形成一个样本数据点;所述样本数据点相对应的关注的异常关注标记为已知量,如果是异常关注,则异常关注标记取值为1,如果是正常关注,则异常关注标记取值为0;
第一数据转换子单元,用于将每个样本数据点作为矩阵的行,形成数据点矩阵X;以及将每个样本数据点所对应的异常关注标记作为行,形成向量Y;其中,每个样本数据点对应一个行向量,行向量的元素数量为该样本数据点包括的行为特征表征值的数量,异常关注标记在向量Y所在的行与其相应的样本数据点在数据点矩阵X所在的行相同;
第一训练子单元,用于利用逻辑回归训练数据点矩阵X、向量Y,得到用户特征逻辑回归模型。
9.根据权利要求8所述的基于逻辑回归的实时识别异常关注的系统,其特征在于,所述实时训练单元包括:
第二数据转换子单元,用于将该用户的最新行为特征表征值与其所要关注的用户的最新行为特征表征值排序形成一个待识别数据点,该待识别数据点对应行向量X1,待识别数据点对应的行向量X1与数据点矩阵X中各行向量的元素数量相同;
第二训练结果形成子单元,用于利用用户特征逻辑回归模型训练该待识别数据点对应的行向量X1,得到逻辑回归训练结果Y1,其中,0≤Y1≤1。
10.根据权利要求9所述的基于逻辑回归的实时识别异常关注的系统,其特征在于,所述结果判断单元包括:
异常关注判定子单元,用于当逻辑回归训练结果Y1大于预设概率阈值时,判定该用户向其他用户发起的关注为异常关注;
正常关注判定子单元,用于当逻辑回归训练结果Y1不大于预设概率阈值时,判定该用户向其他用户发起请求的关注为正常关注。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011039074.8A CN112149037B (zh) | 2020-09-28 | 2020-09-28 | 基于逻辑回归的实时识别异常关注的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011039074.8A CN112149037B (zh) | 2020-09-28 | 2020-09-28 | 基于逻辑回归的实时识别异常关注的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112149037A true CN112149037A (zh) | 2020-12-29 |
CN112149037B CN112149037B (zh) | 2024-03-19 |
Family
ID=73895533
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011039074.8A Active CN112149037B (zh) | 2020-09-28 | 2020-09-28 | 基于逻辑回归的实时识别异常关注的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112149037B (zh) |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120096491A1 (en) * | 2010-10-15 | 2012-04-19 | Almondnet, Inc. | Correlating online behavior with presumed viewing of television advertisements |
CN105005594A (zh) * | 2015-06-29 | 2015-10-28 | 嘉兴慧康智能科技有限公司 | 异常微博用户识别方法 |
CN107659562A (zh) * | 2017-09-08 | 2018-02-02 | 微梦创科网络科技(中国)有限公司 | 一种挖掘恶意登录账号的方法及装置 |
US20180108237A1 (en) * | 2016-10-18 | 2018-04-19 | International Business Machines Corporation | Personal safety monitoring |
RU180637U1 (ru) * | 2017-08-09 | 2018-06-19 | Общество с ограниченной ответственностью "Собственный вектор" | Векторкардиограф |
CN108665329A (zh) * | 2017-03-29 | 2018-10-16 | 北京京东尚科信息技术有限公司 | 一种基于用户浏览行为的商品推荐方法 |
CN109120592A (zh) * | 2018-07-09 | 2019-01-01 | 四川大学 | 一种基于用户行为的Web异常检测系统 |
CN109660591A (zh) * | 2018-11-02 | 2019-04-19 | 北京奇虎科技有限公司 | 个性化新闻的自动推送方法、装置和计算设备 |
CN109992710A (zh) * | 2019-02-13 | 2019-07-09 | 网易传媒科技(北京)有限公司 | 点击率预估方法、系统、介质和计算设备 |
CN110765393A (zh) * | 2019-09-17 | 2020-02-07 | 微梦创科网络科技(中国)有限公司 | 基于向量化和逻辑回归识别有害url的方法及装置 |
CN111241421A (zh) * | 2020-01-14 | 2020-06-05 | 西安电子科技大学 | 基于社交上下文信息的用户转发行为预测方法 |
CN111507377A (zh) * | 2020-03-24 | 2020-08-07 | 微梦创科网络科技(中国)有限公司 | 一种养号帐号批量识别方法及装置 |
CN111506829A (zh) * | 2020-03-20 | 2020-08-07 | 微梦创科网络科技(中国)有限公司 | 一种异常关注行为批量实时识别方法及装置 |
CN111506828A (zh) * | 2020-03-20 | 2020-08-07 | 微梦创科网络科技(中国)有限公司 | 一种异常关注行为批量实时识别方法及装置 |
-
2020
- 2020-09-28 CN CN202011039074.8A patent/CN112149037B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120096491A1 (en) * | 2010-10-15 | 2012-04-19 | Almondnet, Inc. | Correlating online behavior with presumed viewing of television advertisements |
CN105005594A (zh) * | 2015-06-29 | 2015-10-28 | 嘉兴慧康智能科技有限公司 | 异常微博用户识别方法 |
US20180108237A1 (en) * | 2016-10-18 | 2018-04-19 | International Business Machines Corporation | Personal safety monitoring |
CN108665329A (zh) * | 2017-03-29 | 2018-10-16 | 北京京东尚科信息技术有限公司 | 一种基于用户浏览行为的商品推荐方法 |
RU180637U1 (ru) * | 2017-08-09 | 2018-06-19 | Общество с ограниченной ответственностью "Собственный вектор" | Векторкардиограф |
CN107659562A (zh) * | 2017-09-08 | 2018-02-02 | 微梦创科网络科技(中国)有限公司 | 一种挖掘恶意登录账号的方法及装置 |
CN109120592A (zh) * | 2018-07-09 | 2019-01-01 | 四川大学 | 一种基于用户行为的Web异常检测系统 |
CN109660591A (zh) * | 2018-11-02 | 2019-04-19 | 北京奇虎科技有限公司 | 个性化新闻的自动推送方法、装置和计算设备 |
CN109992710A (zh) * | 2019-02-13 | 2019-07-09 | 网易传媒科技(北京)有限公司 | 点击率预估方法、系统、介质和计算设备 |
CN110765393A (zh) * | 2019-09-17 | 2020-02-07 | 微梦创科网络科技(中国)有限公司 | 基于向量化和逻辑回归识别有害url的方法及装置 |
CN111241421A (zh) * | 2020-01-14 | 2020-06-05 | 西安电子科技大学 | 基于社交上下文信息的用户转发行为预测方法 |
CN111506829A (zh) * | 2020-03-20 | 2020-08-07 | 微梦创科网络科技(中国)有限公司 | 一种异常关注行为批量实时识别方法及装置 |
CN111506828A (zh) * | 2020-03-20 | 2020-08-07 | 微梦创科网络科技(中国)有限公司 | 一种异常关注行为批量实时识别方法及装置 |
CN111507377A (zh) * | 2020-03-24 | 2020-08-07 | 微梦创科网络科技(中国)有限公司 | 一种养号帐号批量识别方法及装置 |
Non-Patent Citations (1)
Title |
---|
吕宗平等: "基于模糊核聚类和主动学习的异常检测方法", 《现代电子技术》, pages 53 - 57 * |
Also Published As
Publication number | Publication date |
---|---|
CN112149037B (zh) | 2024-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110113226B (zh) | 一种检测设备异常的方法及装置 | |
CN109727041A (zh) | 智能客服多轮问答方法、设备、存储介质及装置 | |
US8630972B2 (en) | Providing context for web articles | |
CN117291428B (zh) | 一种基于企业管理app的数据后台管理系统 | |
CN111258593A (zh) | 应用程序预测模型的建立方法、装置、存储介质及终端 | |
CN111506828B (zh) | 一种异常关注行为批量实时识别方法及装置 | |
CN110428816B (zh) | 一种语音细胞库训练和分享的方法及装置 | |
CN111309994A (zh) | 用户匹配方法、装置、电子设备及可读存储介质 | |
CN114898182A (zh) | 一种基于目标检测学习算法的图片数据筛选方法及系统 | |
CN117235608B (zh) | 风险检测方法、装置、电子设备及存储介质 | |
CN111860299B (zh) | 目标对象的等级确定方法、装置、电子设备及存储介质 | |
CN113901037A (zh) | 数据管理方法、装置及存储介质 | |
CN107943785B (zh) | 一种基于大数据的pdf文档处理方法及装置 | |
CN112149037A (zh) | 基于逻辑回归的实时识别异常关注的方法及系统 | |
CN111105117B (zh) | 一种用户信息的确定方法和装置 | |
CN112861128B (zh) | 一种批量识别机器账号的方法及系统 | |
CN114218134A (zh) | 一种缓存用户的方法和装置 | |
CN112819565B (zh) | 围标串标的检测方法、系统及存储介质 | |
CN109784993B (zh) | 一种基于大数据的用户轨迹智能精准预测系统 | |
CN114626863A (zh) | 出口骗税企业的检测方法、装置、设备及存储介质 | |
CN112149036A (zh) | 一种批量非正常互动行为的识别方法及系统 | |
CN112000711A (zh) | 一种基于Spark确定刷评用户的方法及系统 | |
CN105787075A (zh) | 一种基于数据挖掘的事件预测方法和装置 | |
CN113709747B (zh) | 一种骚扰号码识别方法、装置、计算机设备和存储介质 | |
CN114742055B (zh) | 基于语义事件的海量多源异构数据处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |