CN107368718A - 一种用户浏览行为认证方法及系统 - Google Patents

一种用户浏览行为认证方法及系统 Download PDF

Info

Publication number
CN107368718A
CN107368718A CN201710548623.6A CN201710548623A CN107368718A CN 107368718 A CN107368718 A CN 107368718A CN 201710548623 A CN201710548623 A CN 201710548623A CN 107368718 A CN107368718 A CN 107368718A
Authority
CN
China
Prior art keywords
module
model
page
information
website
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710548623.6A
Other languages
English (en)
Other versions
CN107368718B (zh
Inventor
蒋昌俊
闫春钢
丁志军
张亚英
陈冬祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN201710548623.6A priority Critical patent/CN107368718B/zh
Publication of CN107368718A publication Critical patent/CN107368718A/zh
Application granted granted Critical
Publication of CN107368718B publication Critical patent/CN107368718B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/316User authentication by observing the pattern of computer usage, e.g. typical user behaviour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/45Structures or tools for the administration of authentication

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Social Psychology (AREA)
  • Storage Device Security (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种用户浏览行为认证方法及系统,包括:处理浏览历史数据得用户浏览行为信息;提取日志序列信息并统计站点访问频率据以将站点归类为频繁站点或普通站点;统计频繁站点中各板块访问频率,根据板块访问频率归类为频繁访问板块或普通访问板块;计算日志得到序列特征向量,据以构建序列模型;根据浏览行为信息获得页面关系特征向量以构建页面获取关系模型;提取浏览行为信息中的浏览操作数据,计算浏览操作数据,得操作特征向量以构建操作行为模型;计算会话特征信息、页面关联矩阵和用户行为分类器,训练序列模型、页面获取关系模型和操作行为模型;根据序列模型、页面获取关系模型和操作行为模型认证用户浏览行为,判定用户浏览行为是否异常。

Description

一种用户浏览行为认证方法及系统
技术领域
本发明涉及一种用户安全认证系统,特别是涉及一种用户浏览行为认证方法及系统。
背景技术
随着电子商务,网络购物的发展,人们通过互联网进行网络支付的频率越来越高,给消费者的生活带来了很多的便利。然而网络购物的不安全因素也暴露无遗。因为互联网是一个开放的平台,用户保持在线上时,时时刻刻都要面临各种各样的潜在威胁。在传统的身份认证系统中,密码是唯一的身法合法性判定标准。然而,钓鱼网站和计算机病毒的出现使得用户这个一度可靠的认证手段也显得单薄。
不法组织通过钓鱼网站和计算机病毒,可以盗取用户的账号和密码。然而一个用户的账号密码一旦被盗取,如果不加其他的认证方式的话,他将失去该账号的唯一控制权,并且非法用户窃取账号密码以后,一切非法的行为都不会被阻止。
身份认证是保障互联网安全的利器。现有主要的身份认证方法包括传统的“用户名-密码”和新兴的生物信息认证两种方法。“用户名-密码”易于实现,却存在诸多安全隐患(如上述的钓鱼网站和计算机病毒);生物信息认证相对可靠,却对硬件设备有较强的依赖性(例如指纹采集器,需要额外的硬件设施)。
综上,现有技术中对人体信息采集设备依赖性强,认证方式相对单一,存在依赖硬件设备、认证成本较高和认证安全性较低的技术问题。
发明内容
鉴于以上现有技术的缺点,本发明的目的在于提供一种用户浏览行为认证方法及系统,解决了现有技术中依赖硬件设备、认证成本较高和认证安全性较低的技术问题。一种用户浏览行为认证方法,包括:
处理浏览历史数据得到用户对应的浏览行为信息;
提取日志序列信息,统计日志序列信息中各站点访问频率,根据站点访问频率将站点类为频繁站点或普通站点;
统计频繁站点中各板块访问频率,根据板块访问频率将频繁站点中不同板块归类为频繁访问板块或普通访问板块;
计算日志序列信息得到序列特征向量,据以构建序列模型;
根据浏览行为信息提取关系架构信息,根据关系架构信息获得页面关系特征向量,据以构建页面获取关系模型;
提取浏览行为信息中的浏览操作数据,计算浏览操作数据,得操作特征向量,据以构建操作行为模型;
提取序列特征向量、关系特征向量和操作特征向量,据以计算会话特征信息、页面关联矩阵和用户行为分类器,根据会话特征信息、页面关联矩阵和用户行为分类器训练序列模型、页面获取关系模型和操作行为模型;
根据序列模型、页面获取关系模型和操作行为模型认证用户浏览行为,判定用户浏览行为是否异常。
于本发明的一实施方式中,根据序列模型、页面获取关系模型和操作行为模型认证用户浏览行为,判定用户浏览行为是否异常是在有用户上线的情况下进行的,其余步骤在无用户上线的情况下进行。
于本发明的一实施方式中,计算日志序列信息得到序列特征向量,据以构建序列模型,包括:
获取频繁站点及普通站点中的会话属性信息;
根据会话属性信息获取页段属性信息;
根据页段属性信息构建序列模型的序列特征向量。
于本发明的一实施方式中,根据浏览行为信息提取关系架构信息,根据关系架构信息获得页面关系特征向量,据以构建页面获取关系模型,包括:
获取频繁站点中的频繁访问版块;
获取频繁站点中不同板块之间的链接信息;
根据链接信息,以板块为图节点构造板块关系图;
遍历板块关系图,判断频繁访问版块是否属于频繁站点;
若是,则分析该频繁访问版块对应的图节点;
若否,则继续遍历板块关系图;
遍历频繁访问板块的所有链接信息,得到关系有向图,根据关系有向图构建页面获取关系模型。
于本发明的一实施方式中,提取浏览行为信息中的浏览操作数据,计算浏览操作数据,得操作特征向量,据以构建操作行为模型,包括:
由频繁站点提取频繁访问板块;
遍历频繁访问板块,判断频繁访问板块是否属于频繁站点;
若是,则获取频繁访问板块中的操作特征信息;
若否,则继续遍历频繁访问板块;
根据操作特征信息拼接得操作行为模型的操作特征向量;
根据操作特征向量构建操作行为模型。
于本发明的一实施方式中,根据浏览特征信息训练得到会话特征信息、页面关联矩阵和用户行为分类器,根据会话特征信息、页面关联矩阵和用户行为分类器更新序列模型、页面获取关系模型和操作行为模型,包括:
提取序列特征向量、页面关系特征向量和操作特征向量;
根据序列特征向量计算正负样本向量,根据页面关系特征向量获取页面关联矩阵;
根据正负样本向量计算序列决策树,对页面关联矩阵降维,根据SVDD算法训练操作特征向量得用户行为分类器;
根据序列决策树、页面关联矩阵和分类器更新序列模型、页面获取模型和操作行为模型。
于本发明的一实施方式中,根据序列模型、页面获取关系模型和操作行为模型认证用户浏览行为,判定用户浏览行为是否异常,包括:
获取用户的日志序列信息;
计算日志序列信息的标志信息,根据序列模型判断是否为合法用户;
若是,则计算日志序列信息和标识信息得合法用户的序列行为特征向量;
若否,则判定此次浏览行为非法;
根据页面获取关系模型计算浏览行为,判断是否浏览行为合法;
若是,则计算浏览行为对应的频繁站点的操作特征向量。
若否,则判断此次浏览行为非法;
根据操作行为模型的操作特征向量判断操作是否合法;
若是,则认证本次浏览行为合法;
若否,则认证本次浏览行为非法。
于本发明的一实施方式中,一种浏览行为认证系统,其特征在于,包括:信息收集模块、站点归类模块、行为归类模块、序列模型构建模块、关系模型构建模块、行为模型构建模块、模型训练模块和浏览认证模块;信息收集模块,用于处理浏览历史数据得到用户对应的浏览行为信息;站点归类模块,用于提取日志序列信息,统计日志序列信息中各站点访问频率,根据站点访问频率将站点类为频繁站点或普通站点;板块归类模块,用于统计频繁站点中各板块访问频率,根据板块访问频率将频繁站点中不同板块归类为频繁访问板块或普通访问板块,板块归类模块与站点归类模块连接;序列模型构建模块,用于计算日志序列信息得到序列特征向量,据以构建序列模型,序列模型构建模块与站点归类模块连接;关系模型构建模块,用于根据浏览行为信息提取关系架构信息,根据关系架构信息获得页面关系特征向量,据以构建页面获取关系模型,关系模型构建模块与板块归类模块模块连接;行为模型构建模块,用于提取浏览行为信息中的浏览操作数据,计算浏览操作数据,得操作特征向量,据以构建操作行为模型,行为模型构建模块与板块归类模块连接;模型训练模块,用于提取序列特征向量、关系特征向量和操作特征向量,据以计算得到会话特征信息、页面关联矩阵和用户行为分类器,根据会话特征信息、页面关联矩阵和用户行为分类器训练序列模型、页面获取关系模型和操作行为模型,模型训练模块与序列模型构建模块连接,模型训练模块与关系模型构建模块连接,模型训练模块与行为模型构建模块连接;浏览认证模块,用于根据序列模型、页面获取关系模型和操作行为模型认证用户浏览行为,判定用户浏览行为是否异常,浏览认证模块与模型训练模块连接。
于本发明的一实施方式中,浏览认证模块在有用户上线的情况下工作,信息收集模块、行为归类模块、序列模型构建模块、关系模型构建模块、行为模型构建模块、模型训练模块在无用户上线的情况下工作。
于本发明的一实施方式中,序列模型构建模块包括:会话属性获取模块、页段属性获取模块和序列向量模块;会话属性获取模块,用于获取频繁站点及普通站点中的会话属性信息;页段属性获取模块,用于根据会话属性信息获取页段属性信息,页段属性获取模块与会话属性获取模块连接;序列向量模块,用于根据页段属性信息构建序列模型的序列特征向量,序列向量模块与页段属性获取模块连接。
于本发明的一实施方式中,关系模型构建模块,包括:频繁板块获取模块、链接获取模块、板块关系模块、站点判断模块、板块分析模块、图循环遍历模块和页面关系模型模块;频繁板块获取模块,用于获取频繁站点中的频繁访问版块;链接获取模块,用于获取频繁站点中不同板块之间的链接信息,链接获取模块与频繁板块获取模块连接;板块关系模块,用于根据链接信息,以板块为图节点构造板块关系图,板块关系模块与链接获取模块连接;站点判断模块,用于遍历板块关系图,判断频繁访问版块是否属于频繁站点,站点判断模块与板块关系模块连接;板块分析模块,用于在频繁访问版块属于频繁站点时,分析该频繁访问版块对应的图节点,板块分析模块与站点判断模块连接;图循环遍历模块,用于在频繁访问版块不属于频繁站点时,继续遍历板块关系图,图循环遍历模块与站点判断模块连接;页面关系模型模块,用于遍历频繁访问板块的所有链接信息,得到关系有向图,根据关系有向图构建页面获取关系模型,页面关系模型模块与板块分析模块连接。
于本发明的一实施方式中,行为模型构建模块,包括:频繁板块提取模块、频繁判断模块、行为特征获取模块、循环判断模块、操作向量拼接模块和操作模型获取模块;频繁板块提取模块,用于由频繁站点提取频繁访问板块;频繁判断模块,用于遍历频繁访问板块,判断频繁访问模块是否属于频繁站点,频繁判断模块与频繁板块提取模块连接;行为特征获取模块,用于在频繁访问模块属于频繁站点时,获取频繁访问板块中的操作特征信息,行为特征获取模块与频繁判断模块连接;循环判断模块,用于在频繁访问模块不属于频繁站点时,继续遍历频繁访问板块,循环判断模块与频繁判断模块连接;操作向量拼接模块,用于根据操作特征信息拼接得操作行为模型的操作特征向量,操作向量拼接模块与行为特征获取模块连接;操作模型获取模块,用于根据操作特征向量构建操作行为模型,操作模型获取模块与操作向量拼接模块连接。
于本发明的一实施方式中,模型训练模块包括:特征向量提取模块、向量运算分析模块、模型训练计算模块和模型更新模块;特征向量提取模块,用于提取序列特征向量、页面关系特征向量和操作特征向量;向量运算分析模块,用于根据序列特征向量计算正负样本向量,根据页面关系特征向量获取页面关联矩阵,向量运算分析模块与特征向量提取模块连接;模型训练计算模块,用于根据正负样本向量计算序列决策树,对页面关联矩阵降维,根据SVDD 算法训练操作特征向量得用户行为分类器,模型训练计算模块与向量运算分析模块连接;模型更新模块,用于根据序列决策树、页面关联矩阵和分类器更新序列模型、页面获取模型和操作行为模型,模型更新模块与模型训练计算模块连接。
于本发明的一实施方式中,浏览认证模块包括:日志获取模块、用户判断模块、序列特征计算模块、用户非法判定模块、浏览行为判断模块、页面关系判断模块、行为非法判定模块、操作判断模块、浏览合法判定模块和浏览非法判定模块;日志获取模块,用于获取用户的日志序列信息;用户判断模块,用计算日志序列信息的标志信息,根据序列模型判断是否为合法用户,用户判断模块与日志获取模块连接;序列特征计算模块,用于在用户合法时,计算日志序列信息和标识信息得合法用户的序列行为特征向量,序列特征计算模块与用户判断模块连接;用户非法判定模块,用于在用户非法时,判定此次浏览行为非法,用户非法判定模块与用户判断模块连接;浏览行为判断模块,用于根据页面获取关系模型计算浏览行为,判断是否浏览行为合法,浏览行为判断模块与序列特征计算模块连接;页面关系判断模块,用于在浏览行为合法时,计算浏览行为对应的频繁站点的操作特征向量,页面关系判断模块与浏览行为判断模块连接。行为非法判定模块,用于判定此次浏览行为非法,行为非法判定模块与浏览行为判断模块连接;操作判断模块,用于根据操作行为模型的操作特征向量判断操作是否合法,操作判断模块与页面关系判断模块连接;浏览合法判定模块,在操作合法时,认证本次浏览行为合法,浏览合法判定模块与操作判断模块连接;浏览非法判定模块,用在操作非法时,认证本次浏览行为非法,浏览非法判定模块与操作判断模块连接。
如上所述,本发明提供的一种用户浏览行为认证方法及系统,具有以下有益效果:本发明通过用户端的程序,将用户使用浏览器浏览网页时候的浏览数据,操作行为数据实时返回到服务端,让服务端对数据进行分析,提取出不同因素的特征,根据历史的用户行为模型,进行行为认证。当用户的实时行为数据传至服务端的时候,经过提取得到特征,来判断本次行为是否异常。
综上,本发明解决了现有技术中的依赖硬件设备、认证成本较高和认证安全性较低的技术问题,具有较好的可靠性、准确性和安全性。
附图说明
图1显示本发明的一种用户浏览行为认证方法步骤示意图。
图2显示为本发明的序列模型构建步骤示意图。
图3显示为本发明的页面获取关系模型构建步骤示意图。
图4显示为本发明的操作行为模型构建示意图。
图5显示为本发明的模型训练步骤示意图。
图6显示为本发明的浏览行为判断步骤示意图。
图7显示为本发明的一种浏览行为认证系统模块示意图。
图8显示为本发明的序列模型构建模块示意图。
图9显示为本发明的关系模型构建模块示意图。
图10显示为本发明的行为模型构建模块示意图。
图11显示为本发明的模型训练模块示意图。
图12显示为本发明的浏览认证模块示意图。
元件标号说明
1 浏览行为认证系统
11 信息收集模块
12 站点归类模块
13 行为归类模块
14 序列模型构建模块
15 关系模型构建模块
16 行为模型构建模块
17 模型训练模块
18 浏览认证模块
141 会话属性获取模块
142 页段属性获取模块
143 序列向量模块
151 频繁板块获取模块
152 链接获取模块
153 板块关系模块
154 站点判断模块
155 板块分析模块
156 图循环遍历模块
157 页面关系模型模块
161 频繁板块提取模块
162 频繁判断模块
163 行为特征获取模块
164 循环判断模块
165 操作向量拼接模块
166 操作模型获取模块
171 特征向量提取模块
172 向量运算分析模块
173 模型训练计算模块
174 模型更新模块
181 日志获取模块
182 用户判断模块
183 序列特征计算模块
184 用户非法判定模块
185 浏览行为判断模块
186 页面关系判断模块
187 行为非法判定模块
188 操作判断模块
189 浏览合法判定模块
1810 浏览非法判定模块
步骤标号说明
图1 S1~S8
图2 S41~S43
图3 S51~S57
图4 S61~S66
图5 S71~S74
图6 S81~S810
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效。
请参阅图1至图12,须知,本说明书所附图式所绘示的结构,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本实用新型所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容所能涵盖的范围内。同时,本说明书中所引用的如”上”、”下”、”左”、”右”、”中间”及”一”等的用语,亦仅为便于叙述的明了,而非用以限定本发明可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当亦视为本发明可实施的范畴。
请参阅图1,显示本发明的一种用户浏览行为认证方法步骤示意图,如图1所示,一种用户浏览行为认证方法,包括:
S1、处理浏览历史数据得到用户对应的浏览行为信息,当用户处于线上状态时,实时采集用户的行为数据,通过用户端的程序,将用户使用浏览器浏览网页时候的浏览数据,操作行为数据实时返回到服务端,并进行二次加工,本行为认证系统安装于服务器端,系统的输入数据为从用户终端实时发送的行为数据,以树状结构存放数据。其中XML 文件格式的数据为:<pageview>元素为一个页面浏览元素,用于表示用户新打开一个页面并且进行浏览,或者刷新当前浏览的页面,或者返回某个标签浏览之前已经打开过的某个页面。<url>为所属的<pageview>元素的页面的URL。<classification>为该页面属于哪种类型,INDEX表示该页面属于导航性质页面,CONTENT表示该页面属于内容性质页面。<time>元素存放的是,开始浏览该页面的毫秒级时间戳。<operations>元素内部记录用户在该页面进行浏览的时候,一切操作行为的数据。<pos>表示用户的鼠标左键点击或者松开事件,当type属性为press的时候,是按压事件,当属性值为release的时候,是释放事件,其中time属性记录该事件的毫秒级时间戳。<pos>224</pos>内为该事件发生时候,鼠标箭头的纵向坐标值。<textselect>表示文本选取事件,time属性用于记录该事件发生时候的毫秒级时间戳。<textselect>80</textselect>内为此次选取的文字的数量。 <link>表示在该页面上,通过超链接打开新的页面的事件。其中classification属性表示的是新打开的页面的性质,INDEX表示该页面是导航性质页面,CONTENT表示该页面是内容性质的页面。<link>http://www.sina.com.cn</link>内部存放的是此次通过超链接打开页面的URL。<wheel>表示用户使用鼠标中轴滑动浏览器滚动条事件,其中time属性表示此次事件的毫秒级时间戳。<wheel>120</wheel>表示此次向下滑动的距离;
S2、提取日志序列信息,统计日志序列信息中各站点访问频率,根据站点访问频率将站点类为频繁站点或普通站点,首先按照会话定义,将用户的历史数据切分成若干个会话。其中会话的定义为:浏览序列日志数据为一个连续序列<pg1,pg2......pgN>(其中 pg为<pageview>浏览元素)按照时间戳进行切分,若<pgi,pgi+1......pgk>片段中每个序列元素的时间戳间隔不超过会话间隔时间(一般取30分钟),同时pgi与pgi-1的时间间隔和pgk与pgk+1的时间间隔都超过会话时间间隔,那么定义<pgi,pgi+1......pgk>为一个会话。再在所有的历史会话中,挖掘频繁访问站点,频繁访问站点的定义为:若站点site 出现过的会话占训练数据的会话总数的百分比超过某个阈值,则认为site为一个频繁访问站点;并生成各个会话的标记。同时为每个会话生成一个会话标记,将所有历史会话的标记存放在合法标记库中,会话标记定义为:对于会话session;
S3、统计频繁站点中各板块访问频率,根据板块访问频率将频繁站点中不同板块归类为频繁访问板块或普通访问板块,挖掘每个频繁访问站点的频繁访问板块,频繁访问板块定义为:该站点的该板块section出现的会话个数占该站点出现的会话个数的百分比超过某个阈值(如0.7),则认为该板块为该站点一个频繁访问板块,如sports.qq.com的板块为sports,qq.com的板块为空板块,并构造Other板块,将该站点下一切非频繁访问板块的页面视为Other板块下的页面。在对进行序列模型的训练之前,首先对各个会话按照标记进行归类,相同标记的会话数据用于序列模型的构建;
S4、计算日志序列信息得到序列特征向量,据以构建序列模型,让服务端对数据进行分析,提取出不同因素的特征,将处理过的中间数据分别传递给序列模型模块,页面获取关系模型模块,操作行为模型模块,对各个标记类的会话中各个频繁访问站点,以及Other站点挖掘段的特征,Other站点定义为:会话中,存在频繁访问站点的pageview 元素,和一些非频繁访问站点的pageview元素,构造一个Other虚拟站点,认定所有非频繁访问站点的pageview元素均来自Other站点;
S5、根据浏览行为信息提取关系架构信息,根据关系架构信息获得页面关系特征向量,据以构建页面获取关系模型,处于线上模式的时候,利用各个子模型模块进行分类功能。用户端向服务器发送用户的浏览行为数据;二次加工模块将用户的原始数据进行加工,提取出序列模型的中间数据,页面获取关系模型中间数据;
S6、提取浏览行为信息中的浏览操作数据,计算浏览操作数据,得操作特征向量,据以构建操作行为模型,将用户的原始数据进行加工,提取出序列模型的中间数据,计算操作行为模型中间数据;
S7、提取序列特征向量、关系特征向量和操作特征向量,据以计算会话特征信息、页面关联矩阵和用户行为分类器,根据会话特征信息、页面关联矩阵和用户行为分类器训练序列模型、页面获取关系模型和操作行为模型,处于线下模式的时候,利用各个子模型模块的训练功能进行训练,线下模式时候,各个子模块对中间数据进一步加工得到特征向量,并且利用机器学习算法模块进行训练,并将训练过后的分类器对象存储起来;
S8、根据序列模型、页面获取关系模型和操作行为模型认证用户浏览行为,判定用户浏览行为是否异常,线上模式的时候,各个子模块利用机器学习算法模块对相应的特征向量进行分类操作,进行异常判定,得到特征向量,进行非法行为侦测,当用户的实时行为数据传至服务端的时候,经过提取得到特征,来判断本次行为是否异常,一旦用户行为的可信值低于系统设定的阈值,就判定该行为为异常,判定用户的身份异常,根据历史的用户行为模型,进行行为强认证,否则正常,放行操作。从而达到身份认证的目的。
根据序列模型、页面获取关系模型和操作行为模型认证用户浏览行为,判定用户浏览行为是否异常是在有用户上线的情况下进行的,其余步骤在无用户上线的情况下进行,系统具备两种不同的模式,分别是线下模式与线上模式。系统处于线下模式的时候,针对每个用户的历史行为数据,进行加工,提取特征,并且进行用户行为模型的构建。当系统处于线上模式的时候,即对实时发送的用户行为数据进行行为认证的时候,反馈给客户端的是是否判定合法的提示信息,若非法,则是提示强认证信息,若判定合法,则是正常的页面跳转信息,或者正常的页面内容。
请参阅图2,显示为本发明的序列模型构建步骤示意图,如图2所示,S4、计算日志序列信息得到序列特征向量,据以构建序列模型,包括:
S41、获取频繁站点及普通站点中的会话属性信息;
S42、根据会话属性信息获取页段属性信息,段的定义为:在浏览序列 <pg1,pg2,pg3......pgN>中,若一个子序列<pgi,pgi+1......pgk>中所有的元素所属的站点相同,并且与pgi-1和pgk+1元素的所属站点不同,那么<pgi,pgi+1......pgk>视为一个段;
S43、根据页段属性信息构建序列模型的序列特征向量,针对会话中所有频繁访问站点以及Other虚拟站点的段属性构建如下特征向量:
请参阅图3,显示为本发明的页面获取关系模型构建步骤示意图,如图3所示,S5、根据浏览行为信息提取关系架构信息,根据关系架构信息获得页面关系特征向量,据以构建页面获取关系模型,包括:
S51、获取频繁站点中的频繁访问版块,以频繁访问站点A为例。依据各个频繁访问站点A的频繁访问板块,为每个频繁访问站点构建一个页面获取关系模型;
S52、获取频繁站点中不同板块之间的链接信息,为每个频繁访问板块以及Other板块,构建Index节点和Content节点,分别用于表示该板块下的所有导航性质的页面以及内容性质的页面。依据每个包含频繁访问站点A的会话中所有属于A的pageview内的 link元素(超链接事件记录元素);
S53、根据链接信息,以板块为图节点构造板块关系图,以会话为单位为站点A构建一条页面获取关系图,即为该站点下所有图节点构成的带权重有向完全图,各条有向边初始权重为0;
S54、遍历板块关系图,判断频繁访问版块是否属于频繁站点,遍历包含站点A的pageview元素的会话;
S55、若是,则分析该频繁访问版块对应的图节点,若属于站点A,则计算该pageview 的URL所对应的图中的节点,记为oriNode;并且遍历该pageview元素中的link元素,分析link元素中的URL所属的节点,记为endNode,同时令count值+1;所有pageview 遍历完毕后,令图中所有有向边的权重除以count,得到一张权重均在[0,1]区间内的二维数组表示的有向完全图;之后对二维数组进行一维化,即自下而上,将最底一行添加到上一行的末尾上去,最终形成一个一维数组;
S56、若否,则继续遍历板块关系图,若pageview元素不属于站点A,则跳过;
S57、遍历频繁访问板块的所有链接信息,得到关系有向图,根据关系有向图构建页面获取关系模型,由于有向图的向量维度过高,因此要采用PCA降维,故将PCA降维矩阵存放在数据库中。
请参阅图4,显示为本发明的操作行为模型构建示意图,如图4所示,S6、提取浏览行为信息中的浏览操作数据,计算浏览操作数据,得操作特征向量,据以构建操作行为模型,包括:
S61、由频繁站点提取频繁访问板块,首先取出频繁访问站点A的所有频繁访问板块,之后为每个频繁访问板块构建上表所示的特征片段,各分量初始值为0;
S62、遍历频繁访问板块,判断频繁访问板块是否属于频繁站点,遍历会话的所有pageview元素;
S63、若是,则获取频繁访问板块中的操作特征信息,若属于频繁访问站点A,则遍历该pageview的operations子元素的所有操作子元素,实时更新各个板块的特征向量片段的各个分量;
S64、若否,则继续遍历频繁访问板块,若不属于频繁访问站点A,则跳过;
S65、根据操作特征信息拼接得操作行为模型的操作特征向量,遍历所有pageview元素后,将各个频繁访问板块的特征向量拼接形成一维特征向量;
S66、根据操作特征向量构建操作行为模型。
请参阅图5,显示为本发明的模型训练步骤示意图,如图5所示,S7、根据浏览特征信息训练得到会话特征信息、页面关联矩阵和用户行为分类器,根据会话特征信息、页面关联矩阵和用户行为分类器更新序列模型、页面获取关系模型和操作行为模型,包括:
S71、提取序列特征向量、页面关系特征向量和操作特征向量,获取标记相同的会话的序列特征向量,有标注1的合法用户的正样本特征向量,和标注为0的非法用户的负样本特征向量,由于各个网站的板块数太多,因此难以找到适合的负样本,故使用单类分类器One-class SVM(即SVDD支持向量数据描述)训练页面获取关系模型。对于频繁访问站点A训练过程为:获取站点A的所有页面获取关系特征向量,取出站点A的操作行为特征向量;
S72、根据序列特征向量计算正负样本向量,根据页面关系特征向量获取页面关联矩阵,在数据库中取出站点A的PCA降维变换矩阵,对监督学习算法C4.5决策树,非监督降维方法PCA,非监督分类器算法SVDD进行了封装;
S73、根据正负样本向量计算序列决策树,对页面关联矩阵降维,根据SVDD算法训练操作特征向量得用户行为分类器,利用C4.5决策树训练算法训练得到决策树;并将决策树返回,使用PCA矩阵对所有训练特征向量进行降维;
S74、根据序列决策树、页面关联矩阵和分类器更新序列模型、页面获取模型和操作行为模型,对降维后的特征向量集使用SVDD算法进行训练;保存训练后的结果用于后续的认证,使用SVDD训练算法进行训练,通过外部程序调用,进行相应的处理,既能够实现利用训练样本;保存SVDD训练结果作为频繁访问站点A的SVDD分类器。
请参阅图6,显示为本发明的浏览行为判断步骤示意图,如图6所示,S8、根据序列模型、页面获取关系模型和操作行为模型认证用户浏览行为,判定用户浏览行为是否异常,包括:
S81、获取用户的日志序列信息,在用户登录时,用户端向服务器发送用户的浏览行为数据,在浏览行为认证过程中,系统接收传送到服务器端的日志序列信息数据;
S82、计算日志序列信息的标志信息,根据序列模型判断是否为合法用户,根据数据库中该用户的历史频繁访问站点集合,算出本次会话的标记;
S83、若是,则计算日志序列信息和标识信息得合法用户的序列行为特征向量,序列行为特征向量用于构建序列特征模型并据以判断浏览行为;
S84、若否,则判定此次浏览行为非法,若标记非法,则视为非法行为,在系统屏幕上弹出报警信息,提示该浏览行为为非法浏览行为并进行强行认证;
S85、根据页面获取关系模型计算浏览行为,判断是否浏览行为合法,利用该标记下的决策树进行检测,若判定为合法行为,则对受保护的频繁访问站点进行页面获取关系认证,利用受保护的站点进行页面获取关系模型认证;
S86、若是,则计算浏览行为对应的频繁站点的操作特征向量。
S87、若否,则判断此次浏览行为非法,在系统屏幕上弹出报警信息,提示该浏览行为为非法浏览行为并进行强行认证;
S88、根据操作行为模型的操作特征向量判断操作是否合法,对受保护的频繁访问站点进行操作行为模型认证;
S89、若是,则认证本次浏览行为合法;
S810、若否,则认证本次浏览行为非法,在系统屏幕上弹出报警信息,提示该浏览行为为非法浏览行为并进行强行认证。
请参阅图7,显示为本发明的一种浏览行为认证系统模块示意图,请参阅图7,一种浏览行为认证系统1,包括:信息收集模块11、站点归类模块12、行为归类模块13、序列模型构建模块14、关系模型构建模块15、行为模型构建模块16、模型训练模块17和浏览认证模块18;信息收集模块11,用于处理浏览历史数据得到用户对应的浏览行为信息,当用户处于线上状态时,实时采集用户的行为数据,通过用户端的程序,将用户使用浏览器浏览网页时候的浏览数据,操作行为数据实时返回到服务端,并进行二次加工,本行为认证系统安装于服务器端,系统的输入数据为从用户终端实时发送的行为数据,以树状结构存放数据。其中XML文件格式的数据为:<pageview>元素为一个页面浏览元素,用于表示用户新打开一个页面并且进行浏览,或者刷新当前浏览的页面,或者返回某个标签浏览之前已经打开过的某个页面。<url>为所属的<pageview>元素的页面的URL。<classification>为该页面属于哪种类型,INDEX表示该页面属于导航性质页面,CONTENT表示该页面属于内容性质页面。 <time>元素存放的是,开始浏览该页面的毫秒级时间戳。<operations>元素内部记录用户在该页面进行浏览的时候,一切操作行为的数据。<pos>表示用户的鼠标左键点击或者松开事件,当type属性为press的时候,是按压事件,当属性值为release的时候,是释放事件,其中time属性记录该事件的毫秒级时间戳。<pos>224</pos>内为该事件发生时候,鼠标箭头的纵向坐标值。<textselect>表示文本选取事件,time属性用于记录该事件发生时候的毫秒级时间戳。<textselect>80</textselect>内为此次选取的文字的数量。<link>表示在该页面上,通过超链接打开新的页面的事件。其中classification属性表示的是新打开的页面的性质,INDEX 表示该页面是导航性质页面,CONTENT表示该页面是内容性质的页面。 <link>http://www.sina.com.cn</link>内部存放的是此次通过超链接打开页面的URL。<wheel> 表示用户使用鼠标中轴滑动浏览器滚动条事件,其中time属性表示此次事件的毫秒级时间戳。<wheel>120</wheel>表示此次向下滑动的距离;站点归类模块12,用于提取日志序列信息,统计日志序列信息中各站点访问频率,根据站点访问频率将站点类为频繁站点或普通站点,首先按照会话定义,将用户的历史数据切分成若干个会话。其中会话的定义为:浏览序列日志数据为一个连续序列<pg1,pg2......pgN>(其中pg为<pageview>浏览元素)按照时间戳进行切分,若<pgi,pgi+1......pgk>片段中每个序列元素的时间戳间隔不超过会话间隔时间(一般取30分钟),同时pgi与pgi-1的时间间隔和pgk与pgk+1的时间间隔都超过会话时间间隔,那么定义<pgi,pgi+1......pgk>为一个会话。再在所有的历史会话中,挖掘频繁访问站点,频繁访问站点的定义为:若站点site出现过的会话占训练数据的会话总数的百分比超过某个阈值,则认为site为一个频繁访问站点;并生成各个会话的标记。同时为每个会话生成一个会话标记,将所有历史会话的标记存放在合法标记库中,会话标记定义为:对于会话 session;板块归类模块13,用于统计频繁站点中各板块访问频率,根据板块访问频率将频繁站点中不同板块归类为频繁访问板块或普通访问板块,挖掘每个频繁访问站点的频繁访问板块,频繁访问板块定义为:该站点的该板块section出现的会话个数占该站点出现的会话个数的百分比超过某个阈值(如0.7),则认为该板块为该站点一个频繁访问板块,如sports.qq.com 的板块为sports,qq.com的板块为空板块,并构造Other板块,将该站点下一切非频繁访问板块的页面视为Other板块下的页面。在对进行序列模型的训练之前,首先对各个会话按照标记进行归类,相同标记的会话数据用于序列模型的构建,板块归类模块13与站点归类模块 12连接;序列模型构建模块14,用于计算日志序列信息得到序列特征向量,据以构建序列模型,让服务端对数据进行分析,提取出不同因素的特征,将处理过的中间数据分别传递给序列模型模块,页面获取关系模型模块,操作行为模型模块,对各个标记类的会话中各个频繁访问站点,以及Other站点挖掘段的特征,Other站点定义为:会话中,存在频繁访问站点的 pageview元素,和一些非频繁访问站点的pageview元素,构造一个Other虚拟站点,认定所有非频繁访问站点的pageview元素均来自Other站点,据以构建序列模型,序列模型构建模块14与站点归类模块12连接;关系模型构建模块15,用于根据浏览行为信息提取关系架构信息,根据关系架构信息获得页面关系特征向量,据以构建页面获取关系模型,处于线上模式的时候,利用各个子模型模块进行分类功能。用户端向服务器发送用户的浏览行为数据;二次加工模块将用户的原始数据进行加工,提取出序列模型的中间数据,页面获取关系模型中间数据,关系模型构建模块15与板块归类模块13连接;行为模型构建模块16,用于提取浏览行为信息中的浏览操作数据,计算浏览操作数据,得操作特征向量,据以构建操作行为模型,将用户的原始数据进行加工,提取出序列模型的中间数据,计算操作行为模型中间数据,行为模型构建模块16与板块归类模块13连接;模型训练模块17,用于提取序列特征向量、关系特征向量和操作特征向量,据以计算会话特征信息、页面关联矩阵和用户行为分类器,根据会话特征信息、页面关联矩阵和用户行为分类器训练序列模型、页面获取关系模型和操作行为模型,处于线下模式的时候,利用各个子模型模块的训练功能进行训练,线下模式时候,各个子模块对中间数据进一步加工得到特征向量,并且利用机器学习算法模块进行训练,并将训练过后的分类器对象存储起来,模型训练模块17与序列模型构建模块14连接,模型训练模块17与关系模型构建模块15连接,模型训练模块17与行为模型构建模块16连接;浏览认证模块18,用于根据序列模型、页面获取关系模型和操作行为模型认证用户浏览行为,判定用户浏览行为是否异常,线上模式的时候,各个子模块利用机器学习算法模块对相应的特征向量进行分类操作,进行异常判定,得到特征向量,进行非法行为侦测,当用户的实时行为数据传至服务端的时候,经过提取得到特征,来判断本次行为是否异常,一旦用户行为的可信值低于系统设定的阈值,就判定该行为为异常,判定用户的身份异常,根据历史的用户行为模型,进行行为强认证,否则正常,放行操作。从而达到身份认证的目的,浏览认证模块18与模型训练模块17连接。
浏览认证模块在有用户上线的情况下工作,信息收集模块、行为归类模块、序列模型构建模块、关系模型构建模块、行为模型构建模块、模型训练模块在无用户上线的情况下工作。
请参阅图8,显示为本发明的序列模型构建模块示意图,请参阅图8,序列模型构建模块 14包括:会话属性获取模块141、页段属性获取模块142和序列向量模块143;会话属性获取模块141,用于获取频繁站点及普通站点中的会话属性信息;页段属性获取模块142,用于根据会话属性信息获取页段属性信息,段的定义为:在浏览序列<pg1,pg2,pg3......pgN>中,若一个子序列<pgi,pgi+1......pgk>中所有的元素所属的站点相同,并且与pgi-1和pgk+1元素的所属站点不同,那么<pgi,pgi+1......pgk>视为一个段,页段属性获取模块142与会话属性获取模块141连接;序列向量模块143,用于根据页段属性信息构建序列模型的序列特征向量,针对会话中所有频繁访问站点以及Other虚拟站点的段属性构建特征向量,序列向量模块143 与页段属性获取模块142连接。
请参阅图9,显示为本发明的关系模型构建模块示意图,如图9所示,关系模型构建模块15,包括:频繁板块获取模块151、链接获取模块152、板块关系模块153、站点判断模块154、板块分析模块155、图循环遍历模块156和页面关系模型模块157;频繁板块获取模块151,用于获取频繁站点中的频繁访问版块,以频繁访问站点A为例。依据各个频繁访问站点A的频繁访问板块,为每个频繁访问站点构建一个页面获取关系模型;链接获取模块152,用于获取频繁站点中不同板块之间的链接信息,为每个频繁访问板块以及Other板块,构建Index节点和Content节点,分别用于表示该板块下的所有导航性质的页面以及内容性质的页面。依据每个包含频繁访问站点A的会话中所有属于A的pageview内的link元素(超链接事件记录元素),链接获取模块152与频繁板块获取模块151连接;板块关系模块153,用于根据链接信息,以板块为图节点构造板块关系图,以会话为单位为站点A构建一条页面获取关系图,即为该站点下所有图节点构成的带权重有向完全图,各条有向边初始权重为0,板块关系模块153与链接获取模块152连接;站点判断模块154,用于遍历板块关系图,判断频繁访问版块是否属于频繁站点,遍历包含站点A的pageview元素的会话,站点判断模块 154与板块关系模块153连接;板块分析模块155,用于在频繁访问版块属于频繁站点时,分析该频繁访问版块对应的图节点,若属于站点A,则计算该pageview的URL所对应的图中的节点,记为oriNode;并且遍历该pageview元素中的link元素,分析link元素中的URL所属的节点,记为endNode,同时令count值+1;所有pageview遍历完毕后,令图中所有有向边的权重除以count,得到一张权重均在[0,1]区间内的二维数组表示的有向完全图;之后对二维数组进行一维化,即自下而上,将最底一行添加到上一行的末尾上去,最终形成一个一维数组,板块分析模块155与站点判断模块154连接;图循环遍历模块156,用于在频繁访问版块不属于频繁站点时,继续遍历板块关系图,若pageview元素不属于站点A,则跳过,图循环遍历模块156与站点判断模块154连接;页面关系模型模块157,用于遍历频繁访问板块的所有链接信息,得到关系有向图,根据关系有向图构建页面获取关系模型,由于有向图的向量维度过高,因此要采用PCA降维,故将PCA降维矩阵存放在数据库中,页面关系模型模块157与板块分析模块155连接。
请参阅图10,显示为本发明的行为模型构建模块示意图,如图10所示,行为模型构建模块16,包括:频繁板块提取模块161、频繁判断模块162、行为特征获取模块163、循环判断模块164、操作向量拼接模块165和操作模型获取模块166;频繁板块提取模块161,用于由频繁站点提取频繁访问板块,首先取出频繁访问站点A的所有频繁访问板块,之后为每个频繁访问板块构建上表所示的特征片段,各分量初始值为0;频繁判断模块162,用于遍历频繁访问板块,判断频繁访问板块是否属于频繁站点,遍历会话的所有pageview元素,频繁判断模块162与频繁板块提取模块161连接;行为特征获取模块163,用于在频繁访问模块属于频繁站点时,获取频繁访问板块中的操作特征信息,若属于频繁访问站点A,则遍历该pageview的operations子元素的所有操作子元素,实时更新各个板块的特征向量片段的各个分量,行为特征获取模块163与频繁判断模块162连接;循环判断模块164,用于在频繁访问模块不属于频繁站点时,继续遍历频繁访问板块,若不属于频繁访问站点A,则跳过,循环判断模块164与频繁判断模块162连接;操作向量拼接模块165,用于根据操作特征信息拼接得操作行为模型的操作特征向量,遍历所有pageview元素后,将各个频繁访问板块的特征向量拼接形成一维特征向量,操作向量拼接模块165与行为特征获取模块163连接;操作模型获取模块166,用于根据操作特征向量构建操作行为模型,操作模型获取模块166与操作向量拼接模块165连接。
请参阅图11,显示为本发明的模型训练模块示意图,如图11所示,模型训练模块17包括:特征向量提取模块171、向量运算分析模块172、模型训练计算模块173和模型更新模块 174;特征向量提取模块171,用于提取序列特征向量、页面关系特征向量和操作特征向量,获取标记相同的会话的序列特征向量,有标注1的合法用户的正样本特征向量,和标注为0 的非法用户的负样本特征向量,由于各个网站的板块数太多,因此难以找到适合的负样本,故使用单类分类器One-class SVM(即SVDD支持向量数据描述)训练页面获取关系模型。对于频繁访问站点A训练过程为:获取站点A的所有页面获取关系特征向量,取出站点A的操作行为特征向量;向量运算分析模块172,用于根据序列特征向量计算正负样本向量,根据页面关系特征向量获取页面关联矩阵,在数据库中取出站点A的PCA降维变换矩阵,对监督学习算法C4.5决策树,非监督降维方法PCA,非监督分类器算法SVDD进行了封装,向量运算分析模块172与特征向量提取模块171连接;模型训练计算模块173,用于根据正负样本向量计算序列决策树,对页面关联矩阵降维,根据SVDD算法训练操作特征向量得用户行为分类器,利用C4.5决策树训练算法训练得到决策树;并将决策树返回,使用PCA矩阵对所有训练特征向量进行降维,模型训练计算模块173与向量运算分析模块172连接;模型更新模块174,用于根据序列决策树、页面关联矩阵和分类器更新序列模型、页面获取模型和操作行为模型,对降维后的特征向量集使用SVDD算法进行训练;保存训练后的结果用于后续的认证,使用SVDD训练算法进行训练,通过外部程序调用,进行相应的处理,既能够实现利用训练样本;保存SVDD训练结果作为频繁访问站点A的SVDD分类器,模型更新模块174与模型训练计算模块173连接。
请参阅图12,显示为本发明的浏览认证模块示意图,如图12所示,浏览认证模块18包括:日志获取模块181、用户判断模块182、序列特征计算模块183、用户非法判定模块184、浏览行为判断模块185、页面关系判断模块186、行为非法判定模块187、操作判断模块188、浏览合法判定模块189和浏览非法判定模块1810;日志获取模块181,用于获取用户的日志序列信息,在用户登录时,用户端向服务器发送用户的浏览行为数据,在浏览行为认证过程中,系统接收传送到服务器端的日志序列信息数据;用户判断模块182,用于计算日志序列信息的标志信息,根据序列模型判断是否为合法用户,根据数据库中该用户的历史频繁访问站点集合,算出本次会话的标记,用户判断模块182与日志获取模块181连接;序列特征计算模块183,用于在用户合法时,计算日志序列信息和标识信息得合法用户的序列行为特征向量,序列行为特征向量用于构建序列特征模型并据以判断浏览行为,序列特征计算模块183与用户判断模块182连接;用户非法判定模块184,用于在用户非法时,判定此次浏览行为非法,若标记非法,则视为非法行为,在系统屏幕上弹出报警信息,提示该浏览行为为非法浏览行为并进行强行认证,用户非法判定模块184与用户判断模块182连接;浏览行为判断模块185,用于根据页面获取关系模型计算浏览行为,判断是否浏览行为合法,利用该标记下的决策树进行检测,若判定为合法行为,则对受保护的频繁访问站点进行页面获取关系认证,利用受保护的站点进行页面获取关系模型认证,浏览行为判断模块185与序列特征计算模块183连接;页面关系判断模块186,用于在浏览行为合法时,计算浏览行为对应的频繁站点的操作特征向量,页面关系判断模块186与浏览行为判断模块185连接。行为非法判定模块187,用于判断此次浏览行为非法,在系统屏幕上弹出报警信息,提示该浏览行为为非法浏览行为并进行强行认证,行为非法判定模块187与浏览行为判断模块185连接;操作判断模块188,用于根据操作行为模型的操作特征向量判断操作是否合法,对受保护的频繁访问站点进行操作行为模型认证,操作判断模块188与页面关系判断模块186连接;浏览合法判定模块189,在操作合法时,认证本次浏览行为合法,浏览合法判定模块189与操作判断模块188连接;浏览非法判定模块1810,用于认证本次浏览行为非法,在系统屏幕上弹出报警信息,提示该浏览行为为非法浏览行为并进行强行认证,浏览非法判定模块1810 与操作判断模块188连接。
综上所述,本发明提供的一种用户浏览行为认证方法及系统。本发明具有以下有益效果:本发明构建一个更为细致的用户使用浏览器的浏览行为模型,考虑用户浏览行为中的多种因素,提取能够反映用户个性化的特征,能够为用户构建能描述该用户行为的用户行为模型。降低之前研究成果中认证失效的风险,尽最大可能识别非法用户的非法行为。本发明目的在于克服现有技术的不足,适用于客户端/服务器用户的身份认证。针对用户线上和线下的不同状态,系统执行不同的操作。当用户处于线下状态时,在服务器端收集用户最近的行为序列,通过分析用户的历史行为数据勾践用户的合法行为模型。当用户处于线上状态时,实时采集用户的行为数据,并进行二次加工,得到特征向量,进行非法行为侦测。一旦用户行为的可信值低于系统设定的阈值,就判定该行为为异常,判定用户的身份异常,进行强认证,否则正常,放行操作。从而达到身份认证的目的,考虑了用户在进行网页浏览的时候,浏览行为的多因素性。在页面浏览序列的层面上使用了用户的真实的浏览序列,而不是近似的WEB日志文件。提出了一种有效的原始数据存放格式,能够使得操作行为数据能够结合所浏览的页面类型,更好地刻画用户在浏览不同类型页面的时候,的行为特点。用户模型可以拆分成三个子模型,可以结合实际的硬件条件,应用场景,进行增减,更具有灵活性。综上,本发明解决了现有技术中的依赖硬件设备、认证成本较高和认证安全性较低的技术问题,具有较好的认证安全性和准确性,具有很高的商业价值和实用性。

Claims (14)

1.一种用户浏览行为认证方法,其特征在于,包括:
处理浏览历史数据得到用户对应的浏览行为信息;
提取日志序列信息,统计所述日志序列信息中各站点访问频率,根据所述站点访问频率将所述站点类为频繁站点或普通站点;
统计所述频繁站点中各板块访问频率,根据所述板块访问频率将所述频繁站点中不同板块归类为频繁访问板块或普通访问板块;
计算所述日志序列信息得到序列特征向量,据以构建序列模型;
根据所述浏览行为信息提取关系架构信息,根据所述关系架构信息获得页面关系特征向量,据以构建页面获取关系模型;
提取所述浏览行为信息中的浏览操作数据,计算所述浏览操作数据,得操作特征向量,据以构建操作行为模型;
提取所述序列特征向量、所述关系特征向量和所述操作特征向量,据以计算会话特征信息、页面关联矩阵和用户行为分类器,根据所述会话特征信息、所述页面关联矩阵和用户行为分类器训练所述序列模型、页面获取关系模型和操作行为模型;
根据所述序列模型、所述页面获取关系模型和所述操作行为模型认证用户浏览行为,判定用户浏览行为是否异常。
2.根据权利要求1所述的方法,其特征在于,所述根据所述序列模型、所述页面获取关系模型和所述操作行为模型认证用户浏览行为,判定用户浏览行为是否异常是在有用户上线的情况下进行的,其余步骤在无用户上线的情况下进行。
3.根据权利要求1所述的方法,其特征在于,所述计算所述日志序列信息得到序列特征向量,据以构建序列模型,包括:
获取所述频繁站点及所述普通站点中的会话属性信息;
根据所述会话属性信息获取页段属性信息;
根据所述页段属性信息构建序列模型的序列特征向量。
4.根据权利要求1所述的方法,其特征在于,所述根据所述浏览行为信息提取关系架构信息,根据所述关系架构信息获得页面关系特征向量,据以构建页面获取关系模型,包括:
获取所述频繁站点中的频繁访问版块;
获取所述频繁站点中不同板块之间的链接信息;
根据所述链接信息,以所述板块为图节点构造板块关系图;
遍历所述板块关系图,判断所述频繁访问版块是否属于所述频繁站点;
若是,则分析该频繁访问版块对应的所述图节点;
若否,则继续遍历所述板块关系图;
遍历所述频繁访问板块的所有所述链接信息,得到关系有向图,根据所述关系有向图构建所述页面获取关系模型。
5.根据权利要求1所述的方法,其特征在于,所述提取所述浏览行为信息中的浏览操作数据,计算所述浏览操作数据,得操作特征向量,据以构建操作行为模型,包括:
由所述频繁站点提取所述频繁访问板块;
遍历所述频繁访问板块,判断所述频繁访问板块是否属于频繁站点;
若是,则获取所述频繁访问板块中的所述操作特征信息;
若否,则继续遍历所述频繁访问板块;
根据所述操作特征信息拼接得操作行为模型的操作特征向量;
根据所述操作特征向量构建所述操作行为模型。
6.根据权利要求1或4所述的方法,其特征在于,所述根据所述浏览特征信息训练得到会话特征信息、页面关联矩阵和用户行为分类器,根据所述会话特征信息、所述页面关联矩阵和用户行为分类器更新所述序列模型、页面获取关系模型和操作行为模型,包括:
提取所述序列特征向量、所述页面关系特征向量和所述操作特征向量;
根据所述序列特征向量计算正负样本向量,根据所述页面关系特征向量获取页面关联矩阵;
根据所述正负样本向量计算序列决策树,对所述页面关联矩阵降维,根据SVDD算法训练所述操作特征向量得用户行为分类器;
根据所述序列决策树、所述页面关联矩阵和所述分类器更新所述序列模型、所述页面获取模型和所述操作行为模型。
7.根据权利要1或6所述的方法,其特征在于,所述根据所述序列模型、所述页面获取关系模型和所述操作行为模型认证用户浏览行为,判定用户浏览行为是否异常,包括:
获取用户的所述日志序列信息;
计算所述日志序列信息的标志信息,根据所述序列模型判断是否为合法用户;
若是,则计算所述日志序列信息和所述标识信息得所述合法用户的序列行为特征向量;
若否,则判定此次浏览行为非法;
根据所述页面获取关系模型计算所述浏览行为,判断是否所述浏览行为合法;
若是,则计算所述浏览行为对应的所述频繁站点的操作特征向量。
若否,则判断此次浏览行为非法;
根据所述操作行为模型的所述操作特征向量判断所述操作是否合法;
若是,则认证本次浏览行为合法;
若否,则认证本次浏览行为非法。
8.一种浏览行为认证系统,其特征在于,包括:信息收集模块、站点归类模块、行为归类模块、序列模型构建模块、关系模型构建模块、行为模型构建模块、模型训练模块和浏览认证模块;
所述信息收集模块,用于处理浏览历史数据得到用户对应的浏览行为信息;
所述站点归类模块,用于提取日志序列信息,统计所述日志序列信息中各站点访问频率,根据所述站点访问频率将所述站点类为频繁站点或普通站点;
所述板块归类模块,用于统计所述频繁站点中各板块访问频率,根据所述板块访问频率将所述频繁站点中不同板块归类为频繁访问板块或普通访问板块;
所述序列模型构建模块,用于计算所述日志序列信息得到序列特征向量,据以构建序列模型;
所述关系模型构建模块,用于根据所述浏览行为信息提取关系架构信息,根据所述关系架构信息获得页面关系特征向量,据以构建页面获取关系模型;
所述行为模型构建模块,用于提取所述浏览行为信息中的浏览操作数据,计算所述浏览操作数据,得操作特征向量,据以构建操作行为模型;
所述模型训练模块,用于提取所述序列特征向量、所述关系特征向量和所述操作特征向量,据以计算得到会话特征信息、页面关联矩阵和用户行为分类器,根据所述会话特征信息、所述页面关联矩阵和用户行为分类器训练所述序列模型、页面获取关系模型和操作行为模型;
所述浏览认证模块,用于根据所述序列模型、所述页面获取关系模型和所述操作行为模型认证用户浏览行为,判定用户浏览行为是否异常。
9.根据权利要求8所述的系统,其特征在于,包括:所述浏览认证模块在有用户上线的情况下工作,所述信息收集模块、所述行为归类模块、所述序列模型构建模块、所述关系模型构建模块、所述行为模型构建模块、所述模型训练模块在无用户上线的情况下工作。
10.根据权利要求8所述的系统,其特征在于,所述序列模型构建模块包括:会话属性获取模块、页段属性获取模块和序列向量模块;
所述会话属性获取模块,用于获取所述频繁站点及所述普通站点中的会话属性信息;
所述页段属性获取模块,用于根据所述会话属性信息获取页段属性信息;
所述序列向量模块,用于根据所述页段属性信息构建序列模型的序列特征向量。
11.根据权利要求8所述的系统,其特征在于,所述所述关系模型构建模块,包括:频繁板块获取模块、链接获取模块、板块关系模块、站点判断模块、板块分析模块、图循环遍历模块和页面关系模型模块;
所述频繁板块获取模块,用于获取所述频繁站点中的频繁访问版块;
所述链接获取模块,用于获取所述频繁站点中不同板块之间的链接信息;
所述板块关系模块,用于根据所述链接信息,以所述板块为图节点构造板块关系图;
所述站点判断模块,用于遍历所述板块关系图,判断所述频繁访问版块是否属于所述频繁站点;
所述板块分析模块,用于在所述频繁访问版块属于所述频繁站点时,分析该频繁访问版块对应的所述图节点;
所述图循环遍历模块,用于在所述频繁访问版块不属于所述频繁站点时,继续遍历所述板块关系图;
所述页面关系模型模块,用于遍历所述频繁访问板块的所有所述链接信息,得到关系有向图,根据所述关系有向图构建所述页面获取关系模型。
12.根据权利要求8所述的系统,其特征在于,所述行为模型构建模块,包括:频繁板块提取模块、频繁判断模块、行为特征获取模块、循环判断模块、操作向量拼接模块和操作模型获取模块;
所述频繁板块提取模块,用于由所述频繁站点提取所述频繁访问板块;
所述频繁判断模块,用于遍历所述频繁访问板块,判断所述频繁访问模块是否属于频繁站点;
所述行为特征获取模块,用于在所述频繁访问模块属于频繁站点时,获取所述频繁访问板块中的所述操作特征信息;
所述循环判断模块,用于在所述频繁访问模块不属于频繁站点时,继续遍历所述频繁访问板块;
所述操作向量拼接模块,用于根据所述操作特征信息拼接得操作行为模型的操作特征向量;
所述操作模型获取模块,用于根据所述操作特征向量构建所述操作行为模型。
13.根据权利要求8或11所述的系统,其特征在于,所述模型训练模块包括:特征向量提取模块、向量运算分析模块、模型训练计算模块和模型更新模块;
所述特征向量提取模块,用于提取所述序列特征向量、所述页面关系特征向量和所述操作特征向量;
所述向量运算分析模块,用于根据所述序列特征向量计算正负样本向量,根据所述页面关系特征向量获取页面关联矩阵;
所述模型训练计算模块,用于根据所述正负样本向量计算序列决策树,对所述页面关联矩阵降维,根据SVDD算法训练所述操作特征向量得用户行为分类器;
所述模型更新模块,用于根据所述序列决策树、所述页面关联矩阵和所述分类器更新所述序列模型、所述页面获取模型和所述操作行为模型。
14.根据权利要求8或13所述的系统,其特征在于,所述浏览认证模块包括:日志获取模块、用户判断模块、序列特征计算模块、用户非法判定模块、浏览行为判断模块、页面关系判断模块、行为非法判定模块、操作判断模块、浏览合法判定模块和浏览非法判定模块;
所述日志获取模块,用于获取用户的所述日志序列信息;
所述用户判断模块,用计算所述日志序列信息的标志信息,根据所述序列模型判断是否为合法用户;
所述序列特征计算模块,用于在所述用户合法时,计算所述日志序列信息和所述标识信息得所述合法用户的序列行为特征向量;
所述用户非法判定模块,用于在所述用户非法时,判定此次浏览行为非法;
所述浏览行为判断模块,用于根据所述页面获取关系模型计算所述浏览行为,判断是否所述浏览行为合法;
所述页面关系判断模块,用于在所述浏览行为合法时,计算所述浏览行为对应的所述频繁站点的操作特征向量。
所述行为非法判定模块,用于判定此次浏览行为非法;
所述操作判断模块,用于根据所述操作行为模型的所述操作特征向量判断所述操作是否合法;
所述浏览合法判定模块,在所述操作合法时,认证本次浏览行为合法;
所述浏览非法判定模块,用在所述操作非法时,认证本次浏览行为非法。
CN201710548623.6A 2017-07-06 2017-07-06 一种用户浏览行为认证方法及系统 Active CN107368718B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710548623.6A CN107368718B (zh) 2017-07-06 2017-07-06 一种用户浏览行为认证方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710548623.6A CN107368718B (zh) 2017-07-06 2017-07-06 一种用户浏览行为认证方法及系统

Publications (2)

Publication Number Publication Date
CN107368718A true CN107368718A (zh) 2017-11-21
CN107368718B CN107368718B (zh) 2022-08-16

Family

ID=60306047

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710548623.6A Active CN107368718B (zh) 2017-07-06 2017-07-06 一种用户浏览行为认证方法及系统

Country Status (1)

Country Link
CN (1) CN107368718B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229964A (zh) * 2017-12-25 2018-06-29 同济大学 交易行为轮廓构建与认证方法、系统、介质及设备
CN108595923A (zh) * 2018-04-20 2018-09-28 北京元心科技有限公司 身份认证方法、装置及终端设备
CN109120592A (zh) * 2018-07-09 2019-01-01 四川大学 一种基于用户行为的Web异常检测系统
CN109388548A (zh) * 2018-09-29 2019-02-26 北京京东金融科技控股有限公司 用于生成信息的方法和装置
CN109474516A (zh) * 2018-11-13 2019-03-15 广东小天才科技有限公司 基于卷积神经网络的即时通信连接策略推荐方法及系统
CN109598110A (zh) * 2018-12-10 2019-04-09 北京羽扇智信息科技有限公司 一种用户身份的识别方法及装置
WO2019228011A1 (en) * 2018-05-31 2019-12-05 Beijing Didi Infinity Technology And Development Co., Ltd. Methods and apparatuses for obtaining user behavior paths
CN110708306A (zh) * 2019-09-29 2020-01-17 贝壳技术有限公司 一种数据处理方法、装置和存储介质
CN111611457A (zh) * 2020-05-20 2020-09-01 北京金山云网络技术有限公司 一种页面分类方法、装置、设备及存储介质
CN112528112A (zh) * 2020-12-15 2021-03-19 平安科技(深圳)有限公司 数据收集及分析方法、装置、电子设备及存储介质
WO2021121385A1 (en) * 2019-12-20 2021-06-24 Beijing Didi Infinity Technology And Development Co., Ltd. Identity and access management dynamic control and remediation
CN113590974A (zh) * 2021-09-29 2021-11-02 北京每日优鲜电子商务有限公司 推荐页面配置方法、装置、电子设备和计算机可读介质
CN117792800A (zh) * 2024-02-28 2024-03-29 四川合佳科技有限公司 一种基于物联网安全评估系统的信息验证方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104809377A (zh) * 2015-04-29 2015-07-29 西安交通大学 基于网页输入行为特征的网络用户身份监控方法
CN105337987A (zh) * 2015-11-20 2016-02-17 同济大学 一种网络用户身份认证方法及系统
WO2016091002A1 (zh) * 2014-12-10 2016-06-16 百度在线网络技术(北京)有限公司 在网页上提供认证信息的方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016091002A1 (zh) * 2014-12-10 2016-06-16 百度在线网络技术(北京)有限公司 在网页上提供认证信息的方法及装置
CN104809377A (zh) * 2015-04-29 2015-07-29 西安交通大学 基于网页输入行为特征的网络用户身份监控方法
CN105337987A (zh) * 2015-11-20 2016-02-17 同济大学 一种网络用户身份认证方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
PEIHAI ZHAO 等: "AuthenticatingWeb User’s Identity through Browsing Sequences Modeling", 《2016 IEEE 16TH INTERNATIONAL CONFERENCE ON DATA MINING WORKSHOPS》 *
刘畅,何泾沙: "一个基于用户网络行为的访问控制模型", 《技术研究》 *
陈冬祥 等: "一种综合多因素的网页浏览行为认证方法", 《计算机科学》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229964B (zh) * 2017-12-25 2021-04-02 同济大学 交易行为轮廓构建与认证方法、系统、介质及设备
CN108229964A (zh) * 2017-12-25 2018-06-29 同济大学 交易行为轮廓构建与认证方法、系统、介质及设备
CN108595923A (zh) * 2018-04-20 2018-09-28 北京元心科技有限公司 身份认证方法、装置及终端设备
WO2019228011A1 (en) * 2018-05-31 2019-12-05 Beijing Didi Infinity Technology And Development Co., Ltd. Methods and apparatuses for obtaining user behavior paths
CN109120592A (zh) * 2018-07-09 2019-01-01 四川大学 一种基于用户行为的Web异常检测系统
CN109388548A (zh) * 2018-09-29 2019-02-26 北京京东金融科技控股有限公司 用于生成信息的方法和装置
CN109388548B (zh) * 2018-09-29 2020-12-22 京东数字科技控股有限公司 用于生成信息的方法和装置
CN109474516A (zh) * 2018-11-13 2019-03-15 广东小天才科技有限公司 基于卷积神经网络的即时通信连接策略推荐方法及系统
CN109598110A (zh) * 2018-12-10 2019-04-09 北京羽扇智信息科技有限公司 一种用户身份的识别方法及装置
CN110708306A (zh) * 2019-09-29 2020-01-17 贝壳技术有限公司 一种数据处理方法、装置和存储介质
CN110708306B (zh) * 2019-09-29 2022-07-12 贝壳找房(北京)科技有限公司 一种数据处理方法、装置和存储介质
WO2021121385A1 (en) * 2019-12-20 2021-06-24 Beijing Didi Infinity Technology And Development Co., Ltd. Identity and access management dynamic control and remediation
US11381570B2 (en) 2019-12-20 2022-07-05 Beijing Didi Infinity Technology And Development Co., Ltd. Identity and access management dynamic control and remediation
CN111611457A (zh) * 2020-05-20 2020-09-01 北京金山云网络技术有限公司 一种页面分类方法、装置、设备及存储介质
CN111611457B (zh) * 2020-05-20 2024-01-02 北京金山云网络技术有限公司 一种页面分类方法、装置、设备及存储介质
CN112528112A (zh) * 2020-12-15 2021-03-19 平安科技(深圳)有限公司 数据收集及分析方法、装置、电子设备及存储介质
CN113590974A (zh) * 2021-09-29 2021-11-02 北京每日优鲜电子商务有限公司 推荐页面配置方法、装置、电子设备和计算机可读介质
CN117792800A (zh) * 2024-02-28 2024-03-29 四川合佳科技有限公司 一种基于物联网安全评估系统的信息验证方法及系统
CN117792800B (zh) * 2024-02-28 2024-05-03 四川合佳科技有限公司 一种基于物联网安全评估系统的信息验证方法及系统

Also Published As

Publication number Publication date
CN107368718B (zh) 2022-08-16

Similar Documents

Publication Publication Date Title
CN107368718A (zh) 一种用户浏览行为认证方法及系统
CN105653981B (zh) 大数据平台的数据流通与交易的敏感数据保护系统及方法
CN104809377B (zh) 基于网页输入行为特征的网络用户身份监控方法
CN104199822B (zh) 一种识别搜索对应的需求分类的方法和系统
CN104077396B (zh) 一种钓鱼网站检测方法及装置
CN103605794B (zh) 一种网站分类方法
CN110417721A (zh) 安全风险评估方法、装置、设备及计算机可读存储介质
CN101894134B (zh) 一种基于空间布局的钓鱼网页检测及其实现方法
CN110162593A (zh) 一种搜索结果处理、相似度模型训练方法及装置
CN108156131A (zh) Webshell检测方法、电子设备和计算机存储介质
CN108399194A (zh) 一种网络威胁情报生成方法及系统
CN107992746A (zh) 恶意行为挖掘方法及装置
CN110781308B (zh) 一种基于大数据构建知识图谱的反欺诈系统
CN106709370B (zh) 一种基于文本内容的长词识别方法及系统
CN102170446A (zh) 一种基于空间布局与视觉特征的钓鱼网页检测方法
CN107341183A (zh) 一种基于暗网网站综合特征的网站分类方法
CN105337987B (zh) 一种网络用户身份认证方法及系统
CN112001586A (zh) 基于区块链共识机制的企业联网大数据审计风险控制架构
CN106779278A (zh) 资产信息的评价系统及其信息的处理方法和装置
CN108334758A (zh) 一种用户越权行为的检测方法、装置及设备
CN109543986A (zh) 基于用户画像的监狱罪犯三预风险评估方法及系统
CN105809448A (zh) 账户交易的聚类方法及其系统
CN110009224A (zh) 嫌疑人违规概率预测方法、装置、计算机设备及存储介质
Zou et al. A novel network security algorithm based on improved support vector machine from smart city perspective
CN110909542A (zh) 智能语义串并分析方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant