CN114817377B - 基于用户画像的数据风险检测方法、装置、设备及介质 - Google Patents
基于用户画像的数据风险检测方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN114817377B CN114817377B CN202210745178.3A CN202210745178A CN114817377B CN 114817377 B CN114817377 B CN 114817377B CN 202210745178 A CN202210745178 A CN 202210745178A CN 114817377 B CN114817377 B CN 114817377B
- Authority
- CN
- China
- Prior art keywords
- data
- user
- risk
- attribute
- acquiring
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Entrepreneurship & Innovation (AREA)
- Quality & Reliability (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Development Economics (AREA)
- Computational Linguistics (AREA)
- Educational Administration (AREA)
- Fuzzy Systems (AREA)
- Game Theory and Decision Science (AREA)
- Mathematical Physics (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请涉及一种基于用户画像的数据风险检测方法、装置、设备及介质,其中方法包括获取应用系统上的传输数据;基于请求数据和响应数据,构建用户访问数据链路;采集用户访问数据链路上的用户数据,并对用户数据进行拆分处理,得到目标数据;根据预设分类标签,构建目标数据对应的用户属性数据表,得到用户画像数据表;基于预设维度,统计用户画像数据表中的用户行为数据,得到统计结果,并基于统计结果确认用户行为基线;获取下一预设时间内的用户数据,作为基础数据,并基于用户行为基线获取基础数据中的风险用户,得到风险检测结果。本发明通过对用户数据进行精准分析,有利于数据风险检测的精准度。
Description
技术领域
本申请涉及数据安全技术领域,尤其涉及一种基于用户画像的数据风险检测方法、装置、设备及介质。
背景技术
用户画像最初在电商领域得到广泛应用,是一种勾画目标用户、联系用户诉求与设计方向的有效工具,目前用户画像在各领域得到了广泛的应用。在实际操作的过程中往往会以最为浅显和贴近生活的话语将用户的属性、行为与期待的数据转化联结起来。而在大数据时代背景下,用户信息充斥在网络中,从安全和风险的角度来讲,如何将用户的每个具体行为信息抽象成标签,利用这些标签将用户形象具体化,从而形成个性化、针对性的风险检测机制显得尤为重要。
目前传统的数据风险检测方法大多基于规则匹配的方式,对数据使用、威胁、潜在风险趋势进行分析和告警。然而现有的数据风险检测方法以策略和规则为主,在一定数据量的基础上配置管理规则,应用到不同组织架构,结合部分黑白名单方式应用,属于更多偏于整体应用,极少以用户为单位进行针对性管控;同时该方法大多依靠规则匹配融合机器学习,结果注重威胁数量和趋势,技术手段只关注数据内容本身,不对具体场景进行风险,导致误报,从而导致数据风险检测的精准度较低。现亟需一种能够提高数据风险检测精准度的方法。
发明内容
本申请实施例的目的在于提出一种基于用户画像的数据风险检测方法、装置、设备及介质,以提高数据风险检测的精准度。
为了解决上述技术问题,本申请实施例提供一种基于用户画像的数据风险检测方法,包括:
获取应用系统上的传输数据,其中,所述传输数据中包括请求数据和响应数据;
基于所述请求数据和所述响应数据,构建用户访问数据链路;
采集所述用户访问数据链路上的用户数据,并对所述用户数据进行拆分处理,得到目标数据;
根据预设分类标签,构建所述目标数据对应的用户属性数据表,得到用户画像数据表;
基于预设维度,统计所述用户画像数据表中的用户行为数据,得到统计结果,并基于所述统计结果确认用户行为基线;
获取下一预设时间内的用户数据,作为基础数据,并基于所述用户行为基线获取所述基础数据中的风险用户,得到风险检测结果。
为了解决上述技术问题,本申请实施例提供一种基于用户画像的数据风险检测装置,包括:
传输数据获取模块,用于获取应用系统上的传输数据,其中,所述传输数据中包括请求数据和响应数据;
数据链路构建模块,用于基于所述请求数据和所述响应数据,构建用户访问数据链路;
目标数据生成模块,用于采集所述用户访问数据链路上的用户数据,并对所述用户数据进行拆分处理,得到目标数据;
用户数据表生成模块,用于根据预设分类标签,构建所述目标数据对应的用户属性数据表,得到用户画像数据表;
行为基线生成模块,用于基于预设维度,统计所述用户画像数据表中的用户行为数据,得到统计结果,并基于所述统计结果确认用户行为基线;
检测结果生成模块,用于获取下一预设时间内的用户数据,作为基础数据,并基于所述用户行为基线获取所述基础数据中的风险用户,得到风险检测结果。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种计算机设备,包括,一个或多个处理器;存储器,用于存储一个或多个程序,使得一个或多个处理器实现上述任意一项所述的基于用户画像的数据风险检测方法。
为解决上述技术问题,本发明采用的一个技术方案是:一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的基于用户画像的数据风险检测方法。
本发明实施例提供了一种基于用户画像的数据风险检测方法、装置、设备及介质。其中,方法包括:获取应用系统上的传输数据,其中,传输数据中包括请求数据和响应数据;基于请求数据和响应数据,构建用户访问数据链路;采集用户访问数据链路上的用户数据,并对用户数据进行拆分处理,得到目标数据;根据预设分类标签,构建目标数据对应的用户属性数据表,得到用户画像数据表;基于预设维度,统计用户画像数据表中的用户行为数据,得到统计结果,并基于统计结果确认用户行为基线;获取下一预设时间内的用户数据,作为基础数据,并基于用户行为基线获取基础数据中的风险用户,得到风险检测结果。本发明实施例通过获取传输数据,并构建用户访问数据链路,便于后续对分析用户进行数据追溯;然后在用户访问数据链路上采集用户数据,并对用户数据进行拆分处理,以获取目标数据,有利于提高数据处理的精度;同时构建用户画像数据表,再根据预设维度,确定目标数据中的用户行为基线,再基于用户行为基线进行判定风险用户,从而得到风险检测结果,实现了建立用户画像,对不同场景以及不同用户对应的用户数据进行精准分析,有利于数据风险检测的精准度。
附图说明
为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的基于用户画像的数据风险检测方法流程的一实现流程图;
图2是本申请实施例提供的基于用户画像的数据风险检测方法中子流程的又一实现流程图;
图3是本申请实施例提供的基于用户画像的数据风险检测方法中子流程的又一实现流程图;
图4是本申请实施例提供的基于用户画像的数据风险检测方法中子流程的又一实现流程图;
图5是本申请实施例提供的基于用户画像的数据风险检测方法中子流程的又一实现流程图;
图6是本申请实施例提供的基于用户画像的数据风险检测方法中子流程的又一实现流程图;
图7是本申请实施例提供的基于用户画像的数据风险检测方法中子流程的又一实现流程图;
图8是本申请实施例提供的基于用户画像的数据风险检测装置示意图;
图9是本申请实施例提供的计算机设备的示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了使本技术领域的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
下面结合附图和实施方式对本发明进行详细说明。
需要说明的是,本申请实施例所提供的基于用户画像的数据风险检测方法一般由服务器执行,相应地,基于用户画像的数据风险检测装置一般配置于服务器中。
请参阅图1,图1示出了基于用户画像的数据风险检测方法的一种具体实施方式。
需注意的是,若有实质上相同的结果,本发明的方法并不以图1所示的流程顺序为限,该方法包括如下步骤:
S1:获取应用系统上的传输数据,其中,传输数据中包括请求数据和响应数据。
具体的,通过在应用系统上预先部署插件,通过插件的方式实时获取应用系统上的传输数据。该插件以Java数据表的形式存在,当应用系统存在传输数据时,该插件获取所述传输数据。传输数据中包括请求信息对应的请求数据,以及基于请求信息应用系统所反馈的响应数据。该传输数据的数据源可以为传统的网络流量、安全设备告警、应用系统日志和威胁情报外,还可以通过部署插件获取应用系统访问日志,并与现有日志系统集成,如VPN日志、HR日志(岗位变动信息)、OA日志、工单日志等场景数据。
S2:基于请求数据和响应数据,构建用户访问数据链路。
具体的,在用户的应用访问过程中,会对应用系统服务产生访问行为,访问服务过程会先发起请求获取服务器返回的响应内容,也即在该过程中会产生请求数据和响应数据,该数据在请求和服务调用的过程中流经相关的应用服务、接口、数据库等节点,形成数据链路。本申请实施例将请求数据和响应数据所流经的节点进行标记,得到标记节点,根据请求数据和响应数据对应的请求或响应的先后顺序,将标记节点进行串联,以构建用户访问数据链路。
请参阅图2,图2示出了步骤S2的一种具体实施方式,详叙如下:
S21:将请求数据和响应数据所流经的节点进行标记,得到标记节点。
S22:根据请求数据和响应数据对应的请求或响应的先后顺序,将标记节点进行串联,以构建用户访问数据链路。
具体的,由于在请求数据和响应数据的生成过程中,会通过请求信息和响应信息流经不同的节点,该节点包括不同的应用服务、接口数据库等节点。所以将请求数据和响应数据所流经的节点进行标记,得到标记节点。由于数据流经不同的标记节点的顺序不同,存在先后的相邻两个节点分为父节点和子节点。在本申请实施例中根据请求数据和响应数据对应的请求或响应的先后顺序,将标记节点进行串联,以构建用户访问数据链路。通过构建用户访问数据链路,便于后续对风险用户进行数据溯源。
S3:采集用户访问数据链路上的用户数据,并对用户数据进行拆分处理,得到目标数据。
具体的,由于在应用系统上预先部署了插件,该插件同样部署在用户访问数据链路每个节点上,所以通过该插件采集用户访问数据链路上的用户数据,再对用户数据进行拆分处理,得到目标数据。
请参阅图3,图3示出了步骤S3的一种具体实施方式,详叙如下:
S31:通过预先部署在用户访问数据链路上的插件,采集用户访问数据链路上的用户数据。
S32:通过正则匹配的方式,对用户数据进行匹配处理。
S33:将匹配的用户数据作为待处理数据,将不匹配的用户数据进行删除。
S34:对待处理数据进行拆分处理,以删除待处理数据对应的无效内容,得到目标数据。
具体的,由于用户数据中存在大量数据,为了减少冗余数据,减少服务器负载,需要将用户数据中无法体现用户特征的数据进行清理。所以本申请实施例通过预先构造匹配项,通过正则匹配的方式,对用户数据进行匹配处理,将匹配的用户数据作为待处理数据,将不匹配的用户数据进行删除。为了进一步,减少冗余数据,对待处理数据进行拆分处理,以删除待处理数据对应的无效内容,仅保留用户数据中的响应接口和值信息,该无效内容包括连接协议、状态数据等,从而得到目标数据,并将目标数据存储于数据库中,便于后续构建用户画像数据表。
S4:根据预设分类标签,构建目标数据对应的用户属性数据表,得到用户画像数据表。
具体的,预设分类标签可以为不同人域、业务域以及组织域等。人域是指用户的个人信息;业务域是指按照不同的业务信息,如财务、销售等业务;组织域是指不同的组织,如不同企业、不同部门等。本申请实施例,根据预设分类标签,构建目标数据对应的用户属性数据表,得到用户画像数据表。
请参阅图4,图4示出了步骤S4的一种具体实施方式,详叙如下:
S41:获取预设分类标签,并从目标数据中获取每一预设分类标签对应的数据,作为标签数据。
S42:构建标签数据中的用户属性数据表,得到用户画像数据表。
具体的,获取预设分类标签,并从目标数据中获取每一预设分类标签对应的数据,作为标签数据,提取标签数据中用户属性,构建用户属性标签,从而审查用户画像数据表。在用户画像数据表中,将预设分类标签作为表头,也即将用户ID、业务ID或组织ID作为用户画像数据表的表头,其他用户属性作为数据表中其他信息。进一步的,可以将用户画像数据表构建成类词汇表和属性词汇表,用户分析用户本体,降低数据冗余,从而保证涉及域的完整性。其中,类词汇表是依据不同用户ID、业务ID或组织ID所形成的数据表;属性词汇表是依据不同属性所形成的数据表,该属性为预设分类标签对应的属性,其可以为性别、地域、收入等等。
S5:基于预设维度,统计用户画像数据表中的用户行为数据,得到统计结果,并基于统计结果确认用户行为基线。
具体的,预设维度可以为登录、访问、操作等维度。
请参阅图5,图5示出了步骤S5的一种具体实施方式,详叙如下:
S51:统计用户画像数据表中每一预设维度的用户行为数据,得到统计结果。
S52:获取用户数据生成时间,并根据用户数据生成时间和统计结果,确定历史基线。
S53:采用加权求和的方式,对用户画像数据表中的标签属性进行计算处理,得到设定值,并将设定值和历史基线作为用户行为基线。
具体的,在获取一定时间内用户数据后,并构建好用户画像数据表后,对该时间的用户数据,统计用户画像数据表中每一预设维度的用户行为数据,得到统计结果,再获取用户数据所生成的时间,也即用户数据生成时间,然后根据用户数据生成时间和统计结果,确定历史基线。例如一个月内用户a,登录应用SERVER1总计为60次,那么认为该用户日均登录指数为2,则该用户的历史基线为2。其他的访问操作可通过此类方法确定,最终通过登录、访问、操作等维度确定历史基线。然后,对不同的用户标签属性赋予预设权重,采用加权求和的方式,对用户画像数据表中的标签属性进行计算处理,得到设定值,并将设定值和历史基线作为用户行为基线。标签属性包括但不限于用户登录账号、访问频次(单日、3日等)、应用系统类型、访问数据类型、访问数据级别等。
S6:获取下一预设时间内的用户数据,作为基础数据,并基于用户行为基线获取基础数据中的风险用户,得到风险检测结果。
具体的,上述步骤已经确定了不同的用户行为基线,所以在获取新增用户数据进行判断风险用户,得到风险检测结果。
请参阅图6,图6示出了步骤S6的一种具体实施方式,详叙如下:
S61:获取下一预设时间内的用户数据,作为基础数据。
S62:基于预设维度,统计基础数据表中用户行为数据,得到对比数据。
S63:计算对比数据与历史基线的偏离比率,并将偏离比率与预设值进行对比,得到对比结果。
S64:基于对比结果,获取基础数据中的初始风险用户,并获取初始风险用户对应的标签属性,作为目标标签属性;
S65:基于目标标签属性与目标标签属性对应的设定值,确定初始风险用户中的风险用户,得到风险检测结果。
具体的,获取下一预设时间内的用户数据,作为基础数据,并基于预设维度,统计基础数据中用户行为数据,得到对比数据,将对比数据与对应的历史基线进行对比计算,获取偏离比率,并将偏离比率与预设值进行判断,若偏离比率等于或高于预设值,则将该数据对应的用户作为初始风险用户。例如用户a在下一个月时间内,登录应用SERVER1总计为90次,那么该用户日均登录指数为3,也即对比数据为3,而该历史基线为2,则其偏离比率为50%,若预设值为30%,也就偏离比率高于预设值,则将用户a作为初始风险用户。然后获取初始风险用户对应的标签属性,作为目标标签属性,并采用上述步骤S53相同的计算方式,也即采用加权求和的方式,计算目标标签属性对应的设定值,得到目标设定值,并将目标设定值与对应的设定值进行对比,得到目标偏离比率,若目标偏离比率与预设比率值进行比较,若目标偏离比率等于或高于预设比率值,则将该初始风险用户作为风险用户,该风险用户的行为数据作为风险数据,从而得到风险检测结果。例如用户访问过程中,通常访问的数据字段条目在100左右(设定值为100),则认为数据字段条条母的指数(设定值)为100,用户访问过程中一定会出现与相应定义标准偏离情况,可自主设定预设比率值,如30%以内,则认为是正常操作;如果用户数据访问过程中访问的应用、数据内容与设定值超过30%,且访问频率较高,与历史行为不符合,则定义为风险数据,则将对应用户作为风险用户。
请参阅图7,图7示出了步骤S6之后的一种具体实施方式,详叙如下:
S6A:基于风险检测结果,生成告警信息,并将告警信息反馈至用户终端。
S6B:基于风险检测结果,对风险用户进行标记,以添加风险用户对应的用户属性。
S6C:基于风险用户对应的用户属性将用户画像数据表进行更新。
具体的,风险检测结果中包括风险用户和风险用户对应的行为数据。本申请实施例,根据风险检测结果生成对应的告警信息,并将告警信息反馈至用户终端,从而对用户终端进行警示。同时对存在风险数据的对应用户进行标记,以添加该用户具备风险属性的用户属性,然后基于风险用户对应的用户属性将用户画像数据表进行更新。
本实施例,获取应用系统上的传输数据,其中,传输数据中包括请求数据和响应数据;基于请求数据和响应数据,构建用户访问数据链路;采集用户访问数据链路上的用户数据,并对用户数据进行拆分处理,得到目标数据;根据预设分类标签,构建目标数据对应的用户属性数据表,得到用户画像数据表;基于预设维度,统计用户画像数据表中的用户行为数据,得到统计结果,并基于统计结果确认用户行为基线;获取下一预设时间内的用户数据,作为基础数据,并基于用户行为基线获取基础数据中的风险用户,得到风险检测结果。本发明实施例通过获取传输数据,并构建用户访问数据链路,便于后续对分析用户进行数据追溯;然后在用户访问数据链路上采集用户数据,并对用户数据进行拆分处理,以获取目标数据,有利于提高数据处理的精度;同时根据预设维度,确定目标数据中的用户行为基线,再基于用户行为基线进行判定风险用户,从而得到风险检测结果,实现了建立用户画像,对不同场景以及不同用户对应的用户数据进行精准分析,有利于数据风险检测的精准度。
请参考图8,作为对上述图1所示方法的实现,本申请提供了一种基于用户画像的数据风险检测装置的一个实施例,该装置实施例与图1所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图8所示,本实施例的基于用户画像的数据风险检测装置包括:传输数据获取模块71、数据链路构建模块72、目标数据生成模块73、用户数据表生成模块74、行为基线生成模块75及检测结果生成模块76,其中:
传输数据获取模块71,用于获取应用系统上的传输数据,其中,传输数据中包括请求数据和响应数据;
数据链路构建模块72,用于基于请求数据和响应数据,构建用户访问数据链路;
目标数据生成模块73,用于采集用户访问数据链路上的用户数据,并对用户数据进行拆分处理,得到目标数据;
用户数据表生成模块74,用于根据预设分类标签,构建目标数据对应的用户属性数据表,得到用户画像数据表;
行为基线生成模块75,用于基于预设维度,统计用户画像数据表中的用户行为数据,得到统计结果,并基于统计结果确认用户行为基线;
检测结果生成模块76,用于获取下一预设时间内的用户数据,作为基础数据,并基于用户行为基线获取基础数据中的风险用户,得到风险检测结果。
进一步的,数据链路构建模块72包括:
标记节点生成单元,用于将请求数据和响应数据所流经的节点进行标记,得到标记节点;
节点串联单元,用于根据请求数据和响应数据对应的请求或响应的先后顺序,将标记节点进行串联,以构建用户访问数据链路。
进一步的,目标数据生成模块73包括:
用户数据采集单元,用于通过预先部署在用户访问数据链路上的插件,采集用户访问数据链路上的用户数据;
匹配处理单元,用于通过正则匹配的方式,对用户数据进行匹配处理;
数据删除单元,用于将匹配的用户数据作为待处理数据,将不匹配的用户数据进行删除;
数据拆分单元,用于对待处理数据进行拆分处理,以删除待处理数据对应的无效内容,得到目标数据。
进一步的,用户数据表生成模块74包括:
标签数据生成单元,用于获取预设分类标签,并从目标数据中获取每一预设分类标签对应的数据,作为标签数据;
数据表构建单元,用于构建标签数据中的用户属性数据表,得到用户画像数据表。
进一步的,行为基线生成模块75包括:
数据统计单元,用于统计用户画像数据表中每一预设维度的用户行为数据,得到统计结果;
历史基线确定单元,用于获取用户数据生成时间,并根据用户数据生成时间和统计结果,确定历史基线。
计算处理单元,用于采用加权求和的方式,对用户画像数据表中的标签属性进行计算处理,得到设定值,并将设定值和历史基线作为用户行为基线。
进一步的,检测结果生成模块76包括:
基础数据获取单元,用于获取下一预设时间内的用户数据,作为基础数据;
对比数据生成单元,用于基于预设维度,统计基础数据中用户行为数据,得到对比数据;
对比结果生成单元,用于计算对比数据与用户行为基线的偏离比率,并将偏离比率与预设值进行对比,得到对比结果;
标签属性获取单元,用于风险用户获取单元,用于基于对比结果,获取基础数据中的初始风险用户,并获取初始风险用户对应的标签属性,作为目标标签属性;
风险用户确定单元,用于基于目标标签属性与目标标签属性对应的设定值,确定初始风险用户中的风险用户,得到风险检测结果。
检测结果生成模块76之后还包括:
告警信息生成模块,用于基于风险检测结果,生成告警信息,并将告警信息反馈至用户终端;
用户属性增加模块,用于基于风险检测结果,对风险用户进行标记,以添加风险用户对应的用户属性;
数据表更新模块,用于基于风险用户对应的用户属性将用户画像数据表进行更新。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图9,图9为本实施例计算机设备基本结构框图。
计算机设备8包括通过系统总线相互通信连接存储器81、处理器82、网络接口83。需要指出的是,图中仅示出了具有三种组件存储器81、处理器82、网络接口83的计算机设备8,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器 (Digital Signal Processor,DSP)、嵌入式设备等。
计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
存储器81至少包括一种类型的可读存储介质,可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器81可以是计算机设备8的内部存储单元,例如该计算机设备8的硬盘或内存。在另一些实施例中,存储器81也可以是计算机设备8的外部存储设备,例如该计算机设备8上配备的插接式硬盘,智能存储卡(SmartMedia Card, SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)等。当然,存储器81还可以既包括计算机设备8的内部存储单元也包括其外部存储设备。本实施例中,存储器81通常用于存储安装于计算机设备8的操作系统和各类应用软件,例如基于用户画像的数据风险检测方法的程序代码等。此外,存储器81还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器82在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器82通常用于控制计算机设备8的总体操作。本实施例中,处理器82用于运行存储器81中存储的程序代码或者处理数据,例如运行上述基于用户画像的数据风险检测方法的程序代码,以实现基于用户画像的数据风险检测方法的各种实施例。
网络接口83可包括无线网络接口或有线网络接口,该网络接口83通常用于在计算机设备8与其他电子设备之间建立通信连接。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序可被至少一个处理器执行,以使至少一个处理器执行如上述的一种基于用户画像的数据风险检测方法的步骤。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例的方法。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。
Claims (7)
1.一种基于用户画像的数据风险检测方法,其特征在于,包括:
获取应用系统上的传输数据,其中,所述传输数据中包括请求数据和响应数据;
基于所述请求数据和所述响应数据,构建用户访问数据链路;
采集所述用户访问数据链路上的用户数据,并对所述用户数据进行拆分处理,得到目标数据;
获取预设分类标签,并从所述目标数据中获取每一所述预设分类标签对应的数据,作为标签数据,其中,所述预设分类标签包括人域、业务域以及组织域;
提取所述标签数据中的用户属性,并基于所述用户属性,构建所述标签数据中的用户属性数据表,得到用户画像数据表,其中,所述用户画像数据表分为类词汇表和属性词汇表,所述类词汇表依据不同用户ID、业务ID或组织ID所形成的数据表,所述属性词汇表是依据不同所述预设分类标签对应的属性所形成的数据表;
统计所述用户画像数据表中每一预设维度的用户行为数据,得到统计结果;
获取用户数据生成时间,并根据所述用户数据生成时间和所述统计结果,确定历史基线;
采用加权求和的方式,对所述用户画像数据表中的标签属性进行计算处理,得到设定值,并将所述设定值和所述历史基线作为用户行为基线;
获取下一预设时间内的用户数据,作为基础数据;
基于所述预设维度,统计所述基础数据中的用户行为数据,得到对比数据;
计算所述对比数据与所述用户行为基线的偏离比率,并将所述偏离比率与预设值进行对比,得到对比结果;
基于所述对比结果,获取所述基础数据中的初始风险用户,并获取所述初始风险用户对应的标签属性,作为目标标签属性;
基于所述目标标签属性与所述目标标签属性对应的设定值,确定所述初始风险用户中的风险用户,得到风险检测结果。
2.根据权利要求1所述的基于用户画像的数据风险检测方法,其特征在于,所述基于所述请求数据和所述响应数据,构建用户访问数据链路,包括:
将所述请求数据和所述响应数据所流经的节点进行标记,得到标记节点;
根据所述请求数据和所述响应数据对应的请求或响应的先后顺序,将所述标记节点进行串联,以构建用户访问数据链路。
3.根据权利要求1所述的基于用户画像的数据风险检测方法,其特征在于,所述采集所述用户访问数据链路上的用户数据,并对所述用户数据进行拆分处理,得到目标数据,包括:
通过预先部署在所述用户访问数据链路上的插件,采集所述用户访问数据链路上的用户数据;
通过正则匹配的方式,对所述用户数据进行匹配处理;
将匹配的用户数据作为待处理数据,将不匹配的用户数据进行删除;
对所述待处理数据进行拆分处理,以删除所述待处理数据对应的无效内容,得到所述目标数据。
4.根据权利要求1至3任一项所述的基于用户画像的数据风险检测方法,其特征在于,所述获取下一预设时间内的用户数据,作为基础数据,并基于所述用户行为基线获取所述基础数据中的风险用户,得到风险检测结果之后,所述方法还包括:
基于所述风险检测结果,生成告警信息,并将所述告警信息反馈至用户终端;
基于所述风险检测结果,对所述风险用户进行标记,以添加风险用户对应的用户属性;
基于所述风险用户对应的用户属性将所述用户画像数据表进行更新。
5.一种基于用户画像的数据风险检测装置,其特征在于,包括:
传输数据获取模块,用于获取应用系统上的传输数据,其中,所述传输数据中包括请求数据和响应数据;
数据链路构建模块,用于基于所述请求数据和所述响应数据,构建用户访问数据链路;
目标数据生成模块,用于采集所述用户访问数据链路上的用户数据,并对所述用户数据进行拆分处理,得到目标数据;
标签数据生成模块,用于获取预设分类标签,并从所述目标数据中获取每一所述预设分类标签对应的数据,作为标签数据,其中,所述预设分类标签包括人域、业务域以及组织域;
数据表构建模块,用于提取所述标签数据中的用户属性,并基于所述用户属性,构建所述标签数据中的用户属性数据表,得到用户画像数据表,其中,所述用户画像数据表分为类词汇表和属性词汇表,所述类词汇表依据不同用户ID、业务ID或组织ID所形成的数据表,所述属性词汇表是依据不同所述预设分类标签对应的属性所形成的数据表;
数据统计模块,用于统计所述用户画像数据表中每一预设维度的用户行为数据,得到统计结果;
历史基线确定模块,用于获取用户数据生成时间,并根据所述用户数据生成时间和所述统计结果,确定历史基线;
计算处理模块,用于采用加权求和的方式,对所述用户画像数据表中的标签属性进行计算处理,得到设定值,并将所述设定值和所述历史基线作为用户行为基线;
基础数据获取模块,用于获取下一预设时间内的用户数据,作为基础数据;
对比数据生成单元,用于基于所述预设维度,统计所述基础数据中的用户行为数据,得到对比数据;
对比结果生成模块,用于计算所述对比数据与所述用户行为基线的偏离比率,并将所述偏离比率与预设值进行对比,得到对比结果;
标签属性获取模块,用于基于所述对比结果,获取所述基础数据中的初始风险用户,并获取所述初始风险用户对应的标签属性,作为目标标签属性;
风险用户确定模块,用于基于所述目标标签属性与所述目标标签属性对应的设定值,确定所述初始风险用户中的风险用户,得到风险检测结果。
6.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述的基于用户画像的数据风险检测方法。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述的基于用户画像的数据风险检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210745178.3A CN114817377B (zh) | 2022-06-29 | 2022-06-29 | 基于用户画像的数据风险检测方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210745178.3A CN114817377B (zh) | 2022-06-29 | 2022-06-29 | 基于用户画像的数据风险检测方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114817377A CN114817377A (zh) | 2022-07-29 |
CN114817377B true CN114817377B (zh) | 2022-09-20 |
Family
ID=82523362
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210745178.3A Active CN114817377B (zh) | 2022-06-29 | 2022-06-29 | 基于用户画像的数据风险检测方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114817377B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118211201B (zh) * | 2024-05-21 | 2024-07-30 | 国网思极网安科技(北京)有限公司 | 基于用户行为画像的风险识别方法、装置、设备和介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111565390A (zh) * | 2020-07-16 | 2020-08-21 | 深圳市云盾科技有限公司 | 一种基于设备画像的物联网设备风险控制方法及系统 |
CN111737320A (zh) * | 2020-06-30 | 2020-10-02 | 中国平安财产保险股份有限公司 | 群体用户行为基线的建立方法、装置和计算机设备 |
CN112116273A (zh) * | 2020-09-28 | 2020-12-22 | 中国建设银行股份有限公司 | 一种员工查询行为风险监测方法、装置、设备及存储介质 |
CN112580089A (zh) * | 2019-09-30 | 2021-03-30 | 奇安信安全技术(珠海)有限公司 | 信息泄露的预警方法及装置、系统、存储介质、电子装置 |
CN112965973A (zh) * | 2021-02-10 | 2021-06-15 | 中国工商银行股份有限公司 | 基于全链路监控的分布式数据库监控方法及装置 |
CN113283759A (zh) * | 2021-05-31 | 2021-08-20 | 平安科技(深圳)有限公司 | 账户风险画像更新方法、装置、设备及存储介质 |
CN113297582A (zh) * | 2021-06-20 | 2021-08-24 | 刘忠辉 | 基于信息安全大数据的安全画像生成方法及大数据系统 |
CN114331698A (zh) * | 2021-12-30 | 2022-04-12 | 杭州一谷科技有限公司 | 风险画像的生成方法、装置、终端及存储介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101170469B (zh) * | 2007-12-04 | 2010-11-10 | 华为技术有限公司 | 注册信息处理方法、数据处理装置与系统 |
JP2015050759A (ja) * | 2013-09-05 | 2015-03-16 | 株式会社日立製作所 | トラヒック制御方法およびトラヒック制御装置 |
US20190188614A1 (en) * | 2017-12-14 | 2019-06-20 | Promontory Financial Group Llc | Deviation analytics in risk rating systems |
US20190205926A1 (en) * | 2017-12-29 | 2019-07-04 | Oath Inc. | Method and system for detecting fraudulent user-content provider pairs |
CN113763057B (zh) * | 2020-05-28 | 2024-05-14 | 北京金山云网络技术有限公司 | 用户身份画像的数据处理方法和装置 |
CN113326426A (zh) * | 2020-11-17 | 2021-08-31 | 崔海燕 | 基于大数据定位和人工智能的信息推送方法及系统 |
CN113434763B (zh) * | 2021-06-28 | 2022-10-14 | 平安科技(深圳)有限公司 | 搜索结果的推荐理由生成方法、装置、设备及存储介质 |
-
2022
- 2022-06-29 CN CN202210745178.3A patent/CN114817377B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112580089A (zh) * | 2019-09-30 | 2021-03-30 | 奇安信安全技术(珠海)有限公司 | 信息泄露的预警方法及装置、系统、存储介质、电子装置 |
CN111737320A (zh) * | 2020-06-30 | 2020-10-02 | 中国平安财产保险股份有限公司 | 群体用户行为基线的建立方法、装置和计算机设备 |
CN111565390A (zh) * | 2020-07-16 | 2020-08-21 | 深圳市云盾科技有限公司 | 一种基于设备画像的物联网设备风险控制方法及系统 |
CN112116273A (zh) * | 2020-09-28 | 2020-12-22 | 中国建设银行股份有限公司 | 一种员工查询行为风险监测方法、装置、设备及存储介质 |
CN112965973A (zh) * | 2021-02-10 | 2021-06-15 | 中国工商银行股份有限公司 | 基于全链路监控的分布式数据库监控方法及装置 |
CN113283759A (zh) * | 2021-05-31 | 2021-08-20 | 平安科技(深圳)有限公司 | 账户风险画像更新方法、装置、设备及存储介质 |
CN113297582A (zh) * | 2021-06-20 | 2021-08-24 | 刘忠辉 | 基于信息安全大数据的安全画像生成方法及大数据系统 |
CN114331698A (zh) * | 2021-12-30 | 2022-04-12 | 杭州一谷科技有限公司 | 风险画像的生成方法、装置、终端及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114817377A (zh) | 2022-07-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111343161B (zh) | 异常信息处理节点分析方法、装置、介质及电子设备 | |
US20190311114A1 (en) | Man-machine identification method and device for captcha | |
CN113326991B (zh) | 自动授权方法、装置、计算机设备及存储介质 | |
CN107862425B (zh) | 风控数据采集方法、设备、系统及可读存储介质 | |
CN110148053B (zh) | 用户信贷额度评估方法、装置、电子设备和可读介质 | |
CN112394908A (zh) | 埋点页面自动生成的方法、装置、计算机设备及存储介质 | |
CN113657547B (zh) | 基于自然语言处理模型的舆情监测方法及其相关设备 | |
CN111813960A (zh) | 基于知识图谱的数据安全审计模型装置、方法及终端设备 | |
CN111708938A (zh) | 用于信息处理的方法、装置、电子设备和存储介质 | |
CN114493255A (zh) | 基于知识图谱的企业异常监控方法及其相关设备 | |
CN112819611A (zh) | 欺诈识别方法、装置、电子设备和计算机可读存储介质 | |
CN111696656B (zh) | 一种互联网医疗平台的医生评价方法、装置 | |
CN114817377B (zh) | 基于用户画像的数据风险检测方法、装置、设备及介质 | |
CN115329381A (zh) | 基于敏感数据的分析预警方法、装置、计算机设备及介质 | |
CN114528457A (zh) | Web指纹检测方法及相关设备 | |
CN115577701A (zh) | 针对大数据安全的风险行为识别方法、装置、设备及介质 | |
CN113987190A (zh) | 一种数据质量校验规则提取方法及系统 | |
CN115936895A (zh) | 基于人工智能的风险评估方法、装置、设备及存储介质 | |
CN108768742B (zh) | 网络构建方法及装置、电子设备、存储介质 | |
Lee et al. | Detecting anomaly teletraffic using stochastic self-similarity based on Hadoop | |
CN115099875A (zh) | 基于决策树模型的数据分类方法及相关设备 | |
CN114090407A (zh) | 基于线性回归模型的接口性能预警方法及其相关设备 | |
CN112084408A (zh) | 名单数据筛选方法、装置、计算机设备及存储介质 | |
CN117834286B (zh) | 一种基于互信息法特征选择的sql注入攻击检测方法、系统、设备及可读存储介质 | |
CN115269879B (zh) | 知识结构数据的生成方法、数据搜索方法和风险告警方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |