CN114417397A - 行为画像的构建方法、装置、存储介质及计算机设备 - Google Patents

行为画像的构建方法、装置、存储介质及计算机设备 Download PDF

Info

Publication number
CN114417397A
CN114417397A CN202111543838.1A CN202111543838A CN114417397A CN 114417397 A CN114417397 A CN 114417397A CN 202111543838 A CN202111543838 A CN 202111543838A CN 114417397 A CN114417397 A CN 114417397A
Authority
CN
China
Prior art keywords
behavior data
behavior
user
data
piece
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111543838.1A
Other languages
English (en)
Inventor
王一淞
王力
段婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Serval Technology Co ltd
Original Assignee
Hangzhou Serval Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Serval Technology Co ltd filed Critical Hangzhou Serval Technology Co ltd
Priority to CN202111543838.1A priority Critical patent/CN114417397A/zh
Publication of CN114417397A publication Critical patent/CN114417397A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9035Filtering based on additional data, e.g. user or group profiles

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Storage Device Security (AREA)

Abstract

本发明公开了一种行为画像的构建方法、装置、存储介质及计算机设备,涉及信息技术领域,主要在于能够提高行为画像构建的安全度,降低用户隐私信息泄露的风险。其中方法包括:获取用户在操作终端所产生的各条行为数据;分别判断所述各条行为数据中是否包含所述用户的隐私信息;若包含所述隐私信息,则将所述各条行为数据中的所述隐私信息排除,得到排除后的各条行为数据;基于预设目标数据筛选规则,在所述排除后的各条行为数据中筛选出目标行为数据,并基于所述目标行为数据,构建所述用户对应的行为画像。本发明适用于对行为画像进行构建。

Description

行为画像的构建方法、装置、存储介质及计算机设备
技术领域
本发明涉及信息技术领域,尤其是涉及一种行为画像的构建方法、装置、存储介质及计算机设备。
背景技术
检查内网异常是网络安全管控人员的日常工作任务,内网用户的行为画像是协助网络安全管控人员检查的一个重要指标,基于此,在网络安全检查的过程中,构建用户行为画像成为亟待解决的问题。
目前,通常基于用户行为数据直接构建用户行为画像。然而,参与计算行为画像的数据通常包含了用户大量的隐私信息,因此,这种方式构建的行为画像在展示过程中存在较大的信息泄露风险,导致用户行为画像构建的安全度较低。
发明内容
本发明提供了一种行为画像的构建方法、装置、存储介质及计算机设备,主要在于能够提高行为画像构建的安全度,降低用户隐私信息泄露的风险。
根据本发明的第一个方面,提供一种行为画像的构建方法,包括:
获取用户在操作终端所产生的各条行为数据;
分别判断所述各条行为数据中是否包含所述用户的隐私信息;
若包含所述隐私信息,则将所述各条行为数据中的所述隐私信息排除,得到排除后的各条行为数据;
基于预设目标数据筛选规则,在所述排除后的各条行为数据中筛选出目标行为数据,并基于所述目标行为数据,构建所述用户对应的行为画像。
根据本发明的第二个方面,提供一种行为画像的构建装置,包括:
获取单元,用于获取用户在操作终端所产生的各条行为数据;
判断单元,用于分别判断所述各条行为数据中是否包含所述用户的隐私信息;
排除单元,用于若包含所述隐私信息,则将所述各条行为数据中的所述隐私信息排除,得到排除后的各条行为数据;
构建单元,用于基于预设目标数据筛选规则,在所述排除后的各条行为数据中筛选出目标行为数据,并基于所述目标行为数据,构建所述用户对应的行为画像。
根据本发明的第三个方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:
获取用户在操作终端所产生的各条行为数据;
分别判断所述各条行为数据中是否包含所述用户的隐私信息;
若包含所述隐私信息,则将所述各条行为数据中的所述隐私信息排除,得到排除后的各条行为数据;
基于预设目标数据筛选规则,在所述排除后的各条行为数据中筛选出目标行为数据,并基于所述目标行为数据,构建所述用户对应的行为画像。
根据本发明的第四个方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:
获取用户在操作终端所产生的各条行为数据;
分别判断所述各条行为数据中是否包含所述用户的隐私信息;
若包含所述隐私信息,则将所述各条行为数据中的所述隐私信息排除,得到排除后的各条行为数据;
基于预设目标数据筛选规则,在所述排除后的各条行为数据中筛选出目标行为数据,并基于所述目标行为数据,构建所述用户对应的行为画像。
根据本发明提供的一种行为画像的构建方法、装置、存储介质及计算机设备,与目前基于用户行为数据直接构建用户行为画像的方式相比,本发明通过获取用户在操作终端所产生的各条行为数据;并分别判断所述各条行为数据中是否包含所述用户的隐私信息;若包含所述隐私信息,则将所述各条行为数据中的所述隐私信息排除,得到排除后的各条行为数据;最终基于预设目标数据筛选规则,在所述排除后的各条行为数据中筛选出目标行为数据,并基于所述目标行为数据,构建所述用户对应的行为画像,由此通过将各条行为数据中的敏感信息排除,得到排除后的各条行为数据,并基于预设目标数据筛选规则,在所述排除后的各条行为数据筛选出目标行为数据,最终基于所述目标行为数据,构建用户对应的行为画像,能够避免行为画像在展示的过程中用户隐私信息泄露的风险,从而提高了行为画像的构建安全度。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了本发明实施例提供的一种行为画像的构建方法流程图;
图2示出了本发明实施例提供的一种终端软件传感器的系统架构图;
图3示出了本发明实施例提供的一种本地硬件分析平台的系统架构图;
图4示出了本发明实施例提供的另一种行为画像的构建方法流程图;
图5示出了本发明实施例提供的一种行为画像的构建装置的结构示意图;
图6示出了本发明实施例提供的另一种行为画像的构建装置的结构示意图;
图7示出了本发明实施例提供的一种计算机设备的实体结构示意图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
目前,基于用户行为数据直接构建用户行为画像的方式,构建的行为画像在展示过程中存在较大的信息泄露风险,导致用户行为画像的构建安全度较低。
为了解决上述问题,本发明实施例提供了一种行为画像的构建方法,如图1所示,所述方法包括:
101、获取用户在操作终端所产生的各条行为数据。
其中,各条行为数据的种类可以不同,各条行为数据具体可以包括视频类行为数据、游戏类行为数据和网络攻击类行为数据等。
对于本发明实施例,为了克服现有技术中行为画像构建的安全度,存在用户隐私信息泄露的风险,本发明实施例通过将各条行为数据中的敏感信息排除,得到排除后的各条行为数据,并基于预设目标数据筛选规则,在所述排除后的各条行为数据筛选出目标行为数据,最终基于所述目标行为数据,构建用户对应的行为画像,能够避免行为画像在展示的过程中用户隐私信息泄露的风险,从而提高了行为画像构建的安全度。本发明实施例主要应用于对行为画像进行构建的场景,本发明实施例的执行主体为能够对行为画像进行构建的装置或者设备,具体可以设置在客户端或者服务器一侧。
具体地,可以在操作终端安装终端软件传感器,所述终端软件传感器可以包括内核态驱动程序,也可以包括用户态服务框架,所述用户态服务框架可以处理一些轻量级的文件数据等,但是为了保障数据获取的完整度,同时避免获取的数据存在泄露的风险,可以优先选择内核态驱动程序,与此同时,所述终端软件传感器还可以同时包括用户态服务框架和内核态驱动程序,若所述终端软件传感器还可以同时包括用户态服务框架和内核态驱动程序,则获取各条行为数据的过程为,如图2所示,内核态驱动程序主要负责采集用户在操作终端所产生的操作进程、文件、网络流量等各条行为数据,并实现完整性校验与自我保护,用户态服务框架主要负责接收由内核态驱动程序所采集的各条行为数据,并对其进行解析、加密等操作,之后用户态服务框架将接收的各条行为数据传输至本地硬件分析平台,在所述本地硬件分词平台中判断所述各条行为数据中是否包含用户的隐私信息,若包含所述用户的隐私信息,则分别将所述各条行为数据中的所述隐私信息排除,得到排除后的各条行为数据,并基于所述预设目标数据筛选规则,在所述排除后的各条行为数据中筛选出目标行为数据,并基于所述目标行为数据,构建所述用户对应的行为画像,由此能够避免用户隐私信息泄露的风险。
102、分别判断所述各条行为数据中是否包含所述用户的隐私信息。
其中,隐私信息包括计算机账号、MAC地址、电话号码、邮箱地址、银行卡号码等信息。
对于本发明实施例,内核态驱动程序获取用户在操作终端所述产生的各条行为数据后,将所述各条行为数据传输至用户态服务框架,为了避免传输过程中数据的泄露,用户态服务框架对所述各条行为数据进行打包、加密,并将打包加密后的各条行为数据传输至本地硬件分析平台,其中,本地硬件分析平台位于用户的内网环境,如图3所示,每套硬件分析平台负责管理一个子网段内的所有终端设备,分析平台之间可以形成级联结构,从功能上说,硬件分析平台可汇总其下所有终端设备或下级平台所产生的行为数据,同时,本地硬件分析平台包括本地数据中心模块,所述本地数据中心模块主要执行各条行为数据存取、访问审计、灾难备份等,具体地,为了避免用户隐私泄露的风险,本地硬件分析平台需要判断所述各条行为数据中是否包含用户的隐私信息,若包含用户的隐私信息,则需要分别将所述各条行为数据中的所述隐私信息排除,得到排除后的各条行为数据,最终基于预设目标数据筛选规则,在所述排除后的各条行为数据中筛选出目标行为数据,并基于所述目标行为数据,构建所述用户对应的行为画像,提高了行为画像构建的安全度,降低用户隐私信息泄露的风险。
103、若包含所述隐私信息,则将所述各条行为数据中的所述隐私信息排除,得到排除后的各条行为数据。
对于本发明实施例,若所述各条行为数据中包含用户的计算机账号、MAC地址、电话号码、银行卡号等隐私信息,则分别将所述各条行为数据中的所述隐私信息排除,得到排除后的各条行为数据,即不包含用户隐私信息的各条行为数据,之后根据预设目标数据筛选规则,在所述各条行为数据中筛选出目标行为数据,最终基于所述目标行为数据,构建用户对应的行为画像,提高了行为画像构建的安全度。
104、基于预设目标数据筛选规则,在所述排除后的各条行为数据中筛选出目标行为数据,并基于所述目标行为数据,构建所述用户对应的行为画像。
其中,预设目标数据筛选规则是基于需要的行为画像预先构建的规则,所述预设目标数据筛选规则中记录有规则数据,例如,若需要构建用户对应的违规影视终端画像,则所述规则数据包括观看影视的各种APP名称,预设观看时长、预设耗费流量等。
对于本发明实施例,在将所述各条行为数据中的敏感信息排除后,基于所述预设目标数据筛选规则中的记录的规则数据,在所述排除后的各条行为数据中筛选出目标行为数据,并基于所述目标行为数据,构建所述用户对应的行为画像,避免了行为画像在展示的过程中用户隐私信息泄露的风险,从而提高了行为画像构建的安全度。
根据本发明提供的一种行为画像的构建方法,与目前基于用户行为数据直接构建用户行为画像的方式相比,本发明通过获取用户在操作终端所产生的各条行为数据;并分别判断所述各条行为数据中是否包含所述用户的隐私信息;若包含所述隐私信息,则将所述各条行为数据中的所述隐私信息排除,得到排除后的各条行为数据;最终基于预设目标数据筛选规则,在所述排除后的各条行为数据中筛选出目标行为数据,并基于所述目标行为数据,构建所述用户对应的行为画像,由此通过将各条行为数据中的敏感信息排除,得到排除后的各条行为数据,并基于预设目标数据筛选规则,在所述排除后的各条行为数据筛选出目标行为数据,最终基于所述目标行为数据,构建用户对应的行为画像,能够避免行为画像在展示的过程中用户隐私信息泄露的风险,从而提高了行为画像构建的安全度。
进一步的,为了更好的说明上述对行为画像构建的过程,作为对上述实施例的细化和扩展,本发明实施例提供了另一种行为画像的构建方法,如图4所示,所述方法包括:
201、获取用户在操作终端所产生的各条行为数据。
对于本发明实施例,为了构建用户对应的行为画像,需要获取用户在操作终端所产生的各条行为数据,基于此,步骤201具体包括:在内核态中确定所述各条行为数据共同对应的调用函数,以及所述各条行为数据对应的数据获取接口;利用所述调用函数在所述数据获取接口中获取所述各条行为数据,并将所述各条行为数据传输至所述本地硬件分析平台。
具体地,以Windows操作系统为例,首先确定Windows操作系统提供给的调用函数,同时确定各条行为数据对应的文件系统过滤驱动架构、磁盘过滤驱动架构、网络过滤驱动架构等数据获取接口,最终终端软件传感器中的内核态驱动程序利用所述调用函数在所述数据获取接口中获取所述用户在操作终端所产生的各条行为数据,同时,所述用户可能会在多个操作终端进行操作,即多个操作终端都产生所述用户的行为数据,此时,需要获取多个操作终端的行为数据,并将所述行为数据按照用户粒度进行汇聚,即确定所述用户对应的行为数据。
进一步地,在获取用户在操作终端所产生的各条行为数据后,内核态驱动程序需要检测所述各条行为数据是否完整,即需要检测所述各条行为数据是否被损坏,基于此,所述方法还包括:确定所述各条行为数据对应的原始数据的第一哈希值,以及所述各条行为数据对应的第二哈希值;判断所述第一哈希值是否与所述第二哈希值相等;若所述第一哈希值与所述第二哈希值相等,则确定所述各条行为数据未被损坏。
具体地,确定所述各条行为数据对应的原始数据的第一哈希值,当获取到各条行为数据后,重新计算所述各条行为数据对应的第二哈希值,因为各条行为数据对应的哈希值是唯一的,数据中的任何信息被损坏,其对应的哈希值都将会发生变化,所以为了判断所述各条行为数据是否被损坏,需要判断所述第一哈希值是否与所述第二哈希值相等,若所述第一哈希值与所述第二哈希值相等,则确定所述各条行为数据未被损坏,并判断所述未被损坏的各条行为数据中是否包含用户的隐私信息,若包含所述隐私信息,则分别将所述各条行为数据中的所述隐私信息排除,得到排除后的各条行为数据,并基于预设目标数据筛选规则,在所述排除后的各条行为数据中筛选出目标行为数据,最终基于所述目标行为数据,构建所述用户对应的行为画像。
202、基于所述用户隐私信息对应的格式,构建预设正则表达式。
对于发明实施例,为了避免重复数据参与计算,在基于所述用户隐私信息对应的格式,构建预设正则表达式之前,所述方法还包括:确定所述各条行为数据对应的各个字符;基于所述各个字符在其对应的行为数据中的位置信息,确定所述各条行为数据对应的特征向量;根据所述特征向量,计算所述各条行为数据中任意两条行为数据之间的余弦相似度;若所述余弦相似度大于预设相似度,则将所述任意两条行为数据中的任意一条行为数据删除,得到去重后的各条行为数据。
其中,位置信息具体可以为各个字符在各条行为数据中的位置顺序,例如,一条行为数据为“腾讯视频”,字符“腾”对应的位置信息为1,字符“讯”对应的位置信息为2,以此类推,能够确定各条行为数据中各个字符对应的位置信息。
具体地,首先通过Word2Vec等词嵌入方法将各条行为数据中的各个字符转化为字符向量,之后根据所述各个字符对应的位置信息,对各个字符进行编码,得到各个字符对应的位置编码,具体可以根据如下公式确定各个字符对应的位置编码,
Figure BDA0003415189510000081
Figure BDA0003415189510000082
其中,PE为各个字符对应的位置编码,其维度与各个字符对应的字符向量维度相同,pos表示各个字符在其对应的行为数据中的位置,dmodel表示字符向量的维度,i表示字符向量的位置,上述公式表示在每个字符的字符向量的偶数位置添加sin变量,奇数位置添加cos变量,由此能够得到各个字符对应的位置编码,之后将各个字符对应的字符向量和位置编码相加,得到所述各条行为数据对应的特征向量,之后计算所述各条行为数据中任意两条行为数据之间的余弦相似度,具体计算公式如下:
Figure BDA0003415189510000083
其中,cos(θ)表示任意两条行为数据之间的余弦相似度,xi表示任意量条行为数据中的一条行为数据对应的特征向量,yi表示另一条行为数据对应的特征向量,n表示特征向量中的向量数量,由此按照上述计算公式能够计算各条行为数据中任意两条行为数据之间的余弦相似度,并判断所述余弦相似度是否大于预设相似度,若大于预设相似度,则说明所述任意两条行为数据为相似数据,则将所述相似数据中的任意一条数据删除,得到去除重复数据后的各条行为数据,之后分别判断所述去重后的各条行为数据中是否包含所述用户的隐私信息,具体判断所述去重后的各条行为数据中是否包含所述用户的隐私信息方法为,可以根据用户隐私信息中电话号、日期和身份证号等信息的特殊格式,构建相应的预设正则表达式,并利用该预设正则表达式,分别对各条行为数据中的敏感信息进行标记提示,具体过程如,若敏感信息为日期,则可添加预设正则表达式如下:
/^[1-9]\d{3}-(0[1-9]|1[0-2])-(0[1-9]|[1-2][0-9]|3[0-1])$/
用于识别诸如2014-01-01等格式的日期,并对识别到的日期进行高亮提示或者添加下划线提示,方便用户根据标记提示信息在各条行为数据中确定敏感信息。
203、在本地硬件分析平台中利用所述预设正则表达式分别判断所述各条行为数据中是否包含所述用户的隐私信息。
具体地,利用构建好的预设正则表达式,分别检测各条行为数据中是否包含敏感信息,若所述各条行为数据中包含所述敏感信息,则在各条行为数据中分别将所述敏感信息进行高亮显示或者下划线标注,基于标记的敏感信息,分别在各条行为数据中将所述敏感信息排除,得到排除后的各条行为数据,与此同时,基于预设目标数据筛选规则,在所述排除后的各条行为数据中筛选出目标行为数据,最终基于所述目标行为数据,构建所述用户对应的行为画像。
204、若包含所述隐私信息,则将所述各条行为数据中的所述隐私信息排除,得到排除后的各条行为数据。
具体地,利用预设正则表达式判断所述去重后的各条行为数据中是否包含用户的隐私信息,若包含所述用户的隐私信息,则将所述去重后的各条行为数据中的所述隐私信息排除,得到排除后的各条行为数据,并基于所述预设目标数据筛选规则,在所述排除后的各条行为数据中筛选出目标行为数据,最终基于所述目标行为数据,构建用户对应的行为数据。
205、基于预设目标数据筛选规则,在所述排除后的各条行为数据中筛选出目标行为数据,并基于所述目标行为数据,构建所述用户对应的行为画像。
对于本发明实施例,为了构建用户对应的行为画像,需要确定构建行为画像所需的目标行为数据,基于此,步骤205具体包括:分别对所述排除后的各条行为数据和所述预设目标数据筛选规则中记录的规则数据进行分词处理,得到所述排除后的各条行为数据对应的第一分词和所述规则数据对应的第二分词;基于所述第一分词和所述第二分词,确定所述规则数据分别与所述排除后的各条行为数据中相同的分词数量;确定所述分词数量中大于预设数量的目标分词数量,并将所述目标分词数量对应的排除后的行为数据确定为所述目标行为数据。
具体地,首先对所述排除后的各条行为数据进行分词处理,得到所述各条行为数据对应的各个分词,同时对预设目标数据筛选规则中记录的规则数据进行分词处理,得到所述规则数据对应的第二分词,之后确定所述第一分词和所述第二分词中相同的分词数量,并在所述相同的分词数量中确定大于预设数量的目标分词数量,之后将所述目标分词数量对应的排除后的行为数据确定为所述目标行为数据,最终基于所述目标行为数据,构建所述用户对应的行为画像,构建完所述用户对应的行为画像后,所述方法还包括:将所述行为画像传输至网络管理员终端,以便所述网络管理员基于所述行为画像,对内网环境进行检查。
进一步地,所述行为画像可以拥有个性化昵称,例如,用户终端因受恶意程序植入影响产生了攻击流量行为,对应画像昵称可以为“被入侵终端”,用户终端因受恶意程序植入影响产生了数字货币挖掘行为,对应画像昵称可以为“矿机终端”,用户终端在工作时间违规长时间运行游戏,对应画像昵称可以为“违规游戏终端”,用户终端在工作时间违规长时间观看电影,对应画像昵称可以为“违规影视终端”等,在构建完用户对应的行为画像后,基于内网环境中的本地管控模块将所述行为画像传输至网络管理员终端,以便所述网络管理员基于所述行为画像,对内网环境进行检查。
根据本发明提供的另一种行为画像的构建方法,与目前基于用户行为数据直接构建用户行为画像的方式相比,本发明通过获取用户在操作终端所产生的各条行为数据;并分别判断所述各条行为数据中是否包含所述用户的隐私信息;若包含所述隐私信息,则将所述各条行为数据中的所述隐私信息排除,得到排除后的各条行为数据;最终基于预设目标数据筛选规则,在所述排除后的各条行为数据中筛选出目标行为数据,并基于所述目标行为数据,构建所述用户对应的行为画像,由此通过将各条行为数据中的敏感信息排除,得到排除后的各条行为数据,并基于预设目标数据筛选规则,在所述排除后的各条行为数据筛选出目标行为数据,最终基于所述目标行为数据,构建用户对应的行为画像,能够避免行为画像在展示的过程中用户隐私信息泄露的风险,从而提高了行为画像构建的安全度。
进一步地,作为图1的具体实现,本发明实施例提供了一种行为画像的构建装置,如图5所示,所述装置包括:获取单元31、判断单元32、排除单元33和构建单元34。
所述获取单元31,可以用于获取用户在操作终端所产生的各条行为数据。
所述判断单元32,可以用于分别判断所述各条行为数据中是否包含所述用户的隐私信息。
所述排除单元33,可以用于若包含所述隐私信息,则将所述各条行为数据中的所述隐私信息排除,得到排除后的各条行为数据。
所述构建单元34,可以用于基于预设目标数据筛选规则,在所述排除后的各条行为数据中筛选出目标行为数据,并基于所述目标行为数据,构建所述用户对应的行为画像。
在具体应用场景中,为了将所述各条行为数据中的重复数据去除,如图6所示,所述装置还包括:确定单元35和计算单元36。
所述确定单元35,可以用于确定所述各条行为数据对应的各个字符。
所述确定单元35,具体可以用于基于所述各个字符在其对应的行为数据中的位置信息,确定所述各条行为数据对应的特征向量。
所述计算单元36,可以用于根据所述特征向量,计算所述各条行为数据中任意两条行为数据之间的余弦相似度。
所述排除单元33,还可以用于若所述余弦相似度大于预设相似度,则将所述任意两条行为数据中的任意一条行为数据删除,得到去重后的各条行为数据。
在具体应用场景中,为了判断所述去重后的各条行为数据中是否包含所述用户的隐私信息,所述判断单元32,包括构建模块321和判断模块322。
所述构建模块321,可以用于基于所述用户隐私信息对应的格式,构建预设正则表达式。
所述判断模块322,可以用于在本地硬件分析平台中利用所述预设正则表达式分别判断所述去重后的各条行为数据中是否包含所述用户的隐私信息。
在具体应用场景中,为了在所述排除后的各条行为数据中筛选出目标行为数据,所述构建单元34,包括分词模块341和确定模块342。
所述分词模块341,可以用于分别对所述排除后的各条行为数据和所述预设目标数据筛选规则中记录的规则数据进行分词处理,得到所述排除后的各条行为数据对应的第一分词和所述规则数据对应的第二分词。
所述确定模块342,可以用于基于所述第一分词和所述第二分词,确定所述规则数据分别与所述排除后的各条行为数据中相同的分词数量。
所述确定模块342,具体可以用于确定所述分词数量中大于预设数量的目标分词数量,并将所述目标分词数量对应的排除后的行为数据确定为所述目标行为数据。
在具体应用场景中,为了获取用户在操作终端所产生的各条行为数据,所述获取单元31,具体可以用于在内核态中确定所述各条行为数据共同对应的调用函数,以及所述各条行为数据对应的数据获取接口;利用所述调用函数在所述数据获取接口中获取所述各条行为数据,并将所述各条行为数据传输至所述本地硬件分析平台。
在具体应用场景中,为了判断所述各条行为数据是否被损坏,所述确定单元35,还可以用于确定所述各条行为数据对应的原始数据的第一哈希值,以及所述各条行为数据对应的第二哈希值。
所述判断单元32,还可以用于判断所述第一哈希值是否与所述第二哈希值相等。
所述确定单元35,还可以用于若所述第一哈希值与所述第二哈希值相等,则确定所述各条行为数据未被损坏。
在具体应用场景中,为了所述行为画像传输至网络管理员终端,所述装置还包括传输单元37。
所述传输单元37,可以用于将所述行为画像传输至网络管理员终端,以便所述网络管理员基于所述行为画像,对内网环境进行检查。
需要说明的是,本发明实施例提供的一种行为画像的构建装置所涉及各功能模块的其他相应描述,可以参考图1所示方法的对应描述,在此不再赘述。
基于上述如图1所示方法,相应的,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:获取用户在操作终端所产生的各条行为数据;分别判断所述各条行为数据中是否包含所述用户的隐私信息;若包含所述隐私信息,则将所述各条行为数据中的所述隐私信息排除,得到排除后的各条行为数据;基于预设目标数据筛选规则,在所述排除后的各条行为数据中筛选出目标行为数据,并基于所述目标行为数据,构建所述用户对应的行为画像。
基于上述如图1所示方法和如图5所示装置的实施例,本发明实施例还提供了一种计算机设备的实体结构图,如图7所示,该计算机设备包括:处理器41、存储器42、及存储在存储器42上并可在处理器上运行的计算机程序,其中存储器42和处理器41均设置在总线43上所述处理器41执行所述程序时实现以下步骤:获取用户在操作终端所产生的各条行为数据;分别判断所述各条行为数据中是否包含所述用户的隐私信息;若包含所述隐私信息,则将所述各条行为数据中的所述隐私信息排除,得到排除后的各条行为数据;基于预设目标数据筛选规则,在所述排除后的各条行为数据中筛选出目标行为数据,并基于所述目标行为数据,构建所述用户对应的行为画像。
通过本发明的技术方案,本发明通过获取用户在操作终端所产生的各条行为数据;并分别判断所述各条行为数据中是否包含所述用户的隐私信息;若包含所述隐私信息,则将所述各条行为数据中的所述隐私信息排除,得到排除后的各条行为数据;最终基于预设目标数据筛选规则,在所述排除后的各条行为数据中筛选出目标行为数据,并基于所述目标行为数据,构建所述用户对应的行为画像,由此通过将各条行为数据中的敏感信息排除,得到排除后的各条行为数据,并基于预设目标数据筛选规则,在所述排除后的各条行为数据筛选出目标行为数据,最终基于所述目标行为数据,构建用户对应的行为画像,能够避免行为画像在展示的过程中用户隐私信息泄露的风险,从而提高了行为画像构建的安全度。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (10)

1.一种行为画像的构建方法,其特征在于,包括:
获取用户在操作终端所产生的各条行为数据;
分别判断所述各条行为数据中是否包含所述用户的隐私信息;
若包含所述隐私信息,则将所述各条行为数据中的所述隐私信息排除,得到排除后的各条行为数据;
基于预设目标数据筛选规则,在所述排除后的各条行为数据中筛选出目标行为数据,并基于所述目标行为数据,构建所述用户对应的行为画像。
2.根据权利要求1所述的方法,其特征在于,在所述分别判断所述各条行为数据中是否包含所述用户的隐私信息之前,所述方法还包括:
确定所述各条行为数据对应的各个字符;
基于所述各个字符在其对应的行为数据中的位置信息,确定所述各条行为数据对应的特征向量;
根据所述特征向量,计算所述各条行为数据中任意两条行为数据之间的余弦相似度;
若所述余弦相似度大于预设相似度,则将所述任意两条行为数据中的任意一条行为数据删除,得到去重后的各条行为数据;
所述分别判断所述各条行为数据中是否包含所述用户的隐私信息,包括:
分别判断所述去重后的各条行为数据中是否包含所述用户的隐私信息。
3.根据权利要求2所述的方法,其特征在于,所述分别判断所述去重后的各条行为数据中是否包含所述用户的隐私信息,包括:
基于所述用户隐私信息对应的格式,构建预设正则表达式;
在本地硬件分析平台中利用所述预设正则表达式分别判断所述去重后的各条行为数据中是否包含所述用户的隐私信息。
4.根据权利要求1所述的方法,其特征在于,所述基于预设目标数据筛选规则,在所述排除后的各条行为数据中筛选出目标行为数据,包括:
分别对所述排除后的各条行为数据和所述预设目标数据筛选规则中记录的规则数据进行分词处理,得到所述排除后的各条行为数据对应的第一分词和所述规则数据对应的第二分词;
基于所述第一分词和所述第二分词,确定所述规则数据分别与所述排除后的各条行为数据中相同的分词数量;
确定所述分词数量中大于预设数量的目标分词数量,并将所述目标分词数量对应的排除后的行为数据确定为所述目标行为数据。
5.根据权利要求1所述的方法,其特征在于,所述获取用户在操作终端所产生的各条行为数据,包括:
在内核态中确定所述各条行为数据共同对应的调用函数,以及所述各条行为数据对应的数据获取接口;
利用所述调用函数在所述数据获取接口中获取所述各条行为数据,并将所述各条行为数据传输至所述本地硬件分析平台。
6.根据权利要求1所述的方法,其特征在于,在所述获取用户在操作终端所产生的各条行为数据之后,所述方法还包括:
确定所述各条行为数据对应的原始数据的第一哈希值,以及所述各条行为数据对应的第二哈希值;
判断所述第一哈希值是否与所述第二哈希值相等;
若所述第一哈希值与所述第二哈希值相等,则确定所述各条行为数据未被损坏。
7.根据权利要求1所述的方法,其特征在于,在所述基于所述目标行为数据,构建所述用户对应的行为画像之后,所述方法还包括:
将所述行为画像传输至网络管理员终端,以便所述网络管理员基于所述行为画像,对内网环境进行检查。
8.一种行为画像的构建装置,其特征在于,包括:
获取单元,用于获取用户在操作终端所产生的各条行为数据;
判断单元,用于分别判断所述各条行为数据中是否包含所述用户的隐私信息;
排除单元,用于若包含所述隐私信息,则将所述各条行为数据中的所述隐私信息排除,得到排除后的各条行为数据;
构建单元,用于基于预设目标数据筛选规则,在所述排除后的各条行为数据中筛选出目标行为数据,并基于所述目标行为数据,构建所述用户对应的行为画像。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202111543838.1A 2021-12-16 2021-12-16 行为画像的构建方法、装置、存储介质及计算机设备 Pending CN114417397A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111543838.1A CN114417397A (zh) 2021-12-16 2021-12-16 行为画像的构建方法、装置、存储介质及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111543838.1A CN114417397A (zh) 2021-12-16 2021-12-16 行为画像的构建方法、装置、存储介质及计算机设备

Publications (1)

Publication Number Publication Date
CN114417397A true CN114417397A (zh) 2022-04-29

Family

ID=81268037

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111543838.1A Pending CN114417397A (zh) 2021-12-16 2021-12-16 行为画像的构建方法、装置、存储介质及计算机设备

Country Status (1)

Country Link
CN (1) CN114417397A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114880709A (zh) * 2022-05-23 2022-08-09 铜仁英丹网络科技有限公司 一种应用人工智能的电商数据防护方法及服务器

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114880709A (zh) * 2022-05-23 2022-08-09 铜仁英丹网络科技有限公司 一种应用人工智能的电商数据防护方法及服务器

Similar Documents

Publication Publication Date Title
JP2021515427A (ja) ブロックチェーンベースのデータ検証方法および装置、ならびに電子デバイス
Dezfoli et al. Digital forensic trends and future
CN109873804A (zh) 基于行为的服务识别方法、装置、设备及可读存储介质
US20200097713A1 (en) Method and System for Accurately Detecting, Extracting and Representing Redacted Text Blocks in a Document
CN110008428B (zh) 新闻数据处理方法、装置、区块链节点设备及存储介质
CN113553583A (zh) 信息系统资产安全风险评估方法与装置
CN114417397A (zh) 行为画像的构建方法、装置、存储介质及计算机设备
CN111368128B (zh) 目标图片的识别方法、装置和计算机可读存储介质
CN113033530B (zh) 证件翻拍检测方法、装置、电子设备及可读存储介质
JP2024520418A (ja) メディアコンテンツにおけるオブジェクトの選択的難読化
KR102231869B1 (ko) 웹 기반의 개인정보 보호 서비스 시스템 및 그 방법
Rawtani et al. Modern Forensic Tools and Devices: Trends in Criminal Investigation
CN116346488B (zh) 一种越权访问的检测方法及装置
CN109214212A (zh) 信息防泄露方法及装置
Dezfouli et al. Digital forensics trends and future
CN111428251B (zh) 数据处理方法和装置
CN113923012B (zh) 一种客户端设备的指纹生成方法和防篡改方法
CN115167969B (zh) 基于云端的远程协同方法及装置
CN113630440B (zh) 一种数据上传的方法、装置、系统、电子设备及存储介质
Iqbal et al. Forensic investigation of small-scale digital devices: a futuristic view
CN108764327B (zh) 图像模板检测方法、装置、计算设备及可读存储介质
EP3557839A1 (en) Method for securing a computer system
Mishra et al. Reviewing Image Data: Detecting Forgery Using a Robust Forensic Method
CN117034353A (zh) 文件的存储识别方法、系统、介质以及电子设备
CN115567944A (zh) 一种异常卡号的识别方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination