CN114186029A - 信息泄露行为的分析方法、相关装置及计算机存储介质 - Google Patents

信息泄露行为的分析方法、相关装置及计算机存储介质 Download PDF

Info

Publication number
CN114186029A
CN114186029A CN202111528441.5A CN202111528441A CN114186029A CN 114186029 A CN114186029 A CN 114186029A CN 202111528441 A CN202111528441 A CN 202111528441A CN 114186029 A CN114186029 A CN 114186029A
Authority
CN
China
Prior art keywords
target user
target
data
user
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111528441.5A
Other languages
English (en)
Inventor
王四维
王雪萌
郭玉章
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
Original Assignee
China Construction Bank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp filed Critical China Construction Bank Corp
Priority to CN202111528441.5A priority Critical patent/CN114186029A/zh
Publication of CN114186029A publication Critical patent/CN114186029A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种信息泄露行为的分析方法、相关装置及计算机存储介质,所述信息泄露行为的分析方法包括:首先,按照预设的数据采集规则采集目标用户的第一目标数据,形成目标用户的第一目标数据集;然后,对所述目标用户的第一目标数据集进行数据清洗以及处理,得到目标用户的第二目标数据集;再将所述目标用户的第二目标数据集中的每一个第二目标数据以及所述第二目标数据对应的来源进行保存并形成全量信息库;最后,在所述全量信息库中筛选数据,生成目标用户的用户档案;其中,所述目标用户的用户档案包括目标用户的固有属性数据以及所述目标用户的固有属性数据的当前安全度。从而实现有效的对用户的信息泄露行为进行分析评估的目的。

Description

信息泄露行为的分析方法、相关装置及计算机存储介质
技术领域
本申请涉及计算机技术领域,特别涉及一种信息泄露行为的分析方法、相关装置及计算机存储介质。
背景技术
目前,企业、公司通常会在信息安全上投入大量资金,然而最终导致数据泄露的原因,往往是发生在人本身。
近年来,利用社会工程学手段,也就是针对“人”的突破信息安全防御措施事件已经呈现出上升甚至泛滥的趋势。越来越多的黑客转向利用人的弱点来实施网络攻击,他们往往只需要一个用户名、一串数字、一串英文代码等简易线索,通过社工攻击手段,加以筛选、整理,就能掌握研究对象的所有个人情况。而这种社工攻击往往是建立在使人决断产生认知偏差的基础上,所使用的渠道或者交流方式通常都是合法的,这就导致传统的信息安全技术对于防范社工攻击无能为力。
但是,现有的对社会工程学的主动防御一般是通过引诱社工攻击者发起攻击并监控他们的行为,以实现对攻击行为的检测以及对攻击者信息的收集。如何从源头,即用户层面防御社工攻击,目前仍未提出有效方案。
发明内容
有鉴于此,本申请提供一种信息泄露行为的分析方法、相关装置及计算机存储介质,可以有效的对用户的信息泄露行为进行分析评估。
本申请第一方面提供了一种信息泄露行为的分析方法,包括:
按照预设的数据采集规则采集目标用户的第一目标数据,形成目标用户的第一目标数据集;
对所述目标用户的第一目标数据集进行数据清洗以及处理,得到目标用户的第二目标数据集;
将所述目标用户的第二目标数据集中的每一个第二目标数据以及所述第二目标数据对应的来源进行保存并形成全量信息库;
在所述全量信息库中筛选数据,生成目标用户的用户档案;其中,所述目标用户的用户档案包括目标用户的固有属性数据以及所述目标用户的固有属性数据的当前安全度。
可选的,所述按照预设的数据采集规则采集目标用户的第一目标数据,形成目标用户的第一目标数据集,包括:
通过对接社交平台的应用程序编程接口获取所述社交平台中的资源信息;其中,所述资源信息包括:目标用户的个人基本信息、关联好友列表和微博博客发文;
利用爬虫工具爬取目标网站以获得预设类别的属性信息;
通过搜索引擎按信息检索规则组合排列已有信息进行多重搜索。
可选的,所述对所述目标用户的第一目标数据集进行数据清洗以及处理,得到目标用户的第二目标数据集,包括:
对所述第一目标数据集中的结构化数据和非结构化数据进行去重以及纠错,得到第一处理数据集;
利用自然语言处理算法,对所述第一处理数据集中的文本类型非结构化数据进行关键字提取、语义分析,得到第二处理数据集;
利用图像处理算法,对所述第二处理数据集中的图像数据中目标用户的关键信息进行识别和提取,得到第二目标数据集。
可选的,所述在所述全量信息库中筛选数据,生成目标用户的用户档案,包括:
在所述全量信息库中按照预先设置的固有属性类型进行筛选,得到目标用户的固有属性数据;
根据固有属性类型对应的隐私程度等级以及目标用户的固有属性数据的重复频次,确定所述目标用户的固有属性数据的当前安全度;
根据所述目标用户的固有属性数据以及所述固有属性数据的当前安全度,生成用户档案。
可选的,所述信息泄露行为的分析方法,还包括:
根据所述目标用户的用户档案所述目标用户关联的好友的用户档案,生成目标用户的社会关系网;
根据所述目标用户的社会关系网,分析得到目标用户的泄露隐私行为。
可选的,所述信息泄露行为的分析方法,还包括:
根据所述目标用户的泄露隐私行为以及预设的行为建议库,确定所述目标用户的日后行为建议。
可选的,所述信息泄露行为的分析方法,还包括:
接收所述目标用户的反馈信息;
根据所述反馈信息对预设的行为建议库进行完善。
本申请第二方面提供了一种信息泄露行为的分析装置,包括:
采集单元,用于按照预设的数据采集规则采集目标用户的第一目标数据,形成目标用户的第一目标数据集;
清理单元,用于对所述目标用户的第一目标数据集进行数据清洗以及处理,得到目标用户的第二目标数据集;
第一生成单元,用于将所述目标用户的第二目标数据集中的每一个第二目标数据以及所述第二目标数据对应的来源进行保存并形成全量信息库;
第二生成单元,用于在所述全量信息库中筛选数据,生成目标用户的用户档案;其中,所述目标用户的用户档案包括目标用户的固有属性数据以及所述目标用户的固有属性数据的当前安全度。
可选的,所述采集单元,包括:
第一采集子单元,用于通过对接社交平台的应用程序编程接口获取所述社交平台中的资源信息;其中,所述资源信息包括:目标用户的个人基本信息、关联好友列表和微博博客发文;
第二采集子单元,用于利用爬虫工具爬取目标网站以获得预设类别的属性信息;
搜索单元,用于通过搜索引擎按信息检索规则组合排列已有信息进行多重搜索。
可选的,所述清理单元,包括:
第一清理子单元,用于对所述第一目标数据集中的结构化数据和非结构化数据进行去重以及纠错,得到第一处理数据集;
第二清理子单元,用于利用自然语言处理算法,对所述第一处理数据集中的文本类型非结构化数据进行关键字提取、语义分析,得到第二处理数据集;
第三清理子单元,用于利用图像处理算法,对所述第二处理数据集中的图像数据中目标用户的关键信息进行识别和提取,得到第二目标数据集。
可选的,所述第二生成单元,包括:
筛选单元,用于在所述全量信息库中按照预先设置的固有属性类型进行筛选,得到目标用户的固有属性数据;
第一确定单元,用于根据固有属性类型对应的隐私程度等级以及目标用户的固有属性数据的重复频次,确定所述目标用户的固有属性数据的当前安全度;
第二生成子单元,用于根据所述目标用户的固有属性数据以及所述固有属性数据的当前安全度,生成用户档案。
可选的,所述信息泄露行为的分析装置,还包括:
第三生成单元,用于根据所述目标用户的用户档案所述目标用户关联的好友的用户档案,生成目标用户的社会关系网;
分析单元,用于根据所述目标用户的社会关系网,分析得到目标用户的泄露隐私行为。
可选的,所述信息泄露行为的分析装置,还包括:
第二确定单元,用于根据所述目标用户的泄露隐私行为以及预设的行为建议库,确定所述目标用户的日后行为建议。
可选的,所述信息泄露行为的分析装置,还包括:
接收单元,用于接收所述目标用户的反馈信息;
完善单元,用于根据所述反馈信息对预设的行为建议库进行完善。
本申请第三方面提供了一种电子设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如第一方面任意一项所述的信息泄露行为的分析方法。
本申请第四方面提供了一种计算机存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如第一方面任意一项所述的信息泄露行为的分析方法。
由以上方案可知,本申请提供一种信息泄露行为的分析方法、相关装置及计算机存储介质,所述信息泄露行为的分析方法包括:首先,按照预设的数据采集规则采集目标用户的第一目标数据,形成目标用户的第一目标数据集;然后,对所述目标用户的第一目标数据集进行数据清洗以及处理,得到目标用户的第二目标数据集;再将所述目标用户的第二目标数据集中的每一个第二目标数据以及所述第二目标数据对应的来源进行保存并形成全量信息库;最后,在所述全量信息库中筛选数据,生成目标用户的用户档案;其中,所述目标用户的用户档案包括目标用户的固有属性数据以及所述目标用户的固有属性数据的当前安全度。从而实现有效的对用户的信息泄露行为进行分析评估的目的。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种信息泄露行为的分析方法的具体流程图;
图2为本申请另一实施例提供的一种信息泄露行为的分析方法的流程图;
图3为本申请另一实施例提供的一种信息泄露行为的分析方法的流程图;
图4为本申请另一实施例提供的一种信息泄露行为的分析方法的流程图;
图5为本申请另一实施例提供的一种用户档案的示意图;
图6为本申请另一实施例提供的一种用户社会关系网的示意图;
图7为本申请另一实施例提供的一种信息泄露行为的分析装置的示意图;
图8为本申请另一实施例提供的一种实现信息泄露行为的分析方法的电子设备的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要注意,本申请中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系,而术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
首先,对本申请中出现的术语进行解释说明:
社会工程学:是一门综合多门社会科学(社会常识)尤其心理学、语言学、欺诈学等,加以有效利用并以最终获得信息为目的的学科。广义的定义为:建立理论并通过利用自然的、社会的和制度上的途径来逐步地解决各种复杂的社会问题。在计算机科学领域,社会工程被定义为一种攻击行为,攻击者利用人际关系的互动性所发出的攻击,通常攻击者如果没有办法通过物理入侵的方法直接渠道所需要的资料时,就会通过电子邮件或电话对所需要的资料进行骗取,再利用这些资料获取主机的权限以达到其本身的目的。
API:应用程序编程接口,是一些预先定义的函数,目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力,而又无需访问源码,或理解内部工作机制的细节。
NLP:自然语言处理,涵盖计算机科学领域和人工智能领域,研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法,致力于研制出有效实现自然语音通信的计算机软件系统。目前主要应用与机器翻译、舆情监测、自动摘要、观点提取、文本分类、文本语义对比、语音识别等方面。
本申请实施例提供了一种信息泄露行为的分析方法,如图1所示,具体包括以下步骤:
S101、按照预设的数据采集规则采集目标用户的第一目标数据,形成目标用户的第一目标数据集。
其中,预设的数据采集规则由技术人员以及相关有权限的工作人员进行设置、更改,此处不做限定。
可选的,在本申请的另一实施例中,步骤S101的一种实施方式,如图2所示,包括:
S201、通过对接社交平台的应用程序编程接口获取社交平台中的资源信息。
其中,资源信息包括但不限于:目标用户的个人基本信息、关联好友列表和微博博客发文等,此处不做限定。
S202、利用爬虫工具爬取目标网站以获得预设类别的属性信息。
例如:当输入信息为邮箱/电话时,可以通过爬取电话黄页网站获得联系人姓名等属性信息。
S203、通过搜索引擎按信息检索规则组合排列已有信息进行多重搜索。
S102、对目标用户的第一目标数据集进行数据清洗以及处理,得到目标用户的第二目标数据集。
可选的,在本申请的另一实施例中,步骤S102的一种实施方式,如图3所示,包括:
S301、对第一目标数据集中的结构化数据和非结构化数据进行去重以及纠错,得到第一处理数据集。
S302、利用自然语言处理算法,对第一处理数据集中的文本类型非结构化数据进行关键字提取、语义分析,得到第二处理数据集。
S303、利用图像处理算法,对第二处理数据集中的图像数据中目标用户的关键信息进行识别和提取,得到第二目标数据集。
S103、将目标用户的第二目标数据集中的每一个第二目标数据以及第二目标数据对应的来源进行保存并形成全量信息库。
S104、在全量信息库中筛选数据,生成目标用户的用户档案。
其中,目标用户的用户档案包括目标用户的固有属性数据以及目标用户的固有属性数据的当前安全度。
可选的,在本申请的另一实施例中,步骤S104的一种实施方式,如图4所示,包括:
S401、在全量信息库中按照预先设置的固有属性类型进行筛选,得到目标用户的固有属性数据。
其中,预先设置的固有属性类型由技术人员以及相关有权限的工作人员进行设置、更改,此处不做限定。
S402、根据固有属性类型对应的隐私程度等级以及目标用户的固有属性数据的重复频次,确定目标用户的固有属性数据的当前安全度。
其中,固有属性类型对应的隐私程度等级为技术人员或相关有权限的工作人员,进行预先设置、更改,此处不做限定。
可以理解的是,固有属性类型对应的隐私程度等级越高,重复频次越高,则目标用户的固有属性数据的当前安全度越低。
S403、根据目标用户的固有属性数据以及固有属性数据的当前安全度,生成用户档案。
如图5所示,为用户档案的示意图,其中固有属性为姓名、年龄、电话号码、邮箱、住址以及身份证号,并且按照固有属性数据的当前安全度进行标识。例如:普通、高危、危险以及安全,在实际的应用过程中还可以通过颜色来进行标识,如橘色危险、绿色安全、黄色普通、红色高危等,此处不做限定。
并且,在本申请的实际应用过程中,在点击标识后,还可以对这一类固有属性的信息来源以及泄露次数等进行展示。
需要说明的是,“安全”仅表示无法通过本装置设置方法检索到此类属性。
还需要说明的是,在本申请的实际应用过程中,还可以在用户档案中添加用户关注的话题、性格推荐、活动范围等,此处不做限定。
可选的,在本申请的另一实施例中,在得到用户档案之后,信息泄露行为的分析方法的一种实施方式,还包括:
根据目标用户的用户档案目标用户关联的好友的用户档案,生成目标用户的社会关系网,并根据目标用户的社会关系网,分析得到目标用户的泄露隐私行为。
具体的,以图像形式展示研究主体及其关联对象之间的信息互相泄露情况。互动列表内包含2个关键信息:对象和互动次数,利用社交平台API获取的用户好友列表作为基础表,再根据平台上的交流互动情况补充生成。其中,互动次数是指两对象间发布有关对方信息的次数总和,用于表示用户间的关联性。
如图6所示,为本申请实施例提供的一种社会关系网的示意图,图中节点表示研究主体及其关联对象,连线粗细表示对象间关联性,节点的标识表示对象对研究主体A的各属性泄露程度(高危:泄露次数≥危险次数阈值且泄露次数占互动总次数比率>70%;危险:泄露次数≥危险次数阈值或者泄露占比≥30%;普通:泄露次数<危险次数阈值且泄露占比<30%;安全:无信息泄露)。
并且,可以通过预先设置的第一底框样式(如蓝底框)展示各对象对A信息详细泄露情况,包括泄露总次数及占比、各个属性泄露次数及来源,预先设置的第二底框样式(如黄底框)记录研究主体A对其关联度排名前20的对象的信息泄露情况,包括好友信息泄露占比饼状图以及详细情况等。
可选的,在本申请的另一实施例中,在得到目标用户的泄露隐私行为之后,信息泄露行为的分析方法的一种实施方式,还包括:
根据目标用户的泄露隐私行为以及预设的行为建议库,确定目标用户的日后行为建议。
其中,预设的行为建议库为技术人员或相关有权限的工作人员,进行预先设置、更改,此处不做限定。
可选的,在本申请的另一实施例中,信息泄露行为的分析方法的一种实施方式,还包括:
接收目标用户的反馈信息,并根据反馈信息对预设的行为建议库进行完善。
由以上方案可知,本申请提供的一种信息泄露行为的分析方法:首先,按照预设的数据采集规则采集目标用户的第一目标数据,形成目标用户的第一目标数据集;然后,对目标用户的第一目标数据集进行数据清洗以及处理,得到目标用户的第二目标数据集;再将目标用户的第二目标数据集中的每一个第二目标数据以及第二目标数据对应的来源进行保存并形成全量信息库;最后,在全量信息库中筛选数据,生成目标用户的用户档案;其中,目标用户的用户档案包括目标用户的固有属性数据以及目标用户的固有属性数据的当前安全度。从而实现有效的对用户的信息泄露行为进行分析评估的目的。
本申请另一实施例提供了一种信息泄露行为的分析装置,如图7所示,具体包括:
采集单元701,用于按照预设的数据采集规则采集目标用户的第一目标数据,形成目标用户的第一目标数据集。
可选的,在本申请的另一实施例中,采集单元701的一种实施方式,包括:
第一采集子单元,用于通过对接社交平台的应用程序编程接口获取社交平台中的资源信息。
其中,资源信息包括:目标用户的个人基本信息、关联好友列表和微博博客发文。
第二采集子单元,用于利用爬虫工具爬取目标网站以获得预设类别的属性信息。
搜索单元,用于通过搜索引擎按信息检索规则组合排列已有信息进行多重搜索。
本申请上述实施例公开的单元的具体工作过程,可参见对应的方法实施例内容,如图2所示,此处不再赘述。
清理单元702,用于对目标用户的第一目标数据集进行数据清洗以及处理,得到目标用户的第二目标数据集。
可选的,在本申请的另一实施例中,清理单元702的一种实施方式,包括:
第一清理子单元,用于对第一目标数据集中的结构化数据和非结构化数据进行去重以及纠错,得到第一处理数据集。
第二清理子单元,用于利用自然语言处理算法,对第一处理数据集中的文本类型非结构化数据进行关键字提取、语义分析,得到第二处理数据集。
第三清理子单元,用于利用图像处理算法,对第二处理数据集中的图像数据中目标用户的关键信息进行识别和提取,得到第二目标数据集。
本申请上述实施例公开的单元的具体工作过程,可参见对应的方法实施例内容,如图3所示,此处不再赘述。
第一生成单元703,用于将目标用户的第二目标数据集中的每一个第二目标数据以及第二目标数据对应的来源进行保存并形成全量信息库。
第二生成单元704,用于在全量信息库中筛选数据,生成目标用户的用户档案。
其中,目标用户的用户档案包括目标用户的固有属性数据以及目标用户的固有属性数据的当前安全度。
本申请上述实施例公开的单元的具体工作过程,可参见对应的方法实施例内容,如图1所示,此处不再赘述。
可选的,在本申请的另一实施例中,第二生成单元704的一种实施方式,包括:
筛选单元,用于在全量信息库中按照预先设置的固有属性类型进行筛选,得到目标用户的固有属性数据。
第一确定单元,用于根据固有属性类型对应的隐私程度等级以及目标用户的固有属性数据的重复频次,确定目标用户的固有属性数据的当前安全度。
第二生成子单元,用于根据目标用户的固有属性数据以及固有属性数据的当前安全度,生成用户档案。
本申请上述实施例公开的单元的具体工作过程,可参见对应的方法实施例内容,如图4所示,此处不再赘述。
可选的,在本申请的另一实施例中,信息泄露行为的分析装置的一种实施方式,还包括:
第三生成单元,用于根据目标用户的用户档案目标用户关联的好友的用户档案,生成目标用户的社会关系网。
分析单元,用于根据目标用户的社会关系网,分析得到目标用户的泄露隐私行为。
本申请上述实施例公开的单元的具体工作过程,可参见对应的方法实施例内容,此处不再赘述。
可选的,在本申请的另一实施例中,信息泄露行为的分析装置的一种实施方式,还包括:
第二确定单元,用于根据目标用户的泄露隐私行为以及预设的行为建议库,确定目标用户的日后行为建议。
本申请上述实施例公开的单元的具体工作过程,可参见对应的方法实施例内容,此处不再赘述。
可选的,在本申请的另一实施例中,信息泄露行为的分析装置的一种实施方式,还包括:
接收单元,用于接收目标用户的反馈信息。
完善单元,用于根据反馈信息对预设的行为建议库进行完善。
本申请上述实施例公开的单元的具体工作过程,可参见对应的方法实施例内容,此处不再赘述。
由以上方案可知,本申请提供的一种信息泄露行为的分析装置:首先,采集单元701按照预设的数据采集规则采集目标用户的第一目标数据,形成目标用户的第一目标数据集;然后,清理单元702对目标用户的第一目标数据集进行数据清洗以及处理,得到目标用户的第二目标数据集;第一生成单元703再将目标用户的第二目标数据集中的每一个第二目标数据以及第二目标数据对应的来源进行保存并形成全量信息库;最后,第二生成单元704在全量信息库中筛选数据,生成目标用户的用户档案;其中,目标用户的用户档案包括目标用户的固有属性数据以及目标用户的固有属性数据的当前安全度。从而实现有效的对用户的信息泄露行为进行分析评估的目的。
本申请另一实施例提供了一种电子设备,如图8所示,包括:
一个或多个处理器801。
存储装置802,其上存储有一个或多个程序。
当所述一个或多个程序被所述一个或多个处理器801执行时,使得所述一个或多个处理器801实现如上述实施例中任意一项所述的信息泄露行为的分析方法。
本申请另一实施例提供了一种计算机存储介质,其上存储有计算机程序,其中,计算机程序被处理器执行时实现如上述实施例中任意一项所述的信息泄露行为的分析方法。
在本申请公开的上述实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本公开的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本公开各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,直播设备,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种信息泄露行为的分析方法,其特征在于,包括:
按照预设的数据采集规则采集目标用户的第一目标数据,形成目标用户的第一目标数据集;
对所述目标用户的第一目标数据集进行数据清洗以及处理,得到目标用户的第二目标数据集;
将所述目标用户的第二目标数据集中的每一个第二目标数据以及所述第二目标数据对应的来源进行保存并形成全量信息库;
在所述全量信息库中筛选数据,生成目标用户的用户档案;其中,所述目标用户的用户档案包括目标用户的固有属性数据以及所述目标用户的固有属性数据的当前安全度。
2.根据权利要求1所述的分析方法,其特征在于,所述按照预设的数据采集规则采集目标用户的第一目标数据,形成目标用户的第一目标数据集,包括:
通过对接社交平台的应用程序编程接口获取所述社交平台中的资源信息;其中,所述资源信息包括:目标用户的个人基本信息、关联好友列表和微博博客发文;
利用爬虫工具爬取目标网站以获得预设类别的属性信息;
通过搜索引擎按信息检索规则组合排列已有信息进行多重搜索。
3.根据权利要求1所述的分析方法,其特征在于,所述对所述目标用户的第一目标数据集进行数据清洗以及处理,得到目标用户的第二目标数据集,包括:
对所述第一目标数据集中的结构化数据和非结构化数据进行去重以及纠错,得到第一处理数据集;
利用自然语言处理算法,对所述第一处理数据集中的文本类型非结构化数据进行关键字提取、语义分析,得到第二处理数据集;
利用图像处理算法,对所述第二处理数据集中的图像数据中目标用户的关键信息进行识别和提取,得到第二目标数据集。
4.根据权利要求1所述的分析方法,其特征在于,所述在所述全量信息库中筛选数据,生成目标用户的用户档案,包括:
在所述全量信息库中按照预先设置的固有属性类型进行筛选,得到目标用户的固有属性数据;
根据固有属性类型对应的隐私程度等级以及目标用户的固有属性数据的重复频次,确定所述目标用户的固有属性数据的当前安全度;
根据所述目标用户的固有属性数据以及所述固有属性数据的当前安全度,生成用户档案。
5.根据权利要求1所述的分析方法,其特征在于,还包括:
根据所述目标用户的用户档案所述目标用户关联的好友的用户档案,生成目标用户的社会关系网;
根据所述目标用户的社会关系网,分析得到目标用户的泄露隐私行为。
6.根据权利要求5所述的分析方法,其特征在于,还包括:
根据所述目标用户的泄露隐私行为以及预设的行为建议库,确定所述目标用户的日后行为建议。
7.根据权利要求6所述的分析方法,其特征在于,还包括:
接收所述目标用户的反馈信息;
根据所述反馈信息对预设的行为建议库进行完善。
8.一种信息泄露行为的分析装置,其特征在于,包括:
采集单元,用于按照预设的数据采集规则采集目标用户的第一目标数据,形成目标用户的第一目标数据集;
清理单元,用于对所述目标用户的第一目标数据集进行数据清洗以及处理,得到目标用户的第二目标数据集;
第一生成单元,用于将所述目标用户的第二目标数据集中的每一个第二目标数据以及所述第二目标数据对应的来源进行保存并形成全量信息库;
第二生成单元,用于在所述全量信息库中筛选数据,生成目标用户的用户档案;其中,所述目标用户的用户档案包括目标用户的固有属性数据以及所述目标用户的固有属性数据的当前安全度。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至7中任一所述的信息泄露行为的分析方法。
10.一种计算机存储介质,其特征在于,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1至7中任一所述的信息泄露行为的分析方法。
CN202111528441.5A 2021-12-14 2021-12-14 信息泄露行为的分析方法、相关装置及计算机存储介质 Pending CN114186029A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111528441.5A CN114186029A (zh) 2021-12-14 2021-12-14 信息泄露行为的分析方法、相关装置及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111528441.5A CN114186029A (zh) 2021-12-14 2021-12-14 信息泄露行为的分析方法、相关装置及计算机存储介质

Publications (1)

Publication Number Publication Date
CN114186029A true CN114186029A (zh) 2022-03-15

Family

ID=80543774

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111528441.5A Pending CN114186029A (zh) 2021-12-14 2021-12-14 信息泄露行为的分析方法、相关装置及计算机存储介质

Country Status (1)

Country Link
CN (1) CN114186029A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116910824A (zh) * 2023-08-28 2023-10-20 广东中山网传媒信息科技有限公司 一种基于分布式多源测度的安全大数据分析方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116910824A (zh) * 2023-08-28 2023-10-20 广东中山网传媒信息科技有限公司 一种基于分布式多源测度的安全大数据分析方法及系统
CN116910824B (zh) * 2023-08-28 2024-02-06 广东中山网传媒信息科技有限公司 一种基于分布式多源测度的安全大数据分析方法及系统

Similar Documents

Publication Publication Date Title
Le Sceller et al. Sonar: Automatic detection of cyber security events over the twitter stream
Peng et al. User profiling in intrusion detection: A review
Ferrara Measuring social spam and the effect of bots on information diffusion in social media
Iqbal et al. A novel approach of mining write-prints for authorship attribution in e-mail forensics
US9652597B2 (en) Systems and methods for detecting information leakage by an organizational insider
Elmas et al. Ephemeral astroturfing attacks: The case of fake twitter trends
De Vries et al. Systems for detecting advanced persistent threats: A development roadmap using intelligent data analysis
Afzaliseresht et al. From logs to stories: human-centred data mining for cyber threat intelligence
Shin et al. Cybersecurity event detection with new and re-emerging words
Cardoso et al. Social Media disinformation in the pre-electoral period in Portugal
Najafabadi et al. Hacktivism and distributed hashtag spoiling on Twitter: Tales of the# IranTalks
Han et al. CBR‐Based Decision Support Methodology for Cybercrime Investigation: Focused on the Data‐Driven Website Defacement Analysis
Han et al. Towards stalkerware detection with precise warnings
Wu et al. What risk? i don't understand. an empirical study on users' understanding of the terms used in security texts
CN106933880B (zh) 一种标签数据泄漏渠道检测方法及装置
Ben Jaballah et al. A grey-box approach for detecting malicious user interactions in web applications
CN114186029A (zh) 信息泄露行为的分析方法、相关装置及计算机存储介质
Singhal et al. Cybersecurity misinformation detection on social media: Case studies on phishing reports and zoom’s threat
La Morgia et al. Tgdataset: a collection of over one hundred thousand telegram channels
CN112016317A (zh) 基于人工智能的敏感词识别方法、装置及计算机设备
Canelón et al. Unstructured data for cybersecurity and internal control
Singhal et al. The prevalence of cybersecurity misinformation on social media: Case studies on phishing reports and zoom’s threats
Ali et al. An approach for deceptive phishing detection and prevention in social networking sites using data mining and wordnet ontology
Sutter The Cyber Profile: Determining Human Behavior through Cyber-Actions
Geeta et al. Big data analytics for detection of frauds in matrimonial websites

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination