CN112711768B - 一种基于人工智能的核心数据轨迹画像生成方法及系统 - Google Patents

一种基于人工智能的核心数据轨迹画像生成方法及系统 Download PDF

Info

Publication number
CN112711768B
CN112711768B CN202110328733.8A CN202110328733A CN112711768B CN 112711768 B CN112711768 B CN 112711768B CN 202110328733 A CN202110328733 A CN 202110328733A CN 112711768 B CN112711768 B CN 112711768B
Authority
CN
China
Prior art keywords
data
annotation
labeled
labeling
track
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110328733.8A
Other languages
English (en)
Other versions
CN112711768A (zh
Inventor
王文宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Shuanhang Technology Co ltd
Original Assignee
Beijing Shuanhang Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Shuanhang Technology Co ltd filed Critical Beijing Shuanhang Technology Co ltd
Priority to CN202110328733.8A priority Critical patent/CN112711768B/zh
Publication of CN112711768A publication Critical patent/CN112711768A/zh
Application granted granted Critical
Publication of CN112711768B publication Critical patent/CN112711768B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/604Tools and structures for managing or administering access control systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Bioethics (AREA)
  • Automation & Control Theory (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种基于人工智能的核心数据轨迹画像生成方法及系统。管理员通过对样本数据进行人工智能分析得到样本数据特征,并从所述样本数据特征中选出预置数据特征,所述样本数据包括结构化数据、半结构化数据以及非结构化数据,所述预置数据特征用于表示核心数据的数据特征;在通过所述预置数据特征确定目标数据为核心数据的情况下,在所述目标数据被使用的过程中,记录所述目标数据的标注数据,并生成对应的轨迹记录;获取标注数据的所有轨迹记录,按时序建立标注数据的轨迹画像。本申请解决了相关技术中不能对数据流动过程进行整体的轨迹画像的技术问题。

Description

一种基于人工智能的核心数据轨迹画像生成方法及系统
技术领域
本申请涉及信息安全领域,具体而言,涉及一种基于人工智能的核心数据轨迹画像生成方法及系统。
背景技术
在传统的企业中,数据的使用频率较低,数据的流动范围较小,使用数据业务不多,因此,接触数据的员工时长局限于特定的范围中,企业管理者对数据的管控方式相对简单,比如通过防火墙类、数据库类、加密类、DLP类等传统安全手段保护。
传统安全手段重在边界防护或者静态存储防护,没有对数据流动过程进行整体的轨迹画像,企业管理者要获得数据的流动视图,并没有有效的手段。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种基于人工智能的核心数据轨迹画像生成方法及系统,以至少解决相关技术中不能对数据流动过程进行整体的轨迹画像的技术问题。
根据本申请实施例的一个方面,提供了一种基于人工智能的核心数据轨迹画像生成方法,包括:1)管理员通过人工智能分析样本数据(此处的管理员人工执行的过程可以通过机器自动运行来替代,下文提及的管理员人工执行的过程同样也可通过机器自动运行来替代),获得样本数据特征,样本数据的格式包括但不限于结构化数据、半结构化数据、非结构化数据;对样本数据的人工智能分析包括基础内容分析、主题分析、语义分析、社会分类分析、用户自定义分类分析;2)管理员选择样本数据特征,所选择的样本数据特征作为预置数据特征;3)对于用户所关注的目标数据,将目标数据的数据特征与预置数据特征进行对比,识别目标数据是否是核心数据,其中,目标数据支持所有格式,包括但不限于结构化数据、半结构化数据、非结构化数据;所操作数据支持所有形态,包括但不限于数据流形态、数据片段形态以及文档的形态;4)用户改变标注数据的形态,获得数据标注的内容,并进一步获得标注信息,产生标注数据的轨迹记录。其中,改变标注数据的形态,包括但不限于数据在结构化数据、半结构化数据、非结构化数据之间的改变;数据由文档形态转为数据流、数据片段的形态;数据由一种文档形态转存为另外一种或多种文档形态;数据由一种文档形态多次连续转存为其他多种文档形态(多次连续转存为其他多种文档形态可以为每次转存为一种文档形态,连续两次转存的形态不同);5)用户删除标注数据或恢复已删除的标注数据,获得数据标注的内容,产生标注数据的轨迹记录;6)用户转存标注数据,获得数据标注的内容,产生标注数据的轨迹记录。其中,用户转存标注数据的形态,包括但不限于对数据流或数据片段形态的标注数据的转存;对文档形态的标注数据的转存;用户转移标注数据的方式,包括但不限于在不同应用空间的内存之间的转移以及存储介质之间(如内存与其他存储介质)的转移;7)标注数据在互联网中传播,获得数据标注的内容,产生标注数据的轨迹记录;8)标注数据的所有轨迹记录,按时序建立标注数据的轨迹画像。
可选地,人工智能分析,包含样本数据的基础内容分析,主题分析,语义分析,社会分类分析,用户自定义分类分析。
可选地,数据特征,包含数据的基础内容特征,主题,语义,社会分类和用户自定义分类。
可选地,样本数据特征,按照如下方法获取:1)管理员选择样本数据,样本数据包括结构化数据,半结构化数据,非结构化数据;2)通过人工智能分析样本数据,获得样本数据特征;3)管理员继续选择新的样本数据;4)通过人工智能分析样本数据,增量获得样本数据特征。
可选地,预置数据特征包括对样本数据特征择取、组合,以获得的预置数据特征。
可选地,对用户的目标数据,识别目标数据是否核心数据,按照如下方法识别:1)用户的新数据包括但不限于结构化数据、半结构化数据、非结构化数据;包括但不限于数据流形态、数据片段形态以及文档的形态;2)通过人工智能分析新数据,获得新数据的数据特征;3)通过人工智能对比新数据的数据特征和预置数据特征;4)新数据的数据特征与预置数据特征一致,新数据属于核心数据;5)新数据的数据特征与预置数据特征不一致,新数据不属于核心数据;6)用户改变已存在的数据的形态,包括但不限于结构化数据、半结构化数据、非结构化数据;包括但不限于数据流形态、数据片段形态以及文档的形态;7)通过人工智能分析已存在的数据,获得已存在的数据的数据特征;8)通过人工智能对比已存在的数据的数据特征和预置数据特征;9)已存在的数据的数据特征与预置数据特征一致,现存数据属于核心数据;10)现存数据的数据特征与预置数据特征不一致,现存数据不属于核心数据。
可选地,数据标注,包括数据流、数据段落和文档的标注;对所有数据透明标注,包括结构化数据、半结构化数据、非结构化数据;数据标注不改变数据的内容、格式。
可选地,标注信息包括核心数据的数据特征,用户的名称,用户的唯一标识,用户的机器IP、MAC,数据标注的时间,用户的地理位置。
可选地,数据标注的内容包括防伪标注密钥、防伪标注信息和标注校验值。防伪标注密钥是随机数和用户的唯一标识的哈希值;使用访问标注密钥对标注信息进行加密,获得防伪标注基础信息;使用随机数和防伪标注密钥的哈希值作为标注校验值。
可选地,对已识别为核心数据的数据进行数据标注,按照如下方法标注:1)识别当前数据为核心数据;2)生成标注信息,并进一步生成数据标注的内容;3)使用数据标注的内容对核心数据进行数据标注,获得标注数据,核心数据与数据标注的内容建立映射;4)标注数据支持所有格式,包括但不限于结构化数据、半结构化数据、非结构化数据;标注数据支持所有形态,包括但不限于数据流形态、数据片段形态以及文档的形态;标注数据不改变数据的内容、格式;5)数据标注的内容,保存为标注数据的标注记录。
可选地,获得标注信息,按照如下方法获得:1)根据标注数据,获得数据标注的内容;2)从数据标注的内容中,读取防伪标注密钥、防伪标注信息和标注校验值;3)使用防伪标注密钥与标注校验值进行校验,校验结果正确;4)使用防伪标注密钥解密防伪标注信息,获得标注信息;5)使用防伪标注密钥与标注校验值进行校验,校验结果错误;6)不能获得标注信息。
可选地,标注数据的轨迹记录,包括如下信息:1)标注数据的标注信息和标注数据的当前轨迹信息;2)标注数据的当前轨迹信息含标注数据的数据特征、当前标注数据的地理位置、当前标注数据的虚拟位置、当前操作标注数据的用户名称、当前操作标注数据的机器IP(网际互连协议IP是Internet Protocol的缩写)、MAC(是Media Access ControlAddress的缩写)、当前操作标注数据的时间,其中,当前标注数据的虚拟位置,包括标注数据所在的互联网IP、网址;3)建立标注数据的当前轨迹信息和标注数据的映射。
可选地,用户改变标注数据的格式,按照如下方法获得标注数据的轨迹记录:1)用户通过应用软件将结构化的标注数据,转为非结构化的数据;2)从非结构化的数据中获得标注数据的标注信息,生成并记录标注数据的轨迹记录;3)用户通过应用软件将非结构化的标注数据,转为结构化的数据;4)从结构化的数据中获得标注数据的标注信息,生成并记录标注数据的轨迹记录;5)用户通过应用软件将标注数据从当前的文件格式,转为新的文件格式;6)从新的文件格式中获得标注数据的标注信息,生成并记录标注数据的轨迹记录。
可选地,用户删除标注数据或恢复已删除的标注数据,按照如下方法获得标注数据的轨迹记录:1)用户删除标注数据;2)在删除标注数据前,获得标注数据的标注信息,生成并记录标注数据的轨迹记录;3)用户恢复已删除的标注数据;4)恢复已删除的标注数据后,获得标注数据的标注信息,生成并记录标注数据的轨迹记录。
可选地,用户转存标注数据,按照如下方法获得标注数据的轨迹记录:1)用户将标注数据从一个应用空间的内存转到另外一个应用空间的内存;2)在内存转存过程中,获得标注数据的标注信息,生成并记录标注数据的轨迹记录;3)用户将标注数据从内存转到存储介质;4)获得存储截止的标注数据的标注信息,生成并记录标注数据的轨迹记录。
可选地,标注数据在互联网中传播,按照如下方法获得标注数据的轨迹记录:1)标注数据在互联网中传播;2)通过人工智能分析获得互联网上存在的标注数据的标注信息,包括直接从一个网址转存到另外一个网址的标注数据、经过数据片段删减后从一个网址转存到另外一个网址的标注数据、数据片段修改后从一个网址转存到另外一个网址的标注数据、数据中的数据片段被部分截取并和其他网页内容混杂后的转存的标注数据、数据经由加密、压缩处理后从一个网址转存到另外一个网址的标注数据;3)生成并记录标注数据的轨迹记录。
根据本申请实施例的另一方面,还提供了一种基于人工智能的核心数据轨迹画像的生成装置,包括:分析处理模块,用于通过对样本数据进行人工智能分析得到样本数据特征,并从样本数据特征中选出预置数据特征,样本数据包括结构化数据、半结构化数据以及非结构化数据,人工智能分析包括基础内容分析、主题分析、语义分析、社会分类分析以及用户自定义分类分析中的至少之一,预置数据特征用于表示核心数据的数据特征;轨迹生成模块,用于在通过预置数据特征确定目标数据为核心数据的情况下,在目标数据被使用的过程中,记录目标数据的标注数据,并生成对应的轨迹记录;关联建立模块,用于获取标注数据的所有轨迹记录,按时序建立标注数据的轨迹画像。
根据本申请实施例的另一方面,还提供了一种基于人工智能的核心数据轨迹画像生成系统,包括:包括人工智能分析子系统、核心数据标注轨迹画像子系统和核心数据轨迹画像平台:人工智能分析子系统,用于对样本数据进行人工智能分析,获得样本数据特征;对用户通过应用软件操作数据、用户通过业务系统客户端或浏览器下载数据进行人工智能分析,获得数据特征,至少包括以下单元:样本数据特征分析单元:分析样本数据特征;目标数据特征分析单元:分析用户的目标数据特征。核心数据标注轨迹画像子系统用于核心数据的识别、标注和轨迹记录,至少包括以下单元:核心数据识别单元:对比预置数据特征与用户操作数据的数据特征,识别核心数据;核心数据标注单元:对核心数据进行数据标注,获得标注数据;核心数据轨迹记录单元:使用标注数据时,获得标注数据的轨迹记录,传至核心数据轨迹画像平台。核心数据轨迹画像平台,用于管理样本数据特征,构建预置数据特征,并将样本数据特征分发到核心数据标注子系统,收集并展示标注数据的标注记录和标注数据的轨迹记录,至少包括以下单元:人工智能数据特征管理单元:管理样本数据特征,构建预置数据特征,分发样本数据特征到核心数据标注子系统;核心数据轨迹画像单元:展示标注数据的标注记录和标注数据的轨迹记录,按时序形成轨迹画像。
采用本申请的技术方案,可实现如下效果:
第一,在人工智能分析子系统中,管理员通过人工智能分析子系统对样本数据进行分析,获得样本数据特征;管理员对样本数据特征进行择取,组合,获得预置数据特征,并将预置的数据特征提交到核心数据追踪平台;第二,在核心数据标注轨迹画像子系统中,对用户的目标数据自动进行人工智能的识别,识别核心数据,对核心数据进行数据标注;第三,在核心数据标注轨迹画像子系统中,核心数据的标注包括结构化数据、半结构化数据和非结构化数据;对不同形态的数据可进行标注,包括数据流、数据片段或文档数据;第四,在核心数据标注轨迹画像子系统中,用户通过应用软件对标注数据进行形态的改变,或者对标注数据进行删除,或者恢复已删除的标注数据,或者转存标注数据,核心数据标注轨迹画像子系统自动识别标注信息,生成标注数据的轨迹记录,并传输到核心数据追踪平台;第五,在核心数据标注轨迹画像子系统中,获得在互联网中传播的数据标注的内容,生成标注数据的轨迹记录,并传输到核心数据追踪平台;第六,在核心数据轨迹画像平台中,展示标注数据的轨迹记录,按时序形成标注数据的轨迹画像。
通过这些安全措施,一方面保证企业管理者掌握核心数据的使用、流动;另一方面用户在使用数据时,不影响用户的业务,在保证数据安全的同时,不改变用户的使用习惯。和相关技术相比,本申请的优势在于:
本申请基于人工智能分析,可帮助企业从大量数据中识别核心数据,自动进行数据标注。标注数据涵盖对结构化数据、半结构化数据、非结构化数据的标注,包括对数据流、数据片段以及各种文档的标注,并且不改变数据的内容、格式,不影响用户对数据的使用。用户通过应用软件使用数据,都能对标注数据进行轨迹记录,从而获得数据的轨迹画像。本申请在识别核心数据方面实现智能化,极大的方便管理者有针对性的关注重点数据;在数据标注方面,支持所有形态、格式的数据的标注,真正形成数据的全流程轨迹画像,解决企业对数据失控的问题,帮助管理者掌握内部数据的总体状态。可以解决相关技术中不能对数据流动过程进行整体的轨迹画像的技术问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的基于人工智能的核心数据轨迹画像系统的示意图;
图2是根据本申请实施例的一种可选的人工智能分析样本数据特征的流程图;
图3是根据本申请实施例的一种可选的核心数据识别流程的流程图;
图4是根据本申请实施例的一种可选的数据标注流程的流程图;
图5是根据本申请实施例的一种可选的数据标注的内容的示意图;
图6是根据本申请实施例的一种可选的获取标注信息的流程图;以及,
图7是根据本申请实施例的一种可选的轨迹画像流程的流程图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
发明人经过对相关技术进行分析认识到:随着数字化转型的推进,企业需要充分发挥数据自身的价值,相应的,数据的使用频率大大提升,流动范围扩大化,几乎所有业务都与数据有关,而接触数据的员工可能分散到每个人,可见,掌控数据的使用、流动情况尤为重要,这也成为企业管理者亟需解决的问题。尤其是包含企业核心信息的数据,这些数据的使用、流动是否安全,企业管理者如果一直没有掌控方法,这对企业发展是极大的威胁。针对数据使用、流动,各企业采取了不同的措施,主要可分为三类:
1)不清楚数据是不是核心数据,为了保证数据安全,先将数据封存起来,不给员工使用,这种措施下,企业数据本身的价值得不到利用,对于企业来讲是严重的成本消耗,数据只有使用才能发挥价值,封存数据对企业来讲不是长久之计;2)为了发挥数据的价值,不关注数据的流动,直接让员工使用数据,这种措施下,企业对数据失去掌控,一旦数据遭受安全威胁,不能根据轨迹搜索数据的源头;3)尝试从传统的安全手段中选择方法,如上所述,传统的安全手段不能对数据进行标注轨迹画像,企业管理者找不到合适的方法实现业务上的诉求,因此,核心数据标注轨迹画像,是传统企业和数字化转型企业获得数据使用、流动情况,掌控数据安全的重要手段。
基于数据量大、数据格式多样、数据内容丰富以及数据广泛流动的特点,决定了对核心数据标注轨迹画像具有其特殊性。目前,对核心数据标注轨迹画像,具有以下局限性:
1)通过人工阅读数据,识别哪些是核心数据,这对少量数据可行,但数据量大,人工无法完成;2)借助通过关键字、正则表达式等常规手段识别核心数据,这对内容简单的数据可行,但数据内容多、丰富,这种方法的可靠性没有保障;3)标注数据需要人工标注,一方面工作量巨大,对数据量大的企业不可控,另一方面标注结果依赖个人主观意识,不能保证标注的稳定性;4)标注数据时改变了数据的内容或格式,企业业务需要不能更改数据格式,标注数据内容或格式发生改变,不能适应企业的业务使用场景的需要;5)标注数据在原数据中嵌入非规范的格式数据,标注数据容易被报告病毒,轨迹被中断;6)标注数据对数据原始格式类型有限制,仅支持特定的格式类型,比如限制数据是结构化数据才能标注,或者限制数据存储为指定办公文档才能标注;7)标注数据限制文档形式,需要将数据存储为文档格式,才能标注,对数据流、数据片段不能标注;8)轨迹不全,不能获得数据所有流动轨迹的整体画像。
本申请在不改变数据内容、格式,不影响用户业务的前提下,让企业可以全面掌控所有核心数据的使用、流动。对核心数据的识别、标注,是由人工智能自动完成,不需要用户手动参与。本申请对所有结构化数据、半结构化数据、非结构化数据进行标注、轨迹画像,当数据以数据流、数据片段、各种文档形态流动时,都进行标注、轨迹画像。本申请在实现核心数据标注轨迹画像的同时,不影响用户的业务,在保证数据安全的同时,不改变用户的使用习惯。
如图1所示,为基于人工智能的核心数据轨迹画像系统中组成单元示意图。本申请提供了一种基于人工智能的核心数据轨迹画像系统,包括:
核心数据轨迹画像平台包括:人工智能数据特征管理单元,用于管理员管理样本数据特征,管理员通过样本数据特征分析单元获取样本数据特征,样本数据特征汇聚到人工智能数据特征管理单元,由管理员对样本数据特征进行择取、整合,建立预置数据特征,并限定核心数据的识别方法;核心数据轨迹画像单元:收集标注数据的轨迹记录,展示标注信息、轨迹记录,按时序形成轨迹画像。
人工智能分析子系统包括:样本数据特征分析单元:管理员将样本数据导入样本数据特征分析单元,通过人工智能综合分析数据获得样本数据特征,样本数据特征统一汇聚到核心数据轨迹画像平台,由管理员进行统一管理;目标数据特征分析单元:用户的目标数据经过数据特征分析单元自动对目标数据进行人工智能分析,获得目标数据的数据特征,不管目标数据本身是结构化数据、半结构化数据还是非结构化数据,不管数据是数据流、数据片段还是文档形式的数据,数据特征分析单元都能通过人工智能分析获得数据特征。
核心数据标注轨迹画像子系统包括:核心数据识别单元:当用户使用数据时,识别用户所操作的数据是否核心数据,识别核心数据的方式是通过操作数据的数据特征与预置数据特征自动对比,识别数据是否核心数据;核心数据标注单元:用户操作的数据是核心数据时,核心数据标注单元对当前数据进行标注,标注数据不改变数据的内容、格式;核心数据轨迹记录单元:用户使用标注数据时,核心数据轨迹记录单元自动获得数据的标注信息,形成轨迹记录,传至核心数据轨迹画像平台。
本申请还提供了上述基于人工智能的核心数据轨迹画像系统的工作方法,管理员通过人工智能分析子系统,分析样本数据,获得样本数据特征。样本数据特征汇聚到核心数据轨迹画像平台,管理员对样本数据特征进行择取、整合,创建预置数据特征,分发给用户。工作方法步骤如下:
1)用户在安装核心数据标注轨迹画像子系统和人工智能分析子系统后,获得用户的目标数据的数据特征,将目标数据的特征与预置数据特征对比,识别目标数据是否核心数据。
2)用户在安装核心数据标注轨迹画像子系统和人工智能分析子系统后,识别用户的目标数据是核心数据,对核心数据进行数据标注。
3)用户在安装核心数据标注轨迹画像子系统和人工智能分析子系统后,使用标注数据。
如:用户通过应用软件改变标注数据的形态,从标注数据中获得标注信息,形成轨迹记录,上传到核心数据轨迹画像平台;用户删除标注数据,从标注数据中获得标注信息,形成轨迹记录,上传到核心数据轨迹画像平台;对互联网中出现的标注数据,从标注数据中获得标注信息,形成轨迹记录,上传到核心数据轨迹画像平台。
通过对结构化数据、半结构化数据、非结构化数据进行核心数据识别、标注和轨迹记录,形成核心数据的轨迹画像。轨迹画像覆盖数据的形态改变,删除及恢复,数据在互联网的传播等各流动方法。以下结合附图对流程进行详细的说明。
将核心数据轨迹画像平台、人工智能分析子系统、核心数据标注轨迹画像子系统分别安装在不同的计算机中。其中,核心数据轨迹画像平台安装到中心计算机上由管理员控制,人工智能分析子系统、核心数据标注轨迹画像子系统安装到用户计算机中。下面详细说明基于人工智能的核心数据轨迹画像系统的工作方法。
第一,配置预置数据特征。
管理员将样本数据导入人工智能分析子系统,通过人工智能分析子系统的自动分析,获得样本数据特征。管理员将样本数据特征,集中汇聚到核心数据轨迹画像平台,并配置与之数据特征。如图2所示,人工智能分析样本数据特征流程如下:
步骤201,管理员将样本数据导入到人工智能分析子系统。
步骤202,通过人工智能分析子系统,提取样本数据的样本数据特征。
步骤203,将样本数据特征汇聚到核心数据轨迹画像平台。
步骤204,管理员通过核心数据轨迹画像平台整合样本数据特征。
步骤205,管理员样本数据特征构建预置数据特征。
步骤206,配置预置数据特征,管理员将预置数据特征分发至用户计算机。
第二,识别核心数据。
对用户需要识别的目标数据进行识别。如图3所示的核心数据识别流程,步骤301至步骤303是一种识别情况,判断所操作的数据是否核心数据:
步骤301,用户需要识别的新数据(即目标数据,可以为使用应用软件创建的新数据)。
步骤302,人工智能分析子系统提取新数据的数据特征。
步骤303,对比新数据的数据特征与预置数据特征,若对比结果一致,则确定新创建的数据识别为核心数据。
第三,核心数据标注。
用户的目标数据是核心数据,核心数据标注轨迹画像子系统对核心数据进行标注。核心数据可以是结构化数据、半结构化数据、非结构化数据;核心数据的形态可以是数据流、数据片段和各种文档。如图4所示的数据标注流程:
步骤401,确定用户的目标数据是核心数据。
步骤402,获取核心数据的数据特征。
步骤403,获取当前操作核心数据的用户的信息,包括用户名称,用户唯一标识。
步骤404,获取当前操作核心数据的用户所在机器的信息,包括IP,MAC。
步骤405,获取用户操作核心数据的当前时间。
步骤406,获取当前用户所在的地理位置。
步骤407,将上述的信息整合,创建数据标注的内容,数据标注的内容如图5所示。
步骤408,对核心数据进行标注。
第四,识别标注数据。
用户通过改变数据形态,核心数据标注轨迹画像子系统自动识别当前数据是否标注数据。如图6所示的获取标注信息流程:
步骤601,用户通过应用软件改变数据的形态。
步骤602,检查数据是否是标注数据,若是则执行步骤604,否则执行步骤603。
步骤603,若当前使用数据不是标注数据,则退出程序。
步骤604,若当前使用数据是标注数据,则读取数据标注的内容。
步骤605,从数据标注的内容中,获得防伪标注密钥、防伪标注信息和标注校验值,并使用防伪标注密钥与标注校验值进行校验。
步骤606,判断校验结果是否正确,若是正确则执行步骤607,继续获取标注信息,若校验结果错误,则不能获得标注信息,执行步骤603。
步骤607,使用防伪标注密钥解密防伪标注信息。
步骤608,获得标注信息。
第五,记录标注数据的轨迹。
用户通过应用软件使用标注数据,核心数据标注轨迹画像子系统从标注数据中获取标注信息,形成轨迹记录,上传到核心数据轨迹画像平台。如图7所示的轨迹画像流程:
步骤701,用户通过应用软件使用标注数据,如改变数据形态,转存标注数据、删除数据或恢复已删除数据。
步骤702,判断是否获得标注信息,若是则执行步骤704,继续获得轨迹,否则执行步骤703。
步骤703,未获得标注信息,则退出程序,不允许用户使用标注数据。
步骤704,获得标注信息的轨迹记录。
步骤705,建立轨迹信息和标注数据的映射。
步骤706,将轨迹记录上传到核心数据轨迹画像平台。
步骤707,核心数据轨迹画像平台自动整合轨迹记录。
步骤708,核心数据轨迹画像平台建立标注数据轨迹画像,管理员可通过核心数据轨迹画像平台掌控数据。
根据本申请实施例的另一个方面,还提供了一种用于实施上述方法的装置。该装置可以包括:分析处理模块,用于通过对样本数据进行人工智能分析得到样本数据特征,并从样本数据特征中选出预置数据特征,样本数据包括结构化数据、半结构化数据以及非结构化数据,人工智能分析包括基础内容分析、主题分析、语义分析、社会分类分析以及用户自定义分类分析中的至少之一,预置数据特征用于表示核心数据的数据特征;轨迹生成模块,用于在通过预置数据特征确定目标数据为核心数据的情况下,在目标数据被使用的过程中,记录目标数据的标注数据,并生成对应的轨迹记录;关联建立模块,用于获取标注数据的所有轨迹记录,按时序建立标注数据的轨迹画像。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (9)

1.一种基于人工智能的核心数据轨迹画像生成方法,其特征在于,包括:
通过对样本数据进行人工智能分析得到样本数据特征,并从所述样本数据特征中选出预置数据特征,所述样本数据包括结构化数据、半结构化数据以及非结构化数据,所述人工智能分析包括基础内容分析、主题分析、语义分析、社会分类分析以及用户自定义分类分析中的至少之一,所述预置数据特征用于表示核心数据的数据特征;
在通过所述预置数据特征确定目标数据为核心数据的情况下,在目标数据被使用的过程中,记录目标数据的标注数据,并生成对应的轨迹记录;
获取标注数据的所有轨迹记录,按时序建立标注数据的轨迹画像;
在通过所述预置数据特征确定目标数据为核心数据的情况下,在目标数据被使用的过程中,记录目标数据的标注数据,并生成对应的轨迹记录包括:
将用户需获得轨迹画像的数据作为目标数据并提取目标数据的数据特征,将目标数据的数据特征与所述预置数据特征进行对比,以识别目标数据是否是为核心数据;在根据所述预置数据特征识别出目标数据是核心数据的情况下,生成标注信息,根据所述标注信息生成数据标注的内容,并使用数据标注的内容对目标数据进行数据标注,得到标注数据;生成标注数据的标注记录和轨迹记录;
检测到用户改变标注数据的形态,获得标注数据的数据标注的内容;根据数据标注的内容获得标注信息;产生标注数据的轨迹记录;改变标注数据的形态包括数据在结构化数据、半结构化数据以及非结构化数据之间的改变、数据由文档形态转为数据流或数据片段的形态、数据由一种文档形态转存为另外一种或多种文档形态、数据由一种文档形态多次连续转存为其他多种文档形态;
检测到用户在删除标注数据或删除标注数据中的片段后恢复已删除的标注数据或恢复标注数据中的片段,获得标注数据的数据标注的内容;产生标注数据的轨迹记录;
检测到用户转移标注数据,获得标注数据的数据标注的内容;产生标注数据的轨迹记录;转移标注数据包括数据在不同应用空间的内存之间转移、数据在存储介质之间的转移;
检测到标注数据在互联网中传播,获得标注数据的数据标注的内容;产生标注数据的轨迹记录;标注数据在互联网中的传播包括数据直接从一个网址转存到另外一个网址,数据进行数据片段删减后从一个网址转存到另外一个网址,数据中的数据片段修改后从一个网址转存到另外一个网址,数据中的数据片段被部分截取并和其他网页内容混杂后的转存,数据经由加密或压缩处理后从一个网址转存到另外一个网址。
2.根据权利要求1所述的方法,其特征在于,
所述标注信息包括目标数据的数据特征、用户名称、用户的唯一标识、用户的机器IP地址、用户的机器MAC地址、数据标注的时间、用户的地理位置;
所述数据标注的内容包括防伪标注密钥、防伪标注信息以及标注校验值,所述防伪标注密钥是随机数和用户的唯一标识的哈希值,所述防伪标注信息是使用防伪标注密钥对所述标注信息进行加密获得的防伪标注基础信息,所述标注校验值是随机数和防伪标注密钥的哈希值;
标注数据的轨迹记录包括标注数据的标注信息和标注数据的当前轨迹信息,所述标注数据的当前轨迹信息包括标注数据的数据特征、标注数据的当前地理位置、标注数据的当前虚拟位置、当前操作标注数据的用户名称、当前操作标注数据的机器IP地址、当前操作标注数据的机器MAC地址以及当前操作标注数据的时间,当前标注数据的虚拟位置包括标注数据所在的互联网IP和网址,标注数据的当前轨迹信息和标注数据之间具备映射关系。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对用户的目标数据,按照如下方式对目标数据进行标注:生成标注信息,根据所述标注信息生成数据标注的内容,并使用数据标注的内容对目标数据进行数据标注,得到标注数据,所述标注数据不改变目标数据的内容和格式;建立目标数据与所述数据标注的内容之间的映射;将所述数据标注的内容保存为所述标注数据的标注记录。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在检测到用户改变标注数据的形态时,根据数据标注的内容获得标注信息包括:根据标注数据获得数据标注的内容;从数据标注的内容中读取防伪标注密钥、防伪标注信息以及标注校验值;使用防伪标注密钥与标注校验值进行校验;在校验结果正确的情况下,使用防伪标注密钥解密防伪标注信息,以获得标注信息。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在检测到用户删除标注数据或恢复已删除的标注数据时,按照如下方式获得标注数据的轨迹记录:在删除标注数据前,获得标注数据的标注信息,生成并记录标注数据的轨迹记录;或在用户恢复已删除的标注数据后,获得标注数据的标注信息,生成并记录标注数据的轨迹记录。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在检测到用户转移标注数据时,按照如下方式获得标注数据的轨迹记录:在用户将标注数据从一个应用空间的内存中转存到另外一个应用空间的内存中时,获得标注数据的标注信息,生成并记录标注数据的轨迹记录;在用户将标注数据从一个应用空间的内存中转存到存储介质中时,获得标注数据的标注信息,生成并记录标注数据的轨迹记录。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在检测到标注数据在互联网中传播时,按照如下方式获得标注数据的轨迹记录:在标注数据在互联网中传播的过程中,通过人工智能分析获得互联网上存在的标注数据的标注信息;生成并记录标注数据的轨迹记录。
8.一种基于人工智能的核心数据轨迹画像生成装置,其特征在于,包括:
分析处理模块,用于通过对样本数据进行人工智能分析得到样本数据特征,并从所述样本数据特征中选出预置数据特征,所述样本数据包括结构化数据、半结构化数据以及非结构化数据,所述人工智能分析包括基础内容分析、主题分析、语义分析、社会分类分析以及用户自定义分类分析中的至少之一,所述预置数据特征用于表示核心数据的数据特征;
轨迹生成模块,用于在通过所述预置数据特征确定目标数据为核心数据的情况下,在目标数据被使用的过程中,记录目标数据的标注数据,并生成对应的轨迹记录;
关联建立模块,用于获取标注数据的所有轨迹记录,按时序建立标注数据的轨迹画像;
在通过所述预置数据特征确定目标数据为核心数据的情况下,在目标数据被使用的过程中,记录目标数据的标注数据,并生成对应的轨迹记录包括:
将用户需获得轨迹画像的数据作为目标数据并提取目标数据的数据特征,将目标数据的数据特征与所述预置数据特征进行对比,以识别目标数据是否是为核心数据;在根据所述预置数据特征识别出目标数据是核心数据的情况下,生成标注信息,根据所述标注信息生成数据标注的内容,并使用数据标注的内容对目标数据进行数据标注,得到标注数据;生成标注数据的标注记录和轨迹记录;
检测到用户改变标注数据的形态,获得标注数据的数据标注的内容;根据数据标注的内容获得标注信息;产生标注数据的轨迹记录;改变标注数据的形态包括数据在结构化数据、半结构化数据以及非结构化数据之间的改变、数据由文档形态转为数据流或数据片段的形态、数据由一种文档形态转存为另外一种或多种文档形态、数据由一种文档形态多次连续转存为其他多种文档形态;
检测到用户在删除标注数据或删除标注数据中的片段后恢复已删除的标注数据或恢复标注数据中的片段,获得标注数据的数据标注的内容;产生标注数据的轨迹记录;
检测到用户转移标注数据,获得标注数据的数据标注的内容;产生标注数据的轨迹记录;转移标注数据包括数据在不同应用空间的内存之间转移、数据在存储介质之间的转移;
检测到标注数据在互联网中传播,获得标注数据的数据标注的内容;产生标注数据的轨迹记录;标注数据在互联网中的传播包括数据直接从一个网址转存到另外一个网址,数据进行数据片段删减后从一个网址转存到另外一个网址,数据中的数据片段修改后从一个网址转存到另外一个网址,数据中的数据片段被部分截取并和其他网页内容混杂后的转存,数据经由加密或压缩处理后从一个网址转存到另外一个网址。
9.一种基于人工智能的核心数据轨迹画像生成系统,其特征在于,包括人工智能分析子系统、核心数据标注轨迹画像子系统和核心数据轨迹画像平台:
所述人工智能分析子系统,用于对样本数据进行人工智能分析,获得所述样本数据的数据特征;对用户需获得轨迹画像的目标数据进行人工智能分析,获得目标数据的数据特征;
所述核心数据标注轨迹画像子系统,用于进行核心数据的识别、标注和轨迹记录;
所述核心数据轨迹画像平台,用于管理所述样本数据的数据特征,构建预置数据特征,并将所述样本数据的数据特征分发到核心数据标注轨迹画像子系统,收集并展示标注数据的标注记录和所述标注数据的轨迹记录;
在通过所述预置数据特征确定目标数据为核心数据的情况下,在目标数据被使用的过程中,记录目标数据的标注数据,并生成对应的轨迹记录包括:
将用户需获得轨迹画像的数据作为目标数据并提取目标数据的数据特征,将目标数据的数据特征与所述预置数据特征进行对比,以识别目标数据是否是为核心数据;在根据所述预置数据特征识别出目标数据是核心数据的情况下,生成标注信息,根据所述标注信息生成数据标注的内容,并使用数据标注的内容对目标数据进行数据标注,得到标注数据;生成标注数据的标注记录和轨迹记录;
检测到用户改变标注数据的形态,获得标注数据的数据标注的内容;根据数据标注的内容获得标注信息;产生标注数据的轨迹记录;改变标注数据的形态包括数据在结构化数据、半结构化数据以及非结构化数据之间的改变、数据由文档形态转为数据流或数据片段的形态、数据由一种文档形态转存为另外一种或多种文档形态、数据由一种文档形态多次连续转存为其他多种文档形态;
检测到用户在删除标注数据或删除标注数据中的片段后恢复已删除的标注数据或恢复标注数据中的片段,获得标注数据的数据标注的内容;产生标注数据的轨迹记录;
检测到用户转移标注数据,获得标注数据的数据标注的内容;产生标注数据的轨迹记录;转移标注数据包括数据在不同应用空间的内存之间转移、数据在存储介质之间的转移;
检测到标注数据在互联网中传播,获得标注数据的数据标注的内容;产生标注数据的轨迹记录;标注数据在互联网中的传播包括数据直接从一个网址转存到另外一个网址,数据进行数据片段删减后从一个网址转存到另外一个网址,数据中的数据片段修改后从一个网址转存到另外一个网址,数据中的数据片段被部分截取并和其他网页内容混杂后的转存,数据经由加密或压缩处理后从一个网址转存到另外一个网址。
CN202110328733.8A 2021-03-27 2021-03-27 一种基于人工智能的核心数据轨迹画像生成方法及系统 Active CN112711768B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110328733.8A CN112711768B (zh) 2021-03-27 2021-03-27 一种基于人工智能的核心数据轨迹画像生成方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110328733.8A CN112711768B (zh) 2021-03-27 2021-03-27 一种基于人工智能的核心数据轨迹画像生成方法及系统

Publications (2)

Publication Number Publication Date
CN112711768A CN112711768A (zh) 2021-04-27
CN112711768B true CN112711768B (zh) 2021-06-04

Family

ID=75550298

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110328733.8A Active CN112711768B (zh) 2021-03-27 2021-03-27 一种基于人工智能的核心数据轨迹画像生成方法及系统

Country Status (1)

Country Link
CN (1) CN112711768B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107944761A (zh) * 2017-12-18 2018-04-20 广东广业开元科技有限公司 基于人工智能消费维权指数企业投诉预警监测分析方法
CN108509274A (zh) * 2018-03-28 2018-09-07 厦门益东智能科技有限公司 一种基于区块链数据自动标注与智能分析的方法及系统
CN110008306A (zh) * 2019-04-04 2019-07-12 北京易华录信息技术股份有限公司 一种数据关系分析方法、装置及数据服务系统
CN111125124A (zh) * 2019-11-18 2020-05-08 云知声智能科技股份有限公司 一种基于大数据平台的语料标注的方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10545967B2 (en) * 2014-09-25 2020-01-28 Siemens Aktiengesellschaft Control apparatus of an automation system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107944761A (zh) * 2017-12-18 2018-04-20 广东广业开元科技有限公司 基于人工智能消费维权指数企业投诉预警监测分析方法
CN108509274A (zh) * 2018-03-28 2018-09-07 厦门益东智能科技有限公司 一种基于区块链数据自动标注与智能分析的方法及系统
CN110008306A (zh) * 2019-04-04 2019-07-12 北京易华录信息技术股份有限公司 一种数据关系分析方法、装置及数据服务系统
CN111125124A (zh) * 2019-11-18 2020-05-08 云知声智能科技股份有限公司 一种基于大数据平台的语料标注的方法及装置

Also Published As

Publication number Publication date
CN112711768A (zh) 2021-04-27

Similar Documents

Publication Publication Date Title
Raghavan Digital forensic research: current state of the art
CN104488277B (zh) 用于监测媒体呈现的方法和装置
JP4859549B2 (ja) 管理用シンボルを用いた情報管理方法、及び情報管理サーバ
US20080201299A1 (en) Method and System for Managing Metadata
US20020152262A1 (en) Method and system for preventing the infringement of intellectual property rights
US20140013112A1 (en) Encrypting files within a cloud computing environment
CN105912587A (zh) 一种数据采集方法和系统
WO2006011900A2 (en) Method and system for managing metadata
KR20090039405A (ko) 태그 정보의 처리방법 및 이를 구현하는 클라이언트-서버시스템
CN104123197B (zh) 未持有iOS设备情况下的离线取证方法
KR20160064128A (ko) 문서 관리와 액세스 제어가 있는 분산형 데이터 시스템
CN114398243A (zh) 一种关于用户操作轨迹的回溯方法及系统
CN102457817A (zh) 一种手机报中新闻内容的抽取方法及系统
CN104657677A (zh) 一种基于交换数据流的文件标密方法
CN112711768B (zh) 一种基于人工智能的核心数据轨迹画像生成方法及系统
CN108763245A (zh) 一种基于ntfs系统文件标签的文档管理方法及系统
CN115033900A (zh) 一种基于区块链的电子数据取证方法及系统
Salama et al. Metadata based forensic analysis of digital information in the web
CN114328392A (zh) 一种广告媒体素材管理系统、方法、设备和介质
US20090327298A1 (en) Multimedia journal with selective sharing, sealed entries, and legacy protection
CN104317805A (zh) 更新弹窗图片库的方法、弹窗图片库更新装置及系统
Parra et al. Location-aware gang graffiti acquisition and browsing on a mobile device
CN109033231A (zh) 一种从多媒体文件中提取信息的方法
CN117119177B (zh) 视频监测方法、系统、设备及存储介质
Schroader et al. Alternate data storage forensics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant