发明内容
本说明书实施例之一提供一种数据监控方法。所述数据监控方法由至少一个处理器执行,包括获取数据流通信息;所述数据流通信息反映数据内容及其流向;获取协议信息;基于第一预设算法和所述协议信息确定协议关键信息;所述协议关键信息反映所述协议信息中规定的目标信息及其流向;基于所述数据流通信息和所述协议关键信息确定数据监控结果。
在一些实施例中,所述流向包括上游端和下游端。
在一些实施例中,所述协议关键信息还包括所述目标信息的用途;所述数据流通信息还包括所述数据内容的用途。
在一些实施例中,所述方法还包括:对所述数据内容打标签,所述标签至少反映所述数据内容的归属;所述获取数据流通信息还包括:通过数据内容的标签确定所述数据内容的流出端,基于所述数据内容的请求端确定所述数据内容的流入端。
在一些实施例中,所述方法还包括:对数据文件打标签,其中数据文件包括至少一个数据内容;所述获取数据流通信息还包括:基于数据内容流出的数据文件的标签确定所述数据内容的流出端,基于所述数据内容流入的数据文件的标签确定所述数据内容的流入端。
在一些实施例中,对数据内容或数据文件打标签还包括:确定所述数据内容或数据文件是否在某一业务域:若在,则基于所述某一业务域新建或更新数据内容或数据文件的标签;若不在,则不新建或不更新数据内容或数据文件的标签。
在一些实施例中,所述方法还包括:基于第二预设算法将所述协议关键信息中的目标信息转换为标准信息集中其对应的标准信息;所述标准信息集为预先设置。
在一些实施例中,所述方法还包括:基于第三预设算法将所述数据流通信息中的数据内容转换为标准信息集中其对应的标准信息;所述标准信息集为预先设置。
在一些实施例中,所述基于所述数据流通信息和所述协议关键信息确定数据监控结果包括:如果数据流通信息与协议关键信息一致,则确定数据监控结果为安全;如果数据流通信息与协议关键信息部分一致,则确定数据监控结果为低风险;如果数据流通信息与协议关键信息完全不一致,则确定数据监控结果为高风险。
在一些实施例中,所述方法还包括输出所述数据内容、流向以及所述数据监控结果。
在一些实施例中,所述方法还包括:如果所述数据监控结果包括高风险,则推送第一提示信息:是否继续传输该数据内容;获取所述第一提示信息的第一指示结果;如果第一指示结果是继续传输该数据内容,则推送第二提示信息:请核实已有协议信息是否可以覆盖该数据内容及其流向;获取所述第二提示信息的第二指示结果;如果第二指示结果是可以覆盖,则优化第一预设算法、第二预设算法和/或第三预设算法。
在一些实施例中,所述第一预设算法、第二预设算法或第三预设算法包括机器学习模型。
本说明书实施例之一提供一种数据监控系统,所述系统包括:流通信息获取模块,用于获取数据流通信息;所述数据流通信息反映数据内容及其流向;协议信息获取模块,用于获取协议信息;关键信息确定模块,用于基于第一预设算法和所述协议信息确定协议关键信息;所述协议关键信息反映所述协议信息中规定的目标信息及其流向;监控结果确定模块,用于基于所述数据流通信息和所述协议关键信息确定数据监控结果。
在一些实施例中,所述流向包括上游端和下游端。
在一些实施例中,所述协议关键信息还包括所述目标信息的用途;所述数据流通信息还包括所述数据内容的用途。
在一些实施例中,所述系统还包括:标记模块,用于对所述数据内容打标签,所述标签至少反映所述数据内容的归属;所述流通信息获取模块还用于通过数据内容的标签确定所述数据内容的流出端,基于所述数据内容的请求端确定所述数据内容的流入端。
在一些实施例中,所述系统还包括:标记模块,用于对数据文件打标签,其中数据文件包括至少一个数据内容;所述流通信息获取模块还用于基于数据内容流出的数据文件的标签确定所述数据内容的流出端,基于所述数据内容流入的数据文件的标签确定所述数据内容的流入端。
在一些实施例中,所述标记模块还用于确定所述数据内容或数据文件是否在某一业务域:若在,则基于所述某一业务域新建或更新数据内容或数据文件的标签;若不在,则不新建或不更新数据内容或数据文件的标签。
在一些实施例中,所述系统还包括第一转换模块,用于基于第二预设算法将所述协议关键信息中的目标信息转换为标准信息集中其对应的标准信息;所述标准信息集为预先设置。
在一些实施例中,所述系统还包括第二转换模块,用于基于第三预设算法将所述数据流通信息中的数据内容转换为标准信息集中其对应的标准信息;所述标准信息集为预先设置。
在一些实施例中,所述监控结果确定模块还用于进行如下判断:如果数据流通信息与协议关键信息一致,则确定数据监控结果为安全;如果数据流通信息与协议关键信息部分一致,则确定数据监控结果为低风险;如果数据流通信息与协议关键信息完全不一致,则确定数据监控结果为高风险。
在一些实施例中,所述系统包括监控结果输出模块,用于输出所述数据内容、流向以及所述数据监控结果。
在一些实施例中,所述系统包括:提示信息推送模块,如果所述数据监控结果包括高风险,则推送第一提示信息:是否继续传输该数据内容;指示结果获取模块,用于获取所述第一提示信息的第一指示结果;如果第一指示结果是继续传输该数据内容,所述提示信息推送模块还用于推送第二提示信息:请核实已有协议信息是否可以覆盖该数据内容及其流向;所述指示结果获取模块,还用于获取所述第二提示信息的第二指示结果;算法优化模块,如果第二指示结果是可以覆盖,则优化第一预设算法、第二预设算法和/或第三预设算法。
在一些实施例中,所述第一预设算法、第二预设算法或第三预设算法包括机器学习模型。
本说明书实施例之一提供一种数据监控装置,包括处理器以及存储器,所述装置包括处理器以及存储器;所述存储器用于存储指令,所述处理器用于执行所述指令,以实现上述数据监控方法对应的操作。
具体实施方式
为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本说明书的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。
应当理解,本文使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。
如本说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。
本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
本说明书一个或多个实施例中主要涉及到一种数据(如用户个人信息)监控的方法,该方法用于监控数据在流通过程中是否符合相关规定,且能够把流通数据是否符合规定的监控结果显示出来和/或对监控结果进行相应的处理,以能够减少在某协议规定范围内的数据不合规流通的情况。
在一些实施例中,协议可以是用户在注册使用某个互联网产品时会与产品所属的公司签订的服务协议。通过服务协议可以约定用户与公司各自的权利与义务,以及用户授权公司使用其个人信息的相关内容。企业对数据的合规使用可以理解为企业对获取的用户个人信息的使用符合服务协议中的具体规定。例如,当某企业获取到用户个人信息时,需要对相应的个人信息处理流程进行监控,确保这些流程对用户个人信息的使用是符合协议相关规定的。又例如,一个集团企业可以包括多个公司,每个公司又具有多个互联网产品,这些互联网产品之间可能具有一定的联系,用户也可能同时使用多个产品,当用户使用某个具体的产品时该产品的相关处理流程可能会读取其它产品中的个人数据,这些个人数据的具体内容是否符合服务协议的规定也需要进行相应的监控。应该理解,以上仅是示例性的应用场景实施例。本申请的数据监控系统和/或方法可能适用于其他任一种应用场景和/或数据类型的数据合规监控。例如,本说明书一个或多个实施例可以应用于不同领域的数据管理系统,例如工业生产、出行、住宿、金融、社交等或以上任意组合。在一些实施例中,本说明书一个或多个实施例中的系统和/或方法通过算法自动获取各个产品间的实际流转字段和协议内容中规定的字段,基于实际流转字段和规定的字段确定数据在使用过程中的风险水平。在此基础上,本说明书一个或多个实施例还可以将数据使用的监控情况输送到终端设备上,并能在终端设备上可视化的观察到数据在使用过程中的监控情况。在一些实施例中,终端设备可以包括位于服务器的前端设备,监控者通过所述前端设备对数据的使用过程进行监控。在一些实施例中,终端设备还可以包括用户终端,例如,电脑,手机等远离服务器的移动设备,方便监控者对数据使用是否合规的情况进行及时地了解。
本说明书一个或多个实施例中描述的“数据载体”、“数据文件”、“数据表”等是可以互换的,是指在一些实施例中数据流转过程中,数据通过某一数据载体或数据文件的形式进行流转。其中,数据载体或数据文件可以是汇集了至少一个数据内容的数据表,该数据表的文件形式可以包括但不限于以下一种或多种:电子表格形式、文本文档形式、图片形式等。同样地,本说明书描述的“数据内容”、“字段”、“字段信息”、“目标信息”等也是可以互换的。本说明书描述的“目的端”、“流入端”、“下游端”等也是可以互换的。本说明书描述的“来源端”、“流出端”、“上游端”等也是可以互换的。
图1是根据本说明书一些实施例所示的一种数据监控系统的模块图。
如图1所示,在一些实施例中,该数据监控系统可以包括流通信息获取模块110、协议信息获取模块120、关键信息确定模块130和监控结果确定模块140。
流通信息获取模块110可以获取数据流通信息,所述数据流通信息反映数据内容及其流向。在一些实施例中,所述流向可以包括上游端和下游端。在一些实施例中,流通信息获取模块110还可以用于通过数据内容的标签确定所述数据内容的流出端,并基于所述数据内容的请求端确定所述数据内容的流入端。在一些实施例中,流通信息获取模块110还可以用于基于数据内容流出的数据文件的标签确定所述数据内容的流出端,并基于所述数据内容流入的数据文件的标签确定所述数据内容的流入端。
协议信息获取模块120可以用于获取协议信息。
关键信息确定模块130可以用于基于第一预设算法和所述协议信息确定协议关键信息,所述协议关键信息反映所述协议信息中规定的目标信息及其流向。在一些实施例中,所述协议关键信息还包括所述目标信息的用途,所述数据流通信息还包括所述数据内容的用途。
监控结果确定模块140可以用于基于所述数据流通信息和所述协议关键信息确定数据监控结果。在一些实施例中,监控结果确定模块140还可以用于进行如下判断:如果数据流通信息与协议关键信息一致,则确定数据监控结果为安全;如果数据流通信息与协议关键信息部分一致,则确定数据监控结果为低风险;如果数据流通信息与协议关键信息完全不一致,则确定数据监控结果为高风险。
在一些实施例中,所述数据监控系统还可以包括标记模块,标记模块可以用于对所述数据内容打标签,所述标签至少反映所述数据内容的归属。在一些实施例中,标记模块还可以用于对数据文件打标签,其中数据文件包括至少一个数据内容。
在一些实施例中,所述标记模块还可以用于确定所述数据内容或数据文件是否在某一业务域:若在,则基于所述某一业务域新建或更新数据内容或数据文件的标签;若不在,则不新建或不更新数据内容或数据文件的标签。
在一些实施例中,所述数据监控系统还可以包括第一转换模块,第一转换模块可以用于基于第二预设算法将所述协议关键信息中的目标信息转换为标准信息集中其对应的标准信息。
在一些实施例中,所述数据监控系统还可以包括第二转换模块,第二转换模块可以用于基于第三预设算法将所述数据流通信息中的数据内容转换为标准信息集中其对应的标准信息。
在一些实施例中,所述数据监控系统还可以包括监控结果输出模块,监控结果输出模块可以用于输出所述数据内容、流向以及所述数据监控结果。
在一些实施例中,所述数据监控系统还可以包括指示信息推送模块和指示结果获取模块。在一些实施例中,如果所述数据监控结果包括高风险,指示信息推送模块则推送第一提示信息:是否继续传输该数据内容;指示结果获取模块可以用于获取所述第一提示信息的第一指示结果。在一些实施例中,如果第一指示结果是继续传输该数据内容,所述提示信息推送模块还用于推送第二提示信息:请核实已有协议信息是否可以覆盖该数据内容及其流向;所述指示结果获取模块,还用于获取所述第二提示信息的第二指示结果。
在一些实施例中,所述数据监控系统还可以包括算法优化模块。如果第二指示结果是可以覆盖,算法优化模块则优化第一预设算法、第二预设算法和/或第三预设算法。
应当理解,图1所示的系统及其模块可以利用各种方式来实现。例如,在一些实施例中,系统及其模块可以通过硬件、软件或者软件和硬件的结合来实现。其中,硬件部分可以利用专用逻辑来实现;软件部分则可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域技术人员可以理解上述的方法和系统可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本说明书的系统及其模块不仅可以有诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用例如由各种类型的处理器所执行的软件实现,还可以由上述硬件电路和软件的结合(例如,固件)来实现。
需要注意的是,以上对于候选项显示、确定系统及其模块的描述,仅为描述方便,并不能把本说明书限制在所举实施例范围之内。可以理解,对于本领域的技术人员来说,在了解该系统的原理后,可能在不背离这一原理的情况下,对各个模块进行任意组合,或者构成子系统与其他模块连接。例如,在一些实施例中,图1中披露的流通信息获取模块110、协议信息获取模块120、关键信息确定模块130和监控结果确定模块140可以是一个系统中的不同模块,也可以是一个模块实现上述的两个或两个以上模块的功能。又例如,在一些实施例中,第一转换模块和第二转换模块可以是系统中不同的模块,也可以是一个模块实现上述的两个模块的功能。再例如,上述的各个模块可以共用一个存储模块,各个模块也可以分别具有各自的存储模块。诸如此类的变形,均在本说明书的保护范围之内。
图2是根据本说明书一些实施例所示的一种数据监控方法的示例性流程图。如图2所示,数据监控方法包括以下步骤:
步骤210,获取数据流通信息。
在一些实施例中,该步骤由流通信息获取模块110执行。
在一些实施例中,数据流通信息可以反映数据内容及其流向。在一些实施例中,数据可以包括数据内容和/或数据文件。在一些实施例中,数据内容可以包括至少一个字段和/或对应的内容。字段是指在数据库或数据仓库技术中用于标记数据实体(即一条数据记录)属性的命名单位,其又称为数据元素或初等项。例如,在数据库中,一个数据表中的一列对应一个“字段”,例如,在“个人信息”数据库中,“姓名”、“联系电话”、“身份证号码”等是数据表中所有行共有的属性,则这些列分别为“姓名”字段、“联系电话”字段、“身份证号码”字段。“姓名”字段的内容可以是“张三”、“李四”等等。“联系电话”字段的内容可以是135xxxxyyyy、189xxxxyyyy等。数据文件可以是字段的载体,在一些实施例中,所述数据文件的具体形式可以包括数据表,数据表是指用于临时保存数据的网格虚拟表。在一些实施例中,数据文件可以包括至少一个数据内容。
在一些实施例中,数据内容的流向可以包括上游端和/或下游端。上游端是指数据内容的来源端,即数据内容从谁那里获取;下游端是指数据内容的目的端,即数据内容被谁拿去使用。在一些实施例中,数据内容可以以字段的形式流动。仅仅作为示例性说明,例如,“产品Y”需要获取“产品Z”中具有关于用户交易信息数据表A中的“用户姓名”字段的内容和“用户消费信息”字段的内容,用于生成能量球,此时“用户姓名”字段内容和“用户消费信息”字段内容的上游端是“产品Z”,下游端是“产品Y”。在一些实施例中,数据内容可以以数据文件的形式流动。仅仅作为示例性说明,例如,“产品Z”中具有关于用户交易信息的数据表A,“产品Y”需要获取“产品Z”的用户交易信息对应的数据表A用于生成能量球,由于数据表A是生成能量球所需数据内容的载体,因此数据表A的流向也可以反映数据内容的流向,此时数据表A中数据内容的上游端是“产品Z”,数据表A中数据内容的下游端是“产品Y”。在一些实施例中,流向不限于包括上游端和下游端的情况,还可以只含有上游端或下游端的情况。
一些实施例中,可以建立并维护字段级数据内容的血缘信息,血缘信息可以展示每个数据内容节点的父母节点(来源)以及子节点(去向),数据内容来源和流向可以通过该血缘信息进行判断。
在一些实施例中,可以通过标记模块对流通的数据内容进行打标签,标签可以反映该数据内容的归属。例如,标签可以反映出该数据内容所属的业务域。在一些实施例中,所述业务域用于表明数据内容所属的主体,其可以指具有相同业务内容的单位组织,例如,公司、子公司、分公司、公司内部门、产品、课题组或项目组等等,或者业务域可以是对某一些数据内容具有相同使用权限的单位组织,可以理解,业务域可以从选自不同公司、部分或项目组的跨域单位组织。本说明书对业务域的具体形式不做任何限制。标签的具体内容可以包括文字、符号、数字,或其任意组合。仅作为示例,“产品Z”通过用户注册信息获得了一批用户的身份证信息,此时该批次用户的身份证信息可以标记为“产品Z”,表明该数据内容属于“产品Z”所有。数据内容可以带着其标签在平台内流转,当数据内容预流入(数据内容被请求)或已经流入(数据内容已存在于请求端的数据表中)某一业务域时,流通信息获取模块110可以通过该数据内容的标签确定该数据内容的上游端,并基于数据内容的请求端或数据已经流入的业务域确定数据内容的下游端。在一些实施例中,可以仅对可能流出或即将流出某一业务域时对其打标签。例如,所述某一批用户的身份证信息,当其仅在“产品Z”业务域内部流转时,不用为其打上标签,当这些数据内容被“产品T”业务域请求时,意味着该数据内容可能流出“产品Z”业务域,此时为这些数据内容打上标签。这样处理可以减少打标签的工作量,节省运算资源。
在一些实施例中,可以通过标记模块对各个业务域的数据文件打标签,标签可以反映该数据文件的归属。例如,“产品Z”业务域内的数据文件的标签为“产品Z”,表明该数据文件归“产品Z”所有,“产品T”业务域内的数据文件的标签则为“产品T”。数据内容可以在各个数据文件中流转。流通信息获取模块110可以通过该数据内容的流出的数据文件的标签确定为上游端,将数据内容流入的数据文件的标签确定为下游端。
关于给数据内容或数据文件打标签的详细介绍可以参见本说明书中其他部分的相关内容。
在一些实施例中,数据流通信息还可以包括数据内容的用途。所述用途可以包括数据内容的使用场景、对数据内容的加工处理等。一些实施例中,流通信息获取模块110可以从请求端的数据请求中获取对数据内容的用途。如“产品Y”向获取“产品Z”请求有关于用户交易信息数据表A中的“用户姓名”字段的内容和“用户消费信息”字段的内容,用于生成能量球。流通信息获取模块110可以基于该数据请求,确定数据内容的用途为“生成能量球”。在一些实施例中,数据文件的标签还可以记载数据文件中数据内容的用途,流通信息获取模块110可以基于数据内容流入的数据文件的标签确定该数据内容的用途。例如,产品Z的数据表A的标签可以为“产品Z事业群-金融产品-产品Z-生成能量球”。
步骤220,获取协议信息。
在一些实施例中,该步骤由协议信息获取模块120执行。
协议信息是指用户与产品所属公司用于规定双方各自权利和义务的协议条款。仅仅作为示例性说明,例如,用户在终端设备上下载产品Z的应用程序后注册新账户时,在终端设备上会弹出与产品Z相对应的“产品Z服务协议”。在一些实施例中,协议信息可以包括但不限于产品的名称、产品服务相关定义、产品提供的服务内容、账户的注册使用和注销、用户合法使用产品服务的承诺、用户权益保障及信息保护、法律适用与管辖。具体地,协议信息还可以包括与用户相关信息的使用规定,例如,使用规定可以包括用户相关信息可以从何处获取、用户相关信息可以供哪些具体的产品使用以及用户相关信息的具体用途。需要注意的是,关于用户相关信息的描述可以参照本申请说明书目标信息的具体内容。
步骤230,基于第一预设算法和所述协议信息确定协议关键信息。
在一些实施例中,该步骤由关键信息确定模块执行。
协议关键信息是指协议条款中用户与产品所属公司规定的关于用户信息保护的内容。协议关键信息可以反映协议信息中规定的目标信息及其流向。在一些实施例中,目标信息可以包括与用户身份基本信息、用户行为信息、用户生物特征信息对应的字段。在一些实施例中,用户身份基本信息可以至少包括姓名、国籍、性别、职业、联系方式、身份证信息、银行卡信息中的一种或其任意组合。在一些实施例中,用户行为信息是指用户在使用产品时所产生的信息,例如交易信息、消费信息、访问信息。在一些实施例中,用户生物特征信息可以至少包括面部信息、指纹信息、声纹信息、虹膜信息、指静脉信息。在一些实施例中,目标信息的流向包括上游端和/或下游端,例如,用户在注册“产品Y”时生成的用户协议中记载了关于需要获取用户在产品Z的消费信息,因此,可以从协议中获取目标信息为:消费信息,该目标信息的流向为:产品Z为上游端,产品Y为下游端。
在一些实施例中,确定协议关键信息的方式可以通过一些预设算法对协议信息中的协议关键信息进行获取。在一些实施例中,预设算法可以包括机器学习模型,具体的,可以在训练好的机器学习模型中输入协议信息的文本,机器学习模型可以输出协议信息中的协议关键信息。在一些实施例中,确定协议关键信息的方式还可以包括设置文本匹配规则,将协议信息中的协议关键信息匹配出来。例如,在一些实施例中,可以采用正则表达式匹配协议关键信息中的文本。在一些实施例中,可以采用词库匹配的方式将协议关键信息提取出来,例如,可以预先设置一些关键词,当获取到的协议文本信息中包含上述关键词时,可把它提取出来作为协议关键信息。
在一些实施例中,协议关键信息还可以包括目标信息的用途。
在一些实施例中,目标信息的用途是指协议信息中记载的产品获取目标信息的目的。例如,“产品Y”从“产品Z”中获取交易信息的目的是生成能量球,即“生成能量球”便是获取交易信息的用途。
为了能准确快速地确定协议关键信息,在一些实施例中,还可以采用算法将协议信息中的目标信息转化为预先设置的标准信息。
在一些实施例中,数据监控方法还可以包括基于第二预设算法将协议关键信息中的目标信息转换为标准信息集中其对应的标准信息。在一些实施例中,可以通过第一转换模块实现该步骤。其中,标准信息集为预先设置,标准信息集即为标准信息的集合,包括至少一个标准信息。标准信息可以理解为将目标信息进行标准化而形成的对应的标准信息。由于目标信息中出现的字段的范围较大或者字段命名方式的不统一,为了可以准确快速的确定协议关键信息中的目标信息,因此预先设置标准信息集。例如,“通话记录”与“通信历史”具有相同的意思,因为撰写协议的作者不同,在不同的协议中就可能采用了以上两个不同的字段名,在标准信息集中可以用“通信记录”作为上述两个词语的标准信息。在一些实施例中,标准信息集中可以包括多个大类字段信息,每个大类字段信息还可以分为多个小类字段信息,每个小类字段信息还可以继续进行细分,如此类推,具体的分类层次可以根据具体使用情况进行确定,在此不做限定。例如,个人通信信息为一类字段信息,个人通信信息可以包括语音通信信息、文字通信信息等二类字段信息,语音通信信息还可以包括通信记录、通信内容、声讯等三类字段信息。在一些实施例中,标准信息集中每类别的字段信息中还可以包括英文字母、符号、数字,或其任意组合,例如各层类别的字段信息的体现形式可以为:第一层包括“F.个人通信信息”、第二层可以包括“Fa.语音通信信息”、第三层可以包括“Fa1.通信记录”。
在一些实施例中,第二预设算法可以将协议关键信息中的目标信息与标准信息集映射。具体的,第二预设算法将目标信息中的字段信息与标准信息集的字段信息集合映射,以确定目标信息中的字段信息在标准信息集中对应的类别和对应的标准字段信息。例如,协议关键信息中提及“身份基本信息”,但是“身份基本信息”是模糊的字段描述,第二预设算法可以根据具体业务场景及协议信息中的上下文总结出其涵盖的标准信息,从而将标准信息集合中的“A.个人基本资料”、“B.个人身份信息”确定为目标信息“身份基本信息”对应的标准信息。
在一些实施例中,可以训练机器学习模型,如分类模型,实现第二预设算法。仅仅作为示例,将目标信息及其对应的标准信息作为训练样本训练机器学习模型,使其具备将不同目标信息映射到相应的标准信息的能力。在一些实施例中,还可以建立映射表,记录协议中可能出现的目标信息与标准信息集中的标准信息的对应关系。第一转换模块可以基于映射表将目标信息进行转换。
类似地,为了能快速且准确地获取数据流通信息,在一些实施例中,也可以采用算法将数据流通信息中的数据内容转换为标准信息。
在一些实施例中,数据监控方法还包括基于第三预设算法将数据流通信息中的数据内容转换为标准信息集中其对应的标准信息。该步骤可以由第二转换模型实现。标准信息集为预先设置。在一些实施例中,数据流通信息对应的标准信息集与协议关键信息的目标信息对应的标准信息集可以为同一份预设的标准信息集,这样更方便在其他步骤中将数据流通信息和协议关键信息进行比较。将数据流通信息中的数据内容转换为标准信息集中对应的标准信息的具体描述可参考本说明书中其他部分将目标信息转化为标准信息的相关描述。
在一些实施例中,第一预设算法、第二预设算法或第三预设算法中的一个或多个算法可以包括机器学习模型。在一些实施例中,机器学习模型可以包括TF-IDF算法、Topic-model算法和RAKE算法。在一些实施例中,第二预设算法和第三预设算法可以是相同的算法,也可以是不同的算法。
步骤240,基于所述协议关键信息和所述数据流通信息确定数据监控结果。
在一些实施例中,该步骤由监控结果确定模块140执行。根据由协议信息提取出的协议关键信息和实际使用情况中的数据流通信息,可以判断出实际的数据流通是否符合协议信息中的相关规定,即确定数据监控结果。在一些实施例中,可以将监控获得的实际的数据流通信息逐一与相关的协议关键信息进行比较判断进而确定数据监控结果,下面将详细介绍相关的判断逻辑。
图3是根据本说明书一些实施例所示的数据监控结果的示例性判断逻辑图。如图3所示,基于数据流通信息和协议关键信息确定数据监控结果的流程300可以包括:如果数据流通信息与协议关键信息一致,则确定数据监控结果为安全;如果数据流通信息与协议关键信息部分一致,则确定数据监控结果为低风险;如果数据流通信息与协议关键信息完全不一致,则确定数据监控结果为高风险。
具体的,数据流通信息中的数据内容和流向与协议关键信息中出现的目标信息和流向完全一致,则可以确定数据在实际流转的过程中是安全的,即符合协议信息中的相关规定。仅仅作为示例性说明,例如,协议信息中记载了“产品Y”可以获取“产品Z”中的用户信息,该用户信息中包含有“用户消费信息”。在实际数据流通过程中,下游端“产品Y”请求并获取了上游端“产品Z”的“用户消费信息”,可见数据流通信息与协议关键信息完全一致,说明“用户消费信息”的流转是符合协议信息中的规定,即该数据监控的结果是安全的。
数据流通信息中的数据内容和流向与协议关键信息中出现的目标信息和流向部分一致,则可以确定数据在实际流转的过程中具有低风险。例如,还是上面的例子,在数据实际流通过程中,下游端“产品Y”请求并获取了上游端“产品Z”的“用户消费信息”和“用户通话信息”,在协议信息中有提到“用户信息”包括“用户消费信息”,因此“用户消费信息”的流转符合协议信息中的,但是协议信息并未说明“用户信息”也包括“用户通话信息”,即该数据监控的结果为低风险。又例如,协议信息中记载了“产品Y”可以获取“产品Z”中的用户信息,该用户信息中包含有“用户消费信息”,并且在协议信息中说明了获取“用户消费信息”的用途是用于“生成能量球”,而在实际的数据流通信息中的实际用途是用于“统计用户消费情况”,实际的数据流通信息与协议关键信息中在字段及其流向上一致而用途不一致的情况下,则监控结果为低风险。
数据流通信息中的数据内容和流向与协议关键信息中出现的目标信息及其流向完全不一致,则可以确定数据在实际流转的过程中具有高风险。例如,协议信息中记载了“产品Y”可以获取“产品Z”中的“用户消费信息”,在实际数据使用过程中,下游端“产品Y”请求并获取了上游端“网商贷”的“用户身份证信息”,可见实际的数据流通信息与协议关键信息完全不一致,即该数据监控的结果是高风险。在本说明书的一些实施中,对于高风险的数据监控结果还有进一步的处理措施,详细描述请参见本说明书其他部分,如图4部分的相关描述。
步骤250,输出所述数据内容、流向以及所述数据监控结果。
该步骤由监控结果输出模块执行。
在一些实施例中,数据监控方法还包括输出数据内容、流向以及数据监控结果。监控结果输出模块可以将数据内容、流向以及数据监控结果输送到终端设备上,终端设备与服务器通信连接。终端设备可以包括移动电话、计算机、平板电脑、可穿戴设备、个人数字助理、智能设备。终端设备的屏幕能够可视化地显示数据监控结果。在一些实施例中,数据监控结果的输出方式可以包括图像形式、文本形式、语音形式等,或上述任意组合。在一些实施例中,数据监控结果的输出方式以图片形式进行输送时,图像形式可以包括流向图、柱状图、折线图、散点图、饼图、雷达图、漏斗图、表格或其任意组合的形式。仅仅以流向图为例作为示例性说明,流向图可以包括多个单元框,一个单元框上代表一个产品,单元框上具有用于区分产品的标记,在一些实施例中,标记可以包括文字、数字、符号、图片中的任意一种或其任意组合。各单元框之间可以通过线条或箭头连接,线条或箭头可以表示数据内容的流转情况。在一些实施例中,线条或箭头的颜色可以代表数据流转中的监控结果。例如,绿色的线条或箭头可以代表线条两端的产品间的数据流转是合规的。红色的线条或箭头可以代表产品间的数据流转具有高风险。黄色的线条或箭头可以代表产品间的数据流转具有低风险。各个线头或箭头上可以显示两个产品间流转的具体的字段信息和协议信息。在一些实施例中,各个产品间的数据内容的流转情况可以以文本形式进行展示。例如,可以采用文本形式直接说明各产品间数据内容流转的风险水平、协议信息、流向等信息。在一些实施例中,也可以采用终端设备上的语音模块对处于高风险水平的数据流情况转进行报警警示,例如,对高风险的数据内容及其相关的公司或/和产品进行语音播报;例如,可以对高风险的监控结果采用语音提示,以告知相关监控者此时有高风险的数据内容进行流通,请及时查阅或处理。
应当注意的是,上述有关流程200的描述仅仅是为了示例和说明,而不限定本说明书的适用范围。对于本领域技术人员来说,在本说明书的指导下可以对流程200进行各种修正和改变。应当理解的是,流程图中的操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各种步骤。此外,可以向流程图添加一个或以上其他操作。一个或以上操作也可以从流程图中删除,然而,这些修正和改变仍在本说明书的范围之内。例如,调整步骤210和步骤220的先后顺序。又例如,删除流程200中的步骤250。
接下来,将对步骤210中涉及的数据内容或数据文件打标签过程进行阐述。在一些实施例中,为了更方便地获取数据流通信息,可以通过标记模块对流通的数据内容或数据文件进行打标签,以使得流通信息获取模块110能够通过该标签快速地获取相关内容信息。
在一些实施例中,对数据内容或数据文件打标签可以包括确定数据内容或数据文件是否在某一业务域。若数据内容或数据文件在某一业务域内,则基于某一业务域新建或更新数据内容或数据文件的标签。在一些实施例中,在某一业务域是指数据内容或数据文件具有明确业务的域,或者具有明确的归属。例如,数据表A在“产品Z”所属业务域中,数据表B在“产品Y”业务域中。
在一些实施例中,基于某一业务域新建数据内容或数据文件的标签是指产品获取数据信息后在某一业务域形成数据内容或数据文件,对该数据内容或数据文件打标签。可以人工手动或自动的方式为数据内容或数据文件打标签。在一些实施例中,当数据内容进入某一业务域时,首次处理该数据内容的流程可以自动为该数据内容打上标签,又或者当数据文件创建时,可自动基于创建者所在的业务域为该数据文件打上标签。例如,“产品Z”需要获取用户的身份证信息,而关于身份证信息的字段之前并未在数据表中,数据表接收身份证信息后形成“用户身份证信息”字段,此时标记模块对“用户身份证信息”字段打上“产品Z事业群-金融产品-产品Z”的标签。又例如,某新产品获取了用户的个人信息后形成数据表C,数据表C在该新产品的业务域内,标记模块对数据表C打上“XX事业群-XX公司-XX产品”的标签。
在一些实施例中,基于某一业务域更新数据内容或数据文件的标签是指带有标签的数据内容或数据文件由一业务域流转到另一个业务域后,数据内容或数据文件的标签发生改变。例如,打有“产品Z事业群-金融产品-产品Z”标签的数据表A流转至“产品Y”所属的业余域内时,数据表A的标签会更新为“产品Z事业群-金融产品-产品Y”。又例如,打有“产品Z事业群-金融产-产品Z”标签的“用户姓名”字段和“用户消费信息”字段流转至“产品Y”的数据表B后,“用户姓名”字段和“用户消费信息”字段的标签会更新为“产品Z事业群-金融产品-产品Y”。
在一些实施例中,若数据内容或数据文件不在某一业务域内,则不新建或不更新数据内容或数据文件的标签。在一些实施例中,数据内容或数据文件不在某一业务域可以包括数据内容或数据文件不属于任何业务域,例如,数据内容或数据文件位于中台域,中台域是指对各业务域中的数据进行统一管理的数据中转域,中台域不属于任何一个业务域,因此,在中台域的数据内容或数据文件不会对其更新/或新建标签。在一些实施例中,数据内容或数据文件不在某一业务域的情形还可以包括数据内容或数据文件属于多个业务域。
图4是根据本说明书一些实施例所示的数据监控风险系统对高风险监控结果的处理方法示意图。如图4所示,流程400包括:
在一些实施例中,如果数据监控结果包括高风险,则向终端推送第一提示信息:“是否继续传输该数据内容”。在一些实施例中,从终端获取第一提示信息的第一指示结果,如果第一指示结果是不继续传输该数据内容,则中断该数据内容的传输。如果第一指示结果是继续传输该数据内容,则向终端推送第二提示信息:“请核实已有协议信息是否可以覆盖该数据内容及其流向”。在一些实施例中,覆盖可以理解为数据内容及其流向与协议信息中记载的内容一致,例如,数据内容a从A端流向B端,而在协议信息中记载的内容是B端可以请求并获取A端中的数据内容A。从终端获取所述第二提示信息的第二指示结果,如果第二指示结果是可以覆盖,调整相关监控算法,例如,优化第一预设算法、第二预设算法、第三预设算法中的一个或多个。如果第二指示结果是不可以覆盖,则向终端推送第三提示信息:“是否需要优化协议信息”,如果是,则优化协议信息,使优化后的协议信息覆盖数据内容及其流向,并在优化后的协议信息的基础上,调整相关监控算法,例如,优化第一预设算法、第二预设算法、第三预设算法进行优化中的一个或多个。如果否,则保留该数据内容在流转过程中的高风险状态,并对该数据内容及其流向进行备案处理。
在上述的实施方式中,推送第一提示信息和推送第二提示信息的步骤由提示信息模块执行。接收第一提示结果和接收第二提示结果的步骤由指示结果模块执行。优化第一预设算法、第二预设算法和/或第三预设算法的步骤由算法优化模块执行。
本申请的说明书中还提供一种数据监控装置,该装置可以包括处理器以及存储器。存储器用于存储指令,处理器用于执行所述指令,以实现上述数据监控方法对应的操作。
本说明书实施例可能带来的有益效果包括但不限于:(1)本申请提供的通过系统对产品中流转的数据进行监控的技术方案,相对于人工抽查的方式可以节省大量的人力,同时显著提高了数据流转过程中的监控效率;(2)本申请可以对产品中流转的数据进行全方面、全天候的监控,并能对具有高风险的数据流转进行及时处理,降低用户数据在使用过程中的风险,切实保护用户信息的合法权益。需要说明的是,不同实施例可能产生的有益效果不同,在不同的实施例里,可能产生的有益效果可以是以上任意一种或几种的组合,也可以是其他任何可能获得的有益效果。
上文已对基本概念做了描述,显然,对于本领域技术人员来说,上述详细披露仅仅作为示例,而并不构成对本说明书的限定。虽然此处并没有明确说明,本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议,所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。
同时,本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外,本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
此外,本领域技术人员可以理解,本说明书的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们的任何新的和有用的改进。相应地,本说明书的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外,本说明书的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序编码。
计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号,例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式,包括电磁形式、光形式等,或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质,该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播,包括无线电、电缆、光纤电缆、RF、或类似介质,或任何上述介质的组合。
本说明书各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写,包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等,常规程序化编程语言如C语言、Visual Basic、Fortran 2003、Perl、COBOL 2002、PHP、ABAP,动态编程语言如Python、Ruby和Groovy,或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或服务器上运行。在后种情况下,远程计算机可以通过任何网络形式与用户计算机连接,比如局域网(LAN)或广域网(WAN),或连接至外部计算机(例如通过因特网),或在云计算环境中,或作为服务使用如软件即服务(SaaS)。
此外,除非权利要求中明确说明,本说明书所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用,并非用于限定本说明书流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的权利要求并不仅限于披露的实施例,相反,权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如,虽然以上所描述的系统组件可以通过硬件设备实现,但是也可以只通过软件的解决方案得以实现,如在现有的服务器或移动设备上安装所描述的系统。
同理,应当注意的是,为了简化本说明书披露的表述,从而帮助对一个或多个发明实施例的理解,前文对本说明书实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本说明书对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。
一些实施例中使用了描述成分、属性数量的数字,应当理解的是,此类用于实施例描述的数字,在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明,“大约”、“近似”或“大体上”表明所述数字允许有±20%的变化。相应地,在一些实施例中,说明书和权利要求中使用的数值参数均为近似值,该近似值根据个别实施例所需特点可以发生改变。在一些实施例中,数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本说明书一些实施例中用于确认其范围广度的数值域和参数为近似值,在具体实施例中,此类数值的设定在可行范围内尽可能精确。
针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料,如文章、书籍、说明书、出版物、文档等,特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外,对本说明书权利要求最广范围有限制的文件(当前或之后附加于本说明书中的)也除外。需要说明的是,如果本说明书附属材料中的描述、定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方,以本说明书的描述、定义和/或术语的使用为准。
最后,应当理解的是,本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书的范围。因此,作为示例而非限制,本说明书实施例的替代配置可视为与本说明书的教导一致。相应地,本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。