CN111079186B - 数据分析的方法、装置、设备和存储介质 - Google Patents

数据分析的方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN111079186B
CN111079186B CN201911330819.3A CN201911330819A CN111079186B CN 111079186 B CN111079186 B CN 111079186B CN 201911330819 A CN201911330819 A CN 201911330819A CN 111079186 B CN111079186 B CN 111079186B
Authority
CN
China
Prior art keywords
privacy level
data item
metadata
privacy
module configured
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911330819.3A
Other languages
English (en)
Other versions
CN111079186A (zh
Inventor
韩云炙
董旭
赵浩钧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Original Assignee
Baidu Online Network Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu Online Network Technology Beijing Co Ltd filed Critical Baidu Online Network Technology Beijing Co Ltd
Priority to CN201911330819.3A priority Critical patent/CN111079186B/zh
Publication of CN111079186A publication Critical patent/CN111079186A/zh
Application granted granted Critical
Publication of CN111079186B publication Critical patent/CN111079186B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6227Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes

Abstract

本公开的实施例提供了用于数据分析的方法、装置、设备和存储介质,涉及大数据领域。该方法包括:获取数据项的元数据,元数据用于描述数据项的属性;基于匹配规则和元数据来确定第一私密级别;通过将数据项应用于私密级别确定模型,确定第二私密级别,私密级别确定模型是基于训练数据项和针对训练数据项的私密级别标注而被构建的;以及基于第一私密级别和第二私密级别,确定与数据项对应的私密级别。基于这样的方式,可以更为准确地确定数据项的私密级别。

Description

数据分析的方法、装置、设备和存储介质
技术领域
本公开的实施例主要涉及大数据领域,并且更具体地,涉及用于数据分析的方法、装置、设备以及计算机可读存储介质。
背景技术
随着计算机技术的发展,网络数据安全受到越来越多的关注。网络安全风险评估运用科学的手段从风险管理的角度来系统地分析网络与信息系统所面临的威胁及其存在的脆弱性,进而评估安全事件一旦发生可能造成的危害程度。网络安全风险评估能够为防范和化解信息安全风险、或将风险控制在可以接受的水平以及制定有针对性的抵御威胁的防护对策和整改措施以最大限度地保障网络和信息安全提供科学依据。
在网络风险评估中,关键资产识别是十分重要的一步。通过识别系统中数据的私密级别来明确被评估系统中的关键资产,可以明确需要保护的目标,进而能够有效地识别风险、制定消减措施并维护产品安全。因此,数据项的私密级别的确定已经成为人们关注的焦点。
发明内容
根据本公开的实施例,提供了一种用于数据分析的方案。
在本公开的第一方面中,提供了一种用于数据分析的方法。该方法包括:获取数据项的元数据,元数据用于描述数据项的属性;基于匹配规则和元数据来确定第一私密级别;通过将数据项应用于私密级别确定模型,确定第二私密级别,私密级别确定模型是基于训练数据项和针对训练数据项的私密级别标注而被构建的;以及基于第一私密级别和第二私密级别,确定与数据项对应的私密级别。
在本公开的第二方面中,提供了一种用于数据分析的装置。该装置包括:元数据获取模块,被配置为获取数据项的元数据,元数据用于描述数据项的属性;第一私密级别确定模块,被配置为基于匹配规则和元数据来确定第一私密级别;第二私密级别确定模块,被配置为通过将数据项应用于私密级别确定模型,确定第二私密级别,私密级别确定模型是基于训练数据项和针对训练数据项的私密级别标注而被构建的;以及私密级别分析模块,被配置为基于第一私密级别和第二私密级别,确定与数据项对应的私密级别。
在本公开的第三方面中,提供了一种电子设备,包括一个或多个处理器;以及存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现根据本公开的第一方面的方法。
在本公开的第四方面中,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现根据本公开的第一方面的方法。
应当理解,发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征,亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。
附图说明
结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标注表示相同或相似的元素,其中:
图1示出了本公开的多个实施例能够在其中实现的示例环境的示意图;
图2示出了根据本公开的一些实施例的用于数据分析的示例方法的流程图;
图3示出了根据本公开的一些实施例的确定与数据项对应的私密级别的示例方法的流程图;
图4示出了根据本公开的一些实施例的用于数据分析的装置的示意性结构框图;以及
图5示出了能够实施本公开的多个实施例的计算设备的框图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
在本公开的实施例的描述中,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
如前面提及的,数据项的私密级别确定是关键资产识别的重要技术。现有方案一般简单地对数据项进行规则匹配,并按照分类结果确定对应的私密基本。由于规则匹配方法自身的局限性,一种规则只能识别一类数据,导致了其能适用的数据范围较窄,并且无法处理一些未知类型的非结构化数据。
根据本公开的各种实施例,提供了一种数据分析的方案。在本公开的实施例中,首先获取数据项的元数据,其中元数据用于描述数据项的属性。随后,基于预定义的匹配规则来分析元数据以确定第一私密级别,并且将数据项应用于私密级别确定模型,以确定第二私密级别,其中私密级别确定模型是基于训练数据项和针对训练数据项的私密级别标注而被构建的。第一私密级别和第二私密级别被用于确定与数据项对应的私密级别。通过对元数据和数据项采用对应的分析方法,并结合两种分析方法分别的结果,可以更为准确地确定数据项的私密级别。
以下将参照附图来具体描述本公开的实施例。图1示出了本公开的多个实施例能够在其中实现的示例环境100的示意图。如图1所示,计算设备130可以接收一个或多个数据项110。在一些实施例中,数据项110可以包括任何的结构化数据或者非结构化数据。结构化数据的示例可以包括电话号码、身份证号码或者银行卡号码等。非结构化数据的示例可以包括文本、语音或者视频等。在一些实施例中,数据项110例如可以被组织在数据库中,并且数据库例如可以被维护在于计算设备130通信耦合的存储设备中。计算设备130可以通过访问数据库来获取待分析的数据项110。
如图1所示,计算设备130还可以获取与数据项110对应的元数据120。元数据120可以是用于描述数据项110的属性的数据。例如,对于数据项110为一串数字的示例,其对应的元数据120例如可以为描述这串数字属性的文本“电话号码”。在另一示例中,当数据项110被保存在数据库中时,元数据120例如可以包括数据项对应的字段的标识、与字段对应的描述、或者与数据项对应的数据表的标识。例如,对于数据项110为一串数字的示例,其对应的元数据120例如可以是与这串数字对应的字段名“phone_number”。
计算设备130可以基于所获取的数据项110及其对应的元数据 120来确定与数据项110对应的私密级别140。应当理解,私密级别140可以指示数据项110的私密程度,即数据项110需要被保护的程度。例如,用户的身份证账号例如可以具有最高的私密级别,而用户的姓名可能具有相对较低的私密级别。在一些实施例中,私密级别140 例如可以利用预定的标签(例如,高、中或者低)来指示。备选地,私密级别140例如也可以通过分值(例如,0到10分之间的值)来指示,其中分值越高可以指示数据项110的私密性越高。应当理解,可以采用任何适当的方式来指示数据项110的私密级别140,本公开不旨在对此进行任何限制。
图2示出了根据本公开的一些实施例的用于数据分析的示例方法200的流程图。该方法200可以在图1的计算设备130处实施。
如图2所示,在框202,计算设备130获取数据项110的元数据 120,其中元数据120用于描述数据项110的属性。如参考图1所讨论的,数据项110可以包括任何适当的结构化数据或者非结构化数据。
在一些实施例中,数据项110可以被组织在数据库中,计算设备 130可以通过访问存储该数据库的存储设备来获取数据项110。在一些实施例中,计算设备130可以从用于存储数据项110的数据库中获取与数据项110对应的字段的标识作为元数据120。备选地或附加地,计算设备130还可以从数据获取与该字段对应的描述作为元数据。通常,人们在定义数据库中的每个字段时会添加与该字段对应的描述,以指示该字段所存储的数据的属性。备选地或附加地,计算设备130 还可以从数据获取与数据项110对应的数据表的标识作为元数据。例如,当数据表的标识为“电话号码表”时,这样的元数据信息也能够协助确定数据项110的属性。
在框204,计算设备130基于匹配规则和元数据120来确定第一私密级别。在一些实施例中,匹配规则例如可以包括关键字匹配规则。计算设备130可以通过与预定的关键字进行匹配来确定第一私密级别。例如,计算设备130可以将元数据与特定的关键词“phone”、“电话”或“手机”等关键词进行匹配,这些关键词将预先设置的私密级别(例如,高)相对应。当确定元数据与这些关键词之一匹配时,计算设备130可以将第一私密级别确定为与这些关键词对应的私密级别。
在框206,计算设备130通过将数据项110应用于私密级别确定模型来确定第二私密级别,其中私密级别确定模型是基于训练数据项和针对训练数据项的私密级别标注而被构建的。
在一些实施例中,对于数据项110包括结构化文本或者非结构化文本的情况,计算设备130例如可以首先对文本进行分词处理,以剔除一些无用词语(例如,“的”、“得”、“地”等)。随手,计算设备130可以例如通过TF-IDF或者Word2vec等方法来获取与经分词所获得的词语所对应的特征表示。计算设备130可以将特征向量输入到经训练的私密级别确定模型。在一些实施例中,私密级别确定模型可以基于训练数据项确定的特征表示以及针对该训练数据项的私密级别标注而被训练。私密级别标注例如可以由专家人工标注或者由机器自动地生成。在一些实施例中,私密级别确定模型可以是Bi-LSTM (长短期记忆网络)模型,从而能够更为准确地处理文本特征表示,并且适用于未知特征数据的识别。
在一些实施例中,对于数据项110包括诸如音频或视频等非结构化数据时,计算设备130可以提取音频特征或视频特征,并利用经训练的私密级别确定模型来确定所对应的第二私密级别。备选地或附加地,计算设备130也可以确定与数据项110中所包括的音频或者视频所对应的文本,然后再利用上文针对文本的处理方法来确定与数据项 110所对应的第二私密级别。
在一些实施例中,计算设备130还可以基于数据项110所对应的文本所包含的命名实体来确定第二私密级别。具体地,计算设备130 可以确定与数据项110对应的文本。例如,计算设备130可以将语音转换为文本或者提取视频中音频所对应的文本。
在一些实施例中,计算设备130随后可以提取文本中的至少一个命名实体。计算设备130可以利用命名实体识别(NER)技术来提取文本中的至少一个命名实体。在一些实施例中,可以采用诸如随机条件场(CRF)结合双向长短神经网络(Bi-LSTM)模型来提取文本中的至少一个命名实体。应当理解,可以采用本领域任何适当的模型来提取命名实体,本公开不旨在对此进行限制。
通过提取命名实体,计算设备130可以减少一些无关词汇的干扰,进而提高私密基本识别的准确性。附加地,计算设备130可以利用私密级别确定模型处理至少一个命名实体以确定第二私密级别。具体地计算设备130可以确定与所确定的至少一个命名实体所对应的词向量,并将所获得的词向量作为输入提供到私密级别确定模型来确定第二私密级别。
在框208,计算设备130基于第一私密级别和第二私密级别,确定与数据项对应的私密级别。在一些实施例中,计算设备130可以利用第一权重和第二权重分别对第一私密级别和第二私密级别进行加权来确定与数据项对应的私密级别140。通过这样的方式,计算设备 130可以结合考虑两种方式所确定的私密级别,进而更为准确地确定数据项110的私密级别140。
在一些实施例中,计算设备130还可以确定第一私密级别是否大于预定的阈值,并且当确定第一私密级别大于阈值时,调整将被应用到第一私密级别的第一权重。例如,当计算设备130基于关键词匹配确定数据项110的第一私密级别为最高可能私密级别时(即,大于阈值),此时计算设备130例如可以调高第一私密级别第一所对应的权重,进而使得能够基于规则所确定的较为准确的结果。
在一些实施例中,计算设备130还可以将统一地处理数据项110 和元数据120来确定最终的私密级别140。以下将参考图3来描述框 208的过程。图3示出了根据本公开的一些实施例的确定与数据项对应的私密级别的示例方法的流程图。
如图3所示,在框302,计算设备130可以将元数据120应用于私密级别确定模型以确定第三私密级别。具体地,鉴于元数据120一般为结构化或者非结构化文本,计算设备130可以基于上文针对文本处理所描述的方法来利用私密级别模型来确定第三私密级别。在一些实施例中,计算设备130例如可以将字段标识、表标识以及字段描述组合成最终文本以进行分词或命名实体提取,以确定第三私密级别。
在框304,计算设备130可以基于匹配规则和数据项,确定第四私密级别。在一些实施例中,计算设备130可以利用与上文针对元数据相同的匹配规则(例如,关键词匹配规则)或者附加的匹配规则(例如,正则表达式匹配规则)来对数据项进行分析,以确定第四私密级别。例如,计算设备130例如可以对一串数字进行正则表达式匹配以确定该串数字是否是电话号码,从而确定对应的私密级别。
在框306,计算设备130可以基于第一私密级别和第三私密级别,确定数据项110的元数据私密级别。具体地,计算设备130可以确定基于规则确定的第一私密级别和基于模型确定的第三私密级别的加权和,从而确定针对元数据的元数据私密级别。类似地,在框308,计算设备130可以基于第二私密级别和第四私密级别,确定数据项 110的内容私密级别。具体地,计算设备130可以确定基于规则确定的第四私密级别和基于模型确定的第二私密级别的加权和,从而确定针对数据项内容的内容私密级别。
基于这样的方式,通过综合两种方法的私密级别分析结果,本公开的实施例可以避免基于规则的方法难以应用于非结构化文本,而基于模型的方法的结果不确定性较强的缺陷,进而可以更为准确地确定针对元数据和数据项内容分别的私密级别。
在框310,计算设备130可以基于元数据私密级别和内容私密级别,确定与数据项110对应的私密级别。在一些实施例中,计算设备 130通过对元数据私密级别和内容私密级别应用对应的权重来确定与数据项对应的私密级别140。
在一些实施例中,计算设备130还可以对元数据私密级别和内容私密级别进行比较,并确定两者的差异是否大于预定的阈值。在确定两者的差异大于预定的阈值时,计算设备130可以提供关于数据项 110的预警,以指示无法准确地判断该数据项110的私密级别,可能需要进行专家核查或者判定。应当理解,专家核查或判定的私密级别的结果可以进而作为训练数据用于完善私密级别确定模型,从而提高私密级别确定模型的预测准确性。
在一些实施例中,计算设备130还可以将所确定的私密级别与数据项110相关联地存储。例如,计算设备130可以在数据库中添加用于存储私密级别的字段,以指示数据项110的私密级别140。
基于上文所描述的方法,本公开的实施例通过针对数据项的内容和数据项的元数据的不同数据特点,而利用不同的方法来确定对应的私密级别,并通过对两个结果的融合,可以更为准确地确定数据项的私密级别。
本公开的实施例还提供了用于实现上述方法或过程的相应装置。图4示出了根据本公开的一些实施例的用于确定成像设备的坐标系转换参数的装置400的示意性结构框图。该装置400可以在例如图1的计算设备130处实施。
如图4所示,装置400可以包括数据获取模块410,被配置为获取数据项的元数据,所述元数据用于描述所述数据项的属性。装置400 还包括第一私密级别确定模块420,被配置为基于匹配规则和所述元数据来确定第一私密级别。装置400还包括第二私密级别确定模块 430,被配置为通过将所述数据项应用于私密级别确定模型确定第二私密级别,所述私密级别确定模型是基于训练数据项和针对所述训练数据项的私密级别标注而被构建的。此外,装置400还包括私密级别分析模块440,被配置为基于所述第一私密级别和所述第二私密级别,确定与所述数据项对应的私密级别。
在一些实施例中,所述私密级别分析模块440包括:第三私密级别确定模块,被配置为将所述元数据应用于所述私密级别确定模型以确定第三私密级别;第四私密级别确定模块,被配置为基于所述匹配规则和所述数据项,确定第四私密级别;元数据私密级别确定模块,被配置为基于所述第一私密级别和所述第三私密级别,确定所述数据项的元数据私密级别;内容私密级别确定模块,被配置为基于所述第二私密级别和所述第四私密级别,确定所述数据项的内容私密级别;以及分析模块,被配置为基于所述元数据私密级别和所述内容私密级别,确定与所述数据项对应的所述私密级别。
在一些实施例中,装置400还包括:预警提供模块,被配置为响应于所述元数据私密级别与所述内容私密级别的差异大于预定的阈值,提供关于所述数据项的预警。
在一些实施例中,所述私密级别分析模块440包括:权重模块,被配置为通过利用第一权重和第二权重对所述第一私密级别和所述第二私密级别分别加权,确定与所述数据项对应的私密级别。
在一些实施例中,装置400还包括:阈值比较模块,被配置为确定所述第一私密级别是否大于预定的阈值;以及权重调整模块,被配置为响应于所述第一私密级别大于预定的阈值,调整将被应用于所述第一私密级的第一权重。
在一些实施例中,所述元数据获取模块410包括:从用于存储所述数据项的数据库中获取以下中的至少一项作为所述元数据:与所述数据项对应的字段的标识、与所述字段对应的描述、或者与所述数据项对应的数据表的标识。
在一些实施例中,第二私密级别430确定模块包括:文本确定模块,被配置为确定与数据项对应的文本;提取模块,被配置为提取文本中的至少一个命名实体;以及处理模块,被配置为利用私密级别确定模型处理至少一个命名实体以确定第二私密级别。
装置400中所包括的单元可以利用各种方式来实现,包括软件、硬件、固件或其任意组合。在一些实施例中,一个或多个单元可以使用软件和/或固件来实现,例如存储在存储介质上的机器可执行指令。除了机器可执行指令之外或者作为替代,装置400中的部分或者全部单元可以至少部分地由一个或多个硬件逻辑组件来实现。作为示例而非限制,可以使用的示范类型的硬件逻辑组件包括现场可编程门阵列 (FPGA)、专用集成电路(ASIC)、专用标准品(ASSP)、片上系统 (SOC)、复杂可编程逻辑器件(CPLD),等等。
图4中所示的这些单元可以部分或者全部地实现为硬件模块、软件模块、固件模块或者其任意组合。特别地,在某些实施例中,上文描述的流程、方法或过程可以由存储系统或与存储系统对应的主机或独立于存储系统的其它计算设备中的硬件来实现。
图5示出了可以用来实施本公开的实施例的示例设备500的示意性框图。设备500可以用于实现计算设备130。如图所示,设备500 包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM) 502中的计算机程序指令或者从存储单元508加载到随机访问存储器 (RAM)503中的计算机程序指令,来执行各种适当的动作和处理。在RAM 503中,还可存储设备500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O) 接口505也连接至总线504。
设备500中的多个部件连接至I/O接口505,包括:输入单元506,例如键盘、鼠标等;输出单元507,例如各种类型的显示器、扬声器等;存储单元508,例如磁盘、光盘等;以及通信单元509,例如网卡、调制解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/ 数据。
处理单元501执行上文所描述的各个方法和处理,例如方法200。例如,在一些实施例中,方法200可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元508。在一些实施例中,计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序加载到RAM 503并由 CPU 501执行时,可以执行上文描述的方法200的一个或多个步骤。备选地,在其他实施例中,CPU 501 可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行方法200。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
此外,虽然采用特定次序描绘了各操作,但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行,或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地,在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims (14)

1.一种用于数据分析的方法,包括:
获取数据项的元数据,所述元数据用于描述所述数据项的属性;
基于匹配规则和所述元数据来确定第一私密级别;
通过将所述数据项应用于私密级别确定模型,确定第二私密级别,所述私密级别确定模型是基于训练数据项和针对所述训练数据项的私密级别标注而被构建的;以及
基于所述第一私密级别和所述第二私密级别,确定与所述数据项对应的私密级别,
其中确定与所述数据项对应的私密级别包括:
将所述元数据应用于所述私密级别确定模型以确定第三私密级别;
基于匹配规则和所述数据项,确定第四私密级别;
基于所述第一私密级别和所述第三私密级别,确定所述数据项的元数据私密级别;
基于所述第二私密级别和所述第四私密级别,确定所述数据项的内容私密级别;以及
基于所述元数据私密级别和所述内容私密级别,确定与所述数据项对应的所述私密级别。
2.根据权利要求1所述的方法,还包括:
响应于所述元数据私密级别与所述内容私密级别的差异大于预定的阈值,提供关于所述数据项的预警。
3.根据权利要求1所述的方法,其中确定与所述数据项对应的私密级别包括:
通过利用第一权重和第二权重对所述第一私密级别和所述第二私密级别分别加权,确定与所述数据项对应的私密级别。
4.根据权利要求3所述的方法,还包括:
确定所述第一私密级别是否大于预定的阈值;以及
响应于所述第一私密级别大于预定的阈值,调整将被应用于所述第一私密级别的所述第一权重。
5.根据权利要求1至4中任一项所述的方法,其中获取数据项的元数据包括:
从用于存储所述数据项的数据库中获取以下中的至少一项作为所述元数据:与所述数据项对应的字段的标识、与所述字段对应的描述、或者与所述数据项对应的数据表的标识。
6.根据权利要求1至4中任一项所述的方法,其中确定所述第二私密级别包括:
确定与所述数据项对应的文本;
提取所述文本中的至少一个命名实体;以及
利用所述私密级别确定模型处理所述至少一个命名实体,以确定所述第二私密级别。
7.一种用于数据分析的装置,包括:
元数据获取模块,被配置为获取数据项的元数据,所述元数据用于描述所述数据项的属性;
第一私密级别确定模块,被配置为基于匹配规则和所述元数据来确定第一私密级别;
第二私密级别确定模块,被配置为通过将所述数据项应用于私密级别确定模型来确定第二私密级别,所述私密级别确定模型是基于训练数据项和针对所述训练数据项的私密级别标注而被构建的;以及
私密级别分析模块,被配置为基于所述第一私密级别和所述第二私密级别,确定与所述数据项对应的私密级别,
其中所述私密级别分析模块包括:
第三私密级别确定模块,被配置为将所述元数据应用于所述私密级别确定模型以确定第三私密级别;
第四私密级别确定模块,被配置为基于匹配规则二和所述数据项,确定第四私密级别;
元数据私密级别确定模块,被配置为基于所述第一私密级别和所述第三私密级别,确定所述数据项的元数据私密级别;
内容私密级别确定模块,被配置为基于所述第二私密级别和所述第四私密级别,确定所述数据项的内容私密级别;以及
分析模块,被配置为基于所述元数据私密级别和所述内容私密级别,确定与所述数据项对应的所述私密级别。
8.根据权利要求7所述的装置,还包括:
预警提供模块,被配置为响应于所述元数据私密级别与所述内容私密级别的差异大于预定的阈值,提供关于所述数据项的预警。
9.根据权利要求7所述的装置,其中所述私密级别分析模块包括:
权重模块,被配置为通过利用第一权重和第二权重对所述第一私密级别和所述第二私密级别分别加权,确定与所述数据项对应的私密级别。
10.根据权利要求9所述的装置,还包括:
阈值比较模块,被配置为确定所述第一私密级别是否大于预定的阈值;以及
权重调整模块,被配置为响应于所述第一私密级别大于预定的阈值,调整将被应用于所述第一私密级别的所述第一权重。
11.根据权利要求7至10中任一项所述的装置,其中所述元数据获取模块包括:
从用于存储所述数据项的数据库中获取以下中的至少一项作为所述元数据:与所述数据项对应的字段的标识、与所述字段对应的描述、或者与所述数据项对应的数据表的标识。
12.根据权利要求7至10中任一项所述的装置,其中所述第二私密级别确定模块包括:
文本确定模块,被配置为确定与所述数据项对应的文本;
提取模块,被配置为提取所述文本中的至少一个命名实体;以及
处理模块,被配置为利用所述私密级别确定模型处理所述至少一个命名实体以确定所述第二私密级别。
13.一种电子设备,所述设备包括:
一个或多个处理器;以及
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一项所述的方法。
14.一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如权利要求1-6中任一项所述的方法。
CN201911330819.3A 2019-12-20 2019-12-20 数据分析的方法、装置、设备和存储介质 Active CN111079186B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911330819.3A CN111079186B (zh) 2019-12-20 2019-12-20 数据分析的方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911330819.3A CN111079186B (zh) 2019-12-20 2019-12-20 数据分析的方法、装置、设备和存储介质

Publications (2)

Publication Number Publication Date
CN111079186A CN111079186A (zh) 2020-04-28
CN111079186B true CN111079186B (zh) 2022-05-03

Family

ID=70316506

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911330819.3A Active CN111079186B (zh) 2019-12-20 2019-12-20 数据分析的方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN111079186B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111709052B (zh) * 2020-06-01 2021-05-25 支付宝(杭州)信息技术有限公司 一种隐私数据识别和处理方法、装置、设备和可读介质
CN112132238A (zh) * 2020-11-23 2020-12-25 支付宝(杭州)信息技术有限公司 一种识别隐私数据的方法、装置、设备和可读介质
CN112613764A (zh) * 2020-12-25 2021-04-06 北京知因智慧科技有限公司 数据处理方法、装置以及电子设备
CN113449509A (zh) * 2021-08-05 2021-09-28 湖南特能博世科技有限公司 文本分析方法、装置及计算机设备
CN114722416B (zh) * 2022-06-09 2022-10-11 湖南师范大学 一种基于加密的财务信息化数据处理方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740720A (zh) * 2014-12-30 2016-07-06 三星电子株式会社 用于隐私知晓共享管理的计算系统及其操作方法
CN106055541A (zh) * 2016-06-29 2016-10-26 清华大学 一种新闻内容敏感词过滤方法及系统
CN106897459A (zh) * 2016-12-14 2017-06-27 中国电子科技集团公司第三十研究所 一种基于半监督学习的文本敏感信息识别方法
CN109885824A (zh) * 2019-01-04 2019-06-14 北京捷通华声科技股份有限公司 一种层次的中文命名实体识别方法、装置及可读存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9858426B2 (en) * 2015-11-03 2018-01-02 Palo Alto Research Center Incorporated Computer-implemented system and method for automatically identifying attributes for anonymization

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740720A (zh) * 2014-12-30 2016-07-06 三星电子株式会社 用于隐私知晓共享管理的计算系统及其操作方法
CN106055541A (zh) * 2016-06-29 2016-10-26 清华大学 一种新闻内容敏感词过滤方法及系统
CN106897459A (zh) * 2016-12-14 2017-06-27 中国电子科技集团公司第三十研究所 一种基于半监督学习的文本敏感信息识别方法
CN109885824A (zh) * 2019-01-04 2019-06-14 北京捷通华声科技股份有限公司 一种层次的中文命名实体识别方法、装置及可读存储介质

Also Published As

Publication number Publication date
CN111079186A (zh) 2020-04-28

Similar Documents

Publication Publication Date Title
CN111079186B (zh) 数据分析的方法、装置、设备和存储介质
CN109325326B (zh) 非结构化数据访问时的数据脱敏方法、装置、设备及介质
WO2020077895A1 (zh) 签约意向判断方法、装置、计算机设备和存储介质
WO2019174422A1 (zh) 实体关联关系的分析方法及相关装置
US20200334492A1 (en) Ablation on observable data for determining influence on machine learning systems
CN108763952B (zh) 一种数据分类方法、装置及电子设备
US10637826B1 (en) Policy compliance verification using semantic distance and nearest neighbor search of labeled content
US20120136812A1 (en) Method and system for machine-learning based optimization and customization of document similarities calculation
CN107368542B (zh) 一种涉密数据的涉密等级评定方法
CN110377733B (zh) 一种基于文本的情绪识别方法、终端设备及介质
CN111181757B (zh) 信息安全风险预测方法、装置以及计算设备、存储介质
CN110348471B (zh) 异常对象识别方法、装置、介质及电子设备
CN110941824B (zh) 一种基于对抗样本增强模型抗攻击能力的方法和系统
US11314892B2 (en) Mitigating governance impact on machine learning
US11481389B2 (en) Generating an executable code based on a document
CN116248412A (zh) 共享数据资源异常检测方法、系统、设备、存储器及产品
CN113836297B (zh) 文本情感分析模型的训练方法及装置
CN116048463A (zh) 基于标签管理的需求项内容智能推荐方法及装置
CN112541557B (zh) 生成式对抗网络的训练方法、装置及电子设备
CN116015703A (zh) 模型训练方法、攻击检测方法及相关装置
CN116127001A (zh) 敏感词检测方法、装置、计算机设备及存储介质
CN111460206B (zh) 图像处理方法、装置、电子设备和计算机可读存储介质
CN113704452A (zh) 基于Bert模型的数据推荐方法、装置、设备及介质
CN113191777A (zh) 风险识别方法和装置
CN112784990A (zh) 一种成员推断模型的训练方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant