CN115510297B

CN115510297B - 隐私计算、隐私数据和联邦学习的数据管理方法

Info

Publication number: CN115510297B
Application number: CN202211178332.XA
Authority: CN
Inventors: 王雨竹; 赵彬
Original assignee: Shenzhen Zhixing Technology Co Ltd
Current assignee: Shenzhen Zhixing Technology Co Ltd
Priority date: 2022-09-26
Filing date: 2022-09-26
Publication date: 2023-05-16
Anticipated expiration: 2042-09-26
Also published as: CN115510297A

Abstract

本申请涉及隐私计算、隐私数据和联邦学习技术领域，具体涉及一种隐私计算、隐私数据和联邦学习的数据管理方法。方法包括：在第一界面上提供第一组件从而使得数据源方可以通过第一组件录入数据集相关联的信息；将数据集输入机器学习模型，机器学习模型用于对数据集进行处理从而根据一级行业分类库和在该一级行业分类库下设的二级特征分类库生成数据集相关联的数据测绘结果；通过比较数据应用方的检索偏好和数据测绘结果来判断是否显示数据集，如果是，则在第二界面上展示数据集相关联的信息并提供第二组件从而使得数据应用方可以通过第二组件选择所述数据集。如此有利于提高识别匹配效率。

Description

隐私计算、隐私数据和联邦学习的数据管理方法

技术领域

本申请涉及隐私计算、隐私数据和联邦学习技术领域，具体涉及一种隐私计算、隐私数据和联邦学习的数据管理方法。

背景技术

参与生产经营活动并发挥重要价值的数据被称之为要素数据。而以电子化的方式记录要素数据或者说将要素数据转化为可以由计算机理解的形式，则称之为数据要素。要素数据以及在此基础上获得的数据要素，可用于数据赋能并在诸如智能设备、智能医疗、智能交通和智能商务等各方面提高生产率和促进创新。因此存在持续发展的市场需求，希望在保证数据隐私和安全的前提下，释放和挖掘数据要素价值，搭建高效可靠的数据共享流通平台和机制，以及构建数据交易联盟。为了满足挖掘数据要素价值和促进数据要素交易流通的需求，通过数据交易市场、数据交易所、数据交易联盟或者其它组织形式，发挥数据价值和将数据作为可交易的资产实现潜在商业价值的合理配置。但是，现有技术中，在关于数据要素的数据申请及授权环节，存在多个需要解决的技术难题，例如缺少按类别维度进行自动化分级分类、缺少对部分特征及全部特征的差异化申请及授权方式、缺少按时间维度定制化申请及授权数据、缺少对数据使用次数及频率的控制、缺少对数据可见性的区分。

为此，需要一种隐私计算、隐私数据和联邦学习的数据管理方法，能够解决上述关于数据要素的数据申请及授权环节的技术难题以及满足释放和挖掘数据要素价值、搭建高效可靠的数据共享流通平台和机制以及构建数据交易联盟的需求。

发明内容

第一方面，本申请实施例提供了一种数据管理方法。所述数据管理方法包括：在呈现给数据源方的第一界面上提供第一组件从而使得所述数据源方可以通过所述第一组件录入数据集相关联的信息；将所述数据集输入机器学习模型，所述机器学习模型用于对所述数据集进行处理从而根据一级行业分类库和在该一级行业分类库下设的二级特征分类库生成所述数据集相关联的数据测绘结果；通过比较数据应用方的检索偏好和所述数据测绘结果来判断是否显示所述数据集，如果是，则在呈现给数据应用方的第二界面上展示所述数据集相关联的信息并提供第二组件从而使得所述数据应用方可以通过所述第二组件选择所述数据集。其中，当所述数据应用方选择所述数据集时，所述数据集相关联的信息、所述检索偏好以及所述数据测绘结果用于优化所述机器学习模型。

第一方面所描述的技术方案，实现了数据源方所发布的数据集的特性与数据应用方的检索偏好之间的匹配，在数据要素的数据申请及授权环节上通过机器学习模型对数据集进行处理从而根据一级行业分类库和在该一级行业分类库下设的二级特征分类库生成数据集相关联的数据测绘结果，有利于提高识别匹配效率。

根据第一方面的技术方案的一种可能的实现方式，本申请实施例还提供了，所述数据测绘结果包括所述数据集的数据资产分级分类结果。

根据第一方面的技术方案的一种可能的实现方式，本申请实施例还提供了，所述数据集的数据资产分级分类结果用于按照类别维度对所述数据集的数据特征进行自动化分级分类。

根据第一方面的技术方案的一种可能的实现方式，本申请实施例还提供了，所述数据源方还可以通过所述第一组件选择所述数据集对指定数据应用方为可见或者不可见，所述数据管理方法还包括：基于所述数据源方所选择的所述数据集对所述指定数据应用方为可见或者不可见，判断是否显示所述数据集。

根据第一方面的技术方案的一种可能的实现方式，本申请实施例还提供了，所述一级行业分类库用于按照行业数据特性区分所述数据集的数据特征。

根据第一方面的技术方案的一种可能的实现方式，本申请实施例还提供了，所述二级特征分类库用于按照关键字段匹配规则识别所述数据集的数据特征中的关键字段。

根据第一方面的技术方案的一种可能的实现方式，本申请实施例还提供了，所述关键字段匹配规则包括模糊匹配规则和精确匹配规则，所述机器学习模型还用于确定所述数据集的数据特征中的关键字段的扫描时间相对于命中率的优先级，所述二级特征分类库用于按照所述模糊匹配规则识别所述数据集的数据特征中的扫描时间相对于命中率的优先级较低的关键字段以及用于按照所述精确匹配规则识别所述数据集的数据特征中的扫描时间相对于命中率的优先级较高的关键字段。

根据第一方面的技术方案的一种可能的实现方式，本申请实施例还提供了，所述机器学习模型还用于，对所识别的所述数据集的数据特征中的关键字段进行正则化处理。

根据第一方面的技术方案的一种可能的实现方式，本申请实施例还提供了，所述检索偏好包括至少一个标签，当所述数据测绘结果符合所述至少一个标签中的一个或者多个标签时显示所述数据集。

根据第一方面的技术方案的一种可能的实现方式，本申请实施例还提供了，所述检索偏好还包括至少一个时间要求，当所述数据测绘结果符合所述至少一个时间要求时显示所述数据集，所述至少一个时间要求包括回溯时间范围、使用时间范围或者销毁时间范围。

根据第一方面的技术方案的一种可能的实现方式，本申请实施例还提供了，生成所述数据测绘结果包括按照多个特征标签标注所述数据集的数据特征，所述检索偏好包括所述多个特征标签中的一个或者多个特征标签，当所述数据测绘结果符合所述一个或者多个特征标签时显示所述数据集。

根据第一方面的技术方案的一种可能的实现方式，本申请实施例还提供了，所述检索偏好还包括使用次数要求，当所述数据集的使用次数符合所述使用次数要求时显示所述数据集。

根据第一方面的技术方案的一种可能的实现方式，本申请实施例还提供了，所述数据管理方法还包括：当所述数据应用方的进行中的任务数量达到第一阈值或者进行中的所述数据集相关联的任务数量达到第二阈值时，禁止所述数据应用方发起所述数据集相关联的新任务。

第二方面，本申请实施例提供了一种非瞬时性计算机可读存储介质。所述计算机可读存储介质存储有计算机指令，该计算机指令被处理器执行时实现根据第一方面中任一项所述的方法。

第二方面所描述的技术方案，实现了数据源方所发布的数据集的特性与数据应用方的检索偏好之间的匹配，在数据要素的数据申请及授权环节上通过机器学习模型对数据集进行处理从而根据一级行业分类库和在该一级行业分类库下设的二级特征分类库生成数据集相关联的数据测绘结果，有利于提高识别匹配效率。

第三方面，本申请实施例提供了一种电子设备。所述电子设备包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器通过运行所述可执行指令以实现根据第一方面中任一项所述的方法。

第三方面所描述的技术方案，实现了数据源方所发布的数据集的特性与数据应用方的检索偏好之间的匹配，在数据要素的数据申请及授权环节上通过机器学习模型对数据集进行处理从而根据一级行业分类库和在该一级行业分类库下设的二级特征分类库生成数据集相关联的数据测绘结果，有利于提高识别匹配效率。

附图说明

为了说明本申请实施例或背景技术中的技术方案，下面将对本申请实施例或背景技术中所需要使用的附图进行说明。

图1示出了本申请实施例提供的数据管理方法的流程示意图。

图2示出了本申请实施例提供的第一界面和第二界面的示意图。

图3示出了本申请实施例提供的用于图1的数据管理方法的电子设备的框图。

具体实施方式

本申请实施例为了解决在关于数据要素的数据申请及授权环节存在的技术难题，提出了一种隐私计算、隐私数据和联邦学习的数据管理方法。其中，所述数据管理方法包括：在呈现给数据源方的第一界面上提供第一组件从而使得所述数据源方可以通过所述第一组件录入数据集相关联的信息；将所述数据集输入机器学习模型，所述机器学习模型用于对所述数据集进行处理从而根据一级行业分类库和在该一级行业分类库下设的二级特征分类库生成所述数据集相关联的数据测绘结果；通过比较数据应用方的检索偏好和所述数据测绘结果来判断是否显示所述数据集，如果是，则在呈现给数据应用方的第二界面上展示所述数据集相关联的信息并提供第二组件从而使得所述数据应用方可以通过所述第二组件选择所述数据集。其中，当所述数据应用方选择所述数据集时，所述数据集相关联的信息、所述检索偏好以及所述数据测绘结果用于优化所述机器学习模型。本申请实施例具有以下有益技术效果：实现了数据源方所发布的数据集的特性与数据应用方的检索偏好之间的匹配，在数据要素的数据申请及授权环节上通过机器学习模型对数据集进行处理从而根据一级行业分类库和在该一级行业分类库下设的二级特征分类库生成数据集相关联的数据测绘结果，有利于提高识别匹配效率。

本申请实施例可用于以下应用场景，包括但是不限于，数据要素价值挖掘、数据共享流通平台、数据交易联盟、对数据交易行为的跟踪管理和实时监管、拦截不法数据交易等。

本申请实施例可以依据具体应用环境进行调整和改进，此处不做具体限定。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请的实施例进行描述。

图1示出了本申请实施例提供的数据管理方法的流程示意图。如图1所示，数据管理方法包括以下步骤。

步骤S102：在呈现给数据源方的第一界面上提供第一组件从而使得所述数据源方可以通过所述第一组件录入数据集相关联的信息。

步骤S104：将所述数据集输入机器学习模型，所述机器学习模型用于对所述数据集进行处理从而根据一级行业分类库和在该一级行业分类库下设的二级特征分类库生成所述数据集相关联的数据测绘结果。

步骤S106：通过比较数据应用方的检索偏好和所述数据测绘结果来判断是否显示所述数据集，如果是，则在呈现给数据应用方的第二界面上展示所述数据集相关联的信息并提供第二组件从而使得所述数据应用方可以通过所述第二组件选择所述数据集。

其中，当所述数据应用方选择所述数据集时，所述数据集相关联的信息、所述检索偏好以及所述数据测绘结果用于优化所述机器学习模型。

数据源方是提供数据集的参与方，可以是保有私有数据的机构或者个人。数据应用方是申请数据集并申请获得授权的参与方。通过数据交易市场、数据交易所、数据交易联盟或者其它组织形式，可以为数据源方提供发布数据集的平台，而潜在的数据应用方则可以提出数据申请及数据授权的请求，从而促成数据源方和数据应用方之间的合作，进而促进以数据作为可交易的资产的交易以及促进数据要素的高效流通。在实践中，数据源方发布的数据集，也就是所提供的用于交易和流通的数据资产、数据要素，一般是带有大量自定义的信息，并且其中所包含的信息可能受到表述习惯、录入操作或者其它因素影响。而数据应用方在选择希望申请的数据集时，也就是选择希望购买或者申请合作的数据资产、数据要素，一般期望按照定制化方式或者定制化要求对公布的数据集进行筛选，例如按照特征、时间维度、数据使用频次或者其它因素进行筛选。也就是说，一方面需要考虑到数据源方所提供的数据集和有关信息中可能带有自定义成分且可能受到各种因素影响而在表述上不一致，例如对于同一个场所或者同一个对象可能有不同的称谓或者表述；另一方面需要考虑到数据应用方可能期望按照定制化的方式或者要求来筛选或者展示可供选择的数据集，例如可能提出特定的匹配要求或者用户自定义的检索偏好等。为了更好地实现数据源方所发布的数据集的特性与数据应用方的检索偏好之间的匹配，本申请实施例提供了数据管理方法，在数据要素的数据申请及授权环节上做出了各种改进，下面进一步详细说明。

继续参阅图1，第一组件用于使得所述数据源方可以通过所述第一组件录入数据集相关联的信息。第一组件是在第一界面上录入信息的互动组件，例如通过输入框、文本气泡或者任意合适的可与用户互动的组件、控件或其它形式。数据集相关联的信息可以包括例如数据名称、数据概述、版本号或者任意其它可以由数据源方自定义或者自行决定的信息。在步骤S102，数据源方通过第一组件在第一界面录入数据集相关联的信息之后。接着，在步骤S104，将所述数据集输入机器学习模型，所述机器学习模型用于对所述数据集进行处理从而根据一级行业分类库和在该一级行业分类库下设的二级特征分类库生成所述数据集相关联的数据测绘结果。其中，数据测绘结果从行业分类和特征分类两个维度去处理数据集，例如根据数据资产分级分类标准做出的评价以及根据数据集的历史数据做出分析等。其中，行业分类是基于一级行业分类库并且可以参考行业性质区分，例如分类为银行、保险、互联网金融、安防、政务、医疗、广告推荐、教育、信贷风控等。特征分类是基于二级特征分类库并且可以参考数据资产分级分类标准中有关描述。在一些实施例中，二级特征分类库的建立是通过对数据资产分级分类标准、或者数据保护影响评估模板、或者其它合适标准中的有关描述或信息，例如关键字段、关键词、敏感词等，进行区分和识别。数据资产分级分类的基准或者说数据保护影响评估模板的设定，可以是基于任意合适的标准，例如可以根据中国信通院发布的可信数据源评估项目依据，比如“金融机构外部可信数据源评估标准”。二级特征分类库可以通过机器学习算法实现自动化或半自动化更新维护，并且针对评分比较低的匹配结果可通过批量标记进行优化或者通过手动修正从而特征识别匹配效率。值得注意的是，一级行业分类库和在该一级行业分类库下设的二级特征分类库共同构成了数据分类分级模板，其中先以行业划分再以特征(例如关键字段区分)划分，这是考虑到同一行业的数据源方所提供的数据集和有关信息具有较好的一致性，例如往往采用行业惯用称谓或者行业专业术语等。因此，先根据一级行业分类库实现行业划分，再根据二级特征分类库实现特征划分例如区分关键字段等，有利于提高识别匹配效率。

继续参阅图1，在步骤S106中，通过比较数据应用方的检索偏好和所述数据测绘结果来判断是否显示所述数据集，如果是，则在呈现给数据应用方的第二界面上展示所述数据集相关联的信息并提供第二组件从而使得所述数据应用方可以通过所述第二组件选择所述数据集。这里，如果所述数据集通过比较数据应用方的检索偏好和所述数据测绘结果被判断为应显示，第二界面呈现给数据应用方并且展示该数据集。第二组件是在第二界面上选择数据集的组件，例如按钮、勾选项等。上面提到，在步骤S104中根据一级行业分类库和在该一级行业分类库下设的二级特征分类库生成所述数据集相关联的数据测绘结果，如此实现了按照数据分类分级模板(一级行业分类库和在该一级行业分类库下设的二级特征分类库共同构成)来规范化数据源方所提供的数据集所包含的信息并建立起有利于后续识别匹配的数据测绘结果。而通过比较数据应用方的检索偏好和数据测绘结果，可以实现数据源方所发布的数据集的特性与数据应用方的检索偏好之间的匹配。

进一步地，当所述数据应用方选择所述数据集时，所述数据集相关联的信息、所述检索偏好以及所述数据测绘结果用于优化所述机器学习模型。这意味着在优化机器学习模型是基于两部分信息，一部分信息是数据源方录入的数据集相关联的信息，另一部分是检索偏好和数据测绘结果之间的匹配结果也就是数据应用方选择所述数据集。值得注意的是，在步骤S106中，通过比较数据应用方的检索偏好和所述数据测绘结果来判断是否显示所述数据集，如果是，则在呈现给数据应用方的第二界面上展示所述数据集相关联的信息。也就是说，在步骤S106中，关于是否显示所述数据集的判断，是通过比较检索偏好和数据测绘结果而做出，这里并没有比较检索偏好和数据源方录入的数据集相关联的信息。这是因为数据源方录入的数据集相关联的信息可能带有自定义成分且可能受到各种因素影响而在表述上不一致，例如对于同一个场所或者同一个对象可能有不同的称谓或者表述，因此直接比较数据应用方的检索偏好和数据源方录入的数据集相关联的信息，可能不利于实现高效可靠的识别匹配。但是，所述数据集相关联的信息、所述检索偏好以及所述数据测绘结果用于优化所述机器学习模型，而且该机器学习模型还用于对所述数据集进行处理从而根据一级行业分类库和在该一级行业分类库下设的二级特征分类库生成所述数据集相关联的数据测绘结果。因此，对所述机器学习模型的优化至少基于所述数据集相关联的信息。因此当发生了数据应用方的检索偏好和数据测绘结果之间的匹配也就是数据应用方选择所述数据集时，一般情况下，这意味着所述数据集相关联的信息也对提升识别匹配效果有更好的参考价值，因此可用于提升机器学习模型的预测效果从而更好地匹配检索偏好并且能更好地配合数据源方自主输入的信息。

总之，图1所示的数据管理方法，实现了数据源方所发布的数据集的特性与数据应用方的检索偏好之间的匹配，在数据要素的数据申请及授权环节上通过机器学习模型对数据集进行处理从而根据一级行业分类库和在该一级行业分类库下设的二级特征分类库生成数据集相关联的数据测绘结果，有利于提高识别匹配效率。

下面结合图2说明与图1的数据管理方法相关的第一界面和第二界面。图2示出了本申请实施例提供的第一界面和第二界面的示意图。如图2所示，第一界面210上显示了多种信息，包括数据名称212、数据概述214、版本号216以及可见商户218。其中，可见商户218可以包括以下拉式菜单方式可供选择的商户列表，用户可以从中选择能看到数据集的商户。相对的，可见商户218也可以用于选择无法看到数据集的商户。在一些实施例中，可见商户218可以被替代为数据集可见或者不可见的选项，用于向用户提供数据可见性方面的操控。数据源方在第一界面210录入数据集相关联的信息，包括图2中示例性示出的多种信息。如上所述，数据源方所提供的数据集和有关信息中可能带有自定义成分且可能受到各种因素影响而在表述上不一致，例如在数据名称212和数据概述214上可能采用自定义的称谓或者与行业习惯略有不同的表述风格。第一界面可以包括第一组件用于录入数据集相关联的信息，例如数据名称212、数据概述214、版本号216以及可见商户218可以是文本框或者文本信息录入组件等用于用户输入相应信息。

第二界面220包括让用户输入检索偏好的组件以及让用户选择数据集的第二组件。其中，用户的检索偏好可以通过关键字222、状态224、查询按钮228以及重置按钮229录入。关键字222用于录入关键字段进行筛选，状态224用于选择要显示的数据集的状态，例如未合作状态和已合作状态。查询按钮228用于提交基于检索偏好的查询，重置按钮229用于重置查询结果。数据标签栏226用于提供基于标签的筛选，例如数据标签栏226可以包括多种标签如反欺诈、信用评分、消费行为、黑名单、跨境电商、交通出行、营销评分、多头共债、个人涉诉、营销标签、银行卡数据、运营商数据等。数据标签栏226所包括的标签可用于进一步筛选基于关键字和状态查询得到的数据集，将其中符合用户选择的一个或者多个标签的数据集显示在第二界面220上。数据标签栏226还可以包括显示所有查询得到的数据集的标签，例如“全部”标签。数据标签栏226的标签可以是用户自定义的，并且通过内置算法转换为数据集相关联的数据测绘结果中的某些特性。例如，数据标签栏226的标签“反欺诈”意味着具有该“反欺诈”标签的数据集可用于反欺诈领域的数据分析处理，这一点可以体现在该数据集相关联的数据测绘结果上，例如在一级行业分类库中对应容易发生欺诈行为的行业如金融行业而在二级特征分类库上对应可用于警示欺诈行为的特征如异常交易行为等。如此，通过第二界面220上提供的让用户输入检索偏好的组件，例如关键字222、状态224以及数据标签栏226，可以更好地体现数据应用方的检索偏好。

第二界面220还示例性示出了查询结果，其中包括四个数据集并提供了第一组件用于申请数据集。具体地，数据集名称230、数据标签232、隐私计算框架版本号234以及更新时间236对应同一个数据集并提供了申请按钮238用于申请该数据集；数据集名称240、数据标签242、隐私计算框架版本号244以及更新时间246对应同一个数据集并提供了申请按钮248用于申请该数据集；数据集名称250、数据标签252、隐私计算框架版本号254以及更新时间256对应同一个数据集并提供了申请按钮258用于申请该数据集；数据集名称260、数据标签262、隐私计算框架版本号264以及更新时间266对应同一个数据集并提供了申请按钮268用于申请该数据集。查询结果中的数据集的数据标签可以对应上面提到的数据标签栏226中的标签。例如，数据标签栏226包括“反欺诈”标签，数据标签232是“反欺诈”，数据标签242也是“反欺诈”，数据标签252是“多头共债”，而数据标签262是无也就是没有标签。这样，当用户在数据标签栏226中选择显示所有具有“反欺诈”标签的数据集时，第二界面220不会显示数据标签252和数据标签262各自对应的数据集。另外，查询结果中的数据集的隐私计算框架版本号提供了对应的数据集所采用的隐私计算框架及其版本，例如隐私计算框架版本号244是FATE 1.6，隐私计算框架版本号254是FATE 2.0。另外，查询结果中的数据集的数据名称是系统自行生成，并不一定与数据源方录入该数据集时输入的数据名称一致。另外，查询结果中的数据集的更新时间显示了数据集最后的更新时间，有利于按时间维度定制化申请及授权数据。

请参阅图1和图2，在一种可能的实施方式中，所述数据测绘结果包括所述数据集的数据资产分级分类结果。数据资产分级分类的基准或者说数据保护影响评估模板的设定，可以是基于任意合适的标准，例如可以根据中国信通院发布的可信数据源评估项目依据，比如“金融机构外部可信数据源评估标准”。在一些实施例中，所述数据集的数据资产分级分类结果用于按照类别维度对所述数据集的数据特征进行自动化分级分类。这样有助于体现类别维度的区分，按类别维度进行自动化分级分类。

在一种可能的实施方式中，所述数据源方还可以通过所述第一组件选择所述数据集对指定数据应用方为可见或者不可见，所述数据管理方法还包括：基于所述数据源方所选择的所述数据集对所述指定数据应用方为可见或者不可见，判断是否显示所述数据集。如此体现了数据可见性的区分。

在一种可能的实施方式中，所述一级行业分类库用于按照行业数据特性区分所述数据集的数据特征。例如，基于各行业数据特性的区分建立该一级行业分类库，按行业性质区分银行、保险、互联网金融、安防、政务、医疗、广告推荐、教育、信贷风控等。在一些实施例中，所述二级特征分类库用于按照关键字段匹配规则识别所述数据集的数据特征中的关键字段。在一些实施例中，所述关键字段匹配规则包括模糊匹配规则和精确匹配规则，所述机器学习模型还用于确定所述数据集的数据特征中的关键字段的扫描时间相对于命中率的优先级，所述二级特征分类库用于按照所述模糊匹配规则识别所述数据集的数据特征中的扫描时间相对于命中率的优先级较低的关键字段以及用于按照所述精确匹配规则识别所述数据集的数据特征中的扫描时间相对于命中率的优先级较高的关键字段。其中模糊匹配的特点是命中率要求高、时间要求低，因此适合用于识别所述数据集的数据特征中的扫描时间相对于命中率的优先级较低的关键字段；精准匹配的特点是命中率要求低、时间要求高，因此适合用于所述数据集的数据特征中的扫描时间相对于命中率的优先级较高的关键字段。在一些实施例中，对所识别的所述数据集的数据特征中的关键字段进行正则化处理。如此，可用于处理大量的不规则的且可能存在误差、记录错误的原始数据，对其中的各种缩写、改写或其他不规则撰写等进行匹配从而达到正则化和精简化目的。以及通过模糊匹配识别结合精准识别提升效果。并且，正则匹配可以通过扫描快速校验字段是否符合规则如长度、正负数、小数点、校验字符组成、是否包含特殊字符等。正则匹配属于模糊匹配中的一种方式，可以参考任何来源如网络的正则表达式(校验数字，字符，号码等)。

在一种可能的实施方式中，所述检索偏好包括至少一个标签，当所述数据测绘结果符合所述至少一个标签中的一个或者多个标签时显示所述数据集。标签示例包括：反欺诈、信用评分、消费行为、黑名单、跨境电商、交通出行、营销评分、多头共债、个人涉诉、营销标签、银行卡数据、运营商数据等。标签用于确定是否显示数据集，当所显示的数据集最终被数据应用方选择，则意味着标签和数据测绘结果之间匹配，可用于优化机器学习模型。在一些实施例中，所述检索偏好还包括至少一个时间要求，当所述数据测绘结果符合所述至少一个时间要求时显示所述数据集，所述至少一个时间要求包括回溯时间范围、使用时间范围或者销毁时间范围。如此有利于按时间维度定制化申请及授权数据。在一些实施例中，生成所述数据测绘结果包括按照多个特征标签标注所述数据集的数据特征，所述检索偏好包括所述多个特征标签中的一个或者多个特征标签，当所述数据测绘结果符合所述一个或者多个特征标签时显示所述数据集。如此有利于对部分特征及全部特征的差异化申请及授权方式。在一些实施例中，所述检索偏好还包括使用次数要求，当所述数据集的使用次数符合所述使用次数要求时显示所述数据集。如此有利于对数据使用次数及频率的控制。

在一种可能的实施方式中，所述数据管理方法还包括：当所述数据应用方的进行中的任务数量达到第一阈值或者进行中的所述数据集相关联的任务数量达到第二阈值时，禁止所述数据应用方发起所述数据集相关联的新任务。这里，数据应用方进行中任务太多，或者，数据集用于太多进行中任务，都会触发后台的控制，禁止发起新任务，可能还会导致该数据集处于停用状态。

应当理解的是，上述方法可以通过相应的执行主体或者载体来实现。在一些示例性实施例中，一种非瞬时性计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，该计算机指令被处理器执行时实现上述方法以及上述任意实施例、实施方式或者它们的组合。在一些示例性实施例中，一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器通过运行所述可执行指令以实现上述方法以及上述任意实施例、实施方式或者它们的组合。

图3示出了本申请实施例提供的用于图1的数据管理方法的电子设备的框图。如图3所示，电子设备包括主处理器302，内部总线304，网络接口306，主存储器308，以及辅助处理器310和辅助内存312，还有辅助处理器320和辅助内存322。其中，主处理器302与主存储器308连接，主存储器308可用于存储主处理器302可执行的计算机指令，从而可以实现图1的数据管理方法，包括其中部分或者全部步骤，也包括其中步骤的任意可能的组合或结合以及可能的替换或者变体。网络接口306用于提供网络连接以及通过网络收发数据。内部总线304用于提供在主处理器302、网络接口306、辅助处理器310以及辅助处理器320之间的内部的数据交互。其中，辅助处理器310与辅助内存312连接并一起提供辅助计算能力，而辅助处理器320与辅助内存322连接并一起提供辅助计算能力。辅助处理器310和辅助处理器320可以提供相同或者不同的辅助计算能力，包括但是不限于，针对特定计算需求进行优化的计算能力如并行处理能力或者张量计算能力，针对特定算法或者逻辑结构进行优化的计算能力例如迭代计算能力或者图计算能力等。辅助处理器310和辅助处理器320可以包括特定类型的一个或者多个处理器，如数字信号处理器(DSP)，专用集成电路(ASIC)，现场可编程门阵列(FPGA)等，从而可以提供定制化的功能和结构。在一些示例性实施例中，电子设备可以不包括辅助处理器，可以包括仅一个辅助处理器，还可以包括任意数量的辅助处理器且各自具有相应的定制化功能及结构，在此不做具体限定。图3中所示出的两个辅助处理器的架构仅为说明性而不应解释为限制性。另外，主处理器302可以包括单核或者多核的计算单元，用于提供本申请实施例所必需的功能和操作。另外，主处理器302和辅助处理器(如图3中的辅助处理器310和辅助处理器320)可以具有不同的架构，也就是电子设备可以是基于异构架构的系统，例如主处理器302可以是基于指令集操作体系的通用型处理器如CPU，而辅助处理器可以是适合并行化计算的图形处理器GPU或者是适合神经网络模型相关运算的专用加速器。辅助内存(例如图3所示的辅助内存312和辅助内存322)可以用于配合各自对应的辅助处理器来实现定制化功能及结构。而主存储器308用于存储必要的指令、软件、配置、数据等从而可以配合主处理器302提供本申请实施例所必需的功能和操作。在一些示例性实施例中，电子设备可以不包括辅助内存，可以包括仅一个辅助内存，还可以包括任意数量的辅助内存，在此不做具体限定。图3中所示出的两个辅助内存的架构仅为说明性而不应解释为限制性。主存储器308以及可能的辅助内存可以包括以下一个或多个特征：易失性，非易失性，动态，静态，可读/写，只读，随机访问，顺序访问，位置可寻址性，文件可寻址性和内容可寻址性，并且可以包括随机存取存储器(RAM)，闪存，只读存储器(ROM)，可擦可编程只读存储器(EPROM)，电可擦可编程只读存储器(EEPROM)，寄存器，硬盘，可移动磁盘，可记录和/或可重写光盘(CD)，数字多功能光盘(DVD)，大容量存储介质设备或任何其他形式的合适存储介质。内部总线304可以包括不同总线结构中的任何一种或不同总线结构的组合，例如存储器总线或存储器控制器，外围总线，通用串行总线和/或利用多种总线体系结构中的任何一种的处理器或本地总线。应当理解的是，图3所示的电子设备，其所示的结构并不构成对有关装置或系统的具体限定，在一些示例性实施例中，电子设备可以包括比具体实施例和附图更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者具有不同的部件布置。

本申请提供的具体实施例可以用硬件，软件，固件或固态逻辑电路中的任何一种或组合来实现，并且可以结合信号处理，控制和/或专用电路来实现。本申请具体实施例提供的设备或装置可以包括一个或多个处理器(例如，微处理器，控制器，数字信号处理器(DSP)，专用集成电路(ASIC)，现场可编程门阵列(FPGA)等)，这些处理器处理各种计算机可执行指令从而控制设备或装置的操作。本申请具体实施例提供的设备或装置可以包括将各个组件耦合在一起的系统总线或数据传输系统。系统总线可以包括不同总线结构中的任何一种或不同总线结构的组合，例如存储器总线或存储器控制器，外围总线，通用串行总线和/或利用多种总线体系结构中的任何一种的处理器或本地总线。本申请具体实施例提供的设备或装置可以是单独提供，也可以是系统的一部分，也可以是其它设备或装置的一部分。

本申请提供的具体实施例可以包括计算机可读存储介质或与计算机可读存储介质相结合，例如能够提供非暂时性数据存储的一个或多个存储设备。计算机可读存储介质/存储设备可以被配置为保存数据，程序器和/或指令，这些数据，程序器和/或指令在由本申请具体实施例提供的设备或装置的处理器执行时使这些设备或装置实现有关操作。计算机可读存储介质/存储设备可以包括以下一个或多个特征：易失性，非易失性，动态，静态，可读/写，只读，随机访问，顺序访问，位置可寻址性，文件可寻址性和内容可寻址性。在一个或多个示例性实施例中，计算机可读存储介质/存储设备可以被集成到本申请具体实施例提供的设备或装置中或属于公共系统。计算机可读存储介质/存储设备可以包括光存储设备，半导体存储设备和/或磁存储设备等等，也可以包括随机存取存储器(RAM)，闪存，只读存储器(ROM)，可擦可编程只读存储器(EPROM)，电可擦可编程只读存储器(EEPROM)，寄存器，硬盘，可移动磁盘，可记录和/或可重写光盘(CD)，数字多功能光盘(DVD)，大容量存储介质设备或任何其他形式的合适存储介质。

以上是本申请实施例的实施方式，应当指出，本申请具体实施例描述的方法中的步骤可以根据实际需要进行顺序调整、合并和删减。在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其他实施例的相关描述。可以理解的是，本申请实施例以及附图所示的结构并不构成对有关装置或系统的具体限定。在本申请另一些实施例中，有关装置或系统可以包括比具体实施例和附图更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者具有不同的部件布置。本领域技术人员将理解，在不脱离本申请具体实施例的精神和范围的情况下，可以对具体实施例记载的方法和设备的布置，操作和细节进行各种修改或变化；在不脱离本申请实施例原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本申请的保护范围。

Claims

1.一种用于隐私计算、隐私数据和联邦学习的数据管理方法，其特征在于，所述数据管理方法包括：

在呈现给数据源方的第一界面上提供第一组件从而使得所述数据源方可以通过所述第一组件录入与第一数据集相关联的第一信息；

将所述第一数据集输入机器学习模型，所述机器学习模型用于对所述第一数据集进行处理从而根据一级行业分类库和在该一级行业分类库下设的二级特征分类库生成与所述第一数据集相关联的第一数据测绘结果；

通过比较数据应用方的检索偏好和所述第一数据测绘结果来判断是否显示所述第一数据集，当所述第一数据测绘结果符合所述检索偏好所包括的至少一个标签中的一个或者多个标签时显示所述第一数据集并且在呈现给数据应用方的第二界面上展示与所述第一数据集相关联的所述第一信息并提供第二组件从而使得所述数据应用方可以通过所述第二组件选择所述第一数据集，

其中，当所述数据应用方选择所述第一数据集时，与所述第一数据集相关联的所述第一信息、所述检索偏好以及所述第一数据测绘结果用于优化所述机器学习模型。

2.根据权利要求1所述的数据管理方法，其特征在于，所述第一数据测绘结果包括所述第一数据集的数据资产分级分类结果。

3.根据权利要求2所述的数据管理方法，其特征在于，所述第一数据集的数据资产分级分类结果用于按照类别维度对所述第一数据集的数据特征进行自动化分级分类。

4.根据权利要求1所述的数据管理方法，其特征在于，所述数据源方还可以通过所述第一组件选择所述第一数据集对指定数据应用方为可见或者不可见，所述数据管理方法还包括：

基于所述数据源方所选择的所述第一数据集对所述指定数据应用方为可见或者不可见，判断是否显示所述第一数据集。

5.根据权利要求1所述的数据管理方法，其特征在于，所述一级行业分类库用于按照行业数据特性区分所述第一数据集的数据特征。

6.根据权利要求5所述的数据管理方法，其特征在于，所述二级特征分类库用于按照关键字段匹配规则识别所述第一数据集的数据特征中的关键字段。

7.根据权利要求6所述的数据管理方法，其特征在于，所述关键字段匹配规则包括模糊匹配规则和精确匹配规则，所述机器学习模型还用于确定所述第一数据集的数据特征中的关键字段的扫描时间相对于命中率的优先级，所述二级特征分类库用于按照所述模糊匹配规则识别所述第一数据集的数据特征中的扫描时间相对于命中率的优先级较低的关键字段以及用于按照所述精确匹配规则识别所述第一数据集的数据特征中的扫描时间相对于命中率的优先级较高的关键字段。

8.根据权利要求6所述的数据管理方法，其特征在于，所述机器学习模型还用于，对所识别的所述第一数据集的数据特征中的关键字段进行正则化处理。

9.根据权利要求1所述的数据管理方法，其特征在于，所述检索偏好还包括至少一个时间要求，当所述第一数据测绘结果符合所述至少一个时间要求时显示所述第一数据集，所述至少一个时间要求包括回溯时间范围、使用时间范围或者销毁时间范围。

10.根据权利要求1所述的数据管理方法，其特征在于，生成所述第一数据测绘结果包括按照多个特征标签标注所述第一数据集的数据特征，所述检索偏好包括所述多个特征标签中的一个或者多个特征标签，当所述第一数据测绘结果符合所述一个或者多个特征标签时显示所述第一数据集。

11.根据权利要求1所述的数据管理方法，其特征在于，所述检索偏好还包括使用次数要求，当所述第一数据集的使用次数符合所述使用次数要求时显示所述第一数据集。

12.根据权利要求1至11中任一项所述的数据管理方法，其特征在于，所述数据管理方法还包括：

当所述数据应用方的进行中的任务数量达到第一阈值或者进行中的与所述第一数据集相关联的任务数量达到第二阈值时，禁止所述数据应用方发起所述第一数据集相关联的新任务。

13.一种非瞬时性计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，该计算机指令被处理器执行时实现根据权利要求1至12中任一项所述的方法。

14.一种电子设备，其特征在于，所述电子设备包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器通过运行所述可执行指令以实现根据权利要求1至12中任一项所述的方法。