CN115080858A - 多方协作场景下的数据推荐方法及装置 - Google Patents
多方协作场景下的数据推荐方法及装置 Download PDFInfo
- Publication number
- CN115080858A CN115080858A CN202210773627.5A CN202210773627A CN115080858A CN 115080858 A CN115080858 A CN 115080858A CN 202210773627 A CN202210773627 A CN 202210773627A CN 115080858 A CN115080858 A CN 115080858A
- Authority
- CN
- China
- Prior art keywords
- data
- data set
- application
- label
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 88
- 238000013507 mapping Methods 0.000 claims description 40
- 238000012545 processing Methods 0.000 claims description 32
- 238000004891 communication Methods 0.000 claims description 19
- 230000003993 interaction Effects 0.000 claims description 16
- 238000012216 screening Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 11
- 238000003860 storage Methods 0.000 claims description 11
- 230000001960 triggered effect Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 abstract description 12
- 238000013461 design Methods 0.000 description 38
- 238000007726 management method Methods 0.000 description 19
- 230000008569 process Effects 0.000 description 17
- 238000010586 diagram Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 11
- 230000008520 organization Effects 0.000 description 11
- 230000007246 mechanism Effects 0.000 description 9
- 238000002372 labelling Methods 0.000 description 7
- 238000012549 training Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 230000008676 import Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 241000700605 Viruses Species 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000004900 laundering Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000013077 scoring method Methods 0.000 description 1
- 230000001932 seasonal effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请提供多方协作场景下的数据推荐方法及装置,其中方法包括:数据源方发布的合作数据集中的每个数据集合通过该数据集合的标签特征以及所述标签特征对应的至少一个业务主题与一个或多个应用场景相关联。当接收到来自数据应用方的数据需求信息,该数据需求信息用于指示数据推荐需要满足的应用场景、业务主题或标签特征中的一项或多项的组合,数据源方可根据各个数据集合与数据应用方的数据需求信息之间的关联程度的得分,确定一个或多个推荐数据集合,并将推荐数据集合的信息发送给数据应用方。该方法可以提高多方协作场景下数据推荐的精确性,例如在多方协作执行隐私计算任务或联邦学习任务时进行更精准的隐私数据推荐。
Description
技术领域
本申请涉及隐私计算技术领域,尤其涉及多方协作场景下的数据推荐方法及装置。
背景技术
现有技术中的隐私计算技术可以在一定程度上满足国家监管和数据隐私合规性的要求,并且基于该隐私计算技术,单一方的机构或企业可以引入安全、合规的多方数据源的数据,解决其自身样本数据不足的问题。针对更为敏感的隐私数据,例如身份信息、资产信息、面部特征信息等,还要保证多方协作场景中隐私数据的安全性,即保证隐私数据可用不可见。
但是,由于数据价值不清晰,单一的机构或企业通过隐私计算技术获得的隐私数据在业务场景的应用上并未得到有效提升。具体来说,在传统的多方协作场景中,数据源方提供隐私数据给数据应用方时,数据源方和数据应用方间需要线下对数据价值、数据业务含义等进行长时间的分析和讨论,才能达成一致。并且,该过程依赖于前期大量的业务分析和场景调研,即使花费很长时间就数据机制达成一致,其数据价值在应用上的提升也比较有限。再者,数据源方的隐私数据存在很多场景匹配杂乱的现象,即使消耗大量人力物力资源,仍有可能存在大量隐私数据无法与业务场景关联起来的情况,因此导致了场景搭建低效,多方协作的效果差等问题。
发明内容
本申请提供多方协作场景下的数据推荐方法及装置,通过基于数据场景化进行数据推荐,以提高多方协作场景下数据源方向数据应用方进行数据推荐的精确性,提高多方协作效率。
第一方面,本申请实施例提供一种多方协作场景下的数据推荐方法,该方法可由多方协作场景中的数据源方执行。
该方法包括:数据源方接收来自数据应用方的数据需求信息,所述数据需求信息用于指示数据推荐需要满足的应用场景、业务主题或标签特征中的一项或多项的组合;所述数据源方根据合作数据集中的各个数据集合与所述数据需求信息的关联程度的得分,确定一个或多个推荐数据集合;其中,所述合作数据集中的每个数据集合通过该数据集合的标签特征以及所述标签特征对应的至少一个业务主题与一个或多个应用场景相关联;所述数据源方将所述一个或多个推荐数据集合的信息发送给所述数据应用方。
上述技术方案,数据源方可以根据合作数据集中的数据集合与数据应用方的数据需求信息(如应用场景、业务主题、标签特征中的一项或多项)之间的关联程度,向数据应用方推荐数据,从而提高数据推荐的准确性。
在一种可能的设计中,所述数据需求信息包括一个或多个应用组主题,每个应用组主题对应一个应用场景;
所述方法还包括:针对所述合作数据集中的每个数据集合,所述数据源方计算所述数据集合与所述数据需求信息中的各个应用组主题的关联程度的得分,并将所述数据集合分别对应所述各个应用组主题的关联程度的得分之和,确定为所述数据集合与所述数据需求信息的关联程度的得分。
上述技术方案,数据应用方的数据需求信息可以与多个应用场景有关,在这种情况下,数据源方可分别计算每个数据集合与各个应用场景对应的应用组主题之间的关联程度的得分,然后相加得到总得分,根据总得分判断数据集合与整体的数据需求信息之间的关联程度,进而进行数据推荐。该方案可以满足数据应用方在多个应用场景下的数据需求,从而提高用户体验。
在一种可能的设计中,当第一应用组主题仅用于指示数据推荐需要满足第一应用场景,该第一应用组主题为所述一个或多个应用组主题之一,所述数据集合与所述第一应用组主题的关联程度的得分等于:所述数据集合经过该数据集合的标签特征、所述标签特征对应的业务主题到达所述第一应用场景的路径个数。
在一种可能的设计中,当第一应用组主题用于指示数据推荐需要满足第一应用场景和第一业务主题的组合,该第一应用组主题为所述一个或多个应用组主题之一,所述数据集合与所述第一应用组主题的关联程度的得分等于:所述数据集合经过该数据集合的标签特征、所述第一业务主题到达所述第一应用场景的路径个数;或者,所述数据集合经过该数据集合的标签特征到达所述第一业务主题的路径个数,与所述数据集合经过该数据集合的标签特征以及所述标签特征对应的业务主题到达所述第一应用场景的路径个数之和。
在一种可能的设计中,当第一应用组主题用于指示数据推荐需要满足第一应用场景、第一业务主题和第一标签特征的组合,该第一应用组主题为所述一个或多个应用组主题之一,所述数据集合与所述第一应用组主题的关联程度的得分等于:所述数据集合经过所述第一标签特征、所述第一业务主题到达所述第一应用场景的路径个数;或者,所述数据集合到达所述第一标签特征的路径个数,与所述数据集合经过该数据集合的标签特征到达所述第一业务主题的路径个数、所述数据集合经过该数据集合的标签特征及所述标签特征对应的业务主题到达所述第一应用场景的路径个数之和。
上述技术方案,以数据需求信息中的其中一个应用组主题(即第一应用组主题)为例说明了数据集合与应用组主题之间的关联程度的得分的多种计算方式。数据源方在进行数据推荐时,可以根据应用组主题中所指示出的数据推荐需求的粒度不同可以采用不同的计算方式,从而提高关联程度的得分计算的精确性。
在一种可能的设计中,所述数据源方将所述一个或多个推荐数据集合的信息发送给所述数据应用方,包括:所述数据源方将所述一个或多个推荐数据集合的数据集合标识和每个所述推荐数据集合与所述数据需求信息的关联程度的得分,发送给所述数据应用方。
在一种可能的设计中,所述方法还包括:所述数据源方获取用户上传的合作数据文件;所述数据源方通过对所述合作数据文件中各个数据表中的数据字段添加对应的标签特征、业务主题和应用场景,生成合作数据集,所述合作数据集包括一个或多个数据集合,每个数据集合包括一个或多个数据字段的数据。
在一种可能的设计中,所述数据源方获取用户上传的合作数据文件,包括:当用户需要上传本地的合作数据文件时,数据源方将所述合作数据文件导入数据中心模块;所述数据源方通过对所述合作数据文件中各个数据表中的数据字段添加对应的标签特征、业务主题和应用场景,生成合作数据集,包括:数据源方利用所述数据中心模块对所述合作数据文件中各个数据表中的数据字段添加对应的标签特征、业务主题和应用场景,生成合作数据集,建立结构化数据存储;其中,所述数据中心模块位于所述数据源方或者位于第三方。
在一种可能的设计中,所述数据源方通过对所述合作数据文件中各个数据表中的数据字段添加对应的标签特征、业务主题和应用场景,生成合作数据集,包括:对所述合作数据文件中各个数据表中的每个数据字段添加标签特征,并根据所述各个数据字段的标签特征生成所述合作数据中包括的一个或多个数据集合;针对每个数据集合,根据所述数据集合中各个数据字段的标签特征,确定所述数据集合的标签特征;根据所述数据集合的标签特征和预设的标签特征与业务主题之间的映射关系,确定所述数据集合关联的业务主题;根据所述数据集合关联的业务主题和预设的业务主题与应用场景之间的映射关系,确定所述数据集合关联的应用场景。
在一种可能的设计中,所述方法还包括:所述数据源方根据所述合作数据集中的各个数据集合关联的标签特征、业务主题和应用场景,确定所述合作数据集的属性信息;其中,所述合作数据集的属性信息包括所述合作数据集相关的应用场景、业务主题和标签特征,以及应用场景与业务主题之间的映射关系,业务主题与标签特征之间的映射关系;所述数据源方将所述合作数据集的属性信息发送给所述数据应用方。
上述技术方案,数据源方通过在生成合作数据集的过程中,为数据添加对应的标签特征、业务主题和应用场景,可以建立合作数据集中的各个数据集合与标签特征、业务主题和应用场景之间的关联关系,并使得在后续进行数据推荐时,可以基于上述关联关系将数据集合与数据应用方需求的业务场景进行精确匹配,从而提高数据推荐的准确性。
在一种可能的设计中,所述合作数据集的属性信息中还包括所述合作数据集中的每个数据集合的属性信息,所述数据集合的属性信息包括数据集合标识、数据集合名称、数据描述信息、数据量信息和更新时间信息中的一项或多项。
第二方面,本申请实施例提供一种多方协作场景下的数据推荐方法,该方法可由多方协作场景中的数据应用方执行。
该方法包括:数据应用方向数据源方发送数据需求信息,所述数据需求信息用于指示数据推荐需要满足的应用场景、业务主题或标签特征中的一项或多项的组合;所述数据应用方接收来自所述数据源方的合作数据集中的一个或多个推荐数据集合的信息;所述一个或多个推荐数据集合是根据所述合作数据集中的各个数据集合与所述数据需求信息的关联程度的得分确定的;所述数据应用方根据所述一个或多个推荐数据集合的信息,确定目标数据集合。
上述技术方案,数据应用方在请求推荐数据时,可向数据源方提供数据推荐需要的应用场景、业务主题或标签特征等数据需求信息,以便数据源方计算合作数据集中的数据集合与数据需求信息之间的关联程度的得分,进而进行数据推荐,提高数据推荐的准确性。
在一种可能的设计中,所述数据应用方接收来自所述数据源方的合作数据集中的一个或多个推荐数据集合的信息,包括:所述数据应用方接收来自所述数据源方的所述一个或多个推荐数据集合的数据集合标识和每个所述推荐数据集合与所述数据需求信息的关联程度的得分;所述数据应用方根据所述一个或多个推荐数据集合的信息,确定目标数据集合,包括:所述数据应用方根据所述一个或多个推荐数据集合与所述数据需求信息的关联程度的得分,确定所述目标数据集合。
在一种可能的设计中,所述数据应用方根据所述一个或多个推荐数据集合与所述数据需求信息的关联程度的得分,确定所述目标数据集合,包括:所述数据应用方根据预设的关联程度的得分阈值,从所述一个或多个推荐数据集合中筛选出一个或多个候选数据集合;所述数据应用方根据数据维度筛选条件对所述一个或多个候选数据集合进行进一步筛选,确定所述目标数据集合,所述数据维度筛选条件基于数据集合的数据量和/更新时间设定。
上述技术方案,在得到推荐数据集合之后,数据应用方可从数据集合的关联程度、数据量、更新时间等维度进一步进行筛选,进而确定最终使用的目标数据集合,提高数据应用的灵活性。
在一种可能的设计中,所述方法还包括:所述数据应用方接收来自所述数据源方的所述合作数据集的属性信息,所述合作数据集的属性信息包括所述合作数据集相关的应用场景、业务主题和标签特征,以及应用场景与业务主题之间的映射关系,业务主题与标签特征之间的映射关系;所述数据应用方基于所述合作数据集相关的应用场景与业务主题之间的映射关系和业务主题与标签特征之间的映射关系,在用户交互界面展示所述合作数据集相关的各个应用场景、业务主题和标签特征;所述数据应用方根据用户在所述用户交互界面上触发的选择操作,确定所述数据需求信息。
在一种可能的设计中,所述合作数据集合的元数据信息还包括所述合作数据集中的每个数据集合的数据信息,所述数据集合的属性信息包括数据集合标识、数据集合名称、数据描述信息、数据量信息、和更新时间信息中的一项或多项。
第三方面,本申请实施例提供一种数据推荐装置,该装置可包括执行上述第一方面或第二方面的任意一种可能的设计的方法的模块/单元。这些模块/单元可以通过硬件实现,也可以通过硬件执行相应的软件实现。
在一种可能的设计中,所述装置可包括通信模块和处理模块。
其中,当所述装置执行对应于多方协作场景中的数据源方的方法或步骤时:
所述通信模块,用于接收来自数据应用方的数据需求信息,所述数据需求信息用于指示数据推荐需要满足的应用场景、业务主题或标签特征中的一项或多项的组合;所述处理模块,用于根据合作数据集中的各个数据集合与所述数据需求信息的关联程度的得分,确定一个或多个推荐数据集合;其中,所述合作数据集中的每个数据集合通过该数据集合的标签特征以及所述标签特征对应的至少一个业务主题与一个或多个应用场景相关联;所述通信模块,还用于将所述一个或多个推荐数据集合的信息发送给所述数据应用方。
当所述装置执行对应于多方协作场景中的数据应用方的方法或步骤时:
所述通信模块,用于向数据源方发送数据需求信息,所述数据需求信息用于指示数据推荐需要满足的应用场景、业务主题或标签特征中的一项或多项的组合;所述通信模块,还用于接收来自所述数据源方的合作数据集中的一个或多个推荐数据集合的信息;所述一个或多个推荐数据集合是根据所述合作数据集中的各个数据集合与所述数据需求信息的关联程度的得分确定的;所述处理模块,用于根据所述一个或多个推荐数据集合,确定目标数据集合。
第四方面,本申请实施例还提供一种计算机设备,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序指令执行如第一方面或第二方面的各种可能的设计中所述的方法。
第五方面,本申请实施例还提供一种计算机可读存储介质,其中存储有计算机可读指令,当计算机读取并执行所述计算机可读指令时,使得上述第一方面或第二方面的任一种可能的设计中所述的方法实现。
第六方面,本申请实施例还提供一种计算机程序产品,包括计算机可读指令,当计算机可读指令被处理器执行时,使得上述第一方面或第二方面的任一种可能的设计中所述的方法实现。
第七方面,本申请实施例提供一种隐私计算平台,该隐私计算平台包括如上述第一方面的任一种可能的设计中的数据源方,和,如上述第二方面的任一种可能的设计中的数据应用方。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例适用的一种多方协作场景的示意图;
图2为本申请实施例提供的一种多方协作场景中的数据推荐方法的流程示意图;
图3为本申请实施例中合作数据集中的各个数据集合与标签特征、业务主题、应用场景之间的关联关系的示意图;
图4为本申请实施例中数据源方中合作数据集的处理过程的示意图;
图5为本申请实施例中数据源方与数据应用方之间的交互流程的示意图;
图6和图7为本申请实施例提供的一种数据推荐装置的结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在本申请的实施例中,多个是指两个或两个以上。“第一”、“第二”等词汇,仅用于区分描述的目的,而不能理解为指示或暗示相对重要性,也不能理解为指示或暗示顺序。
图1示例性示出了本申请实施例适用的一种多方协作场景,如图1所示,该多方协作场景中包括数据应用方110和一个或多个数据源方(如数据源方120和数据源方121)。其中,所述数据源方是指对外发布数据的一方,数据应用方是指需要从外部数据源获取数据构建自身业务模型的一方。应注意,该场景中的数据应用方和数据源方均可以是一个或多个,图1仅为一种示例。
所述多方协作场景是指多个机构或企业之间互相协作的场景,所述多个机构或企业中的每个机构或企业代表多方中的一方,其可以是数据源方,也可以是数据应用方,或者既是数据源方又是数据应用方。也就是说,数据源方和数据应用方的角色是相对的,在多方机构或企业组成的多方协作场景中,任何一个机构或企业都可以是数据源方,也可以是数据应用方。对于一个机构或企业来说,基于其与其他机构或企业建立的合作关系,该机构或企业可以作为数据应用方具有一个或多个数据源方,也可以作为数据源方负责向一个或多个数据应用方推荐数据。
本申请中所述的数据推荐功能可以基于隐私计算平台实现,该隐私计算平台包括部署在数据源方一侧主机上的功能实体,和部署在数据应用方一侧主机上的功能实体,每侧的功能实体均包括若干个功能模块,例如合作管理模块、数据中心模块、项目管理模块、模型中心模块等。具体的,部署在数据源方和数据应用方两侧的功能实体通过执行如下实施例中的数据推荐方法可以实现上述数据推荐功能,使得数据源方可以向数据应用方推荐高价值、准确性高的数据,从而提升数据应用方的业务模型的效果。
图2示例性示出了本申请实施例提供的一种多方协作场景下的数据推荐方法,如图2所示,该方法包括:
步骤200,数据源方发布合作数据集。
所述合作数据集是指数据源方发布的用于与数据应用方合作的数据集,在隐私计算领域,它是基于隐私计算的多方协作场景下最核心最基础的数据源。该合作数据集中包括一个或多个数据集合,每个数据集合包括一个或多个数据字段的隐私数据。不同的数据集合中可包括相同的数据字段,本申请不作具体限定。
合作数据集中的每个数据集合都分别具有关联的标签特征、业务主题和应用场景,所述关联可以是直接或间接的关联。该合作数据集中的数据集合关联的各个标签特征、业务主体和应用场景后续将在合作数据集发布后,展示给数据应用方的用户,以便数据应用方的用户据此设定数据需求信息。通过为每个数据集合设置标签特征、业务主体和应用场景这三级标注,可方便用户根据自身需要灵活地对这三级标注进行组合,从而设定合适的数据需求信息。例如,可以选定这三级标注中的任一级或任两级或三级标注,而且每级标注也都可以选择一个或多个标签,即:针对标签特征这一级标注,用户可以选择一个或多个标签特征,针对业务主体这一级标注,用户也可以选择一个或多个业务主题,针对应用场景这级标注,用户也可以选择一个或多个应用场景。如此设计,可以使得数据需求信息更符合用户的实际需求,以便系统精确匹配用户需求为其进行数据推荐,从而方便用户使用,提高用户体验。可以理解地,用户设定的标注级数越多和/或每级标注中选定的标签越多,表示数据需求限定地更明确,用户最终获取到的推荐数据也越精准,更适合原始数据量庞大、应用场景之下有这更多细分特征的场景使用。反之,用户设定的标注级数越少和/或每级标注中选定的标签越多,表示数据需求限定地更模糊,用户获取到的推荐数据也越多,更适合原始数据不够多的场景使用。需要说明的是,本申请中不限定系统中仅设计标签特征、业务主题和应用场景这三级标注,系统中数据源方在生成合作数据集的过程中可通过对多种因素进行综合考量,例如数据的类型、应用领域、合作方的优先级等,灵活地设计出更多级或更少级的标注,而且不同的合作数据集的标注级数可以相同或不同,均不作限定。
具体来说,每个数据集合可具有一个或多个标签特征,基于建立的标签特征与业务主题之间的映射关系,每个标签特征可对应一个或多个业务主题,使得该数据集合可通过其标签特征间接地关联到一个或多个业务主题。进一步的,基于建立的业务主题与应用场景之间的映射关系,每个业务主题可对应一个或多个应用场景,使得该数据集合可通过其标签特征,以及标签特征对应的至少一个业务主题关联到一个或多个应用场景。如此,数据源方可基于标签特征、业务主体和应用场景之间的关联关系以及数据应用方从标签特征、业务主题和应用场景三个维度上提出的数据需求,为数据应用方进行数据推荐。
图3示例性示出了本申请实施例中合作数据集中的各个数据集合与标签特征、业务主题和应用场景之间的关联关系。如图3所示,合作数据集中包括数据集合D1、数据集合D2和数据集合D3。其中,数据集合D1与标签特征L2和L3关联,数据集合D2与标签特征L1和L2关联,数据集合D3与标签特征L3关联。标签特征L1与业务主题T2关联,标签特征L2与业务主题T1和T3关联。标签特征L3和业务主题T3关联。业务主题T1与应用场景A1关联,业务主题T2与应用场景A1和A2关联,业务主题T3与应用场景A1和A2关联。如此,以数据集合D1为例,基于该图3所示的合作数据集中的关联关系,数据集合D1可通过标签特征L2间接地与业务主题T1关联,并通过该业务主题T1进一步与应用场景A1关联。数据集合D1也可通过标签特征L3间接地与业务主题T3关联,并通过该业务主题T3进一步与应用场景A1关联。
下面结合图4来介绍本申请中数据源方发布合作数据集的过程。
首先,数据源方获取用户上传的合作数据文件。当用户需要上传本地的合作数据文件时,数据源方将该合作数据文件导入例如数据中心(data center)模块的存储模块。其中,该合作数据文件可以是目标合作数据文件(Data files)或数据库(DataBase)数据,本申请不作具体限定。该数据中心模块位于数据源方的系统中或者位于独立于数据源方和数据应用方的第三方的系统中,并且该数据中心模块提供数据导入功能。在隐私计算领域中,可以通过将合作数据文件在数据源方本地进行加密后再导入数据中心模块的方式提高隐私数据的安全性,也可以通过对位于数据源方系统中的数据中心模块提供软件/硬件加密保护的方式提高隐私数据的安全性。对于不含隐私信息的合作数据文件,用户可以将数据源方的系统配置为通过明文方式导入合作数据文件到数据中心模块,以提高上传效率。
本申请中,所述数据中心模块可以为用户提供导入用于联邦建模、离线预测的本地的合作数据文件的功能,并在导入过程中将该合作数据文件转化为合作数据集,建立结构化数据存储,以方便数据的查询以及进行数据推荐。示例性的,数据中心模块可以通过对合作数据文件中各个数据表中的数据字段添加对应的标签特征、业务主题和应用场景,生成合作数据集,并确定该合作数据集的属性信息。
具体来说,数据源方可利用数据中心模块建立各个数据字段与数据字段中存储的数据信息之间的映射关系(Indexs:Values)。可选的,合作数据文件中的数据可包含多个版本,每个版本包含多个时间的数据,可以通过给到不同的数据Indexs和Values来进行不同版本之间的数据特征、维度、时间范围标记,从而提高数据推荐的实时性和灵活性。
数据源方可利用数据中心模块预先建立各个数据字段与系统中预置的各个标签特征之间的映射关系(Indexs,Lables),系统中预置的各个标签特征与预置的各个业务主题之间的一个映射关系(Lables,Themes),以及系统中预置的各个业务主题与预置的各个应用场景的映射关系(Themes,Applications)。
基于上述数据字段与标签特征之间的映射关系,数据源方利用数据中心模块对合作数据集中的各个数据表中的每个数据字段添加对应的标签特征,并根据所述各个数据字段的标签特征生成一个或多个数据集合。所述标签特征是数据字段的属性信息,也可称为元数据信息。所述标签特征可以是基于规则的标签特征,或是基于业务的标签特征。通过给各个数据字段添加对应的标签特征,赋予了各个数据字段规则属性和业务属性,使得后续可以基于添加的标签特征,构建一系列业务主题,并衍生出适配的业务场景。所述数据集合是具有相同或相近标签特征的若干个数据字段组成的集合,可以用作数据推荐的最小单元。进而,数据源方可利用数据中心模块根据每个数据集合中各个数据字段的标签特征,确定该数据集合的标签特征。例如,在一种可能的设计中,数据集合中包括的各个数据字段的标签特征的并集,可构成该数据集合的标签特征。
数据源方还可利用数据中心模块根据合作数据集中的各个数据集合的标签特征和上述标签特征与业务主题之间的映射关系,为每个标签特征添加对应的业务主题,从而确定各个数据集合关联的业务主题。
数据源方还利用数据中心模块可根据合作数据集中的各个数据集合关联的业务主题与上述业务主题与应用场景之间的映射关系,为每个业务主题添加对应的应用场景,从而确定各个数据集合关联的应用场景。
经过上述处理后,数据源方根据合作数据集中的各个数据集合关联的标签特征、业务主题和应用场景,确定合作数据集的属性信息。所述合作数据集的属性信息包括该合作数据集相关的各个应用场景、业务主题和标签特征,以及应用场景与业务主题之间的映射关系,业务主题与标签特征之间的映射关系。进一步地,所述合作数据集的属性信息还包括该合作数据集中的每个数据集合的属性信息,所述数据集合的属性信息包括数据集合标识、数据集合名称、数据描述信息、数据量信息和更新时间信息中的一项或多项。
进而,数据源方可发布经过上述处理后合作数据集。
本申请中,可选的,步骤200还可以包括:数据源方发布合作数据集后,主动向数据应用方发送该合作数据集的属性信息。该可选步骤在图2中通过虚线示出。
在一种具体实施方式中,数据源方的系统和数据应用方的系统中均包括该数据中心模块。数据源方通过自身的数据中心模块发布合作数据集成功后,将该合作数据集的属性信息同步至合作的数据应用方的数据中心模块,提供给数据应用方的用户查看。也就是说,多方合作的每个机构或者企业可通过自身系统中的数据中心模块了解到其他机构或企业的数据发布情况(合作数据集的属性信息),可选的,还可以对其他机构或企业发布的数据进行相应的数据合作补充(是指发布的数据可以按照需要进行合作申请,补充外部数据),从而提高业务应用场景模型效果。
在另一种具体实施方式中,该数据中心模块位于独立于数据源方和数据应用方的可信第三方中,该可信第三方利用可信执行环境(TEE)等技术保证数据中心模块的数据安全,数据源方通过第三方的数据中心模块发布合作数据集成功后:数据源方从第三方获取该合作数据集的属性信息并同步至合作的数据应用方;或者数据源方授权第三方将该合作数据集的属性信息同步至数据源方授权合作的数据应用方,提供给数据应用方的用户查看,并且同步给己方,以便于数据源方基于己方数据的属性信息为数据应用方推荐数据。数据源方发布合作数据集后,主动向数据应用方发送该合作数据集的属性信息,可以方便数据应用方筛选出满足需求的数据源方,并发送数据需求,能更快速地获取到需求的合作数据,进而提高整体的计算效率。
可选的,如果数据源方同时与多个数据应用方合作,数据源方可将该合作数据集的属性信息同步发送给多个数据应用方。为描述简便,本申请下文中以一个数据应用方的角度来说明数据源与数据应用方之间进行数据推荐的过程。
步骤201,数据应用方向数据源方发送数据需求信息,所述数据需求信息用于指示数据推荐需要满足的应用场景、业务主题或标签特征中的一项或多项的组合。
相应的,数据源方接收来自数据应用方的所述数据需求信息。
示例性的,所述数据需求信息可仅指示数据推荐需要满足的应用场景,或者也可指示数据推荐需要满足的应用场景和业务主题,或者也可指示数据推荐需要满足的应用场景、业务主题和标签特征。
所述数据需求信息包括一个或多个应用组主题。每个应用组主题对应一个应用场景,用于具体指示在对应的应用场景中的数据推荐需求,例如数据推荐仅需要满足应用场景的要求,或者数据推荐需要满足应用场景和业务主题二者的要求,还是数据推荐需要满足应用场景、业务主题和标签特征三者的要求。数据需求信息的各种可能的实现方式,可便于用户根据实际需要方便灵活地选择数据推荐的输入条件,准确描述数据推荐需求,从而满足模糊推荐或精确推荐等多种数据推荐场景。
举例来说:基于图3中所示的合作数据集中的关联关系,数据需求信息可以是(A1,A2),表示数据推荐需要满足应用场景A1和应用场景A2的要求,其中,应用场景(A1)和(A2)是两个独立的应用组主题。
数据需求信息也可以是(A1:T1,A2:T2),表示数据推荐需要满足应用场景与业务主题的组合(A1:T1)和(A2:T2)的要求,其中应用场景与业务主题的组合(A1:T1)和(A2:T2)是两个独立的应用组主题。
数据需求信息也可以是(A1:T1:L2,A2:T3:L3),表示数据推荐需要满足应用场景与业务主题、标签特征的组合(A1:T1:L2)和(A2:T3:L3)的要求,其中应用场景与业务主题的组合(A1:T1:L2)和(A2:T3:L3)是两个独立的应用组主题。
在一些情况下,数据应用方会接收到至少一个数据源方在发布合作数据集时主动同步过来的合作数据集的属性信息。为保护数据应用方的系统和数据安全,数据应用方在接收上述合作数据集的属性信息时会进行数据源方的身份验证和/或上述合作数据集的属性信息的内容安全验证,具体验证方法例如:验证数据源方是否在数据应用方的白名单中、验证上述合作数据集的属性信息的内容是否夹带病毒程序等。
进一步地,数据应用方在接收到来自数据源方的合作数据集的属性信息时,可根据该合作数据集的属性信息,在用户交互界面上展示该合作数据集相关的各个应用场景、业务主题和标签特征,以及应用场景与业务主题之间的映射关系,业务主题与标签特征之间的映射关系等。然后,由数据应用方根据用户在用户交互界面上触发的选择操作,确定上述数据需求信息,从而更方便用户使用,有效提高用户体验。
或者,数据应用方在接收到来自数据源方的合作数据集的属性信息时,将上述合作数据集的属性信息存储到数据应用方本地例如数据中心模块的存储模块中,数据应用方在用户需要合作数据时,从数据中心模块筛选满足初步筛选条件(例如用户设置的数据源方、用户设置的数据接收时间、用户设置的数据量条件等)的全部合作数据集,并且根据每个合作数据集的属性信息,在用户交互界面上对应展示该合作数据集相关的各个应用场景、业务主题和标签特征,以及应用场景与业务主题之间的映射关系,业务主题与标签特征之间的映射关系等。然后,由数据应用方根据用户在用户交互界面上触发的选择操作,确定上述数据需求信息。一些情况下,上述确定数据需求信息的操作,也可在数据应用方的数据中心模块完成。
示例性的,数据应用方可在用户交互界面上展示该合作数据集相关的一个或多个应用场景,并进一步展示每个应用场景下有哪些业务主题,以及每个业务主题下有哪些标签特征。例如,上述应用场景、业务主题和标签特征可以用一级页面直接展示,也可以用多级页面分层次的展示,从而体现出不同层次之间的映射关系。此外,每个应用场景或业务主题或标签特征可具有对应的选择按钮。数据应用方的用户可以在用户交互界面上通过点击相应的选择按钮,选择自己需求的应用场景,或应用场景与业务主题的组合,或应用场景与业务主题、标签特征的组合,并确认,进而由数据应用方确定上述数据需求信息。
步骤202,数据源方根据合作数据集中的各个数据集合与所述数据需求信息的关联程度的得分,确定一个或多个推荐数据集合。
所述数据需求信息包括一个或多个应用组主题。在这种情况下,针对合作数据集中的每个数据集合,数据源方可分别计算该数据集合与数据需求信息中的各个应用组主题的关联程度的得分,然后将该数据集合分别对应各个应用组主题的关联程度的得分之和,确定为该数据集合与数据需求信息的关联程度的得分。本申请中,所述关联程度也可以理解为数据集合与数据应用方的数据需求(即一个或多个应用组主题)之间的匹配程度。
具体的,以数据需求信息中的一个或多个应用组主题中的第一应用组主题为例,该第一应用组主题对应第一应用场景,该第一应用组主题可以指示第一应用场景,或指示第一应用场景和第一业务主题,或指示第一应用场景、第一业务主题和第一标签特征。该第一应用场景与第一业务主题相关联,第一业务主题与第一标签特征相关联。
数据源方可以根据该数据集合经过该数据集合的标签特征、所述标签特征对应的业务主题到达第一应用场景的路径个数,确定该数据集合与第一应用组主题的关联程度的得分。可选的,还可以根据该数据集合经过该数据集合的标签特征、所述标签特征对应的业务主题到达第一应用场景的路径个数,和该数据集合经过该数据集合的标签特征达到第一业务主题的路径个数,共同确定该数据集合与第一应用组主题的关联程度的得分。可选的,还可以根据该数据集合经过该数据集合的标签特征、所述标签特征对应的业务主题到达第一应用场景的路径个数,和该数据集合经过该数据集合的标签特征达到第一业务主题的路径个数,和该数据集合到达第一标签特征的路径个数,共同确定该数据集合与第一应用组主题的关联程度的得分。可以理解地,如果该数据集合与第一标签特征相关联,即该第一数据集合具有第一标签特征,则该数据集合到达第一标签特征的路径个数为1,否则为0。
本申请中,所述路径是指数据集合至第一应用场景或第一业务主题或第一标签特征的可达路径,该路径是基于图3所示例的合作数据集中的各个数据集合与标签特征、业务主题、应用场景之间的关联关系确定的。“可达”表示基于上述关联关系,数据集合与第一应用场景或第一业务主题或第一标签特征之间存在线条连接,即数据集合与第一应用场景或第一业务主题或第一标签特征之间存在间接或直接的关联关系。以数据集合至第一应用场景的路径为例,该路径个数越多,表示该数据集合与第一应用场景之间的关联程度越紧密,或者说该数据集合与第一应用场景的匹配程度越高,因此,关联程度的得分也就越高。
示例性的,当第一应用组主题仅用于指示数据推荐需要满足第一应用场景,数据集合与第一应用组主题的关联程度的得分等于:数据集合经过该数据集合的标签特征、所述标签特征对应的业务主题到达第一应用场景的路径个数。
需要说明的是,在这种情形下,由于第一应用组主题仅指示第一应用场景,因此,计算数据集合到达第一应用场景的路径个数时,并不限定该路径需要经过哪些特定的标签特征或业务主题,只要是数据集合直接或间接关联的标签特征或业务主题即可。例如,基于图3所示的示例,当第一应用组主题为(A1),数据集合D1到达应用场景A1的路径个数为3,3条路径分别是:数据集合D1->标签特征L2->业务主题T1->应用场景A1;数据集合D1->标签特征L2->业务主题T3->应用场景A1;数据集合D1->标签特征L3->业务主题T3->应用场景A1,因此,该情形下,数据集合D1与第一应用组主题(A1)的关联程度的得分为3。
当第一应用组主题用于指示数据推荐需要满足第一应用场景和所述第一业务主题的组合,在一种可能的实施方式一中,数据集合与第一应用组主题的关联程度的得分等于:数据集合经过该数据集合的标签特征、第一业务主题到达第一应用场景的路径个数。或者,在另一种可能的实施方式二中,数据集合与第一应用组主题的关联程度的得分等于:数据集合经过该数据集合的标签特征到达第一业务主题的路径个数,与数据集合经过该数据集合的标签特征以及所述标签特征对应的业务主题到达第一应用场景的路径个数之和。
需要说明的是,当第一应用组主题指示第一业务场景和第一业务主题,上述可能的实施方式一相当于将数据集合与第一应用组主题进行严格匹配的情形。具体来说,在计算数据集合到达第一应用场景的路径个数时,需要限定这些路径需要是经过第一业务主题的路径。例如,基于图3所示的合作数据集中的关联关系,当第一应用组主题为(A1:T1),数据集合D1到达应用场景A1的路径个数为1,该路径具体是:数据集合D1->标签特征L2->业务主题T1->应用场景A1,因此该情形下数据集合D1与第一应用组主题(A1:T1))的关联程度的得分为1。
可以理解地,由于第一业务主题与第一应用场景之间存在关联关系,从第一业务主题到第一应用场景的路径有且仅有一条,因此,数据集合经过该数据集合的标签特征和第一业务主题到达第一应用场景的路径个数,等同于数据集合经过该数据集合的标签特征到达第一业务主题的路径个数。
上述可能的实施方式二相当于将数据集合与第一应用组主题进行模糊匹配的情形。具体来说,将数据集合到达第一业务主题的路径个数与数据集合到达第一应用场景的路径个数进行分别计算,并且在计算数据集合到达第一业务主题的路径时不限定路径中经过哪些标签特征,在计算数据集合到达第一应用场景的路径个数时,也不限定路径中经过哪些标签特征和业务主题。例如,基于图3所示的合作数据集中的关联关系,当第一应用组主题为(A1:T1),数据集合D1到达应用场景A1的路径个数为1,该路径具体是:数据集合D1->标签特征L2->业务主题T1->应用场景A1。数据集合D1到达业务主题T1的路径个数也为1,该路径具体是:数据集合D1->标签特征L2->业务主题T1。相加之后,可得到该情形下数据集合D1与第一应用组主题(A1:T1)的关联程度的得分为2。
当第一应用组主题用于指示数据推荐需要满足第一应用场景、第一业务主题和第一标签特征的组合,在一种可能的实施方式一中,数据集合与第一应用组主题的关联程度的得分等于:数据集合经过第一标签特征、第一业务主题到达第一应用场景的路径个数。或者,在另一种可能的实施方式二中,数据集合与第一应用组主题的关联程度的得分等于:数据集合到达第一标签特征的路径个数,与数据集合经过该数据集合的标签特征到达第一业务主题的路径个数、数据集合经过该数据集合的标签特征及所述标签特征对应的业务主题到达第一应用场景的路径个数之和。
需要说明的是,当第一应用组主题指示第一业务场景、第一业务主题和第一标签特征,上述可能的实施方式一相当于将数据集合与第一应用组主题进行严格匹配的情形。具体来说,在计算数据集合到达第一应用场景的路径个数时,需要限定这些路径是经过第一业务主题和第一标签特征的路径。例如,基于图3所示的合作数据集中的关联关系,当第一应用组主题为(A1:T1:L2),数据集合D1到达应用场景A1的路径个数为1,该路径具体是:数据集合D1->标签特征L2->业务主题T1->应用场景A1。因此,该情形下数据集合D1与第一应用组主题(A1:T1:L2)的关联程度的得分为1。
上述可能的实施方式二相当于将数据集合与第一应用组主题进行模糊匹配的情形。具体来说,将数据集合到达第一业务主题的路径个数与数据集合到达第一应用场景的路径个数,以及数据集合到达第一标签特征的路径个数进行分别计算,并且在计算数据集合到达第一业务主题的路径时不限定路径中经过哪些标签特征,在计算数据集合到达第一应用场景的路径个数时,也不限定路径中经过哪些标签特征和业务主题。例如,基于图3所示的合作数据集中的关联关系,当第一应用组主题为(A1:T1:L2),数据集合D1到达应用场景A1的路径个数为1,该路径具体是:数据集合D1->标签特征L2->业务主题T1->应用场景A1。数据集合D1到达业务主题T1的路径个数也为1,该路径具体是:数据集合D1->标签特征L2->业务主题T1,数据集合D1到达标签特征L2的路径个数也为1,该路径具体是:数据集合D1->标签特征L2,因此该情形下数据集合D1与第一应用组主题(A1:T1:L2)的关联程度的得分为3。
在数据源方确定出合作数据集中的各个数据集合与数据需求信息的关联程度的得分后,数据源方可根据各个数据集合的得分进行筛选,从中选择出一个或推荐数据集合。例如,数据源方可将得分不为0的各个数据集合,确定为推荐数据集合。或者,数据源方也可以将得分大于或等于一定值的数据集合,确定为推荐数据集合。如上文所述,得分可以反映出数据集合与数据需求信息之间关联程度的紧密情况或者说匹配程度的高低,因此,通过上述计算得分,可有助于数据源方选择与数据需求信息关联更紧密的数据集合作为推荐数据集合,从而达到向数据应用方推荐与其提出的数据需求更匹配的数据集合、进行精确数据推荐的效果。
需要说明的是,在一些具体实施情况下,上述步骤202可以在数据源方的数据中心模块完成,或者数据源方调用在第三方的数据中心模块完成。具体来说,数据源方调用己方的数据中心模块,根据合作数据集中的各个数据集合与所述数据需求信息的关联程度的得分,确定一个或多个推荐数据集合,计算过程数据不出库,可以最大限度的保证数据安全。数据源方调用第三方的数据中心模块,根据合作数据集中的各个数据集合与所述数据需求信息的关联程度的得分,确定一个或多个推荐数据集合,这种情况下,由第三方提供算力,可以降低数据源方本身的算力需求,除此之外,如上文所述,针对隐私计算领域的数据推荐运算,第三方还需要通过TEE等技术保证数据的存储安全和运算过程安全。
步骤203,数据源方将所述一个或多个推荐数据集合的信息发送给数据应用方,所述一个或多个推荐数据集合是根据所述合作数据集中的各个数据集合与所述数据需求信息的关联程度的得分确定的。
相应的,数据应用方接收来自数据源方的合作数据集中的一个或多个推荐数据集合的信息。
所述一个或多个推荐数据集合的信息可包括每个推荐数据集合的数据集合标识和每个推荐数据集合与所述数据需求信息的关联程度的得分。
也就是说,数据源方可以将确定的一个或多个推荐数据集合的数据集合标识和每个推荐数据集合与数据需求信息的关联程度的得分发送给数据应用方,以便数据应用方决策最终的目标数据集合。可选的,数据源方在发送上述一个或多个推荐数据集合的信息时,可将其中的推荐数据集合的得分按照从大到小的顺序进行排序,从而便于数据应用方清楚地了解各个推荐数据集合与数据需求信息之间的关联的紧密程度,提高处理效率。
需要说明的是,在一些具体实施情况下,数据源方调用第三方的数据中心模块确定一个或多个推荐数据集合后,需要将该一个或多个推荐数据集合的信息调取到己方,在数据源方查验通过后直接将该一个或多个推荐数据集合的信息发送给数据应用方,或者指示第三方将该一个或多个推荐数据集合的信息发送给数据应用方,在降低对数据源方算力依赖的同时,提高了该一个或多个推荐数据集合的信息的准确性和安全性。
步骤204,数据应用方根据所述一个或多个推荐数据集合,确定目标数据集合。
所述目标数据集合可以是一个或多个,本申请不作具体限定。
示例性的,数据应用方可根据所述一个或多个推荐数据集合与数据需求信息的关联程度的得分,确定目标数据集合。例如,可以将与数据需求信息的关联程度的得分大于设定关联程度得分阈值的一个或多个推荐数据集合确定为目标数据集合;或者,也可以将与数据需求信息的关联程度的得分最大的前N个推荐数据集合确定为目标数据集合,N为正整数;再或者,也可以对与数据需求信息的关联程度的得分大于设定关联程度得分阈值的一个或多个推荐数据集合按照多种可能的方式进行进一步筛选,进而确定目标数据集合。一些情况下,上述确定目标数据集合的操作,也可在数据应用方的数据中心模块完成。此外,数据应用方仅通过推荐数据集合的信息确定目标数据集合的过程中,不会获取到该推荐数据集合,保护了该推荐数据集合所涉及数据的安全性。
在一种可能的设计中,数据应用方可根据预设的关联程度的得分阈值,从所述一个或多个推荐数据集合中筛选出一个或多个候选数据集合,然后根据数据维度筛选条件对所述一个或多个候选数据集合进行进一步筛选,确定所述目标数据集合,所述数据维度筛选条件基于数据集合的数据量和/更新时间设定。例如,数据源方可以设定对应的数据量阈值和更新时间阈值,优先选择数据量较大和/或更新时间更近的数据集合,可以认为这类数据集合中数据的参考价值更高。
需要说明的是,由于一个数据应用方可能存在多个合作的数据源方,当数据应用方接收到多个数据源方提供的一个或多个推荐数据集合的信息后,数据应用方可将这多个数据源方提供的推荐数据集合,按照与数据需求信息的关联程度的得分进行统一排序,然后从多个数据源方提供的推荐数据集合中确定出目标数据集合,从而充分利用各个合作数据集的优势,提高多方协作效率。
例如,数据应用方有两个合作的数据源,分别是数据源方P1和P2。根据步骤202中所述的打分方式,数据应用方最终得到的推荐数据集合的情况可能如下:(P1,(D2:score1,D1:score2,D3:score3)),(P2,(D4:score1’,D7:score2’,D5:score3’))。数据应用方可按照得分的从大到小对各个推荐数据集合进行排序,结果如下:(D2:score1,D4:score1’,D7:score2’,D5:score3’,D1:score2,D3:score3),得到最终的推荐数据集合的列表。进而,数据应用方可将各个推荐数据集合按照得分的大小顺序选择出一些目标数据集合,展示给数据应用方的用户使用。
综上所述,本申请中的数据推荐方法可以根据数据应用方的业务特点(如数据需求信息中所指示的场景主题标签等),计算待推荐数据和用户使用场景的关联程度的得分score,并根据关联程度的得分向用户推荐数据,从而满足数据应用方对于特定场景的数据使用需求,提高数据推荐的准确性。
基于上述技术方案,单一方企业或者机构可得到多方数据源(可泛指标签组Labels)的数据补充,解决单一方机构自身样本数据不足的问题。对于单一方机构或者企业,通过隐私计算平台获取外部数据源的数据并构建主题组(Themes)和应用组(Applications),可以准确、快速且高效地将数据与业务场景准确匹配效能,从而提高业务应用场景模型效果,缩短数据源与自身数据的分析和讨论的时间。单一方企业或者机构可直接通过合作数据所具备的业务属性,快速实现对于数据的潜在价值识别和发掘,灵活且高效的构建隐私场景(如信贷坏账率,识别洗钱案宗识别,信贷利率定价,营销效果等),提升可信科技场景下,同类型场景构建效率。
下面以银行金融行业个人信贷贷款逾期(超过90天)风险预测风险评分场景(B卡)业务为例,对本申请技术方案中提及的标签特征、业务主题和应用场景以及它们的产生过程进行示例性说明。
DataSets部分会包含如下数据:
1)个人的本行存款数据,例如存款金额、存款时间、存款类型、存款笔数、理财金额、理财产品、账户数量、存款等级等;
2)个人的他行存款数据,例如存款金额、存款时间、存款类型、存款笔数、理财金额、理财产品、账户数量、存款等级等;
3)个人的本行贷款数据,例如贷款类型、贷款时间、贷款笔数、授信额度、放款金额、贷款期限、逾期笔数、逾期月份、逾期天数、逾期金额、是否展期、五级分类等;
4)个人他行贷款数据,例如贷款类型、贷款时间、贷款笔数、授信额度、放款金额、贷款期限、逾期笔数、逾期月份、逾期天数、逾期金额、是否展期、五级分类等;
5)人行的征信数据,例如姓名、身份证件、家庭住址、工作单位等基本信息,贷款记录,包括放款金额、放款期限、放款类型、发卡机构、开户日期、账户授信额度、业务种类、使用情况、还款记录、账户状态、个人住房公积金缴存信息、行政处罚信息、法院民事判决、欠税等公共信息等;
6)个人评分数据,例如申请反欺诈评分、通用数据评分、设备风险识别、IP用户画像评分等;
7)黑名单数据,例如综合得分、多个平台借款数据、身份证关联借款数据等。
以上数据除去本行数据,其余数据均可以作为数据源数据,可以进行数据发布,统一上传到不同数据源节点的Data Center。
结合以上数据信息,通过存款金额、存款比数和存款时间,加工出月均/季均/半年均存款金额、累计存款金额,作为存款能力标签;通过贷款类型、贷款笔数、授信额度、贷款时间,作为贷款发放款标签;通过逾期笔数、逾期月份、逾期天数、逾期金额,加工出月均/季均/半年均逾期金额/比数,作为贷款逾期标签;通过逾期天数、五级分类加工M1-M3标签(超出还款日1天以上到30天以内还钱,征信就会记录为M1,超过30天并且60天以内还款就会显示M2,60天到90天就是M3);通过人行征信的使用情况、还款记录、账户状态加工个人还款状况标签;通过人行征信个人住房公积金缴存信息、行政处罚信息、法院民事判决、欠税等公共信息,作为风险名单标签;通过个人评分数据申请反欺诈评分、通用数据评分,作为反欺诈标签;设备风险识别作为设备风险标签;IP用户画像评分作为个人画像标签;黑名单数据综合得分作为黑名单评分标签等等。
将抽象出来的标签,比如贷款发放款标签、贷款逾期标签、M1-M3标签、个人还款状况标签等作为贷款主题;贷款逾期标签、M1-M3标签、风险名单标签、反欺诈标签等作为风险主题;贷款逾期标签,M1-M3标签作为逾期主题;将个人画像标签、存款能力标签、贷款发放款标签作为营销主题;将风险名单标签、设备风险标签作为筛选名单主题;黑名单评分标签单独作为黑名单主题等。
场景目标为个人贷款逾期风险预测场景,此时可以选风险主题、逾期主题、黑名单主题等多个主题作为场景的备选主题来使用。
图5示例性示出了基于隐私计算平台的数据源方与数据应用方的交互流程,数据源方和数据应用方的主机均包括合作管理、数据中心、项目管理、模型中心等几个模块,其中:
合作管理模块,用于管理不同站点的配置信息,简化项目创建后站点间互联的流程,提供合作站点的查询、管理功能。解决隐私计算任务通过站点间数据合作、任务共享的实现。
对于数据源方,数据中心模块用于管理站点维护的本地数据,用于主动发起任务和配合其他站点构建任务。
数据源方在数据中心发布成功的数据的描述信息,将同步至合作应用方的数据中心,提供给应用方查看并选择符合需求的数据申请合作。
对于数据应用方,数据中心模块用于导入本地数据,建立本地数据元信息,合作数据模块可以查询数据源方已发布的数据,查看数据描述信息,并申请数据合作,查看审批状态。
项目管理模块,用于管理参与的项目,包括主动创建的项目和加入其他站点的项目,各站点根据实际业务场景需求,在平台上创建项目并构建建模任务在内的多种任务类型,后续可由建模任务生成相关模型。
数据应用方可以创建项目,用以管理基于合作方数据或合作目标的相关任务。在数据应用方添加数据源方的数据到项目中并使用后,项目对数据源方可见。
模型中心模块,用于管理模型,发布/下线功能,提供在线服务接口/测试接口/服务状态查看能力。
如图5所示,该交互流程具体包括:
步骤501,数据源方的合作管理模块与数据应用方的合作管理模块添加站点合作关系。
步骤502,数据源方的数据中心模块上传数据,新建数据集,为数据添加标签,添加主题,添加应用场景说明,添加版本信息,完成合作数据发布。
步骤503,数据源方的数据中心模块将合作数据的信息同步至数据应用方的数据中心模块。
步骤504,数据应用方的数据中心模块查看合作数据的信息,进行场景匹配。
步骤505,数据应用方的数据中心模块向数据源方的数据中心模块发送数据合作申请。
步骤506,数据源方的数据中心模块进行数据合作审批。
步骤507,在数据合作申请审批通过后,数据源方的数据中心模块同步审批结果至数据应用方。
步骤508,数据应用方的数据中心模块上传自身数据,完成合作数据发布。
步骤509,数据应用方的项目管理模块创建项目。
步骤510,数据应用方的项目管理模块创建建模任务,选择合作数据。
步骤511,数据应用方的项目管理模块进行数据求交,选择标签和主题,启动建模任务。
步骤512,数据应用方的项目管理模块在建模完成后,保存模型。
步骤513,数据应用方的项目管理模块将模型信息同步至模型中心模块。
步骤514,数据应用方的模型中心模块查看模型列表,查看模型评估详细信息,查看模型关联任务信息。
步骤515,数据应用方的项目管理模块向数据源方的项目管理模块同步合作数据使用情况。该步骤可以在步骤510之后进行。
步骤516,数据源方的项目管理模块查看合作数据参与项目情况,查看合作应用方参与任务情况。该步骤可以在步骤515之后进行。
步骤517,数据应用方的数据中心模块统计数据参与项目情况。该步骤可以在步骤510之后进行。
步骤518,数据应用方的项目管理模块向数据源方的模型中心模块同步合作数据的建模进展信息。该步骤可以在步骤511之后进行。
步骤519,数据应用方的项目管理模块向数据源方的模型中心模块同步合作模型信息。该步骤可以在步骤512之后进行。
步骤520,数据源方的模型中心模块查看数据参与模型列表,查看模型关联任务信息。该步骤可以在步骤519之后进行。
本申请中所提供的数据推荐方法可以应用在上述流程中的步骤510中。
需要说明的是,本申请中的技术方案在完成数据推荐之后,步骤511-步骤520可以在联邦学习的安全机制下应用数据,以使得数据可用不可见,不会直接泄露给数据应用方。
具体来说,当本申请的技术方案应用到隐私计算时,在客户样本对齐阶段,隐私计算平台可以通过如下的安全机制保证双方的数据安全性:隐私计算平台采用分布式组网架构,数据源方和数据应用方分别安装有隐私计算平台客户端,通过该隐私计算平台的系统完成两方数据之间的密文交换,在原始数据本地存储不出库的情况下,双方仅交换随机密文,基于联邦学习的技术完成加密数据的样本对齐。从技术实现上来说,双方做样本对齐之前,针对样本首先进行加密处理(加密算法例如可以包括RAW、MD5、SHA256等),保证原始数据不出库且不暴露真实数据匹配ID;对于两边的数据在样本ID对齐的过程中,采用RSA+HASH的方式实现样本对齐,且任何差集和底层原始数据都不向彼此泄漏;样本对齐后对于加密数据处理后的交集,采用多种加密方式混合机制(加密方式包括RAW、MD5、SHA、SM3等)进行二次加密处理,一定程度上保证对齐交集的数据隐私和安全性,最大可能保护数据隐私安全。
在模型的联合训练阶段,隐私计算平台可以通过如下的安全机制来保证数据源方和数据应用方的数据安全性:1)基于同态加密技术,实现在训练过程中双方模型参数(包括梯度值和残差值等中间结果)的交换,最终形成的联合模型,双方的模型参数分别持有,联合使用,保证底层数据不向对方泄露,而且联合模型比单独建模好。2)联合训练时监督、防范联邦任务过程中的各类投毒攻击,非诚信行为,解除数据可能被动出域的担忧。
需要说明的是,当数据源方和数据应用方执行隐私计算任务时,在数据推荐及数据推荐任务之前(步骤501-步骤510),也受到上述安全机制的约束,即数据源方和数据应用方关于数据需求信息、推荐数据集合的信息、目标数据集合的信息等信息的交互过程,也可以采用上述保护数据安全性的方式,以保证各种信息的安全性。
除上述对数据安全性要求比较高的隐私数据计算技术领域之外,当其他技术领域的多个协作方之间需要结合数据应用场景推荐数据完成模型训练等数据应用时,也可以采用本申请中的数据推荐方法,例如车企内部的自动驾驶避障训练等传统人工智能学习场景。更加需要说明的是,对于金融行业的银行信贷风控场景、证券行业的债券评级、保险行业的核保理赔、互联网行业的媒体广告营销、新零售行业的智能监控、社交媒体行业的智能推荐、医疗行业面向医院的分级医疗、面向疾控中心的哨点监控、面向体检机构的辅助诊疗、政府行业的数据交易所数据推荐、公安机关的反欺诈侦查、物流行业的供应链金融等等领域的多方协作场景下,可以基于具体训练所用的数据类型确定是否需要采用隐私计算/联邦学习等安全机制。若多方协作过程中涉及的数据不涉及隐私保护,则可以通过配置减少加密环节或者暂时不启用部分没必要的安全机制,以提高模型训练效率等,减少多方协作场景的时间成本。
基于相同的发明构思,本申请实施例还提供一种数据推荐装置,该装置用于实现上述方法实施例中的数据推荐方法,该数据推荐装置可以是上述多方协作场景下的数据源方或数据应用方。
如图6所示,该装置600包括:通信模块610和处理模块620。
示例性地,当该装置600执行对应于数据源方的操作或步骤时:
所述通信模块610,用于接收来自数据应用方的数据需求信息,所述数据需求信息用于指示数据推荐需要满足的应用场景、业务主题或标签特征中的一项或多项的组合;所述处理模块620,用于根据合作数据集中的各个数据集合与所述数据需求信息的关联程度的得分,确定一个或多个推荐数据集合;其中,所述合作数据集中的每个数据集合通过该数据集合的标签特征以及所述标签特征对应的至少一个业务主题与一个或多个应用场景相关联;所述通信模块610,还用于将所述一个或多个推荐数据集合的信息发送给所述数据应用方。
在一种可能的设计中,所述数据需求信息包括一个或多个应用组主题,每个应用组主题对应一个应用场景;所述处理模块620具体用于:针对所述合作数据集中的每个数据集合,计算所述数据集合与所述数据需求信息中的各个应用组主题的关联程度的得分,并将所述数据集合分别对应所述各个应用组主题的关联程度的得分之和,确定为所述数据集合与所述数据需求信息的关联程度的得分。
在一种可能的设计中,当第一应用组主题仅用于指示数据推荐需要满足第一应用场景,所述第一应用组主题为所述一个或多个应用组主题之一;所述数据集合与所述第一应用组主题的关联程度的得分等于:所述数据集合经过该数据集合的标签特征、所述标签特征对应的业务主题到达所述第一应用场景的路径个数。
在一种可能的设计中,当第一应用组主题用于指示数据推荐需要满足第一应用场景和第一业务主题的组合,所述第一应用组主题为所述一个或多个应用组主题之一;所述数据集合与所述第一应用组主题的关联程度的得分等于:所述数据集合经过该数据集合的标签特征、所述第一业务主题到达所述第一应用场景的路径个数;或者,所述数据集合经过该数据集合的标签特征到达所述第一业务主题的路径个数,与所述数据集合经过该数据集合的标签特征以及所述标签特征对应的业务主题到达所述第一应用场景的路径个数之和。
在一种可能的设计中,当第一应用组主题用于指示数据推荐需要满足第一应用场景、第一业务主题和第一标签特征的组合,所述第一应用组主题为所述一个或多个应用组主题之一;所述数据集合与所述第一应用组主题的关联程度的得分等于:所述数据集合经过所述第一标签特征、所述第一业务主题到达所述第一应用场景的路径个数;或者,所述数据集合到达所述第一标签特征的路径个数,与所述数据集合经过该数据集合的标签特征到达所述第一业务主题的路径个数、所述数据集合经过该数据集合的标签特征及所述标签特征对应的业务主题到达所述第一应用场景的路径个数之和。
在一种可能的设计中,所述通信模块610具体用于:所述数据源方将所述一个或多个推荐数据集合的数据集合标识和每个所述推荐数据集合与所述数据需求信息的关联程度的得分,发送给所述数据应用方。
在一种可能的设计中,所述处理模块620还用于:获取用户上传的合作数据文件;通过对所述合作数据文件中各个数据表中的数据字段添加对应的标签特征、业务主题和应用场景,生成合作数据集,所述合作数据集包括一个或多个数据集合,每个数据集合包括一个或多个数据字段的数据。
在一种可能的设计中,所述处理模块620具体用于:对所述合作数据文件中各个数据表中的每个数据字段添加标签特征,并根据所述各个数据字段的标签特征生成所述合作数据即包括的一个或多个数据集合;针对每个数据集合,根据所述数据集合中各个数据字段的标签特征,确定所述数据集合的标签特征;根据所述数据集合的标签特征和预设的标签特征与业务主题之间的映射关系,确定所述数据集合关联的业务主题;根据所述数据集合关联的业务主题和预设的业务主题与应用场景之间的映射关系,确定所述数据集合关联的应用场景。
在一种可能的设计中,所述处理模块620还用于:根据所述合作数据集中的各个数据集合关联的标签特征、业务主题和应用场景,确定所述合作数据集的属性信息;其中,所述合作数据集的属性信息包括所述合作数据集相关的应用场景、业务主题和标签特征,以及应用场景与业务主题之间的映射关系,业务主题与标签特征之间的映射关系;所述通信模块610还用于,将所述合作数据集的属性信息发送给所述数据应用方。
在一种可能的设计中,所述合作数据集的属性信息还包括所述合作数据集中的每个数据集合的属性信息,所述数据集合的属性信息包括数据集合标识、数据集合名称、数据描述信息、数据量信息和更新时间信息中的一项或多项。
当该装置600执行对应于数据应用方的操作或步骤时:
所述通信模块610,用于向数据源方发送数据需求信息,所述数据需求信息用于指示数据推荐需要满足的应用场景、业务主题或标签特征中的一项或多项的组合;以及,接收来自所述数据源方的合作数据集中的一个或多个推荐数据集合的信息;所述一个或多个推荐数据集合是根据所述合作数据集中的各个数据集合与所述数据需求信息的关联程度的得分确定的;处理模块620,用于根据所述一个或多个推荐数据集合的信息,确定目标数据集合。
在一种可能的设计中,所述通信模块610具体用于:接收来自所述数据源方的所述一个或多个推荐数据集合的数据集合标识和每个所述推荐数据集合与所述数据需求信息的关联程度的得分;
所述处理模块620具体用于:根据所述一个或多个推荐数据集合与所述数据需求信息的关联程度的得分,确定所述目标数据集合。
在一种可能的设计中,所述处理模块620具体用于:根据预设的关联程度的得分阈值,从所述一个或多个推荐数据集合中筛选出一个或多个候选数据集合,根据数据维度筛选条件对所述一个或多个候选数据集合进行进一步筛选,确定所述目标数据集合,所述数据维度筛选条件基于数据集合的数据量和/更新时间设定。
在一种可能的设计中,所述通信模块610还用于:接收来自所述数据源方的所述合作数据集的属性信息,所述合作数据集的属性信息包括所述合作数据集相关的应用场景、业务主题和标签特征,以及应用场景与业务主题之间的映射关系,业务主题与标签特征之间的映射关系;
所述处理模块620还用于,基于所述合作数据集相关的应用场景与业务主题之间的映射关系和业务主题与标签特征之间的映射关系,在用户交互界面展示所述合作数据集相关的各个应用场景、业务主题和标签特征;以及,根据用户在所述用户交互界面上触发的选择操作,确定所述数据需求信息。
在一种可能的设计中,所述合作数据集合的元数据信息还包括所述合作数据集中的每个数据集合的数据信息,所述数据集合的属性信息包括数据集合标识、数据集合名称、数据描述信息、数据量信息、和更新时间信息中的一项或多项。
基于相同的技术构思,本申请实施例还提供一种计算机设备,如图7所示,该计算机设备700包括至少一个处理器701,以及与至少一个处理器连接的存储器702,本申请实施例中不限定处理器701与存储器702之间的具体连接介质,图7中处理器701和存储器702之间通过总线连接为例。总线可以分为地址总线、数据总线、控制总线等。
在本申请实施例中,存储器702存储有可被至少一个处理器701执行的指令,该至少一个处理器701通过执行存储器702存储的指令,可以实现上述数据推荐方法的步骤。
其中,处理器701是计算设备的控制中心,可以利用各种接口和线路连接计算设备的各个部分,通过运行或执行存储在存储器702内的指令以及调用存储在存储器702内的数据,从而进行资源设置。可选的,处理器701可包括一个或多个处理单元,处理器701可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器701中。在一些实施例中,处理器701和存储器702可以在同一芯片上实现,在一些实施例中,它们也可以在独立的芯片上分别实现。
处理器701可以是通用处理器,例如中央处理器(CPU)、数字信号处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器702作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器702可以包括至少一种类型的存储介质,例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory,RAM)、静态随机访问存储器(Static Random Access Memory,SRAM)、可编程只读存储器(Programmable Read Only Memory,PROM)、只读存储器(Read Only Memory,ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性存储器、磁盘、光盘等等。存储器702是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本申请实施例中的存储器702还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和/或数据。
基于相同的技术构思,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机可读指令,当计算机读取并执行所述计算机可读指令时,使得上述方法实施例中的方法实现。
基于相同的技术构思,本申请实施例还提供一种计算机程序产品,包括计算机可读指令,当计算机可读指令被处理器执行时,使得上述方法实施例中的方法实现。
基于相同的技术构思,本申请实施例提供一种隐私计算平台,该隐私计算平台包括如上述方法实施例中所述的数据源方和数据应用方。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (22)
1.一种多方协作场景下的数据推荐方法,其特征在于,所述方法应用于数据源方,所述方法包括:
接收来自数据应用方的数据需求信息,所述数据需求信息用于指示数据推荐需要满足的应用场景、业务主题或标签特征中的一项或多项的组合;
根据合作数据集中的各个数据集合与所述数据需求信息的关联程度的得分,确定一个或多个推荐数据集合;其中,所述合作数据集中的每个数据集合通过该数据集合的标签特征以及所述标签特征对应的至少一个业务主题与一个或多个应用场景相关联;
将所述一个或多个推荐数据集合的信息发送给所述数据应用方。
2.根据权利要求1所述的方法,其特征在于,所述数据需求信息包括一个或多个应用组主题,每个应用组主题对应一个应用场景;
所述方法还包括:
针对所述合作数据集中的每个数据集合,计算所述数据集合与所述数据需求信息中的各个应用组主题的关联程度的得分,并将所述数据集合分别对应所述各个应用组主题的关联程度的得分之和,确定为所述数据集合与所述数据需求信息的关联程度的得分。
3.根据权利要求2所述的方法,其特征在于,当第一应用组主题仅用于指示数据推荐需要满足第一应用场景,所述第一应用组主题为所述一个或多个应用组主题之一;
所述数据集合与所述第一应用组主题的关联程度的得分等于:
所述数据集合经过该数据集合的标签特征、所述标签特征对应的业务主题到达所述第一应用场景的路径个数。
4.根据权利要求2所述的方法,其特征在于,当第一应用组主题用于指示数据推荐需要满足第一应用场景和第一业务主题的组合,所述第一应用组主题为所述一个或多个应用组主题之一;
所述数据集合与所述第一应用组主题的关联程度的得分等于:
所述数据集合经过该数据集合的标签特征、所述第一业务主题到达所述第一应用场景的路径个数;或者,
所述数据集合经过该数据集合的标签特征到达所述第一业务主题的路径个数,与所述数据集合经过该数据集合的标签特征以及所述标签特征对应的业务主题到达所述第一应用场景的路径个数之和。
5.根据权利要求2所述的方法,其特征在于,当第一应用组主题用于指示数据推荐需要满足第一应用场景、第一业务主题和第一标签特征的组合,所述第一应用组主题为所述一个或多个应用组主题之一;
所述数据集合与所述第一应用组主题的关联程度的得分等于:
所述数据集合经过所述第一标签特征、所述第一业务主题到达所述第一应用场景的路径个数;或者,
所述数据集合到达所述第一标签特征的路径个数,与所述数据集合经过该数据集合的标签特征到达所述第一业务主题的路径个数、所述数据集合经过该数据集合的标签特征及所述标签特征对应的业务主题到达所述第一应用场景的路径个数之和。
6.根据权利要求1所述的方法,其特征在于,所述将所述一个或多个推荐数据集合的信息发送给所述数据应用方,包括:
将所述一个或多个推荐数据集合的数据集合标识和每个所述推荐数据集合与所述数据需求信息的关联程度的得分,发送给所述数据应用方。
7.根据权利要求1至6中任一项所述的方法,其特征在于,所述方法还包括:
获取用户上传的合作数据文件;
通过对所述合作数据文件中各个数据表中的数据字段添加对应的标签特征、业务主题和应用场景,生成合作数据集,所述合作数据集包括一个或多个数据集合,每个数据集合包括一个或多个数据字段的数据。
8.根据权利要求7所述的方法,其特征在于,所述通过对所述合作数据文件中各个数据表中的数据字段添加对应的标签特征、业务主题和应用场景,生成合作数据集,包括:
对所述合作数据文件中各个数据表中的每个数据字段添加标签特征,并根据所述各个数据字段的标签特征生成所述合作数据集包括的一个或多个数据集合;
针对每个数据集合,根据所述数据集合中各个数据字段的标签特征,确定所述数据集合的标签特征;
根据所述数据集合的标签特征和预设的标签特征与业务主题之间的映射关系,确定所述数据集合关联的业务主题;
根据所述数据集合关联的业务主题和预设的业务主题与应用场景之间的映射关系,确定所述数据集合关联的应用场景。
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:
根据所述合作数据集中的各个数据集合关联的标签特征、业务主题和应用场景,确定所述合作数据集的属性信息;其中,所述合作数据集的属性信息包括所述合作数据集相关的应用场景、业务主题和标签特征,以及应用场景与业务主题之间的映射关系,业务主题与标签特征之间的映射关系;
将所述合作数据集的属性信息发送给所述数据应用方。
10.根据权利要求9所述的方法,其特征在于,所述合作数据集的属性信息还包括所述合作数据集中的每个数据集合的属性信息,所述数据集合的属性信息包括数据集合标识、数据集合名称、数据描述信息、数据量信息和更新时间信息中的一项或多项。
11.一种多方协作场景下的数据推荐方法,其特征在于,所述方法应用于数据应用方,所述方法包括:
向数据源方发送数据需求信息,所述数据需求信息用于指示数据推荐需要满足的应用场景、业务主题或标签特征中的一项或多项的组合;
接收来自所述数据源方的合作数据集中的一个或多个推荐数据集合的信息;所述一个或多个推荐数据集合是根据所述合作数据集中的各个数据集合与所述数据需求信息的关联程度的得分确定的,其中,所述合作数据集中的每个数据集合通过该数据集合的标签特征以及所述标签特征对应的至少一个业务主题与一个或多个应用场景相关联;
所述数据应用方根据所述一个或多个推荐数据集合的信息,确定目标数据集合。
12.根据权利要求11所述的方法,其特征在于,所述接收来自所述数据源方的合作数据集中的一个或多个推荐数据集合的信息,包括:
接收来自所述数据源方的所述一个或多个推荐数据集合的数据集合标识和每个所述推荐数据集合与所述数据需求信息的关联程度的得分;
所述根据所述一个或多个推荐数据集合的信息,确定目标数据集合,包括:
所述根据所述一个或多个推荐数据集合与所述数据需求信息的关联程度的得分,确定所述目标数据集合。
13.根据权利要求12所述的方法,其特征在于,所述根据所述一个或多个推荐数据集合与所述数据需求信息的关联程度的得分,确定所述目标数据集合,包括:
所述根据预设的关联程度的得分阈值,从所述一个或多个推荐数据集合中筛选出一个或多个候选数据集合;
所述根据数据维度筛选条件对所述一个或多个候选数据集合进行进一步筛选,确定所述目标数据集合,所述数据维度筛选条件基于数据集合的数据量和/更新时间设定。
14.根据权利要求11至13中任一项所述的方法,其特征在于,所述方法还包括:
接收来自所述数据源方的所述合作数据集的属性信息,所述合作数据集的属性信息包括所述合作数据集相关的应用场景、业务主题和标签特征,以及应用场景与业务主题之间的映射关系,业务主题与标签特征之间的映射关系;
基于所述合作数据集相关的应用场景与业务主题之间的映射关系和业务主题与标签特征之间的映射关系,在用户交互界面展示所述合作数据集相关的各个应用场景、业务主题和标签特征;
根据用户在所述用户交互界面上触发的选择操作,确定所述数据需求信息。
15.根据权利要求14所述的方法,其特征在于,所述合作数据集合的元数据信息还包括所述合作数据集中的每个数据集合的数据信息,所述数据集合的属性信息包括数据集合标识、数据集合名称、数据描述信息、数据量信息、和更新时间信息中的一项或多项。
16.一种数据推荐装置,其特征在于,所述装置包括:
通信模块,用于接收来自数据应用方的数据需求信息,所述数据需求信息用于指示数据推荐需要满足的应用场景、业务主题或标签特征中的一项或多项的组合;
处理模块,用于根据合作数据集中的各个数据集合与所述数据需求信息的关联程度的得分,确定一个或多个推荐数据集合;其中,所述合作数据集中的每个数据集合通过该数据集合的标签特征以及所述标签特征对应的至少一个业务主题与一个或多个应用场景相关联;
所述通信模块,还用于将所述一个或多个推荐数据集合的信息发送给所述数据应用方。
17.一种数据推荐装置,其特征在于,所述装置包括:
通信模块,用于向数据源方发送数据需求信息,所述数据需求信息用于指示数据推荐需要满足的应用场景、业务主题或标签特征中的一项或多项的组合;
所述通信模块,还用于接收来自所述数据源方的合作数据集中的一个或多个推荐数据集合的信息;所述一个或多个推荐数据集合是根据所述合作数据集中的各个数据集合与所述数据需求信息的关联程度的得分确定的,其中,所述合作数据集中的每个数据集合通过该数据集合的标签特征以及所述标签特征对应的至少一个业务主题与一个或多个应用场景相关联;
处理模块,用于根据所述一个或多个推荐数据集合,确定目标数据集合。
18.一种数据推荐装置,其特征在于,所述装置包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序指令执行如权利要求1至10中任一项所述的方法。
19.一种数据推荐装置,其特征在于,所述装置包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序指令执行如权利要求11至15中任一项所述的方法。
20.一种隐私计算平台,其特征在于,所述平台包括如权利要求16或18所述的数据推荐装置,和,如权利要求17或19所述的数据推荐装置。
21.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如权利要求1至10中任一项所述的方法,或者执行如权利要求11至15中任一项所述的方法。
22.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机可读指令,当所述计算机可读指令被处理器执行时,使得计算机实现如权利要求1至15中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210773627.5A CN115080858A (zh) | 2022-07-01 | 2022-07-01 | 多方协作场景下的数据推荐方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210773627.5A CN115080858A (zh) | 2022-07-01 | 2022-07-01 | 多方协作场景下的数据推荐方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115080858A true CN115080858A (zh) | 2022-09-20 |
Family
ID=83258632
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210773627.5A Pending CN115080858A (zh) | 2022-07-01 | 2022-07-01 | 多方协作场景下的数据推荐方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115080858A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116738472A (zh) * | 2023-08-14 | 2023-09-12 | 北京国电通网络技术有限公司 | 应用于任务数据交互的任务数据加密方法、装置与设备 |
CN117151828A (zh) * | 2023-10-30 | 2023-12-01 | 建信金融科技有限责任公司 | 推荐物品池的处理方法、装置、设备和介质 |
WO2024174880A1 (zh) * | 2023-02-22 | 2024-08-29 | 华为技术有限公司 | 一种数据统计方法及装置 |
-
2022
- 2022-07-01 CN CN202210773627.5A patent/CN115080858A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024174880A1 (zh) * | 2023-02-22 | 2024-08-29 | 华为技术有限公司 | 一种数据统计方法及装置 |
CN116738472A (zh) * | 2023-08-14 | 2023-09-12 | 北京国电通网络技术有限公司 | 应用于任务数据交互的任务数据加密方法、装置与设备 |
CN116738472B (zh) * | 2023-08-14 | 2023-10-27 | 北京国电通网络技术有限公司 | 应用于任务数据交互的任务数据加密方法、装置与设备 |
CN117151828A (zh) * | 2023-10-30 | 2023-12-01 | 建信金融科技有限责任公司 | 推荐物品池的处理方法、装置、设备和介质 |
CN117151828B (zh) * | 2023-10-30 | 2024-01-30 | 建信金融科技有限责任公司 | 推荐物品池的处理方法、装置、设备和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
El Khatib et al. | The impact of blockchain on project management | |
Weking et al. | The impact of blockchain technology on business models–a taxonomy and archetypal patterns | |
Baset et al. | Hands-on blockchain with Hyperledger: building decentralized applications with Hyperledger Fabric and composer | |
Yli-Huumo et al. | Where is current research on blockchain technology?—a systematic review | |
US20220414671A1 (en) | Systems and methods of providing security in an electronic network | |
US11062294B2 (en) | Cognitive blockchain for customized interchange determination | |
US20200005410A1 (en) | System and Method for Facilitating Legal Review for Commercial Loan Transactions | |
Riasanow et al. | The generic blockchain ecosystem and its strategic implications | |
CN115080858A (zh) | 多方协作场景下的数据推荐方法及装置 | |
CN112465627B (zh) | 基于区块链和机器学习的金融借贷审核方法及系统 | |
US20230070625A1 (en) | Graph-based analysis and visualization of digital tokens | |
US11831666B2 (en) | Blockchain data breach security and cyberattack prevention | |
Gaur et al. | Blockchain with hyperledger fabric: Build decentralized applications using hyperledger fabric 2 | |
Baset et al. | Blockchain Development with hyperledger: build decentralized applications with hyperledger fabric and composer | |
Garcia-Font | Blockchain: Opportunities and challenges in the educational context | |
US11200546B1 (en) | Distributed ledger receipt wallet system and method | |
Rai et al. | Blockchain based E-procurement system in healthcare | |
Pelaitis et al. | Developing a universal, decentralized and immutable Erasmus credit transfer system on blockchain | |
Rajasekar et al. | Algorithmic Strategies for Solving Complex Problems in Financial Cryptography | |
Kabanda | Model Structure for Block Chain Technology and Cryptocurrency for the financial services sector in Zimbabwe | |
Koskipää | Software development in the FinTech industry: A literature review | |
Henry | Towards trustworthy, flexible, and privacy-preserving peer-to-peer business process management systems | |
Rani et al. | Scaling Up “Sustainability Development”: Analyzing the Intricacies and Application of Blockchain Technology vis-à-vis Financial Markets | |
Mbodji et al. | Proof of concept of blockchain integration in P2P lending for developing countries | |
WO2020145964A1 (en) | Secure transactions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |