具体实施方式
为了便于本领域技术人员的理解,下面结合实施例对本发明作进一步的说明,实施方式提及的内容并非对本发明的限定。
本发明实施例提供了一种基于区块链技术的数据挖掘流程分享系统,该系统由基于人工智能的数据建模管理系统、基于区块链技术的账户和流程分享管理系统、基于大数据技术的大数据中台共同搭建而成。
在运用中,数据建模管理系统可以提供相应的建模工具,大数据中台作为仅分享数据的存储容器,确保分享者与被分享者的数据集数据分开存储,互不影响,保障数据集数据的安全;区块链系统作为数据建模系统的数据存储库,使得数据处理流程的技术信息在分享者和被分享者之间进行安全的分享和协同处理;可以确保大数据的有效应用以及数据挖掘的技术信息的安全存储。
上述基于区块链技术的数据挖掘流程分享系统在具体实施运用中,从功能实现来划分,包括以下具体实施模块:
1.数据集管理模块:用于管理数据挖掘师用于做数据挖掘的数据集及其相关信息。
在数据挖掘过程中,数据建模管理系统主要是提供和管理数据获取、流程建立的工具。数据集的基础信息,如用户账户信息、所创建的数据集的名称、创建时间等基础信息,以及数据集的获取渠道信息,比如数据集的相关链接信息、用户账户和秘钥等等相关信息都存储于区块链系统,即,区块链系统作为数据建模系统的数据存储库。数据集的相关信息存储于区块链系统的数据集管理模块,以作统一管理。
2.数据清洗模块:用于数据清洗以及供数据挖掘师对数据清洗流程进行相关设置;比如设置清洗流程步骤及顺序、清洗规则、清洗条件等等;
3.特征提取模块:用于对清洗数据的特征提取以及供用户进行流程相关设置;
4.数据建模模块:用于对经过特征提取后的数据进行建模及模型流程设置;
5.流程分享模块:用于分享数据挖掘整个过程中所涉及到的数据集、清洗日志及流程、特征提取日志及流程、建模流程等等。在数据挖掘的整个过程中,数据集的创建、数据清洗、特征提取、建模等任一环节均可以进行分享,比如数据集创建完即可进行分享,也可以在数据清洗、特征提取、建模过程的任一步骤中,比如数据清洗到一半时,进行分享。具体到哪个步骤,本实施例不作限定,用户可视情况需求随时进行分享。例如用户在数据挖掘过程任一步骤时,遇到了问题,需要请求其他人员的协助解决,可以及时进行分享便于协同处理;灵活的分享方式,便于数据研究者之间有效的协同。当然,用户也可以在任一步骤时进行技术交流的分享。
对应地,基于上述数据挖掘流程分享系统,本实施例还提供了一种基于区块链技术的数据挖掘流程分享方法,该方法包括如下步骤。
一、数据集创建及分享
关于数据集的创建形成,对应于不同的应用场景,有不同的形成方式,具体如下。
1、用户可以通过基于区块链技术的账户和流程分享管理系统进行系统的登录,当用户登录区块链系统后,用户所在的当前主机对应的节点即成为区块链节点。用户通过数据集管理模块导入本地数据文件形成数据集并存储于大数据中台。同时,系统将用户当前导入的数据集存储于大数据中台所对应的数据表、数据集生成的时间、数据集的名称、用户账户、上链时间等相关信息通过私钥加密,连同公钥一起上传到区块链系统中的数据集区块。
这种应用场景下,主要适用于一次性调用数据来形成数据集,数据集存储在大数据中台,而对于数据集的存储路径、数据集名称等等相关信息则上传到区块链系统,以便用户或者被分享者依据这些相关信息来调取数据集。
相应地,用户也可以通过数据集管理模块导入连接其它数据库的数据,形成数据集并存储于大数据中台。同时,对应生成数据集的名称、存储于大数据中台的数据表等,连同数据集生成时间、用户账户、上链时间等相关信息通过私钥加密,连同公钥一起上传到区块链系统。
这种应用方式,可以适用于许多场景下,例如,用户在使用其它数据库的权限到期前,就可以将数据导入大数据中台,以便后期继续使用这些数据。
也就是说,用户完全可以根据实际应用场景和需求,一次性调用数据存储到大数据中台,形成数据集,以便后续调用。
对于上述方式下形成的数据集,在进行分享时,还可以选择不同的分享模式,比如仅分享模式或者协同处理模式;仅分享模式或协同处理模式下还可以进一步选择全部分享或部分分享模式。
例如,在仅分享模式选择全部分享的情况下,由于数据集已经存储在大数据中台,因此大数据中台可以基于所要分享的数据集复制生成一套相同的数据集数据,并同时相应生成对应的数据集名称(比如:数据集1仅分享下的数据集2)、数据集2对应的存储路径、生成时间等,然后连同分享者账户信息、被分享者账户信息通过私钥加密,连同公钥一起上传到区块链系统。
也就是说,在仅分享模式且全部分享的情况下,被分享者接收到的数据集数据与分享者分享设定的数据集数据是相同的,但数据集对应的相关信息则是新的一套相关信息。分享者的数据集数据与被分享者的数据集数据是独立存在的,互不影响。
再如,用户还可以选择仅分享模式且部分分享,比如,选择对当前数据集中的一千条数据进行分享,那么,大数据中台可以基于所选择分享的这一千条数据复制生成一套相同的数据,形成数据集,同时相应生成对应的数据集名称、存储路径、生成时间等,然后连同分享者账户信息、被分享者账户信息通过私钥加密,连同公钥一起上传到区块链系统。
在协同处理模式下,同样可以选择全部分享或部分分享;在全部分享的情况下,则分享者和被分享者是基于同一数据集进行挖掘分析;而在部分分享的情况下,被分享者虽然与分享者面向的都是同一数据集,但被分享者只能基于分享者分享设定的部分数据进行挖掘分析。
2、用户可以登录数据建模管理系统,创建一个链接到数据库的链接;通过数据集管理模块经由上述链接,并通过预先存储在区块链系统的数据集信息调取数据库中对应的数据表形成数据集。系统将数据集对应的数据库的链接信息、数据表信息、以及定义的数据集名称、生成数据集的时间、用户账户、上链时间等信息通过私钥加密,连同公钥一起上传到区块链系统中的数据库数据集区块。
这种应用场景下,适用于自身拥有数据库的用户,比如一些企业用户或者数据研究用户,自身拥有本地服务器或者远端服务器等,数据库存储于服务器以供调用;然后,用户可以通过链接到数据库调取数据来形成数据集,对应地,数据集依然存储于数据库。之后,将数据集对应的数据库链接信息、数据集名称、生成时间等等相关信息上传到区块链系统,以便用户或者被分享者依据这些相关信息来调取数据集。
同样地,在这种方式下形成的数据集,也可以选择不同的分享模式进行分享,仅分享或协同处理模式;仅分享模式或协同处理模式下同样可以选择全部分享或部分分享。
在仅分享模式下,系统根据数据库链接信息将所要分享的数据集数据(依据选择的全部分享或部分分享模式,所要分享的数据集数据分别为全部数据或者分享设定的部分数据)调取到大数据中台,存储于大数据中台的数据表,形成被分享的数据集,同时相应生成被分享数据集的名称、存储路径、生成时间等相关信息,然后连同分享者账户信息、被分享者账户信息通过私钥加密,连同公钥一起上传到区块链系统。
同理地,在仅分享模式下,被分享者接收到的数据集数据与分享者分享设定的数据集数据是相同的,但数据集对应的相关信息则是新的一套相关信息。分享者的数据集数据与被分享者的数据集数据是独立存在的,互不影响。分享者拥有的数据集依然还是通过链接数据库调取数据来形成;而被分享者的数据集则是将对应数据调取到大数据中台来形成。被分享者的数据集并不会直接链接到数据库。
在协同处理模式下,同样可以选择全部分享或部分分享;在全部分享的情况下,则分享者和被分享者是基于同一数据集进行挖掘分析;而在部分分享的情况下,被分享者虽然与分享者面向的都是同一数据集,但被分享者只能基于分享者分享设定的部分数据进行挖掘分析。
也就是说,在进行分享时,分享者选择将链接至数据库的数据集及相关信息分享给被分享者,即:将数据集对应的数据库的链接信息、数据表信息、数据集名称、账户信息等相关信息授权分享给被分享者,被分享者对分享设定的数据可以拥有与分享者同样的权限,查阅、清洗、特征提取、建模等。
3、用户还可以通过数据集管理模块的数据实时链接工具,用于实时链接本地数据文件,实时从本地数据文件获取实时数据形成数据集。用户节点将数据集对应的链接本地数据文件的地址信息、数据文件的数据表格信息(EXCEL\CSV的sheet名称或txt文件等等)、以及定义的数据集名称、生成数据集的时间、用户账户、上链时间等信息通过私钥加密,连同公钥一起上传到区块链系统中的数据文件数据区块。
这种应用场景,主要适用于用户所要获取的数据集需要根据本地实时数据来形成,本地数据文件处于不断更新的状态;因此,用户可以通过数据实时链接工具,实时链接到本地数据文件,来实时获取本地数据,形成数据集。对应地,数据集的数据也存储于本地。
对于这种方式下形成的数据集,由于数据存储在本地,因此在进行分享时,系统可以根据链接将所分享的数据集调取到大数据中台,以便被分享者进行调取,避免存储分享数据的本地节点因不在网络(比如设备关机)而导致被分享者无法获取对应数据。同时,也是对本地数据的一种安全保障。
同样,对于不同的分享模式,也会有相应不同的分享方式。
具体地,在仅分享模式下,系统将所分享的数据集数据(依据选择的全部分享或部分分享模式,所要分享的数据集数据分别为全部数据或者分享设定的部分数据)调取到大数据中台,存储于大数据中台的数据表,形成被分享的数据集,同时相应生成被分享数据集的名称、存储路径、生成时间等,然后连同分享者账户信息、被分享者账户信息通过私钥加密,连同公钥一起上传到区块链系统。
同理地,在仅分享模式下,被分享者接收到的数据集数据与分享者分享设定的数据集数据是相同的,但数据集对应的相关信息则是新的一套相关信息。分享者的数据集数据与被分享者的数据集数据是独立存在的,互不影响。分享者拥有的数据依然还是实时链接本地数据文件;而被分享者的数据集则是将对应数据调取到大数据中台来形成。被分享者的数据并不会直接链接到本地文件。
在协同处理模式下,同样可以选择全部分享或部分分享;在全部分享的情况下,则分享者和被分享者是基于同一数据集进行挖掘分析;而在部分分享的情况下,被分享者虽然与分享者面向的都是同一数据集,但被分享者只能基于分享者分享设定的部分数据进行挖掘分析。
在具体应用中,本实施例提供的上述数据集创建方式可以支撑不同的数据集创建需求。尤其是,针对不同数据对保密性的不同需求,用户可以对应采用不同的数据集创建方式。
例如,对于保密性一般的数据,用户可以采用上述第1种方式,直接将本地数据文件导入数据建模管理系统,形成数据集,并存储在大数据中台。之后,用户可以在数据建模管理系统直接使用该数据,也可以是一次性使用。同时,也可以对数据进行分享。
而对于保密性要求较高的数据,用户则可以视情况(视乎是否拥有数据库)选择上述第2或第3种方式,即,用户通过(实时)链接数据库或本地数据文件,形成数据集,然后将数据集的名称、对应链接信息等等数据集的相关信息上传到区块链系统,数据建模管理系统并不存储该数据集的数据和信息,数据集对应存储于数据库或本地。第三方用户或平台都不能获取这些数据。
当其他用户想要获得该数据集数据,只能通过分享者分享的数据集相关信息来获取。
分享者将分享对象数据相关信息、分享者账户、被分享者账户通过私钥加密,连同公钥一起上传到区块链。
对应地,只有指定的被分享者才有权限获取到分享数据信息,对于其他用户节点,即使获取到分享区块,也无法解密并获取到数据。
从而,可以有效地保障数据的安全及保密,同时又可以满足分享需求。
并且,分享者在进行分享时,还可以在分享信息对不同的用户设置不同的权限(采用不同的分享模式)来对被分享者的数据挖掘分析进行管理,以实现不同的技术目的。
因为数据集本身的数据属于核心信息,具有高度保密性。因此,在本实施例中,区块链并不存储实际的数据集的数据,数据集的具体数据对应不同场景存储在相应位置,从而可以确保数据集数据本身的安全,确保数据的保密性。同时,仅分享模式下的数据集数据存储在大数据中台,可以与分享者的数据集相互独立,互不干扰影响;也可以提高被分享者调阅数据的实效性。
本实施例提供的上述数据集管理和分享方法相对于现有技术应用中的数据建模管理系统,具有显著的进步。
在现有技术的数据建模管理系统中,所有用户通过数据建模管理系统创建数据集时,以及进行后续数据清洗、特征提取、建模等挖掘分析时,所有的用户信息以及数据集本身数据、和清洗、特征提取、建模等处理日志、流程都会记录在该数据建模管理系统的对应服务器中。也就是说,所有相关信息包括数据本身、技术信息本身都记录在同一个数据建模管理系统中,这对于数据和技术信息而言,保密性显然很差,无法保障数据信息的保密性和安全。
而本实施例提供的数据集管理和分享方法则是将相关文档都存储于区块链节点的相应位置中(因为区块链采取的是分布式存储)。数据建模管理系统只是作为一个平台,提供相应的建模工具。用户通过区块链登录数据建模管理系统,对数据集进行挖掘分析,对应的挖掘分析信息及数据都存储在区块链用户节点。用户对数据集或流程进行分享时,被分享者通过区块链获取到这些分享信息后,同样也是存储在被分享者节点中,而不会泄露给第三方,进而,有效确保了所有相关数据的安全保密。
二、数据清洗流程及分享
在清洗数据前,用户可以通过查询数据集,获取对应的存储在区块链上的数据集区块信息,数据建模管理系统通过区块信息对应调用数据集的数据进行展示,确保数据的安全;同时,数据建模管理系统为数据清洗流程自动生成流程ID。
用户依据需求选择数据集,通过数据清洗模块的各种数据清洗工具,同时通过配置当前数据清洗工具对当前数据集进行清洗的规则,实现数据的清洗。
用户节点将当前流程ID、相应的清洗工具名称、清洗规则、对应的数据集区块序列、用户账户、清洗创建的日志信息和时间等信息通过私钥加密,连同公钥一起上传到数据清洗区块。
同时用户还可以通过自定义SQL脚本进行清洗。
相应地,用户节点将当前流程ID、相应的SQL脚本语句、对应的数据集区块序列、用户账户、清洗创建的日志信息和时间等信息通过私钥加密,连同公钥一起上传到数据清洗区块。
对于同一清洗流程,系统通过统一清洗流程ID进行关联管理。用户可以将这一整个清洗流程作为流程包进行存储,可存储复用于多个不同的流程,也可以直接分享或者延续当前流程继续进行数据特征提取和建模。
对于数据清洗流程的分享,因为数据清洗基于所选择的数据集进行,数据集的创建形成有不同的场景,那么对应地,数据清洗流程的分享同样也基于所选择的数据集的所处场景下进行。同理,同样可以选择不同分享模式进行流程分享。
具体的,比如,以通过链接至数据库获取数据形成的数据集这种应用场景下的数据清洗流程分享为例说明。
对上述数据集进行数据清洗的流程进行仅分享时,系统按照所分享的数据清洗流程包的清洗流程逻辑(包括清洗规则、清洗顺序、清洗条件等等)生成一套相同的清洗流程逻辑,以及生成一套对应所分享的数据清洗流程包的条件下的数据集,形成被分享的数据清洗流程包,同时相应生成被分享数据清洗流程的名称、存储路径、生成时间等,然后连同分享者账户信息、被分享者账户信息通过私钥加密,连同公钥一起上传到区块链系统。
相同的清洗流程逻辑,具体是指,与所分享的数据清洗流程中包含设定的数据清洗规则、清洗顺序、清洗条件等逻辑相同。
对应所分享的数据清洗流程包的条件下的数据集,具体是指,例如,所分享的数据清洗流程所选择的数据集是链接至数据库A获取到的数据,那么,在仅分享模式且全部分享的情况下,系统会链接至数据库调取对应的数据,存储于大数据中台,形成被分享的数据集,同时生成被分享数据集的名称、存储路径、生成时间等。
如果是在仅分享模式下选择部分分享,例如,选择分享数据库A中的其中一万条数据,那么,系统会调取对应的一万条数据,存储于大数据中台,形成被分享的数据集,同时生产被分享数据集的名称、存储路径、生成时间等。
也就是说,在仅分享模式下,被分享者接收到的流程包的流程逻辑及数据集数据与分享者分享设定的流程逻辑和数据集数据相同,但流程包对应的相关信息则是新的一套相关信息。分享者的流程包和数据集数据与被分享者的流程包和数据集数据是独立存在的,后续的挖掘流程也是相互独立的,互不影响。
因此,对于另外的应用场景下形成的数据集进行数据清洗流程的分享,在仅分享模式下,同理,依据分享设定的流程包对应数据集来调取对应数据,形成被分享的数据集,连同新生成的相同的清洗流程逻辑,形成被分享的数据清洗流程包。
那么,在协同处理的分享模式下,分享者和被分享者则是基于同一流程包进行数据挖掘流程,分享者和被分享者对流程包的挖掘流程信息在区块链进行分布式存储并通过共识机制更新到区块链系统,双方都可以通过区块链进行下载并获取对方的最新挖掘流程信息以作进一步的操作,从而达到协同处理的目的。
依然以基于通过链接至数据库获取数据形成的数据集进行数据清洗为例,对数据清洗流程包进行协同处理模式下的分享,具体为:
首先,用户节点通过数据集管理模块链接至数据库,选择数据集;通过数据清洗模块设置清洗规则、清洗顺序、清洗条件等,然后按照所设置的清洗流程对所选数据集进行清洗。用户可以在清洗流程中的任一步骤环节进行流程分享。比如,在分享时选择协同处理模式,并选择全部分享。
系统将所分享的数据清洗流程包的相关信息(包括清洗流程逻辑--清洗规则、清洗顺序、清洗条件等,以及对应的数据集的链接信息、数据表信息、数据集名称等)、分享者账户信息、被分享者账户信息通过私钥加密,连同公钥一起上传到流程分享区块。
被分享者节点接收到新的流程分享区块后,下载到本地,通过公钥解密,判断当前分享区块的拥有者是否包括被分享者,如是,则在被分享者节点的流程分享模块展示分享流程信息;如否,则不做处理。流程分享模块对分享流程数据进行统一管理。
被分享者节点可以对流程继续进行数据清洗、特征提取、建模等挖掘流程处理,处理信息通过共识机制共识到区块链节点;被分享者节点将处理信息连同分享流程包相关信息、被分享者账户、分享者账户等信息通过私钥加密,连同公钥一起上传到流程分享区块。
同样,分享者节点接收到新的流程分享区块后,下载到本地,通过公钥解密,判断当前分享区块的拥有者是否包括分享者,如是,则在分享者节点的流程分享模块展示分享流程信息;如否,则不做处理。
分享者节点同样可以继续对流程进行数据清洗、特征提取、建模等挖掘流程处理,处理信息通过共识机制共识到区块链节点;分享者节点将处理信息连同流程包相关信息、分享者账户、被分享者账户等信息通过私钥加密,连同公钥一起上传到流程分享区块。
也就是说,在协同处理的分享模式下,分享者节点和被分享者节点均可对分享对象进行挖掘流程处理,之后将处理信息通过共识机制共识到区块链,让分享者节点和被分享者节点均能获取相关处理信息,进而可以实现在分享的模式下多方协同进行挖掘流程。
而且,值得说明的是,无论是在仅分享模式还是协同处理模式,用户都可以同时分享给多人;具体的,在仅分享模式下,分享者可以同时分享给多个被分享者,以便相关人员都可以进行查阅;在协同处理模式下,分享者同样可以设定多个被分享者,这样可以让多个人员参与协同操作。
用户还可以根据实际应用需求在分享时选择协同处理模式下的部分分享,那么,系统将所分享的数据清洗流程包的相关信息(包括清洗流程逻辑--清洗规则、清洗顺序、清洗条件等,以及分享设定所选择的部分数据(比如其中的一万条数据)对应的链接信息、数据表信息、数据集名称等)、分享者账户信息、被分享者账户信息通过私钥加密,连同公钥一起上传到流程分享区块。
之后,被分享者节点和分享者节点对流程分享区块的挖掘流程处理与协同处理模式下的全部分享的情形相同。区别只在于,在部分分享的情况下,被分享者节点与分享者节点所基于的数据有所不同,被分享者节点只能对分享设定的数据进行挖掘流程。
本实施例提供了多样化的分享方式,可以让用户根据不同的应用场景灵活选择不同的分享方式。比如当前数据集不涉及保密数据,用户可以选择全部分享;若涉及部分保密数据,用户又可以有选择性地进行分享,只需要在分享时进行相应设定即可。
对于选择基于其他应用场景下形成的数据集进行数据清洗的流程分享,同理,分享者将数据集的相关信息和数据清洗流程的相关信息上传到区块链系统进行分享,分享者节点与被分享者节点基于同一套流程逻辑对同一套数据集的全部数据或部分数据进行协同挖掘分析,同时分享者、被分享者节点将挖掘流程信息、流程包相关信息连同分享者账户、被分享者账户信息通过私钥加密连同公钥一起上传到区块链,通过区块链共识机制,分享者、被分享者节点共识获取到更新分享区块,作进一步挖掘分析,之后再上传、共识,再作挖掘分析,进而实现协同挖掘分析。
本发明实施例提供的流程分享方法,无论是分享者节点还是被分享者节点,在对挖掘流程进行处理时,对应的处理信息上传到区块链系统,通过共识机制共识给区块链每个节点,但是只有拥有权限的节点才能读取到对应信息,因此可以确保所有相关信息和数据的安全保密性。在保障数据安全性的同时实现对流程技术信息的有效分享,可以实行对同一流程的协同挖掘,提高数据挖掘效率。
三、数据特征提取流程及分享
基于上述的数据清洗流程,如当前清洗流程未保存为流程包,则当前特征提取流程直接引用清洗流程生成的ID;如当前清洗流程已保存为流程包,则系统自动为当前特征提取流程生成新的流程ID。
用户可以通过数据建模管理系统的特征提取工具进行特征提取。
当前流程ID、特征提取工具、提取规则、对应的数据集区块序列、用户账户、特征提取创建的日志信息和时间等信息通过私钥加密,连同公钥一起上传到特征提取区块。
同上,对于同一特征提取流程,系统通过统一特征提取流程ID进行关联管理。用户可以将这一整个特征提取流程作为流程包进行存储,可存储复用于多个不同的流程,也可以直接分享或者延续当前流程继续进行数据建模。
四、数据建模流程及分享
基于上述的数据特征提取流程,如当前特征提取流程未保存为流程包,则当前建模流程直接引用特征提取流程生成的ID,如当前特征提取流程已保存为流程包,则系统自动为当前建模流程生成新的流程ID。
用户可以通过数据建模管理系统的建模工具进行数据建模。
当前流程ID、建模工具、模型配置规则、对应的数据集区块序列、用户账户、模型创建的日志信息和时间等信息通过私钥加密,连同公钥一起上传到数据建模区块。
用户可以对整个数据挖掘流程进行分享。
关于数据特征提取流程、数据建模流程的分享,因为数据清洗是基于对应数据集、特征提取流程基于清洗流程(数据特征提取流程包括清洗流程)、建模流程又基于特征提取流程(数据建模流程包括清洗流程和数据特征提取流程),因此,对于数据特征提取流程、建模流程的分享,同样也是基于不同的数据集形成场景的对应条件下进行相应流程的分享。
对应的,对于数据特征提取、数据建模流程,用户同样可以基于不同的场景需求,选择仅分享或协同处理流程的协作模式进行分享。数据特征提取、数据建模流程分享的具体步骤类似于数据清洗流程的分享步骤,在此不再赘述。
综上,用户节点在对数据集进行清洗、特征提取、建模等挖掘流程时,其处理日志、流程、相应规则等相关信息均存储于区块链系统中,当进行分享时,将相关信息加密上传到流程分享区块。只有指定的被分享者才能解密对应分享区块,进而获取到相应数据。其他无权限的用户无法获取到数据。进而,可以保障整个数据挖掘过程的数据及技术信息的安全保密。
同时,还可以根据具体应用需求进行灵活地分享。用户在数据清洗、特征提取、建模过程中的任何一个环节均可进行分享。比如,用户在创建形成数据集后,即可进行分享;又如,在数据清洗流程环节中的任一步骤均可进行分享。具体的,例如,数据清洗流程包括有10个步骤,数据特征提取流程包括有8个步骤,数据建模流程包括有5个步骤,那么,用户在这任一步骤中,均可以进行分享,且可以选择不同的分享模式进行分享。
具体到实际场景,数据清洗流程进行到某一步骤,比如,用户选定数据集,设定好清洗规则、清洗条件等清洗逻辑,对数据清洗到第3个步骤时,由于各种原因,比如需要其它人员协同处理,或者到该步骤卡住了,无法进行下去等等,用户可以对流程进行分享,请求协助等。
也就是说,分享者可以选择在任一流程步骤、任何时间节点进行分享,以实现不同的需求目的,比如纯技术分享,又如及时分享流程,让团队人员加入协同挖掘流程,以提高数据分析挖掘效率等。
相关人员在对数据进行分析挖掘的过程中或者分析挖掘完成后,都可以对其中的数据集、数据清洗流程、数据特征提取流程、数据建模流程进行单个对象或多个对象的分享,比如只对数据集进行分享,或者对清洗流程进行分享,或者对特征提取流程和建模流程进行分享;也可以根据不同的应用场景或需求对上述对象进行全部分享或有限制地分享,还可以进行不同处理权限的分享。总之,分享模式多样化,可灵活运用于不同的应用场景,以最终实现用户之间、数据研究工作者之间,基于某一数据研究主题的数据建模流程的分享,以及数据相关技术之间的分享交流,也便于工作之间的协同互助,进而有效地提高数据建模效率。
而且,在基于人工智能的数据建模管理系统的所有数据清洗、特征提取、建模等挖掘过程信息都存储于区块链系统。对于仅分享的数据集数据或其挖掘流程数据,区块链用于存储相关信息,比如存储用于调取数据集的不同渠道信息、挖掘流程相关逻辑信息等;具体的数据集数据或其挖掘流程数据则存储于大数据中台。
如此设置的效果,可以提高保密数据的安全性;分享数据存储于大数据中台,确保分享者与被分享者的数据集数据分开存储,互不影响,保障数据集数据的安全,还可以提高数据调阅的实效性。
同时,以区块链存储数据集调用信息、以及数据清洗、特征提取、建模流程处理的技术信息,通过区块链的分布式存储,确保了数据研究者处理技术的安全。并且,通过区块链的共识机制和分布式存储,使得数据处理流程的技术信息在分享者和被分享者之间进行安全的分享和协同处理。
另外需要说明的是,本领域普通技术人员可以理解:实现上述方法实施的全部或部分步骤可以通过程序指令相关的硬件来完成,前述程序指令可以存储于一计算机可读取存储介质或存储设备中,该程序指令在执行时,执行上述议价管理方法的步骤;而前述存储介质或存储设备包括但不限于:ROM、RAM、磁盘或者光盘等各种可以存储程序代码的介质。
因此相应地,本发明实施例还提供了一种计算机可读存储设备,存储有计算机程序,所述计算机程序被处理器执行以实现上述基于区块链技术的数据建模流程分享方法。
进一步地,本发明还配套提供了一种相应的移动终端、系统来实现上述数据建模流程分享方法,具体为:
一种移动终端,包括:
处理器,适于执行程序指令;
存储设备,适于存储程序指令,所述程序指令适于由处理器加载并执行以实现上述数据建模流程分享方法。
一种基于区块链技术的数据建模流程分享系统,包括服务器;服务器包括处理器和存储设备;
处理器,适于执行程序指令;
存储设备,适于存储程序指令,所述程序指令适于由处理器加载并执行以实现上述数据建模流程分享方法。
以上内容仅为本发明的较佳实施例,对于本领域的普通技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,本说明书内容不应理解为对本发明的限制。