CN112035561A - 数据处理方法、装置、存储介质及计算机设备 - Google Patents
数据处理方法、装置、存储介质及计算机设备 Download PDFInfo
- Publication number
- CN112035561A CN112035561A CN202010712479.7A CN202010712479A CN112035561A CN 112035561 A CN112035561 A CN 112035561A CN 202010712479 A CN202010712479 A CN 202010712479A CN 112035561 A CN112035561 A CN 112035561A
- Authority
- CN
- China
- Prior art keywords
- data
- data item
- item
- items
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/64—Protecting data integrity, e.g. using checksums, certificates or signatures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Data Mining & Analysis (AREA)
- Computer Hardware Design (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioethics (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种数据处理方法、系统、存储介质及计算机设备,涉及计算机技术领域。其中方法包括:从数据源中获取多个数据项,并获取每个数据项的数据项名称、至少一个数据项值以及数据项值的附加信息;对多个数据项的数据项名称、数据项值以及数据项值的附加信息进行数据处理,得到多个与数据项对应的结构型数据;将多个与数据项对应的结构型数据保存在数据库中和/或输入到数据计算处理模型中。上述方法可以使数据源的各项信息得到完整的保存,也使得数据源的各项信息能够贯穿整个数据处理流程,方便日后的数据追溯以及数据可信度评价,确保了数据处理流程中各数据的可靠性。
Description
技术领域
本发明涉及计算机技术领域,尤其是涉及一种数据处理方法、装置、存储介质及计算机设备。
背景技术
随着互联网技术的蓬勃发展,大数据正在成为众多研究议题中的重要工具,网络化的时代打破了传统的数据获取渠道单一和数据结构单一的现状,取而代之的是,数据来源和数据结构的多样性和不确定性成为了大数据的一个重要特征。
在现有技术中,对于数据的存储、计算和交付过程,往往只有一个单一的确切数值,这样的数据存储、计算和交付方法对于传统的确定性计算来说,无疑是最简洁高效的方式,但是在大数据时代,很多数据是通过模型预测得到的,其准确性很难完全保证,然而,这些数据却很可能被另一个模型作为基础数据,这些不同来源和不同数据结构的数据经过多层处理之后,最终输出的数据就可能是一个置信度非常低的值,另外,由于数据的来源和结构不同,数据的相关信息就很难得到追溯,多种因素导致了最后的计算结果或者得出的研究结论不准确或者是可信度较低。
发明内容
有鉴于此,本申请提供了一种数据处理方法、系统、存储介质及计算机设备,主要目的在于解决数据的相关信息很难得到追溯以及数据处理结果不准确以及可信度低的技术问题。
根据本发明的第一个方面,提供了一种数据处理方法,所述方法包括:
从数据源中获取多个数据项,并获取每个数据项的数据项名称、至少一个数据项值以及数据项值的附加信息;
对多个数据项的数据项名称、数据项值以及数据项值的附加信息进行数据处理,得到多个与数据项对应的结构型数据;
将多个与数据项对应的结构型数据保存在数据库中和/或输入到数据计算处理模型中。
在一个实施例中,结构型数据包括线性结构数据和/或树形结构数据。
在一个实施例中,对多个数据项的数据项名称、数据项值以及数据项值的附加信息进行数据处理,得到多个与数据项对应的结构型数据,包括:当数据项的数据项值的数量为1时,对数据项的数据项名称、数据项值以及数据项值的附加信息进行数据处理,得到与数据源对应的线性结构数据;当数据项的数据项值的数量大于1时,对数据项的数据项名称、数据项值以及数据项值的附加信息进行数据处理,得到与数据源对应的线性结构数据和/或树形结构数据。
在一个实施例中,将与数据项对应的结构型数据输入到数据计算处理模型中,包括:将与数据项对应的结构型数据输入到数据计算处理模型中,并输出计算处理后的结构型数据,其中,计算处理后的结构型数据包括一个数据项名称、至少一个数据项值以及数据项值的附加信息。
在一个实施例中,将多个与数据项对应的结构型数据保存在数据库中和/或输入到数据计算处理模型中之后,方法还包括:将保存在数据库中的结构型数据输出到数据交付层中;和/或将从数据计算处理模型中输出的结构型数据输出到数据交付层中。
在一个实施例中,数据计算处理模型包括中机器学习模型和/或深度学习模型,且数据计算处理模型的层数为至少一层。
在一个实施例中,数据项值的附加信息包括数据项值的计算口径、商务对外口径、数据来源、置信度值和准确性值中的一个或多个。
根据本发明的第二个方面,提供了一种数据处理装置,该装置包括:
数据获取模块,从数据源中获取多个数据项,并获取每个数据项的数据项名称、至少一个数据项值以及数据项值的附加信息;
数据处理模块,用于对多个数据项的数据项名称、数据项值以及数据项值的附加信息进行数据处理,得到多个与数据项对应的结构型数据;
数据输出模块,用于将多个与数据项对应的结构型数据保存在数据库中和/或输入到数据计算处理模型中。
根据本发明的第三个方面,提供了一种存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述数据处理方法。
根据本发明的第四个方面,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述数据处理方法。
本发明提供的一种数据处理方法、装置、存储介质及计算机设备,首先从数据源中获取多个数据项,并获取每个数据项的数据项名称、至少一个数据项值以及数据项值的附加信息,然后对多个数据项的数据项名称、数据项值以及数据项值的附加信息进行数据处理,得到多个与数据项对应的结构型数据,最后将多个与数据项对应的结构型数据保存在数据库中和/或输入到数据计算处理模型中。上述方法通过将数据源和与数据源对应的数据项名称、数据项值和数据项值的附加信息进行绑定得到结构型数据,并将结构型数据保存在数据库中或输入到数据计算处理模型中,可以使数据源的各项信息得到完整的保存,也使得数据源的各项信息能够贯穿整个数据处理流程,方便日后的数据追溯以及数据可信度评价,确保了数据处理流程中各数据的可靠性和准确性。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了本发明实施例提供的一种数据处理方法的流程示意图;
图2示出了本发明实施例提供的另一种数据处理方法的流程示意图;
图3示出了本发明实施例提供的一种数据处理方法的场景示意图;
图4示出了本发明实施例提供的一种数据处理方法的场景示意图;
图5示出了本发明实施例提供的另一种数据处理装置的结构示意图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
如背景技术所述,目前很多大数据都是通过模型预测产生的,其置信度或者说数据的准确性一般都不是100%的,现在主流的做法是直接简单的取准确性最高的一个值作为最终结果。在传统数据的认知里,当给出一个单一的值时,通常会默认为它的准确率是100%,特别是在数据名称上没有任何特殊说明的情况下。这在数据处理和生产交付时都将导致很多误解和问题。
针对上述问题,在一个实施例中,如图1所示,提供了一种数据处理方法,该方法可以应用于服务器或客户端等计算机设备中,以该方法应用于服务器为例进行说明,包括以下步骤:
101、从数据源中获取多个数据项,并获取每个数据项的数据项名称、至少一个数据项值以及数据项值的附加信息。
其中,数据源指的是数据的来源,即提供数据的器件或原始媒体;数据项指的是数据记录中最基本的、不可分的有名数据单位,是数据具有独立含义的最小标识单位。
具体的,服务器可以从多种数据源中获取到多个数据项,这些获取到的数据项的格式和来源均可以各有不同,每一个数据项均有一个数据项名称以及一个或多个数据项值,并且每个数据项值还对应有数据项的编号、名称、简述、长度、类型以及取值范围等信息。举例来说,如果一个数据项的数据项名称为“性别”,那么这个数据项的数据项值就可以为“男”和“女”,当然,这个数据项的数据项值也可以只为“男”;如果一个数据项的数据项名称为“消费偏好”,那么这个数据项的数据项值就可以为“电子产品”“书籍”和“化妆品”,也可以为“玩具”和“衣服”。
进一步的,对于每一个数据项,服务器还会获取数据项的每一个数据项值的附加信息,这些附加信息可以是自动生成的,如数据项的来源,也可以是批量添加的,如数据项的计算口径和商务对外口径,还可以是数据项自身携带的,如数据项的置信度、准确性等信息。
102、对多个数据项的数据项名称、数据项值以及数据项值的附加信息进行数据处理,得到多个与数据项对应的结构型数据。
其中,结构型数据指的是具有一定数据结构的数据,而数据结构指的是相互之间存在一种或多种特定关系的数据元素的集合。
具体的,服务器可以对每一个数据项的数据项名称、数据项值以及数据项值的附加信息进行结构化的数据处理,得到与每一个数据项对应的结构型数据。在本实施例中,与数据项对应的结构型数据可以为线性结构的数据和树形结构的数据等。
103、将多个与数据项对应的结构型数据保存在数据库中和/或输入到数据计算处理模型中。
其中,数据库是以一定方式储存在一起、能与多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合,可以用于存储数据;数据计算处理模型是数据特征的抽象,是用于提供信息表示和操作手段的形式构架,在本实施例中,数据计算模型具体可以是一种计算方法或计算公式,也可以是抽象的机器学习模型或深度学习模型等,另外,数据计算模型也可以是多个数据计算处理层叠加在一起的复合型数据模型。
具体的,服务器可以将处理后的与数据项对应的结构型数据保存在数据库中和/或输入到数据计算处理模型中,在本实施例中,结构型数据存储在数据库中,可以提高数据库的的运行速度和存储效率,同时,由于本实施例提供结构型数据是由一个数据项,以及一个数据项的一个或多个数据项值和数据项值的附加信息组成的,可以有效的提高各个数据项的追溯力,提高数据项的可信度。
本实施例提供的数据处理方法,首先从数据源中获取多个数据项,并获取每个数据项的数据项名称、至少一个数据项值以及数据项值的附加信息,然后对多个数据项的数据项名称、数据项值以及数据项值的附加信息进行数据处理,得到多个与数据项对应的结构型数据,最后将多个与数据项对应的结构型数据保存在数据库中和/或输入到数据计算处理模型中。上述方法通过将数据源和与数据源对应的数据项名称、数据项值和数据项值的附加信息进行绑定得到结构型数据,并将结构型数据保存在数据库中或输入到数据计算处理模型中,可以使数据源的各项信息得到完整的保存,也使得数据源的各项信息能够贯穿整个数据处理流程,方便日后的数据追溯以及数据可信度评价,确保了数据处理流程中各数据的可靠性。
进一步的,作为上述实施例具体实施方式的细化和扩展,为了完整说明本实施例的实施过程,还提供了一种数据处理方法,以该方法应用于服务器为例,如图2所示,该方法包括以下步骤:
201、从数据源中获取多个数据项,并获取每个数据项的数据项名称、至少一个数据项值以及数据项值的附加信息。
具体的,服务器可以从多种数据源中获取到多个数据项,这些获取到的数据项的格式和来源均可以各有不同,每一个数据项均有一个数据项名称以及一个或多个数据项值,并且每个数据项值还对应有数据项的编号、名称、简述、长度、类型以及取值范围等信息。举例来说,如果一个数据项的数据项名称为“性别”,那么这个数据项的数据项值就可以为“男”和“女”,当然,这个数据项的数据项值也可以只为“男”;如果一个数据项的数据项名称为“消费偏好”,那么这个数据项的数据项值就可以为“电子产品”“书籍”和“化妆品”,也可以为“玩具”和“衣服”。
进一步的,对于每一个数据项,服务器还会获取数据项的附加信息,这些附加信息可以是自动生成的,如数据项的来源,也可以是批量添加的,如数据项的计算口径和商务对外口径,还可以是数据项自身携带的,如数据项的置信度、准确性等信息。
在本实施例中,数据项值的附加信息具体可以是数据项值的计算口径、商务对外口径、数据来源、置信度值和准确性值中的一个或多个。其中,计算口径指的是数据项的计算方法和计量单位;商务对外口径指的是数据项对应的部门或机构;数据来源指的是数据项对应的数据源,置信度指的是数据项的真实值落在测量结果周围的概率;准确性值指的是数据项的正确程度值。
202、当数据项的数据项值的数量为1时,对数据项的数据项名称、数据项值以及数据项值的附加信息进行数据处理,得到与数据源对应的线性结构数据。
203、当数据项的数据项值的数量大于1时,对数据项的数据项名称、数据项值以及数据项值的附加信息进行数据处理,得到与数据源对应的线性结构数据和/或树形结构数据。
具体的,数据项的数据项值可以为一个或多个,当数据项的数据项值的数量为1时,对数据项的数据项名称、数据项值以及数据项值的附加信息进行数据处理,可以得到与数据源对应的线性结构数据;当数据项的数据项值的数量大于1时,对数据项的数据项名称、数据项值以及数据项值的附加信息进行数据处理,可以得到与数据源对应的线性结构数据和/或树形结构数据。换一种方式来说,每一个数据项的数据项值可以记录在同一条数据中也可以记录在在多条数据中,且每个数据项记录的一种或多种数据值及其各数据值的附加信息包括但不仅限于该数据值的计算口径、商务对外口径、计算数据来源、置信度、准确性,附加信息项大于等于0项。
在本实施例中,当数据项的数据项值的数量大于1时,服务器在进行数据处理的过程中可以将数据项的所有数据项值聚合在一起,形成一个树形结构的数据,以便于数据的追溯;也可以分别对数据项的每一个数据项值进行单独的处理,得到多个线性结构的数据,从而便于数据的计算;还可以将数据项处理成既有线性结构又有树型结构的数据。因此,对于数据项的处理结果可以根据实际场景而定,本实施例不做具体限定。
204、将多个与数据项对应的结构型数据保存在数据库中。
205、将与数据项对应的结构型数据输入到数据计算处理模型中,并输出计算处理后的结构型数据。
具体的,参见图3,服务器可以将处理后的与数据项对应的结构型数据保存在数据库中,也可以输入到数据计算处理模型中,可以理解的是,结构型数据也可以是先保存在数据库中,再从数据库中取出输入到数据计算处理模型中的。
在本实施例中,数据计算模型可以是一种计算方法或计算公式,也可以是抽象的机器学习模型或深度学习模型等,另外,数据计算模型也可以是多个数据计算处理层叠加在一起的复合型数据模型。进一步的,在将结构型数据输入到数据计算处理模型中之后,每个数据项在计算时也需要依赖其计算数据来源的数据项的各个数据值及其附加信息计算得到数据结果,其中,计算来源的每个数据项的数据值在计算时可以取大于等于1个,每个数据值的附加信息可以取大于等于0项,输出的数据结果也为结构型数据,且该数据也包括一个数据项名称、至少一个数据项值以及数据项值的附加信息,此外,每个数据计算结果取一个或多个数据值及其附加信息,其中,数据计算结果的每个数据项值的附加信息可以取大于等于0项。通过这种方式,在整个数据计算处理的过程中,可以随时追溯各个数据项的数据来源和置信度等信息。
206、将保存在数据库中的结构型数据输出到数据交付层中。
207、将从数据计算处理模型中输出的结构型数据输出到数据交付层中。
具体的,参见图3,服务器还可以将保存在数据库中的结构型数据输出到数据交付层中,以及将从数据计算处理模型中输出的结构型数据输出到数据交付层中,其中,每个数据项在生产交付时都交付一个或多个数据值及其附加信息,且每个数据项的每个数据值的附加信息可以取大于等于0项,通过这种方式,可以使结构型数据的记录方法贯穿整个数据处理链路,方便用户从整个数据处理链路上追踪每个数据项的数据来源和置信度等信息。
在上述实施例中,从数据源开始,每个数据项都记录有一个或多个数据值及其附加信息,附加信息如计算口径、商务对外口径、计算数据来源、置信度、准确性等,其中,附带信息项大于等于0项。通常情况下,数据源的每个数据项的数据值为1个,数据准确性为100%,但本实施例不局限于通常情况,在数据处理的整个流程中以及数据交付时,各个数据项都保持以上记录方式,在数据计算时,针对数据来源的一个或多个数据值及其附加信息,可以用于生成数据结果项的数据值及其附加信息。
在一个示例中,如图4所示,多个数据项在计算的过程中可以参考数据项的每一个数据项值以及数据项值的附加信息,如置信度值和数据来源等信息。在图4中,一个数据项的数据项名称为“性别”,且该数据项的数据项值分别为“男”和“女”,两个数据项值的置信度值为“70%”和“30%”,另一个数据项的数据项名称为“消费偏好”,且该数据项的数据项值分别为“电子产品”,“书籍”和“化妆品”,三个数据项值的置信度值分别为“30%”、“30%”和“40%”,两个数据项的计算结果为年龄范围,即年龄范围是计算结果的数据项名称,而这个计算结果是根据上面两个数据项的数据项值及其置信度值分别计算出来的,由图4可知,计算出的该数据项的数据项值为“20-30岁”,而这一数据项值的数据来源包括两个方面,一个方面是数据项值“男性”和数据项值“电子产品”的计算结果,其置信度为60%,另一个方面是数据项值“女性”和数据项值“化妆品”的计算结果,其置信度为25%,由此可见,年龄范围为“20-30岁”的这一数值是分别通过不同的数据项值计算获得的,虽然最后的计算结果是相同的,但是计算所用的数据项值是不同的,即数据来源是不同的,且计算所用的数据项值的置信度也是不同的,所以计算结果的数据项值的置信度也是不同的,这样的计算方式增强了数据的可解释性,提高数据计算结果的置信度和数据的可追溯性。
本实施例提供的数据处理方法,能从整个数据处理链路上追踪每个数据项的计算来源和置信度等信息,从数据存储、计算和交付,每一个数据处理环节都能够便捷的追踪到数据的各项信息,确保了数据处理流程中各数据的可靠性,也确保了计算结果和交付结果的准确性。
进一步的,作为图1~图4所示方法的具体实现,本实施例提供了一种数据处理装置,如图5所示,该装置包括:数据获取模块31、数据处理模块32、和数据输出模块33。
数据获取模块31,可用于从数据源中获取多个数据项,并获取每个所述数据项的数据项名称、至少一个数据项值以及数据项值的附加信息;
数据处理模块32,可用于对所述多个数据项的数据项名称、数据项值以及数据项值的附加信息进行数据处理,得到多个与所述数据项对应的结构型数据;
数据输出模块33,可用于将所述多个与数据项对应的结构型数据保存在数据库中和/或输入到数据计算处理模型中。
在具体的应用场景中,结构型数据包括线性结构数据和/或树形结构数据。
在具体的应用场景中,所述数据处理模块32,具体可用于当数据项的数据项值的数量为1时,对数据项的数据项名称、数据项值以及数据项值的附加信息进行数据处理,得到与数据源对应的线性结构数据;当数据项的数据项值的数量大于1时,对数据项的数据项名称、数据项值以及数据项值的附加信息进行数据处理,得到与数据源对应的线性结构数据和/或树形结构数据。
在具体的应用场景中,数据输出模块33,具体可用于将与数据项对应的结构型数据输入到数据计算处理模型中,并输出计算处理后的结构型数据,其中,计算处理后的结构型数据包括一个数据项名称、至少一个数据项值以及数据项值的附加信息。
在具体的应用场景中,数据输出模块33,具体还可用于将保存在数据库中的结构型数据输出到数据交付层中;和/或将从数据计算处理模型中输出的结构型数据输出到数据交付层中。
在具体的应用场景中,数据计算处理模型包括中机器学习模型和/或深度学习模型,且数据计算处理模型的层数为至少一层。
在具体的应用场景中,数据项值的附加信息包括数据项值的计算口径、商务对外口径、数据来源、置信度值和准确性值中的一个或多个。
需要说明的是,本实施例提供的一种数据处理装置所涉及各功能单元的其它相应描述,可以参考图1~图4中的对应描述,在此不再赘述。
基于上述如图1~图4所示方法,相应的,本实施例还提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述如图1~图4所示的数据处理方法。
基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该待识别软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景所述的方法。
基于上述如图1~图4所示的方法,以及图5所示的数据处理装置实施例,为了实现上述目的,本实施例还提供了一种数据处理的实体设备,具体可以为个人计算机、服务器、智能手机、平板电脑、智能手表、或者其它网络设备等,该实体设备包括存储介质和处理器;存储介质,用于存储计算机程序;处理器,用于执行计算机程序以实现上述如图1~图4所示的方法。
可选的,该实体设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency,RF)电路,传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等,可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)等。
本领域技术人员可以理解,本实施例提供的一种数据处理的实体设备结构并不构成对该实体设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。
存储介质中还可以包括操作系统、网络通信模块。操作系统是管理上述实体设备硬件和待识别软件资源的程序,支持信息处理程序以及其它待识别软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信,以及与信息处理实体设备中其它硬件和软件之间通信。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现,也可以通过硬件实现。通过应用本申请的技术方案,首先从数据源中获取多个数据项,并获取每个数据项的数据项名称、至少一个数据项值以及数据项值的附加信息,然后对多个数据项的数据项名称、数据项值以及数据项值的附加信息进行数据处理,得到多个与数据项对应的结构型数据,最后将多个与数据项对应的结构型数据保存在数据库中和/或输入到数据计算处理模型中。与现有技术相比,可以使数据源的各项信息得到完整的保存,也使得数据源的各项信息能够贯穿整个数据处理流程中,方便日后的数据追溯以及数据可信度评价,确保了数据处理流程中各数据的可靠性。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。
Claims (10)
1.一种数据处理方法,其特征在于,所述方法包括:
从数据源中获取多个数据项,并获取每个所述数据项的数据项名称、至少一个数据项值以及数据项值的附加信息;
对所述多个数据项的数据项名称、数据项值以及数据项值的附加信息进行数据处理,得到多个与所述数据项对应的结构型数据;
将所述多个与数据项对应的结构型数据保存在数据库中和/或输入到数据计算处理模型中。
2.根据权利要求1所述的方法,其特征在于,所述结构型数据包括线性结构数据和/或树形结构数据。
3.根据权利要求2所述的方法,其特征在于,所述对多个数据项的数据项名称、数据项值以及数据项值的附加信息进行数据处理,得到多个与所述数据项对应的结构型数据,包括:
当所述数据项的数据项值的数量为1时,对所述数据项的数据项名称、数据项值以及数据项值的附加信息进行数据处理,得到与所述数据源对应的线性结构数据;
当所述数据项的数据项值的数量大于1时,对所述数据项的数据项名称、数据项值以及数据项值的附加信息进行数据处理,得到与所述数据源对应的线性结构数据和/或树形结构数据。
4.根据权利要求1所述的方法,其特征在于,所述将与数据项对应的结构型数据输入到数据计算处理模型中,包括:
将所述与数据项对应的结构型数据输入到数据计算处理模型中,并输出计算处理后的结构型数据,其中,所述计算处理后的结构型数据包括一个数据项名称、至少一个数据项值以及数据项值的附加信息。
5.根据权利要求4所述的方法,其特征在于,所述将多个与数据项对应的结构型数据保存在数据库中和/或输入到数据计算处理模型中之后,所述方法还包括:
将所述保存在数据库中的结构型数据输出到数据交付层中;和/或
将所述从数据计算处理模型中输出的结构型数据输出到数据交付层中。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述数据计算处理模型包括中机器学习模型和/或深度学习模型,且所述数据计算处理模型的层数为至少一层。
7.根据权利要求1-5任一项所述的方法,其特征在于,所述数据项值的附加信息包括数据项值的计算口径、商务对外口径、数据来源、置信度值和准确性值中的一个或多个。
8.一种数据处理装置,其特征在于,所述装置包括:
数据获取模块,从数据源中获取多个数据项,并获取每个所述数据项的数据项名称、至少一个数据项值以及数据项值的附加信息;
数据处理模块,用于对所述多个数据项的数据项名称、数据项值以及数据项值的附加信息进行数据处理,得到多个与所述数据项对应的结构型数据;
数据输出模块,用于将所述多个与数据项对应的结构型数据保存在数据库中和/或输入到数据计算处理模型中。
9.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010712479.7A CN112035561A (zh) | 2020-07-22 | 2020-07-22 | 数据处理方法、装置、存储介质及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010712479.7A CN112035561A (zh) | 2020-07-22 | 2020-07-22 | 数据处理方法、装置、存储介质及计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112035561A true CN112035561A (zh) | 2020-12-04 |
Family
ID=73582474
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010712479.7A Pending CN112035561A (zh) | 2020-07-22 | 2020-07-22 | 数据处理方法、装置、存储介质及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112035561A (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130080197A1 (en) * | 2011-09-22 | 2013-03-28 | David Kung | Evaluating a trust value of a data report from a data processing tool |
CN105528399A (zh) * | 2015-12-01 | 2016-04-27 | 中国联合网络通信集团有限公司 | 多源终端参数数据融合方法及装置 |
CN105989080A (zh) * | 2015-02-11 | 2016-10-05 | 富士通株式会社 | 确定实体属性值的装置和方法 |
CA2997888A1 (en) * | 2017-03-09 | 2018-09-09 | Tata Consultancy Services Limited | Method and system for mapping attributes of entities |
US20180349514A1 (en) * | 2017-06-05 | 2018-12-06 | International Business Machines Corporation | Domain-oriented predictive model feature recommendation system |
CN109033116A (zh) * | 2018-03-20 | 2018-12-18 | 广州中国科学院软件应用技术研究所 | 一种基于数据血统的信息数据回流系统及方法 |
CN110222148A (zh) * | 2019-05-17 | 2019-09-10 | 北京邮电大学 | 适用于语法分析的置信度评估方法及装置 |
US20200057708A1 (en) * | 2018-08-20 | 2020-02-20 | International Business Machines Corporation | Tracking Missing Data Using Provenance Traces and Data Simulation |
CN111046087A (zh) * | 2019-12-20 | 2020-04-21 | 北京锐安科技有限公司 | 一种数据处理方法、装置、设备及存储介质 |
-
2020
- 2020-07-22 CN CN202010712479.7A patent/CN112035561A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130080197A1 (en) * | 2011-09-22 | 2013-03-28 | David Kung | Evaluating a trust value of a data report from a data processing tool |
CN105989080A (zh) * | 2015-02-11 | 2016-10-05 | 富士通株式会社 | 确定实体属性值的装置和方法 |
CN105528399A (zh) * | 2015-12-01 | 2016-04-27 | 中国联合网络通信集团有限公司 | 多源终端参数数据融合方法及装置 |
CA2997888A1 (en) * | 2017-03-09 | 2018-09-09 | Tata Consultancy Services Limited | Method and system for mapping attributes of entities |
US20180349514A1 (en) * | 2017-06-05 | 2018-12-06 | International Business Machines Corporation | Domain-oriented predictive model feature recommendation system |
CN109033116A (zh) * | 2018-03-20 | 2018-12-18 | 广州中国科学院软件应用技术研究所 | 一种基于数据血统的信息数据回流系统及方法 |
US20200057708A1 (en) * | 2018-08-20 | 2020-02-20 | International Business Machines Corporation | Tracking Missing Data Using Provenance Traces and Data Simulation |
CN110222148A (zh) * | 2019-05-17 | 2019-09-10 | 北京邮电大学 | 适用于语法分析的置信度评估方法及装置 |
CN111046087A (zh) * | 2019-12-20 | 2020-04-21 | 北京锐安科技有限公司 | 一种数据处理方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10872692B2 (en) | Data driven analysis, modeling, and semi-supervised machine learning for qualitative and quantitative determinations | |
US20200019881A1 (en) | Feature processing method and feature processing system for machine learning | |
WO2022166635A1 (zh) | 历史行为数据的处理方法、装置、计算机设备及存储介质 | |
EP4073978B1 (en) | Intelligent conversion of internet domain names to vector embeddings | |
CN117522519A (zh) | 产品推荐方法、装置、设备、存储介质和程序产品 | |
CN114862140A (zh) | 基于行为分析的潜力评估方法、装置、设备及存储介质 | |
CN107291923B (zh) | 信息处理方法和装置 | |
US9754208B2 (en) | Automatic rule coaching | |
CN110489563B (zh) | 图结构的表示方法、装置、设备及计算机可读存储介质 | |
CN113570464B (zh) | 一种数字货币交易社区识别方法、系统、设备及存储介质 | |
US20150170068A1 (en) | Determining analysis recommendations based on data analysis context | |
CN112035561A (zh) | 数据处理方法、装置、存储介质及计算机设备 | |
US11640414B2 (en) | Generating workflow, report, interface, conversion, enhancement, and forms (WRICEF) objects for enterprise software | |
CN109857838B (zh) | 用于生成信息的方法和装置 | |
CN113987239A (zh) | 图像推送方法、装置、计算机设备、存储介质及产品 | |
CN112036418A (zh) | 用于提取用户特征的方法和装置 | |
CN112035581A (zh) | 基于模型的任务处理方法、装置、设备和介质 | |
CN116364223B (zh) | 特征处理方法、装置、计算机设备及存储介质 | |
CN113806372B (zh) | 新数据信息构建方法、装置、计算机设备及存储介质 | |
CN108509895B (zh) | 用于检测人脸图像的方法和装置 | |
CN115578238A (zh) | 服务器检测方法、装置、计算机设备和可读存储介质 | |
CN117520656A (zh) | 群体用户画像方法、装置以及存储介质 | |
CN118114049A (zh) | 一种大型语言模型的训练数据集筛选方法、装置、电子设备、存储介质 | |
CN116029026A (zh) | 模型文件处理方法、装置、设备、存储介质和程序产品 | |
CN117390490A (zh) | 用电信用报告的生成方法、装置、设备、存储介质和产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |