CN114840519A - 一种数据打标签的方法、设备及存储介质 - Google Patents
一种数据打标签的方法、设备及存储介质 Download PDFInfo
- Publication number
- CN114840519A CN114840519A CN202210311708.3A CN202210311708A CN114840519A CN 114840519 A CN114840519 A CN 114840519A CN 202210311708 A CN202210311708 A CN 202210311708A CN 114840519 A CN114840519 A CN 114840519A
- Authority
- CN
- China
- Prior art keywords
- data
- label
- target
- tag
- target data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请属于计算机处理技术领域,提出了一种数据打标签的方法、设备及存储介质。该方法包括获取目标数据;解析目标数据,确定目标数据的目标标签,目标标签用于表示目标数据与数据分析业务之间的关联关系,和/或,不同目标数据之间的关联关系;给目标数据添加目标标签。本申请对目标对象所关联的目标数据打标,生成目标标签,以使业务设备可以通过读取所需要的目标标签内容进而进行业务分析,执行相应业务,解决了电子设备基于现有的底层数据进行业务分析时,分析过程复杂、处理效率低的问题。
Description
技术领域
本申请属于数据处理技术领域,尤其涉及一种数据打标签的方法、设备及存储介质。
背景技术
在工作、生产、管理等各个领域,存在着大量的底层数据,例如,贴源数据、业务数据、日志数据、上报数据以及三方日志数据等。电子设备基于这些底层数据,可以进行对应的业务分析。
电子设备在获取到不同的底层数据之后,通过业务运营端进行业务分析。但是,这些底层数据不仅数据量大,而且数据本身并不能直接的反映其所能实现或者对应的业务功能。同时,由于数据来源以及技术、管理、制度等原因,不同底层数据之间缺乏关联性,无法打通。因此,在分析过程中,业务运营端需要将业务分析所涉及的每一项数据进行分析,才能得到不同底层数据之间的关联关系,以及业务运营端与底层数据之间的关联关系,进而对底层数据进行业务分析。由此可见,电子设备基于现有的底层数据进行业务分析时,分析过程复杂、处理效率低。
发明内容
有鉴于此,本申请实施例提供了一种数据打标签的方法、设备及存储介质,用于解决现有技术中电子设备在使用数据进行业务分析时,业务分析过程复杂、业务处理效率低的问题。
本申请实施例的第一方面提供了数据打标签的方法,该方法包括:获取目标数据;解析该目标数据,确定该目标数据的目标标签,该目标标签用于表示该目标数据与数据分析业务之间的关联关系,和/或,不同目标数据之间的关联关系;给目标数据添加目标标签。
结合第一方面,在第一方面的第一种可能实现方式中,解析目标数据,确定该目标数据的目标标签,包括:结合预设的标签内容解析该目标数据,生成该目标数据可执行的标签代码,其中,该标签代码包括目标数据的标签源代码、标签运算代码以及标签含义代码;根据该标签代码,生成目标对象的标签值;根据该标签值、超级主键值以及该标签代码,生成目标数据的目标标签,该超级主键值根据该目标数据生成。
结合第一方面的第一种可能实现方式,在第一方面的第二种可能实现方式中,该方法还包括:建立标签内容中数据源、标签类型以及标签含义的对应关系;结合预设的标签内容解析目标数据,根据数据源生成该目标数据的标签源代码,根据该标签类型生成该目标数据的标签运算代码,根据该标签含义生成该目标数据的标签含义代码。
结合第一方面,在第一方面的第三种可能实现方式中,该方法还包括:将目标对象对应的数据源按照主题数据和维度数据划分为主题域表和维度域表,并预设主题域表和维度域表的表名称、字段类型以及字段含义。
结合第一方面,在第一方面的第四种可能实现方式中,标签类型,包括:规则类型标签、统计类型标签和机器学习类型标签中的至少一种。
结合第一方面,在第一方面的第五种可能实现方式中,超级主键值根据目标数据生成生成,包括:根据该目标对象的目标数据,查找用于识别该目标对象的所有主键;将该所有主键进行合并,设置边缘条件,构建该目标对象的图文模型;根据该图文模型中的数据集,生成该目标对象的超级主键。
结合第一方面,在第一方面的第六种可能实现方式中,在根据目标对象的标签值、超级主键值和标签代码生成该目标对象的目标标签之后,该方法还包括:将该目标数据的目标标签按照预设的存储方式进行存储;和/或,将该目标数据的目标标签推送至对应的业务设备。
结合第一方面,在第一方面的第七种可能实现方式中,该方法还包括:通过埋点的方式记录目标标签的生成过程,获取目标标签的数据信息,数据信息包括目标标签的数据源、标签类型以及标签含义;以数据信息中的数据源作为输入值,标签类型和标签含义作为输出值,生成目标标签的标签信息;将标签信息进行存储。
本申请实施例的第二方面提供了一种数据打标签的设备,包括存储器、处理器以及存储在该存储器中并可在该处理器上运行的计算机程序,该处理器执行该计算机程序时实现如第一方面任一项所述的方法的步骤。
本申请实施例的第三方面提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现如第一方面任一项所述的方法的步骤。
本申请实施例与现有技术相比存在的有益效果是:本申请技术方案对目标对象所关联的对应数据通过定义规则以及标签运算、规则解析,动态的对数据打标,生成目标标签,以使业务设备可以通过读取所需要的目标标签内容进行业务分析,进而执行相应业务,通过对数据进行标签化,实时打标、自动打标解决现有技术中电子设备在使用数据进行业务分析时,业务分析过程复杂、业务处理效率低的问题。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种数据打标签的方法的应用场景示意图;
图2是本申请实施例提供的一种标签设备的结构框图;
图3是本申请实施例提供的一种数据打标签的方法的流程示意图;
图4是本申请实施例提供的一种实施例提供的数据打标流程框图;
图5是本申请实施例提供的数据打标签的设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
为了说明本申请所述的技术方案,下面通过具体实施例来进行说明。
在工作、生产、管理等各个领域,存在着大量的底层数据,例如,贴源数据、业务数据、日志数据、上报数据以及三方日志数据等。其中,贴源数据包括系统的组织架构数据以及设备的元数据等。业务数据包括用户数据(如用户的基本情况),行为数据(如用户浏览记录、历史操作记录等),商品数据(如商品名称、商品类别、商品评论、库存等),远程运维以及发起维护等过程产生的数据。日志数据包括计算机操作系统或者应用软件运行时产生的数据,日志数据有助于今后进行系统维护。上报数据包括终端在上传或者导入信息时所产生的数据。三方日志数据包括如系统接入第三方设备时,与入侵检测系统(IntrusionDetection Systems,IDS)或者入侵防御系统(Intrusion-prevention system,IPS)相关联所产生的数据。电子设备基于上述底层数据,可以进行对应的业务分析。例如,基于生产设备在公司、行业、设备类型等方面相关的数据,结合IP地址定位技术和威胁情报数据,识别出该生产设备对应的用户信息,从而以该生产设备为分析对象,结合用户信息建立该生产设备的画像。
但是,这些底层数据不仅数据量大,而且数据本身并不能直接的反映其所能实现或者对应的业务功能。例如,在工控安全技术领域中,当电子设备的网络遭遇到攻击时,电子设备会记录本次攻击相关的数据,该数据对于业务运营端而言就是底层数据。但是,业务运营端获取到该数据之后,无法获知该数据所反映的具体内容和能够实现的业务功能。
另外,由于不同底层数据的数据来源以及技术、管理、制度等原因,使得同种数据在不同底层数据中,相互独立存储,独立维护,彼此间相互孤立,或者,不同底层数据以独有的方式对数据进行理解和定义,造成一些相同类型的数据被赋予了不同的含义,从而导致电子设备在获取到该数据之后,无法知晓每项数据之间缺乏关联性,无法打通。比如,电商购物应用A(简称应用A)和电商购物应用B(简称应用B)能够提供相似的购物功能,但是其是分别采用不同的系统以及业务模式记录业务数据的。也就是说,应用A的业务数据的记录方式,与应用B的业务数据的记录方式是不相同的。当电子设备需要对应用A的业务数据和应用B的业务数据进行整合分析时,就需要重复建设、维护以及分析数据这两个应用的数据,导致数据处理过程复杂,数据打通成本较高。
综上所述,目前,电子设备在获取到不同的底层数据之后,通过业务运营端进行业务分析。但是,这些底层数据不仅数据量大,而且数据本身并不能直接的反映其所能实现或者对应的业务功能。同时,由于数据来源以及技术、管理、制度等原因,不同底层数据之间缺乏关联性,无法打通。因此,在分析过程中,业务运营端需要将业务分析所涉及的每一项数据进行分析,才能得到不同底层数据之间的关联关系,以及业务运营端与底层数据之间的关联关系,进而对底层数据进行业务分析。由此可见,电子设备基于现有的底层数据进行业务分析时,分析过程复杂、处理效率低。
基于此,本申请实施例提供一种数据打标签的方法,该方法能够给数据添加目标标签,进而建立数据之间的关联关系,生成目标标签,以使业务设备通过读取所需要的目标标签内容进而执行相应业务。
图1为本申请实施例提出的一种数据打标签的方法的应用场景示意图,如图1所示,该场景涉及数据源设备、标签设备、以及业务设备。
其中,数据源设备,用于为标签设备提供数据来源。数据源设备中的数据通常包括上述的贴源数据、业务数据、日志数据、上报数据以及三方日志数据等底层数据。
标签设备,用于进行数据打标,得到数据标签。在一个示例中,如图2所示,该标签设备包括数据元数据管理模块、标签定义模块、标签规则解析模块、超级主键图生成模块、实时标签运算模块以及标签血缘模块。
数据元数据管理模块,预设有主题域表和维度域表。
其中,主题域表用于表示数据的主题和数据之间的对应关系。主题域表不仅全方位定义了表名称、字段类型以及字段含义,而且还包括大量不同来源的底层数据。其中,表名称也可以称作主题名称,字段类型用于表示包含某一主题下的信息。字段含义用于表示该主题下信息的具体含义。
关于这些底层数据,数据源设备在获得这些数据之后,先对其进行抽取、清洗转换和加载(Extract-Transform-Load,ETL)处理,将其划分为不同主题的数据。其中,各个主题是按照底层数据的产生类型划分的,如系统遭受的攻击、出现的问题、或者是在电商平台上产生的购物订单、付款记录等;例如,当主题为系统遭受到攻击时,对应的数据则为有关系统遭受攻击时所产生的所有数据。数据元数据管理模块在获取到不同主题的数据,将其按照主题之间的对应关系存储在主题域表中。
维度域表用于表示数据的维度和数据之间的对应关系。维度域表不仅全方位定义了表名称、字段类型以及字段含义,而且还包括大量不同来源的底层数据。其中,表名称也可以称作主题名称,字段类型用于表示包含某一主题下的信息。字段含义用于表示该主题下信息的具体含义。
关于这些底层数据,数据源设备在获得这些数据之后,先对其进行抽取、清洗转换和加载(Extract-Transform-Load,ETL)处理,将其划分为不同维度的数据。其中,各个维度是按照相对固定且不会产生变化的实体对象进行划分的,如设备、组织机构等不与深层业务产生关联的机构;例如,维度为设备的基本信息,对应的数据则为有关于该设备所有基本信息的数据,包括设备型号,生产厂家,使用年限等。数据元数据管理模块在获取到不同维度的数据,将其按照维度之间的对应关系存储在维度域表中。
标签定义模块,预设有标签内容,该标签内容包括标签和应用场景之间的对应关系,标签类型,以及每种标签类型在应用时所使用的数据在主题域表和维度域表中对应的位置和数据字段以及字段的含义。
示例性的,该应用场景可以是不同领域下的应用场景,包括钢铁行业、稀有金属、智慧园区、智慧交通、石油石化、智慧管网等场景。在每种应用场景下预设有对应于该应用场景的标签类型,每种标签类型所使用的数据来源在数据元数据管理模块中主题域表和维度域表的表名称、字段类型和字段含义。
上述标签类型包括:规则类型标签、统计类型标签、机器学习类型标签等中的至少一个。其中,规则类型标签,用于定义在打标签过程中数据详细的运算规则、数据来源表、数据字段、字段中数据的含义。统计类型标签,用于定义在打标签过程中的数据统计周期、统计方法、比较规则、过滤条件,以及用于定义数据元数据管理中的数据来源表、数据字段、字段中数据的含义。机器学习类型标签,用于定义训练数据所使用的数据来源表、数据字段、测试数据元数据管理中的数据来源表、数据字段、字段中数据的含义,需要的具体算法、算法标签对应的标签含义。
超级主键生成模块,用于生成目标对象的超级主键。
标签规则解析模块,用于对标签规则进行解析,生成目标数据可执行的标签代码。
标签运算模块,用于根据标签代码,生成目标对象的标签值。
标签血缘模块,用于记录标签血缘,监控从读取数据到生成标签的整个流程,追溯数据质量。
标签值推送模块,用于将上述标签值、标签代码以及超级主键值推送至相对应的业务设备。
业务设备,用于根据目标标签执行相应业务。
下面基于上述本实施例提供的标签设备,对本申请实施例提供的数据打标签的方法进行示例性的说明。
图3是本申请的一个实施例提供的数据打标方法的流程图,具体包括以下步骤S1-S6。
S1、标签设备获取目标数据。
在本实施例中,该目标数据是目标对象在特定应用场景下的数据。不同的应用场景下,人员、设备或者厂房均可作为数据标签化的目标对象。例如,当应用场景为统计人员收入情况,目标对象则为有关人员,目标数据的数据来源可以为国家统计局或者自然人纳税系统。
S2、标签设备解析该目标数据,并根据预设的标签内容,生成该目标数据可执行的标签代码,该标签代码中包括目标数据的标签源代码、标签运算代码以及标签含义代码。
基于标签设备的标签定义模块中预设有标签的应用场景、标签类型以及每种标签类型下所使用的数据来源表、数据字段以及字段的含义,因此,标签设备可以通过对目标数据的解析,确定与该目标数据所对应的数据源、标签类型以及标签含义。
其中,数据源为确定目标数据在数据元数据管理模块中主题域表和维度域表的具体位置。
标签类型为目标数据所对应的标签类型。
标签含义为主题域表和维度域表中每一项数据所代表的含义。
例如,结合目标数据的应用场景以及标签定义模块中预设的标签内容,对目标数据的解析。
当标签设备解析出的目标数据所对应的标签类型为规则类标签时,标签设备进一步确定该目标数据数据源信息,生成标签源代码,标签源代码用于表示目标数据在主题域表以及维度域表中的获取位置。进一步的,标签设备通过该规则类型标签确定该目标数据所对应的运算规则,生成标签运算代码。以及,标签设备进一步的确定目标数据数据源信息中的标签含义,生成标签含义代码,该标签代码用于指代标签具体的含义。
同样的,当标签设备解析出的目标数据所对应的标签类型为统计类型标签时,标签设备进一步确定该目标数据数据源信息,生成标签源代码,标签源代码用于表示目标数据在主题域表以及维度域表中的获取位置。进一步的,标签设备通过该规则类型标签确定该目标数据所对应的统计周期、统计周期、统计方法、比较规则,生成标签运算代码。以及,标签设备进一步的确定目标数据数据源信息中的标签含义,生成标签含义代码,该标签代码用于指代标签具体的含义。
类似的,当标签设备解析出的目标数据所对应的标签类型为机器学习类型标签时,标签设备进一步确定该目标数据数据源信息,生成标签源代码,标签源代码用于表示目标数据在主题域表以及维度域表中的获取位置。进一步的,标签设备通过该规则类型标签确定该目标数据所采用的具体算法,生成算法训练和验证的标签运算代码。以及,标签设备进一步的确定目标数据数据源信息中的标签含义,生成标签含义代码,该标签代码用于指代标签具体的含义。
S3、标签设备根据该标签代码,生成目标对象的标签值。
标签设备根据标签运算代码所对应的运算规则以及标签源代码、标签运算代码以及标签含义代码生成运算任务。标签设备通过执行该运算任务,可以获得目标对象的标签值。该标签值用于表示该目标对象的打标结果。
S4、标签设备通过目标数据生成目标对象的超级主键值。
在一个示例中,超级主键值根据目标数据生成,具体包括如下内容:
首先,标签设备根据目标数据在主题域表和维度域表中查找用于识别目标对象的所有主键。
在本实施例中,该主键为与该目标对象关联的所有数据合集,每个主键都能够唯一与该目标对象相关联。例如,以人员为对象时,其身份证号、手机号、医保卡号等均可作为该人员的主键。
具体的,以人员为目标对象时,对其年龄进行打标签,在不同场景下,如根据出行场景包括数据来源于叫车记录的出行信息或者公交卡,或者根据医疗场景包括数据来源为医疗系统中所存储的医保卡信息,因此,对于同一个对象人,在不同的场景下,数据来源不同时,需要用唯一的一个主键代表该目标对象人。
然后,标签设备将所有主键进行合并,设置边缘条件(edge),构建目标对象的图文模型(即graph模型)。
标签设备将所有有关于目标对象的主键,即对各源/端的业务和数据表进行识别,识别出之后进行合并,构成以点和边为边界条件的图文模型。
例如,以人员为目标对象时,在人事档案系统中会存储如身份证号或者手机号等数据信息,在电商运营平台上常规途径即通过手机号注册同样会生成一个唯一账号,在医疗系统中会存在对应的医保卡号以及身份证号,标签设备将该三种数据进行融合,在人事档案系统中的身份证号与手机号,其中手机号与电商运营平台中的手机号能够相关联,则表示该手机号所对应的对象属于同一对象,同时,在医疗系统中,又存在与人事档案系统中同样的身份证号,则表示该身份证号所对应的对象属于同一对象。因此,标签设备将所有有关于该目标对象的数据信息进行合并,可以构建该目标对象的图文模型。其中,该人员相关的所有主键即为该图文模型的点,所有主键信息组成的边界则为该图文模型的边,信息重合的部分采用一个主键表示。
标签设备在搜集到所有有关于该目标对象的数据信息并构建出图文模型后,在该图文模型中,则包括代表该目标对象的所有数据集信息。
最后,标签设备根据上述图文模型中的数据集生成该目标对象的超级主键。
根据上述数据集信息生成能够代表该目标对象的唯一的超级主键,基于上述实例,具体应用时,在人事档案系统中,该超级主键则代表该对象的身份证号或者手机号等数据信息,在电商运营平台上则代表该对象的唯一账号,在医疗系统中,则代表该对象的医保卡号或者身份证号。
在本实施例中,该超级主键,可以唯一确定一个被打标的对象,可以应用于任何的场景中,最终将形成的超级主键值以及上述标签值一并推送至业务设备。
S5、标签设备根据标签值、超级主键值以及标签代码,生成目标数据的目标标签。
其中,该超级主键值是标签设备根据目标数据对应的主题域表和维度域表生成的,超级主键值用于唯一标注该目标对象。
标签代码是标签设备通过对目标数据的解析生成的,标签代码用于表示该目标对象的数据来源、数据字段,字段中数据的含义。
S6、标签设备给目标数据添加目标标签。
在本申请实施例所提供的数据达标方法中,从各个维度对目标对象为用户或者设备进行打标签之后,可以根据标签信息进行后期的设备推荐、人员划分以及目标客户的划分等,如针对某种人员对象其属于哪种类型的目标客户,在工控安全行业则更多的为设备画像,判断设备属于高危设备,或者高品质质量设备,亦或是一般设备。
下面对上述实施例中涉及的超级主键值的确定过程进行示例性说明。
在打标签时,针对不同的业务需求,以及不同的业务设备,不同的数据来源对于同一个对象它的ID是不同的,因此,需要根据不同业务数据中的数据表进行汇总,形成一个图文模型,从而生成一个超级主键,该超级主键用于唯一标注该目标对象,且该超级主键中关联目标对象在所有业务设备中的所有数据信息。
在本实施例的一种实现方式中,该方法还包括:
在上述目标标签生成的过程中,对该生成过程使用埋点的方式进行监控,监控从读取数据到生成标签的整个流程,记录读取的数据元数据信息、读取的数据信息、生成的标签信息、生成的规则,将记录到的记录读取的数据元数据信息、读取的数据信息作为输入值,生成的规则作为边缘条件,生成的标签信息作为输出值,存入图数据库中,用于数据溯源和故障溯源。
在本申请实施例中,在根据目标对象的标签值、超级主键值和标签代码生成目标对象的目标标签之后,该方法还包括:
将目标对象的目标标签按照预设的存储方式进行存储,如将生成的标签值和超级主键值按照存数结构是key-value的非关系型方式存储在数据库中,同样也可以将目标对象的目标标签推送至对应的业务设备,如人员标签推送至人员统计业务设备,设备标签推送至设备画像的业务设备,或者两者同时进行,可以根据具体的需要进行选择,本实施例中不做具体限制。
图4本申请的一个实施例提供的数据打标流程框图,该流程框图与上述数据打标方法步骤S1-S6以及所关联的数据源设备和业务设备相对应。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
图5是本申请一实施例提供的数据打标签的设备的示意图。如图5所示,该实施例的数据打标签设备4包括:处理器40、存储器41以及存储在该存储器41中并可在该处理器40上运行的计算机程序42,例如数据打标程序。该处理器40执行该计算机程序42时实现上述各个数据打标方法实施例中的步骤。或者,该处理器40执行该计算机程序42时实现上述各装置实施例中各模块/单元的功能。
示例性的,该计算机程序42可以被分割成一个或多个模块/单元,该一个或者多个模块/单元被存储在该存储器41中,并由该处理器40执行,以完成本申请。该一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述该计算机程序42在该数据打标签的设备4中的执行过程。
数据打标签的设备4可以是平板电脑、平板电脑、桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。数据打标签的设备可包括,但不仅限于,处理器40、存储器41。本领域技术人员可以理解,图4仅仅是数据打标签的设备4的示例,并不构成对数据打标签的设备4的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如该数据打标签的设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器40可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
该存储器41可以是该数据打标签的设备4的内部存储单元,例如数据打标签的设备4的硬盘或内存。该存储器41也可以是该数据打标签的设备4的外部存储设备,例如该数据打标签的设备4上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,该存储器41还可以既包括该数据打标签的设备4的内部存储单元也包括外部存储设备。该存储器41用于存储该计算机程序以及该数据打标签的设备所需的其他程序和数据。该存储器41还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将该装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,该模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序指令相关的硬件来完成,该计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,该计算机程序包括计算机程序代码,该计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。该计算机可读介质可以包括:能够携带该计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,该计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括是电载波信号和电信信号。
以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种数据打标签的方法,应用于标签设备,其特征在于,所述方法包括:
获取目标数据;
解析所述目标数据,确定所述目标数据的目标标签,所述目标标签用于表示所述目标数据与数据分析业务之间的关联关系,和/或,不同所述目标数据之间的关联关系;
给所述目标数据添加所述目标标签。
2.根据权利要求1所述的方法,其特征在于,所述解析所述目标数据,确定所述目标数据的目标标签,包括:
结合预设的标签内容解析所述目标数据,生成所述目标数据可执行的标签代码,其中,所述标签代码包括目标数据的标签源代码、标签运算代码以及标签含义代码;
根据所述标签代码,生成目标对象的标签值;
根据所述标签值、超级主键值以及所述标签代码,生成目标数据的目标标签,所述超级主键值根据所述目标数据生成。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
建立标签内容中数据源、标签类型以及标签含义的对应关系;
结合预设的标签内容解析所述目标数据,根据所述数据源生成所述目标数据的标签源代码,根据所述标签类型生成所述目标数据的标签运算代码,根据所述标签含义生成所述目标数据的标签含义代码。
4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
将所述目标对象对应的数据源按照主题数据和维度数据划分为主题域表和维度域表,并预设所述主题域表和维度域表的表名称、字段类型以及字段含义。
5.根据权利要求3所述的方法,其特征在于,所述标签类型,包括:
规则类型标签、统计类型标签和机器学习类型标签中的至少一种。
6.根据权利要求2所述的方法,其特征在于,所述超级主键值根据所述目标数据生成生成,包括:
根据所述目标对象的目标数据,查找用于识别所述目标对象的所有主键;
将所述所有主键进行合并,设置边缘条件,构建所述目标对象的图文模型;
根据所述图文模型中的数据集,生成所述目标对象的超级主键。
7.根据权利要求2所述的方法,其特征在于,在所述根据所述目标对象的标签值、超级主键值和标签代码生成所述目标对象的目标标签之后,所述方法还包括:
将所述目标数据的目标标签按照预设的存储方式进行存储;
和/或,
将所述目标数据的目标标签推送至对应的业务设备。
8.根据权利要求3所述的方法,其特征在于,所述方法还包括:
通过埋点的方式记录所述目标标签的生成过程,获取所述目标标签的数据信息,所述数据信息包括所述目标标签的数据源、标签类型以及标签含义;
以所述数据信息中的数据源作为输入值,所述标签类型和标签含义作为输出值,生成所述目标标签的标签信息;
将所述标签信息进行存储。
9.一种数据打标签的设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210311708.3A CN114840519A (zh) | 2022-03-28 | 2022-03-28 | 一种数据打标签的方法、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210311708.3A CN114840519A (zh) | 2022-03-28 | 2022-03-28 | 一种数据打标签的方法、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114840519A true CN114840519A (zh) | 2022-08-02 |
Family
ID=82563617
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210311708.3A Pending CN114840519A (zh) | 2022-03-28 | 2022-03-28 | 一种数据打标签的方法、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114840519A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115525377A (zh) * | 2022-09-27 | 2022-12-27 | 中电金信软件有限公司 | 一种定性标签数据可视化方法、装置、电子设备及介质 |
CN116894426A (zh) * | 2023-07-17 | 2023-10-17 | 曙光云计算集团有限公司 | 标签的标注及存储方法、装置及电子设备 |
-
2022
- 2022-03-28 CN CN202210311708.3A patent/CN114840519A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115525377A (zh) * | 2022-09-27 | 2022-12-27 | 中电金信软件有限公司 | 一种定性标签数据可视化方法、装置、电子设备及介质 |
CN115525377B (zh) * | 2022-09-27 | 2023-04-28 | 中电金信软件有限公司 | 一种定性标签数据可视化方法、装置、电子设备及介质 |
CN116894426A (zh) * | 2023-07-17 | 2023-10-17 | 曙光云计算集团有限公司 | 标签的标注及存储方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kim et al. | Data governance framework for big data implementation with NPS Case Analysis in Korea | |
CN101625686B (zh) | 一种监控多数据库之间数据一致性的方法及系统 | |
Kim et al. | Data governance framework for big data implementation with a case of Korea | |
CN110855473A (zh) | 一种监控方法、装置、服务器及存储介质 | |
CN107798541B (zh) | 一种用于在线业务的监控方法及系统 | |
CN114840519A (zh) | 一种数据打标签的方法、设备及存储介质 | |
CN110689385A (zh) | 一种基于知识图谱的电力客服用户画像构建方法 | |
WO2019056789A1 (zh) | 关联交易的识别方法、装置、计算机设备和存储介质 | |
CN116258309A (zh) | 基于区块链的业务对象生命周期管理及追溯方法及装置 | |
CN114385609A (zh) | 基于标签的政务事件处理系统、方法、设备及存储介质 | |
KR20090001786A (ko) | 전산장애로 인한 비즈니스 영향도 분석 시스템 | |
CN109146306B (zh) | 一种企业管理系统 | |
CN112631889A (zh) | 针对应用系统的画像方法、装置、设备及可读存储介质 | |
CN107423035A (zh) | 一种软件开发过程产品数据管理系统 | |
CN105721586A (zh) | 信息智能分配装置、方法及系统 | |
CN115908062A (zh) | 一种知识产权全周期管理系统 | |
CN111026705B (zh) | 建筑工程文件管理方法、系统及终端设备 | |
CN106156904A (zh) | 一种基于eID的跨平台虚拟资产溯源方法 | |
US10664501B2 (en) | Deriving and interpreting users collective data asset use across analytic software systems | |
US20140156339A1 (en) | Operational risk and control analysis of an organization | |
CN114153860A (zh) | 业务数据管理方法及装置、电子设备、存储介质 | |
CN114356885A (zh) | 一种科技服务项目智能匹配方法、存储介质及设备 | |
Altarawneh et al. | Business Intelligence and Information System Management: A Conceptual View | |
CN113934729A (zh) | 一种基于知识图谱的数据管理方法、相关设备及介质 | |
CN110147980A (zh) | 工单处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |