CN115619261A - 一种作业标签画像数据处理方法、装置、计算机设备 - Google Patents
一种作业标签画像数据处理方法、装置、计算机设备 Download PDFInfo
- Publication number
- CN115619261A CN115619261A CN202211239827.9A CN202211239827A CN115619261A CN 115619261 A CN115619261 A CN 115619261A CN 202211239827 A CN202211239827 A CN 202211239827A CN 115619261 A CN115619261 A CN 115619261A
- Authority
- CN
- China
- Prior art keywords
- label
- job
- data
- theme
- scoring
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Game Theory and Decision Science (AREA)
- Marketing (AREA)
- Educational Administration (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请涉及一种作业标签画像数据处理方法。所述方法包括:获取作业系统内与目标作业相关的作业数据;对目标作业数据进行校验,获取校验后的待处理数据;根据待处理数据的信息内容和作业设计需求信息对待处理数据进行信息组合,确定作业画像模型中的主题标签,作业画像模型包括基于作业在系统的实际运维数据进行筛选和组合后划分的不同标签类型的数据集合对各个标签类型进行打分的维度评分标签,主题标签的类型包括下述至少之一:基础属性标签、生命周期标签、作业影响标签、资源消耗标签、作业时效标签、数据血缘标签;基于所述主题标签和主题评分标签构建得所述作业画像模型中所述目标作业的实例。采用本方法能够更便捷的进行作业管理。
Description
技术领域
本申请涉及数据处理技术领域,特别是涉及一种作业标签画像数据处理方法、装置、计算机设备。
背景技术
随着大数据平台的发展,平台的数据规模、作业数量、应用数目等迅速增加,对于大数据平台的服务质量和运营方式的要求日益提升。
相关技术中,大数据平台的运营方式是基于用户的需求和产生的问题,通过人工收集数据的方式获取相关数据,并且随着大数据平台的数据应用的增加,工作人员无法获取到每一个应用的相关数据。在分析需求和解决问题的过程中,一般都是依靠工作人员的经验进行判断,无法满足目前的大数据平台发展需求。
发明内容
基于此,有必要针对上述技术问题,提供了一种作业标签画像数据处理方法,可以对目标作业数据进行校验,根据待处理数据的信息内容和作业设计需求信息对待处理数据进行信息组合,得到不同的主题标签,再根据打分规则对标签进行打分,获得维度评分标签,获得作业标签画像。
第一方面,本申请提供了一种作业标签画像数据处理方法。所述方法包括:
获取作业系统内与目标作业相关的作业数据;
对所述目标作业数据进行校验,获取校验后的待处理数据;
根据所述待处理数据的信息内容和作业设计需求信息对所述待处理数据进行信息组合,确定作业画像模型中的主题标签,所述作业画像模型包括基于对作业在系统的实际运维数据进行筛选和组合后划分的不同标签类型的数据集合以及对各个所述标签类型进行打分的维度评分标签,所述主题标签的类型包括下述至少之一:基础属性标签、生命周期标签、作业影响标签、资源消耗标签、作业时效标签、数据血缘标签;
根据对目标作业的运维规则确定所述主题标签的打分规则;
基于所述主题标签和主题评分标签构建得所述作业画像模型中所述目标作业的实例。
在其中一个实施例中,所述校验至少包括:删除不符合预设标准的数据、补充缺失的关键字段为默认值。
在其中一个实施例中,所述资源消耗标签描述作业在作业系统上运行过程中的资源消耗的相关信息。
在其中一个实施例中,所述作业时效标签描述作业在作业系统上运行耗时、作业链路层级的相关信息。
第二方面,本申请还提供了一种作业标签画像数据处理装置,所述装置包括:
作业数据获取模块,用于获取作业系统内与目标作业相关的作业数据;
校验模块,用于对所述目标作业数据进行校验,获取校验后的待处理数据;
计算模块,用于根据所述待处理数据的信息内容和作业设计需求信息对所述待处理数据进行信息组合,确定作业画像模型中的主题标签,所述作业画像模型包括基于对作业在系统的实际运维数据进行筛选和组合后划分的不同标签类型的数据集合以及对各个所述标签类型进行打分的维度评分标签,所述主题标签的类型包括下述至少之一:基础属性标签、生命周期标签、作业影响标签、资源消耗标签、作业时效标签、数据血缘标签;
打分模块,用于根据对目标作业的运维规则确定所述主题标签的打分规则;
作业画像模块,用于基于所述主题标签和主题评分标签构建得所述作业画像模型中所述目标作业的实例。
在其中一个实施例中,所述校验至少包括:删除不符合预设标准的数据、补充缺失的关键字段为默认值。
在其中一个实施例中,所述资源消耗标签描述作业在作业系统上运行过程中的资源消耗的相关信息。
在其中一个实施例中,所述作业时效标签描述作业在作业系统上运行耗时、作业链路层级的相关信息。
第三方面,本公开还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现作业标签画像数据处理方法的步骤。
第四方面,本公开还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现作业标签画像数据处理方法的步骤。
第五方面,本公开还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现作业标签画像数据处理方法的步骤。
上述作业标签画像数据处理方法,至少包括以下有益效果:
本公开提供的实施例方案,可以对目标作业数据进行校验,根据待处理数据的信息内容和作业设计需求信息对待处理数据进行信息组合,得到不同的主题标签,再根据打分规则对标签进行打分,获得维度评分标签,获得作业标签画像。当某个作业发生问题,可以通过作业标签画像迅速获得问题位置。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
为了更清楚地说明本公开实施例或传统技术中的技术方案,下面将对实施例或传统技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为一个实施例中作业标签画像数据处理方法的应用环境图;
图2为一个实施例中作业标签画像数据处理方法的流程示意图;
图3为一个实施例中的作业画像模型;
图4为一个实施例中作业画像模型实现流程图;
图5为一个实施例中作业画像实施装置图;
图6为一个实施例中大数据平台的数据处理方法的装置图;
图7为一个实施例中计算机设备的内部结构图;
图8为一个实施例中一种服务器的内部结构图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下,并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。例如若使用到第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
本公开实施例提供一种作业标签画像数据处理方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在本公开的一些实施例中,如图2所示,提供了一种作业标签画像数据处理方法,以该方法应用于图1中的服务器对作业标签画像数据进行处理为例进行说明。可以理解的是,该方法可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。具体的一个实施例中,所述方法可以包括以下步骤:
S202:获取作业系统内与目标作业相关的作业数据。
在处理目标作业、开发目标作业场景、进行作业调度、计算分析时会产生大量衍生数据,与目标作业相关的作业数据来源可以包括但不限于作业基础配置信息、系统的调度运行数据、作业脚本运行日志、日常开发维护数据。
S204:对所述目标作业数据进行校验,获取校验后的待处理数据。
目标作业数据在收集和传输的过程中,可能会受到各种干扰的影响,可以对不符合规范或异常的数据进行丢弃,对缺失的关键数据信息进行默认值补充,保证用于制定标签数据的准确性,可以得到校验后的待处理数据。
S206:根据所述待处理数据的信息内容和作业设计需求信息对所述待处理数据进行信息组合,确定作业画像模型中的主题标签,所述作业画像模型包括基于对作业在系统的实际运维数据进行筛选和组合后划分的不同标签类型的数据集合以及对各个所述标签类型进行打分的维度评分标签,所述主题标签的类型包括下述至少之一:基础属性标签、生命周期标签、作业影响标签、资源消耗标签、作业时效标签、数据血缘标签。
标签可以表示对某一类特定群体或对象的某项特征进行的抽象分类和概括。作业画像可以由某一特定群体或对象的多项特征构成,输出结果通常是对特征的具体描述,作业画像可以由多个标签组合而成。
待处理数据的信息内容可以包括作业名称、作业运行时间、上游作业信息等内容,这些信息内容可能是与作业需求信息关联性较强的信息或代表性较强的信息。根据待处理数据的信息内容和作业设计需求信息对待处理数据进行信息组合。信息组合方法可以包括聚合函数、迭代计算、数据遍历、拉链处理。在对目标作业数据进行校验后可以得到校验后的待处理数据,可以通过聚合函数将待处理数据中可以用于描述主题标签的数据提取出来,根据迭代计算和数据遍历不断从待处理数据中获取该类数据信息,通过拉链处理将具有关联关系的数据信息聚合在一起,形成作业画像模型中的主题标签。
作业画像模型可以由多个主题标签构成,主题标签的类型可以包括下述至少之一:基础属性标签、生命周期标签、作业影响标签、资源消耗标签、作业时效标签、数据血缘标签。基础属性标签可以是用于描述大数据平台任意一个作业的基础属性的标签,可以包括作业名称、作业类型、调度频率、业务作业归属等。生命周期标签可以包括作业在大数据平台上从创建到完成整个过程中的数据信息,用于描述大数据平台上作业完整开发维护生命过程的标签。通过生命周期标签可以获取平台上线日期、日常变更记录、作业下线日期、作业版本编号等数据信息。业务作业影响标签可以是描述大数据平台作业在平台上的重要程度和影响范围的标签。在处理作业的过程中出现问题,可以根据业务作业影响标签获取作业的影响范围,及时找到与问题作业相关联的应用,减小数据损耗。通过对大数据平台作业之间的调度依赖关系数据进行分析,获取作业关键标志、是否影响高时效应用、下游影响应用、下游影响作业等数据信息,构建业务作业影响标签。可以通过归类整合资源消耗类数据以及衍生数据构建资源消耗标签,例如当日中央处理器(Central Processing Unit,CPU)使用、当日输入输出(Input/Output,IO)消耗、CPU倾斜率、IO倾斜率等。不同作业的类型、调度频率不同,相应的在大数据平台上运行耗时和作业链路层级可能不同,可以整合记录类信息数据得到作业时效标签,例如近日耗时方差、平均耗时、经历的加工链路层级等数据信息。作业在大数据平台上运行的过程中可能会经过多个链路层并于其他作业数据产生关联,可以整合相关的数据信息构建数据血缘标签,可以包括上游加工链路中涉及的数据系统信息、数据分布信息等。
作业画像模型在显示各类标签所包含信息内容时,还可以通过给标签打分,可以清晰直观地从各个维度评估标签,了解标签真实使用情况,根据标签的分值进行标签优化。作业画像模型可以包括基于作业在系统的实际运维数据进行筛选和组合后划分的不同标签类型的数据集合对各个标签类型进行打分的维度评分标签。
S208:根据对目标作业的运维规则确定所述主题标签的打分规则。
通过对上述各个维度的作业标签按照目标作业的运维规则确定打分规则,对主题标签进行评估打分,计算出一个客观的数据评分用以给平台用户提供参考。运维规则可以包括目标作业是否影响时效应用、当日作业耗时是否最长等信息调整标签的分值。
S210:基于所述主题标签和主题评分标签构建得所述作业画像模型中所述目标作业的实例。
如图3所示,为本公开一个实施例中的作业画像模型。在本公开的一些实施例中,可以根据主题标签和主题评分标签构建得所述作业画像模型中所述目标作业的实例。
上述作业标签画像数据处理方法中,获取与目标作业相关的作业数据,根据验证后的作业数据与作业设计需求信息对验证后的作业数据进行信息组合,确定作业画像模型中的主题标签,再根据目标作业的运维规则确定所述主题标签的打分规则,获得维度评分标签,得到作业画像模型,有利于及时根据需求和问题对目标作业进行调整。
在本公开的一些实施例中,所述校验至少包括:删除不符合预设标准的数据、补充缺失的关键字段为默认值。
如图4所示,为本公开一个实施例中作业画像模型实现流程图。不符合预设标准的数据可以是不符合规定格式的数据、不符合作业需求的数据等。当数据发生缺失,如果缺失值的个数只占整体很小一部分,可以直接删除缺失值,如果缺失值占比较大,并且为关键字段,可以使用默认值进行前补充或后补充。
在本公开的一些实施例中,所述资源消耗标签描述作业在作业系统上运行过程中的资源消耗的相关信息。
在作业处理过程中可能会一直使用处理器的资源,因此会影响其他作业的处理速度,而占用处理器资源较多的是输入输出请求,作业运行时的大部分时间都在提交或者等待输入输出请求,将资源消耗记录类数据信息和相应的衍生数据信息进行整合,构建资源消耗标签。
在本公开的一些实施例中,所述作业时效标签描述作业在作业系统上运行耗时、作业链路层级的相关信息。
当某个作业发生故障时,开发人员需要逐层查看作业经过的链路,效率较低,在本公开的实施例中,可以作业时效标签分析耗时最长链路,找出作业发生故障的原因,针对性的进行调整优化。可以根据作业链路自助分析及时效提升工具获取作业链路层级情况,基于平台批量作业的前后依赖关系,根据多种算法,解析作业加工链路及链路上的作业耗时、等待情况,分析作业时效不高的原因,开发人员可以根据作业时效标签查找耗时最长的链路确定时效提升的方法。
图5为本公开一个实施例中作业画像实施装置图。通过作业标签画像构建装置计算出作业标签画像的具体数据,通过网络传输数据,可以通过个人终端、移动端、电子大屏等各类渠道进行数据的展示。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本公开实施例还提供了一种用于实现上述所涉及的针对作业标签画像数据处理方法的作业标签画像数据处理装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的作业标签画像数据处理装置实施例中的具体限定可以参见上文中对于作业标签画像数据处理方法的限定,在此不再赘述。
所述装置可以包括使用了本说明书实施例所述方法的系统(包括分布式系统)、软件(应用)、模块、组件、服务器、客户端等并结合必要的实施硬件的装置。基于同一创新构思,本公开实施例提供的一个或多个实施例中的装置如下面的实施例所述。由于装置解决问题的实现方案与方法相似,因此本说明书实施例具体的装置的实施可以参见前述方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
在一个实施例中,如图6所示,提供了一种作业标签画像数据处理装置600,所述装置可以为前述服务器,或者集成于所述服务器的模块、组件、器件、单元等。该装置600可以包括:
作业数据获取模块602,用于获取作业系统内与目标作业相关的作业数据;
校验模块604,用于对所述目标作业数据进行校验,获取校验后的待处理数据;
计算模块606,用于根据所述待处理数据的信息内容和作业设计需求信息对所述待处理数据进行信息组合,确定作业画像模型中的主题标签,所述作业画像模型包括基于对作业在系统的实际运维数据进行筛选和组合后划分的不同标签类型的数据集合以及对各个所述标签类型进行打分的维度评分标签,所述主题标签的类型包括下述至少之一:基础属性标签、生命周期标签、作业影响标签、资源消耗标签、作业时效标签、数据血缘标签;
打分模块608,用于根据对目标作业的运维规则确定所述主题标签的打分规则;
作业画像模块610,用于基于所述主题标签和主题评分标签构建得所述作业画像模型中所述目标作业的实例。
在一个实施例中,所述校验至少包括:删除不符合预设标准的数据、补充缺失的关键字段为默认值。
在一个实施例中,所述资源消耗标签描述作业在作业系统上运行过程中的资源消耗的相关信息。
在一个实施例中,所述作业时效标签描述作业在作业系统上运行耗时、作业链路层级的相关信息。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
上述针对作业标签画像数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种作业标签画像数据处理方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现作业标签画像数据处理方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图7、图8中示出的结构,仅仅是与本公开方案相关的部分结构的框图,并不构成对本公开方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现本公开任一实施例所述的方法。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现本公开任一实施例所述的方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本公开所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本公开所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本公开所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本公开的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本公开专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本公开构思的前提下,还可以做出若干变形和改进,这些都属于本公开的保护范围。因此,本公开的保护范围应以所附权利要求为准。
Claims (11)
1.一种作业标签画像数据处理方法,其特征在于,所述方法包括:
获取作业系统内与目标作业相关的作业数据;
对所述目标作业数据进行校验,获取校验后的待处理数据;
根据所述待处理数据的信息内容和作业设计需求信息对所述待处理数据进行信息组合,确定作业画像模型中的主题标签,所述作业画像模型包括基于对作业在系统的实际运维数据进行筛选和组合后划分的不同标签类型的数据集合以及对各个所述标签类型进行打分的维度评分标签,所述主题标签的类型包括下述至少之一:基础属性标签、生命周期标签、作业影响标签、资源消耗标签、作业时效标签、数据血缘标签;
根据对目标作业的运维规则确定所述主题标签的打分规则;
基于所述主题标签和主题评分标签构建得所述作业画像模型中所述目标作业的实例。
2.根据权利要求1所述的方法,其特征在于,所述校验至少包括:删除不符合预设标准的数据、补充缺失的关键字段为默认值。
3.根据权利要求1所述的方法,其特征在于,所述资源消耗标签描述作业在作业系统上运行过程中的资源消耗的相关信息。
4.根据权利要求1所述的方法,其特征在于,所述作业时效标签描述作业在作业系统上运行耗时、作业链路层级的相关信息。
5.一种作业标签画像数据处理装置,其特征在于,所述装置包括:
作业数据获取模块,用于获取作业系统内与目标作业相关的作业数据;
校验模块,用于对所述目标作业数据进行校验,获取校验后的待处理数据;
计算模块,用于根据所述待处理数据的信息内容和作业设计需求信息对所述待处理数据进行信息组合,确定作业画像模型中的主题标签,所述作业画像模型包括基于对作业在系统的实际运维数据进行筛选和组合后划分的不同标签类型的数据集合以及对各个所述标签类型进行打分的维度评分标签,所述主题标签的类型包括下述至少之一:基础属性标签、生命周期标签、作业影响标签、资源消耗标签、作业时效标签、数据血缘标签;
打分模块,用于根据对目标作业的运维规则确定所述主题标签的打分规则;
作业画像模块,用于基于所述主题标签和主题评分标签构建得所述作业画像模型中所述目标作业的实例。
6.根据权利要求5所述的装置,其特征在于,所述校验至少包括:删除不符合预设标准的数据、补充缺失的关键字段为默认值。
7.根据权利要求5所述的装置,其特征在于,所述资源消耗标签描述作业在作业系统上运行过程中的资源消耗的相关信息。
8.根据权利要求5所述的装置,其特征在于,所述作业时效标签描述作业在作业系统上运行耗时、作业链路层级的相关信息。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。
11.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211239827.9A CN115619261A (zh) | 2022-10-11 | 2022-10-11 | 一种作业标签画像数据处理方法、装置、计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211239827.9A CN115619261A (zh) | 2022-10-11 | 2022-10-11 | 一种作业标签画像数据处理方法、装置、计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115619261A true CN115619261A (zh) | 2023-01-17 |
Family
ID=84862873
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211239827.9A Pending CN115619261A (zh) | 2022-10-11 | 2022-10-11 | 一种作业标签画像数据处理方法、装置、计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115619261A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116340410A (zh) * | 2023-05-30 | 2023-06-27 | 国网瑞嘉(天津)智能机器人有限公司 | 配网带电作业机器人的数据处理方法、装置及服务器 |
-
2022
- 2022-10-11 CN CN202211239827.9A patent/CN115619261A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116340410A (zh) * | 2023-05-30 | 2023-06-27 | 国网瑞嘉(天津)智能机器人有限公司 | 配网带电作业机器人的数据处理方法、装置及服务器 |
CN116340410B (zh) * | 2023-05-30 | 2023-10-20 | 国网瑞嘉(天津)智能机器人有限公司 | 配网带电作业机器人的数据处理方法、装置及服务器 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10372723B2 (en) | Efficient query processing using histograms in a columnar database | |
CN111177111A (zh) | 基于用户指定分段执行查询时归因建模 | |
JP6484730B2 (ja) | 時間因子を融合させる協調フィルタリング方法、装置、サーバおよび記憶媒体 | |
US20200234218A1 (en) | Systems and methods for entity performance and risk scoring | |
US20160232548A1 (en) | Adaptive pricing analytics | |
CN115619261A (zh) | 一种作业标签画像数据处理方法、装置、计算机设备 | |
CN109978594B (zh) | 订单处理方法、装置及介质 | |
CN117522519A (zh) | 产品推荐方法、装置、设备、存储介质和程序产品 | |
US20210182701A1 (en) | Virtual data scientist with prescriptive analytics | |
CN116894721A (zh) | 一种指标预测方法、装置、计算机设备 | |
WO2020150597A1 (en) | Systems and methods for entity performance and risk scoring | |
CN116302867A (zh) | 行为数据分析方法、装置、计算机设备、介质和程序产品 | |
CA3116373A1 (en) | Systems and methods for monitoring user-defined metrics | |
US20240202666A1 (en) | Systems and methods for predicting unemployment rates | |
CN116681203A (zh) | 基于大数据分析的企业管理咨询方法与系统 | |
CN118096339A (zh) | 业务数据处理方法、装置、计算机设备、存储介质 | |
CN117764514A (zh) | 用于项目全景监控的数据处理方法、装置和计算机设备 | |
CN117829951A (zh) | 三维模型推荐方法、装置、计算机设备和存储介质 | |
CN115442092A (zh) | 一种目标账户识别的方法、装置、计算机设备 | |
CN118171213A (zh) | 异常检测方法、装置、计算机设备和存储介质 | |
CN117319475A (zh) | 通信资源推荐方法、装置、计算机设备和存储介质 | |
CN115437796A (zh) | 资源管理方法、装置、设备及计算机可读存储介质 | |
CN117829669A (zh) | 基于大数据的业务活动评估方法、装置和计算机设备 | |
CN117522518A (zh) | 虚拟产品信息推送方法、装置、计算机设备和存储介质 | |
CN116881546A (zh) | 资源推荐方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |