CN111400282A - 数据处理策略调整方法、装置、设备及存储介质 - Google Patents

数据处理策略调整方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111400282A
CN111400282A CN202010186865.7A CN202010186865A CN111400282A CN 111400282 A CN111400282 A CN 111400282A CN 202010186865 A CN202010186865 A CN 202010186865A CN 111400282 A CN111400282 A CN 111400282A
Authority
CN
China
Prior art keywords
target data
strategy
data set
target
data structure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010186865.7A
Other languages
English (en)
Other versions
CN111400282B (zh
Inventor
郭贵凤
谢永恒
程强
冯宇波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Ruian Technology Co Ltd
Original Assignee
Beijing Ruian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Ruian Technology Co Ltd filed Critical Beijing Ruian Technology Co Ltd
Priority to CN202010186865.7A priority Critical patent/CN111400282B/zh
Publication of CN111400282A publication Critical patent/CN111400282A/zh
Application granted granted Critical
Publication of CN111400282B publication Critical patent/CN111400282B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/217Database tuning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种数据处理策略调整方法、装置、设备及存储介质。该方法包括:将目标数据集与预存标签策略进行数据结构匹配;将匹配成功的预存标签策略作为候选标签策略;确定目标数据集与所述候选标签策略匹配成功的第一目标数据结构,以及所述第一目标数据结构的填充率;根据所述第一目标数据结构的填充率和所述候选标签策略,确定目标数据集的目标标签策略。上述方案解决了标签策略更新不及时,存在滞后性,且更新效率和准确性低的问题,从而实现了标签策略的及时自动更新。

Description

数据处理策略调整方法、装置、设备及存储介质
技术领域
本发明实施例涉及大数据技术领域,尤其涉及一种数据处理策略调整方法、装置、设备及存储介质。
背景技术
目前在计算机大数据领域,对于采集到的原始大数据,依据接入平台元数据标准和接入策略进行标准化和一系列的预处理,提取到价值密度更高的、支撑应用的各类数据信息,以数据集的形式进行存储。
目前对于新接入的数据集,需要对标签策略进行手工调整,才能实现标签策略与当前大数据系统数据相对应,以实现根据标签策略准确地对大数据进行的打标处理。通过手工调整的方式,标签策略更新不及时,存在滞后性,且浪费人力,更新效率和准确性低。
发明内容
本发明实施例提供一种数据处理策略调整方法、装置、设备及存储介质,以解决标签策略更新不及时,存在滞后性,且更新效率和准确性低的问题,从而实现了标签策略的及时自动更新。
第一方面,本发明实施例提供了一种数据处理策略调整方法,该方法包括:
将目标数据集与预存标签策略进行数据结构匹配;
将匹配成功的预存标签策略作为候选标签策略;
确定目标数据集与所述候选标签策略匹配成功的第一目标数据结构,以及所述第一目标数据结构的填充率;
根据所述第一目标数据结构的填充率和所述候选标签策略,确定目标数据集的目标标签策略。
第二方面,本发明实施例提供了一种数据处理策略调整装置,该装置包括:
匹配模块,用于将目标数据集与预存标签策略进行数据结构匹配;
候选标签策略确定模块,用于将匹配成功的预存标签策略作为候选标签策略;
填充率确定模块,用于确定目标数据集与所述候选标签策略匹配成功的第一目标数据结构,以及所述第一目标数据结构的填充率;
目标标签策略确定模块,用于根据所述第一目标数据结构的填充率和所述候选标签策略,确定目标数据集的目标标签策略。
第三方面,本发明实施例还提供了一种设备,该设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明实施例中任一项所述的数据处理策略调整方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例中任一项所述的数据处理策略调整方法。
本发明实施例中,通过在接收到目标数据集时,将目标数据集与预存标签策略进行数据结构匹配,从而初步选取匹配成功的候选标签策略,通过分析目标数据集中与候选标签策略匹配成功的第一目标数据结构的填充率,结合候选标签策略,确定目标数据集的目标标签策略,从而实现标签策略的自动调整更新,提高了标签策略更新和数据处理的效率。
附图说明
图1为本发明一种实施例提供的一种数据处理策略调整方法的流程图;
图2为本发明又一实施例提供的一种数据处理策略调整方法的流程图;
图3为本发明又一实施例提供的标签策略更新具体实现流程示意图;
图4为本发明一种实施例提供的一种数据处理策略调整装置结构示意图;
图5为本发明一种实施例提供的一种设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
图1为本发明一种实施例提供的一种数据处理策略调整方法的流程图。本实施例提供的数据处理策略调整方法可适用于确定目标数据集的标签策略的情况,典型的,本发明实施例可以适用于存在新接入的目标数据集时,对新接入的目标数据集的标签策略进行自动实时更新的情况。该方法具体可以由数据处理策略调整装置来执行,该装置可以由软件和/或硬件的方式实现,该装置可以集成在数据处理策略调整设备中。参见图1,本发明实施例的方法具体包括:
S110、将目标数据集与预存标签策略进行数据结构匹配。
其中,目标数据集可以为各系统或平台中新接入的目标数据集,目标数据集中目标数据的个数可以为至少两个,标签策略用于对目标数据集进行打标,确定目标数据集的标签,其中可以包括输入数据集、输入字段和标签规则等。预存标签策略可以为预先存储于数据库或标签策略原始池中的标签策略。数据结构可以为目标数据集和预存标签策略的特征信息,例如可以为数据集编号和/或字段,可以用编码或标识符表示。相应地,将目标数据集与预存标签策略进行数据结构匹配,包括:将目标数据集的数据集编号与预存标签策略的数据集编号进行匹配;和/或,将目标数据集的字段与预存标签策略的字段进行匹配。
示例性的,为了能够从预存标签策略中选取适用于对目标数据集打标的目标标签策略,因此,需要先将目标数据集与预存标签策略进行数据结构匹配,保证目标数据集与预存标签策略的数据集编号和/或字段相符,以实现准确打标。对于目标数据集,数据集编号和字段即为目标数据集的类型和字段,对于预存标签策略,数据集编号和字段可以为输入数据集编号和输入字段。例如,若目标数据集编号为WA_society_0301,字段包括姓名、身份证号、始发地和目的地,预存标签策略的输入数据集编号为WA_society_0301,输入字段包括姓名、身份证号、始发地和目的地,则确定目标数据集与预存标签策略的数据结构能够匹配。若预存标签策略的输入数据集为乘客的航班信息,输入字段包括姓名、航班信息、起飞时间和落地时间,则确定目标数据集与预存标签策略的数据结构不匹配。
S120、将匹配成功的预存标签策略作为候选标签策略。
示例性的,若存在预存标签策略,其输入数据集编号与目标数据集的输入数据集编号,和/或目标标签策略的字段与目标数据集的字段匹配成功,则将该预存标签策略作为候选标签策略。
S130、确定目标数据集与所述候选标签策略匹配成功的第一目标数据结构,以及所述第一目标数据结构的填充率。
其中,第一目标数据结构可以为目标数据集中,与候选标签策略进行数据结构匹配时匹配成功的数据结构。由于目标数据集在采集过程中可能会出现信息采集不完整的问题,因此,需要对目标数据集进行质量评估,以分析目标数据集的完整性。可以为对目标数据集中第一目标数据结构的填充率进行评估。示例性的,如果目标数据集中包括500个数据,对于字段“始发地”,有400个数据中该字段对应有具体内容,100个数据中该字段没有对应的具体内容,则该目标数据集中字段“始发地”的填充率为80%。
S140、根据所述第一目标数据结构的填充率和所述候选标签策略,确定目标数据集的目标标签策略。
示例性的,由于候选标签策略与目标数据集的数据结构相匹配,因此,可以依据候选标签策略,确定目标数据集的目标标签策略。例如,如果目标数据集中第一目标数据结构的填充率满足要求,则将候选标签策略作为目标数据集的目标标签策略。如果第一目标数据结构的填充率不满足要求,则根据目标数据集对候选标签策略进行适应性的调整,以确定目标数据集的目标标签策略。
在本申请实施例中,根据所述第一目标数据结构的填充率和所述候选标签策略,确定目标数据集的目标标签策略,包括:若目标数据集中第一目标数据结构的填充率不满足要求,则将目标数据集中第二目标数据结构的数据内容,与所述第一目标数据结构的数据内容进行匹配;其中,所述第二目标数据结构为目标数据集中与所述第一目标数据结构不同的数据结构;采用匹配成功的第二目标数据结构,替换所述候选标签策略中的第一目标数据结构,得到新候选标签策略;将所述新候选标签策略,作为目标数据集的目标标签策略。替换所述候选标签策略中的第一目标数据结构,得到新候选标签策略之前,还包括:确定目标数据集中第二目标数据结构的填充率;若所述第二目标数据结构的填充率满足要求,则执行替换所述候选标签策略中的第一目标数据结构的步骤。
其中,判断填充率是否满足要求可以为,判断填充率是否大于预设填充率阈值,若填充率大于预设填充率阈值,则确定填充率满足要求,若填充率小于或等于填充率阈值,则确定填充率不满足要求。可以离线统计最近一天接入的目标数据集中目标数据的字段填充率。示例性的,确定了候选标签策略,需要确定目标数据集的第一目标数据结构的填充率是否满足要求,以保证有足够的数据输入目标标签策略进行打标。如果目标数据集的第一目标数据结构填充率满足要求,字段的填充率满足要求,则说明该目标数据集能够以该候选标签策略进行打标,因此将候选标签策略作为目标数据集的目标标签策略。如果目标数据集的第一目标数据结构的填充率不满足要求,即字段的填充率不满足要求,则即使确定了目标标签策略,当时目标数据集的内容缺失,则可能会导致无法准确进行打标。因此,需要对候选标签策略进行调整,例如,若目标数据集中存在备用字段,即第二目标数据结构的具体内容与匹配成功的字段,即第一目标数据结构的具体内容一致,则对备用字段的填充率进行评估,若备用字段的填充率满足要求,则用备用字段替换候选标签策略中的与所述具体内容对应的字段,形成新候选标签,将新候选标签作为目标数据集的目标标签策略,通过上述方案,既保证了目标标签策略与目标数据集相对应,又能够保证目标数据集中字段对应内容的完整性,从而自动对标签策略进行更新,以对目标数据集进行准确打标。
在本申请实施例中,若备用字段对应的填充率未通过,则结束任务。
本发明实施例中,通过在接收到目标数据集时,将目标数据集与预存标签策略进行数据结构匹配,从而初步选取匹配成功的候选标签策略,分析目标数据集中与候选标签策略匹配成功的第一目标数据结构的填充率,结合候选标签策略,确定目标数据集的目标标签策略,从而实现标签策略的自动调整更新,提高了标签策略更新和数据处理的效率。
图2为本发明又一实施例提供的一种数据处理策略调整方法的流程图。本发明实施例为对上述实施例的进一步优化,未在本实施例中详细描述的细节详见上述实施例。参见图2,本实施例提供的数据处理策略调整方法可以包括:
S210、根据数据标准,对所述目标数据集进行标准化处理。
示例性的,在对目标数据集进行标准化处理之前,可以执行包括数据探测、数据定义、数据标准导入或导出、数据标准查询、数据标准管理等步骤。其中,数据探测包括数据接入方式探查、数据含义探查、数据字段内容及数据集标准映射的探查等。数据定义包括根据数据探测结果完成接入策略、处理策略、治理策略和组织策略的定义,形成数据标准。数据标准查询可以为基于用户输入的检索标准名称、标准目录、标准里的数据集名称、数据集包含的字段以及编码等,对标准进行查询。数据标准管理可以实现对标准版本的管理,对不同地市标准内容统一化和差异化管理。
示例性的,由于不同地市的标准可能不同,当接入其他地市的目标数据时,可能其中的数据结构并不规范,因此,需要对目标数据进行标准化处理。对新接入的数据集进行标准化处理,有两种处理结果,一种完全兼容当前的数据标准,一种不能完全兼容当前的数据标准,对于后者需要扩充数据标准,比如扩充操作码、元数据集等,扩充完成后发布新的数据标准,根据新数据标准,就可以完成新接入数据集的标准化。
S220、确定所述目标数据集的数据量信息。
其中,数据量过大会导致处理压力过大,影响处理效率,数据量过小,可能会导致数据处理打标不准确,因此,在确定目标数据集的目标标签策略之前,需要对目标数据集进行质量评价,对目标数据的数据量进行统计,以评估基于该目标数据的标签策略的泛化能力。示例性的,离线统计各类数据最近几天每天接入的目标数据集中目标数据的总量,以及数据量随时间的波动值。另外需要考虑的特殊因素:比如节假日或者某一天的特殊时段等。系统根据最近几天接入的目标数据计算出每个小时的数据量,例如一天的数据量按小时取平均,以及峰值,每天的数据总量例如一周的数据量按照七天去平均以及峰值。根据所述数据量信息确定是否执行将目标数据集与预存标签策略进行数据结构匹配的步骤。根据所述数据量信息确定是否执行将目标数据集与预存标签策略进行数据结构匹配的步骤,包括:若数据量信息满足如下条件,则执行将目标数据集与预存标签策略进行数据结构匹配的步骤:数据量最小值大于或等于预设最小数据量阈值;数据量最大值小于或等于预设最大数据量阈值。即若数据量信息中的数据量波动值小于或等于预设波动量阈值、数据量最小值大于或等于预设最小数据量阈值且数据量最大值小于或等于预设最大数据量阈值,则说明该目标数据集质量评价为合格,否则,为目标数据集评价为不合格,结束任务。另外,对于实时标签,即在接入平台之前就打的标签,需依据业务方提供的接入样例数据进行数据质量评价。
S230、若所述数据量信息是否满足要求,则将目标数据集与预存标签策略进行数据结构匹配。
S240、将匹配成功的预存标签策略作为候选标签策略。
S250、确定目标数据集与所述候选标签策略匹配成功的第一目标数据结构,以及所述第一目标数据结构的填充率。
S260、根据所述第一目标数据结构的填充率和所述候选标签策略,确定目标数据集的目标标签策略。
图3为本发明又一实施例提供的标签策略更新具体实现流程示意图;如图3所示,当平台或系统中新接入数据集时,判断数据集的质量评价是否合格,即判断数据集的数据量是否满足要求,若不满足要求,则结束任务。若满足要求,则判断新接入的数据集和字段,与标签策略原始池中的标签策略的输入数据集与字段是否匹配。若匹配,则判断字段的填充率是否满足要求,若满足要求,则将该标签策略加入本地标签策略储备池。若不满足要求,则判断数据集中的备用字段的填充率是否满足要求,若满足要求,则将备用字段替换标签策略中匹配成功的字段,加入本地标签策略储备池。若数据集中的备用字段的填充率不满足要求,则结束任务。
本发明实施例的技术方案,通过对目标数据集进行标准化,从而使目标数据集能够兼容各地市的数据标准,便于进行统一处理,以及目标数据集的质量评估,从而保证目标数据集的数据量满足要求,以准确地根据目标标签策略进行打标,从而实现标签策略的自动实时更新,提高了目标数据的处理效率。
图4为本发明一种实施例提供的一种数据处理策略调整装置结构示意图。该装置可适用于确定目标数据集的标签策略的情况,典型的,本发明实施例可以适用于存在新接入的目标数据集时,对新接入的目标数据集的标签策略进行自动实时更新的情况。该装置可以由软件和/或硬件的方式实现,该装置可以集成在设备中。参见图4,该装置具体包括:
匹配模块310,用于将目标数据集与预存标签策略进行数据结构匹配;
候选标签策略确定模块320,用于将匹配成功的预存标签策略作为候选标签策略;
填充率确定模块330,用于确定目标数据集与所述候选标签策略匹配成功的第一目标数据结构,以及所述第一目标数据结构的填充率;
目标标签策略确定模块340,用于根据所述第一目标数据结构的填充率和所述候选标签策略,确定目标数据集的目标标签策略。
在本申请实施例中,所述数据结构包括:数据集编号和/或字段;
相应地,匹配模块310,具体用于:
将目标数据集的数据集编号与预存标签策略的数据集编号进行匹配;和/或,将目标数据集的字段与预存标签策略的字段进行匹配。
在本申请实施例中,目标标签策略确定模块340,包括:
目标数据内容匹配单元,用于若目标数据集中第一目标数据结构的填充率不满足要求,则将目标数据集中第二目标数据结构的数据内容,与所述第一目标数据结构的数据内容进行匹配;其中,所述第二目标数据结构为目标数据集中与所述第一目标数据结构不同的数据结构;
新候选标签策略确定单元,用于采用匹配成功的第二目标数据结构,替换所述候选标签策略中的第一目标数据结构,得到新候选标签策略;
间接确定单元,用于将所述新候选标签策略,作为目标数据集的目标标签策略。
在本申请实施例中,所述装置还包括:
第二目标数据结构填充率确定模块,用于确定目标数据集中第二目标数据结构的填充率;
替换执行模块,用于若所述第二目标数据结构的填充率满足要求,则执行替换所述候选标签策略中的第一目标数据结构的步骤。
在本申请实施例中,目标标签策略确定模块340,包括:
直接确定单元,用于若目标数据集中第一目标数据结构的填充率满足要求,则将所述候选标签策略,作为目标数据集的目标标签策略。
相应的,所述装置还包括:
标准化模块,用于根据数据标准,对所述目标数据集进行标准化处理;
执行判断模块,用于确定所述目标数据集的数据量信息,并根据所述数据量信息确定是否执行将目标数据集与预存标签策略进行数据结构匹配的步骤。
在本申请实施例中,所述执行判断模块,包括:
执行确定单元,用于若数据量信息满足如下条件,则执行将目标数据集与预存标签策略进行数据结构匹配的步骤:
数据量最小值大于或等于预设最小数据量阈值;
数据量最大值小于或等于预设最大数据量阈值。
本发明实施例的技术方案,通过匹配模块将目标数据集与预存标签策略进行数据结构匹配;候选标签策略确定模块将匹配成功的预存标签策略作为候选标签策略;填充率确定模块确定目标数据集与所述候选标签策略匹配成功的第一目标数据结构,以及所述第一目标数据结构的填充率;目标标签策略确定模块根据所述第一目标数据结构的填充率和所述候选标签策略,确定目标数据集的目标标签策略,解决了标签策略更新不及时,存在滞后性,且更新效率和准确性低的问题,从而实现了标签策略的及时自动更新。
图5为本发明一种实施例提供的一种设备的结构示意图。图5示出了适于用来实现本发明实施例的示例性设备412的框图。图5显示的设备412仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,设备412包括:一个或多个处理器416;存储器428,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器416执行,使得所述一个或多个处理器416实现本发明实施例所提供的数据处理策略调整方法,包括:
将目标数据集与预存标签策略进行数据结构匹配;
将匹配成功的预存标签策略作为候选标签策略;
确定目标数据集与所述候选标签策略匹配成功的第一目标数据结构,以及所述第一目标数据结构的填充率;
根据所述第一目标数据结构的填充率和所述候选标签策略,确定目标数据集的目标标签策略。
以通用设备的形式表现。设备412的组件可以包括但不限于:一个或者多个处理器或者处理器416,设备存储器428,连接不同设备组件(包括设备存储器428和处理器416)的总线418。
总线418表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
设备412典型地包括多种计算机设备可读存储介质。这些存储介质可以是任何能够被设备412访问的可用存储介质,包括易失性和非易失性存储介质,可移动的和不可移动的存储介质。
设备存储器428可以包括易失性存储器形式的计算机设备可读存储介质,例如随机存取存储器(RAM)430和/或高速缓存存储器432。设备412可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机设备存储介质。仅作为举例,存储设备434可以用于读写不可移动的、非易失性磁存储介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光存储介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据存储介质接口与总线418相连。存储器428可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块442的程序/实用工具440,可以存储在例如存储器428中,这样的程序模块462包括但不限于操作设备、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块462通常执行本发明所描述的实施例中的功能和/或方法。
设备412也可以与一个或多个外部设备414(例如键盘、指向设备、显示器426等)通信,还可与一个或者多个使得用户能与该设备412交互的设备通信,和/或与使得该设备412能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口422进行。并且,设备412还可以通过网络适配器420与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器420通过总线418与设备412的其它模块通信。应当明白,尽管图5中未示出,可以结合设备412使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID设备、磁带驱动器以及数据备份存储设备等。
处理器416通过运行存储在设备存储器428中的多个程序中其他程序的至少一个,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的一种数据处理策略调整方法。
本发明一种实施例提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种数据处理策略调整方法:
将目标数据集与预存标签策略进行数据结构匹配;
将匹配成功的预存标签策略作为候选标签策略;
确定目标数据集与所述候选标签策略匹配成功的第一目标数据结构,以及所述第一目标数据结构的填充率;
根据所述第一目标数据结构的填充率和所述候选标签策略,确定目标数据集的目标标签策略。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的存储介质的任意组合。计算机可读存储介质可以是计算机可读信号存储介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的设备、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明实施例中,计算机可读存储介质可以是任何包含或存储程序的有形存储介质,该程序可以被指令执行设备、装置或者器件使用或者与其结合使用。
计算机可读的信号存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号存储介质还可以是计算机可读存储介质以外的任何计算机可读存储介质,该计算机可读存储介质可以发送、传播或者传输用于由指令执行设备、装置或者器件使用或者与其结合使用的程序。
计算机可读存储介质上包含的程序代码可以用任何适当的存储介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或设备上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种数据处理策略调整方法,其特征在于,所述方法包括:
将目标数据集与预存标签策略进行数据结构匹配;
将匹配成功的预存标签策略作为候选标签策略;
确定目标数据集与所述候选标签策略匹配成功的第一目标数据结构,以及所述第一目标数据结构的填充率;
根据所述第一目标数据结构的填充率和所述候选标签策略,确定目标数据集的目标标签策略。
2.根据权利要求1所述的方法,其特征在于,所述数据结构包括:数据集编号和/或字段;
相应地,将目标数据集与预存标签策略进行数据结构匹配,包括:
将目标数据集的数据集编号与预存标签策略的数据集编号进行匹配;和/或,将目标数据集的字段与预存标签策略的字段进行匹配。
3.根据权利要求1所述的方法,其特征在于,根据所述第一目标数据结构的填充率和所述候选标签策略,确定目标数据集的目标标签策略,包括:
若目标数据集中第一目标数据结构的填充率不满足要求,则将目标数据集中第二目标数据结构的数据内容,与所述第一目标数据结构的数据内容进行匹配;其中,所述第二目标数据结构为目标数据集中与所述第一目标数据结构不同的数据结构;
采用匹配成功的第二目标数据结构,替换所述候选标签策略中的第一目标数据结构,得到新候选标签策略;
将所述新候选标签策略,作为目标数据集的目标标签策略。
4.根据权利要求3所述的方法,其特征在于,替换所述候选标签策略中的第一目标数据结构,得到新候选标签策略之前,还包括:
确定目标数据集中第二目标数据结构的填充率;
若所述第二目标数据结构的填充率满足要求,则执行替换所述候选标签策略中的第一目标数据结构的步骤。
5.根据权利要求1所述的方法,其特征在于,根据所述第一目标数据结构的填充率和所述候选标签策略,确定目标数据集的目标标签策略,包括:
若目标数据集中第一目标数据结构的填充率满足要求,则将所述候选标签策略,作为目标数据集的目标标签策略。
6.根据权利要求1所述的方法,其特征在于,将目标数据集与预存标签策略进行数据结构匹配之前,还包括:
根据数据标准,对所述目标数据集进行标准化处理;
确定所述目标数据集的数据量信息,并根据所述数据量信息确定是否执行将目标数据集与预存标签策略进行数据结构匹配的步骤。
7.根据权利要求6所述的方法,其特征在于,根据所述数据量信息确定是否执行将目标数据集与预存标签策略进行数据结构匹配的步骤,包括:
若数据量信息满足如下条件,则执行将目标数据集与预存标签策略进行数据结构匹配的步骤:
数据量最小值大于或等于预设最小数据量阈值;
数据量最大值小于或等于预设最大数据量阈值。
8.一种数据处理策略调整装置,其特征在于,所述装置包括:
匹配模块,用于将目标数据集与预存标签策略进行数据结构匹配;
候选标签策略确定模块,用于将匹配成功的预存标签策略作为候选标签策略;
填充率确定模块,用于确定目标数据集与所述候选标签策略匹配成功的第一目标数据结构,以及所述第一目标数据结构的填充率;
目标标签策略确定模块,用于根据所述第一目标数据结构的填充率和所述候选标签策略,确定目标数据集的目标标签策略。
9.一种数据处理策略调整设备,其特征在于,所述设备包括:一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一项所述的一种数据处理策略调整方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一项所述的一种数据处理策略调整方法。
CN202010186865.7A 2020-03-17 2020-03-17 数据处理策略调整方法、装置、设备及存储介质 Active CN111400282B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010186865.7A CN111400282B (zh) 2020-03-17 2020-03-17 数据处理策略调整方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010186865.7A CN111400282B (zh) 2020-03-17 2020-03-17 数据处理策略调整方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111400282A true CN111400282A (zh) 2020-07-10
CN111400282B CN111400282B (zh) 2023-06-09

Family

ID=71434330

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010186865.7A Active CN111400282B (zh) 2020-03-17 2020-03-17 数据处理策略调整方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111400282B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112528100A (zh) * 2020-12-18 2021-03-19 厦门市美亚柏科信息股份有限公司 一种标签策略推荐和打标方法、终端设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080256111A1 (en) * 2007-04-16 2008-10-16 Uri Haham Data generator apparatus testing data dependent applications, verifying schemas and sizing systems
US20150073719A1 (en) * 2013-08-22 2015-03-12 Genomoncology, Llc Computer-based systems and methods for analyzing genomes based on discrete data structures corresponding to genetic variants therein
US20170053002A1 (en) * 2015-08-18 2017-02-23 Fiserv, Inc. Generating integrated data records by correlating source data records from disparate data sources
CN106547915A (zh) * 2016-11-29 2017-03-29 上海轻维软件有限公司 基于模型库的智能数据提取方法
CN106708909A (zh) * 2015-11-18 2017-05-24 阿里巴巴集团控股有限公司 数据质量的检测方法和装置
CN110633318A (zh) * 2019-09-23 2019-12-31 北京锐安科技有限公司 一种数据提取的处理方法、装置、设备和存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080256111A1 (en) * 2007-04-16 2008-10-16 Uri Haham Data generator apparatus testing data dependent applications, verifying schemas and sizing systems
US20150073719A1 (en) * 2013-08-22 2015-03-12 Genomoncology, Llc Computer-based systems and methods for analyzing genomes based on discrete data structures corresponding to genetic variants therein
US20170053002A1 (en) * 2015-08-18 2017-02-23 Fiserv, Inc. Generating integrated data records by correlating source data records from disparate data sources
CN106708909A (zh) * 2015-11-18 2017-05-24 阿里巴巴集团控股有限公司 数据质量的检测方法和装置
CN106547915A (zh) * 2016-11-29 2017-03-29 上海轻维软件有限公司 基于模型库的智能数据提取方法
CN110633318A (zh) * 2019-09-23 2019-12-31 北京锐安科技有限公司 一种数据提取的处理方法、装置、设备和存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112528100A (zh) * 2020-12-18 2021-03-19 厦门市美亚柏科信息股份有限公司 一种标签策略推荐和打标方法、终端设备及存储介质

Also Published As

Publication number Publication date
CN111400282B (zh) 2023-06-09

Similar Documents

Publication Publication Date Title
CN110826494B (zh) 标注数据质量评价方法、装置、计算机设备及存储介质
CN113238922B (zh) 一种日志分析方法、装置、电子设备及介质
CN110750654A (zh) 知识图谱获取方法、装置、设备和介质
CN107301248B (zh) 文本的词向量构建方法和装置、计算机设备、存储介质
CN112769802B (zh) 基于服务端的访问校验方法、装置、电子设备及存储介质
CN110688536A (zh) 一种标签预测方法、装置、设备和存储介质
CN112613569A (zh) 图像识别方法、图像分类模型的训练方法及装置
CN115391322A (zh) 数据检核方法、装置、设备、存储介质及程序产品
CN110675249A (zh) 网络借贷的匹配方法、装置、服务器和存储介质
CN112364145A (zh) 一种工单处理方法、装置、电子设备及存储介质
CN113807416B (zh) 一种模型训练方法、装置、电子设备以及存储介质
CN110716804A (zh) 无用资源的自动删除方法、装置、存储介质及电子设备
CN111400282B (zh) 数据处理策略调整方法、装置、设备及存储介质
CN112651172B (zh) 一种降雨峰值类型划分方法、装置、设备和存储介质
CN110633318A (zh) 一种数据提取的处理方法、装置、设备和存储介质
CN113553826A (zh) 结合rpa和ai的信息录入方法、装置及电子设备
CN110390463B (zh) 风控数据处理方法、装置及终端设备
CN112613072A (zh) 基于档案大数据的信息管理方法、管理系统及管理云平台
CN111737082A (zh) 容器及容器应用的监控方法、装置、设备和介质
CN114385891B (zh) 数据搜索方法、装置、电子设备及存储介质
CN113434585B (zh) 资源保存方法及设备
CN114925050A (zh) 基于知识库的数据核查方法、装置、电子设备及存储介质
CN115660451A (zh) 基于rpa的供应商风险预警方法、装置、设备及介质
CN112559641B (zh) 拉链表的处理方法及装置、可读存储介质、电子设备
CN114564354A (zh) 数据库性能监控方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant