CN113850395A - 一种数据处理方法及系统 - Google Patents

一种数据处理方法及系统 Download PDF

Info

Publication number
CN113850395A
CN113850395A CN202111120693.4A CN202111120693A CN113850395A CN 113850395 A CN113850395 A CN 113850395A CN 202111120693 A CN202111120693 A CN 202111120693A CN 113850395 A CN113850395 A CN 113850395A
Authority
CN
China
Prior art keywords
data
processed
information
data processing
key calculation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111120693.4A
Other languages
English (en)
Other versions
CN113850395B (zh
Inventor
李学峰
杨健
方磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zetyun Tech Co ltd
Original Assignee
Beijing Zetyun Tech Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zetyun Tech Co ltd filed Critical Beijing Zetyun Tech Co ltd
Priority to CN202111120693.4A priority Critical patent/CN113850395B/zh
Publication of CN113850395A publication Critical patent/CN113850395A/zh
Application granted granted Critical
Publication of CN113850395B publication Critical patent/CN113850395B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种数据处理方法及系统。所述方法包括:获取待处理数据以及对应的步骤信息;根据待处理数据和所述步骤信息,确定与所述待处理数据对应的目标关键计算信息;根据所述目标关键计算信息恢复对应的数据处理模块;利用所述数据处理模块处理所述待处理数据。本发明实施例中,通过预先存储的模型训练过程中数据预处理步骤对中的关键计算信息快速计算预期结果,且通过存储数据预处理步骤对中的关键计算信息减小数据占用的存储空间,提升数据处理速度。

Description

一种数据处理方法及系统
技术领域
本发明涉及大数据处理技术领域,尤其涉及一种数据处理方法及系统。
背景技术
随着社会信息化和智能化水平提高,使用大数据系统训练业务模型,并使用训练好的业务模型实现大数据业务智能化处理也逐渐成为大数据行业的通用手段。然而现有的使用大数据系统训练业务模型过程中,通常需要对数据行预处理,再利用各种成熟的机器学习算法进行模型训练;然后对训练得到的模型进行评估,根据评估结果调整数据预处理的控制参数和机器学习模型的训练参数,重新进行模型训练直到得到满意的模型。一般情况下调参和模型训练都需要经过多轮迭代,因此执行多次数据预处理,通常大数据系统会存储整个数据预处理过程,会占用大量的计算机资源,从而导致现有的模型训练需要消耗较大的计算资源和较长的计算时间。
发明内容
本发明实施例提供一种数据处理方法及系统,可以解决现有的模型训练需要消耗较大的计算资源和较长的计算时间。
为解决上述技术问题,本发明提供一种数据处理方法,所述方法包括:
获取待处理数据以及对应的步骤信息;
根据待处理数据和所述步骤信息,确定与所述待处理数据对应的目标关键计算信息;
根据所述目标关键计算信息恢复对应的数据处理模块;
利用所述数据处理模块处理所述待处理数据。
可选的,上述方法中,所述获取待处理数据以及对应的步骤信息的步骤包括:
获取所述待处理数据;
根据所述待处理数据,获取所述对应的步骤信息。
可选的,上述方法中,所述根据待处理数据和所述步骤信息,确定与所述待处理数据对应的目标关键计算信息的步骤包括:
从预先存储的多个关键计算信息中获取与所述待处理数据和所述步骤信息对应的关键计算信息,得到所述目标关键计算信息。
可选的,上述方法中,所述从预先存储的多个关键计算信息中获取与所述待处理数据和所述步骤信息对应的关键计算信息的步骤包括:
根据所述待处理数据和所述步骤信息,获取目标关键值;
从预先存储的多个关键计算信息中获取与所述目标关键值匹配的关键计算信息,得到目标关键计算信息。
可选的,上述方法中,所述根据所述待处理数据和所述步骤信息,获取目标关键值的步骤包括:
根据所述步骤信息,确定与所述步骤信息对应的步骤参数信息;
根据所述待处理数据、步骤信息以及所述步骤参数信息,计算目标关键值。
可选的,上述方法中,在所述根据待处理数据和所述步骤信息,确定与所述待处理数据对应的目标关键计算信息之前,所述方法还包括:
判断是否存在所述待处理数据和所述步骤信息对应的数据处理结果;
若存在对应的数据处理结果,获取所述数据处理结果;
若不存在对应的数据处理结果,执行所述根据待处理数据和所述步骤信息,确定与所述待处理数据对应的目标关键计算信息的步骤。
可选的,上述方法中,所述根据所述待处理数据、步骤信息以及所述步骤参数信息,计算目标关键值的步骤包括:
分别获取所述步骤信息对应的第一关键值、所述待处理数据对应的第二关键值以及所述步骤参数信息对应的第三关键值;
基于所述第一关键值、所述第二关键值以及所述第三关键值生成所述目标关键值。
可选的,上述方法中,所述获取所述步骤信息对应的第一关键值包括:
将所述步骤信息进行序列化处理;
基于摘要算法为所述序列化处理后的步骤信息生成第一关键值。
可选的,上述方法中,所述获取所述待处理数据对应的第二关键值包括:
通过摘要算法为所述待处理本数据的每个数据集的每一行数据生成一个行数据的关键值;
使用所述摘要算法每一个所述行数据的关键值生成所述第二关键值。
可选的,上述方法中,所述获取所述步骤参数信息对应的第三关键值包括:
将所述步骤参数信息进行序列化;
基于摘要算法为所述序列化处理后的参数信息生成第三关键值。
本发明实施例还提供了一种数据处理系统,所述数据处理系统包括:
第一获取模块,用于获取待处理数据以及对应的步骤信息;
确定模块,用于根据待处理数据和所述步骤信息,确定与所述待处理数据对应的目标关键计算信息;
恢复模块,用于根据所述目标关键计算信息恢复对应的数据处理模块;
处理模块,用于利用所述数据处理模块处理所述待处理数据。
可选的,上述数据处理系统中,所述第一获取模块包括:
第一获取子模块,用于获取所述待处理数据;
第二获取子模块,用于根据所述待处理数据,获取所述对应的步骤信息。
可选的,上述数据处理系统中,所述确定模块包括:
第三获取子模块,用于从预先存储的多个关键计算信息中获取与所述待处理数据和所述步骤信息对应的关键计算信息,得到所述目标关键计算信息。
可选的,上述数据处理系统中,所述第三获取子模块包括:
获取子单元,用于根据所述待处理数据和所述步骤信息,获取目标关键值;
得到子单元,用于从预先存储的多个关键计算信息中获取与所述目标关键值匹配的关键计算信息,得到目标关键计算信息。
可选的,上述数据处理系统中,所述获取子单元具体用于:
根据所述步骤信息,确定与所述步骤信息对应的步骤参数信息;
根据所述待处理数据、步骤信息以及所述步骤参数信息,计算目标关键值。
可选的,所述数据处理系统还包括:
判断模块,用于在所述根据待处理数据和所述步骤信息,确定与所述待处理数据对应的目标关键计算信息之前,判断是否存在所述待处理数据和所述步骤信息对应的数据处理结果;
第二获取模块,用于若存在对应的数据处理结果,获取所述数据处理结果;
所述确定模块具体用于,若不存在对应的数据处理结果,执行所述根据待处理数据和所述步骤信息,确定与所述待处理数据对应的目标关键计算信息的步骤。
可选的,上述数据处理系统中,所述获取子单元用于执行所述根据所述待处理数据、步骤信息以及所述步骤参数信息,计算目标关键值,具体包括:
分别获取所述步骤信息对应的第一关键值、所述待处理数据对应的第二关键值以及所述步骤参数信息对应的第三关键值;
基于所述第一关键值、所述第二关键值以及所述第三关键值生成所述目标关键值。
可选的,上述数据处理系统中,所述获取子单元用于执行所述获取所述步骤信息对应的第一关键值,具体包括:
将所述步骤信息进行序列化处理;
基于摘要算法为所述序列化处理后的步骤信息生成第一关键值。
可选的,上述数据处理系统中,所述获取子单元用于执行所述获取所述待处理数据对应的第二关键值,具体包括:
通过摘要算法为所述待处理本数据的每个数据集的每一行数据生成一个行数据的关键值;
使用所述摘要算法每一个所述行数据的关键值生成所述第二关键值。
可选的,上述数据处理系统中,所述获取子单元用于执行所述获取所述步骤参数信息对应的第三关键值,具体包括:
将所述步骤参数信息进行序列化;
基于摘要算法为所述序列化处理后的参数信息生成第三关键值。
本发明实施例还提供了一种数据处理系统,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上述数据处理方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如上述数据处理方法的步骤。
本发明实施例通过预先存储的模型训练过程中数据预处理步骤对中的关键计算信息快速计算预期结果,且通过存储数据预处理步骤对中的关键计算信息减小模型数据占用的存储空间,提升数据处理速度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获取其他的附图。
图1是本发明实施例提供的一种数据处理方法的流程图;
图2是本发明实施例提供的一种计算目标关键值的框图;
图3是本发明实施例提供的一种数据处理系统的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获取的所有其他实施例,都属于本发明保护的范围。
参见图1,图1是本发明实施例提供的数据处理方法的流程图,如图1所示,数据处理方法包括以下步骤:
步骤101,获取待处理数据以及对应的步骤信息。
其中,所述步骤信息可以包括步骤的类名、构造参数、功能描述、输入输出信息等。
其中,上述待处理数据和步骤信息可以是用户通过外部输入设备(例如,键盘、人机交互设备)输入的;或者,还可以从其他数据系统中获取到的,本发明对此不作限定。
需要说明的是,本发明对于待处理数据和步骤信息获取先后不作具体限定,可以先获取步骤信息,后获取待处理数据;或者,也可以是同时获取待处理数据和步骤信息;或者,还可以是先获取待处理数据,再获取步骤信息。
具体的,在获取到待处理数据后,可以基于待处理数据确定步骤信息。基于此,所述获取待处理数据以及对应的步骤信息的步骤101包括:获取所述待处理数据;根据所述待处理数据,获取所述对应的步骤信息。其中,根据所述待处理数据,获取所述对应的步骤信息具体包括如下实现方式:在一个数据处理流中,根据待处理数据,确定该待处理数据对应的上下游信息,从而根据待处理数据的上下游信息确定对应的步骤信息;或者,待处理数据中包括输入数据和输出数据,可以通过分析输入数据和输出数据的对应关系,确定与该待处理数据对应的步骤信息。
具体的,在机器学习的模型训练过程中,在进行模型训练之前,通常会对待训练样本数据进行数据预处理,所述待处理数据包括待训练样本数据。
其中,所述待处理数据可以是结构化数据,也可以是非结构化数据。结构化数据通常是由二维表结构逻辑表达和实现的数据。例如,以学生考试成绩为例,所述待处理数据的数据结构如下所示:
学生成绩
学号:字符串
姓名:字符串
班级:字符串
性别:字符串
成绩:各科成绩
语文:整数
数学:整数
英语:整数。
步骤102,根据待处理数据和所述步骤信息,确定与所述待处理数据对应的目标关键计算信息。
所述根据待处理数据和所述步骤信息,确定与所述待处理数据对应的目标关键计算信息的步骤102包括:
从预先存储的多个关键计算信息中获取与所述待处理数据和所述步骤信息对应的关键计算信息,得到所述目标关键计算信息。
具体的,本发明实施例中,预先存储多个关键计算信息中可以通过以下方式实现:将数据预处理的每个步骤拆分为两个阶段,每个步骤包括两个阶段,数据扫描分析阶段和数据处理阶段。其中数据扫描分析阶段为对待处理数据进行扫描分析,得到出对待训练样本数据进行处理的关键计算信息。需要说明的是,有些数据预处理步骤的逻辑比较复杂,可能需要经过多次数据扫描和汇总才能计算出需要的关键计算信息。数据处理阶段为利用数据扫描分析阶段得到的计算的规则(即关键计算信息)对数据进行处理,得到所述数据处理步骤对应的数据处理结果。
在进行数据预处理过程中,可以显示存储策略配置界面,用户可以在存储策略配置界面执行配置操作,选择存储数据预处理过程中的关键计算信息还是数据处理结果。例如可以基于用户在存储策略配置界面选择“存储规则”的配置项的操作实现存储关键计算信息;或者基于用户在存储策略配置界面选择“存储数据”的配置项的操作实现存储数据处理结果。另外,用户还可以在该策略配置界面选择存储的具体规则信息,即指定存储当前数据处理步骤的属性。当选择“存储规则”时,则在第一次处理完成数据处理步骤之后,只将数据扫描分析阶段计算得到的关键计算信息存储到缓存空间中,再次处理相同输入数据时首先读取并恢复已经存储的关键计算信息,然后利用恢复的关键计算信息进行数据处理阶段操作得到输出数据。例性的,对于MinMaxScaler这个数据处理步骤,需要存储数据中每一列的最大值(data_max_)和最小值(data_min_)这两个属性;如果不指定任何属性的话,则表示存储整个步骤在计算机内存中的信息。
本发明实施例,由于仅是保存数据扫描分析阶段生成的关键计算信息,而不用保存每个数据预处理步骤后的数据,既能提升整体的处理速度又不占用过多额外的存储空间。
可选的,所述从预先存储的多个关键计算信息中的获取与所述待处理数据和所述步骤信息对应的关键计算信息的步骤包括:
根据所述待处理数据和所述步骤信息,获取目标关键值;
从预先存储的多个关键计算信息中获取与所述目标关键值匹配的关键计算信息,得到目标关键计算信息。
所述根据所述待处理数据和所述步骤信息,获取目标关键值的步骤包括:
根据所述步骤信息,确定与所述步骤信息对应的步骤参数信息;
根据所述待处理数据、步骤信息以及所述步骤参数信息,计算目标关键值。
其中,根据步骤信息例如步骤的类名、构造参数等,确定相应参数的具体数值信息。
所述根据所述待处理数据、步骤信息以及所述步骤参数信息,计算目标关键值的步骤包括:
分别获取所述步骤信息对应的第一关键值、所述待处理数据对应的第二关键值以及所述步骤参数信息对应的第三关键值;
基于所述第一关键值、所述第二关键值以及所述第三关键值生成所述目标关键值。
所述获取所述步骤信息对应的第一关键值包括:
将所述步骤信息进行序列化处理;基于摘要算法为所述序列化处理后的步骤信息生成第一关键值。
所述获取所述待处理数据对应的第二关键值包括:
通过摘要算法为所述待处理本数据的每个数据集的每一行数据生成一个行数据的关键值;使用所述摘要算法每一个所述行数据的关键值生成所述第二关键值。所述获取所述步骤参数信息对应的第三关键值包括:将所述步骤参数信息进行序列化;基于摘要算法为所述序列化处理后的参数信息生成第三关键值。
具体的,本发明实施例中采用所述步骤信息、所述待处理数据以及所述步骤参数信息三者生成一个唯一对应的目标关键值(即KEY值)。在当数据处理步骤被调用时,首先判断相同的数据处理步骤对相同的数据在相同参数条件下是否曾经被处理过,当缓存中找到了相同的KEY值时可以利用缓存数据得到关键计算信息。如果在缓存中没有找到相同的KEY的话,则需要执行完整的数据处理步骤,然后将关键计算信息和KEY值存储到缓存中以备后用。
本发明实施例中采用分层摘要的方式生成目标KEY,如图2所示。摘要(Digest)算法能够在利用分批提供的数据中计算出唯一的、不重复的、固定大小的KEY。摘要算法可以是MD5、SHA等算法中的任一种。分层的第一层是基于获取到的“本次处理所采用的步骤信息”、“本次处理的数据中的每个数据集”、“本次处理数据时采用的步骤参数信息”分别对应的KEYi,利用摘要算法为这些KEY生成一个新的KEY,这个新的KEY即目标KEY。
其中,第二层为分别获取KEYi,在计算各个KEYi时可以并行执行,以提高计算速度,具体如下:
第二层中为“本次处理所采用的步骤信息”生成KEY,是通过软件开发语言提供的方式,动态获取创建当前数据处理步骤的信息,包括类名、构造参数等,将这些信息依次在内存中进行序列化处理,通过摘要算法为序列化得到的数据生成KEY。
第二层中为“本次处理的数据中的每个数据集”生成KEY,首先通过摘要算法为每一行数据生成一个“行数据的KEY”,这一步是可并行处理的,然后再利用摘要算法为所有“行数据的KEY”生成一个表示整个数据集的KEY。
第二层中为“本次处理数据时采用的步骤参数信息”生成KEY,是将步骤参数信息依次在内存中进行序列化处理,通过摘要算法为序列化得到的数据生成KEY。
可选的,当从预先存储的多个关键计算信息中没有获取到与所述目标关键值匹配的关键计算信息时,则需要执行完整的数据处理步骤,即执行数据扫描分析阶段和数据处理阶段,从而完成数据预处理。
本发明实施例通过为待处理数据和步骤信息生成唯一的KEY值,在调用数据处理步骤时可以通过KEY值实现精确定位,从而提高计算效率。
步骤103,根据所述目标关键计算信息恢复对应的数据处理模块。
具体的,数据处理系统从缓存中读取关键计算信息,利用关键计算信息恢复对应的数据处理步模块中的数据处理阶段,数据处理模块不需要执行所述数据扫描分析阶段,仅是需要执数据处理阶段。
示例性的,对于:MinMaxScaler这个步骤,直接执行数据处理阶段,利用data_min和data_max这两个属性对每个数据进行变换:xt=(x-data_min)/(data_max-data_min),而不需要再执行数据扫描分析阶段。
步骤104,利用所述数据处理模块处理所述待处理数据。
可选的,在所述根据待处理数据和所述步骤信息,确定与所述待处理数据对应的目标关键计算信息之前,所述方法还包括:
判断是否存在所述待处理数据和所述步骤信息对应的数据处理结果;
若存在对应的数据处理结果,获取所述数据处理结果;
若不存在对应的数据处理结果,执行所述根据待处理数据和所述步骤信息,确定与所述待处理数据对应的目标关键计算信息的步骤。
具体的,数据处理系统根据所述待处理数据和所述步骤信息,获取目标关键值,判断缓存中是否存储有与目标关键值匹配数据处理结果,若存在对应的数据处理结果,则获取与所述目标关键值对应的所述数据处理结果,使得数据处理系统直接调用存储的所述数据处理步骤对应的中间结果,而不需要执行所述数据处理步骤的数据扫描分析阶段和数据处理阶段。如果不存在对应的数据处理结果,则执行所述根据待处理数据和所述步骤信息,确定与所述待处理数据对应的目标关键计算信息的步骤102。
这里需要说明的是,用于判断缓存中是否存储有匹配数据处理结果的目标关键值,与,获取关键计算信息使用的目标关键值,两者可以相同,也可以不同。本发明优选的两者相同。本发明实施例通过预先存储的模型训练过程中数据预处理步骤对中的关键计算信息快速计算预期结果,且通过存储数据预处理步骤对中的关键计算信息减小模型数据占用的存储空间,提升数据处理速度。
基于以上实施例提供的数据处理方法,本发明实施例还提供了实施上述方法的数据处理系统,请参照图3,本发明实施例提供的数据处理系统300包括:
第一获取模块301,用于获取待处理数据以及对应的步骤信息;
确定模块302,用于根据待处理数据和所述步骤信息,确定与所述待处理数据对应的目标关键计算信息;
恢复模块303,用于根据所述目标关键计算信息恢复对应的数据处理模块;
处理模块304,用于利用所述数据处理模块处理所述待处理数据。
可选的,所述第一获取模块301包括:
第一获取子模块,用于获取所述待处理数据;
第二获取子模块,用于根据所述待处理数据,获取所述对应的步骤信息。
可选的,所述确定模块302包括:
第三获取子模块,用于从预先存储的多个关键计算信息中获取与所述待处理数据和所述步骤信息对应的关键计算信息,得到所述目标关键计算信息。
可选的,所述第三获取子模块包括:
获取子单元,用于根据所述待处理数据和所述步骤信息,获取目标关键值;
得到子单元,用于从预先存储的多个关键计算信息中获取与所述目标关键值匹配的关键计算信息,得到目标关键计算信息。
可选的,所述获取子单元具体用于:
根据所述步骤信息,确定与所述步骤信息对应的步骤参数信息;
根据所述待处理数据、步骤信息以及所述步骤参数信息,计算目标关键值。
可选的,所述数据处理系统300还包括:
判断模块,用于在所述根据待处理数据和所述步骤信息,确定与所述待处理数据对应的目标关键计算信息之前,判断是否存在所述待处理数据和所述步骤信息对应的数据处理结果;
第二获取模块,用于若存在对应的数据处理结果,获取所述数据处理结果;
所述确定模块具体用于,若不存在对应的数据处理结果,执行所述根据待处理数据和所述步骤信息,确定与所述待处理数据对应的目标关键计算信息的步骤。
可选的,所述获取子单元用于执行所述根据所述待处理数据、步骤信息以及所述步骤参数信息,计算目标关键值,具体包括:
分别获取所述步骤信息对应的第一关键值、所述待处理数据对应的第二关键值以及所述步骤参数信息对应的第三关键值;
基于所述第一关键值、所述第二关键值以及所述第三关键值生成所述目标关键值。
可选的,所述获取子单元用于执行所述获取所述步骤信息对应的第一关键值,具体包括:
将所述步骤信息进行序列化处理;
基于摘要算法为所述序列化处理后的步骤信息生成第一关键值。
可选的,所述获取子单元用于执行所述获取所述待处理数据对应的第二关键值,具体包括:
通过摘要算法为所述待处理本数据的每个数据集的每一行数据生成一个行数据的关键值;
使用所述摘要算法每一个所述行数据的关键值生成所述第二关键值。
可选的,所述获取子单元用于执行所述获取所述步骤参数信息对应的第三关键值,具体包括:
将所述步骤参数信息进行序列化;
基于摘要算法为所述序列化处理后的参数信息生成第三关键值。
本发明实施例提供一种数据处理系统,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上述实施例所述的数据处理方法的步骤。
本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如上述实施例所述的数据处理方法的步骤。
本发明实施例还提供一种可读存储介质,可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述数据处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种数据处理方法,其特征在于,所述方法包括:
获取待处理数据以及对应的步骤信息;
根据待处理数据和所述步骤信息,确定与所述待处理数据对应的目标关键计算信息;
根据所述目标关键计算信息恢复对应的数据处理模块;
利用所述数据处理模块处理所述待处理数据。
2.根据权利要求1所述的方法,其特征在于,所述获取待处理数据以及对应的步骤信息的步骤包括:
获取所述待处理数据;
根据所述待处理数据,获取所述对应的步骤信息。
3.根据权利要求1或2所述的方法,其特征在于,所述根据待处理数据和所述步骤信息,确定与所述待处理数据对应的目标关键计算信息的步骤包括:
从预先存储的多个关键计算信息中获取与所述待处理数据和所述步骤信息对应的关键计算信息,得到所述目标关键计算信息。
4.根据权利要求3所述的方法,其特征在于,所述从预先存储的多个关键计算信息中获取与所述待处理数据和所述步骤信息对应的关键计算信息的步骤包括:
根据所述待处理数据和所述步骤信息,获取目标关键值;
从预先存储的多个关键计算信息中获取与所述目标关键值匹配的关键计算信息,得到目标关键计算信息。
5.根据权利要求1所述的方法,其特征在于,在所述根据待处理数据和所述步骤信息,确定与所述待处理数据对应的目标关键计算信息之前,所述方法还包括:
判断是否存在所述待处理数据和所述步骤信息对应的数据处理结果;
若存在对应的数据处理结果,获取所述数据处理结果;
若不存在对应的数据处理结果,执行所述根据待处理数据和所述步骤信息,确定与所述待处理数据对应的目标关键计算信息的步骤。
6.一种数据处理系统,其特征在于,所述数据处理系统包括:
第一获取模块,用于获取待处理数据以及对应的步骤信息;
确定模块,用于根据待处理数据和所述步骤信息,确定与所述待处理数据对应的目标关键计算信息;
恢复模块,用于根据所述目标关键计算信息恢复对应的数据处理模块;
处理模块,用于利用所述数据处理模块处理所述待处理数据。
7.根据权利要求6所述的数据处理系统,其特征在于,所述第一获取模块包括:
第一获取子模块,用于获取所述待处理数据;
第二获取子模块,用于根据所述待处理数据,获取所述对应的步骤信息。
8.根据权利要求6或7所述的数据处理系统,其特征在于,所述确定模块包括:
第三获取子模块,用于从预先存储的多个关键计算信息中获取与所述待处理数据和所述步骤信息对应的关键计算信息,得到所述目标关键计算信息。
9.根据权利要求8所述的数据处理系统,其特征在于,所述第三获取子模块包括:
获取子单元,用于根据所述待处理数据和所述步骤信息,获取目标关键值;
得到子单元,用于从预先存储的多个关键计算信息中获取与所述目标关键值匹配的关键计算信息,得到目标关键计算信息。
10.根据权利要求6所述的数据处理系统,其特征在于,所述数据处理系统还包括:
判断模块,用于在所述根据待处理数据和所述步骤信息,确定与所述待处理数据对应的目标关键计算信息之前,判断是否存在所述待处理数据和所述步骤信息对应的数据处理结果;
第二获取模块,用于若存在对应的数据处理结果,获取所述数据处理结果;
所述确定模块具体用于,若不存在对应的数据处理结果,执行所述根据待处理数据和所述步骤信息,确定与所述待处理数据对应的目标关键计算信息的步骤。
CN202111120693.4A 2021-09-24 2021-09-24 一种数据处理方法及系统 Active CN113850395B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111120693.4A CN113850395B (zh) 2021-09-24 2021-09-24 一种数据处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111120693.4A CN113850395B (zh) 2021-09-24 2021-09-24 一种数据处理方法及系统

Publications (2)

Publication Number Publication Date
CN113850395A true CN113850395A (zh) 2021-12-28
CN113850395B CN113850395B (zh) 2022-11-25

Family

ID=78979079

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111120693.4A Active CN113850395B (zh) 2021-09-24 2021-09-24 一种数据处理方法及系统

Country Status (1)

Country Link
CN (1) CN113850395B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023207832A1 (zh) * 2022-04-26 2023-11-02 华为技术有限公司 数据处理装置的控制方法与装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7899838B1 (en) * 2004-04-21 2011-03-01 Perot Systems Corporation Business rules preprocessing
CN105447090A (zh) * 2015-11-05 2016-03-30 华中科技大学 一种自动化数据挖掘预处理方法
CN107491549A (zh) * 2017-08-29 2017-12-19 云熠信息科技有限公司 一种数据处理方法及系统
CN109597805A (zh) * 2018-11-07 2019-04-09 平安科技(深圳)有限公司 一种数据处理方法、电子设备及存储介质
CN110457348A (zh) * 2018-05-02 2019-11-15 北京三快在线科技有限公司 一种数据处理方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7899838B1 (en) * 2004-04-21 2011-03-01 Perot Systems Corporation Business rules preprocessing
CN105447090A (zh) * 2015-11-05 2016-03-30 华中科技大学 一种自动化数据挖掘预处理方法
CN107491549A (zh) * 2017-08-29 2017-12-19 云熠信息科技有限公司 一种数据处理方法及系统
CN110457348A (zh) * 2018-05-02 2019-11-15 北京三快在线科技有限公司 一种数据处理方法及装置
CN109597805A (zh) * 2018-11-07 2019-04-09 平安科技(深圳)有限公司 一种数据处理方法、电子设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023207832A1 (zh) * 2022-04-26 2023-11-02 华为技术有限公司 数据处理装置的控制方法与装置

Also Published As

Publication number Publication date
CN113850395B (zh) 2022-11-25

Similar Documents

Publication Publication Date Title
CN110837550B (zh) 基于知识图谱的问答方法、装置、电子设备及存储介质
CN106774975B (zh) 输入方法和装置
JP2018536920A (ja) テキスト情報処理方法およびデバイス
CN109033261B (zh) 图像处理方法、装置、处理设备及其存储介质
JP2006252333A (ja) データ処理方法、データ処理装置およびそのプログラム
CN112052331A (zh) 一种处理文本信息的方法及终端
US20150121200A1 (en) Text processing apparatus, text processing method, and computer program product
CN112685550B (zh) 智能问答方法、装置、服务器及计算机可读存储介质
CN113850395B (zh) 一种数据处理方法及系统
CN113641767A (zh) 实体关系抽取方法、装置、设备及存储介质
CN116091113A (zh) 营销模型数据处理方法、系统及计算机可读存储介质
CN115101069A (zh) 语音控制方法、装置、设备、存储介质以及程序产品
US20210089614A1 (en) Automatically Styling Content Based On Named Entity Recognition
US20210312333A1 (en) Semantic relationship learning device, semantic relationship learning method, and storage medium storing semantic relationship learning program
CN117763126A (zh) 知识检索方法、设备、存储介质及装置
CN116824609B (zh) 文档版式检测方法、装置和电子设备
US11971918B2 (en) Selectively tagging words based on positional relationship
CN116561338A (zh) 工业知识图谱生成方法、装置、设备及存储介质
JP7099254B2 (ja) 学習方法、学習プログラム及び学習装置
CN114445682A (zh) 训练模型的方法、装置、电子设备、存储介质及产品
JP2007026347A (ja) テキストマイニング装置、テキストマイニング方法およびテキストマイニングプログラム
Munyaradzi et al. Quality assessment in crowdsourced indigenous language transcription
CN117763140B (zh) 基于计算特征网络的精准医学信息结论生成方法
US11960823B1 (en) Missing glyph replacement system
US20240037449A1 (en) Teaching device, teaching method, and computer program product

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant