CN109284285A - 数据处理方法、装置、计算机设备及计算机可读存储介质 - Google Patents
数据处理方法、装置、计算机设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN109284285A CN109284285A CN201811044414.9A CN201811044414A CN109284285A CN 109284285 A CN109284285 A CN 109284285A CN 201811044414 A CN201811044414 A CN 201811044414A CN 109284285 A CN109284285 A CN 109284285A
- Authority
- CN
- China
- Prior art keywords
- factor
- combined
- weight
- master pattern
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 16
- 238000003860 storage Methods 0.000 title claims abstract description 10
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 71
- 238000000034 method Methods 0.000 claims abstract description 39
- 238000012545 processing Methods 0.000 claims abstract description 32
- 238000013499 data model Methods 0.000 claims abstract description 24
- 238000012549 training Methods 0.000 claims description 37
- 238000004590 computer program Methods 0.000 claims description 11
- 230000015654 memory Effects 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 8
- 238000012217 deletion Methods 0.000 description 5
- 230000037430 deletion Effects 0.000 description 5
- 108090000695 Cytokines Proteins 0.000 description 4
- 102000004127 Cytokines Human genes 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 229920006395 saturated elastomer Polymers 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种数据处理方法、装置、计算机设备及计算机可读存储介质,涉及数据处理技术领域,可以通过主因子生成的标准模型,并通过主因子与待结合因子生成的调整模型,采用标准模型和调整模型,对待结合因子的权重进行调整,既保证了获取到的待结合因子的实际权重的准确性,还保证了后续建立的数据模型与实际情况相符。所述方法包括:在待处理数据中提取预设数目个主因子,确定标准模型;获取待结合因子,基于预设数目个主因子和待结合因子,生成调整模型;基于标准模型和调整模型,对待结合因子进行数据处理,生成待结合因子的实际权重。
Description
技术领域
本发明涉及数据处理技术领域,特别是涉及一种数据处理方法、装置、计算机设备及计算机可读存储介质。
背景技术
随着信息技术的飞速发展,计算机和网络已经成为日常办公、通讯交流和协作互动的必备工具和途径,各公司在日常工作中通常会采用信息系统中的数据建立模型,便于对数据的统一管理。在基于数据建立模型时,通常需要确定每个数据中数据因子的权重,并基于权重进行数据模型的建立。其中,信息系统中包括的数据来自不同的数据源,属于混合数据,混合数据的饱和度使不同的,有些数据的饱和度极低,无法满足建立数据模型的需求,这样,需要对数据进行处理,提高数据的饱和度,并确定处理后数据中数据因子的实际权重,进而建立数据模型。
相关技术中,对数据进行处理的实质为对数据中的空值进行处理,具体的方式大概有两类:移除空值和填补空值。在对数据中的空值进行移除时,需要将数据中所有含有空值的记录移除,随后确定移除空值后数据中数据因子的权重;在对数据中的空值进行填补时,常用方法诸如填0,填中位数,向前/向后填充等,还有基于统计学分布的填充方法,并确定填充空值后数据中数据因子的权重。
在实现本发明的过程中,发明人发现相关技术至少存在以下问题:
如果移除数据中所有空值的数据,则会减少数据量,导致可以用来分析及建立数据模型的数据的数量将非常少;如果对数据中所有空值的数据样本进行填补,则会改变数据内部的联合分布特性,尤其对于某些饱和度较低的数据特征而言,在进行数据处理后,得到的数据中各个因子的权重是不真实的,无法得出数据中各个因子的实际因子权重,导致建立的数据模型与实际情况不符。
发明内容
有鉴于此,本发明提供了一种数据处理方法、装置、计算机设备及计算机可读存储介质,主要目的在于解决目前的得到的数据中各个因子的权重是不真实的,无法得出数据中各个因子的实际因子权重,导致建立的数据模型与实际情况不符的问题。
依据本发明第一方面,提供了一种数据处理方法,该方法包括:
在待处理数据中提取预设数目个主因子,确定标准模型,所述标准模型由预设数目个主因子通过模型训练生成,所述主因子的饱和度大于第一阈值;
获取待结合因子,基于所述预设数目个主因子和所述待结合因子,生成调整模型,所述待结合因子的饱和度大于第二阈值且小于第一阈值;
基于所述标准模型和所述调整模型,对所述待结合因子进行数据处理,生成所述待结合因子的实际权重。
在另一个实施例中,所述在待处理数据中提取预设数目个主因子,确定标准模型,包括:
在所述待处理数据中获取至少一个因子,并获取所述至少一个因子的至少一个饱和度;
在所述至少一个因子中提取预设数目个饱和度大于所述第一阈值的因子作为所述预设数目个主因子;
对所述预设数目个主因子进行模型训练,生成所述标准模型。
在另一个实施例中,所述获取待结合因子,基于所述预设数目个主因子和所述待结合因子,生成调整模型,包括:
在所述待处理数据的至少一个因子中获取饱和度大于所述第二阈值且小于第一阈值的因子作为所述待结合因子;
在所述待结合因子中确定空值,将所述空值从所述待结合因子中删除,生成目标因子;
对所述预设数目个主因子和所述目标因子进行模型训练,生成所述调整模型。
在另一个实施例中,所述基于所述标准模型和所述调整模型,对所述待结合因子进行数据处理,生成所述待结合因子的实际权重,包括:
根据所述标准模型和所述调整模型,生成所述待结合因子的调整比例;
基于所述调整比例,对所述待结合因子的待调整权重进行调整,生成所述待结合因子的实际权重。
在另一个实施例中,所述根据所述标准模型和所述调整模型,生成所述待结合因子的调整比例,包括:
计算所述标准模型包括的全部因子的因子权重的绝对值和作为第一权重和;
计算所述调整模型包括的全部因子的因子权重的绝对值和作为第二权重和;
确定所述第二权重和与所述第一权重和之间的权重比值,将所述权重比值作为所述调整比例。
在另一个实施例中,所述基于所述调整比例,对所述待结合因子的待调整权重进行调整,生成所述待结合因子的实际权重,包括:
在所述调整模型中确定所述待结合因子的待调整权重;
将所述待调整权重与所述调整比例相乘,将得到的乘积作为所述待结合因子的实际权重。
在另一个实施例中,所述方法还包括:
在所述待处理数据中获取其他待结合因子,重复执行上述确定待结合因子的实际权重的过程,确定所述待处理数据中全部待结合因子的全部实际权重;
获取所述待处理数据中全部因子的实际权重,基于所述全部因子,进行模型训练,生成数据模型。
依据本发明第二方面,提供了一种数据处理装置,该装置包括:
确定模块,用于在待处理数据中提取预设数目个主因子,确定标准模型,所述标准模型由预设数目个主因子通过模型训练生成,所述主因子的饱和度大于第一阈值;
生成模块,用于获取待结合因子,基于所述预设数目个主因子和所述待结合因子,生成调整模型,所述待结合因子的饱和度大于第二阈值且小于第一阈值;
处理模块,用于基于所述标准模型和所述调整模型,对所述待结合因子进行数据处理,生成所述待结合因子的实际权重。
在另一个实施例中,所述确定模块,包括:
获取子模块,用于在所述待处理数据中获取至少一个因子,并获取所述至少一个因子的至少一个饱和度;
提取子模块,用于在所述至少一个因子中提取预设数目个饱和度大于所述第一阈值的因子作为所述预设数目个主因子;
训练子模块,用于对所述预设数目个主因子进行模型训练,生成所述标准模型。
在另一个实施例中,所述生成模块,包括:
确定子模块,用于在所述待处理数据的至少一个因子中获取饱和度大于所述第二阈值且小于第一阈值的因子作为所述待结合因子;
删除子模块,用于在所述待结合因子中确定空值,将所述空值从所述待结合因子中删除,生成目标因子;
训练子模块,用于对所述预设数目个主因子和所述目标因子进行模型训练,生成所述调整模型。
在另一个实施例中,所述处理模块,包括:
生成子模块,用于根据所述标准模型和所述调整模型,生成所述待结合因子的调整比例;
调整子模块,用于基于所述调整比例,对所述待结合因子的待调整权重进行调整,生成所述待结合因子的实际权重。
在另一个实施例中,所述生成子模块,用于计算所述标准模型包括的全部因子的因子权重的绝对值和作为第一权重和;计算所述调整模型包括的全部因子的因子权重的绝对值和作为第二权重和;确定所述第二权重和与所述第一权重和之间的权重比值,将所述权重比值作为所述调整比例。
在另一个实施例中,所述调整子模块,用于在所述调整模型中确定所述待结合因子的待调整权重;将所述待调整权重与所述调整比例相乘,将得到的乘积作为所述待结合因子的实际权重。
在另一个实施例中,所述处理模块,还用于在所述待处理数据中获取其他待结合因子,重复执行上述确定待结合因子的实际权重的过程,确定所述待处理数据中全部待结合因子的全部实际权重;
所述装置还包括:
训练模块,用于获取所述待处理数据中全部因子的实际权重,基于所述全部因子,进行模型训练,生成数据模型。
依据本发明第三方面,提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述方法的步骤。
依据本发明第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的方法的步骤。
借由上述技术方案,本发明提供的一种数据处理方法及装置,与目前采用移除空值和填补空值进行数据处理的方式相比,本发明通过主因子生成的标准模型,并通过主因子与待结合因子生成的调整模型,进而在后续基于标准模型和调整模型,生成待结合因子的实际权重,不会直接根据删除空值后的待结合因子确定权重,而是采用标准模型和调整模型,对待结合因子的权重进行调整,既保证了获取到的待结合因子的实际权重的准确性,还保证了后续建立的数据模型与实际情况相符。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种数据处理方法流程示意图;
图2示出了本发明实施例提供的一种数据处理方法流程示意图;
图3A示出了本发明实施例提供的一种数据处理装置的结构示意图;
图3B示出了本发明实施例提供的一种数据处理装置的结构示意图;
图3C示出了本发明实施例提供的一种数据处理装置的结构示意图;
图3D示出了本发明实施例提供的一种数据处理装置的结构示意图;
图3E示出了本发明实施例提供的一种数据处理装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例提供了一种数据处理方法,如图1所示,该方法包括:
101、在待处理数据中提取预设数目个主因子,确定标准模型,标准模型由预设数目个主因子通过模型训练生成,主因子的饱和度大于第一阈值。
具体实施过程参见下述实施例中步骤201的内容。
102、获取待结合因子,基于预设数目个主因子和待结合因子,生成调整模型,待结合因子的饱和度大于第二阈值且小于第一阈值。
具体实施过程参见下述实施例中步骤202的内容。
103、基于标准模型和调整模型,对待结合因子进行数据处理,生成待结合因子的实际权重。
具体实施过程参见下述实施例中步骤203至步骤204的内容。
在另一个实施例中,在待处理数据中提取预设数目个主因子,确定标准模型,包括:
在待处理数据中获取至少一个因子,并获取至少一个因子的至少一个饱和度;
在至少一个因子中提取预设数目个饱和度大于第一阈值的因子作为预设数目个主因子;
对预设数目个主因子进行模型训练,生成标准模型。
在另一个实施例中,获取待结合因子,基于预设数目个主因子和待结合因子,生成调整模型,包括:
在待处理数据的至少一个因子中获取饱和度大于第二阈值且小于第一阈值的因子作为待结合因子;
在待结合因子中确定空值,将空值从待结合因子中删除,生成目标因子;
对预设数目个主因子和目标因子进行模型训练,生成调整模型。
在另一个实施例中,基于标准模型和调整模型,对待结合因子进行数据处理,生成待结合因子的实际权重,包括:
根据标准模型和调整模型,生成待结合因子的调整比例;
基于调整比例,对待结合因子的待调整权重进行调整,生成待结合因子的实际权重。
在另一个实施例中,根据标准模型和调整模型,生成待结合因子的调整比例,包括:
计算标准模型包括的全部因子的因子权重的绝对值和作为第一权重和;
计算调整模型包括的全部因子的因子权重的绝对值和作为第二权重和;
确定第二权重和与第一权重和之间的权重比值,将权重比值作为调整比例。
在另一个实施例中,基于调整比例,对待结合因子的待调整权重进行调整,生成待结合因子的实际权重,包括:
在调整模型中确定待结合因子的待调整权重;
将待调整权重与调整比例相乘,将得到的乘积作为待结合因子的实际权重。
在另一个实施例中,方法还包括:
在待处理数据中获取其他待结合因子,重复执行上述确定待结合因子的实际权重的过程,确定待处理数据中全部待结合因子的全部实际权重;
获取待处理数据中全部因子的实际权重,基于全部因子,进行模型训练,生成数据模型。
本发明实施例提供的数据处理方法,可以通过主因子生成的标准模型,并通过主因子与待结合因子生成的调整模型,进而在后续基于标准模型和调整模型,生成待结合因子的实际权重,不会直接根据删除空值后的待结合因子确定权重,而是采用标准模型和调整模型,对待结合因子的权重进行调整,既保证了获取到的待结合因子的实际权重的准确性,还保证了后续建立的数据模型与实际情况相符。
本发明实施例提供了一种数据处理方法,可以达到保证了获取到的待结合因子的实际权重的准确性,还保证了后续建立的数据模型与实际情况相符的目的,如图2所示,该方法包括:
201、在待处理数据中获取至少一个因子,并获取至少一个因子的至少一个饱和度,在至少一个因子中提取预设数目个饱和度大于第一阈值的因子作为预设数目个主因子,对预设数目个主因子进行模型训练,生成标准模型。
发明人认识到,待处理数据中包括有至少一个因子,待处理数据中出现的空值实质为至少一个因子中存在包括空值的因子,而在建立数据模型时,如果将带有空值的因子中的空值删除或者填充,会对因子的因子权重造成影响,导致后续建立的数据模型与实际情况的偏差很大,因此,可以在待处理数据中获取饱和度极高的因子来建立标准模型,并在后续依次加入存在空值的因子,建立多个调整模型,采用标准模型和调整模型综合的方法对存在空值的因子的因子权重进行调整,保证获取到存在空值的因子的实际因子权重。
为了基于待处理数据中饱和度极高的因子生成标准模型,可以设置第一阈值,并在待处理数据中获取该待处理数据中的至少一个因子,并获取至少一个因子中每一个因子的饱和度,将至少一个因子中饱和度大于第一阈值的因子作为主因子。通常情况下,为了保证主因子的饱和度极高,可以将第一阈值设置为99%,本发明实施例对第一阈值的具体数值不进行限定。需要说明的是,考虑到基于待处理数据中的主因子生成的标准模型过大可能会耗费较多的时间,标准模型过小可能无法保证后续确定的实际因子权重的准确性,因此,可以在待处理数据中获取预设数目的主因子,并基于预设数目的主因子生成标准模型,从而在避免得到的标准模型过大的同时,还可以保证后续确定的实际权重的准确性。一般来说,预设数目通常为50,这样,在待处理数据中获取50个主因子,并基于该50个主因子生成标准模型。
当在待处理数据中获取到预设数目的主因子后,便可以基于预设数目的主因子生成标准模型。其中,在生成标准模型时,可以基于预设数目的主因子进行模型训练,进而生成标准模型。
202、在待处理数据的至少一个因子中获取饱和度大于第二阈值且小于第一阈值的因子作为待结合因子,在待结合因子中确定空值,将空值从待结合因子中删除,生成目标因子,对预设数目个主因子和目标因子进行模型训练,生成调整模型。
在本发明实施例中,在生成标准模型后,便可以对待处理数据中存在空值的因子的权重进行调整,因此,首先需要在待处理数据中获取存在空值的因子。由于存在空值的因子在饱和度上并不是完全饱和的,因此,在待处理数据的至少一个因子中可以确定饱和度较低的因子作为待结合因子。具体地,待结合因子的饱和度通常大于第二阈值且小于第一阈值,一般来说,第二阈值可为10%或者25%。
另外,由于待处理数据中的至少一个因子包括的数据均来自不同的数据源,因此,针对于数据源的不同,待处理数据中的至少一个因子可以划分为单一因子和混合因子。其中,单一因子中包括的数据来自于同一个数据源;混合因子中包括的数据来自于多个数据源,这样,便可以为不同类型的因子设置不同的第二阈值,进而保证全部的因子均能实现实际权重的确定。在实际应用的过程中,对于单一因子来说,饱和度大于10%的单一因子便可以作为待结合因子;对于混合因子来说,饱和度大于25%的混合因子便可以作为待结合因子。需要说明的是,考虑到单一因子的饱和度中的数据均来自同一个数据源,使得单一因子的饱和度大致是相同的,因子,对于来自于同一个数据源的单一因子来说,这些单一因子可以同时进行权重的调整,可以将多个来自同一个数据源的单一因子作为待结合因子。
当在待处理数据中获取到待结合因子后,便可以基于待结合因子和预设数目的主因子生成调整模型。其中,在生成调整模型时,由于待结合因子为不饱和的因子,且饱和率较低,因此,将待结合因子中的空值删除,得到目标因子,并基于目标因子和预设数目的主因子进行模型训练,生成调整模型。在实际应用的过程中,生成调整模型进行模型训练的方法可与生成标准模型的训练方法一致,本发明对生成调整模型的方法不进行具体限定。
需要说明的是,由于待处理数据中可能包括多个饱和度较低的因子,使得可以在待处理数据中获取到多个待结合因子,这样,便可以基于上述步骤202中所示的内容,为每一个因子均生成一个与其对应的调整模型。本发明实施例对确定的待结合因子的个数以及为待结合因子生成的调整模型的个数不进行具体限定。
203、计算标准模型包括的全部因子的因子权重的绝对值和作为第一权重和,计算调整模型包括的全部因子的因子权重的绝对值和作为第二权重和,确定第二权重和与第一权重和之间的权重比值,将权重比值作为调整比例。
在本发明实施例中,当生成了标准模型和调整模型后,便可以基于标准模型和调整模型,生成该待结合因子的调整比例,以便在后续基于该调整比例对该待结合因子的权重进行调整。
当确定了标准模型和调整模型后,便可以确定该标准模型中涉及到的全部主因子中每个主因子的因子权重,并确定该调整模型中涉及到的主因子和待结合因子的因子权重。由于待结合因子中的空值被移除了,基于调整模型确定的待结合因子的因子权重为移除空值后的因子权重,而待结合因子的实际权重当前并不清楚,因此,需要基于标准模型中全部主因子的因子权重以及调整模型中主因子和待结合因子的因子权重生成调整比例,以便在后续基于调整比对对待结合因子在调整模型中的因子权重进行调整,从而确定待结合因子的实际权重。
其中,在生成调整比例时,首先,计算标准模型包括的全部主因子的因子权重,计算全部因子权重的绝对值的和,也即计算第一权重和;随后,计算调整模型包括的全部主因子以及待结合因子的因子权重,并计算调整模型中包括的全部因子的因子权重的绝对值和,也即计算第二权重和;最后,确定第二权重和与第二权重和之间的比值,将该比值作为调整比例。
204、在调整模型中确定待结合因子的待调整权重,将待调整权重与调整比例相乘,将得到的乘积作为待结合因子的实际权重。
在本发明实施例中,当确定调整比例后,由于调整模型中的待结合因子的因子权重为移除空值后的待结合因子的因子权重,可以基于调整比例对待结合因子的因子权重进行调整,得到待结合因子的实际权重。其中,在对待结合因子的因子权重进行调整时,可以先在调整模型中确定待结合因子的待调整权重;随后,将待结合因子的待调整权重与调整比例相乘,使得调整比例对待调整权重进行调整,将得到的乘积作为待结合因子的实际权重。
205、在待处理数据中获取其他待结合因子,重复执行上述确定待结合因子的实际权重的过程,确定待处理数据中全部待结合因子的全部实际权重,获取待处理数据中全部因子的实际权重,基于全部因子,进行模型训练,生成数据模型。
在本发明实施例中,由于待结合因子的空值已经被移除,且已经确定该待结合因子的实际权重,则表明待结合因子的权重并没有受到空值移除的影响,因此,该待结合因子便可以用于后续的数据模型建立。
另外,建立数据模型还会涉及到待处理数据中的其他因子,其他因子中还可能存在多个饱和度较低的因子,因此,可以重复执行上述步骤202至步骤204中的内容,为待处理数据中的每一个饱和度较低的因子确定实际权重。当待处理数据中全部因子的实际权重均确定后,便可以执行基于待处理数据中的全部因子,进行模型建立的过程,从而保证后续建立的数据模型与实际情况相符,使建立的数据模型更加真实。
本发明实施例提供的数据处理方法,可以通过主因子生成的标准模型,并通过主因子与待结合因子生成的调整模型,进而在后续基于标准模型和调整模型,生成待结合因子的实际权重,不会直接根据删除空值后的待结合因子确定权重,而是采用标准模型和调整模型,对待结合因子的权重进行调整,既保证了获取到的待结合因子的实际权重的准确性,还保证了后续建立的数据模型与实际情况相符。
进一步地,作为图1方法的具体实现,本发明实施例提供了一种数据处理装置,如图3A所示,装置包括:确定模块301,生成模块302和处理模块303。
该确定模块301,用于在待处理数据中提取预设数目个主因子,确定标准模型,标准模型由预设数目个主因子通过模型训练生成,主因子的饱和度大于第一阈值;
该生成模块302,用于获取待结合因子,基于预设数目个主因子和待结合因子,生成调整模型,待结合因子的饱和度大于第二阈值且小于第一阈值;
该处理模块303,用于基于标准模型和调整模型,对待结合因子进行数据处理,生成待结合因子的实际权重。
在具体的应用场景中,如图3B所示,该确定模块301,具体包括:获取子模块3011,提取子模块3012和训练子模块3013。
该获取子模块3011,用于在待处理数据中获取至少一个因子,并获取至少一个因子的至少一个饱和度;
该提取子模块3012,用于在至少一个因子中提取预设数目个饱和度大于第一阈值的因子作为预设数目个主因子;
该训练子模块3013,用于对预设数目个主因子进行模型训练,生成标准模型。
在具体的应用场景中,如图3C所示,该生成模块302,具体包括:确定子模块3021,删除子模块3022和训练子模块3023。
该确定子模块3021,用于在待处理数据的至少一个因子中获取饱和度大于第二阈值且小于第一阈值的因子作为待结合因子;
该删除子模块3022,用于在待结合因子中确定空值,将空值从待结合因子中删除,生成目标因子;
该训练子模块3023,用于对预设数目个主因子和目标因子进行模型训练,生成调整模型。
在具体的应用场景中,如图3D所示,该处理模块303,具体包括:生成子模块3031和调整子模块3032。
该生成子模块3031,用于根据标准模型和调整模型,生成待结合因子的调整比例;
该调整子模块3032,用于基于调整比例,对待结合因子的待调整权重进行调整,生成待结合因子的实际权重。
在具体的应用场景中,该生成子模块3031,用于计算标准模型包括的全部因子的因子权重的绝对值和作为第一权重和;计算调整模型包括的全部因子的因子权重的绝对值和作为第二权重和;确定第二权重和与第一权重和之间的权重比值,将权重比值作为调整比例。
在具体的应用场景中,该调整子模块3032,用于在调整模型中确定待结合因子的待调整权重;将待调整权重与调整比例相乘,将得到的乘积作为待结合因子的实际权重。
在具体的应用场景中,如图3E所示,该装置还包括训练模块304。
该处理模块303,还用于在待处理数据中获取其他待结合因子,重复执行上述确定待结合因子的实际权重的过程,确定待处理数据中全部待结合因子的全部实际权重;
该训练模块304,用于获取待处理数据中全部因子的实际权重,基于全部因子,进行模型训练,生成数据模型。
需要说明的是,本发明实施例提供的一种数据处理装置所涉及各功能单元的其他相应描述,可以参考图1和图2中的对应描述,在此不再赘述。
基于上述如图1和图2所示方法,相应的,本发明实施例还提供了一种存储设备,其上存储有计算机程序,该程序被处理器执行时实现上述如图1和图2所示的数据处理方法。
基于上述如图1和图2所示方法和如图3A至图3E所示虚拟装置的实施例,为了实现上述目的,本发明实施例还提供了一种数据处理的实体装置,该实体装置包括存储设备和处理器;所述存储设备,用于存储计算机程序;所述处理器,用于执行所述计算机程序以实现上述如图1和图2所示的数据处理方法。
通过应用本发明的技术方案,可以通过主因子生成的标准模型,并通过主因子与待结合因子生成的调整模型,进而在后续基于标准模型和调整模型,生成待结合因子的实际权重,不会直接根据删除空值后的待结合因子确定权重,而是采用标准模型和调整模型,对待结合因子的权重进行调整,既保证了获取到的待结合因子的实际权重的准确性,还保证了后续建立的数据模型与实际情况相符。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以通过硬件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景所述的方法。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。
本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。
以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。
Claims (10)
1.一种数据处理方法,其特征在于,包括:
在待处理数据中提取预设数目个主因子,确定标准模型,所述标准模型由预设数目个主因子通过模型训练生成,所述主因子的饱和度大于第一阈值;
获取待结合因子,基于所述预设数目个主因子和所述待结合因子,生成调整模型,所述待结合因子的饱和度大于第二阈值且小于第一阈值;
基于所述标准模型和所述调整模型,对所述待结合因子进行数据处理,生成所述待结合因子的实际权重。
2.根据权利要求1所述的方法,其特征在于,所述在待处理数据中提取预设数目个主因子,确定标准模型,包括:
在所述待处理数据中获取至少一个因子,并获取所述至少一个因子的至少一个饱和度;
在所述至少一个因子中提取预设数目个饱和度大于所述第一阈值的因子作为所述预设数目个主因子;
对所述预设数目个主因子进行模型训练,生成所述标准模型。
3.根据权利要求1所述的方法,其特征在于,所述获取待结合因子,基于所述预设数目个主因子和所述待结合因子,生成调整模型,包括:
在所述待处理数据的至少一个因子中获取饱和度大于所述第二阈值且小于第一阈值的因子作为所述待结合因子;
在所述待结合因子中确定空值,将所述空值从所述待结合因子中删除,生成目标因子;
对所述预设数目个主因子和所述目标因子进行模型训练,生成所述调整模型。
4.根据权利要求1所述的方法,其特征在于,所述基于所述标准模型和所述调整模型,对所述待结合因子进行数据处理,生成所述待结合因子的实际权重,包括:
根据所述标准模型和所述调整模型,生成所述待结合因子的调整比例;
基于所述调整比例,对所述待结合因子的待调整权重进行调整,生成所述待结合因子的实际权重。
5.根据权利要求4所述的方法,其特征在于,所述根据所述标准模型和所述调整模型,生成所述待结合因子的调整比例,包括:
计算所述标准模型包括的全部因子的因子权重的绝对值和作为第一权重和;
计算所述调整模型包括的全部因子的因子权重的绝对值和作为第二权重和;
确定所述第二权重和与所述第一权重和之间的权重比值,将所述权重比值作为所述调整比例。
6.根据权利要求4所述的方法,其特征在于,所述基于所述调整比例,对所述待结合因子的待调整权重进行调整,生成所述待结合因子的实际权重,包括:
在所述调整模型中确定所述待结合因子的待调整权重;
将所述待调整权重与所述调整比例相乘,将得到的乘积作为所述待结合因子的实际权重。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在所述待处理数据中获取其他待结合因子,重复执行上述确定待结合因子的实际权重的过程,确定所述待处理数据中全部待结合因子的全部实际权重;
获取所述待处理数据中全部因子的实际权重,基于所述全部因子,进行模型训练,生成数据模型。
8.一种数据处理装置,其特征在于,包括:
确定模块,用于在待处理数据中提取预设数目个主因子,确定标准模型,所述标准模型由预设数目个主因子通过模型训练生成,所述主因子的饱和度大于第一阈值;
生成模块,用于获取待结合因子,基于所述预设数目个主因子和所述待结合因子,生成调整模型,所述待结合因子的饱和度大于第二阈值且小于第一阈值;
处理模块,用于基于所述标准模型和所述调整模型,对所述待结合因子进行数据处理,生成所述待结合因子的实际权重。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811044414.9A CN109284285B (zh) | 2018-09-07 | 2018-09-07 | 数据处理方法、装置、计算机设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811044414.9A CN109284285B (zh) | 2018-09-07 | 2018-09-07 | 数据处理方法、装置、计算机设备及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109284285A true CN109284285A (zh) | 2019-01-29 |
CN109284285B CN109284285B (zh) | 2024-05-28 |
Family
ID=65183815
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811044414.9A Active CN109284285B (zh) | 2018-09-07 | 2018-09-07 | 数据处理方法、装置、计算机设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109284285B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017190527A1 (zh) * | 2016-05-06 | 2017-11-09 | 华为技术有限公司 | 一种文本数据分类方法及服务器 |
CN107341176A (zh) * | 2017-05-23 | 2017-11-10 | 北京三快在线科技有限公司 | 一种样本权重设置方法及装置,电子设备 |
CN107515876A (zh) * | 2016-06-16 | 2017-12-26 | 阿里巴巴集团控股有限公司 | 一种特征模型的生成、应用方法及装置 |
CN107992906A (zh) * | 2018-01-02 | 2018-05-04 | 联想(北京)有限公司 | 一种模型处理方法、系统、终端设备及服务器 |
-
2018
- 2018-09-07 CN CN201811044414.9A patent/CN109284285B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017190527A1 (zh) * | 2016-05-06 | 2017-11-09 | 华为技术有限公司 | 一种文本数据分类方法及服务器 |
CN107515876A (zh) * | 2016-06-16 | 2017-12-26 | 阿里巴巴集团控股有限公司 | 一种特征模型的生成、应用方法及装置 |
CN107341176A (zh) * | 2017-05-23 | 2017-11-10 | 北京三快在线科技有限公司 | 一种样本权重设置方法及装置,电子设备 |
CN107992906A (zh) * | 2018-01-02 | 2018-05-04 | 联想(北京)有限公司 | 一种模型处理方法、系统、终端设备及服务器 |
Also Published As
Publication number | Publication date |
---|---|
CN109284285B (zh) | 2024-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7125512B2 (ja) | オブジェクトのロード方法及び装置、記憶媒体、電子装置、並びにコンピュータプログラム | |
CN110942154A (zh) | 基于联邦学习的数据处理方法、装置、设备及存储介质 | |
US9959670B2 (en) | Method for rendering terrain | |
CN105900093B (zh) | 一种KeyValue数据库的数据表的更新方法与表数据更新装置 | |
CN112581593B (zh) | 神经网络模型的训练方法及相关设备 | |
CN110555266B (zh) | 用于仿真测试的模拟道路网数据随机生成方法及系统 | |
CN110728376A (zh) | 一种基于树状拓扑结构的联邦学习方法及装置 | |
CN109976827B (zh) | 模型的加载方法、服务器及终端 | |
Huang et al. | Critical percolation clusters in seven dimensions and on a complete graph | |
CN105957133B (zh) | 一种加载贴图的方法和装置 | |
CN114254979A (zh) | 一种配送路径生成方法、装置、电子设备及存储介质 | |
US10372571B2 (en) | Method and apparatus for testing compatibility of 3D engine | |
CN109284285A (zh) | 数据处理方法、装置、计算机设备及计算机可读存储介质 | |
CN117032954A (zh) | 针对终端训练模型的内存优化方法、系统、设备及介质 | |
CN112085856A (zh) | 固态地形编辑方法、装置、电子设备及计算机存储介质 | |
CN108920785A (zh) | 一种复杂单体模型规则化建模方法及系统 | |
US11264120B2 (en) | Suppressing interaction between bonded particles | |
CN109857655B (zh) | 一种检测美术资源动态性能的方法和系统 | |
CN107122303A (zh) | 一种测试方法及装置 | |
CN112337093A (zh) | 一种虚拟对象的分簇方法、装置、存储介质和电子装置 | |
CN106534304B (zh) | 一种基于可取回概率的云存储方法和装置 | |
CN116089095B (zh) | 一种针对ReRAM神经网络计算引擎网络的部署方法 | |
CN116152446B (zh) | 一种基于ue4的地质模型剖分方法、装置、终端及介质 | |
CN108875163A (zh) | 一种评价三维裂缝网络连通性的方法和系统 | |
CN115168112B (zh) | 动态区段变更下的区段数据还原方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |