CN107784363B - 数据处理方法、装置及系统 - Google Patents

数据处理方法、装置及系统 Download PDF

Info

Publication number
CN107784363B
CN107784363B CN201610797641.3A CN201610797641A CN107784363B CN 107784363 B CN107784363 B CN 107784363B CN 201610797641 A CN201610797641 A CN 201610797641A CN 107784363 B CN107784363 B CN 107784363B
Authority
CN
China
Prior art keywords
feature
target
algorithm
data
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610797641.3A
Other languages
English (en)
Other versions
CN107784363A (zh
Inventor
刘冬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201610797641.3A priority Critical patent/CN107784363B/zh
Priority to PCT/CN2017/079791 priority patent/WO2018040561A1/zh
Publication of CN107784363A publication Critical patent/CN107784363A/zh
Application granted granted Critical
Publication of CN107784363B publication Critical patent/CN107784363B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据处理方法、装置及系统,属于计算机技术领域,该方法包括:获取待处理数据,待处理数据的一组数据参数为目标参数组;将目标参数组代入预设算法模型,确定目标参数组对应的目标算法,目标算法为:根据预设评估算法对目标参数组对应的至少一种算法进行评估,确定的最优评估值对应的算法;根据目标参数组对应的目标算法确定待处理数据的属性。本发明解决了数据处理的效果较差的问题,提高了数据处理的效果,本发明用于数据处理。

Description

数据处理方法、装置及系统
技术领域
本发明涉及计算机技术领域,特别涉及一种数据处理方法、装置及系统。
背景技术
随着社交网络的飞速发展以及网络用户的不断增多,网络侧产生的用户数据越来越多(成百上千或者更多),运营商可以通过对用户数据进行处理,确定用户的属性(如用户的性别、年龄或爱好),并根据用户的属性进行商业决策。
通常的,运营商可以采用人工的方式对网络侧产生的用户数据进行处理,但是由于需要处理的数据量较大,人工处理的效率较低,因此,相关技术中,根据一种特征选择算法以及一种机器学习算法对多个用户数据进行处理,确定多个用户数据中的每个用户数据是否具有预设特征,进而确定每个用户数据对应的用户是否具有预设属性。示例的,某一通信运营商(如中国移动)的多个用户在使用该通信运营商提供的网络进行通信时,网络侧会产生较多的用户数据,如:用户的费用(能够反映用户的消费水平)、用户的账单(能够反映用户对中国移动提供的业务的使用情况)等。该通信运营商可以将网络侧产生的多个用户数据,代入一种特征选择算法(如特征空间算法),确定特征集,然后,将该特征集代入一种机器学习算法,确定该多个用户数据中具有预设特征(用户使用频率最高的业务为预设业务)的第一用户数据和不具有预设特征的第二用户数据,进而向第一用户数据对应的用户发送与预设业务相关的优惠信息。
由于相关技术中,不同场景产生的用户数据不同,如:中国移动的用户产生的用户数据与中国电信(另一个通信运营商)的用户产生的用户数据不同,相关技术中在对每种场景产生的用户数据进行处理时,均采用同一种特征选择算法和同一种机器学习算法,且同一种机器学习算法无法适用于所有场景下的用户数据,经过处理得到的用户数据属性的准确度较低,所以,数据处理的精确度较低,数据处理的效果较差。
发明内容
为了解决数据处理的效果较差的问题,本发明提供了一种数据处理方法、装置及系统。所述技术方案如下:
第一方面,提供了一种数据处理方法,所述方法包括:
获取待处理数据,该待处理数据的一组数据参数为目标参数组;在获取待处理数据后,可以将目标参数组代入预设算法模型,确定目标参数组对应的目标算法,需要说明的是,所述目标算法为根据预设评估算法对所述目标参数组对应的至少一种算法进行评估,确定的最优评估值对应的算法;在确定目标参数组对应的目标算法后,就可以根据目标参数组对应的目标算法对待处理数据进行处理,从而确定待处理数据的属性。可选的,所述数据参数用于描述数据的特征,所述目标参数组用于描述所述待处理数据的一组特征。
由于本发明中在获取到待处理数据后,直接可以根据预设算法模型,确定目标参数组对应的目标算法,且该预设算法模型所指示的目标参数组对应的目标算法为根据预设评估算法对目标参数组对应的至少一种算法进行评估,确定的最优评估值对应的算法,也即根据目标参数组对应的目标算法对待处理数据进行处理,所确定出的待处理数据的属性最准确,提高了确定出的待处理数据的属性的准确度。
可选的,所述目标算法可以包括:目标特征选择算法和目标机器学习算法,在将所述目标参数组代入预设算法模型之前,还可以获取n个样本集,该n个样本集中的每个样本集可以具有一组数据参数,n个样本集具有n组数据参数,且n个样本集的n组数据参数可以包括所述目标参数组,所述n可以为大于或等于1的整数;确定所述n组数据参数中的每组数据参数对应的目标特征选择算法和目标机器学习算法,示例的,在每获取到一个样本集后,可以确定该样本集的一组数据参数对应的目标特征选择算法和目标机器学习算法;在确定n组数据参数中的每组数据参数对应的目标特征选择算法和目标机器学习算法后,可以根据所述n组数据参数中的每组数据参数对应的目标特征选择算法和目标机器学习算法,确定所述预设算法模型。
也即是,在获取待处理数据前,需要预先获取n个样本集,并确定每个样本集对应的目标算法,以及根据每个样本集的目标算法推导出预设算法模型,使得根据该预设算法模型可以确定至少一组数据参数对应的目标算法,在对待处理数据进行处理时,能够快速的根据该预设算法模型确定该待处理数据对应的目标算法,提高了数据处理的速度和效率。
可选的,第一样本集为所述n个样本集中的任一样本集,通常可以采用第一样本集对应的至少一种特征选择算法和至少一种机器学习算法对该第一样本集进行处理。所述确定所述n组数据参数中的每组数据参数对应的目标特征选择算法和目标机器学习算法,可以包括:将所述第一样本集代入至少一种特征选择算法(也即该第一样本集对应的至少一种特征选择算法)中,得到至少一个特征集,并将得到的至少一个特征集确定为所述第一样本集的一组数据参数对应的至少一个特征集;然后,可以将所述第一样本集的一组数据参数对应的至少一个特征集,分别代入至少一种机器学习算法中,得到至少一个处理模型,并将该至少一个处理模型确定为所述第一样本集的一组数据参数对应的至少一个处理模型;最后,可以根据预设评估算法确定所述至少一个处理模型中每个处理模型对应的评估值,并将评估值最优的处理模型对应的特征选择算法和机器学习算法,作为所述第一样本集的一组数据参数对应的目标特征选择算法和目标机器学习算法。需要说明的是,该第一样本集为n个样本集中的任一样本集,也即在确定n个样本集中的每个样本集对应的目标特征选择算法和目标机器学习算法的过程均可以参考上述确定第一样本集对应的目标特征选择算法和目标机器学习算法的过程。
由于预先确定了预设算法模型,所以在对待处理数据进行处理时,可以直接根据该预设算法模型,确定待处理数据的目标参数组对应的目标特征选择算法和目标机器学习算法,且整个过程中耗时较短,所以提高了数据处理的速度和效率。
可选的,所述目标算法可以包括:目标特征选择算法和目标机器学习算法,所述根据所述目标参数组对应的目标算法确定所述待处理数据的属性,包括:首先,将所述待处理数据代入所述目标参数组对应的目标特征选择算法,得到一个特征集,并将得到的特征集确定为目标特征集,所述目标特征集包括p个特征,所述p个特征中的每个特征具有一组特征参数,p个特征可以具有p组特征参数,所述p为大于或等于1的整数,且特征集中的每个特征具有一个权重;然后,可以将所述p个特征的p组特征参数分别代入预设权重变化模型,确定所述p组特征参数中每组特征参数对应的权重变化值,需要说明的是,根据所述预设权重变化模型能够确定出q组特征参数中的每组特征参数对应的权重变化值,所述q组特征参数包括所述p组特征参数,q≥p;在确定p组特征参数中每组特征参数对应的权重变化值后,可以根据确定出的权重变化值更新所述目标特征集中的每个特征对应的权重,也即,将原先每个特征的权重与该特征的一组特征参数对应的权重变化值之和作为更新后的该特征对应的权重;最后,可以根据更新特征的权重后的目标特征集和所述目标参数组对应的目标机器学习算法,确定所述待处理数据的属性。
示例的,该预设权重变化模型可以为根据工作人员的经验值预先建立的,由于预先确定了预设权重变化模型,使得在使用自动特征选择算法得到目标特征集后,还可以参考工作人员的经验值,对该目标特征集中特征的权重进行更新,使得将更新后的目标特征集代入机器学习算法得到的处理模型的处理效果较好。
可选的,在根据所述目标参数组对应的目标算法确定所述待处理数据的属性之前,所述方法还可以包括:获取m个样本集,所述m个样本集的m组数据参数包括所述目标参数组,所述m为大于或等于1的整数,示例的,m可以与n相等,m也可以与n不相等;在获取到m个样本集后,可以确定m个样本集的所述m组数据参数中的每组数据参数对应的目标特征选择算法;然后,确定初始特征集,所述初始特征集可以包括:将所述m个样本集中的每个样本集,代入样本集的一组数据参数对应的目标特征选择算法得到的特征集中的特征,也即,将每个样本集代入该样本集对应的目标特征选择算法中,得到该样本集的一组特征,该m个样本集共能够得到m组特征,将该m组特征中的所有不同的特征组成该初始特征集;进一步的,还需要确定参考特征集,所述参考特征集包括:将所述m个样本集中的每个样本集代入参考特征选择算法得到的特征集中的特征;最后,可以将该参考特征集与初始特征集进行比较,也即根据所述参考特征集,确定所述初始特征集中每个特征的一组特征参数对应的权重变化值;并根据所述每个特征的一组特征参数对应的权重变化值,确定所述预设权重变化模型。
也即是,在获取待处理数据前,需要预先获取m个样本集,并确定每个样本集对应的目标特征选择算法,以及根据每个样本集的目标特征选择算法以及参考特征选择算法,推导出预设权重变化模型,使得根据该预设权重变化模型可以确定出至少一组特征参数对应的权重变化值,在对待处理数据进行处理时,能够快速的根据该预设权重变化模型确定该待处理数据的特征集中每个特征对应的权重变化值,进而根据更新权重后的特征集对待处理数据进行处理,提高了数据处理的速度和效率。
可选的,所述根据所述参考特征集,确定所述初始特征集中每个特征的一组特征参数对应的权重变化值,包括:将所述初始特征集代入预设机器学习算法,确定第一处理模型;以及将所述参考特征集代入预设机器学习算法,确定第二处理模型;并根据所述预设评估算法对所述第一处理模型进行评估,确定第一评估值;以及根据所述预设评估算法对所述第二处理模型进行评估,确定第二评估值;在得到第一评估值和第二评估值后,可以判断所述第二评估值是否大于所述第一评估值;若所述第二评估值大于所述第一评估值,且所述参考特征集包括所述初始特征集中的第一特征,则可以确定参考特征选择算法比第一样本集的一组数据参数对应的目标特征选择算法的处理效果好,并将所述第一特征在所述参考特征集中的权重,与所述第一特征在所述初始特征集中的权重之差,作为所述第一特征的一组特征参数对应的权重变化值。可选的,若所述第二评估值大于所述第一评估值,且所述参考特征集不包括所述初始特征集中的第一特征,则将预设权重变化值作为所述第一特征对应的权重变化值,也即,在参考特征选择算法比第一样本集的一组数据参数对应的目标特征选择算法的处理效果好,且参考特征集不包括第一特征时,仅仅将预设的一个经验值作为第一特征对应的权重变化值;若所述第二评估值不大于所述第一评估值,则可以确定第一样本集的一组数据参数对应的目标特征选择算法比参考特征选择算法的处理效果好,此时可以确定所述第一特征对应的权重变化值为零。
本发明中分别对目标特征选择算法得到的处理模型和参考特征选择算法得到的处理模型进行评估,若第一评估值大于或等于第二评估值,则可以确定采用目标特征选择算法对目标样本进行处理的处理效果比采用参考特征选择算法对目标样本进行处理的处理效果好,或者与采用参考特征选择算法对目标样本进行处理的处理效果相同,此时,无需参考工作人员的经验值。若第一评估值小于第二评估值,则可以确定采用参考特征选择算法对目标样本进行处理的处理效果比采用目标特征选择算法对目标样本进行处理的处理效果好,此时,需要参考工作人员的经验值,对该初始特征集中特征的权重进行更新,使得将更新后的初始特征集代入机器学习算法得到的处理模型对待处理数据的处理效果较好。
可选的,所述目标算法包括:目标特征选择算法和目标机器学习算法,根据所述预设算法模型能够确定出第一机器学习算法和至少一组数据参数中每组数据参数对应的目标特征选择算法,所述将所述目标参数组代入预设算法模型,确定所述目标参数组对应的目标算法,包括:确定第一机器学习算法为所述目标参数组对应的目标机器学习算法;将所述目标参数组和所述第一机器学习算法代入所述预设算法模型,确定所述目标参数组和所述第一机器学习算法对应的目标特征选择算法。
本发明中,在确定所述至少一组数据参数中的每组数据参数对应的目标特征选择算法和目标机器学习算法后,可以根据至少一组数据参数中的每组数据参数对应的目标特征选择算法和目标机器学习算法,确定预设机器学习算法和至少一组数据参数中每组数据参数对应的目标特征选择算法,进而得到预设算法模型,并根据预设机器学习算法、目标参数组和预设算法模型确定目标参数组和预设机器学习算法对应的目标特征选择算法。
可选的,所述目标算法包括:目标特征选择算法和目标机器学习算法,根据所述预设算法模型能够确定出至少一组数据参数中每组数据参数对应的目标特征选择算法和目标机器学习算法,所述将所述目标参数组代入预设算法模型,确定所述目标参数组对应的目标算法,包括:将所述目标参数组代入所述预设算法模型中,确定所述目标参数组对应的目标特征选择算法和目标机器学习算法。
本发明中,在确定所述至少一组数据参数中的每组数据参数对应的目标特征选择算法和目标机器学习算法后,根据至少一组数据参数中的每组数据参数对应的目标特征选择算法和目标机器学习算法,确定至少一组数据参数中每组数据参数对应的目标特征选择算法和目标机器学习算法,进而得到预设算法模型,并根据目标参数组以及预设算法模型得到目标参数组对应的目标特征选择算法和目标机器学习算法。
可选的,所述目标参数组对应的目标特征选择算法可以包括:基于信息熵的特征选择算法,或者,基于特征间相关度的特征选择算法;所述目标参数组对应的目标机器学习算法包括:随机森林RF机器学习算法,逻辑回归LR机器学习算法,或者,支持向量机SVM机器学习算法。
可选的,数据的一组数据参数由数据的一组元数据组成,每个特征的一组特征参数由特征的一组元数据组成。
可选的,所述目标算法包括:目标特征选择算法或目标机器学习算法中的至少一种算法。也即,上述确定的目标参数组对应的目标算法可以为:目标参数组对应的目标特征选择算法;或者,目标参数组对应的目标机器学习算法;或者,目标参数组对应的目标特征选择算法和目标机器学习算法。
第二方面,提供了一种数据处理装置,所述数据处理装置包括:第一获取模块、第一确定模块和第二确定模块,其中,第一获取模块可以用于获取待处理数据,所述待处理数据的一组数据参数为目标参数组;第一确定模块可以用于将所述目标参数组代入预设算法模型,确定所述目标参数组对应的目标算法,所述目标算法为根据预设评估算法对所述目标参数组对应的至少一种算法进行评估,确定的最优评估值对应的算法;第二确定模块可以用于根据所述目标参数组对应的目标算法确定所述待处理数据的属性。
可选的,所述目标算法包括:目标特征选择算法和目标机器学习算法,所述数据处理装置还包括:第二获取模块、第三确定模块和第四确定模块,其中,第二获取模块可以用于获取n个样本集,所述n个样本集的n组数据参数包括所述目标参数组,所述n为大于或等于1的整数;第三确定模块可以用于确定所述n组数据参数中的每组数据参数对应的目标特征选择算法和目标机器学习算法;第四确定模块可以用于根据所述n组数据参数中的每组数据参数对应的目标特征选择算法和目标机器学习算法,确定所述预设算法模型。
可选的,第一样本集为所述n个样本集中的任一样本集,所述第三确定模块还用于:将所述第一样本集代入至少一种特征选择算法中,确定所述第一样本集的一组数据参数对应的至少一个特征集;将所述第一样本集的一组数据参数对应的至少一个特征集,分别代入至少一种机器学习算法中,确定所述第一样本集的一组数据参数对应的至少一个处理模型;根据预设评估算法确定所述至少一个处理模型中每个处理模型对应的评估值,并将评估值最优的处理模型对应的特征选择算法和机器学习算法,作为所述第一样本集的一组数据参数对应的目标特征选择算法和目标机器学习算法。
可选的,所述目标算法包括:目标特征选择算法和目标机器学习算法,所述第二确定模块包括:第一确定单元、第二确定单元、更新单元和第三确定单元,其中,第一确定单元可以用于将所述待处理数据代入所述目标参数组对应的目标特征选择算法,确定目标特征集,所述目标特征集包括p个特征,所述p个特征中的每个特征具有一组特征参数,所述p为大于或等于1的整数,特征集中的特征具有一个权重;第二确定单元可以用于将所述p个特征的p组特征参数分别代入预设权重变化模型,确定所述p组特征参数中每组特征参数对应的权重变化值,根据所述预设权重变化模型能够确定出q组特征参数中的每组特征参数对应的权重变化值,所述q组特征参数包括所述p组特征参数,q≥p;更新单元可以用于根据确定的权重变化值更新所述目标特征集中的每个特征对应的权重;第三确定单元,用于根据更新后的目标特征集和所述目标参数组对应的目标机器学习算法,确定所述待处理数据的属性。
可选的,所述数据处理装置还包括:第三获取模块、第五确定模块、第六确定模块、第七确定模块、第八确定模块和第九确定模块,其中,第三获取模块可以用于获取m个样本集,所述m个样本集的m组数据参数包括所述目标参数组,所述m为大于或等于1的整数;第五确定模块可以用于确定所述m组数据参数中的每组数据参数对应的目标特征选择算法;第六确定模块可以用于确定初始特征集,所述初始特征集包括:将所述m个样本集中的每个样本集,代入样本集的一组数据参数对应的目标特征选择算法得到的特征集中的特征;第七确定模块可以用于确定参考特征集,所述参考特征集包括:将所述m个样本集中的每个样本集代入参考特征选择算法得到的特征集中的特征;第八确定模块可以用于根据所述参考特征集,确定所述初始特征集中每个特征的一组特征参数对应的权重变化值;第九确定模块可以用于根据所述每个特征的一组特征参数对应的权重变化值,确定所述预设权重变化模型。
可选的,所述第八确定模块还用于:将所述初始特征集代入预设机器学习算法,确定第一处理模型;将所述参考特征集代入预设机器学习算法,确定第二处理模型;根据所述预设评估算法对所述第一处理模型进行评估,确定第一评估值;根据所述预设评估算法对所述第二处理模型进行评估,确定第二评估值;判断所述第二评估值是否大于所述第一评估值;若所述第二评估值大于所述第一评估值,且所述参考特征集包括所述初始特征集中的第一特征,则将所述第一特征在所述参考特征集中的权重,与所述第一特征在所述初始特征集中的权重之差,作为所述第一特征的一组特征参数对应的权重变化值。
可选的,所述目标算法包括:目标特征选择算法或目标机器学习算法。
第三方面,提供了一种数据处理系统,所述数据处理系统包括第二方面所述的数据处理装置。
第四方面,提供了一种数据处理装置,所述数据处理装置包括:至少一个处理器、至少一个网络接口、存储器以及至少一个总线,存储器与网络接口分别通过总线与处理器相连;处理器被配置为执行存储器中存储的指令;处理器通过执行指令来实现上述第一方面或第一方面中任意一种可能的实现方式所提供的数据处理方法。
第五方面,提供了一种数据处理系统,所述数据处理系统包括第四方面所述的数据处理装置。
上述第二方面至第五方面所获得的技术效果与上述第一方面中对应的技术手段获得的技术效果近似,本发明在此不再赘述。
综上所述,本发明提供了一种数据处理方法、装置及系统,该数据处理方法中,在获取到待处理数据后,直接根据预设算法模型,能够确定目标参数组(待处理数据的一组数据参数)对应的目标算法,且根据该预设算法模型确定出的目标参数组对应的目标算法为根据预设评估算法对目标参数组对应的至少一种算法进行评估,确定的最优评估值对应的算法,也即根据目标参数组对应的目标算法,确定的待处理数据的属性最准确,使得根据该目标参数组对应的目标算法确定的待处理数据的属性的准确度较高。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种数据处理方法的应用场景示意图;
图2是本发明实施例提供的一种数据处理方法的方法流程图;
图3-1是本发明实施例提供的一种数据处理装置的结构示意图;
图3-2是本发明实施例提供的另一种数据处理装置的结构示意图;
图3-3是本发明实施例提供的一种第二确定模块的结构示意图;
图3-4是本发明实施例提供的又一种数据处理装置的结构示意图;
图4是本发明实施例提供的再一种数据处理装置的结构示意图。
通过上述附图,已示出本发明明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本发明构思的范围,而是通过参考特定实施例为本领域技术人员说明本发明的概念。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
图1为本发明实施例提供的一种数据处理方法的应用场景示意图,如图1所示,用户A、用户B、用户C和用户D使用的终端均接入网络,所以该四个用户均为网络用户,其中,用户A和用户B为第一通信运营商(如中国移动)的用户,也即用户A和用户B均接入第一通信运营商提供的网络,且用户A使用最多的业务为第一通信运营商提供的第一业务,用户B使用最多的业务为第一通信运营商提供的第二业务;用户C和用户D为第二通信运营商(如中国电信)的用户,也即用户C和用户D均接入第二通信运营商提供的网络,且用户C使用最多的用户为第二通信运营商提供的第三业务,用户D使用最多的业务为第二通信运营商提供的第四业务。用户A在使用第一通信运营商提供的网络进行通信的过程中,网络侧会产生用户数据1;用户B在使用第一通信运营商提供的网络进行通信的过程中,网络侧会产生用户数据2;用户C在使用第二通信运营商提供的网络进行通信的过程中,网络侧会产生用户数据3;用户D在使用第二通信运营商提供的网络进行通信的过程中,网络侧会产生用户数据4。
相关技术中,第一通信运营商的运营商在对网络侧产生的用户数据进行处理时,可以获取两个用户数据(用户数据1和用户数据2),并将该两个用户数据代入一种特征选择算法,确定该两个用户数据对应的特征集。具体的,在确定该两个用户数据对应的特征集时:可以在该两个用户数据中采集样本数据,并将该样本数据代入该一种特征空间算法,得到一个特征集(得到的特征集通常为样本数据的特征集的子集,所以,该得到的特征集也可以称为特征子集)。并将该特征集代入一种机器学习算法,得到一种处理模型。最后,可以将该样本数据划分为多份,并根据该处理模型分别确定每份样本数据的属性,以及将每份样本数据的属性均代入预设评估算法(如基于多重交叉验证机制的评估方法)中,得到多份样本数据的属性对应的一个评估值(也即该处理模型对应的评估值),若该评估值大于评估阈值,则确定当前得到的特征集为该两个用户数据对应的特征集;若该评估值小于或等于评估阈值,则需要重新采用该特征空间选择算法得到另一个特征集,直至得到的评估值大于评估值阈值。
然后,将确定出的特征集代入一种机器学习算法,确定一个处理模型;最后,根据该处理模型,确定两个用户数据中的用户数据1具有预设特征(也即用户数据1用于指示用户A使用频率最高的业务为第一业务),用户数据2不具有预设特征(也即用户数据2用于指示用户B使用频率最高的业务不为第一业务),进而该第一通信运营商可以向用户A使用的终端发送与第一业务相关的优惠信息。
由于使用第一通信运营商提供的网络产生的用户数据(用户数据1和用户数据2)与使用第二通信运营商提供的网络产生的用户数据(用户数据3和用户数据4)为两种不同场景下产生的数据,且同一种机器学习算法无法适用于不同场景下产生的用户数据,若第二通信运营商的运营商在对网络侧产生的用户数据(用户数据3和用户数据4)进行处理时,仍然使用与第一通信运营商相同的特征选择算法和机器学习算法,则会导致第二通信运营商确定出的用户数据3的属性和用户数据4的属性出现偏差,经过处理得到的用户数据属性的准确度较低。
如图2所示,本发明实施例提供了另一种数据处理方法,该数据处理方法可以包括:
步骤201、获取多个样本集。
示例的,在进行数据处理之前,需要首先从网络中产生的用户数据中获取多个样本集,并确定每个样本集的一组数据参数。需要说明的是,该多个样本集中的每个样本集可以为一种场景下产生的数据,该多个样本集中可以包括目标样本集,目标样本集的一组数据参数可以为目标参数组。具体的,数据的数据参数用于反映数据的特征,一个样本集的一组数据参数中的每个数据参数能够反映该样本集的一个特征,一个样本集的一组数据参数可以反映该样本集的多个特征。示例的,一个样本集的一组数据参数可以由该样本集的一组元数据(包括至少一个元数据)组成,若两个样本集不同,则该两个样本集的两组元数据不同,可选的,一个样本集的一组数据参数可以包括样本集的均值、样本集的方差、样本集的最大值、样本集的最小值等,本发明实施例对此不作限定。
示例的,如表1所示,样本集1的一组数据参数可以包括:第1元数据,第2元数据,...,第X元数据;样本集2的一组数据参数可以包括:第X+1元数据,第X+2元数据,...,第Y元数据;样本集3的一组数据参数可以包括:第Y+1元数据,第Y+2元数据,...,第Z元数据;样本集4的一组数据参数可以包括:第Z+1元数据,第Z+2元数据,...,第W元数据。需要说明的是,表1中的任意两个元数据可以相同,也可以不同,但是,任意两个样本集中的两组数据参数不同。需要说明的是,本发明实施例仅仅以获取到的样本集的个数为4进行举例说明,实际应用中,步骤201中获取的样本集的个数成百上千(或者更多)。
表1
样本集 元数据
1 第1元数据,第2元数据,...,第X元数据
2 第X+1元数据,第X+2元数据,...,第Y元数据
3 第Y+1元数据,第Y+2元数据,...,第Z元数据
4 第Z+1元数据,第Z+2元数据,...,第W元数据
步骤202、确定多个样本集中每个样本集的一组数据参数对应的目标特征选择算法和目标机器学习算法。
需要说明的是,一组数据参数可以对应多种特征选择算法和多种机器学习算法(也即,对一组数据参数进行处理时,可以采用多种特征选择算法中的任意一种特征选择算法,也可以采用多种机器学习算法中的任意一种机器学习算法)。从一组数据参数对应的多种特征选择算法中选择一个特征选择算法,与从该组数据参数对应的多种机器学习算法中选择一个机器学习算法,可以组成该组数据参数对应的一种算法,因此,该组数据参数可以对应多种算法。且根据预设评估算法对该组数据参数对应的多种算法进行评估能够确定多个评估值,该多个评估值中的最优评估值对应的算法为该组数据参数对应的目标算法,组成该目标算法的特征选择算法和机器学习算法为该组数据参数对应的目标特征选择算法和目标机器学习算法。
具体的,采用一种特征选择算法和一种机器学习算法对某一样本集进行处理,可以确定该样本集是否具有预设特征,进而确定该样本集的属性,也即确定该样本集的属性为:具有预设特征,或者,不具有预设特征。如确定该样本集对应的用户为女性,或者,不为女性。
预设评估算法可以对“采用某一种特征选择算法和某一种机器学习算法确定样本集的属性”这一过程的准确率或失误率等参数进行评估,并通过数值的形式表现,这个数值可以称为预设评估算法的评估值,评估值越优,确定出的样本集的属性越准确。具体的,当预设评估算法用于评估准确率时,评估值越大,确定出的样本集的属性越准确,此时的最优评估值为最大评估值;当该预设评估算法用于评估失误率时,评估值越小,确定出的样本集的属性越准确,此时的最优评估值为最小评估值。示例的,该预设评估算法可以为基于多重交叉验证机制的评估方法,该预设评估算法还可以为其他评估算法,本发明实施例对此不作限定。
由于确定每组数据参数对应的目标特征选择算法和目标机器学习算法的过程相似,所以,本发明实施例在此仅以确定目标参数组对应的目标特征选择算法和目标机器学习算法为例进行解释说明,确定其他组数据参数对应的目标特征选择算法和目标机器学习算法的具体步骤可以参考:确定目标参数组对应的目标特征选择算法和目标机器学习算法的具体步骤,本发明实施例在此不做赘述。示例的,确定目标参数组对应的目标特征选择算法和目标机器学习算法,可以包括:
首先,将目标样本集代入至少一种特征选择算法中,确定目标参数组对应的至少一个特征集。具体的,该至少一种特征选择算法可以包括基于信息熵的特征选择算法,或者,基于特征间相关度的特征选择算法,需要说明的是,该至少一种特征选择算法还可以包括其他特征选择算法,本发明实施例在此不一一例举。然后,可以将目标参数组对应的至少一个特征集分别代入至少一种机器学习算法中,确定目标参数组对应的至少一个处理模型。示例的,若目标参数组对应A个特征集,将该A个特征集分别代入B种机器学习算法中,确定A×B个处理模型。最后,可以根据预设评估算法确定至少一个处理模型中每个处理模型对应的评估值,并将评估值最优的处理模型对应的特征选择算法和机器学习算法,作为目标参数组对应的目标特征选择算法和目标机器学习算法。示例的,若A×B等于6,且该6个处理模型对应的评估值分别为10、20、30、40、50和60,则可以将对应的评估值为60的处理模型对应的特征选择算法和机器学习算法,作为目标参数组对应的目标特征选择算法和目标机器学习算法。可选的,目标参数组对应的目标特征选择算法可以包括:基于信息熵的特征选择算法,或者,基于特征间相关度的特征选择算法;目标参数组对应的目标机器学习算法可以包括:随机森林(英文:Random Forest;简称:RF)机器学习算法,逻辑回归(英文:Logistic Regression;简称:LR)机器学习算法,或者,支持向量机(英文:Support VectorMachine)机器学习算法。
示例的,可以建立一个用于记录每组数据参数对应的目标特征选择算法和目标机器学习算法的列表,该列表可以如表2所示,数据参数:第1元数据,第2元数据,...,第X元数据(样本集1的一组数据参数),对应目标特征选择算法2和目标机器学习算法3,数据参数:第X+1元数据,第X+2元数据,...,第Y元数据(样本集2的一组数据参数),对应目标特征选择算法2和目标机器学习算法2,数据参数:第Y+1元数据,第Y+2元数据,...,第Z元数据(样本集3的一组数据参数),对应目标特征选择算法1和目标机器学习算法2,数据参数:第Z+1元数据,第Z+2元数据,...,第W元数据(样本集4的一组数据参数),对应目标特征选择算法1和目标机器学习算法3。需要说明的是,该列表中可以仅仅记录有目标特征选择算法的标识与目标机器学习算法的标识。
表2
Figure BDA0001106627300000141
步骤203、根据每组数据参数对应的目标特征选择算法和目标机器学习算法,确定预设算法模型。
具体的,步骤201中可以不断的获取样本集,且在步骤201中每获取到一个样本集后,就执行步骤202中确定该样本集的一组数据参数对应的目标特征选择算法和目标机器学习算法,直至步骤201中获取到的样本集的个数为n时,就可以执行步骤203中的步骤,n可以为大于或等于1的整数,n个样本集具有n组数据参数。在确定n组数据参数中每组数据参数对应的目标特征选择算法和目标机器学习算法后,可以根据每组数据参数对应的目标特征选择算法和目标机器学习算法,确定预设算法模型。具体的,可以根据步骤202中建立的列表(表2),推导出能够确定出至少一组数据参数中的每组数据参数对应的目标特征选择算法和目标机器学习算法的预设算法模型。
预设算法模型可以为一个对应关系记录表,该对应关系记录表中记录了至少一组数据参数,以及该至少一组数据参数中每组数据参数对应的目标特征选择算法和目标机器学习算法,也即根据该对应关系记录表(预设算法模型)能够确定出每组数据参数对应的目标特征选择算法和目标机器学习算法。可选的,该预设算法模型还可以不为对应关系记录表,示例的,该预设算法模型还可以为一个三维坐标曲线,且三维坐标中的x变量为数据参数组,y变量为目标特征选择算法,z变量为目标机器学习算法,该三维坐标曲线可以对应至少一组数据参数。需要说明的是,该预设算法模型还可以通过其他形式表现,本发明实施例对此不做限定。
一方面,若n组数据参数各不相同,则根据步骤203中确定出的预设算法模型可以确定出n组数据参数中每组数据参数对应的目标算法;另一方面,若n组数据参数中存在至少两组相同的数据参数,则根据步骤203中确定出的预设算法模型以可以确定出L组数据参数中每组数据参数对应的目标算法,L为小于n的整数。
可选的,若在处理数据的过程中,指定使用第一机器学习算法对数据进行处理,则在确定n组数据参数中每组数据参数对应的目标特征选择算法和目标机器学习算法后,可以根据每组数据参数对应的目标特征选择算法和目标机器学习算法,以及该第一机器学习算法,确定预设算法模型,根据该预设算法模型可以确定出第一机器学习算法和至少一组数据参数中每组数据参数对应的目标特征选择算法。
步骤204、根据每组数据参数对应的目标特征选择算法,确定预设权重变化模型。
示例的,步骤201中可以不断的获取样本集,且在步骤201中每获取到一个样本集后,就执行步骤202中确定该样本集的一组数据参数对应的目标特征选择算法和目标机器学习算法,直至步骤201中获取到的样本集的个数为m时,就可以执行步骤204中的步骤,m可以为大于或等于1的整数,m个样本集具有m组数据参数,步骤204中的m可以与步骤203中的n的相同,或者步骤204中的m可以与步骤203中的n的不同,本发明实施例对此不作限定。在确定m组数据参数中每组数据参数对应的目标特征选择算法后,可以根据每组数据参数对应的目标特征选择算法确定预设权重变化模型。
具体的,可以将m个样本集分别代入样本集的一组数据参数对应的目标特征选择算法,得到m组特征集,并根据得到的m组特征集确定初始特征集,该初始特征集可以包括m组特征集中的所有特征(q个特征)。例如:若该m组特征集为:(特征1,特征2,特征3)、(特征1,特征3,特征4)以及(特征1,特征2,特征5),则可以确定该初始特征集可以为:(特征1,特征2,特征3,特征4,特征5)。需要说明的是,在确定初始特征集后,还可以根据预设排序算法对初始特征集中的特征进行排序,为初始特征集中的每个特征赋予一个权重,例如,特征1的权重可以为5,特征2的权重可以为3,特征3的权重可以为2.5,特征4的权重可以为1,特征5的权重可以为0.5。
然后,可以将m个样本集分别代入参考特征选择算法,得到m组特征集,并根据得到的m组特征集确定参考特征集,该参考特征集可以包括m组特征集中的所有特征。例如:若该m组特征集为:(特征1,特征2,特征3)、(特征1,特征3,特征6)以及(特征1,特征2,特征5),则可以确定该初始特征集可以为:(特征1,特征2,特征3,特征5,特征6)。需要说明的是,在确定参考特征集后,还可以根据预设排序算法对参考特征集中的特征进行排序,为参考特征集中的每个特征赋予一个权重,例如,特征1的权重可以为5,特征2的权重可以为2.5,特征3的权重可以为1,特征5的权重可以为0.9,特征6的权重可以为0.6。该参考特征选择算法可以为人工特征选择算法,也即根据工作人员的经验值,对每个样本进行分析判断,进而确定参考特征集,并可以继续根据工作人员的经验值,为参考特征集中的所有特征进行排序,为参考特征集中的每个特征赋予一个权重。
最后,可以根据得到的参考特征集,确定初始特征集中每个特征对应的权重变化值,并将每个特征的权重变化值确定为该特征的一组特征参数对应的权重变化值。具体的,可以将初始特征集代入预设机器学习算法,确定第一处理模型,将参考特征集代入预设机器学习算法,确定第二处理模型。并根据预设评估算法对第一处理模型进行评估,确定第一评估值,根据预设评估算法对第二处理模型进行评估,确定第二评估值。然后判断第二评估值是否大于第一评估值,也即判断采用参考特征选择算法对目标样本进行处理的处理效果好,还是采用目标参数组对应的目标特征选择算法对目标样本进行处理的处理效果好。若第二评估值大于第一评估值,且参考特征集包括初始特征集中的第一特征,则将第一特征在参考特征集中的权重,与第一特征在初始特征集中的权重之差,作为第一特征的一组特征参数对应的权重变化值。若第二评估值大于第一评估值,且参考特征集不包括初始特征集中的第一特征,则将预设权重变化值作为第一特征的一组特征参数对应的权重变化值;若第二评估值不大于第一评估值,则确定第一特征的一组特征参数对应的权重变化值为零。
若第二评估值小于或等于第一评估值,则可以确定特征1、2、3、4、5对应的权重变化值均为0。若第二评估值大于第一评估值,则对于初始特征集中的特征1而言,参考特征集中包含特征1,所以可以将参考特征集中特征1的权重5与初始特征集中特征1的权重5之差0,作为特征1的一组特征参数(第1元数据、第2元数据、...第C元数据)对于的权重变化值。对于初始特征集中的特征2而言,参考特征集中包含特征2,所以可以将参考特征集中特征2的权重2.5与初始特征集中特征2的权重3之差-0.5,作为特征2的一组特征参数(第C+1元数据、第C+2元数据、...第D元数据)对应的权重变化值。对于初始特征集中的特征3而言,参考特征集中包含特征3,所以可以将参考特征集中特征3的权重0.9与初始特征集中特征3的权重2.5之差-1.6,作为特征3的一组特征参数(第D+1元数据、第D+2元数据、...第E元数据)对应的权重变化值。对于初始特征集中的特征4而言,参考特征集中不包含特征4,所以可以将预设特征值(如-0.2),作为特征4的一组特征参数(第E+1元数据、第E+2元数据、...第F元数据)对应的权重变化值。对于初始特征集中的特征5而言,参考特征集中包含特征5,所以可以将参考特征集中特征5的权重1与初始特征集中特征5的权重0.5之差0.5,作为特征5的一组特征参数(第F+1元数据、第F+2元数据、...第G元数据)对应的权重变化值。可选的,若该参考特征集中不包括初始特征集中的多个特征,则可以采用一种简单的下降算法将权重总和“1”划分给每个特征,也即分别为该多个特征分配一个权重变化值,使得该多个特征的权重变化值之和为1。
在确定初始特征集中每个特征的一组特征参数对应的权重变化值后,可以使用一个列表记录初始特征集中每个特征的一组特征参数对应的权重变化值。示例的,如表3所示,表3记录了初始特征集中的每个特征的一组特征参数对应的权重变化值。需要说明的是,本发明实施例仅仅以初始特征集中特征的个数为5进行举例说明,实际应用中,初始特征集中特征的个数可以不为5。
表3
初始特征集中的特征的特征参数 权重变化值
第1元数据、第2元数据、...第C元数据 5
第C+1元数据、第C+2元数据、...第D元数据 2.5
第D+1元数据、第D+2元数据、...第E元数据 1
第E+1元数据、第E+2元数据、...第F元数据 0.9
第F+1元数据、第F+2元数据、...第G元数据 0.6
在确定初始特征集中每个特征的一组特征参数对应的权重变化值后,可以根据每组特征参数对应的权重变化值确定预设权重变化模型,也即,可以根据表3推导出预设权重变化模型。
步骤205、获取待处理数据,待处理数据的一组数据参数为目标参数组。
在步骤205之前,已经确定好预设算法模型和预设权重变化模型,在步骤205中可以对数据参数为根据该预设算法模型能够确定出的任意一组数据参数的数据进行处理。现在以图1所示的实施例为例,一方面,步骤205中获取到的待处理数据可以包括:图1中用户A在使用第一通信运营商提供的网络进行通信的过程中,网络侧产生的用户数据1以及用户B在使用第一通信运营商提供的网络进行通信的过程中,网络侧产生的用户数据2;另一方面,步骤205中获取到的待处理数据可以包括:用户C在使用第二通信运营商提供的网络进行通信的过程中,网络侧产生的用户数据3,以及用户D在使用第二通信运营商提供的网络进行通信的过程中,网络侧产生的用户数据4。
需要说明的是,待处理数据的一组数据参数可以为目标参数组,需要说明的是,本发明实施例中以处理数据参数为目标参数组的待处理数据的过程为例进行详细讲解,处理数据参数为根据预设算法模型能够确定出的其他组数据参数的待处理数据的过程可以参考处理数据参数为目标参数组的待处理数据的过程,本发明实施例在此不做赘述。
步骤206、将目标参数组代入预设算法模型,确定目标参数组对应的目标算法。
示例的,步骤206中确定的目标算法可以包括:目标特征选择算法和目标机器学习算法中的至少一种算法,也即,上述确定的目标参数组对应的目标算法可以为:目标参数组对应的目标特征选择算法;或者,目标参数组对应的目标机器学习算法;或者,目标参数组对应的目标特征选择算法和目标机器学习算法。示例的,本发明实施例中,以目标算法同时包括:目标特征选择算法和目标机器学习算法为例进行说明。
一方面,在执行步骤206时,若规定了在处理待处理数据的过程中,必须用到第一机器学习算法,则可以将第一机器学习算法和目标参数组代入预设算法模型,得到该第一机器学习算法和目标参数组对应的目标特征选择算法,并将得到的目标特征选择算法和该第一机器学习算法作为目标参数组对应的目标特征选择算法和目标机器学习算法。另一方面,在执行步骤206时,若并未明确规定在处理待处理数据的过程中,必须用到某一机器学习算法,则可以直接将目标参数组代入预设算法模型中,得到该目标参数组对应的目标特征选择算法和目标机器学习算法。
需要说明的是,若在步骤206中仅仅确定了目标参数组对应的目标特征选择算法,则可以根据相关技术确定一个机器学习算法作为目标参数组对应的目标机器学习算法。若在步骤206中仅仅确定了目标参数组对应的目标机器学习算法,则可以根据相关技术确定一个特征选择算法作为目标参数组对应的目标特征选择算法。
步骤207、根据目标参数组对应的目标算法以及预设权重变化模型,确定待处理数据的属性。
示例的,由于待处理数据的一组数据参数为目标参数组,所以可以将待处理数据代入目标参数组对应的目标特征选择算法,确定目标特征集。具体的,步骤204中的初始特征集可以包括目标特征集,也即目标特征集中的每个特征均属于初始特征集。示例的,在确定目标特征集后,还可以采用预设排序算法为目标特征集中的每个特征进行排序,确定目标特征集中的每个特征的权重。示例的,若该目标特征集中的特征为特征1、特征2、特征3、特征4、特征5,且特征1的权重可以为5,特征2的权重可以为3,特征3的权重可以为2.5,特征4的权重可以为1,特征5的权重可以为0.5,则目标特征集中的特征,按照权重进行排序为:特征1、特征2、特征3、特征4、特征5。
在确定目标特征集后,可以根据步骤204中确定的预设权重变化模型,确定目标特征集中每个特征的一组特征参数对应的权重变化值,具体的,可以将特征1、特征2、特征3、特征4、特征5中的5组特征参数代入预设权重变化模型中,确定每组特征参数对应的对应的权重变化值。并在确定每组特征参数对应的权重变化值后,可以根据每组特征参数对应的权重变化值更新目标特征集中的每个特征对应的权重,具体的,可以将每个特征对应的权重与该特征的一组特征参数对应的权重变化值之和,作为该特征更新后的权重。例如,若该目标特征集中特征1的权重为5,该特征1的一组特征参数对应的权重变化值为0,则更新后的特征1的权重为5;若该目标特征集中特征2的权重为3,该特征2的一组特征参数对应的权重变化值为-0.5,则更新后的特征2的权重为2.5;若该目标特征集中特征3的权重为2.5,该特征3的一组特征参数对应的权重变化值为-1.6,则更新后的特征3的权重为0.9;若该目标特征集中特征4的权重为1,该特征4的一组特征参数对应的权重变化值为-0.2,则更新后的特征4的权重为0.8;若该目标特征集中特征5的权重为0.5,该特征5的一组特征参数对应的权重变化值为0.5,则可以更新后的特征5的权重为1,所以,更新后的目标特征集中的特征,按照权重进行排序为:特征1、特征2、特征5、特征3、特征4。
在得到更新权重后的目标特征集后,可以根据更新后的目标特征集和目标参数组对应的目标机器学习算法,确定待处理数据的属性,具体的,可以将更新后的目标特征集代入目标参数组对应的目标机器学习算法中,得到一个处理模型,并将待处理数据代入该处理模型中,确定该待处理模型的属性。
相关技术中,第一通信运营商在对网络侧产生的用户数据进行处理时,还可以将该两个用户数据代入一种特征选择算法,得到一个初始特征集,然后,可以根据该初始特征集构建多个特征选择弱分类器,并基于Boosting算法(一种用来提高弱分类算法准确度的算法)对该多个特征选择弱分类器进行反复迭代,在每次迭代的过程中,可以采用一种机器学习算法对当前特征选择弱分类器得到的两个用户数据的属性的准确性进行验证,若当前特征选择弱分类器得到的两个用户数据的属性不准确,则需要将当前特征选择弱分类器更换为另一个特征选择弱分类器,并调整该另一个特征选择分类器中参数的大小。若当前特征选择弱分类器得到的两个用户数据的属性准确,则将当前特征选择弱分类器作为特征选择强分类器,并采用该特征选择强分类器和该一种机器学习算法确定该两个用户数据的属性。但是,基于Boosting算法对该多个特征选择弱分类器进行反复迭代的过程耗时较长,所以,数据处理的速度较慢,且数据处理的效率较低。本发明实施例中,由于预先确定了预设算法模型,在进行数据处理时,可以直接根据该预设算法模型,确定待处理数据对应的目标特征选择算法和目标机器学习算法,且整个过程中耗时较短,所以提高了数据处理的速度和效率。
相关技术中,可以将待处理数据代入自动特征选择算法(如基于信息增益或基于相关度的特征选择算法),确定目标特征集。但是,自动特征选择算法在本质上是基于数理统计理论的算法,也即,自动特征选择算法可以根据待处理数据中的数值,确定出该待处理数据的特征中,对某一标签的区分度最好的特征,但实际意义上并不一定是区分度最好的特征,比如身份标识(英文:identification;简称:ID)类特征,此时,将选择好的特征集代入某一机器学习算法得到的处理模型对待处理数据的处理效果较差。工作人员根据经验值在该待处理数据的特征值选择出的特征,可能与该自动特征选择算法确定出的特征不同,但是,将工作人员选择出的特征代入某一机器学习算法得到的处理模型对待处理数据的处理效果较好。本发明实施例中,预先建立了预设权重变化模型,使得在使用自动特征选择算法得到特征集后,还可以参考工作人员的经验值,对该特征集中特征的权重进行更新,使得将更新后的特征集代入机器学习算法得到的处理模型对待处理数据的处理效果较好。
综上所述,由于本发明实施例提供的数据处理方法中,在获取到待处理数据后,直接根据预设算法模型,能够确定目标参数组(待处理数据的一组数据参数)对应的目标算法,且根据该预设算法模型确定出的目标参数组对应的目标算法为根据预设评估算法对目标参数组对应的至少一种算法进行评估,确定的最优评估值对应的算法,也即根据目标参数组对应的目标算法,确定的待处理数据的属性最准确,使得根据该目标参数组对应的目标算法确定的待处理数据的属性的准确度较高。
需要说明的是,本发明实施例提供的数据处理方法步骤的先后顺序可以进行适当调整,步骤也可以根据情况进行相应增减,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化的方法,都应涵盖在本发明的保护范围之内,因此不再赘述。
如图3-1所示,本发明实施例提供了一种数据处理装置30,该数据处理装置30可以包括:
第一获取模块301,用于获取待处理数据,待处理数据的一组数据参数为目标参数组;
第一确定模块302,用于将目标参数组代入预设算法模型,确定目标参数组对应的目标算法,目标算法为:根据预设评估算法对目标参数组对应的至少一种算法进行评估,确定的最优评估值对应的算法;
第二确定模块303,用于根据目标参数组对应的目标算法确定待处理数据的属性。
综上所述,由于本发明实施例提供的数据处理装置中,在第一获取模块获取到待处理数据后,第一确定模块直接根据预设算法模型,能够确定目标参数组(待处理数据的一组数据参数)对应的目标算法,且根据该预设算法模型确定出的目标参数组对应的目标算法为根据预设评估算法对目标参数组对应的至少一种算法进行评估,确定的最优评估值对应的算法,也即第二确定模块根据目标参数组对应的目标算法,确定的待处理数据的属性最准确,使得根据该目标参数组对应的目标算法确定的待处理数据的属性的准确度较高。
可选的,目标算法包括:目标特征选择算法和目标机器学习算法,如图3-2所示,本发明实施例提供了另一种数据处理装置30,在图3-1的基础上,数据处理装置30还包括:
第二获取模块304,用于获取n个样本集,n个样本集的n组数据参数包括目标参数组,n为大于或等于1的整数;
第三确定模块305,用于确定n组数据参数中的每组数据参数对应的目标特征选择算法和目标机器学习算法;
第四确定模块306,用于根据n组数据参数中的每组数据参数对应的目标特征选择算法和目标机器学习算法,确定预设算法模型;
第一样本集为n个样本集中的任一样本集,第三确定模块305还可以用于:
将第一样本集代入至少一种特征选择算法中,确定第一样本集的一组数据参数对应的至少一个特征集;
将第一样本集的一组数据参数对应的至少一个特征集,分别代入至少一种机器学习算法中,确定第一样本集的一组数据参数对应的至少一个处理模型;
根据预设评估算法确定至少一个处理模型中每个处理模型对应的评估值,并将评估值最优的处理模型对应的特征选择算法和机器学习算法,作为第一样本集的一组数据参数对应的目标特征选择算法和目标机器学习算法。
可选的,目标算法包括:目标特征选择算法和目标机器学习算法,如图3-3所示,第二确定模块303可以包括:
第一确定单元3031,用于将待处理数据代入目标参数组对应的目标特征选择算法,确定目标特征集,目标特征集包括p个特征,p个特征中的每个特征具有一组特征参数,p为大于或等于1的整数,特征集中的特征具有一个权重;
第二确定单元3032,用于将p个特征的p组特征参数分别代入预设权重变化模型,确定p组特征参数中每组特征参数对应的权重变化值;
更新单元3033,用于根据确定的权重变化值更新目标特征集中的每个特征对应的权重;
第三确定单元3034,用于根据更新后的目标特征集和目标参数组对应的目标机器学习算法,确定待处理数据的属性。
如图3-4所示,本发明实施例提供了又一种数据处理装置30,在图3-1的基础上,该数据处理装置30还可以包括:
第三获取模块307,用于获取m个样本集,m个样本集的m组数据参数包括目标参数组,m为大于或等于1的整数;
第五确定模块308,用于确定m组数据参数中的每组数据参数对应的目标特征选择算法;
第六确定模块309,用于确定初始特征集,初始特征集包括:将m个样本集中的每个样本集代入样本集的一组数据参数对应的目标特征选择算法得到的特征集中的特征;
第七确定模块310,用于确定参考特征集,参考特征集包括:将m个样本集中的每个样本集代入参考特征选择算法得到的特征集中的特征;
第八确定模块311,用于根据参考特征集,确定初始特征集中每个特征的一组特征参数对应的权重变化值;
第九确定模块312,用于根据每个特征的一组特征参数对应的权重变化值,确定预设权重变化模型。
可选的,第八确定模块311还可以用于:
将初始特征集代入预设机器学习算法,确定第一处理模型;
将参考特征集代入预设机器学习算法,确定第二处理模型;
根据预设评估算法对第一处理模型进行评估,确定第一评估值;
根据预设评估算法对第二处理模型进行评估,确定第二评估值;
判断第二评估值是否大于第一评估值;
若第二评估值大于第一评估值,且参考特征集包括初始特征集中的第一特征,则将第一特征在参考特征集中的权重,与第一特征在初始特征集中的权重之差,作为第一特征的一组特征参数对应的权重变化值。
可选的,目标算法包括:目标特征选择算法或目标机器学习算法。
综上所述,由于本发明实施例提供的数据处理装置中,在第一获取模块获取到待处理数据后,第一确定模块直接根据预设算法模型,能够确定目标参数组(待处理数据的一组数据参数)对应的目标算法,且根据该预设算法模型确定出的目标参数组对应的目标算法为根据预设评估算法对目标参数组对应的至少一种算法进行评估,确定的最优评估值对应的算法,也即第二确定模块根据目标参数组对应的目标算法,确定的待处理数据的属性最准确,使得根据该目标参数组对应的目标算法确定的待处理数据的属性的准确度较高。
如图4所示,本发明实施例提供了再一种网络调整装置,该网络调整装置可以包括至少一个处理器401(例如CPU)、至少一个网络接口402或者其他通信接口、存储器403和至少一个通信总线404,用于实现这些装置之间的连接通信。处理器401用于执行存储器403中存储的可执行模块,例如计算机程序,存储器403可能包含高速随机存取存储器(英文:Random Access Memory;简称:RAM),也可能还包括非不稳定的存储器(英文:non-volatilememory),例如至少一个磁盘存储器。通过至少一个网络接口402(可以是有线或者无线)实现该网络调整装置与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。
在一些实施方式中,存储器403存储了程序4031,程序4031可以被处理器401执行,图2所示的数据处理方法可以被处理器401执行程序4031来实现。
综上所述,由于本发明实施例提供的数据处理装置中,处理器在获取到待处理数据后,直接根据预设算法模型,能够确定目标参数组(待处理数据的一组数据参数)对应的目标算法,且根据该预设算法模型确定出的目标参数组对应的目标算法为根据预设评估算法对目标参数组对应的至少一种算法进行评估,确定的最优评估值对应的算法,也即根据目标参数组对应的目标算法,确定的待处理数据的属性最准确,使得根据该目标参数组对应的目标算法确定的待处理数据的属性的准确度较高。
本发明实施例提供了一种数据处理系统,该数据处理系统可以包括如图3-1、图3-2、图3-4或图4所示的数据处理装置。
综上所述,由于本发明实施例提供的数据处理系统中的数据处理装置中,在第一获取模块获取到待处理数据后,第一确定模块直接根据预设算法模型,能够确定目标参数组(待处理数据的一组数据参数)对应的目标算法,且根据该预设算法模型确定出的目标参数组对应的目标算法为根据预设评估算法对目标参数组对应的至少一种算法进行评估,确定的最优评估值对应的算法,也即第二确定模块根据目标参数组对应的目标算法,确定的待处理数据的属性最准确,使得根据该目标参数组对应的目标算法确定的待处理数据的属性的准确度较高。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的数据处理装置和数据处理系统的具体工作过程,可以参考前述数据处理方法实施例中的对应过程,在此不再赘述。
上述所有可选技术方案,可以采用任意结合形成本发明的可选实施例,在此不再一一赘述。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (11)

1.一种数据处理方法,其特征在于,所述方法包括:
获取在进行通信的过程中网络侧产生的用户数据,所述用户数据的一组数据参数为目标参数组,所述用户数据包括用户的费用和用户的账单;
将所述目标参数组代入预设算法模型,确定所述目标参数组对应的目标算法,所述目标算法为根据预设评估算法对所述目标参数组对应的至少一种算法进行评估,确定的最优评估值对应的算法;
将所述用户数据代入目标特征选择算法,确定目标特征集,所述目标特征集包括p个特征,所述p个特征中的每个特征具有一组特征参数,所述p为大于或等于1的整数,特征集中的特征具有一个权重;
将所述p个特征的p组特征参数分别代入预设权重变化模型,确定所述p组特征参数中每组特征参数对应的权重变化值;
根据确定的权重变化值更新所述目标特征集中的每个特征对应的权重;
根据目标机器学习算法和更新后的目标特征集,确定所述用户数据的属性,其中,所述目标特征选择算法和所述目标机器学习算法中的至少一种算法为所述目标参数组对应的目标算法,所述属性包括用户的性别、年龄或爱好;
基于所述用户数据的属性,向所述用户数据对应的用户发送相关的信息。
2.根据权利要求1所述的方法,其特征在于,所述目标算法包括:目标特征选择算法和目标机器学习算法,在将所述目标参数组代入预设算法模型前,所述方法还包括:
获取n个样本集,所述n个样本集的n组数据参数包括所述目标参数组,所述n为大于或等于1的整数;
确定所述n组数据参数中的每组数据参数对应的目标特征选择算法和目标机器学习算法;
根据所述n组数据参数中的每组数据参数对应的目标特征选择算法和目标机器学习算法,确定所述预设算法模型。
3.根据权利要求2所述的方法,其特征在于,第一样本集为所述n个样本集中的任一样本集,所述确定所述n组数据参数中的每组数据参数对应的目标特征选择算法和目标机器学习算法,包括:
将所述第一样本集代入至少一种特征选择算法中,确定所述第一样本集的一组数据参数对应的至少一个特征集;
将所述第一样本集的一组数据参数对应的至少一个特征集,分别代入至少一种机器学习算法中,确定所述第一样本集的一组数据参数对应的至少一个处理模型;
根据预设评估算法确定所述至少一个处理模型中每个处理模型对应的评估值,并将评估值最优的处理模型对应的特征选择算法和机器学习算法,作为所述第一样本集的一组数据参数对应的目标特征选择算法和目标机器学习算法。
4.根据权利要求1所述的方法,其特征在于,在根据所述目标参数组对应的目标算法确定所述用户数据的属性之前,所述方法还包括:
获取m个样本集,所述m个样本集的m组数据参数包括所述目标参数组,所述m为大于或等于1的整数;
确定所述m组数据参数中的每组数据参数对应的目标特征选择算法;
确定初始特征集,所述初始特征集包括:将所述m个样本集中的每个样本集,代入样本集的一组数据参数对应的目标特征选择算法得到的特征集中的特征;
确定参考特征集,所述参考特征集包括:将所述m个样本集中的每个样本集代入参考特征选择算法得到的特征集中的特征;
根据所述参考特征集,确定所述初始特征集中每个特征的一组特征参数对应的权重变化值;
根据所述每个特征的一组特征参数对应的权重变化值,确定所述预设权重变化模型。
5.根据权利要求4所述的方法,其特征在于,所述根据所述参考特征集,确定所述初始特征集中每个特征的一组特征参数对应的权重变化值,包括:
将所述初始特征集代入预设机器学习算法,确定第一处理模型;
将所述参考特征集代入预设机器学习算法,确定第二处理模型;
根据所述预设评估算法对所述第一处理模型进行评估,确定第一评估值;
根据所述预设评估算法对所述第二处理模型进行评估,确定第二评估值;
判断所述第二评估值是否大于所述第一评估值;
若所述第二评估值大于所述第一评估值,且所述参考特征集包括所述初始特征集中的第一特征,则将所述第一特征在所述参考特征集中的权重,与所述第一特征在所述初始特征集中的权重之差,作为所述第一特征的一组特征参数对应的权重变化值。
6.一种数据处理装置,其特征在于,所述数据处理装置包括:
第一获取模块,用于获取在进行通信的过程中网络侧产生的用户数据,所述用户数据的一组数据参数为目标参数组,所述用户数据包括用户的费用和用户的账单;
第一确定模块,用于将所述目标参数组代入预设算法模型,确定所述目标参数组对应的目标算法,所述目标算法为根据预设评估算法对所述目标参数组对应的至少一种算法进行评估,确定的最优评估值对应的算法;
第二确定模块包括第一确定单元、第二确定单元、更新单元和第三确定单元;
所述第一确定单元,用于将所述用户数据代入目标特征选择算法,确定目标特征集,所述目标特征集包括p个特征,所述p个特征中的每个特征具有一组特征参数,所述p为大于或等于1的整数,特征集中的特征具有一个权重;
所述第二确定单元,用于将所述p个特征的p组特征参数分别代入预设权重变化模型,确定所述p组特征参数中每组特征参数对应的权重变化值;
所述更新单元,用于根据确定的权重变化值更新所述目标特征集中的每个特征对应的权重;
所述第三确定单元,用于根据目标机器学习算法和更新后的目标特征集,确定所述用户数据的属性,其中,所述目标特征选择算法和所述目标机器学习算法中的至少一种算法为所述目标参数组对应的目标算法,所述属性包括用户的性别、年龄或爱好;
基于所述用户数据的属性,向所述用户数据对应的用户发送相关的信息。
7.根据权利要求6所述的数据处理装置,其特征在于,所述目标算法包括:目标特征选择算法和目标机器学习算法,所述数据处理装置还包括:
第二获取模块,用于获取n个样本集,所述n个样本集的n组数据参数包括所述目标参数组,所述n为大于或等于1的整数;
第三确定模块,用于确定所述n组数据参数中的每组数据参数对应的目标特征选择算法和目标机器学习算法;
第四确定模块,用于根据所述n组数据参数中的每组数据参数对应的目标特征选择算法和目标机器学习算法,确定所述预设算法模型。
8.根据权利要求7所述的数据处理装置,其特征在于,第一样本集为所述n个样本集中的任一样本集,所述第三确定模块还用于:
将所述第一样本集代入至少一种特征选择算法中,确定所述第一样本集的一组数据参数对应的至少一个特征集;
将所述第一样本集的一组数据参数对应的至少一个特征集,分别代入至少一种机器学习算法中,确定所述第一样本集的一组数据参数对应的至少一个处理模型;
根据预设评估算法确定所述至少一个处理模型中每个处理模型对应的评估值,并将评估值最优的处理模型对应的特征选择算法和机器学习算法,作为所述第一样本集的一组数据参数对应的目标特征选择算法和目标机器学习算法。
9.根据权利要求8所述的数据处理装置,其特征在于,所述数据处理装置还包括:
第三获取模块,用于获取m个样本集,所述m个样本集的m组数据参数包括所述目标参数组,所述m为大于或等于1的整数;
第五确定模块,用于确定所述m组数据参数中的每组数据参数对应的目标特征选择算法;
第六确定模块,用于确定初始特征集,所述初始特征集包括:将所述m个样本集中的每个样本集,代入样本集的一组数据参数对应的目标特征选择算法得到的特征集中的特征;
第七确定模块,用于确定参考特征集,所述参考特征集包括:将所述m个样本集中的每个样本集代入参考特征选择算法得到的特征集中的特征;
第八确定模块,用于根据所述参考特征集,确定所述初始特征集中每个特征的一组特征参数对应的权重变化值;
第九确定模块,用于根据所述每个特征的一组特征参数对应的权重变化值,确定所述预设权重变化模型。
10.根据权利要求9所述的数据处理装置,其特征在于,所述第八确定模块还用于:
将所述初始特征集代入预设机器学习算法,确定第一处理模型;
将所述参考特征集代入预设机器学习算法,确定第二处理模型;
根据所述预设评估算法对所述第一处理模型进行评估,确定第一评估值;
根据所述预设评估算法对所述第二处理模型进行评估,确定第二评估值;
判断所述第二评估值是否大于所述第一评估值;
若所述第二评估值大于所述第一评估值,且所述参考特征集包括所述初始特征集中的第一特征,则将所述第一特征在所述参考特征集中的权重,与所述第一特征在所述初始特征集中的权重之差,作为所述第一特征的一组特征参数对应的权重变化值。
11.一种数据处理系统,其特征在于,所述数据处理系统包括权利要求6至10任一所述的数据处理装置。
CN201610797641.3A 2016-08-31 2016-08-31 数据处理方法、装置及系统 Active CN107784363B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201610797641.3A CN107784363B (zh) 2016-08-31 2016-08-31 数据处理方法、装置及系统
PCT/CN2017/079791 WO2018040561A1 (zh) 2016-08-31 2017-04-07 数据处理方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610797641.3A CN107784363B (zh) 2016-08-31 2016-08-31 数据处理方法、装置及系统

Publications (2)

Publication Number Publication Date
CN107784363A CN107784363A (zh) 2018-03-09
CN107784363B true CN107784363B (zh) 2021-02-09

Family

ID=61299990

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610797641.3A Active CN107784363B (zh) 2016-08-31 2016-08-31 数据处理方法、装置及系统

Country Status (2)

Country Link
CN (1) CN107784363B (zh)
WO (1) WO2018040561A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109615144B (zh) * 2018-12-20 2022-11-01 中华全国供销合作总社郑州棉麻工程技术设计研究所 棉花回潮率目标值的设定方法、装置、设备及存储介质
CN112036569B (zh) * 2020-07-30 2021-07-23 第四范式(北京)技术有限公司 知识内容的标注方法、装置、计算机装置和可读存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101782976A (zh) * 2010-01-15 2010-07-21 南京邮电大学 一种云计算环境下机器学习自动选择方法
CN101872347A (zh) * 2009-04-22 2010-10-27 富士通株式会社 判断网页类型的方法和装置
CN103123649A (zh) * 2013-01-29 2013-05-29 广州一找网络科技有限公司 一种基于微博平台的消息搜索方法及系统
CN103761426A (zh) * 2014-01-02 2014-04-30 中国科学院数学与系统科学研究院 一种在高维数据中快速识别特征组合的方法及系统
CN103778913A (zh) * 2014-01-22 2014-05-07 苏州大学 一种病理嗓音的识别方法
CN104200087A (zh) * 2014-06-05 2014-12-10 清华大学 用于机器学习的参数寻优及特征调优的方法及系统
CN104239351A (zh) * 2013-06-20 2014-12-24 阿里巴巴集团控股有限公司 一种用户行为的机器学习模型的训练方法及装置
CN104462487A (zh) * 2014-12-19 2015-03-25 南开大学 一种融合多信息源的个性化在线新闻评论情绪预测方法
CN104573741A (zh) * 2014-12-24 2015-04-29 杭州华为数字技术有限公司 一种特征选择方法及装置
CN105389639A (zh) * 2015-12-15 2016-03-09 上海汽车集团股份有限公司 基于机器学习的物流运输路径规划方法、装置及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140310208A1 (en) * 2013-04-10 2014-10-16 Machine Perception Technologies Inc. Facilitating Operation of a Machine Learning Environment

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101872347A (zh) * 2009-04-22 2010-10-27 富士通株式会社 判断网页类型的方法和装置
CN101782976A (zh) * 2010-01-15 2010-07-21 南京邮电大学 一种云计算环境下机器学习自动选择方法
CN103123649A (zh) * 2013-01-29 2013-05-29 广州一找网络科技有限公司 一种基于微博平台的消息搜索方法及系统
CN104239351A (zh) * 2013-06-20 2014-12-24 阿里巴巴集团控股有限公司 一种用户行为的机器学习模型的训练方法及装置
CN103761426A (zh) * 2014-01-02 2014-04-30 中国科学院数学与系统科学研究院 一种在高维数据中快速识别特征组合的方法及系统
CN103778913A (zh) * 2014-01-22 2014-05-07 苏州大学 一种病理嗓音的识别方法
CN104200087A (zh) * 2014-06-05 2014-12-10 清华大学 用于机器学习的参数寻优及特征调优的方法及系统
CN104462487A (zh) * 2014-12-19 2015-03-25 南开大学 一种融合多信息源的个性化在线新闻评论情绪预测方法
CN104573741A (zh) * 2014-12-24 2015-04-29 杭州华为数字技术有限公司 一种特征选择方法及装置
CN105389639A (zh) * 2015-12-15 2016-03-09 上海汽车集团股份有限公司 基于机器学习的物流运输路径规划方法、装置及系统

Also Published As

Publication number Publication date
CN107784363A (zh) 2018-03-09
WO2018040561A1 (zh) 2018-03-08

Similar Documents

Publication Publication Date Title
CN109902708B (zh) 一种推荐模型训练方法及相关装置
CN105574538B (zh) 分类模型训练方法及装置
CN110647921B (zh) 一种用户行为预测方法、装置、设备及存储介质
CN103117903B (zh) 上网流量异常检测方法及装置
CN106021376B (zh) 用于处理用户信息的方法和设备
CA3109481A1 (en) Identification and application of hyperparameters for machine learning
CN111162934B (zh) 业务服务的测试方法和装置、存储介质、电子装置
CN109685092B (zh) 基于大数据的聚类方法、设备、存储介质及装置
Mikhailiuk et al. Active sampling for pairwise comparisons via approximate message passing and information gain maximization
US20220180209A1 (en) Automatic machine learning system, method, and device
CN106776925B (zh) 一种移动终端用户性别的预测方法、服务器和系统
Ye et al. Variable selection via penalized neural network: a drop-out-one loss approach
CN110648180B (zh) 一种调整投放渠道的方法、装置和电子设备
CN104391879B (zh) 层次聚类的方法及装置
CN110909868A (zh) 基于图神经网络模型的节点表示方法和装置
CN110210006A (zh) 一种数据筛选方法及数据筛选装置
CN104408640A (zh) 应用软件推荐方法及装置
CN109993026B (zh) 亲属识别网络模型的训练方法及装置
CN107784363B (zh) 数据处理方法、装置及系统
Wu et al. Capture-aware Bayesian RFID tag estimate for large-scale identification
CN105512156A (zh) 点击模型生成方法和装置
US20150227530A1 (en) Address Book Ranking Method and Apparatus
CN109754135B (zh) 信用行为数据处理方法、装置、存储介质和计算机设备
CN105589714B (zh) 用于分析用户使用应用程序行为的方法和装置
Van Rosmalen et al. Optimization strategies for two-mode partitioning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant