CN109816043B - 用户识别模型的确定方法、装置、电子设备及存储介质 - Google Patents

用户识别模型的确定方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN109816043B
CN109816043B CN201910107991.6A CN201910107991A CN109816043B CN 109816043 B CN109816043 B CN 109816043B CN 201910107991 A CN201910107991 A CN 201910107991A CN 109816043 B CN109816043 B CN 109816043B
Authority
CN
China
Prior art keywords
sample data
data
user identification
determining
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910107991.6A
Other languages
English (en)
Other versions
CN109816043A (zh
Inventor
赵呈路
李雪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rajax Network Technology Co Ltd
Original Assignee
Rajax Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rajax Network Technology Co Ltd filed Critical Rajax Network Technology Co Ltd
Priority to CN201910107991.6A priority Critical patent/CN109816043B/zh
Publication of CN109816043A publication Critical patent/CN109816043A/zh
Application granted granted Critical
Publication of CN109816043B publication Critical patent/CN109816043B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本公开实施例公开了一种用户识别模型的确定方法、装置、电子设备及存储介质。该方法包括:获取样本用户的多个样本数据;对多个所述样本数据进行聚类,并获得至少一个聚类中心;根据所述样本数据与所述聚类中心的距离对所述样本数据进行分组,并根据分组后的所述样本数据分别训练得到多个用户识别模型;其中,每组所述样本数据与相应的所述聚类中心的距离在同一范围内;从所述多个用户识别模型中确定出目标用户识别模型。本公开实施例相较于已有技术中通过调整阈值选择模型的方式更能细化分类,并且能够得到更加精确的表达。

Description

用户识别模型的确定方法、装置、电子设备及存储介质
技术领域
本公开涉及计算机技术领域,具体涉及一种用户识别模型的确定方法、装置、电子设备及存储介质。
背景技术
对电商平台而言,可以利用用户群体的各种行为、身份特征等来判别用户是否属于高端品质人群。一种相关技术中,基于人的知识抽象成规则后,对用户群体进行识别,但是这种方式对于界定比较清晰的问题比较适合、比如是否优惠敏感;但对于很复杂的问题,比如何界定用户是否品质,则很难抽象出适合的规则,即使通过人工去形成规则,但是这种规则一般是直观的感受,很难完全寻找出用户的所有特征,因此采用规则方式,只会选择出部分用户。而另一种相关技术中,使用规则来标注非常品质与非常不品质的用户样本,并利用标注过的用户样本挖掘特征,之后通过人工智能模型识别用户的属性;但是规则得到的人工智能模型所识别出来的用户往往是两个极端,因此在使用机器自学习算法时很有可能会把分类边界设定在比较靠近中间的位置;这种方式虽然可以通过调整域值来获得不同分类范围的比例,但很难精确的找到分类边界点。
发明内容
本公开实施例提供一种用户识别模型的确定方法、装置、电子设备及计算机可读存储介质。
第一方面,本公开实施例中提供了一种用户识别模型的确定方法。
具体的,所述用户识别模型的确定方法,包括:
获取样本用户的多个样本数据;
对多个所述样本数据进行聚类,并获得至少一个聚类中心;
根据所述样本数据与所述聚类中心的距离对所述样本数据进行分组,并根据分组后的所述样本数据分别训练得到多个用户识别模型;其中,每组所述样本数据与相应的所述聚类中心的距离在同一范围内;
从所述多个用户识别模型中确定出目标用户识别模型。
结合第一方面,本公开在第一方面的第一种实现方式中,根据分组后的所述样本数据分别训练得到多个用户识别模型,包括:
利用特征选择算法从所述样本数据对应的多个特征数据中确定出多个目标特征;其中,同一个所述样本数据包括多个不同的特征数据;
利用多组所述样本数据对应的所述目标特征分别训练得到所述多个用户识别模型。
结合第一方面和/或第一方面的第一种实现方式,本公开在第一方面的第二种实现方式中,根据分组后的所述样本数据分别训练得到多个用户识别模型,包括:
确定不同大小的多个距离范围;
根据与所述聚类中心之间的距离确定多个所述距离范围内的多组所述样本数据;
利用多组所述样本数据分别训练得到多个所述用户识别模型。
结合第一方面、第一方面的第一种实现方式和/或第一方面的第二种实现方式,本公开在第一方面的第三种实现方式中,所述样本数据集中的所述样本数据为未经过标注的数据。
结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式和/或第一方面的第三种实现方式,本公开在第一方面的第四种实现方式中,对多个所述样本数据进行聚类,并获得至少一个聚类中心之后,所述方法还包括:
获取所述聚类中心的标注数据,并将所述标注数据确定为所述聚类中心所在类别下的其他样本数据的标注数据。
结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式和/或第一方面的第四种实现方式,本公开在第一方面的第五种实现方式中,对多个所述样本数据进行聚类,并获得至少一个聚类中心,包括:
从所述样本数据对应的多个特征数据中筛选出至少一个相关特征;
根据所述至少一个相关特征对所述样本数据进行聚类,得到所述聚类中心。
结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式、第一方面的第四种实现方式和/或第一方面的第五种实现方式,本公开在第一方面的第六种实现方式中,从所述样本数据对应的多个特征数据中筛选出至少一个相关特征,包括:
利用线性回归从所述多个特征数据中筛选出最相关的至少一个正相关特征和/或至少一个负相关特征。
结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式、第一方面的第四种实现方式、第一方面的第五种实现方式和/或第一方面的第六种实现方式,本公开在第一方面的第七种实现方式中,从所述样本数据对应的多个特征数据中筛选出至少一个相关特征,包括:
利用非线性回归从所述多个特征数据中筛选出非线性特征;
剔除相关性低于预设阈值的非线性特征。
结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式、第一方面的第四种实现方式、第一方面的第五种实现方式、第一方面的第六种实现方式和/或第一方面的第七种实现方式,本公开在第一方面的第八种实现方式中,从所述多个用户识别模型中确定出目标用户识别模型,包括:
利用多个验证数据对所述多个用户识别模型进行验证,并确定出所述目标用户识别模型;其中,所述多个验证数据为经过标注的数据。
结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式、第一方面的第四种实现方式、第一方面的第五种实现方式、第一方面的第六种实现方式、第一方面的第七种实现方式和/或第一方面的第八种实现方式,本公开在第一方面的第九种实现方式中,利用多个验证数据对所述多个用户识别模型进行验证,并确定出所述目标用户识别模型,包括:
将所述多个验证数据分别输入至所述多个用户识别模型,并将识别率最高的用户识别模型确定为所述目标用户识别模型。
第二方面,本公开实施例中提供了一种用户识别模型的确定装置。
具体的,所述用户识别模型的确定,包括:
获取模块,被配置为获取样本用户的多个样本数据;
聚类模块,被配置为对多个所述样本数据进行聚类,并获得至少一个聚类中心;
训练模块,被配置为根据所述样本数据与所述聚类中心的距离对所述样本数据进行分组,并根据分组后的所述样本数据分别训练得到多个用户识别模型;其中,每组所述样本数据与相应的所述聚类中心的距离在同一范围内;
确定模块,被配置为从所述多个用户识别模型中确定出目标用户识别模型。
所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
在一个可能的设计中,用户识别模型的确定装置的结构中包括存储器和处理器,所述存储器用于存储一条或多条支持用户识别模型的确定装置执行上述第一方面中用户识别模型的确定方法的计算机指令,所述处理器被配置为用于执行所述存储器中存储的计算机指令。所述用户识别模型的确定装置还可以包括通信接口,用于用户识别模型的确定装置与其他设备或通信网络通信。
第三方面,本公开实施例提供了一种电子设备,包括存储器和处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现以下方法步骤:
获取样本用户的多个样本数据;
对多个所述样本数据进行聚类,并获得至少一个聚类中心;
根据所述样本数据与所述聚类中心的距离对所述样本数据进行分组,并根据分组后的所述样本数据分别训练得到多个用户识别模型;其中,每组所述样本数据与相应的所述聚类中心的距离在同一范围内;
从所述多个用户识别模型中确定出目标用户识别模型。
结合第三方面,本公开在第三方面的第一种实现方式中,根据分组后的所述样本数据分别训练得到多个用户识别模型,包括:
利用特征选择算法从所述样本数据对应的多个特征数据中确定出多个目标特征;其中,同一个所述样本数据包括多个不同的特征数据;
利用多组所述样本数据对应的所述目标特征分别训练得到所述多个用户识别模型。
结合第三方面和/或第三方面的第一种实现方式,本公开在第三方面的第二种实现方式中,根据分组后的所述样本数据分别训练得到多个用户识别模型,包括:
确定不同大小的多个距离范围;
根据与所述聚类中心之间的距离确定多个所述距离范围内的多组所述样本数据;
利用多组所述样本数据分别训练得到多个所述用户识别模型。
结合第三方面、第三方面的第一种实现方式和/或第三方面的第二种实现方式,本公开在第三方面的第三种实现方式中,所述样本数据集中的所述样本数据为未经过标注的数据。
结合第三方面、第三方面的第一种实现方式、第三方面的第二种实现方式和/或第三方面的第三种实现方式,本公开在第一方面的第四种实现方式中,对多个所述样本数据进行聚类,并获得至少一个聚类中心之后,所述一条或多条计算机指令被所述处理器执行还实现以下方法步骤:
获取所述聚类中心的标注数据,并将所述标注数据确定为所述聚类中心所在类别下的其他样本数据的标注数据。
结合第三方面、第三方面的第一种实现方式、第三方面的第二种实现方式、第三方面的第三种实现方式和/或第三方面的第四种实现方式,本公开在第三方面的第五种实现方式中,对多个所述样本数据进行聚类,并获得至少一个聚类中心,包括:
从所述样本数据对应的多个特征数据中筛选出至少一个相关特征;
根据所述至少一个相关特征对所述样本数据进行聚类,得到所述聚类中心。
结合第三方面、第三方面的第一种实现方式、第三方面的第二种实现方式、第三方面的第三种实现方式、第三方面的第四种实现方式和/或第三方面的第五种实现方式,本公开在第三方面的第六种实现方式中,从所述样本数据对应的多个特征数据中筛选出至少一个相关特征,包括:
利用线性回归从所述多个特征数据中筛选出最相关的至少一个正相关特征和/或至少一个负相关特征。
结合第三方面、第三方面的第一种实现方式、第三方面的第二种实现方式、第三方面的第三种实现方式、第三方面的第四种实现方式、第三方面的第五种实现方式和/或第三方面的第六种实现方式,本公开在第三方面的第七种实现方式中,所述样本数据对应的多个特征数据中筛选出至少一个相关特征,包括:
利用非线性回归从所述多个特征数据中筛选出非线性特征;
剔除相关性低于预设阈值的非线性特征。
结合第三方面、第三方面的第一种实现方式、第三方面的第二种实现方式、第三方面的第三种实现方式、第三方面的第四种实现方式、第三方面的第五种实现方式、第三方面的第六种实现方式和/或第三方面的第七种实现方式,本公开在第三方面的第八种实现方式中,从所述多个用户识别模型中确定出目标用户识别模型,包括:
利用多个验证数据对所述多个用户识别模型进行验证,并确定出所述目标用户识别模型;其中,所述多个验证数据为经过标注的数据。
结合第三方面、第三方面的第一种实现方式、第三方面的第二种实现方式、第三方面的第三种实现方式、第三方面的第四种实现方式、第三方面的第五种实现方式、第三方面的第六种实现方式、第三方面的第七种实现方式和/或第三方面的第八种实现方式,本公开在第三方面的第九种实现方式中,利用多个验证数据对所述多个用户识别模型进行验证,并确定出所述目标用户识别模型,包括:
将所述多个验证数据分别输入至所述多个用户识别模型,并将识别率最高的用户识别模型确定为所述目标用户识别模型。
第四方面,本公开实施例提供了一种计算机可读存储介质,用于存储用户识别模型的确定装置所用的计算机指令,其包含用于执行上述第一方面中用户识别模型的确定方法所涉及的计算机指令。
本公开实施例提供的技术方案可以包括以下有益效果:
本公开实施例在确定用户识别模型的过程中,获取样本用户对应的多个样本数据,并对多个样本数据进行聚类,得到多个聚类中心;之后再通过不同的距离范围从每个类别下选取多组样本数据,分别训练得到多个用户识别模型,并从该多个用户识别模型中选择得到最佳的一个用户识别模型。通过本公开这种方式,可以通过对样本数据进行聚类,选取与聚类中心不同距离范围内的多组样本数据训练得到多个用户识别模型,而由于每个用户识别模型的训练所采用的训练样本并不完全相同,并且这些样本数据按照与聚类中心的距离向外传播,且多个用户识别模型的分类边界点是由这些样本数据来决定的,因此可以从中选择得到一种泛化性能最佳的用户识别模型,相较于已有技术中通过调整阈值选择模型的方式更能细化分类,并且能够得到更加精确的表达。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
结合附图,通过以下非限制性实施方式的详细描述,本公开的其它特征、目的和优点将变得更加明显。在附图中:
图1示出根据本公开一实施方式的用户识别模型的确定方法的流程图;
图2示出根据图1所示实施方式的步骤S103的流程图;
图3示出根据图1所示实施方式的步骤S103的又一流程图;
图4示出根据图1所示实施方式的步骤S102的流程图;
图5示出根据图4所示实施方式的步骤S401的流程图;
图6示出根据本公开一实施方式的用户识别模型的确定装置的结构框图;
图7示出根据图6所示实施方式的训练模块603的结构框图;
图8示出根据图6所示实施方式的训练模块603的又一结构框图;
图9示出根据图6所示实施方式的聚类模块602的结构框图;
图10示出根据图9所示实施方式的第一筛选子模块901的结构框图;
图11是适于用来实现根据本公开一实施方式的用户识别模型的确定方法的电子设备的结构示意图。
具体实施方式
下文中,将参考附图详细描述本公开的示例性实施方式,以使本领域技术人员可容易地实现它们。此外,为了清楚起见,在附图中省略了与描述示例性实施方式无关的部分。
在本公开中,应理解,诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在,并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。
另外还需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
图1示出根据本公开一实施方式的用户识别模型的确定方法的流程图。如图1所示,所述用户识别模型的确定方法包括以下步骤S101-S103:
在步骤S101中,获取样本用户的多个样本数据;
在步骤S102中,对多个所述样本数据进行聚类,并获得多个聚类中心;
在步骤S103中,根据所述样本数据与所述聚类中心的距离对所述样本数据进行分组,并根据分组后的所述样本数据分别训练得到多个用户识别模型;其中,每组所述样本数据与相应的所述聚类中心的距离在同一范围内;
在步骤S104中,从所述多个用户识别模型中确定出目标用户识别模型。
本实施例中,样本用户的样本数据可以是线上系统中收集到的注册用户、非注册用户等的一些用户数据,例如用户的年龄、性别等属性数据,用户在线上系统的行为数据等,具体根据实际情况而定,在此不做限制。在获得多个样本用户的样本数据之后,可以利用聚类算法对多个样本数据进行聚类,最终得到多个用户类别,每个用户类别下可以包括多个样本数据,且该多个样本数据中包括一个聚类中心,每个样本数据代表一个样本用户。
例如,可以通过k-means聚类算法对样本数据进行聚类,该算法的聚类大致如下:首先从多个样本数据中随机选择多个初始的聚类中心,并针对每个样本数据计算其与初始聚类中心之间的距离,并将该样本数据划分到距离最短的聚类中心所在的类别下,之后重新计算每个类别的聚类中心,并重复上述步骤,直到每个类别下的聚类中心不再发生变化为止。可以理解的是,对多个样本数据进行聚类的算法还可以采用其他已知的聚类算法,在此不再一一进行描述。
对多个样本数据聚类可以得到一个或多个聚类中心,而每个类别下,除了聚类中心可能还包括其他的一个或多个样本数据。为了能够得到更精细化的用户识别模型,可以将多个样本数据进行分组,并且每组样本数据训练得到一个用户识别模型。而本公开实施例通过样本数据与对应类别下的聚类中心之间的距离远近对所有样本数据进行分组,例如可以设定多种距离范围,每组样本数据包括每种距离范围内的样本数据。假如设定的距离范围为20%、40%、60%、80%和100%,也即从聚类中心出发、距离在该类别范围的最长半径的20%以内的样本数据作为第一组,距离在该类别范围的最长半径的40%以内的样本数据作为第二组,距离在该类别范围的最长半径的60%以内的样本数据作为第三组,距离在该类别范围的最长半径的80%以内的样本数据作为第四组,距离在该类别范围的最长半径的100%以内的样本数据作为第五组(也即该组包括所有的样本数据),利用这五组样本数据可以分别训练得到五个用户识别模型,最终从这五个用户识别模型中选择最佳的一个作为目标用户识别模型。可以理解的是,对于有多个类别范围的情况,每组样本数据中包括每个类别范围下相应距离范围内的样本数据。以上仅是举例说明,实际应用中,可以根据实际情况选择距离范围。
用户识别模型可以采用卷积神经网络、深度神经网络、反馈神经网络、支持向量机、决策树、随机森林、贝叶斯网络中的一种或多种的组合,具体根据实际情况选择,在此不做限制。利用样本数据训练用户识别模型的过程是本领域中的已有技术,在此不再赘述。
本公开实施例在确定用户识别模型的过程中,获取样本用户对应的多个样本数据,并对多个样本数据进行聚类,得到多个聚类中心;之后再通过不同的距离范围从每个类别下选取多组样本数据,分别训练得到多个用户识别模型,并从该多个用户识别模型中选择得到最佳的一个用户识别模型。通过本公开这种方式,可以通过对样本数据进行聚类,选取与聚类中心不同距离范围内的多组样本数据训练得到多个用户识别模型,而由于每个用户识别模型的训练所采用的训练样本并不完全相同,并且这些样本数据按照与聚类中心的距离向外传播,且多个用户识别模型的分类边界点是由这些样本数据来决定的,因此可以从中选择得到一种泛化性能最佳的用户识别模型,相较于已有技术中通过调整阈值选择模型的方式更能细化分类,并且能够得到更加精确的表达。
在本实施例的一个可选实现方式中,如图2所示,所述步骤S103,即根据分组后的所述样本数据分别训练得到多个用户识别模型的步骤,进一步包括以下步骤S201-S202:
在步骤S201中,利用特征选择算法从所述样本数据对应的多个特征数据中确定出多个目标特征;其中,同一个所述样本数据包括多个不同的特征数据;
在步骤S202中,利用多组所述样本数据对应的所述目标特征分别训练得到所述多个用户识别模型。
该可选的实现方式中,每个样本数据对应一个样本用户,而一个样本用户可以包括多种特征,因此每个样本数据可以包括多个不同的特征数据,例如该样本用户的年龄、性别、行为特征等数据。特征选择(Feature Selection)也称特征子集选择(Feature SubsetSelection,FSS),或属性选择(Attribute Selection),是指从已有的M个特征(Feature)中选择N个特征使得系统的特定指标最优化。本公开实施例中,在模型训练之前,可以根据实际的需要对样本数据中的多个特征数据进行特征选择,最终得到能够使得用户识别模型泛化性能最好的多个目标特征进行训练。
例如,在一实施例中,可以通过将样本数据对应的多个特征数据进行特征分桶,并采用贪心算法选择目标特征。特征分桶例如可以是根据历史数据、经验等对每个特征确定权重,而在确定权重时根据实际情况将特征值低于或者高于某个值的权重置为0,这样可以将一些对模型影响较小的特征剔除出去,能够减少计算量;贪心算法是一种已知的特征选择算法,在此不再赘述。
在本实施例的一个可选实现方式中,如图3所示,所述步骤S103,即根据分组后的所述样本数据分别训练得到多个用户识别模型的步骤,进一步包括以下步骤S301-S302:
在步骤S301中,确定不同大小的多个距离范围;
在步骤S302中,根据与所述聚类中心之间的距离确定多个所述距离范围内的多组所述样本数据;
在步骤S303中,利用多组所述样本数据分别训练得到多个所述用户识别模型。
该可选的实现方式中,在对样本数据进行分组时,首先可以根据历史数据、经验等确定多个不同大小的距离范围,例如前面提到的与聚类中心的距离范围分别为20%、40%、60%、80%和100%等;计算每个样本数据与聚类中心之间的距离,并根据该距离确定每个不同距离范围内的样本数据,进而得到对应的多组样本数据;并分别利用多组样本数据训练得到用户识别模型。
在本实施例的一个可选实现方式中,所述样本数据集中的所述样本数据为未经过标注的数据。
在本实施例的一个可选实现方式中,所述步骤S102,即对多个所述样本数据进行聚类,并获得至少一个聚类中心的步骤之后,所述方法进一步还包括以下步骤:
获取所述聚类中心的标注数据,并将所述标注数据确定为所述聚类中心所在类别下的其他样本数据的标注数据。
本公开实施例中获取的样本数据可以是未经过标注的数据。由于通过聚类算法能够将同类别的样本数据聚集到一个类别下,因此本公开实施例在获得未标注过的样本数据后,对样本数据首先进行聚类,并在聚类完成后,对聚类中心进行标注,也即可以通过人工对聚类中心进行结果标注,例如用户识别模型的目的是为了区分该用户是否为高品质用户,那么对聚类中心的标注就是判断该样本数据对应的样本用户是否为高品质用户,标注数据可以为简单的是或不是,当然可以理解的是,此处仅为举例说明,标注数据可以根据实际应用的需要而定。在聚类中心的标注数据确定了以后,由于聚类中心所在类别下的所有样本数据都属于同一类的,因此该类别下的其他样本数据对应的样本用户也具有同样的标注数据。通过这种方式,不需要对每个样本数据都进行人工标注,而仅是通过对聚类中心进行标注就能够得到所有样本数据的标注数据,可以大大地节省成本,提高效率。
在本实施例的一个可选实现方式中,如图4所示,所述步骤S102,即对多个所述样本数据进行聚类,并获得至少一个聚类中心的步骤,进一步包括以下步骤S401-S402:
在步骤S401中,从所述样本数据对应的多个特征数据中筛选出至少一个相关特征;
在步骤S402中,根据所述至少一个相关特征对所述样本数据进行聚类,得到所述聚类中心。
该可选的实现方式中,每个样本数据对应一个样本用户,而一个样本用户可以包括多种特征,因此每个样本数据可以包括多个不同的特征数据,例如该样本用户的年龄、性别、行为特征等数据。为了能够使得样本数据的聚类结果更加准确,可以从样本数据对应的多个特征数据中选择比较相关的一个或多个目标特征,进而利用这些目标特征对样本数据进行聚类。
在本实施例的一个可选实现方式中,所述步骤S401,即从所述样本数据对应的多个特征数据中筛选出至少一个相关特征的步骤,进一步包括以下步骤:
利用线性回归从所述多个特征数据中筛选出最相关的至少一个正相关特征和/或至少一个负相关特征。
该可选的实现方式中,可以利用线性回归的方式从多个特征数据中筛选出最相关的一些正相关特征和负相关特征。正相关特征是指该正相关特征的特征值与样本数据的特性成正比,例如正相关的特征值越大,越能表示出该样本数据对应的样本用户的品质越高;而负相关特征是指该负相关特征的特征值与样本数据的特性成反比,例如负相关的特征值越大,越能表示出该样本数据对应的样本用户的品质越差。
在一些实施例中,可以采用多次运行有放回采样的岭回归方式筛选出相关特征。该实施例中,可以先从样本数据的多个特征数据集中采样部分特征数据,并执行岭回归算法,得到一部分候选特征;之后再重新采样一部分特征数据,并执行岭回归算法,得到一部分候选特征;重复上述步骤,直到运行次数达到预定值或者满足其他预设条件为止。通过统计分析每一次得到的候选特征,从中选出出现次数最多的第一预定数目个正相关特征和/或第二预定数目个负相关特征。第一预定数目和第二预定数目可以相同,也可以不同。
在本实施例的一个可选实现方式中,如图5所示,所述步骤S401,即从所述样本数据对应的多个特征数据中筛选出至少一个相关特征的步骤,进一步包括以下步骤S501-S502:
在步骤S501中,利用非线性回归从所述多个特征数据中筛选出非线性特征;
在步骤S502中,剔除相关性低于预设阈值的非线性特征。
该可选的实现方式中,还可以利用非线性回归的方法从多个特征数据中筛选出非线性特征,并通过人工方式或者其他方式将不相关或者相关性不高的非线性特征剔除。例如,非线性回归方法可以采用xgboost算法,该算法是已知技术,在此不再赘述。
在本实施例的一个可选实现方式中,所述步骤S104,即从所述多个用户识别模型中确定出目标用户识别模型的步骤,进一步包括以下步骤:
利用多个验证数据对所述多个用户识别模型进行验证,并确定出所述目标用户识别模型;其中,所述多个验证数据为经过标注的数据。
该可选的实现方式中,为了验证出多个用户识别模型中的最佳模型,可以通过验证数据来验证。验证数据类似样本数据,每个验证数据对应一个样本用户,而每个验证数据也对应该样本用户的多个特征数据,验证数据对应的特征数据与样本数据中的特征数据相同。本公开实施例中收集的样本数据可以是无标注数据,而验证数据则为有标注数据,由于验证数据相较于样本数据而言,数量较少,因此对验证数据进行标注所花费的精力远远小于对所有样本数据进行标注。在验证过程中,进行验证的特征数据与训练用户识别模型时所选取的目标特征一致,通过将验证数据中的特征数据输入至待验证的用户识别模型,并将待验证的用户识别模型的输出结果与该验证数据的标注数据进行比较,如果一致,则认为该用户识别模型能够识别出该验证数据。
在本实施例的一个可选实现方式中,所述利用多个验证数据对所述多个用户识别模型进行验证,并确定出所述目标用户识别模型的步骤,进一步包括以下步骤:
将所述多个验证数据分别输入至所述多个用户识别模型,并将识别率最高的用户识别模型确定为所述目标用户识别模型。
该可选的实现方式中,可以通过统计分析,将识别率最高的用户识别模型确定为目标用户识别模型。例如,总共有500个验证数据和3个用户识别模型,3个用户识别模型对500个验证数据的识别率分别为50%、60%和80%通过该实现方式,那么可以将识别率为80%的用户识别模型确定为目标识别模型。通过这种方式,只需要少量人工标注的验证数据,即可得到准确率较高的用户识别模型。
下述为本公开装置实施例,可以用于执行本公开方法实施例。
图6示出根据本公开一实施方式的用户识别模型的确定装置的结构框图,该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。如图6所示,所述用户识别模型的确定装置包括:
获取模块601,被配置为获取样本用户的多个样本数据;
聚类模块602,被配置为对多个所述样本数据进行聚类,并获得至少一个聚类中心;
训练模块603,被配置为根据所述样本数据与所述聚类中心的距离对所述样本数据进行分组,并根据分组后的所述样本数据分别训练得到多个用户识别模型;其中,每组所述样本数据与相应的所述聚类中心的距离在同一范围内;
确定模块604,被配置为从所述多个用户识别模型中确定出目标用户识别模型。
本实施例中,样本用户的样本数据可以是线上系统中收集到的注册用户、非注册用户等的一些用户数据,例如用户的年龄、性别等属性数据,用户在线上系统的行为数据等,具体根据实际情况而定,在此不做限制。在获得多个样本用户的样本数据之后,可以利用聚类算法对多个样本数据进行聚类,最终得到多个用户类别,每个用户类别下可以包括多个样本数据,且该多个样本数据中包括一个聚类中心,每个样本数据代表一个样本用户。
例如,可以通过k-means聚类算法对样本数据进行聚类,该算法的聚类大致如下:首先从多个样本数据中随机选择多个初始的聚类中心,并针对每个样本数据计算其与初始聚类中心之间的距离,并将该样本数据划分到距离最短的聚类中心所在的类别下,之后重新计算每个类别的聚类中心,并重复上述步骤,直到每个类别下的聚类中心不再发生变化为止。可以理解的是,对多个样本数据进行聚类的算法还可以采用其他已知的聚类算法,在此不再一一进行描述。
对多个样本数据聚类可以得到一个或多个聚类中心,而每个类别下,除了聚类中心可能还包括其他的一个或多个样本数据。为了能够得到更精细化的用户识别模型,可以将多个样本数据进行分组,并且每组样本数据训练得到一个用户识别模型。而本公开实施例通过样本数据与对应类别下的聚类中心之间的距离远近对所有样本数据进行分组,例如可以设定多种距离范围,每组样本数据包括每种距离范围内的样本数据。假如设定的距离范围为20%、40%、60%、80%和100%,也即从聚类中心出发、距离在该类别范围的最长半径的20%以内的样本数据作为第一组,距离在该类别范围的最长半径的40%以内的样本数据作为第二组,距离在该类别范围的最长半径的60%以内的样本数据作为第三组,距离在该类别范围的最长半径的80%以内的样本数据作为第四组,距离在该类别范围的最长半径的100%以内的样本数据作为第五组(也即该组包括所有的样本数据),利用这五组样本数据可以分别训练得到五个用户识别模型,最终从这五个用户识别模型中选择最佳的一个作为目标用户识别模型。可以理解的是,对于有多个类别范围的情况,每组样本数据中包括每个类别范围下相应距离范围内的样本数据。以上仅是举例说明,实际应用中,可以根据实际情况选择距离范围。
用户识别模型可以采用卷积神经网络、深度神经网络、反馈神经网络、支持向量机、决策树、随机森林、贝叶斯网络中的一种或多种的组合,具体根据实际情况选择,在此不做限制。利用样本数据训练用户识别模型的过程是本领域中的已有技术,在此不再赘述。
本公开实施例在确定用户识别模型的过程中,获取样本用户对应的多个样本数据,并对多个样本数据进行聚类,得到多个聚类中心;之后再通过不同的距离范围从每个类别下选取多组样本数据,分别训练得到多个用户识别模型,并从该多个用户识别模型中选择得到最佳的一个用户识别模型。通过本公开这种方式,可以通过对样本数据进行聚类,选取与聚类中心不同距离范围内的多组样本数据训练得到多个用户识别模型,而由于每个用户识别模型的训练所采用的训练样本并不完全相同,并且这些样本数据按照与聚类中心的距离向外传播,且多个用户识别模型的分类边界点是由这些样本数据来决定的,因此可以从中选择得到一种泛化性能最佳的用户识别模型,相较于已有技术中通过调整阈值选择模型的方式更能细化分类,并且能够得到更加精确的表达。
在本实施例的一个可选实现方式中,如图7所示,所述训练模块603,包括:
第一确定子模块701,被配置为利用特征选择算法从所述样本数据对应的多个特征数据中确定出多个目标特征;其中,同一个所述样本数据包括多个不同的特征数据;
第一训练子模块702,被配置为利用多组所述样本数据对应的所述目标特征分别训练得到所述多个用户识别模型。
该可选的实现方式中,每个样本数据对应一个样本用户,而一个样本用户可以包括多种特征,因此每个样本数据可以包括多个不同的特征数据,例如该样本用户的年龄、性别、行为特征等数据。特征选择(Feature Selection)也称特征子集选择(Feature SubsetSelection,FSS),或属性选择(Attribute Selection),是指从已有的M个特征(Feature)中选择N个特征使得系统的特定指标最优化。本公开实施例中,在模型训练之前,可以根据实际的需要对样本数据中的多个特征数据进行特征选择,最终得到能够使得用户识别模型泛化性能最好的多个目标特征进行训练。
例如,在一实施例中,可以通过将样本数据对应的多个特征数据进行特征分桶,并采用贪心算法选择目标特征。特征分桶例如可以是根据历史数据、经验等对每个特征确定权重,而在确定权重时根据实际情况将特征值低于或者高于某个值的权重置为0,这样可以将一些对模型影响较小的特征剔除出去,能够减少计算量;贪心算法是一种已知的特征选择算法,在此不再赘述。
在本实施例的一个可选实现方式中,如图8所示,所述训练模块603,包括:
第二确定子模块801,被配置为确定不同大小的多个距离范围;
第三确定子模块802,被配置为根据与所述聚类中心之间的距离确定多个所述距离范围内的多组所述样本数据;
第二训练子模块803,被配置为利用多组所述样本数据分别训练得到多个所述用户识别模型。
该可选的实现方式中,在对样本数据进行分组时,首先可以根据历史数据、经验等确定多个不同大小的距离范围,例如前面提到的与聚类中心的距离范围分别为20%、40%、60%、80%和100%等;计算每个样本数据与聚类中心之间的距离,并根据该距离确定每个不同距离范围内的样本数据,进而得到对应的多组样本数据;并分别利用多组样本数据训练得到用户识别模型。
在本实施例的一个可选实现方式中,所述样本数据集中的所述样本数据为未经过标注的数据。
在本实施例的一个可选实现方式中,所述聚类模块602,包括:
第一获取子模块,被配置为获取所述聚类中心的标注数据,并将所述标注数据确定为所述聚类中心所在类别下的其他样本数据的标注数据。
本公开实施例中获取的样本数据可以是未经过标注的数据。由于通过聚类算法能够将同类别的样本数据聚集到一个类别下,因此本公开实施例在获得未标注过的样本数据后,对样本数据首先进行聚类,并在聚类完成后,对聚类中心进行标注,也即可以通过人工对聚类中心进行结果标注,例如用户识别模型的目的是为了区分该用户是否为高品质用户,那么对聚类中心的标注就是判断该样本数据对应的样本用户是否为高品质用户,标注数据可以为简单的是或不是,当然可以理解的是,此处仅为举例说明,标注数据可以根据实际应用的需要而定。在聚类中心的标注数据确定了以后,由于聚类中心所在类别下的所有样本数据都属于同一类的,因此该类别下的其他样本数据对应的样本用户也具有同样的标注数据。通过这种方式,不需要对每个样本数据都进行人工标注,而仅是通过对聚类中心进行标注就能够得到所有样本数据的标注数据,可以大大地节省成本,提高效率。
在本实施例的一个可选实现方式中,如图9所示,所述聚类模块602,包括:
第一筛选子模块901,被配置为从所述样本数据对应的多个特征数据中筛选出至少一个相关特征;
聚类子模块902,被配置为根据所述至少一个相关特征对所述样本数据进行聚类,得到所述聚类中心。
该可选的实现方式中,每个样本数据对应一个样本用户,而一个样本用户可以包括多种特征,因此每个样本数据可以包括多个不同的特征数据,例如该样本用户的年龄、性别、行为特征等数据。为了能够使得样本数据的聚类结果更加准确,可以从样本数据对应的多个特征数据中选择比较相关的一个或多个目标特征,进而利用这些目标特征对样本数据进行聚类。
在本实施例的一个可选实现方式中,所述第一筛选子模块901,包括:
第二筛选子模块,被配置为利用线性回归从所述多个特征数据中筛选出最相关的至少一个正相关特征和/或至少一个负相关特征。
该可选的实现方式中,可以利用线性回归的方式从多个特征数据中筛选出最相关的一些正相关特征和负相关特征。正相关特征是指该正相关特征的特征值与样本数据的特性成正比,例如正相关的特征值越大,越能表示出该样本数据对应的样本用户的品质越高;而负相关特征是指该负相关特征的特征值与样本数据的特性成反比,例如负相关的特征值越大,越能表示出该样本数据对应的样本用户的品质越差。
在一些实施例中,可以采用多次运行有放回采样的岭回归方式筛选出相关特征。该实施例中,可以先从样本数据的多个特征数据集中采样部分特征数据,并执行岭回归算法,得到一部分候选特征;之后再重新采样一部分特征数据,并执行岭回归算法,得到一部分候选特征;重复上述步骤,直到运行次数达到预定值或者满足其他预设条件为止。通过统计分析每一次得到的候选特征,从中选出出现次数最多的第一预定数目个正相关特征和/或第二预定数目个负相关特征。第一预定数目和第二预定数目可以相同,也可以不同。
在本实施例的一个可选实现方式中,如图10所示,所述第一筛选子模块901,包括:
第三筛选子模块1001,被配置为利用非线性回归从所述多个特征数据中筛选出非线性特征;
剔除子模块1002,被配置为剔除相关性低于预设阈值的非线性特征。
该可选的实现方式中,还可以利用非线性回归的方法从多个特征数据中筛选出非线性特征,并通过人工方式或者其他方式将不相关或者相关性不高的非线性特征剔除。例如,非线性回归方法可以采用xgboost算法,该算法是已知技术,在此不再赘述。
在本实施例的一个可选实现方式中,所述确定模块604,包括:
验证子模块,被配置为利用多个验证数据对所述多个用户识别模型进行验证,并确定出所述目标用户识别模型;其中,所述多个验证数据为经过标注的数据。
该可选的实现方式中,为了验证出多个用户识别模型中的最佳模型,可以通过验证数据来验证。验证数据类似样本数据,每个验证数据对应一个样本用户,而每个验证数据也对应该样本用户的多个特征数据,验证数据对应的特征数据与样本数据中的特征数据相同。本公开实施例中收集的样本数据可以是无标注数据,而验证数据则为有标注数据,由于验证数据相较于样本数据而言,数量较少,因此对验证数据进行标注所花费的精力远远小于对所有样本数据进行标注。在验证过程中,进行验证的特征数据与训练用户识别模型时所选取的目标特征一致,通过将验证数据中的特征数据输入至待验证的用户识别模型,并将待验证的用户识别模型的输出结果与该验证数据的标注数据进行比较,如果一致,则认为该用户识别模型能够识别出该验证数据。
在本实施例的一个可选实现方式中,所述验证子模块,包括:
第四确定子模块,被配置为将所述多个验证数据分别输入至所述多个用户识别模型,并将识别率最高的用户识别模型确定为所述目标用户识别模型。
该可选的实现方式中,可以通过统计分析,将识别率最高的用户识别模型确定为目标用户识别模型。例如,总共有500个验证数据和3个用户识别模型,3个用户识别模型对500个验证数据的识别率分别为50%、60%和80%通过该实现方式,那么可以将识别率为80%的用户识别模型确定为目标识别模型。通过这种方式,只需要少量人工标注的验证数据,即可得到准确率较高的用户识别模型。
本公开实施方式还提供了一种电子设备,如图11所示,包括至少一个处理器1101;以及与至少一个处理器1101通信连接的存储器1102;其中,存储器1102存储有可被至少一个处理器1101执行的指令,指令被至少一个处理器1101执行以实现:
获取样本用户的多个样本数据;
对多个所述样本数据进行聚类,并获得至少一个聚类中心;
根据所述样本数据与所述聚类中心的距离对所述样本数据进行分组,并根据分组后的所述样本数据分别训练得到多个用户识别模型;其中,每组所述样本数据与相应的所述聚类中心的距离在同一范围内;
从所述多个用户识别模型中确定出目标用户识别模型。
其中,根据分组后的所述样本数据分别训练得到多个用户识别模型,包括:
利用特征选择算法从所述样本数据对应的多个特征数据中确定出多个目标特征;其中,同一个所述样本数据包括多个不同的特征数据;
利用多组所述样本数据对应的所述目标特征分别训练得到所述多个用户识别模型。
其中,根据分组后的所述样本数据分别训练得到多个用户识别模型,包括:
确定不同大小的多个距离范围;
根据与所述聚类中心之间的距离确定多个所述距离范围内的多组所述样本数据;
利用多组所述样本数据分别训练得到多个所述用户识别模型。
其中,所述样本数据集中的所述样本数据为未经过标注的数据。
其中,对多个所述样本数据进行聚类,并获得至少一个聚类中心之后,所述一条或多条计算机指令被所述处理器执行还实现以下方法步骤:
获取所述聚类中心的标注数据,并将所述标注数据确定为所述聚类中心所在类别下的其他样本数据的标注数据。
其中,对多个所述样本数据进行聚类,并获得至少一个聚类中心,包括:
从所述样本数据对应的多个特征数据中筛选出至少一个相关特征;
根据所述至少一个相关特征对所述样本数据进行聚类,得到所述聚类中心。
其中,从所述样本数据对应的多个特征数据中筛选出至少一个相关特征,包括:
利用线性回归从所述多个特征数据中筛选出最相关的至少一个正相关特征和/或至少一个负相关特征。
其中,从所述样本数据对应的多个特征数据中筛选出至少一个相关特征,包括:
利用非线性回归从所述多个特征数据中筛选出非线性特征;
剔除相关性低于预设阈值的非线性特征。
其中,从所述多个用户识别模型中确定出目标用户识别模型,包括:
利用多个验证数据对所述多个用户识别模型进行验证,并确定出所述目标用户识别模型;其中,所述多个验证数据为经过标注的数据。
其中,利用多个验证数据对所述多个用户识别模型进行验证,并确定出所述目标用户识别模型,包括:
将所述多个验证数据分别输入至所述多个用户识别模型,并将识别率最高的用户识别模型确定为所述目标用户识别模型。
具体地,处理器1101、存储器1102可以通过总线或者其他方式连接,图11中以通过总线连接为例。存储器1102作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。处理器1101通过运行存储在存储器1102中的非易失性软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述目标对象的流量提升方法。
存储器1102可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储航运网络运输的历史数据等。此外,存储器1102可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施方式中,电子设备可选地包括通信组件1103,存储器1102可选地包括相对于处理器1101远程设置的存储器,这些远程存储器可以通过通信组件1103连接至外接设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
一个或者多个模块存储在存储器1102中,当被一个或者多个处理器1101执行时,执行上述任意方法实施方式中的目标对象的流量提升方法。
上述产品可执行本申请实施方式所提供的方法,具备执行方法相应的功能模块和有益效果,未在本实施方式中详尽描述的技术细节,可参见本申请实施方式所提供的方法。
附图中的流程图和框图,图示了按照本公开各种实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,路程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施方式中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
作为另一方面,本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施方式中所述装置中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (20)

1.一种用户识别模型的确定方法,其特征在于,包括:
获取样本用户的多个样本数据;
对多个所述样本数据进行聚类,并获得至少一个聚类中心;
根据所述样本数据与所述聚类中心的距离对所述样本数据进行分组,并根据分组后的所述样本数据分别训练得到多个用户识别模型;其中,每组所述样本数据与相应的所述聚类中心的距离在同一范围内;
从所述多个用户识别模型中确定出目标用户识别模型,
其中,根据分组后的所述样本数据分别训练得到多个用户识别模型,包括:
确定不同大小的多个距离范围;
根据与所述聚类中心之间的距离确定多个所述距离范围内的多组所述样本数据;
利用多组所述样本数据分别训练得到多个所述用户识别模型。
2.根据权利要求1所述的方法,其特征在于,根据分组后的所述样本数据分别训练得到多个用户识别模型,包括:
利用特征选择算法从所述样本数据对应的多个特征数据中确定出多个目标特征;其中,同一个所述样本数据包括多个不同的特征数据;
利用多组所述样本数据对应的所述目标特征分别训练得到所述多个用户识别模型。
3.根据权利要求1或2所述的方法,其特征在于,样本数据集中的所述样本数据为未经过标注的数据。
4.根据权利要求3所述的方法,其特征在于,对多个所述样本数据进行聚类,并获得至少一个聚类中心之后,所述方法还包括:
获取所述聚类中心的标注数据,并将所述标注数据确定为所述聚类中心所在类别下的其他样本数据的标注数据。
5.根据权利要求1或2所述的方法,其特征在于,对多个所述样本数据进行聚类,并获得至少一个聚类中心,包括:
从所述样本数据对应的多个特征数据中筛选出至少一个相关特征;
根据所述至少一个相关特征对所述样本数据进行聚类,得到所述聚类中心。
6.根据权利要求5所述的方法,其特征在于,从所述样本数据对应的多个特征数据中筛选出至少一个相关特征,包括:
利用线性回归从所述多个特征数据中筛选出最相关的至少一个正相关特征和/或至少一个负相关特征。
7.根据权利要求5所述的方法,其特征在于,从所述样本数据对应的多个特征数据中筛选出至少一个相关特征,包括:
利用非线性回归从所述多个特征数据中筛选出非线性特征;
剔除相关性低于预设阈值的非线性特征。
8.根据权利要求1-2、4、6-7任一项所述的方法,其特征在于,从所述多个用户识别模型中确定出目标用户识别模型,包括:
利用多个验证数据对所述多个用户识别模型进行验证,并确定出所述目标用户识别模型;其中,所述多个验证数据为经过标注的数据。
9.根据权利要求8所述的方法,其特征在于,利用多个验证数据对所述多个用户识别模型进行验证,并确定出所述目标用户识别模型,包括:
将所述多个验证数据分别输入至所述多个用户识别模型,并将识别率最高的用户识别模型确定为所述目标用户识别模型。
10.一种用户识别模型的确定装置,其特征在于,包括:
获取模块,被配置为获取样本用户的多个样本数据;
聚类模块,被配置为对多个所述样本数据进行聚类,并获得至少一个聚类中心;
训练模块,被配置为根据所述样本数据与所述聚类中心的距离对所述样本数据进行分组,并根据分组后的所述样本数据分别训练得到多个用户识别模型;其中,每组所述样本数据与相应的所述聚类中心的距离在同一范围内;
确定模块,被配置为从所述多个用户识别模型中确定出目标用户识别模型,
其中,根据分组后的所述样本数据分别训练得到多个用户识别模型,包括:
确定不同大小的多个距离范围;
根据与所述聚类中心之间的距离确定多个所述距离范围内的多组所述样本数据;
利用多组所述样本数据分别训练得到多个所述用户识别模型。
11.一种电子设备,其特征在于,包括存储器和处理器;其中,
所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行实现以下方法步骤:
获取样本用户的多个样本数据;
对多个所述样本数据进行聚类,并获得至少一个聚类中心;
根据所述样本数据与所述聚类中心的距离对所述样本数据进行分组,并根据分组后的所述样本数据分别训练得到多个用户识别模型;其中,每组所述样本数据与相应的所述聚类中心的距离在同一范围内;
从所述多个用户识别模型中确定出目标用户识别模型,
其中,根据分组后的所述样本数据分别训练得到多个用户识别模型,包括:
确定不同大小的多个距离范围;
根据与所述聚类中心之间的距离确定多个所述距离范围内的多组所述样本数据;
利用多组所述样本数据分别训练得到多个所述用户识别模型。
12.根据权利要求11所述的电子设备,其特征在于,根据分组后的所述样本数据分别训练得到多个用户识别模型,包括:
利用特征选择算法从所述样本数据对应的多个特征数据中确定出多个目标特征;其中,同一个所述样本数据包括多个不同的特征数据;
利用多组所述样本数据对应的所述目标特征分别训练得到所述多个用户识别模型。
13.根据权利要求11或12所述的电子设备,其特征在于,样本数据集中的所述样本数据为未经过标注的数据。
14.根据权利要求13所述的电子设备,其特征在于,对多个所述样本数据进行聚类,并获得至少一个聚类中心之后,所述一条或多条计算机指令被所述处理器执行还实现以下方法步骤:
获取所述聚类中心的标注数据,并将所述标注数据确定为所述聚类中心所在类别下的其他样本数据的标注数据。
15.根据权利要求11或12所述的电子设备,其特征在于,对多个所述样本数据进行聚类,并获得至少一个聚类中心,包括:
从所述样本数据对应的多个特征数据中筛选出至少一个相关特征;
根据所述至少一个相关特征对所述样本数据进行聚类,得到所述聚类中心。
16.根据权利要求15所述的电子设备,其特征在于,从所述样本数据对应的多个特征数据中筛选出至少一个相关特征,包括:
利用线性回归从所述多个特征数据中筛选出最相关的至少一个正相关特征和/或至少一个负相关特征。
17.根据权利要求15所述的电子设备,其特征在于,从所述样本数据对应的多个特征数据中筛选出至少一个相关特征,包括:
利用非线性回归从所述多个特征数据中筛选出非线性特征;
剔除相关性低于预设阈值的非线性特征。
18.根据权利要求11-12、14、16-17任一项所述的电子设备,其特征在于,从所述多个用户识别模型中确定出目标用户识别模型,包括:
利用多个验证数据对所述多个用户识别模型进行验证,并确定出所述目标用户识别模型;其中,所述多个验证数据为经过标注的数据。
19.根据权利要求18所述的电子设备,其特征在于,利用多个验证数据对所述多个用户识别模型进行验证,并确定出所述目标用户识别模型,包括:
将所述多个验证数据分别输入至所述多个用户识别模型,并将识别率最高的用户识别模型确定为所述目标用户识别模型。
20.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该计算机指令被处理器执行时实现权利要求1-9任一项所述的方法步骤。
CN201910107991.6A 2019-02-02 2019-02-02 用户识别模型的确定方法、装置、电子设备及存储介质 Active CN109816043B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910107991.6A CN109816043B (zh) 2019-02-02 2019-02-02 用户识别模型的确定方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910107991.6A CN109816043B (zh) 2019-02-02 2019-02-02 用户识别模型的确定方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN109816043A CN109816043A (zh) 2019-05-28
CN109816043B true CN109816043B (zh) 2021-01-01

Family

ID=66605151

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910107991.6A Active CN109816043B (zh) 2019-02-02 2019-02-02 用户识别模型的确定方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN109816043B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110533085B (zh) * 2019-08-12 2022-04-01 大箴(杭州)科技有限公司 同人识别方法及装置、存储介质、计算机设备
CN111325255B (zh) * 2020-02-13 2021-11-19 拉扎斯网络科技(上海)有限公司 特定人群圈定方法、装置、电子设备及存储介质
CN111582305B (zh) * 2020-03-26 2023-08-18 平安科技(深圳)有限公司 生物特征识别方法、装置、计算机设备及存储介质
CN111833851B (zh) * 2020-06-16 2021-03-16 杭州云嘉云计算有限公司 一种自动学习优化声学模型的方法
CN113780806A (zh) * 2021-09-10 2021-12-10 未鲲(上海)科技服务有限公司 基于决策树的经纪人匹配方法、装置、设备及存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105873119A (zh) * 2016-05-26 2016-08-17 重庆大学 一种移动网络用户群体流量使用行为的分类方法
CN106355449A (zh) * 2016-08-31 2017-01-25 腾讯科技(深圳)有限公司 用户选取方法和装置
CN106575246A (zh) * 2014-06-30 2017-04-19 亚马逊科技公司 机器学习服务
CN106778652A (zh) * 2016-12-26 2017-05-31 东软集团股份有限公司 人体活动识别方法及装置
CN107656927A (zh) * 2016-07-25 2018-02-02 华为技术有限公司 一种特征选择方法及设备
CN108108451A (zh) * 2017-12-27 2018-06-01 合肥美的智能科技有限公司 群体的群体用户画像获取方法和装置
CN108256052A (zh) * 2018-01-15 2018-07-06 成都初联创智软件有限公司 基于tri-training的汽车行业潜在客户识别方法
CN108269118A (zh) * 2017-01-03 2018-07-10 中兴通讯股份有限公司 一种数据分析的方法和装置
CN108304427A (zh) * 2017-04-28 2018-07-20 腾讯科技(深圳)有限公司 一种用户客群分类方法和装置
CN109190698A (zh) * 2018-08-29 2019-01-11 西南大学 一种网络数字虚拟资产的分类识别系统及方法
CN111325255A (zh) * 2020-02-13 2020-06-23 拉扎斯网络科技(上海)有限公司 特定人群圈定方法、装置、电子设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180225708A1 (en) * 2017-02-07 2018-08-09 Videology, Inc. Method and system for forecasting performance of audience clusters

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106575246A (zh) * 2014-06-30 2017-04-19 亚马逊科技公司 机器学习服务
CN105873119A (zh) * 2016-05-26 2016-08-17 重庆大学 一种移动网络用户群体流量使用行为的分类方法
CN107656927A (zh) * 2016-07-25 2018-02-02 华为技术有限公司 一种特征选择方法及设备
CN106355449A (zh) * 2016-08-31 2017-01-25 腾讯科技(深圳)有限公司 用户选取方法和装置
CN106778652A (zh) * 2016-12-26 2017-05-31 东软集团股份有限公司 人体活动识别方法及装置
CN108269118A (zh) * 2017-01-03 2018-07-10 中兴通讯股份有限公司 一种数据分析的方法和装置
CN108304427A (zh) * 2017-04-28 2018-07-20 腾讯科技(深圳)有限公司 一种用户客群分类方法和装置
CN108108451A (zh) * 2017-12-27 2018-06-01 合肥美的智能科技有限公司 群体的群体用户画像获取方法和装置
CN108256052A (zh) * 2018-01-15 2018-07-06 成都初联创智软件有限公司 基于tri-training的汽车行业潜在客户识别方法
CN109190698A (zh) * 2018-08-29 2019-01-11 西南大学 一种网络数字虚拟资产的分类识别系统及方法
CN111325255A (zh) * 2020-02-13 2020-06-23 拉扎斯网络科技(上海)有限公司 特定人群圈定方法、装置、电子设备及存储介质

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
Adaptive density peak clustering based on K-nearest neighbors with aggregating strategy;LiuYaohui等;《Knowledge-Based Systems》;20171001;第133卷;第208-220页 *
Comparisons among clustering techniques for electricity customer classification;G. Chicco等;《IEEE Transactions on Power Systems》;20060501;第21卷(第2期);第933-940页 *
Feature selection and replacement by clustering attributes;Tzung-Pei Hong等;《Vietnam Journal of Computer Science》;20131109;第1卷;第47-55页 *
Feature selection model based on clustering and ranking in pipeline for microarray data;Barnali Sahu等;《Informatics in Medicine Unlocked》;20170729;第9卷;第107-122页 *
一种优选神经网络训练样本的混合聚类算法;王艳峰等;《辽宁工业大学学报(自然科学版)》;20101215;第30卷(第6期);第364-367页 *
电商企业网购用户的客户分类识别研究;孙新伟;《中国优秀硕士学位论文全文数据库 经济与管理科学辑》;20170815(第8期);第J157-88页 *

Also Published As

Publication number Publication date
CN109816043A (zh) 2019-05-28

Similar Documents

Publication Publication Date Title
CN109816043B (zh) 用户识别模型的确定方法、装置、电子设备及存储介质
Quoc Viet Hung et al. An evaluation of aggregation techniques in crowdsourcing
CN110211119B (zh) 图像质量评估方法、装置、电子设备及可读存储介质
CN106951925A (zh) 数据处理方法、装置、服务器及系统
CN110874604A (zh) 模型训练方法及终端设备
CN111353549B (zh) 图像标签的核验方法及装置、电子设备、存储介质
CN110909868A (zh) 基于图神经网络模型的节点表示方法和装置
CN111338692B (zh) 基于漏洞代码的漏洞分类方法、装置及电子设备
CN111340233B (zh) 机器学习模型的训练方法及装置、样本处理方法及装置
CN110288085B (zh) 一种数据处理方法、装置、系统及存储介质
CN109726764A (zh) 一种模型选择方法、装置、设备和介质
US11403550B2 (en) Classifier
CN111931809A (zh) 数据的处理方法、装置、存储介质及电子设备
CN112613543A (zh) 增强策略验证方法、装置、电子设备及存储介质
CN107368526A (zh) 一种数据处理方法及装置
CN107729952A (zh) 一种业务流分类方法及装置
CN111159481B (zh) 图数据的边预测方法、装置及终端设备
CN111783812B (zh) 违禁图像识别方法、装置和计算机可读存储介质
CN111210158A (zh) 目标地址确定方法、装置、计算机设备和存储介质
CN111325255B (zh) 特定人群圈定方法、装置、电子设备及存储介质
CN106257507A (zh) 用户行为的风险评估方法及装置
CN112115996B (zh) 图像数据的处理方法、装置、设备及存储介质
CN108628873B (zh) 一种文本分类方法、装置和设备
CN113824580A (zh) 一种网络指标预警方法及系统
CN110705889A (zh) 一种企业筛选方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant