CN110245684A - 数据处理方法、电子设备和介质 - Google Patents

数据处理方法、电子设备和介质 Download PDF

Info

Publication number
CN110245684A
CN110245684A CN201910400639.1A CN201910400639A CN110245684A CN 110245684 A CN110245684 A CN 110245684A CN 201910400639 A CN201910400639 A CN 201910400639A CN 110245684 A CN110245684 A CN 110245684A
Authority
CN
China
Prior art keywords
eigenvalue
cluster
user
attribute
dimension
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910400639.1A
Other languages
English (en)
Other versions
CN110245684B (zh
Inventor
金荣明
王雪
李旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Meiya Mdt Infotech Ltd
Original Assignee
Hangzhou Meiya Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Meiya Mdt Infotech Ltd filed Critical Hangzhou Meiya Mdt Infotech Ltd
Priority to CN201910400639.1A priority Critical patent/CN110245684B/zh
Publication of CN110245684A publication Critical patent/CN110245684A/zh
Application granted granted Critical
Publication of CN110245684B publication Critical patent/CN110245684B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种数据处理方法,应用于服务器端,所述方法包括响应于获得来自客户端的选择指令,确定多个属性以及所述多个属性中的每个属性的处理类型,获得多个用户的多个第一特征值,其中,所述第一特征值表征用户在所述属性的维度上的特征,基于所述处理类型,处理用户在不同属性的维度上的多个第一特征值得到第二特征值,基于所述第二特征值对所述多个用户聚类,以便将所述多个用户划分为多个类别,得到分类结果,以及向所述客户端发送所述分类结果。本公开还提供了一种电子设备和一种计算机可读存储介质。

Description

数据处理方法、电子设备和介质
技术领域
本公开涉及一种数据处理方法、电子设备和介质。
背景技术
对于业务复杂的分类,例如在同时采用多个属性的特征值对用户分类的场景中,现有的聚类模型需要的训练时间长,并且很难获得理想的分类结果。
发明内容
本公开的一个方面提供了一种数据处理方法,应用于服务器端,所述方法包括响应于获得来自客户端的选择指令,确定多个属性以及所述多个属性中的每个属性的处理类型,获得多个用户的多个第一特征值,其中,所述第一特征值表征用户在所述属性的维度上的特征,基于所述处理类型,处理用户在不同属性的维度上的多个第一特征值得到第二特征值,基于所述第二特征值对所述多个用户聚类,以便将所述多个用户划分为多个类别,得到分类结果,以及向所述客户端发送所述分类结果。
可选地,所述基于所述处理类型,处理用户在不同属性的维度上的多个第一特征值得到第二特征值包括,将每个属性的维度上的第一特征值的取值范围划分为多个区间,确定所述第一特征值所处的区间,对于一个属性,根据所述处理类型以及所述第一特征值所处的区间,确定用户在该属性的维度上的权重值,根据用户在多个属性的维度上的权重值,确定所述用户的第二特征值。
可选地,所述根据所述处理类型以及所述第一特征值所处的区间,确定用户在该属性的维度上的权重值包括以下至少一种:在所述处理类型为第一处理类型的情况下,不同区间上所确定的权重值呈指数变化;在所述处理类型为第二处理类型的情况下,不同区间上所确定的权重值呈线性变化;在所述处理类型为第三处理类型的情况下,不同区间上所确定的权重值呈对数变化。
可选地,所述确定第一特征值所处的区间包括,基于时间处理所述第一特征值得到修正后的第一特征值,确定修正后的第一特征值所处的区间。
可选地,所述方法还包括检查所述多个属性之间的相关性,若存在两个属性之间的相关性大于阈值,则输出提示信息。
可选地,所述基于所述第二特征值对所述多个用户聚类,以便将所述多个用户划分为多个类别,得到分类结果包括,在所述第二特征值的分布满足预定分布条件的情况下,对所述第二特征值执行两次聚类处理,以便将所述多个用户划分为P个类别,其中,第一次聚类的簇的数量M大于P,第二次聚类的簇的数量N小于P,M、N、P为正整数。
可选地,所述对所述第二特征值执行两次聚类处理包括,对所述第二特征值进行第一次聚类,得到M个簇,基于所述第二特征值,从所述M个簇中确定K个簇,其中,K=N-P,从所述多个用户的第二特征值中剔除与所述K个簇对应的第二特征值,对剩余的第二特征值进行第二次聚类,得到N个簇,以及基于第一次聚类得到的K个簇和第二次聚类得到的N个簇,生成将所述多个用户分为P类的分类结果。
可选地,所述基于所述第二特征值,从所述M个簇中确定K个簇包括:从所述M个簇中确定第二特征值相对最低的一个簇。
本公开的另一个方面提供了一种数据处理装置,包括确定模块、获得模块、处理模块、聚类模块以及发送模块。确定模块,用于响应于获得来自客户端的选择指令,确定多个属性以及所述多个属性中的每个属性的处理类型。获得模块,用于获得多个用户的多个第一特征值,其中,所述第一特征值表征用户在所述属性的维度上的特征。处理模块,用于基于所述处理类型,处理用户在不同属性的维度上的多个第一特征值得到第二特征值。聚类模块,用于基于所述第二特征值对所述多个用户聚类,以便将所述多个用户划分为多个类别,得到分类结果。发送模块,用于向所述客户端发送所述分类结果。
可选地,所述处理模块包括分段子模块、第一确定子模块、第二确定子模块以及第三确定子模块。分段子模块,用于将每个属性的维度上的第一特征值的取值范围划分为多个区间。第一确定子模块,用于确定所述第一特征值所处的区间。第二确定子模块,用于对于一个属性,根据所述处理类型以及所述第一特征值所处的区间,确定用户在该属性的维度上的权重值。第三确定子模块,用于根据用户在多个属性的维度上的权重值,确定所述用户的第二特征值。
可选地,所述第二确定子模块用于执行以下至少一种:在所述处理类型为第一处理类型的情况下,不同区间上所确定的权重值呈指数变化;在所述处理类型为第二处理类型的情况下,不同区间上所确定的权重值呈线性变化;在所述处理类型为第三处理类型的情况下,不同区间上所确定的权重值呈对数变化。
可选地,所述第一确定子模块包括修正单元和确定单元。修正单元,用于基于时间处理所述第一特征值得到修正后的第一特征值。确定单元,用于确定修正后的第一特征值所处的区间。
可选地,所述装置还包括检查模块和输出模块。检查模块,用于检查所述多个属性之间的相关性。输出模块,用于若存在两个属性之间的相关性大于阈值,则输出提示信息。
可选地,所述聚类模块用于在所述第二特征值的分布满足预定分布条件的情况下,对所述第二特征值执行两次聚类处理,以便将所述多个用户划分为P个类别,其中,第一次聚类的簇的数量M大于P,第二次聚类的簇的数量N小于P,M、N、P为正整数。
可选地,所述聚类模块包括第一聚类子模块、第四确定子模块、第二聚类子模块以及生成子模块。第一聚类子模块,用于对所述第二特征值进行第一次聚类,得到M个簇。第四确定子模块,用于基于所述第二特征值,从所述M个簇中确定K个簇,其中,K=N-P。第二聚类子模块,用于从所述多个用户的第二特征值中剔除与所述K个簇对应的第二特征值,对剩余的第二特征值进行第二次聚类,得到N个簇。以及生成子模块,用于基于第一次聚类得到的K个簇和第二次聚类得到的N个簇,生成将所述多个用户分为P类的分类结果。
可选地,所述第四确定子模块用于从所述M个簇中确定第二特征值相对最低的一个簇。
本公开的另一个方面提供了一种电子设备,包括处理器以及存储器。所述存储器上存储有计算机程序,所述计算机程序被处理器执行时使得处理器执行如上所述的方法。
本公开的另一方面提供了一种计算机可读存储介质,存储有计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。
本公开的另一方面提供了一种计算机程序,所述计算机程序包括计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。
本公开实施例的方法通过将不同属性的维度上的多个第一特征值处理为第二特征值,实现了数据的降维,能够有效提高分类效果的可靠性。
附图说明
为了更完整地理解本公开及其优势,现在将参考结合附图的以下描述,其中:
图1示意性示出了根据本公开实施例的数据处理方法的应用场景的示意图;
图2示意性示出了根据本公开实施例的数据处理方法的流程图;
图3A示意性示出了根据本公开实施例的基于所述处理类型,处理用户在不同属性的维度上的多个第一特征值得到第二特征值的流程图;
图3B示意性示出了根据本公开实施例的确定第一特征值所处的区间的流程图;
图3C示意性示出了根据本公开实施例的对所述第二特征值执行两次聚类处理的流程图;
图3D示意性示出了根据本公开另一实施例的数据处理方法的流程图;
图4示意性示出了根据本公开实施例的数据处理装置的框图;
图5A示意性示出了根据本公开实施例的处理模块的框图;
图5B示意性示出了根据本公开实施例的第一确定子模块的框图;
图5C示意性示出了根据本公开实施例的聚类模块的框图;
图5D示意性示出了根据本公开另一实施例的数据处理装置的框图;以及
图6示意性示出了根据本公开实施例的电子设备的框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。
附图中示出了一些方框图和/或流程图。应理解,方框图和/或流程图中的一些方框或其组合可以由计算机程序指令来实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,从而这些指令在由该处理器执行时可以创建用于实现这些方框图和/或流程图中所说明的功能/操作的装置。本公开的技术可以硬件和/或软件(包括固件、微代码等)的形式来实现。另外,本公开的技术可以采取存储有指令的计算机可读存储介质上的计算机程序产品的形式,该计算机程序产品可供指令执行系统使用或者结合指令执行系统使用。
本公开的实施例提供了一种数据处理方法,应用于服务器端,所述方法包括响应于获得来自客户端的选择指令,确定多个属性以及所述多个属性中的每个属性的处理类型,获得多个用户的多个第一特征值,其中,所述第一特征值表征用户在所述属性的维度上的特征,基于所述处理类型,处理用户在不同属性的维度上的多个第一特征值得到第二特征值,基于所述第二特征值对所述多个用户聚类,以便将所述多个用户划分为多个类别,得到分类结果,以及向所述客户端发送所述分类结果。
图1示意性示出了根据本公开实施例的数据处理方法的应用场景的示意图。需要注意的是,图1所示仅为可以应用本公开实施例的场景的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。
如图1所示,根据该实施例的系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。
根据本公开实施例,终端设备101、102、103可以是服务器105的控制台设备,服务器105为终端设备101、102、103提供存储与计算资源。当用户通过终端设备101、102或103向服务器105部署计算任务时,服务器105执行该计算任务,并返回计算结果供终端设备101、102或103输出。
需要说明的是,本公开实施例所提供的数据处理方法一般可以由服务器105执行。相应地,本公开实施例所提供的数据处理装置一般可以设置于服务器105中。本公开实施例所提供的数据处理方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的数据处理装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
图2示意性示出了根据本公开实施例的数据处理方法的流程图。
如图2所示,该方法包括操作S210~S250。
在操作S210,响应于获得来自客户端的选择指令,确定多个属性以及所述多个属性中的每个属性的处理类型。
根据本公开实施例,服务器中可以存储大量的用户数据,每个用户数据除了用户的识别信息(例如姓名或识别编码)外,还包括多个属性的数据,例如每个用户的年龄、性别、交易记录等,例如还可以包括根据交易记录推测的收入估计值、偏好等其他属性的数据。
根据本公开实施例,可以从客户端获得选择指令,基于该选择指令,从全部属性中确定本次处理所需要的一个或多个属性。例如,基于选择指令,确定年龄和收入估计值作为本次处理所需要的属性。该选择指令,还用于确定与选择的每个属性值对应的处理类型,例如,确定收入估计值的处理类型为第一处理类型,确定年龄的处理类型为第二处理类型。根据业务需求不同,每次选择的属性以及属性的处理类型可以不同,因此该方法可根据需要自由配置,具有较高的灵活性。
在操作S220,获得多个用户的多个第一特征值,其中,所述第一特征值表征用户在所述属性的维度上的特征。
根据本公开实施例,在确定本次处理所需要的一个或多个属性后,可以获得多个用户的在该些属性的属性值作为第一特征值,例如,获得十万个用户中每个用户的年龄和收入估计值,每个用户的年龄或收入估计值即为该用户的第一特征值。
在操作S230,基于所述处理类型,处理用户在不同属性的维度上的多个第一特征值得到第二特征值。
下面结合图3A所示意的实施例进行说明。
图3A示意性示出了根据本公开实施例的基于所述处理类型,处理用户在不同属性的维度上的多个第一特征值得到第二特征值的流程图。
如图3A所示,该方法包括操作S311~S314。
在操作S311,将每个属性的维度上的第一特征值的取值范围划分为多个区间。例如,对于年龄这一属性,可以将取值范围(例如0~120岁)划分为20岁以下、20~35岁、35~50岁以及50岁以上四个区间。
在操作S312,确定所述第一特征值所处的区间。
例如,当用户的年龄为33岁时,可以确定其处于20~35岁的区间。
根据本公开实施例,由于一些特征值通常随时间发生变化,如果第一特征值记录的时间较为久远,则需要对第一特征值进行估计和修正,确定修正或的第一特征值所处的区间。
图3B示意性示出了根据本公开实施例的确定第一特征值所处的区间的流程图。
如图3B所示,该方法包括操作S321和S322。
在操作S321,基于时间处理所述第一特征值得到修正后的第一特征值。
在操作S322,确定修正后的第一特征值所处的区间。
根据本公开实施例,除年龄外,其他一些与时间相关的特征例如可以采用时间冷却公式来计算:
本期数据=上一期数据×exp[-冷却系数×间隔的时间]
返回参考图3A。在操作S313,对于一个属性,根据所述处理类型以及所述第一特征值所处的区间,确定用户在该属性的维度上的权重值。
根据本公开实施例,属性采用的处理类型不同、该属性的第一特征值所处的区间不同,将得到不同的权重值。
根据本公开实施例,所述根据所述处理类型以及所述第一特征值所处的区间,确定用户在该属性的维度上的权重值包括以下至少一种:在所述处理类型为第一处理类型的情况下,不同区间上所确定的权重值呈指数变化;在所述处理类型为第二处理类型的情况下,不同区间上所确定的权重值呈线性变化;在所述处理类型为第三处理类型的情况下,不同区间上所确定的权重值呈对数变化。
例如,可以采用如下表所示意的方式确定权重值:
其中,A为常数。需要说明的是,在如上表所示的实施例中,由于第三处理类型中的对数公式的定义域的限制,此处A大于1。在本领域技术人员根据需要设置表中的公式为其他形式时,此限制并非是必要的。
如上表所示,可以根据不同属性在当前处理任务中的重要性,使用不同的策略得到权重,例如,对于重要的属性,例如可以采用第一处理类型、第四处理类型和第五处理类型,使用指数级变化或者幂级变化的规则来确定权重值,对于普通的属性,例如可以采用第二处理类型,使用线性变化的规则来确定权重值,对于重要性较低的属性,例如可以采用第三处理类型,使用对数变化的规则来确定权重值。
例如,在年龄被划分为20岁以下、20~35岁、35~50岁以及50岁以上四个区间时,每个区间对应的权重分别是10、8、6、4,如果一个用户的年龄为33岁,那么他在年龄这一属性上的权重值为8。又如,收入估计值(万元/年)被划分为5以下、5-10、10-30以及30以上,每个区间对应的权重分别是100、101、102、103,如果一个用户的收入估计值为9万,那么该用户在收入估计值这一属性上的权重值为101,即10。
在操作S314,根据用户在多个属性的维度上的权重值,确定所述用户的第二特征值。
根据本公开实施例,可以将一个用户在多个属性的维度上权重值合并为一个第二特征值,实现特征数据降维的效果,能够降低后续聚类步骤的难度,提高分类效果。通过把多特征转化为单特征,能够有效降低计算量和训练成本。
例如,对于用户的多个权重值,可以采用累加或累乘的方式,将多个权重值处理为一个第二特征值。可以根据业务的需要选择累加或累乘的方式,累加后的第二特征值更为分散,累乘后的第二特征值更为集中。
返回参考图2。在操作S240,基于所述第二特征值对所述多个用户聚类,以便将所述多个用户划分为多个类别,得到分类结果。
根据本公开实施例,所述基于所述第二特征值对所述多个用户聚类,以便将所述多个用户划分为多个类别,得到分类结果包括,在所述第二特征值的分布满足预定分布条件的情况下,对所述第二特征值执行两次聚类处理,以便将所述多个用户划分为P个类别,其中,第一次聚类的簇的数量M大于P,第二次聚类的簇的数量N小于P,M、N、P为正整数。
例如,该预定分布条件可以是用于判断第二特征值是否满足长尾分布的判断条件,如果第二特征值处于长尾分布,则普通的聚类算法难以将特征值较低的第二特征值分离。
实际上,在线下场景中,很容易出现长尾分布,因为用户的数据量较少,特征有限,大部分的用户的特征差异并没有显现出来,导致多个用户的第二特征值表现出长尾分布。
面对这种问题,本公开实施例的方法可以采用两次聚类的方式,第一次聚类得到多于目标数量的类簇,以便区分长尾分布中第二特征值较小的特征点,第二次聚类将剩余的特征点正常聚类,综合两次聚类结果得到对多个用户的分类结果,有利于改善分类效果。
下面结合图3C所示意的实施例进行说明。
图3C示意性示出了根据本公开实施例的对所述第二特征值执行两次聚类处理的流程图。
如图3C所示,该方法包括操作S331~S334。
在操作S331,对所述第二特征值进行第一次聚类,得到M个簇。
例如,为了将人群分为4类(P=4),可以第一次按照8个类簇(M=8)进行聚类,由于数量较多,可以更好地区分长尾分布中“尾部”的特征点。M的取值例如可以选择P的整倍数。
在操作S332,基于所述第二特征值,从所述M个簇中确定K个簇,其中,K=N-P。
根据本公开实施例,可以从所述M个簇中确定第二特征值相对最低的一个簇。例如,在第一次得到8个类簇的情况下,可以确定第二特征值最小的一个类簇,剩余7个类簇。当然,此处也可以确定大于一个类簇,但不应当达到甚至超过P值。
在操作S333,从所述多个用户的第二特征值中剔除与所述K个簇对应的第二特征值,对剩余的第二特征值进行第二次聚类,得到N个簇。
例如,可以剔除上一步确定的一个类簇对应的第二特征值,将剩余7个类簇的第二特征值重新聚类,为了最终得到4个类簇,此次将按照3个类簇对剩余的第二特征值进行聚类。
在操作S334,基于第一次聚类得到的K个簇和第二次聚类得到的N个簇,生成将所述多个用户分为P类的分类结果。
例如,将第一次聚类的1个类簇和第二次聚类的3个类簇合并为4个类簇,得到将多个用户分为4类的分类结果。
返回参考图2。在操作S250,向所述客户端发送所述分类结果。
本公开实施例的方法通过将不同属性的维度上的多个第一特征值处理为第二特征值,实现了数据的降维,能够有效提高分类效果的可靠性。
图3D示意性示出了根据本公开另一实施例的数据处理方法的流程图。
如图3D所示,该方法在前述实施例的基础上,还包括操作S341和操作S342。
在操作S341,检查所述多个属性之间的相关性。
在操作S342,若存在两个属性之间的相关性大于阈值,则输出提示信息。
根据本公开实施例,来自客户端的选择指令所确定的多个属性可能并非合适的属性,可能存在相关性较大甚至线性相关的两个属性,例如年龄和工作年限。本公开实施例的方法可以在接收到选择指令后,对所选择的属性进行判断,如果所选择的两个属性之间存在较强的相关性,则向客户端发出提示信息,提示用户是否需要重新选择属性。
基于同一发明构思,本公开还提供了一种数据处理装置,下面参照图4对本公开实施例的数据处理装置进行说明。
图4示意性示出了根据本公开实施例的数据处理装置400的框图。
如图4所示,数据处理装置400包括确定模块410、获得模块420、处理模块430、聚类模块440以及发送模块450。该数据处理装置400可以执行上文描述的各种方法。
确定模块410,例如执行参考上文图2描述的操作S210,用于响应于获得来自客户端的选择指令,确定多个属性以及所述多个属性中的每个属性的处理类型。
获得模块420,例如执行参考上文图2描述的操作S220,用于获得多个用户的多个第一特征值,其中,所述第一特征值表征用户在所述属性的维度上的特征。
处理模块430,例如执行参考上文图2描述的操作S230,用于基于所述处理类型,处理用户在不同属性的维度上的多个第一特征值得到第二特征值。
聚类模块440,例如执行参考上文图2描述的操作S240,用于基于所述第二特征值对所述多个用户聚类,以便将所述多个用户划分为多个类别,得到分类结果。
发送模块450,例如执行参考上文图2描述的操作S250,用于向所述客户端发送所述分类结果。
图5A示意性示出了根据本公开实施例的处理模块510的框图。
如图5A所示,该处理模块510包括分段子模块511、第一确定子模块512、第二确定子模块513以及第三确定子模块514。
分段子模块511,例如执行参考上文图3A描述的操作S311,用于将每个属性的维度上的第一特征值的取值范围划分为多个区间。
第一确定子模块512,例如执行参考上文图3A描述的操作S312,用于确定所述第一特征值所处的区间。
第二确定子模块513,例如执行参考上文图3A描述的操作S313,用于对于一个属性,根据所述处理类型以及所述第一特征值所处的区间,确定用户在该属性的维度上的权重值。
第三确定子模块514,例如执行参考上文图3A描述的操作S314,用于根据用户在多个属性的维度上的权重值,确定所述用户的第二特征值。
根据本公开实施例,所述第二确定子模块用于执行以下至少一种:在所述处理类型为第一处理类型的情况下,不同区间上所确定的权重值呈指数变化;在所述处理类型为第二处理类型的情况下,不同区间上所确定的权重值呈线性变化;在所述处理类型为第三处理类型的情况下,不同区间上所确定的权重值呈对数变化。
图5B示意性示出了根据本公开实施例的第一确定子模块520的框图。
如图5B所示,该第一确定子模块520包括修正单元521和确定单元522。
修正单元521,例如执行参考上文图3B描述的操作S321,用于基于时间处理所述第一特征值得到修正后的第一特征值。
确定单元522,例如执行参考上文图3B描述的操作S322,用于确定修正后的第一特征值所处的区间。
图5C示意性示出了根据本公开实施例的聚类模块530的框图。
如图5C所示,该聚类模块530包括第一聚类子模块531、第四确定子模块532、第二聚类子模块533以及生成子模块534。
第一聚类子模块531,例如执行参考上文图3C描述的操作S331,用于对所述第二特征值进行第一次聚类,得到M个簇。
第四确定子模块532,例如执行参考上文图3C描述的操作S332,用于基于所述第二特征值,从所述M个簇中确定K个簇,其中,K=N-P。
第二聚类子模块533,例如执行参考上文图3C描述的操作S333,用于从所述多个用户的第二特征值中剔除与所述K个簇对应的第二特征值,对剩余的第二特征值进行第二次聚类,得到N个簇。
生成子模块534,例如执行参考上文图3C描述的操作S334,用于基于第一次聚类得到的K个簇和第二次聚类得到的N个簇,生成将所述多个用户分为P类的分类结果。
根据本公开实施例,所述第四确定子模块用于从所述M个簇中确定第二特征值相对最低的一个簇。
图5D示意性示出了根据本公开另一实施例的数据处理装置540的框图。
如图5D所示,该装置540在图4所示意的实施例的基础上,还包括检查模块541和输出模块542。
检查模块541,例如执行参考上文图3D描述的操作S341,用于检查所述多个属性之间的相关性。
输出模块542,例如执行参考上文图3D描述的操作S342,用于若存在两个属性之间的相关性大于阈值,则输出提示信息。
根据本公开实施例,所述聚类模块用于在所述第二特征值的分布满足预定分布条件的情况下,对所述第二特征值执行两次聚类处理,以便将所述多个用户划分为P个类别,其中,第一次聚类的簇的数量M大于P,第二次聚类的簇的数量N小于P,M、N、P为正整数。
根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
例如,确定模块410、获得模块420、处理模块430、聚类模块440、发送模块450、分段子模块511、第一确定子模块512、第二确定子模块513、第三确定子模块514、修正单元521、确定单元522、第一聚类子模块531、第四确定子模块532、第二聚类子模块533、生成子模块534、检查模块541以及输出模块542中的多个模块可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本公开的实施例,确定模块410、获得模块420、处理模块430、聚类模块440、发送模块450、分段子模块511、第一确定子模块512、第二确定子模块513、第三确定子模块514、修正单元521、确定单元522、第一聚类子模块531、第四确定子模块532、第二聚类子模块533、生成子模块534、检查模块541以及输出模块542中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,确定模块410、获得模块420、处理模块430、聚类模块440、发送模块450、分段子模块511、第一确定子模块512、第二确定子模块513、第三确定子模块514、修正单元521、确定单元522、第一聚类子模块531、第四确定子模块532、第二聚类子模块533、生成子模块534、检查模块541以及输出模块542中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
图6示意性示出了根据本公开实施例的适于实现上文描述的方法的计算机系统的方框图。图6示出的计算机系统仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图6所示,根据本公开实施例的计算机系统600包括处理器601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。处理器601例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器601还可以包括用于缓存用途的板载存储器。处理器601可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 603中,存储有系统600操作所需的各种程序和数据。处理器601、ROM 602以及RAM 603通过总线604彼此相连。处理器601通过执行ROM 602和/或RAM 603中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除ROM 602和RAM 603以外的一个或多个存储器中。处理器601也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
根据本公开的实施例,系统600还可以包括输入/输出(I/O)接口605,输入/输出(I/O)接口605也连接至总线604。系统600还可以包括连接至I/O接口605的以下部件中的一项或多项:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
根据本公开的实施例,根据本公开实施例的方法流程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被处理器601执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如,根据本公开的实施例,计算机可读存储介质可以包括上文描述的ROM 602和/或RAM 603和/或ROM 602和RAM 603以外的一个或多个存储器。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。电要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。

Claims (10)

1.一种数据处理方法,应用于服务器端,所述方法包括:
响应于获得来自客户端的选择指令,确定多个属性以及所述多个属性中的每个属性的处理类型;
获得多个用户的多个第一特征值,其中,所述第一特征值表征用户在所述属性的维度上的特征;
基于所述处理类型,处理用户在不同属性的维度上的多个第一特征值得到第二特征值;
基于所述第二特征值对所述多个用户聚类,以便将所述多个用户划分为多个类别,得到分类结果;以及
向所述客户端发送所述分类结果。
2.根据权利要求1所述的方法,其中,所述基于所述处理类型,处理用户在不同属性的维度上的多个第一特征值得到第二特征值包括:
将每个属性的维度上的第一特征值的取值范围划分为多个区间;
确定所述第一特征值所处的区间;
对于一个属性,根据所述处理类型以及所述第一特征值所处的区间,确定用户在该属性的维度上的权重值;
根据用户在多个属性的维度上的权重值,确定所述用户的第二特征值。
3.根据权利要求2所述的方法,其中,所述根据所述处理类型以及所述第一特征值所处的区间,确定用户在该属性的维度上的权重值包括以下至少一种:
在所述处理类型为第一处理类型的情况下,不同区间上所确定的权重值呈指数变化;
在所述处理类型为第二处理类型的情况下,不同区间上所确定的权重值呈线性变化;
在所述处理类型为第三处理类型的情况下,不同区间上所确定的权重值呈对数变化。
4.根据权利要求2所述的方法,其中,所述确定第一特征值所处的区间包括:
基于时间处理所述第一特征值得到修正后的第一特征值;
确定修正后的第一特征值所处的区间。
5.根据权利要求1所述的方法,还包括:
检查所述多个属性之间的相关性;
若存在两个属性之间的相关性大于阈值,则输出提示信息。
6.根据权利要求1所述的方法,其中,所述基于所述第二特征值对所述多个用户聚类,以便将所述多个用户划分为多个类别,得到分类结果包括:
在所述第二特征值的分布满足预定分布条件的情况下,对所述第二特征值执行两次聚类处理,以便将所述多个用户划分为P个类别,其中,第一次聚类的簇的数量M大于P,第二次聚类的簇的数量N小于P,M、N、P为正整数。
7.根据权利要求6所述的方法,其中,所述对所述第二特征值执行两次聚类处理包括:
对所述第二特征值进行第一次聚类,得到M个簇;
基于所述第二特征值,从所述M个簇中确定K个簇,其中,K=N-P;
从所述多个用户的第二特征值中剔除与所述K个簇对应的第二特征值,对剩余的第二特征值进行第二次聚类,得到N个簇;以及
基于第一次聚类得到的K个簇和第二次聚类得到的N个簇,生成将所述多个用户分为P类的分类结果。
8.根据权利要求7所述的方法,其中,所述基于所述第二特征值,从所述M个簇中确定K个簇包括:
从所述M个簇中确定第二特征值相对最低的一个簇。
9.一种电子设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个计算机程序,
其中,当一个或多个计算机程序被一个或多个处理器执行时,使得一个或多个处理器实现权利要求1至8中任一项的方法。
10.一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器实现权利要求1至8中任一项的方法。
CN201910400639.1A 2019-05-14 2019-05-14 数据处理方法、电子设备和介质 Active CN110245684B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910400639.1A CN110245684B (zh) 2019-05-14 2019-05-14 数据处理方法、电子设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910400639.1A CN110245684B (zh) 2019-05-14 2019-05-14 数据处理方法、电子设备和介质

Publications (2)

Publication Number Publication Date
CN110245684A true CN110245684A (zh) 2019-09-17
CN110245684B CN110245684B (zh) 2023-02-03

Family

ID=67884046

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910400639.1A Active CN110245684B (zh) 2019-05-14 2019-05-14 数据处理方法、电子设备和介质

Country Status (1)

Country Link
CN (1) CN110245684B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110808995A (zh) * 2019-11-08 2020-02-18 中国工商银行股份有限公司 安全防护方法和装置
CN111552695A (zh) * 2020-06-04 2020-08-18 支付宝(杭州)信息技术有限公司 数据存储和查询的方法、装置以及机器可读存储介质
CN112307133A (zh) * 2020-10-29 2021-02-02 平安普惠企业管理有限公司 安全防护方法、装置、计算机设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102737327A (zh) * 2011-03-31 2012-10-17 国际商业机器公司 一种划分客户群集的计算机实现的方法和系统
CN104991968A (zh) * 2015-07-24 2015-10-21 成都云堆移动信息技术有限公司 基于文本挖掘的互联网媒体用户属性分析方法
CN105654115A (zh) * 2015-12-28 2016-06-08 西北工业大学 一种面向行为识别的密度适应性聚类方法
CN106296157A (zh) * 2016-07-26 2017-01-04 杭州米雅信息科技有限公司 一种移动支付平台
US20170046560A1 (en) * 2014-04-23 2017-02-16 Signpass Ltd. Methods and systems for signature analysis and authentication
CN108734072A (zh) * 2017-04-24 2018-11-02 杭州海康威视数字技术股份有限公司 一种多源对象关联方法及装置
CN109241448A (zh) * 2018-10-30 2019-01-18 北京工业大学 一种针对科技情报的个性化推荐方法
CN109697452A (zh) * 2017-10-23 2019-04-30 北京京东尚科信息技术有限公司 数据对象的处理方法、处理装置及处理系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102737327A (zh) * 2011-03-31 2012-10-17 国际商业机器公司 一种划分客户群集的计算机实现的方法和系统
US20170046560A1 (en) * 2014-04-23 2017-02-16 Signpass Ltd. Methods and systems for signature analysis and authentication
CN104991968A (zh) * 2015-07-24 2015-10-21 成都云堆移动信息技术有限公司 基于文本挖掘的互联网媒体用户属性分析方法
CN105654115A (zh) * 2015-12-28 2016-06-08 西北工业大学 一种面向行为识别的密度适应性聚类方法
CN106296157A (zh) * 2016-07-26 2017-01-04 杭州米雅信息科技有限公司 一种移动支付平台
CN108734072A (zh) * 2017-04-24 2018-11-02 杭州海康威视数字技术股份有限公司 一种多源对象关联方法及装置
CN109697452A (zh) * 2017-10-23 2019-04-30 北京京东尚科信息技术有限公司 数据对象的处理方法、处理装置及处理系统
CN109241448A (zh) * 2018-10-30 2019-01-18 北京工业大学 一种针对科技情报的个性化推荐方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
SANJEENA SUBEDI等: "Clustering and classification via cluster-weighted factor analyzers", 《COMPUTER SCIENCE》 *
侯丹丹: "基于属性权重的聚类算法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
刘占兵等: "基于用户兴趣模糊聚类的协同过滤算法", 《现代图书情报技术》 *
周峰: "基于大数据的社交网络数据挖", 《中国优秀硕士学位论文全文数据库》 *
桂树等: "基于MUGG的轨迹建模与异常检测", 《中国科学院研究生院学报》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110808995A (zh) * 2019-11-08 2020-02-18 中国工商银行股份有限公司 安全防护方法和装置
CN110808995B (zh) * 2019-11-08 2022-12-23 中国工商银行股份有限公司 安全防护方法和装置
CN111552695A (zh) * 2020-06-04 2020-08-18 支付宝(杭州)信息技术有限公司 数据存储和查询的方法、装置以及机器可读存储介质
CN112307133A (zh) * 2020-10-29 2021-02-02 平安普惠企业管理有限公司 安全防护方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN110245684B (zh) 2023-02-03

Similar Documents

Publication Publication Date Title
KR101939554B1 (ko) 일시적 거래 한도 결정
US8756178B1 (en) Automatic event categorization for event ticket network systems
CN110245684A (zh) 数据处理方法、电子设备和介质
US10956470B2 (en) Facet-based query refinement based on multiple query interpretations
CN110019087A (zh) 数据处理方法及其系统
CN109961077A (zh) 性别预测方法、装置、存储介质及电子设备
CN109087138A (zh) 数据处理方法及系统、计算机系统和可读存储介质
US11817994B2 (en) Time series trend root cause identification
CN111353862A (zh) 商品的推荐方法和装置、电子设备和存储介质
US20130325861A1 (en) Data Clustering for Multi-Layer Social Link Analysis
CN110020112A (zh) 对象推送方法及其系统
CN111310025B (zh) 模型训练方法、数据处理方法、装置以及相关设备
US10771936B2 (en) System and method of creating abstractions of real and virtual environments and objects subject to latency constraints
CN108959636A (zh) 数据处理方法、装置、系统、计算机可读介质
CN113760521A (zh) 一种虚拟资源的分配方法和装置
CN111340601A (zh) 商品信息的推荐方法和装置、电子设备和存储介质
CN107656927A (zh) 一种特征选择方法及设备
US9230022B1 (en) Customizable result sets for application program interfaces
CN115619261A (zh) 一种作业标签画像数据处理方法、装置、计算机设备
CN109977982A (zh) 用户分类方法、系统、电子设备及计算机可读介质
CN110110197A (zh) 信息获取方法和装置
CN115082844A (zh) 相似人群扩展方法、装置、电子设备和可读存储介质
CN109992614B (zh) 数据获取方法、装置和服务器
CN112348615A (zh) 用于审核信息的方法和装置
CN112418260A (zh) 模型训练方法、信息提示方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant