CN110288365A - 数据处理方法及系统、计算机系统和计算机可读存储介质 - Google Patents
数据处理方法及系统、计算机系统和计算机可读存储介质 Download PDFInfo
- Publication number
- CN110288365A CN110288365A CN201810227130.7A CN201810227130A CN110288365A CN 110288365 A CN110288365 A CN 110288365A CN 201810227130 A CN201810227130 A CN 201810227130A CN 110288365 A CN110288365 A CN 110288365A
- Authority
- CN
- China
- Prior art keywords
- user
- data
- attribute information
- multiple user
- numerical example
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 29
- 238000012545 processing Methods 0.000 claims abstract description 63
- 238000012360 testing method Methods 0.000 claims abstract description 40
- 238000000034 method Methods 0.000 claims description 24
- 230000000694 effects Effects 0.000 claims description 21
- 238000004422 calculation algorithm Methods 0.000 claims description 18
- 230000015654 memory Effects 0.000 claims description 12
- 238000010586 diagram Methods 0.000 description 16
- 238000005516 engineering process Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 10
- 230000006399 behavior Effects 0.000 description 8
- 238000004590 computer program Methods 0.000 description 8
- 230000006854 communication Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 235000013399 edible fruits Nutrition 0.000 description 5
- 230000002159 abnormal effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 238000005259 measurement Methods 0.000 description 4
- 241001269238 Data Species 0.000 description 3
- 230000005856 abnormality Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000036461 convulsion Effects 0.000 description 2
- 230000005611 electricity Effects 0.000 description 2
- 238000005538 encapsulation Methods 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 230000005291 magnetic effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 244000062793 Sorghum vulgare Species 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 210000003127 knee Anatomy 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 235000019713 millet Nutrition 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
Landscapes
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- Marketing (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了一种数据处理方法,包括:获取操作数样本,其中,操作数样本中包含多个用户操作对象而产生的操作数据;根据包含在操作数样本中的操作数据,确定多个用户的属性信息,其中,属性信息用于表征不同用户在交易对象时所表现出来的区别特征;以及根据确定出的多个用户的属性信息,对操作数样本所涉及的多个用户进行分流处理,得到应用于测试数据处理模型的多个用户数据样本,其中,每个用户数据样本中包含有对多个用户分流后得到的至少一个用户的用户信息。本公开还提供了一种数据处理系统、计算机系统和计算机可读存储介质。
Description
技术领域
本公开涉及计算机技术领域,更具体地,涉及一种数据处理方法及系统、计算机系统和计算机可读存储介质。
背景技术
随着计算机技术的快速发展,业界对通过数据处理模型处理数据的有效性要求也越来越高,而对数据处理模型处理数据的有效性进行测试可以了解一个数据处理模型的实际应用或者数据处理能力是否满足有效性要求。为了实现对数据处理模型的有效性进行测试,相关技术中采用随机分配的方式对多个用户进行分流处理,得到多个测试组,并将分流得到的多个测试组用于数据处理模型中测试。例如,对多个用户进行随机分组,得到A组测试组和B组测试组,将A组测试组和B组测试组分别用于测试相同或不同的数据处理模型,可以得到相应的测试结果,通过对A组测试组和B组测试组的测试结果进行比较,可以实现对数据处理模型的有效性进行测试。
在实现本公开构思的过程中,发明人发现相关技术中至少存在如下问题:
相关技术中基于随机分配的测试分组对比方法容易使得数据处理模型的测试结果出现异常,特别是在流量小且用户较为集中的应用场景,现有的随机分配方案极有可能将大量的优质用户随机指定到一组,从而导致测试结果出现异常。
发明内容
有鉴于此,本公开提供了一种数据处理方法及系统、计算机系统和计算机可读存储介质。
本公开的一个方面提供了一种数据处理方法,包括获取操作数样本,其中,上述操作数样本中包含多个用户操作对象而产生的操作数据;根据包含在上述操作数样本中的上述操作数据,确定上述多个用户的属性信息,其中,上述属性信息用于表征不同用户在交易对象时所表现出来的区别特征;以及根据确定出的上述多个用户的属性信息,对上述操作数样本所涉及的上述多个用户进行分流处理,得到应用于测试数据处理模型的多个用户数据样本,其中,每个上述用户数据样本中包含有对上述多个用户分流后得到的至少一个用户的用户信息。
根据本公开的实施例,根据包含在上述操作数样本中的上述操作数据,确定上述多个用户的属性信息包括从上述操作数样本中获取上述操作数据;根据上述操作数据,按照第一预设算法计算上述多个用户的活跃度,其中,上述活跃度用于表征用户操作对象的活跃程度;以及根据活跃度计算结果,确定上述多个用户的属性信息。
根据本公开的实施例,上述方法还包括根据上述操作数据,按照第二预设算法计算上述多个用户的交易评分,其中,上述交易评分用于表征用户交易对象的能力;以及根据交易评分计算结果和上述活跃度计算结果,确定上述多个用户的属性信息。
根据本公开的实施例,根据交易评分计算结果和上述活跃度计算结果,确定上述多个用户的属性信息包括根据上述活跃度计算结果,将上述多个用户按预定数量的类别进行分类,以为上述多个用户中的每个用户标记相应的第一类别标识;根据上述交易评分计算结果,将上述多个用户按上述预定数量的类别进行分类,以为上述多个用户中的每个用户标记相应的第二类别标识;以及根据为上述每个用户标记的相应的第一类别标识和第二类别标识,确定上述每个用户的属性信息。
根据本公开的实施例,根据包含在上述操作数样本中的上述操作数据,确定上述多个用户的属性信息包括按照预定规则对上述操作数样本中包含的上述操作数据进行过滤,以得到符合上述预定规则的有效操作数据;以及基于上述有效数据确定上述多个用户的属性信息。
本公开的另一个方面提供了一种数据处理系统,包括获取模块、确定模块和处理模块。获取模块用于获取操作数样本,其中,上述操作数样本中包含多个用户操作对象而产生的操作数据;确定模块用于根据包含在上述操作数样本中的上述操作数据,确定上述多个用户的属性信息,其中,上述属性信息用于表征不同用户在交易对象时所表现出来的区别特征;以及处理模块用于根据确定出的上述多个用户的属性信息,对上述操作数样本所涉及的上述多个用户进行分流处理,得到应用于测试数据处理模型的多个用户数据样本,其中,每个上述用户数据样本中包含有对上述多个用户分流后得到的至少一个用户的用户信息。
根据本公开的实施例,上述确定模块包括获取单元、第一计算单元和第一确定单元。获取单元用于从上述操作数样本中获取上述操作数据;第一计算单元用于根据上述操作数据,按照第一预设算法计算上述多个用户的活跃度,其中,上述活跃度用于表征用户操作对象的活跃程度;以及第一确定单元用于根据活跃度计算结果,确定上述多个用户的属性信息。
根据本公开的实施例,上述确定模块还包括第二计算单元和第二确定单元。第二计算单元用于根据上述操作数据,按照第二预设算法计算上述多个用户的交易评分,其中,上述交易评分用于表征用户交易对象的能力;以及第二确定单元用于根据交易评分计算结果和上述活跃度计算结果,确定上述多个用户的属性信息。
根据本公开的实施例,上述第二确定单元包括第一分类子单元、第二分类子单元和确定子单元。第一分类子单元用于根据上述活跃度计算结果,将上述多个用户按预定数量的类别进行分类,以为上述多个用户中的每个用户标记相应的第一类别标识;第二分类子单元用于根据上述交易评分计算结果,将上述多个用户按上述预定数量的类别进行分类,以为上述多个用户中的每个用户标记相应的第二类别标识;以及确定子单元用于根据为上述每个用户标记的相应的第一类别标识和第二类别标识,确定上述每个用户的属性信息。
根据本公开的实施例,上述确定模块包括过滤单元和第三确定单元。过滤单元用于按照预定规则对上述操作数样本中包含的上述操作数据进行过滤,以得到符合上述预定规则的有效操作数据;以及第三确定单元用于基于上述有效数据确定上述多个用户的属性信息。
本公开的另一个方面提供了一种计算机系统,包括一个或多个处理器;存储器,用于存储一个或多个程序,其中,当上述一个或多个程序被上述一个或多个处理器执行时,使得上述一个或多个处理器实现如上所述的数据处理方法。
本公开的另一个方面提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器实现如上所述的数据处理方法。
本公开的另一方面提供了一种计算机程序,所述计算机程序包括计算机可执行指令,所述指令在被执行时用于实现如上所述的数据处理方法。
根据本公开的实施例,由于根据用户操作对象时产生的操作数据,如浏览、点击、收藏、交易等操作数据,可以确定用于表征不同用户在交易对象时所表现出的区别特征,即用户的属性信息,根据用户的属性信息将多个用户进行分流,将分流后得到的多个用户样本数据用于测试数据处理模型的技术手段,可以有效抑制大量的优质用户随机指定到一组而导致测试结果出现异常的情况,所以至少部分地克服相关技术中随机分流导致模型的测试指标异常的技术问题,避免了因用户本身质量差异而带来的测试偏差,达到了提高测试效率的技术效果。
附图说明
通过以下参照附图对本公开实施例的描述,本公开的上述以及其他目的、特征和优点将更为清楚,在附图中:
图1示意性示出了根据本公开实施例的可以应用数据处理方法及其系统的示例性系统架构;
图2示意性示出了根据本公开实施例的数据处理方法的流程图;
图3示意性示出了根据本公开实施例的确定多个用户的属性信息的流程图;
图4示意性示出了根据本公开另一实施例的确定多个用户的属性信息的流程图;
图5示意性示出了根据本公开实施例的根据交易评分计算结果和活跃度计算结果,确定多个用户的属性信息的流程图;
图6示意性示出了根据本公开另一实施例的确定多个用户的属性信息的流程图;
图7示意性示出了根据本公开另一实施例的数据处理方法的流程图;
图8示意性示出了根据本公开实施例的数据处理系统的框图;
图9示意性示出了根据本公开实施例的确定模块的框图;
图10示意性示出了根据本公开另一实施例的确定模块的框图;
图11示意性示出了根据本公开实施例的第二确定单元的框图;
图12示意性示出了根据本公开另一实施例的确定模块的框图;以及
图13示意性示出了根据本公开实施例的适于实现数据处理方法和数据处理系统的计算机系统的框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。本领域技术人员还应理解,实质上任意表示两个或更多可选项目的转折连词和/或短语,无论是在说明书、权利要求书还是附图中,都应被理解为给出了包括这些项目之一、这些项目任一方、或两个项目的可能性。例如,短语“A或B”应当被理解为包括“A”或“B”、或“A和B”的可能性。
本公开的实施例提供了一种数据处理方法及装置,该方法包括获取操作数样本,其中,操作数样本中包含多个用户操作对象而产生的操作数据;根据包含在操作数样本中的操作数据,确定多个用户的属性信息,其中,属性信息用于表征不同用户在交易对象时所表现出来的区别特征;以及根据确定出的多个用户的属性信息,对操作数样本所涉及的多个用户进行分流处理,得到应用于测试数据处理模型的多个用户数据样本,其中,每个用户数据样本中包含有对多个用户分流后得到的至少一个用户的用户信息。
图1示意性示出了根据本公开实施例的可以应用数据处理方法及其系统的示例性系统架构。需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。
如图1所示,根据该实施例的系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线和/或无线通信链路等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端和/或社交平台软件等(仅为示例)。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。
需要说明的是,本公开实施例所提供的数据处理方法一般可以由服务器105执行。相应地,本公开实施例所提供的数据处理系统一般可以设置于服务器105中。本公开实施例所提供的数据处理方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的数据处理系统也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。或者,本公开实施例所提供的图像处理方法也可以由终端设备101、102、或103执行,或者也可以由不同于终端设备101、102、或103的其他终端设备执行。相应地,本公开实施例所提供的数据处理系统也可以设置于终端设备101、102、或103中,或设置于不同于终端设备101、102、或103的其他终端设备中。
例如,操作数样本可以原本存储在终端设备101、102、或103中的任意一个(例如,终端设备101,但不限于此)之中,或者存储在外部存储设备上并可以导入到终端设备101中。然后,终端设备101可以在本地执行本公开实施例所提供的数据处理方法,或者将操作数样本发送到其他终端设备、服务器、或服务器集群,并由接收该操作数样本的其他终端设备、服务器、或服务器集群来执行本公开实施例所提供的数据处理方法。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
图2示意性示出了根据本公开实施例的数据处理方法的流程图。
如图2所示,该方法包括操作S210~S230,其中:
在操作S210,获取操作数样本,其中,操作数样本中包含多个用户操作对象而产生的操作数据。
根据本公开的实施例,对象包括但不限于各种可交易的产品,例如衣服,鞋子,电子消费品或者虚拟产品。用户操作对象产生的操作数据包括但不限于搜索,浏览,点击,交易,评论等产生的数据,例如,操作数据可以是用户的搜索次数,浏览次数,评论次数等等。在操作数样本中包括多个用户相对应的操作数据。根据本公开的实施例,可以通过获取用户行为日志的方式获取大量用户的操作数据。例如,通过获取用户行为日志的方式获取用户在交易平台上进行产品浏览,产品购买,以及产品评论的行为数据。
在操作S220,根据包含在操作数样本中的操作数据,确定多个用户的属性信息,其中,属性信息用于表征不同用户在交易对象时所表现出来的区别特征。
根据本公开的实施例,根据与用户相对应的操作数据,以及操作数样本中所有的操作数据,通过分析确定用户的属性信息,其中,用户的属性信息用于表征不同用户在交易对象时所表现出来的区别特征,例如可以将用户分成优质客户,良好用户和一般用户,或者例如可以将用户分成频繁用户,一般用户和稀疏用户等。
根据本公开的实施例,例如,当用户A评论电子产品的评论数为100,操作数样本中的用户评论数大部分为20,若将优质客户的评论数定为20以上,则可以将用户A确定为优质客户,将用户评论数小于20的用户确定为良好用户或一般用户。根据本公开的实施例,根据包含在操作数样本中的操作数据,确定多个用户的属性信息的方式并不限于上述方式,本公开不限定确定用户属性的方法。例如,还可以是综合考察用户搜索,评论,浏览的次数占操作数样本中相应操作类型的总次数的比重,然后将所有的比重求和后与预设值进行比较,最后确定用户的属性信息。
在操作S230,根据确定出的多个用户的属性信息,对操作数样本所涉及的多个用户进行分流处理,得到应用于测试数据处理模型的多个用户数据样本,其中,每个用户数据样本中包含有对多个用户分流后得到的至少一个用户的用户信息。
根据本公开的实施例,根据操作数样本中的操作数据,可以确定每个用户的属性信息,根据确定出的用户的属性信息,可以将多个用户进行分流处理,得到多个用户数据样本,每个用户数据样本中包含至少一个用户的用户信息,如用户的账号。当使用某一账号的用户去测试相应的数据处理模型时,可以得到相应的测试结果。
根据本公开的实施例,经分流后得到的多个用户数据样本可以用于测试多个不同的数据处理模型,测试多个不同的数据处理模型可以包括新开发的数据处理模型和原先的数据处理模型的测试对比,也可以包括测试多个新开发的数据处理模型的测试对比。
根据本公开的实施例,根据确定出的多个用户的属性信息,对操作数样本所涉及的多个用户进行分流处理的方法可以是根据用户的属性信息将用户进行分类,例如分成N类,从而得到N类用户组,当对多个用户进行分流处理时,可以从每一类用户组中确定一定数量的用户,将每一类用户组中确定出来的用户组合成一个用户数据样本。在这种情况下,可以使得避免不同用户数据样本中的用户的属性相差较大,使得对用户分流时更加均匀。
根据本公开的实施例,由于根据用户操作对象时产生的操作数据,如浏览、点击、收藏、交易等操作数据,可以确定用于表征不同用户在交易对象时所表现出的区别特征,即用户的属性信息,根据用户的属性信息将多个用户进行分流,将分流后得到的多个用户样本数据用于测试数据处理模型的技术手段,可以有效抑制大量的优质用户随机指定到一组而导致测试结果出现异常的情况,所以至少部分地克服相关技术中随机分流导致模型的测试指标异常的技术问题,避免了因用户本身质量差异而带来的测试偏差,达到了提高测试效率的技术效果。
下面参考图3~图7,结合具体实施例对图2所示的方法做进一步说明。
图3示意性示出了根据本公开实施例的确定多个用户的属性信息的流程图。
如图3所示,根据包含在操作数样本中的操作数据,确定多个用户的属性信息包括操作S221~S223,其中:
在操作S221,从操作数样本中获取操作数据。
根据本公开的实施例,操作数样本中的用户操作对象时产生的操作数据包括但不限于如浏览次数、点击次数、收藏次数、交易次数等操作数据。
在操作S222,根据操作数据,按照第一预设算法计算多个用户的活跃度,其中,活跃度用于表征用户操作对象的活跃程度。
根据本公开的实施例,可以根据用户不同的操作行为计算活跃度,该活跃度用于表征用户操作对象的活跃程度。一般情况下,用户的操作行为关键链路可以包括搜索商品->浏览商品->加入购物车->付款下单->评价。对关键链路上不同的阶段,可以单独进行活跃度计算,最后属于用户的活跃度可以是不同阶段的活跃度加权之和。下面以搜索商品这一操作的活跃度计算为例,其他操作类型计算方法相同或类似。
第一预设算法公式包括但不限于如下:
其中,
Actsearch代表用户搜索的活跃度得分,Actsearch_day为用户当天的搜索次数,Acttotal_day为当天所有的用户搜索次数,Actsearch_week为用户最近一周的搜索次数,Actsearch_month为用户最近一个月的搜索次数。
根据本公开的实施例,可以采用上述计算公式计算浏览商品、加入购物车、付款下单和评价操作的活跃度得分,最后将关键链路上不同操作类型的活跃度得分加权总和,确定最终的活跃度。或者可以给不同的操作类型设置相应的权重,将权重与相应的活跃度相乘后,计算确定最终的活跃度。例如,搜索商品活跃度为:Actsearch;浏览商品活跃度为:Actbrowse;加入购物车活跃度为Actcart;付款下单活跃度为:Actpay;评价活跃度为:Actcomment;加权计算方式为:
Actscore=(0.2*Actsearch+0.3*Actbrowse+0.5*Actcart+0.7*Actpay+0.3*Actcomment)*0.5
需要说明的是,按照第一预设算法计算多个用户的活跃度的方法只是示意性的,本公开不限定确定用户的活跃度的方法。
在操作S223,根据活跃度计算结果,确定多个用户的属性信息。
根据本公开的实施例,采用第一预设算法计算多个用户的活跃度之后,可以根据每个用户的活跃度的大小,确定每个用户的属性信息。例如,可以预先设定活跃度阈值,根据活跃度阈值与用户的活跃度进行比较,从而确定用户的属性。例如,第一活跃度阈值为100,活跃度大于100的用户确定为优质客户,第二活跃度阈值为70,活跃度大于70且小于100的用户确定为良好客户,活跃度小于70的用户确定为一般客户。
根据本公开的实施例,根据用户操作对象产生的操作数据,如浏览次数,搜索次数等,可以确定用户操作对象的活跃程度,根据确定的用户活跃度,可以真实的反映用户本质属性。
图4示意性示出了根据本公开另一实施例的确定多个用户的属性信息的流程图。
如图4所示,根据包含在操作数样本中的操作数据,确定多个用户的属性信息包括操作S224~S225,其中:
在操作S224,根据操作数据,按照第二预设算法计算多个用户的交易评分,其中,交易评分用于表征用户交易对象的能力。
根据本公开的实施例,针对不同的对象,表征用户交易对象的能力的标准也不同。例如,在手机壳类目,能交易200块的手机壳可能就算交易能力强的用户,但是在手机类目,交易6000块以上的手机可能才算交易能力强的用户。因此,根据本公开的实施例,可以考虑按类目对计算多个用户的交易评分,其中,类目指产品所属于的体系,如华为手机,小米手机同属于手机这个类目。针对不同的对象,可以对每一个对象进行单独计算交易评分。
根据本公开的实施例,操作数据可以是用户交易对象时所支付的金额。第二预设算法公式包括但不限于如下:
其中,Buyi_avg为用户在类目i的平均交易价格,Cidi_hiqh为类目i单价最高商品,Cidi_low为类目i单价最低商品。
根据本公开的实施例,可以对用户产生过交易的类目进行统一计算,取其平均值为最终交易评分。
根据本公开的实施例,为了避免冷门类目的偶然性交易进入计算流程,可以取出用户最近一段时间内有发生过交易且交易次数大于预定数量次数的类目作为确定用户的交易评分的类目,并将不满足上述要求的类型进行过滤。
在操作S225,根据交易评分计算结果和活跃度计算结果,确定多个用户的属性信息。
根据本公开的实施例,交易评分的高低可以用于表征用户交易产品的价格高低的可能性,如,交易评分高,则用户交易产品价格高的可能性就高。根据本公开的实施例,从用户的活跃度和交易评分综合确定用户的属性信息,可以更加真实的反映用户的本质属性,进而可以防止相关技术中不对用户加以分析,基于完全随机的分流导致的优质用户过度集中的问题。
图5示意性示出了根据本公开实施例的根据交易评分计算结果和活跃度计算结果,确定多个用户的属性信息的流程图。
如图5所示,根据交易评分计算结果和活跃度计算结果,确定多个用户的属性信息包括操作S2251~S2253,其中:
在操作S2251,根据活跃度计算结果,将多个用户按预定数量的类别进行分类,以为多个用户中的每个用户标记相应的第一类别标识。
根据本公开的实施例,每个用户都可以确定与用户相对应的活跃度,通过预先确定预定数量的类别,可以将多个用户按相应的类别进行分类。例如,预定数量的类别分为3类,第一类别标识包括第一类别标识A,第一类别标识B和第一类别标识C。其中一种简单的分类方式为将多个用户按照活跃度的高低等分为3类,每个用户可以得到相应的第一类别标识,例如,用户甲被标记为第一类别标识A,用户乙被标记为第一类别标识B,用户丙被标记为第一类别标识C,用户丁被标记为第一类别标识C。
在操作S2252,根据交易评分计算结果,将多个用户按预定数量的类别进行分类,以为多个用户中的每个用户标记相应的第二类别标识。
根据本公开的实施例,每个用户都可以确定与用户相对应的交易评分,可以将多个用户按预定数量的类别进行分类。例如,预定数量的类别分为3类,第二类别标识包括第二类别标识A,第二类别标识B和第二类别标识C。其中一种简单的分类方式为将多个用户按照交易评分的高低等分为3类,每个用户可以得到相应的第二类别标识,例如,用户甲被标记为第二类别标识A,用户乙被标记为第二类别标识B,用户丙被标记为第二类别标识A,用户丁被标记为第二类别标识B。
在操作S2253,根据为每个用户标记的相应的第一类别标识和第二类别标识,确定每个用户的属性信息。
根据本公开的实施例,可以将第一类别标识A与第二类别标识A视为相同的类别,因此,将同时具有第一类别标识A和第二类别标识A的用户进行合并并去重。例如,同时具有第一类别标识A和第二类别标识A的用户包括用户甲,则用户甲的标识为A。相对应的,可以将第一类别标识B与第二类别标识B视为相同的类别,因此,将同时具有第一类别标识B和第二类别标识B的用户进行合并并去重,例如,同时具有第一类别标识B和第二类别标识B的用户包括用户乙,则用户乙的标识为B。
对于用户丙和用户丁,由于其相应的第一类别标识和第二类别标识不同,可以按照优先级的方式,确定用户丙和用户丁的标识,例如不同标识的优先级顺序为,标识A、标识B和标识C。由于用户丙被标记为第一类别标识C和第二类别标识A,根据优先级的高低,标识A高于标识C,可以将用户丙的标识确定为A。相似地,将用户丁的标识确定为B。根据本公开的实施例,不同的标识可以用于表征用户不同的属性信息。例如标识A用于表征用户为优质客户,标识B用于表征用户为良好客户,标识C用于表征用户为一般客户。
根据本公开的实施例,根据用户的活跃度,可以将多个用户按一定数量的类别进行分类;根据用户的交易评分,可以将多个用户按与上述一定数量相同数量的类别进行分类。将两种分类方式中属于同一类别的用户进行合并,不属于同一类别的用户再次进行分类,从而确定用户的属性信息。可以更进一步地合理确定用户的属性。
图6示意性示出了根据本公开另一实施例的确定多个用户的属性信息的流程图。
如图6所示,根据包含在操作数样本中的操作数据,确定多个用户的属性信息包括操作S226~S227,其中:
在操作S226,按照预定规则对操作数样本中包含的操作数据进行过滤,以得到符合预定规则的有效操作数据。
根据本公开的实施例,预定规则包括多种,可以包括以下至少之一:去除没有用户ID的数据、去除无法判断来源的数据、去除黑名单IP数据、去除非人为数据、去除当天用户下单超过一定数量的用户(此类用户大部分为作弊用户,或者采购用户,数据参考意义不大)、去除从第一次查看商品到下单购买商品,耗时时长少于预定时长的用户购买数据(大部分为具有明显目标导向的刷单数据)、去除同一件商品单月购买次数超过一定次数的用户购买数据(避免混入刷单数据)。
在操作S227,基于有效数据确定多个用户的属性信息。
根据本公开的实施例,经过滤非法数据后的数据一般可以认为是有效数据,是用于表征用户的真实行为数据,因此,可以用于确定多个用户的属性信息。
图7示意性示出了根据本公开另一实施例的数据处理方法的流程图。
如图7所示,根据本公开的实施例,可以将用户行为数据和用户交易数据进行过滤,得到用户合法行为数据和用户合法交易数据,或者称为用户有效行为数据和用户有效交易数据。然后基于用户合法行为数据确定用户的活跃度,基于用户合法交易数据确定用户的交易评分。最后基于用户的活跃度和交易评分确定用户属性,基于用户属性将用户进行分流。
根据本公开的实施例,通过过滤样本数据,可以确保数据的真实有效性,根据真实有效数据可以更加合理的确定用户的属性信息。
根据本公开的实施例,可以提供一种基于用户真实的活跃度和交易得分进行建模计算,通过将具有相同等级的活跃度和交易得分的用户先进行分组,在不同的组可以用均匀随机的方法将用户均匀的分配到每一个模型,保证流量中优质的用户能均匀的分到不同的模型测试中,使得可以排除用户本身属性差异带来的影响,更加准确,客观的描述算法或者数据更新带来的指标变化。
图8示意性示出了根据本公开实施例的数据处理系统的框图。
如图8所示,数据处理系统300包括获取模块310、确定模块320和处理模块330。
获取模块310用于获取操作数样本,其中,操作数样本中包含多个用户操作对象而产生的操作数据。
确定模块320用于根据包含在操作数样本中的操作数据,确定多个用户的属性信息,其中,属性信息用于表征不同用户在交易对象时所表现出来的区别特征。
处理模块330用于根据确定出的多个用户的属性信息,对操作数样本所涉及的多个用户进行分流处理,得到应用于测试数据处理模型的多个用户数据样本,其中,每个用户数据样本中包含有对多个用户分流后得到的至少一个用户的用户信息。
根据本公开的实施例,由于根据用户操作对象时产生的操作数据,如浏览、点击、收藏、交易等操作数据,可以确定用于表征不同用户在交易对象时所表现出的区别特征,即用户的属性信息,根据用户的属性信息将多个用户进行分流,将分流后得到的多个用户样本数据用于测试数据处理模型的技术手段,可以有效抑制大量的优质用户随机指定到一组而导致测试结果出现异常的情况,所以至少部分地克服相关技术中随机分流导致模型的测试指标异常的技术问题,避免了因用户本身质量差异而带来的测试偏差,达到了提高测试效率的技术效果。
图9示意性示出了根据本公开实施例的确定模块的框图。
如图9所示,根据本公开的实施例,确定模块320包括获取单元321、第一计算单元322和第一确定单元323。
获取单元321用于从操作数样本中获取操作数据;
第一计算单元322用于根据操作数据,按照第一预设算法计算多个用户的活跃度,其中,活跃度用于表征用户操作对象的活跃程度;
第一确定单元323用于根据活跃度计算结果,确定多个用户的属性信息。
根据本公开的实施例,根据用户操作对象产生的操作数据,如浏览次数,搜索次数等,可以确定用户操作对象的活跃程度,根据确定的用户活跃度,可以真实的反映用户本质属性。
图10示意性示出了根据本公开另一实施例的确定模块的框图。
如图10所示,根据本公开的实施例,确定模块320除了包括获取单元321、第一计算单元322和第一确定单元323之外,还包括第二计算单元324和第二确定单元325。
第二计算单元324用于根据操作数据,按照第二预设算法计算多个用户的交易评分,其中,交易评分用于表征用户交易对象的能力。
第二确定单元325用于根据交易评分计算结果和活跃度计算结果,确定多个用户的属性信息。
根据本公开的实施例,交易评分的高低可以用于表征用户交易产品的价格高低的可能性,如,交易评分高,则用户交易产品价格高的可能性就高。根据本公开的实施例,从用户的活跃度和交易评分综合确定用户的属性信息,可以更加真实的反映用户的本质属性,进而可以防止相关技术中不对用户加以分析,基于完全随机的分流导致的优质用户过度集中的问题。
图11示意性示出了根据本公开实施例的第二确定单元的框图。
如图11所示,根据本公开的实施例,第二确定单元325包括第一分类子单元3251、第二分类子单元3252和确定子单元3253。
第一分类子单元3251用于根据活跃度计算结果,将多个用户按预定数量的类别进行分类,以为多个用户中的每个用户标记相应的第一类别标识。
第二分类子单元3252用于根据交易评分计算结果,将多个用户按预定数量的类别进行分类,以为多个用户中的每个用户标记相应的第二类别标识。
确定子单元3253用于根据为每个用户标记的相应的第一类别标识和第二类别标识,确定每个用户的属性信息。
根据本公开的实施例,根据用户的活跃度,可以将多个用户按一定数量的类别进行分类;根据用户的交易评分,可以将多个用户按与上述一定数量相同数量的类别进行分类。将两种分类方式中属于同一类别的用户进行合并,不属于同一类别的用户再次进行分类,从而确定用户的属性信息。可以更进一步地合理确定用户的属性。
图12示意性示出了根据本公开另一实施例的确定模块的框图。
如图12所示,根据本公开的实施例,确定模块320包括过滤单元326和第三确定单元327。
过滤单元326用于按照预定规则对操作数样本中包含的操作数据进行过滤,以得到符合预定规则的有效操作数据。
第三确定单元327用于基于有效数据确定多个用户的属性信息。
根据本公开的实施例,通过过滤样本数据,可以确保数据的真实有效性,根据真实有效数据可以更加合理的确定用户的属性信息。
可以理解的是,获取模块310、确定模块320、处理模块330、获取单元321、第一计算单元322、第一确定单元323、第二计算单元324和第二确定单元325、过滤单元326、第三确定单元327、第一分类子单元3251、第二分类子单元3252和确定子单元3253可以合并在一个模块/单元/子单元中实现,或者其中的任意一个模块/单元/子单元可以被拆分成多个模块/单元/子单元。或者,这些模块/单元/子单元中的一个或多个模块/单元/子单元的至少部分功能可以与其他模块/单元/子单元的至少部分功能相结合,并在一个模块/单元/子单元中实现。根据本发明的实施例,获取模块310、确定模块320、处理模块330、获取单元321、第一计算单元322、第一确定单元323、第二计算单元324和第二确定单元325、过滤单元326、第三确定单元327、第一分类子单元3251、第二分类子单元3252和确定子单元3253中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以以对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式的适当组合来实现。或者,获取模块310、确定模块320、处理模块330、获取单元321、第一计算单元322、第一确定单元323、第二计算单元324和第二确定单元325、过滤单元326、第三确定单元327、第一分类子单元3251、第二分类子单元3252和确定子单元3253中的至少一个可以至少被部分地实现为计算机程序模块,当该程序被计算机运行时,可以执行相应模块的功能。
需要说明的是,本公开的实施例中数据处理系统部分与本公开的实施例中数据处理方法部分是相对应的,数据处理系统部分的描述具体参考数据处理方法部分,在此不再赘述。
本公开的另一个方面提供了一种计算机系统,包括一个或多个处理器;存储器,用于存储一个或多个程序,其中,当上述一个或多个程序被上述一个或多个处理器执行时,使得上述一个或多个处理器实现如上所述的数据处理方法。
图13示意性示出了根据本公开实施例的适于实现数据处理方法和数据处理系统的计算机系统的框图。图13示出的计算机系统仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图13所示,根据本公开实施例的计算机系统400包括处理器401,其可以根据存储在只读存储器(ROM)402中的程序或者从存储部分408加载到随机访问存储器(RAM)403中的程序而执行各种适当的动作和处理。处理器401例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器401还可以包括用于缓存用途的板载存储器。处理器401可以包括用于执行参考图2,图3~图7描述的根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 403中,存储有系统400操作所需的各种程序和数据。处理器401、ROM 402以及RAM 403通过总线404彼此相连。处理器401通过执行ROM 402和/或RAM 403中的程序来执行以上参考图2,图3~图7描述的各种操作。需要注意,所述程序也可以存储在除ROM 402和RAM 403以外的一个或多个存储器中。处理器401也可以通过执行存储在所述一个或多个存储器中的程序来执行以上参考图2,图3~图7描述的各种操作。
根据本公开的实施例,系统400还可以包括输入/输出(I/O)接口405,输入/输出(I/O)接口405也连接至总线404。系统400还可以包括连接至I/O接口405的以下部件中的一项或多项:包括键盘、鼠标等的输入部分406;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分407;包括硬盘等的存储部分408;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至I/O接口405。可拆卸介质411,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器410上,以便于从其上读出的计算机程序根据需要被安装入存储部分408。
根据本公开的实施例,上文参考流程图描述的方法可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可渎存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分409从网络上被下载和安装,和/或从可拆卸介质411被安装。在该计算机程序被处理器401执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
需要说明的是,本公开所示的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读存储介质,该计算机可读存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。根据本公开的实施例,计算机可读存储介质可以包括上文描述的ROM 402和/或RAM 403和/或ROM 402和RAM 403以外的一个或多个存储器。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本公开的另一个方面提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器实现如上所述的数据处理方法。
本公开提供的计算机可读存储介质可以是实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。计算机可读存储介质可以存储有可执行指令,该指令被处理器执行时使处理器:获取操作数样本,其中,操作数样本中包含多个用户操作对象而产生的操作数据;根据包含在操作数样本中的操作数据,确定多个用户的属性信息,其中,属性信息用于表征不同用户在交易对象时所表现出来的区别特征;以及根据确定出的多个用户的属性信息,对操作数样本所涉及的多个用户进行分流处理,得到应用于测试数据处理模型的多个用户数据样本,其中,每个用户数据样本中包含有对多个用户分流后得到的至少一个用户的用户信息。可选地,根据包含在操作数样本中的操作数据,确定多个用户的属性信息包括从操作数样本中获取操作数据;根据操作数据,按照第一预设算法计算多个用户的活跃度,其中,活跃度用于表征用户操作对象的活跃程度;以及根据活跃度计算结果,确定多个用户的属性信息。可选地,方法还包括根据操作数据,按照第二预设算法计算多个用户的交易评分,其中,交易评分用于表征用户交易对象的能力;以及根据交易评分计算结果和活跃度计算结果,确定多个用户的属性信息。可选地,根据交易评分计算结果和活跃度计算结果,确定多个用户的属性信息包括根据活跃度计算结果,将多个用户按预定数量的类别进行分类,以为多个用户中的每个用户标记相应的第一类别标识;根据交易评分计算结果,将多个用户按预定数量的类别进行分类,以为多个用户中的每个用户标记相应的第二类别标识;以及根据为每个用户标记的相应的第一类别标识和第二类别标识,确定每个用户的属性信息。可选地,根据包含在操作数样本中的操作数据,确定多个用户的属性信息包括按照预定规则对操作数样本中包含的操作数据进行过滤,以得到符合预定规则的有效操作数据;以及基于有效数据确定多个用户的属性信息。
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。
Claims (12)
1.一种数据处理方法,包括:
获取操作数样本,其中,所述操作数样本中包含多个用户操作对象而产生的操作数据;
根据包含在所述操作数样本中的所述操作数据,确定所述多个用户的属性信息,其中,所述属性信息用于表征不同用户在交易对象时所表现出来的区别特征;以及
根据确定出的所述多个用户的属性信息,对所述操作数样本所涉及的所述多个用户进行分流处理,得到应用于测试数据处理模型的多个用户数据样本,其中,每个所述用户数据样本中包含有对所述多个用户分流后得到的至少一个用户的用户信息。
2.根据权利要求1所述的方法,其中,根据包含在所述操作数样本中的所述操作数据,确定所述多个用户的属性信息包括:
从所述操作数样本中获取所述操作数据;
根据所述操作数据,按照第一预设算法计算所述多个用户的活跃度,其中,所述活跃度用于表征用户操作对象的活跃程度;以及
根据活跃度计算结果,确定所述多个用户的属性信息。
3.根据权利要求2所述的方法,其中,所述方法还包括:
根据所述操作数据,按照第二预设算法计算所述多个用户的交易评分,其中,所述交易评分用于表征用户交易对象的能力;以及
根据交易评分计算结果和所述活跃度计算结果,确定所述多个用户的属性信息。
4.根据权利要求3所述的方法,其中,根据交易评分计算结果和所述活跃度计算结果,确定所述多个用户的属性信息包括:
根据所述活跃度计算结果,将所述多个用户按预定数量的类别进行分类,以为所述多个用户中的每个用户标记相应的第一类别标识;
根据所述交易评分计算结果,将所述多个用户按所述预定数量的类别进行分类,以为所述多个用户中的每个用户标记相应的第二类别标识;以及
根据为所述每个用户标记的相应的第一类别标识和第二类别标识,确定所述每个用户的属性信息。
5.根据权利要求1所述的方法,其中,根据包含在所述操作数样本中的所述操作数据,确定所述多个用户的属性信息包括:
按照预定规则对所述操作数样本中包含的所述操作数据进行过滤,以得到符合所述预定规则的有效操作数据;以及
基于所述有效数据确定所述多个用户的属性信息。
6.一种数据处理系统,包括:
获取模块,用于获取操作数样本,其中,所述操作数样本中包含多个用户操作对象而产生的操作数据;
确定模块,用于根据包含在所述操作数样本中的所述操作数据,确定所述多个用户的属性信息,其中,所述属性信息用于表征不同用户在交易对象时所表现出来的区别特征;以及
处理模块,用于根据确定出的所述多个用户的属性信息,对所述操作数样本所涉及的所述多个用户进行分流处理,得到应用于测试数据处理模型的多个用户数据样本,其中,每个所述用户数据样本中包含有对所述多个用户分流后得到的至少一个用户的用户信息。
7.根据权利要求6所述的系统,其中,所述确定模块包括:
获取单元,用于从所述操作数样本中获取所述操作数据;
第一计算单元,用于根据所述操作数据,按照第一预设算法计算所述多个用户的活跃度,其中,所述活跃度用于表征用户操作对象的活跃程度;以及
第一确定单元,用于根据活跃度计算结果,确定所述多个用户的属性信息。
8.根据权利要求7所述的系统,其中,所述确定模块还包括:
第二计算单元,用于根据所述操作数据,按照第二预设算法计算所述多个用户的交易评分,其中,所述交易评分用于表征用户交易对象的能力;以及
第二确定单元,用于根据交易评分计算结果和所述活跃度计算结果,确定所述多个用户的属性信息。
9.根据权利要求8所述的系统,其中,所述第二确定单元包括:
第一分类子单元,用于根据所述活跃度计算结果,将所述多个用户按预定数量的类别进行分类,以为所述多个用户中的每个用户标记相应的第一类别标识;
第二分类子单元,用于根据所述交易评分计算结果,将所述多个用户按所述预定数量的类别进行分类,以为所述多个用户中的每个用户标记相应的第二类别标识;以及
确定子单元,用于根据为所述每个用户标记的相应的第一类别标识和第二类别标识,确定所述每个用户的属性信息。
10.根据权利要求6所述的系统,其中,所述确定模块包括:
过滤单元,用于按照预定规则对所述操作数样本中包含的所述操作数据进行过滤,以得到符合所述预定规则的有效操作数据;以及
第三确定单元,用于基于所述有效数据确定所述多个用户的属性信息。
11.一种计算机系统,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1至5中任一项所述的数据处理方法。
12.一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器实现权利要求1至5中任一项所述的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810227130.7A CN110288365A (zh) | 2018-03-19 | 2018-03-19 | 数据处理方法及系统、计算机系统和计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810227130.7A CN110288365A (zh) | 2018-03-19 | 2018-03-19 | 数据处理方法及系统、计算机系统和计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110288365A true CN110288365A (zh) | 2019-09-27 |
Family
ID=68000934
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810227130.7A Pending CN110288365A (zh) | 2018-03-19 | 2018-03-19 | 数据处理方法及系统、计算机系统和计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110288365A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112819531A (zh) * | 2021-01-30 | 2021-05-18 | 北京奇保信安科技有限公司 | 人群包的自定义上线方法、装置及电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101520878A (zh) * | 2009-04-03 | 2009-09-02 | 华为技术有限公司 | 向用户进行广告推送的方法、装置和系统 |
WO2012061301A1 (en) * | 2010-11-04 | 2012-05-10 | Alibaba Group Holding Limited | Data processing based on online transaction platform |
CN104936023A (zh) * | 2015-06-11 | 2015-09-23 | 嘉兴市广播电视集团 | 一种数字电视用户行为的大数据采集与分析方法及系统 |
CN105893253A (zh) * | 2016-03-29 | 2016-08-24 | 百度在线网络技术(北京)有限公司 | 应用软件测试方法、测试装置及测试设备 |
CN106934412A (zh) * | 2015-12-31 | 2017-07-07 | 中国科学院深圳先进技术研究院 | 一种用户行为分类方法及系统 |
CN107562793A (zh) * | 2017-08-01 | 2018-01-09 | 佛山市深研信息技术有限公司 | 一种大数据挖掘方法 |
-
2018
- 2018-03-19 CN CN201810227130.7A patent/CN110288365A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101520878A (zh) * | 2009-04-03 | 2009-09-02 | 华为技术有限公司 | 向用户进行广告推送的方法、装置和系统 |
WO2012061301A1 (en) * | 2010-11-04 | 2012-05-10 | Alibaba Group Holding Limited | Data processing based on online transaction platform |
CN104936023A (zh) * | 2015-06-11 | 2015-09-23 | 嘉兴市广播电视集团 | 一种数字电视用户行为的大数据采集与分析方法及系统 |
CN106934412A (zh) * | 2015-12-31 | 2017-07-07 | 中国科学院深圳先进技术研究院 | 一种用户行为分类方法及系统 |
CN105893253A (zh) * | 2016-03-29 | 2016-08-24 | 百度在线网络技术(北京)有限公司 | 应用软件测试方法、测试装置及测试设备 |
CN107562793A (zh) * | 2017-08-01 | 2018-01-09 | 佛山市深研信息技术有限公司 | 一种大数据挖掘方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112819531A (zh) * | 2021-01-30 | 2021-05-18 | 北京奇保信安科技有限公司 | 人群包的自定义上线方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104050187B (zh) | 搜索结果展示方法及系统 | |
CN107918905A (zh) | 异常交易识别方法、装置及服务器 | |
CN108985809A (zh) | 激励推送的方法、装置、电子设备和存储介质 | |
CN107463675B (zh) | 数据处理方法及其系统 | |
CN109460944A (zh) | 基于大数据的核保方法、装置、设备及可读存储介质 | |
CN109976997A (zh) | 测试方法和装置 | |
CN110019087A (zh) | 数据处理方法及其系统 | |
CN109933514A (zh) | 一种数据测试方法和装置 | |
CN107426328A (zh) | 信息推送方法和装置 | |
CN110377522A (zh) | 交易场景的测试方法、装置、计算设备以及介质 | |
CN108776692A (zh) | 用于处理信息的方法和装置 | |
CN107911449A (zh) | 用于推送信息的方法和装置 | |
CN110020112A (zh) | 对象推送方法及其系统 | |
CN109754272A (zh) | 网络广告的计费方法和系统 | |
CN107679916A (zh) | 用于获取用户兴趣度的方法及装置 | |
CN109685537A (zh) | 用户行为的分析方法、装置、介质和电子设备 | |
CN109102324B (zh) | 模型训练方法、基于模型的红包物料铺设预测方法及装置 | |
CN110443265A (zh) | 一种基于社团的行为检测方法和装置 | |
CN110570271A (zh) | 信息推荐方法、装置、电子设备及可读存储介质 | |
CN110288365A (zh) | 数据处理方法及系统、计算机系统和计算机可读存储介质 | |
CN110276566A (zh) | 信息输出方法和装置 | |
CN106920124A (zh) | 一种数据采集和分析方法及装置 | |
CN109977982A (zh) | 用户分类方法、系统、电子设备及计算机可读介质 | |
CN110766416A (zh) | 用于商家排序的方法、装置以及计算机系统和介质 | |
CN109634866A (zh) | 数据测试方法、装置、介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |