CN107590697A

CN107590697A - 数据处理方法及其系统

Info

Publication number: CN107590697A
Application number: CN201710844257.9A
Authority: CN
Inventors: 覃奇; 金姿; 林金明
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2017-09-18
Filing date: 2017-09-18
Publication date: 2018-01-16

Abstract

本公开提供了一种数据处理方法，该方法包括：获取目标操作数据，其中，目标操作数据包含真实对象对应用程序进行操作产生的真实操作数据或伪对象对应用程序进行操作产生的伪造操作数据；获取用于识别对象真伪的参考数据；以及利用参考数据识别对应用程序进行操作产生目标操作数据的对象的真伪，以对目标操作数据进行识别。本公开还提供了一种数据处理系统以及一种非易失性存储介质。

Description

数据处理方法及其系统

技术领域

本公开涉及数据处理领域，更具体地，涉及一种数据处理方法及其系统、以及一种非易失性存储介质。

背景技术

在竞争激烈的移动应用程序(Application，以下简称为APP)市场，生产商推广APP的需求越来越大。一般地，APP投入推广后，生产商会根据APP投放后实际产生的效果(如APP的新增激活量等)给予APP推广方相应的酬劳。为了增加推广收益，个别推广方可能会存在作弊行为，如使用模拟器进行刷量，即对设备的部分特征数据进行随机篡改和伪造，以达到增加虚假APP激活量的目的，造成生产商利益受损。因此需要全面、有效地识别出不同渠道中作弊设备批量集中的特征数据，将与识别出来的特征数据相对应的设备不予以推广结算。

为了降低生产商的经济损失，相关技术中提供了多种数据处理的方案来识别作弊设备。然而，在实现本公开构思的过程中，发明人发现相关技术中至少存在如下问题：无法从设备层面识别APP的新增激活的真伪。

针对相关技术中的上述问题，目前还未提出有效的解决方案。

发明内容

有鉴于此，本公开提供了一种数据处理方法及数据处理系统。

本公开一方面提供了一种数据处理方法，包括：获取目标操作数据，其中，上述目标操作数据包含真实对象对应用程序进行操作产生的真实操作数据或伪对象对上述应用程序进行操作产生的伪造操作数据；获取用于识别对象真伪的参考数据；以及利用上述参考数据识别对上述应用程序进行操作产生上述目标操作数据的对象的真伪，以对上述目标操作数据进行识别。

根据本公开的实施例，获取用于识别对象真伪的参考数据包括：获取对上述应用程序进行操作的多个对象的特征参数，其中，上述多个对象包含上述真实对象和上述伪对象；以及将上述特征参数中满足第一预设条件的特征参数确定为上述用于识别对象真伪的参考数据。

根据本公开的实施例，上述特征参数包括多个特征参数，将上述特征参数中满足第一预设条件的特征参数确定为上述用于识别对象真伪的参考数据包括：计算上述多个特征参数中每个特征参数的信息熵；判断计算得到的上述每个特征参数的信息熵中是否存在小于等于第一阈值的信息熵；以及若上述特征参数的信息熵中存在小于等于第一阈值的信息熵，则将该信息熵对应的特征参数确定为上述用于识别对象真伪的参考数据。

根据本公开的实施例，若上述特征参数的信息熵中存在小于等于第一阈值的信息熵，则将该信息熵对应的特征参数确定为上述用于识别对象真伪的参考数据包括：确定该信息熵对应的各特征名称；计算与上述各特征名称中的每个特征名称对应的特征值的信息增益值；以及将信息增益值最大的特征值以及与该特征值对应的特征名称确定为上述用于识别对象真伪的参考数据。

根据本公开的实施例，将信息增益值最大的特征值以及与该特征值对应的特征名称确定为上述用于识别对象真伪的参考数据包括：确定上述各对象中特征值满足信息增益值最大条件的对象的对象数量；判断上述对象数量是否满足第二阈值；以及若上述对象数量满足第二阈值，则将信息增益值最大的特征值以及与该特征值对应的特征名称确定为上述用于识别对象真伪的参考数据。

根据本公开的实施例，若上述对象数量满足第二阈值，则将信息增益值最大的特征值以及与该特征值对应的特征名称确定为上述用于识别对象真伪的参考数据包括：在上述对象数量满足上述第二阈值的情况下，确定上述各特征名称对应的特征值中满足信息增益值最大条件的特征值的权重值；根据上述各特征名称对应的特征值中满足信息增益值最大条件的特征值和上述权重值进行计算；以及将计算结果满足第二预设条件的特征值及其对应的特征名称确定为上述用于识别对象真伪的参考数据。

根据本公开的实施例，利用上述参考数据识别对上述应用程序进行操作产生上述目标操作数据的对象的真伪，以对上述目标操作数据进行识别之后，上述方法还包括：在指定区域展示用于识别对象真伪的参考数据。

本公开的另一方面还提供了一种数据处理系统，包括：第一获取模块，用于获取目标操作数据，其中，上述目标操作数据包含真实对象对应用程序进行操作产生的真实操作数据或伪对象对上述应用程序进行操作产生的伪造操作数据；第二获取模块，用于获取用于识别对象真伪的参考数据；以及识别模块，用于利用上述参考数据识别对上述应用程序进行操作产生上述目标操作数据的对象的真伪，以对上述目标操作数据进行识别。

根据本公开的实施例，上述第二获取模块包括：获取单元，用于获取对上述应用程序进行操作的多个对象的特征参数，其中，上述多个对象包含上述真实对象和上述伪对象；以及确定单元，用于将上述特征参数中满足第一预设条件的特征参数确定为上述用于识别对象真伪的参考数据。

根据本公开的实施例，上述确定单元包括：计算子单元，用于计算上述多个特征参数中每个特征参数的信息熵；判断子单元，用于判断计算得到的上述每个特征参数的信息熵中是否存在小于等于第一阈值的信息熵；以及确定子单元，用于在上述特征参数的信息熵中存在小于等于第一阈值的信息熵的情况下，将该信息熵对应的特征参数确定为上述用于识别对象真伪的参考数据。

根据本公开的实施例，上述确定单元还用于：确定该信息熵对应的各特征名称；计算与上述各特征名称中的每个特征名称对应的特征值的信息增益值；以及将信息增益值最大的特征值以及与该特征值对应的特征名称确定为上述用于识别对象真伪的参考数据。

根据本公开的实施例，上述确定单元还用于：确定上述各对象中特征值满足信息增益值最大条件的对象的对象数量；判断上述对象数量是否满足第二阈值；以及若上述对象数量满足第二阈值，则将信息增益值最大的特征值以及与该特征值对应的特征名称确定为上述用于识别对象真伪的参考数据。

根据本公开的实施例，上述确定单元还用于：在上述对象数量满足上述第二阈值的情况下，确定上述各特征名称对应的特征值中满足信息增益值最大条件的特征值的权重值；根据上述各特征名称对应的特征值中满足信息增益值最大条件的特征值和上述权重值进行计算；以及将计算结果满足第二预设条件的特征值及其对应的特征名称确定为上述用于识别对象真伪的参考数据。

根据本公开的实施例，上述系统还包括：展示模块，用于在利用所述参考数据识别对所述应用程序进行操作产生所述目标操作数据的对象的真伪，以对所述目标操作数据进行识别之后，在指定区域展示用于识别对象真伪的参考数据。

本公开的另一方面还提供了一种非易失性存储介质，存储有计算机可执行指令，上述指令在被处理器执行时用于实现任一项上述的数据处理方法。

本公开的另一方面还提供了一种数据处理系统，包括：存储器，用于存储计算机可执行指令；以及处理器，用于执行上述指令以实现任一项上述的数据处理方法。

根据本公开的实施例，由于利用参考数据识别对应用程序进行操作产生目标操作数据的对象的真伪，对目标操作数据进行识别，可以至少部分地克服相关技术提供的方案无法从设备层面识别APP的新增激活的真伪的技术问题。

附图说明

通过以下参照附图对本公开实施例的描述，本公开的上述以及其他目的、特征和优点将更为清楚，在附图中：

图1示意性示出了根据本公开实施例的可以应用数据处理及其系统的示例性系统架构；

图2示意性示出了根据本公开实施例的数据处理方法的流程图；

图3A示意性示出了根据本公开实施例的获取用于识别对象真伪的参考数据的流程图；

图3B示意性示出了根据本公开实施例的将特征参数中满足第一预设条件的特征参数确定为用于识别对象真伪的参考数据的流程图；

图3C示意性示出了根据本公开实施例的在特征参数的信息熵中存在小于等于第一阈值的信息熵，则将该信息熵对应的特征参数确定为用于识别对象真伪的参考数据的流程图；

图3D示意性示出了根据本公开实施例的将信息增益值最大的特征值以及与该特征值对应的特征名称确定为用于识别对象真伪的参考数据的流程图；

图3E示意性示出了根据本公开实施例的若对象数量满足第二阈值，则将信息增益值最大的特征值以及与该特征值对应的特征名称确定为用于识别对象真伪的参考数据的流程图；

图4示意性示出了根据本公开实施例的数据处理系统的框图；

图5A示意性示出了根据本公开实施例的第二获取模块的框图；

图5B示意性示出了根据本公开实施例的确定单元的框图；以及

图6示意性示出了应用本公开实施例的适于实现数据处理方法及其系统的计算机系统的框图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。这里使用的词语“一”、“一个(种)”和“该”等也应包括“多个”、“多种”的意思，除非上下文另外明确指出。此外，在此使用的术语“包括”、“包含”等表明了特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

本公开的实施例提供了一种数据处理方法及其系统。该数据处理方法包括数据获取过程和数据处理过程。在数据获取过程中，一方面要获取目标操作数据，其中，目标操作数据包含真实对象对应用程序进行操作产生的真实操作数据或伪对象对应用程序进行操作产生的伪造操作数据，另一方面要获取用于识别对象真伪的参考数据。在完成数据获取过程之后，开始进入数据处理过程，即利用参考数据识别对应用程序进行操作产生目标操作数据的对象的真伪，以对目标操作数据进行识别。

图1示意性示出了根据本公开实施例的可以应用数据处理及其系统的示例性系统架构。

如图1所示，根据该实施例的系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等，在此不再赘述。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对用户利用终端设备101、102、103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理，并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。

需要说明的是，本公开实施例所提供的数据处理方法一般可以由服务器105执行。相应地，本公开实施例所提供的数据处理系统一般可以设置于服务器105中。本公开实施例所提供的数据处理方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地，本公开实施例所提供的数据处理系统也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。

例如，服务器105除了获取包含真实对象对应用程序进行操作产生的真实操作数据或伪对象对应用程序进行操作产生的伪造操作数据的目标操作数据之外，还要获取用于识别对象真伪的参考数据，利用参考数据识别对应用程序进行操作产生目标操作数据的对象的真伪，以对目标操作数据进行识别。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

在推广APP的过程中，个别推广方为了增加推广收益，可能会作弊以达到增加APP激活量的目的，例如使用模拟器进行刷量，即对设备的部分特征数据进行随机篡改和伪造，以达到增加APP激活量的目的，这样会造成生产商利益受损。若能全面、有效地识别出不同渠道中作弊设备批量集中的特征数据，对与识别出来的特征数据相对应的设备操作所产生的虚假APP激活量不予以推广结算，将能降低生产商的经济损失。

本公开的实施例提供了一种数据处理方法。该方法包括获取目标操作数据，其中，目标操作数据包含真实对象对应用程序进行操作产生的真实操作数据或伪对象对应用程序进行操作产生的伪造操作数据；获取用于识别对象真伪的参考数据；以及利用参考数据识别对应用程序进行操作产生目标操作数据的对象的真伪，以对目标操作数据进行识别。

图2示意性示出了根据本公开实施例的数据处理方法的流程图。

如图2所示，该方法可以包括操作S201～操作S203，其中：

在操作S201，获取目标操作数据，其中，目标操作数据包含真实对象对应用程序进行操作产生的真实操作数据或伪对象对应用程序进行操作产生的伪造操作数据。

需要说明的是，操作可以是对象对应用程序执行的各种操作，这些操作产生的操作数据可用于衡量某一应用程序的推广效果，同时可作为生产商给予推广方结算的依据，此处操作可以包括但不限于下载、激活、注册、登陆等。

目标操作数据可以是待识别的操作数据，操作数据是由对象对应用程序进行操作产生的数据，可以是真实对象对应用程序进行操作产生的真实操作数据，也可以是伪对象对应用程序进行操作产生的伪造操作数据。例如，可以包括但不限于真实对象对应用程序进行操作产生的真实的下载量、激活量、注册量、登陆量等，也可以包括但不限于伪对象对应用程序进行操作产生的伪造的下载量、激活量、注册量、登陆量等。

对象可以是对应用程序进行操作的设备，此处的设备可以是真实的设备，也可以是伪设备(也称为作弊设备)。每个设备都有自己的相关信息，例如可以是描述设备相关信息的特征名及特征值，其中，特征名包括但不限于设备型号、芯片型号、系统版本号、系统运行内存、总容量等等，特征值是特征对应的数值或类型值，例如可以是安卓系统5.0，系统内存4G，总容量32G等等，在此不做限定。通常对真实设备的部分特征随机篡改和伪造生成伪设备。对同一推广渠道中的设备来说，一般情况下，由于不同的真实设备其特征是随机出现的，存在多样性即不具有规律性，各个特征呈现出一种较为混乱的状态，但是不同的伪设备部分特征数据是随机篡改和伪造的，因此其特征是批量集中出现的，往往具有明显的规律性，基于这个规律，利用参考数据对产生伪造数据的伪对象进行识别。例如，如果对设备的运行内存和总容量进行了篡改，那么运行内存和总容量就会表现出批量集中的特征。具体的篡改方式有多种，可以包括但不限于各种使用技术手段，篡改和伪造设备特征，达到一台设备模拟多台设备的目的。对不同推广渠道中的设备来说，一般情况下，特征批量集中的现象可能相同，也可能不同，在此不做限定。

应用程序可以是移动应用程序，例如可以是安装在移动设备上的各种客户端应用程序，包括但不限于购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等，在此不再赘述。

在操作S202，获取用于识别对象真伪的参考数据。

需要说明的是，参考数据是用来识别设备真伪的数据，可以包括但不限于设备的特征及特征值，从获取的真实设备对应用程序进行操作产生的真实操作数据和伪设备对应用程序进行操作产生的伪造操作数据中，确定用于识别设备真伪的参考数据。由于参考数据可以反映设备批量集中表现的特征及特征值，利用参考数据即可识别出设备的真伪，根据识别出的设备的真伪，进一步可以识别出操作数据的真伪。

在操作S203，利用参考数据识别对应用程序进行操作产生目标操作数据的对象的真伪，以对目标操作数据进行识别。

需要说明的是，在利用识别对象真伪的参考数据识别出对象的真伪后，即可确定伪对象对应用程序进行操作产生的伪造操作数据以及真实对象对应用程序进行操作产生的真实操作数据。

通过本公开的实施例，由于参考数据可以反映设备批量集中表现的特征及特征值，而伪设备的特征及特征值表现为批量集中的特征，因此采用参考数据识别设备的真伪，进而对目标操作数据进行识别的技术方案，可以至少部分地克服相关技术提供的技术方案无法从设备层面识别目标操作数据真伪的技术问题。

图3A示意性示出了根据本公开实施例的获取用于识别对象真伪的参考数据的流程图。

如图3A所示，在本公开实施例中，上述获取用于识别对象真伪的参考数据可以包括操作S301～操作S302，其中：

在操作S301，获取对应用程序进行操作的多个对象的特征参数，其中，多个对象包含真实对象和伪对象。

在操作S302，将特征参数中满足第一预设条件的特征参数确定为用于识别对象真伪的参考数据。

获取用于识别对象真伪的参考数据包括获取对应用程序进行操作的多个真实对象和伪对象的特征参数，包括但不限于设备自身属性的特征及特征值，从特征参数中选择满足第一预设条件的特征参数为用于识别对象真伪的参考数据。

需要说明的是，在获取对应用程序进行操作的多个真实对象和伪对象的特征参数之后，从特征参数中选择满足第一预设条件的特征参数作为识别对象真伪的参考数据之前，对特征参数进行预处理和初步筛选，其中，预处理可以包括数据清洗，例如对缺失数据的填充，还可以包括排除具有显著异常特征的设备，例如针对安卓系统的应用程序来说，除安卓之外的其他系统的设备就是具有显著异常特征的设备；初步筛选可以包括筛选出有实际使用价值的部分特征数据作为参考数据的数据基础，例如对于安卓系统的应用程序来说，具有除安卓之外的其他系统的设备的特征数据就是没有使用价值的特征数据。

在对特征参数进行预处理和初步筛选完成之后，从特征参数中选择满足第一预设条件的特征参数为用于识别对象真伪的参考数据。参考数据可以包括但不限于特征名称及其与特征名称相对应的特征值，在此不做限定。

通过本公开的实施例，由于参考数据可以反映设备批量集中表现的特征及特征值，而伪设备的特征及特征值表现为批量集中的特征，因此采用从设备的特征参数中选择满足第一预设条件的特征参数确定为用于识别设备真伪的参考数据的方案，可以至少克服相关技术提供的技术方案中无法从设备层面识别伪设备的技术问题。

图3B示意性示出了根据本公开实施例的将特征参数中满足第一预设条件的特征参数确定为用于识别对象真伪的参考数据的流程图。

如图3B所示，在本公开实施例中，由于特征参数可以包括多个特征参数，因此，对应的，将特征参数中满足第一预设条件的特征参数确定为用于识别对象真伪的参考数据可以包括操作S401～操作S403，其中：

在操作S401，计算多个特征参数中每个特征参数的信息熵。

在操作S402，判断计算得到的每个特征参数的信息熵中是否存在小于等于第一阈值的信息熵。

在操作S403，若特征参数的信息熵中存在小于等于第一阈值的信息熵，则将该信息熵对应的特征参数确定为用于识别对象真伪的参考数据。

以下将以某一渠道激活设备的特征数据为例，对本公开的实施例进行详细阐述。

需要说明的是，本公开实施例用信息熵来量化各个特征内部的混乱程度，信息熵越小则意味着特征内部越集中，混乱程度越低。

例如，假设第k个特征：C_k，其中k＝1，2，...n。

第i个特征的第j个特征值：P_ij，其中i＝1，2，...n；j＝1，2，...m。

通过以下公式计算特征内部的混乱程度。

其中，H(C_k)为第k个特征的信息熵，表示特征内部的混乱程度，p_i为特征值P_ki的频率。在计算得出各特征内部的信息熵时候，结合实际情况，设定阈值，若特征的信息熵小于等于该阈值，则判定该特征的信息熵满足第一预设条件，筛选出信息熵小于等于该阈值即具有较高集中度的特征作为识别对象真伪的参考数据。

通过本公开的实施例，利用信息熵量化了特征内部的混乱程度，选择信息熵满足预设条件的信息熵对应的特征参数作为用于识别对象真伪的参考数据，从设备层面实现了对其特征参数中特征名的识别，能提高目标操作数据识别的准确度。

图3C示意性示出了根据本公开实施例的若特征参数的信息熵中存在小于等于第一阈值的信息熵，则将该信息熵对应的特征参数确定为用于识别对象真伪的参考数据的流程图。

如图3C所示，在本公开实施例中，若上述特征参数的信息熵中存在小于等于第一阈值的信息熵，则将该信息熵对应的特征参数确定为用于识别对象真伪的参考数据可以包括操作S501～操作S503，其中：

在操作S501，确定该信息熵对应的各特征名称。

在操作S502，计算与各特征名称中的每个特征名称对应的特征值的信息增益值。

在操作S503，将信息增益值最大的特征值以及与该特征值对应的特征名称确定为用于识别对象真伪的参考数据。

需要说明的是，本公开实施例计算特征值的信息增益来量化各个特征最有代表性的特征值。特征的信息增益越大，表示该特征值越能代表该特征。本公开实施例选择特征中信息增益最大的特征值，即可获得最能代表该特征的特征值。

IG(P_ij)＝H(C_i)-H(C_i|P_ij)＝H(C_i)-(p_j·H(C_i|t)+(1-p_j)·H(C_i|t′))

其中，H(C_i|P_ij)表示特征值P_ij相对于特征C_k的条件信息熵，H(C_i|t)表示是该特征值的熵，H(C_i|t′)表示不是该特征值的熵，p_j为特征值P_ij的频率，特征的信息增益IG(P_ij)越大，表示该特征值越能代表该特征，结合实际情况，取特征中信息增益最大的属性，作为该特征中代表性的特征值。

通过本公开的实施例，利用信息增益量化了特征内部最有代表性的特征值，作为用于识别对象真伪的参考数据，从设备层面实现了对其特征参数中最能代表某一特征的特征值的识别，能提高目标操作数据识别的准确度。

图3D示意性示出了根据本公开实施例的将信息增益值最大的特征值以及与该特征值对应的特征名称确定为用于识别对象真伪的参考数据的流程图。

如图3D所示，在本公开实施例中，将信息增益值最大的特征值以及与该特征值对应的特征名称确定为所述用于识别对象真伪的参考数据可以包括操作S601～操作S603，其中：

在操作S601，确定各对象中特征值满足信息增益值最大条件的对象的对象数量。

在操作S602，判断对象数量是否满足第二阈值。

在操作S603，若对象数量满足第二阈值，则将信息增益值最大的特征值以及与该特征值对应的特征名称确定为用于识别对象真伪的参考数据。

需要说明的是，由于筛选出的特征值在设备量数量级上可能存在较大差异，因此需要进行极值处理，以得出相对稳定的特征值。

例如，假设筛选出的第i个特征的特征值的设备量为N_ij；

N为筛选出的特征数量，显然N＜n；

则第i个特征的总设备量：

所有筛选出的特征的平均设备量：

所有特征的设备量标准差：

欲使筛选出的特征在设备量上具有较为稳定的表现，特征的设备量满足其中M为根据实际情况采用的标准差σ的倍数。

通过本公开的实施例，在筛选出特征名和特征值的基础上，对具有上述特征名和特征值的设备量进行极值处理，进一步筛选出在设备量上具有较为稳定的表现，从设备层面实现了对其特征参数在设备量上的识别，能进一步提高目标操作数据识别的准确度。

图3E示意性示出了根据本公开实施例的若对象数量满足第二阈值，则将信息增益值最大的特征值以及与该特征值对应的特征名称确定为用于识别对象真伪的参考数据的流程图。

如图3E所示，在本公开实施例中，若对象数量满足第二阈值，则将信息增益值最大的特征值以及与该特征值对应的特征名称确定为用于识别对象真伪的参考数据可以包括操作S701～操作S703，其中：

在操作S701，在对象数量满足第二阈值的情况下，确定各特征名称对应的特征值中满足信息增益值最大条件的特征值的权重值。

在操作S702，根据各特征名称对应的特征值中满足信息增益值最大条件的特征值和权重值进行计算。

在操作S703，将计算结果满足第二预设条件的特征值及其对应的特征名称确定为用于识别对象真伪的参考数据.

需要说明的是，在对具备筛选出的特征和特征值的设备做极值处理之后，可以获取较高集中度的组合特征值，但是在应用中发现，可能会存在组合特征值数量少或偏向于特征属性类别较少的特征(如系统版本等)，为了进一步提高识别的准确率，对组合特征进行加权处理，筛选出最终可用的组合特征。

假设第i个特征的权重为W_i，i＝1，2，...n。

权重值可根据具体筛选的特征结合业务赋值，或者由各个特征的信息熵进行归一化处理得到的。

结合业务的数据进行分析归纳和总结，最终对s给予一定的阈值，当s大于该阈值时，则将该组合特征作为识别该渠道伪设备的参考数据。

通过本公开的实施例，对筛选出的特征进行加权处理，避免筛选出的组合特征数量少造成的误判率高的技术问题，进一步提高识别的准确率。

根据本公开的实施例，在利用参考数据识别对应用程序进行操作产生目标操作数据的对象的真伪，以对目标操作数据进行识别之后，该方法还可以包括在指定区域展示用于识别对象真伪的参考数据。

需要说明的是，将计算得到的特征组合作为识别伪设备的参考数据，与目标操作数据的设备特征参数进行完全匹配，若目标操作数据的设备特征参数符合识别伪设备的参考数据，则确定目标操作数据是伪对象对所述应用程序进行操作产生的伪造操作数据。

同时，在指定区域展示伪设备的特征参数，可以包括但不限于概览页面和详情页面，其中，概览页面集中展示各个渠道识别的伪设备特征情况及加权处理得到的s值，详情页面则展示每一个伪设备特征具体的计算过程。

通过本公开的是实施例，由于将各渠道中伪设备的组合特征在指定区域进行展示，使得伪设备的参数信息更加直观的展现在面前，非常方便用户利用识别伪设备的参考数据对其他设备的真伪识别提供参考数据。

图4示意性示出了根据本公开实施例的数据处理系统的框图。

如图4所示，数据处理系统400可以包括第一获取模块401、第二获取模块402、识别模块403。

第一获取模块401用于获取目标操作数据，其中，目标操作数据包含真实对象对应用程序进行操作产生的真实操作数据或伪对象对应用程序进行操作产生的伪造操作数据。

第二获取模块402用于获取用于识别对象真伪的参考数据。

识别模块403用于利用参考数据识别对应用程序进行操作产生目标操作数据的对象的真伪，以对目标操作数据进行识别。

图5A示意性示出了根据本公开实施例的第二获取模块的框图。

如图5A所示，第二获取模块402可以包括获取单元501、确定单元502。

获取单元501用于获取对应用程序进行操作的多个对象的特征参数，其中，多个对象包含真实对象和伪对象。

确定单元502用于将特征参数中满足第一预设条件的特征参数确定为用于识别对象真伪的参考数据。

图5B示意性示出了根据本公开实施例的确定单元的框图。

如图5B所示，确定单元403可以包括计算子单元601、判断子单元602、确定子单元603。

计算子单元601用于计算多个特征参数中每个特征参数的信息熵。

判断子单元602用于判断计算得到的每个特征参数的信息熵中是否存在小于等于第一阈值的信息熵。

确定子单元603用于在特征参数的信息熵中存在小于等于第一阈值的信息熵的情况下，将该信息熵对应的特征参数确定为用于识别对象真伪的参考数据。

例如，假设第k个特征：C_k，其中k＝1，2，...n。

通过以下公式计算特征内部的混乱程度。

根据本公开的实施例，确定单元还用于：确定该信息熵对应的各特征名称；计算与各特征名称中的每个特征名称对应的特征值的信息增益值；以及将信息增益值最大的特征值以及与该特征值对应的特征名称确定为用于识别对象真伪的参考数据。

根据本公开的实施例，确定单元还用于：确定各对象中特征值满足信息增益值最大条件的对象的对象数量；判断对象数量是否满足第二阈值；以及若对象数量满足第二阈值，则将信息增益值最大的特征值以及与该特征值对应的特征名称确定为用于识别对象真伪的参考数据。

根据本公开的实施例，确定单元还用于：在对象数量满足第二阈值的情况下，确定各特征名称对应的特征值中满足信息增益值最大条件的特征值的权重值；根据各特征名称对应的特征值中满足信息增益值最大条件的特征值和权重值进行计算；以及将计算结果满足第二预设条件的特征值及其对应的特征名称确定为用于识别对象真伪的参考数据。

根据本公开的实施例，系统还包括展示模块，用于在利用参考数据识别对应用程序进行操作产生目标操作数据的对象的真伪，以对目标操作数据进行识别之后，在指定区域展示用于识别对象真伪的参考数据。

通过本公开的实施例，由于将各渠道中伪设备的组合特征在指定区域进行展示，使得伪设备的参数信息更加直观的展现在指定区域，非常方便用户利用识别伪设备的参考数据对其他设备的真伪识别提供参考数据。

需要说明的是，本公开实施例的数据处理方法与数据处理系统是相对应的，对于该数据处理系统的描述可以参考根据本公开实施例的数据处理方法的描述，在此不再赘述。

根据本公开的实施例，提供了一种非易失性存储介质，存储有计算机可执行指令，指令在被处理器执行时用于实现如上的数据处理方法。

根据本公开的实施例，提供了一种数据处理系统，包括：存储器，用于存储计算机可执行指令；以及处理器，用于执行指令以实现如上的数据处理方法。

图6示意性示出了应用本公开实施例的适于实现数据处理方法及其系统的计算机系统的框图。图6示出的计算机系统仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图6所示，根据本公开实施例的计算机系统700包括处理器701，其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。处理器701例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))，等等。处理器701还可以包括用于缓存用途的板载存储器。处理器701可以包括用于执行参考图2～图3E描述的根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在RAM 703中，存储有系统700操作所需的各种程序和数据。处理器701、ROM 702以及RAM 703通过总线704彼此相连。处理器701通过执行ROM 702和/或RAM 703中的程序来执行以上参考图2～图3E描述的数据处理的各种操作。需要注意，程序也可以存储在除ROM702和RAM 703以外的一个或多个存储器中。处理器701也可以通过执行存储在一个或多个存储器中的程序来执行以上参考图2～图3E描述的数据处理的各种操作。

根据本公开的实施例，系统700还可以包括输入/输出(I/O)接口705，输入/输出(I/O)接口705也连接至总线704。系统700还可以包括连接至I/O接口705的以下部件中的一项或多项：包括键盘、鼠标等的输入部分706；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。

根据本公开的实施例，上文参考流程图描述的方法可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分709从网络上被下载和安装，和/或从可拆卸介质711被安装。在该计算机程序被处理器701执行时，执行本公开实施例的系统中限定的上述功能。根据本公开的实施例，上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。

需要说明的是，本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。根据本公开的实施例，计算机可读介质可以包括上文描述的ROM 702和/或RAM 703和/或ROM 702和RAM 703以外的一个或多个存储器。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

作为另一方面，本公开还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备执行上述任一项数据处理方法。

以上对本公开的实施例进行了描述。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本公开的范围。尽管在以上分别描述了各实施例，但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本公开的范围之内。

Claims

1.一种数据处理方法，包括：

获取目标操作数据，其中，所述目标操作数据包含真实对象对应用程序进行操作产生的真实操作数据或伪对象对所述应用程序进行操作产生的伪造操作数据；

获取用于识别对象真伪的参考数据；以及

利用所述参考数据识别对所述应用程序进行操作产生所述目标操作数据的对象的真伪，以对所述目标操作数据进行识别。

2.根据权利要求1所述的方法，其中，获取用于识别对象真伪的参考数据包括：

获取对所述应用程序进行操作的多个对象的特征参数，其中，所述多个对象包含所述真实对象和所述伪对象；以及

将所述特征参数中满足第一预设条件的特征参数确定为所述用于识别对象真伪的参考数据。

3.根据权利要求2所述的方法，其中，所述特征参数包括多个特征参数，将所述特征参数中满足第一预设条件的特征参数确定为所述用于识别对象真伪的参考数据包括：

计算所述多个特征参数中每个特征参数的信息熵；

判断计算得到的所述每个特征参数的信息熵中是否存在小于等于第一阈值的信息熵；以及

若所述特征参数的信息熵中存在小于等于第一阈值的信息熵，则将该信息熵对应的特征参数确定为所述用于识别对象真伪的参考数据。

4.根据权利要求3所述的方法，其中，若所述特征参数的信息熵中存在小于等于第一阈值的信息熵，则将该信息熵对应的特征参数确定为所述用于识别对象真伪的参考数据包括：

确定该信息熵对应的各特征名称；

计算与所述各特征名称中的每个特征名称对应的特征值的信息增益值；以及

将信息增益值最大的特征值以及与该特征值对应的特征名称确定为所述用于识别对象真伪的参考数据。

5.根据权利要求4所述的方法，其中，将信息增益值最大的特征值以及与该特征值对应的特征名称确定为所述用于识别对象真伪的参考数据包括：

确定所述各对象中特征值满足信息增益值最大条件的对象的对象数量；

判断所述对象数量是否满足第二阈值；以及

若所述对象数量满足第二阈值，则将信息增益值最大的特征值以及与该特征值对应的特征名称确定为所述用于识别对象真伪的参考数据。

6.根据权利要求5所述的方法，其中，若所述对象数量满足第二阈值，则将信息增益值最大的特征值以及与该特征值对应的特征名称确定为所述用于识别对象真伪的参考数据包括：

在所述对象数量满足所述第二阈值的情况下，确定所述各特征名称对应的特征值中满足信息增益值最大条件的特征值的权重值；

根据所述各特征名称对应的特征值中满足信息增益值最大条件的特征值和所述权重值进行计算；以及

将计算结果满足第二预设条件的特征值及其对应的特征名称确定为所述用于识别对象真伪的参考数据。

7.根据权利要求1至6中任一项所述的方法，其中，在利用所述参考数据识别对所述应用程序进行操作产生所述目标操作数据的对象的真伪，以对所述目标操作数据进行识别之后，所述方法还包括：

在指定区域展示用于识别对象真伪的参考数据。

8.一种数据处理系统，包括：

第一获取模块，用于获取目标操作数据，其中，所述目标操作数据包含真实对象对应用程序进行操作产生的真实操作数据或伪对象对所述应用程序进行操作产生的伪造操作数据；

第二获取模块，用于获取用于识别对象真伪的参考数据；以及

识别模块，用于利用所述参考数据识别对所述应用程序进行操作产生所述目标操作数据的对象的真伪，以对所述目标操作数据进行识别。

9.根据权利要求8所述的系统，其中，所述第二获取模块包括：

获取单元，用于获取对所述应用程序进行操作的多个对象的特征参数，其中，所述多个对象包含所述真实对象和所述伪对象；以及

确定单元，用于将所述特征参数中满足第一预设条件的特征参数确定为所述用于识别对象真伪的参考数据。

10.根据权利要求9所述的系统，其中，所述确定单元包括：

计算子单元，用于计算所述多个特征参数中每个特征参数的信息熵；

判断子单元，用于判断计算得到的所述每个特征参数的信息熵中是否存在小于等于第一阈值的信息熵；以及

确定子单元，用于在所述特征参数的信息熵中存在小于等于第一阈值的信息熵的情况下，将该信息熵对应的特征参数确定为所述用于识别对象真伪的参考数据。

11.根据权利要求10所述的系统，其中，所述确定单元还用于：

确定该信息熵对应的各特征名称；

12.根据权利要求11所述的系统，其中，所述确定单元还用于：

判断所述对象数量是否满足第二阈值；以及

13.根据权利要求12所述的系统，其中，所述确定单元还用于：

14.根据权利要求8至13中任一项所述的系统，其中，所述系统还包括：

展示模块，用于在利用所述参考数据识别对所述应用程序进行操作产生所述目标操作数据的对象的真伪，以对所述目标操作数据进行识别之后，在指定区域展示用于识别对象真伪的参考数据。

15.一种非易失性存储介质，存储有计算机可执行指令，所述指令在被处理器执行时用于实现权利要求1至7中任一项所述的数据处理方法。

16.一种数据处理系统，包括：

存储器，用于存储计算机可执行指令；以及

处理器，用于执行所述指令以实现权利要求1至7中任一项所述的数据处理方法。