CN110032837A

CN110032837A - 一种数据处理的方法、装置、设备及存储介质

Info

Publication number: CN110032837A
Application number: CN201910311638.XA
Authority: CN
Inventors: 梁刚强; 熊婷; 郭诗雨
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-04-17
Filing date: 2019-04-17
Publication date: 2019-07-19

Abstract

本申请公开了一种数据处理的方法，包括：获取第一数据集和第二数据集，第一数据集中包括C个第一场景数据，第二数据集中包括D个第二场景数据，C为大于0的整数，D为大于0的整数；根据第一数据集中的C个第一场景数据生成第一场景树，根据第二数据集中的D个第二场景数据生成第二场景树；确定第一场景树与第二场景树的场景相似度；根据第一场景树与第二场景树的场景相似度，确定第一数据集第二数据集的数据集相似度。本申请技术方案可以通过构建统一场景树的方式对不同的数据集进行相似度检测，可以提高相似度检测的准确性。

Description

一种数据处理的方法、装置、设备及存储介质

技术领域

本申请涉及计算机技术领域，具体涉及一种数据处理的方法、装置、设备及存储介质。

背景技术

随着互联网的发展，信息获取的渠道越来越多，网络上盗取别人已有成果变得相对简单。以游戏侵权为例，A公司发布一个新游戏产品M后，B公司就可以获取该游戏产品在运行过程中的界面内容，就可以通过游戏运行过程中的逻辑大体推理出游戏代码，进而就可以制作出一个与A公司所发布的新游戏产品相近似的游戏产品H。

A公司若是要诉讼B公司的游戏产品H侵犯了游戏产品M的权利，则需要提供游戏产品H与游戏产品M相似的证据，目前在侵权过程中针对两款游戏产品的检测主要从代码、用户界面(user interface，UI)、资源等方面来进行。代码通过代码字符串、语法分析、调用关系等层面来进行静态分析，从而计算相似度。UI和资源检查则是通过游戏具体展现出来的UI中的内容、图像、颜色、画面轮廓等方法来判断。

当前，基于代码的相似度检测容易受到代码混淆，以及公共库的干扰，容易漏判，而从UI和资源检查方面的检测则容易被规避，且规避成本小。因此，可以准确检测不同数据集相似度的问题亟待解决。

发明内容

本申请实施例提供一种数据处理的方法，可以通过构建统一场景树的方式对不同的数据集进行相似度检测，可以提高相似度检测的准确性。

本申请第一方面提供一种数据处理的方法，包括：

获取目标场景数据，所述目标场景数据为待检测数据集合中目标场景所关联的数据，所述目标场景数据包括多个对象和与所述多个对象关联的P个第一属性信息，所述P为大于1的整数；

按照预配置的对象属性分类规则，对所述P个第一属性信息进行处理，以得到Q个第二属性信息，所述对象属性分类规则中包括对象的属性分类；

将所述Q个第二属性信息按照所述对象的属性分类划分到所述多个对象中各对象下，所述Q为大于1的整数；

根据所述各对象之间的关联关系，为所述目标场景数据生成目标场景树。

本申请第二方面提供一种数据处理的方法，包括：

获取第一数据集和第二数据集，所述第一数据集中包括C个第一场景数据，所述第二数据集中包括D个第二场景数据，所述C为大于0的整数，所述D为大于0的整数；

根据所述第一数据集中的C个第一场景数据生成第一场景树，根据所述第二数据集中的D个第二场景数据生成第二场景树；

确定所述第一场景树与所述第二场景树的场景相似度；

根据所述第一场景树与所述第二场景树的场景相似度，确定所述第一数据集和所述第二数据集的数据集相似度。

本申请第三方面提供一种数据处理的装置，包括：

获取模块，用于获取目标场景数据，所述目标场景数据为待检测数据集合中目标场景所关联的数据，所述目标场景数据包括多个对象和与所述多个对象关联的P个第一属性信息，所述P为大于1的整数；

处理模块，用于按照预配置的对象属性分类规则，对所述获取模块获取的所述P个第一属性信息进行处理，以得到Q个第二属性信息，所述对象属性分类规则中包括对象的属性分类；

划分模块，用于将所述处理模块处理得到的Q个第二属性信息按照所述对象的属性分类划分到所述多个对象中各对象下，所述Q为大于1的整数；

生成模块，用于根据所述各对象之间的关联关系，为所述划分模块划分后的目标场景数据生成目标场景树。

结合第一方面，在第一种可能的实现方式中，

所述处理模块用于：

对所述P个第一属性信息中的每个第一属性信息分别进行分类判断；

若目标属性信息属于所述属性分类中的一类，则将所述目标属性信息划分为第二属性信息，所述目标属性信息为所述P个第一属性信息中的任意一个；

若目标属性信息不属于所述属性分类中的一类，则将所述目标属性信息进行聚合处理，将聚合后的属性信息划分为第二属性信息。

本申请第四方面提供一种数据处理的装置，包括：

获取模块，用于获取第一数据集和第二数据集，所述第一数据集中包括C个第一场景数据，所述第二数据集中包括D个第二场景数据，所述C为大于0的整数，所述D为大于0的整数；

生成模块，用于根据所述第一数据集中的C个第一场景数据生成第一场景树，根据所述第二数据集中的D个第二场景数据生成第二场景树；

第一确定模块，用于确定所述生成模块生成的第一场景树与所述第二场景树的场景相似度；

第二确定模块，用于根据所述第一确定模块确定的第一场景树与所述第二场景树的场景相似度，确定所述第一数据集和所述第二数据集的数据集相似度。

结合上述第四方面，在第一种可能的实现方式中，

所述生成模块，用于根据所述第一数据集中的C个第一场景数据对应生成C个第一场景树，根据所述第二数据集中的D个第二场景数据生成D个第二场景树；

所述第一确定模块用于：

对第三场景树和第四场景树分别进行分层处理，所述第三场景树为所述C个第一场景树中的一个，所述第四场景树为所述D个第二场景数据中的一个；

对所述第三场景树中第a层的对象特征数据和所述第四场景树中第b层的对象特征数据进行相似度计算，以得到所述第a层的对象特征数据和所述第b层的对象特征数据的分层相似度；其中，所述a和所述b都分别为大于0的整数，所述第a层的对象特征数据为处于所述第三场景树中第a层的所有对象特征数据的集合，所述第b层的对象特征数据为处于第四场景树中第b层的所有对象特征数据的集合；

根据所述分层相似度，确定所述第三场景树和所述第四场景树的场景相似度。

结合上述第四方面第一种可能的实现方式，在第二种可能的实现方式中，

所述第一确定模块用于：

计算所述第三场景树中第a层与所述第四场景树中第b层的层间最小编辑距离；

根据所述层间最小编辑距离、所述第a层的对象个数以及所述第b层的对象个数，确定所述第a层的对象特征数据和所述第b层的对象特征数据的分层差异度；

将第一基准值与所述分层差异度的差值确定为所述第a层的对象特征数据和所述第b层的对象特征数据的分层相似度。所述第一基准值可以等于1。

结合上述第四方面第二种可能的实现方式，在第三种可能的实现方式中，

所述第一确定模块用于：

计算所述第a层的第一对象与所述第b层的对象的第二对象之间的对象编辑距离；

根据所述对象编辑距离确定所述第a层与所述第四场景树中第b层的层间最小编辑距离。

结合上述第四方面第三种可能的实现方式，在第四种可能的实现方式中，

所述第一确定模块用于：

计算所述第一对象的第一属性的与所述第二对象的第一属性的特征之间的属性编辑距离；

根据所述属性编辑距离，确定所述第a层的第一对象与所述第b层的对象的第二对象之间的对象编辑距离。

结合上述第四方面第二种至第四种任一可能的实现方式，在第五种可能的实现方式中，

所述第一确定模块还用于：

当所述第a层的对象特征数据和所述第b层的对象特征数据的分层相似度大于第一阈值时，执行下一个分层相似度计算过程；

当所述第a层的对象特征数据和所述第b层的对象特征数据的分层相似度小于所述第一阈值时，且所述第三场景树和所述第四场景树中已经比较的对象个数超过第二阈值，则将所述第三场景树和所述第四场景树中未比较的分层相似度置为0。

结合上述第四方面第一种至第五种中任一可能的实现方式，在第六种可能的实现方式中，

所述第一确定模块用于：

获取所述第三场景树和所述第四场景树各层比对时确定的n个层间最小编辑距离，与所述n个层间最小编辑距离所对应的分层中每层的对象个数；

根据所述n个层间最小编辑距离的和，以及所述每层的对象个数之和，确定所述第三场景树与所述第四场景树的场景差异度；

将第二基准值与所述场景差异度的差值确定为所述第三场景树与所述第四场景树的场景相似度。所述第二基准值可以等于1。

结合上述第四方面第一种至第六种中任一种可能的实现方式，在第七种可能的实现方式中，

所述第二确定模块用于：

获取N个场景相似度，所述N个场景相似度是所述第一场景树和所述第二场景树相似度比对中相似度最高的N个，所述N为大于0的整数；

将所述N个场景相似度的平均值确定为所述第一数据集和所述第二数据集的数据集相似度。

本申请第五方面提供一种计算机设备，所述计算机设备包括处理器以及存储器：

所述存储器用于存储程序指令，所述处理器用于运行所述程序指令，以执行如上述第一方面所述的数据处理的方法。

本申请第六方面提供一种计算机设备，所述计算机设备包括处理器以及存储器：

所述存储器用于存储程序指令，所述处理器用于运行所述程序指令，以执行如上述第二方面所述的数据处理的方法。

本申请的第七方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第一方面所述的方法。

本申请的第八方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第二方面所述的方法。

本申请的第九方面提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面所述的方法。

本申请的第十方面提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第二方面所述的方法。

本申请实施例采用统一的属性分类方案对不同的数据集中的场景数据进行分类，实现了不同数据集的统一场景树的构建，这样在对不同数据集的场景树的相似度比对过程中，可以提高相似度检测的准确性。

附图说明

图1是本申请实施例中生成场景树的一场景示例示意图；

图2是本申请实施例中生成场景树的另一场景示例示意图；

图3是本申请实施例中数据处理的方法的一实施例示意图；

图4是本申请实施例中计算相似度的一场景示例示意图；

图5是本申请实施例中数据处理的方法的另一实施例示意图；

图6是本申请实施例中计算相似度的一场景示例示意图；

图7是本申请实施例中数据处理的方法的另一实施例示意图；

图8是本申请实施例中数据处理的装置的一实施例示意图；

图9是本申请实施例中数据处理的装置的另一实施例示意图；

图10是本申请实施例中数据处理的装置的另一实施例示意图。

具体实施方式

下面结合附图，对本申请的实施例进行描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。本领域普通技术人员可知，随着技术的发展和新场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请实施例提供一种数据处理的方法，可以通过构建统一场景树的方式对不同的数据集进行相似度检测，可以提高相似度检测的准确性。以下分别进行详细说明。

本申请实施例提供的数据处理的方法，可以包括场景树的生成，以及相似度的计算两部分，相似度计算之前需要执行场景树生成，当然场景树生成也可以是独立的方案。场景树的生成，以及相似度的计算两部分都可以在具有计算功能的终端或者服务器上执行。

本申请实施例中所涉及到的终端可以包括各种具有无线通信功能的手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其它处理设备。所述终端可以是移动站(mobile station，MS)、用户模块(subscriber unit)、蜂窝电话(cellular phone)、智能电话(smart phone)、无线数据卡、个人数字助理(personal digital assistant，简称：PDA)电脑、平板型电脑、无线调制解调器(modem)、手持设备(handset)、膝上型电脑(laptop computer)、机器类型通信(machine type communication,MTC)终端等。

下面结合附图对场景树的生成过程，以及相似度的计算过程分别进行介绍。

图1是关于场景树生成的数据处理的场景示例示意图。

如图1所示，由终端10执行场景树生成过程中，终端10会获取一个或多个场景数据，如图1所示出的，可以获取场景数据1、场景数据2至场景数据X，场景数据(X+1)，然后为每个场景数据对应生成一个场景树。如图1中所输出的场景树1、场景树2至场景树X，场景树(X+1)。该场景示例中，X为大于2的整数。实际上，该处只是举例，也可以只获取一个场景数据，然后生成一个场景树。

本申请实施例中的场景树只是的与场景相关的数据，例如游戏场景中的数据，场景树是通过一个由各种类型的对象构成的树结构来描述该场景的，对象之间存在父子、兄弟等关系。若获取的是游戏场景相关的数据，则可以通过该游戏场景相关的数据生成该游戏场景的场景树，也可以通过该场景树，再还原出该游戏场景。

本申请所描述的场景数据是属于一个数据集合的，该数据集合可以是某个游戏，一个游戏中会有多个场景，一个场景中可以包括多个对象，以及与该对象关联的多个属性信息。

以游戏场景为例，游戏场景中的对象可以为角色、屏幕按钮等，而且每个对象都可能有相同的或不同的属性信息，因此，一个场景中涉及到的属性信息会有多个。

互联网上的应用都是通过软件开发的，以游戏开发为例，不同的游戏开发时所定义的属性名称以及其他相关描述信息可能不完全一样，为了实现不同场景数据可以进行有效的比对，本申请实施例所提供的方案在生成场景树时会对不同场景数据进行统一的属性处理。

如图2所示，场景数据1中以对象1和对象2为例，该场景数据1中会有很多与对象1和对象2关联的属性信息。如图2中所列出的有属性1、属性2至属性9等9种类型的属性类型，场景数据1的多个属性信息可以分属于这9种属性类型。场景数据2的对象1和对象2有属性a、属性b至属性i等9种属性类型，场景数据2的多个属性信息可以分属于这9种属性类型。这些属性类型所包含的属性信息可能相同也可能不相同，但各自的表达方式不同，就很难比对，本申请实施例中，按照本申请预定义的属性类型对场景数据1和场景数据2中的各种不同类型的属性信息进行重新划分。如图2中所示出的，例如，本申请实施例定义了属性A至属性E等5种属性类型，然后将场景数据1和场景数据2中的各个属性信息重新分配在这五种类型下，并且还将属性信息划分到了对应的对象下。

本申请实施例中，在按照属性A至属性E重新划分属性信息时，一种实施例中，场景数据1和场景数据2的属性类型可能与属性A至属性E是相同的类型，如场景数据1中的属性5和属性9的类型可能与属性A至属性E中的某个类型相同，例如：与属性A相同。场景数据2中的属性e和属性i可能与属性A至属性E中的某个类型相同，例如：与属性A相同。这种情况时，只需要将属性5和属性9的相关属性信息划分到属性A下，将属性e和属性i的相关属性信息划分到属性A下。另一种实施例中，若场景数据1和场景数据2中的一些属性类型与属性A至属性E中的类型都不相同，例如：场景数据1中的属性1至属性4、属性6至属性8，以及场景数据2中的属性a至属性d，以及属性f至属性h与属性A至属性E中的类型都不相同，但里面属性信息的本质可能有相同或相近的，则可以对这些属性信息进行处理，将这些属性信息划分到属性A至属性E所属的分类下。在处理过程中，有些属性信息可能发生了一些变化，如字符串长度变短或者边长，或者发生了其他类型的变化。因此可以将场景数据1和场景数据2中的属性信息称为第一属性信息，将重新划分后的属性信息称为第二属性信息。因为上述实施例中也描述了，也有相同类型的是采用直接划分的方式，所以有些第二属性信息与第一属性信息也可以是相同的。

需要说明的是，上述的属性类型的数量都是举例，不应将其理解为是对上述场景的限定。本申请实施例要表达的是不同场景数据的属性信息的类型可能有的相同，有的不同，但在本申请实施例生成场景树的过程中，都可以将各种不同的属性信息划分到本申请实施例所定义的属性类型下。当然，有些场景下，也可能场景数据中不包括属性A至属性E中一个或多个类型的属性信息，这种情况下，该类型就没有属性信息被划分，如图2中对象2的属性B，就没有被划分到属性信息。

上述描述了对不同场景数据之间的属性信息进行统一的过程，下面以一个场景数据为例，介绍该场景数据的场景树的生成过程所涉及的数据处理内容。

图3为本申请实施例提供的数据处理的方法的一实施例示意图。

如图3所示，本申请实施例提供的数据处理的方法的一实施例可以包括：

101、获取目标场景数据，所述目标场景数据为待检测数据集合中目标场景所关联的数据，所述目标场景数据包括多个对象和与所述多个对象关联的P个第一属性信息，所述P为大于1的整数。

以游戏场景为例，目标场景数据可以包括：对象标识(Identification，id)、对象名称、对象标签字符、对象类型、对象实例对应的类名、对象挂载的组件列表、对象的遮罩信息(mask)及相关属性、对象的动画信息、对象位置、对象在x/y坐标上的缩放、对象在x/y方向上的旋转角度、对象透明度、对象锚点坐标、对象是否可见属性、对象是否响应事件属性、对象响应的事件列表属性、对象的子对象个数、对象的滚动(scrollRect)信息、对象的碰撞区域信息等。

其中，对象可以是游戏中的角色和按钮等，如飞机大战场景中的飞机，发射按钮等都属于对象。

对象标识可以是对象的编号或者其他索引信息。

对象名称指的是对象在场景中的称谓，如以对象是飞机大战中的飞机为例，该对象名称可以为飞机1，飞机2等。

对象标签字符指的是与对象标签相关的字符串。

对象类型指的是与该对象对应的类型，如上述场景中的飞机可以属于对象类型，发射按钮可以属于按钮类型。

对象实例对应的类名指的是对象对应的软件代码实例所属分类的名称。

对象的遮罩信息(mask)指的是对象可见或不可见，或者那部分可见，如：飞机1的遮罩信息为不可见，那么在屏幕上则不会显示出该飞机1。

对象的动画信息指的是对象在场景中以什么形式出场，如飞机腾空而起出场，或者俯冲出场等。

对象位置指的是对象在世界坐标系中的位置。

对象在x/y坐标上的缩放是因为显示器的屏幕尺寸不同，要根据屏幕尺寸进行缩放。

对象在x/y方向上的旋转角度是为了表达出对象在场景中的发生旋转的角度，如飞机旋转45度。

对象透明度指的是对象在场景中的透明程度，如透明度为50％。

对象锚点坐标：以对象为中心点的坐标。

对象是否可见属性：可见或不可见。

对象是否响应事件属性：例如：按钮是否响应用户的点击操作。

对象响应的事件列表属性，指的是多个相应事件通过列表的形式展示。

对象的scrollRect信息：指的是滚动条的信息。

对象的碰撞区域信息：例如：飞机被击落的场景中。

当然，该处只是以游戏场景为例进行的列举，而且在不同场景中，也可能只包括上述部分信息，或者还可能包括其他上述没有描述的信息。

上述所描述的信息都属于对象的属性信息。

102、按照预配置的对象属性分类规则，对所述P个第一属性信息进行处理，以得到Q个第二属性信息，所述对象属性分类规则中包括对象的属性分类。

本申请实施例中，关于对象属性分类规则可以理解为是上述图2所描述的场景中的属性A至属性E的分类规则。

本申请实施例定义的属性可以有：

位置数组(position：Array)，对象在引擎世界坐标系中的位置。

与对象相关的动作信息(action_info：object)，对象事件监听相关的信息，例如：可响应的事件列表、事件监听器listener是否可用、listener是否有遮罩mask等属性。

与对象相关的特征(feature：object)，对象的特征属性聚合。

组件集合(components：Array)，对象挂载的组件列表，包括每个组件的名称、类型、是否可用及其他特定组件的特定信息；

对象类型字符串(nodeType：String)，自定义的对象类型，根据对象的className、组件类型拼接而成(className+"_"+组件类型，组件类型用"；"分隔)。

对象是否显示在屏幕区域(show：Boolean)：可以是自定义的对象类型，标识对象是否会最终显示在屏幕区域中，根据是否可见(visible)、位置(position)是否位于屏幕区域中等条件进行聚合得出。

对象是否有效(enable：Boolean)：可以自定义是的对象类型，标识对象是否可以响应用户操作。

第一属性信息和第二属性信息的关系也可以参阅图2所对应实施例部分的描述进行理解。

因此，可以理解的是，一种实施例中，该步骤102可以是：

本申请实施例中的聚合可以是将两个或多个第一属性信息拼接为一个第二属性信息，如将三个与对象动作相关的字符串拼接为一个字符串。本申请实施例中的聚合还可以是根据逻辑重新决策，如：有两个第一属性信息，分别为“True”和“False”，如果判断逻辑为有一个是假则结果为假，那么对这两个第一属性信息进行聚合所得到的第二属性信息为“False”。若用1表示“True”，用0表示“False”，则第二属性信息为0。

103、将所述Q个第二属性信息按照所述对象的属性分类划分到所述多个对象中各对象下，所述Q为大于1的整数。

104、根据所述各对象之间的关联关系，为所述目标场景数据生成目标场景树。

各对象之间的关联关系可以是父子关系、兄弟关系，如按钮控制某个飞机，则可以以按钮对象为父对象，该飞机为子对象，飞机发射的子弹可以进一步作为该飞机的子对象，若飞机的子弹有多种类型，这些不同类型的子弹还可以互相成为兄弟对象。

本申请实施例中图3的方案可以结合图1和图2所对应实施例的相关描述进行理解，本处不再重复赘述。

以上描述了场景树的生成过程，下面结合图4介绍本申请实施例中不同两个数据集之间相似度的计算过程。

本申请实施例中的数据集可以是游戏、可以是综艺节目、可以是电影或动漫等，可以是上述游戏、综艺节目、电影或动漫的整部作品，也可以是作品中的一个章节，或者作品中的一个片段。

如图4所示，终端20获取第一数据集和第二数据集，该第一数据集和第二数据集中都会包括多个场景数据，然后终端20会针对每个场景数据按照上述图1至图3部分所描述的方式生成每个场景数据对应的场景树，然后先确定第一数据集中各场景树与第二数据集中各场景树的相似度，然后再根据两个数据集中的场景相似度，确定第一数据集第二数据集的数据集相似度。

基于上述两个数据集之间的数据集相似度的确定过程，可以确定出两个数据集的数据集相似度。数据集相似度表示了两个数据集的相似程度，这样就可以判断这两个数据集之间有没有抄袭，尤其是在后开发的数据集是否抄袭了在前开发的数据集。

以两个游戏之间的相似度判断为例，可以通过上述相似度确定的过程确定两个游戏之间的相似度，可以根据相似度比对的结果确定其中在后开发的游戏是否抄袭了另外一个在前开发的游戏。若两个游戏的相似度高于预设阈值，则表示在后开发的游戏抄袭了在前开发的游戏。若两个游戏的相似度低于预设阈值，则表示在后开发的游戏没有抄袭在前开发的游戏。因此，本申请的方案可以应用在游戏侵权审核中，可以对游戏进行相似度检查，从更多维度打击抄袭、侵权行为。

基于相同的原理，可以理解的是，若确定的是两个综艺节目或者综艺片段的相似度，则可以根据确定的综艺的相似度确定在后开发的综艺节目是否抄袭了在前开发的综艺节目。电影、动漫等其他相关的网络传播内容的侵权比对都可以参阅上述游戏和综艺节目的原理进行理解，本处不再重复赘述。

与确定数据集相似度相关的过程还可以参阅图5的数据处理过程进行理解。

如图5所示，本申请实施例提供的数据处理的方法的另一实施例可以包括：

201、获取第一数据集和第二数据集，所述第一数据集中包括C个第一场景数据，所述第二数据集中包括D个第二场景数据，所述C为大于0的整数，所述D为大于0的整数。

本申请实施例中的C可以等于1，也可以大于1，D也可以等于1，也可以大于1，当C＝1，D＝1时，则第一数据集中有1个第一场景数据，第二数据集中有1个第二场景数据，C大于1，D大于1时，则第一数据集中有两个或多个第一场景数据，第二数据集中有两个或多个第二场景数据。

以第一数据集中有多个第一场景数据，第二数据集中有多个第二场景数据为例，如图4中所示出的第一数据集中有4个第一场景数据，分别为场景数据11、场景数据12、场景数据13和场景数据14，则该场景中C＝4。第二数据集包括4个第二场景数据，分别为场景数据21、场景数据22、场景数据23和场景数据24，则该场景中D＝4。

当然，此处C＝4，D＝4只是该场景的举例，并不应将其理解为是对C和D取值的限定，另外，该场景示例中C和D相等，可以理解的是，本申请并不限定C和D相等，通常情况下C和D不相等。

202、根据所述第一数据集中的C个第一场景数据生成第一场景树，根据所述第二数据集中的D个第二场景数据生成第二场景树。

该步骤可以包括：

根据所述第一数据集中的C个第一场景数据对应生成C个第一场景树，根据所述第二数据集中的D个第二场景数据生成D个第二场景树。

也就是说，一个第一场景数据可以生成一个第一场景树，一个第二场景数据可以生成一个第二场景树。生成第一场景树和第二场景树的过程可以参阅图1至图3部分与场景树生成的相关描述进行理解，本处不再重复赘述。

如图4所示，场景数据11对应生成场景树11，场景数据12对应生成场景树12，场景数据13对应生成场景树13，场景数据14对应生成场景树14。

场景数据21对应生成场景树21，场景数据22对应生成场景树22，场景数据23对应生成场景树23，场景数据24对应生成场景树24。

203、确定所述第一场景树与所述第二场景树的场景相似度。

确定第一场景树和第二场景树相似度的过程可以是对第一场景树和第二场景进行一一比较，如：场景树11分别与场景树21、场景树22、场景树23和场景树24分别比较。同理，场景树12、场景树13和场景树14也可以采用这种方式一一场景树21、场景树22、场景树23和场景树24进行比较。每次比较都会得到一个第一场景树和一个第二场景树的场景相似度。

204、根据所述第一场景树与所述第二场景树的场景相似度，确定所述第一数据集和所述第二数据集的数据集相似度。

经过步骤203比较后，会确定多个场景相似度，如上述图4所示例出的方案可以确定16个场景相似度，可以通过这16个场景相似度确定最终的数据集相似度，也可以从这16个场景相似度中选择出一部分，例如选择出相似度数值按从大到校排序在前10的场景相似度，确定出该第一数据集和第二数据集的数据集相似度。

可选地，其中，所述确定所述第一场景树与所述第二场景树的场景相似度，可以包括：

对第三场景树和第四场景树分别进行分层处理，所述第三场景树为所述C个第一场景树中的一个，所述第四场景树为所述D个第二场景树中的一个；

本申请实施例中，场景树是分层的，父子对象位于不同层，兄弟对象位于同一层。一个场景树都是从根对象开始建立的，所以可以从根对象开始对场景树进行分层，每一层都可以有一个或多个对象，每个对象有会有一个或多个属性信息，可以把处于同一层的对象不同类型的属性信息进行向量化处理，然后以对象为单位，合并成一个特征数据，在具体实现中，就是把同层所有对象的数据拉伸成一个矩阵中的一行数据。在处理好各层的对象特征数据后，就可以确定两个层的比对相似度了。

本申请实施例中，针对分层确定的相似度称为分层相似度，针对场景确定的相似度称为场景相似度，针对数据集确定的相似度称为数据集相似度。

使用分层相似度确定场景相似度的过程可以参阅图6进行理解，如图6所示，从C个第一场景树中选择一个场景树称为第三场景树，从D个第二场景树中选择一个场景树称为第四场景树。第三场景树有4个分层，分别称为分层31、分层32、分层33和分层34，每个分层中都有一个或多个对象。第四场景树有4个分层，分别称为分层41、分层42、分层43和分层44，每个分层中都有一个或多个对象。当然，该示例中只是以四个分层举例，实际上，本申请实施例中不限定场景树的分层数量。

在确定分层相似度时是轮询确定的，也就是分层31会与分层41、分层42、分层43和分层44各确定一个分层相似度。同理，分层32、分层33和分层34也会分布与分层41、分层42、分层43和分层44各确定一个分层相似度。如果全部都确定，则会有16个分层相似度。

在确定分层相似度时其实是确定该分层的对象特征数据的相似度，如：确定分层31会与分层41的分层相似度时是在确定分层31的对象特征数据与分层41的对象特征数据的相似度。

确定出各分层的分层相似度后，就可以根据各分层相似度，确定该第三场景树和第四场景树的相似度了。

可选地，所述对所述第三场景树中第a层的对象特征数据和所述第四场景树中第b层的对象特征数据进行相似度计算，以得到所述第a层的对象特征数据和所述第b层的对象特征数据的分层相似度，可以包括：

将第一基准值与所述分层差异度的差值确定为所述第a层的对象特征数据和所述第b层的对象特征数据的分层相似度。该第一基准值可以等于1。

本申请实施例中，可以通过如下分层相似度的计算公式确定两个层的分层相似度。

其中，LayerSimRate表示分层相似度，Dis_min表示层间最小编辑距离，len(layer_a)表示第a层的对象个数，len(layer_b)表示第b层的对象个数。

用Dis_min除以2个比较的层中对象个数之和，即为这2个层数据的差异程度，1减去该差异程度，即为这两个比较的层的分层相似度。

关于两个层的层间最小编辑距离Dis_min可以通过如下过程计算得到，其中，可选地，所述计算所述第三场景树中第a层与所述第四场景树中第b层的层间最小编辑距离，可以包括：

可选地，所述计算所述第a层的第一对象与所述第b层的对象的第二对象之间的对象编辑距离，可以包括：

也就是说，上述层间最小编辑距离Dis_min可以是通过这两个层的对象的特征属性的编辑距离计算得到的，下面对确定两个层中对象的特征属性值的编辑距离进行介绍：

通常意义上的编辑距离中，会有删除、插入、替换3个代价函数。本申请实施例中的最小编辑距离的方法大致如下：

删除：默认定义代价为1，即一层中，如果需要删除一个对象，则代价为1；

插入：默认定义代价为1，即一层中，如果需要插入一个对象，则代价为1；

替换：定义把一个对象修改为另一个对象，所需要的代价，而修改对象，其实就是修改对象的属性值，所以其实就是定义对象各个特征属性值的编辑距离。

关于对象各个特征属性值的编辑距离可以参阅计算2个对象各个类型的特征属性的编辑距离的方法进行理解，不同属性的特征的属性编辑距离的方法不同，下面对各不同属性的属性编辑距离的计算方法进行介绍：

1、Boolean类型的特征属性的编辑距离计算方法为：Boolean类型的特征属性即值为真(True)或者假(False)的特征属性。对于该类型的特征属性，可以取2个特征属性值的异或值作为替换代价，也就是属性编辑距离或者属性差异程度，用公式可以表示如下：

Dis＝V_x^V_y；

V_x表示对象x的特征属性值，V_y表示对象y的特征属性值，^表示异或。

2、特征向量的特征属性的编辑距离计算方法为：特征向量的特征属性为值为数字的特征属性，可以将其向量化到一个多维向量中，作为一个特征向量来整体计算。特征向量的维数就是特征属性的个数，然后求出每个特征属性在参与比较的2个特征向量中的最大值，再用这2个特征向量中的每一个值，除以对应的最大特征值，求出每个特征属性值相对其最大值的百分比，再对每一个对应的特征相对值求方差，取方差之和作为特征向量的属性编辑距离或者属性差异程度，用公式可以如下表示：

x_i表示对象x的特征向量，y_i表示对象y的特征向量，x_max表示对象x的最大特征值，y_max示对象y的最大特征值。

3、数组(array)类型的特征属性的编辑距离计算方法为：数组类型的特征属性即值为一个列表(list)或者集合(set)的特征属性。针对这种类型特征属性，可以将对比的2个array中的元素分别放入2个集合中，用集合交集的元素个数除以集合并集的元素个数，以这个值来表示该种类型特征的属性编辑距离或者属性差异程度，公式如下：

set_x表示对象x的元素集合，set_y表示对象y的元素集合,∩表示交集，∪表示并集。

4、字符串(string)类型的特征属性的编辑距离计算方法为：字符串类型的特征属性即值为一个字符串的特征属性。针对这种类型特征属性，可以直接比较字符串是否完全相等，相等则属性编辑距离为0，不相等则属性编辑距离为1，公式如下：

Dis＝0if(str_x＝＝str_y)else 1；

str_x表示对象x的字符串值，str_y表示对象y的字符串值。

定义好上述属性编辑距离的代价函数后，可以按照计算编辑距离的逻辑，计算出相比较的各对象的各类型特征属性的属性编辑距离，在计算属性编辑距离的过程中，可以根据每一个特征的具体含义和对场景的影响程度，对不同属性赋予不同的权重，具体的权重值，可以使用机器学习的方法，通过人工标注或者已知的大量数据，进行模型训练，得到较优的各个特征的权重值，基于此权重可以计算相比较的两个对象的对象编辑距离Dis_node，公式如下：

z为特征的个数，Dis_i为第i个特征的编辑距离，k_i为第i个特征的编辑距离的权重，该权重即为前面根据已知的大量数据训练而来。

计算得到Dis_node后，可以根据相比较的两个分层与对象的Dis_node的计算逻辑，计算出相比较的两个层的分层最小编辑距离Dis_min，例如：分层最小编辑距离Dis_min等于第a层的对象编辑距离之和与第b层的对象编辑距离之和的差值的绝对值，然后再根据前述描述的分层相似度的计算公式计算出分层相似度LayerSimRate。

考虑到在分层比较过程中，可能比较了一部分，就可以确定两个数据集并不相似，那么就可以提前结束比较流程，这样可以节省计算资源，这种情况下，本申请实施例提供的数据处理的方法还可以包括：

可选地，所述根据所述分层相似度，确定所述第三场景树和所述第四场景树的场景相似度，可以包括：

获取所述第三场景树和所述第四场景树各层比对时确定的n个最小编辑距离，与所述n个最小编辑距离所对应的分层中每层的对象个数；

根据所述n个最小编辑距离的和，以及所述每层的对象个数之和，确定所述第三场景树与所述第四场景树的场景差异度；

将第二基准值与所述场景差异度的差值确定为所述第三场景树与所述第四场景树的场景相似度，第二基准值可以等于1。

本申请实施例中，当得到多个层级的分层相似度数据后，可以每个层的最小编辑距离之和除以每个层的对象个数之和，作为整个场景的差异程度，然后用1减去该差异程度，即为场景相似度，可以参考如下场景相似度的公式进行理解。

其中，SceneSimRate表示场景相似度，Dis_mini表示分层比较的最小编辑距离，len(layer_j)表示第j层的对象个数。

可选地，所述根据所述每个第一场景树与所述每个第二场景树的场景相似度，确定所述第一数据集和所述第二数据集的数据集相似度，可以包括：

在上述计算出第一数据集第二数据集中各场景相似度后，可以选取第一数据集和第二数据集中相似度最高的N个场景，N可以动态调整，设定N主要是为了剔除一些无效、异常数据的干扰，可以根据数据采集实际的效果来设定，然后取场景相似度的平均值，作为第一数据集和第二数据集的数据相似度，公式如下：

其中，GameSimRate表示数据集相似度，SceneSimRate_i表示第i个场景相似度。

如果GameSimRate大于阈值，即认为第一数据集第二数据集相似，否则不相似。

以上判定第一数据集和第二数据集相似的阈值，是根据实验数据、人工检查结果，综合考虑召回率、准确率，最终确定的一个较为合理的阈值，实际使用中，也是可以动态调整这个值，以获得不同的召回率、准确率数据。

本申请实施例通过上述方案所提供的基于场景计算相似度的方案的准确率相比于当前基于代码计算相似度的方案要高，下面通过一组对比数据进行说明。

表1：两种不同计算相似度的方案的对比数据

由上述表1的数据可以看出，本申请提供的场景相似度的方案在识别出281组相似的数据集后，经开发人员校验，其中有156组是正确的，准确率达到55.52％，召回率达到68.12％。而基于代码相似度的方案在识别出274组相似的数据集后，将开发人员校验，其中只有73组是正确的，准确率只有26.6％，召回率只有31.88％。

以上所描述的确定第一数据集和第二数据集的相似度过程，参阅图7以第一数据集是游戏A，第二数据集是游戏B为例进行描述可以为：

211A、获取游戏A的原始数据。

212A、对游戏A的原始数据进行数据处理。

213A、根据处理后的游戏A的数据生成游戏A的场景树。

211B、获取游戏B的原始数据。

212B、对游戏B的原始数据进行数据处理。

213B、根据处理后的游戏B的数据生成游戏B的场景树。

关于步骤211A至213B可以参阅图1至图3部分生成场景树的相关描述进行理解，本处不再重复赘述。

214、格式化游戏A的场景树和游戏B的场景树。

格式化后可以对每个场景树进行分层处理，分层处理的过程可以参阅前面的描述进行理解。

215、逐层计算场景树对象的分层相似度。

216、确定当前分层的分层相似度是否大于第一阈值，若是则执行步骤215进行下一分层的比较，若否则执行步骤217。

通常在达到最后一层，或者已经处理的对象个数达到一个预设阈值时可以不再比对下一层，可以进入步骤217。

217、计算场景相似度。

218、计算游戏相似度。

219、判断游戏相似度是否大于第二阈值，若大于第二阈值，则表示游戏A与游戏B相似，若不大于第二阈值，则表示游戏A与游戏B不相似。

关于步骤214至219的具体过程可以参阅前面图4至图6所对应的相关内容进行理解，本处不再重复赘述。

以上实施例描述了与生成场景树和计算相似度相关的数据处理的方法。下面，结合附图，介绍本申请实施例提供的数据处理的装置。

图8是本申请实施例中数据处理的装置30的一实施例示意图。

如图8所示，本申请实施例提供的数据处理的装置30的一实施例可以包括：

获取模块301，用于获取目标场景数据，所述目标场景数据为待检测数据集合中目标场景所关联的数据，所述目标场景数据包括多个对象和与所述多个对象关联的P个第一属性信息，所述P为大于1的整数；

处理模块302，用于按照预配置的对象属性分类规则，对所述获取模块301获取的所述P个第一属性信息进行处理，以得到Q个第二属性信息，所述对象属性分类规则中包括对象的属性分类；

划分模块303，用于将所述处理模块302处理得到的Q个第二属性信息按照所述对象的属性分类划分到所述多个对象中各对象下，所述Q为大于1的整数；

生成模块304，用于根据所述各对象之间的关联关系，为所述划分模块303划分后的目标场景数据生成目标场景树。

可选地，所述处理模块302用于：

图9是本申请实施例中数据处理的装置40的一实施例示意图。

如图9所示，本申请实施例提供的数据处理的装置40的一实施例可以包括：

获取模块401，用于获取第一数据集和第二数据集，所述第一数据集中包括C个第一场景数据，所述第二数据集中包括D个第二场景数据，所述C为大于0的整数，所述D为大于0的整数；

生成模块402，用于根据所述获取模块401获取的第一数据集中的C个第一场景数据生成第一场景树，根据所述第二数据集中的D个第二场景数据生成第二场景树；

第一确定模块403，用于确定所述生成模块402生成的第一场景树与所述第二场景树的场景相似度；

第二确定模块404，用于根据所述第一确定模块403确定的第一场景树与所述第二场景树的场景相似度，确定所述第一数据集和所述第二数据集的数据集相似度。

可选地，所述生成模块402，用于根据所述第一数据集中的C个第一场景数据对应生成C个第一场景树，根据所述第二数据集中的D个第二场景数据生成D个第二场景树；

所述第一确定模块403用于：

可选地，所述第一确定模块403用于：

将第一基准值与所述分层差异度的差值确定为所述第a层的对象特征数据和所述第b层的对象特征数据的分层相似度。

可选地，所述第一确定模块403用于：

所述第一确定模块403还用于：

可选地，所述第一确定模块403用于：

所述第二确定模块404用于：

以上所描述的数据处理装置30和数据处理装置40的相关描述可以参阅前述图1至图5所对应部分的实施例进行理解，本处不再重复赘述。

本申请实施例提供的数据处理的装置可以参阅图10进行理解，图10是本申请实施例提供的一种数据处理的装置的结构示意图，该数据处理的装置1200可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)1222(例如，一个或一个以上处理器)和存储器1232，一个或一个以上存储应用程序1242或数据1244的存储介质1230(例如一个或一个以上海量存储设备)。其中，存储器1232和存储介质1230可以是短暂存储或持久存储。存储在存储介质1230的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对数据处理的装置中的一系列指令操作。更进一步地，中央处理器1222可以设置为与存储介质1230通信，在数据处理的装置1200上执行存储介质1230中的一系列指令操作。

数据处理的装置1200还可以包括一个或一个以上电源1226，一个或一个以上有线或无线网络接口1250，一个或一个以上输入输出接口1258，和/或，一个或一个以上操作系统1241，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由数据处理的装置所执行的步骤可以基于该图10所示的数据处理的装置结构。

其中，CPU 1222用于执行上述图1至图5所对应实施例中的相应步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：ROM、RAM、磁盘或光盘等。

以上对本申请实施例所提供的数据处理的方法以及装置和存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种数据处理的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述按照预配置的对象属性分类规则，对所述P个第一属性信息进行处理，以得到Q个第二属性信息，包括：

3.一种数据处理的方法，其特征在于，包括：

确定所述第一场景树与所述第二场景树的场景相似度；

4.根据权利要求3所述的方法，其特征在于，所述根据所述第一数据集中的C个第一场景数据生成第一场景树，根据所述第二数据集中的D个第二场景数据生成第二场景树，包括：

根据所述第一数据集中的C个第一场景数据对应生成C个第一场景树，根据所述第二数据集中的D个第二场景数据生成D个第二场景树；

对应地，所述确定所述第一场景树与所述第二场景树的场景相似度，包括：

5.根据权利要求4所述的方法，其特征在于，所述对所述第三场景树中第a层的对象特征数据和所述第四场景树中第b层的对象特征数据进行相似度计算，以得到所述第a层的对象特征数据和所述第b层的对象特征数据的分层相似度，包括：

6.根据权利要求5所述的方法，其特征在于，所述计算所述第三场景树中第a层与所述第四场景树中第b层的层间最小编辑距离，包括：

7.根据权利要求6所述的方法，其特征在于，所述计算所述第a层的第一对象与所述第b层的对象的第二对象之间的对象编辑距离，包括：

8.根据权利要求5-7任一所述的方法，其特征在于，所述方法还包括：

9.根据权利要求4-8任一所述的方法，其特征在于，所述根据所述分层相似度，确定所述第三场景树和所述第四场景树的场景相似度，包括：

将第二基准值与所述场景差异度的差值确定为所述第三场景树与所述第四场景树的场景相似度。

10.根据权利要求3-9任一所述的方法，其特征在于，所述根据所述每个第一场景树与所述每个第二场景树的场景相似度，确定所述第一数据集和所述第二数据集的数据集相似度，包括：

11.一种数据处理的装置，其特征在于，包括：

12.一种数据处理的装置，其特征在于，包括：

生成模块，用于根据所述获取模块获取的第一数据集中的C个第一场景数据生成第一场景树，根据所述第二数据集中的D个第二场景数据生成第二场景树；

13.根据权利要求12所述的装置，其特征在于，

所述第一确定模块用于：

14.一种计算机设备，其特征在于，所述计算机设备包括处理器以及存储器：

所述存储器用于存储程序指令，所述处理器用于运行所述程序指令，以执行如上述权利要求1或2所述的数据处理的方法，或者执行如上述权利要求3-10任一所述的数据处理的方法。

15.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如上述权利要求1或2所述的数据处理的方法，或者执行如上述权利要求3-10任一所述的数据处理的方法。