CN109784637A

CN109784637A - 应用于处理平台数据分析的方法和装置

Info

Publication number: CN109784637A
Application number: CN201811528191.3A
Authority: CN
Inventors: 印杰; 杜闯; 杨振兴; 郭亚峰; 栾江义
Original assignee: Huawei Device Co Ltd
Current assignee: Huawei Device Co Ltd
Priority date: 2018-12-13
Filing date: 2018-12-13
Publication date: 2019-05-21

Abstract

本申请提供了一种应用于处理平台数据分析的方法和装置，该方法包括：获取目标产品的第一测试数据；对该第一测试数据与第二测试数据进行对比，确定该第一测试数据与该第二数据的相似度，该第二测试数据的获取时刻早于该第一测试数据的获取时刻；根据该相似度确定是否收集该第一测试数据。本申请实施例的技术方案能够提高处理平台处理数据的效率。

Description

应用于处理平台数据分析的方法和装置

技术领域

本申请涉及电子设备领域，并且更具体地，涉及一种应用于处理平台数据分析的方法和装置。

背景技术

由于互联网相关产品面向消费者，因此用户体验越来越重要。对测试用户的体验感，消费者本身就是最好的测试者，舆情问题对产品的质量提升具有重要价值；此外，由于产品迭代更新速度越来越快，要求产品测试的周期也要越来越短。因而，众测方式逐渐成为互联网产品普遍采用的产品测试方式。

在现有技术中，可以采用通过舆情问题处理平台发布众测任务，设置各种激励措施促使用户提交产品问题报告，收集到众测问题报告后进行汇总，分析人员定期从平台导出产品问题报告进行人工分析，提取产品缺陷(bug)和体验问题。但是，目前的处理平台并不具备问题分析功能，主要依赖于人工进行分析判断，从而导致处理数据的效率较低。

发明内容

有鉴于此，本申请提供了一种应用于处理平台数据分析的方法和装置，以期提高处理平台处理数据的效率。

第一方面，提供了一种应用于处理平台数据分析的方法，该方法包括：获取目标产品的第一测试数据；对该第一测试数据与第二测试数据进行对比，确定该第一测试数据与该第二数据的相似度，该第二测试数据的获取时刻早于该第一测试数据的获取时刻；根据该相似度确定是否收集该第一测试数据。

在本申请的实施例中，可以对第一测试数据和第二测试数据进行对比，确定第一测试数据和第二测试数据的相似度，根据相似度确定是否收集最新获取的测试数据(例如，第一测试数据)。从而避免了大量人工分析相似数据的过程，能够提高处理数据的效率。

应理解，在本申请的实施例中第一测试数据和第二测试数据可以是产品发布前用户反馈的测试数据，即可以是测试产品的相关性能的数据，从而能够确定产品中是否存在bug，进一步优化产品的性能。测试数据也可以是关于用户使用产品时的相关意见或建议的反馈数据。

在一种可能的实施方式中，第一测试数据和第二测试数据可以是未收集至数据库的测试数据。

例如，可以是获取第二测试数据和第一测试数据之后，对第一测试数据与第二测试数据进行对比，确定第一测试数据与第二测试数据的相似度，根据相似度确定是否收集第一测试数据或第二测试数据。

在另一种可能的实现方式中，第二测试数据可以是已经收集至数据库中的测试数据。

例如，第二测试数据可以是收集至数据库中的测试数据，获取第一测试数据之后，对第一测试数据与数据库中的第二测试数据进行对比，确定第一测试数据与第二测试数据的相似度，根据相似度确定是否收集第一测试数据。

结合第一方面，在第一方面的某些可能的实现方式中，根据该相似度确定是否收集该第一测试数据，包括：当该相似度小于第一阈值时，确定收集该第一测试数据。

也就是说，在获取的多个测试数据中，若测试数据之间的相似度小于一个阈值，则可以说明这多个测试数据之间不是相似的，即该多个测试数据均可以是有效测试数据，确定收集该多个测试数据。

示例性地，在确定第一测试数据与第二测试数据的相似度小于第一阈值时，则以确定第一测试数据和第二测试数据不是相似数据。因此，可以收集第一测试数据和第二测试数据至数据库。

结合第一方面，在第一方面的某些可能的实现方式中，根据该相似度确定是否收集该第一测试数据，包括：当该相似度大于第一阈值时，根据该第一测试数据是否属于与该第二测试数据同一用户确定是否收集该第一测试数据。

也就是说，当获取的第一测试数据与第二测试数据之间的相似度大于一个阈值时，此时第一测试数据与第二测试数据可以是相似的测试数据，需要进一步判断第一测试数据与第二测试数据是否为同一用户的发送的测试数据，进而确定是否收集该第一测试数据。

结合第一方面，在第一方面的某些可能的实现方式中，该根据该第一测试数据与该第二测试数据是否属于同一用户确定是否收集该第一测试数据，包括：在该第一测试数据和该第二测试数据属于同一个用户时，确定不收集该第一测试数据。

示例性地，可以确定第一测试数据和第二测试数据是否为同一用户多次提交的无效数据。例如，无效数据可以看作同一用户为了获取奖励提交的多次重复测试数据，该重复测试数据仅通过措辞的变换，其包括的实质内容可以相同。在确定第一测试数据为同一用户提交的无效数据时，可以确定不收集第一测试数据。

结合第一方面，在第一方面的某些可能的实现方式中，该方法还包括：向该第一测试数据对应的用户发送第一信息，该第一信息用于指示该第一测试数据提交失败。

示例性地，可以当确定不收集第一测试数据时，向第一测试数据对应的用户发送第一信息，指示第一测试数据提交失败。同时，还可以启动权限管理。例如，处理平台可以对该用户设置提交权限，即处理平台可以不再接收该用户提交的测试数据。

结合第一方面，在第一方面的某些可能的实现方式中，该根据该第一测试数据与该第二测试数据是否属于同一用户确定是否收集所述第一测试数据，包括：在该第一测试数据和该第二测试数据属于不同用户时，确定收集该第一测试数据；在该第一测试数据上增加标识信息，该标识信息用于指示该第一测试数据的重复次数或该相似度的信息。

在本申请的实施例中，当第一测试数据和所述第二测试数据属于不同用户时，对第一测试数据与第二测试数据进行分析处理后，确定第一测试数据与第二测试数据的相似度大于第一阈值时，则可以说明第一测试数据和第二测试数据可以是不同的用户提交的相似数据。需要说明的是，对于多个用户独立提交的测试数据，无法避免不同用户提交相似的测试数据。此时，可以对处理平台接收到的除第一个测试数据外的其它的相似测试数据标记为重复测试数据。在导出汇总的测试数据时，可以对标记标识信息的测试数据不进行多次人工分析。

结合第一方面，在第一方面的某些可能的实现方式中，该对该第一测试数据与第二测试数据进行对比，确定该第一测试数据与该第二数据的相似度，包括：基于自然语言处理算法对该第一测试数据与该第二测试数据进行对比，确定该第一测试数据和该第二测试数据的相似度。

应理解，上述自然语言处理算法为举例说明，还可以是与自然语言处理算法具有相同功能的其它算法，例如，还可以是机器学习、深度学习、余弦定理等算法，本申请对此不作限定。

结合第一方面，在第一方面的某些可能的实现方式中，当确定收集该第一测试数据时，该方法还包括：基于该第一测试数据，确定对该目标产品的竞品进行测试，该第一测试数据用于指示该目标产品的至少一个特征，该竞品是指该目标产品对应的同类产品；对该目标产品的竞品进行测试生成测试报告，其中，该测试报告包括该竞品基于所述第一测试数据中的该至少一个特征的测试结果；输出该测试报告。

示例性地，竞品对比测试可以是对目标产品的竞品基于第一测试数据中的特征进行测试。例如，第一测试数据中可以包括“使用华为浏览器打开A网站时，字体排版出错”，则竞品测试可以是华为浏览器对应的同类产品，竞品测试可以是“使用360浏览器测试打开A网站是否存在同样的字体出错的问题”。

结合第一方面，在第一方面的某些可能的实现方式中，该基于该第一测试数据，确定对该目标产品的竞品进行测试，包括：基于该第一测试数据，确定对该竞品进行测试的量化值，该量化值用于指示该测试的价值；当该量化值大于第二阈值时，确定对该目标产品的竞品进行测试。

结合第一方面，在第一方面的某些可能的实现方式中，该方法还包括：确定该目标产品是否存在该竞品。

在本申请的实施例中，在确定收集第一测试数据时，可以进一步进行智能判断，识别第一测试数据是否需要启动竞品测试，从而输出测试报告。通过本申请的应用于处理平台数据分析的方法，能够根据获取测试数据的相似度确定是否收集该测试数据，同时还能够判断是否生成该测试数据对应竞品的测试报告，从而提高了处理数据的效率。

第二方面，提供了一种应用于处理平台数据分析的方法，该方法包括：获取目标产品的第一测试数据，该第一测试数据用于指示该目标产品的至少一个特征，该竞品是指该目标产品对应的同类产品；基于该第一测试数据，确定对该目标产品的竞品进行测试；对该目标产品的竞品进行测试生成测试报告，其中，该测试报告包括该竞品基于所述第一测试数据中的该至少一个特征的测试结果；输出该测试报告。

在本申请的实施例中，可以判断对第一测试数据是否需要进行竞品测试。在需要启动竞品测试时，可以输出测试报告。从而避免了大量人工的分析过程，能够提高处理数据的效率。

结合第二方面，在第二方面的某些可能的实现方式中，该基于该第一测试数据，确定对该目标产品的竞品进行测试，包括：基于该第一测试数据，确定对该竞品进行测试的量化值，该量化值用于指示该测试的价值；当该量化值大于第二阈值时，确定对该目标产品的竞品进行测试。

结合第二方面，在第二方面的某些可能的实现方式中，该方法还包括：确定该目标产品是否存在该竞品。

第三方面，提供了一种应用于处理平台数据分析的装置，该装置包括：收发模块，用于获取目标产品的第一测试数据；处理模块，用于对该第一测试数据与第二测试数据进行对比，确定该第一测试数据与该第二数据的相似度，该第二测试数据的获取时刻早于该第一测试数据的获取时刻；该处理模块，还用于根据该相似度确定是否收集该第一测试数据。

结合第三方面，在第三方面的某些可能的实现方式中，该处理模块具体用于：当该相似度小于第一阈值时，确定收集该第一测试数据。

结合第三方面，在第三方面的某些可能的实现方式中，该处理模块具体用于：当该相似度大于第一阈值时，根据该第一测试数据与该第二测试数据是否属于同一用户确定是否收集该第一测试数据。

结合第三方面，在第三方面的某些可能的实现方式中，该处理模块具体用于：在该第一测试数据和该第二测试数据属于同一个用户时，确定不收集该第一测试数据。结合第三方面，在第三方面的某些可能的实现方式中，该收发模块还用于：向该第一测试数据对应的用户发送第一信息，该第一信息用于指示该第一测试数据提交失败。

结合第三方面，在第三方面的某些可能的实现方式中，该处理模块具体用于：在该第一测试数据和该第二测试数据属于不同用户时，确定收集该第一测试数据；在该第一测试数据上增加标识信息，该标识信息用于指示该第一测试数据的重复次数或该相似度的信息。

结合第三方面，在第三方面的某些可能的实现方式中，该处理模块具体用于：基于自然语言处理算法对该第一测试数据与该第二测试数据进行对比，确定该第一测试数据和该第二测试数据的相似度。

结合第三方面，在第三方面的某些可能的实现方式中，该处理模块具体用于：基于该第一测试数据，确定对该目标产品的竞品进行测试，该第一测试数据用于指示该目标产品的至少一个特征，该竞品是指该目标产品对应的同类产品；该处理模块还用于：对该目标产品的竞品进行测试生成测试报告，其中，该测试报告包括该竞品基于所述第一测试数据中的该至少一个特征的测试结果；该收发模块还用于：输出该测试报告。

结合第三方面，在第三方面的某些可能的实现方式中，该处理模块具体用于：基于该第一测试数据，确定对该竞品进行测试的量化值，该量化值用于指示该测试的价值；该处理模块还用于：当该量化值大于第二阈值时，确定对该目标产品的竞品进行测试。

结合第三方面，在第三方面的某些可能的实现方式中，该处理模块还用于：确定该目标产品是否存在该竞品。

第四方面，提供了一种应用于处理平台数据分析的装置，该装置包括：收发模块，用于获取目标产品的第一测试数据，该第一测试数据用于指示该目标产品的至少一个特征，该竞品是指该目标产品对应的同类产品；处理模块，用于基于该第一测试数据，确定对该目标产品的竞品进行测试；该处理模块，用于对该目标产品的竞品进行测试生成测试报告，其中，该测试报告包括该竞品基于所述第一测试数据中的该至少一个特征的测试结果；该收发模块，还用于输出该测试报告。

结合第四方面，在第四方面的某些可能的实现方式中，该处理模块具体用于：基于该第一测试数据，确定对该竞品进行测试的量化值，该量化值用于指示该测试的价值；该处理模块还用于：当该量化值大于第二阈值时，确定对该目标产品的竞品进行测试。

结合第四方面，在第四方面的某些可能的实现方式中，该收发模块还用于：确定该目标产品是否存在该竞品。

第五方面，提供了一种应用于处理平台数据分析的装置，包括处理器。该处理器与存储器耦合，可用于执行存储器中的指令，以实现上述任一方面以及任一方面的任一种可能实现方式中的方法。

可选地，该装置还包括存储器。可选地，该装置还包括通信接口，处理器与通信接口耦合。

在一种实现方式中，该装置可以是服务器。当该装置为服务器时，所述通信接口可以是收发器，或，输入/输出接口。

在另一种实现方式中，该装置可以是配置于服务器中的芯片。当装置为配置于服务器中的芯片时，所述通信接口可以是芯片的输入/输出接口。

可选地，所述收发器可以为收发电路。可选地，所述输入/输出接口可以为输入/输出电路。

示例性地，该装置可以包括收发模块，收发模块可以包括接收模块和发送模块。例如，发送模块可以是发射机，接收模块可以是接收机；该装置还可以包括处理模块，该处理模块可以是处理器；该装置还可以包括存储模块，该存储模块可以是存储器；该存储模块用于存储指令，该处理模块执行该存储模块所存储的指令，以使该装置执行上述任一方面及其可选实施方式之一中的方法。当该是装置内的芯片时，该处理模块可以是处理器，该接收模块/发送模块可以是输入/输出接口、管脚或电路等；该处理模块执行存储模块所存储的指令，以使该装置执行上述任一方面及其可选实施方式之一中的方法，该存储模块可以是该芯片内的存储模块(例如，寄存器、缓存等)，也可以是该装置内的位于该芯片外部的存储模块(例如，只读存储器、随机存取存储器等)。

第六方面，提供了一种处理器，包括：输入电路、输出电路和处理电路。所述处理电路用于通过所述输入电路接收信号，并通过所述输出电路发射信号，使得所述处理器执行任一方面以及任一方面的任一种可能实现方式中的方法。

在具体实现过程中，上述处理器可以为芯片，输入电路可以为输入管脚，输出电路可以为输出管脚，处理电路可以为晶体管、门电路、触发器和各种逻辑电路等。输入电路所接收的输入的信号可以是由例如但不限于接收器接收并输入的，输出电路所输出的信号可以是例如但不限于输出给发射器并由发射器发射的，且输入电路和输出电路可以是同一电路，该电路在不同的时刻分别用作输入电路和输出电路。本申请实施例对处理器及各种电路的具体实现方式不做限定。

第七方面，提供了一种处理装置，包括处理器和存储器。该处理器用于读取存储器中存储的指令，并可通过接收器接收信号，通过发射器发射信号，以执行任一方面以及第一方面的任一种可能实现方式中的方法。

可选地，所述处理器为一个或多个，所述存储器为一个或多个。

可选地，所述存储器可以与所述处理器集成在一起，或者所述存储器与处理器分离设置。

在具体实现过程中，存储器可以为非瞬时性(non-transitory)存储器，例如只读存储器(read only memory，ROM)，其可以与处理器集成在同一块芯片上，也可以分别设置在不同的芯片上，本申请实施例对存储器的类型以及存储器与处理器的设置方式不做限定。

应理解，相关的数据交互过程例如获取目标产品的第一测试数据可以为从处理器输出第一测试数据的过程。具体地，处理输出的数据可以输出给发射器，处理器接收的输入数据可以来自接收器。其中，发射器和接收器可以统称为收发器。

上述第七方面中的一种处理装置可以是一个芯片，该处理器可以通过硬件来实现也可以通过软件来实现，当通过硬件实现时，该处理器可以是逻辑电路、集成电路等；当通过软件来实现时，该处理器可以是一个通用处理器，通过读取存储器中存储的软件代码来实现，该存储器可以集成在处理器中，可以位于该处理器之外，独立存在。

第八方面，提供了一种计算机程序产品，所述计算机程序产品包括：计算机程序(也可以称为代码，或指令)，当所述计算机程序被运行时，使得计算机执行上述任一方面以及任一方面中的任一种可能实现方式中的方法。

第九方面，提供了一种计算机可读介质，所述计算机可读介质存储有计算机程序(也可以称为代码，或指令)当其在计算机上运行时，使得计算机执行上述任一方面以及任一方面中的任一种可能实现方式中的方法。

附图说明

图1是本申请实施例应用的场景的一种实现方式的示意图；

图2是本申请实施例应用的一种舆情问题分析系统的示意图；

图3是本申请实施例的应用于处理平台数据分析的方法的示意性流程图；

图4是本申请实施例的应用于处理平台数据分析的方法的另一示意性流程图；

图5是本申请实施例的应用于处理平台数据分析的方法的再一示意性流程图；

图6是本申请实施例的应用于处理平台数据分析的装置的示意性框图；

图7是本申请实施例的应用于处理平台数据分析的装置的另一示意性框图。

具体实施方式

下面将结合附图，对本申请中的技术方案进行描述。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。其中，在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，在本申请实施例的描述中，“多个”是指两个或多于两个。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

本申请实施例提供的应用于处理平台数据分析的方法可以应用于手机、平板电脑、可穿戴设备、车载设备、增强现实(augmented reality，AR)/虚拟现实(virtualreality，VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本、个人数字助理(personal digital assistant，PDA)等电子设备上，本申请实施例对电子设备的具体类型不作任何限制。

需要说明的是，本申请的实施例中应用于处理平台数据分析的方法可以应用于电子设备中，例如，可以是浏览器的数据分析处理，也可以应用于电子设备的应用市场中的数据分析，其中，应用市场可以称为应用商店(APP store)，专门为移动设备手机，平板电脑等提供收费(免费)游戏，应用下载服务的电子应用商店。应理解，本申请对此不作任何限定。

图1是本申请实施例应用的场景的一种实现方式的示意图。

如图1所示，可以服务器101和多个节点102。服务器101用于向获取多个节点102关于产品的测试数据，从而对获取的测试数据进行处理。

服务器101可以为具有处理功能的设备，例如可以包括当前技术已知的任何计算设备，如台式计算机等等。服务器101中可以包括存储器和处理器。存储器可以用于存储程序代码，例如，操作系统以及其他应用程序。处理器可以用于调用存储器存储的程序代码，以实现相应功能。服务器中包括的处理器和存储器可以通过芯片实现，此处不作具体的限定。

多个节点102可以是不同的客户端，或者，也可以是多个用户使用的发送测试数据的电子设备，此处不作具体的限定。

需要说明的是，服务器101可以是一个服务器，也可以是多个服务器。即在服务器101中具有如图2所示的系统200，系统200中可以包括众测问题收集模块、众测问题处理模块以及众测结果输出模块。当服务器101是一个服务器时，服务器101中可以包括系统200中的全部模块。当服务器101是多个服务器时，系统200中不同的模块可以分别位于不同的服务器中。本申请的应用于处理平台数据分析的方法可以应用于图1所示的场景，处理平台可以具有图2所示的系统200。

目前现有的舆情问题处理平台可以获取用户的众测数据，众测数据可以看作是用户提交的测试数据，即服务器101在接收到多个节点102发送的测试数据时，将全部测试数据汇总到数据库，然后依赖于后台人工进行测试数据的分析判断。其中，测试数据可以是产品发布前，用户体验产品后提交的数据。测试数据也可以是产品发布后，用户使用产品的反馈意见及建议。根据分析测试数据能够有效的提高产品各方面的性能。

下面对本申请实施例涉及的众测数据处理的术语进行简单说明。

1、众测：是众包在软件和产品测试上面的延伸。是一个使广大的互联网用户能够第一时间体验到新产品，从用户体验的角度出发，对新产品提出改进建议，以及各种bug反馈，以便于及时地改善产品质量。

例如，百度众测目前包括“外部用户测试平台”，“内部员工测试平台”和“开发者平台云众测”。

2、众测平台主要有以下几种测试类型：

①产品找茬类项目

通过用户体验一款新产品，提交该产品的bug或提出对该产品的建议。审核通过后将获得丰厚礼券奖励，部分项目还有额外的实物礼品奖励。

②快速判断类项目

可以采用简单的单选题，使用户可以快速的完成判断。只要用户的正确率和答题量达到一定要求，就能获得礼券奖励。

③问卷调查类项目

用户可以完成在线问卷调查，从而可以获得相应礼券奖励。

④实地调研类项目

实地调研类项目通常是有地域限制的。例如，可以以北京地区用户为主，用户需要到北京的公司与员工进行面对面交流。

⑤APP评测类项目

用户可以在第一时间体验最新的APP。在试用后对该APP做一个整体评价。评价被开发者采纳后将能获得相应的礼券奖励。

⑥其他项目

3、众测问题

指关于产品相关功能或属性，用户提出的使用建议或意见等。

4、竞品分析

竞品分析的内容可以由两方面构成：客观和主观。客观即从竞争对手或市场相关产品中，圈定一些需要考察的角度，得出真实的情况；此时，不需要加入任何个人的判断，应该用事实说话。主观是一种接近于用户流程模拟的结论，比如可以根据事实(或者个人情感)，列出竞品或者目标产品的优势与不足。

例如，终端设备上多个不同厂商的浏览器属于竞品，或者在终端设备上不同厂商的应用市场也属于竞品。

5、舆情分析

通过对海量网络舆论信息进行实时的自动采集，分析，汇总，监视，并识别其中的关键信息，进行处理分析的过程。

目前，为了提高产品的质量和用户体验，可以通过舆情问题处理平台发布众测任务。例如，可以设置各种激励措施促使用户提交产品问题报告，通过舆情问题处理平台收集到众测问题报告进行汇总，分析人员定期从平台导出产品问题报告进行人工分析，提取产品bug和体验问题。

但是，对于目前的数据处理平台并不具备分析数据的功能，即处理平台无法从获取的测试数据中进行有效数据的筛选。

例如，处理平台无法检测用户刷单行为，用户刷单行为可以是同一用户为了获取奖励通过变换措辞向平台提交多次相似的测试数据。

例如，处理平台也无法对获取的测试数据进行重复性检测，重复性检测即多个独立的用户提交测试数据时，无法避免不同用户提交相似的测试数据。

此外，对于特定类型的问题需要针对竞争产品进行对比测试，其中，竞品即测试数据对应目标产品的同类产品。依赖人工同时测试多个竞争产品的情况再分析判断，会导致数据处理的效率较低，无法满足产品迭代更快速节奏下需要对产品进行多轮测试的要求。

有鉴于此，本申请提出了一种应用于处理平台数据分析的方法，使得处理平台获取目标产品对应的测试数据后，能够对获取的测试数据进行筛选，确定该测试数据是否需要收集至数据库，数据库中的测试数据可以用于指示产品的测试结果。同时，对于数据库中的测试数据，处理平台还可以确定是否需要对目标产品的竞品进行测试，输出竞品的测试报告。通过采用本申请的应用于处理平台数据分析的方法，能够提高处理数据的效率。

以下，为了便于理解和描述，结合图3至图5对本申请实施例中应用于处理平台数据分析的方法进行详细说明。

图3是本申请实施例提供的应用于处理平台数据分析的方法300的示意性流程。下面，对方法300中的各个步骤进行详细说明。图3所示的方法可以应用于图1所示的场景下，例如，可以是图1中的服务器101执行方法300中的各个步骤。本申请实施例中的服务器101可以是传统的服务器，也可以是云服务器。其中，云服务器是一种简单高效、安全可靠、处理能力可弹性伸缩的计算服务，其管理方式比物理服务器更简单高效，用户无需提前购买硬件，即可迅速创建或释放任意多台云服务器。图3包括以下步骤：

在步骤301中，获取目标测试产品的第二测试数据。

在步骤310中，获取目标测试产品的第一测试数据。

需要说明的是，在本申请的实施例中，处理平台获取第二测试数据的时刻早于获取第一测试数据的时刻，即处理平台可以先获取目标产品的第二测试数据，再获取目标产品的第一测试数据。

在一种可能的实施方式中，第一测试数据和第二测试数据可以是未收集至数据库中的测试数据。

在另一种可能的实现方式中，第二测试数据可以是进行分析后发送至数据库中的测试数据，即第二测试数据可以是收集至数据库中的测试数据。

在步骤320中，对第一测试数据和第二测试数据进行对比，确定第一测试数据和第二测试数据的相似度。

在一种可能的实施方式中，可以是获取第二测试数据和第一测试数据之后，对第一测试数据与第二测试数据进行对比，确定第一测试数据与第二测试数据的相似度，根据相似度确定是否收集第一测试数据或第二测试数据。

在另一种可能的实现方式中，第二测试数据可以是收集至数据库中的测试数据，获取第一测试数据之后，对第一测试数据与数据库中的第二测试数据进行对比，确定第一测试数据与第二测试数据的相似度，根据相似度确定是否收集第一测试数据。

示例性地，可以基于自然语言处理算法对所述第一测试数据与所述第二测试数据进行对比，确定所述第一测试数据和所述第二测试数据的相似度。

例如，可以通过以下过程确定第一测试数据和第二测试数据的相似度：

第一步：可以对获取的第一测试数据和第二测试数据分别进行清洗处理，减少问题描述中的冗余内容，提取关键信息。

第二步：基于专用词汇库，对清洗处理后的第一测试数据和第二测试数据分别进行分词处理，分别提取第一测试数据和第二测试数据中关键词的信息。

第三步：将处理后的第一测试数据和第二测试数据通过自然语言处理算法进行处理，确定经过处理后的第一测试数据和第二测试数据的相似度。

其中，可以通过语义分析、doc2vec等算法计算处理后的第一测试数据和第二测试数据的相似度。

在步骤330中，根据第一测试数据和第二测试数据的相似度，确定是否收集所述第一测试数据。

也就是说，根据第一测试数据和第二测试数据的相似度，确定是否处理所述第一测试数据。例如，可以是确定第一测试数据是否为待收集数据。

示例性地，当所述相似度小于第一阈值时，确定收集所述第一测试数据。

示例性地，当所述相似度大于第一阈值时，根据所述第一测试数据与所述第二测试数据是否属于同一用户确定是否收集所述第一测试数据。

也就是说，当获取的第一测试数据与第二测试数据之间的相似度大于第一阈值时，此时第一测试数据与第二测试数据可以是相似的测试数据，需要进一步判断第一测试数据与第二测试数据是否为同一用户提交的测试数据，进而确定是否收集该第一测试数据。

应理解，在本申请的实施例中，第一测试数据和第二测试数据可以是来自不同用户的测试数据，也可以是来自相同用户的测试数据。

若第一测试数据和第二测试数据来自同一用户，则需要确定第一测试数据是否为同一用户多次提交的无效数据。

例如，假设第一测试数据和第二测试数据均来自第一用户，处理平台可以先获取第二测试数据，再接收来自该用户的第一测试数据。此时，处理平台需要分析判断，第一测试数据是否为该用户的刷单数据，其中，刷单数据可以看作是用户为了获取处理平台的奖励而通过变换措辞，但其实质内容是相同的测试数据。在第一测试数据与第二测试数据的相似度大于第一阈值时，例如，第一测试数据可以是第二测试数据的刷单数据，确定不收集第一测试数据。

若第一测试数据和第二测试数据来自不同的用户，则需要确定第一测试数据和第二测试数据是否为相似数据。

对于多个用户独立提交的测试数据，无法避免不同的用户提交的是相似的测试数据。此时，可以对接收到的除第一个测试数据外的其它的相似数据标记为重复测试数据。

在一种可能的实现方式中，当所述相似度大于第一阈值且所述第一测试数据和所述第二测试数据属于不同用户时，确定收集所述第一测试数据；并对第一测试数据增加标识信息，标识信息可以用于指示第一测试数据的重复次数或所述相似度的信息。

在本申请的实施例中，当第一测试数据和第二测试数据属于不同用户时，对第一测试数据与第二测试数据进行分析处理后，确定第一测试数据与第二测试数据的相似度大于第一阈值时，则可以说明第一测试数据和第二测试数据可以是不同的用户提交的相似数据。此时，可以对处理平台接收到的除第一个测试数据外的其它的相似测试数据标记为重复测试数据。在导出汇总的测试数据时，可以对重复测试数据不进行多次人工分析。

例如，可以通过以下流程确定第一测试数据和第二测试数据是不同用户发送的相似数据。

第一步：将清洗、分词后的第一测试数据和第二测试数据分别通过词袋模型表示为向量。

第二步：对第一测试数据和第二测试数据的向量进行TF-IDF建模，在测试数据向量中增加词的权重值。

第三步：将包含词权重的TF-IDF向量映射到语义空间中，生成LSI(潜在语义索引)向量，从而提取第一测试数据和第二测试数据的语义概念。

第四步：对所有测试数据的语义概念进行分析，通过余弦定理计算出众测试数据间的相似度，相似度大于或等于第一阈值即可以看作是相似测试数据；将不同用户提交的相似测试数据，除第一个测试数据外，均标记为重复数据。

在一种可能的实现方式中，在第一测试数据和第二测试数据属于不同用户，并且确定收集所述第一测试数据时，可以在第一测试数据上增加标识信息，标识信息可以用于指示第一测试数据的重复次数或所述相似度的信息。

示例性地，第一测试数据中可以包括指示“视频加载失败”的信息，处理平台处理第一测试数据后可以将处理结果通过网页形式展示。

例如，输出的网页可以显示“视频加载失败[重复:2]”。即可以表示第一测试数据是不同用户的相似数据，重复次数为2次。

在一种可能的实现方式中，第一测试数据中的标识信息还可以指示第一测试数据对应的相似测试数据，例如，可以指示第一测试数据对应的相似测试数据是第二测试数据相似。根据第一测试数据和第二测试数据的相似度，确定收集第一测试数据，则执行步骤331。或者，根据第一测试数据和第二测试数据的相似度，确定不收集第一测试数据，则执行步骤332。

例如，在确定第一测试数据与第二测试数据的相似度小于第一阈值时，则处理平台可以确定第一测试数据和第二测试数据不是相似数据，因此，收集第一测试数据和第二测试数据至数据库。

示例性地，当相似度大于第一阈值且所述第一测试数据和所述第二测试数据属于同一个用户时，确定不收集所述第一测试数据。

在本申请的实施例中，当对第一测试数据与第二测试数据进行分析处理后，确定第一测试数据与第二测试数据的相似度大于第一阈值时，则可以说明第一测试数据为同一用户发送的无效数据。即可以看作是同一用户为了获取处理平台奖励机制的刷单数据。在确定第一测试数据是无效数据时，可以不收集第一测试数据，即可以不发送第一测试数据至数据库。

示例性地，在第一测试数据和第二测试数据来自同一用户，确定不收集第一测试数据时，还可以向所述第一测试数据对应的用户发送第一信息，所述第一信息用于指示所述第一测试数据提交失败。

示例性地，在处理平台分析处理后，可以确定第一测试数据是无效测试数据时(例如，刷单数据)，可以向第一测试数据对应的用户发送第一信息，指示第一测试数据提交失败。同时，处理平台还可以启动权限管理。例如，处理平台可以对该用户设置提交权限，即处理平台可以不再接收该用户提交的无效测试数据。

可选地，所述方法还包括：在确定收集第一测试数据时，还可以将第一测试数据发送至数据库，对所述第一测试数据进行判断，识别出是否需要进行竞品对比测试。

需要说明的是，竞品对比测试可以是对目标产品的竞品基于第一测试数据中的信息进行检测。例如，第一测试数据中包括“使用华为浏览器打开A网站时，字体排版出错”，则竞品测试可以是华为浏览器对应的同类产品，竞品测试可以是“使用360浏览器测试打开A网站是否存在同样的字体出错的问题”。

也就是说，当确定收集第一测试数据时，处理平台还可以对第一测试数据进行以下处理：基于所述第一测试数据，确定对所述目标产品的竞品进行测试，所述第一测试数据用于指示所述目标产品的至少一个特征，所述竞品是指所述目标产品对应的同类产品；对所述目标产品的竞品进行测试生成测试报告，其中，所述测试报告包括所述竞品基于所述第一测试数据中的所述至少一个特征的测试结果；输出所述测试报告。

在本申请的实施例中，处理平台可以对获取的测试数据的相似性进行判断，确定第一测试数据是否需要处理，即可以是确定是否收集第一测试数据。在确定收集第一测试数据时，可以进一步进行智能判断，识别第一测试数据是否需要启动竞品对比测试，从而可以输出测试报告。通过本申请的应用于处理平台数据分析的方法，能够根据获取测试数据的相似度确定是否收集该测试数据，同时还能够判断是否生成该测试数据对应竞品的测试报告，从而提高了处理数据的效率。

示例性地，所述基于所述第一测试数据，确定对所述目标产品的竞品进行测试，包括：

基于所述第一测试数据，确定对所述竞品进行测试的量化值，所述量化值用于指示所述测试的价值；当所述量化值大于第二阈值时，确定对所述目标产品的竞品进行测试。

可选地，所述方法还包括：确定所述目标产品是否存在所述竞品。

也就是说，在对第一测试数据对应的目标产品确定是否进行竞品测试时，首先可以确定所述目标产品是否存在竞品；当确定目标产品存在竞品时，可以根据第一测试数据确定对目标产品的竞品进行测试的量化值，在量化值大于第二阈值时，则确定对所述目标产品的竞品进行测试。

例如，处理平台可以基于第一测试数据所属产品类型、模块分类、关键特征等因子，通过决策树算法模拟计算出竞品测试的价值，如果价值大于阈值则启动竞品测试，否则不启动竞品测试。

在一个可能的实现方式中，在对目标产品对应的竞品进行测试时，例如，可以采用图像分割、模式匹配技术，对比判断在相同的操作后目标产品与竞品的页面差异，如果页面没有差异，则实现与竞品相同，该测试数据判定为无效问题；如果页面有差异，则判定为有效问题。

例如，第一测试数据中包括“使用华为浏览器打开B网站时，图片显示不完整”，则竞品测试可以是华为浏览器对应的同类产品，竞品测试可以是“使用360浏览器测试打开B网站是否存在同样的图片显示不完整”。若360浏览器打开B网站时，也存在同样的图片显示不完整的问题，则说明第一测试数据中包括的信息可以是浏览器共同存在的问题，此时第一测试数据可以是无效数据。若360浏览器打开B网站时，图片显示完整，则说明是华为浏览器需要进行相关性能的提升，此时第一测试数据中包括的信息是有效的。

应理解，本申请实施例中进行竞品分析时采用的图像分割，图像分割可以是指把图像分成若干个特定的、具有特殊性质的区域并提出感兴趣目标的技术和过程。图像分割方法可以有多种，例如，基于深度学习的分割方法、基于阈值的分割方法、基于区域的分割方法、基于边缘的分割方法以及基于特定理论的分割方法等。

在本申请的实施例中，处理平台可以根据第一测试数据和第二测试数据的相似度，确定是否收集第一测试数据，进一步可以判断对第一测试数据是否需要进行竞品测试。例如，处理平台能够实现用户刷单(同一用户重复提交相似的测试数据)，多用户提交测试数据重复的判断，以及对于某个测试数是否进行竞品测试，避免了大量人工分析过程，从而能够提高处理数据的效率。

图4示出了根据本申请实施例的应用于处理平台数据分析的方法400的示意性流程图，如图4所示，该方法400包括：

S401、开始。

S402、提交问题报告。

也就是说，用户在众测平台提交众测问题测试数据，众测平台接收获取的测试数据。

示例性地，可以是用户向舆情问题处理平台提交测试数据，测试数据可以用于指示目标产品的至少一个特征。

例如，测试数据可以是用户使用目标产品时的建议或者意见，也可以是用户使用目标产品的体验。可以通过用户反馈的测试数据，进一步提高目标产品的产品质量或相关性能。

S403、众测处理平台检测是否存在刷单行为。

具体地，上述步骤S403对用户提交的众测问题进行刷单检测，可以通过如下步骤实现：

S4031、对该用户已提交的问题与正在提交问题合并分析，将获取到的众测问题进行清洗处理，减少问题描述中的冗余内容，提取关键信息；

S4032、基于专用词汇库，对S4031清洗处理后的众测问题进行分词处理，提取众测问题的关键词；

S4033、对S4032处理后的众测问题通过自然语言处理算法进行处理，通过语义分析、doc2vec等算法计算众测问题间的相似度；

S4034、将S4033处理后的众测问题相似度与预先设置的置信阈值(例如，第一阈值)比对，从而给出用户是否刷单的判定。若判定用户刷单，则用户测试报告提交失败，执行S404；若用户未刷单，则执行S405将该用户提交的众测问题汇总到数据库。

在一种可能的实现方式中，在执行S404时还可以提醒用户，并启动权限管理。

例如，设置权限次数3次，则该用户在提交3次刷单数据后，无法再向处理平台提交任何测试数据。

S406、问题报告导出。

即可以是将汇总至数据库的问题报告(例如，测试数据)进行导出，导出后可以向分析人员提供汇总数据。

需要说明的是，步骤S406是分析人员触发导出后进行的问题报告导出，导出时机可以是在S405问题报告汇总之后，也可以是在S407重复问题处理或者S408竞品对比之后，本申请对S406问题报告导出的时机不作任何限定。

S407、重复问题处理。

具体地，上述步骤S407对处理后汇总的有效众测问题进行重复问题判断，可以通过如下步骤实现：

S4071、将清洗、分词后的众测问题通过词袋模型表示为向量；

S4072、对众测问题向量进行TF-IDF建模，在众测问题向量中增加词的权重值；

S4073、将包含词权重的TF-IDF向量映射到语义空间中，生成LSI(潜在语义索引)向量，从而提取中众测问题中的语义概念；

S4074对所有众测问题的语义概念进行分析，通过余弦定理计算出众测问题之间的相似度，相似度大于等于第一阈值的即为重复问题；将不同用户提交的相似问题，除第一个问题外，均标记为重复问题。

S408、竞品对比。

具体地，上述步骤S408对处理后汇总的有效众测问题智能启动竞品对比测试，可以通过如下步骤实现：

S4081、基于问题所属产品类型、模块分类、关键特征等因子，通过决策树算法模拟计算出竞品对比测试的价值，如果价值大于阈值(例如，第二阈值)则启动竞品对比测试，否则不启动竞品对比；

S4082、启动竞品对比后，采用图像分割、模式匹配技术，对比判断相同操作后众测产品与竞品的页面差异，如果页面没有差异，则实现与竞品相同，该问题判定为无效问题；如果页面有差异，则判定为有效问题。

应理解，对于汇总到数据库的问题报告可以分别进行重复问题处理和竞品分析。其中，重复问题处理和竞品分析的执行顺序不进行限定。即对于一个数据库中的问题报告(例如，第一测试数据)，可以先进行重复问题处理再进行判断是否进行竞品测试。也可以先判断是否进行竞品测试再进行重复问题处理。

S409、众测问题分析报告。

例如，对竞品测试、重复问题判断处理后的结果进行汇总，将结果输出到Excel文件中，方便人工进行结果确认，并输出众测情况图表展示。

根据本申请实施例提供的上述方法能够实现众测问题即时分析，例如，采用自然语言处理算法和图像对比测试技术对众测问题进行自动处理，辅助进行问题分析、Bug提取，大幅降低了人力成本、提高了众测平台处理数据的效率。

下面结合图5，对进行竞品测试的流程进行具体的说明。应理解，图5所示的流程可以不与图3或图4所示的流程耦合，即图5所示的流程可以是不依赖于图3或图4所示的流程。如图5所示，该方法500包括：

S510、获取目标产品的第一测试数据。

示例性地，第一测试数据可以是直接从用户处获取的测试数据。第一测试数据也可以是经过处理平台分析处理后的发送至数据库中的测试数据，本申请对第一测试数据不作任何限定。

S511、判断目标产品是否存在竞品。

例如，根据第一测试数据所属产品类型、模块分类、关键特征等因子判断目标产品是否存在竞品。

当目标产品存在竞品时，执行步骤S513；当目标产品不存在竞品时，执行步骤S512确定不进行竞品测试。

S513、基于第一测试数据，确定竞品测试的量化值。

其中，量化值用于指示所述测试的价值。可以通过决策树算法或者其它算法模拟计算出竞品对比测试的价值，即计算出竞品测试的量化值。

应理解，上述决策树算法为举例说明，还可以是与决策树算法具有相同功能的其它算法，本申请对此不作限定。

S514、判断量化值是否大于第二阈值。

若量化值大于第二阈值，说明对目标产品的竞品进行测试的价值较大，则执行步骤S520；若量化值大于第二阈值，说明对目标产品的竞品进行测试的价值较小，则执行步骤S512确定不进行竞品测试。价值大小可以看作是对目标产品的同类产品进行测试对提升目标产品的产品质量等相关性能的价值大小。

S520、基于第一测试数据，确定对目标产品的竞品进行测试。

在量化值大于第二阈值时，处理平台可以确定需要对第一测试数据启动竞品测试。

S530、对目标产品的竞品进行测试生成测试报告。

在一种可能的实现方式中，启动竞品测试后可以采用图像分割、模式匹配技术，对比判断相同操作后目标产品与竞品的页面差异。若页面没有差异，则实现与竞品相同，该第一测试数据判定为无效问题；若页面有差异，则判定为有效问题。

S540、输出测试报告。

例如，对竞品对比测试处理后的结果进行汇总，将结果输出到Excel文件中，方便人工进行结果确认，并输出众测情况图表展示。

通过本申请的实施例，处理平台可以判断对第一测试数据是否需要进行竞品测试。在需要启动竞品测试时，可以输出测试报告。避免了大量的人工分析过程，从而能够提高处理数据的效率。

应理解，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

上文详细描述了根据本申请实施例的应用于处理平台数据分析的方法，可以确定最新获取的测试数据(例如，第一测试数据)是否为待收集数据，进一步可以判断对第一测试数据是否需要进行竞品测试。例如，处理平台能够实现用户刷单(同一用户重复提交相似的测试数据)，多用户提交测试数据重复的判断，以及对于某个测试数是否进行竞品测试，避免了大量人工分析过程，从而能够提高处理数据的效率。应理解，本申请实施例的应用于处理平台数据分析的装置可以执行前述本申请实施例的各种方法，即以下各种产品的具体工作过程，可以参考前述方法实施例中的对应过程。

图6是本申请实施例的装置600的示意性框图(图6中的装置可以是图1中的服务器)。应理解，装置600能够执行图3至图5的方法中的各个步骤，为了避免重复，此处不再详述。装置600包括：收发模块610和处理模块620。

在一种可能的设计中，收发模块610，用于获取目标产品的第一测试数据；处理模块620，用于对所述第一测试数据与第二测试数据进行对比，确定所述第一测试数据与所述第二数据的相似度，所述第二测试数据的获取时刻早于所述第一测试数据的获取时刻；处理模块620，还用于根据所述相似度确定是否收集所述第一测试数据。

应理解，装置600包括的收发模块610和处理模块620的功能可以在同一个服务器中执行，即收发模块和处理模块可以包括在同一个服务器中，收发模块610和处理模块620的功能可以在不同服务器中执行，即收发模块和处理模块可以包括在多个服务器中。其中，收发模块610可以包括接收模块和发送模块，接收模块和发送模块的功能可以在同一个模块中执行，即接收模块和发送模块可以包括在同一个模块中；接收模块和发送模块的功能可以在不同的模块中执行。

可选地，所述处理模块620具体用于：当所述相似度小于第一阈值时，确定收集所述第一测试数据。

可选地，所述处理模块620具体用于：当所述相似度大于第一阈值时，根据所述第一测试数据与所述第二测试数据是否属于同一用户确定是否收集所述第一测试数据。

可选地，所述处理模块620具体用于：在所述第一测试数据和所述第二测试数据属于同一个用户时，确定不收集所述第一测试数据。

可选地，所述收发模块610还用于：向所述第一测试数据对应的用户发送第一信息，所述第一信息用于指示所述第一测试数据提交失败。

可选地，所述处理模块620具体用于：在所述第一测试数据和所述第二测试数据属于不同用户时，确定收集所述第一测试数据；在所述第一测试数据上增加标识信息，所述标识信息用于指示所述第一测试数据的重复次数或所述相似度的信息。

可选地，所述处理模块620具体用于：基于自然语言处理算法对所述第一测试数据与所述第二测试数据进行对比，确定所述第一测试数据和所述第二测试数据的相似度。

可选地，所述处理模块620具体用于：基于所述第一测试数据，确定对所述目标产品的竞品进行测试，所述第一测试数据用于指示所述目标产品的至少一个特征，所述竞品是指所述目标产品对应的同类产品；所述处理模块620还用于：对所述目标产品的竞品进行测试生成测试报告，其中，所述测试报告包括所述竞品基于所述第一测试数据中的所述至少一个特征的测试结果；所述收发模块610还用于：输出所述测试报告。

可选地，所述处理模块620还用于：基于所述第一测试数据，确定对所述竞品进行测试的量化值，所述量化值用于指示所述测试的价值；所述处理模块620还用于：当所述量化值大于第二阈值时，确定对所述目标产品的竞品进行测试。

可选地，所述处理模块620还用于：确定所述目标产品是否存在所述竞品。

在本申请的实施例中，处理平台可以基于先获取的测试数据(例如，第二测试数据)，确定是否收集最新获取的测试数据(例如，第一测试数据)。进一步可以判断对第一测试数据是否需要进行竞品测试。例如，处理平台能够实现用户刷单(同一用户重复提交相似的测试数据)，多用户提交测试数据重复的判断，以及对于某个测试数是否进行竞品测试，避免了大量人工分析过程，从而能够提高处理数据的效率。

在另一种可能的设计中，所述收发模块610，用于获取目标产品的第一测试数据，所述第一测试数据用于指示所述目标产品的至少一个特征，所述竞品是指所述目标产品对应的同类产品；所述处理模块620，用于基于所述第一测试数据，确定对所述目标产品的竞品进行测试；所述处理模块620，还用于对所述目标产品的竞品进行测试生成测试报告，其中，所述测试报告包括所述竞品基于所述第一测试数据中的所述至少一个特征的测试结果；所述收发模块610，还用于输出所述测试报告。

可选地，所述处理模块620具体用于：基于所述第一测试数据，确定对所述竞品进行测试的量化值，所述量化值用于指示所述测试的价值；所述处理模块620还用于：当所述量化值大于第二阈值时，确定对所述目标产品的竞品进行测试。

通过本申请的实施例，处理平台可以判断对第一测试数据是否需要进行竞品测试。在需要启动竞品测试时，可以输出测试报告如。避免了大量人工分析过程，从而能够提高处理数据的效率。

应理解，这里的装置600以功能单元的形式体现。这里的术语“模块/单元”可以指应用特有集成电路(application specific integrated circuit，ASIC)、电子电路、用于执行一个或多个软件或固件程序的处理器(例如共享处理器、专有处理器或组处理器等)和存储器、合并逻辑电路和/或其它支持所描述的功能的合适组件。在一个可选例子中，本领域技术人员可以理解，装置600可以具体为上述实施例中的第一节点，装置600可以用于执行上述方法实施例中各个流程和/或步骤，为避免重复，在此不再赘述。

上述各个方案的装置600具有实现上述方法相应步骤的功能；所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块；例如发送模块可以由发射机替代，接收模块可以由接收机替代，其它模块可以由处理器替代，分别执行各个方法实施例中的收发操作以及相关的处理操作。

在本申请的实施例，图6中的装置也可以是芯片或者芯片系统，例如：片上系统(system on chip，SoC)。对应的，接收模块和发送模块可以是该芯片的收发电路，在此不做限定。

图7示出了本申请另一个实施例的装置的示意性框图，包括至少一个处理器720(例如CPU)，至少一个网络接口740或者其他通信接口，和存储器760，这些部件之间通信连接。处理器720用于执行存储器760中存储的可执行模块，例如计算机程序。存储器760可能包含高速随机存取存储器(random access memory，RAM)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个网络接口740(可以是有线或者无线)实现与至少一个其他网元之间的通信连接。

在一些实施方式中，存储器760存储了程序711，处理器720执行程序711，用于执行前述本申请各种实施例中的方法。

例如，处理器可以用于执行上述图3中的S320对第一测试数据和第二测试数据进行对比，确定相似度；或者S330根据相似度确定是否收集第一测试数据。

例如，处理器可以用于执行图4中S403检测是否存在刷单行为、S407重复问题处理以及S408竞品对比。

例如，存储器760可以存储本申请实施例中的测试数据。处理器720用于执行例如图2所示的刷单检测、重复问题、竞品测试等，从而实施本申请实施例的技术方案。

可选地，装置还可以包括存储器，该存储器可以存储程序代码，处理器调用存储器存储的程序代码，以实现该装置的相应功能。

可选地，处理器和存储器可以通过芯片实现。

应理解，在本申请实施例中，上述装置的处理器可以是中央处理单元(centralprocessing unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在一种可能的实现方式中，上述存储器730可以包含在处理器710中。或者，可以理解为处理器710本身就可以执行存储器730的存储指令的功能，本申请实施例对此不作限定。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器执行存储器中的指令，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

应理解，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

本领域普通技术人员可以意识到，结合本文中所公开的实施例中描述的各方法步骤和单元，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各实施例的步骤及组成。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本申请实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种应用于处理平台数据分析的方法，其特征在于，所述方法包括：

获取目标产品的第一测试数据；

对所述第一测试数据与第二测试数据进行对比，确定所述第一测试数据与所述第二数据的相似度，所述第二测试数据的获取时刻早于所述第一测试数据的获取时刻；

根据所述相似度确定是否收集所述第一测试数据。

2.根据权利要求1所述的方法，其特征在于，所述根据所述相似度确定是否收集所述第一测试数据，包括：

当所述相似度小于第一阈值时，确定收集所述第一测试数据。

3.根据权利要求1或2所述的方法，其特征在于，所述根据所述相似度确定是否收集所述第一测试数据，包括：

当所述相似度大于第一阈值时，根据所述第一测试数据与所述第二测试数据是否属于同一用户确定是否收集所述第一测试数据。

4.根据权利要求3所述的方法，其特征在于，所述根据所述第一测试数据与所述第二测试数据是否属于同一用户确定是否收集所述第一测试数据，包括：

在所述第一测试数据和所述第二测试数据属于同一个用户时，确定不收集所述第一测试数据。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

向所述第一测试数据对应的用户发送第一信息，所述第一信息用于指示所述第一测试数据提交失败。

6.根据权利要求3所述的方法，其特征在于，所述根据所述第一测试数据与所述第二测试数据是否属于同一用户确定是否收集所述第一测试数据，包括：

在所述第一测试数据和所述第二测试数据属于不同用户时，确定收集所述第一测试数据；

在所述第一测试数据上增加标识信息，所述标识信息用于指示所述第一测试数据的重复次数或所述相似度的信息。

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述对所述第一测试数据与第二测试数据进行对比，确定所述第一测试数据与所述第二数据的相似度，包括：

基于自然语言处理算法对所述第一测试数据与所述第二测试数据进行对比，确定所述第一测试数据和所述第二测试数据的相似度。

8.根据权利要求1至7中任一项所述的方法，其特征在于，当确定收集所述第一测试数据时，所述方法还包括：

基于所述第一测试数据，确定对所述目标产品的竞品进行测试，所述第一测试数据用于指示所述目标产品的至少一个特征，所述竞品是指所述目标产品对应的同类产品；

对所述目标产品的竞品进行测试生成测试报告，其中，所述测试报告包括所述竞品基于所述第一测试数据中的所述至少一个特征的测试结果；

输出所述测试报告。

9.根据权利要求8所述的方法，其特征在于，所述基于所述第一测试数据，确定对所述目标产品的竞品进行测试，包括：

基于所述第一测试数据，确定对所述竞品进行测试的量化值，所述量化值用于指示所述测试的价值；

当所述量化值大于第二阈值时，确定对所述目标产品的竞品进行测试。

10.根据权利要求8或9所述的方法，其特征在于，所述方法还包括：

确定所述目标产品是否存在所述竞品。

11.一种应用于处理平台数据分析的方法，其特征在于，所述方法包括：

获取目标产品的第一测试数据，所述第一测试数据用于指示所述目标产品的至少一个特征，所述竞品是指所述目标产品对应的同类产品；

基于所述第一测试数据，确定对所述目标产品的竞品进行测试；

输出所述测试报告。

12.根据权利要求11所述的方法，其特征在于，所述基于所述第一测试数据，确定对所述目标产品的竞品进行测试，包括：

13.根据权利要求11或12所述的方法，其特征在于，所述方法还包括：

确定所述目标产品是否存在所述竞品。

14.一种应用于处理平台数据分析的装置，其特征在于，包括一个或多个处理器；存储器；多个应用程序；以及一个或多个计算机程序，其中所述一个或多个计算机程序被存储在所述存储器中，所述一个或多个计算机程序包括指令，当所述指令被所述装置执行时，使得所述装置执行以下步骤：

获取目标产品的第一测试数据；

根据所述相似度确定是否收集所述第一测试数据。

15.根据权利要求14所述的装置，其特征在于，当所述一个或者多个程序被所述处理器执行时，使得所述装置执行以下步骤：

16.根据权利要求14或15所述的装置，其特征在于，当所述一个或者多个程序被所述处理器执行时，使得所述装置执行以下步骤：

17.根据权利要求16所述的装置，其特征在于，当所述一个或者多个程序被所述处理器执行时，使得所述装置执行以下步骤：

18.根据权利要求17所述的装置，其特征在于，当所述一个或者多个程序被所述处理器执行时，使得所述装置执行以下步骤：

19.根据权利要求16所述的装置，其特征在于，当所述一个或者多个程序被所述处理器执行时，使得所述装置执行以下步骤：

20.根据权利要求14至19中任一项所述的装置，其特征在于，当所述一个或者多个程序被所述处理器执行时，使得所述装置执行以下步骤：

21.根据权利要求14至20中任一项所述的装置，其特征在于，当所述一个或者多个程序被所述处理器执行时，使得所述装置执行以下步骤：

输出所述测试报告。

22.根据权利要求21所述的装置，其特征在于，当所述一个或者多个程序被所述处理器执行时，使得所述装置执行以下步骤：

23.根据权利要求21或22所述的装置，其特征在于，当所述一个或者多个程序被所述处理器执行时，使得所述装置执行以下步骤：

确定所述目标产品是否存在所述竞品。

24.一种应用于处理平台数据分析的装置，其特征在于，其特征在于，包括一个或多个处理器；存储器；多个应用程序；以及一个或多个计算机程序，其中所述一个或多个计算机程序被存储在所述存储器中，所述一个或多个计算机程序包括指令，当所述指令被所述装置执行时，使得所述装置执行以下步骤：

输出所述测试报告。

25.根据权利要求24所述的装置，其特征在于，当所述一个或者多个程序被所述处理器执行时，使得所述装置执行以下步骤：

26.根据权利要求24或25所述的装置，其特征在于，当所述一个或者多个程序被所述处理器执行时，使得所述装置执行以下步骤：

确定所述目标产品是否存在所述竞品。

27.一种计算机存储介质，其特征在于，包括计算机指令，当所述计算机指令在电子设备上运行时，使得所述电子设备执行如权利要求1-10或11-13中任一项所述的应用于处理平台数据分析的方法。

28.一种计算机程序产品，其特征在于，当所述计算机程序产品在计算机上运行时，使得所述计算机执行如权利要求1-10或11-13中任一项所述的应用于处理平台数据分析的方法。