CN114036293B

CN114036293B - 数据处理方法、装置及电子设备

Info

Publication number: CN114036293B
Application number: CN202111295422.2A
Authority: CN
Inventors: 张鹏; 严明; 肖央; 邹越
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-11-03
Filing date: 2021-11-03
Publication date: 2023-06-06
Anticipated expiration: 2041-11-03
Also published as: CN114036293A

Abstract

本申请提供了一种数据处理方法、装置、电子设备、计算机程序产品及计算机可读存储介质；方法包括：获取针对目标应用的多个目标数据；对所述多个目标数据进行故障识别处理，得到所述多个目标数据中的多个故障数据；对每个所述故障数据进行分词处理，得到每个所述故障数据的至少一个关键词；针对多个所述故障数据进行基于所述关键词的聚类处理，得到所述目标应用的多个故障数据聚类；根据每个所述故障数据聚类的故障数据的关键词，确定对应每个所述故障数据聚类的故障标签。通过本申请，能够通过各个聚类的故障标签缩减故障数据的数量级以及提高准确度，从而有效提高故障响应速度。

Description

数据处理方法、装置及电子设备

技术领域

本申请涉及人工智能技术，尤其涉及一种数据处理方法、装置、电子设备、计算机程序产品及计算机可读存储介质。

背景技术

人工智能(AI，Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统。

应用发布上线之后，在用户的实际使用过程中会存在各种故障问题，开发人员基于用户反馈的故障问题提出解决方案并对应用进行更新，从而有效保证用户的使用体验，相关技术中会人工收集用户反馈的故障问题，虽然人工收集的方式可靠，但是人工收集方式的故障问题获取效率较低，相关技术中还会通过爬虫技术收集故障问题，但是难以保证故障问题获取准确度。

相关技术中难以在保证故障问题获取效率的同时还保证故障问题的获取准确度。

发明内容

本申请实施例提供一种数据处理方法、装置、电子设备、计算机程序产品及计算机可读存储介质，能够通过各个聚类的故障标签缩减故障数据的数量级以及提高准确度，从而有效提高故障响应速度。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种数据处理方法，包括：

获取针对目标应用的多个目标数据；

对所述多个目标数据进行故障识别处理，得到所述多个目标数据中的故障数据；

对每个所述故障数据进行分词处理，得到每个所述故障数据的至少一个关键词；

针对多个所述故障数据进行基于所述关键词的聚类处理，得到所述目标应用的多个故障数据聚类；

根据每个所述故障数据聚类的故障数据的关键词，确定对应每个所述故障数据聚类的故障标签。

本申请实施例提供一种数据处理装置，包括：

获取模块，用于获取针对目标应用的多个目标数据；

识别模块，用于对所述多个目标数据进行故障识别处理，得到所述多个目标数据中的故障数据；

分词模块，用于对每个所述故障数据进行分词处理，得到每个所述故障数据的至少一个关键词；

聚类模块，用于针对多个所述故障数据进行基于所述关键词的聚类处理，得到所述目标应用的多个故障数据聚类；

标签模块，用于根据每个所述故障数据聚类的故障数据的关键词，确定对应每个所述故障数据聚类的故障标签。

在上述方案中，所述故障识别处理是通过第一自然语言模型实现的，所述第一自然语言模型包括第一嵌入层以及语义分类层，所述识别模块，还用于：针对每个所述目标数据执行以下处理：通过所述第一嵌入层对所述目标数据进行序列化处理，得到所述目标数据中每个字符的嵌入向量；通过所述第一嵌入层对评论分类标识进行序列化处理，得到所述评论分类标识的嵌入向量；基于每个所述字符的嵌入向量以及所述评论分类标识的嵌入向量，生成向量序列；其中，所述评论分类标识的嵌入向量位于所述向量序列的首位，多个所述字符的嵌入向量在所述向量序列中的顺序与多个所述字符在所述目标数据中顺序相同；通过所述语义分类层对所述向量序列进行语义识别处理，得到对应所述向量序列中每个所述嵌入向量的语义识别处理结果；当所述评论分类标识的嵌入向量对应的语义识别处理结果表征所述目标数据为故障数据时，将所述目标数据确定为所述故障数据。

在上述方案中，所述识别模块，还用于：针对每个所述字符执行以下处理：获取所述字符的词向量、所述字符的位置向量以及所述字符的归属向量；将所述字符的词向量、所述字符的位置向量以及所述字符的归属向量进行求和处理，得到所述字符的嵌入向量。

在上述方案中，所述分词模块，还用于：针对每个所述故障数据执行以下处理：对所述故障数据的每个字符进行标注预测处理，得到每个所述字符的预测标注；其中，所述预测标注包括以下至少之一：关键词首位字符、关键词中间字符、关键词末位字符、关键词无效字符；基于所述故障数据的每个所述字符的预测标注，确定所述故障数据的至少一个关键词。

在上述方案中，所述标注预测处理是通过第二自然语言模型实现的，所述第二自然语言模型包括第二嵌入层以及语义标注层，所述分词模块，还用于：针对每个所述故障数据执行以下处理：通过所述第二嵌入层对所述故障数据进行序列化处理，得到所述故障数据中每个字符的嵌入向量；通过所述语义标注层对每个所述嵌入向量进行语义标注处理，得到每个所述嵌入向量的预测标注。

在上述方案中，所述聚类模块，还用于：基于每个所述故障数据的至少一个关键词，对每个所述故障数据进行应用模块分类处理，得到与每个所述故障数据对应的应用模块；针对每个所述应用模块执行以下处理：对所述应用模块对应的每个故障数据进行编码处理，得到所述应用模块对应的每个所述故障数据的编码结果；基于所述应用模块对应的每个所述故障数据的编码结果，对所述应用模块对应的多个故障数据进行聚类处理，得到所述应用模块的多个故障数据聚类。

在上述方案中，所述聚类模块，还用于：获取所述应用模块对应的每个所述故障数据的关键词；将通用词频满足贡献度条件的多个关键词作为多个目标关键词，其中，所述故障数据的多个编码位置与所述多个目标关键词一一对应；基于所述多个目标关键词，对所述应用模块对应的每个所述故障数据进行编码处理，得到所述故障数据的编码结果。

在上述方案中，所述聚类模块，还用于：将通用词频满足贡献度条件的多个关键词作为多个目标关键词之前，针对所述应用模块的多个关键词中每个所述关键词执行以下处理：获取所述应用模块中包括所述关键词的故障数据的第一数目，获取所述应用模块中所述故障数据的总数目，将所述第一数目与所述总数目的比值作为所述关键词的通用词频；将所述通用词频超过通用词频阈值的多个关键词作为满足贡献度条件的多个目标关键词，或者，对所述应用模块的多个关键词进行基于所述通用词频的降序排序，并将降序排序靠前的多个关键词作为满足贡献度条件的多个目标关键词。

在上述方案中，所述聚类模块，还用于：针对所述多个目标关键词中的每个所述目标关键词执行以下处理：当所述故障数据不包括所述目标关键词时，将所述故障数据在所述目标关键词对应的编码位置编码为零；当所述目标关键词是所述故障数据中通用词频最高的关键词时，将所述故障数据在所述目标关键词对应的编码位置编码为所述目标关键词的通用词频；当所述目标关键词是所述故障数据的关键词，且不是所述故障数据中通用词频最高的关键词时，基于所述目标关键词以及所述故障数据中所述通用词频最高的最高频关键词，对所述故障数据在所述目标关键词对应的编码位置进行编码。

在上述方案中，所述聚类模块，还用于：获取所述应用模块中同时包括所述目标关键词以及所述最高频关键词的故障数据的第二数目；获取所述应用模块中所述故障数据的总数目；将所述第二数目与所述总数目的比值作为所述目标关键词的共现词频；将所述故障数据在所述目标关键词对应的编码位置编码为所述最高频关键词的通用词频与所述共现词频的差值。

在上述方案中，所述聚类模块，还用于：将所述应用模块对应的多个所述故障数据组合为故障数据集合；以所述故障数据集合作为未遍历数据集合，并确定聚类序号为零；基于所述故障数据集合以及对应所述故障数据集合中各个故障数据的编码结果，以编码距离阈值和邻近点数目阈值为约束条件，确定核心故障数据集合；当所述核心故障数据集合不为空集时，针对所述核心故障数据集合中的任一核心故障数据执行以下处理：初始化对应所述核心故障数据的簇核心故障数据队列以及簇故障数据集合，并更新所述聚类序号以及所述未遍历数据集合；提取出所述簇核心故障数据队列中第一个核心故障数据，确定针对所述第一个核心故障数据的邻域故障数据集合，并更新所述簇核心故障数据队列、所述簇故障数据集合以及所述未遍历数据集合，直到所述簇核心故障数据队列中的核心故障数据提取完毕；当所述簇核心故障数据队列中的核心故障数据提取完毕时，更新所述核心故障数据集合并确定所述簇故障数据集合中的所有故障数据属于对应当前聚类序号的故障数据聚类。

在上述方案中，所述聚类模块，还用于：将所述簇核心故障数据队列初始化为仅包括所述核心故障数据的队列，并将所述簇故障数据集合初始化为仅包括所述核心故障数据的簇故障数据集合；对所述聚类序号进行加一操作，并将所述未遍历数据集合更新为不包括所述核心故障数据的未遍历数据集合。

在上述方案中，所述聚类模块，还用于：将所述簇核心故障数据队列中的第一个核心故障数据移出所述簇核心故障数据队列；基于所述多个故障数据的编码结果，确定所述第一个核心故障数据和任一故障数据之间的编码距离；以所述第一个核心故障数据的编码结果为圆心，结合所述编码距离阈值，构造对应所述第一个核心故障数据的圆形区域，并在所述圆形区域内标记与所述圆心之间的编码距离小于所述编码距离阈值的所述任一故障数据；当所述圆形区域内的故障数据数目达到邻近点数目阈值时，将所述圆形区域内的所有故障数据组合形成所述邻域故障数据集合。

在上述方案中，所述聚类模块，还用于：获取所述邻域故障数据集合和所述未遍历数据集合的第一交集，并基于所述第一交集更新所述簇故障数据集合，以使所述簇故障数据集合包括所述第一交集中的所有故障数据；基于所述第一交集更新所述未遍历数据集合，以使所述未遍历数据集合不包括所述第一交集；确定所述第一交集和所述核心故障数据集合的第二交集，并基于所述第二交集更新所述簇核心故障数据队列，以使所述簇核心故障数据队列包括所述第二交集，且所述第一个核心故障数据从所述簇核心故障数据队列中移除。

本申请实施例提供一种电子设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本申请实施例提供的数据处理方法。

本申请实施例提供一种计算机可读存储介质，存储有可执行指令，用于被处理器执行时，实现本申请实施例提供的数据处理方法。

本申请实施例提供一种计算机程序产品，包括计算机程序或指令，所述计算机程序或指令被处理器执行时实现本申请实施例提供的数据处理方法。

本申请实施例具有以下有益效果：

通过对目标数据进行故障识别处理，得到故障数据，可以有效保证故障数据获取的准确度，对故障数据进行分词处理，得到关键词，并基于针对多个故障数据进行基于关键词的聚类处理，得到多个故障数据聚类，根据故障数据聚类的故障数据的关键词，确定对应每个所述故障数据聚类的故障标签，从而通过故障标签可以有效表征某类故障问题，从而缩减故障数据的数量级以及提高准确度，从而有效提高故障响应速度。

附图说明

图1是本申请实施例提供的评论处理系统的结构示意图；

图2是本申请实施例提供的电子设备的结构示意图；

图3A-3C是本申请实施例提供的数据处理方法的流程示意图；

图4是本申请实施例提供的数据处理方法的逻辑示意图；

图5是本申请实施例提供的数据处理方法的逻辑示意图；

图6是本申请实施例提供的自然语言模型的语义分类单元的架构示意图；

图7是本申请实施例提供的第一自然语言模型的架构示意图；

图8是本申请实施例提供的第二自然语言模型的架构示意图；

图9是本申请实施例提供的数据处理方法的模块划分的流程示意图；

图10是本申请实施例提供的数据处理方法的编码流程示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)自然语言处理(NLP，Natural Language Processing)是研究人与计算机交互的语言问题的一门学科，既要能让计算机理解自然语言文本的意义，也能以自然语言文本来表达给定的深层的意图、思想等。

2)分词技术：在对语句进行处理时，通常需要对句子进行拆分，将句子拆分到具体的词语，称为分词技术。

3)目标数据：目标数据包括用于评价目标应用的评论数据，目标数据包括各大论坛中用户针对目标应用发布的评论数据，目标数据包括来源于应用商店中用户针对目标应用发布的评论数据，或者目标数据包括来源于线下对目标应用收集的评论数据。

相关技术中通过爬虫技术爬取各个论坛中与目标应用相关的评论数据，然后对收集到的评论数据进行分词处理，例如，结巴分词技术，然后对每个经过分词处理的评论数据建立关键词的N元模型图，并基于N元模型图的相似性进行聚类，相关技术中还可以人工收集论坛中的故障数据并对人工收集的故障数据进行分类。

相关技术中N元模型图对分词算法的预处理依赖较大，普通的分词对存在文字拼写错误的文本处理效果较差，N元模型图的处理效果对关键词的出现顺序有很大的依赖，而论坛的评论描述中存在较大的语法问题，关键词的出现顺序具有多变性，导致N元模型图对该类文本处理的效果较差，相关技术中人工收集故障问题的方式需要耗费较多的处理时间。

本申请实施例提供的数据处理方法可以由各种电子设备实施，例如可以由终端设备或服务器单独实施，也可以由终端和服务器协同实施。

下面说明电子设备实施为评论处理系统中的服务器时示例性应用，参见图1，图1是本申请实施例提供的评论处理系统的结构示意图，终端400通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合。

在一些实施例中，评论处理系统的功能是基于服务器200实现的，在用户使用终端400的过程中，用户可以为目标应用的后台开发人员，终端400可以为用户开发应用并修改应用所使用的电子设备，终端400获取针对目标应用的评论数据，例如从各个论坛中获取评论数据，并发送评论数据至服务器200，以使服务器200对评论数据进行故障识别处理，得到评论数据中的故障数据；对每个故障数据进行分词处理，得到每个故障数据的关键词；针对多个故障数据进行基于关键词的聚类处理，得到目标应用的多个故障数据聚类；根据每个故障数据聚类的故障数据的关键词，确定对应每个故障数据聚类的故障标签，并将故障标签以及对应聚类的故障数据发送至终端400，以使终端400显示各个故障聚类的故障标签，由于故障标签的数量级远小于原始的故障数据，从而用户可以通过查看准确的故障标签高效获知目标应用的故障问题，有效提高了故障问题的处理速度以及处理准确度。

在另一些实施例中，当本申请实施例提供的数据处理方法由终端单独实施时，在上文所描述的各种应用场景中，终端400可以确定目标应用的多个故障数据聚类并确定对应每个故障数据聚类的故障标签，进而终端400显示各个故障聚类的故障标签。

在一些实施例中，服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400可以包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例中不做限制。

接下来，说明本申请实施例提供的用于实施数据处理方法的电子设备的结构，如前，本申请实施例提供的电子设备可以是图3中的服务器200。参见图2，图2是本申请实施例提供的电子设备的结构示意图，图2所示的服务器200包括：至少一个处理器210、存储器250、至少一个网络接口220。服务器200中的各个组件通过总线系统240耦合在一起。可理解，总线系统240用于实现这些组件之间的连接通信。总线系统240除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统240。

处理器210可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

存储器250可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器250可选地包括在物理位置上远离处理器210的一个或多个存储设备。

存储器250包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本申请实施例描述的存储器250旨在包括任意适合类型的存储器。

在一些实施例中，存储器250能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统251，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；网络通信模块252，用于经由一个或多个(有线或无线)网络接口220到达其他电子设备，示例性的网络接口220包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，UniversalSerial Bus)等。

在一些实施例中，本申请实施例提供的数据处理装置可以采用软件方式实现，图2示出了存储在存储器250中的数据处理装置255，其可以是程序和插件等形式的软件，包括以下软件模块：获取模块2551、识别模块2552、分词模块2553、聚类模块2554以及标签模块2555，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分，将在下文中说明各个模块的功能。

在一些实施例中，终端或服务器可以通过运行计算机程序来实现本申请实施例提供的数据处理方法。举例来说，计算机程序可以是操作系统中的原生程序或软件模块；可以是本地(Native)应用程序(APP，Application)，即需要在操作系统中安装才能运行的程序，如应用商店APP；也可以是小程序，即只需要下载到浏览器环境中就可以运行的程序；还可以是能够嵌入至任意APP中的小程序。总而言之，上述计算机程序可以是任意形式的应用程序、模块或插件。

将结合本申请实施例提供的服务器200的示例性应用和实施，说明本申请实施例提供的数据处理方法。

参见图5，图5是本申请实施例提供的数据处理方法的逻辑示意图，实时获取评论数据，并对评论数据进行文本预处理，文本预处理即去掉描述评论数据中的停用字符，停用字符包括以下至少之一：语气词，多余的标点符号，这些字符对于评论数据的语义无影响，属于多余字符，去掉这部分字符可以精炼评论数据，降低对评论数据的编码复杂度和机器学习的复杂度，通过训练得到的第一自然语言模型对评论数据进行故障识别处理，得到故障数据，故障数据是被识别为故障的评论数据，持续收集故障数据，按照设定时间间隔对多个故障数据进行文本预处理，文本预处理即去掉描述评论数据中的停用字符，停用字符包括以下至少之一：语气词，多余的标点符号，这些字符对于评论数据的语义无影响，属于多余字符，去掉这部分字符可以精炼评论数据，降低对评论数据的编码复杂度和机器学习的复杂度，再通过训练得到的第二自然语言模型对故障数据进行分词处理，基于标注处理结果以及条件随机场的约束条件，确定出分词结果，分词结果包括故障数据的多个关键词，基于故障数据的多个关键词对故障数据进行聚类处理。

在一些实施例中，第一自然语言模型以及第二自然语言模型均是基于相同的自然语言模型进行迁移训练得到的，参见图6和图7，图6是本申请实施例提供的自然语言模型的语义分类单元的架构示意图，图7是本申请实施例提供的第一自然语言模型的架构示意图，当评论数据包括句子1和句子2时，将句子1和句子2作为第一自然语言模型的输入，例如，评论数据的字符为Tok1，…，TokN，[SEP]，Tok1，…，TokM，其中，[SEP]为两个句子之间的标点符号，在评论数据的字符前还需要添加评论分类标识[CLS]，评论分类标识[CLS]也是第一自然语言模型的输入，评论分类标识[CLS]并不存在语义信息，从而作为输入时不会对评论数据的语义处理产生影响，并将对应的输出作为评论数据的语义表示，评论分类标识[CLS]与评论数据中已有的其它词相比，这个无明显语义信息的符号会更“公平”地融合评论数据中各个字符的语义信息，从而更好的表示整句话的语义，通过第一嵌入层对评论数据的字符以及评论分类标识[CLS]进行序列化处理，得到对应的嵌入向量，例如，E_[CLS]，E₁，…，E_N，E_[SEP]，E₁’，…，E_M’，再通过多个语义分类单元分别对E_[CLS]，E₁，…，E_N，E_[SEP]，E₁’，…，E_M’进行语义分类处理，得到对应每个字符以及标识符的输出，例如，C_[CLS]，T₁，…，T_N，T_[STP]，T₁’，…，T_M’，其中，C_[CLS]是评论数据的类别，用于表征评论数据是否属于故障数据，在第一自然语言模型中存在多个层级的语义分类单元，每个层级的语义分类单元的数目与字符的数目相同，任意一个字符的嵌入向量会输入至第一层级的每个语义分类单元中，第一层级的任意一个语义分类单元的输出会输入至第二层级的每个语义分类单元中，以此类推，最后一层级的每个语义分类单元的输出即对应每个字符的输出。

在一些实施例中，图6是语义分类单元的结构，语义分类单元的输入是嵌入向量，这里是直接输入评论数据中所有字符的嵌入向量以评论分类标识的嵌入向量，嵌入向量需要加上位置编码(Positional Encoding)，然后经过多头注意力结构(Multi-HeadAttention)，再是对多头注意力结构的输出进行捷径处理(shortcut)，即把多头注意力结构的输入和输出按照对应位置相加，然后执行归一化(Normalization)操作，接着经过两层的全连接网络(Feed Forward)的处理，最后同样是对全连接网络的输出进行捷径处理(shortcut)以及归一化(Normalization)操作，每个中间结构的输入向量和输出向量的维度都是相等的，例如，多头注意力结构的输入向量和输出向量的维度是相等的，否则无法进行捷径处理(shortcut)，全连接网络的输入向量和输出向量的维度也是相等的。

在一些实施例中，首先基于语料库对初始模型进行预训练得到具有通识自然语言处理能力的第一自然语言模型，第一自然语言模型的结构与初始模型的结构相同且参数不同，之后基于第一自然语言模型进行迁移训练，迁移训练的训练样本是历史评论数据，通过第一自然语言模型的第一嵌入层对历史评论数据进行序列化，使用第一自然语言模型输出的对应评论分类标识[CLS]的处理结果C_[CLS]作为是否属于故障问题的预测分类标识，基于输出的预测分类标识以及历史评论数据的真实分类标识之间的差别构建第一损失函数，并基于第一损失函数对第一自然语言模型进行参数更新，即微调第一自然语言模型的参数，重复上述过程直至预测分类标识与真实分类标识之间的差别缩小至收敛，将差别收敛时的第一自然语言模型作为最终本申请实施例中使用的第一自然语言模型。

在一些实施例中，参见图8，图8是本申请实施例提供的第二自然语言模型的架构示意图，当故障数据包括句子1和句子2时，将句子1和句子2作为第二自然语言模型的输入，例如，故障数据的字符为Tok1，…，TokN，[SEP]，Tok1，…，TokM，其中，[SEP]为两个句子之间的标点符号，在故障数据的字符前还需要添加无含义标识[CLS]，无含义标识[CLS]并不存在语义信息，从而作为输入时不会对故障数据的语义处理产生影响，通过第二嵌入层对故障数据的字符以及无含义标识[CLS]进行序列化处理，得到对应的嵌入向量，例如，E_[CLS]，E₁，…，E_N，E_[SEP]，E₁’，…，E_M’，再通过多个语义标注单元分别对E_[CLS]，E₁，…，E_N，E_[SEP]，E₁’，…，E_M’进行语义标注处理，得到对应每个字符以及标识符的输出，例如，C_[CLS]，T₁，…，T_N，T_[STP]，T₁’，…，T_M’，其中，T₁，…，T_N，T_[STP]，T₁’，…，T_M’，是故障数据中每个字符的标注结果，例如，某个字符的标注结果为B，表征该字符是关键词的首位字符，某个字符的标注结果为S，表征该字符是不构成关键词的无用字符，在第二自然语言模型中存在多个层级的语义标注单元，第二自然语言模型中存在多个层级的语义标注单元的结构与第一自然语言模型中的语义分类单元的结构相同，每个层级的语义标注单元的数目与字符以及标识符的数目相同，任意一个字符的嵌入向量会输入至第二层级的每个语义标注单元中，第二层级的任意一个语义标注单元的输出会输入至第二层级的每个语义标注单元中，以此类推，最后一层级的每个语义标注单元的输出即对应每个字符的输出。

在一些实施例中，首先基于语料库对初始模型进行预训练得到具有通识自然语言处理能力的第二自然语言模型，第二自然语言模型的结构与初始模型的结构相同且参数不同，这里的第二自然语言模型与上文中未进行迁移训练的第一自然语言模型相同，之后基于第二自然语言模型进行迁移训练，迁移训练的训练样本是历史故障数据，通过第二自然语言模型的第二嵌入层对历史故障数据进行序列化，使用第二自然语言模型输出对应每个字符的输出，例如，C_[CLS]，T₁，…，T_N，T_[STP]，T₁’，…，T_M’，其中，T₁，…，T_N，T_[STP]，T₁’，…，T_M’，是故障数据中每个字符的预测标注结果，基于输出的预测标注结果以及历史故障数据的真实标注结果之间的差别构建第二损失函数，并基于第二损失函数对第二自然语言模型进行参数更新，即微调第二自然语言模型的参数，重复上述过程直至预测标注结果与真实标注结果之间的差别缩小至收敛，将差别收敛时的第二自然语言模型作为最终本申请实施例中使用的第二自然语言模型。

至此对本申请实施例中所使用到的模型结构以及模型训练过程介绍完毕，下面结合上述第一自然语言模型与第二自然语言模型介绍本申请实施例提供的数据处理方法。

参见图3A，图3A是本申请实施例提供的数据处理方法的流程示意图，将结合图3A示出的步骤101-105进行说明。

在步骤101中，获取针对目标应用的多个目标数据。

作为示例，目标数据包括评论数据，可以通过爬虫技术从论坛中获取针对目标应用的评论数据，还可以从应用商店里针对目标应用的评论上报渠道获取针对目标应用的评论数据，目标应用包括各种类型的应用，例如，游戏应用、社交应用等等，评论数据包括以下至少之一体验评论、无价值的脏话、故障问题描述等等，其中，用于描述故障问题的评论数据即为故障数据。

在步骤102中，对多个目标数据进行故障识别处理，得到多个目标数据中的多个故障数据。

在一些实施例中，故障识别处理是通过第一自然语言模型实时处理实现的，第一自然语言模型包括第一嵌入层以及语义分类层，步骤102中对多个评论数据进行故障识别处理，得到多个评论数据中的多个故障数据，可以通过以下技术方案实现：针对每个评论数据执行以下处理：通过第一嵌入层对评论数据进行序列化处理，得到评论数据中每个字符的嵌入向量；通过第一嵌入层对评论分类标识进行序列化处理，得到评论分类标识的嵌入向量；基于每个字符的嵌入向量以及评论分类标识的嵌入向量，生成向量序列；其中，评论分类标识的嵌入向量位于向量序列的首位，多个字符的嵌入向量在向量序列中的顺序与多个字符在评论数据中顺序相同；通过语义分类层对向量序列进行语义识别处理，得到对应向量序列中每个嵌入向量的语义识别处理结果；当评论分类标识的嵌入向量对应的语义识别处理结果表征评论数据为故障数据时，将评论数据确定为故障数据，从而可以有效保证故障数据获取的准确度以及获取效率。

作为示例，参见图7，当评论数据包括句子1和句子2时，将句子1和句子2作为第一自然语言模型的输入，例如，评论数据的字符为Tok1，…，TokN，[SEP]，Tok1，…，TokM，其中，[SEP]为两个句子之间的标点符号，在评论数据的字符前还需要添加评论分类标识[CLS]，评论分类标识[CLS]也是第一自然语言模型的输入，通过第一嵌入层对评论数据的字符以及评论分类标识[CLS]进行序列化处理，得到对应的嵌入向量，例如，E_[CLS]，E₁，…，E_N，E_[SEP]，E₁’，…，E_M’，再通过由多个语义分类单元构成的语义分类层对E_[CLS]，E₁，…，E_N，E_[SEP]，E₁’，…，E_M’进行语义分类处理，得到对应每个字符以及标识符的输出(语义识别处理结果)，例如，C_[CLS]，T₁，…，T_N，T_[STP]，T₁’，…，T_M’，其中，C_[CLS]是评论数据的类别，用于表征评论数据是否属于故障数据，其他字符的语义识别处理结果并没有实际含义。

在一些实施例中，上述通过第一嵌入层对评论数据进行序列化处理，得到评论数据中每个字符的嵌入向量，可以通过以下技术方案实现：针对每个字符执行以下处理：获取字符的词向量、字符的位置向量以及字符的归属向量；将字符的词向量、字符的位置向量以及字符的归属向量进行求和处理，得到字符的嵌入向量，通过序列化处理可以有效提高第一自然语言模型的预测准确度，从而可以有效保证故障数据获取的准确度。

作为示例，第一自然语言模型得到要输入的句子后，要将句子的字符转成嵌入向量(Embedding)，嵌入向量Embedding用E表示，嵌入向量(Embedding)由三个部分相加得到：词向量(Token Embedding)，归属向量(Segment Embedding)，位置向量(PositionEmbedding)，词向量是通过训练学习得到，归属向量用于区分每个字符属于句子1还是句子2，也是通过训练学习得到的，位置向量是编码单词出现的位置，并非使用固定的公式计算，位置向量也是通过学习得到的。

在步骤103中，对每个故障数据进行分词处理，得到每个故障数据的至少一个关键词。

作为示例，可以在识别出故障数据后立即进行分词处理，也可以对设定时间周期内识别出的多个故障数据进行分词处理。

在一些实施例中，参见图3B，图3B是本申请实施例提供的数据处理方法的流程示意图，步骤103中对每个故障数据进行分词处理，得到每个故障数据的至少一个关键词，可以通过针对每个故障数据执行步骤1031-步骤1032实现。

在步骤1031中，对故障数据的每个字符进行标注预测处理，得到每个字符的预测标注。

作为示例，预测标注包括以下至少之一：关键词首位字符、关键词中间字符、关键词末位字符、关键词无效字符。

在一些实施例中，标注预测处理可以通过第二自然语言模型实时实现的，第二自然语言模型包括第二嵌入层以及语义标注层，上述对故障数据的每个字符进行标注预测处理，得到每个字符的预测标注，可以通过以下技术方案实现：针对每个故障数据执行以下处理：通过第二嵌入层对故障数据进行序列化处理，得到故障数据中每个字符的嵌入向量；通过语义标注层对每个嵌入向量进行语义标注处理，得到每个嵌入向量的预测标注。

作为示例，参见图8，当故障数据包括句子1和句子2时，将句子1和句子2作为第二自然语言模型的输入，例如，故障数据的字符为Tok1，…，TokN，[SEP]，Tok1，…，TokM，其中，[SEP]为两个句子之间的标点符号，在故障数据的字符前还需要添加无含义标识[CLS]，通过第二嵌入层对故障数据的字符以及标识[CLS]进行序列化处理，得到对应的嵌入向量，例如，E_[CLS]，E₁，…，E_N，E_[SEP]，E₁’，…，E_M’，再通过由多个语义标注单元组成的语义标注层对E_[CLS]，E₁，…，E_N，E_[SEP]，E₁’，…，E_M’进行语义标注处理，得到对应每个字符以及标识符的输出，例如，C_[CLS]，T₁，…，T_N，T_[STP]，T₁’，…，T_M’，其中，T₁，…，T_N，T_[STP]，T₁’，…，T_M’，是故障数据中每个字符的标注结果，例如，某个字符的标注结果为B，表征该字符是关键词的首位字符，某个字符的标注结果为S，表征该字符是不构成关键词的无用字符。

在步骤1032中，基于故障数据的每个字符的预测标注，确定故障数据的至少一个关键词。

作为示例，以故障数据“杨玉环怎么都按不出大招”为例进行说明，故障数据的每个字符的预测标注如下：杨/B玉/M环/E怎/S么/S都/S按/B不/M出/E大/M招/E，“杨”的标注结果为B，表征“杨”是关键词的首位字符，“玉”的标注结果为M，表征“玉”是关键词的中间字符，“环”的标注结果为E，表征“环”是关键词的末位字符，因此确定出关键词“杨玉环”，“怎”、“么”、“都”的标注结果为S，表征“怎”、“么”、“都”是关键词的无效字符，从而不构成关键词，“按”的标注结果为B，表征“按”是关键词的首位字符，“不”的标注结果为M，表征“不”是关键词的中间字符，“出”的标注结果为M，表征“出”是关键词的中间字符，“大”的标注结果为M，表征“大”是关键词的中间字符，“招”的标注结果为E，表征“招”是关键词的末位字符，因此确定出关键词“按不出大招”。

在自然语言处理的分词任务中，每个字能否是词语的一部分，完全由该字的上下文决定，因此，分词任务之前的序列标注很适合使用条件随机场序列标注规则，即标注出字符是否属于关键词首位字符、标注出字符是否属于关键词中间字符、标注出字符是否属于关键词末位字符、标注出字符是否属于关键词无效字符，通过从而能够有效提高分词处理的准确度。

在步骤104中，针对多个故障数据进行基于关键词的聚类处理，得到目标应用的多个故障数据聚类。

在一些实施例中，参见图3C，图3C是本申请实施例提供的数据处理方法的流程示意图，步骤104中针对多个故障数据进行基于关键词的聚类处理，得到目标应用的多个故障数据聚类，可以通过步骤1041-步骤1042。

在步骤1041中，基于每个故障数据的至少一个关键词，对每个故障数据进行应用模块分类处理，得到与每个故障数据对应的应用模块。

作为示例，目标应用包括多个应用模块，在对设定时间间隔内收集的故障数据进行分词之后，需要进行聚类处理，聚类处理是针对各个应用模块划进行的，因此在聚类处理之前先进行模块划分处理。参见图9，目标应用中不同模块的关注度以及处理优先级不同，因此，首先对用户上报的故障数据进行模块划分，将每个故障数据分词后得到的关键词，逐一与已经划分好的模块的预设关键词进行匹配，若故障数据中任意关键词与模块的设定关键词相同，则将故障数据归入该模块下，例如，模块A具有预设关键词A，故障数据B“杨玉环怎么都按不出大招”的分词结果包括关键词“杨玉环”和“按不出大招”，故障数据B中存在关键词“杨玉环”与预设关键词A相同，即将故障数据B归入该模块A。

在步骤1042中，针对每个应用模块执行以下处理：对应用模块对应的每个故障数据进行编码处理，得到应用模块对应的每个故障数据的编码结果；基于应用模块对应的每个故障数据的编码结果，对应用模块对应的多个故障数据进行聚类处理，得到应用模块的多个故障数据聚类。

在一些实施例中，步骤1042中对应用模块对应的每个故障数据进行编码处理，得到应用模块对应的每个故障数据的编码结果，可以通过以下技术方案实现：获取应用模块对应的每个故障数据的关键词；将通用词频满足贡献度条件的多个关键词作为多个目标关键词，其中，故障数据的多个编码位置与多个目标关键词一一对应；基于多个目标关键词，对应用模块对应的每个故障数据进行编码处理，得到故障数据的编码结果。

作为示例，通用词频统计反映任意一个关键词在模块中出现的次数，针对故障数据，关键词出现的频次越高，表明反馈该关键词的用户越多，该关键词是真实故障问题的可能性也越大，出现频率较低的关键词，通常对描述故障的贡献度较低，因此，在对各模块内的故障数据进行编码时，仅对该模块内满足贡献度条件的多个目标关键词进行编码，由于本申请实施例是针对不同模块，在各个模块内对故障数据进行聚类，因此，在做通用词频统计时，同样在各个模块内进行词频统计。

在一些实施例中，将通用词频满足贡献度条件的多个关键词作为多个目标关键词之前，针对应用模块的多个关键词中每个关键词执行以下处理：获取应用模块中包括关键词的故障数据的第一数目，获取应用模块中故障数据的总数目，将第一数目与总数目的比值作为关键词的通用词频；将通用词频超过通用词频阈值的多个关键词作为满足贡献度条件的多个目标关键词，或者，对应用模块的多个关键词进行基于通用词频的降序排序，并将降序排序靠前的多个关键词作为满足贡献度条件的多个目标关键词。

作为示例，获取应用模块中包括关键词的故障数据的第一数目，获取应用模块中故障数据的总数目，将第一数目与总数目的比值作为关键词的通用词频，参见公式(1)：

freq_word＝Count_word/Count_doc (1)；

其中，Count_word表示指定关键词在某个模块内出现的故障数据，Count_doc表示该模块内故障数据的总数目，freq_word是指定关键词的词频。

作为示例，模块A中具有匹配的10个故障数据(总数目)，每个故障数据具有至少一个关键词，将多个故障数据对应的至少一个关键词进行取并集，得到模块A的关键词集合，针对关键词B而言，获取10个故障数据中包括关键词B的故障数据的数目(第一数目)，例如，有3个故障数据包括关键词B，则通用词频是0.3。

作为示例，出现频率较低的关键词，通常对描述故障的贡献度较低，因此，在对各模块内的故障数据进行编码时，可以仅对该模块内通用词频排序靠前的N个关键词进行编码，N的取值与模块内的故障数据的总数成正相关关系，并且每个故障数据在编码时的编码长度为N，即每个故障数据的编码结果存在N个编码位置，每个编码位置对应一个目标关键词，根据目标关键词对对应编码位置进行编码。

在一些实施例中，上述针对每个故障数据进行的编码处理可以通过以下技术方案实现：针对多个目标关键词中的每个目标关键词执行以下处理：当故障数据不包括目标关键词时，将故障数据在目标关键词对应的编码位置编码为零；当目标关键词是故障数据中通用词频最高的关键词时，将故障数据在目标关键词对应的编码位置编码为目标关键词的通用词频；当目标关键词是故障数据的关键词，且不是故障数据中通用词频最高的关键词时，基于目标关键词以及故障数据中通用词频最高的最高频关键词，对故障数据在目标关键词对应的编码位置进行编码。

在一些实施例中，上述基于目标关键词以及故障数据中通用词频最高的最高频关键词，对故障数据在目标关键词对应的编码位置进行编码，可以通过以下技术方案实现：获取应用模块中同时包括目标关键词以及最高频关键词的故障数据的第二数目；获取应用模块中故障数据的总数目；将第二数目与总数目的比值作为目标关键词的共现词频；将故障数据在目标关键词对应的编码位置编码为最高频关键词的通用词频与共现词频的差值。

作为示例，参见图10，图10是本申请实施例提供的数据处理方法的编码流程示意图，编码逻辑流程如下，在对每个故障数据进行编码时，故障数据存在N个编码位置，每个编码位置对应N个关键词中的一个，逐个遍历N个关键词(目标关键词)，若该条故障数据不包含目标关键词，则该位置的编码用0表示，反之，若目标关键词为此故障数据中在整个模块内通用词频最高的关键词，则当前编码位置用目标关键词的通用词频表示，例如，故障数据A具有关键词B和关键词C，目标关键词是关键词B，且关键词B的词频高于关键词C的词频，则当前编码位置用关键词B的通用词频表示，反之，则用当前故障数据中通用词频最高的最高频关键词的通用词频减去目标关键词与最高频关键词的共现词频，例如，目标关键词是关键词C，则用关键词B(最高频关键词)的通用词频减去关键词B与关键词C的共现词频。

在一些实施例中，步骤1042中基于应用模块对应的每个故障数据的编码结果，对应用模块对应的多个故障数据进行聚类处理，得到应用模块的多个故障数据聚类，可以通过以下技术方案实现：将应用模块对应的多个故障数据组合为故障数据集合；以故障数据集合作为未遍历数据集合，并确定聚类序号为零；基于故障数据集合以及对应故障数据集合中各个故障数据的编码结果，以编码距离阈值和邻近点数目阈值为约束条件，确定核心故障数据集合；当核心故障数据集合不为空集时，针对核心故障数据集合中的任一核心故障数据执行以下处理：初始化对应核心故障数据的簇核心故障数据队列以及簇故障数据集合，并更新聚类序号以及未遍历数据集合；提取出簇核心故障数据队列中第一个核心故障数据，确定针对第一个核心故障数据的邻域故障数据集合，并更新簇核心故障数据队列、簇故障数据集合以及未遍历数据集合，直到簇核心故障数据队列中的核心故障数据提取完毕；当簇核心故障数据队列中的核心故障数据提取完毕时，更新核心故障数据集合并确定簇故障数据集合中的所有故障数据属于对应当前聚类序号的故障数据聚类。

作为示例，这里的未遍历数据集合的最初形态即为故障数据集合，最初未遍历数据集合中的所有故障数据即为故障数据集合中的所有故障数据，并将聚类序号初始化为零。

作为示例，故障数据之间的最大编码距离不超过编码距离阈值∈，对于任一故障数据x_j∈D，如果其∈-邻域对应的N_∈(x_j)至少包含MinPts个样本，即如果|N∈(xj)|≥MinPts，则x_j是核心对象，每个聚类最小故障数据的数目不低于MinPts，MinPts为邻近点数目阈值。

作为示例，确定核心故障数据集合可以通过针对故障数据集合中的各个故障数据分别执行以下技术方案实现：基于故障数据的编码结果，确定故障数据和故障数据集合中任一故障数据之间的编码距离，以故障数据的编码结果为圆心，以编码距离阈值为半径，构造对应故障数据的圆形区域，并在圆形区域内标记与圆心之间的编码距离小于编码距离阈值的任一故障数据，当圆形区域内的故障数据数目达到邻近点数目阈值时，确定故障数据为核心故障数据，以形成核心故障数据集合。

在一些实施例中，上述初始化对应核心故障数据的簇核心故障数据队列以及簇故障数据集合，并更新聚类序号以及未遍历数据集合，可以通过以下技术方案实现：将簇核心故障数据队列初始化为仅包括核心故障数据的队列，并将簇故障数据集合初始化为仅包括核心故障数据的簇故障数据集合；对聚类序号进行加一操作，并将未遍历数据集合更新为不包括核心故障数据的未遍历数据集合。

作为示例，初始化对应核心故障数据的簇核心故障数据队列以及簇故障数据集合，并更新聚类序号以及未遍历数据集合，实际上是将簇核心故障数据队列初始化为仅包括核心故障数据的队列，并将簇故障数据集合初始化为仅包括核心故障数据的簇故障数据集合，对聚类序号进行加一操作，并将未遍历数据集合更新为不包括核心故障数据的未遍历数据集合，例如，在核心故障数据集合Ω中，随机选择一个核心故障数据ω，初始化当前簇核心故障数据队列Ω_cur＝{ω}，初始化类别序号k＝k+1，初始化当前簇故障数据集合C_k＝{ω}，更新未遍历数据集合Γ＝Γ-{ω}。

在一些实施例中，上述提取出簇核心故障数据队列中第一个核心故障数据，确定针对第一个核心故障数据的邻域故障数据集合，可以通过以下技术方案实现：将簇核心故障数据队列中的第一个核心故障数据移出簇核心故障数据队列；基于多个故障数据的编码结果，确定第一个核心故障数据和任一故障数据之间的编码距离；以第一个核心故障数据的编码结果为圆心，结合编码距离阈值，构造对应第一个核心故障数据的圆形区域，并在圆形区域内标记与圆心之间的编码距离小于编码距离阈值的任一故障数据；当圆形区域内的故障数据数目达到邻近点数目阈值时，将圆形区域内的所有故障数据组合形成邻域故障数据集合。

作为示例，提取出簇核心故障数据队列中第一个核心故障数据，确定针对第一个核心故障数据的邻域故障数据集合，实际上是将簇核心故障数据队列中的第一个核心故障数据移出簇核心故障数据队列，即在当前簇核心对象队列Ω_cur中取出一个核心对象ω′，基于故障数据的编码结果，确定第一个核心故障数据和任一故障数据之间的编码距离；以第一个核心故障数据的编码结果为圆心，结合编码距离阈值，构造对应第一个核心故障数据的圆形区域，并在圆形区域内标记与圆心之间的编码距离小于编码距离阈值的任一故障数据；当圆形区域内的故障数据数目达到邻近点数目阈值时，将圆形区域内的所有故障数据组合形成邻域故障数据集合，即通过∈-邻域距离阈值找出所有的∈-邻域子样本集N_∈(ω′)。

在一些实施例中，上述更新簇核心故障数据队列、簇故障数据集合以及未遍历数据集合，可以通过以下技术方案实现：获取邻域故障数据集合和未遍历数据集合的第一交集，并基于第一交集更新簇故障数据集合，以使簇故障数据集合包括第一交集中的所有故障数据；基于第一交集更新未遍历数据集合，以使未遍历数据集合不包括第一交集；确定第一交集和核心故障数据集合的第二交集，并基于第二交集更新簇核心故障数据队列，以使簇核心故障数据队列包括第二交集，且第一个核心故障数据从簇核心故障数据队列中移除。

作为示例，更新簇核心故障数据队列、簇故障数据集合以及未遍历数据集合，实际上是获取邻域故障数据集合和未遍历数据集合的第一交集，例如，在当前簇核心对象队列Ω_cur中取出一个核心对象ω′，通过∈-邻域距离阈值找出所有的∈-邻域子样本集N_∈(ω′)，令Δ＝N_∈(ω′)∩Γ，并基于第一交集更新簇故障数据集合，以使簇故障数据集合包括第一交集中的所有故障数据，即更新当前簇故障数据集合C_k＝C_k∪Δ，基于第一交集更新未遍历数据集合，以使未遍历数据集合不包括第一交集，即更新未遍历数据集合Γ＝Γ-Δ；确定第一交集和核心故障数据集合的第二交集(Δ∩Ω)，并基于第二交集更新簇核心故障数据队列，以使簇核心故障数据队列包括第二交集，且第一个核心故障数据从簇核心故障数据队列中移除，即Ω_cur＝Ω_cur∪(Δ∩Ω)-ω′。

例如，具体进行聚类处理的流程如下：基于故障数据集合D＝(x₁，x₂，...，x_m)、编码距离阈值和邻近点数目阈值获取各个簇故障数据集合C1，C2，...，Cn。首先初始化核心故障数据集合Ω为空集，初始化聚类簇数k为零，初始化未遍历数据集合为故障数据集合D，簇故障数据集合C为空集，对于m个故障数据，按下面的步骤找出其中所有的核心故障数据：通过距离度量方式，找到该故障数据的邻域故障数据集合N，如果邻域故障数据集合N中故障数据个数大于邻近点数目阈值，将该故障数据加入核心故障数据集合，从而更新核心故障数据集合Ω。

在核心故障数据集合Ω中，随机选择一个核心故障数据a，初始化当前簇核心故障数据队列为仅包括a的队列，初始化聚类序号k＝k+1，初始化当前簇故障数据集合C_k＝为仅包括a的集合，更新未遍历数据集合为当前未遍历数据集合除去元素a的集合。

在当前簇核心故障数据队列中取出一个核心故障数据a′，通过编码距离阈值和邻近点数目阈值，获得针对核心故障数据a′的领域故障数据集合，获取针对核心故障数据a′的领域故障数据集合与当前未遍历数据集合的第一交集，更新簇故障数据集合C_k为当前簇故障数据集合与上述第一交集的并集，更新未遍历数据集合为当前未遍历数据集合除去第一交集，获取第一交集和核心故障数据集合的第二交集，更新簇核心故障数据队列为当前簇核心故障数据队列与第二交集的并集并除去元素核心故障数据a′。

如果当前簇核心故障数据队列Ω为空集，则当前簇故障数据集合C_k生成完毕，更新簇故障数据集合划分为C＝{C1，C2，...，Ck}，更新核心故障数据集合为当前核心故障数据集合除去簇故障数据集合C_k的集合，如果核心故障数据集合为空集，则结束聚类处理，输出获取到的所有簇故障数据集合，否则重复上述步骤，针对当前核心故障数据集合中的另一个核心故障数据，执行之前针对核心故障数据a的所有操作，从而得到簇故障数据集合划分为C＝{C1，C2，...，Ck}。

在步骤105中，根据每个故障数据聚类的故障数据的关键词，确定对应每个故障数据聚类的故障标签。

作为示例，针对任意一个故障数据聚类A，该故障数据聚类包括多个故障数据，多个故障数据包括多个关键词，例如，故障数据聚类A中包括的关键词是“杨玉环”和“按不出大招”，因此故障数据标签为关键词的拼接结果“杨玉环按不出大招”。

作为示例，基于每个所述故障数据的至少一个关键词，对每个所述故障数据进行应用模块分类处理，得到与每个所述故障数据对应的应用模块，从而每个故障数据具有对应的应用模块，目标应用包括多个应用模块，首先对用户上报的故障数据进行模块划分，将每个故障数据分词后得到的关键词，逐一与已经划分好的模块的预设关键词进行匹配，若故障数据中任意关键词与模块的设定关键词相同，则将故障数据归入该模块下，例如，模块A具有预设关键词A，故障数据B“杨玉环怎么都按不出大招”的分词结果包括关键词“杨玉环”和“按不出大招”，故障数据B中存在关键词“杨玉环”与预设关键词A相同，即将故障数据B归入该模块A，针对每个模块内的多个故障数据进行聚类处理得到多个故障数据聚类，针对模块A中存在的故障数据聚类B为例进行说明，故障数据聚类B中包括的关键词是“杨玉环”和“按不出大招”，因此故障数据标签为模块A的名称以及关键词的拼接结果“模块A杨玉环按不出大招”。

通过对评论数据进行故障识别处理，得到故障数据，可以有效保证故障数据获取的准确度，对故障数据进行分词处理，得到关键词，并基于针对多个故障数据进行基于关键词的聚类处理，得到多个故障数据聚类，根据故障数据聚类的故障数据的关键词，确定对应每个所述故障数据聚类的故障标签，从而通过故障标签可以有效表征某类故障问题，从而缩减故障数据的数量级以及提高准确度，从而有效提高故障响应速度。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。

在一些实施例中，数据处理方法可以应用于游戏应用的故障排除，参见图4，图4是本申请实施例提供的数据处理方法的逻辑示意图，在游戏应用的开发人员使用终端的过程中，终端通过故障上报渠道实时获取针对目标应用的评论数据，例如从各个论坛中获取评论数据，并存储在ES数据库中，从玩家上报到ES数据库进行落库耗时约2秒，通常不超过6秒，服务器提取存储在ES数据库中的评论数据，以使服务器对实时获取的评论数据进行故障识别处理，得到评论数据中的故障数据，按照设定时间间隔，例如，聚类间隔为20分钟，1小时或者4小时，对识别得到的每个故障数据进行分词处理，得到每个故障数据的关键词，分词处理是依靠第二自然语言模型实现的，第二自然语言模型是基于条件随机场标注进行训练的，针对多个故障数据进行基于关键词的聚类处理，得到目标应用的多个故障数据聚类，根据每个故障数据聚类的故障数据的关键词，确定对应每个故障数据聚类的故障标签，并将故障标签以及对应聚类的故障数据发送至终端，以使终端显示各个故障聚类的故障标签以及对应聚类的故障数据，由于故障标签的数量级远小于原始的故障数据，从而用户可以通过查看准确的故障标签高效获知游戏应用的故障问题，有效提高了故障问题的处理速度以及处理准确度。

本申请实施例提出了离线预训练的第一自然语言模型，可以实时在线判定玩家评论数据是否属于描述故障的故障数据，用于从玩家反馈的海量评论数据(故障数据，玩家吐槽，脏话，以及其他无关信息)中，快速提取出真实描述故障的评论数据，即故障数据，本申请实施例还提出了一种基于条件随机场标注以及离线预训练的第二自然语言模型，实时在线对故障数据进行关键词拆分，用于有效的提取出故障数据中的关键词信息，本申请实施例还提出了一种编码方式，用于对故障数据进行编码，从而对故障数据进行聚类，基于关键词的通用词频、关键词间共的现词频进行故障数据编码，然后对编码后的故障数据进行聚类，将类似的故障数据聚为一类，因此聚类中的故障数据均是反馈相同的故障问题，最后生成每个聚类的故障标签，方便开发人员利用故障标签迅速定位故障问题，有效提高了故障问题的处理速度以及处理准确度。

本发明可以将外网上万条玩家反馈，快速聚类为若干类的bug描述，利用聚类的故障标签代替大数量级的原始问题描述，问题处理的数量级缩短至千分之一，极大的缩减了外网问题的暴露时间及响应速度。

在一些实施例中，参见图5，图5是本申请实施例提供的数据处理方法的逻辑示意图，图5示出了游戏应用的评论数据的故障数据判定以及聚类的后台自动化实现过程，实时获取评论数据，并对评论数据进行文本预处理，通过训练得到的第一自然语言模型对评论数据进行故障识别处理，得到故障数据，故障数据是被识别为故障的评论数据，用户上报的评论数据包括体验评论、无价值的脏话、故障问题描述等等，从这些评论数据中识别出可以反馈游戏故障描述的故障数据，从而剔除无效数据的干扰，持续收集故障数据，按照设定时间间隔对多个故障数据进行文本预处理，再通过训练得到的第二自然语言模型对故障数据进行标注处理，基于标注处理结果以及条件随机场的约束条件，确定出分词结果，分词结果包括故障数据的多个关键词，基于故障数据的多个关键词对故障数据执行聚类流程，聚类流程包括：模块划分处理、每个模块内的关键词的词频统计、每个模块内的关键词的共现词频统计、每个模块内的故障数据的编码、以及每个模块内的故障数据的聚类处理。

作为示例，通过训练得到的第一自然语言模型对评论数据进行故障识别处理时，通过第一自然语言模型的第一嵌入层(embedding)对评论数据的字符以及评论分类标识进行序列化处理，并继续使用训练环节中已经微调后的第一自然语言模型计算每个字符对应的输出，然后使用评论分类标识对应的输出作为是否为故障描述的标识，以判定该评论数据是否为用于描述故障的故障数据。

在一些实施例中，首先从用户上报的历史评论数据中随机挑选部分样本，并对这部分样本进行人工标记，标记该样本是否属于故障描述，之后基于第一自然语言模型进行迁移训练，第一自然语言模型是经过预训练得到的，迁移训练的训练样本是历史评论数据，迁移训练过程中微调第一自然语言模型的参数，将经过迁移训练的第一自然语言模型用于进行故障数据的识别，从而在评论数据中识别出属于故障描述的故障数据。

作为示例，人工标记时需要标注每个历史评论数据是否为用于描述游戏故障的故障数据，1表示历史评论数据属于故障数据，0表示历史评论数据不是故障数据，参见表1：

表1历史评论数据的人工标记表

评论描述	标注结果
		对面小乔有外挂	0
狂铁直接给我来个没有蓝的显示	1
		孙悟空打大小龙，有时候不会掉血	1

作为示例，在基于第一自然语言模型进行迁移训练之前，还需要进行文本预处理，文本预处理即去掉描述文本中的停用词，包括语气词，多余的标点符号等，这些字符对于文本语义无影响，属于多余字符，去掉这部分字符可以精炼文本，降低对文本的编码复杂度和机器学习的复杂度，参见表2：

表2历史评论数据的预处理对照表

历史评论数据	预处理后的历史评论数据
		为什么我参团率0％？？？？？？	为什么我参团率0％
这宫本的大招锁定就是个垃圾。。。。。。。。	这宫本的大招锁定就是个垃圾
		为什么会输？都是演员吗太不公平了啊	为什么会输？都是演员吗太不公平

作为示例，在基于第一自然语言模型进行迁移训练之前，进行文本预处理之后，还需要进行样本提纯处理，即使是用户反馈的用于描述游戏故障的文本，通常也带有与游戏故障无关的描述，例如，用户个人的主观情绪描述以及故障复现逻辑等等，但这部分内容对于判断评论数据是否在描述游戏故障无关，属于干扰项，因此，需要对用户反馈的用于描述游戏故障的原始文本做进一步的提纯处理，去掉与游戏故障无关的额外描述，参见表3：

表3历史评论数据的提纯处理对照表

在对第一自然语言模型进行训练时，累积标记样本超过3万条，但真实描述故障的正样本仅3344条，为了避免负样本比例过大导致的训练权重偏移，在模型训练时挑选了全部3344条正样本，并从所有的非故障描述的负样本中随机挑选同样数量的负样本，然后对所有样本随机打乱，抽取其中90％的样本作为训练集，将剩余的10％的样本作为测试集，用于验证第一自然语言模型的准确率，准确率和召回率都接近80％，通过本申请实施例可以有效过滤约66.7％的非故障描述的评论数据，日均过滤超2万的非故障描述的评论数据，参见表4：

表4第一自然语言模型的准确度

准确率	召回率
		76.3％	79.8％

在一些实施例中，第一自然语言模型是基于经过预训练的模型A进行迁移训练得到的，模型A提供了基于语料库已经预训练好的模型数据，下面针对故障识别任务的迁移学习进行详细说明，参见图7，图7是本申请实施例提供的第一自然语言模型的架构示意图，当评论数据包括句子1和句子2时，将句子1和句子2作为第一自然语言模型的输入，例如，评论数据的字符为Tok1，…，TokN，[SEP]，Tok1，…，TokM，其中，[SEP]为两个句子之间的标点符号，在评论数据的字符前还需要添加评论分类标识[CLS]，评论分类标识[CLS]并不存在语义信息，从而作为输入时不会对评论数据的语义处理产生影响，并将对应的输出作为评论数据的语义表示，评论分类标识[CLS]与评论数据中已有的其它词相比，这个无明显语义信息的符号会更“公平”地融合评论数据中各个字符的语义信息，从而更好的表示整句话的语义，通过第一嵌入层(embedding)对评论数据的字符以及评论分类标识[CLS]进行序列化处理，得到对应的嵌入向量，例如，E_[CLS]，E₁，…，E_N，E_[SEP]，E₁’，…，E_M’，再通过多个语义分类单元分别对E_[CLS]，E₁，…，E_N，E_[SEP]，E₁’，…，E_M’进行语义分类处理，得到对应每个字符以及标识符的输出，例如，C_[CLS]，T₁，…，T_N，T_[STP]，T₁’，…，T_M’，其中，C_[CLS]是评论数据的类别，用于表征评论数据是否属于故障数据，在第一自然语言模型中存在多个层级的语义分类单元，每个层级的语义分类单元的数目与字符的数目相同，任意一个字符的嵌入向量会输入至第一层级的每个语义分类单元中，第一层级的任意一个语义分类单元的输出会输入至第二层级的每个语义分类单元中，以此类推，最后一层级的每个语义分类单元的输出即对应每个字符的输出，通过第一自然语言模型的第一嵌入层对历史评论数据进行序列化，使用第一自然语言模型输出的对应评论分类标识[CLS]的处理结果C_[CLS]作为是否属于故障问题的预测分类标识，基于输出的预测分类标识以及历史评论数据的真实分类标识之间的差别构建第一损失函数，并基于第一损失函数对第一自然语言模型进行参数更新，即微调第一自然语言模型的参数，通过大量的用户评论数据和对应的分类标记，重复上述参数更新的过程，将差别收敛时的第一自然语言模型作为最终本申请实施例中使用的第一自然语言模型。

在一些实施例中，在得到故障数据后，即在得到用于描述故障的评论数据后，按照设定时间间隔进行分词以及聚类处理，例如，将10分钟内收集得到的故障数据进行分词以及聚类处理，分词处理之前需要进行序列标注处理，通过第二自然语言模型进行序列标注，进行序列标注时可以使用条件随机场序列标注规则，设X和Y是随机变量，P(Y|X)是给定X条件下Y的条件概率分布，如果随机变量Y构成一个由无向图G＝<V，E>表示的马尔可夫随机场，即Y在某个位置的赋值仅仅与和它相邻的位置的赋值有关，和与其不相邻的位置的赋值无关，则称条件概率分布P(Y|X)为条件随机场，在自然语言处理的分词任务中，每个字能否是词语的一部分，完全由该字的上下文决定，因此，分词任务之前的序列标注很适合使用条件随机场序列标注规则，对故障数据的序列标注参见表5：

表5故障数据的序列标注表

杨/B玉/M环/E怎/S么/S都/S按/B不/M出/E大/M招/E
	对/S面/S小/B乔/E有/S外/B挂/E
对/B局/E结/B束/E的/S时/S候/S，/S钟/B馗/E声/S音/E变/B了/E
	小/B乔/E的/S被/B动/E加/B速/E不/B见/M了/E
猴/B子/E会/S打/B断/E所/S有/S野/B怪/M的/M攻/M击/E

作为示例，上述序列标注示例中，B表示词语的开始，M表示词语的中间字，即该字属于长度在3个字以上的词的中间部分，E表示该字为词语的结尾，S表示单字，再基于预测标注确定出分词序列，以保证经过得到的分词结果会满足条件随机场约束条件，例如，句子中第一个词总是以标签“B-“或“S”开始，而不是“M-”等等。

在一些实施例中，可以用同样的方式训练得到第二自然语言模型，第二自然语言模型也是基于经过预训练的模型A进行迁移训练得到的，模型A提供了基于语料库已经预训练好的模型数据，下面针对标注任务的迁移学习进行详细说明，参见图8，首先从用户上报的历史故障数据中随机挑选部分样本，并对这部分样本进行人工标记，随机从已经判定为故障数据的评论数据中随机选择了1000条故障数据进行分词标注，标记每个样本中每个字符的分词标注，随机选取900条故障数据作为训练集用于离线训练第二自然语言模型，之后基于第二自然语言模型进行迁移训练，迁移训练过程中微调第二自然语言模型的参数，剩下的100条故障数据作为测试集用于验证第二自然语言模型的准确率，参见表6，将经过迁移训练的第二自然语言模型用于进行故障数据的字符标注，从而基于标注结果进行关键词生成，得到包括多个关键词的分词结果，例如，故障数据“杨玉环怎么都按不出大招”的分词结果包括关键词“杨玉环”和“按不出大招”，其中，“怎么都”中每个字符的分词标注均为S，表征这些字符不构成关键词。

表6第二自然语言模型的准确度

准确率	召回率
		87.2％	90.2％

在一些实施例中，在对设定时间间隔内收集的故障数据进行分词之后，需要进行聚类处理，聚类处理是针对各个应用模块划进行的，因此在聚类处理之前先进行模块划分处理。参见图9，图9是本申请实施例提供的数据处理方法的模块划分的流程示意图，游戏应用中不同模块的关注度以及处理优先级不同，因此，首先对用户上报的故障数据进行模块划分，将每个故障数据分词后得到的关键词，逐一与已经划分好的模块的预设关键词进行匹配，若故障数据中任意关键词与模块的设定关键词相同，则将故障数据归入该模块下，例如，模块A具有预设关键词A，故障数据B“杨玉环怎么都按不出大招”的分词结果包括关键词“杨玉环”和“按不出大招”，故障数据B中存在关键词“杨玉环”与预设关键词A相同，即将故障数据B归入该模块A。

在一些实施例中，通过词频统计反映任意一个关键词在模块中出现的次数，针对故障数据，关键词出现的频次越高，表明反馈该关键词的用户越多，该关键词是真实故障问题的可能性也越大，由于本申请实施例是针对不同模块，在各个模块内对故障数据进行聚类，因此，在做词频统计时，同样在各个模块内进行词频统计，参见公式(2)：

freq_word＝Count_word/Count_doc (2)；

在一些实施例中，针对相同的故障，可能有多种不同的故障描述，以之前实际出现过的孙悟空无伤打野的问题为例，可能出现以下不同的表达和分词结果：故障数据1是“孙悟空打野无伤”，故障数据1的分词结果是“孙悟空”、“打野”、“无伤”，故障数据2是“孙悟空打野，野怪无法造成伤害”，故障数据2的分词结果是“孙悟空”“打野”“野怪”“伤害”，故障数据3是“孙悟空普攻打断野怪攻击”，故障数据3的分词结果是“孙悟空”、“普攻”、“打断”、“野怪”“攻击”，其中，去掉模块名称“孙悟空”之后，得到各个关键词的词频如表7所示：

表7各个关键词在某个模块中的词频

关键词	词频
		野怪	0.88
打野	0.82
		无伤	0.70
普攻	0.66
		打断	0.58
攻击	0.52

如果直接以关键词的词频进行聚类，普攻打断野怪攻击和打野无伤将被划分到两个类别下，但这两种表述其实是同一个问题，都是只孙悟空的普攻，会将也野怪的攻击技能打断，后果是孙悟空可以无伤打野，因此，需要对通用的基于词频的聚类进行改进。通过对样本的观察发现，如果两个词在同一条评论中出现的次数越高，则这两个关键词反馈同一个问题的概率越大，因此，本文在对评论关键词同时出现在同一条评论的频率做了统计，参见公式(3)：

freq_{w1_w2}＝Count_{w1_w2}/Count_doc (3)；

其中，Count_{w1_w2}表示某个模块中同时包含关键词w1和关键词w2的故障数据的数量，Count_doc表示该模块内故障数据的总数目，freq_{w1_w2}是关键词w1和关键词w2的共现词频。

在一些实施例中，出现频率较低的关键词，通常对描述故障的贡献度较低，因此，在对各模块内的故障数据进行编码时，仅对该模块内词频排序靠前的N个关键词进行编码，N的取值决定于模块内的故障数据的总数，即每个故障数据在编码时的编码长度为N，参见图10，编码逻辑流程如下，在对每个故障数据进行编码时，故障数据存在N个编码位置，每个编码位置对应N个关键词中的一个，逐个遍历N个关键词，若该条故障数据不包含该关键词，则该位置的编码用0表示，反之，若该关键词为此故障数据中在整个模块内通用词频最高的关键词，则当前编码位置用该关键词的词频表示，例如，故障数据A具有关键词B和关键词C，该关键词是关键词B，且关键词B的词频高于关键词C的词频，则当前编码位置用该关键词的词频表示，反之，则用当前故障数据中通用词频最高的关键词的词频减去该关键词与最高的关键词的共现词频，例如，该关键词是关键词C，则用关键词B的词频减去关键词B与关键词C的共现词频，参见公式(4)：

其中，E_n是关键词n对应位置的编码，W_{top n} not in Key_doc表征该条故障数据不包含该关键词n，W_{top n} in Key_doc＆W_{top n}＝＝Key₀表征该关键词n为此故障数据中在整个模块内通用词频最高的关键词，W_{top n} in Key_doc&W_{top n}＝＝Key₀表征该条故障数据包含该关键词n，但是该关键词n不是故障数据中在整个模块内通用词频最高的关键词，freq_w表示该关键词n的词频，freq_w0-freq_{w0_wn}表示当前故障数据中通用词频最高的关键词的词频减去该关键词n与最高的关键词的共现词频。

在一些实施例中，由于在聚类前并不确定用户上报的故障数据可以分为多少个类别，因此，采用基于密度的聚类算法进行聚类处理，模块内的故障数据集合D＝(x₁，x₂，...x_m)，基于密度的聚类算法的相关定义如下：

1)∈-邻域：对于x_j∈D，其∈-邻域包含集合D中与x_j的距离不大于∈的子样本集，即N_∈(x_j)＝{x_i∈D|distance(x_i，x_j)≤∈}，这个子样本集的个数记为|N_∈(x_j)|，故障数据之间的最大编码距离不超过∈。

2)核心对象(核心故障数据)：对于任一样本x_j∈D_x，j∈D，如果其∈-邻域对应的N_∈(x_j)至少包含MinPts个样本，即如果|N∈(xj)|≥MinPts，则x_j是核心对象，每个聚类最小故障数据的数目不低于MinPts。

3)密度直达：如果x_i位于x_j的∈-邻域中，且x_j是核心对象，则称x_i由x_j密度直达，但此时不能说x_j由x_i密度直达，除非x_i也是核心对象。

4)密度可达：对于x_i和x_j，如果存在样本序列p₁，p₂，...，p_T，满足p₁＝x_i，p_T＝x_j，且p_t+1由p_t密度直达，则称x_j由x_i密度可达，也就是说，密度可达满足传递性，此时序列中的传递样本p1，p2，...，pT-1均为核心对象，因为只有核心对象才能使其他样本密度直达，注意密度可达也不满足对称性，这个可以由密度直达的不对称性得出。

5)密度相连：对于x_i和x_j，如果存在核心对象样本x_k，使x_i和x_j均由x_j密度可达，则称x_i和x_j密度相连，密度相连关系是满足对称性的。

聚类算法的输入是某个模块内的所有故障数据的关键词编码，故障数据之间的最大编码距离不超过∈，每个聚类最小故障数据的数目不低于MinPts，对于任一故障数据x_j∈D，如果其∈-邻域对应的N_∈(x_j)至少包含MinPts条评论样本，即如果|N_∈(x_j)|≥MinPts，则x_j是核心对象，聚类算法的输出是簇划分C＝(C₁，C₂，...C_k)，每个簇划分对应一个聚类，聚类流程如下：

步骤1)，初始化核心对象集合为空集

初始化聚类数量k＝0，即初始化簇数量，初始化未遍历故障数据集合为输入集Γ＝D，簇划分结果为空集/>

步骤2)，对于j＝1，2...m，按照下面步骤计算所有的核心对象：a)通过举例度量方式找到故障数据x_j的∈-邻域子样本集N_∈(x_j)，b)如果子样本集样本个数满足|N_∈(x_j)|≥MinPts，将故障数据x_j加入核心对象样本集合：Ω＝Ω∪{x_j}；

步骤3)，如果核心对象集合

即在步骤2)中并未找到任何核心对象，则算法结束，否则进入步骤4)；

步骤4)，在核心对象集合Ω中，随机选择一个核心对象ω，初始化当前簇核心对象队列Ω_cur＝{ω}，初始化类别序号k＝k+1，初始化当前簇故障数据集合C_k＝{ω}，更新未遍历数据集合Γ＝Γ-{ω}；

步骤5)，如果当前簇核心对象队列

则当前聚类簇C_k生成完毕，更新簇划分C＝(C₁，C₂，...C_k)，更新核心对象集合Ω＝Ω-C_k，然后进入步骤3)，否则更新核心对象集合Ω＝Ω-C_k；

步骤6)，在当前簇核心对象队列Ω_cur中取出一个核心对象ω′，通过∈-邻域距离阈值找出所有的∈-邻域子样本集N_∈(ω′)，令Δ＝N_∈(ω′)∩Γ，更新当前簇故障数据集合C_k＝C_k∪Δ，更新未遍历数据集合Γ＝Γ-Δ，更新Ω_cur＝Ω_cur∪(Δ∩Ω)-ω′，转入步骤5)。

本申请实施例可过滤超过66.7％的无效评论数据(非故障数据)，并且可对外网评论数据实时识别，然后快速聚类有效问题(故障数据)，对于突增故障反馈进行快速预警，从而提高外网故障反馈的响应速度。

通过对评论数据进行故障识别处理，得到故障数据，可以有效保证故障数据获取的准确度，对故障数据进行分词处理，得到关键词，并基于针对多个故障数据进行基于关键词的聚类处理，得到多个故障数据聚类，根据故障数据聚类的故障数据的关键词，确定对应每个所述故障数据聚类的故障标签，从而通过故障标签可以有效表征某类故障问题，从而缩减故障数据的数量级以及提高准确度，从而有效提高故障响应速度，本申请实施例可以将外网上万条评论数据，快速聚类为若干类的故障标签，利用聚类得到的故障标签代替大数量级的原始评论数据，将数量级缩短至千分之一，极大的缩减了外网故障问题的暴露时间及响应速度。

下面继续说明本申请实施例提供的数据处理装置455的实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器450的数据处理装置455中的软件模块可以包括：获取模块4551，用于获取针对目标应用的多个目标数据；识别模块4552，用于对多个目标数据进行故障识别处理，得到多个目标数据中的多个故障数据；分词模块4553，用于对每个故障数据进行分词处理，得到每个故障数据的至少一个关键词；聚类模块4554，用于针对多个故障数据进行基于关键词的聚类处理，得到目标应用的多个故障数据聚类；标签模块4555，用于根据每个所述故障数据聚类的故障数据的关键词，确定对应每个所述故障数据聚类的故障标签。

在一些实施例中，故障识别处理是通过第一自然语言模型实现的，第一自然语言模型包括第一嵌入层以及语义分类层，识别模块4552，还用于：针对每个目标数据执行以下处理：通过第一嵌入层对目标数据进行序列化处理，得到目标数据中每个字符的嵌入向量；通过第一嵌入层对评论分类标识进行序列化处理，得到评论分类标识的嵌入向量；基于每个字符的嵌入向量以及评论分类标识的嵌入向量，生成向量序列；其中，评论分类标识的嵌入向量位于向量序列的首位，多个字符的嵌入向量在向量序列中的顺序与多个字符在目标数据中顺序相同；通过语义分类层对向量序列进行语义识别处理，得到对应向量序列中每个嵌入向量的语义识别处理结果；当评论分类标识的嵌入向量对应的语义识别处理结果表征目标数据为故障数据时，将目标数据确定为故障数据。

在一些实施例中，识别模块4552，还用于：针对每个字符执行以下处理：获取字符的词向量、字符的位置向量以及字符的归属向量；将字符的词向量、字符的位置向量以及字符的归属向量进行求和处理，得到字符的嵌入向量。

在一些实施例中，分词模块4553，还用于：针对每个故障数据执行以下处理：对故障数据的每个字符进行标注预测处理，得到每个字符的预测标注；其中，预测标注包括以下至少之一：关键词首位字符、关键词中间字符、关键词末位字符、关键词无效字符；基于故障数据的每个字符的预测标注，确定故障数据的至少一个关键词。

在一些实施例中，标注预测处理是通过第二自然语言模型实现的，第二自然语言模型包括第二嵌入层以及语义标注层，分词模块4553，还用于：针对每个故障数据执行以下处理：通过第二嵌入层对故障数据进行序列化处理，得到故障数据中每个字符的嵌入向量；通过语义标注层对每个嵌入向量进行语义标注处理，得到每个嵌入向量的预测标注。

在一些实施例中，聚类模块4554，还用于：基于每个故障数据的至少一个关键词，对每个故障数据进行应用模块分类处理，得到与每个故障数据对应的应用模块；针对每个应用模块执行以下处理：对应用模块对应的每个故障数据进行编码处理，得到应用模块对应的每个故障数据的编码结果；基于应用模块对应的每个故障数据的编码结果，对应用模块对应的多个故障数据进行聚类处理，得到应用模块的多个故障数据聚类。

在一些实施例中，聚类模块4554，还用于：获取应用模块对应的每个故障数据的关键词；将通用词频满足贡献度条件的多个关键词作为多个目标关键词，其中，故障数据的多个编码位置与多个目标关键词一一对应；基于多个目标关键词，对应用模块对应的每个故障数据进行编码处理，得到故障数据的编码结果。

在一些实施例中，聚类模块4554，还用于：将通用词频满足贡献度条件的多个关键词作为多个目标关键词之前，针对应用模块的多个关键词中每个关键词执行以下处理：获取应用模块中包括关键词的故障数据的第一数目，获取应用模块中故障数据的总数目，将第一数目与总数目的比值作为关键词的通用词频；将通用词频超过通用词频阈值的多个关键词作为满足贡献度条件的多个目标关键词，或者，对应用模块的多个关键词进行基于通用词频的降序排序，并将降序排序靠前的多个关键词作为满足贡献度条件的多个目标关键词。

在一些实施例中，聚类模块4554，还用于：针对多个目标关键词中的每个目标关键词执行以下处理：当故障数据不包括目标关键词时，将故障数据在目标关键词对应的编码位置编码为零；当目标关键词是故障数据中通用词频最高的关键词时，将故障数据在目标关键词对应的编码位置编码为目标关键词的通用词频；当目标关键词是故障数据的关键词，且不是故障数据中通用词频最高的关键词时，基于目标关键词以及故障数据中通用词频最高的最高频关键词，对故障数据在目标关键词对应的编码位置进行编码。

在一些实施例中，聚类模块4554，还用于：获取应用模块中同时包括目标关键词以及最高频关键词的故障数据的第二数目；获取应用模块中故障数据的总数目；将第二数目与总数目的比值作为目标关键词的共现词频；将故障数据在目标关键词对应的编码位置编码为最高频关键词的通用词频与共现词频的差值。

在一些实施例中，聚类模块4554，还用于：将应用模块对应的多个故障数据组合为故障数据集合；以故障数据集合作为未遍历数据集合，并确定聚类序号为零；基于故障数据集合以及对应故障数据集合中各个故障数据的编码结果，以编码距离阈值和邻近点数目阈值为约束条件，确定核心故障数据集合；当核心故障数据集合不为空集时，针对核心故障数据集合中的任一核心故障数据执行以下处理：初始化对应核心故障数据的簇核心故障数据队列以及簇故障数据集合，并更新聚类序号以及未遍历数据集合；提取出簇核心故障数据队列中第一个核心故障数据，确定针对第一个核心故障数据的邻域故障数据集合，并更新簇核心故障数据队列、簇故障数据集合以及未遍历数据集合，直到簇核心故障数据队列中的核心故障数据提取完毕；当簇核心故障数据队列中的核心故障数据提取完毕时，更新核心故障数据集合并确定簇故障数据集合中的所有故障数据属于对应当前聚类序号的故障数据聚类。

在一些实施例中，聚类模块4554，还用于：将簇核心故障数据队列初始化为仅包括核心故障数据的队列，并将簇故障数据集合初始化为仅包括核心故障数据的簇故障数据集合；对聚类序号进行加一操作，并将未遍历数据集合更新为不包括核心故障数据的未遍历数据集合。

在一些实施例中，聚类模块4554，还用于：将簇核心故障数据队列中的第一个核心故障数据移出簇核心故障数据队列；基于多个故障数据的编码结果，确定第一个核心故障数据和任一故障数据之间的编码距离；以第一个核心故障数据的编码结果为圆心，结合编码距离阈值，构造对应第一个核心故障数据的圆形区域，并在圆形区域内标记与圆心之间的编码距离小于编码距离阈值的任一故障数据；当圆形区域内的故障数据数目达到邻近点数目阈值时，将圆形区域内的所有故障数据组合形成邻域故障数据集合。

在一些实施例中，聚类模块4554，还用于：获取邻域故障数据集合和未遍历数据集合的第一交集，并基于第一交集更新簇故障数据集合，以使簇故障数据集合包括第一交集中的所有故障数据；基于第一交集更新未遍历数据集合，以使未遍历数据集合不包括第一交集；确定第一交集和核心故障数据集合的第二交集，并基于第二交集更新簇核心故障数据队列，以使簇核心故障数据队列包括第二交集，且第一个核心故障数据从簇核心故障数据队列中移除。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例上述的数据处理方法。

本申请实施例提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的数据处理方法，例如，如图3A-3C示出的数据处理方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个电子设备上执行，或者在位于一个地点的多个电子设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个电子设备上执行。

综上所述，通过本申请实施例对评论数据进行故障识别处理，得到故障数据，可以有效保证故障数据获取的准确度，对故障数据进行分词处理，得到关键词，并基于针对多个故障数据进行基于关键词的聚类处理，得到多个故障数据聚类，根据故障数据聚类的故障数据的关键词，确定对应每个所述故障数据聚类的故障标签，从而通过故障标签可以有效表征某类故障问题，从而缩减故障数据的数量级以及提高准确度，从而有效提高故障响应速度。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

获取针对目标应用的多个目标数据，其中，所述目标应用包括多个应用模块；

对所述多个目标数据进行故障识别处理，得到所述多个目标数据中的多个故障数据；

基于每个所述故障数据的至少一个关键词，对每个所述故障数据进行应用模块分类处理，得到与每个所述故障数据对应的应用模块；

针对每个所述应用模块执行以下处理：获取所述应用模块对应的每个所述故障数据的关键词；将通用词频满足贡献度条件的多个关键词作为多个目标关键词，其中，所述故障数据的多个编码位置与所述多个目标关键词一一对应；基于所述多个目标关键词，对所述应用模块对应的每个所述故障数据进行编码处理，得到所述故障数据的编码结果；

基于所述应用模块对应的每个所述故障数据的编码结果，对所述应用模块对应的多个故障数据进行聚类处理，得到所述应用模块的多个故障数据聚类；

2.根据权利要求1所述的方法，其特征在于，所述故障识别处理是通过第一自然语言模型实现的，所述第一自然语言模型的输入包括所述目标数据以及被添加至所述目标数据的字符之前的评论分类标识，所述第一自然语言模型包括第一嵌入层以及语义分类层，所述对所述多个目标数据进行故障识别处理，得到所述多个目标数据中的多个故障数据，包括：

针对每个所述目标数据执行以下处理：

通过所述第一嵌入层对所述目标数据进行序列化处理，得到所述目标数据中每个字符的嵌入向量；

通过所述第一嵌入层对评论分类标识进行序列化处理，得到所述评论分类标识的嵌入向量，其中，所述评论分类标识是不具有语义信息的标识；

基于每个所述字符的嵌入向量以及所述评论分类标识的嵌入向量，生成向量序列；

其中，所述评论分类标识的嵌入向量位于所述向量序列的首位，多个所述字符的嵌入向量在所述向量序列中的顺序与多个所述字符在所述目标数据中顺序相同；

通过所述语义分类层对所述向量序列进行语义识别处理，得到对应所述向量序列中每个所述嵌入向量的语义识别处理结果；

当所述评论分类标识的嵌入向量对应的语义识别处理结果表征所述目标数据为故障数据时，将所述目标数据确定为所述故障数据。

3.根据权利要求2所述的方法，其特征在于，所述通过所述第一嵌入层对所述目标数据进行序列化处理，得到所述目标数据中每个字符的嵌入向量，包括：

针对每个所述字符执行以下处理：

获取所述字符的词向量、所述字符的位置向量以及所述字符的归属向量；

将所述字符的词向量、所述字符的位置向量以及所述字符的归属向量进行求和处理，得到所述字符的嵌入向量。

4.根据权利要求1所述的方法，其特征在于，所述对每个所述故障数据进行分词处理，得到每个所述故障数据的至少一个关键词，包括：

针对每个所述故障数据执行以下处理：

对所述故障数据的每个字符进行标注预测处理，得到每个所述字符的预测标注；

其中，所述预测标注包括以下至少之一：关键词首位字符、关键词中间字符、关键词末位字符、关键词无效字符；

基于所述故障数据的每个所述字符的预测标注，确定所述故障数据的至少一个关键词。

5.根据权利要求4所述的方法，其特征在于，所述标注预测处理是通过第二自然语言模型实现的，所述第二自然语言模型包括第二嵌入层以及语义标注层，所述对所述故障数据的每个字符进行标注预测处理，得到每个所述字符的预测标注，包括：

针对每个所述故障数据执行以下处理：

通过所述第二嵌入层对所述故障数据进行序列化处理，得到所述故障数据中每个字符的嵌入向量；

通过所述语义标注层对每个所述嵌入向量进行语义标注处理，得到每个所述嵌入向量的预测标注。

6.根据权利要求1所述的方法，其特征在于，所述将通用词频满足贡献度条件的多个关键词作为多个目标关键词之前，所述方法还包括：

针对所述应用模块的多个关键词中每个所述关键词执行以下处理：获取所述应用模块中包括所述关键词的故障数据的第一数目，获取所述应用模块中所述故障数据的总数目，将所述第一数目与所述总数目的比值作为所述关键词的通用词频；

将所述通用词频超过通用词频阈值的多个关键词作为满足贡献度条件的多个目标关键词，或者，对所述应用模块的多个关键词进行基于所述通用词频的降序排序，并将降序排序靠前的多个关键词作为满足贡献度条件的多个目标关键词。

7.根据权利要求1所述的方法，其特征在于，针对每个所述故障数据进行的编码处理包括：

针对所述多个目标关键词中的每个所述目标关键词执行以下处理：

当所述故障数据不包括所述目标关键词时，将所述故障数据在所述目标关键词对应的编码位置编码为零；

当所述目标关键词是所述故障数据中通用词频最高的关键词时，将所述故障数据在所述目标关键词对应的编码位置编码为所述目标关键词的通用词频；

当所述目标关键词是所述故障数据的关键词，且不是所述故障数据中通用词频最高的关键词时，基于所述目标关键词以及所述故障数据中所述通用词频最高的最高频关键词，对所述故障数据在所述目标关键词对应的编码位置进行编码。

8.根据权利要求7所述的方法，其特征在于，所述基于所述目标关键词以及所述故障数据中所述通用词频最高的最高频关键词，对所述故障数据在所述目标关键词对应的编码位置进行编码，包括：

获取所述应用模块中同时包括所述目标关键词以及所述最高频关键词的故障数据的第二数目；

获取所述应用模块中所述故障数据的总数目；

将所述第二数目与所述总数目的比值作为所述目标关键词的共现词频；

将所述故障数据在所述目标关键词对应的编码位置编码为所述最高频关键词的通用词频与所述共现词频的差值。

9.根据权利要求1所述的方法，其特征在于，所述基于所述应用模块对应的每个所述故障数据的编码结果，对所述应用模块对应的多个故障数据进行聚类处理，得到所述应用模块的多个故障数据聚类，包括：

将所述应用模块对应的多个所述故障数据组合为故障数据集合；

以所述故障数据集合作为未遍历数据集合，并确定聚类序号为零；

基于所述故障数据集合以及对应所述故障数据集合中各个故障数据的编码结果，以编码距离阈值和邻近点数目阈值为约束条件，确定核心故障数据集合；

当所述核心故障数据集合不为空集时，针对所述核心故障数据集合中的任一核心故障数据执行以下处理：

初始化对应所述核心故障数据的簇核心故障数据队列以及簇故障数据集合，并更新所述聚类序号以及所述未遍历数据集合；

提取出所述簇核心故障数据队列中第一个核心故障数据，确定针对所述第一个核心故障数据的邻域故障数据集合，并更新所述簇核心故障数据队列、所述簇故障数据集合以及所述未遍历数据集合，直到所述簇核心故障数据队列中的核心故障数据提取完毕；

当所述簇核心故障数据队列中的核心故障数据提取完毕时，更新所述核心故障数据集合并确定所述簇故障数据集合中的所有故障数据属于对应当前聚类序号的故障数据聚类。

10.根据权利要求9所述的方法，其特征在于，所述初始化对应所述核心故障数据的簇核心故障数据队列以及簇故障数据集合，并更新所述聚类序号以及所述未遍历数据集合，包括：

将所述簇核心故障数据队列初始化为仅包括所述核心故障数据的队列，并将所述簇故障数据集合初始化为仅包括所述核心故障数据的簇故障数据集合；

对所述聚类序号进行加一操作，并将所述未遍历数据集合更新为不包括所述核心故障数据的未遍历数据集合。

11.根据权利要求10所述的方法，其特征在于，所述提取出所述簇核心故障数据队列中第一个核心故障数据，确定针对所述第一个核心故障数据的邻域故障数据集合，包括：

将所述簇核心故障数据队列中的第一个核心故障数据移出所述簇核心故障数据队列；

基于所述多个故障数据的编码结果，确定所述第一个核心故障数据和任一故障数据之间的编码距离；

以所述第一个核心故障数据的编码结果为圆心，结合所述编码距离阈值，构造对应所述第一个核心故障数据的圆形区域，并在所述圆形区域内标记与所述圆心之间的编码距离小于所述编码距离阈值的所述任一故障数据；

当所述圆形区域内的故障数据数目达到邻近点数目阈值时，将所述圆形区域内的所有故障数据组合形成所述邻域故障数据集合。

12.根据权利要求10所述的方法，其特征在于，所述更新所述簇核心故障数据队列、所述簇故障数据集合以及所述未遍历数据集合，包括：

获取所述邻域故障数据集合和所述未遍历数据集合的第一交集，并基于所述第一交集更新所述簇故障数据集合，以使所述簇故障数据集合包括所述第一交集中的所有故障数据；

基于所述第一交集更新所述未遍历数据集合，以使所述未遍历数据集合不包括所述第一交集；

确定所述第一交集和所述核心故障数据集合的第二交集，并基于所述第二交集更新所述簇核心故障数据队列，以使所述簇核心故障数据队列包括所述第二交集，且所述第一个核心故障数据从所述簇核心故障数据队列中移除。

13.一种数据处理装置，其特征在于，所述装置包括：

获取模块，用于获取针对目标应用的多个目标数据，其中，所述目标应用包括多个应用模块；

聚类模块，用于基于每个所述故障数据的至少一个关键词，对每个所述故障数据进行应用模块分类处理，得到与每个所述故障数据对应的应用模块；针对每个所述应用模块执行以下处理：获取所述应用模块对应的每个所述故障数据的关键词；将通用词频满足贡献度条件的多个关键词作为多个目标关键词，其中，所述故障数据的多个编码位置与所述多个目标关键词一一对应；基于所述多个目标关键词，对所述应用模块对应的每个所述故障数据进行编码处理，得到所述故障数据的编码结果；基于所述应用模块对应的每个所述故障数据的编码结果，对所述应用模块对应的多个故障数据进行聚类处理，得到所述应用模块的多个故障数据聚类；

14.一种电子设备，其特征在于，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至12任一项所述的数据处理方法。

15.一种计算机可读存储介质，存储有可执行指令，其特征在于，所述可执行指令被处理器执行时实现权利要求1至12任一项所述的数据处理方法。