CN116743634A

CN116743634A - 数据处理方法和装置、电子设备、计算机可读存储介质

Info

Publication number: CN116743634A
Application number: CN202310691654.2A
Authority: CN
Inventors: 王通; 张旭东
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2023-06-12
Filing date: 2023-06-12
Publication date: 2023-09-12

Abstract

本公开关于一种数据处理方法和装置、电子设备、计算机可读存储介质，数据处理方法包括：获取待处理链路的输入数据和输出数据作为主输入数据和主输出数据，其中，待处理链路包括多个按序连接的子链路；从待处理链路的多个子链路中确定一个参考子链路，并基于待处理链路处理主输入数据，得到模仿主输出数据，其中，参考子链路的输出数据通过执行参考子链路得到，其他子链路的输出数据通过预先训练的预测模型得到；判断是否满足结束条件；响应于满足结束条件，基于主输出数据，从待处理链路的所有模仿主输出数据中，确定一个近似主输出数据；将近似主输出数据对应的参考子链路，确定为目标子链路。

Description

数据处理方法和装置、电子设备、计算机可读存储介质

技术领域

本公开涉及流量回放技术领域，尤其涉及一种数据处理方法和装置、电子设备、计算机可读存储介质。

背景技术

对于线上应用程序，系统通常会定期针对特定的链路进行流量回放，以实现主动的问题排查。然而对于线上出现的偶现的问题，大部分系统中仅会记录这类问题出现时链路的入参及返回数据，对于链路中的详细数据并没有进行完整记录，因此，对于该类问题，通常只能采用人工分析的方式定位问题，没有充分利用计算资源来提升排查偶现问题的效率，存在资源利用率低的问题。

发明内容

本公开提供一种数据处理方法和装置、电子设备、计算机可读存储介质，以至少解决相关技术中的如何提高排查偶现问题时的资源利用率的问题。

根据本公开的第一方面，提供了一种数据处理方法，所述数据处理方法包括：获取待处理链路的输入数据和输出数据作为主输入数据和主输出数据，其中，所述待处理链路包括多个按序连接的子链路；从所述待处理链路的多个子链路中确定一个参考子链路，并基于所述待处理链路处理所述主输入数据，得到模仿主输出数据，其中，所述参考子链路的输出数据通过执行所述参考子链路得到，所述待处理链路中除所述参考子链路以外的其他子链路的输出数据通过预先训练的预测模型得到，所述预测模型用于预测相应子链路的输出数据；判断是否满足结束条件，其中，所述结束条件是表示无需从所述待处理链路的多个子链路中确定新的参考子链路的条件；响应于满足所述结束条件，基于所述主输出数据，从所述待处理链路的所有所述模仿主输出数据中，确定一个近似主输出数据；将所述近似主输出数据对应的参考子链路，确定为目标子链路。

可选地，所述响应于满足所述结束条件，基于所述主输出数据，从所述待处理链路的所有所述模仿主输出数据中，确定一个近似主输出数据，包括：响应于满足所述结束条件，确定所述待处理链路的所有所述模仿主输出数据各自与所述主输出数据的相似程度；从所述待处理链路的所有所述模仿主输出数据中，确定相似程度最大且大于第一预设阈值的一个，作为所述近似主输出数据。

可选地，所述从所述待处理链路的多个子链路中确定一个参考子链路，包括：从所述待处理链路的多个子链路中确定一个只读类型的子链路，作为所述参考子链路。

可选地，在所述响应于满足所述结束条件，基于所述主输出数据，从所述待处理链路的所有所述模仿主输出数据中，确定一个近似主输出数据之后，所述数据处理方法还包括：响应于从所述待处理链路的所有所述模仿主输出数据中无法确定出所述近似主输出数据，将所述待处理链路中的写类型的子链路作为新的待处理链路，重复执行从获取待处理链路的输入数据和输出数据到确定所述近似主输出数据的步骤，直到确定出所述近似主输出数据或无法确定出新的待处理链路，其中，在所述待处理链路的所有所述模仿主输出数据与所述主输出数据的相似程度均小于或等于所述第一预设阈值的情况下，确认无法确定出所述近似主输出数据。

可选地，所述结束条件包括以下至少一个：所述待处理链路的所有只读类型的子链路对应的所述模仿主输出数据均已得到、当前得到的所述模仿主输出数据与所述主输出数据的相似程度超过第二预设阈值，其中，所述第二预设阈值大于所述第一预设阈值。

可选地，每个子链路均具有对应的预测模型，所述预先训练的预测模型通过以下步骤训练得到：获取待训练子链路在生产环境的多个样本数据，所述样本数据包括样本输入数据和样本输出数据；根据所述多个样本数据，确定候选预测模型；继续获取所述待训练子链路在生产环境的新的样本数据；将新获取的样本输入数据输入所述候选预测模型，得到预测输出数据；根据所述预测输出数据和相应的样本输出数据，修正所述候选预测模型；重复执行从继续获取新的样本数据至修正所述候选预测模型的步骤，直至满足训练结束条件，将最终得到的所述候选预测模型作为所述预先训练的预测模型。

可选地，所述重复执行从继续获取新的样本数据至修正所述候选预测模型的步骤，包括：响应于累积使用的所述样本数据的数量达到样本阈值，基于所有所述预测输出数据和对应的样本输出数据，统计所述待训练子链路的多个输出字段的差别概率，其中，每个输出字段的所述差别概率是所有所述预测输出数据中，相应输出字段的差别预测数据的占比，其中，所述差别预测数据的相应输出字段与所述差别预测数据对应的样本输出数据的相应输出字段的相似度小于相似度阈值；将所述差别概率大于或等于差别阈值的输出字段，作为差别字段；重复执行从继续获取新的样本数据至修正所述候选预测模型的步骤，并在修正所述候选预测模型时使用所述多个输出字段中除所述差别字段以外的其他字段。

根据本公开的第二方面，提供了一种数据处理装置，所述数据处理装置包括：获取单元，被配置为获取待处理链路的输入数据和输出数据作为主输入数据和主输出数据，其中，所述待处理链路包括多个按序连接的子链路；模仿单元，被配置为从所述待处理链路的多个子链路中确定一个参考子链路，并基于所述主输入数据，得到模仿主输出数据，其中，所述参考子链路的输出数据通过执行所述参考子链路得到，所述待处理链路中除所述参考子链路以外的其他子链路的输出数据通过预先训练的预测模型得到，所述预测模型用于预测相应子链路的输出数据；判断单元，被配置为判断是否满足结束条件，其中，所述结束条件是表示无需从所述待处理链路的多个子链路中确定新的参考子链路的条件；确定单元，被配置为响应于满足所述结束条件，基于所述主输出数据，从所述待处理链路的所有所述模仿主输出数据中，确定一个近似主输出数据；定位单元，被配置为将所述近似主输出数据对应的参考子链路，确定为目标子链路。

可选地，所述确定单元还被配置为：响应于满足所述结束条件，确定所述待处理链路的所有所述模仿主输出数据各自与所述主输出数据的相似程度；从所述待处理链路的所有所述模仿主输出数据中，确定相似程度最大且大于第一预设阈值的一个，作为所述近似主输出数据。

可选地，所述模仿单元还被配置为：从所述待处理链路的多个子链路中确定一个只读类型的子链路，作为所述参考子链路。

可选地，所述获取单元还被配置为：响应于所述确定单元无法确定出所述近似主输出数据，将所述待处理链路中的写类型的子链路作为新的待处理链路，重复执行获取待处理链路的输入数据和输出数据作为主输入数据和主输出数据的步骤，并再次运行所述模仿单元和所述确定单元，直到所述确定单元确定出所述近似主输出数据或所述获取单元无法确定出新的待处理链路，其中，所述确定单元还被配置为：在所述待处理链路的所有所述模仿主输出数据与所述主输出数据的相似程度均小于或等于所述第一预设阈值的情况下，确认无法确定出所述近似主输出数据。

根据本公开的第三方面，提供了一种电子设备，所述电子设备包括：至少一个处理器；至少一个存储计算机可执行指令的存储器，其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行根据本公开的数据处理方法。

根据本公开的第四方面，提供了一种计算机可读存储介质，当所述计算机可读存储介质中的指令被至少一个处理器运行时，促使所述至少一个处理器执行根据本公开的数据处理方法。

根据本公开的第五方面，提供了一种计算机程序产品，包括计算机指令，所述计算机指令被至少一个处理器执行时实现根据本公开的数据处理方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

根据本公开的实施例的数据处理方法和数据处理装置，利用多次回放来排查待处理链路的子链路。在每次回放中，针对当前排查的参考子链路以外的其他子链路，利用预先训练的预测模型来得到输出数据，从而较为准确地复现相应子链路在生产环境中未出现问题时的输出数据，补充出完整的链路数据，同时对参考子链路进行仿真环境下的回放操作，有助于保障参考子链路的回放操作结果可靠、待处理链路的回放顺利进行，从而得到较为可靠的待处理链路的模仿主输出数据。在此基础上，通过从回放得到的所有模仿主输出数据中确定出与实际的主输出数据最相符的一个，可将相应的一次回放视为对待处理链路的有效回放，进而将对应的参考子链路确定为出现问题的目标子链路，可迅速、便捷、可靠地确定出目标子链路，无需人工介入分析，实现了偶现问题的高效数据处理。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是示出根据本公开的示例性实施例的数据处理方法的流程图；

图2是示出根据本公开的具体实施例的数据处理方法的逻辑示意图；

图3是示出根据本公开的示例性实施例的数据处理装置的框图；

图4是示出根据本公开的示例性实施例的电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在此需要说明的是，在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况：(1)包括A；(2)包括B；(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”，即表示如下三种并列的情况：(1)执行步骤一；(2)执行步骤二；(3)执行步骤一和步骤二。

需要说明的是，本公开所涉及的用户信息和数据，均为经用户授权或者经过各方充分授权的信息和数据。

对于线上应用程序，一个特定功能的实现往往需要依靠多个更简单的子功能共同支撑，而每个子功能又往往依赖于多个更简单的子功能。这些不同层次的功能结合在一起，共同实现了该特定功能。基于此，实现一个功能的程序可以视为一个链路，实现其中的子功能的程序则可以视为这个链路的子链路，子链路还进一步包含更细化的子链路。

为保障链路的正常运行，系统通常会定期针对整个链路或部分子链路进行流量回放，以实现主动的问题排查。流量表示某个时间段内的请求，流量回放则是将发送到A应用的请求录制下来，然后将请求转发到B应用，实现B应用接收到的请求参数跟A应用保持一致，从而实现A应用接收到的请求在B应用里面重新请求一遍。通过进行流量回放，可以主动检查所回放的链路是否存在问题。

对于线上出现的偶现的问题，大部分系统中仅会记录这类问题出现时，所在链路(为便于说明，下文称作待处理链路)的入参及返回数据，对于待处理链路中各个子链路的详细链路数据并没有进行完整记录，所以无法通过分析链路数据实现问题定位，难以通过流量回放的方式定位问题。这里先简单介绍下，一项服务，从开发到上线，再到日常维护和升级，需要创建相应的环境，形成不同环境下的服务，可满足不同阶段的需求。几个典型的环境有：开发环境、测试环境、模拟环境、生产环境(也可称为线上环境)。开发环境专门用于开发调试。生产环境正式提供对外服务。测试环境一般是克隆一份生产环境的配置，用于上线前的测试，但测试使用的数据通常会保存在专门的测试数据库中，与生产环境的数据库隔离。模拟环境可以理解为生产环境的镜像。难以利用流量回放来定位问题的原因在于，若直接在线上生产环境进行流量回放，可能影响生产环境。若在离线仿真环境(例如开发环境、测试环境等)进行流量回放，又存在链路数据不完整的问题，这会造成在回放待处理链路中的子链路时难以迅速、准确地获取到该子链路的输入数据。其中，难以迅速获取到输入数据，可能造成系统等待时间过长而报错，流量回放中断。难以准确获取到输入数据，则会进而影响输出数据的准确性。并且对于写类型的子链路，回放时还会执行写操作，也就是将其输入数据中的某些字段写入系统，例如写入系统的某个数据库，此时写入数据库的数据错误，则可能造成流量回放中断。因此通常只能采用人工翻看代码进行分析的方式来定位待处理链路中出现问题的子链路，没有充分利用计算资源来提升排查偶现问题的效率，存在资源利用率低的问题。

根据本公开的示例性实施例的数据处理方法和装置，利用多次回放来排查待处理链路的子链路。在每次回放中，针对当前排查的参考子链路以外的其他子链路，利用预先训练的预测模型来得到输出数据，从而较为准确地复现相应子链路在生产环境中未出现问题时的输出数据，补充出完整的链路数据，同时直接执行参考子链路以实现其回放，有助于保障参考子链路的回放操作结果可靠、待处理链路的回放顺利进行，从而得到较为可靠的待处理链路的模仿主输出数据。在此基础上，通过从回放得到的所有模仿主输出数据中确定出与实际的主输出数据最相符的一个，可将相应的一次回放视为对待处理链路的有效回放，进而将对应的参考子链路确定为出现问题的目标子链路，可迅速、便捷、可靠地确定出目标子链路，无需人工介入分析，充分提高了资源利用率，实现了偶现问题的高效问题定位。

下面，将参照图1至图4具体描述根据本公开的示例性实施例的数据处理方法和数据处理装置。

图1是示出根据本公开的示例性实施例的数据处理方法的流程图。应理解，根据本公开的示例性实施例的数据处理方法可以在诸如智能手机、平板电脑、个人电脑(PC)的终端设备中实现，也可以在诸如服务器的设备中实现。

参照图1，在步骤101，获取待处理链路的输入数据和输出数据作为主输入数据和主输出数据，其中，待处理链路包括多个按序连接的子链路。

应理解，按序连接是指各个子链路的执行顺序和数据传递关系是确定的，并非限定以串行方式逐个连接，换言之，多个子链路可以是串行连接，也可以是既有串行连接又有并行连接的复合连接。其中，相邻两个子链路之间的数据传递关系可能是后序子链路直接使用前序子链路的输出数据，也可能二者之间还存在数据处理逻辑，也就是先对前序子链路的输出数据按照数据处理逻辑进行处理转化，再将转化得到的数据作为后序子链路的输入数据，本公开对此不作限制。

在步骤102，从待处理链路的多个子链路中确定一个参考子链路，并基于待处理链路处理主输入数据，得到模仿主输出数据，其中，参考子链路的输出数据通过执行参考子链路得到，待处理链路中除参考子链路以外的其他子链路的输出数据通过预先训练的预测模型得到，预测模型用于预测相应子链路的输出数据。

应理解，对于偶现问题的定位而言，基于待处理链路处理主输入数据的过程，就是对待处理链路进行流量回放的过程，并且回放过程中，不同子链路处理数据的方式有所不同。具体来说，待处理链路的每个子链路均具有对应的预测模型。通过预先训练预测模型，能够利用预测模型来预测相应子链路的输出数据，从而较为准确地复现相应子链路在生产环境中未出现问题时的输出数据。此外，通过确定一个参考子链路，并对待处理链路中除该参考子链路之外的其他子链路应用预测模型来得到输出数据，可以较为准确地补充出完整的链路数据，同时直接执行该参考子链路，可实现该参考子链路的回放，有助于保障参考子链路的回放操作结果可靠、待处理链路的回放顺利进行，从而得到较为可靠的待处理链路的模仿主输出数据，并实现针对所确定的参考子链路的针对性流量回放。作为示例，执行参考子链路时，可在仿真环境下执行，仿真环境是与生产环境类似的环境，可以是各种形式的测试环境，也可以是开发环境，本公开对此不作限制。也就是说，对参考子链路进行仿真环境下的回放操作，以免生产环境中出现脏数据。

在步骤103，判断是否满足结束条件，其中，结束条件是表示无需从待处理链路的多个子链路中确定新的参考子链路的条件，换言之，就是表征已经充分确定出足够的参考子链路的条件。后文将对结束条件做进一步说明，在此不再展开。应理解，相应于满足结束条件，则重复执行步骤102，以确定新的参考子链路并得到相应的模仿主输出数据，实现待处理链路的多次回放。通过多次确定参考子链路，可针对所确定的每个参考子链路进行有针对性的流量回放，便于对所确定的每个参考子链路进行检查，保障了方案的可执行性。

在步骤104，响应于满足结束条件，基于主输出数据，从待处理链路的所有模仿主输出数据中，确定一个近似主输出数据。

可选地，步骤104包括：响应于满足结束条件，确定待处理链路的所有模仿主输出数据各自与主输出数据的相似程度；从待处理链路的所有模仿主输出数据中，确定相似程度最大且大于第一预设阈值的一个，作为近似主输出数据。通过明确计算出模仿主输出数据与主输出数据的相似程度，能够实现定量判断，有助于提高可行性和可靠性。此外，通过要求近似主输出数据与主输出数据的相似程度需大于第一预设阈值，能够保障近似主输出数据与主输出数据足够相似，提升了数据处理的可靠性。

在步骤105，将近似主输出数据对应的参考子链路，确定为目标子链路。

如前所述，对于任一参考子链路下的待处理链路流量回放，都可以默认参考子链路以外的其他子链路未出现问题，仅针对参考子链路进行了仿真环境下真实的回放操作。在此基础上，通过从回放得到的所有模仿主输出数据中确定一个近似主输出数据，能够找出所有模仿主输出数据中与实际的主输出数据最相符的一个，并可将相应的一次回放视为对待处理链路的有效回放，进而将对应的参考子链路确定为出现问题的目标子链路，可迅速、便捷、可靠地确定出目标子链路，无需人工介入分析，实现了偶现问题的高效数据处理。

接下来对如何进行数据处理做进一步介绍。

可选地，步骤102中的从待处理链路的多个子链路中确定一个参考子链路，包括：从待处理链路的多个子链路中确定一个只读类型的子链路，作为参考子链路。考虑到子链路包括只读类型和写类型，前者在得到输出数据之外，仅能够读取数据，不会影响系统内存储的数据，后者则在得到输出数据之外，还能够执行写操作(参考前文介绍)，因而存在写入数据矛盾而报错、待处理链路回放中断的问题。通过仅将只读类型的子链路作为参考子链路，能够充分保障待处理链路的顺畅回放。

可选地，对应于步骤104中近似主输出数据与主输出数据的相似程度需大于第一预设阈值的实施例，在待处理链路的所有模仿主输出数据与主输出数据的相似程度均小于或等于第一预设阈值的情况下，确认无法确定出近似主输出数据。

在一些实施例中，可就此结束流程，确认问题定位失败。

在另一些实施例中，对应于仅将只读类型的子链路作为参考子链路的实施例，在步骤104之后，根据本公开示例性实施例的数据处理方法还包括：响应于从待处理链路的所有模仿主输出数据中无法确定出近似主输出数据，将待处理链路中的写类型的子链路作为新的待处理链路，重复执行步骤101至步骤104，直到确定出近似主输出数据或无法确定出新的待处理链路。通过在无法确定出近似主输出数据的情况下，针对写类型的子链路进一步下探，将写类型的子链路作为新的待处理链路，进一步进行新的待处理链路的流量回放，能够以递归的方式进行分析，既能够在保障顺畅回放的同时提高定位到目标子链路的可能性，又能够对不同层级的子链路进行排查，有助于提升数据处理效率。

作为示例，在确定新的待处理链路时，可按照待处理链路中各个写类型的子链路的执行顺序，逐个确定为新的待处理链路。当已经针对所有写类型的子链路进行了流量回放，仍然未能确定出近似主输出数据，就认为无法确定出新的待处理链路，流程结束。

作为示例，在重复执行步骤101时，可先针对原来的待处理链路，利用预测模型预测出原待处理链路中处于选定的写类型子链路之前的各个子链路的输出数据，进而得到选定的写类型子链路的输入数据，再在仿真环境下执行选定的写类型子链路，以模仿选定的写类型子链路在生产环境下的运行，得到其输出数据。进一步地，可将单独创建一个存储区，将选定的写类型子链路在回放时的写操作修改为写入该单独创建的存储区，以降低数据矛盾、回放中断、无法得到输出数据的风险。

可选地，结束条件可包括以下至少一个：待处理链路的所有只读类型的子链路对应的模仿主输出数据均已得到、当前得到的模仿主输出数据与主输出数据的相似程度超过第二预设阈值，其中，第二预设阈值大于第一预设阈值。第一个条件可保障对于仅将只读类型的子链路作为参考子链路的实施例，所有只读类型的子链路均已得到针对性的回放，可有效降低子链路被遗漏的风险。第二个条件能够在已经得到与主输出数据非常接近的模仿主输出数据时，直接认为这次模仿就是对待处理链路的有效回放，可充分减少回放次数，减少计算量，既可降低计算负荷，又可提升数据处理效率。应理解，第一预设阈值用于保障所确定的近似主输出数据与主输出数据足够相似，是将一个模仿主输出数据确定为近似主输出数据的下限要求，第二预设阈值用于表征某个模仿主输出数据与主输出数据非常接近，以至于无需再考虑其他模仿主输出数据，所以第二预设阈值需大于第一预设阈值。

作为示例，在确定参考子链路时，可按照待处理链路中各个只读类型的子链路的执行顺序，逐个确定为参考子链路。

需说明的是，对于不区分只读类型和写类型的情况，结束条件可包括待处理链路的所有子链路对应的模仿主输出数据均已得到，还可包括已经得到预设数量的模仿主输出数据，本公开对此不作限制。

接下来对预测模型的训练过程进行介绍。

可选地，每个子链路均具有对应的预测模型，预先训练的预测模型通过以下步骤训练得到：获取待训练子链路在生产环境的多个样本数据，样本数据包括样本输入数据和样本输出数据；根据多个样本数据，确定候选预测模型；继续获取待训练子链路在生产环境的新的样本数据；将新获取的样本输入数据输入候选预测模型，得到预测输出数据；根据预测输出数据和相应的样本输出数据，修正候选预测模型；重复执行从继续获取新的样本数据至修正候选预测模型的步骤，直至满足训练结束条件，将最终得到的候选预测模型作为预先训练的预测模型。

首先需说明的是，待处理链路出现的问题虽然是偶现的，但链路本身是用于实现特定功能的应用程序链路(以下称作目标链路)，因而目标链路的执行逻辑是明确的，只是每次执行所产生的数据有所不同。所以预先训练时，可针对目标链路的各个子链路，分别训练该子链路专用的预测模型，待目标链路出现偶现问题时，就可以应用预先训练的各个预测链路来实现流量回放。针对待训练子链路进行训练时，通过首先收集待训练子链路在生产环境下产生的多个样本数据，能够初步确定出候选预测模型，此后通过不断利用新的样本数据修正候选预测模型，能够令候选预测模型逐渐趋于稳定，还可结合生产环境新产生的数据适应性调整候选预测模型，有助于保障训练得到的预测模型的时效性，提升预测准确度。

应理解，针对待训练子链路，可通过随机抽样的方式收集样本数据，保证数据量能够满足训练需要即可，不必收集所有运行数据。作为示例，可通过离线任务定期从生产环境获取目标链路详细的链路数据，再对各个子链路进行离线训练。离线训练时，针对待训练子链路，可先利用部分样本数据确定候选预测模型，再利用另一部分样本数据逐步修正候选预测模型，从而不必持续从生产环境反复获取数据。进一步地，在已经确定出候选预测模型的情况下，后期又获取到新的样本数据后，可直接利用新的样本数据修正现有的预测模型，相当于修正最新的候选预测模型，而不再重新确定候选预测模型。以上均为示例性说明，本公开对预测模型的具体训练周期安排不作限制。

还应理解，确定和修正预测模型是基于对预测输出数据和相应的样本输出数据的对比来实现的，具体方式属于本领域成熟技术，在此不再赘述。作为示例，训练结束条件例如是预测输出数据和相应的样本输出数据的相似度大于或等于训练阈值，相应地，修正候选预测模型时，可计算预测输出数据和相应的样本输出数据的相似度，然后判断相似度是否大于或等于训练阈值，若是，则满足训练结束条件，得到预先训练的预测模型，若否，则根据相似度修正候选预测模型。

进一步地，作为示例，可根据待训练子链路的输出数据是否明确，在对比预测输出数据和相应的样本输出数据的过程中，采用不同的对比策略。具体来说，输出数据是否明确，是指在输入数据一定的情况下，输出数据是否会发生变化，也就是计算输出数据的过程是否会引入其他变量，例如当前时刻、随机值等。对于待训练子链路的输出结果明确的情况，可采用全匹配策略，只有在预测输出数据中的各个字段均与相应的样本输出数据的对应字段相等时，才认为预测结果准确；对于待训练子链路的输出结果不明确的情况，可采用相似度策略，保证预测输出数据与相应的样本输出数据达到一定的相似度即可，具体取值可根据实际情况确定。

可选地，针对上述的待训练子链路的输出结果不明确的情况，训练预测模型时，重复执行从继续获取新的样本数据至修正候选预测模型的步骤可包括：响应于累积使用的样本数据的数量达到样本阈值，基于所有预测输出数据和对应的样本输出数据，统计待训练子链路的多个输出字段的差别概率，其中，每个输出字段的差别概率是所有预测输出数据中，相应输出字段的差别预测数据的占比，其中，差别预测数据的相应输出字段与差别预测数据对应的样本输出数据的相应输出字段的相似度小于相似度阈值；将差别概率大于或等于差别阈值的输出字段，作为差别字段；重复执行从继续获取新的样本数据至修正候选预测模型的步骤，并在修正候选预测模型时使用多个输出字段中除差别字段以外的其他字段。例如，样本阈值为10000，差别概率为70％，那么在已经累积使用了10000个样本数据的情况下，若其中有7000个甚至更多的样本数据，其预测输出数据的A字段与对应的样本输出数据的A字段的相似度均小于相似度阈值，就认为有7000个甚至更多的样本数据在A字段都无法顺利实现预测，即A字段的差别概率达到了差别阈值，可认为A字段为差别字段，结合上文来说，就是认为A字段与输入数据之外的其他变量有关，造成难以准确预测A字段。通过针对待训练子链路的多个输出字段，分别统计差别概率，并在后续修正候选预测模型时使用多个输出字段中除差别字段以外的其他字段，也就是不再使用差别概率较大的差别字段，能够降低因使用差别字段而拉低预测输出数据和相应的样本输出数据的相似度的可能性，造成对当前候选预测模型的预测准确性的低估，进而降低候选预测模型被反复修正的可能性。这种针对差别字段的定制化训练方式，有助于减少修正计算量，节约计算开销，提高预测模型的训练效率。

进一步地，对于差别字段，还可分析其中的规律，例如可分析差别字段是否与时间有关，并根据该规律来确定候选预测模型对差别字段的预测结果，充分提升预先训练的预测模型的准确性。

接下来通过一个具体实施例来介绍本公开的数据处理方法。

图2是示出根据本公开的具体实施例的数据处理方法的逻辑示意图。

参照图2，在生产环境下出现偶现问题的待处理链路，其输入数据为主输入数据MInput，其输出数据为主输出数据MOutput。在经过每个子链路时，使用该子链路对应的函数f＇(x)进行输出数据的预测计算，得到第i个子链路的模仿输出数据，简称模仿输出数据i，记为SOutput-i＇＝f＇(SInput-i)≈SOutput-i。其中，SInput-i＇表示回放时第i个子链路的模仿输入数据，简称模仿输入数据i，SOutput-i表示生产环境下第i个子链路的输出数据，简称输出数据i。上式表示，函数f＇(x)经过训练后，可以令子链路的模仿输出数据SOutput-i＇近似等于相应子链路在生产环境下真实的输出数据SOutput-i。对于SInput-i＇，若执行第1个子链路前无需对主输入数据做任何处理，则SInput-1＇＝SInput-1＝MInput，即模仿输入数据1等于输入数据1，且等于主输入数据，其他子链路的模仿输入数据SInput-i＇则可由前序子链路的模仿输出数据(例如SOutput-(i-1)＇)和两个子链路之间的数据处理逻辑推算得到，若两个子链路之间无需进行任何数据处理，则子链路的模仿输入数据SInput-i＇等于其前序子链路的模仿输出数据(例如SOutput-(i-1)＇)。并且函数f＇(x)经过训练后，可以令模仿输入数据SInput-i＇近似等于相应子链路在生产环境下真实的输入数据SInput-i。在该具体实施例中，待处理链路共有N个子链路，通过依次将每个子链路作为一次参考子链路，可实现N次流量回放，回放操作如下：

次数	跳过参考子链路	模仿主输出数据
			第一次回放	SInput1＇	MOutput＇-1
第二次回放	SInput2＇	MOutput＇-2
			第三次回放	SInput3＇	MOutput＇-3
...	...	...
			第N次回放	SInputN＇	MOutput＇-N

其中，对于跳过的参考子链路，就使用其模仿输入数据SInput-i＇在仿真环境下回放该参考子链路，得到模仿输出数据SOutput-i＇，而不由函数f＇(x)计算得到。

回放结束后，依次将各次回放的模仿主输出数据MOutput＇-i与生产环境的主输出数据MOutput进行比较，计算得到相似度最高的为MOutput＇-k，如果MOutput＇-k＝MOutput＇-N，那么就将第N个子链路确定为目标子链路。

图3是示出根据本公开的示例性实施例的数据处理装置的框图。应理解，根据本公开的示例性实施例的数据处理装置可以在诸如智能手机、平板电脑、个人电脑(PC)的终端设备中以软件、硬件或软件硬件结合的方式实现，也可以在诸如服务器的设备中实现。

参照图3，数据处理装置300包括获取单元301、模仿单元302、判断单元303、确定单元304、定位单元305。

获取单元301可获取待处理链路的输入数据和输出数据作为主输入数据和主输出数据，其中，待处理链路包括多个按序连接的子链路。

模仿单元302可从待处理链路的多个子链路中确定一个参考子链路，并基于待处理链路处理主输入数据，得到模仿主输出数据，其中，参考子链路的输出数据通过执行参考子链路得到，待处理链路中除参考子链路以外的其他子链路的输出数据通过预先训练的预测模型得到，预测模型用于预测相应子链路的输出数据。

判断单元303可判断是否满足结束条件，其中，结束条件是表示无需从待处理链路的多个子链路中确定新的参考子链路的条件。

确定单元304可响应于满足结束条件，基于主输出数据，从待处理链路的所有模仿主输出数据中，确定一个近似主输出数据。

定位单元305可将近似主输出数据对应的参考子链路，确定为目标子链路。

可选地，确定单元304还可：响应于满足结束条件，确定待处理链路的所有模仿主输出数据各自与主输出数据的相似程度；从待处理链路的所有模仿主输出数据中，确定相似程度最大且大于第一预设阈值的一个，作为近似主输出数据。

可选地，模仿单元302还可：从待处理链路的多个子链路中确定一个只读类型的子链路，作为参考子链路。

可选地，获取单元301还可：响应于确定单元304无法确定出近似主输出数据，将待处理链路中的写类型的子链路作为新的待处理链路，重复执行获取待处理链路的输入数据和输出数据作为主输入数据和主输出数据的步骤，并再次运行模仿单元302和确定单元304，直到确定单元304确定出近似主输出数据或获取单元301无法确定出新的待处理链路，其中，确定单元304还可：在待处理链路的所有模仿主输出数据与主输出数据的相似程度均小于或等于第一预设阈值的情况下，确认无法确定出近似主输出数据。

可选地，结束条件包括以下至少一个：待处理链路的所有只读类型的子链路对应的模仿主输出数据均已得到、当前得到的模仿主输出数据与主输出数据的相似程度超过第二预设阈值，其中，第二预设阈值大于第一预设阈值。

可选地，重复执行从继续获取新的样本数据至修正候选预测模型的步骤，包括：响应于累积使用的样本数据的数量达到样本阈值，基于所有预测输出数据和对应的样本输出数据，统计待训练子链路的多个输出字段的差别概率，其中，每个输出字段的差别概率是所有预测输出数据中，相应输出字段的差别预测数据的占比，其中，差别预测数据的相应输出字段与差别预测数据对应的样本输出数据的相应输出字段的相似度小于相似度阈值；将差别概率大于或等于差别阈值的输出字段，作为差别字段；重复执行从继续获取新的样本数据至修正候选预测模型的步骤，并在修正候选预测模型时使用多个输出字段中除差别字段以外的其他字段。

关于上述实施例中的装置，其中各个单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图4是根据本公开的示例性实施例的电子设备的框图。

参照图4，电子设备400包括至少一个存储器401和至少一个处理器402，所述至少一个存储器401中存储有计算机可执行指令集合，当计算机可执行指令集合被至少一个处理器402执行时，执行根据本公开的示例性实施例的数据处理方法。

作为示例，电子设备400可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里，电子设备400并非必须是单个的电子设备，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备400还可以是集成控制系统或系统管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子设备。

在电子设备400中，处理器402可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

处理器402可运行存储在存储器401中的指令或代码，其中，存储器401还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，网络接口装置可采用任何已知的传输协议。

存储器401可与处理器402集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储器401可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器401和处理器402可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器402能够读取存储在存储器中的文件。

此外，电子设备400还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。电子设备400的所有组件可经由总线和/或网络而彼此连接。

根据本公开的示例性实施例，还可提供一种计算机可读存储介质，当计算机可读存储介质中的指令被至少一个处理器运行时，促使至少一个处理器执行根据本公开的示例性实施例的数据处理方法。这里的计算机可读存储介质的示例包括：只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-RLTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如，多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置，所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，此外，在一个示例中，计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上，使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。

根据本公开的示例性实施例，还可提供一种计算机程序产品，该计算机程序产品包括计算机指令，计算机指令被至少一个处理器运行时，促使至少一个处理器执行根据本公开的示例性实施例的数据处理方法。

根据本公开的示例性实施例的数据处理方法和装置、电子设备、计算机可读存储介质，利用多次回放来排查待处理链路的子链路。在每次回放中，针对当前排查的参考子链路以外的其他子链路，利用预先训练的预测模型来得到输出数据，从而较为准确地复现相应子链路在生产环境中未出现问题时的输出数据，补充出完整的链路数据，同时对参考子链路进行仿真环境下的回放操作，有助于保障参考子链路的回放操作结果可靠、待处理链路的回放顺利进行，从而得到较为可靠的待处理链路的模仿主输出数据。在此基础上，通过从回放得到的所有模仿主输出数据中确定出与实际的主输出数据最相符的一个，可将相应的一次回放视为对待处理链路的有效回放，进而将对应的参考子链路确定为出现问题的目标子链路，可迅速、便捷、可靠地确定出目标子链路，无需人工介入分析，实现了偶现问题的高效数据处理。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种数据处理方法，其特征在于，所述数据处理方法包括：

获取待处理链路的输入数据和输出数据作为主输入数据和主输出数据，其中，所述待处理链路包括多个按序连接的子链路；

从所述待处理链路的多个子链路中确定一个参考子链路，并基于所述待处理链路处理所述主输入数据，得到模仿主输出数据，其中，所述参考子链路的输出数据通过执行所述参考子链路得到，所述待处理链路中除所述参考子链路以外的其他子链路的输出数据通过预先训练的预测模型得到，所述预测模型用于预测相应子链路的输出数据；

判断是否满足结束条件，其中，所述结束条件是表示无需从所述待处理链路的多个子链路中确定新的参考子链路的条件；

响应于满足所述结束条件，基于所述主输出数据，从所述待处理链路的所有所述模仿主输出数据中，确定一个近似主输出数据；

将所述近似主输出数据对应的参考子链路，确定为目标子链路。

2.如权利要求1所述的数据处理方法，其特征在于，所述响应于满足所述结束条件，基于所述主输出数据，从所述待处理链路的所有所述模仿主输出数据中，确定一个近似主输出数据，包括：

响应于满足所述结束条件，确定所述待处理链路的所有所述模仿主输出数据各自与所述主输出数据的相似程度；

从所述待处理链路的所有所述模仿主输出数据中，确定相似程度最大且大于第一预设阈值的一个，作为所述近似主输出数据。

3.如权利要求2所述的数据处理方法，其特征在于，所述从所述待处理链路的多个子链路中确定一个参考子链路，包括：

从所述待处理链路的多个子链路中确定一个只读类型的子链路，作为所述参考子链路。

4.如权利要求3所述的数据处理方法，其特征在于，在所述响应于满足所述结束条件，基于所述主输出数据，从所述待处理链路的所有所述模仿主输出数据中，确定一个近似主输出数据之后，所述数据处理方法还包括：

响应于从所述待处理链路的所有所述模仿主输出数据中无法确定出所述近似主输出数据，将所述待处理链路中的写类型的子链路作为新的待处理链路，重复执行从获取待处理链路的输入数据和输出数据到确定所述近似主输出数据的步骤，直到确定出所述近似主输出数据或无法确定出新的待处理链路，其中，在所述待处理链路的所有所述模仿主输出数据与所述主输出数据的相似程度均小于或等于所述第一预设阈值的情况下，确认无法确定出所述近似主输出数据。

5.如权利要求2所述的数据处理方法，其特征在于，

所述结束条件包括以下至少一个：所述待处理链路的所有只读类型的子链路对应的所述模仿主输出数据均已得到、当前得到的所述模仿主输出数据与所述主输出数据的相似程度超过第二预设阈值，其中，所述第二预设阈值大于所述第一预设阈值。

6.如权利要求1至5中任一项所述的数据处理方法，其特征在于，每个子链路均具有对应的预测模型，所述预先训练的预测模型通过以下步骤训练得到：

获取待训练子链路在生产环境的多个样本数据，所述样本数据包括样本输入数据和样本输出数据；

根据所述多个样本数据，确定候选预测模型；

继续获取所述待训练子链路在生产环境的新的样本数据；

将新获取的样本输入数据输入所述候选预测模型，得到预测输出数据；

根据所述预测输出数据和相应的样本输出数据，修正所述候选预测模型；

重复执行从继续获取新的样本数据至修正所述候选预测模型的步骤，直至满足训练结束条件，将最终得到的所述候选预测模型作为所述预先训练的预测模型。

7.如权利要求6所述的数据处理方法，其特征在于，所述重复执行从继续获取新的样本数据至修正所述候选预测模型的步骤，包括：

响应于累积使用的所述样本数据的数量达到样本阈值，基于所有所述预测输出数据和对应的样本输出数据，统计所述待训练子链路的多个输出字段的差别概率，其中，每个输出字段的所述差别概率是所有所述预测输出数据中，相应输出字段的差别预测数据的占比，其中，所述差别预测数据的相应输出字段与所述差别预测数据对应的样本输出数据的相应输出字段的相似度小于相似度阈值；

将所述差别概率大于或等于差别阈值的输出字段，作为差别字段；

重复执行从继续获取新的样本数据至修正所述候选预测模型的步骤，并在修正所述候选预测模型时使用所述多个输出字段中除所述差别字段以外的其他字段。

8.一种数据处理装置，其特征在于，所述数据处理装置包括：

获取单元，被配置为获取待处理链路的输入数据和输出数据作为主输入数据和主输出数据，其中，所述待处理链路包括多个按序连接的子链路；

模仿单元，被配置为从所述待处理链路的多个子链路中确定一个参考子链路，并基于所述待处理链路处理所述主输入数据，得到模仿主输出数据，其中，所述参考子链路的输出数据通过执行所述参考子链路得到，所述待处理链路中除所述参考子链路以外的其他子链路的输出数据通过预先训练的预测模型得到；

判断单元，被配置为判断是否满足结束条件，其中，所述结束条件是表示无需从所述待处理链路的多个子链路中确定新的参考子链路的条件；

确定单元，被配置为响应于满足所述结束条件，基于所述主输出数据，从所述待处理链路的所有所述模仿主输出数据中，确定一个近似主输出数据；

定位单元，被配置为将所述近似主输出数据对应的参考子链路，确定为目标子链路。

9.一种电子设备，其特征在于，包括：

至少一个处理器；

至少一个存储计算机可执行指令的存储器，

其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1到7中的任一权利要求所述的数据处理方法。

10.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令被至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1到7中的任一权利要求所述的数据处理方法。