CN114217922A

CN114217922A - 一种爬虫业务的处理方法及设备

Info

Publication number: CN114217922A
Application number: CN202111417274.7A
Authority: CN
Inventors: 黄文强
Original assignee: Bank of China Ltd
Current assignee: Bank of China Ltd
Priority date: 2021-11-25
Filing date: 2021-11-25
Publication date: 2022-03-22

Abstract

本申请实施例公开了一种爬虫业务的处理方法及设备，可应用于金融领域或其他领域。该方法包括：获取目标业务的调用信息；根据目标业务的调用信息，通过贝叶斯模型，判断目标业务是否为爬虫业务；当目标业务为爬虫业务时，确定当前运行业务中的非爬虫业务；确定非爬虫业务的正常处理时间和当前处理时间；在当前处理时间大于正常处理时间时，锁定当前运行业务中的爬虫业务。用以提高业务处理的效率。

Description

一种爬虫业务的处理方法及设备

技术领域

本发明涉及计算机领域，特别是涉及一种爬虫业务的处理方法及设备。

背景技术

为了提高业务处理的自动化程度，例如在银行业务处理时，通常会采用爬虫技术代替人工操作。采用爬虫技术的爬虫业务，能够在被调用系统不知情的情况下，通过快速、反复地执行程序，完成业务的自动化处理。

然而，在爬虫业务完成业务处理的过程中，可能会占用较多的处理资源，影响其他业务的正常处理，影响业务处理的效率。因此，目前亟需一种爬虫业务的处理方法，用以提高业务处理的效率。

发明内容

有鉴于此，本申请提供一种爬虫业务的处理方法及设备，用以提高业务处理的效率。

第一方面，本申请提供一种爬虫业务的处理方法，所述方法包括：

获取目标业务的调用信息；

根据所述目标业务的调用信息，通过贝叶斯模型，判断目标业务是否为爬虫业务；

当所述目标业务为爬虫业务时，确定当前运行业务中的非爬虫业务；

确定所述非爬虫业务的正常处理时间和当前处理时间；

在所述当前处理时间大于所述正常处理时间时，锁定当前运行业务中的爬虫业务。

在一种可能的实施方式中，在所述锁定当前运行业务中的爬虫业务之后，还包括：

依次处理当前运行业务中的爬虫业务。

在一种可能的实施方式中，所述依次处理当前运行业务中的爬虫业务，包括：

按照接收所述爬虫业务的处理请求的先后顺序，依次处理当前运行业务中的爬虫业务。

在一种可能的实施方式中，在所述锁定当前运行业务中的爬虫业务之前，还包括：

确定当前运行业务中的爬虫业务的数量；

当爬虫业务的数量小于数量阈值时，允许锁定当前运行业务中的爬虫业务。

在一种可能的实施方式中，在所述依次处理当前运行业务中的爬虫业务之前，还包括：

确定当前运行业务中的爬虫业务的数量；

当爬虫业务的数量大于数量阈值时，允许依次处理当前运行业务中的爬虫业务。

在一种可能的实施方式中，所述调用信息包括：

在目标业务执行调用的过程中，字段的录入速度、页面层级进入下一个页面层级的时间、一个字段跳到另一个字段的时间中的一种或多种。

在一种可能的实施方式中，所述贝叶斯模型是根据历史的业务的调用信息得到的。

在一种可能的实施方式中，所述根据所述目标业务的调用信息，通过贝叶斯模型，判断目标业务是否为爬虫业务，包括：

根据所述目标业务的调用信息，通过贝叶斯模型，得到目标业务为爬虫业务的概率；

根据所述目标业务为爬虫业务的概率，判断目标业务是否为爬虫业务。

第二方面，本申请提供一种爬虫业务的处理设备，所述设备包括处理器和存储器，其中，所述存储器存储有代码，所述处理器用于调用所述存储器中存储的代码，用于执行上述任一项所述的方法。

第三方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行上述任一项所述的方法。

采用本申请的技术方案，通过非爬虫业务的当前处理时间和正常处理时间的比对，能够得到爬虫业务是否较大地影响非爬虫业务的正常处理过程；当确定爬虫业务较大地影响非爬虫业务的正常处理过程时，对爬虫业务进行限制，降低非爬虫业务已经受到较大影响的情况下，依旧为爬虫业务分配较多处理资源的情况，更加合理地分配处理资源，从而提高业务处理的效率。

附图说明

图1是本申请实施例提供的爬虫业务的处理方法的流程图；

图2是本申请实施例提供的爬虫业务的处理设备的结构示意图。

具体实施方式

在爬虫业务完成业务处理的过程中，可能会占用较多的处理资源，影响其他业务的正常处理，影响业务处理的效率。因此，目前亟需一种爬虫业务的处理方法，用以提高业务处理的效率。

基于此，在发明人提供的本申请的实施例中，获取目标业务的调用信息；根据所述目标业务的调用信息，通过贝叶斯模型，判断目标业务是否为爬虫业务；当所述目标业务为爬虫业务时，确定当前运行业务中的非爬虫业务；确定所述非爬虫业务的正常处理时间和当前处理时间；在所述当前处理时间大于所述正常处理时间时，锁定当前运行业务中的爬虫业务。

为了便于理解和解释本申请实施例提供的技术方案，下面将先对本申请实施例中的技术术语进行说明。

为了便于理解本申请实施例提供的技术方案，下面结合附图对本申请实施例提供的一种爬虫业务的处理方法及设备进行说明。

虽然附图中显示了本申请的示例性实施例，然而应当理解，可以以各种形式实现本申请而不应被这里阐述的实施例所限制。基于本申请中的实施例，本领域技术人员在没有作出创造性贡献前提下所获得的其他实施例，都属于本申请的保护范围。

在本申请的权利要求书和说明书以及说明书附图中，术语“包括”和“具有”以及它们的任何变形，目的在于覆盖不排他的包含。

本申请实施例提供一种爬虫业务的处理方法。

请参阅图1，图1是本申请实施例提供的爬虫业务的处理方法的流程图。如图1所示，本申请实施例中爬虫程序运行的控制方法包括S101-S105。

S101、获取目标业务的调用信息。

目标业务的调用信息，即是属于目标业务的调用信息。

相比于非爬虫业务的处理过程，爬虫业务的特点是调用速度快。因此，在进行业务处理时，可以根据业务处理时的调用信息，作为判断目标业务是否是爬虫业务的依据。

S102、根据目标业务的调用信息，通过贝叶斯模型，判断目标业务是否为爬虫业务。

爬虫业务，指的是通过执行爬虫程序，例如通过执行爬虫程序调用系统的数据，完成对该业务的处理。

S103、当目标业务为爬虫业务时，确定当前运行业务中的非爬虫业务。

S104、确定非爬虫业务的正常处理时间和当前处理时间。

正常处理时间，指的是在没有爬虫业务的情况下，非爬虫业务进行处理的时间。

当前处理时间，指的是当前时间时处理非爬虫业务所花费的时间。

S105、在当前处理时间大于正常处理时间时，锁定当前运行业务中的爬虫业务。

对于非爬虫业务来说，正常处理时间指的是在没有爬虫业务占用处理资源时的处理时间；当前处理时间指的是当下处理该非爬虫业务所用的时间。

在当前处理时间大于正常处理时间时，爬虫业务过多地受到爬虫业务占用处理资源，也即较大地影响了对于该非爬虫业务的正常处理。

此时，对当前运行业务中的爬虫业务进行锁定，能够降低爬虫业务占用资源对非爬虫业务正常处理的影响，较好地将处理资源分配给非爬虫业务；另外，还能够降低业务同时处理时给业务处理系统带来的安全性的风险。

下面结合具体的实现方式进行说明。

请参阅图2，图2为本申请另一实施例提供的爬虫业务的处理方法的流程图，该方法包括S201-S210。

S201、在接收到目标业务的处理请求后，获取目标业务的调用信息。

处理请求指的是对于该目标业务进行处理的请求。

在接收目标业务的处理请求后获取上述目标业务的调用信息，能够在收到新的待处理的业务时，对目标业务进行判断，当目标业务为爬虫业务时，进行对应的处理。

上述目标业务的调用信息，具体可以包括在目标业务执行调用的过程中，字段的录入速度、页面层级进入下一个页面层级的时间、一个字段跳到另一个字段的时间中的一个或多个。

在一种可能的实现方式中，可以为获取上述目标业务的调用信息设置获取的时段，也即在预设时段内获取目目标业务的调用信息。

为了获取到目标业务的调用信息，在接收到目标业务的处理请求后，目标业务处理首先进行正常处理；而在后续的处理过程中，目标业务的处理过程可能会发生改变。

S202、根据目标业务的调用信息，通过贝叶斯模型，判断目标业务是否为爬虫业务。

贝叶斯模型是预设的，具体可以是朴素贝叶斯模型。

在一种可能的实现方式中，可以根据目标业务的调用信息，通过该贝叶斯模型，得到目标业务为爬虫业务的概率，并根据得到的概率判断目标业务是否为爬虫业务。

在一些可能的情况中，可以利用历史的业务的调用信息，得到上述贝叶斯模型。

历史的业务指的是进行处理了的，调用信息已知的业务。

进一步地，在一种可能的实现方式中，当上述贝叶斯模型得到的目标业务为爬虫业务的概率大于预设的概率阈值时，确定目标业务为爬虫业务。

S203、当目标业务为爬虫业务时，确定当前运行业务中的非爬虫业务。

在一种可能的实现方式中，可以首先确定当前运行业务，以及在当前运行业务中的爬虫业务；然后，根据当前运行业务和在当前运行业务中的爬虫业务，确定在当前运行业务中的非爬虫业务。

在一种可能的实现方式中，当目标业务不为爬虫业务时，可以对目标业务进行正常处理。

S204、确定非爬虫业务的正常处理时间。

上述正常处理时间，指的是在没有爬虫业务的情况下，非爬虫业务进行处理的时间。

例如，业务处理系统可以对多个业务进行处理。

在第一种情况中，业务处理系统同时对第一业务、第二业务和第三业务进行处理，业务处理的速度分别为第一速度、第二速度和第三速度。上述三个业务均不是爬虫业务。在该情况中，业务处理系统仅对上述三个业务进行处理。

由于在第一种情况中，业务处理系统处理的业务中并没有爬虫业务，因此，第一速度、第二速度和第三速度分别为第一业务、第二业务和第三业务的正常处理时间。

在第二种情况中，业务处理系统同时对第三业务、第四业务和第五业务进行处理，业务处理的速度分别为第三速度、第四速度和第五速度。第三业务是爬虫业务，第四业务和第五业务是非爬虫业务。在该情况中，业务处理系统仅对上述三个业务进行处理。

由于在第一种情况中，业务处理系统处理的业务中存在爬虫业务，也即第三业务，考虑到爬虫业务对于资源的占用通常较大，因此，对于第四业务和第五业务来说，第四速度和第五速度并非是正常处理时间。

由于对于同一种业务来说，每一次处理的时间可能是不相同的，即使是在没有其他爬虫业务占用资源的情况下亦是如此。因此，在一种可能的实现方式中，上述非爬虫业务的正常处理时间，可以是该非爬虫业务的平均的正常处理时间。

S205、获取非爬虫业务的当前处理时间。

S206、判断非爬虫业务的当前处理时间是否大于正常处理时间。

通过上述S206的判断过程，可以得到当下处理该非爬虫业务的时候，是否过多地受到爬虫业务占用处理资源，也即较大地影响了对于该非爬虫业务的正常处理。

根据S206得到的判断结果，能够确定非爬虫业务的正常处理是否已经被爬虫业务影响。由于发出业务请求的目标业务为爬虫业务，因此，判断结果可以作为如何处理目标业务的依据。

由于业务处理系统可以对多个业务进行处理，上述非爬虫业务的数量可能是一个，也有可能不止一个。

本申请实施例这里提供一种当非爬虫业务的数量不止一个时，上述S204-S206的实现方式。

在一种可能的实现方式中，在判断非爬虫业务的当前处理时间是否大于正常处理时间之后，若非爬虫业务的当前处理时间大于正常处理时间，还可以对超出的程度进行判断。

例如，判断非爬虫业务的当前处理时间大于正常处理时间的时间，是否超过预设时间。进一步地，当超过预设时间时，则继续进行下一步。

在一种可能的实现方式中，首先确定非爬虫业务的数量，当非爬虫业务的数量大于一个时，确定非爬虫业务的正常处理时间，以及判断非爬虫业务的当前处理时间是否大于正常处理时间，可以通过以下方式实现：

确定非爬虫业务中的目标非爬虫业务；

获取目标非爬虫业务的当前处理时间；

判断非爬虫业务的当前处理时间是否大于正常处理时间，并且将上述判断结果作为S206的判断结果。

上述目标非爬虫业务可以根据实际情况进行选取。

目标非爬虫业务的数量也可以是一个或多个。当目标非爬虫业务的数量大于一时，确定上述正常处理时间和当前处理时间，可以将多个时间的平均时间作为结果。

S207、在当前处理时间大于正常处理时间时，确定当前运行业务中的爬虫业务的数量。

当前处理时间大于正常处理时间，指的是非爬虫业务的正常处理过程已经较大地受到爬虫业务的影响。此时，需要对爬虫业务的处理进行限制，以使非爬虫业务能够进行正常处理。

在一种可能的实现方式中，对于确定当前运行业务中的爬虫业务的数量，可以首先确定当前运行业务的总量，然后在当前运行业务中的爬虫业务中确定爬虫业务，进而得到当前运行业务中的爬虫业务的数量。

在一种可能的实现方式中，可以首先确定当前运行业务的总量，然后，根据S203中确定的当前运行业务中的非爬虫业务，得到当前运行业务中的非爬虫业务的数量，从而根据上述总量和非爬虫业务的数量，得到爬虫业务的数量。

S208、判断爬虫业务的数量是否大于数量阈值。

由于非爬虫业务的当前处理时间大于正常处理时间，当下爬虫业务的处理已经较大地影响非爬虫业务的正常处理。

通常当爬虫业务的数量较多时，更有可能对于非爬虫业务的处理产生影响；而当爬虫业务的数量较少时，对于非爬虫业务的处理的影响较小。然而，可能会存在某些爬虫业务占用资源的能力较强，导致虽然爬虫业务的数量较小，但是较小数量的爬虫业务能够较大地影响非爬虫业务的处理。

通过S208的判断过程，能够得到较大地影响非爬虫业务处理的原因，是爬虫业务的数量，还是爬虫业务占用处理资源的能力。

在一种可能的实现方式中，上述数量阈值可以根据实际情况，例如根据系统处理的能力进行设置。

进一步地，在一些可能的情况中，上述数量阈值可以设置为一，用以更好地实现对于非爬虫业务的处理。

S209、当爬虫业务的数量大于数量阈值时，锁定当前运行业务中的爬虫业务，然后依次处理当前运行业务中的爬虫业务。

爬虫业务的数量大于数量阈值，表明此时较大影响非爬虫业务正常处理的因素，更有可能是爬虫业务的数量。因此，可以对爬虫业务的数量进行限制，降低爬虫业务对于处理资源的占用。

依次处理爬虫业务，指的是在上一个爬虫业务处理完成后，再对下一个爬虫业务进行处理。

上述爬虫业务包括目标业务。

通过依次处理爬虫业务，降低爬虫业务占用资源对非爬虫业务正常处理的影响；另外，还能够降低业务同时处理时给业务处理系统带来的安全性的风险。

在一种可能的实现方式中，依次处理爬虫业务，可以是按照接收所述爬虫业务的处理请求的先后顺序进行处理的，用以在一定程度上提高业务处理时资源分配的公平性。

S210、当爬虫业务的数量小于数量阈值时，直接对爬虫业务进行锁定。

对爬虫业务进行锁定，指的是对于该爬虫业务，采取不处理的处理方式，例如不为爬虫业务分配处理资源。

爬虫业务的数量小于数量阈值，表明此时较大影响非爬虫业务正常处理的因素，更有可能是爬虫业务占用处理资源的能力。此时，对爬虫业务进行锁定处理，能够提高对于非爬虫业务的处理资源的分配。

例如，当爬虫业务的数量仅有一个时。虽然爬虫业务的数量较少，但是对非爬虫业务的正常处理产生了较大的影响。此时，通过对于该爬虫业务进行锁定处理，能够较大地提高对于处理非爬虫业务的资源分配，从而实现对于非爬虫业务的正常处理。

在一些可能的情况中，可以根据爬虫业务的类型、优先级、占用处理资源的大小、发出处理请求时间等因素，对爬虫业务中的部分进行锁定。对于未被锁定的爬虫业务来说，可以进行正常处理。

在一种可能的实现方式中，当处理时间等于上述预设时间时，将依次处理爬虫业务变更为正常处理爬虫业务。

当非爬虫业务的处理时间等于上述预设时间，表明能够实现对于非爬虫业务的正常处理。此时，取消对于爬虫业务处理的限制。

在一种可能的实现方式中，上述方法的执行主体可以是用于处理业务的业务系统。

对于业务处理来说，业务处理的时间和速度是相关的。在一种可能的实现方式中，可以利用业务处理的速度，代替业务处理的时间，实现以上实施例中的步骤。具体地，在业务处理的时间短对应业务处理的速度快，业务处理的时间长对应业务处理的速度慢。

以下对于得到S202中用于判断目标业务是否为爬虫业务的贝叶斯模型的实现方式进行具体说明。

在已知目标业务的调用信息的情况下，如何得到目标业务是否为爬虫业务的判断结果，首先对此进行说明。

例如，目标业务的调用信息包括在目标业务执行调用的过程中，字段的录入速度、页面层级进入下一个页面层级的时间，以及一个字段跳到另一个字段的时间。

对于判断目标业务是否为爬虫业务来说，有类别集合C＝(Y1,Y2)，其中，Y1为目标业务是爬虫业务，Y2为目标业务不是爬虫业务。

可以理解地是，在已知上述目标业务调用信息时，若能够得到：在上述目标业务的调用信息的前提下目标业务时爬虫业务的概率，和/或者，在上述目标业务的调用信息的前提下目标业务不是爬虫业务的概率，就能够得到目标业务是否为爬虫业务的判断结果。

对于目标业务是否为爬虫这个事件来说，分类类别仅为两种，也即目标业务是爬虫业务，以及，目标业务不是爬虫业务。因此，得到上述两个概率中的一个或多个，均能够得到判断结果。

基于此，以下为本申请实施例提供的确定贝叶斯模型的实现方式，得到的贝叶斯模型用以得到目标业务是否为爬虫业务的判断结果。

首先，确定多个历史的业务，以及多个历史的业务的历史调用信息；每个历史的业务至少有相同种类的一个或多个调用信息。

历史的业务指的是进行处理了的，也即调用信息已知的业务。上述历史的业务有多个，每个历史的业务有自己的调用信息。

对于多个历史的业务的调用信息来说，有调用信息的样本数据集，以下简称调用信息集合，

D＝{d₁,d₂,…,d_n}

对于调用信息(样本数据)来说，能够得到调用信息属性集，也即样本数据的特征属性集：x＝{A₁,A₂,…,A_n}，其中，A_n为调用信息的属性。

然后，在调用信息属性集中，确定当业务是爬虫业务时调用信息属性的概率P(A_n|Y1)，和/或，当业务不是爬虫业务时调用信息属性的概率P(A_n|Y2)。

也即，得到

P(A₁|Y1),P(A₂|Y1),…,P(A_n|Y1)

以及，

P(A₁|Y2),P(A₂|Y2),…,P(A_n|Y2)

例如，对于P(A₁|Y1)，当A₁为平均字段录入时间低于一秒，Y1为业务为爬虫业务，P(A₁|Y1)表示在业务为爬虫业务时，平均字段录入时间低于一秒的概率。

根据上文的说明，为了得到目标业务是否为爬虫业务的判断结果，需要得到P(Y1|x)和/或P(Y2|x)。

根据贝叶斯定理，有已知目标业务的调用信息的前提下，目标业务是爬虫业务的概率为：

以及，已知目标业务的调用信息的前提下，目标业务不是爬虫业务的概率：

对于多个类别来说，上式中的分母项P(x)是相同的常数。

因此，确定上式中的分子项P(x|Y1)P(Y1)、P(x|Y2)P(Y2)，再通过对分子的归一化，能够得到目标业务是否为爬虫业务的判断结果。

例如，调用信息包括字段的录入速度、页面层级进入下一个页面层级的时间，以及一个字段跳到另一个字段的时间。

调用信息属性集，也即样本数据的特征属性集：x＝{A₁,A₂,A₃}.

对上式中的分子项进行归一化，可以得到归一化后的概率

P′(Y1|x)＝P(x|Y1)P(Y1)＝P(A₁|Y1)P(A₂|Y1)P(xA₃|Y1)P(Y1)

P′(Y2|x)＝P(x|Y2)P(Y2)＝P(A₁|Y2)P(A₂|Y2)P(xA₃|Y2)P(Y2)

这里仅以调用信息为以上三种为例，若调用信息不是以上三种，或者调用信息的数量不是三时，可以根据贝叶斯定理，对上式进行适应性的变化，同样能够得到概率。

在一种可能的实现方式中，可以设置概率阈值，当上述P′(Y1|x)大于该概率阈值时，确定目标业务为爬虫业务。

可以理解地是，对于上述P′(Y2|x)设置概率阈值，也可以得到目标业务是否为爬虫业务的判断结果。

本申请实施例还提供一种爬虫业务的处理设备。

请参阅图2，图2是本申请实施例提供的爬虫业务的处理设备的结构示意图。如图2所示，所述设备200包括处理器和201存储器202，其中，所述存储器202存储有代码，所述处理器201用于调用所述存储器202中存储的代码，用于执行上述任一项所述的方法。

上述设备所包括的单元以及各单元之间的连接关系，能够达到和上述方法相同的技术效果，为避免重复，这里不再赘述。

在本申请的实施例中，还提供一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行上述爬虫业务的处理方法，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

本发明提供的爬虫业务的处理方法及设备可用于金融领域或其他领域，例如，可用于金融领域中的业务处理应用场景。其他领域为除金融领域之外的任意领域，例如，网络安全领域。上述仅为示例，并不对本发明提供的爬虫业务的处理方法及设备的应用领域进行限定。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种爬虫业务的处理方法，其特征在于，所述方法包括：

获取目标业务的调用信息；

确定所述非爬虫业务的正常处理时间和当前处理时间；

2.根据权利要求1所述的方法，其特征在于，在所述锁定当前运行业务中的爬虫业务之后，还包括：

依次处理当前运行业务中的爬虫业务。

3.根据权利要求1所述的方法，其特征在于，所述依次处理当前运行业务中的爬虫业务，包括：

4.根据权利要求1所述的方法，其特征在于，在所述锁定当前运行业务中的爬虫业务之前，还包括：

确定当前运行业务中的爬虫业务的数量；

5.根据权利要求2所述的方法，其特征在于，在所述依次处理当前运行业务中的爬虫业务之前，还包括：

确定当前运行业务中的爬虫业务的数量；

6.根据权利要求1所述的方法，其特征在于，所述调用信息包括：

7.根据权利要求1所述的方法，其特征在于，所述贝叶斯模型是根据历史的业务的调用信息得到的。

8.根据权利要求1所述的方法，其特征在于，所述根据所述目标业务的调用信息，通过贝叶斯模型，判断目标业务是否为爬虫业务，包括：

9.一种爬虫业务的处理设备，其特征在于，所述设备包括处理器和存储器，其中，所述存储器存储有代码，所述处理器用于调用所述存储器中存储的代码，用于执行上述任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行权利要求1至8任一项所述的方法。