CN115065644A

CN115065644A - 用于阻止机器流量的方法和系统

Info

Publication number: CN115065644A
Application number: CN202210697516.0A
Authority: CN
Inventors: 张长浩; 傅欣艺; 王维强
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2022-06-20
Filing date: 2022-06-20
Publication date: 2022-09-16

Abstract

本公开涉及一种用于阻止针对应用的机器流量的系统和方法。该系统包括：流量接收模块，所述流量接收模块被配置成接收针对所述应用的流量以及与发出所述流量的设备相关联的终端实时特征；流量分析模块，所述流量分析模块被配置成基于所述终端实时特征来分析所接收到的流量以确定所述流量是否是机器流量；以及阻挡模块，所述阻挡模块被配置成在所述流量是机器流量的情况下阻止所述流量。

Description

用于阻止机器流量的方法和系统

技术领域

本公开涉及应用程序交互的领域，尤其涉及用于阻止机器流量的方法和系统。

背景技术

机器流量一般是指由模仿或者代替人类用户的行为的软件应用程序、自动化脚本等“机器人（robot）”程序所自动执行的操作，诸如与目标应用程序的交互等等。

在许多情形中，机器流量是不合需的，因而需要阻止其对目标应用程序的访问、交互等等。

本公开针对但不限于上述诸多因素进行了改进。

发明内容

为此，本公开提出了一种用于阻止机器流量的方法和系统。本公开的技术方案利用终端实时特征，优选地结合离线特征（例如，在云上、服务器端）来识别机器流量，包括基于离线特征对用户画像并结合终端实时特征，通过对离线特征和终端实时特征进行分箱加截断以及截断加标准化的手势数据处理方式来进行机器流量识别。本公开的技术方案各特征采用隐性特征交叉与显性特征交叉、高阶特征交叉与低阶特征交叉结合的方式来处理终端实时特征和/或离线特征，并对来自手势传感器的特征（即手势操作序列）采用文本CNN（TextCNN）来捕捉机器相似性特征，以有效地识别机器流量。本公开的技术方案还针对高准确率的训练目标采用离线策略指导训练集选取，以及采用焦点损失函数来提升识别准确率。

根据本公开的一方面，提供了一种用于阻止针对应用的机器流量的系统，包括：流量接收模块，所述流量接收模块被配置成接收针对所述应用的流量以及与发出所述流量的设备相关联的终端实时特征；流量分析模块，所述流量分析模块被配置成基于所述终端实时特征来分析所接收到的流量以确定所述流量是否是机器流量；以及阻挡模块，所述阻挡模块被配置成在所述流量是机器流量的情况下阻止所述流量。

根据以上示例，所述终端实时特征包括所述设备在发出所述流量时的当前状态和实时用户操作序列，所述当前状态包括所述设备的姿态、电量、充电状态、网络类型、屏幕亮度、当前时间、设备型号中的至少一者，并且所述实时用户操作序列包括通过手势传感器或键盘、鼠标等获得的、在发出所述流量的时刻之前和/或之后的预定时段内的用户操作。

根据另一实施例，所述流量分析模块还被配置成基于与所述流量相关联的离线特征来确定所述流量是否是机器流量，其中所述离线特征包括与所述设备相关联的用户的特征和/或所述设备的风险水平。

根据又一实施例，与所述设备相关联的用户的特征包括用户的当天步数、用户与所述应用的交互历史中的至少一者，并且所述设备的风险水平包括所述设备是否有安全漏洞、是否安装有恶意软件、是否中毒。

根据又一实施例，所述流量分析模块还被配置成使用神经网络模型来分析所述流量，其中所述终端实时特征和/或所述离线特征被分箱并通过嵌入的方式融入所述神经网络模型中。

根据又一实施例，所述终端实时特征和/或所述离线特征被分箱并通过嵌入的方式融入所述神经网络模型中。

根据又一实施例，所述神经网络包括用于隐性特征交叉的DNN网络和用于显性特征交叉的压缩交互网络和因子分解机。

根据又一实施例，所述实时用户操作序列包括通过手势传感器采集的手势数据，并且所述手势数据还由文本CNN和张量流来处理。

根据本公开的第二方面，提供了一种用于阻止针对应用的机器流量的方法，包括：接收针对所述应用的流量以及与发出所述流量的设备相关联的终端实时特征；基于所述终端实时特征来分析所接收到的流量以确定所述流量是否是机器流量；以及在所述流量是机器流量的情况下阻止所述流量。

根据一实施例，所述终端实时特征包括所述设备在发出所述流量时的当前状态和实时用户操作序列，所述当前状态包括所述设备的姿态、电量、充电状态、网络类型、屏幕亮度、当前时间、设备型号中的至少一者，并且所述实时用户操作序列包括通过手势传感器或键盘、鼠标等获得的、在发出所述流量的时刻之前和/或之后的预定时段内的用户操作。

根据另一实施例，该方法还包括基于与所述流量相关联的离线特征来确定所述流量是否是机器流量，其中所述离线特征包括与所述设备相关联的用户的特征和/或所述设备的风险水平。

根据又一实施例，该方法还包括使用神经网络模型来分析所述流量，其中所述终端实时特征和/或所述离线特征被分箱并通过嵌入的方式融入所述神经网络模型中。

根据本公开的第三方面，提供了一种用于阻止针对应用的机器流量的系统，包括：处理器；以及存储器，所述存储器存储有计算机可执行指令，所述计算机可执行指令在由所述处理器执行时使得所述处理器执行根据本公开的第二方面所述的方法。

各方面一般包括如基本上在本文参照附图所描述并且如通过附图所解说的方法、装备、系统、计算机程序产品和处理系统。

前述内容已较宽泛地勾勒出根据本公开的示例的特征和技术优势以使下面的详细描述可以被更好地理解。附加的特征和优势将在此后描述。所公开的概念和具体示例可容易地被用作修改或设计用于实施与本公开相同的目的的其他结构的基础。此类等效训练并不背离所附权利要求书的范围。本文所公开的概念的特性在其组织和操作方法两方面以及相关联的优势将因结合附图来考虑以下描述而被更好地理解。每一附图是出于解说和描述目的来提供的，且并不定义对权利要求的限定。

附图说明

为了能详细理解本公开的以上陈述的特征所用的方式，可参照各方面来对以上简要概述的内容进行更具体的描述，其中一些方面在附图中解说。然而应该注意，附图仅解说了本公开的某些典型方面，故不应被认为限定其范围，因为本描述可允许有其他等同有效的方面。不同附图中的相同附图标记可标识相同或相似的元素。

图1是根据本公开的一实施例的用于阻止针对应用的机器流量的示例系统的示意图；

图2示出了根据本公开的一实施例的某个特征的概率密度分布图；

图3示出了根据本公开的一实施例的手势数据；

图4示出了根据本公开的一实施例的神经网络模型示意图；

图5和6示出了根据本公开的一实施例的识别效果对比图；

图7示出了根据本公开的一实施例的用于阻止针对应用的机器流量的示例方法的流程图；以及

图8是根据本公开的一实施例的用于阻止针对应用的机器流量的另一示例系统的示意图。

具体实施方式

如上所述，机器流量一般是指由模仿或者代替人类用户的行为的软件应用程序、自动化脚本等“机器人（robot）”程序所自动执行的操作，诸如与目标应用程序的交互等等。据信，超过半数的互联网流量是由机器人产生的，它们会扫描内容、与网页进行交互、与用户聊天或者寻找攻击目标，等等。

然而，对于一些目标应用而言，机器人流量（例如各种作弊软件应用程序、各种抢票软件、各种辅助机器人软件（有时称为“外挂”）等等）是不合需的。因此，需要一种能够阻止机器人流量的工具来有效地防止机器人干扰目标应用的正常运行。

以下结合附图阐述的详细描述旨在作为各种配置的描述，而无意表示可实践本文中所描述的概念的仅有的配置。本详细描述包括具体细节以提供对各种概念的透彻理解。然而，对于本领域技术人员将显而易见的是，没有这些具体细节也可实践这些概念。

参考图1，其示出了根据本公开的一实施例的用于阻止针对应用的机器流量的示例系统100的示意图。

如图所示，系统100可包括流量接收模块102、流量分析模块104以及阻挡模块106。本领域技术人员可以明白，尽管图1中示出了三个模块，即流量接收模块102、流量分析模块104以及阻挡模块106，但这仅是示例性的。系统100可包括任何其他合适的模块，或者这些模块可以被拆分成若干子模块，只要这些子模块可以实现相应模块的功能即可。在另一实施例中，这些模块也可以任意组合在一起，在此不再赘述。

在一实施例中，流量接收模块102可被配置成接收针对应用的流量以及与发出流量的设备相关联的终端实时特征。例如，用户可能正在使用终端与应用进行交互，这一交互即可产生流量。该流量可被传送给与该应用相关联的服务器（例如，在云上）。在该示例中，流量接收模块102可以接收来自终端的这一流量。根据该实施例，流量接收模块102还接收与该终端相关联的终端实时特征，以便实时刻画行为状态。

在一示例中，终端实时特征可包括设备在发出流量时的当前状态和实时用户操作序列。根据一实施例，设备的当前状态可包括设备的姿态、电量、充电状态、网络类型、屏幕亮度、当前时间、设备型号中的至少一者，并且实时用户操作序列包括通过手势传感器或键盘、鼠标等获得的、在发出所述流量的时刻之前和/或之后的预定时段内的用户操作。本领域技术人员可以明白，预定时段可以是由用户或应用设置的任何合适的值，诸如1分钟、10分钟等等，在此不再赘述。

继续参考图1，流量分析模块104可被配置成基于终端实时特征来分析所接收到的流量以确定该流量是否是机器流量。本领域技术人员可以明白，可以使用终端实时特征来采用任何合适的方式确定流量是否是机器流量。仅举几例，如果接收到该流量时，设备的屏幕亮度是暗的（即，屏幕关闭），则可以确定该流量是机器流量；如果在接收到流量时设备的姿态是屏幕向下放置，则也可以确定该流量是机器流量；诸如此类。

在本公开的优选实施例中，流量分析模块104还被配置成基于与流量相关联的离线特征来确定流量是否是机器流量，以提高识别准确率。在一实施例中，离线特征可包括与设备相关联的用户的特征和/或设备的风险水平。本领域技术人员可以明白，“离线特征”在此是与“终端实时特征”相对的概念，用以描述与流量相关联的“非实时”特征，以完备刻画用户画像。

在一示例中，与设备相关联的用户的特征可包括与该用户相关联的任何合适特征，诸如用户的当天步数、用户与相关应用的交互历史，等等。在该示例中，交互历史可包括用户与相关应用的各种信息，诸如交互操作、交互时间、与该应用相关联的用户社交关系，等等。在另一示例中，设备的风险水平可包括设备是否有安全漏洞、是否安装有恶意软件、是否中毒，等等。在该示例中，设备风险水平高可意味着相关流量具有高概率是机器流量。

在本公开的优选实施例中，流量分析模块104还被配置成使用神经网络模型来分析流量。发明人认识到，在流量场景中，统计的特征分布极为不平衡，主要表现为长尾特别严重。例如，图2示出了某个特征的概率密度分布图，从图中可以看出大部分样本在一个相对集中的取值范围中，而存在一些样本取值非常大，而取值非常大的样本往往是黑样本（在此即是机器流量）；并且在相对集中的取值范围中，值的分布规律性不强且取值依然不小。在一优选实施例中，为了能使神经网络模型能够消费这些特征（包括终端实时特征和离线特征）并具有一定的泛化能力，终端实时特征和/或离线特征被分箱并通过嵌入的方式融入神经网络模型中，以对该流量进行识别来确定其是否是机器流量。

另外，发明人认识到，虽然黑样本极可能表现为取值过大，但在取值过大的区间中，分布往往较为随机。因此，为保证神经网络的泛化能力，流量分析模块104还被配置成对特征的取值进行适当的截断，以使各阶段的阈值不会过大，以防止过拟合。

在本公开的又一实施例中，考虑到特征之间的交叉很重要，流量分析模块104所使用的神经网络模型可包括用于隐性特征交叉的DNN网络和用于显性特征交叉的压缩交互网络（CIN）和因子分解机（FM）。在此，特征交叉（比如在凌晨出现用户高步数的组合）被用于将针对最头部的高准确率下召回以及黑样本（即机器流量）在特征分布上的表现纳入考虑，以提高识别准确率。

在本公开的一实施例中，实时用户操作序列可包括通过手势传感器采集的手势数据。图3示出了根据本公开的一实施例的手势数据。对于手势数据而言，最大的问题是数据存在噪声。以坐标为例，不同触摸屏的坐标范围是不一样的，有些最大是2000个像素，有些则可能是3000像素；有些坐标系是横向的，有些则是竖向的；有些坐标系的原点在触摸屏左上角，而有些在中间。这些差异由于触摸屏型号的不一致而很难统一。为此，流量分析模块104可对手势数据进行先截断再标准化以保证绝大部分数据的分布符合预期，并随后通过文本CNN和张量流来处理。

参考图4，其示出了根据本公开的一实施例的神经网络模型示意图。可以看到，离线特征和终端实时特征都被输入到DNN（用于隐性特征交叉）和CIN+FM（用于显性特征交叉）。而手势传感器序列（即手势数据）被输入到文本CNN（TextCNN），以捕捉机器操作在传感器操作上的相似性，诸如传感器滑动的距离比较接近、点击的力度和面积比较接近，等等；TF(Transformer)被用于刻画序列整体特征。

图5和6示出了根据本公开的一实施例的识别效果对比图。其中，图5示出了在使用不同特征的情况下的识别效果对比图；而图6示出了在使用不同神经网络模型的情况下的识别效果对比图。可以看到，本公开的技术方案获得了更优的性能。

继续参考图1，阻挡模块106可被配置成在流量是机器流量的情况下阻止该流量。例如，流量分析模块104可以确定流量是机器流量，并且阻挡模块106可基于来自流量分析模块104的这一确定来阻挡该流量。

图7是根据本公开的一实施例的用于阻止针对应用的机器流量的示例方法700的流程图。

如图所示，方法700可包括在框710接收针对应用的流量以及与发出流量的设备相关联的终端实时特征。例如，用户可能正在使用终端与应用进行交互，这一交互即可产生流量。该流量可被传送给与该应用相关联的服务器（例如，在云上）。在该示例中，来自终端的这一流量可被接收。根据该实施例，与该终端相关联的终端实时特征也被接收，以便实时刻画行为状态。

继续参考图7，在框720，方法200可包括基于终端实时特征来分析所接收到的流量以确定该流量是否是机器流量。本领域技术人员可以明白，可以使用终端实时特征来采用任何合适的方式确定流量是否是机器流量。仅举几例，如果接收到该流量时，设备的屏幕亮度是暗的（即，屏幕关闭），则可以确定该流量是机器流量；如果在接收到流量时设备的姿态是屏幕向下放置，则也可以确定该流量是机器流量；诸如此类。

在本公开的优选实施例中，方法700还可包括基于与流量相关联的离线特征来确定流量是否是机器流量，以提高识别准确率。在一实施例中，离线特征可包括与设备相关联的用户的特征和/或设备的风险水平。本领域技术人员可以明白，“离线特征”在此是与“终端实时特征”相对的概念，用以描述与流量相关联的“非实时”特征，以完备刻画用户画像。

在本公开的优选实施例中，基于终端实时特征来分析所接收到的流量以确定该流量是否是机器流量还可包括使用神经网络模型来分析流量。在一优选实施例中，为了能使神经网络模型能够消费这些特征（包括终端实时特征和离线特征）并具有一定的泛化能力，终端实时特征和/或离线特征被分箱并通过嵌入的方式融入神经网络模型中，以对该流量进行识别来确定其是否是机器流量。

另外，发明人认识到，虽然黑样本极可能表现为取值过大，但在取值过大的区间中，分布往往较为随机。因此，为保证神经网络的泛化能力，方法700还可包括对特征的取值进行适当的截断，以使各阶段的阈值不会过大，以防止过拟合。

在本公开的又一实施例中，考虑到特征之间的交叉很重要，所使用的神经网络模型可包括用于隐性特征交叉的DNN网络和用于显性特征交叉的压缩交互网络（CIN）和因子分解机（FM）。在此，特征交叉（比如在凌晨出现用户高步数的组合）被用于将针对最头部的高准确率下召回以及黑样本（即机器流量）在特征分布上的表现纳入考虑，以提高识别准确率。

在本公开的一实施例中，实时用户操作序列可包括通过手势传感器采集的手势数据。为此，方法700还可对手势数据进行先截断再标准化以保证绝大部分数据的分布符合预期，并随后通过文本CNN和张量流来处理。

继续参考图7，方法700可包括在框730在流量是机器流量的情况下阻止所述流量。

在本公开的又一实施例中，神经网络模型是采用离线标签划分训练数据来被训练的。举例而言，如果未抽样，黑白样本比例0.36%。方法700可包括对白样本进行抽样，但由于用户历史上被稽核过的用户很可能继续“作案”，因此在白样本抽样过程中，保证了历史被稽核过的样本都在。实际发现，历史七天内有被稽核过的用户（即，用户发出过机器流量），可以涵盖当天90%的黑样本，而通过是否被稽核被选出来的样本中，黑样本比例10%，区分度很高。为了更好地泛化剩下的10%黑样本，训练集再从白样本中抽取1%。

此外，在本公开的又一实施例中，神经网络模型的训练可以使用焦点损失函数来提升头部准确率。在该实施例中，目标是在样本上的准确率 > 95%，现有标签体系下覆盖率>30%。由于加入了离线特征，模型十分容易过拟合，为了更好的找到模型早停的点，神经网络模型的训练将95%准确率下的召回率作为监控指标。在本公开的又一实施例中，对于焦点损失函数，参数可以设置成alpha=0.05，以降低过拟合风险

图8示出了根据本公开的一实施例的用于阻止针对应用的机器流量的另一示例系统800的示意图。系统800可包括处理器805以及被安排成存储计算机可执行指令815的存储器810，计算机可执行指令815在被处理器805执行时可使处理器805执行根据本公开的图7所描述的方法700。

如上所述，本公开的方法和系统采用模型的方式替代简单的判定规则，使得识别结果更加鲁棒，不容易被替代。并且通过端上去事件化的管控方式，能够管控所有流量。另外，由于终端实时特征的使用，使得流量管控是实时的。

将明白，在本公开中，除非另外指明，术语“设备”和“终端”是可互换地使用的，用于指示由用户使用来与应用进行交互的装置。

以上具体实施方式包括对附图的引用，附图形成具体实施方式的部分。附图通过说明来示出可实践的特定实施例。这些实施例在本文中也称为“示例”。此类示例可以包括除所示或所述的那些元件以外的元件。然而，还构想了包括所示或所述元件的示例。此外，还构想出的是使用所示或所述的那些元件的任何组合或排列的示例，或参照本文中示出或描述的特定示例（或其一个或多个方面），或参照本文中示出或描述的其他示例（或其一个或多个方面）。

在所附权利要求书中，术语“包括”和“包含”是开放式的，也就是说，在权利要求中除此类术语之后列举的那些元件之外的元件的系统、设备、制品或过程仍被视为落在那项权利要求的范围内。此外，在所附权利要求书中，术语“第一”、“第二”和“第三”等仅被用作标记，并且不旨在表明对它们的对象的数字顺序。

另外，本说明书中所解说的各操作的次序是示例性的。在替换实施例中，各操作可以按与附图所示的不同次序执行，且各操作可以合并成单个操作或拆分成更多操作。

以上描述旨在是说明性的，而非限制性的。例如，可结合其他实施例来使用以上描述的示例（或者其一个或多个方面）。可诸如由本领域普通技术人员在审阅以上描述之后来使用其他实施例。摘要允许读者快速地确定本技术公开的性质。提交该摘要，并且理解该摘要将不用于解释或限制权利要求的范围或含义。此外，在以上具体实施方式中，各种特征可以共同成组以使本公开流畅。然而，权利要求可以不陈述本文中公开的每一特征，因为实施例可以表征所述特征的子集。此外，实施例可以包括比特定示例中公开的特征更少的特征。因此，所附权利要求书由此被结合到具体实施方式中，一项权利要求作为单独的实施例而独立存在。本文中公开的实施例的范围应当参照所附权利要求书以及此类权利要求所赋予权利的等价方案的完整范围来确定。

Claims

1.一种用于阻止针对应用的机器流量的系统，包括：

流量接收模块，所述流量接收模块被配置成接收针对所述应用的流量以及与发出所述流量的设备相关联的终端实时特征；

流量分析模块，所述流量分析模块被配置成基于所述终端实时特征来分析所接收到的流量以确定所述流量是否是机器流量；以及

阻挡模块，所述阻挡模块被配置成在所述流量是机器流量的情况下阻止所述流量。

2.根据权利要求1所述的系统，其中所述终端实时特征包括所述设备在发出所述流量时的当前状态和实时用户操作序列，所述当前状态包括所述设备的姿态、电量、充电状态、网络类型、屏幕亮度、当前时间、设备型号中的至少一者，并且所述实时用户操作序列包括通过手势传感器或键盘、鼠标等获得的、在发出所述流量的时刻之前和/或之后的预定时段内的用户操作。

3.根据权利要求1所述的系统，其中所述流量分析模块还被配置成基于与所述流量相关联的离线特征来确定所述流量是否是机器流量，其中所述离线特征包括与所述设备相关联的用户的特征和/或所述设备的风险水平。

4.根据权利要求3所述的系统，其中与所述设备相关联的用户的特征包括用户的当天步数、用户与所述应用的交互历史中的至少一者，并且所述设备的风险水平包括所述设备是否有安全漏洞、是否安装有恶意软件、是否中毒。

5.根据权利要求1-4中的任一项所述的系统，其中所述流量分析模块还被配置成使用神经网络模型来分析所述流量，其中所述终端实时特征和/或所述离线特征被分箱并通过嵌入的方式融入所述神经网络模型中。

6.根据权利要求5所述的系统，其中所述终端实时特征和/或所述离线特征被分箱并通过嵌入的方式融入所述神经网络模型中。

7.根据权利要求6所述的系统，其中所述神经网络包括用于隐性特征交叉的DNN网络和用于显性特征交叉的压缩交互网络和因子分解机。

8.根据权利要求7所述的系统，其中所述实时用户操作序列包括通过手势传感器采集的手势数据，并且所述手势数据还由文本CNN和张量流来处理。

9.一种用于阻止针对应用的机器流量的方法，包括：

接收针对所述应用的流量以及与发出所述流量的设备相关联的终端实时特征；

基于所述终端实时特征来分析所接收到的流量以确定所述流量是否是机器流量；以及

在所述流量是机器流量的情况下阻止所述流量。

10.根据权利要求9所述的方法，其中所述终端实时特征包括所述设备在发出所述流量时的当前状态和实时用户操作序列，所述当前状态包括所述设备的姿态、电量、充电状态、网络类型、屏幕亮度、当前时间、设备型号中的至少一者，并且所述实时用户操作序列包括通过手势传感器或键盘、鼠标等获得的、在发出所述流量的时刻之前和/或之后的预定时段内的用户操作。

11.根据权利要求9所述的方法，其中还包括基于与所述流量相关联的离线特征来确定所述流量是否是机器流量，其中所述离线特征包括与所述设备相关联的用户的特征和/或所述设备的风险水平。

12.根据权利要求11所述的方法，其中与所述设备相关联的用户的特征包括用户的当天步数、用户与所述应用的交互历史中的至少一者，并且所述设备的风险水平包括所述设备是否有安全漏洞、是否安装有恶意软件、是否中毒。

13.根据权利要求9-12中的任一项所述的方法，其中还包括使用神经网络模型来分析所述流量，其中所述终端实时特征和/或所述离线特征被分箱并通过嵌入的方式融入所述神经网络模型中。

14.根据权利要求13所述的方法，其中所述终端实时特征和/或所述离线特征被分箱并通过嵌入的方式融入所述神经网络模型中。

15.根据权利要求14所述的方法，其中所述神经网络包括用于隐性特征交叉的DNN网络和用于显性特征交叉的压缩交互网络和因子分解机。

16.根据权利要求15所述的方法，其中所述实时用户操作序列包括通过手势传感器采集的手势数据，并且所述手势数据还由文本CNN和张量流来处理。

17. 一种用于阻止针对应用的机器流量的系统，包括：

处理器；以及

存储器，所述存储器存储有计算机可执行指令，所述计算机可执行指令在由所述处理器执行时使得所述处理器执行根据权利要求9-16中的任一项所述的方法。