CN117435727A

CN117435727A - 基于业务文本的安全测试方法、装置和计算机设备

Info

Publication number: CN117435727A
Application number: CN202310979926.9A
Authority: CN
Inventors: 徐雅静; 姜城; 程佩哲; 练婉利
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2023-08-04
Filing date: 2023-08-04
Publication date: 2024-01-23

Abstract

本申请涉及一种基于业务文本的安全测试方法、装置、计算机设备、存储介质和计算机程序产品，涉及信息安全领域，可用于安全测试领域。所述方法包括：获取待处理的业务文本；对业务文本进行预处理，得到业务文本的词向量；对业务文本进行切分，得到多个文本片段；基于预设词库，确定多个文本片段的文本概率；基于多个文本片段的文本概率，采用文本分类模型对词向量进行分类，得到分类结果；基于分类结果，确定业务文本对应的安全测试策略；采用安全测试策略进行安全测试。采用本方法能够提高安全测试效率。

Description

基于业务文本的安全测试方法、装置和计算机设备

技术领域

本申请涉及信息安全领域，可用于安全测试领域，特别是涉及一种基于业务文本的安全测试方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

随着互联网的高速发展，产品面临快速的功能变更需求和迭代升级需求。在产品开发过程中，由于设计团队、开发团队、测试团队和安全团队互相独立，往往需要设计团队或者项目负责人提交安全测试需求文本，由安全测试团队针对需求文本中的项目改造内容进行分析评估，再判断是否需要开展技术安全测试。因此，传统的基于业务文本的安全测试方法存在安全测试效率低的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种基于业务文本的安全测试方法、装置、计算机设备、计算机可读存储介质和计算机程序产品，能够提高安全测试效率。

第一方面，本申请提供了一种基于业务文本的安全测试方法。所述方法包括：

获取待处理的业务文本；

对业务文本进行预处理，得到业务文本的词向量；

对业务文本进行切分，得到多个文本片段；基于预设词库，确定多个文本片段的文本概率；基于多个文本片段的文本概率，采用文本分类模型对词向量进行分类，得到分类结果；

基于分类结果，确定业务文本对应的安全测试策略；采用安全测试策略进行安全测试。

在其中一个实施例中，对业务文本进行预处理，得到业务文本的词向量，包括：

提取业务文本中的所有文本词，得到文本词集合；

从文本词集合中提取出互不相同的至少一个目标文本词；

根据至少一个目标文本词和文本词集合，确定业务文本的词向量。

在其中一个实施例中，根据至少一个目标文本词和文本词集合，确定业务文本的词向量，包括：

获取至少一个目标文本词中每个目标文本词在文本词集合中出现的目标次数；

根据至少一个目标文本词各自对应的目标次数，构建目标向量，将目标向量作为业务文本的词向量。

在其中一个实施例中，基于分类结果，确定业务文本对应的安全测试策略，包括：

将分类结果分别与预设映射关系中的每个预设分类结果进行比较；

在分类结果与预设映射关系中的任一预设分类结果相同的情况下，确定分类结果中的权限等级和分类等级；

根据权限等级和分类等级，确定业务文本对应的安全测试策略。

在其中一个实施例中，根据权限等级和分类等级，确定业务文本对应的安全测试策略，包括：

获取分类结果对应的系统权限等级；

根据权限等级和系统权限等级，确定业务文本所对应的业务是否存在越权控制；

在不存在越权控制的情况下，确定分类等级对应的目标测试策略，并将目标测试策略作为业务文本对应的安全测试策略。在其中一个实施例中，文本分类模型的训练过程，包括：

获取历史业务文本；

对历史业务文本进行切分，得到多个文本片段；

基于预设词库，确定多个文本片段的目标概率；

将历史业务文本进行预处理，得到历史业务文本对应的文本向量；

根据文本向量和各个文本片段的目标概率，对神经网络模型进行训练，得到文本分类模型。

在其中一个实施例中，每个文本片段包括至少一个文本词；基于预设词库，确定多个文本片段的文本概率，包括：

针对当前文本片段中的每个文本词，确定当前文本词在前一文本词于预设词库中出现的条件下，当前文本词于预设词库中的出现概率；

根据各文本段中各文本词的出现概率，确定各个文本片段的文本概率。

第二方面，本申请还提供了一种基于业务文本的安全测试装置。所述装置包括：

获取模块，用于获取待处理的业务文本；

处理模块，用于对业务文本进行预处理，得到业务文本的词向量；

分类模块，用于对业务文本进行切分，得到多个文本片段；基于预设词库，确定多个文本片段的文本概率；基于多个文本片段的文本概率，采用文本分类模型对词向量进行分类，得到分类结果；

测试模块，用于基于分类结果，确定业务文本对应的安全测试策略；采用安全测试策略进行安全测试。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取待处理的业务文本；

对业务文本进行预处理，得到业务文本的词向量；

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取待处理的业务文本；

对业务文本进行预处理，得到业务文本的词向量；

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

获取待处理的业务文本；

对业务文本进行预处理，得到业务文本的词向量；

上述基于业务文本的安全测试方法、装置、计算机设备、存储介质和计算机程序产品，通过获取待处理的业务文本；对业务文本进行预处理，得到业务文本的词向量；对业务文本进行切分，得到多个文本片段；基于预设词库，确定多个文本片段的文本概率；基于多个文本片段的文本概率，采用文本分类模型对词向量进行分类，得到分类结果；基于分类结果，确定业务文本对应的安全测试策略；采用安全测试策略进行安全测试。上述方案，这种将业务文本转换为词向量，并结合业务文本中各文本片段的文本概率，有利于保留业务文本的词序信息，再利用文本分类模型对词向量进行分类的方法，有利于快速确定出业务文本对应的安全测试策略，从而采用相应的安全测试策略进行安全测试，有利于提高安全测试效率。

附图说明

图1为一个实施例中基于业务文本的安全测试方法的应用环境图；

图2为一个实施例中基于业务文本的安全测试方法的流程示意图；

图3为一个实施例中步骤204的子流程示意图；

图4为一个实施例中步骤306的子流程示意图；

图5为一个实施例中步骤208的子流程示意图；

图6为一个实施例中步骤206的子流程示意图；

图7为一个实施例中步骤603的子流程示意图；

图8为一个实施例中基于业务文本的安全测试装置的结构框图；

图9为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的基于业务文本的安全测试方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他网络服务器上。本申请实施例提供的基于业务文本的安全测试方法，可由终端102或者服务器104单独执行，也可由终端102和服务器104协作执行，以由终端102单独执行为例：获取待处理的业务文本；对业务文本进行预处理，得到业务文本的词向量；对业务文本进行切分，得到多个文本片段；基于预设词库，确定多个文本片段的文本概率；基于多个文本片段的文本概率，采用文本分类模型对词向量进行分类，得到分类结果；基于分类结果，确定业务文本对应的安全测试策略；采用安全测试策略进行安全测试。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种基于业务文本的安全测试方法，以该方法应用于图1中的终端102为例进行说明，包括以下步骤：

步骤202，获取待处理的业务文本。

其中，业务文本指的是金融领域常见的业务需求表单、业务需求文档或者软件文档等。例如，业务文本为业务需求文档的情况下，业务文本可以为包含资源数值转移需求的文本，可以为包含资源转移验证需求的文本，或者还可以为包含资源信息检查需求的文本。基于业务文本的安全测试可以是对产品的整个生命周期的安全性进行评估测试。例如，在业务文本为业务需求文本的情况下，基于业务需求文本的安全测试指的是在产品需求阶段对产品的安全性进行测试。在一些实施例中，业务文本还可以是其他领域的业务文本，例如，车联网领域、物联网领域，或者电力技术领域等。

本申请实施例提出的基于业务文本的安全测试方法主要是对待处理的业务文本进行识别处理，从而确定出对应的安全测试策略，对产品进行相应的安全测试，相较于传统人工对业务文本进行分析处理的方法，能够提高安全测试效率。

步骤204，对业务文本进行预处理，得到业务文本的词向量。

其中，业务文本是由单个文本词组成，业务文本中的往往会出现多个相同的文本词，在一些实施例中，可以将每个文本词出现的次数构建词向量。

词向量是业务文本中的文本词映射到实数空间得到的向量表示，将业务文本转化为对应的词向量，使得计算机能够更快速地对自然语言进行处理，从而有利于提高业务文本的处理效率。

步骤206，对业务文本进行切分，得到多个文本片段；基于预设词库，确定多个文本片段的文本概率；基于多个文本片段的文本概率，采用文本分类模型对词向量进行分类，得到分类结果。

其中，业务文本可能包含大量的文本信息，将业务文本切分为多个文本片段，有利于对每个文本片段单独处理，有利于提高业务文本的处理效率。例如，可以采用预设大小的滑窗对业务文本进行切分，得到多个文本片段。

预设词库为基于业务文本的安全测试方法所应用的领域中的常见文本词建立的文本词数据库。每个文本片段包括至少一个文本词，每个文本词于预设词库中出现的频度可能为至少一次，也可能为零次，每个文本词在前一文本词于预设词库中出现的条件下，各文本词于预设词库中的出现概率可能为至少一次，也可能为零次。文本片段的文本概率为基于文本片段中的每个文本词在前一文本词于预设词库中出现的条件下，各文本词于预设词库中的出现概率计算得到，用于表征文本片段于预设词库中出现的预测概率。

文本分类模型是用于对词向量进行分类的机器学习模型。常见的文本分类模型包括Fasttext(一种开源的句子分类器模型)、TextCNN(用于文本分类的神经网络模型)、TextRNN(用于文本分类的循环神经网络模型)、TextRCNN(结合RNN和CNN的文本分类神经网络模型)、BiLSTM_Attention(双向长短时记忆网络以及注意力机制)、DPCNN(深层金字塔形的神经网络模型)。其中，采用句子分类器模型作为文本分类模型对词向量进行分类，得到分类结果，由于句子分类器模型能够高效进行文本分类，有利于提高分类效率，从而提高业务文本处理效率。具体地，将多个文本片段的文本概率和词向量输入句子分类器模型，得到分类结果，实现对词向量的分类。由于文本概率是基于文本片段中的每个文本词在前一文本词于预设词库中出现的条件下，各文本词于预设词库中的出现概率计算得到，保留了业务文本中的词序信息，有利于提高分类结果的准确性。

对词向量进行分类指的是按照自然语言习惯分类，例如，减少、降低、下降为一类，增加、提高、上升为一类。分类结果指的是词向量的分类类型。例如，降低类别、提高类别等。

步骤208，基于分类结果，确定业务文本对应的安全测试策略；采用安全测试策略进行安全测试。

其中，安全测试策略指的是安全测试的执行方法和执行顺序。在业务文本用于指示进行安全测试的业务需求的情况下，终端采用安全测试策略中的执行方法和执行顺序进行安全测试。

每种分类结果对应一种或者多种安全测试策略，或者，一种安全测试策略对应一种或者多种分类结果。从而终端根据分类结果，确定出与分类结果对应的安全测试策略，并作为业务文本对应的安全测试策略。这种基于业务文本的安全测试方法，能够快速确定出业务文本对应的安全测试策略，提高了业务文本的处理效率，同时，这种基于业务文本自动确定出安全测试策略的方法，有利于自动进行安全测试，提高安全测试效率。

上述基于业务文本的安全测试方法中，通过获取待处理的业务文本；对业务文本进行预处理，得到业务文本的词向量；对业务文本进行切分，得到多个文本片段；基于预设词库，确定多个文本片段的文本概率；基于多个文本片段的文本概率，采用文本分类模型对词向量进行分类，得到分类结果；基于分类结果，确定业务文本对应的安全测试策略；采用安全测试策略进行安全测试。上述方案，这种将业务文本转换为词向量，并结合业务文本中各文本片段的文本概率，有利于保留业务文本的词序信息，再利用文本分类模型对词向量进行分类的方法，有利于快速确定出业务文本对应的安全测试策略，从而采用相应的安全测试策略对业务文本进行安全测试，有利于提高安全测试效率。

在一个实施例中，如图3所示，对业务文本进行预处理，得到业务文本的词向量，包括：

步骤302，提取业务文本中的所有文本词，得到文本词集合。

步骤304，从文本词集合中提取出互不相同的至少一个目标文本词。

步骤306，根据至少一个目标文本词和文本词集合，确定业务文本的词向量。

其中，业务文本是由至少一个文本词组成的。对业务文本按照文本词进行逐个提取，直到业务文本的结束字符为止，提取出业务文本中的所有文本词，业务文本中的所有文本词添加至文本词集合中。

由于业务文本中往往包括有相同的文本词，终端进一步从文本词集合中提取出互不相同的至少一个目标文本词。例如，业务文本为“重置密码，验证通过后重置成功”，提取业务文本中的所有文本词，得到的文本词集合为：{“重”，“置”，“密”，“码”，“，”，“验”，“证”，“通”，“过”，“后”，“重”，“置”，“成”，“功”}，由于“重”和“置”在文本词集合中重复了，因此，从文本词中提取出的目标文本词为：{“重”，“置”，“密”，“码”，“，”，“验”，“证”，“通”，“过”，“后”，“成”，“功”}。

至少一个目标文本词相较于文本词集合，文本词集合中可能包含相同的文本词，由至少一个目标文本词各自在文本词集合中出现的次数，能够确定出一个向量，该向量的维度与至少一个目标文本词的数量相同。

本实施例中，通过提取业务文本中的所有文本词，得到文本词集合，由于业务文本中往往包括有相同的文本词，终端进一步从文本词集合中提取出互不相同的至少一个目标文本词，由至少一个目标文本词各自在文本词集合中出现的次数，能够确定出一个向量，能够将自然语言转换为数学向量的形式，有利于提高对业务文本的处理效率。

在一个实施例中，如图4所示，根据至少一个目标文本词和文本词集合，确定业务文本的词向量，包括：

步骤402，获取至少一个目标文本词中每个目标文本词在文本词集合中出现的目标次数。

步骤404，根据至少一个目标文本词各自对应的目标次数，构建目标向量，将目标向量作为业务文本的词向量。

其中，针对至少一个目标文本词中的每个目标文本词，确定每个目标文本词在文本词集合中出现的目标次数。例如，“重”在文本词集合中出现的次数为2，“置”在文本词集合中出现的次数为2，“密”在文本词集合中出现的次数为1。

将至少一个目标文本词各自对应的目标次数添加至目标向量中。目标向量的维度与至少一个目标文本词的数量相同。目标向量的元素即为至少一个目标文本词各自对应的目标次数。将目标向量作为业务文本的词向量。例如，业务文本为“重置密码，验证通过后重置成功”，对应的词向量为{2，2，1，1，1，1，1，1，1，1，1，1}。

本实施例中，通过将至少一个目标文本词中每个目标文本词在文本词集合中出现的目标次数构建的目标向量作为业务文本的词向量，词向量中的各元素为至少一个目标文本词中各目标文本词在文本词集合中出现的目标次数，将业务文本转化为词向量进行数据处理，有利于提高业务文本的处理效率。

在一个实施例中，如图5所示，基于分类结果，确定业务文本对应的安全测试策略，包括：

步骤502，将分类结果分别与预设映射关系中的每个预设分类结果进行比较。

步骤504，在分类结果与预设映射关系中的任一预设分类结果相同的情况下，确定分类结果对应的权限等级和分类等级。

步骤506，根据权限等级和分类等级，确定业务文本对应的安全测试策略。

其中，预设映射关系为预存在终端中的关系表。根据历史实验数据，在预设映射关系中存储了预设分类结果与测试策略的对应关系。预设分类结果与测试策略的对应关系可以为一对一、一对多、多对一或者多对多的关系。终端将分类结果分别与预设映射关系中的每个预设分类结果进行比较，在分类结果与预设映射关系中的所有预设分类结果均不相同的情况下，确定分类结果不需要进行安全测试。例如，分类结果为终端界面类型，或者数据库类型，预设映射关系中不包括该分类结果，则该分类结果不需要进行安全测试。

在分类结果与预设映射关系中的任一预设分类结果相同的情况下，确定分类结果中的权限等级和分类等级。权限等级指的是业务需求指示进行安全测试所需的权限等级。包括普通对象级别和管理员级别等。分类等级指的是分类结果所属的分类层级。属于同一分类等级的分类结果可以采用相同的安全测试策略。终端由权限等级和分类等级，查询预设映射关系，确定业务文本对应的安全测试策略。

本实施例中，通过将分类结果分别与预设映射关系中的每个预设分类结果进行比较，对于不在预设映射关系中的分类结果，可以跳过安全测试步骤，对于处于预设映射关系中的分类结果，由分类结果中的权限等级和分类等级进一步确定业务文本对应的安全测试策略，对分类结果细化处理，有利于确定出准确的安全测试策略。

在一个实施例中，根据权限等级和分类等级，确定业务文本对应的安全测试策略，包括：获取分类结果对应的系统权限等级；根据权限等级和系统权限等级，确定业务文本所对应的业务需求是否存在越权控制；在不存在越权控制的情况下，确定分类等级对应的目标测试策略，并将目标测试策略作为业务文本对应的安全测试策略。

其中，系统权限等级指的是对该分类结果进行安全测试的应用程序权限等级。在业务文本所指示的权限等级与系统权限等级不一致的情况下，确定业务文本所对应的业务需求存在越权控制，终端将终止对业务文本的分类结果进行安全测试。在业务文本所指示的权限等级与系统权限等级一致的情况下，确定业务文本所对应的业务需求不存在越权控制，终端通过查询预设映射关系，得到分类等级对应的目标测试策略，将该目标测试策略作为业务文本对应的安全测试策略。例如，分类结果为身份鉴别类型、开户标记类型或者密码校验等类型的情况下，分类等级均为高分类级别，采用高分类级别对应的目标测试策略进行安全测试。

本实施例中，通过对比分类结果对应的系统权限等级和业务文本所指示的权限等级，从而确定业务文本所对应的业务需求是否存在越权控制，在不存在越权控制的情况下，进一步将分类等级对应的目标测试策略作为业务文本对应的安全测试策略，有利于避免安全测试存在越权控制，保证安全测试的顺利进行。

在一个实施例中，如图6所示，文本分类模型的训练过程，包括：

步骤601，获取历史业务文本。

步骤602，对历史业务文本进行切分，得到多个文本片段。

步骤603，基于预设词库，确定多个文本片段的目标概率。

步骤604，将历史业务文本进行预处理，得到历史业务文本对应的文本向量。

步骤605，根据文本向量和各个文本片段的目标概率，对神经网络模型进行训练，得到文本分类模型。

其中，历史业务文本是历史时刻发起的业务相关的申请表单或者申请文本。对文本分类模型的训练中，往往采用历史业务文本作为训练样本，对神经网络模型进行训练，训练完成后得到文本分类模型，从而用于对新增的业务文本进行直接分类，从而提高业务文本的处理效率。

在一些实施例中，业务文本可能包含大量的文本信息，对历史业务文本进行切分为多个文本片段，从而每个文本片段中只需承载较少的文本信息，对每个文本片段单独进行处理，有利于提高业务文本的处理效率。例如，可以采用预设大小的滑窗对历史业务文本进行切分，得到多个文本片段。在一些实施例中，滑窗滑动的步长可以为单个文本词大小，也可以等于滑窗长度。

预设词库为基于业务文本的安全测试方法所应用的领域中的常见文本词建立的文本词数据库。例如，基于业务文本的安全测试方法应用于金融领域的情况下，预设词库为基于金融领域的常见文本词建立的文本词数据库。

文本片段中包括至少一个文本词，每个文本词在预设词库中出现的频度可能不同。从而由各个文本词在预设词库中出现的频度，确定出整个文本片段在预设词库中的出现概率，并作为文本片段的目标概率。

历史业务文本对应的文本向量是由历史业务文本进行预处理得到。例如，可以将历史业务文本中的至少一个文本词出现的次数，构建历史业务文本对应的文本向量。

将文本向量和各个文本片段的目标概率作为神经网络模型的输入，对神经网络模型进行训练，直到满足预设停止条件时停止训练，得到文本分类模型。

在一些实施例中，神经网络模型中采用softmax(归一化指数函数)技术，即采用sigmoid(S形函数)函数作为激活函数，由于softmax技术将神经网络模型的输出进行归一化，有利于加速提高模型训练效率。

本实施例中，通过将历史业务文本进行切分为多个文本片段，基于预设词库，确定多个文本片段的目标概率，根据文本向量和各个文本片段的目标概率，对神经网络模型进行训练，得到文本分类模型。由于文本分类模型是基于历史需求文本的多个文本片段的目标概率和对应的文本向量训练得到，基于文本分类模型有利于对新增的业务文本进行分类，从而提高业务文本的处理效率。

在一个实施例中，如图7所示，每个业务文本片段包括至少一个文本词；基于预设词库，确定多个业务文本片段的文本概率，包括：

步骤702，针对当前业务文本片段中的每个文本词，确定当前文本词在前一文本词于预设词库中出现的条件下，当前文本词于预设词库中的出现概率。

步骤704，根据各文本段中各文本词的出现概率，确定各个业务文本片段的文本概率。

其中，每个业务文本片段包括至少一个文本词，多个业务文本片段中每个文本片段对应的目标概率，由该文本片段中的至少一个文本词于预设词库中出现的概率确定。每个文本词于预设词库中出现的概率，可以通过上述方法确定。

具体地，当前文本词指的是当前文本片段中的任一文本词，前一文本词指的是当前文本片段中当前文本词之前的一个文本词。

针对当前文本片段中的每个文本词，确定当前文本词在前一文本词于预设词库中出现的条件下，当前文本词于预设词库中的出现概率。

将各文本段中各文本词的出现概率相乘，得到的乘积作为各个文本片段的目标概率。例如，预设词库中统计了下面的一些词出现的频度：

重置：2533次，卡：927次，支持：746次，手机银行：158次，修改：342次。

由此，计算得到各文本词于预设词库中的出现概率：

P(重置|卡)＝0.25；

P(支持|手机银行)＝0.011；

P(手机银行|修改)＝0.5；

文本片段的文本概率为：P(重置|卡)*P(支持|手机银行)*P(手机银行|修改)＝0.001375。

本实施例中，通过确定当前文本词在前一文本词于预设词库中出现的条件下，当前文本词于预设词库中的出现概率，从而将由文本段中各文本词的出现概率确定相应文本片段的目标概率，由于目标概率结合了各个文本词在前一文本词出现的条件下，在预设词库的出现概率，有利于反映出业务文本中各文本词的词序，而词向量中的元素是无序的，因此，基于目标概率和词向量进行模型训练，有利于提高文本分类模型的分类准确性。

为详细说明本方案中基于业务文本的安全测试方法及效果，下面以一个最详细实施例进行说明：

针对金融领域常见的安全测试需求场景，业务文本为在产品需求阶段，针对产品进行安全测试的需求提出的需求申请文本，这种基于业务文本的安全测试方法，能够在产品的需求阶段通过对业务文本的处理，自动确定出对应的安全测试策略，从而在产品需求阶段的早期对产品进行安全测试，提高了安全测试效率。同时，产品在需求阶段完成安全测试，有利于产品的安全性和稳定性。

具体地，终端获取待处理的业务文本，提取业务文本中的所有文本词，得到文本词集合。例如，业务文本为“重置密码，验证通过后重置成功”，提取业务文本中的所有文本词，得到的文本词集合为：{“重”，“置”，“密”，“码”，“，”，“验”，“证”，“通”，“过”，“后”，“重”，“置”，“成”，“功”}。由于业务文本中往往包括相同的文本词，从文本词集合中提取出互不相同的至少一个目标文本词，获取至少一个目标文本词中每个目标文本词在文本词集合中出现的目标次数，根据至少一个目标文本词各自对应的目标次数，构建目标向量，并将目标向量作为业务文本的词向量。例如，“重”和“置”在文本词集合中重复了，因此，从文本词中提取出的目标文本词为：{“重”，“置”，“密”，“码”，“，”，“验”，“证”，“通”，“过”，“后”，“成”，“功”}，对应的词向量为{2，2，1，1，1，1，1，1，1，1，1，1}。

对业务文本进行切分，得到多个文本片段，基于预设词库，确定多个文本片段的文本概率。具体地，针对当前文本片段中的每个文本词，确定当前文本词在前一文本词于预设词库中出现的条件下，当前文本词于预设词库中的出现概率，根据各文本段中各文本词的出现概率，确定各个文本片段的文本概率。

例如，预设词库中统计了下面的一些词出现的频度：

由此，计算得到各文本词于预设词库中的出现概率：

P(重置|卡)＝0.25；

P(支持|手机银行)＝0.011；

P(手机银行|修改)＝0.5；

基于多个文本片段的文本概率，采用文本分类模型对词向量进行分类，得到分类结果。其中，文本分类模型的训练过程，包括：获取历史业务文本。历史业务文本是历史时刻针对安全测试需求提出的需求申请文本。采用预设大小的滑窗，对历史业务文本进行切分，得到多个文本片段，每个文本片段包括至少一个文本词。基于预设词库，确定多个文本片段的文本概率，将历史业务文本进行预处理，得到历史业务文本对应的文本向量，将文本向量和各个文本片段的文本概率作为神经网络模型的输入，对神经网络模型进行训练，得到文本分类模型。

将分类结果分别与预设映射关系中的每个预设分类结果进行比较，在分类结果与预设映射关系中的任一预设分类结果相同的情况下，确定分类结果中的权限等级和分类等级。获取分类结果对应的系统权限等级，根据权限等级和系统权限等级，确定业务文本所对应的业务需求是否存在越权控制，在不存在越权控制的情况下，确定分类等级对应的目标测试策略，并将目标测试策略作为业务文本对应的安全测试策略，采用安全测试策略进行安全测试。

上述基于业务文本的安全测试方法，通过获取待处理的业务文本；对业务文本进行预处理，得到业务文本的词向量；对业务文本进行切分，得到多个文本片段；基于预设词库，确定多个文本片段的文本概率；基于多个文本片段的文本概率，采用文本分类模型对词向量进行分类，得到分类结果；基于分类结果，确定业务文本对应的安全测试策略；采用安全测试策略进行安全测试。上述方案，这种将业务文本转换为词向量，并结合业务文本中各文本片段的文本概率，有利于保留业务文本的词序信息，再利用文本分类模型对词向量进行分类的方法，有利于快速确定出业务文本对应的安全测试策略，从而采用相应的安全测试策略对业务文本进行安全测试，有利于提高安全测试效率。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的基于业务文本的安全测试方法的基于业务文本的安全测试装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个基于业务文本的安全测试装置实施例中的具体限定可以参见上文中对于基于业务文本的安全测试方法的限定，在此不再赘述。

在一个实施例中，如图8所示，提供了一种基于业务文本的安全测试装置100，包括：获取模块120、处理模块140、分类模块160和测试模块180，其中：

获取模块120，用于获取待处理的业务文本；

处理模块140，用于对业务文本进行预处理，得到业务文本的词向量；

分类模块160，用于对业务文本进行切分，得到多个文本片段；基于预设词库，确定多个文本片段的文本概率；基于多个文本片段的文本概率，采用文本分类模型对词向量进行分类，得到分类结果；

测试模块180，用于基于分类结果，确定业务文本对应的安全测试策略；采用安全测试策略进行安全测试。

上述基于业务文本的安全测试方法、装置、计算机设备、存储介质和计算机程序产品，通过获取待处理的业务文本；对业务文本进行预处理，得到业务文本的词向量；对业务文本进行切分，得到多个文本片段；基于预设词库，确定多个文本片段的文本概率；基于多个文本片段的文本概率，采用文本分类模型对词向量进行分类，得到分类结果；基于分类结果，确定业务文本对应的安全测试策略；采用安全测试策略进行安全测试。上述方案，这种将业务文本转换为词向量，并结合业务文本中各文本片段的文本概率，有利于保留业务文本的词序信息，再利用文本分类模型对词向量进行分类的方法，有利于快速确定出业务文本对应的安全测试策略，从而采用相应的安全测试策略对业务文本进行安全测试，有利于提高安全测试效率。

在其中一个实施例中，对业务文本进行预处理，得到业务文本的词向量，处理模块140还用于：提取业务文本中的所有文本词，得到文本词集合；从文本词集合中提取出互不相同的至少一个目标文本词；根据至少一个目标文本词和文本词集合，确定业务文本的词向量。

在其中一个实施例中，根据至少一个目标文本词和文本词集合，确定业务文本的词向量，处理模块140还用于：获取至少一个目标文本词中每个目标文本词在文本词集合中出现的目标次数；根据至少一个目标文本词各自对应的目标次数，构建目标向量，将目标向量作为业务文本的词向量。

在其中一个实施例中，基于分类结果，确定业务文本对应的安全测试策略，测试模块180还用于：将分类结果分别与预设映射关系中的每个预设分类结果进行比较；在分类结果与预设映射关系中的任一预设分类结果相同的情况下，确定分类结果中的权限等级和分类等级；根据权限等级和分类等级，确定业务文本对应的安全测试策略。

在其中一个实施例中，根据权限等级和分类等级，确定业务文本对应的安全测试策略，测试模块180还用于：获取分类结果对应的系统权限等级；根据权限等级和系统权限等级，确定业务文本所对应的业务需求是否存在越权控制；在不存在越权控制的情况下，确定分类等级对应的目标测试策略，并将目标测试策略作为业务文本对应的安全测试策略。

在其中一个实施例中，在文本分类模型的训练过程方面，分类模块160还用于：获取历史业务文本；对历史业务文本进行切分，得到多个文本片段；基于预设词库，确定多个文本片段的目标概率；将历史业务文本进行预处理，得到历史业务文本对应的文本向量；根据文本向量和各个文本片段的目标概率，对神经网络模型进行训练，得到文本分类模型。

在其中一个实施例中，每个文本片段包括至少一个文本词；基于预设词库，确定多个文本片段的文本概率，分类模块160还用于：针对当前文本片段中的每个文本词，确定当前文本词在前一文本词于预设词库中出现的条件下，当前文本词于预设词库中的出现概率；根据各文本段中各文本词的出现概率，确定各个文本片段的文本概率。

上述基于业务文本的安全测试装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图9所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种基于业务文本的安全测试方法。

本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取待处理的业务文本；对业务文本进行预处理，得到业务文本的词向量；对业务文本进行切分，得到多个文本片段；基于预设词库，确定多个文本片段的文本概率；基于多个文本片段的文本概率，采用文本分类模型对词向量进行分类，得到分类结果；基于分类结果，确定业务文本对应的安全测试策略；采用安全测试策略进行安全测试。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

提取业务文本中的所有文本词，得到文本词集合；从文本词集合中提取出互不相同的至少一个目标文本词；根据至少一个目标文本词和文本词集合，确定业务文本的词向量。

获取至少一个目标文本词中每个目标文本词在文本词集合中出现的目标次数；根据至少一个目标文本词各自对应的目标次数，构建目标向量，将目标向量作为业务文本的词向量。

将分类结果分别与预设映射关系中的每个预设分类结果进行比较；在分类结果与预设映射关系中的任一预设分类结果相同的情况下，确定分类结果中的权限等级和分类等级；根据权限等级和分类等级，确定业务文本对应的安全测试策略。

获取分类结果对应的系统权限等级；根据权限等级和系统权限等级，确定业务文本所对应的业务需求是否存在越权控制；在不存在越权控制的情况下，确定分类等级对应的目标测试策略，并将目标测试策略作为业务文本对应的安全测试策略。

获取历史业务文本；对历史业务文本进行切分，得到多个文本片段；基于预设词库，确定多个文本片段的目标概率；将历史业务文本进行预处理，得到历史业务文本对应的文本向量；根据文本向量和各个文本片段的目标概率，对神经网络模型进行训练，得到文本分类模型。

每个文本片段包括至少一个文本词；针对当前文本片段中的每个文本词，确定当前文本词在前一文本词于预设词库中出现的条件下，当前文本词于预设词库中的出现概率；根据各文本段中各文本词的出现概率，确定各个文本片段的文本概率。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种基于业务文本的安全测试方法，其特征在于，所述方法包括：

获取待处理的业务文本；

对所述业务文本进行预处理，得到所述业务文本的词向量；

对所述业务文本进行切分，得到多个文本片段；基于预设词库，确定多个文本片段的文本概率；基于所述多个文本片段的文本概率，采用文本分类模型对所述词向量进行分类，得到分类结果；

基于所述分类结果，确定所述业务文本对应的安全测试策略；采用所述安全测试策略进行安全测试。

2.根据权利要求1所述的方法，其特征在于，所述对所述业务文本进行预处理，得到所述业务文本的词向量，包括：

提取所述业务文本中的所有文本词，得到文本词集合；

从所述文本词集合中提取出互不相同的至少一个目标文本词；

根据所述至少一个目标文本词和所述文本词集合，确定所述业务文本的词向量。

3.根据权利要求2所述的方法，其特征在于，所述根据所述至少一个目标文本词和所述文本词集合，确定所述业务文本的词向量，包括：

获取所述至少一个目标文本词中每个目标文本词在所述文本词集合中出现的目标次数；

根据所述至少一个目标文本词各自对应的目标次数，构建目标向量，将所述目标向量作为所述业务文本的词向量。

4.根据权利要求1所述的方法，其特征在于，所述基于所述分类结果，确定所述业务文本对应的安全测试策略，包括：

将所述分类结果分别与预设映射关系中的每个预设分类结果进行比较；

在所述分类结果与所述预设映射关系中的任一预设分类结果相同的情况下，确定所述分类结果中的权限等级和分类等级；

根据所述权限等级和所述分类等级，确定所述业务文本对应的安全测试策略。

5.根据权利要求4所述的方法，其特征在于，所述根据所述权限等级和所述分类等级，确定所述业务文本对应的安全测试策略，包括：

获取所述分类结果对应的系统权限等级；

根据所述权限等级和所述系统权限等级，确定所述业务文本所对应的业务需求是否存在越权控制；

在不存在越权控制的情况下，确定所述分类等级对应的目标测试策略，并将所述目标测试策略作为所述业务文本对应的安全测试策略。

6.根据权利要求1所述的方法，其特征在于，所述文本分类模型的训练过程，包括：

获取历史业务文本；

对所述历史业务文本进行切分，得到多个文本片段；

基于预设词库，确定所述多个文本片段的目标概率；

将所述历史业务文本进行预处理，得到所述历史业务文本对应的文本向量；

根据所述文本向量和各个文本片段的目标概率，对神经网络模型进行训练，得到文本分类模型。

7.根据权利要求1所述的方法，其特征在于，每个文本片段包括至少一个文本词；所述基于预设词库，确定多个文本片段的文本概率，包括：

针对当前文本片段中的每个文本词，确定当前文本词在前一文本词于所述预设词库中出现的条件下，所述当前文本词于所述预设词库中的出现概率；

8.一种基于业务文本的安全测试装置，其特征在于，所述装置包括：

获取模块，用于获取待处理的业务文本；

处理模块，用于对所述业务文本进行预处理，得到所述业务文本的词向量；

分类模块，用于对所述业务文本进行切分，得到多个文本片段；基于预设词库，确定多个文本片段的文本概率；基于所述多个文本片段的文本概率，采用文本分类模型对所述词向量进行分类，得到分类结果；

测试模块，用于基于所述分类结果，确定所述业务文本对应的安全测试策略；采用所述安全测试策略进行安全测试。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。