CN111966579A

CN111966579A - 基于自然语言处理与机器学习的自适应文本输入生成方法

Info

Publication number: CN111966579A
Application number: CN202010723055.0A
Authority: CN
Inventors: 杨珉; 杨哲慜; 张磊; 何郁郁; 张源
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2020-07-24
Filing date: 2020-07-24
Publication date: 2020-11-20

Abstract

本发明属于程序动态分析和测试技术领域，具体为基于自然语言处理与机器学习的自适应文本输入生成方法。本发明包括：基于UI结构和机器学习的约束信息提取，首先实时获取安卓应用动态测试中的UI界面信息，提取产生的文本信息，利用机器学习方法识别所有约束信息，并将其与对应的输入框绑定；基于自然语言处理的约束信息解析，使用CNN‑RNN分类器对提取的约束信息进行多分类，使用自然语言处理方法对属于不同分类类别的约束进行相应解析处理，提取与文本输入相关的约束成分；基于字符串求解器的文本输入的生成，将约束信息转化成字符串生成器的输入格式，并将其填入输入框。本发明能帮助动态测试和分析工具，提高测试时的代码覆盖率以及隐私、漏洞等检出率。

Description

基于自然语言处理与机器学习的自适应文本输入生成方法

技术领域

本发明属于程序动态分析和测试技术领域，具体涉及基于自然语言处理与机器学习的自适应文本输入生成方法。

背景技术

在动态测试分析中，自动生成合适的程序输入来驱动程序的自动运行是一个重要环节，它直接决定了程序分析方法的行为覆盖率。现有面向移动应用(以下简称APP)的程序输入生成方法主要面向非文本的交互输入，例如，产生随机的界面点击事件，虽然他们能驱动自动化测试，但是当遇到文本输入，尤其是具有格式和内容约束的文本输入时(如某款应用需要填入的个人信息文本长度范围需要在8到1600之间)，会使得动态分析工具阻塞，直接影响行为检测。

对于自动化文本输入，传统的方法通常根据输入类型填入预定义的内容，或根据用户界面、静态程序分析等上下文，结合启发式规则为输入框生成输入。虽然这些方法能自动地为程序产生文本输入，但其值不一定是合适或有效的。首先，这些方法产生的输入是一次性的(即只为输入框产生一次)，且不能根据应用特点理解输入的内容和格式限制。比如：同样是密码输入类型，不同应用对密码的长度和内容存在不同限制，导致现有方法无法自适应地为不同应用产生合适的输入。其次，它们不考虑文本输入框所存在的制约关系。这些制约关系可能来自于应用的数据库，如：“您填入的用户名已存在”，也可能来自于应用的其他输入框，如在一个找工作的应用中，需要填入最大期望薪资的值不能小于最小薪资。此外，近年来移动应用逐渐将数据处理逻辑移动至云端，如在常见的用户注册登录场景中，对输入信息的审核大部分位于云服务器中，从而导致传统通过程序分析求解输入文本的方法失效。虽然有工作企图通过使用第三方登录方式绕过文本输入。然而，并不是所有应用都存在第三方登录方式。并且，在注册和登录环节，用户通常会输入一些敏感的个人信息，如果采用第三方登录绕过的方式，会使得动态分析遗漏敏感行为的检测。我们人工分析了谷歌应用市场上200款流行的非游戏APP，发现其中130款要么不存在第三方登录，要么存在特别的文本约束限制，这使得现有的自动文本生成方法失效。

发明内容

本发明的目的是提供一种全新的基于自然语言处理与机器学习的自适应文本输入生成方法，适用于大规模动态测试时自动为安卓应用生成合理有效的文本输入。

经过分析发现，无论对输入验证的逻辑在应用端还是服务器端，只要输入文本不符合应用要求，应用软件都会将约束提示信息(以下简称为约束)通过自然语言显示在人机交互界面上。因此，本发明提出的自适应文本输入生成方法，具体分三个阶段(流程框架如图1所示)：

第一阶段，基于UI结构和机器学习的约束信息提取；首先实时获取安卓应用动态测试过程中的UI界面信息，然后根据界面结构，通过界面差异性分析的方法来提取动态产生的文本信息，接着利用机器学习的方法来识别所有的约束信息，并将其与对应的输入框绑定；

第二阶段，基于自然语言处理的约束信息解析；首先使用预先训练完成的CNN-RNN分类器对第一阶段中提取的所有约束信息进行多分类，然后使用自然语言处理方法对属于不同分类类别的约束进行相应解析处理，从而提取与文本输入相关的关键约束成分；

第三阶段，基于字符串求解器的文本输入的生成；将这些关键约束信息转化成字符串生成器的输入格式，并将产生的输入填入与之绑定的输入框。

以下将详细介绍三个阶段：

第一阶段，基于UI结构和机器学习的约束信息提取

因为人机交互界面上的提示信息对输入生成起到至关重要的作用，所以需要先提取UI上对于文本输入的约束信息。具体而言，首先实时获取被测APP的界面信息，然后结合UI的结构特点和机器学习方法，从UI的文本中提取约束信息，最后将约束信息与对应的输入框绑定。

约束信息识别：在安卓APP中，存在动态和静态两种约束信息。动态约束是指当向输入框输入的信息不正确时，app会以弹窗或当前界面文本变化的方式，向用户展示约束信息。而静态约束指在未输入文本前，直接将约束信息提示出来。因此，对于不同类型的约束，本发明的处理也不同。对于动态约束，通过行向安卓应用提供一个文本输入后UI界面差异性的分析来提取动态约束信息。对于静态约束，通过机器学习的方法来进行提取。在没有文本输入框的安卓应用UI界面，本发明提取出所有的文本信息作为负样本，同时将提取出来的动态约束作为正样本，以此作为训练集，训练一个是否为约束信息的0-1分类器模型，从而可以提取静态约束信息。

约束信息绑定：当约束信息提出取来后，通过关键词匹配以及视觉距离最近的方法，将约束信息与其相应描述的文本输入框绑定上，从而来指导后续生成的文本输入填入安卓应用UI界面上具体的某一个文本输入框。如果约束信息中直接包含输入框类型的关键字，则认为此条约束是对该文本输入框的限制约束。否者，将采用视觉距离最近的方法，此方法基于的观察是开发者一般习惯将约束提示信息展现在距离文本输入框较近的位置，从而更友好地让用户知道需要修改文本输入所对应的文本框。

第二阶段，基于自然语言处理的约束信息解析；

本发明使用自然语言处理技术来分析约束，这里基于如下观察：相同类型的约束信息通常具有相似的语法树结构。因此，为了更好地解析约束，首先将待分析的约束按照预定义类别进行分类，然后通过自然语言处理技术将约束信息转化成对应的语法树，接着从语法树上提取关键的语法节点，最后生成相应的约束表达。

约束信息分类：约束信息从语义上来看分为不同的语义类别，为了更好地了解文本约束情况，人工分析了1200个Google play上的流行应用，找到一定数量(1548条)约束，并加以标注，然后将其进行分类。先总结出若干个大的约束类别，对每个大约束类别再分为若干个小的约束类别。具体如，从1548条约束如总结出4个大的约束类别，包含对于单输入域、多输入区，精准和模糊约束；即：精准单域，模糊单域，精准双域，模糊双域；18个约束类别，包括关于文本输入长度、字符存在性、值约束等方面，详细约束分类如表1所示。接着，通过将人工标注的这1548条约束作为训练集合，训练一个CNN-RNN的多分类器，并将其用于对第一阶段中提取到的约束进行分类。

语法树生成：首先对分类后的约束进行预处理，然后使用Stanford Parser将其转化成语法树结构。对约束进行的预处理主要包括两方面，一是对句子进行拆分，移除冗余句段；二是词汇归一化。首先对收集到的句子进行拆分，移除通过0-1分类器[1]判断为非约束的句段，然后对认定为约束的句段中的单词进行归一化处理，如：将拼写的数字转换为阿拉伯数字形式、词汇单复数替换等。最后，调用Stanford Parser[2]将预处理后的约束转化成对应的语法树，约束语法树示例如图2。

约束表达式：主要目的是为了根据约束类别和语法树结构，提取语法树上关键约束节点，并生成相应的约束表达式。本发明中，依据约束类别的不同，分别定义了一系列规则，用于提取语法树上关键的语法节点。这里定义了三个术语用于表示从语法树上遍历关心的节点：

Select：表示在语法上最终关心的节点位置；

Match：表示获取这些关心节点所要满足的条件；

Generate：表示生成的约束表达式。

以图2语法树为例，语法树遍历规则可表示为如下：

Select cd1,np1

MatchFollow(qp1＝QP,NN)and Contain(qp1,cd1＝CD)and First(np1＝NP)

Generate LengthConstraint(Subject(np1),Range(cd1,infinity))。

需要说明的是，语法树上不同语法节点依据广度优先的顺序进行索引，对于图2的长度约束，上述约束表达式的含义是，在语法树上关心的节点是基数词节点cd1(表示输入长度的临界，即数字6)，以及名词短语np1(约束所修饰的文本输入框)。cd1是qp1的子节点(即满足Contain条件)，而在语法树下qp1与名词节点NN处于兄弟关系(即Follow条件)。np1作为约束所修饰的主体(即First条件)，即password输入框。最后在Generate表示下生成的约束表达为如下三类约束的组合：

(1)长度约束：对于主语A，其长度范围(即在Range术语所定义的上、下界之间)不小于基数词CD，LengthContraint(A,Range(CD,Infty))；

(2)内容约束：对于主语A，需要满足语法树NN节点上所列的内容条件(术语Format中给定了约束的内容)，ContentConstraint(A,Format(NN))；

(3)值约束：约束了所修饰主语中值的范围。

因此，对于图2的约束可表示为：

LowerBound::Follow(QP,NN)&&Containt(QP,CD)&&First(NP)

->LengthConstraint(password,Range(6,Infty))

&&ContenConstraint(password,Format(digit))。

本发明总结了57条约束表达规则，表2是其中一些约束以及对应约束表达式的示例。

第三阶段，基于字符串求解器的文本输入的生成

上一阶段中，生成了相应的约束表达式。这阶段中，根据约束表达式来生成相应的正确输入。首先，针对约束表达式内的每一变量生成具体的值。这里包含两类特殊的值，一类是需要提供真实有效的值(如手机、邮箱等)，对于这类，将直接填入预先注册的合法信息；另一类是包含了对两个文本输入区域限制条件的约束，即两个文本框的输入值存在相互制约关系的情况，对于这类，首先为其中一个产生输入，然后将此输入的值作为另一输入的限制条件。

接着，利用求解器，即Z3StrSolver[3]作为字符串求解器，生成满足约束的输入。

以求解LengthConstraint(Range(lower bound,upper bound))与ContentConstraint

(A,Format(NN)))为例，相应伪代码见附录。其中，第5-6行表示产生长度在上界和下界之间的字符串，8-13用于在最后生成的输入中排除不该包含的字符，15-16行表示新产生的输入不能与之前产生的输入相同，18-19为求解器最后求出来的字符。

本发明能帮助动态测试和分析工具，提高测试时的代码覆盖率以及隐私、漏洞等检出率。

附图说明

图1为本发明整体框架图示。

图2为约束语法树结构。

具体实施方式

本发明设计并实现了上述基于自然语言处理与机器学习相结合的全新动态文本自适应生成方法。本节对该框架的具体实现进行详细的介绍。

一、基于UI结构和机器学习的约束信息提取

在动态测试时，本发明使用UiAutomator实时获取待测APP的界面信息。UiAutomator是google提出的Android自动化测试框架，我们使用此框架提供的API获取待测APP的UI组件信息，并与APP界面进行交互操作，如点击、发送文本等。提取出UI信息后，我们将上述提到的动态约束作为正样本，在没有文本输入框的安卓应用UI界面中提取出所有的文本信息作为负样本，在经过进一步人工验证后，将其作为训练集合，接着使用CNN-RNN分类器模型用来训练一个0-1分类器，用以帮助区分UI上的约束文本和描述信息文本。此分类器的准确率，精确率以及召回率分别为90.2％，89.4％和90.2％。

二、基于自然语言处理的约束解析

本发明使用现有的CNN-RNN多文本分类器，将约束分为多个类别。为了提高分类效果，我们首先需要对约束文本进行预处理：将单词还原成其基本形式，并将约束中的所有数字替换成统一的标签，如将“4digits”换成“TaggedASCD digit”。因为18个类别在总体样本中分布是不均匀的，所以本发明使用SMOTE方法对训练集进行平衡。接着，本发明使用Stanford parser将分类后的约束转化成语法树。Stanford Parser是常用的语法解析工具，可以针对某一个句子解析其结构并未句子中的不同分词单元打上词性标签，此外，它还能将句子变成树状结构，便于从树结构角度遍历所关注的信息。

三、基于字符串求解器的文本输入的生成

本发明使用Z3StrSolver求解约束并产生输入。Z3StrSolver是字符串求解器，其能根据自定规则，产生满足要求的字符串。此外，为了解决一些特定的约束，如针对手机号、邮箱等，本发明使用预先注册好的合法值来填入，而对于验证码输入，本发明设计了一个验证码处理模块，用于获取APP服务器端发送的验证码。具体而言，UI探索模块当识别到手机UI上存在要输入验证码的输入框时，此验证码处理模块会从预定义的邮箱中读取验证码。为了区分要读取的邮件属于哪个测试App，此模块会根据收件箱的主题以及收件时间进行过滤，然后通过正则表达式提取邮件中长度为4位或6位的数字作为验证码的值，最后填入待测APP。

表1：约束本文分类

表2：部分约束表达式示例

附录

参考文献

[1]jiegzhan.(2018)Multiclasstextclassificationcnnrnn.Https://github.com/jiegzhan/multi-class-text-classification-cnn-rnn.

[2]T.S.N.Group.(2019)The stanford natural language processinggroup.Https://nlp.stanford.edu.

[3]M.Research.(2017)Z3str3stringconstraintsolver.Https://sites.google.com/site/z3strsolver/。

Claims

1.一种基于自然语言处理与机器学习的自适应文本输入生成方法，其特征在于，具体分三个阶段：

2.根据权利要求1所述的文本输入生成方法，其特征在于，所述基于UI结构和机器学习的约束信息提取中，先提取UI上对于文本输入的约束信息；具体而言，首先实时获取被测APP的界面信息，然后结合UI的结构特点和机器学习方法，从UI的文本中提取约束信息，最后将约束信息与对应的输入框绑定；

约束信息识别和提取：在安卓APP中，存在动态和静态两种约束信息；动态约束是指当向输入框输入的信息不正确时，app会以弹窗或当前界面文本变化的方式，向用户展示约束信息；静态约束指在未输入文本前，直接将约束信息提示出来；对于不同类型的约束，处理也不同：对于动态约束，通过行向安卓应用提供一个文本输入后UI界面差异性的分析来提取动态约束信息；对于静态约束，通过机器学习的方法来进行提取；在没有文本输入框的安卓应用UI界面，提取出所有的文本信息作为负样本，同时将提取出来的动态约束作为正样本，以此作为训练集，训练一个是否为约束信息的0-1分类器模型，从而提取静态约束信息；

约束信息绑定：当约束信息提出取来后，通过关键词匹配以及视觉距离最近的方法，将约束信息与其相应描述的文本输入框绑定上，来指导后续生成的文本输入填入安卓应用UI界面上具体的某一个文本输入框；如果约束信息中直接包含输入框类型的关键字，则认为此条约束是对该文本输入框的限制约束；否者，采用视觉距离最近的方法，开发者按一般习惯将约束提示信息展现在距离文本输入框较近的位置，从而更友好地让用户知道需要修改文本输入所对应的文本框。

3.根据权利要求2所述的文本输入生成方法，其特征在于，所述基于自然语言处理的约束信息解析中，基于如下观察：相同类型的约束信息通常具有相似的语法树结构；为了更好地解析约束，首先将待分析的约束按照预定义类别进行分类，然后通过自然语言处理技术将约束信息转化生成对应的语法树，接着从语法树上提取关键的语法节点，最后生成相应的约束表达式；

所述约束信息分类，是将约束信息从语义上分为不同的语义类别；首先由人工分析1200个Google play上的流行应用，找到一定数量约束并加以标注，然后将其分为若干个大约束类别：每个大约束类别再分为若干个约束类别；接着，将人工标注的这些约束作为训练集合，训练一个CNN-RNN的多分类器，并将其用于对第一阶段中提取到的约束进行分类；

所述语法树生成，首先对分类后的约束进行预处理，包括两方面：首先对收集到的句子进行拆分，移除通过0-1分类器判断为非约束的句段，然后对认定为约束的句段中的单词进行归一化处理；最后，调用Stanford Parser将预处理后的约束转化成对应的语法树；

所述约束表达式：根据约束类别和语法树结构，提取语法树上关键约束节点，并生成相应的约束表达式；这里依据约束类别的不同，分别定义了一系列规则，用于提取语法树上关键的语法节点；具体定义三个术语用于表示从语法树上遍历关心的节点:

Select：表示在语法上最终关心的节点位置；

Match：表示获取这些关心节点所要满足的条件；

Generate：表示生成的约束表达式。

4.根据权利要求3所述的文本输入生成方法，其特征在于，所述基于字符串求解器的文本输入的生成中，首先，针对约束表达式内的每一变量生成具体的值；这里包含两类特殊的值，一类是需要提供真实有效的值，对于这类，将直接填入预先注册的合法信息；另一类是包含了对两个文本输入区域限制条件的约束，即两个文本框的输入值存在相互制约关系的情况，对于这类，首先为其中一个产生输入，然后将此输入的值作为另一输入的限制条件；

接着，利用求解器Z3StrSolver作为字符串求解器，生成满足约束的文本输入。