CN115454554A

CN115454554A - 文本描述的生成方法、装置、终端及存储介质

Info

Publication number: CN115454554A
Application number: CN202211137736.4A
Authority: CN
Inventors: 陈科鑫; 张晓帆
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2022-09-19
Filing date: 2022-09-19
Publication date: 2022-12-09

Abstract

本申请实施例公开了一种文本描述的生成方法、装置、终端及存储介质，属于人机交互领域。该方法包括：获取人机交互界面中界面控件的多模态信息；对所述多模态信息进行信息编码，得到不同模态信息各自对应的模态编码；对不同模态信息各自对应的所述模态编码进行模态融合，得到多模态编码；基于所述多模态编码生成所述界面控件的功能文本描述。采用本申请实施例提供的方案，终端能够在进行人机交互时基于人机交互界面中的控件，生成人机交互界面中控件的文本描述，有益于提高终端基于用户指令在显示界面进行操作的准确性。

Description

文本描述的生成方法、装置、终端及存储介质

技术领域

本申请实施例涉及人机交互技术领域，特别涉及一种文本描述的生成方法、装置、终端及存储介质。

背景技术

智能设备的不断改进使得人机交互技术逐渐普及，用户对于使用人机交互准确度的需求也不断提升。

相关技术中，终端接收到用户指令后，通过系统提供的无障碍服务接口，读取人机交互界面控件的文本标注，与用户指令中所指示的控件进行匹配，从而执行用户指令中的操作，完成人机交互。

然而，当前大多数应用界面存在控件文本标注缺失或文本标注错误的问题，导致人机交互的准确度低，适用性差。

发明内容

本申请实施例提供了一种文本描述的生成方法、装置、终端及存储介质。所述技术方案如下：

一方面，本申请实施例提供了一种文本描述的生成方法、装置、终端及存储介质，所述方法包括：

获取人机交互界面中界面控件的多模态信息，所述多模态信息包括文本模态信息、图像模态信息和结构化模态信息中的至少两种，所述结构化模态信息用于表征所述界面控件在所述人机交互界面中的层次结构；

对所述多模态信息进行信息编码，得到不同模态信息各自对应的模态编码；

对不同模态信息各自对应的所述模态编码进行模态融合，得到多模态编码；

基于所述多模态编码生成所述界面控件的功能文本描述。

另一方面，本申请实施例提供了一种文本描述的生成装置，所述装置包括：

信息获取模块，用于获取人机交互界面中界面控件的多模态信息，所述多模态信息包括文本模态信息、图像模态信息和结构化模态信息中的至少两种，所述结构化模态信息用于表征所述界面控件在所述人机交互界面中的层次结构；

信息编码模块，用于对所述多模态信息进行信息编码，得到不同模态信息各自对应的模态编码；

模态融合模块，用于对不同模态信息各自对应的所述模态编码进行模态融合，得到多模态编码；

文本生成模块，用于基于所述多模态编码生成所述界面控件的功能文本描述。

另一方面，本申请实施例提供了一种终端，所述终端包括处理器和存储器；所述存储器存储有至少一条指令，所述至少一条指令用于被所述处理器执行以实现如上述方面所述的文本描述的生成方法。

另一方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条程序代码，所述程序代码由处理器加载并执行以实现如上述方面所述的文本描述的生成方法。

另一方面，本申请实施例提供了一种计算机程序产品，该计算机程序产品包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方面的各种可选实现方式中提供的文本描述的生成方法。

本申请实施例中，在人机交互过程中，终端先获取界面控件的多模态信息，对多模态信息进行信息编码，终端通过结合人机交互界面中界面控件的多模态信息生成控件的文本描述，能够有效结合当前人机交互场景，实现人机交互，更加准确的执行用户指令所指示的内容。将不同多模态信息编码结果进行融合，再基于融合后的编码结果生成界面控件的功能文本描述，解决了人机交互界面中控件文本缺失或错误导致的人机交互失败或不流畅的问题。

附图说明

图1示出了人机交互界面控件文本描述缺失和错误的示意图；

图2示出了本申请一个示例性实施例提供的实施环境的示意图；

图3示出了本申请一示例性实施例提供的文本描述的生成方法的流程图；

图4示出了本申请一示例性实施例提供的文本模态信息处理及编码过程的流程图；

图5示出了本申请一示例性实施例提供的一种对界面控件的文本模态信息进行编码的示意图；

图6示出了本申请一示例性实施例提供的图像模态信息处理及编码过程的流程图；

图7示出了本申请一示例性实施例提供的一种对界面控件的图像模态信息进行编码的示意图；

图8示出了本申请一示例性实施例提供的结构化模态信息处理及编码过程的流程图；

图9示出了本申请一示例性实施例提供的一种对界面控件的结构化模态信息进行编码的示意图；

图10示出了本申请另一示例性实施例提供的文本描述的生成方法的流程图；

图11示出了本申请一示例性实施例提供的通过Transformer模型对多模态编码进行处理的示意图；

图12示出了本申请一示例性实施例提供的文本描述的生成系统的主要组成部分的方框图；

图13示出了本申请一个示例性实施例提供的文本描述的生成装置的结构框图；

图14示出了本申请一个示例性实施例提供的终端的结构方框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

相关技术中，终端接收到用户指令并对其进行相应处理后，通过系统提供的无障碍服务接口，读取人机交互界面的控件树，并从控件树中提取控件的文本属性。然而，多数人机交互界面的控件在开发人员进行开发时未对其加入相应文本描述，或者，开发人员所加入的文本描述与控件不具有对应关系，与用户普遍理解含义具有一定偏差，导致人机交互系统出现异常，使得终端无法完成用户指令的相应操作。

图1示出了人机交互界面控件文本描述缺失和错误的示意图。图1所示的人机交互界面101中，第一图标控件102和第二图标控件103文本缺失，即终端所获取的控件信息中不包含该控件的文本描述。通常情况下，用户可以理解第五图标控件106的含义为“点赞”或“喜欢”，开发者在开发该人机交互界面时，也会为第五图标控件106标注文本“点赞”，然而，该人机交互界面101中，第三图标控件104和第四图标控件105均被标注文本为“点赞”。这就导致在用户发出指令“给文章‘人生第一课’点赞”的情况下，终端无法准确定位到相应的控件，进而无法执行用户指令所指示的操作。同样的，人机交互界面101中的视频控件107和图片控件108也可能出现未被标注相应文本描述，或文本描述标记错误的情况。

使用本申请实施例中提供的人机交互方法，终端基于人机交互界面中界面控件的多模态信息，生成人机交互界面控件的文本描述，再进行人机交互，控制用户指令指示控件执行相应的步骤，提高了终端基于用户指令在人机交互界面进行操作的准确性，适用性更强。

图2示出了本申请一个示例性实施例提供的实施环境的示意图。该实施环境可以包括：终端210以及服务器220。

终端210可以是智能手机、平板电脑、个人计算机、可穿戴式设备等电子设备，本申请实施例对此不做限定。图2中以终端210为智能手机为例进行说明。

本申请实施例适用于多种人机交互场景，对于人机交互的具体实现方式不做限定，本实施例中以通过语音交互的方式实现人机交互为例进行说明。

终端210的内部设有内置语音采集组件230，语音采集组件230用于获取用户指令。此外，终端210也可以通过连接外置语音采集组件的方式采集用户指令，且在终端210与外设语音采集组件进行连接的情况下内置语音采集组件230不进行工作。内置语音采集组件230与终端210建立连接，相应的终端210能够通过该连接获取用户指令。语音采集组件230可以是内设话筒等，外设语音采集组件可以是耳麦等，本申请对采集用户指令的组件类型不进行限定。

本申请实施例中，终端210用于获取对人机交互界面中界面控件的多模态信息，并对多模态信息进行相应的处理，最终生成界面控件的文本描述，基于控件的文本描述，执行用户指令所指示的操作，完成人机交互。

终端210具有与服务器220进行数据通信的功能，以无线通信的方式建立连接，进而通过该连接进行数据通信。该通信连接可以为无线保真(Wireless Fidelity，WiFi)连接或移动数据网络连接等等，本申请实施例对此不作限定。

本申请实施例中，终端210基于人机交互界面生成控件文本描述时，可以将人机交互界面中界面控件的多模态信息数据通过终端210进行处理，也可以将多模态信息数据上传至服务器220，借助服务器220生成控件对应文本描述。

需要说明的是，终端的语音识别程序被唤醒后才能执行语音识别步骤，该唤醒指令预先设定，本申请实施例中的步骤是在终端语音识别程序被唤醒后执行的，本申请实施例对于唤醒人机交互程序的方式不作限定。

需要说明的是本申请所采集的所有人机交互界面中界面控件的多模态信息都是在用户同意并授权的情况下进行采集的，且相关用户数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

示意性的，如图2所示，在用户使用智能手机时，终端获取当前人机交互界面中界面控件的多模态信息，对不同模态信息分别处理后，基于多模态编码，生成人机交互界面中控件的文本描述，用户唤醒人机交互程序后，发出点击某一图片的指令，语音采集组件230接收到该指令后发送给与之连接的终端220，终端220基于生成的控件文本描述执行用户指令，执行点击相应的图片的操作。

图3示出了本申请一示例性实施例提供的文本描述的生成方法的流程图，该方法包括：

步骤301，获取人机交互界面中界面控件的多模态信息。

其中，多模态信息包括文本模态信息、图像模态信息和结构化模态信息中的至少两种。

文本模态信息是人机交互界面中的文本文字，是控件的文本属性，包括可见文本属性(即Text属性)和非可将文本属性(即ContentDescription属性)构成。

图像模态信息是指人机交互界面中的图像，包括图标、纯图像以及以图像形式显示的文本图像。

结构化模态信息用于表征界面控件在人机交互界面中的层次结构，每一个控件都是一个容器，开发人员进行人机交互界面开发时，会按照一定层级关系进行控件的设置。终端可以通过获取某一控件结构化模态信息，确定与该控件具有一定关联的其他控件，如该控件的子控件或父控件等。

步骤302，对多模态信息进行信息编码，得到不同模态信息各自对应的模态编码。

终端获取到多模态信息后，由于不同模态信息的特性不同，因此，需要通过不同的编码方式对不同种类的模态信息进行编码。

其中，文本模态信息采用文本编码器进编码；图像模态信息采用图像编码器进行编码；结构化模态信息采用结构化编码器进行编码得到不同模态信息各自对应的模态编码。

步骤303，对不同模态信息各自对应的模态编码进行模态融合，得到多模态编码。

终端通过不同编码器对不同模态信息分别进行编码后，再将不同模态信息对应的模态编码进行模态融合，可以得到融合多模态信息的多模态编码。

终端可以通过特征融合网络对不同种类模态信息对应的模态编码进行融合，其中，特征融合网络将输入的模态编码进行融合，得到一个更具有判别能力的特征编码，作为多模态编码。

步骤304，基于多模态编码生成界面控件的功能文本描述。

终端得到多模态编码后，可以通过自注意力机制的相应算法，得到界面控件的功能文本描述。

终端获取人机交互界面多模态信息时，往往是先获取人机交互界面对应的控件树，再基于控件树获取界面控件的多模态信息。

其中，控件树由人机交互界面中的界面控件构成。控件树是一种树形结构，包含人机交互界面中所有控件，每一个控件具有其对应的控件信息，并且每个控件对应控件树中的一个节点。终端在获取控件树时就能够同时得到控件树中每一节点对应控件的控件坐标，每一个控件都有一个与其一一对应的控件坐标。可选的，终端通过系统定义的Accessibility(无障碍服务)接口直接获取到人机交互界面对应的控件树。

终端获取的多模态信息中可能包含文本模态信息、图像模态信息和结构化模态信息。不同模态信息的特性不同，因此对于不同种类模态信息的处理及编码方式有所不同，下面将通过三个示意性实施例对三种不同模态信息的处理及编码过程进行说明。

终端获取到的文本模态信息是已有的界面控件信息中的文本，虽然该文本模态信息也能够在一定程度上描述界面控件的功能，但是由于该文本模态是开发者在开发过程中写入的，其内容往往是基于开发者从界面开发的角度写入的词汇，因此可能与普遍用户理解的控件含义有所差别。

图4示出了本申请一示例性实施例提供的文本模态信息处理及编码过程的流程图，该过程包括：

步骤401，从控件树中界面控件对应的控件信息中提取文本属性，文本属性包括显性文本属性和隐性文本属性中的至少一种。

显性文本属性，即可见文本属性是指控件的Text属性，Text属性是用户可见的，以文字形式显示在人机交互界面的文本。隐性文本属性，即非可见文本属性是指控件的ContentDescription(内容描述)文本属性。ContentDescription文本属性是开发者写在控件内部的属性，用于描述控件功能的文本，是在人机交互界面中不可见的，是开发者使界面美观而将部分文本隐藏到ContentDescription文本属性中。

终端获取人机交互界面对应的控件树后，遍历控件树中的各个控件，从控件对应的控件信息中提取显性文本属性和隐性文本属性中的至少一种。

在一种可能的实施方式中，终端通过系统定义的Accessibility接口获取人机交互界面的控件树信息，终端获取到控件树后，通过遍历控件树中各个节点的控件，可以从控件对应控件信息中提取显性文本属性和隐性文本属性，这样对于每一个节点的控件都可以获取到他的Text文本属性以及ContentDescription文本属性。由于控件之间的作用不同以及开发者的开发习惯不同，因此，有些界面控件的Text文本属性以及ContentDescription文本属性中包含有文本文字，而有些控件的文本属性为空。

步骤402，将文本属性确定为界面控件的文本模态信息。

终端获取到界面控件的文本属性后，将获取到的文本属性确定为文本模态信息。

可选的，在终端只获取到显性文本属性和隐性文本属性之中的一种的情况下，将这一种属性确定为文本模态信息；在终端同时获取到显性文本属性和隐性文本属性的情况下，将两种文本属性共同确定为文本模态信息。

步骤403，对文本属性进行分词处理，得到分词文本。

界面控件的文本属性可能是一个具有明显功能指向的词语，也可能是对界面控件功能进行描述的语句，因此，在获取到界面控件的文本属性后，首先使用分词算法对界面控件的属性进行分词，将文本属性分段为多个彼此独立的词汇，该词汇即为分词文本。

可选的，终端对文本属性进行分词的方法可以包括：基于词表的分词方法、基于统计模型的分词方法以及基于列表标注的分词方法等。具体的，可以采用正向最大匹配法、N-最短路径方法、基于N-gram语言模型的分词方法以及基于词感知机的分词方法等等，本申请实施例对终端进行文本属性分词的方法不进行限定。

步骤404，对各个分词文本对应的词向量的进行滑动池化处理，得到文本模态信息对应的文本词向量。

在进行自然语言处理中，通常以词向量的方法将一个词汇转换为一个固定维度的向量来表示不同词汇间的关系，两个词向量的余弦距离越小表示这两个词汇的相关度越高，反之则词汇的相关越低。

终端得到分词文本后，查询每个分词文本对应的词向量，再使用滑动池化处理，得到文本模态信息对应的文本词向量每一位的值，该文本模态信息对应的文本词向量即为文本模态信息的对应的模态编码结果。

其中，滑动池化可采用最大滑动池化以及或均滑动池化等方式对分词文本对应的词向量进行处理。本申请实施例对此不做限定。

例如，使用最大滑动池对分词文本对应的词向量进行处理。假设E为文本编码器生成的文本模态信息对应的文本词向量，该文本模态信息对应的文本词向量的长度为L，文本模态信息对应的文本词向量第i位的值用E_i表示，第k个分词文本对应的词向量第i位的值用

表示，使用滑动最大池化得到文本模态信息对应的文本词向量的过程可通过公式

表示。

图5示出了本申请一示例性实施例提供的一种对界面控件的文本模态信息进行编码的示意图。

终端获取到界面控件文本属性后，先对其进行分词，得到分词文本，再查询分词文本对应的词向量501，最后对各个分词文本对应的词向量的进行滑动池化处理得到文本模态信息对应的文本词向量502，即为文本模态信息的模态编码结果。

本申请实施例中，终端通过遍历控件树的方式获取界面控件文本属性，再通过分词、查询词向量以及滑动池化处理对文本模态信息进行编码，得到文本模态信息对应的文本词向量，能够有效避免人机交互中因控件文本属性错误造成的人机交互失败的情况，人机交互的准确性更高。

图6示出了本申请一示例性实施例提供的图像模态信息处理及编码过程的流程图，该过程包括：

步骤601，从控件树中界面控件对应的控件信息中提取控件坐标。

人机交互界面中往往存在较多的图像控件，如图标控件或纯图像控件等，但是在某些人交互过程中可能不需要采用某些控件的多模态信息，对当前人机交互界面中的整张截图进行图像模态信息获取以及编码会造成不必要的计算资源浪费，对整个屏幕进行图像模态信息获取也无法将图像模态信息与控件一一对应，因此需要在获取界面控件的图像模态信息前，先定位界面控件在界面中的位置，再进行图像模态信息的获取。

终端在获取控件树时就能够同时得到控件树中每一节点对应控件的控件坐标，每一个控件都有一个与其一一对应的控件坐标。

步骤602，基于控件坐标，从人机交互界面中截取界面控件的控件图像。

终端在获取控件树的同时执行截屏指令，根据获取到的界面控件坐标，将人机交互界面中的ROI(Region Of Interest，目标区域)的控件图像单独截取出来。

步骤603，将控件图像确定为界面控件的图像模态信息。

终端基于控件坐标截取到控件图像后，将截取到的控件图像确定为界面控件的图像模态信息。

步骤604，对控件图像进行缩放处理。

由于截取到的不同控价在界面中的显示形态不同，因此不同控件图像的尺寸也有所不同，且通常情况下图像编码器对于图像控件的尺寸有一定的要求，因此，在终端确定控件图像确定为图像模态信息后，需将其尺寸进行调整，在使用同一图像编码器对其进行编码时，需将控件图像的尺寸调整成一致的大小。

可选的，将控件图像的尺寸调整为64*64*3，其中，64像素的尺寸能够兼顾人机交互界面中的绝大部分控件，3是指RGB(Red Green Blue，红绿蓝)，即保留原始图像的颜色属性。由于图像模态信息是人机交互界面中显示的能过够被用户看见的，用户可能通过对颜色的描述来指示某一界面控件，因此，在进行控件图像尺寸调整时，通常会保留原始图像的原始属性，以便生成的界面控件的文本描述中包含控件的颜色特征。

步骤605，通过图像特征提取网络对缩放处理后的控件图像进行特征提取，得到图像模态信息对应的图像特征向量。

不同图像特征提取网络的对于输入控件图像的要求有所不同。其中，缩放处理后的控件图像符合图像特征提取网络的输入要求。

可选的，图像特征提取网络的算法多种多样，包括尺度不变特征变换、方向梯度直方图以及神经网络特征提取等，可以根据不同终端以及不同人机交互场景选择不同性能的图像特征提取网络，本申请实施例对图像特征提取网络的算法种类不进行限定。

在一种可能的实施方式中，使用bottleneck网络进行控件图像的特征提取，能够有效减少计算量。bottleneck网络结构如图7所示中的虚线框中所示，对于输入的张量，首先使用1*1卷积模块提升维度，再通过效率较高的DW(Deep-Wise，深度可分离卷积)模块和SE(Squeeze and Excite，压缩和激励)卷积模块，随后通过一个1*1的卷积模块，再与输入的原始张量相加，使得输出张量仍带有输入张量的原始特征。DW模块相较于普通卷积能够大幅度的减小计算开销，再通过SE模块充分挖掘图像通道之间的关联信息，提升整体特征提取网络的信息表达能力。

图7示出了本申请一示例性实施例提供的一种对界面控件的图像模态信息进行编码的示意图。如图7所示，经过尺寸缩放处理后得到的控件图像701，将控件图像701相继通过三个串联的bottleneck网络，其中每个bottleneck网络的结构都与虚线内的bottleneck网络结构相同，参数有所不同。随后再将所得数据传入GAP(Global Average Pooling，全局平均池化)模块转换为1*1维度，采用GPA模块能够提高图像模态信息编码网络整体的泛化能力和抗噪能力，最终得到的尺寸为1*1*256的图像模态信息对应的图像特征向量702，即为图像模态信息的模态编码结果。

本申请实施例中，终端基于控件坐标截取界面控件对应的控件图像，能够准确的对控件图像进行图像模态信息的提取。再将控件图像确定为图像模态信息进行图像特征提取得到图像特征向量，能够针对控件图像进行图像模态信息编码，得到的图像特征向量具有控件图像的特征，同时可以根据不同的应用场景以及终端类型选择不同的特征提取网络，能够有效减少计算量，节约数据处理资源。

图8示出了本申请一示例性实施例提供的结构化模态信息处理及编码过程的流程图，该方法包括：

步骤801，从控件树中界面控件对应的控件信息中提取控件属性，控件属性包括类型属性、点击属性和状态属性中的至少一种，点击属性用于表征界面控件是否支持点击，状态属性用于表征界面控件是否被聚焦。

控件树中包含的信息所种多样，不同的信息对应控件的不同属性或事件，因此需要根据界面控件的控件信息中对众多的控件结构化模态信息类型进行筛选，选取与人机交互具有关联的控件结构化模态信息进行编码。

终端获取控件树的同时能够获取到控件信息中的控件属性，其中控件类型属性是指控件的类型，例如按钮、窗体以及图标等等。点击属性是指该界面控件是否是可被点击的控件。状态属性可以指示当前界面控件是否已被点击或是否处于被聚焦状态。

步骤802，从控件树中界面控件对应的控件信息中提取控件坐标。

本步骤的实施方式可以参考上述步骤601，本实施例在此不做赘述。

步骤803，基于控件树的拓扑结构，确定界面控件在控件树中的控件层级位置。

终端获取到控件树后，可以通过两种及以上的遍历方式确定界面控件在控件树中的层级位置。由于控件的组织形式为树状的拓扑结构，终端可以通过至少两次不同的顺序遍历控件树节点，并结合拓扑学规律，确定控件树的结构，进而确定界面控件的层级位置。

可选的，终端采用中序遍历和先序遍历确定界面控件位于控件中的层级位置，首先生成人机交互界面控件树的先序遍历序列和中序遍历序列。基于界面控件在两次遍历中的位置，可以确定出界面控件在控件树中的层级位置。

步骤804，将控件属性、控件坐标以及控件层级位置，确定为界面控件的结构化模态信息。

终端分别获取到控件属性，控件坐标，以及控件层级位置后，将其共同确定为界面控件的结构化模态信息。

对于界面控件不同的结构化模态信息，需要采用不同的方式对其进行编码。

步骤805，采用二值化或独热编码方式对控件属性进行编码，得到属性编码。

在终端获取到的控件属性包含控件状态和点击属性的情况下，采用二值化的方式对控件状态以及点击属性进行编码，二值化即为一位二进制编码。对于控件状态，使用1代表当前控件被点击或被聚焦，0表示未被点击或聚焦，得到一位控件状态的二进制编码；对于控件的点击属性，1表示可点击，0表示不可点击，得到一位点击属性二进制编码。

在终端获取到的控件属性包含控件类型的情况下，采用独热编码方式对其进行编码，独热编码又一位有效编码，采用N个移位寄存器来对N个状态进行编码，每个状态都有其独立的寄存器位，并且在任意时刻，其中只有一位有效。

本申请实施例采用一个定长的只包含0和1的向量对控件类型进行表示，每一位代表一种控件类型，某一位为1表示当前控件属于这一位代表的控件类型，得到控件类型编码。

步骤806，基于控件坐标生成坐标位置编码，坐标位置编码包括绝对位置编码和相对位置编码中的至少一种。

终端获取到控件坐标的四元组[left,top,right,bottom]后，可以根据人机交互的具体场景，选择进行绝对位置编码或相对位置编码两种方式中的至少一种进行编码。

其中，绝对位置编码就是根据当前的控件坐标将坐标本身归一化到0到1之间的浮点数直接对控件进行编码；相对位置编码是指终端获得控件坐标四元组后根据屏幕尺寸生成代表界面控件相对位置的坐标位置编码。

可选的，终端获取到控件坐标的四元组[left,top,right,bottom]后，采用绝对位置编码和相对位置编码两种方式同时进行编码，并将两种方式得到的0到1间的浮点数与相对位置的坐标位置编码进行拼接，得到坐标位置编码。

步骤807，采用独热式编码方式对不同遍历方式对应的控件层级位置进行编码，得到不同遍历方式对应的拓扑位置编码。

其中，遍历方式包括先序遍历、中序遍历以及后序遍历；对不同遍历方式对应的拓扑位置编码进行编码融合，得到目标拓扑位置编码。

终端通过不同遍历方式确定界面控件在控件树中的控件层级位置后，将界面控件在两种遍历序列中的位置分别置为1，其余位置置为零，因此可以得到不同遍历方式对应的拓扑位置编码，并将至少两种遍历方式对应的拓扑位置编码按照某种设定顺序进行拼接，得到目标拓扑位置编码。

其中，拓扑位置编码的长度是设定的固定值，在拓扑位置编码的长度小于设定值的情况下，需进行补0，将空余位置用0进行填充；在拓扑位置编码的长度大于设定值的情况下，可以通过插值归一化的方式将拓扑位置编码的长度归一化的更改为设定长度，通常情况下可通过双线性插值归一化实行该归一化操作。

步骤808，对属性编码、坐标位置编码以及目标拓扑位置编码进行拼接，得到结构化模态信息对应的结构化编码。

终端分别得到属性编码、坐标位置编码以及目标拓扑位置编码后，将这些结构化模态信息对应的模态编码结果按照一定的顺序进行拼接，可以得到结构化模态信息对应的结构化编码。

图9示出了本申请一示例性实施例提供的一种对界面控件的结构化模态信息进行编码的示意图。图9中，结构化编码901中包含控件属性编码902、坐标位置编码903以及目标拓扑位置编码904。其中控件属性编码902包含控件类型编码905、点击属性二值编码906以及控件状态二值编码907。坐标位置编码是通过控件位置坐标进行绝对位置编码908以及相对位置编码909拼接而成的。目标拓扑位置编码是终端通过先序遍历以及中序遍历得到的两个编码序列构成的。

本申请实施例中，终端通过获取控件树中的控件信息以及控件位于控件中的层级，采用热值编码或二值化的方式对结构化模态信息进行编码，得到结构化模态信息对应的结构化编码，对控件属性进行编码使得最终生成的文本描述中能够包含控件的状态以及在界面中的位置，能够更加准确的实现人机交互功能，对控件位于控件树中的层级进行编码，能够得知与该控件有关联关系的其他控件，在生成文本描述是能够不局限于某个控件本身的信息，也可以结合界面中其他有关联的控件生成与人机交互场景相关的文本描述。

终端得到多模态信息的模态编码后，需要将通过自注意力机制的相应算法进行计算，生成界面控件的功能描述文本。

图10示出了本申请另一示例性实施例提供的文本描述的生成方法的流程图，该方法包括：

步骤1001，获取人机交互界面中界面控件的多模态信息。

本步骤的实施方式可以参考上述步骤301，本实施例在此不做赘述。

步骤1002，基于设备处理性能和/或人机交互场景确定目标模态信息。

三种模态信息中，文本模态信息和结构化模态信息可以通过控件树直接获取，不存在计算开销，编码方式也较为简单，而图像模态信息需要通过截取控件图像的方式获取，编码方式也较为复杂，因此，文本模态信息作为目标模态信息用于生成控件文本描述的开销最小，结构化模态信息其次，图像模态信息用于生成控件文本描述的开销最大。

在该设备为手机、平板电脑或笔记本电脑等处理性能较好的电子设备的情况下，可以将文本模态信息、图像模态信息以及结构化模态信息共同确定为目标模态信息；在该设备为车机、智能电视等处理性能较差的设备时可以选择部分模态信息作为目标多模态信息，例如，只将文本模态信息和结构化模态信息确定为目标模态信息。

在一种可能的实施方式中，三种类型的所模态信息均可以作为该设备的目标多模态信息，但是在实际应用过程中的某段时间内，终端的运算资源可能被其他更为重要的程序所占用，可分配的运算资源较少，因此，可以在进行人机交互时采用较少种类或处理所需运算量较小的模态信息的作为目标多模态信息。例如，智能车机驾驶过程中大量运算资源被用于智能驾驶程序，因此可以在进行人机交互中只采用运算量相对较小的文本模态信息和结构化模态信息作为目标模态信息。

因此，目标多模态信息对应编码方式的处理性能需求与设备处理性能呈正相关关系。

在一些人机交互场景中，对于交互准确率需求很高，此时可以选择三种控件模态信息作为目标多模态信息。例如，智能车机驾驶场景中，用户根据当前车载屏幕显示的地图进行发出导航指令：“中央公园”，由于人机交互结果会影响行驶路线，因此，对于交互准确率的要求较高，此时可以选择三种模态信息共同作为目标多模态信息。

相反的，在一些人机交互场景中，对于交互准确率需求较低，可以选择较少种类的控件模态信息作为目标模态信息。例如，应用智能电视的人机交互场景中，用户想要选取某个视频进行观看，这一场景下，对用户人机交互结果准确度需求相对较低，因此，可以只将文本模态信息和结构化模态信息确定为目标多模态信息。

因此，目标多模态信息的模态类型数量与人机交互场景的交互准确率需求呈正相关关系。

步骤1003，对目标多模态信息进行信息编码，得到目标多模态信息中不同模态信息各自对应的模态编码。

本步骤的实施方式可以参考上述步骤302，本实施例在此不做赘述。

步骤1004，对不同模态信息各自对应的模态编码进行模态融合，得到多模态编码。

本步骤的实施方式可以参考上述步骤303，本实施例在此不做赘述。

步骤1005，将多模态编码输入Transformer模型，得到Transformer模型输出的功能文本描述，Transformer模型基于样本界面控件对应的样本多模态编码以及样本功能文本描述训练得到。

将多模态编码作为Transformer模型的输入向量，可以得到符合人机交互界面的文本描述。

Transformer模型是利用自注意力机制处理文本的模型。如图11所示，示出了本申请一示例性实施例提供的通过Transformer模型对多模态编码进行处理的示意图。Transformer模型结构可以分为编码器1101和解码器1102两部分，使用Transformer模型生成界面控件文本描述的核心是Q(Query)，K(Key)，V(Value)三组向量的关系,其核心思想为，已知存在输入向量K时输出向量V的映射关系，根据计算未知的编码输出向量Q与K的关系，可得到一组线性组合系数，Q向量的编码结果是由V向量与相应的线性组合系数得到的。在预先训练编码器时，将多模态信息编码的向量输入计算网络中，自注意力机制会将输入的多模态信息编码的向量同时作为Q，K，V三组向量进行训练。

Transformer模型的主干网络包括多头注意力模块、前馈神经网络模块以及Add&Norm层，Transformer模型由多个主干网络堆叠而成，图11中以一个主干网络为例进行说明。其中Add层表示残差连接用于防止网络退化，Norm层用于对每一层的激活值进行归一化。

在通过编码器进行训练后，可以得到相应的K向量和V向量，K和V两向量作为隐藏层接入到解码器中，用于生成控件文本描述。

Transformer模型的解码器中的第一个多头注意力模块会采用Masked(掩盖)操作，防止在计算第i个文本时受到第i+1个文本后面的信息干扰。通过一个自注意力机制的Transformer主干网络后，可以得到带有自注意力信息的多模态信息的多模态编码，此时，Transformer主干网络通过计算多模态编码与编码器得到的隐藏层K、V的注意力关系可以计算得到隐藏表示向量，再经过线性层和Softmax模块能够得出当前输出的下一个字是某一个字的概率。

在解码器生成控件文本描述的过程中Transformer模型会定义两个特殊的文本标记<start>和<end>，在控件描述文本生成前，多模态编码向量会加入<start>的文本编码作为开始标记，算法运行过一次后，终端能够获取到文本描述的第一个字是某个字的概率，同时也能得到隐藏表示向量，在该隐藏文本向量的文本编码部分的值不为<end>时，将该隐藏表示向量作为下一次运行时的计算网络输入，由此循环，得到第i个位置是文字k的概率

直至隐藏表示向量的文本编码部分值为<end>，结束计算。

通过上述过程，能够生成一句完整的控件文本描述，在上述过程中Transformer模型会充分利用注意力机制挖掘多种模态的关联信息，生成的文本质量也会受到人机交互界面的控件关联关系的影响。例如，采用本申请实施例对同样的加号图标生成文本描述，在社交媒体应用界面下，会生成“加关注”的文本描述，而在音乐类应用界面下，会生成“添加到歌单”的文本描述。

本申请实施例中，终端能够根据设备处理性能和/或人机交互场景选择合适的模态信息作为目标多模态信息，有效减了计算开销，并且不会对终端正在运行的其他程序造成影响。另一方面，终端采用自注意力机制的Transformer模型对多模态的编码信息进行计算，生成控件文本描述，充分挖掘了人机交互界面多模态之间的关联关系，生成的控件文本描述能够与人机交互场景相匹配，解决了进行人机交互不顺畅的问题。

在一个示意性的例子中，文本描述的生成系统的主要组成部分如图12所示，主要包括人机交互界面1201、无障碍服务接口1202、控件图像获取组件1203、图像编码器1204、文本编码器1205、结构化编码器1206、模态融合组件1207以及Transformer模型1208。

图12中的箭头方向表示信息流动方向，文本表述的生成程序启动后，终端通过无障碍服务接口1202获取人机交互界面的控件树，并从控件信息中获取文本模态信息以及结构化模态信息，终端通过控件树获取控坐标的同时发出截屏指令，通过控件图像获取组件1203截取控件坐标指示的控件目标区域作为控件图像，并将该控件图像确定为图像模态信息。终端获取到图像模态信息、文本模态信息以及结构化模态信息后，通过图像编码器1204对图像模态信息进行编码；通过文本编码1205对文本模态信息进行编码；通过结构化编码器1206结构化模态信息进行编码。再将三种编码器生成的模态编码结果通过模态融合组件1207进行融合，得到多模态编码，最后将多模态编码输入Transformer模型1208中进行计算，生成界面控件文本描述。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

图13示出了本申请一个实施例提供的文本描述的生成装置的结构框图。该装置可以包括：

信息获取模块1301，用于获取人机交互界面中界面控件的多模态信息，所述多模态信息包括文本模态信息、图像模态信息和结构化模态信息中的至少两种，所述结构化模态信息用于表征所述界面控件在所述人机交互界面中的层次结构；

信息编码模块1302，用于对所述多模态信息进行信息编码，得到不同模态信息各自对应的模态编码；

模态融合模块1303，用于对不同模态信息各自对应的所述模态编码进行模态融合，得到多模态编码；

文本生成模块1304，用于基于所述多模态编码生成所述界面控件的功能文本描述。

可选的，所述信息获取模块1301，包括：

控件树获取单元，用于获取所述人机交互界面对应的控件树，所述控件树由所述人机交互界面中的所述界面控件构成；

信息获取单元，用于基于所述控件树获取所述界面控件的所述多模态信息。

可选的，所述多模态信息包括所述文本模态信息；

所述信息获取单元，用于：

从所述控件树中所述界面控件对应的控件信息中提取文本属性，所述文本属性包括显性文本属性和隐性文本属性中的至少一种；

将所述文本属性确定为所述界面控件的所述文本模态信息。

可选的，所述信息编码模块1302，用于：

对所述文本属性进行分词处理，得到分词文本；

对各个所述分词文本对应的词向量的进行滑动池化处理，得到所述文本模态信息对应的文本词向量。

可选的，所述多模态信息包括所述图像模态信息；

所述信息获取单元，用于：

从所述控件树中所述界面控件对应的控件信息中提取控件坐标；

基于所述控件坐标，从所述人机交互界面中截取所述界面控件的控件图像；

将数控件图像确定为所述界面控件的所述图像模态信息。

可选的，所述信息编码模块1302，用于：

对所述控件图像进行缩放处理；

通过图像特征提取网络对缩放处理后的所述控件图像进行特征提取，得到所述图像模态信息对应的图像特征向量，其中，缩放处理后的所述控件图像符合所述图像特征提取网络的输入要求。

可选的，所述模态信息包括所述结构化模态信息；

所述信息获取单元，用于：

从所述控件树中所述界面控件对应的控件信息中提取控件属性，所述控件属性包括类型属性、点击属性和状态属性中的至少一种，所述点击属性用于表征所述界面控件是否支持点击，所述状态属性用于表征所述界面控件是否被聚焦；

基于所述控件树的拓扑结构，确定所述界面控件在所述控件树中的控件层级位置；

将所述控件属性、所述控件坐标以及所述控件层级位置，确定为所述界面控件的所述结构化模态信息。

可选的，所述信息编码模块1302，用于：

采用二值化或独热编码方式对所述控件属性进行编码，得到属性编码；

基于所述控件坐标生成坐标位置编码，所述坐标位置编码包括绝对位置编码和相对位置编码中的至少一种；

采用独热式编码方式对不同遍历方式对应的所述控件层级位置进行编码，得到不同遍历方式对应的拓扑位置编码，所述遍历方式包括先序遍历、中序遍历以及后序遍历；对不同遍历方式对应的所述拓扑位置编码进行编码融合，得到目标拓扑位置编码；

对所述属性编码、所述坐标位置编码以及所述目标拓扑位置编码进行拼接，得到所述结构化模态信息对应的结构化编码。

可选的，所述文本生成模块1304，用于：

将所述多模态编码输入Transformer模型，得到所述Transformer模型输出的所述功能文本描述，所述Transformer模型基于样本界面控件对应的样本多模态编码以及样本功能文本描述训练得到。

可选的，所述信息编码模块1302，用于：

基于设备处理性能和/或人机交互场景确定目标多模态信息；

对所述目标多模态信息进行信息编码，得到所述目标多模态信息中不同模态信息各自对应的所述模态编码。

可选的，所述目标多模态信息对应编码方式的处理性能需求与所述设备处理性能呈正相关关系；

所述目标多模态信息的模态类型数量与所述人机交互场景的交互准确率需求呈正相关关系。

图14示出了本申请一个示例性实施例提供的终端的结构方框图。该终端1400可以实现成为上述各个实施例中的终端。终端1400可以包括一个或多个如下部件：处理器1410和存储器1420。

处理器1410可以包括一个或者多个处理核心。处理器1410利用各种接口和线路连接整个终端1400内的各个部分，通过运行或执行存储在存储器1420内的指令、程序、代码集或指令集，以及调用存储在存储器1420内的数据，执行终端1400的各种功能和处理数据。可选地，处理器1410可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable LogicArray，PLA)中的至少一种硬件形式来实现。处理器1410可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)、神经网络处理器(Neural-network Processing Unit，NPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责触摸显示屏所需要显示的内容的渲染和绘制；NPU用于实现人工智能(Artificial Intelligence，AI)功能；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器1410中，单独通过一块芯片进行实现。

存储器1420可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory，ROM)。可选地，该存储器1420包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器1420可用于存储指令、程序、代码、代码集或指令集。存储器1420可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等；存储数据区可存储根据终端1400的使用所创建的数据(比如音频数据、电话本)等。

除此之外，本领域技术人员可以理解，上述附图所示出的终端1400的结构并不构成对终端的限定，终端可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。比如，终端1400中还包括显示屏、摄像组件、麦克风、扬声器、射频电路、输入单元、传感器(比如加速度传感器、角速度传感器、光线传感器等等)、音频电路、WiFi模块、电源、蓝牙模块等部件，在此不再赘述。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有至少一条程序代码，所述程序代码由处理器加载并执行以实现如上各个实施例所述的文本描述的生成方法。

本申请实施例提供了一种计算机程序产品，该计算机程序产品包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方面的各种可选实现方式中提供的文本描述的生成方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。另外，本文中描述的步骤编号，仅示例性示出了步骤间的一种可能的执行先后顺序，在一些其它实施例中，上述步骤也可以不按照编号顺序来执行，如两个不同编号的步骤同时执行，或者两个不同编号的步骤按照与图示相反的顺序执行，本申请实施例对此不作限定。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种文本描述的生成方法，其特征在于，所述方法包括：

基于所述多模态编码生成所述界面控件的功能文本描述。

2.根据权利要求1所述的方法，其特征在于，所述获取人机交互界面中界面控件的多模态信息，包括：

获取所述人机交互界面对应的控件树，所述控件树由所述人机交互界面中的所述界面控件构成；

基于所述控件树获取所述界面控件的所述多模态信息。

3.根据权利要求2所述的方法，其特征在于，所述多模态信息包括所述文本模态信息；

所述基于所述控件树获取所述界面控件的所述多模态信息，包括：

将所述文本属性确定为所述界面控件的所述文本模态信息。

4.根据权利要求3所述的方法，其特征在于，所述对所述多模态信息进行信息编码，得到不同模态信息各自对应的模态编码，包括：

对所述文本属性进行分词处理，得到分词文本；

5.根据权利要求2所述的方法，其特征在于，所述多模态信息包括所述图像模态信息；

将所述控件图像确定为所述界面控件的所述图像模态信息。

6.根据权利要求5所述的方法，其特征在于，所述对所述多模态信息进行信息编码，得到不同模态信息各自对应的模态编码，包括：

对所述控件图像进行缩放处理；

7.根据权利要求2所述的方法，其特征在于，所述多模态信息包括所述结构化模态信息；

8.根据权利要求7所述的方法，其特征在于，所述对所述多模态信息进行信息编码，得到不同模态信息各自对应的模态编码，包括：

9.根据权利要求1所述的方法，其特征在于，所述基于所述多模态编码生成所述界面控件的功能文本描述，包括：

10.根据权利要求1所述的方法，其特征在于，所述对所述多模态信息进行信息编码，得到不同模态信息各自对应的模态编码，包括：

基于设备处理性能和/或人机交互场景确定目标多模态信息；

11.根据权利要求10所述的方法，其特征在于，

所述目标多模态信息对应编码方式的处理性能需求与所述设备处理性能呈正相关关系；

12.一种文本描述的生成装置，其特征在于，所述装置包括：

13.根据权利要求12所述的装置，其特征在于，所述信息获取模块，包括：

14.根据权利要求13所述的装置，其特征在于，所述多模态信息包括所述文本模态信息；

所述信息获取单元，用于：

将所述文本属性确定为所述界面控件的所述文本模态信息。

15.根据权利要求14所述的装置，其特征在于，所述信息编码模块，用于：

对所述文本属性进行分词处理，得到分词文本；

16.根据权利要求13所述的装置，其特征在于，所述多模态信息包括所述图像模态信息；

所述信息获取单元，用于：

将数控件图像确定为所述界面控件的所述图像模态信息。

17.根据权利要求16所述的装置，其特征在于，所述信息编码模块，用于：

对所述控件图像进行缩放处理；

18.根据权利要求13所述的装置，其特征在于，所述多模态信息包括所述结构化模态信息；

所述信息获取单元，用于：

19.根据权利要求18所述的装置，其特征在于，所述信息编码模块，用于：

20.根据权利要求12所述的装置，其特征在于，所述文本生成模块，用于：

21.根据权利要求12所述的装置，其特征在于，所述信息编码模块，用于：

基于设备处理性能和/或人机交互场景确定目标多模态信息；

22.根据权利要求21所述的装置，其特征在于，

23.一种终端，其特征在于，所述终端包括处理器和存储器；所述存储器存储有至少一条指令，所述至少一条指令用于被所述处理器执行以实现如权利要求1至11任一所述的文本描述的生成方法。

24.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条程序代码，所述程序代码由处理器加载并执行以实现如权利要求1至11任一所述的文本描述的生成方法。

25.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机指令，所述计算机指令存储在计算机可读存储介质中；计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令，所述处理器执行所述计算机指令，使得所述计算机设备执行如权利要求1至11任一所述的文本描述的生成方法。