CN118013246A

CN118013246A - 数据处理方法及计算设备、计算机可读存储介质

Info

Publication number: CN118013246A
Application number: CN202410020919.0A
Authority: CN
Inventors: 陈谦; 王雯; 张庆林; 郑斯奇; 邓憧; 于海; 刘嘉庆; 马煜坤; 张冲
Original assignee: Zhejiang Alibaba Robot Co ltd
Current assignee: Zhejiang Alibaba Robot Co ltd
Priority date: 2024-01-05
Filing date: 2024-01-05
Publication date: 2024-05-10

Abstract

本说明书实施例提供数据处理方法及计算设备、计算机可读存储介质，其中所述方法包括：将输入数据输入机器学习模型，获得所述机器学习模型针对输入数据生成的特征表示；基于所述机器学习模型对所述输入数据的注意力权重，确定所述特征表示的各个特征维度相对于所述特征表示的重要度；利用所述各个特征维度的所述重要度，对所述特征表示进行调整，得到调整后的特征表示。

Description

数据处理方法及计算设备、计算机可读存储介质

技术领域

本说明书实施例涉及计算机技术领域，特别涉及一种数据处理方法及计算设备、计算机可读存储介质。

背景技术

机器学习模型在语言处理，图像处理，语音处理等领域都取得了很大的成功，为各种分类，问答等任务提供了强大的特征表示。

然而，预训练的机器学习模型在没有微调的情况下，生成的句子表示存在各向异性问题，即句子表示在高维空间中分布不均匀，导致在例如特征相似度，分类等任务上表现不佳。因此，如何处理机器学习模型提取的特征，达到更好的特征表示，是一个亟需解决的重要问题。

发明内容

有鉴于此，本说明书实施例提供了一种数据处理方法。本说明书一个或者多个实施例同时涉及一种计算设备，一种计算机可读存储介质以及一种计算机程序，以解决现有技术中存在的技术缺陷。

根据本说明书实施例的第一方面，提供了一种数据处理方法，包括：将输入数据输入机器学习模型，获得所述机器学习模型针对输入数据生成的特征表示；基于所述机器学习模型对所述输入数据的注意力权重，确定所述特征表示的各个特征维度相对于所述特征表示的重要度；利用所述各个特征维度的所述重要度，对所述特征表示进行调整，得到调整后的特征表示。

根据本说明书实施例的第二方面，提供了一种数据处理方法，应用于端侧设备，包括：向云侧设备发送数据处理请求，使所述云侧设备根据所述数据处理请求，确定所述机器学习模型和所述输入数据,获得所述机器学习模型针对输入数据生成的特征表示，基于所述机器学习模型对所述输入数据的注意力权重，确定所述特征表示的各个特征维度相对于所述特征表示的重要度，利用所述各个特征维度的所述重要度，对所述特征表示进行调整，得到调整后的特征表示，针对所述数据处理请求，返回所述调整后的特征表示对应的模型输出结果；接收所述云侧设备返回的模型输出结果。

根据本说明书实施例的第三方面，提供了一种数据处理方法，包括：接收用户发送的文本数据处理请求，其中，所述文本数据处理请求携带待处理文本；将所述待处理文本输入机器学习模型，获得所述机器学习模型针对所述待处理文本生成的句子表示；基于所述机器学习模型对所述待处理文本的注意力权重，确定所述特征表示的各个特征维度相对于所述句子表示的重要度；利用所述各个特征维度的所述重要度，对所述句子表示进行调整，得到调整后的句子表示；获得所述机器学习模型基于所述调整后的句子表示生成的文本处理结果；向所述用户返回所述文本处理结果。

根据本说明书实施例的第四方面，提供了一种计算设备，包括：存储器和处理器；所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时实现上述数据处理方法的步骤。

根据本说明书实施例的第五方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现上述数据处理方法的步骤。

根据本说明书实施例的第六方面，提供了一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行上述数据处理方法的步骤。

本说明书一个实施例实现了数据处理方法，由于该方法将输入数据输入机器学习模型，获得所述机器学习模型针对输入数据生成的特征表示，基于所述机器学习模型对所述输入数据的注意力权重，确定所述特征表示的各个特征维度相对于所述特征表示的重要度，利用所述各个特征维度的所述重要度，对所述特征表示进行调整，得到调整后的特征表示，从而调整后的特征表示能够有效地表达特征的重要性，减少无信息输入数据对特征表示的影响，实现了一种无监督的特征表示处理方案。可见，该方案通过注意力权重确定的重要度来改善预训练的机器学习模型在没有微调的情况下生成的特征表示，不需要额外增加参数，也不需要额外的学习过程，利用预训练的机器学习模型本身的信息，就可以生成更好的特征表示，有效缓解各向异性问题，显著地改善各种预训练的机器学习模型执行任务的性能。

附图说明

图1是本说明书一个实施例提供的一种数据处理系统的框架图；

图2是本说明书一个实施例提供的一种数据处理方法的流程图；

图3是本说明书一个实施例提供的一种数据处理方法的处理过程流程图；

图4是本说明书一个实施例提供的预训练语言模型的模型示意图；

图5是本说明书一个实施例提供的一种数据处理装置的结构示意图；

图6是本说明书另一个实施例提供的一种数据处理方法的流程图；

图7是本说明书又一个实施例提供的一种数据处理方法的流程图；

图8是本说明书一个实施例提供的用户界面示意图；

图9是本说明书一个实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本说明书内涵的情况下做类似推广，因此本说明书不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

此外，需要说明的是，本说明书一个或多个实施例所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

本说明书一个或多个实施例中，大模型是指具有大规模模型参数的深度机器学习模型，通常包含上亿、上百亿、上千亿、上万亿甚至十万亿以上的模型参数。大模型又可以称为基石模型/基础模型(Foundation Model)，通过大规模无标注的语料进行大模型的预训练，产出亿级以上参数的预训练模型，这种模型能适应广泛的下游任务，模型具有较好的泛化能力，例如大规模语言模型(Large Language Model,LLM)、多模态预训练模型(multi-modal pre-training model)等。

大模型在实际应用时，仅需少量样本对预训练模型进行微调即可应用于不同的任务中，大模型可以广泛应用于自然语言处理(Natural Language Processing，简称NLP)、计算机视觉等领域，具体可以应用于如视觉问答(Visual Question Answering，简称VQA)、图像描述(Image Caption，简称IC)、图像生成等计算机视觉领域任务，以及基于文本的情感分类、文本摘要生成、机器翻译等自然语言处理领域任务，大模型主要的应用场景包括数字助理、智能机器人、搜索、在线教育、办公软件、电子商务、智能设计等。

首先，对本说明书一个或多个实施例涉及的名词术语进行解释。

预训练的机器学习模型，是一种利用大规模无标注数据进行预训练，然后在下游任务上进行微调或特征提取的深度学习模型，如预训练语言模型(Pre-trained LanguageModels)BERT、GPT等。

特征表示，是指将输入数据通过特征提取，映射为一定长度的向量的表示方式，用于表示输入数据的特征信息。如：在语言机器学习模型中提取的特征表示，可以表现为句子表示，用于表示句子的语义信息，进而可以用于执行如句子相似度、句子分类等任务。

各向异性，是一种描述特征表示在高维空间中分布不均匀的现象，导致特征表示的质量下降，无法有效地度量特征之间的相似度。

对角注意力池化(Diagonal Attention Pooling,Ditto)：是本说明书实施例提供的方法提出的一种无监督的特征表示方法，可以根据预训练的机器学习模型的注意力矩阵主对角线上的权重值对应的重要性估计，对特征进行加权，得到特征表示。

机器学习模型在语言处理，图像处理，语音处理等领域都取得了很大的成功，为各种分类，问答等任务提供了强大的特征表示。然而，预训练的机器学习模型在没有微调的情况下，生成的特征表示存在各向异性问题，即特征表示在高维空间中分布不均匀，导致在例如特征相似度，分类等任务上表现不佳。因此，如何处理机器学习模型提取的特征，达到更好的特征表示，是一个亟需解决的重要问题。

有鉴于此，本说明书实施例针对预训练的机器学习模型生成的特征表示存在偏向于无信息词(如标点符号、停用词等)的偏差，使得特征表示无法有效地捕捉输入数据的特征信息的问题，提出了一种简单而高效的无监督方法，根据模型的注意力权重确定各个特征维度相对于整个特征表示的重要度，对模型本身生成的特征表示进行调整，得到调整后的特征表示，能够有效缓解各向异性问题，生成更好的特征表示。例如，本说明书实施例提供的方法可以作为模型的后处理操作，轻松地应用于任何预训练的机器学习模型。

具体地，在本说明书中，提供了数据处理方法，本说明书同时涉及一种数据处理装置，一种数据处理系统，一种计算设备，以及一种计算机可读存储介质，在下面的实施例中逐一进行详细说明。

参见图1，图1示出了本说明书一个实施例提供的一种数据处理系统的框架图，其中，该数据处理系统可以包括云侧设备以及端侧设备。

在端侧设备存在多个的情况下，多个端侧设备之间可以通过云侧设备可以建立通信连接，在数据处理的场景中，云侧设备即用来在多个端侧设备之间提供数据处理服务，多个端侧设备可以分别作为发送端或接收端，通过云侧设备实现通信。

具体地，端侧设备用于向云侧设备发送数据处理请求，数据处理请求中可以携带有预训练的机器学习模型和输入数据的相关信息；

云侧设备，用于接收数据处理请求，根据所述数据处理请求确定机器学习模型和输入数据，获得所述机器学习模型针对输入数据生成的特征表示，基于所述机器学习模型对所述输入数据的注意力权重，确定所述特征表示的各个特征维度相对于所述特征表示的重要度，利用所述各个特征维度的所述重要度，对所述特征表示进行调整，得到调整后的特征表示，针对所述数据处理请求，返回所述调整后的特征表示对应的模型输出结果。

端侧设备，用于接收所述云侧设备返回的模型输出结果。

其中，端侧设备与云侧设备之间可以通过网络建立连接。网络为端侧设备与云侧设备之间提供了通信链路的介质。网络可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。端侧设备所传输的数据可能需要经过编码、转码、压缩等处理之后才发布至云侧设备。

端侧设备可以包括浏览器、APP(Application，应用程序)、或网页应用如H5(HyperText Markup Language5，超文本标记语言第5版)应用、或轻应用(也被称为小程序，一种轻量级应用程序)或云应用等，端侧设备的应用可以基于服务端提供的相应服务的软件开发工具包(SDK，Software Development Kit)，如基于实时通信(RTC，Real TimeCommunication)SDK开发获得等。端侧设备可以表现为电子设备或者依赖设备中的某些APP而运行等。电子设备例如可以具有显示屏并支持信息浏览等，如可以是个人移动终端如手机、平板电脑、个人计算机等。在电子设备中通常还可以配置各种其它类应用，例如人机对话类应用、模型训练类应用、文本处理类应用、网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

云侧设备可以包括提供各种服务的服务器，例如为多个客户端提供通信服务的服务器，又如为客户端上使用的模型提供支持的用于后台训练的服务器，又如对客户端发送的数据进行处理的服务器等。需要说明的是，云侧设备可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。服务器也可以是云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(CDN，Content DeliveryNetwork)、以及大数据和人工智能平台等基础云计算服务的云服务器，或者是带人工智能技术的智能云计算服务器或智能云主机。

值得说明的是，本说明书实施例中提供的数据处理方法可以由云侧设备执行，在本说明书的其它实施例中，端侧设备也可以与云侧设备具有相似的功能，从而执行本说明书实施例所提供的数据处理方法；在其它实施例中，本说明书实施例所提供的数据处理方法还可以是由云侧设备与端侧设备共同执行。

本说明书实施例提供的数据处理系统，通过注意力权重确定各个特征维度相对于整个特征表示的重要度，基于各个特征维度的重要度来改善预训练的机器学习模型在没有微调的情况下生成的特征表示，不需要额外增加参数，也不需要额外的学习过程，利用预训练的机器学习模型本身的信息，就可以生成更好的特征表示，有效缓解各向异性问题，显著地改善各种预训练的机器学习模型执行任务的性能。

参见图2，图2示出了根据本说明书一个实施例提供的一种数据处理方法的流程图，具体包括以下步骤。

步骤202：将输入数据输入机器学习模型，获得所述机器学习模型针对输入数据生成的特征表示。

所述机器学习模型可以理解为预训练的机器学习模型，可以是语言机器学习模型、图像机器学习模型、语音机器学习模型中的任一种机器学习模型。例如，所述机器学习模型可以是预训练语言学习模型，例如问答预测之类的预训练语言学习模型。在用户将文本输入问答预测模型后，问答预测模型能够针对输入的文本生成句子表示，进而预测、生成出文本对应的答案。

所述输入数据，可以理解为输入到机器学习模型进行特征提取的任意类型数据，例如，可以是文本，图像，语音其中任一种或多种混合的数据。本说明书实施例提供的方法可以应用于对文本进行处理的应用场景；可以应用于对图像进行处理的应用场景；可以应用于对语音进行处理的应用场景。

步骤204：基于所述机器学习模型对所述输入数据的注意力权重，确定所述特征表示的各个特征维度相对于所述特征表示的重要度。

注意力机制，是机器学习中一种重要的技术，模拟了人类注意力的行为，允许模型在处理序列或集合数据集时专注于重要的部分，从而提高模型的性能和表现力。在注意力机制中，一个注意力头对应一个特征维度。注意力头，是机器学习模型中用于捕捉对应特征维度的特征值的计算组件。例如，在文本处理应用场景中，一个注意力头用于捕捉句法关系(如主谓一致)，另一个注意力头用于捕捉语义关系(如单词同义词或主题角色)。机器学习模型的一个注意力单元(也可以理解为一个多头注意力层)的多个注意力头的输出会被串联并线性变换后输出，使得每个注意力头捕获的不同特征维度的特征被组合在一起，形成一个特征表示。注意力权重，是机器学习模型基于注意力机制而对输入的各个特征维度所赋予的权重。因此，通过注意力权重，机器学习模型能够抽取出更加关键和重要的信息，使提取出的特征更加准确。一个注意力单元的各个特征维度的注意力权重形成了注意力矩阵，例如如图4所示的注意力矩阵。注意力矩阵主对角线，通常是指注意力矩阵从左上到右下的对角线。

所述重要度，是根据注意力矩阵中各个特征维度对应的注意力权重而确定的参数。所述重要度的具体确定方式不限，表现形式不限，可以通过数值、字母、汉字等任意字符来表示，只要能够有效表征对应特征维度在整个特征表示中的重要程度即可。

步骤206：利用所述各个特征维度的所述重要度，对所述特征表示进行调整，得到调整后的特征表示。

本说明书实施例提供的方法，通过分析注意力头发现，通过注意力权重，能够确定一个特征表示的各个特征维度相对于整个特征表示的重要度。因此，该方法通过注意力权重确定各个特征维度相对于整个特征表示的重要度，基于各个特征维度的重要度来改善预训练的机器学习模型在没有微调的情况下生成的特征表示，不需要额外增加参数，也不需要额外的学习过程，利用预训练的机器学习模型本身的信息，就可以生成更好的特征表示，有效缓解各向异性问题，显著地改善各种预训练的机器学习模型执行任务的性能。例如，可以通过注意力矩阵主对角线上的注意力权重来进行特征表示的调整，通过注意力池化来改善预训练的机器学习模型在没有微调的情况下生成的特征表示。

需要说明的是，在利用各个特征维度对应的重要度调整特征表示时，可以采用任意计算方式来调整，只要能够达到减少无用信息对特征表示的影响即可。例如，本说明书一个或多个实施例中，所述利用所述各个特征维度的所述重要度，对所述特征表示进行调整，得到调整后的特征表示，包括：

利用所述各个特征维度的所述重要度，对所述特征表示进行加权计算，得到调整后的特征表示。

在上述实施例中，通过重要度对特征表示进行加权来得到调整后的特征表示，能够生成更好的特征表示，有效缓解各向异性问题。

例如：所述利用所述各个特征维度的所述重要度，对所述特征表示进行加权计算，得到调整后的特征表示，包括：

基于所述各个特征维度的所述重要度，利用加权求和算法、加权平均算法、加权几何平均算法、加权调和平均算法中的任一种算法，对所述特征表示进行加权计算，得到调整后的特征表示。

具体地，例如：在一个特征表示中，可以包括多个子特征表示。一个子特征表示对应一个特征维度。一个特征维度的重要度，作为对应子特征表示的重要度。基于此，可以基于各个子特征表示对应的重要度，利用加权求和算法、加权平均算法、加权几何平均算法、加权调和平均算法中的任一种算法，对各个所述子特征表示进行加权计算，得到调整后的特征表示。

例如：对于特征表示[h_1,…,h_N]来说，其中的h_1，…，h_N就是各个子特征表示。以注意力矩阵主对角线上的各个权重值作为各个特征维度对应的重要度为例，各个子特征表示的特征维度对应的重要度，也即注意力矩阵主对角线从左到右的顺序一一对应的权重值。

例如，加权求和算法，可以是指将各个子特征表示分别与对应的对角线权重相乘再求和的算法。例如：假设注意力矩阵主对角线上的权重值为[A_11,…,A_NN]，各个子特征表示为[h_1,…,h_N]，那么调整后的特征表示＝h_1*A_11+…+h_N*A_NN。加权平均算法，是在加权求和的基础上，除以对角线上权重值的总和，得到一个平均值。例如：加权几何平均算法，是指将子特征表示的对数乘以权重，然后求和，再取指数，得到一个几何平均值。又例如：加权调和平均算法，是指数据点的倒数乘以权重，然后求和，再取倒数，得到一个调和平均值。

在该实施例中，通过加权求和算法、加权平均算法、加权几何平均算法、加权调和平均算法中的任一种算法进行加权计算，均可得到更加准确的特征表示，有效缓解各向异性问题，显著地改善各种预训练的机器学习模型执行任务的性能。

为了使本说明书实施例提供的方法更加易于理解，下面对本说明书实施例提供的方法涉及的机器学习模型的结构进行示例性说明。例如，所述机器学习模型如图4所示，可以包括：输入层、一个或多个隐藏层和输出层，其中，至少一个所述隐藏层中包含注意力单元，所述注意力单元用于基于注意力机制在输入的各个特征维度上赋予注意力权重，所述注意力权重形成注意力矩阵。

相应地，所述基于所述机器学习模型对所述输入数据的注意力权重，确定所述特征表示的各个特征维度相对于所述特征表示的重要度，包括：

基于所述注意力矩阵主对角线上的权重值，确定所述特征表示的各个特征维度相对于所述特征表示的重要度。

在上述实施例中，利用注意力矩阵主对角线上的权重值与各个特征维度的重要性有较强的相关性的特点，利用主对角线上的权重值有效地估计各个特征维度在整个特征表示中的重要性，减少无用信息对特征表示的影响。

在机器学习模型中，输入层，是用于对输入数据进行编码生成初始特征表示的层。除输入层和输出层以外的其他各层都叫做隐藏层。一般来说，隐藏层不直接接受或接触外界的信号,也不直接向外界发送信号。而在本说明书实施例提供的方法中，可以获取隐藏层生成的特征表示，对隐藏层生成的特征表示进行调整，提升机器学习模型提取的特征的准确度。具体地，输入层输出的初始特征表示，会输入到输入层之后的第一个隐藏层进行特征转换，隐藏层输出的更新特征表示，会按照后续隐藏层的顺序，依次输入到下一个隐藏层。最后一个隐藏层输出的更新特征表示，会输出到输出层，通过输出层得到机器学习模型的模型输出结果。在机器学习模型的若干个隐藏层中，只要对至少一个隐藏层输出的特征表示，基于各个特征维度的重要度进行调整，即可使机器学习模型最终的特征表示得到一定程度的改善。因此，本说明书一个或多个实施例中，所述将输入数据输入机器学习模型，获得所述机器学习模型针对输入数据生成的特征表示，包括：

将输入数据输入机器学习模型的输入层，获得所述输入层针对所述输入数据进行编码生成的初始特征表示；

将所述初始特征表示输入所述输入层之后的第一个隐藏层，获得所述第一个隐藏层针对所述初始特征表示进行特征转换生成的更新特征表示；

如果所述机器学习模型中，所述第一个隐藏层之后还有隐藏层，则针对任一个隐藏层，将所述任一个隐藏层输出的更新特征表示输入到所述任一个隐藏层之后的下一个隐藏层，获得下一个隐藏层生成的更新特征表示；

所述利用所述各个特征维度的所述重要度，对所述特征表示进行调整，得到调整后的特征表示，包括：

针对至少一个隐藏层，利用所述至少一个隐藏层输出的更新特征表示的各个特征维度的重要度，对所述至少一个隐藏层输出的更新特征表示进行调整，得到调整后的更新特征表示。

本说明书一个或多个实施例中，所述基于至少一个隐藏层输出的所述更新特征表示的各个特征维度的重要度，对所述更新特征表示进行调整，得到调整后的特征表示，包括：

基于静态词隐藏层输出的更新特征表示的各个特征维度的重要度，对所述静态词隐藏层输出的更新特征表示进行调整，得到所述静态词隐藏层的调整后的更新特征表示,所述静态词隐藏层用于将词语表示为固定维度的特征表示；

或者，

基于最后一个隐藏层输出的更新特征表示的各个特征维度的重要度，对所述最后一个隐藏层输出的更新特征表示进行调整，得到所述最后一个隐藏层的调整后的更新特征表示；

或者，

基于第一个隐藏层和最后一个隐藏层输出的更新特征表示的各个特征维度的重要度，对所述第一个隐藏层和最后一个隐藏层输出的更新特征表示的平均值进行调整，得到所述平均值调整后的更新特征表示。

例如：以预训练语言模型为例，可以获得预训练语言模型的静态词隐藏层生成的特征表示。

再例如：以预训练语言模型BERT为例，可以取BERT的第一层和最后一层的隐藏层的平均值得到句子表示，取BERT的第l-h个头部的注意力矩阵A主对角线上的权重值[A_11,…,A_NN]，其中l和h是作为超参数根据模型的任务性能进行优化的，通过将句子表示预注意力矩阵对角线上的权重值进行加权求和，得到调整后的句子表示。

在上述实施例中，根据文本数据处理应用场景中，静态词隐藏层输出的更新特征表示通常会存在一些无用信息的特点，对静态词隐藏层输出的更新特征表示进行调整，能够有效减少无用信息对特征表示的影响。另外，在一些应用场景中，通常会使用第一个隐藏层和最后一个隐藏层生成特征表示的平均值作为机器学习模型对输入数据的最终特征表示，在这种情况下，为了减少无用信息对特征表示的应用，可以对所述平均值进行调整，来得到更好的特征表示。

本说明书实施例提供的方法的应用场景不限，例如，可以应用于语言处理、图像处理、语音处理等任意机器学习模型的应用场景中。所述机器学习模型为语言机器学习模型、图像机器学习模型、语音机器学习模型中的任一种机器学习模型；所述特征表示为句子特征表示、图像特征表示、语音特征表示中的任一种特征表示。

本说明书实施例提供的方法可以广泛地应用于各种需要特征表示的场景。例如，所述方法还可以包括：

将所述调整后的特征表示输入到所述输出层的分类器中，得到分类结果；

或者，将所述调整后的特征表示输入到所述输出层的解码器中，得到解码后的解码结果；

或者，将所述调整后的特征表示输入到所述输出层的相似计算模块中，使所述相似计算模块计算所述调整后的特征表示与待匹配特征表示的相似度，根据所述相似度确定特征匹配结果。

其中，将特征表示输入到分类器中的处理，可以理解为特征分类任务场景，例如：使用本说明书实施例提供的方法得到的调整后的特征表示，可以输入到分类器中实现情感分析、意图识别、主题分类等任务。将特征表示输入到解码器中的处理，可以理解为特征转换任务场景，例如：使用本说明书实施例提供的方法得到的调整后的特征表示，可以输入到解码器中实现文本摘要、文本复述、文本风格转换等任务。计算相似度的处理，可以理解为搜索、匹配任务场景，例如：使用本说明书实施例提供的方法得到的调整后的特征表示，可以用于计算两个特征表示之间的相似度，从而实现文本匹配、问答、信息检索等任务。其他输入数据的特征表示可以应用本说明书实施例提供的方法进行调整，也可以直接按照机器学习模型隐藏层原始输出的特征表示参与相似度计算，本说明书对此并不进行限制。

本说明书实施例提供的方法可以应用于任意设备，例如，可以应用于服务器，由服务器接收数据处理请求，对机器学习模型生成的特征表示进行处理。由此，在所述获得机器学习模型针对输入数据生成的特征表示值之前，所述方法还可以包括：

接收数据处理请求；

根据所述数据处理请求，确定所述机器学习模型和所述输入数据；

在得到调整后的特征表示之后，还包括：

针对所述数据处理请求，返回所述调整后的特征表示对应的模型输出结果。

例如，数据处理请求由端侧设备发出，则云侧设备可以将调整后的特征表示直接返回给端侧设备，或者，将特征表示经过分类、相似度计算、解码等任一种或多种处理后得到的模型输出结果返回给端侧设备。

下述结合附图3，以本说明书提供的数据处理方法在预训练语言模型对文本数据处理的应用为例，对所述数据处理方法进行进一步说明。其中，图3示出了本说明书一个实施例提供的一种数据处理方法的处理过程流程图，具体包括以下步骤。

步骤302：输入句子；

步骤304：使用预训练语言模型对输入的句子进行处理，得到隐藏层生成的句子表示，句子表示中包含单词表示；

步骤306：基于预训练语言模型的注意力矩阵主对角线上的权重值，得到句子表示中的各个单词表示的单词权重；

步骤308：利用单词权重，对该句子表示中的各个单词表示进行加权求和计算，得到调整后的句子表示。

步骤310：输出调整后的句子表示。

以图4所示的预训练语言模型BERT为例，输入到Transformer编码器的向量表示为h_0，每个Transformer的隐藏层的特征表示为h_l。其中，机器学习模型的输入层，用于对输入数据进行编码，如按照标志/位置/分段编码(也可以称为Token&Position&SegmentEmbeddings)。输入数据经过输入层的编码器编码后得到初始特征表示。初始特征表示进入第一个隐藏层(也可以称为layer1)的注意力单元(也可以称为Self-attention，如包含head 10，表示可以有10个注意力头)，基于自注意力机制提取更新特征表示。经过注意力单元的自注意力机制处理后得到的更新特征表示进入前馈单元(也可以称为Feed Forward)对更新特征表示进行线性变换，以学习到更加复杂的特征表示,并进行向前传播。需要说明的是，在图4所示的预训练语言模型中，以任一个隐藏层(图4所示Lx)示例，其他隐藏层可以存在但未示出。例如，根据图4所示的预训练语言模型，可以取预训练语言模型的最后一层的隐藏层生成的句子表示，取最后一个隐藏层的注意力单元的注意力矩阵主对角线上的权重值作为各个特征维度的重要度来调整句子表示。如图4所示，句子“itwill befine”中，单词“it”在注意力矩阵主对角线上的权重值为“0.1”，单词“will”在注意力矩阵主对角线上的权重值为“0.4”，单词“be”在注意力矩阵主对角线上的权重值为“0.1”,单词“fine”在注意力矩阵主对角线上的权重值为“0.3”。确定了各个单词在注意力矩阵主对角线上的权重值之后，使用这些权重值作为重要度对隐藏层生成的句子表示进行加权求和，得到调整后的句子表示。

通过该实施例可见，根据本说明书实施例提供的方法，可以基于注意力矩阵主对角线上的权重值，有效地估计单词在句子中的重要性，并减少无信息词对句子表示的影响，不需要增加任何参数，也不需要任何学习过程，只需利用预训练语言模型本身的信息，就可以生成更好的句子表示。通过在多个任务基准数据集上进行实验评估，结果表明，本说明书实施例提供的方法可以显著地改善各种预训练语言模型在任务上的性能，并且可以缓解各向异性问题。

与上述方法实施例相对应，本说明书还提供了基于机器学习模型处理特征的装置实施例，图5示出了本说明书一个实施例提供的一种基于机器学习模型处理特征的装置的结构示意图。如图5所示，该装置包括：

模型数据输入模块502，被配置为将输入数据输入机器学习模型，获得所述机器学习模型针对输入数据生成的特征表示；

模型数据获取模块504，被配置为基于所述机器学习模型对所述输入数据的注意力权重，确定所述特征表示的各个特征维度相对于所述特征表示的重要度；

调整特征模块506，被配置为利用所述各个特征维度的所述重要度，对所述特征表示进行调整，得到调整后的特征表示。

本说明书一个或多个实施例中，所述调整特征模块，被配置为利用所述各个特征维度的所述重要度，对所述特征表示进行加权计算，得到调整后的特征表示。

本说明书一个或多个实施例中，所述调整特征模块，被配置为基于所述各个特征维度的所述重要度，利用加权求和算法、加权平均算法、加权几何平均算法、加权调和平均算法中的任一种算法，对所述特征表示进行加权计算，得到调整后的特征表示。

本说明书一个或多个实施例中，所述机器学习模型包括：输入层、一个或多个隐藏层和输出层，其中，至少一个所述隐藏层中包含注意力单元，所述注意力单元用于基于注意力机制在输入的各个特征维度上赋予注意力权重，所述注意力权重形成注意力矩阵。模型数据获取模块，被配置为基于所述注意力矩阵主对角线上的权重值，确定所述特征表示的各个特征维度相对于所述特征表示的重要度。

本说明书一个或多个实施例中，所述模型数据输入模块，被配置为将输入数据输入机器学习模型的输入层，获得所述输入层针对所述输入数据进行编码生成的初始特征表示，将所述初始特征表示输入所述输入层之后的第一个隐藏层，获得所述第一个隐藏层针对所述初始特征表示进行特征转换生成的更新特征表示，如果所述机器学习模型中，所述第一个隐藏层之后还有隐藏层，则针对任一个隐藏层，将所述任一个隐藏层输出的更新特征表示输入到所述任一个隐藏层之后的下一个隐藏层，获得下一个隐藏层生成的更新特征表示。所述调整特征模块，被配置为针对至少一个隐藏层，利用所述至少一个隐藏层输出的更新特征表示的各个特征维度的重要度，对所述至少一个隐藏层输出的更新特征表示进行调整，得到调整后的特征表示。

本说明书一个或多个实施例中，所述调整特征模块，被配置为基于静态词隐藏层输出的更新特征表示的各个特征维度的重要度，对所述静态词隐藏层输出的更新特征表示进行调整，得到所述静态词隐藏层的调整后的更新特征表示,所述静态词隐藏层用于将词语表示为固定维度的特征表示；或者，基于最后一个隐藏层输出的更新特征表示的各个特征维度的重要度，对所述最后一个隐藏层输出的更新特征表示进行调整，得到所述最后一个隐藏层的调整后的更新特征表示；或者，基于第一个隐藏层和最后一个隐藏层输出的更新特征表示的各个特征维度的重要度，对所述第一个隐藏层和最后一个隐藏层输出的更新特征表示的平均值进行调整，得到所述平均值调整后的更新特征表示。

本说明书一个或多个实施例中，所述装置还包括：输出处理模块，被配置为将所述调整后的特征表示输入到所述输出层的分类器中，得到分类结果；或者，将所述调整后的特征表示输入到所述输出层的解码器中，得到解码后的解码结果；或者，将所述调整后的特征表示输入到所述输出层的相似计算模块中，使所述相似计算模块计算所述调整后的特征表示与待匹配特征表示的相似度，根据所述相似度确定特征匹配结果。

本说明书一个或多个实施例中，所述装置还包括：

请求接收模块，被配置为接收数据处理请求；

模型确定模块，被配置为根据所述数据处理请求，确定所述机器学习模型和所述输入数据；

结果返回模块，被配置为在得到调整后的特征表示之后，针对所述数据处理请求，返回所述调整后的特征表示对应的模型输出结果。

上述为本实施例的一种基于机器学习模型处理特征的装置的示意性方案。需要说明的是，该基于机器学习模型处理特征的装置的技术方案与上述的基于机器学习模型处理特征的方法的技术方案属于同一构思，基于机器学习模型处理特征的装置的技术方案未详细描述的细节内容，均可以参见上述基于机器学习模型处理特征的方法的技术方案的描述。

与上述方法实施例相对应，本说明书还提供了应用于端侧设备的数据处理方法实施例，图6示出了本说明书一个实施例提供的一种数据处理方法的流程图。如图6所示，该方法包括：

步骤602：接收用户发送的文本数据处理请求，其中，所述文本数据处理请求携带待处理文本。

例如：所述文本数据处理请求可以是文本匹配、问答、信息检索、情感分析、意图识别、主题分类、文本摘要、文本复述、文本风格转换等文本数据处理请求。

步骤604：将所述待处理文本输入机器学习模型，获得所述机器学习模型针对所述待处理文本生成的句子表示。

步骤606：基于所述机器学习模型对所述待处理文本的注意力权重，确定所述特征表示的各个特征维度相对于所述句子表示的重要度。

步骤608：利用所述各个特征维度的所述重要度，对所述句子表示进行调整，得到调整后的句子表示。

步骤610：获得所述机器学习模型基于所述调整后的句子表示生成的文本处理结果。

例如：根据请求内容，所述文本处理结果可以是文本匹配结果、问答的答案、检索到的信息、情感分析的结论、识别出的意图、分类主题、文本摘要、文本复述、风格转换后的文本等。

步骤612：向所述用户返回所述文本处理结果。

需要说明的是，步骤602至步骤612的实现方式可以参考上述步骤202至步骤206的实现方式，本说明书实施例对此不做任何限定。

实际应用中，向用户返回文本数据处理请求对应的文本处理结果的方式有多种，具体根据实际情况进行选择，本说明书实施例对此不做任何限定。本说明书一种可能的实现方式中，可以直接将文本处理结果发送给用户。本说明书另一种可能的实现方式中，可以根据用户的展示需求信息将文本处理结果发送给用户。其中，展示需求信息表征用户查看文本处理结果的需求。展示需求信息包括但不限于展示待处理文本和文本处理结果，展示需求信息具体根据用户实际需求进行设置，本说明书实施例对此不作任何限定。

应用本说明书实施例的方案，通过注意力权重确定的重要度来改善预训练的机器学习模型在没有微调的情况下生成的句子表示，进一步根据调整后的句子表示生成文本处理结果，不需要额外增加参数，也不需要额外的学习过程，有效缓解各向异性问题,显著地改善了预训练的语言机器学习模型执行文本处理任务的性能。

本说明书一种可选的实施例中，上述向所述用户返回所述文本处理结果之后，还可以包括以下步骤：

接收用户发送的文本补充请求，其中，所述文本补充请求携带待补充文本；

将所述待补充文本与所述待处理文本进行拼接，得到更新的待处理文本；

针对所述更新的待处理文本，进入所述将所述待处理文本输入机器学习模型，获得所述机器学习模型针对所述待处理文本生成的句子表示的步骤。

需要说明的是，向用户发送文本处理结果之后，可以接收用户基于文本处理结果发送的待补充文本。待补充文本包括但不限于文本调整信息、文本处理结果展示效果信息、文本处理结果调整信息等等，具体根据实际情况进行选择，本说明书实施例对此不做任何限定。

其中，待补充文本与待处理文本进行拼接，相当于将待补充文本作为提示信息，输入到机器学习模型，从而获得基于用户提示而调整后的文本处理结果。

应用本说明书实施例的方案，接收用户基于待处理文本发送的待补充文本，并基于待补充文本生成更新的文本处理结果，实现了与用户之间的数据交互，提高了用户体验度。

需要说明的是，本说明书实施例提供的方法可以应用于文本处理，音频处理等各种应用场景，上面文本处理的应用场景仅用于对本说明书实施例提供的方法进行示例性说明，而不构成对本说明书实施例提供的方法的限制。

例如，图7示出了本说明书另一个实施例提供的一种数据处理方法的流程图。如图7所示，该方法包括：

步骤702：接收用户发送的音频数据处理请求，其中，所述音频数据处理请求携带待处理音频。

例如：所述音频数据处理请求可以是音频匹配、音频问答、音频检索、音频内容情感分析、音频意图识别、音频主题分类、音频风格转换等音频数据处理请求。

步骤704：将所述待处理音频输入机器学习模型，获得所述机器学习模型针对所述待处理音频生成的音频特征表示。

步骤706：基于所述机器学习模型对所述待处理音频的注意力权重，确定所述音频特征表示的各个特征维度相对于所述音频特征表示的重要度。

步骤708：利用所述各个特征维度的所述重要度，对所述音频特征表示进行调整，得到调整后的音频特征表示。

步骤710：获得所述机器学习模型基于所述调整后的音频特征表示生成的音频处理结果。

例如：根据请求内容，所述音频处理结果可以是音频匹配结果、音频问答的答案、检索到的音频、音频情感分析的结论、音频识别出的意图、分类主题、风格转换后的音频等。

步骤712：向所述用户返回所述音频处理结果。

应用本说明书实施例的方案，通过注意力权重确定的重要度来改善预训练的机器学习模型在没有微调的情况下生成的音频特征表示，进一步根据调整后的音频特征表示生成音频处理结果，不需要额外增加参数，也不需要额外的学习过程，有效缓解各向异性问题,显著地改善了预训练的机器学习模型执行音频处理任务的性能。

参见图8，图8示出了本说明书一个实施例提供的一种音视频或文本处理界面的界面示意图。处理界面分为请求输入界面和结果展示界面。请求输入界面中包括请求输入框、“确定”控件以及“取消”控件。结果展示界面中包括结果展示框。

用户通过端侧设备显示的请求输入框输入音视频或文本处理请求，其中，音视频处理请求携带待处理音视频，文本处理请求携带待处理文本，用户点选“确定”控件，云侧设备接收端侧设备发送的待处理音视频或待处理文本，待处理音视频或待处理文本输入机器学习模型，经过各个特征维度对应的重要度调整了特征表示之后，基于调整后的特征表示获得对应音视频处理结果或文本处理结果，并将音视频处理结果或文本处理结果发送至端侧设备。端侧设备在结果展示框中显示处理结果。

实际应用中，用户对控件进行操作的方式包括点击、双击、触控、鼠标悬停、滑动、长按、语音控制或摇一摇等任一方式，具体根据实际情况进行选择，本说明书实施例对此不作任何限定。

图9示出了根据本说明书一个实施例提供的一种计算设备900的结构框图。该计算设备900的部件包括但不限于存储器910和处理器920。处理器920与存储器910通过总线930相连接，数据库950用于保存数据。

计算设备900还包括接入设备940，接入设备940使得计算设备900能够经由一个或多个网络960通信。这些网络的示例包括公用交换电话网(PSTN，Public SwitchedTelephone Network)、局域网(LAN，Local Area Network)、广域网(WAN，Wide AreaNetwork)、个域网(PAN，Personal Area Network)或诸如因特网的通信网络的组合。接入设备940可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC，networkinterface controller))中的一个或多个，诸如IEEE802.11无线局域网(WLAN，WirelessLocal Area Network)无线接口、全球微波互联接入(Wi-MAX，WorldwideInteroperability for Microwave Access)接口、以太网接口、通用串行总线(USB，Universal Serial Bus)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC，Near FieldCommunication)。

在本说明书的一个实施例中，计算设备900的上述部件以及图9中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图9所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备900可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或个人计算机(PC，Personal Computer)的静止计算设备。计算设备900还可以是移动式或静止式的服务器。

其中，处理器920用于执行如下计算机可执行指令，该计算机可执行指令被处理器执行时实现上述数据处理方法的步骤。

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的数据处理方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述数据处理方法的技术方案的描述。

本说明书一实施例还提供一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现上述数据处理方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的数据处理方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述数据处理方法的技术方案的描述。

本说明书一实施例还提供一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行上述数据处理方法的步骤。

上述为本实施例的一种计算机程序的示意性方案。需要说明的是，该计算机程序的技术方案与上述的数据处理方法的技术方案属于同一构思，计算机程序的技术方案未详细描述的细节内容，均可以参见上述数据处理方法的技术方案的描述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-On ly Memory)、随机存取存储器(RAM，Random AccessMemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据专利实践的要求进行适当的增减，例如在某些地区，根据专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本说明书实施例并不受所描述的动作顺序的限制，因为依据本说明书实施例，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本说明书实施例所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书实施例的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本说明书实施例的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种数据处理方法，包括：

将输入数据输入机器学习模型，获得所述机器学习模型针对输入数据生成的特征表示；

基于所述机器学习模型对所述输入数据的注意力权重，确定所述特征表示的各个特征维度相对于所述特征表示的重要度；

利用所述各个特征维度的所述重要度，对所述特征表示进行调整，得到调整后的特征表示。

2.根据权利要求1所述的方法，所述利用所述各个特征维度的所述重要度，对所述特征表示进行调整，得到调整后的特征表示，包括：

3.根据权利要求2所述的方法，所述利用所述各个特征维度的所述重要度，对所述特征表示进行加权计算，得到调整后的特征表示，包括：

4.根据权利要求1所述的方法，所述机器学习模型包括：输入层、一个或多个隐藏层和输出层，其中，至少一个所述隐藏层中包含注意力单元，所述注意力单元用于基于注意力机制在输入的各个特征维度上赋予注意力权重，所述注意力权重形成注意力矩阵；

所述基于所述机器学习模型对所述输入数据的注意力权重，确定所述特征表示的各个特征维度相对于所述特征表示的重要度，包括：

5.根据权利要求4所述的方法，所述将输入数据输入机器学习模型，获得所述机器学习模型针对输入数据生成的特征表示，包括：

6.根据权利要求5所述的方法，所述基于至少一个隐藏层输出的所述更新特征表示的各个特征维度的重要度，对所述更新特征表示进行调整，得到调整后的特征表示，包括：

或者，

7.根据权利要求4所述的方法，还包括：

8.根据权利要求1所述的方法，在所述获得所述机器学习模型针对输入数据生成的特征表示之前，还包括：

接收数据处理请求；

在得到调整后的特征表示之后，还包括：

9.一种数据处理方法，应用于端侧设备，包括：

向云侧设备发送数据处理请求，使所述云侧设备根据所述数据处理请求，确定所述机器学习模型和所述输入数据,获得所述机器学习模型针对输入数据生成的特征表示，基于所述机器学习模型对所述输入数据的注意力权重，确定所述特征表示的各个特征维度相对于所述特征表示的重要度，利用所述各个特征维度的所述重要度，对所述特征表示进行调整，得到调整后的特征表示，针对所述数据处理请求，返回所述调整后的特征表示对应的模型输出结果；

接收所述云侧设备返回的模型输出结果。

10.一种数据处理方法，包括：

接收用户发送的文本数据处理请求，其中，所述文本数据处理请求携带待处理文本；

将所述待处理文本输入机器学习模型，获得所述机器学习模型针对所述待处理文本生成的句子表示；

基于所述机器学习模型对所述待处理文本的注意力权重，确定所述特征表示的各个特征维度相对于所述句子表示的重要度；

利用所述各个特征维度的所述重要度，对所述句子表示进行调整，得到调整后的句子表示；

获得所述机器学习模型基于所述调整后的句子表示生成的文本处理结果；

向所述用户返回所述文本处理结果。

11.根据权利要求10所述的方法，所述向所述用户返回所述文本处理结果之后，还包括：

12.一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1至11任意一项所述数据处理方法的步骤。

13.一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1至11任意一项所述数据处理方法的步骤。