CN111368078A

CN111368078A - 一种模型训练的方法、文本分类的方法、装置及存储介质

Info

Publication number: CN111368078A
Application number: CN202010129552.8A
Authority: CN
Inventors: 刘宜进; 孟凡东; 周杰; 徐金安
Original assignee: Tencent Technology Shenzhen Co Ltd; Beijing Jiaotong University
Current assignee: Tencent Technology Shenzhen Co Ltd; Beijing Jiaotong University
Priority date: 2020-02-28
Filing date: 2020-02-28
Publication date: 2020-07-03

Abstract

本申请公开了一种模型训练的方法，包括：获取待训练文本；获取待训练文本中每个词语所对应的第一深度标签；基于每个词语的词嵌入，通过文本分类模型中的深度值分类器获取每个词语所对应的深度概率分布向量；基于每个词语所对应的第二深度标签以及每个词语所对应的词嵌入，通过文本分类模型获取类别概率分布向量；根据待训练文本所对应的真实分类标签、类别概率分布向量、第一深度标签以及深度概率分布向量，采用目标损失函数对文本分类模型的模型参数进行更新。本申请还公开了一种基于人工智能的文本分类方法。本申请可以独立预测每个词语对应的深度值，而不会受到下游任务类型和数据集的干扰，从而提升模型的鲁棒性。

Description

一种模型训练的方法、文本分类的方法、装置及存储介质

技术领域

本申请涉及人工智能领域，尤其涉及一种模型训练的方法、文本分类的方法、装置及存储介质。

背景技术

对说话人意图的识别极大地推进了自然语言理解任务的发展，而基于自然语言理解的文本分类技术引起了人们的广泛关注。文本分类技术可以作为信息检索、信息过滤、搜索引擎、文本数据库以及数字化图书馆等领域的技术基础，有着广泛的应用前景。

目前，已提出高效的深度学习模型，例如，万能翻译机(Universal Transformer)模型，Universal Transformer模型将循环神经网络(Recurrent Neural Network，RNN)的归纳偏置引入Transformer模型中，不但可以并行处理文本序列中的词语，并利用自注意力机制将上下文与距离较远的词语结合起来，还可以针对每个词语对应的位置增加停止模块，用于控制每个位置的执行深度。

然而，在训练上述深度学习模型的过程中，由于停止模块需要跟随下游任务共同训练，而不同的任务可能会涉及到不同的数据集，导致停止模块的训练会受到不同任务类型和不同数据集的干扰，导致模型的鲁棒性较差。

发明内容

本申请实施例提供了一种模型训练的方法、文本分类的方法、装置及存储介质，能够获取每个词语显性的深度标签作为监督信号，独立训练文本分类模型中的深度值分类器，训练过程不会受到下游任务类型和数据集的干扰，从而提升模型的鲁棒性。

有鉴于此，本申请第一方面提供一种模型训练的方法，包括：

获取待训练文本，其中，待训练文本包括至少一个词语，每个词语对应于一个词嵌入，且待训练文本对应于一个真实分类标签；

获取待训练文本中每个词语所对应的第一深度标签；

基于待训练文本中每个词语的词嵌入，通过文本分类模型中的深度值分类器获取每个词语所对应的深度概率分布向量，其中，深度概率分布向量用于确定第二深度标签，第二深度标签表示词语在文本分类模型中采用网络层处理的层级数；

基于每个词语所对应的第二深度标签以及每个词语所对应的词嵌入，通过文本分类模型获取待训练文本所对应的类别概率分布向量；

根据待训练文本所对应的真实分类标签、类别概率分布向量、第一深度标签以及深度概率分布向量，采用目标损失函数对文本分类模型的模型参数进行更新。

本申请第二方面提供一种文本分类的方法，包括：

获取待分类文本中每个词语的词嵌入，其中，待分类文本包括至少一个词语；

基于待分类文本中每个词语的词嵌入，通过文本分类模型中的深度值分类器获取每个词语所对应的深度概率分布向量，其中，文本分类模型为第一方面涉及的文本分类模型；

根据每个词语所对应的深度概率分布向量，确定每个词语的深度标签，其中，深度标签表示词语在文本分类模型中采用网络层处理的层级数；

基于每个词语所对应的深度标签以及每个词语所对应的词嵌入，通过文本分类模型获取待分类文本所对应的类别概率分布向量；

根据待分类文本所对应的类别概率分布向量，确定待分类文本的分类结果。

本申请第三方面提供一种模型训练装置，包括：

获取模块，用于获取待训练文本，其中，待训练文本包括至少一个词语，每个词语对应于一个词嵌入，且待训练文本对应于一个真实分类标签；

获取模块，还用于获取待训练文本中每个词语所对应的第一深度标签；

获取模块，还用于基于待训练文本中每个词语的词嵌入，通过文本分类模型中的深度值分类器获取每个词语所对应的深度概率分布向量，其中，深度概率分布向量用于确定第二深度标签，第二深度标签表示词语在文本分类模型中采用网络层处理的层级数；

获取模块，还用于基于每个词语所对应的第二深度标签以及每个词语所对应的词嵌入，通过文本分类模型获取待训练文本所对应的类别概率分布向量；

更新模块，用于根据待训练文本所对应的真实分类标签、类别概率分布向量、第一深度标签以及深度概率分布向量，采用目标损失函数对文本分类模型的模型参数进行更新。

在一种可能的设计中，在本申请实施例的第三方面的第一种实现方式中，模型训练装置还包括建立模块；

建立模块，用于获取模块获取待训练文本中每个词语所对应的第一深度标签之前，建立词语深度值关系，其中，词语深度值关系包括词语与深度标签之间的映射关系；

获取模块，具体用于根据词语深度值关系确定待训练文本中每个词语所对应的第一深度标签。

在一种可能的设计中，在本申请实施例的第三方面的第二种实现方式中，

建立模块，具体用于根据文本集合中包含目标词语的文本数量以及文本集合的文本总数，确定目标词语对应的第一概率，其中，文本集合中至少包括至少一个文本，目标词语表示词语集合中的任意一个词语，词语集合来源于文本集合；

根据属于目标分类标签的文本数量以及文本集合的文本总数，确定目标分类标签对应的第二概率，其中，目标分类标签为分类标签集合中的任意一个标签；

根据目标分类标签对应的文本中出现目标词语的文本数量以及文本集合的文本总数，确定第三概率；

根据第一概率、第二概率以及第三概率，确定目标词语所对应的互信息值；

根据目标词语所对应的互信息值，确定目标词语所对应的深度标签；

将目标词语以及目标词语所对应的深度标签之间的映射关系添加至词语深度值关系中；

获取模块，具体用于若待训练文本中包含目标词语，则根据词语深度值关系，确定待训练文本中目标词语所对应的第一深度标签。

在一种可能的设计中，在本申请实施例的第三方面的第三种实现方式中，

建立模块，具体用于获取词语集合中词语的最大互信息值以及最小互信息值，其中，最大互信息值与最小互信息值均经过负对数计算；

根据最大互信息值以及最小互信息值，确定互信息范围；

根据深度值阈值对互信息范围进行划分，得到M个深度区间，其中，每个深度区间对应于一个深度标签，M为大于或等于1的整数；

对目标词语所对应的互信息值进行负对数计算，得到目标互信息值；

根据M个深度区间，确定目标互信息值所对应的目标深度区间；

根据目标深度区间确定目标词语所对应的深度标签。

在一种可能的设计中，在本申请实施例的第三方面的第四种实现方式中，

获取模块，具体用于针对待训练文本中的每个词语，通过遮蔽语言模型获取每个网络层所对应的损失值，其中，遮蔽语言模型包括M个网络层，每个网络层对应于一个深度标签，M为大于或等于1的整数；

针对待训练文本中的每个词语，根据每个网络层所对应的损失值确定最小损失值；

针对待训练文本中的每个词语，将损失最小值所对应的深度标签确定为第一深度标签。

在一种可能的设计中，在本申请实施例的第三方面的第五种实现方式中，

获取模块，还用于在针对待训练文本中的每个词语，通过遮蔽语言模型获取每个网络层所对应的损失值之前，获取待训练遮蔽语言模型中每个网络层所对应的权重值；

获取模块，还用于根据每个网络层所对应的损失值以及每个网络层所对应的权重值，确定每个网络层所对应的目标损失值；

更新模块，还用于根据每个网络层所对应的目标损失值，对待训练遮蔽语言模型中每个网络层的模型参数进行更新，得到遮蔽语言模型。

在一种可能的设计中，在本申请实施例的第三方面的第六种实现方式中，

获取模块，具体用于获取待训练文本中每个词语所对应的词嵌入，其中，词嵌入包括字符级词嵌入以及预训练词嵌入中至少一项；

根据待训练文本中每个词语所对应的词嵌入，生成句子特征向量；

基于句子特征向量，通过文本分类模型获取待训练文本的隐藏状态向量；

基于隐藏状态向量，通过文本分类模型中的深度值分类器获取待训练文本的深度概率分布矩阵；

根据待训练文本的深度概率分布矩阵，获取待训练文本中每个词语所对应的深度概率分布向量。

在一种可能的设计中，在本申请实施例的第三方面的第七种实现方式中，

获取模块，具体用于基于每个词语所对应的第二深度标签以及每个词语所对应的词嵌入，通过文本分类模型获取文本编码结果；

根据文本编码结果生成特征向量拼接结果；

采用激活函数对特征向量拼接结果进行计算，得到目标文本特征向量；

基于目标文本特征向量，通过文本分类模型获取待训练文本所对应的类别概率分布向量。

在一种可能的设计中，在本申请实施例的第三方面的第八种实现方式中，

获取模块，具体用于若第一词语所对应的第二深度标签为P，通过文本分类模型中的P个网络层，对第一词语所对应的词嵌入进行编码，得到第一词语所对应的词语编码结果，其中，第一词语属于待训练文本中的任意一个词语，P为大于或等于1的整数；

若第二词语所对应的深度标签为Q，通过文本分类模型中的Q个网络层，对第二词语所对应的词嵌入进行编码，得到第二词语所对应的词语编码结果，其中，第二词语属于待训练文本中不同于第一词语的任意一个词语，P为大于或等于1的整数；

根据第一词语所对应的词语编码结果以及第二词语所对应的词语编码结果，获取待训练文本所对应的文本编码结果。

在一种可能的设计中，在本申请实施例的第三方面的第九种实现方式中，

更新模块，具体用于采用目标损失函数中的第一损失函数，对待训练文本所对应的真实分类标签以及类别概率分布向量进行计算，得到第一损失值；

采用目标损失函数中的第二损失函数，对待训练文本所对应的第一深度标签以及深度概率分布向量进行计算，得到第二损失值；

根据第一损失值以及第二损失值，计算得到目标损失值；

采用目标损失值对文本分类模型的模型参数进行更新。

本申请第四方面提供一种文本分类装置，包括：

获取模块，用于获取待分类文本中每个词语的词嵌入，其中，待分类文本包括至少一个词语；

获取模块，还用于基于待分类文本中每个词语的词嵌入，通过文本分类模型中的深度值分类器获取每个词语所对应的深度概率分布向量，其中，文本分类模型为上述第一方面涉及的文本分类模型；

确定模块，用于根据获取模块获取的每个词语所对应的深度概率分布向量，确定每个词语的深度标签，其中，深度标签表示词语在文本分类模型中采用网络层处理的层级数；

获取模块，还用于基于确定模块确定的每个词语所对应的深度标签以及每个词语所对应的词嵌入，通过文本分类模型获取待分类文本所对应的类别概率分布向量；

确定模块，还用于根据获取模块获取的待分类文本所对应的类别概率分布向量，确定待分类文本的分类结果。

本申请的第五方面提供了一种计算机设备，其特征在于，包括：存储器、收发器、处理器以及总线系统；

其中，存储器用于存储程序；

处理器用于执行存储器中的程序，包括执行上述各方面的方法；

总线系统用于连接存储器以及处理器，以使存储器以及处理器进行通信。

本申请的第六方面提供了一种计算机可读存储介质，计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面的方法。从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例中，提供了一种模型训练的方法，首先获取待训练文本中每个词语所对应的第一深度标签，再基于待训练文本中每个词语的词嵌入，通过文本分类模型中的深度值分类器获取每个词语所对应的深度概率分布向量，该深度概率分布向量用于确定第二深度标签，然后基于每个词语所对应的第二深度标签以及每个词语所对应的词嵌入，通过文本分类模型获取待训练文本所对应的类别概率分布向量，最后根据待训练文本所对应的真实分类标签、类别概率分布向量、第一深度标签以及深度概率分布向量，采用目标损失函数对文本分类模型的模型参数进行更新。通过上述方式，能够获取每个词语显性的深度标签作为监督信号，独立训练文本分类模型中的深度值分类器，即可以利用该深度值分类器可以预测每个词语对应的深度标签，训练过程不会受到下游任务类型和数据集的干扰，从而提升模型的鲁棒性。

附图说明

图1为本申请实施例中应用于新闻自动分类场景的一个界面示意图；

图2为本申请实施例中应用于邮件自动过滤场景的一个界面示意图；

图3为本申请实施例中应用于评论情感分析场景的一个界面示意图；

图4为本申请实施例中文本分类系统的一个环境示意图；

图5为本申请实施例中模型训练的方法一个实施例示意图；

图6为本申请实施例中具有自适应深度的文本分类模型的一个结构示意图；

图7为本申请实施例中词语对应互信息值指标的一个柱形示意图；

图8为本申请实施例中词语基于重构损失指标生成深度标签的一个柱形示意图；

图9为本申请实施例中文本分类的方法一个实施例示意图；

图10为基于实验数据得到不同训练方式下各模型的一个准确率对比示意图；

图11为基于实验数据得到不同训练方式下各模型的一个速率对比示意图；

图12为基于互联网电影资料库IMDB数据集中随机样本的深度标签对比示意图；

图13为本申请实施例中模型训练装置的一个实施例示意图；

图14为本申请实施例中文本分类装置的一个实施例示意图；

图15为本申请实施例中服务器的一个结构示意图。

具体实施方式

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应理解，本申请采用基于人工智能(Artificial Intelligence，AI)的自然语言处理(Nature Language processing，NLP)技术实现文本分类。人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

而自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

应理解，本申请提供的文本分类方法能够推断出给定文本(比如词语、句子或者文档等)的标签或者标签集合，其应用也较为广泛，例如新闻分类、垃圾信息过滤、用户评论分析以及词性标注等。下面将以三个具体的场景为例进行介绍：

场景一、新闻自动分类；

对于大量的新闻而言，可以采用自动分类系统对这些新闻进行分类处理，分类的依据包含但不仅限于新闻标题、新闻内容以及作者信息。在分类结束后，通过客户端或者网站展示相关类别下的新闻内容。请参阅图1，图1为本申请实施例中应用于新闻自动分类场景的一个界面示意图，如图所示，以对新闻标题进行自动分类为例，新闻1的标题为“女足将附加赛场定在悉尼”，自动分类系统采用本申请提供的文本分类方法可以得到新闻1属于“体育”标签。类似地，基于标题“如何烹调一晚暖暖胡辣汤”，可将新闻2归类于“美食”标签。基于标题“人工智能还能为你的生活带来什么”，可将新闻3归类于“科技”标签。基于标题“2019年下载量最高的十大手游”，可将新闻4归类于“游戏”标签。基于标题“2020年推荐的十大烧脑神剧”，可将新闻5归类于“娱乐”标签。基于标题“不要把鸡蛋放在一个篮子里的投资智慧”，可将新闻6归类于“财经”标签。基于标题“火爆剧组送福利啦快来看看有什么”，可将新闻7归类于“娱乐”标签。基于标题“奶油小蛋糕好吃到停不下来”，可将新闻8归类于“美食”标签。基于标题“新能源汽车的发展前景”，可将新闻9归类于“科技”标签。

场景二、邮件自动过滤；

对于邮件过滤系统而言，通常会针对邮件中出现的一些文本进行识别，判断出该邮件是否属于垃圾邮件。识别的依据包含但不仅限于邮件标题、邮件正文以及发件人信息。请参阅图2，图2为本申请实施例中应用于邮件自动过滤场景的一个界面示意图，如图所示，以对邮件正文进行识别为例，采用本申请提供的文本分类方法，对“ABC团队为您提供最优惠的价格，酒店、机票、火车票以及船票，均打7折，欢迎前来咨询”进行分类，得到属于垃圾邮件的概率为0.8，于是可以判定这封邮件为垃圾邮件，从而可以对该邮件进行标注。

场景三、评论情感分析；

对于用户评论而言，可以采用本申请提供的文本分类方法对评论内容进行情感分析，再基于分析结果进行统计等处理。请参阅图3，图3为本申请实施例中应用于评论情感分析场景的一个界面示意图，如图所示，具体地，网友甲发表的评论为“哇，这部剧真的超级好看，推荐”，经过分类后得到该评论属于“非常积极”的标签。网友乙发表的评论为“我觉得还OK啦，打发时间看看”，经过分类后得到该评论属于“积极”的标签。网友丙发表的评论为“一般一般”，经过分类后得到该评论属于“消极”的标签。网友丁发表的评论为“哎呀，我觉得这剧情走向太混乱了，真的不喜欢啊”，经过分类后得到该评论属于“非常消极”的标签。

为了便于理解，本申请提出了一种文本分类的方法，该方法应用于图4所示的文本分类系统，请参阅图4，图4为本申请实施例中文本分类系统的一个环境示意图，如图所示，文本分类系统可以包括客户端以及服务器，通常情况下，由服务器采用大量的待训练文本训练得到文本分类模型，该文本分类模型保存至服务器或者保存至终端设备。假设文本分类模型保存在服务器侧，则由服务器采用文本分类模型对待分类文本进行分类处理，假设有十万个待分类的文本(包括句子和文章等内容)，服务器分别对这十万个文本进行分类，从而得到每个文本所对应的分类结果，再基于每个文本的分类结果对文本进行统计、归类或者过滤等处理，将处理结果反馈至客户端。可选地，假设文本分类模型保存在终端设备侧，则由终端设备对待分类的文本进行分类处理，得到分类结果之后，再基于每个文本的分类结果对文本进行处理，并将处理结果反馈至客户端。

需要说明的是，客户端部署于终端设备上，其中，终端设备包含但不仅限于平板电脑、笔记本电脑、掌上电脑、手机、语音交互设备及个人电脑(personal computer，PC)，此处不做限定。其中，语音交互设备包含但不仅限于智能音响以及智能家电。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及人工智能的自然语言处理等技术，结合上述介绍，下面将对本申请中文本分类模型的训练方式进行介绍，请参阅图5，本申请实施例中模型训练的方法一个实施例包括：

101、获取待训练文本，其中，待训练文本包括至少一个词语，每个词语对应于一个词嵌入，且待训练文本对应于一个真实分类标签；

本实施例中，模型训练装置获取待训练文本，待训练文本包含但不仅限于词语、句子、段落以及文章等，且待训练文本的语种表示包含但不仅限于英文、中文以及日文等。待训练文本包括至少一个词语，每个词语生成一个对应的词嵌入(word embedding)。其中，词嵌入是一种将文本中的词转换成数字向量的方法，能够使机器学习算法对文本进行分析，每个词语被映射为实数域上的向量，即生成了词向量。

具体地，本申请涉及的词嵌入可以包括两种类型，即字符级词嵌入以及预训练词嵌入，预训练词嵌入可以为词向量(word to vector，Word2vec)或者单词表示的全局向量(Global vectors for word representation，Glove)，本申请以采用Glove作为预训练词嵌入为例进行说明，然而这不应理解为对本身的限定。对于字符级词嵌入而言，需要针对一个词语中每个字符进行处理，比如词语“苹果”的英文是apple，字符级词嵌入需要将每个字符，即“a”、“p”、“p”、“l”及“e”分别经过卷积和池化处理，最终得到每个字符的表示，拼接后生成该词语的字符级词嵌入。Glove主要是将词语进行向量化表示。假设字符级词嵌入采用50维表示一个词语，预训练词嵌入采用300维表示一个词语，那么该词语的词嵌入为字符级词嵌入以及预训练词嵌入拼接后的结果，即采用350维表示。

在训练的过程中，通常需要采用大量的待训练文本对模型进行训练，为了便于说明，本申请以一个待训练文本为例进行介绍，在实际训练中，训练集中的各个文本均采用类似方式进行训练。其中，每个待训练文本都需要提前标注真实分类标签，假设为二分类任务，则待训练文本可以标注“0”或者“1”。假设为多分类(如K个分类)任务，则待训练文本可以标注为K个分类中的一个。

需要说明的是，模型训练装置可以部署于服务器，或者部署于终端设备，本申请以部署于服务器为例进行介绍，此处不做限定，需要说明的是，本申请涉及的文本分类网络可以采用循环神经网络(Recurrent Neural Network，RNN)的结构，也可以采用UniversalTransformer或者Transformer的结构等，此处不做限定。

102、获取待训练文本中每个词语所对应的第一深度标签；

本实施例中，模型训练装置获取待训练文本中每个词语所对应的第一深度标签，其中，第一深度标签可以认为是“伪标签”，也就是说，第一深度标签可以是根据经验值预先定义的，例如，词语“apple(苹果)”这个词语的含义比较明确，不容易产生歧义，于是可以将该词语的第一深度标签设置的小一些，比如2。又例如，词语“magnificent(壮丽的)”可能在多种语境下存在不同的含义，容易产生歧义，比如一个词容易产生歧义，因此需要更多的上下文信息帮助消歧，进而优化当前词的特征表示，也就是需要更深的计算层数。于是可以将该词语的第一深度值表示设置的大一些，比如6。在本申请中，深度标签与深度值具有对应关系，深度标签越大表示深度值越大，比如，深度标签为6，则表示深度值为6，以此类推。

第一深度标签也可以是根据词语学习难度生成的标签，例如，基于互信息(MutualInformation，MI)的指标生成词语的第一深度标签，又例如，基于重构损失的指标生成词语的第一深度标签，后续实施例将对这两种方式进行详细说明。

103、基于待训练文本中每个词语的词嵌入，通过文本分类模型中的深度值分类器获取每个词语所对应的深度概率分布向量，其中，深度概率分布向量用于确定第二深度值标签，第二深度标签表示词语在文本分类模型中采用网络层处理的层级数；

本实施例中，模型训练装置在获取到待训练文本中每个词语的词嵌入之后，可以将每个词嵌入输入至文本分类模型中的深度值分类器，由深度值分类器输出与待训练文本序列等长的隐藏状态。

为了便于理解，请参阅图6，图6为本申请实施例中具有自适应深度的文本分类模型的一个结构示意图，如图所示，文本分类模型包括L个网络层，每个网络层包括两个子网络层，第一个子网络层是一个多头点乘的自注意力层，第二个子网络是全连接的前馈神经网络。其中，文本分类模型的第一层构建深度值分类器，该深度值分类器用于动态预测每个词语位置的第二深度标签，每个词语基于各自的第二深度标签进行相应层级数的编码处理。假设待训练文本包括n个词语，其中，第i个词语的词嵌入表示为x_i，i表示1至n中任意一个整数。将n个词语所对应的词嵌入x₁,...,x_n输入至输入层进行编码，得到每个词语所对应的隐藏状态，第i个词语在第t时刻的隐藏状态表示为

n个词语所对应的隐藏状态为

将隐藏状态为

中每个词语的隐藏状态分别输入至对应的深度值分类器，由此输出对应的深度概率分布向量。

具体地，例如词语“apple”输出的深度概率分布向量为(0.1,0.7,0.2)，其中，0.1对应的深度标签为1，0.7对应的深度标签为2，0.2对应的深度标签为3，将最大值0.7所对应的深度标签确定为第二深度标签即可。第二深度标签为2表示词语“apple”需要经过文本分类模型中2个层级的网络层对该词语进行编码。又例如词语“terrible(糟糕的)”输出的深度概率分布向量为(0.1,0.1,0.8)，将最大值0.8所对应的深度标签确定为第二深度标签即可。第二深度标签为3表示词语“terrible”需要经过文本分类模型中3个层级的网络层对该词语进行编码。

104、基于每个词语所对应的第二深度标签以及每个词语所对应的词嵌入，通过文本分类模型获取待训练文本所对应的类别概率分布向量；

本实施例中，模型训练装置在步骤103中可以得到待训练文本中每个词语的第二深度标签，于是按照每个词语对应的第二深度标签以及的词嵌入，通过文本分类模型进行编码，得到文本编码结果，再基于文本编码结果获取类别概率分布向量。

具体地，例如待训练文本输出的类别概率分布向量为(0.2,0.1,0.5,0.2)，其中，0.2对应的分类标签为A，0.1对应的分类标签为B，0.5对应的分类标签为C，0.2对应的分类标签为D，将最大值0.5所对应的分类标签C为该待训练文本的分类结果。

105、根据待训练文本所对应的真实分类标签、类别概率分布向量、第一深度标签以及深度概率分布向量，采用目标损失函数对文本分类模型的模型参数进行更新。

本实施例中，模型训练装置根据待训练文本所对应的真实分类标签以及类别概率分布向量，可以计算出类别损失值，根据待训练文本所对应的第一深度标签以及深度概率分布向量，可以计算出深度损失值，采用目标损失函数计算类别损失值与深度损失值的综合损失值，利用该综合损失值可以对文本分类模型的模型参数进行更新。在实际应用中，需要根据大量待训练文本所对应的综合损失值，对文本分类模型的模型参数进行更新。

可选地，在上述图5对应的各个实施例的基础上，本申请实施例提供的模型训练的方法另一个可选实施例中，获取待训练文本中每个词语所对应的第一深度标签之前，还可以包括：

建立词语深度值关系，其中，词语深度值关系包括词语与深度标签之间的映射关系；

获取待训练文本中每个词语所对应的第一深度标签，可以包括：

根据词语深度值关系确定待训练文本中每个词语所对应的第一深度标签。

本实施例中，介绍了一种利用词语深度值关系查询词语对应第一深度标签的方式，首先需要构建词语深度值关系，该词语深度值关系可以以表格的形式存储，也可以以键值对的形式存储，还可以以其他方式存储。

具体地，在训练文本分类模型之前可以构建词语深度值关系，下面将以表格形式存储的词语深度值关系为例进行介绍，请参阅表1，表1为词语深度值关系的一个示意。

表1

词语	深度标签
		bad	1
great	3
		am	3
best	1
		I	1
horrible	3
		the	2

由表1可知，词语深度值关系包括词语与深度标签之间的映射关系，例如词语“bad(坏)”的深度标签为1，词语“great(好)”的深度标签为3。假设待训练文本为“I am thebest(我是最棒的)”，基于表1所示的词语深度值关系，查表可以得到每个词语所对应的第一深度标签，即词语“I”的第一深度标签为1，词语“am”的第一深度标签为2，词语“the”的第一深度标签为2，词语“best”的第一深度标签为1。

其次，本申请实施例中，提供了一种利用词语深度值关系查询词语对应第一深度标签的方式，即需要先构建词语深度值关系，然后基于该词语深度值关系查询词语对应的第一深度标签。通过上述方式，能够预先构建词语深度值关系，从而可以在模型训练的过程中，直接从词语深度值关系中提取词语对应的深度标签作为“伪标签”，用于后续的监督训练，由此提升深度标签获取的便利性，有利于提升模型训练的效率。

可选地，在上述图5对应的各个实施例的基础上，本申请实施例提供的模型训练的方法另一个可选实施例中，建立词语深度值关系，可以包括：

根据文本集合中包含目标词语的文本数量以及文本集合的文本总数，确定目标词语对应的第一概率，其中，文本集合中至少包括至少一个文本，目标词语表示词语集合中的任意一个词语，词语集合来源于文本集合；

根据词语深度值关系确定待训练文本中每个词语所对应的第一深度标签，可以包括：

若待训练文本中包含目标词语，则根据词语深度值关系，确定待训练文本中目标词语所对应的第一深度标签。

本实施例中，介绍了一种基于MI值构建词语深度值关系的方式，MI值用于衡量两个变量之间的关系以及关系的强弱，两个离散随机数X和Y的MI值表示为：

基于此，本申请提供的文本分类方案中，词语的MI值越大，表示该词语和分类标签之间的关系越强，因此，需要学习该词语的计算量越小。例如，词语“terrible(糟糕的)”可以在很大程度上被认为是“消极”的标签，因此，这个词语无需经过较深的网络层，即据哟较小的第一深度标签。由此可见，MI值可以直观地衡量词语学习的难度。

具体地，由于待训练文本包括至少一个词语，因此，为了便于说明，本申请以文本集合中任意一个词语为例进行介绍，即从文本集合中提取目标词语，然后获取该目标词语所对应的深度标签，可以理解的是，文本集合为一个训练集，通常包括大量的文本(即用于训练的语句)，每个文本包括至少一个词语。为了能够使得待训练文本中的词语能够基于词语深度值关系查找到对应的第一深度标签，在构建词语深度值关系时，可以采用包括待训练文本的文本集合。本申请将每个词语和分类标签的MI值作为衡量学习该词语的难度，即：

其中，MI(w)表示词语w的MI值，w表示文本集合中的任意一个词语，即目标词语。C表示分类标签的总数，c表示第c个分类标签。e_w表示目标词语是否出现在当前的文本中，e_w为一个二值变量，e_w为1表示出现在当前的文本中，e_w为0表示未出现在当前的文本中。e_c表示第c个分类标签是否当前文本的分类标签，e_c也是一个二值变量，e_c为1表示第c个分类标签是当前文本的分类标签，e_w为0表示第c个分类标签不是当前文本的分类标签。

基于上述公式，需要从文本集合中获取包括目标词语的文本数量，然后根据文本集合中包含目标词语的文本数量以及文本集合的文本总数，确定目标词语对应的第一概率。假设文本集合有100个文本，例如，目标词语为“apple”，假设100个文本中有5个文本出现了目标词语为“apple”，那么第一概率p(e_w)表示为5/100。

基于上述公式，需要从整个文本集合中获取属于目标分类标签的文本数量，然后根据属于目标分类标签的文本数量以及文本集合的文本总数，确定目标分类标签对应的第二概率。这里的目标分类标签为分类标签集合中的任意一个标签，即第c个分类标签。例如，目标分类标签为“消极的”，假设100个文本中有68个文本的分类标签为“消极的”，那么第二概率p(e_c)表示为68/100。

基于上述公式，需要根据目标分类标签对应的文本中出现目标词语的文本数量以及文本集合的文本总数，确定第三概率。假设文本集合有100个文本，目标词语为“apple”，目标分类标签为“消极的”，在目标分类标签对应的文本数量有68个，其中存在目标词语的文本数量为3个，那么第三概率p(e_w,e_c)表示为3/100。

结合上述计算得到的第一概率、第二概率以及第三概率，可以计算得到每个词语的MI值，再分别根据每个词语的MI值确定对应的深度标签，然后将词语与对应的深度标签之间的映射关系添加到词语深度值关系中。这里以目标词语“apple”为例，假设目标词语“apple”的深度标签为5，则词语深度值关系中记录有词语“apple”对应于深度标签5的映射关系。在模型训练的阶段，需要获取每个待训练文本中每个词语的第一深度标签，假设待训练文本为“I like apple”，基于词语深度值关系可知，目标词语“apple”的深度标签为5，即目标词语的第一深度标签为5。

再次，本申请实施例中，提供了一种基于MI值构建词语深度值关系的方式，即分别获取词语对应的第一概率、第二概率以及第三概率，基于这三个概率值可以计算出该词语的MI值，再利用该词语的MI值确定该词语的深度标签，由此构建出该词语与深度标签之间的映射关系。通过上述方式，将词语的MI值与词语的深度标签进行关联具有较好的解释性以及合理性。通常情况下，词语的MI值越大，表示该词语和某个分类标签之间的确定性就越高，因此，学习该词语的所需的计算量越少，即分配的深度标签也越小。

可选地，在上述图5对应的各个实施例的基础上，本申请实施例提供的模型训练的方法另一个可选实施例中，根据目标词语所对应的互信息值，确定目标词语所对应的深度标签，可以包括：

获取词语集合中词语的最大互信息值以及最小互信息值，其中，最大互信息值与最小互信息值均经过负对数计算；

根据最大互信息值以及最小互信息值，确定互信息范围；

根据目标深度区间确定目标词语所对应的深度标签。

本实施例中，介绍了一种基于MI值确定词语对应深度标签的方式，由于待训练文本包括至少一个词语，因此，为了便于说明，本申请以文本集合中任意一个词语为例进行介绍，即从文本集合中提取目标词语，根据该目标词语所对应的互信息值，确定目标词语所对应的深度标签。

具体地，假设文本集合有8个文本，这8个文本中共出现了43个不相同的词语，即词语集合中包括43个词语，采用如上述实施例介绍的方式计算出每个词语所对应的MI值，为了便于理解，请参阅图7，图7为本申请实施例中词语对应互信息值指标的一个柱形示意图，如图所示，图中出现了“长尾现象”，即大部分词语的MI值都偏小，为了缓解上述情况，需要对每个词语对应的MI值进行二次处理，即采用如下方式进行计算：

MI_log(w)＝-log(MI(w))；

其中，MI(w)表示词语w的MI值，w表示文本集合中的任意一个词语，即目标词语。MI_log(w)表示词语w的目标MI值。

由此可见，对MI值进行负对数缩放后可以明显缓解“长尾”效应。基于此，对词语集合中的每个词语均进行类似处理，从而得到每个词语的目标MI值，再从这些词语对应的目标MI值中选择出最大MI值和最小MI值。假设最大MI值为0.9，最小MI值为0.1，那么MI范围为0.9-0.1＝0.8。假设预定义的最大的深度标签为4(即M设置为4)，那么对MI范围进行等宽的4等分，于是得到如下4个深度区间：深度区间1为目标MI值大于或等于0.1，且小于0.3的区间，深度区间2为目标MI值大于或等于0.3，且小于0.5的区间，深度区间3为目标MI值大于或等于0.5，且小于0.7的区间，深度区间4为目标MI值大于或等于0.7，且小于或等于0.9的区间。每个深度区间对应于一个深度标签，即深度区间1对应于深度标签1，深度区间2对应于深度值区间2，深度区间3对应于深度值区间3，深度区间4对应于深度值区间4。这里以目标词语“apple”为例，假设目标词语“apple”的目标MI值为0.4，则可以判定落入到深度区间2中，即该目标词语“apple”的深度标签为2。

可以理解的是，在实际应用中，词语集合中的每个词语均采用如目标词语相似的方式计算其对应的目标MI值，再分别基于各个词语的目标MI值确定对应的深度标签，此次不做赘述。

进一步地，本申请实施例中，提供了一种基于MI值确定词语对应深度标签的方式，即先根据词语集合中词语的最大MI值以及最小MI值确定MI范围，然后对MI范围进行划分，得到多个深度区间，还需要对词语的MI值进行负对数计算，得到目标MI值，最后根据词语的目标MI值确定其对应的深度标签。通过上述方式，需要对获取到的MI值进行负对数放缩处理，从而解决了大部分词语MI值偏小的情况，使得词语的MI值能够处于更合理的区间，由此得到合理性更强的深度标签。

可选地，在上述图5对应的各个实施例的基础上，本申请实施例提供的模型训练的方法另一个可选实施例中，获取待训练文本中每个词语所对应的第一深度标签，可以包括：

针对待训练文本中的每个词语，通过遮蔽语言模型获取每个网络层所对应的损失值，其中，遮蔽语言模型包括M个网络层，每个网络层对应于一个深度标签，M为大于或等于1的整数；

本实施例中，介绍了一种基于重构损失预测词语对应第一深度标签的方式，通常情况下，一句话中部分词语所带来的信息，会被该词语的上下文信息覆盖。如果一个词语带来的冗余信息越多，则越容易被其上下文重构出来，即该词语的学习难度较低。基于此，本申请采用重构损失作为衡量一个词语学习难易程度的指标。

具体地，首先通过训练集训练得到一个遮蔽语言模型(masked language model，MLM)，该MLM模型包括M个网络层，每个网络层对应于一个深度标签。然后将待训练文本中每个词语输入至MLM模型，分别得到每个词语对应的最小损失值，该损失最小值所对应的深度标签确定为第一深度标签。请参阅图8，图8为本申请实施例中词语基于重构损失指标生成深度标签的一个柱形示意图，如图所示，不同的词语可能会对应于不同的深度标签，例如，词语“magnificent”的深度标签为7，词语“best(最好的)”的深度标签为1。

为了便于理解，下面以一个示例对确定为第一深度标签的方法进行介绍。假设待训练文本为“I like apple”，分别将词语“I”、词语“like”和词语“apple”输入至MLM模型中，且假设MLM模型具有5个网络层，每个网络层分别对应一个深度标签，假设第一个网络层对应的深度标签为1，第二个网络层对应的深度标签为2，第三个网络层对应的深度标签为3，第四个网络层对应的深度标签为4，第五个网络层对应的深度标签为5。请参阅表2，表2为待训练文本经过MLM模型后输出损失值的一个示意。

表2

由表1可知，词语“I”在第一个网络层的损失值最小，即词语“I”的第一深度标签为5。词语“like”在第三个网络层的损失值最小，即词语“like”的第一深度标签为5。词语“apple”在第一个网络层的损失值最小，即词语“apple”的第一深度标签为5。

需要说明的是，通常情况下，词语对应的损失值是逐层递减的，表2仅为一个示意，不应理解为对本申请的限定，

其次，本申请实施例中，提供了一种基于重构损失预测词语对应第一深度标签的方式，即利用训练好的MLM模型获取每个词语在每个网络层的损失值，基于每个词语在每个网络层上的损失值，确定损失最小值所对应的深度标签。通过上述方式，利用预训练的MLM模型逐层计算每个词语的重构损失值，利用具有最小重构损失值的层数作为当前词语对应的深度标签，由于MLM模型具有较强的语境建模能力，因此，采用重构损失的方式能够更好地识别文本中的词语。

可选地，在上述图5对应的各个实施例的基础上，本申请实施例提供的模型训练的方法另一个可选实施例中，针对待训练文本中的每个词语，通过遮蔽语言模型获取每个网络层所对应的损失值之前，还可以包括：

获取待训练遮蔽语言模型中每个网络层所对应的权重值；

根据每个网络层所对应的损失值以及每个网络层所对应的权重值，确定每个网络层所对应的目标损失值；

根据每个网络层所对应的目标损失值，对待训练遮蔽语言模型中每个网络层的模型参数进行更新，得到遮蔽语言模型。

本实施例中，介绍了一种训练MLM模型中各个网络层模型参数的方式，在训练MLM模型的过程中，为了鼓励MLM模型在较低网络层重构出词语，可以赋予较低网络层的更大的权重值，一种权重值的计算方式为：

其中，depth表示MLM模型的某一个网络层，max_depth表示MLM模型的网络层总数。以第一个网络层为例，假设MLM模型共有5个网络层，则第一个网络层的权重值为：

再以第二个网络层为例，则第二个网络层的权重值为：

以此类推，第三个网络层的权重值为0.5，第四个网络层的权重值为0.3，第五个网络层的权重值为0.1。基于此，在训练MLM模型中每个网络层对应的模型参数时，将输出的损失值与对应的权重值相乘，所得到的目标损失值为最终用于模型参数更新的依据。

再次，本申请实施例中，提供了一种训练MLM模型中各个网络层模型参数的方式，各级每个网络层所对应的权重值以及每个网络层所对应的损失值，确定每个网络层所对应的目标损失值，然后根据每个网络层所对应的目标损失值，对待训练遮蔽语言模型中每个网络层的模型参数进行更新，得到遮蔽语言模型。通过上述方式，能够赋予较低的网络层更大的权重值，从而促使MLM模型在较低的网络层重构出词语，在保证合理性的情况下下减小深度值，减少MLM模型的计算量。

可选地，在上述图5对应的各个实施例的基础上，本申请实施例提供的模型训练的方法另一个可选实施例中，基于待训练文本中每个词语的词嵌入，通过文本分类模型中的深度值分类器获取每个词语所对应的深度概率分布向量，可以包括：

获取待训练文本中每个词语所对应的词嵌入，其中，词嵌入包括字符级词嵌入以及预训练词嵌入中至少一项；

本实施例中，介绍了一种获取词语对应深度概率分布向量的方式，首先需要构建待训练文本的句子特征向量，假设待训练文本包括n个词语，每个词语的词嵌入表示为

表示第i词语的预训练词嵌入，

表示第i词语的字符级词嵌入。基于此，待训练文本的句子特征向量可以表示为X＝{X₁,...,X_n}，将句子特征向量输入至文本分类模型的输入层，假设该文本分类模型为Transformer结构的模型，则输出的隐藏状态向量表示为：

h¹＝Transformer(X)；

其中，X表示待训练文本的句子特征向量，Transformer()表示文本分类模型的第一个网络层，即输入层，h¹表示待训练文本的隐藏状态向量。

再基于隐藏状态向量，通过文本分类模型中的深度值分类器获取待训练文本的深度概率分布矩阵，即采用如下方式计算深度概率分布矩阵：

P＝softmax(Wh¹+b)；

其中，P表示待训练文本的深度概率分布矩阵，softmax()表示归一化指数函数，h¹表示待训练文本的隐藏状态向量，W和b均为深度值分类器的模型参数。基于根据待训练文本的深度概率分布矩阵，获取待训练文本中每个词语所对应的深度概率分布向量。

具体地，假设待训练文本为“I like apple”，以包括三个深度标签为例，经过计算得到深度概率分布矩阵为：

其中，词语“I”对应的深度概率分布向量为

词语“like”对应的深度概率分布向量为

词语“apple”对应的深度概率分布向量为

进一步地，可采用如下方式计算第二深度标签：

其中，

表示第二深度标签，P表示待训练文本的深度概率分布矩阵，argmax()表示求参数或参数集合的函数。基于此，词语“I”对应的第二深度标签为3，词语“like”对应的第二深度标签为2，词语“apple”对应的第二深度标签为1。

其次，本申请实施例中，提供了一种获取词语对应深度概率分布向量的方式，即需要利用待训练文本中每个词语的词嵌入构建出该待训练文本的句子特征向量，基于句子特征向量进而得到对应的隐藏状态向量，再基于隐藏状态向量获取深度概率分布矩阵，最后根据深度概率分布矩阵确定每个词语的深度概率分布向量。通过上述方式，需要对整个文本进行编码，从而使得每个词语在预测深度概率分布向量的过程中充分地结合了上下文信息，增加了词语之间的交互性，由此提升模型的鲁棒性以及预测的可靠性。

可选地，在上述图5对应的各个实施例的基础上，本申请实施例提供的模型训练的方法另一个可选实施例中，基于每个词语所对应的第二深度标签以及每个词语所对应的词嵌入，通过文本分类模型获取待训练文本所对应的类别概率分布向量，可以包括：

基于每个词语所对应的第二深度标签以及每个词语所对应的词嵌入，通过文本分类模型获取文本编码结果；

根据文本编码结果生成特征向量拼接结果；

本实施例中，介绍了一种获取类别概率分布向量的方式，基于上述介绍，模型训练装置在执行完第二深度标签的计算之后，由文本分类模型按照待训练文本中每个词语对应的第二深度标签，对每个词语对应的词嵌入进行相应层级数的编码，从而得到各个词语的词语编码结果，再将各个词语编码结果进行拼接，即可得到文本编码结果。

可以理解的是，假设第1个词语需要经过2个层级的计算，而第2个词语需要经过3个层级的计算，因此，对于层级次数量较少的词语位置而言，只需要将计算结果向顶层的输出层拷贝，直至达到所有词语的最大层级，或者达到预先定义的最大深度。当待训练文本中所有词语都计算得到对应的词语编码结果之后，即得到文本编码结果。

具体地，模型训练装置可以利用文本编码结果进行类别概率分布向量的预测，其中，文本编码结果可以表示为隐状态

基于文本编码结果

生成特征向量拼接结果，特征向量拼接结果表示为：

其中，

表示特征向量最大值，

表示特征向量平均值。假设待训练文本有10个词语，每个词语经过编码后得到一个300维的向量，因此，文本编码结果

表示为10*300维的矩阵，于是基于文本编码结果

中取最大值，从而得到1*300维的特征向量最大值，并基于文本编码结果

中取平均值，从而得到1*300维的特征向量平均值。将特征向量最大值和特征向量平均值拼接后，得到1*600维的特征向量，即得到特征向量拼接结果。

采用激活函数对特征向量拼接结果进行计算，得到目标文本特征向量，即：

其中，v表示目标文本特征向量，ReLU[]表示修正线性单元(The RectifiedLinear Unit，Relu)激活函数，用于隐藏层神经元输出。

基于目标文本特征向量，通过文本分类模型获取待训练文本的类别概率分布向量，即：

其中，

表示待训练文本的类别概率分布向量，

表示预测的分类标签，W_cls表示权重向量，假设有5个类别，且目标文本特征向量为1*600维度，那么W_cls表示为5*600的矩阵。而b_cls表示偏置向量，假设有5个类别，那么b_cls表示为5*1的向量。W_cls和b_cls均属于文本分类模型的模型参数。经过softmax()后转换为标准的概率分布。假设有5个分类标签，即待训练文本的类别概率分布向量可以是(0.1,0.2,0.5,0.1,0.1)，其中，类别概率分布向量对应于分类标签A、分类标签B、分类标签C、分类标签D和分类标签E。

在实际预测的过程中，文本分类模型还可以采用如下方式可以选择概率最大的标签作为文本的分类结果：

其中，

表示最大概率值所对应的分类标签，以类型概率分布(0.1,0.2,0.5,0.1,0.1)为例，即0.5为最大概率值，0.5对应的分类标签C，即文本的分类结果为分类标签C。

需要说明的是，在利用隐含状态预测分类概率的时候，还可以采用其他的方式，例如前馈神经网络或自注意力机制等。

其次，本申请实施例中，提供了一种获取类别概率分布向量的方式，首先需要基于每个词语的第二深度标签以及词嵌入获取文本编码结果，然后根据文本编码结果生成特征向量拼接结果，采用激活函数对特征向量拼接结果进行计算，得到目标文本特征向量，最后通过目标文本特征向量获取类别概率分布向量。通过上述方式，结合来自文本中各个词语的词嵌入以及预测得到的自适应深度标签，生成能够表示完整文本的全局特征，将该全局特征作为预测文本分类结果的依据，从而提升模型训练的可靠性。

可选地，在上述图5对应的各个实施例的基础上，本申请实施例提供的模型训练的方法另一个可选实施例中，基于每个词语所对应的第二深度标签以及每个词语所对应的词嵌入，通过文本分类模型获取文本编码结果，可以包括：

若第一词语所对应的第二深度标签为P，通过文本分类模型中的P个网络层，对第一词语所对应的词嵌入进行编码，得到第一词语所对应的词语编码结果，其中，第一词语属于待训练文本中的任意一个词语，P为大于或等于1的整数；

本实施例中，介绍了一种基于不同深度值对词语进行编码的方式，通常情况下，待训练文本包括多个词语，下面将以包括两个词语的待训练文本为例进行介绍，即分别为第一词语和第二词语。其中，基于第一词语的隐藏状态获取对应的第二深度标签为P，基于第二词语的隐藏状态获取对应的第二深度标签为Q。

基于此，假设第一词语的词嵌入表示为

第二词语的词嵌入表示为

表示第i词语的预训练词嵌入，

表示第i词语的字符级词嵌入。

将第一词语的词嵌入输入至文本分类模型，由文本分类模型输出第一词语对应的隐藏状态h₁，将隐藏状态h₁输入至文本分类模型中的深度值分类器，从而输出对应的深度概率分布向量，根据该深度概率分布向量确定第一词语的第二深度标签为P，假设P为5，则表示第一词语的词嵌入需要经过5个层级的网络层进行编码。类似地，将第二词语的词嵌入输入至文本分类模型，由文本分类模型输出第二词语对应的隐藏状态h₂，将隐藏状态h₂输入至文本分类模型中的深度值分类器，从而输出对应的深度概率分布向量，根据该深度概率分布向量确定第二词语的第二深度标签为Q，假设Q为3，则表示第二词语的词嵌入需要经过3个层级的网络层进行编码。

由此可见，当不同词语的第二深度标签不同时，优先完成编码的词语位置直接向上层网络拷贝词语编码结果，而还未达到第二深度标签对应深度值的词语位置，需要继续进行编码计算，直到文本中所有词语都达到最大层级，或者都达到预先定义的最大层级。当待训练文本中所有词语都计算得到对应的词语编码结果时，得到待训练文本的文本编码结果。

再次，本申请实施例中，提供了一种基于不同深度值对词语进行编码的方式，对于每个词语而言都具有其对应的第二深度标签，文本分类模型根据每个词语所对应的第二深度标签，进行相应层级深度的编码操作。通过上述方式，能够根据不同的深度标签进行相应的编码操作，达到深度值自适应的目的，深度标签较小的词语需要编码的层级数量较少，因此不会浪费计算和处理资源，而对于深度标签较大的词语需要编码的层级数量较多，从而可以更好地对该词语进行学习，提升模型的鲁棒性。

可选地，在上述图5对应的各个实施例的基础上，本申请实施例提供的模型训练的方法另一个可选实施例中，根据待训练文本所对应的真实分类标签、类别概率分布向量、第一深度标签以及深度概率分布向量，采用目标损失函数对文本分类模型的模型参数进行更新，可以包括：

采用目标损失函数中的第一损失函数，对待训练文本所对应的真实分类标签以及类别概率分布向量进行计算，得到第一损失值；

根据第一损失值以及第二损失值，计算得到目标损失值；

采用目标损失值对文本分类模型的模型参数进行更新。

本实施例中，介绍了一种利用目标损失函数计算目标损失值的方式，模型训练装置可以根据待训练文本所对应的真实分类标签以及类别概率分布向量，计算第一损失值，并且根据待训练文本所对应的第一深度标签以及深度概率分布向量，计算第二损失值。其中，目标损失函数可以包括两个部分，分别为第一损失函数和第二损失函数，利用第一损失函数计算第一损失值，利用第二损失函数计算第二损失值。

具体地，可以采用如下目标损失函数计算目标损失值：

loss＝L_cls+αL_depth；

其中，loss表示目标损失值，L_cls表示采用第一损失函数计算得到的第一损失值，L_depth表示采用第二损失函数计算得到的第二损失值，α表示平衡参数。

采用如下第一损失函数对待训练文本所对应的真实分类标签以及类别概率分布向量进行计算，即：

其中，L_cls表示第一损失值，C表示分类标签的总数，i表示第i个分类标签，且i为大于或等于1，且小于或等于C的整数，

表示类别概率分布向量，y_i表示真实分类标签。

采用如下第二损失函数对待训练文本所对应的第一深度标签以及深度概率分布向量进行计算，即：

其中，L_depth表示第二损失值，n表示网络层的总数，i表示第i个网络层级，d(x_i)表示第一深度标签，

表示深度概率分布向量。

进一步地，本申请实施例中，提供了一种利用目标损失函数计算目标损失值的方式，通过上述方式，可以从两个维度来评估模型训练的情况，分别从分类的准确度以及深度标签选择的准确度来衡量模型整体训练情况，而不是仅仅对下游的分类任务进行评价，从而有利于提升模型鲁棒性，并增加了模型在深度标签上的解释性。

结合上述介绍，下面将对本申请提供的文本分类方法进行介绍，请参阅图9，本申请实施例中文本分类的方法一个实施例包括：

201、获取待分类文本中每个词语的词嵌入，其中，待分类文本包括至少一个词语；

本实施例中，文本分类装置获取待分类文本，待分类文本包含但不仅限于词语、句子、段落以及文章等，且待分类文本的语种表示包含但不仅限于英文、中文以及日文等。待分类文本包括至少一个词语，获取每个词语对应的词嵌入。具体地，本申请涉及的词嵌入可以包括两种类型，即字符级词嵌入以及预训练词嵌入，假设字符级词嵌入采用50维表示一个词语，预训练词嵌入采用300维表示一个词语，那么该词语的词嵌入为字符级词嵌入以及预训练词嵌入拼接后的结果，即采用350维表示。

需要说明的是，文本分类装置可以部署于服务器，或者部署于终端设备，本申请以部署于服务器为例进行介绍，此处不做限定，

202、基于待分类文本中每个词语的词嵌入，通过文本分类模型中的深度值分类器获取每个词语所对应的深度概率分布向量，其中，文本分类模型为上述实施例中任一项的文本分类模型；

本实施例中，将待分类文本中每个词语对应的词嵌入输入至文本分类模型，通过文本分类模型中的输入层对每个词语对应的词嵌入进行编码，从而得到每个词语的隐藏状态。再将每个词语的隐藏状态输入至文本分类模型中的深度值分类器，从而得到每个词语的深度概率分布向量。

具体地，假设待分类文本为“I like apple(我喜欢苹果)”，即待分类包括3个词语，其中，词语“I”的词嵌入表示为x₁，词语“like”的词嵌入表示为x₂，词语“apple”的词嵌入表示为x₃，经过输入层编码之后得到词语“I”的隐藏状态表示为h₁，词语“like”的隐藏状态表示为h₂，词语“apple”的隐藏状态表示为h₃。分别将每个词语对应的隐藏状态输入至深度值分类器之后，由该深度值分类器输出每个词语的深度概率分布向量。

203、根据每个词语所对应的深度概率分布向量，确定每个词语的深度标签，其中，深度标签表示词语在文本分类模型中采用网络层处理的层级数；

本实施例中，文本分类装置根据每个词语所对应的深度概率分布向量，确定每个词语的深度标签。具体地，继续以待分类文本为“I like apple”为例，为了便于说明，请参阅表3，表3为词语与深度概率分布向量对应关系的一个示意。

表3

词语	深度标签1	深度标签2	深度标签3	深度标签4
					I	0.5	0.2	0.2	0.1
like	0.1	0.1	0.7	0.1
					apple	0.1	0.6	0.2	0.1

由表3可知，词语“I”的深度概率分布向量为(0.5,0.2,0.2,0.1),即词语“I”的深度标签为1。词语“like”的深度概率分布向量为(0.1,0.1,0.7,0.1),即词语“like”的深度标签为3。词语“apple”的深度概率分布向量为(0.1,0.6,0.2.0.1),即词语“apple”的深度标签为2。

204、基于每个词语所对应的深度标签以及每个词语所对应的词嵌入，通过文本分类模型获取待分类文本所对应的类别概率分布向量；

本实施例中，文本分类装置根据每个词语所对应的深度标签确定该词语需要通过文本分类模型的深度，根据每个词语的深度标签，分别进行相应层级数的编码处理。

具体地，继续以待分类文本为“I like apple”为例，假设词语“I”的深度标签为1，词语“like”的深度标签为3，词语“apple”的深度标签为2。文本分类装置将词语“I”的词嵌入x₁输入至文本分类模型，经过文本分类模型中1个层级的编码后输出该词语的编码结果，类似地，将词语“like”的词嵌入x₂输入至文本分类模型，经过文本分类模型中3个层级的编码后输出该词语的编码结果。将词语“apple”的词嵌入x₃输入至文本分类模型，经过文本分类模型中2个层级的编码后输出该词语的编码结果。将这各个词语编码后的结果进行拼接，即可得到文本编码结果，将文本编码结果输入至文本分类模型中的输出层，从而得到类别概率分布向量。

205、根据待分类文本所对应的类别概率分布向量，确定待分类文本的分类结果。

本实施例中，文本分类装置根据文本分类模型输出的类别概率分布向量，确定待分类文本的分类结果。

具体地，假设一共设置有4种类型的分类标签，假设待分类文本的类别概率分布向量为(0.2,0.1,0.5,0.2)，其中，0.2对应的分类标签为A，0.1对应的分类标签为B，0.5对应的分类标签为C，0.2对应的分类标签为D，于是可以将最大值0.5所对应的分类标签C为该待训练文本的分类结果。

本申请实施例中，提供了一种文本分类的方法，首先需要获取待分类文本中每个词语的词嵌入，然后基于待分类文本中每个词语的词嵌入，通过文本分类模型中的深度值分类器获取每个词语所对应的深度概率分布向量，再根据每个词语所对应的深度概率分布向量，确定每个词语的深度标签，由此可以基于每个词语所对应的深度标签以及每个词语所对应的词嵌入，通过文本分类模型获取待分类文本所对应的类别概率分布向量，最后根据待分类文本所对应的类别概率分布向量，确定待分类文本的分类结果。通过上述方式，能够获取每个词语显性的深度标签作为监督信号，独立训练文本分类模型中的深度值分类器，即可以利用该深度值分类器可以预测每个词语对应的深度标签，训练过程不会受到下游任务类型和数据集的干扰，从而提升模型的鲁棒性。由此，能够文本分类的过程中，自适应地获取文本中每个词语所对应的深度值，使得文本分类模型根据不同的深度标签对相应的词语进行处理，词语的深度标签越大，表示该词语需要经过网络层处理的层级数越多，由此能够对文本中的词语进行执行充分计算，进而提升文本分类的准确率。

下面将以具体的实验数据为例对本申请提供的模型进行进一步说明。请参阅表4，表4为本申请提供的文本分类模型与其他对比模型在评论数据上的实验效果。

表4

数据/模型	MS-Trans.	Transformer	Star-Trans.	本申请
					Apparel	86.5	87.3	88.7	91.0
Baby	86.3	85.6	88.0	89.8
					Books	87.8	85.3	86.9	89.0
Camera	89.5	89.0	91.8	92.3
					Dvd	86.5	86.3	87.4	88.8
Electronics	84.3	86.5	87.2	88.3
					Health	86.8	87.5	89.1	90.8
Imdb	85.0	84.3	85.0	89.5
					Kitchen	85.8	85.5	86.0	88.5
Magazines	91.8	91.5	91.8	94.3
					Mr	78.3	79.3	79.0	79.8
Music	81.5	82.0	84.7	86.5
					Software	87.3	88.5	90.9	91.5
Sports	85.5	85.8	86.8	87.0
					Toys	87.8	87.5	85.5	91.0
Video	88.4	90.0	89.3	90.2
					均值	86.2	86.4	87.4	89.3

其中，“MS-Trans.”为多尺度Transformer(Multi-Scale Transformer)模型，“Transformer”为机器翻译(Transformer)模型，“Star-Trans.”为星形-Transformer(Star-Transformer)模型。

由表4可知，在对16个数据进行精确度统计，该指标(精确度)越高表示效果越好。本申请提供的文本分类方法能够优于目前的最高平均分，且高于0.7％。

请参阅表5，表5为本申请提供的文本分类模型与其他对比模型在较大规模数据集上的实验效果。

表5

模型/数据集	TREC	MR	Subj	IMDB	AG.	DBP.	Yelp P.	Yelp F.	均值
										RCRN	96.20	-	-	92.80	-	-	-	-	-
Cove	95.80	-	-	91.80	-	-	-	-	-
										Text-CNN	93.60	81.50	93.40	-	-	-	-	-	-
Multi-QT	92.80	82.40	94.80	-	-	-	-	-	-
										AdaSent	92.40	83.10	95.50	-	-	-	-	-	-
CNN-MCFA	94.20	81.80	94.40	-	-	-	-	-	-
										Capsule-B	92.80	82.30	93.80	-	92.60	-	-	-	-
DNC+CUW	-	-	-	-	93.90	-	96.40	65.60	-
										Region-Emb	-	-	-	-	92.80	98.90	96.40	64.90	-
Char-CNN	-	-		-	90.49	98.45	95.12	62.05	-
										DPCNN	-	-			93.13	99.12	97.36	69.42	-
DRNN	-	-		-	94.47	99.19	97.27	69.15	-
										SWEM-concat	92.20	78.20	93.00	-	92.66	98.57	95.81	63.79	-
Star-Transformer	93.00	79.76	93.40	94.52	92.50	98.62	94.20	63.21	88.65
										Uni-Transformer	92.50	80.05	93.60	94.48	93.41	98.34	94.96	63.65	88.87
Transformer	92.00	80.75	94.00	94.58	93.66	98.27	95.07	63.40	88.97
										MI值估计	93.50	81.20	94.00	94.72	94.92	98.35	95.10	64.18	89.50
重构损失估计	93.32	79.81	94.50	94.65	94.71	99.02	95.05	63.83	89.36

其中，“Cove”为上下文相关词向量(Contextualized Word Vectors)，“Text-CNN”为文本卷积神经网络(Text-Convolutional Neural Networks)，“Multi-QT”为多通道快速建模(Multi-Channel Quick Thoughts Models)，“AdaSent”为自适应层次化句子模型(Self-Adaptive Hierarchical Sentence Model)，“CNN-MCFA”为CNN和多种上下文修复依赖的模型(CNN&Multiple Context Fixing Attachment)，“Capsule-B”为胶囊-B模型，“DNC+CUW”为可导神经计算机和缓存统一读写模型(Differentiable Neural Computer&CachedUniform Writing)，“Region-Emb”为区域嵌入模型(Region Embedding)，“Char-CNN”为字符级卷积神经网络(Character-level Convolutional Networks)，“DPCNN”为深金字塔卷积神经网络(Deep Pyramid Convolutional Neural Networks)模型，“DRNN”为深层循环神经网络(Deep RNN),“SWEM-concat”为简单的词向量模型-拼接(Simple word-embeddingmodel-concat)。“Uni-Transformer”为万能机器翻译(Universal Transformer)模型。

TREC、MR、Subj、IMDB、AG.、DBP.、Yelp P.以及Yelp F.均为数据集。

由表5可以看出中等规模和大规模数据集的准确率得分百分比，在相同的设置下，无论是基于MI值生成的监督信号，还是基于重构损失生成的监督信号，采用该监督信号训练得到的模型在准确率和速率上均超过无深度自适应机制的模型，

为了进一步验证效果，请参阅图10，图10为基于实验数据得到不同训练方式下各模型的一个准确率对比示意图，如图所示，本申请提供的文本分类方法还应用于互联网电影数据库(Internet Movie Database，IMDB)测试集上，其中，A1所指示的曲线表示无深度自适应机制的模型在全量深度值上的准确率，该模型在训练的过程中，并未引入深度标签。A2所指示的曲线表示基于深度自适应机制的模型在全量深度值上的准确率，该模型在训练的过程中，引入基于MI值确定的深度标签作为监督信号。A3所指示的曲线表示基于深度自适应机制的模型在全量深度值上的准确率，该模型在训练的过程中，引入基于重构损失确定的深度标签作为监督信号。由图10可知，训练过程中加入深度标签作为监督信号能够提升模型预测的准确率。

请参阅图11，图11为基于实验数据得到不同训练方式下各模型的一个速率对比示意图，如图所示，本申请提供的文本分类方法还应用于IMDB测试集上，其中，B1所指示的曲线表示无深度自适应机制的模型在全量深度值上的速率，该模型在训练的过程中，并未引入深度标签。B2所指示的曲线表示基于深度自适应机制的模型在全量深度值上的速率，该模型在训练的过程中，引入基于MI值确定的深度标签作为监督信号。B3所指示的曲线表示基于深度自适应机制的模型在全量深度值上的速率，该模型在训练的过程中，引入基于重构损失确定的深度标签作为监督信号。由图11可知，训练过程中加入深度标签作为监督信号能够提升模型预测的速率。

在实际测试中，可以针对待训练文本生成每个词语所对应的第一深度标签，请参阅图12，图12为基于互联网电影资料库IMDB数据集中随机样本的深度标签对比示意图，如图所示，从IMDB数据集随机选择一个例子，如“I have anticipated the various Sci-fiand thriller movies this summer(我已经预料到今年夏天的各种科幻和惊悚电影)”，基于此，图中白色块表示基于MI值确定的第一深度标签，图中黑色块表示基于重构损失确定的第一深度标签，两种估计第一深度标签的方法显示出不同的学习方向，基于重构损失确定的第一深度标签能够更好地识别出常见的词语，比如“today(今天)”、“one(一)”以及“me(我)”等词语，然后对这类词语分配较小的深度值。

下面对本申请中的模型训练装置进行详细描述，请参阅图13，图13为本申请实施例中模型训练装置一个实施例示意图，模型训练装置30包括：

获取模块301，用于获取待训练文本，其中，待训练文本包括至少一个词语，每个词语对应于一个词嵌入，且待训练文本对应于一个真实分类标签；

获取模块301，还用于获取待训练文本中每个词语所对应的第一深度标签；

获取模块301，还用于基于待训练文本中每个词语的词嵌入，通过文本分类模型中的深度值分类器获取每个词语所对应的深度概率分布向量，其中，深度概率分布向量用于确定第二深度标签，第二深度标签表示词语在文本分类模型中采用网络层处理的层级数；

获取模块301，还用于基于每个词语所对应的第二深度标签以及每个词语所对应的词嵌入，通过文本分类模型获取待训练文本所对应的类别概率分布向量；

更新模块302，用于根据待训练文本所对应的真实分类标签、类别概率分布向量、第一深度标签以及深度概率分布向量，采用目标损失函数对文本分类模型的模型参数进行更新。

可选地，在上述图13所对应的实施例的基础上，本申请实施例提供的模型训练装置30的另一实施例中，模型训练装置30还包括建立模块303；

建立模块303，用于获取模块301获取待训练文本中每个词语所对应的第一深度标签之前，建立词语深度值关系，其中，词语深度值关系包括词语与深度标签之间的映射关系；

获取模块301，具体用于根据词语深度值关系确定待训练文本中每个词语所对应的第一深度标签。

可选地，在上述图13所对应的实施例的基础上，本申请实施例提供的模型训练装置30的另一实施例中，

建立模块303，具体用于根据文本集合中包含目标词语的文本数量以及文本集合的文本总数，确定目标词语对应的第一概率，其中，文本集合中至少包括至少一个文本，目标词语表示词语集合中的任意一个词语，词语集合来源于文本集合；

获取模块301，具体用于若待训练文本中包含目标词语，则根据词语深度值关系，确定待训练文本中目标词语所对应的第一深度标签。

建立模块303，具体用于获取词语集合中词语的最大互信息值以及最小互信息值，其中，最大互信息值与最小互信息值均经过负对数计算；

根据最大互信息值以及最小互信息值，确定互信息范围；

根据目标深度区间确定目标词语所对应的深度标签。

获取模块301，具体用于针对待训练文本中的每个词语，通过遮蔽语言模型获取每个网络层所对应的损失值，其中，遮蔽语言模型包括M个网络层，每个网络层对应于一个深度标签，M为大于或等于1的整数；

获取模块301，还用于在针对待训练文本中的每个词语，通过遮蔽语言模型获取每个网络层所对应的损失值之前，获取待训练遮蔽语言模型中每个网络层所对应的权重值；

获取模块301，还用于根据每个网络层所对应的损失值以及每个网络层所对应的权重值，确定每个网络层所对应的目标损失值；

更新模块302，还用于根据获取模块301获取的每个网络层所对应的目标损失值，对待训练遮蔽语言模型中每个网络层的模型参数进行更新，得到遮蔽语言模型。

获取模块301，具体用于获取待训练文本中每个词语所对应的词嵌入，其中，词嵌入包括字符级词嵌入以及预训练词嵌入中至少一项；

获取模块301，具体用于基于每个词语所对应的第二深度标签以及每个词语所对应的词嵌入，通过文本分类模型获取文本编码结果；

根据文本编码结果生成特征向量拼接结果；

获取模块301，具体用于若第一词语所对应的第二深度标签为P，通过文本分类模型中的P个网络层，对第一词语所对应的词嵌入进行编码，得到第一词语所对应的词语编码结果，其中，第一词语属于待训练文本中的任意一个词语，P为大于或等于1的整数；

更新模块302，具体用于采用目标损失函数中的第一损失函数，对待训练文本所对应的真实分类标签以及类别概率分布向量进行计算，得到第一损失值；

根据第一损失值以及第二损失值，计算得到目标损失值；

采用目标损失值对文本分类模型的模型参数进行更新。

下面对本申请中的文本分类装置进行详细描述，请参阅图14，图14为本申请实施例中文本分类装置一个实施例示意图，文本分类装置40包括：

获取模块401，用于获取待分类文本中每个词语的词嵌入，其中，待分类文本包括至少一个词语；

获取模块401，还用于基于待分类文本中每个词语的词嵌入，通过文本分类模型中的深度值分类器获取每个词语所对应的深度概率分布向量，其中，文本分类模型为上述第一方面涉及的文本分类模型；

确定模块401，用于根据获取模块获取的每个词语所对应的深度概率分布向量，确定每个词语的深度标签，其中，深度标签表示词语在文本分类模型中采用网络层处理的层级数；

获取模块401，还用于基于确定模块401确定的每个词语所对应的深度标签以及每个词语所对应的词嵌入，通过文本分类模型获取待分类文本所对应的类别概率分布向量；

确定模块402，还用于根据获取模块401获取的待分类文本所对应的类别概率分布向量，确定待分类文本的分类结果。

本申请实施例还提供了另一种模型训练装置以及文本分类装置，模型训练装置以及文本分类装置可以部署于计算机设备上，计算机设备具体可以是服务器。图15是本申请实施例提供的一种服务器结构示意图，该服务器500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)522(例如，一个或一个以上处理器)和存储器532，一个或一个以上存储应用程序542或数据544的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器532和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器522可以设置为与存储介质530通信，在服务器500上执行存储介质530中的一系列指令操作。

服务器500还可以包括一个或一个以上电源526，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口558，和/或，一个或一个以上操作系统541，例如Windows Server^TM，Mac OS X^TM，Unix^TM,Linux^TM，FreeBSD^TM等等。

在本申请实施例中，该终端设备所包括的CPU 522还具有以下功能：

获取待训练文本中每个词语所对应的第一深度标签；

基于待分类文本中每个词语的词嵌入，通过文本分类模型中的深度值分类器获取每个词语所对应的深度概率分布向量，其中，文本分类模型为上述实施例中涉及到的文本分类模型；

上述实施例中由服务器所执行的步骤可以基于该图15所示的服务器结构。

本申请实施例中还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行如前述图1至图8所示实施例描述的方法中模型训练装置所执行的步骤，或者，使得计算机执行如前述图9所示实施例描述的方法中文本分类装置所执行的步骤。

本申请实施例中还提供一种包括程序的计算机程序产品，当其在计算机上运行时，使得计算机执行如前述图1至图8所示实施例描述的方法中模型训练装置所执行的步骤，或者，使得计算机执行如前述图9所示实施例描述的方法中文本分类装置所执行的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种模型训练的方法，其特征在于，包括：

获取待训练文本，其中，所述待训练文本包括至少一个词语，所述每个词语对应于一个词嵌入，且所述待训练文本对应于一个真实分类标签；

获取所述待训练文本中每个词语所对应的第一深度标签；

基于所述待训练文本中所述每个词语的词嵌入，通过文本分类模型中的深度值分类器获取所述每个词语所对应的深度概率分布向量，其中，所述深度概率分布向量用于确定第二深度标签，所述第二深度标签表示词语在所述文本分类模型中采用网络层处理的层级数；

基于所述每个词语所对应的第二深度标签以及所述每个词语所对应的词嵌入，通过所述文本分类模型获取所述待训练文本所对应的类别概率分布向量；

根据所述待训练文本所对应的所述真实分类标签、所述类别概率分布向量、所述第一深度标签以及所述深度概率分布向量，采用目标损失函数对所述文本分类模型的模型参数进行更新。

2.根据权利要求1所述的方法，其特征在于，所述获取所述待训练文本中每个词语所对应的第一深度标签之前，所述方法还包括：

建立词语深度值关系，其中，所述词语深度值关系包括词语与深度标签之间的映射关系；

所述获取所述待训练文本中每个词语所对应的第一深度标签，包括：

根据所述词语深度值关系确定所述待训练文本中每个词语所对应的第一深度标签。

3.根据权利要求2所述的方法，其特征在于，所述建立词语深度值关系，包括：

根据文本集合中包含目标词语的文本数量以及所述文本集合的文本总数，确定所述目标词语对应的第一概率，其中，所述文本集合中至少包括至少一个文本，所述目标词语表示词语集合中的任意一个词语，所述词语集合来源于所述文本集合；

根据属于目标分类标签的文本数量以及所述文本集合的文本总数，确定所述目标分类标签对应的第二概率，其中，所述目标分类标签为分类标签集合中的任意一个标签；

根据所述目标分类标签对应的文本中出现所述目标词语的文本数量以及所述文本集合的文本总数，确定第三概率；

根据所述第一概率、所述第二概率以及所述第三概率，确定所述目标词语所对应的互信息值；

根据所述目标词语所对应的互信息值，确定所述目标词语所对应的深度标签；

将所述目标词语以及所述目标词语所对应的深度标签之间的映射关系添加至所述词语深度值关系中；

所述根据所述词语深度值关系确定所述待训练文本中每个词语所对应的第一深度标签，包括：

若所述待训练文本中包含所述目标词语，则根据所述词语深度值关系，确定所述待训练文本中所述目标词语所对应的第一深度标签。

4.根据权利要求3所述的方法，其特征在于，所述根据所述目标词语所对应的互信息值，确定所述目标词语所对应的深度标签，包括：

获取所述词语集合中词语的最大互信息值以及最小互信息值，其中，所述最大互信息值与所述最小互信息值均经过负对数计算；

根据所述最大互信息值以及所述最小互信息值，确定互信息范围；

根据深度值阈值对所述互信息范围进行划分，得到M个深度区间，其中，每个深度区间对应于一个深度标签，所述M为大于或等于1的整数；

对所述目标词语所对应的互信息值进行负对数计算，得到目标互信息值；

根据所述M个深度区间，确定所述目标互信息值所对应的目标深度区间；

根据所述目标深度区间确定所述目标词语所对应的深度标签。

5.根据权利要求1所述的方法，其特征在于，所述获取所述待训练文本中每个词语所对应的第一深度标签，包括：

针对所述待训练文本中的每个词语，通过遮蔽语言模型获取每个网络层所对应的损失值，其中，所述遮蔽语言模型包括M个网络层，每个网络层对应于一个深度标签，所述M为大于或等于1的整数；

针对所述待训练文本中的每个词语，根据所述每个网络层所对应的损失值确定最小损失值；

针对所述待训练文本中的每个词语，将所述损失最小值所对应的深度标签确定为所述第一深度标签。

6.根据权利要求5所述的方法，其特征在于，所述针对所述待训练文本中的每个词语，通过遮蔽语言模型获取每个网络层所对应的损失值之前，所述方法还包括：

获取待训练遮蔽语言模型中每个网络层所对应的权重值；

根据所述每个网络层所对应的损失值以及所述每个网络层所对应的权重值，确定所述每个网络层所对应的目标损失值；

根据所述每个网络层所对应的目标损失值，对所述待训练遮蔽语言模型中所述每个网络层的模型参数进行更新，得到所述遮蔽语言模型。

7.根据权利要求1所述的方法，其特征在于，所述基于所述待训练文本中所述每个词语的词嵌入，通过文本分类模型中的深度值分类器获取所述每个词语所对应的深度概率分布向量，包括：

获取所述待训练文本中所述每个词语所对应的词嵌入，其中，所述词嵌入包括字符级词嵌入以及预训练词嵌入中至少一项；

根据所述待训练文本中所述每个词语所对应的词嵌入，生成句子特征向量；

基于所述句子特征向量，通过所述文本分类模型获取所述待训练文本的隐藏状态向量；

基于所述隐藏状态向量，通过所述文本分类模型中的深度值分类器获取所述待训练文本的深度概率分布矩阵；

根据所述待训练文本的深度概率分布矩阵，获取所述待训练文本中所述每个词语所对应的深度概率分布向量。

8.根据权利要求1所述的方法，其特征在于，所述基于所述每个词语所对应的第二深度标签以及所述每个词语所对应的词嵌入，通过所述文本分类模型获取所述待训练文本所对应的类别概率分布向量，包括：

基于所述每个词语所对应的第二深度标签以及所述每个词语所对应的词嵌入，通过所述文本分类模型获取文本编码结果；

根据所述文本编码结果生成特征向量拼接结果；

采用激活函数对所述特征向量拼接结果进行计算，得到目标文本特征向量；

基于所述目标文本特征向量，通过所述文本分类模型获取所述待训练文本所对应的类别概率分布向量。

9.根据权利要求8所述的方法，其特征在于，所述基于所述每个词语所对应的第二深度标签以及所述每个词语所对应的词嵌入，通过所述文本分类模型获取文本编码结果，包括：

若第一词语所对应的第二深度标签为P，通过所述文本分类模型中的P个网络层，对所述第一词语所对应的词嵌入进行编码，得到所述第一词语所对应的词语编码结果，其中，所述第一词语属于所述待训练文本中的任意一个词语，所述P为大于或等于1的整数；

若第二词语所对应的深度标签为Q，通过所述文本分类模型中的Q个网络层，对所述第二词语所对应的词嵌入进行编码，得到所述第二词语所对应的词语编码结果，其中，所述第二词语属于所述待训练文本中不同于所述第一词语的任意一个词语，所述P为大于或等于1的整数；

根据所述第一词语所对应的词语编码结果以及所述第二词语所对应的词语编码结果，获取所述待训练文本所对应的文本编码结果。

10.根据权利要求1至9中任一项所述的方法，其特征在于，所述根据所述待训练文本所对应的所述真实分类标签、所述类别概率分布向量、所述第一深度标签以及所述深度概率分布向量，采用目标损失函数对所述文本分类模型的模型参数进行更新，包括：

采用所述目标损失函数中的第一损失函数，对所述待训练文本所对应的所述真实分类标签以及所述类别概率分布向量进行计算，得到第一损失值；

采用所述目标损失函数中的第二损失函数，对所述待训练文本所对应的所述第一深度标签以及所述深度概率分布向量进行计算，得到第二损失值；

根据所述第一损失值以及所述第二损失值，计算得到目标损失值；

采用所述目标损失值对所述文本分类模型的模型参数进行更新。

11.一种文本分类的方法，其特征在于，包括：

获取待分类文本中每个词语的词嵌入，其中，所述待分类文本包括至少一个词语；

基于所述待分类文本中所述每个词语的词嵌入，通过文本分类模型中的深度值分类器获取所述每个词语所对应的深度概率分布向量，其中，所述文本分类模型为上述权利要求1至10中任一项所述的文本分类模型；

根据所述每个词语所对应的深度概率分布向量，确定所述每个词语的深度标签，其中，所述深度标签表示词语在所述文本分类模型中采用网络层处理的层级数；

基于所述每个词语所对应的深度标签以及所述每个词语所对应的词嵌入，通过所述文本分类模型获取所述待分类文本所对应的类别概率分布向量；

根据所述待分类文本所对应的类别概率分布向量，确定所述待分类文本的分类结果。

12.一种模型训练装置，其特征在于，包括：

获取模块，用于获取待训练文本，其中，所述待训练文本包括至少一个词语，所述每个词语对应于一个词嵌入，且所述待训练文本对应于一个真实分类标签；

所述获取模块，还用于获取所述待训练文本中每个词语所对应的第一深度标签；

所述获取模块，还用于基于所述待训练文本中所述每个词语的词嵌入，通过文本分类模型中的深度值分类器获取所述每个词语所对应的深度概率分布向量，其中，所述深度概率分布向量用于确定第二深度标签，所述第二深度标签表示词语在所述文本分类模型中采用网络层处理的层级数；

所述获取模块，还用于基于所述每个词语所对应的第二深度标签以及所述每个词语所对应的词嵌入，通过所述文本分类模型获取所述待训练文本所对应的类别概率分布向量；

更新模块，用于根据所述待训练文本所对应的所述真实分类标签、所述类别概率分布向量、所述第一深度标签以及所述深度概率分布向量，采用目标损失函数对所述文本分类模型的模型参数进行更新。

13.一种文本分类装置，其特征在于，包括：

获取模块，用于获取待分类文本中每个词语的词嵌入，其中，所述待分类文本包括至少一个词语；

所述获取模块，还用于基于所述待分类文本中所述每个词语的词嵌入，通过文本分类模型中的深度值分类器获取所述每个词语所对应的深度概率分布向量，其中，所述文本分类模型为上述权利要求1至9中任一项所述的文本分类模型；

确定模块，用于根据所述获取模块获取的所述每个词语所对应的深度概率分布向量，确定所述每个词语的深度标签，其中，所述深度标签表示词语在所述文本分类模型中采用网络层处理的层级数；

所述获取模块，还用于基于所述确定模块确定的所述每个词语所对应的深度标签以及所述每个词语所对应的词嵌入，通过所述文本分类模型获取所述待分类文本所对应的类别概率分布向量；

所述确定模块，还用于根据所述获取模块获取的所述待分类文本所对应的类别概率分布向量，确定所述待分类文本的分类结果。

14.一种计算机设备，其特征在于，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括执行如权利要求1至10中任一项所述的方法，或者，执行如权利要求11所述的方法；

所述总线系统用于连接所述存储器以及所述处理器，以使所述存储器以及所述处理器进行通信。

15.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1至10中任一项所述的方法，或者，执行如权利要求11所述的方法。