CN113178189B

CN113178189B - 一种信息分类方法及装置、信息分类模型训练方法及装置

Info

Publication number: CN113178189B
Application number: CN202110461596.5A
Authority: CN
Inventors: 朱秋实; 吴明辉; 方昕; 刘俊华
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2021-04-27
Filing date: 2021-04-27
Publication date: 2023-10-27
Anticipated expiration: 2041-04-27
Also published as: CN113178189A; WO2022227297A1

Abstract

本发明提供了一种信息分类方法和装置、信息分类模型的训练方法和装置。首先对第一模型进行训练。在训练过程中，对第一模型的第一参数进行迭代的第一调整和迭代的第二调整。其中，第一调整的每次迭代包括该迭代的第二调整，第二调整的每次迭代基于第一模型对第一样本集的处理，第一调整的每次迭代基于经迭代的第二调整的第一模型对第二样本集的处理。其中，第一样本集包含一个或多个第一样本，第二样本集包含一个或多个第二样本，各第二样本均具有对应的第一原始标签，该第一原始标签用于表征第二样本的类别。然后，调用已训练的第一模型处理待分类样本得到其第一特征，调用第二模型处理第一特征，以得到待分类样本的第一标签。

Description

一种信息分类方法及装置、信息分类模型训练方法及装置

技术领域

本发明涉及人工智能领域，特别的，涉及一种信息分类方法及装置、一种信息分类模型训练方法及装置、电子设备、以及计算机可读介质。

背景技术

随着互联网和多媒体技术的发展，人工智能网络需要处理越来越多的信息分类任务。信息分类任务的本质是从媒体信息(比如图片、视频、音频、文字等)中提取相应的特征，并利用该特征对媒体信息进行分类。信息分类通常通过使用能够表征该分类的标签对媒体信息进行标记，以使设备或者用户能够更加方便对该媒体信息进行处理或者利用。

图像识别是信息分类的典型应用场景之一。比如，在图像识别任务中，将待识别的图片输入到人工智能网络中，人工智能网络提取图像中的特定特征，并依据该特征识别图片中所展示的内容，然后根据图片中的内容确定图片的标签，如“植物”“动物”“汽车”“建筑”等。信息分类的另一典型应用场景是语音识别。比如，在语音识别任务中，将待识别的语音输入到人工智能网络中，人工智能网络提取音频中的特定特征，并根据该特征识别语音的内容或者语音的来源，然后根据语音的内容或者来源确定语音的标签，此时，语音的标签可以是语音所对应的具体文本，也可以是语音所表示的情绪，还可以是讲话人的身份信息，等等。

信息分类模型是信息分类任务的核心，主要承担了对输入信息进行分析并提取特征的功能。通常，为了能够使信息分类模型高效的实现相关功能，需要预先使用含有大量训练样本的训练集对其进行训练。训练集的质量越高，训练得到的信息分类模型在对应任务中能够提供越准确的标签。为了得到高质量的训练集，训练样本往往需要具有足够的数量、并需要人工进行准确的分类。然而，这使得构建高质量的训练样本费时费力。

对于特定的信息分类应用场景来说，能够用于构建训练集的资源非常稀少。比如，以语音识别为例，现阶段一个高性能的语音识别系统主要依赖三种数据资源：大量带标签的语音数据、文本数据和发音词典。其中，语音数据用于训练高性能的声学模型，文本数据用于训练语言模型，发音词典反映了单词拼写形式和发音之间的映射关系。搭建语音识别系统所需的语音和文本数据资源可以通常从互联网、广播等网络媒体获取，而大量带标签的语音数据通常需要人工分类才能获取。世界上总共约有6900种语言，而其中使用人数超过100万的语言不到十分之一。同时，对于使用人口众多的语言(如汉语、英语、意大利语等)还存在着多种方言。目前，仅有为数不多的几种语言(如标准英语，汉语普通话等)具有充足的分类语音数据，大部分语言的语音数据资源匮乏(即低资源)。低资源环境下，由于分类语料的不足，在训练语音识别模型时通常会出现过拟合，无法较好的识别对应语言的语音。类似的，在图像识别任务中，如含有某一类内容的图片资源匮乏，由于分类图片的不足，在训练图片识别模型时通常会出现过拟合，无法较好的识别包含对应内容的图片。

因此，如何能够为低资源的信息分类应用场景构建高质量的信息分类模型，从而准确、高效的完成相应的信息分类任务，是亟需本领域技术人员解决的技术问题。

发明内容

有鉴于此，本发明提供了一种信息分类方法及装置、一种信息分类模型训练方法及装置、电子设备、以及计算机可读介质，为低资源的信息分类应用场景构建高质量的信息分类模型，从而能够准确、高效的完成相应的信息分类任务。

本发明实施例的第一方面，提供了一种信息分类方法。该信息分类方法，包括：

对第一模型进行训练，得到已训练的第一模型；

调用所述已训练的第一模型处理待分类样本，得到待分类样本的第一特征；以及，

调用第二模型处理所述第一特征，得到待分类样本的第一标签，其中，所述第一标签用于表征待分类样本的类别；

其中，对第一模型进行训练，包括：对所述第一模型的第一参数进行迭代的第一调整和迭代的第二调整，其中，所述第一调整的每次迭代包括所述迭代的第二调整，所述第二调整的每次迭代基于所述第一模型对第一样本集的处理，所述第一调整的每次迭代基于经所述迭代的第二调整的第一模型对第二样本集的处理；

其中，所述第一样本集包含一个或多个第一样本，所述第二样本集包含一个或多个第二样本，各第二样本均具有对应的第一原始标签，所述第一原始标签用于表征所述第二样本的类别。

本发明实施例的第二方面，提供了一种信息分类模型的训练方法，包括：

对所述信息分类模型的第一参数进行迭代的第一调整和迭代的第二调整，其中，所述第一调整的每次迭代包括所述迭代的第二调整，所述第二调整的每次迭代基于所述信息分类模型对第一样本集的处理，所述第一调整的每次迭代基于经所述迭代的第二调整的信息分类模型对第二样本集的处理；

本发明实施例的第三方面，提供了一种信息分类装置，包括：

训练模块，用于对第一模型进行训练，得到已训练的第一模型；

第一处理模块，用于调用所述已训练的第一模型处理待分类样本，得到待分类样本的第一特征；

第二处理模块，用于调用第二模型处理所述第一特征，得到待分类样本的第一标签，其中，所述第一标签用于表征待分类样本的类别；

其中，所述训练模块用于对所述第一模型的第一参数进行迭代的第一调整和迭代的第二调整，其中，所述第一调整的每次迭代包括所述迭代的第二调整，所述第二调整的每次迭代基于所述第一模型对第一样本集的处理，所述第一调整的每次迭代基于经所述迭代的第二调整的第一模型对第二样本集的处理；

本发明实施例的第四方面，提供了一种信息分类模型训练装置，包括训练模块，用于：

本发明实施例的第五方面，提供了一种电子设备，包括存储器和处理器，其中所述存储器存储有指令，所述存储器执行所述指令时使得所述电子设备执行前述任一信息分类方法。

本发明实施例的第六方面，提供了一种非易失性的计算机可读介质，存储有计算机指令，所述计算机指令被处理器执行时用于实现前述任一信息分类方法。

根据本申请实施例提供的信息分类方法，首先对第一模型进行训练。在训练过程中，对第一模型的第一参数进行迭代的第一调整和迭代的第二调整。其中，第一调整的每次迭代包括该迭代的第二调整，第二调整的每次迭代基于第一模型对第一样本集的处理，第一调整的每次迭代基于经迭代的第二调整的第一模型对第二样本集的处理。其中，第一样本集包含一个或多个第一样本，第二样本集包含一个或多个第二样本，各第二样本均具有对应的第一原始标签，该第一原始标签用于表征第二样本的类别。然后，调用已训练的第一模型处理待标注样本得到其第一特征，调用第二模型处理第一特征，以得到待标注样本的第一标签。这样，有标签的第二样本能够监督基于无标签的第一样本所进行的训练，既将训练扩展到无标签样本，又保证无标签样本中提取的内在规律符合最终的信息分类任务，能够在低资源条件下有效的训练信息分类模型。该方法能够为低资源的信息分类应用场景构建高质量的信息分类模型，从而能够准确、高效的完成相应的信息分类任务。

本申请实施例提供的信息分类装置、信息分类模型的训练方法和装置、电子设备、以及计算机存储介质具有与信息分类方法对应的技术效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例中一种信息分类方法的流程图；

图2是本申请实施例中一种信息分类方法的另一流程图；

图3是本申请实施例中一种迭代的第一调整的流程图；

图4是本申请实施例中另一种信息分类方法的流程图；

图5是本申请实施例中一种迭代的第三调整的流程图；

图6是本申请实施例中一种第一模型的结构示意图；

图7是本申请实施例中再一种信息分类方法的流程图；

图8是本申请实施例中又一种信息分类方法的流程图；

图9是本申请实施例中一种第一模型处理输入信息的过程示意图；

图10是本申请实施例中一种获取第二损失的过程示意图；

图11A是本申请实施例中一种第一特征空间的示意图；

图11B是本申请实施例中另一种第一特征空间的示意图；

图12是本申请实施例中一种信息分类模型的训练方法的流程图；

图13是本申请实施例中另一种信息分类模型的训练方法的流程图；

图14是本申请实施例中一种信息分类装置的结构示意图；

图15是本申请实施例中一种信息分类模型的训练装置的结构示意图；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以下首先对本发明所使用的一部分术语进行介绍。

语音识别(Speech Recognition)，也称为自动语音识别(Automatic SpeechRecognition，ASR)，是将认为语音转换为计算机可读的文字或者指令的过程，是模式识别的一个重要分支。

元学习(Meta-learning)，作为一种深度学习模型，面向的是机器学习的过程而非机器学习的结果。元学习的主要其目的是为了学习一个用于预测的数学模型，即学习“如何更高更快的学习一个数学模型”。元学习的过程通常包含内循环和外循环，每个循环所更新的参数可以根据具体任务来确定。

对比预测编码(Contrastive Predictive Coding，CPC)模型，一种非监督的通用算法，用于在高维度数据中提取有用的表示信息，其核心在于通过自回归模型来学习预测的隐变量表示。CPC模型通过构建噪声对比估计(noise contrastive estimator)来优化损失函数，并使用对比损失概率(probabilistic contrastive loss)来引入最大化预测样本的信息的隐变量。

连接时序分类(Connectionist Temporal Classification,CTC)模型，主要用于处理序列标注问题中的输入与输出标签问题。其使用含有空元素的扩展标签集合对序列进行标注，将所有可以通过映射函数转换为真实序列的预测序列定义为正确预测结果。在标注过程中，CTC采用前向后向算法查找所有的正确预测序列，并最大化所有正确预测序列的概率和。由于单调对齐与多对一映射的特性，CTC可被广泛应用于语音到文字(Speech-to-Text)识别领域。

如背景技术中所述，低资源环境下，由于已分类样本的不足，在训练信息分类模型时通常会出现过拟合，无法较好的识别对应类型的未分类样本。具体来说，低资源环境下主要存在以下三个问题。

一是传统特征可能不适合低资源的信息分类。以ASR为例，传统声学特征是较为底层的特征表达形式，概率分布所蕴含的细节较多，既难以得到充分估计又容易受到噪声的干扰。在训练样本不足时，传统特征中这种干扰对信息分类模型带来的影响更大。只有特征鲁棒性更强，蕴含更抽象得到高层表达时，特征表达与建模单元之间的映射关系才能在训练样本有限的情况下得到相对较好的估计。

二是信息分类模型的训练不足。传统的信息分类模型往往适用于训练样本充足(高资源)的环境，在低资源条件下有效训练样本较少，训练量与参数无法匹配，信息分类模型难以估计出精确的参数值。

三是辅助训练导致的不平衡。为了解决训练不足的问题有时会引入多元的语音数据，但映射多源数据到相似的分布空间较为困难，降低了辅助训练的效率，容易在训练中引起过拟合等问题。

采用自训练(self-training)生成伪标签的方案可以减轻低资源环境带来的问题。该方案主要通过使用对大量标签的学习来为无标签样本生成伪标签，并筛选高质量伪标签对应的样本作为有标签样本，以扩大训练集。以ASR为例，首先用带有文本标签的语音训练一个声学模型并用大量文本预料库训练一个语言模型，然后将大量无文本标签的语音输入该语言模型来生成大量的伪标签(文本)。接下来通过一定的过滤机制从中筛选出质量较高的文本，将这些文本和其对应的语音组成有文本标签的语音样本加入声学模型的训练集。最后在新训练集的基础上继续训练声学模型，并逐步迭代来获取更多的有文本标签的语音。该方案的主要问题在于泛用性较低，需要训练数据与待分类数据高度相似，且需要一定数量的高质量有标签样本来训练出高质量的初始模型，否则低质量的初始模型无法得到高质量的伪标签，影响最终的分类质量。该方案的另一个问题在于需要人工参与迭代，即使采用置信度对每一次生成的伪标签进行筛选，置信度的高低也较难设定。高置信度会导致每次筛选的有效数据过少，低置信度会导致筛选出的标签质量太差。

采用构建对偶任务的方案也可以减轻低资源环境带来的问题。该方案将样本本身视为输入信息，将标签视为输出信息，根据循环一致 (cycle-consistency)思想构建信息分类模型的对抗模型，通过优化“输入-输出-重建输入”这一过程中的循环一致损失来利用对抗模型对信息分类模型进行训练。以ASR为例，可构建在“语音到文本”的ASR模型之外使用一个“文本到语音”的TTS模型，通过对ASR损失函数和TTS损失函数的联合训练来最大化利用较少的资源。该方案的主要问题在于联合训练信息分类模型和对抗模型的难度较大。

无监督预训练获取通用表示也可以解决上述部分问题。该方案从大量无标签样本中随机采样得到负样本，然后与有标签样本构成正负样本对，让信息分类模型通过学习区分正负样本来获得表示信息，该标识信息包含了所有样本中的一些共有的结构信息，对这些信息的共享能够改善低资源环境下的分类效果。然而，无监督预训练本身对样本的类型和表示信息无限制，使通用表示与下游任务的关联度较小，即对泛用性的提升削弱了专用性。

为了更高解决上述技术问题，需要为低资源的信息分类应用场景构建高质量的信息分类模型，从而准确、高效的完成相应的信息分类任务。

本申请实施例的第一方面提供了一种信息分类方法。在本实施例中，该方法可应用于包含信息分类模型的人工智能网络，该人工智能网络可以通过硬件、软件、或两者的结合来实施。比如，该人工智能网络可存在于由服务器和终端所构成的硬件环境中，服务器和终端之间通过网络进行连接，该网络包括但不限于局域网、城域网或广域网。此时，该信息分类模型可通过运行在服务器、终端、或两者之上的软件来实现，或者通过内嵌于服务器、终端、或两者之上的硬件中的命令来实现。需要注意的是，以上信息分类模型也可独立的全部运行在服务器或者终端上，本实施例对此不做限制。

下面结合图1来进一步描述上述信息分类方法。图1是本申请实施例中一种信息分类方法的流程图。如图1所示，该信息分类方法可包括：

S11、对第一模型进行训练，得到已训练的第一模型。

这里的第一模型可以是前述人工智能网络中的信息分类模型的一部分，也可以为信息分类模型上游的特征提取模型。以ASR为例，第一模型可以是基于CPC架构的模型，也可以是基于其他架构的模型。训练第一模型是为了对其参数进行调整和优化，使信息分类模型能够更加符合特定信息分类任务的需求。这里的信息分类任务可以为语音识别任务(比如基于语音识别文字、说话人身份或者说话人情绪)、也可以为图片分类任务、视频识别任务等等，本申请对此不作限制。可以理解，不同信息分类任务对应不同的第一模型(或信息分类模型)。

可以理解，对模型所进行的训练通常基于训练集进行。训练集中包含多个训练样本，将训练样本输入初始模型，然后可根据预设的目标函数计算目标值，并通过预设的规则(比如预设的步长)对模型的全部或者部分参数进行迭代调整，以将目标值优化(比如最小化)至预期范围。优化完成时即可认为训练已完成，此时的模型即为已训练的模型。训练集中的训练样本与具体的信息分类任务相关联。比如，语音识别任务的训练样本通常为语音，图片分类任务的训练样本通话常为图片。因此，特定的信息分类任务需要对应的训练集。

S12、调用所述已训练的第一模型处理待分类样本，得到待分类样本的第一特征。

待分类样本可以为无标签的一个或者多个样本。对待分类样本进行分类即为已训练的第一模型(或信息分类模型)所承担的一个具体的信息分类任务，也就是说，需要通过第一模型来获得待分类样本对应的标签。可以理解，与训练样本类似，待分类样本也与信息分类任务相关联。通常，待分类样本与训练样本在类型上相同，比如均为语音信息、图片信息等等。

S13、调用第二模型处理所述第一特征，得到待分类样本的第一标签。其中，所述第一标签用于表征待分类样本的类别。

这里的第二模型作为第一模型的下游任务模型，用于生成待分类样本的标签。第二模型可以是前述信息分类模型的全部或者部分。第一标签即前述待分类样本对应的标签，且与信息分类任务相关联。比如，从语音识别文字任务的任务中，第一标签为待分类语音所对应的文本，则此时所表征的类别为语音对应的文字；从语音识别来源的任务中，第一标签为待分类语音所对应的说话人身份或者播放设备标识，则此时所表征的类别为语音对应的说话人或者设备；图片分类任务中，第一标签为待分类图片中所包含的物体种类，则此时所表征的类别为图片中物体的类别。本申请中的标签和与之对应的类别还可以体现为其他形式，比如涉及视频的分类等等。可以理解，第二模型的具体结构是由具体的信息分类任务所决定的。

在本申请实施例中，当获取第一标签之后，针对待分类样本的信息分类任务已经完成。或者，第一标签可经过后续处理，比如筛选、变换等等，以获得第二标签，来完成信息分类任务，此时前述信息分类模型还可包含第二模型下游的其他模型。

在本申请实施例中，步骤S11具体包括：对所述第一模型的第一参数进行迭代的第一调整和迭代的第二调整。其中，所述第一调整的每次迭代包括所述迭代的第二调整。也就是说，该第一调整和第二调整从整体上形成了双重迭代过程，第二调整迭代过程内嵌于第一调整的每次迭代中。从流程的角度来看，以上训练过程具有内外两层循环逻辑结构，第一调整形成了外循环，第二调整形成了内循环。

另外，第二调整的每次迭代基于第一模型对第一样本集的处理，其中第一样本集包含一个或多个第一样本。需要注意，这里的第一样本集可以不包含第一样本的原始标签，以在实际应用中使得第一样本的获取更为容易，进而增加第一样本集的容量。同时，第一调整的每次迭代基于经迭代的第二调整的第一模型对第二样本集的处理，其中第二样本集包含一个或多个第二样本，各第二样本均具有对应的第一原始标签，第一原始标签用于表征所述第二样本的类别。可以理解，在第一调整的每次迭代中，这里对第二样本集的处理独立于迭代的第二调整之外，使得第二样本集能够对第二调整的结果进行监督。由于第二样本集带有原始标签，该监督作用更能够进一步优化第一参数，即，第一调整在整体上可以基于第二调整对第一模型进行进一步的优化。

下面结合图2对前述实施例中的步骤S11进行进一步的说明。图2是本申请实施例中一种信息分类方法的另一流程图。如图2所示，步骤S11可包括：

S111、将第一样本集输入第一模型。

这里的第一样本集即第一模型的训练集，第一样本即第一模型的训练样本。如前所述，在本申请实施例中，该一个或多个第一样本中可包含无标签的样本。具体的，第一样本可以均为无标签的样本，也可以部分为无标签的样本。

S112、对所述第一模型的第一参数进行迭代的第一调整，直到符合第一预设条件。其中，所述第一预设条件为所述第一损失降至第一阈值或所述第一调整的迭代次数达到第二阈值。

如前所述，对第一参数进行迭代调整是为了对第一模型进行训练。这里的第一参数可以为第一模型中的一个或多个参数，可以为第一模型的全部参数，也可以为第一模型的部分参数。第一参数的具体内容可以根据实际应用场景和实际需要来确定，本申请实施例对此不作限定。

第一预设条件用于判断迭代的第一调整是否达到了预期的目标。具体的，在迭代的第一调整中，如果某次迭代后第一损失降至第一阈值或者第一调整迭代的次数达到第二阈值，那么结束迭代，进入S112之后的步骤。相反，如果第一损失没有降至第一阈值同时第一调整的迭代次数没有达到第二阈值，那么第一调整会进入下一次迭代。可以理解，第一损失是为了衡量当前第一模型处理第一样本的能力，因此这里的第一损失的计算基础至少包含当前第一模型和各第一样本。这里的“当前第一模型”是指当前迭代中调整第一参数后的第一模型。

下面结合图3对前述实施例中的步骤S112进行进一步的说明。图3是本申请实施例中一种迭代的第一调整的流程图。在图3中，所述第一调整的每次迭代包括如下步骤：

S201、调整第一模型的第一参数。

如前所述，该调整可遵循预设的规律，比如按照预设的顺序或者预设的步长来调整第一参数，具体的规律可以根据实际应用场景和实际需要来确定，本申请实施例对此不做限定。

S202、基于各第一样本和调整后的第一参数计算第二损失。

可以理解，这里“调整后的第一参数”是指当前迭代中经步骤S201调整之后的第一参数。可通过预设的第一函数计算得到第二损失，第一函数的输入包含各第一样本和调整后的第一参数，输出包含第二损失。第二损失主要反映了第一模型是否找到了第一样本集中的内在规律。在本申请实施例中，第一函数可用于表征第一模型从第一样本中所提取的表示(representation)与第一样本本身之间的关联度，该关联度可用第二损失来度量。第二损失与该关联度呈负相关，也就是说，第二损失越小，所提取的第一样本的表示与第一样本本身之间的关联度越大。

S203、判断是否符合第二预设条件。若是，进入步骤S204，若否，返回步骤S201。其中，所述第二预设条件为第二损失降至第三阈值或所述第二调整的迭代次数达到第四阈值。

可以看出，上述步骤S201至步骤S203也可视为对第一参数的迭代调整，其目标是满足第二预设条件。为了与前述以满足第一预设条件的第一调整进行区分，本申请将其称为迭代的第二调整。因此，上述步骤S201至步骤S203 可表述为：对所述第一参数进行迭代的第二调整，直到符合第二预设条件，其中所述第二调整的每次迭代包含步骤S201和步骤S202。

与第一预设条件类似，第二预设条件用于判断迭代的第二调整是否达到了预期的目标。具体的，在迭代的第二调整中，如果某次迭代后第二损失降至第三阈值或者第一调整迭代的次数达到第四阈值，那么结束迭代，进入S203 之后的步骤。相反，如果第二损失没有降至第三阈值同时第二调整的迭代次数没有达到第四阈值，那么第二调整会进入下一次迭代。

可以理解，当第二损失表征了从第一样本中所提取的表示与第一样本本身之间的关联度时，迭代的第二调整的目的在于通过改变第一参数(或第一模型)来增加两者之间的关联度。

S204、将第二样本集输入第一模型，得到各第二样本的第二特征。

这里的第二样本集即第一模型的辅助训练集，第一样本即第一模型的辅助训练样本。如前所述，与第一样本集不同，该一个或多个第二样本中均为有标签的样本。为了与之后预测得到的标签相区分，这里第二样本自带的标签被称为原始标签，即第二样本的“真实标签”。在实际应用中，原始标签可以来自于人工分类，也可以通过其他机器学习过程获得、并通过人工验证或者置信度验证，本申请对此不作限制。

可以理解，由于第二样本与第一样本均可作为第一模型的输入，两者具有相同的类型。也就是说，第一样本和第二样本属于相同大类的信息，比如语音、文本、图片、视频等等，这样可以保证辅助训练集与训练集具有一定的相似性，比如能够依据相似的分类法分入相似的类别中。以ASR为例，第一样本集中可包含或主要包含无文本对应的语音样本，而第二样本集中仅含有具有对应文本的语音样本，这些语音样本均可以对应同一语种(或语言) 或相近语种(或语言)中的文字。以图片分类识别为例，第一样本集中可以包含或主要包含无类别标记的图片，而第二样本集中仅含有具有类别标记的图片，这些图片均可以分入相同或者相近的类别中，比如均属于“植物”、“动物”、“建筑”、“交通工具”中一个或多个类别。本领域技术人员可类推得到其他信息分类任务中的第一和第二样本集，这里不一一列举。

第一模型从第二样本中进行特征提取，得到第二特征。此时的第一模型已经在第一样本集的基础上经过迭代的第二调整，因此，第一模型对第二特征的提取是通过第一样本集学习到的，即第一模型在步骤S204中会参照第一样本集中的内在规律来从第二样本集中提取特征。该规律在第二样本集中越适用，则提取出的第二特征越符合预期。比如，当第二损失表征了从第一样本中所提取的表示与第一样本本身之间的关联度时，此时第一模型会试图参考同样的关联度从第二样本中提取第二特征，如该关联度同样适用于第二样本集中样本与标签之间的关系，则第二特征与第二样本的标签会具有较强的相关性。

S205、将第二特征输入第三模型，得到各第二样本的第一预测标签。其中，所述第一预测标签用于预测所述第二样本的类别。

这里的第三模型是前述信息分类模型的监督模型，用于根据第一模型提取的样本特征按照预设的方法预测对应样本的类别。作为监督模型，第三模型可以是已训练的、较为成熟的模型，其参数相对固定，甚至不需要额外的调整。

参考步骤S13中对第二模型的描述可以看出，第三模型和第二模型均用于根据第一模型提取特征来得到对应样本的标签。因此，在一些实施例中，第三模型和第二模型可以具有相同或者相似的架构，比如使用同类型的模型。比如，在ASR任务中，第二模型和第三模型均可选用基于CTC的模型。在实际应用中，第三模型的结构也是由具体的信息分类任务决定的。

S206、根据各第二样本的第一原始标签和所述第一预测标签的差异得到第一损失。

第三模型对第二样本的类别进行预测后得到对应的第一预测标签。第一预测标签可以理解第三模型试图还原已编码的第二样本的类别，因此其与第一原始标签的差异直接反映了当前第一模型编码的质量高低，或者说当前第一模型是否准确提取了符合分类要求的样本特征。本申请实施例中，通过各第二样本的第一原始标签和所述第一预测标签的差异得到第一损失。可以理解，各第二样本的该差异与第一损失呈正相关，即每个样本的差异越大，第一损失越大。这样，第一损失实质上反映了第一模型在第二样本集上进行特征提取的准确度，该准确度的衡量基准即第二样本集中的原始标签。

S207、判断是否符合第一预设条件。若是，进入步骤S12(或其他紧随步骤S11之后的步骤)。若否，返回步骤S201。

当符合第一预设条件时，说明当前第一模型在第二样本集上可以提取到足够准确(即足够准确的反映第二样本类别)的特征，此时第一调整在第一样本集内找到的内在规律适用于第二样本集的分类，因此实现了很好的泛用性，无需再进行第一调整的下一迭代，可考虑直接将第一模型(或信息分类模型)用于对待分类样本的分类。否则，说明当前第一模型在第二样本集上提取到的特征不够准确，此时在第一样本集内找到的内在规律不适用于第三样本集的分类，因此仍然需要在下一迭代中更新第一参数。

从上述实施例可以看出，对第一模型的训练主要包含两个相互嵌套的迭代调整过程。第二调整的迭代过程用于从无标签样本中寻找内在规律，而第一调整的迭代过程用于验证该内在规律是否符合有标签样本，即对第二调整进行监督。

在上述过程中，第二调整的迭代过程内嵌于第一调整的每个迭代中，形成类似于元学习的内外循环，因此可以将大量的无标签样本应用于第一模型的训练过程，使得信息分类模型的训练不仅仅局限于有标签样本。这样，即使信息分类任务处于低资源环境下(即有标签的第二样本数量有限)，仍然可以进一步利用无标签样本来提高信息分类模型的训练效果。在本申请实施例中，第一样本的数量可大于或等于第二样本的数量。可以理解，第一样本的数量越多，对训练资源的扩展越明显，同时也可以越好的改善无人工干预时仅用低资源有标签样本训练出的模型泛用性差等问题。

同时，有标签样本的在第一调整每次迭代中监督作用使得第二调整得到的内在规律可以切实的应用于具体的信息分类任务，即，与第三模型和第二模型相对应的任务。由于第一样本集与第二样本集存在一定差异，其内在规律可能有多种，此时第二调整可能会随机的得到某种与第二样本集相关性较低的规律。以ASR为例，当第一样本集为普通话语音时，第二调整可能会得到区分平舌音与翘舌音的规律，但当第二样本集和待分类样本为四川方言时，该规律几乎无法用于识别。此时，第一调整中的监督可以排除该规律，重新开始下一迭代，直到寻找到与第二样本集相关性较高的规律为止。也就是说，该监督作用在改善泛用性的同时还保证了第一模型(或信息分类模型)在实际具体任务上的专用性。

本申请实施例提供的信息分类方法，首先对第一模型进行训练。在训练过程中，对第一模型的第一参数进行迭代的第一调整和迭代的第二调整。其中，第一调整的每次迭代包括该迭代的第二调整，第二调整的每次迭代基于第一模型对第一样本集的处理，第一调整的每次迭代基于经迭代的第二调整的第一模型对第二样本集的处理。其中，第一样本集包含一个或多个第一样本，第二样本集包含一个或多个第二样本，各第二样本均具有对应的第一原始标签，该第一原始标签用于表征第二样本的类别。然后，调用已训练的第一模型处理待分类样本得到其第一特征，调用第二模型处理第一特征，以得到待分类样本的第一标签。这样，有标签的第二样本能够监督基于无标签的第一样本所进行的训练，既将训练扩展到无标签样本，又保证无标签样本中提取的内在规律符合最终的信息分类任务，能够在低资源条件下有效的训练信息分类模型。该方法能够为低资源的信息分类应用场景构建高质量的信息分类模型，从而能够准确、高效的完成相应的信息分类任务。

需要注意，为了前述实施例表述清楚，图3中步骤S207的判断“是”流程直接指向步骤S12，但本申请实施例不限于此。该“是”流程还可以指向紧随步骤S207之后(或步骤S11之后)的其他步骤。

请参考图4。图4是本申请实施例中另一种信息分类方法的流程图。在图 2所对应实施例的基础上，信息分类方法还可以包含步骤：

S113、将第三样本集输入所述迭代的第一调整后的第一模型。其中，所述第三样本集包含一个或多个第三样本，各第三样本均具有对应的第二原始标签，所述第二原始标签用于表征所述第三样本的类别。

与第二样本集类似，这里的第三样本集是第一模型的另一辅助训练集，第三样本同样为第一模型的辅助训练样本，该一个或多个第三样本中均为有标签的样本。同样，第三样本集带有原始标签，即“真实标签”。

可以理解，由于第三样本同样是第一模型的输入，其与第一样本和第二样本具有相同的类型，即属于相同大类的信息，比如语音、文本、图片、视频等等。同样，这使得辅助训练集与训练集具有一定的相似性，比如能够依据相似的分类法分入相似的类别中。具体的示例参见之前对第二样本集的描述，这里不再重复。

S114、对所述第一参数进行迭代的第三调整，直到符合第三预设条件。其中，所述第三预设条件为第三损失降至第五阈值或所述第三调整的迭代次数达到第六阈值。

与第一预设条件类似，第三预设条件用于判断迭代的第三调整是否达到了预期的目标。具体的，在迭代的第三调整中，如果某次迭代后第三损失降至第五阈值或者第一调整迭代的次数达到第六阈值，那么结束迭代，进入S114 之后的步骤。相反，如果第三损失没有降至第五阈值同时第三调整的迭代次数没有达到第六阈值，那么第三调整会进入下一次迭代。与第一损失类似，这里的第三损失的计算基础至少包含当前第一模型和各第三样本，“当前第一模型”是指当前迭代中调整第一参数后的第一模型。

下面结合图5对前述实施例中的步骤S114进行进一步的说明。图3是本申请实施例中一种迭代的第三调整的流程图。在图5中，所述第三调整的每次迭代包括如下步骤：

S301、调整第一模型的第一参数。

本步骤与步骤S201类似，该调整可遵循预设的规律，比如按照预设的顺序或者预设的步长来调整第一参数，具体的规律可以根据实际应用场景和实际需要来确定。在本申请实施例中，步骤S301可用于在步骤S201的基础上实现对第一参数“微调。也就是说，步骤S301中第一参数的调整步长可小于步骤S201中第一参数的调整步长，和/或，步骤S301中的第一参数的调整范围局限在迭代的第一调整所确定的第一参数周围预设的参数空间内。

S302、基于各第三样本和调整后的第一参数得到各第三样本的第三特征。

可以理解，这里“调整后的第一参数”是指当前迭代中经步骤S301调整之后的第一参数。本步骤中，第一模型根据调整后的第一参数从第三样本中进行特征提取，得到第三特征。此时的第一模型已经在第一样本集和第二样本集的基础上经过嵌套的迭代调整，因此，第一模型对第三特征的提取依然依据其学习到的第一样本集中与第二样本集相关的内在规律。该规律在第三样本集中越适用，则提取出的第三特征越符合预期。比如，当第二损失表征了从第一样本中所提取的表示与第一样本本身之间的关联度时，此时第一模型会试图参考同样的关联度从第三样本中提取第三特征，如该关联度同样适用于第三样本集中样本与标签之间的关系，则第三特征与第三样本的标签会具有较强的相关性。

S303、将第三特征输入第二模型，得到各第三样本的第二预测标签。其中，所述预测第二标签用于预测所述第三样本的类别。

参见步骤S13中对第二模型的相关描述，这里的第二模型即实际对待分类样本进行分类的模型。在本申请实施例中，第二模型可作为第一模型的验证模型，也可作为在信息分类模型中的验证模块。与第三模型类似，第二模型可以是已训练的、较为成熟的模型，其参数相对固定，甚至不需要额外的调整。

S304、根据各第三样本的第二原始标签和所述第二预测标签的差异得到第三损失。

第二模型对第三样本的类别进行预测后得到对应的第二预测标签。第二预测标签可以理解第二模型试图还原已编码的第三样本的类别，因此其与第二原始标签的差异从一定程度上反映了第一模型编码的质量是否符合对信息分类任务的需求，或者说反映了第一模型提取第三特征的准确程度(以第三标签为衡量基准)。本申请实施例中，通过各第三样本的第二原始标签和所述第二预测标签的差异得到第三损失。与步骤S206中类似，各第三样本的该差异与第三损失呈正相关，即每个样本的差异越大，第三损失越大。

S305、判断是否符合第三预设条件。若是，进入步骤S12(或其他紧随步骤S11之后的步骤)。若否，返回步骤S301。

当符合第三预设条件时，说明当前第一模型在第三样本集上可以提取到足够准确(即足够准确的反映第三样本类别)的特征，此时第三调整在第一样本集内找到的内在规律与在第三样本集和第二模型上的适用性较好，无需再进行第一调整的下一迭代，可考虑直接将第一模型(或信息分类模型)用于对待分类样本的分类。否则，说明当前第一模型在第三样本集上进行特征提取的准确性需要进一步改善，仍然需要在下一迭代中微调第一参数。

从上述实施例可以看出，在两个相互嵌套的迭代调整之外，对第一模型的训练可增加一个额外的迭代调整过程。第三调整的迭代过程用于在第一迭代调整结果的基础上第一参数进行微调，使得第一模型为第二模型提供更加准确的特征，更好的适应第二模型所对应的信息分类任务。

在上述实施例中，待分类样本的低资源体现为有标签的第三样本(或第二样本和第三样本)的数量有限。此时，一方面可以利用无标签样本(即第一样本)来提高信息分类模型的训练效果，另一方面可以利用部分有标签样本或与待分类样本相似度较低的有标签资源(即第二样本)无标签样本的训练进行监督，同时还可以利用剩余的有标签样本或者与待分类样本相似度较高的有标签资源(即第三样本)来对上述训练结果进行验证和微调。可以理解，第一样本的数量越多对训练资源的扩展越明显，同时待分类样本和第三样本越相似，步骤S113和S114可以越好的改善已训练的第一模型的专用性，提升其在信息分类任务中的表现。

以下对第一模型以及与第一模型相关的步骤进行进一步介绍。

请参考图6。图6是本申请实施例中一种第一模型的结构示意图。图6所示，第一模型100可包含编码模块和上下文模块。其中，编码模块用于对第一模型的输入信息进行处理，以得到输入信息对应的第一编码。上下文模块用于对该中间特征进行处理，以得到输入信息对应的输出特征。可以理解，编码模块和上下文模块可以为第一模型中的特定算法，也可以为用于实现第一模型中特定算法的软件指令，还可以为内嵌第一模型中特定算法的硬件，或者前述软件指令和硬件的结合，本申请中对此不作限定。

第一模型的输入信息可以为任何适于输入第一模型以进行特征提取的信息。结合前述方法实施例，这里的“输入信息”可以为待分类样本、第一样本、第二样本、或者第三样本。相应的，待分类样本的输出特征即前述第一特征，第二样本的输出特征即前述第二特征，第三样本的输出特征即前述第三特征。

请参考图7。图7是本申请实施例中再一种信息分类方法的流程图。第一模型的上述结构进一步结合前述方法实施例，则步骤S12可包括如下步骤：

S121、调用编码模块编码待分类样本，得到所述待分类样本的第一中间特征。

S122、调用所述上下文模块处理所述第一中间特征，得到所述第一特征。

可以理解，上述步骤S121和S122即输入信息为待分类样本的情况，此处第一中间特征即为对应待分类样本的前述第一编码。

编码模块可以包含一层或者多层编码层，每层编码层可以采用卷积神经网络层或者其他神经网络层。在一些实施例中，编码模块可以为一层卷积层，也可以为多层级联的卷积层。当编码模块均有N层级联卷积层时，第一层卷积层用于对输入信息进行卷积，第n层卷积层用于对第n-1层卷积层的输出进行卷积，1<n≤N。

上下文模块也可以为单层或者多层结构。在一些实施例中，上下文模块可以为一层上下文层，也可以包含线性映射层和级联的多层上下文层。多层上下文层可以采用循环神经网络层、单向长短时记忆层、双向长短时记忆层、或门控循环单元层中的至少一种，本申请对此不作限定。

上下文层用于对各自的输入进行上下文处理，得到第二编码。线性映射层用于根据预设的权重对多个输入进行线性映射。以N层上下文层为例，第一层上下文层用于对第一编码进行上下文处理，得到第二编码1，第二层上下文层用于对第二编码1进行上下文处理，得到第二编码2，以此类推，第N 层上下文层用于对第二编码N-1进行处理，得到第二编码N。N层上下文层分别输出第二编码1～N。随后，线性映射层对上述N个第二编码进行线性映射，得到待分类样本对应的输出特征。比如，当N＝3时，C_F＝a·C₁+b·C₂+ c·C₃+m，其中C_F为输出特征，C₁、C₂、C₃分别为第二编码1～N，a、b、c和 m为线性映射的系数。线性映射的系数可根据实际应用场景决定，本申请对此不作限定。在实际应用中，可以首先将待映射的各第二编码进行级联，比如构成向量(C₁,C₂,C₃)，然后在对其进行线性映射处理，这样有助于层间的数据传递。利用多层上下文层对第一编码进行上下文处理，并对输出的多个第二编码进行融合，可以有效提高输出特征的稳定性，增强第一模型的鲁棒性和识别性能。

请参考图8。图8是本申请实施例中又一种信息分类方法的流程图。当上下文模块包含线性映射层和级联的多层上下文层时，步骤S122可包括如下步骤：

S1221、调用级联的多层上下文层处理第一中间特征，每个上下文层输出对应的第二中间特征。

S1222、调用线性映射层对各第二中间特征进行线性映射，得到第一特征。

可以理解，上述步骤S121和S122即第一编码为第一中间特征的情况，此处第二中间特征即为对应待分类样本的前述第二编码。

当编码模块包含N个卷积层、上下文模块包含一组上下文线性映射结构 (N个上下文层和线性映射层)时，第一模型的结构可参考图9。图9是本申请实施例中一种第一模型处理输入信息的过程示意图。需要注意，图9仅是第一模型的一个示例，实际应用中第一模型还可以采用其他结构。例如，图9 中的编码模块可以含有一层卷积层或者其他类型的神经网络层。例如，图9 中的上下文模块可以仅含有一层上下文层或者多组并行的上下文线性映射结构。为了简洁，本申请实施例不对所有可能的情况进行一一列举。

结合图6和前述方法实施例，当第一模型包含编码模块和上下文模块时，在第二调整的每次迭代中获得第二损失的方法可以包含编码过程和上下文处理过程，即，通过编码和上下文处理来评估第一样本和其对应的输出特征之间的关联程度。该方法的一个示例可参考图10。

图10是本申请实施例中一种获取第二损失的过程示意图。在图10中，第一样本为一个包含M个元素的向量X，其表示为X＝(X₁,X₂,…,X_M)。样本的向量化表示属于本领域常识，本申请对此不作赘述。比如，当第一样本为语音时，可按照预设频率(如16kHz)对语音进行采样得到一系列采样点数据，这些采样点数据即可构成向量，即X中的每个元素为语音的一个采样点。

首先，调用编码模块对各第一样本X进行编码，得到各第一样本的中间特征向量Z。其中，X和Z的长度成正比。

第一样本X输入编码模块后，可以得到包含T个元素的中间特征向量Z 作为对应的第一编码，其表示为Z＝(Z₁,Z₂,…,Z_T)。编码意味着对X进行特征提取，每个第一样本可能具有不同的长度M，此时可以得到不同长度的中间特征向量Z。通常情况下，M>T。在一个实施例中，编码模块包含多层卷积层，则M和T的具体比例由卷积层的卷积步长决定。比如，假设编码模块为 7层卷积神经网络，每层卷积核分别为10、8、4、4、4、1，每层卷积步长为 5、4、2、2、2、1、1，则M与Z的比值为5×4×2×2×2×1×1＝160。此时，如果第一样本为语音的16kHz采样点，则中间特征向量为100Hz的语音特征帧序列。

然后，调用上下文模块处理各第一样本X的中间特征向量Z，得到各第一样本的上下文特征向量C。C和Z的长度相同。

中间特征向量Z输入上下文模块后，可以得到包含T个元素的上下文特征向量作为对应的输出特征，其表示为C＝(C₁,C₂,…,C_T)。上下文处理意味着 C_t不仅包含Z_t的信息，还包含Z_t在Z中前后若干元素的信息(即上下文信息)， 1≤t≤T。在一个实施例中，上下文模块包含线性映射层和3层级联的上下文层，则第一层上下文层对Z进行处理获得C'＝(C'₁,C'₂,…,C'_T)，第二上下文层对 C'进行处理获得C"＝(C"₁,C"₂,…,C"_T)，第三上下文层对C"进行处理获得 C"'＝(C"'₁,C"'₂,…,C"'_T)，线性映射层对C'、C"和C″′进行处理获得C＝Linear(C',C", C″′)。

接下来，对各第一样本的上下文向量中第t个的元素C_t，根据正样本、负样本和预设函数f_k计算C_t与正样本之间的互信息。正样本是为该第一样本的中间特征向量中第t+k个的元素Z_t+k。其中，k为根据实际需要选取的正整数，用来标识Z_t之后的目标样本，如语音特征帧序列在第t帧之后的第t+k帧。负样本为从该第一样本的中间特征向量中随机选择的不包含Z_t+k的n个元素，或者为从所有第一样本的中间特征向量中随机选择的不包含Z_t+k的n个元素。

C_t与Z_t+k之间的互信息反映了C_t与Z_t+k之间的关联程度。在本申请实施例中，当给定了第一模型的第一参数之后，可以根据第一样本得到Z_t+k相对 C_t的后验概率。该后验概率可以理解为在给定C_t前提下经Z_t+k进行上下文处理得到C_t的概率，也可以理解为根据C_t预测得到Z_t+k的概率。同理，此时也可以得到各负样本Z_ni(1≤i≤n，且i≠t+k)相对C_t的后验概率。通过计算 Z_t+k相对C_t的后验概率在所有样本(正样本和负样本)相对C_t的后验概率中所占据的比例，即可得到C_t与Z_t+k之间的互信息。

最后，基于各第一样本的互信息计算第二损失，所述第二损失与各第一样本的互信息负相关。也就是说，对于任何一个第一样本，其互信息的增加会降低第一损失。本申请对于基于互信息计算第二损失的算法不做具体的限定，只要其满足负相关即可。比如，可以将各第一样本的互信息相加后取倒数，也可以将各第一样本的互信息取倒数后相加。

可以理解，在上述步骤中针对每个第一样本可以仅选择一个C_t的互信息来计算第二损失，也可以选择多个不同的C_t的互信息来计算第二损失。本申请对此不作限定，只要第二损失能够反映上下文向量C和中间特征向量Z(即，和第一样本X)之间的关联程度即可。

可以理解，对应上述实施例，第二样本、第三样本和待分类样本可以具有与第一样本X＝(X₁,X₂,…,X_M)类似的结构。其对应的标签也可以具有对应的形式。以ASR为例，当标签为语音对应的文字文本时，X的对应的标签可以为包含N个元素的向量Y＝(Y₁,Y₂,…,Y_N)，其中Y₁和Y_N可以为句子的起始符和终止符，其余元素可以表示按序排列的文本单元，比如汉字或者单词。

如前所述，本申请实施例中的信息分类方法可以为低资源的信息分类应用场景构建高质量的信息分类模型，从而能够准确、高效的完成相应的信息分类任务。除有标签样本数量有限以外，低资源环境往往还体现在有标签样本、无标签样本和待分类样本的特征分布和相似度上。以下将介绍低资源环境的一些示例。

在一些实施例中，可以根据第一特征空间来描述低资源环境。其中，第一特征空间为基于第四模型的特征提取操作的结果所对应的空间。即，将各样本输入第四模型之后，可以得到对应的特征，第一特征空间即为所有可能的特征的集合所定义的空间。第一特征空间的每个维度为第四模型所提取的特征中的某个特定的特征。比如，当所提取的特征为N维向量时，第一特征空间为N维空间，其每个维度通过该向量中的一个元素来表征。

通过调用所述第四模型进行特征提取，可获得对所述待分类样本的第四特征、各第一样本的第五特征、以及各第二样本的第六特征，还可获得对所述各第三样本的第七特征。可以理解，由于第四特征、第五特征、第六特征和第七特征均为通过第四模型提取的特征，其均位于第一特征空间中。

如前所述，参考图2所对应的实施例，低资源的情况可能体现为：和第一样本集相比，第二样本集与待分类样本更为相似。则在第一特征空间中，此时待分类样本的特征位置与第一样本集的特征位置的距离大于待分类样本的特征位置与第二样本集的特征位置的距离。

前述特征位置可通过如下方法来确定。将第四特征在第一特征空间中的位置设定为待分类样本的特征位置。通过预设的算法基于各第五特征在第一特征空间中的位置确定第一样本集的特征位置，同时通过同样的算法基于各第六特征在第一特征空间中的位置确定所述第二样本集的特征位置。该算法可以是算数平均法(即将各第五或第六特征的位置的算数平均得到特征位置)、几何平均法(即将各第五或第六征的位置的几何平均得到特征位置)、或者最小覆盖圆法(即将具有能够覆盖所有第五或第六特征的位置的最小半径N维球体的球心作为特征位置)。

参考图2所对应的实施例，低资源的情况还可能体现为：和第一样本集相比，第二样本集更加多样化。则在第一特征空间中，此时第二样本集的分布范围大于第一样本集的分布范围。

前述分布范围可通过如下方法来确定。在用前述方法确定第一样本集和第二样本集的特征位置之后，使用预设参数来表征该分布范围。该参数可以是各第五或第六特征的位置的到对应的特征位置的方差或者标准差，也可以是能够覆盖所有第五或第六特征的位置的最小半径N维球体的半径或者直径。

同时，如前所述，低资源的情况往往体现为第二样本的数量有限，第一样本的数量越多对训练资源的扩展越明显。因此，在一些实施例中，第二样本的数量小于第一样本的数量。

类似的，参考图3所对应的实施例，低资源的情况可能体现为：和第一样本集相比，第三样本集与待分类样本更为相似。则在第一特征空间中，此时待分类样本的特征位置与第一样本集的特征位置的距离大于待分类样本的特征位置与第三样本集的特征位置的距离。进一步的，在一些实施例中，和第二样本集相比，第三样本集与待分类样本更为相似，则此时待分类样本的特征位置与第二样本集的特征位置的距离也大于待分类样本的特征位置与第三样本集的特征位置的距离。

参考图3所对应的实施例，低资源的情况还可能体现为：和第一样本集相比，第三样本集更加多样化。则在第一特征空间中，此时第三样本集的分布范围大于第一样本集的分布范围。进一步的，在一些实施例中，和第二样本集相比，第三样本集也更为多样化，则此时第三样本集的分布范围也大于第二样本集的分布范围。

与前述获取第一样本集和第二样本集的特征位置和分布范围类似，可通过预设的算法基于各第七特征在第一特征空间中的位置确定第三样本集的特征位置，也可使用预设参数来表征第三样本集的分布范围。预设算法和预设参数的选择参见针对第一样本集和第二样本集的描述，这里不再重复。

同时，如前所述，低资源的情况往往体现为第三样本的数量有限，第一样本的数量越多对训练资源的扩展越明显。因此，在一些实施例中，第三样本的数量小于第一样本的数量。另外，当第二样本集与第三样本集的来源存在差异时，第二样本数量越多对训练资源也有一定的扩展作用。因此，在另一些实施例中，第三样本的数量还小于第二样本的数量。

在前述实施例中，第四模型能够从第一样本集、第二样本集、第三样本集和待分类样本中提取特征。因此，第四模型可以为与第一模型的类型相似的模型。比如，以ASR为例，第四模型和第一模型可以均为CPC架构的模型。通常情况下，第四模型可以是已训练的、较为成熟的模型，其参数相对固定，不需要额外的调整。

以第一特征空间为二维平面空间为例，图11A和图11B分别示出了两种低资源情况下第一特征空间内的特征分布示意图。其中，第四模型提取出的特征为一个二维向量，包含特征A和特征B。需要注意，虽然图11A和11B 仅示出了二维的情况，本实施例在一维、三维以及更高维度的情况可以通过类推得到，在此不进行赘述。

从图11A可以看出，在第一特征空间中，第一样本在数量上大于第二样本和第三样本。同时，待分类样本的特征位置距离第三样本集的特征位置最近，距离第一样本集特征位置最远。因此，待分类样本与第三样本最为相似，其次与第二样本较为相似。需要注意，由于该示例中可使用算数平均法、几何平均法和最小覆盖圆法中任一种计算特征位置，且位置关系较为直观，因此为了简洁，各样本集的特征位置未在图中示出。

以ASR为例，当ASR任务为汉语某方言的语音识别时，该方言的分类语音样本可能较为稀少。图11A中的第一样本集可以属于具有丰富的未分类语音样本的语音，比如汉语的普通话语音，第二样本集可以包含该方言的已分类语音样本。这样，基于与图2对应的方法实施例，可以将第一模型的训练集扩展到大量普通话语音样本上，使用该方言的已分类语音样本来监督基于普通话语音样本的训练。进一步的，当ASR任务为汉语某方言亚种的语音识别时，还可以增加第三样本集，第三样本集包含该方言亚种的少量已分类语音样本。在基于普通话语音样本和方言语音样本对第一模型进行训练之后，还可以基于该方言亚种的语音样本来进一步微调第一模型，使其更加适应对该方言亚种的文字分类任务。

从图11B可以看出，在第一特征空间中，第一样本在数量上略大于第二样本和第三样本。同时，第一样本集的分布范围要小于第二样本集和第三样本集的分布范围，第二样本集的分布范围与第三样本集的分布范围相近。因此，第三样本集与第二样本集的多样化程度高于第一样本集。与图11B类似，为了简洁，各样本集的特征位置未在图中示出。

同样以ASR为例，当ASR任务包含汉语语音识别时，待分类的样本可能既包含普通话语音也包含各种方言的语音，但是各种方言的分类语音样本可能较为稀少。图11B中的第一样本集可以属于具有丰富的未分类语音样本的语音，比如汉语的普通话语音，第二样本集可以包含各种方言的已分类语音样本。这样，基于与图2对应的方法实施例，可以将第一模型的训练集扩展到大量普通话语音样本上，使用各种方言的已分类语音样本来监督基于普通话语音样本的训练。进一步的，还可以使用另一部分各种方言的已分类语音样本作为第三样本集。这样，在基于普通话语音样本和各种方言语音样本对第一模型进行训练之后，还可以基于另一部分方言语音样本来进一步微调第一模型，使其更加适应各种方言的分类任务。

可以理解，图11A和图11B仅为本申请实施例的示例，并不用于限制本申请。比如，相关方法实施例同样适用于第一样本集的分布范围小于第二样本集、第二样本集的分布范围小于第三样本集的情况，也适用于第一样本集的分布范围小于第二样本集、第三样本集的特征距离与待分类样本的特征距离最为接近的情况，还适用于第一样本集的特征距离与待分类样本的特征距离最远、第二样本集与第三样本集的特征距离与待分类样本的特征距离相近的情况。类似的，本领域技术人员可以基于前述实施例类推出其他情况，以及其他情况下在ASR中对应的应用场景。为了简洁，本申请不对这些内容一一列举。

前述ASR场景既包含语音的文字识别、语音的来源识别、语音的情绪识别，也包含ASR的其他应用场景。当然，虽然以ASR作为示例，本领域技术人员可以由此类推至其他信息分类场景，比如图片分类、视频内容识别等等。为了简洁，本申请不对这些场景一一列举。

本申请实施例的第二方面提供了一种信息分类模型的训练方法。与前述信息分类方法中的训练步骤类似，该信息分类模型的训练方法包括对该信息分类模型的第一参数进行迭代的第一调整和迭代的第二调整。其中，第一调整的每次迭代包括该迭代的第二调整，该第二调整的每次迭代基于该信息分类模型对第一样本集的处理，该第一调整的每次迭代基于经迭代的第二调整的该信息分类模型对第二样本集的处理。其中，该第一样本集包含一个或多个第一样本，该第二样本集包含一个或多个第二样本，各第二样本均具有对应的第一原始标签，该第一原始标签用于表征所述第二样本的类别。

图12是本申请实施例中一种信息分类模型的训练方法的流程图。如图12 所示，该信息分类模型的训练方法可包括如下步骤：

S21、将第一样本集输入信息分类模型。

S22、对所述信息分类模型的第一参数进行迭代的第一调整，直到符合第一预设条件。其中，所述第一预设条件为所述第一损失降至第一阈值或所述第一调整的迭代次数达到第二阈值。

步骤S21和S22的细节可参考前述方法实施例中的步骤S111和S112，本申请不再赘述。其中，步骤S21和S22中的信息分类模型至少包含步骤S111 和S112中的第一模型。

请参考图13。图13是本申请实施例中另一种信息分类模型的训练方法的流程图。在图13所对应实施例的基础上，该信息分类模型的训练方法还可以包含步骤：

S23、将第三样本集输入所述迭代的第一调整后的信息分类模型。其中，所述第三样本集包含一个或多个第三样本，各第三样本均具有对应的第二原始标签，所述第二原始标签用于表征所述第三样本的类别。

S24、对所述第一参数进行迭代的第三调整，直到符合第三预设条件。其中，所述第三预设条件为第三损失降至第五阈值或所述第三调整的迭代次数达到第六阈值。

步骤S23和S24的细节可参考前述方法实施例中的步骤S113和S114，本申请不再赘述。类似的，步骤S23和S24中的信息分类模型至少包含步骤 S113和S114中的第一模型。

本申请实施例的第三方面提供了一种信息分类装置。图14是本申请实施例中一种信息分类装置的结构示意图。如图14所示，该信息分类装置200可包括训练模块210、第一处理模块220和第二处理模块230。

训练模块210用于对第一模型进行训练，得到已训练的第一模型。

第一处理模块220用于调用所述已训练的第一模型处理待分类样本，得到待分类样本的第一特征。

第二处理模块230用于调用第二模型处理所述第一特征，得到待分类样本的第一标签。其中，所述第一标签用于表征待分类样本的类别。

在本申请实施例中，训练模块210用于对该第一模型的第一参数进行迭代的第一调整和迭代的第二调整。其中，该第一调整的每次迭代包括所述迭代的第二调整，该第二调整的每次迭代基于该第一模型对第一样本集的处理，该第一调整的每次迭代基于经该迭代的第二调整的第一模型对第二样本集的处理。其中，该第一样本集包含一个或多个第一样本，该第二样本集包含一个或多个第二样本，各第二样本均具有对应的第一原始标签，该第一原始标签用于表征所述第二样本的类别。

继续参考图14。在一些实施例中，训练模块210可包括调整子模块211、输入子模块212、输出子模块213和损失获取子模块214。可以理解，图14 中所示的训练模块210的部件仅为其一种示例，本申请不限于此。

调整子模块211用于对所述第一模型的第一参数进行迭代的第一调整，直到符合第一预设条件。其中，所述第一预设条件为第一损失降至第一阈值或所述第一调整的迭代次数达到第二阈值。具体的，调整子模块211用于在所述第一调整的每次迭代中，对所述第一参数进行迭代的第二调整，直到符合第二预设条件。其中，所述第二预设条件为第二损失降至第三阈值或所述第二调整的迭代次数达到第四阈值。调整子模块211还用于在所述第二调整的每次迭代中，调整所述第一参数。

输入子模块212用于将第一样本集输入所述第一模型。其中，所述第一样本包含一个或多个第一样本。输入子模块212还用于在所述第一调整的每次迭代中，将第二样本集输入所述第二调整后的第一模型，得到各第二样本的第二特征。其中，所述第二样本集包含一个或多个第二样本，各第二样本均具有对应的第一原始标签，所述第一原始标签用于表征所述第二样本的类别。

输出子模块213用于在所述第二调整的每次迭代中，将各第二样本的特征输入第三模型，得到各第二样本的第一预测标签。其中，所述第一预测标签用于预测所述第二样本的类别。

损失获取子模块214用于在所述第一调整的每次迭代中，根据所述各第二样本的所述第一原始标签与所述第一预测标签的差异得到所述第一损失。损失获取子模块214还用于在所述第二调整的每次迭代中，基于所述第二调整的当前迭代中的所述第一模型和所述第一样本集中的各第一样本计算得到所述第二损失。

在一些实施例中，调整子模块211还用于对所述第一参数进行迭代的第三调整，直到符合第三预设条件。其中，所述第三预设条件为第三损失降至第五阈值或所述第三调整的迭代次数达到第六阈值。具体的，调整子模块211 用于在所述第三调整的每次迭代中，调整所述第一参数，并基于各第三样本和当前迭代调整后的第一参数根据得到各第三样本的第三特征。其中，所述第三调整的每次迭代中所述第一参数的调整步长小于所述第一调整的每次迭代中所述第一参数的调整步长。

输入子模块212还用于将第三样本集输入所述迭代的第一调整后的第一模型。其中，所述第三样本集包含一个或多个第三样本，各第三样本均具有对应的第二原始标签，所述第二原始标签用于表征所述第三样本的类别。

输出子模块213还用于将各第三样本的第三特征输入所述第二模型，得到各第三样本的第二预测标签。其中，所述预测第二标签用于预测所述第三样本的类别。

损失获取子模块214还用于根据所述第三样本集中各第三样本的所述第二原始标签与所述第二预测标签的差异得到所述第三损失。

在一些实施例中，通过预设的第一函数基于各第一样本和当前迭代调整后的所述第一参数计算获得所述第二损失，其中，所述第一函数用于表征所述第一模型从各第一样本中所提取的表示与对应的第一样本之间的关联度。

在一些实施例中，所述第一模型包含编码模块和上下文模块，所述第一处理模块220包括编码处理子模块221和上下文处理子模块222。

编码处理子模块221用于调用所述编码模块编码待分类样本，得到所述待分类样本的第一中间特征。

上下文处理子模块222用于调用所述上下文模块处理所述第一中间特征，得到所述第一特征。

在一些实施例中，所述编码模块包含一层卷积层或多层级联的卷积层。

在一些实施例中，所述上下文模块包含线性映射层和级联的多层上下文层，且上下文处理子模块222包含上下文处理单元2221和线性映射单元222。

上下文处理单元2221用于调用级联的多层上下文层处理所述第一中间特征，每层上下文层输出对应的第二中间特征；

线性映射单元222用于调用线性映射层对各第二中间特征进行线性映射，得到所述第一特征。

在一些实施例中，所述多层上下文层包含循环神经网络层、单向长短时记忆层、双向长短时记忆层、或门控循环单元层中的一种或多种。

在一些实施例中，各第一样本为向量，损失获取子模块214包含编码单元2141、上下文单元2142、互信息单元2143、损失计算单元2144。

编码单元2141用于调用所述编码模块编码各第一样本，得到各第一样本的中间特征向量Z。其中，所述中间特征向量的长度T与对应第一样本的长度M成正比。

上下文单元2142用于调用所述上下文模块处理各第一样本的中间特征向量Z，得到各第一样本的上下文向量C。其中，所述特征向量的长度为T。

互信息单元2143用于对各第一样本的上下文向量中第t个的元素C_t，根据正样本、负样本和预设函数计算C_t与正样本之间的互信息。其中，正样本为该第一样本的中间特征向量中第t+k个的元素Z_t+k，负样本为从该第一样本的中间特征向量中随机选择的不包含Z_t+k的n个元素、或者为从所有第一样本的中间特征向量中随机选择的不包含Z_t+k的n个元素。其中，t、k、n为正整数，t+k≤T。

损失计算单元2144用于基于各第一样本的所述互信息计算所述第二损失。其中，所述第二损失与各第一样本的所述互信息呈负相关。

在一些实施例中，所述第一样本的数量大于所述第二样本的数量。

在一些实施例中，所述第一样本的数量大于所述第三样本的数量。

在一些实施例中，在第一特征空间中，所述待分类样本的特征位置到所述第一样本集的特征位置大于所述待分类样本的特征位置到所述第二样本集的特征位置，或者，所述第一样本集的分布范围大于所述第二样本集的分布范围。

所述第一特征空间为通过第四模型进行特征提取的结果所对应的空间，调用所述第四模型对所述待分类样本进行特征提取获得第四特征，调用所述第四模型对各第一样本进行特征提取获得各第一样本的第五特征，调用所述第四模型对各第二样本进行特征提取获得各第二样本的第六特征。

所述第四特征在所述第一特征空间中位于所述待分类样本的特征位置，基于各第五特征在所述第一特征空间中的位置通过预设方法确定所述第一样本集的特征位置和分布范围，基于各第六特征在所述第一特征空间中的位置通过所述预设方法确定所述第二样本集的特征位置和分布范围。

在一些实施例中，在第一特征空间中：所述待分类样本的特征位置到所述第一样本集的特征位置大于所述待分类样本的特征点到所述第二样本集的特征位置，且大于所述待分类样本的特征位置到所述第三样本集的特征位置；或者，所述第一样本集的分布范围小于所述第二样本集的分布范围，且小于所述第三样本集的分布范围。

其中，所述第一特征空间为通过第四模型进行特征提取的结果所对应的空间，调用所述第四模型对所述待分类样本进行特征提取获得第四特征，调用所述第四模型对各第一样本进行特征提取获得各第一样本的第五特征，调用所述第四模型对各第二样本进行特征提取获得各第二样本的第六特征，调用所述第四模型对各第三样本进行特征提取获得各第三样本的第七特征。

其中，所述第四特征在所述第一特征空间中位于所述待分类样本的特征位置，基于各第五特征在所述第一特征空间中的位置通过预设方法确定所述第一样本集的特征位置和分布范围，基于各第六特征在所述第一特征空间中的位置通过所述预设方法确定所述第二样本集的特征位置和分布范围，基于各第七特征在所述第一特征空间中的位置通过所述预设方法确定所述第三样本集的特征位置和分布范围。

在一些实施例中，所述预设方法包含：通过计算各位置的算数平均、几何平均、或最小覆盖圆圆心确定对应的特征位置；以及，通过计算各位置与对应特征位置距离的方差或者标准差确定对应的分布范围的大小，或者通过计算最小覆盖圆半径确定对应的分布范围的大小。

在一些实施例中所述第四模型和所述第一模型均属于CPC模型。

在一些实施例中，所述待分类样本、第一样本、第二样本和第三样本为语音。

在一些实施例中，所述迭代的第一调整和所述迭代的第二调整构成元学习(meta-learning)

在一些实施例中，所述第一标签、原始标签和预测标签为对应语音的文本、表征对应语音的来源、或表征对应语音的来源的情绪。

在一些实施例中，所述第二模型和所述第三模型均为连结时序分类(Connectionist Temporal Classification)模型。

上述装置实施例的细节可参考前述方法实施例，此处不再赘述。在一些实施例中，第一模型可部分或者全部独立于信息分类装置之外，并由信息分类装置中的模块、子模块或者单元调用。在另一些实施例中，第一模型可部分或者全部内嵌于信息分类装置中的模块、子模块或者单元中。这里的“内嵌”可以指内嵌于软件代码中的指令，也可以指内嵌于硬件电路中的指令。

本申请实施例的第四方面提供了一种信息分类模型的训练装置。与前述信息分类装置类似，该信息分类模型训练装置包括训练模块，该训练模块用于对该信息分类模型的第一参数进行迭代的第一调整和迭代的第二调整。其中，该第一调整的每次迭代包括该迭代的第二调整，该第二调整的每次迭代基于该信息分类模型对第一样本集的处理，该第一调整的每次迭代基于经该迭代的第二调整的该信息分类模型对第二样本集的处理。其中，该第一样本集包含一个或多个第一样本，该第二样本集包含一个或多个第二样本，各第二样本均具有对应的第一原始标签，该第一原始标签用于表征所述第二样本的类别。

图15是本申请实施例中一种信息分类模型的训练装置的结构示意图。如图15所示，该信息分类模型的训练装置300(或其中的训练模块)可具体包括调整模块310、输入模块320、输出模块330和损失获取模块340。

调整模块310用于对所述信息分类模型的第一参数进行迭代的第一调整，直到符合第一预设条件。其中，所述第一预设条件为第一损失降至第一阈值或所述第一调整的迭代次数达到第二阈值。具体的，调整模块310用于在所述第一调整的每次迭代中，对所述第一参数进行迭代的第二调整，直到符合第二预设条件。其中，所述第二预设条件为第二损失降至第三阈值或所述第二调整的迭代次数达到第四阈值。调整模块310还用于在所述第二调整的每次迭代中，调整所述第一参数。

输入模块320用于将第一样本集输入所述信息分类模型。其中，所述第一样本包含一个或多个第一样本。输入模块320还用于在所述第一调整的每次迭代中，将第二样本集输入所述第二调整后的信息分类模型，得到各第二样本的第二特征。其中，所述第二样本集包含一个或多个第二样本，各第二样本均具有对应的第一原始标签，所述第一原始标签用于表征所述第二样本的类别。

输出模块330用于在所述第二调整的每次迭代中，将各第二样本的特征输入第三模型，得到各第二样本的第一预测标签。其中，所述第一预测标签用于预测所述第二样本的类别。

损失获取模块340用于在所述第一调整的每次迭代中，根据所述各第二样本的所述第一原始标签与所述第一预测标签的差异得到所述第一损失。损失获取模块340还用于在所述第二调整的每次迭代中，基于所述第二调整的当前迭代中的所述信息分类模型和所述第一样本集中的各第一样本计算得到所述第二损失。

调整模块310、输入模块320、输出模块330和损失获取模块340的细节可分别参考前述装置实施例中的调整子模块211、输入子模块212、输出子模块213和损失获取子模块214，本申请不再赘述。其中，调整模块310、输入模块320、输出模块330和损失获取模块340中的提及的信息分类模型至少包含调整子模块211、输入子模块212、输出子模块213和损失获取子模块214 中提及的第一模型。

本申请实施例的第五方面提供了一种电子设备。该电子设备包括存储器和处理器。其中，所述存储器存储有指令，所述存储器执行所述指令时使得所述电子设备执行前述任一信息分类方法。

本申请实施例的第六方面提供了一种计算机可读介质。该计算机可读介质存储有计算机指令。所述计算机指令被处理器执行时用于实现前述任一信息分类方法。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。

结合本文中公开的实施例描述的方法或算法的步骤可以直接用硬件，处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动硬盘、CD-ROM、或技术领域内所公知的任意其他形式的存储介质中。

所述计算机可读存储介质包含程序命令、数据文件、数据结构等、或它们的组合。被记录在计算机可读存储介质中的程序可被设计或被配置以实现本发明的方法。计算机可读存储介质包括用于存储并执行程序命令的硬件系统。硬件系统的示例有磁介质(诸如硬盘、软盘、磁带)、光介质(诸如CD-ROM 和DVD)、磁光介质(诸如软光盘、ROM、RAM、闪存等)。程序包括由编译器编译的汇编语言代码或机器代码和由解释器解释的更高级语言代码。硬件系统可利用至少一个软件模块来实施以符合本发明。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种信息分类方法，包括：

对第一模型进行训练，得到已训练的第一模型；

2.根据权利要求1所述的信息分类方法，其特征在于，对第一模型进行训练，包括：

将第一样本集输入所述第一模型；

对所述第一模型的第一参数进行所述迭代的第一调整，直到符合第一预设条件，其中，所述第一预设条件为第一损失降至第一阈值或所述第一调整的迭代次数达到第二阈值；

其中，所述第一调整的每次迭代包括：

对所述第一参数进行所述迭代的第二调整，直到符合第二预设条件，其中，所述第二预设条件为第二损失降至第三阈值或所述第二调整的迭代次数达到第四阈值，其中，所述第二调整的每次迭代包括：调整所述第一参数，以及基于各第一样本和当前迭代调整后的所述第一参数计算得到所述第二损失；

将第二样本集输入所述迭代的第二调整后的第一模型，得到各第二样本的第二特征；

将各第二样本的第二特征输入第三模型，得到各第二样本的第一预测标签，其中，所述第一预测标签用于预测所述第二样本的类别；以及，

根据各第二样本的所述第一原始标签与所述第一预测标签的差异得到所述第一损失。

3.根据权利要求2所述的信息分类方法，其特征在于，在对所述第一模型的第一参数进行迭代的第一调整直到符合第一预设条件后，对第一模型进行训练，还包括：

将第三样本集输入所述迭代的第一调整后的第一模型，其中，所述第三样本集包含一个或多个第三样本，各第三样本均具有对应的第二原始标签，所述第二原始标签用于表征所述第三样本的类别；以及，

对所述第一参数进行迭代的第三调整，直到符合第三预设条件，其中，所述第三预设条件为第三损失降至第五阈值或所述第三调整的迭代次数达到第六阈值；

其中，所述第三调整的每次迭代包括：

调整所述第一参数；

基于各第三样本和当前迭代调整后的第一参数根据得到各第三样本的第三特征；

将各第三样本的第三特征输入所述第二模型，得到各第三样本的第二预测标签，其中，所述预测第二标签用于预测所述第三样本的类别；以及，

根据所述第三样本集中各第三样本的所述第二原始标签与所述第二预测标签的差异得到所述第三损失；

其中，所述第三调整的每次迭代中所述第一参数的调整步长小于所述第一调整的每次迭代中所述第一参数的调整步长。

4.根据权利要求2或3所述的信息分类方法，其特征在于，通过预设的第一函数基于各第一样本和当前迭代调整后的所述第一参数计算获得所述第二损失，其中，所述第一函数用于表征所述第一模型从各第一样本中所提取的表示与对应的第一样本之间的关联度。

5.根据权利要求2所述的信息分类方法，其特征在于，所述第一模型包含编码模块和上下文模块，调用所述已训练的第一模型处理待分类样本包括：

调用所述编码模块编码待分类样本，得到所述待分类样本的第一中间特征；

调用所述上下文模块处理所述第一中间特征，得到所述第一特征。

6.根据权利要求5所述的信息分类方法，其特征在于，所述编码模块包含一层卷积层或多层级联的卷积层。

7.根据权利要求5或6所述的信息分类方法，其特征在于，所述上下文模块包含线性映射层和级联的多层上下文层，调用上下文模块处理所述中间特征得到所述第一特征，包括：

调用级联的多层上下文层处理所述第一中间特征，每层上下文层输出对应的第二中间特征；

调用线性映射层对各第二中间特征进行线性映射，得到所述第一特征。

8.根据权利要求7所述的信息分类方法，其特征在于，所述多层上下文层包含循环神经网络层、单向长短时记忆层、双向长短时记忆层、或门控循环单元层中的一种或多种。

9.根据权利要求5、6或8中任一项所述的信息分类方法，其特征在于，各第一样本为向量，基于当前迭代中的所述第一模型和所述第一样本集中的各第一样本计算得到所述第二损失包含：

调用所述编码模块编码各第一样本，得到各第一样本的中间特征向量Z，其中，所述中间特征向量的长度T与对应第一样本的长度M成正比；

调用所述上下文模块处理各第一样本的中间特征向量Z，得到各第一样本的上下文向量C，其中，所述特征向量的长度为T；

对各第一样本的上下文向量中第t个的元素C_t，根据正样本、负样本和预设函数计算C_t与正样本之间的互信息，其中正样本为该第一样本的中间特征向量中第t+k个的元素Z_t+k，负样本为从该第一样本的中间特征向量中随机选择的不包含Z_t+k的n个元素、或者为从所有第一样本的中间特征向量中随机选择的不包含Z_t+k的n个元素，其中t、k、n为正整数，t+k≤T；

基于各第一样本的所述互信息计算所述第二损失，其中，所述第二损失与各第一样本的所述互信息呈负相关。

10.根据权利要求1所述的信息分类方法，其特征在于，所述第一样本的数量大于所述第二样本的数量。

11.根据权利要求3所述的信息分类方法，其特征在于，所述第一样本的数量大于所述第三样本的数量。

12.根据权利要求1所述的信息分类方法，其特征在于，在第一特征空间中，所述待分类样本的特征位置到所述第一样本集的特征位置大于所述待分类样本的特征位置到所述第二样本集的特征位置，或者，所述第一样本集的分布范围大于所述第二样本集的分布范围；

其中，所述第一特征空间为通过第四模型进行特征提取的结果所对应的空间，调用所述第四模型对所述待分类样本进行特征提取获得第四特征，调用所述第四模型对各第一样本进行特征提取获得各第一样本的第五特征，调用所述第四模型对各第二样本进行特征提取获得各第二样本的第六特征；

其中，所述第四特征在所述第一特征空间中位于所述待分类样本的特征位置，基于各第五特征在所述第一特征空间中的位置通过预设方法确定所述第一样本集的特征位置和分布范围，基于各第六特征在所述第一特征空间中的位置通过所述预设方法确定所述第二样本集的特征位置和分布范围。

13.根据权利要求3所述的信息分类方法，其特征在于，在第一特征空间中：

所述待分类样本的特征位置到所述第一样本集的特征位置大于所述待分类样本的特征点到所述第二样本集的特征位置，且大于所述待分类样本的特征位置到所述第三样本集的特征位置；或者，

所述第一样本集的分布范围小于所述第二样本集的分布范围，且小于所述第三样本集的分布范围；

其中，所述第一特征空间为通过第四模型进行特征提取的结果所对应的空间，调用所述第四模型对所述待分类样本进行特征提取获得第四特征，调用所述第四模型对各第一样本进行特征提取获得各第一样本的第五特征，调用所述第四模型对各第二样本进行特征提取获得各第二样本的第六特征，调用所述第四模型对各第三样本进行特征提取获得各第三样本的第七特征；

14.根据权利要求12或13所述的信息分类方法，其特征在于，所述预设方法包含：

通过计算各位置的算数平均、几何平均、或最小覆盖圆圆心确定对应的特征位置；

通过计算各位置与对应特征位置距离的方差或者标准差确定对应的分布范围的大小，或者通过计算最小覆盖圆半径确定对应的分布范围的大小。

15.根据权利要求12或13所述的信息分类方法，其特征在于，所述第四模型和所述第一模型均属于对比预测编码(Contrastive Predictive Coding)模型。

16.根据权利要求1至3、6、8、或10至12中任一项所述的信息分类方法，其特征在于，所述待分类样本、第一样本、第二样本和第三样本为语音。

17.根据权利要求16所述的信息分类方法，其特征在于，

所述迭代的第一调整和所述迭代的第二调整构成元学习(meta-learning),且所述第一标签、原始标签和预测标签为对应语音的文本、表征对应语音的来源、或表征对应语音的来源的情绪。

18.根据权利要求2所述的信息分类方法，其特征在于，所述第二模型和所述第三模型均为连结时序分类(Connectionist Temporal Classification)模型。

19.一种信息分类模型的训练方法，包括：

20.一种信息分类装置，包括：

21.根据权利要求20所述的信息分类装置，其特征在于，所述训练模块包括：

调整子模块，用于对所述第一模型的第一参数进行迭代的第一调整，直到符合第一预设条件，其中，所述第一预设条件为第一损失降至第一阈值或所述第一调整的迭代次数达到第二阈值；在所述第一调整的每次迭代中，对所述第一参数进行迭代的第二调整，直到符合第二预设条件，其中，所述第二预设条件为第二损失降至第三阈值或所述第二调整的迭代次数达到第四阈值；以及，在所述第二调整的每次迭代中，调整所述第一参数；

输入子模块，用于将第一样本集输入所述第一模型，其中，所述第一样本包含一个或多个第一样本；以及，在所述第一调整的每次迭代中，将第二样本集输入所述第二调整后的第一模型，得到各第二样本的第二特征，其中，所述第二样本集包含一个或多个第二样本，各第二样本均具有对应的第一原始标签，所述第一原始标签用于表征所述第二样本的类别；

输出子模块，用于在所述第二调整的每次迭代中，将各第二样本的特征输入第三模型，得到各第二样本的第一预测标签，其中，所述第一预测标签用于预测所述第二样本的类别；

损失获取子模块，用于在所述第一调整的每次迭代中，根据所述各第二样本的所述第一原始标签与所述第一预测标签的差异得到所述第一损失，以及，在所述第二调整的每次迭代中，基于所述第二调整的当前迭代中的所述第一模型和所述第一样本集中的各第一样本计算得到所述第二损失。

22.一种信息分类模型训练装置，包括训练模块，用于：

23.一种电子设备，包括存储器和处理器，其中所述存储器存储有指令，所述存储器执行所述指令时使得所述电子设备执行根据权利要求1至3、6、8、10至12、17或18中任一项所述的信息分类方法。

24.一种非易失性的计算机可读介质，存储有计算机指令，所述计算机指令被处理器执行时用于实现根据权利要求1至3、6、8、10至12、17或18中任一项所述的信息分类方法。