CN110598869A

CN110598869A - 基于序列模型的分类方法、装置、电子设备

Info

Publication number: CN110598869A
Application number: CN201910795271.3A
Authority: CN
Inventors: 蒋亮; 温祖杰; 梁忠平; 张家兴
Original assignee: Alibaba Group Holding Ltd
Current assignee: Advanced New Technologies Co Ltd; Advantageous New Technologies Co Ltd
Priority date: 2019-08-27
Filing date: 2019-08-27
Publication date: 2019-12-20
Anticipated expiration: 2039-08-27
Also published as: CN110598869B

Abstract

公开一种基于序列模型的分类方法，基于预设标签集合的分类标签构建标签树；其中，所述标签树包括多级分类标签；所述多级分类标签指示的数据分类范围逐级递减；基于所述标签树，确定与训练样本的分类标签对应的多级分类标签序列；基于所述训练样本和与所述训练样本对应的多级分类标签序列训练序列模型；其中，所述序列模型用于对预测样本进行分类预测；使得序列模型基于多个关联的标签序列进行训练建模，提高了已训练完成序列模型对预测样本执行分类预测的精度。

Description

基于序列模型的分类方法、装置、电子设备

技术领域

本申请一个或多个实施例涉及机器学习技术领域，尤其涉及基于序列模型的分类方法、装置、电子设备。

背景技术

机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能，它是人工智能的核心，是使计算机具有智能的根本途径。机器学习所要解决的问题是，让机器针对海量样本数据集中学习，进而得到一个更加符合现实规律的机器学习模型；进一步，通过对机器学习模型的使用，使得机器可以比以往表现的更好去预测未知的数据。

发明内容

本申请提供一种基于序列模型的分类方法，所述方法包括：

基于预设标签集合的分类标签构建标签树；其中，所述标签树包括多级分类标签；所述多级分类标签指示的数据分类范围逐级递减；

基于所述标签树，确定与训练样本的分类标签对应的多级分类标签序列；

基于所述训练样本和与所述训练样本对应的多级分类标签序列训练序列模型；其中，所述序列模型用于对预测样本进行分类预测。

可选的，所述基于所述标签树，确定与训练样本的分类标签对应的多级分类标签序列，包括：

在所述标签树中，查找到与训练样本的分类标签匹配的叶子节点；

将从所述标签树的根节点至所述叶子节点的路径上对应的若干标签构成的序列，确定为与训练样本的分类标签对应的多级分类标签序列。

可选的，还包括：

将预测样本输入至训练完成的所述序列模型进行分类预测，得到与预测样本对应的预测标签序列；

基于所述预测标签序列确定与所述预测样本对应的分类标签。

可选的，所述基于所述预测标签序列确定与所述预测样本对应的分类标签，包括：

将位于所述预测标签序列的序列末尾的分类标签，确定为与所述预测样本对应的分类标签。

可选的，所述基于预设标签集合的分类标签构建标签树，包括:

将预设标签集合的分类标签输入至语义分析算法模型，得到分类标签之间的语义关联数据；其中，所述语义关联数据指示预设标签集合的分类标签之间的包含或所属。

对所述语义关联数据基于预设聚类算法模型执行聚类构建，获得与所述预设标签集合的分类标签对应的标签树。

可选的，所述预设标签集合为所有训练样本对应分类标签的并集。

本申请还提供一种基于序列模型的分类装置，所述装置包括：

构建模块，基于预设标签集合的分类标签构建标签树；其中，所述标签树包括多级分类标签；所述多级分类标签指示的数据分类范围逐级递减；

所述构建模块进一步，基于所述标签树，确定与训练样本的分类标签对应的多级分类标签序列；

训练模块，基于所述训练样本和与所述训练样本对应的多级分类标签序列训练序列模型；其中，所述序列模型用于对预测样本进行分类预测。

可选的，所述构建模块进一步：

可选的，还包括：

预测模块，将预测样本输入至训练完成的所述序列模型进行分类预测，得到与预测样本对应的预测标签序列；

可选的，所述预测模块进一步：

可选的，所述构建模块进一步:

本申请还提供一种电子设备，包括通信接口、处理器、存储器和总线，所述通信接口、所述处理器和所述存储器之间通过总线相互连接；

所述存储器中存储机器可读指令，所述处理器通过调用所述机器可读指令，执行上述的方法。

通过以上实施例，基于标签树确定与训练样本的分类标签对应的多级分类标签序列；以及，基于训练样本及其对应的多级分类标签序列训练序列模型，使得序列模型基于多个关联的标签序列进行训练建模，提高了已训练完成序列模型对预测样本执行分类预测的精度。

附图说明

图1是一示例性实施例提供的一种基于序列模型的分类方法的流程图；

图2是一示例性实施例提供的一种标签树构造过程及结构示意图；

图3是一示例性实施例提供的一种基于序列模型分类的训练及预测的过程示意图；

图4是一示例性实施例提供的一种电子设备的硬件结构图；

图5是一示例性实施例提供的一种基于序列模型的分类装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

为了使本技术领域的人员更好地理解本说明书实施例中的技术方案，下面先对本说明书实施例涉及的基于序列模型的分类的相关技术，进行简要说明。

机器学习总体可以分为：有监督学习、无监督学习；

其中，有监督学习是指，根据已有的数据集，机器预先知道输入和输出结果之间的关系，根据这种已知的关系，训练得到一个最优的模型，也就是说，在有监督学习中，训练数据既有特征(feature)又有标签(label)，通过训练，让机器可以自己找到特征和标签之间的联系，在面对只有特征没有标签的数据时，可以判断出标签；而无监督学习是指，机器预先不知道数据集中的数据、特征之间的关系，而是要根据聚类或一定的模型得到数据之间的关系，也即，相比有监督学习，无监督学习更像是自学，让机器学会自己做事情，是没有标签(label)。

在通常情况下，有监督学习的机器学习任务主要可以包括分类任务。分类任务是指通过模型判断输入数据所属的类别，可以是二分类(是/不是)，也可以是多分类(在多个类别中判断输入数据具体属于哪一个类别)。分类任务的输出不再是连续值，而是离散值，该输出用来指示输入数据属于哪个类别。分类任务在现实中应用非常广泛，比如：垃圾邮件识别，手写数字识别，人脸识别，语音识别等。

本说明书旨在提出一种，基于标签树确定与训练样本的分类标签对应的多级分类标签序列；以及，基于训练样本及其对应的多级分类标签序列训练序列模型的技术方案。

在实现时，基于预设标签集合的分类标签构建标签树；其中，所述标签树包括多级分类标签；所述多级分类标签指示的数据分类范围逐级递减；基于所述标签树，确定与训练样本的分类标签对应的多级分类标签序列；基于所述训练样本和与所述训练样本对应的多级分类标签序列训练序列模型；其中，所述序列模型用于对预测样本进行分类预测。

在以上技术方案中，基于标签树确定与训练样本的分类标签对应的多级分类标签序列；以及，基于训练样本及其对应的多级分类标签序列训练序列模型，使得序列模型基于多个关联的标签序列进行训练建模，提高了已训练完成序列模型对预测样本执行分类预测的精度。

下面通过具体实施例并结合具体的应用场景对本说明书进行描述。

请参考图1，图1是本说明书一实施例提供的一种基于序列模型的分类方法的流程图，上述方法执行以下步骤：

步骤102、基于预设标签集合的分类标签构建标签树；其中，所述标签树包括多级分类标签；所述多级分类标签指示的数据分类范围逐级递减。

步骤104、基于所述标签树，确定与训练样本的分类标签对应的多级分类标签序列。

步骤106、基于所述训练样本和与所述训练样本对应的多级分类标签序列训练序列模型；其中，所述序列模型用于对预测样本进行分类预测。

在本说明书中，上述序列模型，可以包括任何预测输出为序列格式的数据的机器学习模型；其中，上述序列模型是有监督学习的机器学习模型。

在实现时，上述序列模型通常可以包括基于任何形式的RNN(Recurrent NeuralNetwork，循环神经网络)模型。

例如，在实际应用中，运行上述序列模型的机器可以将输入的格式为文本、语音、图片的数据转换为一个序列数据(比如：包含多个文字的语句、包含多个标签的标签序列)。

为了方便理解，这里简单介绍下RNN。RNN是一类用于处理序列数据的神经网络。在传统的神经网络中，通常假设所有的输入数据之间、输出数据之间是相互独立的。对于很多任务来说，这是一个非常糟糕的假设。比如，当机器在理解一句话意思时，孤立的理解这句话的每个词是不够的，而是需要处理这些词连接起来的整个序列。再比如，当机器分析视频的时候，也不能只单独的去分析每一帧的含义，而要分析这些帧连接起来的整个序列的含义。

在本说明书中，上述训练样本，是指用于针对上述序列模型执行训练的任何形式的数据。例如，上述训练样本可以是文字、图片、视频等。

请参见图2，图2是本说明书一实施例提供的一种标签树构造过程及结构示意图。

如图2中S201所示的标签集合包括：饼干、瓜子、手机、平板电脑、食品、电子产品。

如图2中S203所示的标签树(图2底部实线方框内)，包括根节点、树枝节点(食品、电子产品)、叶子节点(饼干、瓜子、手机、平板电脑)。

如图2所示，S201所示的标签集合执行如图2中S202所示的“构造标签树”后，获得如图2中S203所示的标签树。

在本说明书中，上述训练样本的分类标签，是指与上述训练样本对应的预先确定的分类标签。

例如，训练样本包含10000张图片，每个图片对应一个分类标签；每个分类标签可以是预先人工确定正确的、用于指示该图片内容对应物品种类(比如：饼干、瓜子、手机、平板电脑等)。

在本说明书中，上述预设标签集合，包括由若干个分类标签组成的集合。

例如，请参见图2所示，上述预设标签集合中的分类标签指示的是物品种类，上述预设标签集合所包括的分类标签可以包含如图2中S201所示的饼干、瓜子、手机、平板电脑、食品、电子产品等。

在示出的一种实施方式中，上述预设标签集合为所有训练样本对应分类标签的并集。

例如，所有训练样本可以包括100张图片，该100张图片分别对应100个用于指示图片内容对应种类的分类标签；其中，该100个分类标签中可以存在相同的分类标签，也可以存在不同的分类标签。上述预设标签集合为该100个分类标签的并集。

当然，上述预设标签集合也可以人工预先设定或通过机器学习获得，在本说明书中不作具体限定。

在本说明书中，上述标签树，是指基于上述预设标签集合中的分类标签所构建的树状结构。

例如，请参见图2所示，上述标签树为基于S201所示的标签集合执行如图2中S202所示的“构造标签树”后，获得如图2中S203所示的标签树。

在本说明书中，上述多级分类标签，是指上述标签树中所包括的除根节点外的树枝节点及叶子节点所对应的分类标签。

例如，请参见图2中S203所示标签树，上述多级分类标签可以包括该标签树中的树枝节点所对应的分类标签(食品、电子产品)、叶子节点所对应的分类标签(饼干、瓜子、手机、平板电脑)。

需要说明的是，上述多级分类标签指示的数据分类范围逐级递减。例如，请参见图2中S203所示标签树，树枝节点(食品)所对应的“食品”分类标签，所指示的数据分类范围分别大于其所包含的叶子节点(饼干、瓜子)所对应的分类标签“饼干”、“瓜子”所指示的数据分类范围。又例如，请参见图2中S203所示标签树，叶子节点(手机、平板电脑)所对应的分类标签“手机”、“平板电脑”所指示的数据分类范围分别小于其所属于树枝节点(电子产品)所对应的“电子产品”分类标签。

在本说明书中，基于上述预设标签集合的分类标签构建上述标签树。例如，请参见图2所示，基于S201所示的标签集合执行如图2中S202所示的“构造标签树”后，获得如图2中S203所示的标签树(上述标签树)。

在示出的一种实施方式中，将上述预设标签集合的分类标签输入至语义分析算法模型，得到分类标签之间的语义关联数据；

其中，上述语义关联数据指示预设标签集合的分类标签之间的包含或所属。

例如，请参见图2所示，将如图2中S201所示的标签集合的分类标签(饼干、瓜子、手机、平板电脑、食品、电子产品)输入至语义分析算法模型，得到分类标签之间的语义关联数据；也即，得到“饼干”、“瓜子”，分别属于“食品”；以及，“电子产品”可以包含：“手机”、“平板”。

在本说明书中，进一步地，对上述语义关联数据基于预设聚类算法模型执行聚类构建，获得与上述预设标签集合的分类标签对应的上述标签树。

例如，在实际应用中，可以对上述语义关联数据基于包括且不限于Kmeans(k-means clustering algorithm，k均值聚类算法)、DBSCAN(Density-Based SpatialClustering of Applications with Noise，基于密度的聚类算法)、层次聚类等预设聚类算法模型执行聚类构建，获得与上述预设标签集合的分类标签对应的上述标签树。

在本说明书中，在上述标签树构建完成后，基于上述标签树，确定与上述训练样本的分类标签对应的多级分类标签序列。

例如，一个训练样本可以包括一张内容为“饼干”的图片，该图片对应的分类标签“饼干”，则基于如图2中S203所示的上述标签树，确定与该训练样本的分类标签“饼干”对应的多级分类标签序列。

在示出的一种实施方式中，在上述标签树中，查找到与上述训练样本的分类标签匹配的叶子节点。

接着以上示例继续举例，在如图2所示的标签树中，查找到与训练样本的分类标签为“饼干”匹配的叶子节点(如图2中S203所示的“饼干”)。

在本说明书中，进一步地，将从上述标签树的根节点至上述叶子节点的路径上对应的若干标签构成的序列，确定为与上述训练样本的分类标签对应的多级分类标签序列。

接着以上示例继续举例，在如图2所示的标签树中，将从标签树的根节点至上述叶子节点(如图2中S203所示的“饼干”)的路径上对应的若干标签构成的序列“根节点->食品->饼干”，确定为与该训练样本的标签“饼干”对应的多级分类标签序列；也即，该训练样本的分类标签“饼干”对应的多级分类标签序列“根节点->食品->饼干”。

需要说明的是，针对所有训练样本及其对应若干个分类标签，可以分别确定出与该若干个分类标签对应的若干个多级分类标签序列。具体过程与以上示例类似，这里不再赘述。

在本说明书中，上述预测样本，是指用于输入至训练完成的上述序列模型执行分类标签预测的任何形式的数据。例如，上述预测样本可以是文字、图片、视频等。

需要说明的是，预测样本相比训练样本，预测样本对应的分类标签是未知的，而训练样本对应的分类标签是正确及已知的。

在本说明书中，在上述多级分类标签序列确定后，基于上述训练样本和与上述训练样本对应的多级分类标签序列训练上述序列模型；其中，上述序列模型用于对上述预测样本进行分类标签预测。

例如，在实现时，将若干个训练样本和与该若干个训练样本分别对应的若干个多级分类标签序列，输入至上述序列模型执行训练，并进一步完成上述序列模型的模型参数的训练。

在本说明书中，上述预测标签序列，是指由若干个分类标签所构成的标签序列；其中，该标签序列由上述序列模型预测输出。

例如，上述预测标签序列可以包括：标签序列“根节点->食品->饼干”，也可以包括：标签序列“根节点->食品->瓜子”，也可以包括：标签序列“根节点->电子产品->手机”，还可以包括：标签序列“根节点->电子产品->平板电脑”。

在示出的一种实施方式中，在上述序列模型训练完成后，将上述预测样本输入至上述序列模型进行分类预测，得到与上述预测样本对应的上述预测标签序列。

例如，一个预测样本可以是一张未知分类标签的图片，将该图片输入至训练完成的上述序列模型进行分类预测，得到与该图片对应的预测标签序列为“根节点->电子产品->平板电脑”。

在本说明书中，进一步地，基于上述预测标签序列确定与上述预测样本对应的分类标签。

接着以上示例继续举例，在确定该图片对应的预测标签序列为“根节点->电子产品->平板电脑”后，基于该预测标签序列进一步确定该图片对应的分类标签。

在示出的一种实施方式中，将位于上述预测标签序列的序列末尾的分类标签，确定为与上述预测样本对应的分类标签。

接着以上示例继续举例，将位于预测标签序列“根节点->电子产品->平板电脑”的序列末尾的分类标签，也即“平板电脑”，确定为与该图片(预测样本)对应的分类标签；也即，该预测样本对应的分类标签为“平板电脑”。

为了方便整体理解基于序列模型的分类过程，请参见图3，图3是本说明书一实施例提供的一种基于序列模型分类的训练及预测的过程示意图。

在部署了上述序列模型的机器或机器集群上，首先，如图3中的S301所示，准备样本(包括训练样本、预测样本)；其次，如图3中的S302所示，准备训练样本对应的分类标签L；接着，如图3中的S303所示，基于分类标签L在标签树(比如：如图2所示标签树)，确定与分类标签L对应的多级分类标签序列LS；接着，如图3中的S304所示，基于训练样本、与训练样板的分类标签L对应的多级分类标签序列LS，训练序列模型；接着，如图3中的S305所示，获得已训练好的序列模型，将预测样本输入至序列模型；接着，如图3中的S306所示，得到与预测样本对应的预测标签序列PLS；最后，将预测标签序列PLS的末尾标签TL，输出为与预测样本对应的分类标签PL。

与上述方法实施例相对应，本申请还提供了基于序列模型的分类装置的实施例。

与上述方法实施例相对应，本说明书还提供了一种基于序列模型的分类装置的实施例。本说明书的基于序列模型的分类装置的实施例可以应用在电子设备上。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在电子设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图4所示，为本说明书的基于序列模型的分类装置装置所在电子设备的一种硬件结构图，除了图4所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的电子设备通常根据该电子设备的实际功能，还可以包括其他硬件，对此不再赘述。

图5是本说明书一示例性实施例示出的一种基于序列模型的分类装置的框图。

请参考图5，所述基于序列模型的分类装置50可以应用在前述图4所示的电子设备中，所述装置包括：

构建模块501，基于预设标签集合的分类标签构建标签树；其中，所述标签树包括多级分类标签；所述多级分类标签指示的数据分类范围逐级递减；

所述构建模块501进一步，基于所述标签树，确定与训练样本的分类标签对应的多级分类标签序列；

训练模块502，基于所述训练样本和与所述训练样本对应的多级分类标签序列训练序列模型；其中，所述序列模型用于对预测样本进行分类预测。

在本实施例中，所述构建模块501进一步：

在本实施例中，还包括：

预测模块503，将预测样本输入至训练完成的所述序列模型进行分类预测，得到与预测样本对应的预测标签序列；

在本实施例中，所述预测模块503进一步：

在本实施例中，所述构建模块501进一步:

在本实施例中，所述预设标签集合为所有训练样本对应分类标签的并集。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

上述实施例阐明的装置、装置、模块或模块，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

与上述方法实施例相对应，本说明书还提供了一种电子设备的实施例。该电子设备包括：处理器以及用于存储机器可执行指令的存储器；其中，处理器和存储器通常通过内部总线相互连接。在其他可能的实现方式中，所述设备还可能包括外部接口，以能够与其他设备或者部件进行通信。

在本实施例中，通过读取并执行所述存储器存储的与基于序列模型的分类的控制逻辑对应的机器可执行指令，所述处理器被促使：

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本说明书的其它实施方案。本说明书旨在涵盖本说明书的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本说明书的一般性原理并包括本说明书未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本说明书的真正范围和精神由下面的权利要求指出。

应当理解的是，本说明书并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本说明书的范围仅由所附的权利要求来限制。

以上所述仅为本说明书的较佳实施例而已，并不用以限制本说明书，凡在本说明书的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书保护的范围之内。

Claims

1.一种基于序列模型的分类方法，所述方法包括：

2.根据权利要求1所述的方法，所述基于所述标签树，确定与训练样本的分类标签对应的多级分类标签序列，包括：

3.根据权利要求1所述的方法，还包括：

4.根据权利要求3所述的方法，所述基于所述预测标签序列确定与所述预测样本对应的分类标签，包括：

5.根据权利要求1所述的方法，所述基于预设标签集合的分类标签构建标签树，包括:

将预设标签集合的分类标签输入至语义分析算法模型，得到分类标签之间的语义关联数据；其中，所述语义关联数据指示预设标签集合的分类标签之间的包含或所属；

6.根据权利要求1所述的方法，所述预设标签集合为所有训练样本对应分类标签的并集。

7.一种基于序列模型的分类装置，所述装置包括：

8.根据权利要求7所述的装置，所述构建模块进一步：

9.根据权利要求7所述的装置，还包括：

10.根据权利要求9所述的装置，所述预测模块进一步：

11.根据权利要求7所述的装置，所述构建模块进一步:

12.根据权利要求7所述的装置，所述预设标签集合为所有训练样本对应分类标签的并集。

13.一种电子设备，包括通信接口、处理器、存储器和总线，所述通信接口、所述处理器和所述存储器之间通过总线相互连接；

所述存储器中存储机器可读指令，所述处理器通过调用所述机器可读指令，执行如权利要求1至6任一项所述的方法。