CN110738233B

CN110738233B - 模型训练、数据分类方法、装置、电子设备及存储介质

Info

Publication number: CN110738233B
Application number: CN201910803884.7A
Authority: CN
Inventors: 黄腾玉
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2019-08-28
Filing date: 2019-08-28
Publication date: 2022-07-12
Anticipated expiration: 2039-08-28
Also published as: CN110738233A

Abstract

本发明涉及一种模型训练、数据分类方法、装置、电子设备及存储介质，方法包括：获取训练样本的D维样本嵌入向量和样本类别；以D维类别嵌入向量与D维样本嵌入向量作为深度匹配模型的输入，输出训练样本与D维类别嵌入向量的匹配得分；类内max层在每个预设类别所对应的M个匹配得分中确定一个匹配得分，作为训练样本与各预设类别的类别匹配得分；类间softmax层基于训练样本与各预设类别的类别匹配得分，计算训练样本属于每个预设类别的概率；利用训练样本属于每个预设类别的概率与样本类别，对深度分类模型进行训练，直至深度分类模型收敛时，获得深度分类模型。本发明实施例通过使用M个D维类别嵌入向量描述类别，减小分类误差，使分类更加准确。

Description

模型训练、数据分类方法、装置、电子设备及存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种模型训练、数据分类方法、装置、电子设备及存储介质。

背景技术

分类问题是业务中常见的问题。在拥有准确且足够的训练数据的前提下，基于深度学习的分类模型通常都能取得不错的效果，成为人们的常用模型。

在根据视频标题对视频进行分类时，若其中一个预设类别为游戏类别，由于在实际应用中，游戏类别内容丰富复杂，相关视频越多，几个大型的游戏相关的视频占据了样本数据的大部分比例，样本数据的其它部分是一些小游戏相关的视频，如果使用一个D维类别嵌入向量表示该游戏类别，那么这个D维类别嵌入向量实际上是所有游戏视频的D维类别嵌入向量的均值向量，这个均值向量可能会位于几个大型游戏视频对应的向量的中间，与几个小型游戏相关视频对应的向量的向量距离较远。

这样，在对A小型游戏相关视频分类时，将会由于A小型游戏相关视频的D维样本嵌入向量与该均值向量之间的距离较远，将小型游戏相关视频分类至X类别(该X类别的D维类别嵌入向量的均值向量与D维样本嵌入向量的距离之间的向量距离较近)，所以会出现分类错误的情况，分类错误率高。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本发明提供了一种模型训练、数据分类方法、装置、电子设备及存储介质。

第一方面，本发明提供了一种模型训练方法，深度分类模型包括：级联的深度匹配模型、类内max层和类间softmax层，所述方法包括：

获取训练样本的D维样本嵌入向量和样本类别；

K个预设类别的每个预设类别所对应的M个D维类别嵌入向量中每个D维类别嵌入向量，以D维类别嵌入向量与所述D维样本嵌入向量作为所述深度匹配模型的输入，输出所述训练样本与所述D维类别嵌入向量的匹配得分，K>1，M>1，D>1；

所述类内max层在每个预设类别所对应的M个匹配得分中确定一个匹配得分，作为所述训练样本与各预设类别的类别匹配得分；

所述类间softmax层基于所述训练样本与各预设类别的类别匹配得分，计算所述训练样本属于每个预设类别的概率；

利用所述训练样本属于每个预设类别的概率与所述样本类别，对所述深度分类模型进行训练，直至所述深度分类模型收敛时，获得所述深度分类模型。

可选地，所述类内max层在每个预设类别所对应的M个匹配得分中确定一个匹配得分，作为各预设类别的类别匹配得分，包括：

对于K个预设类别中每个预设类别，所述类内max层将与预设类别对应的M个匹配得分中数值最大的匹配得分，确定为所述训练样本与每个预设类别的类别匹配得分。

可选地，所述类间softmax层基于所述训练样本与各预设类别的类别匹配得分，计算所述训练样本属于每个预设类别的概率，包括：

所述类间softmax层将所述训练样本与各预设类别的类别匹配得分输入softmax函数中，得到训练样本的属于每个预设类别的概率。

可选地，利用所述训练样本属于每个预设类别的概率与所述样本类别，对所述深度分类模型进行训练，直至所述深度分类模型收敛时，获得所述深度分类模型，包括：

根据所述训练样本属于每个预设类别的概率与所述样本类别之间的向量距离确定损失函数；

利用所述损失函数训练所述深度匹配模型，直至所述深度匹配模型收敛，获得所述深度分类模型。

可选地，所述深度匹配模型包括：级联的输入层、多个全连接层及输出层；

以D维类别嵌入向量与所述D维样本嵌入向量作为所述深度匹配模型的输入，输出匹配得分，包括：

将D维类别嵌入向量与所述D维样本嵌入向量输入所述输入层；

多个全连接层以输入层的输出作为输入，计算所述D维类别嵌入向量与所述D维样本嵌入向量之间的匹配得分，并通过所述输出层输出所述匹配得分。

可选地，所述将D维类别嵌入向量与所述D维样本嵌入向量输入所述输入层；多个全连接层以输入层的输出作为输入，计算所述D维类别嵌入向量与所述D维样本嵌入向量之间的匹配得分，并通过所述输出层输出所述匹配得分，包括：

所述输入层计算每个D维类别嵌入向量与所述D维样本嵌入向量之间的向量内积，并向多个全连接层中的第一级全连接层输出所述向量内积；

所述第一级全连接层以所述向量内积作为输入，将所述D维样本嵌入向量与预设的D维类别嵌入向量进行匹配计算，输出第一中间得分；

多个全连接层中的第X级全连接层将前一级的全连接层输出的中间得分作为输入进行匹配计算，并通过所述输出层输出所述匹配得分，X＝2、3、4……N。

所述输入层计算每个D维类别嵌入向量与所述D维样本嵌入向量之间的点乘结果，并向多个全连接层中的第一级全连接层输出所述点乘结果；

所述第一级全连接层以所述点乘结果作为输入，将所述D维样本嵌入向量与预设的D维类别嵌入向量进行匹配计算，输出第二中间得分；

第二方面，本发明提供了一种数据分类方法，所述方法包括：

获取待分类的输入样本的D维样本嵌入向量；

将所述D维样本嵌入向量输入如第一方面所述的模型训练方法生成的深度分类模型，获取所述深度分类模型输出的所述输入样本属于每个预设类别的概率；

将最大概率对应的预设类别确定为所述输入样本的样本类别。

第三方面，本发明提供了一种模型训练装置，深度分类模型包括：级联的深度匹配模型、类内max层和类间softmax层，所述装置包括：

第一获取模块，用于获取训练样本的D维样本嵌入向量和样本类别；

匹配得分计算模块，用于K个预设类别的每个预设类别所对应的M个D维类别嵌入向量中每个D维类别嵌入向量，以D维类别嵌入向量与所述D维样本嵌入向量作为所述深度匹配模型的输入，输出所述训练样本与所述D维类别嵌入向量的匹配得分，K>1，M>1，D>1；

类别匹配得分确定模块，用于使所述类内max层在每个预设类别所对应的M个匹配得分中确定一个匹配得分，作为所述训练样本与各预设类别的类别匹配得分；

样本类别概率计算模块，用于使所述类间softmax层基于所述训练样本与各预设类别的类别匹配得分，计算所述训练样本属于每个预设类别的概率；

模型训练模块，用于利用所述训练样本属于每个预设类别的概率与所述样本类别，对所述深度分类模型进行训练，直至所述深度分类模型收敛时，获得所述深度分类模型。

可选地，所述类别匹配得分确定模块，还用于：

可选地，所述样本类别概率计算模块，还用于：

可选地，所述模型训练模块，包括：

确定单元，用于根据所述训练样本属于每个预设类别的概率与所述样本类别之间的向量距离确定损失函数；

训练单元，用于利用所述损失函数训练所述深度匹配模型，直至所述深度匹配模型收敛，获得所述深度分类模型。

所述匹配得分计算模块，还用于：

将D维类别嵌入向量与所述D维样本嵌入向量输入所述输入层，多个全连接层以输入层的输出作为输入，计算所述D维类别嵌入向量与所述D维样本嵌入向量之间的匹配得分，并通过所述输出层输出所述匹配得分。

可选地，所述匹配得分计算模块，包括：

第一计算单元，用于使所述输入层计算每个D维类别嵌入向量与所述D维样本嵌入向量之间的向量内积，并向多个全连接层中的第一级全连接层输出所述向量内积；

第二计算单元，所述第一级全连接层以所述向量内积作为输入，将所述D维样本嵌入向量与预设的D维类别嵌入向量进行匹配计算，输出第一中间得分；

第三计算单元，多个全连接层中的第X级全连接层将前一级的全连接层输出的中间得分作为输入进行匹配计算，并通过所述输出层输出所述匹配得分，X＝2、3、4……N。

可选地，所述匹配得分计算模块，包括：

第四计算单元，用于使所述输入层计算每个D维类别嵌入向量与所述D维样本嵌入向量之间的点乘结果，并向多个全连接层中的第一级全连接层输出所述点乘结果；

第五计算单元，用于使所述第一级全连接层以所述点乘结果作为输入，将所述D维样本嵌入向量与预设的D维类别嵌入向量进行匹配计算，输出第二中间得分；

第六计算单元，用于使多个全连接层中的第X级全连接层将前一级的全连接层输出的中间得分作为输入进行匹配计算，并通过所述输出层输出所述匹配得分，X＝2、3、4……N。

第四方面，本发明提供了一种数据分类装置，所述装置包括：

第二获取模块，用于获取待分类的输入样本的D维样本嵌入向量；

分类模块，用于将所述D维样本嵌入向量输入如第一方面所述的模型训练方法生成的深度分类模型，获取所述深度分类模型输出的所述输入样本属于每个预设类别的概率；

类别确定模块，用于将最大概率对应的预设类别确定为所述输入样本的样本类别。

第五面，本发明提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现第一方面任一所述的模型训练方法或第二方面所述的数据分类方法。

第六方面，本发明提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有数据分类方法程序，所述数据分类方法程序被处理器执行时实现第一方面任一所述的模型训练方法或第二方面所述的数据分类方法的步骤。

本发明实施例提供的上述技术方案与现有技术相比具有如下优点：

本发明实施例通过首先获取训练样本的D维样本嵌入向量和样本类别，对于K个预设类别的每个预设类别所对应的M个D维类别嵌入向量中每个D维类别嵌入向量，以D维类别嵌入向量与所述D维样本嵌入向量作为所述深度匹配模型的输入，输出所述训练样本与所述D维类别嵌入向量的匹配得分，然后所述类内max层在每个预设类别所对应的M个匹配得分中确定一个匹配得分，作为所述训练样本与各预设类别的类别匹配得分，所述类间softmax层基于所述训练样本与各预设类别的类别匹配得分，计算所述训练样本属于每个预设类别的概率，最后可以利用所述训练样本属于每个预设类别的概率与所述样本类别，对所述深度分类模型进行训练，直至所述深度分类模型收敛时，获得所述深度分类模型。

基于以上，对于分类问题较为复杂，描述较大，预设类别包含的内容多种多样的情况，本发明实施例由于为每个预设类别对应设置多个D维类别嵌入向量，实现使用多个D维嵌入向量描述每个预设类别，也就是说，利用多个D维嵌入向量细分预设类别，使得对各预设类别内部内容的描述更加细致、充分，能够更完整、准确、全面体现各预设类别内部内容的复杂状态，基于每个预设类别的多个D维嵌入向量，计算D维样本嵌入向量与每个D维嵌入向量的匹配得分，也即相当于计算训练样本与预设类别中各内容之间的匹配得分，进而按照与预设类别内细分的内容之间的匹配情况，确定训练样本的类别，相较于现有技术中根据类别中所有内容的向量均值进行分类的方法，使用本发明实施例提供模型训练方法获得的深度分类模型进行数据分类，误差会更小，分类将更加准确。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一个实施例提供的一种模型训练方法的流程示意图；

图2为本发明又一实施例提供的一种深度分类模型的原理图；

图3为图1中步骤S102的流程示意图；

图4为本发明一个实施例提供的一种数据分类方法的流程示意图；

图5为本发明一个实施例提供的一种模型训练装置的结构示意图；

图6为图5中模型训练模块的结构示意图；

图7为图5中匹配得分计算模块12的一种结构示意图；

图8为图5中匹配得分计算模块12的另一种结构示意图；

图9本发明一个实施例提供的一种数据分类装置的结构示意图；

图10为本发明一个实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

由于现有技术中每个类别仅赋予一个D维类别嵌入向量，向量表达能力过于单薄，出现分类错误的情况，分类错误率高。为此，本发明实施例提供了一种模型训练、数据分类方法、装置、电子设备及存储介质，本发明实施例提供的一种模型训练方法，模型训练方法可以应用于计算机中，在本发明实施例中，利用模型训练方法训练深度分类模型，深度分类模型包括：级联的深度匹配模型、类内max层和类间softmax层，在本发明实施例中，深度匹配模型、类内max层和类间softmax层之间的级联是指：深度匹配模型的输出作为类内max层的输入，类内max层的输出作为类间softmax层的输入，类间softmax层为模型的输出。

如图1所示，模型训练方法可以包括以下步骤：

步骤S101，获取训练样本的D维样本嵌入向量和样本类别；

在本发明实施例中，训练数据可以通过公开数据集、人工标注、半自动挖掘等方式得到，训练数据中包含多个训练样本，以及训练样本所属的样本类别。

在本发明实施例中，可以将训练样本的词序列或者字序列输入至机器翻译模型(Transformer)模型、长短期记忆人工神经网络(Long Short-Term Memory，LSTM)模型或者深度神经网络(Deep Neural Networks，DNN)模型等，来计算训练样本的D维样本嵌入向量。

在本发明实施例中，可以获取至少一对训练样本及样本类别，首先利用一对训练样本及样本类别，对所述深度分类模型进行训练，若深度分类模型收敛，则停止训练，获得深度分类模型；若深度分类模型未收敛，继续获取下一对训练样本及样本类别，……直至深度分类模型收敛，获得深度分类模型。

步骤S102，K个预设类别的每个预设类别所对应的M个D维类别嵌入向量中每个D维类别嵌入向量，以D维类别嵌入向量与所述D维样本嵌入向量作为所述深度匹配模型的输入，输出所述训练样本与所述D维类别嵌入向量的匹配得分，K>1，M>1，D>1；

在本发明实施例中，对于K个预设类别中的每个预设类别，为每个预设类别对应设置M个D维类别嵌入向量，也就是为每个预设类别赋予多个D维类别嵌入向量，D维类别嵌入向量用于描述预设类别的子类别，这样，即可在一个类别对应多个子类别时，每个子类别均有对应的D维嵌入向量来表示，使用多个D维类别嵌入向量描述预设类别，能够更完整、准确、全面描述预设类别，适用于描述较大、复杂类别的应用场景，M个D维类别嵌入向量中，总有一个D维类别嵌入向量与D维样本嵌入向量较为接近，匹配得分最高。

如图2所示，图2的左半部分所示，在K＝3，M＝3时，3个预设类别：类别A、类别B和类别C，每个预设类别对应的3个D维类别嵌入向量，分别为：D维类别嵌入向量1、D维类别嵌入向量2和D维类别嵌入向量3。在实际应用中，K和M可以取其它数值，此处仅为举例说明，不对本发明构成限定。

在该步骤中，对于每个预设类别，可以首先在M个D维类别嵌入向量中选取任一D维类别嵌入向量作为第一个D维类别嵌入向量，将第一个D维类别嵌入向量与所述D维样本嵌入向量作为所述深度匹配模型的输入，深度匹配模型输出第一个D维类别嵌入向量与所述D维样本嵌入向量之间的匹配得分；

然后，可以在M个D维类别嵌入向量中选取第二个D维类别嵌入向量，将第二个D维类别嵌入向量与所述D维样本嵌入向量作为所述深度匹配模型的输入，深度匹配模型输出第二个D维类别嵌入向量与所述D维样本嵌入向量之间的匹配得分；

以此类推……，直至在M个D维类别嵌入向量中选取第M个D维类别嵌入向量，将第M个D维类别嵌入向量与所述D维样本嵌入向量作为所述深度匹配模型的输入，深度匹配模型输出第M个D维类别嵌入向量与所述D维样本嵌入向量之间的匹配得分；

由于每个预设类别对应的M个D维类别嵌入向量，所以，每个预设类别会得到M个匹配得分，也就是说，可以得到训练样本与每个子类别之间的匹配得分。

步骤S103，所述类内max层在每个预设类别所对应的M个匹配得分中确定一个匹配得分，作为所述训练样本与各预设类别的类别匹配得分；

在该步骤中，对于K个预设类别中每个预设类别，所述类内max层将与预设类别对应的M个匹配得分中数值最大的匹配得分，确定为所述训练样本与每个预设类别的类别匹配得分。

示例性的，如图2右侧矩形框中所示，类内max层的输入为类别C的3个匹配得分，即：匹配得分1、匹配得分2和匹配得分3，类内max层将匹配得分1、匹配得分2和匹配得分3进行比较，将三者中的最大值作为训练样本与类别C的类别匹配得分。

步骤S104，所述类间softmax层基于所述训练样本与各预设类别的类别匹配得分，计算所述训练样本属于每个预设类别的概率；

在该步骤中，所述类间softmax层将所述训练样本与各预设类别的类别匹配得分输入softmax函数中，得到训练样本的属于每个预设类别的概率。

示例性的，如图2右侧矩形框中所示，类间softmax层的输入为训练样本与每个预设类别的类别匹配得分，如：类别C的类别匹配得分1，类别B的类别匹配得分2和类别A的类别匹配得分3，利用softmax函数计算训练样本属于每个预设类别的概率，得到训练样本属于类别C的类别C概率，属于类别B的类别B概率,属于类别A的类别A概率。

步骤S105，利用所述训练样本属于每个预设类别的概率与所述样本类别，对所述深度分类模型进行训练，直至所述深度分类模型收敛时，获得所述深度分类模型。

在本发明实施例中，深度分类模型的参数最开始是随机初始化的，是不收敛的；随着训练的进行，不断根据训练样本，调整模型参数；随着模型参数的不断调整，模型逐渐收敛，深度分类模型的准确率逐渐提高；直至准确率不再提高，或者相邻两次调整参数后深度分类模型的准确率增大的变化量小于预先设定的准确率阈值时，深度分类模型收敛。

在训练深度分类模型时，训练样本实际的样本类别是已知的，可以对K个预设类别进行独热编码(One-Hot)，其中与样本类别对应的预设类别在独热编码时所对应的位为有效位，这样可以得到样本类别分布；所述训练样本属于每个预设类别的概率可以构成概率分布，进而可以根据概率分布与样本类别分布计算向量距离，将该计算得到的向量距离作为深度分类模型的损失值，利用所述损失值训练所述深度分类模型，直至所述深度分类模型收敛，获得所述深度分类模型。

示例性的，在K＝3时，实际的样本类别对应K个预设类别中的类别B，若1代表有效位，则样本类别分布可以为[0，1，0]，每个预设类别对应的概率分布根据步骤S104计算出来的概率得到，示例性的，可以为[0.4，0.2，0.4]，这样，可以利用交叉熵损失函数计算[0，1，0]和[0.4，0.2，0.4]的向量距离，将向量距离作为损失值。

基于前述实施例，在本发明的又一实施例中，所述深度匹配模型包括：级联的输入层、多个全连接层及输出层，所述多个全连接层包括第一级全连接层以及其他级连接层，输入层、多个全连接层及输出层的级联指：输入层的输出作为第一级全连接层的输入，第一级全连接层的输出作为下一级全连接层的输入，……最后一级全连接层的输出作为输出层的输入，输出层的输出为深度匹配模型的输出，基于深度匹配模型的结构。

如图3所示，步骤S102具体地，可以包括以下步骤：

步骤S201，将D维类别嵌入向量与所述D维样本嵌入向量输入所述输入层；

在本发明的一种实施方式中，所述输入层计算每个D维类别嵌入向量与所述D维样本嵌入向量之间的向量内积，并向第一级全连接层输出所述向量内积；

在本发明的另一种实施方式中，所述输入层计算每个D维类别嵌入向量与所述D维样本嵌入向量之间的点乘结果，并向第一级全连接层输出将所述点乘结果。

步骤S202，多个全连接层以输入层的输出作为输入，计算所述D维类别嵌入向量与所述D维样本嵌入向量之间的匹配得分，并通过所述输出层输出所述匹配得分。

在本发明的一种实施方式中，所述第一级全连接层以所述向量内积作为输入，将所述D维样本嵌入向量与预设的D维类别嵌入向量进行匹配计算，输出第一中间得分；

多个全连接层中的第X级全连接层将前一级的全连接层输出的中间得分作为输入进行匹配计算，并通过所述输出层输出所述匹配得分，X＝2、3、4……N，具体地，第二级全连接层以第一级全连接层输出的第一中间得分为输入，输出中间得分，第三级全连接层以第二级全连接层输出的中间得分为输入，输出中间得分……依此类推。

在本发明的另一种实施方式中，所述第一级全连接层以所述点乘结果作为输入，将所述D维样本嵌入向量与预设的D维类别嵌入向量进行匹配计算，输出第二中间得分；

本发明实施例能够经过多层全连接层，最终计算得出匹配得分，借助于多层全连接层，抽取信息能力更强更全，变换得到匹配得分，更加准确，相比向量点乘结果，深度匹配模型，能够更准确稳定地描述D维样本嵌入向量与D维类别嵌入向量的相关性。

基于前述实施例，在本发明的又一实施例中，还提供一种数据分类方法，如图4所示，所述方法可以包括以下步骤：

步骤S301，获取待分类的输入样本的D维样本嵌入向量；

步骤S302，将所述D维样本嵌入向量输入如前述方法实施例所述的模型训练方法生成的深度分类模型，获取所述深度分类模型输出的所述输入样本属于每个预设类别的概率；

步骤S303，将最大概率对应的预设类别确定为所述输入样本的样本类别。

本发明实施例，由于使用了前述方法实施例中的模型训练方法生成的深度分类模型，由于为每个预设类别对应设置多个D维类别嵌入向量，实现使用多个D维嵌入向量描述每个预设类别，也就是说，利用多个D维嵌入向量细分预设类别，使得对各预设类别内部内容的描述更加细致、充分，能够更完整、准确、全面体现各预设类别内部内容的复杂状态，基于每个预设类别的多个D维嵌入向量，计算D维样本嵌入向量与每个D维嵌入向量的匹配得分，也即相当于计算训练样本与预设类别中各内容之间的匹配得分，进而按照与预设类别内细分的内容之间的匹配情况，确定训练样本的类别，相较于现有技术中根据类别中所有内容的向量均值进行分类的方法，使用本发明实施例提供模型训练方法获得的深度分类模型进行数据分类，误差更小，分类更加准确。

在本发明的又一实施例中，还提供一种模型训练装置，深度分类模型包括：级联的深度匹配模型、类内max层和类间softmax层，如图5所示，所述装置包括：

第一获取模块11，用于获取训练样本的D维样本嵌入向量和样本类别；

匹配得分计算模块12，用于K个预设类别的每个预设类别所对应的M个D维类别嵌入向量中每个D维类别嵌入向量，以D维类别嵌入向量与所述D维样本嵌入向量作为所述深度匹配模型的输入，输出所述训练样本与所述D维类别嵌入向量的匹配得分，K>1，M>1，D>1；

类别匹配得分确定模块13，用于使所述类内max层在每个预设类别所对应的M个匹配得分中确定一个匹配得分，作为所述训练样本与各预设类别的类别匹配得分；

样本类别概率计算模块14，用于使所述类间softmax层基于所述训练样本与各预设类别的类别匹配得分，计算所述训练样本属于每个预设类别的概率；

模型训练模块15，用于利用所述训练样本属于每个预设类别的概率与所述样本类别，对所述深度分类模型进行训练，直至所述深度分类模型收敛时，获得所述深度分类模型。

在本发明的又一实施例中，所述类别匹配得分确定模块，还用于：

在本发明的又一实施例中，所述样本类别概率计算模块14，还用于：

在本发明的又一实施例中，如图6所示，所述模型训练模块15，包括：

确定单元21，用于根据所述训练样本属于每个预设类别的概率与所述样本类别之间的向量距离确定损失函数；

训练单元22，用于利用所述损失函数训练所述深度匹配模型，直至所述深度匹配模型收敛，获得所述深度分类模型。

在本发明的又一实施例中，所述深度匹配模型包括：级联的输入层、多个全连接层及输出层；

所述匹配得分计算模块12，还用于：

将D维类别嵌入向量与所述D维样本嵌入向量输入所述输入层；多个全连接层以输入层的输出作为输入，计算所述D维类别嵌入向量与所述D维样本嵌入向量之间的匹配得分，并通过所述输出层输出所述匹配得分。

在本发明的又一实施例中，如图7所示，所述匹配得分计算模块12，包括：

第一计算单元31，用于使所述输入层计算每个D维类别嵌入向量与所述D维样本嵌入向量之间的向量内积，并向多个全连接层中的第一级全连接层输出所述向量内积；

第二计算单元32，所述第一级全连接层以所述向量内积作为输入，将所述D维样本嵌入向量与预设的D维类别嵌入向量进行匹配计算，输出第一中间得分；

第三计算单元33，多个全连接层中的第X级全连接层将前一级的全连接层输出的中间得分作为输入进行匹配计算，并通过所述输出层输出所述匹配得分，X＝2、3、4……N。

在本发明的又一实施例中，如图8所示，所述匹配得分计算模块12，包括：

第四计算单元41，用于使所述输入层计算每个D维类别嵌入向量与所述D维样本嵌入向量之间的点乘结果，并向多个全连接层中的第一级全连接层输出所述点乘结果；

第五计算单元42，用于使所述第一级全连接层以所述点乘结果作为输入，将所述D维样本嵌入向量与预设的D维类别嵌入向量进行匹配计算，输出第二中间得分；

第六计算单元43，用于使多个全连接层中的第X级全连接层将前一级的全连接层输出的中间得分作为输入进行匹配计算，并通过所述输出层输出所述匹配得分，X＝2、3、4……N。

在本发明的又一实施例中，还提供一种数据分类装置，如图9所示，所述装置包括：

第二获取模块51，用于获取待分类的输入样本的D维样本嵌入向量；

分类模块52，用于将所述D维样本嵌入向量输入如前述模型训练方法生成的深度分类模型，获取所述深度分类模型输出的所述输入样本属于每个预设类别的概率；

类别确定模块53，用于将最大概率对应的预设类别确定为所述输入样本的样本类别。

在本发明的又一实施例中，还提供一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现前述方法实施例中的模型训练方法或前述方法实施例中的数据分类方法。

本发明实施例提供的电子设备，处理器通过执行存储器上所存放的程序实现了获取训练样本的D维样本嵌入向量和样本类别；K个预设类别的每个预设类别所对应的M个D维类别嵌入向量中每个D维类别嵌入向量，以D维类别嵌入向量与所述D维样本嵌入向量作为所述深度匹配模型的输入，输出所述训练样本与所述D维类别嵌入向量的匹配得分，K>1，M>1，D>1；所述类内max层在每个预设类别所对应的M个匹配得分中确定一个匹配得分，作为所述训练样本与各预设类别的类别匹配得分；所述类间softmax层基于所述训练样本与各预设类别的类别匹配得分，计算所述训练样本属于每个预设类别的概率；利用所述训练样本属于每个预设类别的概率与所述样本类别，对所述深度分类模型进行训练，直至所述深度分类模型收敛时，获得所述深度分类模型，通过使用M个D维类别嵌入向量描述类别，减小分类误差，使分类更加准确。

上述电子设备提到的通信总线1140可以是外设部件互连标准(PeripheralComponentInterconnect，简称PCI)总线或扩展工业标准结构(ExtendedIndustryStandardArchitecture，简称EISA)总线等。该通信总线1140可以分为地址总线、数据总线、控制总线等。为便于表示，图10中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口1120用于上述电子设备与其他设备之间的通信。

存储器1130可以包括随机存取存储器(RandomAccessMemory，简称RAM)，也可以包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器1110可以是通用处理器，包括中央处理器(CentralProcessingUnit，简称CPU)、网络处理器(NetworkProcessor，简称NP)等；还可以是数字信号处理器(DigitalSignalProcessing，简称DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit，简称ASIC)、现场可编程门阵列(Field-ProgrammableGateArray，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明的又一实施例中，还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有数据分类方法程序，所述数据分类方法程序被处理器执行时实现前述方法实施例中的模型训练方法或前述方法实施例中的数据分类方法的步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本发明实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘SolidStateDisk(SSD))等。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种模型训练方法，其特征在于，深度分类模型包括：级联的深度匹配模型、类内max层和类间softmax层，所述方法包括：

获取训练样本的D维样本嵌入向量和样本类别，所述训练样本为视频标题，所述样本类别为视频类别；

K个预设类别的每个预设类别所对应的M个D维类别嵌入向量中每个D维类别嵌入向量，以D维类别嵌入向量与所述D维样本嵌入向量作为所述深度匹配模型的输入，输出所述训练样本与所述D维类别嵌入向量的匹配得分，K>1，M>1，D>1，所述预设类别为预设视频类别，所述预设视频类别对应多个视频子类别，每个视频子类别对应一个D维类别嵌入向量；

利用所述训练样本属于每个预设类别的概率与所述样本类别，对所述深度分类模型进行训练，直至所述深度分类模型收敛时，获得所述深度分类模型，以用于视频分类。

2.根据权利要求1所述的模型训练方法，其特征在于，所述类内max层在每个预设类别所对应的M个匹配得分中确定一个匹配得分，作为各预设类别的类别匹配得分，包括：

3.根据权利要求1所述的模型训练方法，其特征在于，所述类间softmax层基于所述训练样本与各预设类别的类别匹配得分，计算所述训练样本属于每个预设类别的概率，包括：

4.根据权利要求1所述的模型训练方法，其特征在于，利用所述训练样本属于每个预设类别的概率与所述样本类别，对所述深度分类模型进行训练，直至所述深度分类模型收敛时，获得所述深度分类模型，包括：

5.根据权利要求1所述的模型训练方法，其特征在于，所述深度匹配模型包括：级联的输入层、多个全连接层及输出层；

6.根据权利要求5所述的模型训练方法，其特征在于，所述将D维类别嵌入向量与所述D维样本嵌入向量输入所述输入层；多个全连接层以输入层的输出作为输入，计算所述D维类别嵌入向量与所述D维样本嵌入向量之间的匹配得分，并通过所述输出层输出所述匹配得分，包括：

多个全连接层中的第X级全连接层将前一级的全连接层输出的中间得分作为输入进行匹配计算，并通过所述输出层输出所述匹配得分，X=2、3、4……N。

7.根据权利要求5所述的模型训练方法，其特征在于，所述将D维类别嵌入向量与所述D维样本嵌入向量输入所述输入层；多个全连接层以输入层的输出作为输入，计算所述D维类别嵌入向量与所述D维样本嵌入向量之间的匹配得分，并通过所述输出层输出所述匹配得分，包括：

8.一种数据分类方法，其特征在于，所述方法包括：

获取待分类的输入样本的D维样本嵌入向量，所述待分类的输入样本为待分类的视频标题；

将所述D维样本嵌入向量输入如权利要求1-7任一所述的模型训练方法生成的深度分类模型，获取所述深度分类模型输出的所述输入样本属于每个预设类别的概率，所述预设类别为预设视频类别；

将最大概率对应的预设类别确定为所述输入样本的样本类别，所述输入样本的样本类别为所述输入样本的视频类别。

9.一种模型训练装置，其特征在于，深度分类模型包括：级联的深度匹配模型、类内max层和类间softmax层，所述装置包括：

第一获取模块，用于获取训练样本的D维样本嵌入向量和样本类别，所述训练样本为视频标题，所述样本类别为视频类别；

匹配得分计算模块，用于K个预设类别的每个预设类别所对应的M个D维类别嵌入向量中每个D维类别嵌入向量，以D维类别嵌入向量与所述D维样本嵌入向量作为所述深度匹配模型的输入，输出所述训练样本与所述D维类别嵌入向量的匹配得分，K>1，M>1，D>1，所述预设类别为预设视频类别，所述预设视频类别对应多个视频子类别，每个视频子类别对应一个D维类别嵌入向量；

模型训练模块，用于利用所述训练样本属于每个预设类别的概率与所述样本类别，对所述深度分类模型进行训练，直至所述深度分类模型收敛时，获得所述深度分类模型，以用于视频分类。

10.根据权利要求9所述的模型训练装置，其特征在于，所述类别匹配得分确定模块，还用于：

11.根据权利要求9所述的模型训练装置，其特征在于，所述样本类别概率计算模块，还用于：

12.根据权利要求9所述的模型训练装置，其特征在于，所述模型训练模块，包括：

13.根据权利要求9所述的模型训练装置，其特征在于，所述深度匹配模型包括：级联的输入层、多个全连接层及输出层；

所述匹配得分计算模块，还用于：

14.根据权利要求13所述的模型训练装置，其特征在于，所述匹配得分计算模块，包括：

第三计算单元，多个全连接层中的第X级全连接层将前一级的全连接层输出的中间得分作为输入进行匹配计算，并通过所述输出层输出所述匹配得分，X=2、3、4……N。

15.根据权利要求13所述的模型训练装置，其特征在于，所述匹配得分计算模块，包括：

第六计算单元，用于使多个全连接层中的第X级全连接层将前一级的全连接层输出的中间得分作为输入进行匹配计算，并通过所述输出层输出所述匹配得分，X=2、3、4……N。

16.一种数据分类装置，其特征在于，所述装置包括：

第二获取模块，用于获取待分类的输入样本的D维样本嵌入向量，所述待分类的输入样本为待分类的视频标题；

分类模块，用于将所述D维样本嵌入向量输入如权利要求1-7任一所述的模型训练方法生成的深度分类模型，获取所述深度分类模型输出的所述输入样本属于每个预设类别的概率，所述预设类别为预设视频类别；

类别确定模块，用于将最大概率对应的预设类别确定为所述输入样本的样本类别，所述输入样本的样本类别为所述输入样本的视频类别。

17.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1~7任一所述的模型训练方法或权利要求8所述的数据分类方法。

18.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有数据分类方法程序，所述数据分类方法程序被处理器执行时实现权利要求1-7任一所述的模型训练方法或权利要求8所述的数据分类方法的步骤。