CN112613555A

CN112613555A - 基于元学习的目标分类方法、装置、设备和存储介质

Info

Publication number: CN112613555A
Application number: CN202011523348.0A
Authority: CN
Inventors: 刘玉; 徐国强
Original assignee: OneConnect Financial Technology Co Ltd Shanghai
Current assignee: OneConnect Smart Technology Co Ltd; OneConnect Financial Technology Co Ltd Shanghai
Priority date: 2020-12-21
Filing date: 2020-12-21
Publication date: 2021-04-06
Also published as: WO2022134586A1

Abstract

本申请涉及人工智能领域，尤其是一种基于元学习的目标分类方法、装置、设备和存储介质。所述方法包括：获取新增数据，并根据所述新增数据构建参照样本；根据新增数据以及参照样本得到待分类目标；将所述参照样本和所述待分类目标输入至预先生成的目标分类模型中，以确定所述待分类目标属于所述参照样本所属分类的第一概率，其中，所述目标分类模型是基于元学习的方式训练得到的；根据所述第一概率确定所述待分类目标所属分类。采用本方法能够提高新增数据分类准确性。此外，本发明还涉及区块链技术，新增数据以及新增数据对应的分类可存储于区块链节点中。

Description

基于元学习的目标分类方法、装置、设备和存储介质

技术领域

本申请涉及人工智能技术领域，特别是涉及一种基于元学习的目标分类方法、装置、设备和存储介质。

背景技术

随着人工智能技术的发展，出现了计算机视觉、自然语言处理、语音识别等技术，但不同的人对于庞大的人工智能领域各有研究侧重点，如计算机视觉领域中的子任务目前就已经达到了500多个，自然语言处理领域的子任务也有300多个。对于纷繁复杂的学术论文，人工智能领域的学者急需一套系统来对新出现的论文进行分类和打标签。

然而，传统的基于机器学习的论文分类模型都只能处理训练集中出现过的论文类别，一旦有新类别的论文过来，这些模型就无法对这些论文进行正确的分类。此外新类别的论文一开始数据较少，由于机器学习模型通常都需要大量的训练样本来进行训练，即时将新类别的论文作为训练数据来进行训练，也不可能得到一个准确率很高的分类模型，导致模型在测试集上的效果变差，进而导致新出现的论文的分类不准确。

发明内容

基于此，有必要针对上述技术问题，提供一种能够保证新增数据分类准确性的基于元学习的目标分类方法、装置、设备和存储介质。

一种基于元学习的目标分类方法，所述方法包括：

获取新增数据，并根据所述新增数据构建参照样本；

根据所述新增数据以及所述参照样本得到待分类目标；

将所述参照样本和所述待分类目标输入至预先生成的目标分类模型中，以确定所述待分类目标属于所述参照样本所属分类的第一概率，其中，所述目标分类模型是基于元学习的方式训练得到的；

根据所述第一概率确定所述待分类目标所属分类。

在其中一个实施例中，所述新增数据包括多个分类；所述根据所述新增数据构建参照样本包括：

将所述新增数据按照分类进行分组，并构建每一分组对应的参照样本；

所述将所述参照样本和所述待分类目标输入至预先生成的目标分类模型中，以确定所述待分类目标属于所述参照样本所属分类的第一概率，包括：

将所述参照样本和所述待分类目标输入至预先生成的目标分类模型中，以确定所述待分类目标属于每个分类的第一概率。

在其中一个实施例中，所述目标分类模型的训练方式包括：

获取样本数据，根据所述样本数据构建多组元训练样本；

根据所述元训练样本进行训练得到目标分类模型。

在其中一个实施例中，所述根据所述元训练样本进行训练得到目标分类模型，包括：

对每一组元训练样本的每个支撑样本和查询样本的单词进行序列化；

将序列化后的每个单词进行高阶特征处理得到对应的高阶特征表示；

对所述高阶特征表示进行平均池化操作以得到每个支撑样本对应的向量表示以及每个查询样本对应的向量表示；

根据所述每个支撑样本对应的向量表示以及每个查询样本对应的向量表示进行训练得到目标分类模型。

在其中一个实施例中，所述获取样本数据，根据所述样本数据构建多组元训练样本，包括：

爬取预设网站上已经分类完成的样本数据，对所述样本数据按照分类进行分组；

随机从所述分组中抽取至少一个分组，并确定所抽取的至少一个分组中的第一数量样本数据为支撑样本，第二数量样本数据为查询样本；

根据所述支撑样本和所述查询样本得到一组元训练样本；

重复随机从所述分组中抽取至少一个分组的步骤以得到多组元训练样本。

在其中一个实施例中，所述随机从所述分组中抽取至少一个分组，包括：

随机从所述分组中抽取预设数量的分组，所述预设数量的分组大于等于2；

所述根据所述每个支撑样本对应的向量表示以及每个查询样本对应的向量表示进行训练得到目标分类模型，包括：

获取所述查询样本对应真实分类；

根据所述每个支撑样本对应的向量表示以及每个查询样本对应的向量表示，计算每个查询样本对应的模型分类，所述模型分类包括与预设数量的个数相对应数量的第二概率；

根据所述真实分类和所述第二概率进行训练得到目标分类模型。

在其中一个实施例中，所述根据所述每个支撑样本对应的向量表示以及每个查询样本对应的向量表示进行训练得到目标分类模型，包括：

根据以下公式计算每个查询样本对应的支撑样本的类别概率：

其中，Sigmod激活函数的输出为0到1之间的实数，atten是用来计算每个支撑样本对查询样本分类的贡献度，⊙代表两个向量的内积，T是一个实数，用于控制atten得到的分布的尖锐程度，k代表支撑样本的序号，k的值与支撑样本的样本数量有关；

根据每个所述查询样本的真实分组以及所述类别概率对所述公式进行训练得到目标分类模型。

一种基于元学习的目标分类装置，所述装置包括：

新增数据获取模块，用于获取新增数据，并根据所述新增数据构建参照样本；

待分类目标获取模块，用于根据所述新增数据以及所述参照样本得到待分类目标；

模型处理模块，用于将所述参照样本和所述待分类目标输入至预先生成的目标分类模型中，以确定所述待分类目标属于所述参照样本所属分类的第一概率，其中，所述目标分类模型是基于元学习的方式训练得到的；

分类模块，用于根据所述概率确定所述待分类目标所属分类。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述上一实施例中的方法的步骤。

一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意实施例中的方法的步骤。

上述基于元学习的目标分类方法、装置、设备和存储介质，根据新增数据确定了参照样本，这样仅需要将参照样本和待分类目标输入至预先生成的目标分类模型中，即可以得到待分类目标所述的分类，能够自动的为人工智能领域的目标进行分类，且不需要人工干涉，不需要专门的人工智能领域的知识，大大减少了人力成本，且当有新类别的数据来时，不需要重新训练模型，只需要少数几个支撑样本，就可以对待分类目标打标签，以进行分类。

附图说明

图1为一个实施例中基于元学习的目标分类方法的流程示意图；

图2为另一个实施例中基于元学习的目标分类方法的流程示意图；

图3为一个实施例中基于元学习的目标分类装置的结构框图；

图4为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种基于元学习的目标分类方法，本实施例以该方法应用于终端进行举例说明，可以理解的是，该方法也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。本实施例中，该方法包括以下步骤：

S102：获取新增数据，并根据新增数据构建参照样本。

具体地，新增数据是新增加的数据；以论文为例，当存在新类别的论文时，属于该新类别的论文则属于新增数据。参照样本是根据新增数据所构建的，参照样本是新增数据的子集，即一段时间内新增加了大量的新增数据，其中一小部分新增数据经过分类得到了参照样本。即对新增数据提取了部分数据，然后对所提取的部分数据进行分类得到了参照样本。且该部分数据的数量是较少的，例如小于一阈值，例如10篇等。

S104：根据新增数据以及参照样本得到待分类目标。

具体地，待分类目标则是新增加的数据中除了参照样本以外的数据，以论文为例，即新增加的未经过分类的论文。也就是说待分类目标和参照样本构成了所有的新增数据，这样其中参照样本是经过标签标注的，数量较少，例如10个等，而所剩余的数量较多的是待分类目标。

S106：将参照样本和待分类目标输入至预先生成的目标分类模型中，以确定待分类目标属于参照样本所属分类的第一概率，其中，目标分类模型是基于元学习的方式训练得到的。

具体地，目标分类模型是基于元学习的方式训练得到的，其中根据样本数据构建多个元训练任务，然后通过所构建的元训练任务进行训练得到目标分类模型。其中元训练任务是给定了少量支撑样本和大量的查询样本后，对该支撑样本和查询样本进行训练得到以较少的新类别样本即可以对新类别的数据进行区分的目标分类模型。

其中，服务器将参照样本和待分类目标输入至预先生成的目标分类模型中，以使得目标分类模型对参照样本和待分类样本进行处理，并计算处理后的待分类目标属于参照样本所属分类的概率。

其中目标分类模型对参照样本进行处理可以包括：对参照样本和待分类目标进行向量化表示的过程以及根据向量化表示的参照样本计算待分类目标的第一概率的步骤。

其中向量化表示的过程可以包括：计算参照样本和待分类目标的单词序列，然后将参照样本和待分类目标的单词序列进行处理得到每个单词的高阶特征表示，例如输入至BERT模型中进行处理，最后，分别将参照样本和待分类目标的高阶表示后的每个单词的高阶特征进行平均池化操作得到对应的参照样本和待分类目标的向量化表示。

其中，根据向量化表示的参照样本计算待分类目标的第一概率的步骤可以包括：根据预先训练的模型来根据向量化表示的参照样本计算待分类目标的第一概率：

其中Sigmod激活函数的输出为0到N之间的实数，因此可以根据P来确定待分类目标和参照样本的类别是不是相同的。atten函数是用来计算每个参照样本对待分类目标分类的贡献度。⊙代表两个向量的内积，T是一个实数，用于控制atten得到的分布的尖锐程度。k代表参照样本的序号，其取值与参照样本中样本数量有关。

S108：根据第一概率确定待分类目标所属分类。

具体地，其中服务器可以预设概率阈值，通过该概率阈值来确定待分类目标所属分类。且由于Sigmod激活函数的输出为0到N之间的实数，例如0到1之间的实数，也就是相当于一个二分类问题，所以大于0.5代表相同，小于0.5代表不同。在其他的实施例中。该预设概率阈值可以根据Sigmod激活函数的输出的范围来确定预设概率阈值。

需要强调的是，为进一步保证上述新增数据和新增数据对应的分类的私密和安全性，上述新增数据和新增数据对应的分类还可以存储于一区块链的节点中。

上述基于元学习的目标分类方法，根据新增数据确定了参照样本，这样仅需要将参照样本和待分类目标输入至预先生成的目标分类模型中，即可以得到待分类目标的分类，能够自动的为人工智能领域的目标进行分类，且不需要人工干涉，不需要专门的人工智能领域的知识，大大减少了人力成本，且当有新类别的数据来时，不需要重新训练模型，只需要少数几个支撑样本，就可以对待分类目标打标签，以进行分类。

在其中一个实施例中，新增数据包括多个分类；根据新增数据构建参照样本包括：将新增数据按照分类进行分组，并构建每一分组对应的参照样本；将参照样本和待分类目标输入至预先生成的目标分类模型中，以确定待分类目标属于参照样本所属分类的第一概率，包括：将参照样本和待分类目标输入至预先生成的目标分类模型中，以确定待分类目标属于每个分类的第一概率。

具体地，由于新增数据可能属于多个分组，或者是同一数据，例如同一篇论文可能存在多个标签，因此服务器先从新增数据中获取少数量的样本数据，然后对该些样本数据进行分组，并构建每一分组对应的参照样本，其中需要说明的是所获取的样本数据可以同时分配到多个分组中，也即实现了同一数据存在多个标签，这样所构建的多个分组中可以存在重复的参照样本。

相应地，通过目标分类模型后所得到的待分类目标属于参照样本所属分类的概率也是多个，即与参照样本的分组的数量相关，两者是相等的关系，即通过目标分类模型后所得到的待分类目标属于每一参照样本所属分类的概率，这样服务器根据概率判断可以确定待分类目标所属的多个分类，从而实现了能够同时给一篇论文打多个标签的技术效果。而现有的基于机器学习的论文分类模型一般都是基于单标签的，也就是说一篇论文只能属于一个小类，而现实情况是一篇论文其实可以有多个标签，有些论文可能是跨越了多个领域的，只给该论文打一个标签实在是不合适的。

上述实施例中，由于构建了多组参照样本，因此支持同时对一篇论文打多个标签。

在其中一个实施例中，目标分类模型的训练方式包括：获取样本数据，根据样本数据构建多组元训练样本；根据元训练样本进行训练得到目标分类模型。

具体地，样本数据可以是预先设置的已经分类完成的样本，例如已经分类完成的论文。元训练样本是根据样本数据进行处理得到的，其中每个员训练样本可以包括多个支撑样本和多个查询样本，其中支撑样本中可以包括多个分组的样本数据，即属于不同分类的样本数据，对应的查询样本也是相应的分组中的查询样本。其中元训练样本的组数可以根据需要进行设置，例如一万个，然后通过该元训练样本来进行训练得到目标分类模型，例如依次通过元训练样本进行训练直至目标分类模型的准确率达到预期，其中对于目标分类模型的准确率的计算可以根据元训练样本进行处理，例如将元训练样本中的支撑样本和查询样本输入至目标分类模型中，以确定查询样本对应的分类，若是与查询样本的真实分类相比较，达到预期，则模型训练完成。

在其中一个实施例中，根据元训练样本进行训练得到目标分类模型，包括：对每一组元训练样本的每个支撑样本和查询样本的单词进行序列化；将序列化后的每个单词进行高阶特征处理得到对应的高阶特征表示；对高阶特征表示进行平均池化操作以得到每个支撑样本对应的向量表示以及每个查询样本对应的向量表示；根据每个支撑样本对应的向量表示以及每个查询样本对应的向量表示进行训练得到目标分类模型。

具体地，单词序列化是指将支撑样本和查询样本中的每个单词转化成有序的序列，例如设支撑(support)样本的单词序列分别为

则支撑样本的输入为[CLS],

[SEP],查询样本的单词序列为

则查询样本的输入为[CLS],

[SEP]，其中，CLS和SEP是BERT里面特有的两个单词，BERT在预训练的时候，就加入了这两个特殊的单词，以让模型能定位到期输入的句子，因此在用BERT来微调下游任务的时候，也必须添加这两个特殊的单词，一个在开头，一个在结尾，S其实是support的首字母，代表

是支撑样本的单词，Q其实是query的首字母，代表

是查询样本的单词，m代表这个支撑样本一共有多少个单词，n代表这个查询样本一共有多少个单词。

高阶特征表示可以通过BERT模型来进行，例如通过以下公式得到每个单词的高阶特征表示：

其中

和

分别为支撑样本和查询样本的第i个和第j个单词。

向量化表示可以是通过平均池化操作得到的，例如通过以下公式进行处理：

s_rep＝MEAN_POOLING_i(s_i)

q_rep＝MEAN_POOLING_j(q_j)

这样得到的s_rep就代表整个支撑样本的特征表示，q_rep就代表整个查询样本的特征表示。

在其中一个实施例中，获取样本数据，根据样本数据构建多组元训练样本，包括爬取预设网站上已经分类完成的样本数据，对样本数据按照分类进行分组；随机从分组中抽取至少一个分组，并确定所抽取的至少一个分组中的第一数量样本数据为支撑样本，第二数量样本数据为查询样本；根据支撑样本和查询样本得到一组元训练样本；重复随机从分组中抽取至少一个分组的步骤以得到多组元训练样本。

具体地，由于针对论文的分类网上已有较为准确的分类，例如较为成熟的人工智能领域分类和打标签网站papers with codes,该网络上已经具有人工整理好的人能智能领域论文的类别，以及该种类别下的各种论文，爬取这些数据能够形成一些标注好的论文-类别数据集，而不用自己重新标注，从而可以大大减少工作量。从该网站上爬取各个领域的子任务，共约16大类，400多中类，1200多小类，针对每个小类爬取相应的论文标题，论文摘要和论文下载地址。

具体地，服务器随机从上述1200多个小类中抽取至少一个分组，例如10个分组，可以表示为：l₁,l₂,…,l₁₀从l₁,l₂,…,l₁₀这10个分组中，每个分组随机抽取第一数量，例如10个样本作为支撑(support)样本，每个分组随机抽取第二数量，例如100个样本作为查询(query)样本，因此一共会得到100个支撑样本，1000个查询样本。将这样一次构建的数据集成为一个元训练任务，该任务的目的是训使得模型能够在给定支撑样本的前提下，为查询样本进行分类。为了训练模型，可以构建了10000个这样的元训练任务。

在其中一个实施例中，随机从分组中抽取至少一个分组，包括：随机从分组中抽取预设数量的分组，预设数量的分组大于等于2；根据每个支撑样本对应的向量表示以及每个查询样本对应的向量表示进行训练得到目标分类模型，包括：获取查询样本对应真实分类；根据每个支撑样本对应的向量表示以及每个查询样本对应的向量表示，计算每个查询样本对应的模型分类，模型分类包括与预设数量的个数相对应数量的第二概率；根据真实分类和第二概率进行训练得到目标分类模型。

为了实现多标签，能够同时给一篇论文打多个标签，在该实施例中，通过设置分组的数量，来实现给待分类目标的多标签标注，即通过目标分类模型后所得到的待分类目标属于参照样本所属分类的概率也是多个，即与参照样本的分组的数量相关，两者是相等的关系，即通过目标分类模型后所得到的待分类目标属于每一参照样本所属分类的概率，这样服务器根据概率判断可以确定待分类目标所属的多个分类，从而实现了能够同时给一篇论文打多个标签的技术效果。

在其中一个实施例中，根据每个支撑样本对应的向量表示以及每个查询样本对应的向量表示进行训练得到目标分类模型，包括：根据以下公式计算每个查询样本对应的支撑样本的类别概率：

其中，Sigmod激活函数的输出为0到1之间的实数，atten是用来计算每个支撑样本对查询样本分类的贡献度，⊙代表两个向量的内积，T是一个实数，用于控制atten得到的分布的尖锐程度，k代表支撑样本的序号，k的值与支撑样本的样本数量有关；根据每个查询样本的真实分组以及类别概率对公式进行训练得到目标分类模型。

具体地，计算查询样本为该类别的概率，由于每个元训练任务中包含了10个类别，因此会得到10个这样的概率，通过这个概率是否大于0.5,就可以知道查询样本是不是属于该类别，并将所得到的查询样本的模型类别与查询样本的真实分组进行比较来构建损失函数等，以对上述公式进行训练，从而得到目标分类模型，例如对上述的Sigmod激活函数、atten函数中的参数进行训练。

具体地，参见图2所示，图2为另一个实施例中的基于元学习的目标分类方法的流程图，在该实施例中，首先借鉴较为成熟的人工智能领域分类和打标签网站papers withcodes,该网络上已经具有人工整理好的人能智能领域论文的类别，以及该种类别下的各种论文，爬取这些数据能够让我们形成一些标注好的论文-类别数据集，而不用自己重新标注。从该网站上爬取各个领域的子任务，共约16大类，400多中类，1200多小类，针对每个小类爬取相应的论文标题，论文摘要和论文下载地址。

其次，在爬取好这些论文的类别、标题以及摘要之后，开始构建训练集。其中标题和摘要拼接起来作为模型输入，而论文的类别作为标签。为了训练模型，本文首先需要构建一些列的元训练(meta-training)样本，构建规则如下：从1200类中随机抽取10个类别，不妨表示为，l₁,l₂,…,l₁₀。从l₁,l₂,…,l₁₀这10个类别中，每个类别随机抽取10个样本作为支撑(support)样本，每个类别随机抽取100个样本作为查询(query)样本，因此一共会得到100个支撑样本，1000个查询样本。本实施例中将这样一次构建的数据集成为一个元训练任务(meta-training task)，该任务的目的是训使得模型能够在给定支撑样本的前提下，为查询样本进行分类。为了训练模型，本实施例构建了10000个这样的元训练任务。

在构建好10000个元训练任务之后，则开始构建模型。本实施例中采用中文预训练语言模型BERT来编码句子的特征表示，模型主体架构如下：

设支撑(support)样本的单词序列分别为

则支撑样本的输入为[CLS],

[SEP],查询样本的单词序列为

则查询样本的输入为[CLS],

[SEP].

将支撑样本和查询样本输入BERT之后，通过以下式子得到这些样本的每个单词的高阶特征表示：

其中

和

分别为支撑样本和查询样本的第i个和第j个单词。

在得到这些单词的高阶特征表示之后，服务器利用平均池化操作来得到一个统一的向量表示，用来代表整个样本：

s_rep＝MEAN_POOLING_i(s_i)

q_rep＝MEAN_POOLING_j(q_j)

在得到整个样本的特征表示之后，服务器根据支撑样本来计算查询样本的类别概率：

其中Sigmod激活函数的输出为0到1之间的实数，因此我们可以P来确定查询样本和支撑样本的类别是不是相同的。atten函数是用来计算每个支撑样本对查询样本分类的贡献度。⊙代表两个向量的内积，T是一个实数，用于控制atten得到的分布的尖锐程度。k代表支撑样本的序号，因为本文针对每个类别选取了10个支撑样本，因为k最大取10。

这样针对某一类别，服务器可以计算查询样本为该类别的概率，由于每个元训练任务中包含了10个类别，因此服务器会得到10个这样的概率，通过这个概率是否大于0.5就可以得到查询样本是不是属于该类别。

应该理解的是，虽然图1和图2的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1和图2中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图3所示，提供了一种基于元学习的目标分类装置，包括：新增数据获取模块100、待分类目标获取模块200、模型处理模块300和分类模块400，其中：

新增数据获取模块100，用于获取新增数据，并根据新增数据构建参照样本；

待分类目标获取模块200，用于根据新增数据以及参照样本得到待分类目标；

模型处理模块300，用于将参照样本和待分类目标输入至预先生成的目标分类模型中，以确定待分类目标属于参照样本所属分类的第一概率，其中，目标分类模型是基于元学习的方式训练得到的；

分类模块400，用于根据概率确定待分类目标所属分类。

在其中一个实施例中，上述的新增数据包括多个分类，上述的新增数据获取模块100包括：

分组单元，用于将新增数据按照分类进行分组，并构建每一分组对应的参照样本；

上述模型处理模块300还用于将参照样本和待分类目标输入至预先生成的目标分类模型中，以确定待分类目标属于每个分类的第一概率。

在其中一个实施例中，上述的基于元学习的目标分类装置还包括：

样本数据获取模块，用于获取样本数据，根据样本数据构建多组元训练样本；

训练模块，用于根据元训练样本进行训练得到目标分类模型。

在其中一个实施例中，上述的训练模块包括：

序列化单元，用于对每一组元训练样本的每个支撑样本和查询样本的单词进行序列化；

特征处理单元，用于将序列化后的每个单词进行高阶特征处理得到对应的高阶特征表示；

向量化单元，用于对高阶特征表示进行平均池化操作以得到每个支撑样本对应的向量表示以及每个查询样本对应的向量表示；

训练单元，用于根据每个支撑样本对应的向量表示以及每个查询样本对应的向量表示进行训练得到目标分类模型。

在其中一个实施例中，上述样本数据获取模块可以包括：

分组单元，用于爬取预设网站上已经分类完成的样本数据，对样本数据按照分类进行分组；

抽取单元，用于随机从分组中抽取至少一个分组，并确定所抽取的至少一个分组中的第一数量样本数据为支撑样本，第二数量样本数据为查询样本；

组合单元，用于根据支撑样本和查询样本得到一组元训练样本；

循环单元，用于重复随机从分组中抽取至少一个分组的步骤以得到多组元训练样本。

在其中一个实施例中，上述的抽取单元还用于随机从分组中抽取预设数量的分组，预设数量的分组大于等于2；

上述训练单元包括：

真实分类获取子单元，用于获取查询样本对应真实分类；

模型分类获取子单元，用于根据每个支撑样本对应的向量表示以及每个查询样本对应的向量表示，计算每个查询样本对应的模型分类，模型分类包括与预设数量的个数相对应数量的第二概率；

训练子单元，用于根据真实分类和第二概率进行训练得到目标分类模型。

在其中一个实施例中，上述训练模块可以包括：

类别概率计算单元，用于根据以下公式计算每个查询样本对应的支撑样本的类别概率：

目标分类模型生成单元，用于根据每个查询样本的真实分组以及类别概率对公式进行训练得到目标分类模型。

关于基于元学习的目标分类装置的具体限定可以参见上文中对于基于元学习的目标分类方法的限定，在此不再赘述。上述基于元学习的目标分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储新增数据以及其对应的分类数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于元学习的目标分类方法。

本领域技术人员可以理解，图4中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现以下步骤：获取新增数据，并根据新增数据构建参照样本；根据新增数据以及参照样本得到待分类目标；将参照样本和待分类目标输入至预先生成的目标分类模型中，以确定待分类目标属于参照样本所属分类的第一概率，其中，目标分类模型是基于元学习的方式训练得到的；根据第一概率确定待分类目标所属分类。

在一个实施例中，处理器执行计算机程序时所实现的新增数据包括多个分类；处理器执行计算机程序时所实现的根据新增数据构建参照样本包括：将新增数据按照分类进行分组，并构建每一分组对应的参照样本；将参照样本和待分类目标输入至预先生成的目标分类模型中，以确定待分类目标属于参照样本所属分类的第一概率，包括：将参照样本和待分类目标输入至预先生成的目标分类模型中，以确定待分类目标属于每个分类的第一概率。

在一个实施例中，处理器执行计算机程序时所实现的目标分类模型的训练方式包括：获取样本数据，根据样本数据构建多组元训练样本；根据元训练样本进行训练得到目标分类模型。

在一个实施例中，处理器执行计算机程序时所实现的根据元训练样本进行训练得到目标分类模型，包括：对每一组元训练样本的每个支撑样本和查询样本的单词进行序列化；将序列化后的每个单词进行高阶特征处理得到对应的高阶特征表示；对高阶特征表示进行平均池化操作以得到每个支撑样本对应的向量表示以及每个查询样本对应的向量表示；根据每个支撑样本对应的向量表示以及每个查询样本对应的向量表示进行训练得到目标分类模型。

在一个实施例中，处理器执行计算机程序时所实现的获取样本数据，根据样本数据构建多组元训练样本，包括：爬取预设网站上已经分类完成的样本数据，对样本数据按照分类进行分组；随机从分组中抽取至少一个分组，并确定所抽取的至少一个分组中的第一数量样本数据为支撑样本，第二数量样本数据为查询样本；根据支撑样本和查询样本得到一组元训练样本；重复随机从分组中抽取至少一个分组的步骤以得到多组元训练样本。

在一个实施例中，处理器执行计算机程序时所实现的随机从分组中抽取至少一个分组，包括：随机从分组中抽取预设数量的分组，预设数量的分组大于等于2；根据每个支撑样本对应的向量表示以及每个查询样本对应的向量表示进行训练得到目标分类模型，包括：获取查询样本对应真实分类；根据每个支撑样本对应的向量表示以及每个查询样本对应的向量表示，计算每个查询样本对应的模型分类，模型分类包括与预设数量的个数相对应数量的第二概率；根据真实分类和第二概率进行训练得到目标分类模型。

在一个实施例中，处理器执行计算机程序时所实现的根据每个支撑样本对应的向量表示以及每个查询样本对应的向量表示进行训练得到目标分类模型，包括：根据以下公式计算每个查询样本对应的支撑样本的类别概率：

根据每个查询样本的真实分组以及类别概率对公式进行训练得到目标分类模型。

在一个实施例中，提供了一种计算机存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取新增数据，并根据新增数据构建参照样本；根据新增数据以及参照样本得到待分类目标；将参照样本和待分类目标输入至预先生成的目标分类模型中，以确定待分类目标属于参照样本所属分类的第一概率，其中，目标分类模型是基于元学习的方式训练得到的；根据第一概率确定待分类目标所属分类。

在一个实施例中，计算机程序被处理器执行时所实现的新增数据包括多个分类；计算机程序被处理器执行时所实现的根据新增数据构建参照样本包括：将新增数据按照分类进行分组，并构建每一分组对应的参照样本；将参照样本和待分类目标输入至预先生成的目标分类模型中，以确定待分类目标属于参照样本所属分类的第一概率，包括：将参照样本和待分类目标输入至预先生成的目标分类模型中，以确定待分类目标属于每个分类的第一概率。

在一个实施例中，计算机程序被处理器执行时所实现的目标分类模型的训练方式包括：获取样本数据，根据样本数据构建多组元训练样本；根据元训练样本进行训练得到目标分类模型。

在一个实施例中，计算机程序被处理器执行时所实现的根据元训练样本进行训练得到目标分类模型，包括：对每一组元训练样本的每个支撑样本和查询样本的单词进行序列化；将序列化后的每个单词进行高阶特征处理得到对应的高阶特征表示；对高阶特征表示进行平均池化操作以得到每个支撑样本对应的向量表示以及每个查询样本对应的向量表示；根据每个支撑样本对应的向量表示以及每个查询样本对应的向量表示进行训练得到目标分类模型。

在一个实施例中，计算机程序被处理器执行时所实现的获取样本数据，根据样本数据构建多组元训练样本，包括：爬取预设网站上已经分类完成的样本数据，对样本数据按照分类进行分组；随机从分组中抽取至少一个分组，并确定所抽取的至少一个分组中的第一数量样本数据为支撑样本，第二数量样本数据为查询样本；根据支撑样本和查询样本得到一组元训练样本；重复随机从分组中抽取至少一个分组的步骤以得到多组元训练样本。

在一个实施例中，计算机程序被处理器执行时所实现的随机从分组中抽取至少一个分组，包括：随机从分组中抽取预设数量的分组，预设数量的分组大于等于2；根据每个支撑样本对应的向量表示以及每个查询样本对应的向量表示进行训练得到目标分类模型，包括：获取查询样本对应真实分类；根据每个支撑样本对应的向量表示以及每个查询样本对应的向量表示，计算每个查询样本对应的模型分类，模型分类包括与预设数量的个数相对应数量的第二概率；根据真实分类和第二概率进行训练得到目标分类模型。

在一个实施例中，计算机程序被处理器执行时所实现的根据每个支撑样本对应的向量表示以及每个查询样本对应的向量表示进行训练得到目标分类模型，包括：根据以下公式计算每个查询样本对应的支撑样本的类别概率：

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于元学习的目标分类方法，所述方法包括：

获取新增数据，并根据所述新增数据构建参照样本；

根据所述新增数据以及所述参照样本得到待分类目标；

根据所述第一概率确定所述待分类目标所属分类。

2.根据权利要求1所述的方法，其特征在于，所述新增数据包括多个分类；所述根据所述新增数据构建参照样本包括：

3.根据权利要求1或2所述的方法，其特征在于，所述目标分类模型的训练方式包括：

获取样本数据，根据所述样本数据构建多组元训练样本；

根据所述元训练样本进行训练得到目标分类模型。

4.根据权利要求3所述的方法，其特征在于，所述根据所述元训练样本进行训练得到目标分类模型，包括：

5.根据权利要求4所述的方法，其特征在于，所述获取样本数据，根据所述样本数据构建多组元训练样本，包括：

根据所述支撑样本和所述查询样本得到一组元训练样本；

6.根据权利要求5所述的方法，其特征在于，所述随机从所述分组中抽取至少一个分组，包括：

获取所述查询样本对应真实分类；

7.根据权利要求4所述的方法，其特征在于，所述根据所述每个支撑样本对应的向量表示以及每个查询样本对应的向量表示进行训练得到目标分类模型，包括：

8.一种基于元学习的目标分类装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。