CN109711430B

CN109711430B - 一种迁移知识确定方法、装置、设备及可读存储介质

Info

Publication number: CN109711430B
Application number: CN201811408437.3A
Authority: CN
Inventors: 刘凡
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2018-11-23
Filing date: 2018-11-23
Publication date: 2021-10-01
Anticipated expiration: 2038-11-23
Also published as: CN109711430A

Abstract

本发明提供了一种迁移知识确定方法、装置、设备及可读存储介质，包括：获取至少两个基于不同分类任务的文本生数据；将所述基于不同分类任务的文本生数据映射到预设维度的高维向量空间；在所述高维向量空间中，获取所述基于不同分类任务的文本生数据的相关性数据；挖掘出所述相关性数据中的共享数据，并将所述共享数据确定为迁移知识。解决了现有技术中迁移知识领域中依赖学习器完成知识迁移的问题。

Description

一种迁移知识确定方法、装置、设备及可读存储介质

技术领域

本发明涉及机器学习技术领域，特别是涉及一种迁移知识确定方法、一种迁移知识确定装置、设备及可读存储介质。

背景技术

在机器学习技术领域中，尤其是监督学习方法中，需要在一个领域中充足的带有标签的训练数据，以便通过机器学习中获取足够的数据特征，并对目标数据进行预测等，然而，在实际应用中，常常遇到训练数据不足的情况，例如,在一个领域中有一个分类任务A，但是只有足够的在另一个领域中的分类任务B的训练数据，其中数据可能有不同的数据分布，对此，通常需要采用将分类任务B的数据迁移至分类任务A中使用，也就是进行不同领域的数据共享。

现有技术中，迁移知识确定方法通常都是限定在一个或者几个学习器上，迁移依赖于学习器的能力，无法针对任意学习器使用，不是真正意义上的共享。

发明内容

鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种迁移知识确定方法和相应的一种迁移知识确定装置。

根据本发明的第一方面，本发明实施例公开了一种迁移知识确定方法，具体包括：

获取至少两个基于不同分类任务的文本生数据；

将所述基于不同分类任务的文本生数据映射到预设维度的高维向量空间；

在所述高维向量空间中，获取所述基于不同分类任务的文本生数据的相关性数据；

挖掘出所述相关性数据中的共享数据，并将所述共享数据确定为迁移知识。

根据本发明的第二方面，本发明实施例公开了一种迁移知识确定装置，具体包括：

文本生数据获取模块，用于获取至少两个基于不同分类任务的文本生数据；

高维向量空间映射模块，用于将所述基于不同分类任务的文本生数据映射到预设维度的高维向量空间；

相关性数据获取模块，用于在所述高维向量空间中，获取所述基于不同分类任务的文本生数据的相关性数据；

共享数据挖掘模块，用于挖掘出所述相关性数据中的共享数据，并将所述共享数据确定为迁移知识。

根据本发明的第三方面，提供了一种设备，包括：处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如前述的迁移知识确定方法。

根据本发明的第四方面，提供了一种可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够实现前述的迁移知识确定方法。

本发明实施例包括以下优点：获取至少两个基于不同分类任务的文本生数据；将所述基于不同分类任务的文本生数据映射到预设维度的高维向量空间；在所述高维向量空间中，获取所述基于不同分类任务的文本生数据的相关性数据；挖掘出所述相关性数据中的共享数据；将所述共享数据确定为迁移知识。提供了一种只针对数据确定迁移知识的方法，具备不依赖和限制于任何学习器而确定的迁移知识的有益效果。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的一种迁移知识确定方法实施例的步骤流程图；

图2是本发明的一种迁移知识确定方法实施例的步骤流程图；

图2A(a)～图2A(c)是本发明的迁移知识确定方法实施例中预设滑动时间窗口的应用示意图；

图2B(a)～图2B(d)是本发明的迁移知识确定方法实施例中采用最小包含球提取相关性数据的示意图；

图3是本发明的一种最小包含球共享数据确定方法实施例的步骤流程图；

图4是本发明的一种迁移知识确定装置实施例的结构框图；

图5是本发明的一种迁移知识确定装置实施例的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

机器学习：“机器学习”(Machine Learning)是人工智能的核心研究领域之一，其最初的研究动机是为了让计算机系统具有人的学习能力以便实现人工智能。

迁移学习：在机器学习的传统监督学习情况下，如果准备为某个任务/领域A来训练模型，获取任务/领域A里标记过的数据，会是前提。但传统的监督学习方法也会失灵，在缺乏某任务、领域标记数据的情况下，它往往无法得出一个可靠的模型。如此可以通过将源场景中尽可能多的知识，迁移到目标任务或者目标场景，以补充目标任务或者目标场景中标记数据不足的问题。也就是说样本迁移的主要宗旨是剔除可能产生误导的样本；而对于特征相似、对任务有帮助的样本，则让其扩充训练数据，充分做到物尽其用。

实施例一

参照图1，示出了本发明的一种迁移知识确定方法实施例的步骤流程图，具体可以包括如下步骤：

步骤101，获取至少两个基于不同分类任务的文本生数据；

本发明实施例中，在机器学习技术领域中，为了获取足够的特征以供学习器学习，通常需要采集针对该学习任务或学习领域的足量数据。在采集不到足量数据的情况下，需要将不同领域或者针对同一类任务或者具备相似特性的其他数据进行迁移至当前任务，以满足当前机器学习任务的训练数据要求。

如上述，采集两个或者两个以上针对不同分类任务的文本生数据，通常文本生数据是指没有经过任何数据处理的生数据；例如，针对广告投放客户群的分类任务，利用爬虫工具从网络上下载的网络与该客户群相似的分类任务的文本生数据。

可以理解地，针对不同分类任务的文本生数据初始状态一致，例如都是客户信息数据，并且具备客户特征相似等特性，以便在后续进行分类后得到更高的重合度。当然，针对不同分类任务，文本生数据具备的特征不一定限于上述描述，本发明实施例对此不加以限制。

步骤102，将所述基于不同分类任务的文本生数据映射到预设维度的高维向量空间；

本发明实施例中，在得到文本生数据后，可以将文本生数据进行向量化，然后转换为相同的预设维度，这样就可以将不同分类任务的文本生数据映射到相同的预设维度的高维向量空间。

具体来说，可以通过相同或不同的向量转换方法转换为词向量或者句向量；其中，不同的文本生数据经过分词处理后，通过相同或不同的向量转换工具转换成词向量或者句向量，具备相同的预设维度；这样就可以实现了将基于不同分类任务的文本生数据映射到相同预设维度的向量空间中。

其中，预设维度的设置是基于生数据中提取的特征数量决定的，如果生数据或者多种生数据中包含所要迁移的目标场景或目标任务需要的6种特征，那么就将预设维度设置成6维，对此本发明实施例不加以限制。

其中，词向量或者句向量转换工具通常采用Word Vector或Sentence Vector的方式，但是也不限于上述这两种，本发明实施例对此不加以限制。

步骤103，在所述高维向量空间中，获取所述基于不同分类任务的文本生数据的相关性数据；

本发明实施例中，将两个或多个基于不同分类任务的文本生数据映射到该高维向量空间中时，可以根据其分类关系确定文本数据在该高维向量空间中的交集，该交集是关联上述两个或多个基于分类任务数据的相关性数据。

可以理解地，上述描述的基于分类任务的文本生数据，是指在相关领域中获取文本生数据后通过分类方法得到的，并且对于基于不同领域的每一种文本生数据所采用的分类方法不限，本发明实施例对此不加以限制。

步骤104，挖掘出所述相关性数据中的共享数据，并将所述共享数据确定为迁移知识。

本发明实施例中，在上述的相关性数据中包含了各种分类数据的叠加产生的交集数据；因此交集数据涵盖了其中每个领域的知识，但是可能存在数据分散的问题，且有可能导致其中存在异于训练集的数据，进而导致利用该数据学习时仍然无法有效建模。因此本发明实施例中对上述相关性数据进一步挖掘，以在相关性数据中进一步提高共享数据的特征重合度，并且可以弥补各不同数据在语义、特征以及分布上的不足，得到数据充足、分布独立以及特征突出的共享数据。

其中，挖掘出所述相关性数据中的共享数据的，可以通过针对上述需要满足的数据特性，以及针对要进行训练的目标领域进行选择，不限于是一种或者几种数据挖掘算法的结合，本发明实施例对此不加以限制。

本发明实施例中，通过上述挖掘得到的共享数据，满足将多个领域中的仅有少量有标签的数据，甚至没有标签的数据，以通过它们之间的共享因素(交集数据)，进一步挖掘得到分布独立、特征充足的共享数据，以确定为通过上述两个或多个知识领域进行迁移的知识，以供目标领域的学习。

在本发明实施例中，获取至少两个基于不同分类任务的文本生数据；将所述基于不同分类任务的文本生数据映射到预设维度的高维向量空间；在所述高维向量空间中，获取所述基于不同分类任务的文本生数据的相关性数据；挖掘出所述相关性数据中的共享数据；将所述共享数据确定为迁移知识。上述实施例具有不依赖任何学习器、能够从不同领域中基于分类任务的数据中确定迁移知识的有益效果。

实施例二

参照图2，示出了本发明的一种迁移知识确定方法实施例的步骤流程图，具体可以包括如下步骤：

步骤201，获取至少两个基于不同分类任务的文本生数据；

此步骤与步骤101相同，在此不再上述。

步骤202，将所述基于不同分类任务的文本生数据进行分词，得到分词数据；

步骤203，将所述分词数据转化为预设维度的特征向量；

具体地，首先在获取基于不同领域的文本生数据后，利用分词工具对生数据进行分词；然后将分词过后的文本生数据进一步转换为特征向量。其中，可以根据不同的分词目的使用匹配的分词工具以实现分词。该分词可以包括以下的一种：基于词典的分词、基于统计的分词、基于语义的分词等。

其中，可以利用Word Vector或Sentence Vector等方式将分词后的文本数据进行特征向量的转换，以实现将人类的自然语言以向量的形式进行表征。当然，在转换的过程中是根据预设维度进行的，不同领域的数据使用相同的向量转换工具，并且使用相同的预设维度进行转换。

可以理解地，向量转换方式不限于上述描述，以使达到使各领域数据转换为相同维度的向量的目的为准，本发明实施例对此不加以限制。

其中，本发明实施例中将转换后的各领域的向量数据进行分类，得到基于不同分类任务的文本生数据的特征向量。当然，本发明实施例对于特征向量的分类方法不加以限制。

步骤204，通过所述预设维度的特征向量，将所述基于不同分类任务的文本生数据映射到预设维度的高维向量空间。

具体地，通过上述方法得到的特征向量的空间表征，即是将生数据映射到预设维度的高维向量空间的过程；由于特征向量通常为多维，所以该空间表征为高维向量空间。

步骤205，在所述高维向量空间中，获取基于不同分类任务的所述特征向量的分类区域；

具体地，将不同领域或不同背景或不同任务的特征向量进行分类后，在高维向量空间中的展示结果如图2A(a)和图2A(b)所示。例如，图2A(a)表征的是基于领域或任务1的数据特征向量的分类A、B、C；图2A(b)表征的是基于领域或任务2的数据特征向量的分类D、E、F。

步骤206，获取各所述分类区域的交集区域；

进一步地，如图2A(c)中的灰色区域分别表示的是分类A与分类D、分类B与分类E、分类C与分类F的交集区域，也可以理解为任务1与任务域2的数据特征向量的交集，在图中分别标记为ClassA(D)、ClassB(E)、ClassC(F)。

步骤207，将所述交集区域中包含的所述特征向量，确定为基于不同分类任务的文本生数据的相关性数据。

具体地，在如图2A(c)中的灰色区域中包含的向量数据确定为领域或任务1与领域或任务2的相关性数据。

可以理解地，在实际应用中可以通过更多种领域或任务的数据来确定相关性数据，即可以基于不同背景、领域或任务的数据在高维向量空间中确定交集区域中包含的特征向量为相关性数据。对于参与数据的种类和所基于领域的数目，本发明实施例不加以限制。

优选地，所述挖掘出所述相关性数据中的共享数据，可以通过最小包含球算法。

其中，最小包含球算法在计算几何、碰撞检测、人工智能以及模式识别等领域都有着广泛应用的算法，通常是根据三维空间中离散点集确定一个三维球体，以包含上述所有离散点集。

步骤208，将所述相关性数据中的任一所述特征向量确定为初始化特征向量；

具体地，本发明实施例应用最小包含球来获取相关性数据。其中，在图2A(c)中的三个灰色区域中分别进行最小包含球的计算，在每一个灰色区域中任选一个特征向量点作为初始化特征向量。

步骤209，在所述交集区域的所述相关性数据中，以所述初始化特征向量所在位置点为初始球心，以第一预设值为初始半径，生成最小包含球；

具体地，如图2B(a)所示的，将初始特征向量为球心，以第一预设值为初始半径，生成一个球体作为最小包含球。其中该最小包含球不应当超过所述交集区域的边界。

其中，第一预设值是相关技术人员根据具体数据规模进行设置，本发明实施例不加以限制。

步骤210，获取所述最小包含球中包含的特征向量数目；

步骤211，判断所述最小包含球中包含的特征向量数目与预设数目阈值之间的关系，如果所述最小包含球中包含的特征向量数目小于预设数目阈值，执行步骤212，如果所述最小包含球中包含的特征向量数目大于或等于预设数目阈值，执行步骤213；

具体地，获取上述生成的最小包含球中包含的特征向量点的数目，并判断该数目是否超过预设数目阈值；例如，在一个交集区域中总共有300个离散特征向量点，那么设置数目阈值为150，那么在第一次生成最小包含球中包含的特征向量点数目超过150个，就将该最小包含球中包含的特征向量确定为共享数据，可以用来作为目标任务的样本数据。

步骤212，将所述初始半径增大，重新生成最小包含球。

具体地，根据上述描述，如果第一次生成的最小包含球中包含的特征向量点的数目小于150，那么就将最初设定为半径的值进行增大到第二值，第二值可以根据数据总量大小进行设置或是预设置。如果第一次生成的最小包含球包含的特征向量点的数目远远小于150，那么就将第二值设置的较大，反之则可以较小，本发明实施例对此不加以限制。

步骤212A，判断所述最小包含球是否超过所述交集区域的边界，如果是，则执行步骤213，如果否，则执行步骤210。

具体地，根据上述增大生成的最小包含球后，进一步判断该最小包含球是否超过交集区域的边界线，如图2B(b)和2B(c)所示的，当任一交集区域中最小包含球超过的该区域边界线，则执行步骤213以及之后的步骤，重新随机选取一个特征向量点作为球心，以第一预设值为半径，生成最小包含球，如果新生成的最小包含球没有超过交集区域的编辑，则执行步骤210，获取最小包含球包含的特征向量数据，并继续执行步骤211的判断操作。

步骤213，在所述相关性数据中获取距离所述最小包含球最远的特征向量点；

具体地，如果在一次生成的最小包含球中包含的特征向量的数目超过预设数目阈值，那么就获取距离该最小包含球所包含的数据集最远的特征向量点。

可以理解地，如果最远特征向量点存在多个，那么就任选其中的一个作为最远特征向量点。

这样做是为了在尽量远离当前最小包含球提取过的特征向量的位置，再一次利用最小包含球来提取特征向量。这样可以提升提取的效率，用尽量少的次数来尽量多的提取特征向量。

步骤213A，根据所述最远的特征向量点与所述最小包含球包含的特征向量点，生成特征向量点集合；

具体地，如图2B(d)所示的将最远特征向量点加入到最小包含球中包含的向量的特征向量中，组成一个新的特征向量点集合，扩大了原特征向量集的范围。

步骤213B，根据所述特征向量点集合，确定第一球心和第一半径；重新生成最小包含球；

具体地，基于第一球心和第一半径重新生成一个球形区域。

步骤214，获取所述最小包含球的生成次数，判断所述生成次数是否超过预设次数阈值，如果是，则执行步骤215，如果否，则执行步骤210；

具体地，在确定交集区域的同时，可以根据交集区域包含的特征向量数目预先设置一个次数阈值，在交集区域中反复多次按照上述步骤生成最小包含球后，可以认为所有生成的最小包含球中包含的特征向量数目已经最大限度的包含了交集区域中的特征向量。

步骤215，停止生成最小包含球，并提取所有生成的所述最小包含球包含的特征向量。

具体地，在反复多次生成最小包含球以及变换位置生成最小包含球后，可以认为交集区域中所有的特征向量点已经最大限度的被全部包含在内。在某些特例中会可能有一些边界附近的特征向量点未被提取出；这表明这些点不具备共性特征或是共性特征比较低，为了计算效率考虑可以抛弃。

如上所述的方法，如果在一个交集区域中如上述所述的反复通过修改半径、重新选取球心等方式生成最小包含球的次数超过预设次数阈值，则停止生成最小包含球，并提取所有之前生成的最小包含球中包含的所以特征向量。

步骤216，将提取的所述特征向量确定为所述相关性数据中的共享数据，并将所述共享数据确定为迁移知识。

具体地，如上所述，提取所有生成的最小包含球中包含的所有特征向量后，必定包含重复的特性向量，将重复的特征向量去除，则剩余的特征向量是最大限度包含领域或任务1以及领域或任务2共同特征的特征向量点，将其确定为相关性数据的共享数据。

在本发明实施例中，通过获取至少两个基于不同分类任务的文本生数据；将所述基于不同分类任务的文本生数据进行分词，得到分词数据；将所述分词数据转化为预设维度的特征向量；通过所述预设维度的特征向量，将所述基于不同分类任务的文本生数据映射到预设维度的高维向量空间；在所述高维向量空间中，获取基于不同分类任务的所述特征向量的分类区域；获取各所述分类区域的交集区域；将所述交集区域中包含的所述特征向量，确定为基于不同分类任务的文本生数据的相关性数据；然后挖掘出所述相关性数据中的共享数据；将所述共享数据确定为迁移知识。实现了对文本生数据进行预处理后映射到高维空间，并挖掘出其中的共享数据作为迁移知识的目的，在整个过程中不依赖任何学习器，并且得到的迁移知识可以根据不同目标任务利用不同挖掘算法进行挖掘共享数据，可以适用于任何学习器。

实施例三

参照图3，示出了本发明的一种最小包含球共享数据确定方法实施例的步骤流程图，具体可以包括如下步骤：

步骤301，获取至少两个基于预设分类任务的数据集；

本实施例中，如果准备为某个分类任务/领域1来训练模型，获取任务/领域1里标记过的数据不足，那么在分类任务/领域2和3中存在与分类任务/领域1部分相同的资源数据，那么获取分类任务/领域2和3的对应的生数据，并进行预处理和分类，生成不同的数据集。

当然，任务/领域的数量不限，为了数据特征的饱满，可能获取多个分类任务/领域的数据集，本实施例不加以限制。

步骤302，获取所述数据集的交集的特征向量集；

具体地，将获取不同领域的生数据进行预处理，例如分词、向量化，将该数据集映射到向量空间，并获取对应向量空间中各数据集的交集数据，作为特征向量集进一步处理。

步骤303，将所述特征向量集中的任一特征向量确定为初始化特征向量；

具体地，在上述特征向量集中随机找到一个点作为初始化特征向量。

步骤304，以所述初始化特征向量所在位置点为初始球心，以第一预设值为初始半径，生成最小包含球；

具体地，将初始特征向量为球心，以第一预设值为初始半径，生成一个球体，为最小包含球。

步骤305，获取所述最小包含球中包含的特征向量数目；

具体地，获取上述生成的最小包含球中包含的特征向量点的数目。

步骤306，判断所述最小包含球中包含的特征向量数目与预设数目阈值之间的关系，如果所述最小包含球中包含的特征向量数目小于预设数目阈值，执行步骤307，如果所述最小包含球中包含的特征向量数目大于或等于预设数目阈值，执行步骤308。

具体地，判断上述数目是否超过预设数目阈值，例如，在一个特征向量集中总共有300个离散特征向量点，那么设置数目阈值为150，那么在第一次生成最小包含球中包含的特征向量点数目超过150个，就将该最小包含球中包含的特征向量确定为共享数据，可以用来作为目标任务的样本数据。

步骤307，将所述初始半径增大第二预设值，重新生成最小包含球。

具体地，根据上述描述，如果第一次生成的最小包含球中包含的特征向量点的数目小于150，那么就将最初设定为半径的值进行增大第二预设值，第二预设值也可以根据数据总量大小进行设置，如果第一次生成的最小包含球包含的特征向量点的数目远远小于150，那么就将第二预设值设置较大，否则较小，本发明实施例对此不加以限制。

步骤307A，判断所述最小包含球是否超过所述交集区域的边界，如果是，则执行步骤308，如果否，则执行步骤305。

具体地，根据上述增大生成的最小包含球后，进一步判断该最小包含球是否超过交集区域的边界线，如图2B(b)和2B(c)所示的，当任一交集区域中最小包含球超过的该区域边界线，则执行步骤213以及之后的步骤，重新随机选取一个特征向量点作为球心，以第一预设值为半径，生成最小包含球，如果新生成的最小包含球没有超过交集区域的编辑，则执行步骤305，获取最小包含球包含的特征向量数据，并继续执行步骤306的判断操作。

步骤308，在所述相关性数据中获取距离所述最小包含球最远的特征向量点；

步骤308A，根据所述最远的特征向量点与所述最小包含球包含的特征向量点，生成特征向量点集合；

步骤308B，根据所述特征向量点集合，确定第一球心和第一半径；

具体地，确定该特征向量点集合的球心和半径，为第一球心和第一半径。

步骤308C，基于所述第一球心和所述第一半径，重新生成最小包含球；

具体地，基于第一球心和第一半径重新生成一个球形区域。

步骤309，获取所述最小包含球的生成次数，判断所述生成次数是否超过预设次数阈值，如果是，则执行步骤310，如果否，则执行步骤305；

步骤310，停止生成最小包含球，并提取所有生成的所述最小包含球包含的特征向量。

具体地，在反复多次生成最小包含球以及变换位置生成最小包含球后，那么可以认为交集区域中所有的特征向量点已经最大限度的被全部包含在内。在某些特例中会可能有一些边界附近的特征向量点未被提取出；这表明这些点不具备共性特征或是共性特征比较低，为了计算效率考虑可以抛弃。

如上所述的方法，如果在一个交集区域中如上述所述的反复通过改变半径、重新选取球心等方式生成最小包含球的次数超过预设次数阈值，则停止生成最小包含球，并提取所有之前生成的最小包含球中包含的所以特征向量。

步骤311，将提取的所述特征向量确定为所述相关性数据中的共享数据。

上述具体实施方法由如下步骤描述：

(1)在任务1的数据空间中先随机初始化一个特征点,并分别以该特征点所在位置c0为球心，第一预值r0和半径，在高维空间中形成一个球形体空间包裹住一些高维空间中的任务1的特征点；

(2)这里设置一个阈值用于检测步骤(1)形成的球形体中是否有包裹住特征点，当连续初始化和扩大及缩小球形体若干次后还无法找到任何的特征点，则停止；

(3)找到距离球形体最远的特征点，形成新的特征点集合；

(4)使用步骤(3)得到的新特征点集合，利用最小包含球方法获得最新的球形体圆心cn+1和rn+1，并得到最新的最小包含球MEB(xn+1)，将n增加1并回到步骤(2)。

注：上面使用的c0为球心，r0为半径，n为最小包含球包含的特征点数量，MEB()表示使用最小包含球方法操作于n或n+1个特征点。

将任务1中挖掘出来可被和任务2共享的数据标注为任务2中在高维空间中对应的标签，并加入任务2的生数据中，以扩充针对任务2中具备特性的样本数据。

其中，以图2B(a)和图2B(b)所示为例，是两个不同的学习任务的数据分布，图2B(c)和图2B(d)是将数据映射到同一个高维空间中，就有个数据层的叠加，通过最小包含球可以进行从任务1至任务2的挖掘操作，最小包含球的特性是可伸缩、可扩展，取决于数据分类的区域和边界。以图2A(c)为例，数据空间被划分成了7个空间，随机生成最小包含球，并在每个区域空间里分别去进行挖掘和迁移共享知识的操作，如图2B(d)所示，classA(D)区域在里面初始化一个最小包含球，将任务A在A(D)区域中可以被最小包含球包含的数据(标签A)以class D的标签全部打到任务B，反复这个过程，直到在classA(D)区域中的最小包含球无法再包含数据为止。

其中，最小包含球的方法在用于多任务学习的二维合成数据集上，利用最小包含球进行多任务中的知识挖掘，将挖掘出的知识用于其它学习器的学习，从而达到学习器独立性的优势，因为不同的学习器有不一样的优势，但数据是可以共享的。

在本发明实施例中，通过获取至少两个基于预设分类任务的数据集，将数据集的交集转换为特征向量，映射到高维空间，并且通过生成最小包含球，以及最小包含球的伸缩，获取最小包含球中包含的特征向量，作为可共享数据。具备在最小包含球算法中根据预设条件添加伸缩特性的方法，获得特征数据中的共享数据的效果。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

实施例四

参照图4，示出了本发明的一种迁移知识确定装置实施例的结构框图，具体可以包括如下模块：

文本生数据获取模块401，用于获取至少两个基于不同分类任务的文本生数据；

高维向量空间映射模块402，用于将所述基于不同分类任务的文本生数据映射到预设维度的高维向量空间；

相关性数据获取模块403，用于在所述高维向量空间中，获取所述基于不同分类任务的文本生数据的相关性数据；

共享数据挖掘模块404，用于挖掘出所述相关性数据中的共享数据，并将所述共享数据确定为迁移知识。

在本发明实施例中，通过文本生数据获取模块，用于获取至少两个基于不同分类任务的文本生数据；高维向量空间映射模块，用于将所述基于不同分类任务的文本生数据映射到预设维度的高维向量空间；相关性数据获取模块，用于在所述高维向量空间中，获取所述基于不同分类任务的文本生数据的相关性数据；共享数据挖掘模块，用于挖掘出所述相关性数据中的共享数据，并将所述共享数据确定为迁移知识。具有不依赖任何学习器，从不同领域中基于分类任务的数据中获取迁移知识的有益效果。

实施例五

参照图5，示出了本发明的一种迁移知识确定装置实施例的结构框图，具体可以包括如下模块：

优选地，所述高维向量空间映射模块402，包括：

分词子模块，用于将所述基于不同分类任务的文本生数据进行分词，得到分词数据；

特征向量转换子模块，用于将所述分词数据转化为预设维度的特征向量；

高维向量空间映射子模块，用于通过所述预设维度的特征向量，将所述基于不同分类任务的文本生数据映射到预设维度的高维向量空间。

优选地，所述相关性数据获取模块403，包括：

分类区域获取子模块，用于在所述高维向量空间中，获取基于不同分类任务的所述特征向量的分类区域；

交集区域获取子模块，用于获取各所述分类区域的交集区域；

相关性数据确定子模块，用于将所述交集区域中包含的所述特征向量，确定为基于不同分类任务的文本生数据的相关性数据。

共享数据挖掘模块404，用于挖掘出所述相关性数据中的共享数据，并将所述共享数据确定为迁移知识

优选地，所述共享数据挖掘模块404，包括：

初始化特征向量确定子模块4041，用于将所述相关性数据中的任一所述特征向量确定为初始化特征向量；

最小包含球生成子模块4042，用于在所述交集区域的所述相关性数据中，以所述初始化特征向量所在位置点为初始球心，以第一预设值为初始半径，生成最小包含球；

特征向量数目获取子模块4043，用于获取所述最小包含球中包含的特征向量数目；

最远特征向量点子模块4044，用于所述特征向量数目大于或等于预设数目阈值，在所述相关性数据中获取距离所述最小包含球最远的特征向量点。

特征向量点集合生成子模块4045，用于根据所述最远的特征向量点与所述最小包含球包含的特征向量点，生成特征向量点集合；

球心半径确定子模块4046，用于根据所述特征向量点集合，确定第一球心和第一半径；

最小包含球重新生成子模块4047，用于基于所述第一球心和所述第一半径，重新生成最小包含球；

生成次数获取子模块4048，用于获取所述最小包含球的生成次数；

特征向量提取子模块4049，用于如果所述生成次数超过预设次数阈值，则停止生成最小包含球，并提取所有生成的所述最小包含球包含的特征向量；

共享数据确定子模块4050，用于将提取的所述特征向量确定为所述相关性数据中的共享数据.

优选地，所述共享数据挖掘模块404，还包括：

增大半径子模块，用于所述特征向量数目小于预设数目阈值，将所述初始半径增大，重新生成最小包含球。

判断子模块，用于判断所述最小包含球是否超过所述交集区域的边界，如果是，则执行在所述相关性数据中获取距离所述最小包含球最远的特征向量点的操作，如果否，则重新执行获取所述最小包含球中包含的特征向量数目的操作。

优选地，所述共享数据挖掘模块404，还包括：

第一重新获取数目子模块，用于如果所述生成次数未超过预设次数阈值，则重新执行获取所述最小包含球中包含的特征向量数目的操作。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本发明实施例还提供一种设备，包括：处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如上述的一个或多个所述的迁移知识确定方法。

本发明实施例还提供一种可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如所述的迁移知识确定方法。

综上所述，在本发明实施例中，通过文本生数据获取模块，用于获取至少两个基于不同分类任务的文本生数据；高维向量空间映射模块，用于将所述基于不同分类任务的文本生数据映射到预设维度的高维向量空间；相关性数据获取模块，用于在所述高维向量空间中，获取所述基于不同分类任务的文本生数据的相关性数据；初始化特征向量确定子模块，用于将所述相关性数据中的任一所述特征向量确定为初始化特征向量；最小包含球生成子模块，用于在所述交集区域的所述相关性数据中，以所述初始化特征向量所在位置点为初始球心，以第一预设值为初始半径，生成最小包含球；特征向量数目获取子模块，用于获取所述最小包含球中包含的特征向量数目；共享数据确定子模块，用于所述特征向量数目大于或等于预设数目阈值，在所述相关性数据中获取距离所述最小包含球最远的特征向量点并将所述共享数据确定为迁移知识，实现了对文本生数据进行预处理后映射到高维空间，并挖掘出其中的共享数据作为迁移知识的目的，在整个过程中不依赖任何学习器，并且得到的迁移知识可以根据不同目标任务利用不同挖掘算法进行挖掘共享数据，可以适用于任何学习器。其具有如下优点：

一.可快速获得同领域数据的优异迁移性；

二.迁移数据的灵活性和高可用性；

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种迁移知识确定方法和一种迁移知识确定装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种迁移知识确定方法，其特征在于，包括：

获取至少两个基于不同分类任务的文本生数据，所述文本生数据为没有经过任何数据处理的生数据；

将所述基于不同分类任务的文本生数据转化为预设维度的特征向量，并映射到预设维度的高维向量空间；

在所述高维向量空间中，获取所述预设维度的特征向量的交集区域，并根据所述交集区域确定所述基于不同分类任务的文本生数据的相关性数据；

通过最小包含球算法挖掘出所述相关性数据中的共享数据，并将所述共享数据确定为迁移知识；

其中，通过最小包含球算法挖掘出所述相关性数据中的共享数据，包括：

将所述相关性数据中的任一所述特征向量确定为初始化特征向量；

在所述交集区域的所述相关性数据中，以所述初始化特征向量所在位置点为初始球心，以第一预设值为初始半径，生成最小包含球；

获取所述最小包含球中包含的特征向量数目；

如果所述特征向量数目大于或等于预设数目阈值，则在所述相关性数据中获取距离所述最小包含球最远的特征向量点；根据所述最远的特征向量点与所述最小包含球包含的特征向量点，生成特征向量点集合；

根据所述特征向量点集合，确定第一球心和第一半径；基于所述第一球心和所述第一半径，重新生成最小包含球；

如果所述特征向量数目小于预设数目阈值，则将所述初始半径增大，重新生成最小包含球；

判断所述最小包含球是否超过所述交集区域的边界，如果是，则在所述相关性数据中获取距离所述最小包含球最远的特征向量点；根据所述最远的特征向量点与所述最小包含球包含的特征向量点，生成特征向量点集合；

如果否，则重新执行获取所述最小包含球中包含的特征向量数目的操作。

2.根据权利要求1所述的方法，其特征在于，所述将所述基于不同分类任务的文本生数据转化为预设维度的特征向量，并映射到预设维度的高维向量空间的步骤，包括：

将所述基于不同分类任务的文本生数据进行分词，得到分词数据；

将所述分词数据转化为所述预设维度的特征向量；

通过所述预设维度的特征向量，将所述基于不同分类任务的文本生数据映射到预设维度的高维向量空间。

3.根据权利要求2所述的方法，其特征在于，所述在所述高维向量空间中，获取所述预设维度的特征向量的交集区域，并根据所述交集区域确定所述基于不同分类任务的文本生数据的相关性数据的步骤，包括：

在所述高维向量空间中，获取基于不同分类任务的所述特征向量的分类区域；

获取各所述分类区域的交集区域；

将所述交集区域中包含的所述特征向量，确定为基于不同分类任务的文本生数据的相关性数据。

4.根据权利要求1所述的方法，还包括：

判断生成最小包含球的次数是否大于预设次数阈值，如果是则停止生成最小包含球，提取所有生成的所述最小包含球包含的特征向量，并执行将提取的所述特征向量确定为所述相关性数据中的共享数据，并将所述共享数据确定为迁移知识的操作；

如果否则执行获取所述最小包含球中包含的特征向量数目的操作。

5.一种迁移知识确定装置，其特征在于，包括：

文本生数据获取模块，用于获取至少两个基于不同分类任务的文本生数据，所述文本生数据为没有经过任何数据处理的生数据；

高维向量空间映射模块，用于将所述基于不同分类任务的文本生数据转化为预设维度的特征向量，并映射到预设维度的高维向量空间；

相关性数据获取模块，用于在所述高维向量空间中，获取所述预设维度的特征向量的交集区域，并根据所述交集区域确定所述基于不同分类任务的文本生数据的相关性数据；

共享数据挖掘模块，用于通过最小包含球算法挖掘出所述相关性数据中的共享数据，并将所述共享数据确定为迁移知识；

获取所述最小包含球中包含的特征向量数目；

6.一种设备，其特征在于，包括：

处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-4之任一项所述的迁移知识确定方法。

7.一种可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够实现如权利要求1-4之任一项所述的迁移知识确定方法。