CN110377587B

CN110377587B - 基于机器学习的迁移数据确定方法、装置、设备及介质

Info

Publication number: CN110377587B
Application number: CN201910637116.9A
Authority: CN
Inventors: 魏颖; 黄俊洲
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-07-15
Filing date: 2019-07-15
Publication date: 2023-02-10
Anticipated expiration: 2039-07-15
Also published as: CN110377587A

Abstract

本发明公开了一种基于机器学习的迁移数据确定方法、装置、设备及介质，属于网络技术领域。包括：获取服务器分别向多个终端进行数据迁移的迁移过程数据；确定每个终端对应的个性化数据和每个终端的终端侧数据之间的相似度；基于相似度，确定多个终端的数据迁移性能指标；基于每个终端的数据迁移性能指标对待训练模型进行训练，获得迁移模型；响应于终端的迁移请求，基于迁移模型确定向终端迁移的数据。本发明通过获取服务器向多个终端进行数据迁移的迁移过程数据，基于机器学习对服务器侧的模型进行训练，获得针对于终端进行定制化的迁移模型，基于该迁移模型向终端高效迁移终端所需的数据，提高了迁移数据的准确性和效率，同时节省了大量人力。

Description

基于机器学习的迁移数据确定方法、装置、设备及介质

技术领域

本发明涉及网络技术领域，特别涉及一种基于机器学习的迁移数据确定方法、装置、计算机设备及存储介质。

背景技术

目前，在特定的应用场景下，比如智能客服应用场景，该智能客服能够基于终端侧已有的用户对话记录分析出用户的特征，比如用户的兴趣、习惯以及语言模式等，当智能客服在与用户进行对话时，使得智能客服能够以符合用户的特征的方式与用户进行交互，实现智能客服的个性定制化。但是，由于终端侧所积累的用户对话记录的数据量非常小，无法对该智能客服进行训练，也就导致了智能客服无法以符合用户的特征的方式与用户进行交互。

在这种背景下，为了解决上述问题，从服务器侧向终端迁移对应的数据对终端侧的模型进行训练的迁移技术应运而生，具体的，通过在服务器上将所有终端的终端侧数据进行匿名汇总之后，在服务器侧进行模型训练，获得多个通用模型，再通过人工匹配的方式，从多个通用模型中确定出符合终端需求的模型，再基于该模型向终端迁移相应的数据，以解决终端侧数据量小而无法实现智能客服训练的问题。

在实现本发明的过程中，发明人发现上述迁移技术至少存在以下问题：

由于在服务器侧所训练好的模型是基于大量终端所积累的终端侧数据进行训练的，因此，所训练出的通用模型无法与特定的终端完全适配，导致通过该通用模型向终端所迁移的数据并不精确，使终端侧基于该迁移的数据所训练出的模型达不到预期目标；另外，通过人工的方式确定出与终端相匹配的模型需要耗费了大量的人力，效率不高。

发明内容

本发明实施例提供了一种基于机器学习的迁移数据确定方法、装置、设备及介质，可以解决现有技术中模型与终端不适配所导致的迁移数据不准确以及人工确定匹配模型所导致的耗费大量人力以及效率不高的问题。该技术方案如下：

一方面，提供了一种基于机器学习的迁移数据确定方法，方法包括：

获取服务器分别向多个终端进行数据迁移的迁移过程数据，迁移过程数据包括被迁移的个性化数据以及每个终端的终端侧数据；

确定每个终端对应的个性化数据和每个终端的终端侧数据之间的相似度；

基于相似度，确定多个终端的数据迁移性能指标；

基于每个终端的数据迁移性能指标对待训练模型进行训练，获得迁移模型，迁移模型用于从服务器的通用数据中确定出待迁移的个性化数据；

响应于终端的迁移请求，基于迁移模型确定向终端迁移的数据。

在本发明的一个实施例中，上述确定每个终端对应的个性化数据和每个终端的终端侧数据之间的相似度包括：

对每个终端对应的个性化数据和每个终端的终端侧数据进行非线性变换；

确定每个终端的非线性变换后的个性化数据和终端侧数据之间的相似度。

在本发明的一个实施例中，上述确定每个终端的非线性变换后的个性化数据和终端侧数据之间的相似度包括：

确定每个终端的非线性变换后的个性化数据和终端侧数据之间共有特征对应的数据；

分别计算共有特征对应的数据的核距离、核距离的方差以及协方差；

将共有特征对应的数据之间的核距离、核距离的方差以及协方差的加权值确定为相似度。

在本发明的一个实施例中，上述分别计算共有特征对应的数据的核距离、核距离的方差以及协方差包括：

对共有特征对应的个性化数据与终端侧数据之间进行内积平方运算，获得共有特征对应的数据的核距离；

构建任意两个共有特征对应的个性化数据与终端侧数据之间核距离的方差矩阵；

将共有特征对应的数据的距离与核距离之间的差异值作为共有特征对应的数据的协方差。

在本发明的一个实施例中，上述构建任意两个共有特征对应的个性化数据与终端侧数据之间核距离的方差矩阵之后，还包括：

基于核距离的方差矩阵，将共有特征对应的数据中方差值大于预设阈值的个性化数据和终端侧数据进行补偿。

在本发明的一个实施例中，上述基于多个终端的数据迁移性能指标对待训练模型进行训练，获得迁移模型，迁移模型用于从服务器的通用数据中确定出待迁移的个性化数据，包括：

将每个终端的数据迁移性能指标与待训练模型中对应的待训练迁移参数进行差异比对，确定多个终端的数据迁移性能指标与待训练迁移参数之间的差异程度；

获取使每个差异程度最小化的迁移配置参数；

基于迁移配置参数配置待训练模型，获得迁移模型。

一方面，提供了一种基于机器学习的迁移数据确定装置，装置包括：

获取模块，用于获取服务器分别向多个终端进行数据迁移的迁移过程数据，迁移过程数据包括被迁移的个性化数据以及每个终端的终端侧数据；

相似度确定模块，用于确定每个终端对应的个性化数据和每个终端的终端侧数据之间的相似度；

迁移性能确定模块，用于基于相似度，确定多个终端的数据迁移性能指标；

模型训练模块，用于基于相似度，确定多个终端的数据迁移性能指标；

迁移数据确定模块，用于响应于终端的迁移请求，基于迁移模型确定向终端迁移的数据。

在本发明的一个实施例中，上述相似度确定模块用于：

在本发明的一个实施例中，上述相似度确定模块还用于：

在本发明的一个实施例中，上述迁移性能确定模块用于：

基于相似度所取值的大小，确定对应终端的数据迁移性能指标，相似度的取值越大其对应终端的数据迁移性能指标越高。

在本发明的一个实施例中，上述模型训练模块用于：

获取使每个差异程度最小化的迁移配置参数；

基于迁移配置参数配置待训练模型，获得迁移模型。

一方面，提供了一种计算机设备，计算机设备包括：处理器；用于存放程序代码的存储器；其中，处理器用于执行存储器上所存放的计算机程序，实现迁移数据确定方法中任一项的方法步骤。

一方面，提供了一种计算机可读存储介质，计算机可读存储介质内存储有程序代码，程序代码被处理器执行时实现迁移数据确定方法中任一项的方法步骤。

本发明实施例提供的技术方案带来的有益效果是：

本发明通过获取服务器向多个终端进行数据迁移的迁移过程数据，基于机器学习对服务器侧的模型进行训练，获得针对于终端进行定制化的迁移模型，基于该迁移模型向终端高效迁移终端所需的数据，提高了迁移数据的准确性和效率，同时节省了大量人力。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明一个示例性实施例提供的基于机器学习的数据迁移系统100的结构框图；

图2是本发明实施例提供的一种基于前N个终端的迁移过程数据实现向第N+1个终端迁移数据的示意图；

图3是本发明实施例提供的一种基于机器学习的迁移数据确定方法的流程图；

图4是本发明实施例提供的一种对每个终端的个性化数据和终端侧数据进行非线性投射的流程图；

图5是本发明实施例提供的一种计算共有特征对应的数据之间相似度的流程图；

图6是本发明实施例提供的一种计算共有特征对应的数据之间的核距离和核距离的方差的流程图；

图7是本发明实施例提供的一种获得迁移模型的流程图；

图8是本发明实施例提供的一种基于机器学习的迁移数据确定装置的结构示意图；

图9是本发明实施例提供的一种计算机设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

人工智能(AI，Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向，其中，机器学习(ML，Machine Learning)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及人工智能的基于机器学习的迁移数据确定等技术，具体通过如下实施例进行说明:

图1示出了本发明一个示例性实施例提供的基于机器学习的数据迁移系统100的结构框图。该数据迁移系统100包括：终端110和数据迁移平台140。

终端110通过无线网络或有线网络与数据迁移平台140相连。终端110可以是智能手机、游戏主机、台式计算机、平板电脑、电子书阅读器、MP3播放器、MP4播放器和膝上型便携计算机中的至少一种。终端110安装和运行有支持数据迁移的应用程序。该应用程序可以是支持云服务或云计算的应用程序。示意性的，终端110是第一用户使用的终端，终端110中运行的应用程序内登录有用户账号。

数据迁移平台140包括一台服务器、多台服务器、云计算平台和虚拟化中心中的至少一种。数据迁移平台140用于为支持数据迁移的应用程序提供后台服务。可选地，数据迁移平台140承担主要的数据处理工作，终端110承担次要的数据处理工作；或者，数据迁移平台140承担次要的数据处理工作，终端110承担主要的数据处理工作；或者，数据迁移平台140或终端110分别可以单独承担数据处理工作。

可选地，数据迁移平台140包括：接入服务器、数据迁移服务器和数据库。接入服务器用于提供终端110提供接入服务。数据迁移服务器用于提供与数据迁移有关的后台服务。数据迁移服务器可以是一台或多台。当数据迁移服务器是多台时，存在至少两台数据迁移服务器用于提供不同的服务，和/或，存在至少两台数据迁移服务器用于提供相同的服务，比如以负载均衡方式提供同一种服务，本申请实施例对此不加以限定。

终端110可以泛指多个终端中的一个，本实施例仅以终端110来举例说明。终端110的类型包括：智能手机、游戏主机、台式计算机、平板电脑、电子书阅读器、MP3播放器、MP4播放器和膝上型便携计算机中的至少一种。

本领域技术人员可以知晓，上述终端的数量可以更多或更少。比如上述终端可以仅为一个，或者上述终端为几十个或几百个，或者更多数量，此时上述数据迁移系统还包括其他终端。本申请实施例对终端的数量和设备类型不加以限定。

本发明实施例主要涉及迁移数据，该迁移数据可以是作为服务向终端用户提供并使用的数据，以智能客服场景为例，在云服务器确定出迁移模型，基于该迁移模型向终端迁移与该终端匹配的数据，结合终端的终端侧数据和迁移的数据，通过机器学习对终端的智能客服进行训练，从而实现针对各个用户的兴趣、习惯以及语言模式等定制出属于用户自己的智能客服，比如，当用户在终端上向智能客服发起对话后，智能客服以用户可能感兴趣的方式、符合当前用户习惯以及符合用户语言模式的方式与用户进行对话。

本发明涉及到的迁移数据存储在云服务器侧，针对于不同终端的需求，从云服务器侧中确定出对应的数据并向终端迁移，在云服务器侧基于已经向终端进行数据迁移的迁移过程数据进行分析，对云服务器上的模型进行训练，使训练后的模型能够针对特定终端迁移相应的数据，参照图2所示，获取已经向N个终端进行数据迁移的迁移过程数据，其中，N的取值范围为大于等于1的正整数，基于该N个迁移过程数据对云服务器的模型进行训练，最终，将训练后的模型应用至服务器向第N+1个终端进行数据迁移过程中。

在获取到服务器向多个终端进行数据迁移的迁移过程数据后，对所获取的迁移过程数据进行分析，确定出每个迁移过程数据的数据迁移性能指标，基于数据迁移性能指标数据对服务器中的待训练模型进行训练，获得迁移模型，通过该迁移模型从服务器侧的通用数据中确定出向目标终端迁移的数据，并响应于终端的迁移请求迁移该数据。图3是本发明实施例提供的一种基于机器学习的迁移数据确定方法的流程图。该方法可以应用于任一计算机设备，该计算机设备可以是服务器，参见图3，本发明实施例提供的方法流程包括：

301、计算机设备获取服务器分别向多个终端进行数据迁移的迁移过程数据，迁移过程数据包括被迁移的个性化数据以及每个终端的终端侧数据。

在本发明的一个实施例中，计算机设备从服务器侧获取多个终端的迁移过程数据，该迁移过程数据至少包括有两个部分，即从服务器侧的通用数据中被迁移的个性化数据和每个终端的终端侧数据，其中，被迁移的个性化数据可以是服务器侧的通用数据中与终端侧数据具有共同特征的数据，也即是，通用数据和终端侧数据中属于相同类别或相同属性等的数据，举例而言，在图片识别的应用场景中，将猫的图片迁移到狗的图片，那么猫的图片与狗的图片之间具有共同特征的数据为眼睛部位的图像数据、鼻子部位的图像数据等。

在本发明的一个实施例中，上述每个终端的终端侧数据可以是在终端上所积累的用户终端隐私数据，该用户终端隐私数据仅保存在对应的终端之上，并且在未得到用户的授权时不会被上传、下载以及分享。在智能客服的应用场景中，上述终端侧数据可以包括某个用户在该终端与智能客服的多条对话记录以及每条对话记录的状态标签，该标签用户指示对应对话记录的有效性。

需要说明的是，服务器可以在每个终端的迁移过程中记录终端的迁移过程数据，以便在后续的分析过程中基于已记录的数据为终端提供优化处理。

302、计算机设备确定每个终端对应的个性化数据和每个终端的终端侧数据之间的相似度。

在一种可能的实现方式中，在理想的数据迁移情况下，被迁移的个性化数据应当与终端侧数据之间具有共同特征的数据，因此，需要确定出迁移过程数据的迁移性能，即被迁移的个性化数据与终端侧数据之间的相似程度越高，则表明对应迁移过程数据的迁移性能越好，可以将这些数据作为后续模型训练的训练基础，对云服务器侧的迁移模型进行训练和优化。

在一种可能的实现方式中，个性化数据和终端侧数据的维度空间可能会较低，导致无法在当前维度空间内区分出每种特征的数据，也就无法计算具有共同特征的数据之间的相似度，因此，可以通过核函数将个性化数据和终端侧数据进行非线性变换，将个性化数据和终端侧数据投影至高维度空间，在高维度空间中，可以将个性化数据和终端侧数据中具有相同特征的数据确定出来，基于此可以计算出每个终端对应的个性化数据和每个终端的终端侧数据之间的相似度。

303、计算机设备基于相似度，确定多个终端的数据迁移性能指标。

在本发明的一个实施例中，基于步骤302中所获得的每个终端对应的个性化数据和每个终端的终端侧数据之间的相似度，可以确定出服务器分别向多个终端进行数据迁移的性能，计算出多个终端的数据迁移性能指标，基于该数据迁移性能指标即可对后续步骤的服务器的模型进行训练。

在一种可能的实现方式中，每个终端的数据迁移性能指标包括两部分：第一部分：非线性变换后个性化数据和终端侧数据之间的相似程度；第二部分：在非线性变换之前的个性化数据和终端侧数据的相似程度与在非线性变换之后的个性化数据和终端侧数据的相似程度是否发生变化；结合上述第一部分和第二部分的情况确定出每个终端的数据迁移性能指标。

在一种可能的实现方式中，可以构建一个用于指示数据迁移性能指标的函数，通过对该函数进行运算即可确定出每个终端的数据迁移性能指标，该函数可以通过个性化数据和终端侧数据。

304、计算机设备基于每个终端的数据迁移性能指标对待训练模型进行训练，获得迁移模型。

在本发明的一个实施例中，基于上述步骤303所确定出来的每个终端的数据迁移性能指标，通过有监督/无监督的机器学习方法对服务器侧现有的迁移模型进行优化，或者对一个未训练过的模型进行训练，使得通过训练后所获得迁移模型具备高性能的迁移逻辑，能够基于终端侧数据从服务器的通用数据中准确地确定出待迁移的个性化数据。

305、计算机设备响应于终端的迁移请求，基于迁移模型确定向终端迁移的数据。

在本发明的一个实施例中，通过步骤304中训练后的迁移模型中包含了多个已经训练好的神经网络层，将终端的终端侧数据输入至迁移模型中，通过多个已经训练好的神经网络层对终端侧数据进行分析，分析出终端的特征数据后与云服务器侧的通用数据中进行匹配，最终确定出向该终端迁移的数据，保证了所迁移的数据是该终端所需求的数据，从而实现针对于用户生成定制化的模型，满足用户的需求。

本发明基于服务器向多个终端进行数据迁移的迁移过程数据，对服务器侧的模型进行训练，获得针对于终端进行定制化的迁移模型，基于该迁移模型向终端高效迁移终端所需的数据，提高了迁移数据的准确率和效率，同时节省了大量人力。

在本发明的一个实施例中，对每个终端对应的个性化数据和每个终端的终端侧数据进行非线性变换，将该个性化数据和终端侧数据投影至高维度空间中，在该高维度空间中确定出性化数据和终端侧数据之间具有共同特征的数据，便于后续步骤进行相似度计算。图4是本发明实施例提供的一种对每个终端的个性化数据和终端侧数据进行非线性投射的流程图，参照图4，该方法包括以下步骤：

401、计算机设备对每个终端对应的个性化数据和每个终端的终端侧数据进行非线性变换。

在一种可能的实现方式中，通过核函数(Kernel Function)可以实现对个性化数据和终端侧数据的非线性变换，该核函数通过映射关系的内积实现数据的非线性变换，将个性化数据和终端侧数据映射至高维度空间后可以更容易进行聚类、分类等操作。

例如，假设X是输入空间(低维度空间)，H是特征空间(高维度空间)，存在一个函数φ使的X空间中的点x(比如个性化数据或终端侧数据中的一个数据)能够计算得到H空间中的点h，即h＝φ(x)，对于X中所有的点都成立。对于X空间中的点x和z，如果有函数k(x，z)能够使k(x,z)＝φ(x)·φ(z)成立，那么则称k()为核函数，其中，φ为映射函数，φ(x)·φ(z)为内积运算。

402、计算机设备确定每个终端的非线性变换后的个性化数据和终端侧数据之间的相似度。

在本发明的一个实施例中，在高维度空间后，非线性变换后的个性化数据和终端侧数据能够被很好的被区分出来，能够更精准的计算出个性化数据和终端侧数据之间的距离，从而基于该距离确定出个性化数据和终端侧数据之间的相似度。

在本发明的一个实施例中，为了使服务器侧的迁移模型向终端进行数据迁移的性能达到最优，因此，需要计算个性化数据和终端侧数据之间的相似程度，即被迁移的个性化数据与终端侧数据越相似，则表明服务器侧向终端迁移的数据越准确，其性能也越好。

在本发明的一个实施例中，获得非线性变换后的个性化数据和终端侧数据后，确定出个性化数据和终端侧数据之间共有特征对应的数据，计算共有特征对应的数据之间的相似度。图5是本发明实施例提供的一种计算共有特征对应的数据之间相似度的流程图，参照图5，该方法包括以下步骤：

501、计算机设备确定每个终端的非线性变换后的个性化数据和终端侧数据之间共有特征对应的数据。

在本发明的一个实施例中，可以通过个性化数据和终端侧数据中已经被标记后的的标签数据，确定出个性化数据和终端侧数据之间共有特征对应的数据，其中，数据的标签是指通过人为方式对数据做出的定义，比如标记出一张照片中包含的动物是牛还是马，或者标记出一段文字/音频数据中出现的词语等，计算具有共同特征的数据之间的相似度才具有一定的意义；针对于没有标签数据的个性化数据和终端侧数据，需要通过聚类算法对非线性变换后的个性化数据和终端侧数据进行聚类，确定出个性化数据和终端侧数据之间具有相同特征的数据，在实际应用中，可以通过排外性聚类(Exclusive Clustering)算法、模糊集合聚类(Overlapping Clustering)算法、迭代聚类(Hierarchical Clustering)算法、概率判别聚类(Probabilistic Clustering)算法等聚类算法实现上述对非线性变换后的个性化数据和终端侧数据进行聚类，本发明实施例对此不作限制。

502、计算机设备分别计算共有特征对应的数据的核距离、核距离的方差以及协方差。

在本发明的一个实施例中，分别计算个性化数据与终端侧数据共有特征对应的数据之间的核距离，该核距离可以基于上述步骤401中对个性化数据和终端侧数据进行非线性变换的核函数计算获得，即将个性化数据和终端侧数据映射到高维度空间后，计算共有特征的一组个性化数据与终端侧数据之间的距离，即核距离；由于服务器在收集每个终端的匿名化个性化数据时所使用的计量尺度与终端所积累终端侧数据时所使用到的数据计量尺度可能会存在差异，因此，还需计算出核距离的方差，以保证个性化数据与终端侧数据以及对应的核距离在相同的计量尺度内。

在本发明的一个实施例中，个性化数据与终端侧数据之间的相似度还可以采用共有特征的终端侧数据的可判别程度进行衡量，具体的，该可判别程度是指任意两个在原维度空间上相似(不相似)的终端侧数据在非线性变换后的维度空间上是否仍然相似(不相似)，也即是，是否仍然能够被判别开来，具体可以通过计算共有特征对应的数据的协方差来表示该可判别程度。

503、计算机设备将共有特征对应的数据之间的核距离、核距离的方差以及协方差的加权值确定为相似度。

在本发明的一个实施例中，按照预设权重规则，对计算获得的共有特征对应的数据之间的核距离、核距离的方差以及协方差分别赋予对应的权重后，将加权值确定为相似度。

例如，上述相似度可以通过下述公式(1)中的f进行表示：

其中，β^T表示核函数中的变量β的转置矩阵，T表示矩阵的转置，e表示第e个终端，d_e表示第e个终端的个性化数据与终端侧数据之间核距离，λ、μ、b表示权重系数，Q_e表示第e个终端的个性化数据与终端侧数据之间核距离的方差，τ_e表示第e个终端的个性化数据与终端侧数据之间核距离的协方差。

在本发明的一个实施例中，个性化数据和终端侧数据之间共有特征对应的数据的相似度可以通过计算有特征对应的数据在目标维度内之间的距离，通过距离表示任意两个数据之间的相似程度。图6是本发明实施例提供的一种计算共有特征对应的数据之间的核距离和核距离的方差的流程图，参照图6，该方法包括以下步骤：

601、计算机设备对共有特征对应的个性化数据与终端侧数据之间进行内积平方运算，获得共有特征对应的数据的核距离。

例如，可以通过公式(2)计算共有特征对应的数据的核距离d_e：

其中，x^s W_e表示第e个终端的个性化数据与终端侧数据之间共有特征对应的个性化数据，

表示第e个终端的个性化数据与终端侧数据之间共有特征对应的终端侧数据，W_e用于指示共有特征，n^s和

分别表示第e个终端的个性化数据与终端侧数据之间共有特征对应的个性化数据和终端侧数据的数量，S用于指示服务器侧的通用数据，t用于指示终端侧数据，H用于指示共有特征的数据，φ_β表示以β为变量的核函数。

602、计算机设备构建任意两个共有特征对应的个性化数据与终端侧数据之间核距离的方差矩阵。

例如，可以通过公式(3)表示核距离的方差矩阵Q_e：

其中，cov(d_N,d_N)表示第N个共有特征对应的个性化数据与终端侧数据之间核距离与第N个共有特征对应的个性化数据与终端侧数据之间核距离之间的方差。

603、计算机设备将共有特征对应的数据的距离与核距离之间的差异值作为共有特征对应的数据的协方差。

例如，可以通过公式(4)表示共有特征对应的数据的协方差τ_e：

其中，

其中，tr()表示矩阵中共有特征对应数据的协方差矩阵的特征值的和，

表示共有特征的数据矩阵的转置矩阵，W_e表示共有特征的数据矩阵；公式(5)

表示局部分散协方差矩阵，

表示第e个终端的个性化数据与终端侧数据之间共有特征对应的个性化数据和终端侧数据的数量，

表示第e个终端的终端侧数据矩阵，

表示与第e个终端的终端侧数据相邻的终端侧数据矩阵，T表示矩阵的转置，t用于指示终端侧数据，H_jj′用于指示数据之间的近邻信息，即如果第j个数据和第j’的数据点互为K最近邻，那么

否则，H_jj′＝0；而公式(6)

表示非局部分散协方差矩阵，x^sW_e表示第e个终端的个性化数据与终端侧数据之间共有特征对应的个性化数据，

表示第e个终端的个性化数据与终端侧数据之间共有特征对应的终端侧数据，W_e用于指示共有特征，

表示第e个终端的个性化数据与终端侧数据之间共有特征对应的个性化数据和终端侧数据的数量，其中，局部分散协方差矩阵

和非局部分散协方差矩阵

均以核函数φ_β为参数。

在本发明的一个实施例中，基于相似度所取值的大小，确定对应终端的数据迁移性能指标，比如，相似度的取值越大其对应终端的数据迁移性能指标越高，相对应的迁移模型的性能也会更好。

在一种可能的实现方式中，计算机设备基于核距离的方差矩阵，将共有特征对应的数据中差异过大的个性化数据与终端侧数据进行补偿，具体的基于上述公式(3)中任意两个核距离之间的方差，确定方差超出预设阈值的核距离所对应共有特征的个性化数据与终端侧数据，基于相同的计量尺度对这两个个性化数据与终端侧数据进行补偿，使个性化数据与终端侧数据的能够保持一致。

在本发明的一个实施例中，在计算出每个终端的数据迁移性能指标后，就可以对待训练模型进行训练，获得迁移模型。图7是本发明实施例提供的一种获得迁移模型的流程图，参照图7，该方法包括以下步骤：

701、计算机设备将每个终端的数据迁移性能指标与待训练模型中对应的待训练迁移参数进行差异比对，确定多个终端的数据迁移性能指标与待训练迁移参数之间的差异程度。

在本发明的一个实施例中，从每个终端的数据迁移性能指标中获取每种数据所对应迁移参数的指标数据，其中，迁移参数的指标数据指示了如何向对应终端迁移与该终端的终端侧数据最相似的数据，可以将该每种数据的数据迁移性能指标与迁移模型中相对应数据类型的迁移参数进行比对，确定出每种数据的数据迁移性能指标与每种数据的待训练迁移参数之间的差异程度，以便于后续基于该差异程度，优化待训练模型中的每种数据的待训练迁移参数。

702、计算机设备对每个差异程度进行最小化，获得对应的迁移配置参数。

例如，从之前获得的N个迁移过程数据对服务器中的待训练模型进行训练，在一种可能实现方式中，通过上述公式(1)-(4)将待训练的模型构建成以下公式(5)，通过对该公式(5)所表示的多个终端的数据迁移性能指标与待训练迁移参数之间的差异程度进行最小化，以获得最优的迁移配置参数，实现对待训练模型进行训练，获得迁移模型：

其中，其中，L_h()代表回归损失函数，用于衡量函数内各项之间的拟合程度，γR(β,λ,μ,b)代表迁移配置参数，β^T表示核函数中的变量β的转置矩阵，T表示矩阵的转置，e表示第e个终端，d_e表示第e个终端的个性化数据与终端侧数据之间核距离，λ、μ、b、γ表示权重系数，Q_e表示第e个终端的个性化数据与终端侧数据之间核距离的方差，τ_e表示第e个终端的个性化数据与终端侧数据之间核距离的协方差，γR(β,λ,μ,b)用于指示迁移配置参数。

对于上述公式(5)，每对应一个β值，就对应一个相应的核函数φ_β；因此，求对多个终端的数据迁移性能指标与待训练迁移参数之间的差异程度进行最小化等价于求解向量β，其余三组参数λ^*,μ^*,b均为各项的平衡权重，所获得的解即为迁移配置参数。

703、计算机设备将迁移配置参数向待训练模型中对应的待训练参数进行配置，获得迁移模型。

在本发明的一个实施例，一个通过机器学习而被训练好的迁移模型可以被认为存储了迁移学习技巧，即对什么样的用户终端数据，应该从服务器端迁移什么样的知识。

在一种可能的实现方式中，当接收到第N+1个终端的迁移请求后，从迁移请求中获取该终端的终端侧数据，基于该迁移模型就可以确定出向该终端迁移的数据。

在一种可能的实现方式中，通过最大化迁移模型的性能，来确定可迁移知识，具体的，对上述公式(5)中的终端侧数据替换为第N+1个终端的终端侧数据，获得迁移模型

公式(6)：

其中，N+1指示第N+1个终端，(β^*)^T表示以训练好的核函数中的变量β^*的转置矩阵，T表示矩阵的转置，e表示第e个终端，d_e表示第e个终端的个性化数据与终端侧数据之间核距离，λ^*、μ^*、b、γ表示训练好的权重系数，Q_e表示第e个终端的个性化数据与终端侧数据之间核距离的方差，τ_e表示第e个终端的个性化数据与终端侧数据之间核距离的协方差，

表示基于训练好的权重系统γ对第N+1个终端的终端侧数据与服务器中通用数据进行相似度运算，F用于指示使用公式(1)计算相似度。

对公式(6)进行求解，只需要将用户终端数据替换为第N+1个终端的终端侧数据，即可确定向该第N+1个终端迁移的数据

本发明通过获取服务器向多个终端进行数据迁移的迁移过程数据，基于机器学习对服务器侧的模型进行训练，获得针对于终端进行定制化的迁移模型，基于该迁移模型向终端迁移终端所需的数据，一方面，通过从服务器端训练好的模型迁移数据，可以实现针对用户的终端侧数据对服务于终端的模型进行定制化；另一方面，无需任何人工干预和设定，服务器侧的迁移模型可以基于已向终端进行数据迁移的迁移过程数据进行自动进行学习，可以使迁移模型的性能最大化，这样一来，提高了迁移数据的准确性和效率，同时节省了大量人力。

上述所有可选技术方案，可以采用任意结合形成本发明的可选实施例，在此不再一一赘述。

图8是本发明实施例提供的一种基于机器学习的迁移数据确定装置的结构示意图，参见图8，该装置包括：

获取模块801，用于获取服务器分别向多个终端进行数据迁移的迁移过程数据，迁移过程数据包括被迁移的个性化数据以及每个终端的终端侧数据；

相似度确定模块802，用于确定每个终端对应的个性化数据和每个终端的终端侧数据之间的相似度；

迁移性能确定模块803，用于基于相似度，确定多个终端的数据迁移性能指标；

模型训练模块804，用于基于相似度，确定多个终端的数据迁移性能指标；

迁移数据确定模块805，用于响应于终端的迁移请求，基于迁移模型确定向终端迁移的数据。

在本发明的一个实施例中，上述相似度确定模块802用于：

在本发明的一个实施例中，上述相似度确定模块802还用于：

在本发明的一个实施例中，上述相似度确定模块802用于：

确定每个终端的非线性变换前的个性化数据和每个终端的终端侧数据之间的核距离；

将共有特征对应的数据的核距离与每个终端的非线性变换前的个性化数据和每个终端的终端侧数据之间的核距离之间的差异值作为共有特征对应的数据的协方差。

在本发明的一个实施例中，上述模型训练模块804用于：

获取使每个差异程度最小化的迁移配置参数；

基于迁移配置参数配置待训练模型，获得迁移模型。

本发明基于服务器向多个终端进行数据迁移的迁移过程数据，对服务器侧的模型进行训练，获得针对于终端进行定制化的迁移模型，基于该迁移模型向终端迁移终端所需的数据，一方面，通过从服务器端训练好的模型迁移数据，可以实现针对用户的终端侧数据对服务于终端的模型进行定制化；另一方面，无需任何人工干预和设定，服务器侧的迁移模型可以基于已向终端进行数据迁移的迁移过程数据进行自动进行学习，可以使迁移模型的性能最大化，这样一来，提高了迁移数据的准确性和效率，同时节省了大量人力。

需要说明的是：上述实施例提供的迁移数据确定装置在向终端迁移数据时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的迁移数据确定装置与迁移数据确定方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图9是本发明实施例提供的一种计算机设备的结构示意图，该计算机设备900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(centralprocessing units，CPU)901和一个或一个以上的存储器902，其中，该存储器902中存储有至少一条指令，该至少一条指令由该处理器901加载并执行以实现上述各个方法实施例提供的迁移数据确定方法。当然，该计算机设备还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该计算机设备还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成上述各个实施例中的迁移数据确定方法。例如，该计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

上述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于机器学习的迁移数据确定方法，其特征在于，包括：

获取服务器分别向多个终端进行数据迁移的迁移过程数据，所述迁移过程数据包括被迁移的个性化数据以及每个终端的终端侧数据；

对所述每个终端对应的个性化数据和所述每个终端的终端侧数据进行非线性变换；

通过非线性变换后的所述个性化数据和所述终端侧数据中已经被标记后的标签数据，确定非线性变换后的所述个性化数据和所述终端侧数据之间共有特征对应的数据；针对于没有标签数据的所述个性化数据和所述终端侧数据，通过聚类算法对非线性变换后的所述个性化数据和所述终端侧数据进行聚类，确定出所述非线性变换后的所述个性化数据和所述终端侧数据之间共有特征对应的数据；

根据所述共有特征对应的数据，确定所述非线性变换后的所述个性化数据和所述终端侧数据之间的相似度；

基于所述相似度和在非线性变换之前的所述个性化数据和所述终端侧数据的相似程度与在非线性变换之后的所述个性化数据和所述终端侧数据的相似程度是否发生变化，确定多个终端的数据迁移性能指标；

基于所述每个终端的数据迁移性能指标对待训练模型进行训练，获得迁移模型，所述迁移模型用于从所述服务器的通用数据中确定出待迁移的个性化数据；

响应于终端的迁移请求，基于所述迁移模型确定向所述终端迁移的数据。

2.根据权利要求1所述的方法，其特征在于，所述根据所述共有特征对应的数据，确定所述非线性变换后的所述个性化数据和所述终端侧数据之间的相似度包括：

分别计算所述共有特征对应的数据的核距离、核距离的方差以及协方差；

将所述共有特征对应的数据之间的核距离、核距离的方差以及协方差的加权值确定为所述相似度。

3.根据权利要求2所述的方法，其特征在于，所述分别计算所述共有特征对应的数据的核距离、核距离的方差以及协方差包括：

对所述共有特征对应的个性化数据与终端侧数据之间进行内积平方运算，获得所述共有特征对应的数据的核距离；

将所述共有特征对应的数据的距离与所述核距离之间的差异值作为所述共有特征对应的数据的协方差。

4.根据权利要求3所述的方法，其特征在于，所述构建任意两个共有特征对应的个性化数据与终端侧数据之间核距离的方差矩阵之后，还包括：

基于所述核距离的方差矩阵，将所述共有特征对应的数据中方差值大于预设阈值的个性化数据和终端侧数据进行补偿。

5.根据权利要求1所述的方法，其特征在于，所述基于所述每个终端的数据迁移性能指标对待训练模型进行训练，获得迁移模型，所述迁移模型用于从所述服务器的通用数据中确定出待迁移的个性化数据，包括：

将所述每个终端的数据迁移性能指标与所述待训练模型中对应的待训练迁移参数进行差异比对，确定所述多个终端的数据迁移性能指标与所述待训练迁移参数之间的差异程度；

获取使每个差异程度最小化的迁移配置参数；

基于所述迁移配置参数配置所述待训练模型，获得所述迁移模型。

6.一种基于机器学习的迁移数据确定装置，其特征在于，包括：

获取模块，用于获取服务器分别向多个终端进行数据迁移的迁移过程数据，所述迁移过程数据包括被迁移的个性化数据以及每个终端的终端侧数据；

相似度确定模块，用于对所述每个终端对应的个性化数据和所述每个终端的终端侧数据进行非线性变换；通过非线性变换后的所述个性化数据和所述终端侧数据中已经被标记后的标签数据，确定非线性变换后的所述个性化数据和所述终端侧数据之间共有特征对应的数据；针对于没有标签数据的所述个性化数据和所述终端侧数据，通过聚类算法对非线性变换后的所述个性化数据和所述终端侧数据进行聚类，确定出所述非线性变换后的所述个性化数据和所述终端侧数据之间共有特征对应的数据；根据所述共有特征对应的数据，确定所述非线性变换后的所述个性化数据和所述终端侧数据之间的相似度；

迁移性能确定模块，用于基于所述相似度和在非线性变换之前的所述个性化数据和所述终端侧数据的相似程度与在非线性变换之后的所述个性化数据和所述终端侧数据的相似程度是否发生变化，确定多个终端的数据迁移性能指标；

模型训练模块，用于基于所述每个终端的数据迁移性能指标对待训练模型进行训练，获得迁移模型，所述迁移模型用于从所述服务器的通用数据中确定出待迁移的个性化数据；

迁移数据确定模块，用于响应于终端的迁移请求，基于所述迁移模型确定向所述终端迁移的数据。

7.根据权利要求6所述的迁移数据确定装置，其特征在于，所述模型训练模块用于：

获取使每个差异程度最小化的迁移配置参数；

8.一种计算机设备，其特征在于，包括：

处理器；

用于存放计算机程序的存储器；

其中，所述处理器用于执行所述存储器上所存放的程序代码，实现权利要求1-5任一项所述的方法步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有程序代码，所述程序代码被处理器执行时实现权利要求1-5任一项所述的方法步骤。