CN109993191B

CN109993191B - 信息处理方法及装置、电子设备及存储介质

Info

Publication number: CN109993191B
Application number: CN201810003095.0A
Authority: CN
Inventors: 马丽秋
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Ltd Research Institute
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Ltd Research Institute
Priority date: 2018-01-02
Filing date: 2018-01-02
Publication date: 2021-07-06
Anticipated expiration: 2038-01-02
Also published as: CN109993191A

Abstract

本发明实施例公开了一种信息处理方法及装置、电子设备及存储介质。所述信息处理方法，包括：获取第一设备提供的第一数据及所述第一数据的数据标签；获取第一设备和第二设备在同一时间采集的第二数据；对所述第一数据和第二数据进行分类；根据分类的结果，将与所述第一数据的数据标签传递给与所述第一数据属于同一类的所述第二数据；基于所述第二数据及所述第二数据的数据标签，构建训练集；基于所述训练集训练识别模型。

Description

信息处理方法及装置、电子设备及存储介质

技术领域

本发明涉及电子技术领域，尤其涉及一种信息处理方法及装置、电子设备及存储介质。

背景技术

在现有技术中通常会利用机器学习进行模型训练，从而利用训练好的模型进行应用，例如，利用训练好的模型进行数据分类或数据打上对应的数据标签，设备基于分类或数据标签，执行对应的操作。例如，在穿戴式设备的应用场景中，穿戴式设备需要识别用户的动作。采集的用户动作的数据为输入数据，对动作的识别可视为动作的分类或数据标签的打标。在应用场景中，通常会有穿戴式设备的加入到识别场景中，也有旧的设备从识别场景中剔除。新设备加入需要重新获取训练数据进行模型训练。但是训练数据的获取，由于用户隐私和/或样本采集成本方面的问题，导致数据获取难度大，进而导致新设备的训练难度大。此外在训练的过程中，获取的样本数据可能庞杂，导致训练过程复杂，且训练好的识别模型的可信度低。

发明内容

有鉴于此，本发明实施例期望提供一种信息处理方法及装置、电子设备及存储介质，至少部分解决上述问题。

为达到上述目的，本发明的技术方案是这样实现的：

第一方面，本发明实施例提供一种信息处理方法，包括：

获取第一设备提供的第一数据及所述第一数据的数据标签；

获取第一设备和第二设备在同一时间采集的第二数据；

对所述第一数据和第二数据进行分类；

根据分类的结果，将与所述第一数据的数据标签传递给与所述第一数据属于同一类的所述第二数据；

基于所述第二数据及所述第二数据的数据标签，构建训练集；

基于所述训练集训练识别模型。

可选地，所述第一数据包括：X_S；

所述获取第一设备和第二设备在同一时间采集的第二数据，包括：

获取所述第二数据Y_T＝(Y_S，Y_T-S)，其中，Y_S为所述第一设备采集的数据；Y_T-S为所述第二设备采集的数据；

所述对所述第一数据和第二数据进行分类，包括：

利用分类算法对X_S和Y_S进行分类；

所述根据分类的结果，将与所述第一数据的数据标签传递给与所述第一数据属于同一类的所述第二数据，包括：

若Y_S和所述X_S的分类结果，为Y_T设置所述分类标签。

可选地，述所述第二数据为Y_T＝(Y_S，Y_T-S)，其中，Y_S为所述第一设备采集的数据；Y_T-S为所述第二设备采集的数据；

所述方法还包括：

根据同类数据间距离和/或异类数据间距离，计算所述Y_S的数据质量；其中，所述同类数据间距离为：一条数据与具有相同所述数据标签的其他数据之间的距离；所述异类数据间距离为：一条数据与具有不同所述数据标签的其他所述数据之间的距离；

根据所述数据质量，从Y_T中选择出Y_S满足第一预设条件的所述Y_T构建测试集；

所述基于所述第二数据及所述第二数据的数据标签，构建训练集，包括：

从所述测试集中选择数据构建所述训练集。

可选地，所述从所述测试集中选择数据构建所述训练集，包括：

根据同类数据间距离和/或异类数据间距离，计算所述测试集中Y_T的数据质量；

基于所述Y_T的数据质量，从所述测试集中选择出满足第二预设条件的数据构建所述训练集。

利用训练好的识别模型提供已生成标签数据的第三数据；

基于测试集中未被选中所述第二数据及所述第三数据，根据同类数据间距离和/或异类数据间距离；

根据所述同类数据间距离和/或所述异类数据间距离，计算所述测试集中的未被选中数据的数据质量；

根据所述数据质量，从所述训练集中满足所述第二预设条件且尚未用于训练识别模型的所述第二数据，构建所述训练集。

可选地，所述方法还包括：

利用完成训练的所述识别模型对新采集的数据识别，获得识别结果；

根据同类数据间距离和/或异类数据间距离，计算所述识别结果的数据质量；其中，所述同类数据间距离为：一条数据与具有相同所述数据标签的其他数据之间的距离；所述异类数据间距离为：一条数据与具有不同所述数据标签的其他所述数据之间的距离；

基于所述数据质量，确定所述识别结果的可信度。

可选地，所述方法还包括：

将所述数据质量低于特定阈值的识别结果对应的数据，归类为不可识别数据。

可选地，所述数据质量是根据Diff确定的，其中，所述Diff为一个数据与其距离最近的两类数据的平均距离差；其中，所述数据质量与所述Diff正相关；

或者，

所述数据质量是根据Q确定的，其中，所述Q为一个数据的同类数据间距离和异类数据间距离的差异度，其中，所述数据质量与所述Q正相关；

或者，

所述数据质量是根据所述Diff及所述Q确定的。

第二方面，本发明实施例提供一种信息处理方法，所述方法包括：

获取测试集，其中，所述测试集包括：数据及数据标签，所述数据标签用于指示对应数据的类别；

根据同类数据间距离和/或异类数据间距离，计算所述测试集中数据的数据质量；其中，所述同类数据间距离为：一条数据与具有相同所述数据标签的其他数据之间的距离；所述异类数据间距离为：一条数据与具有不同所述数据标签的其他所述数据之间的距离；

从所述测试集中选择出所述数据质量满足第一指定条件的数据构建训练集；

利用所述训练集训练识别模型。

可选地，所述方法还包括：

获取备选数据及所述备选数据对应的所述数据标签；

根据同类数据间距离和/或异类数据间距离，计算所述备选数据的数据质量；

从所述备选数据中选择出满足第二指定条件的数据构建所述测试集。

可选地，所述从所述测试集中选择出所述数据质量满足第一指定条件的数据构建训练，包括：

从所述测试集中选择出所述数据质量大于第n预设值的数据构建第n训练集；

从所述测试集中剩余数据中选择数据质量大于第n+1预设值的数据构建第n+1训练集；

所述利用所述训练集训练识别模型，包括：

依次利用第n训练集及第n+1训练集训练识别模型。

第三方面，本发明实施例提供一种信息处理装置，包括：

第一获取单元，用于获取第一设备提供的第一数据及所述第一数据的数据标签；

第二获取单元，用于获取第一设备和第二设备在同一时间采集的第二数据；

分类单元，用于对所述第一数据和第二数据进行分类；

传递单元，用于根据分类的结果，将与所述第一数据的数据标签传递给与所述第一数据属于同一类的所述第二数据；

构建单元，用于基于所述第二数据及所述第二数据的数据标签，构建训练集；

训练单元，用于基于所述训练集训练识别模型。

第四方面，本发明实施例提供一种信息处理装置，包括：

获取模块，用于获取测试集，其中，所述测试集包括：数据及数据标签，所述数据标签用于指示对应数据的类别；

计算模块，用于根据同类数据间距离和/或异类数据间距离，计算所述测试集中数据的数据质量；其中，所述同类数据间距离为：一条数据与具有相同所述数据标签的其他数据之间的距离；所述异类数据间距离为：一条数据与具有不同所述数据标签的其他所述数据之间的距离；

选择模块，用于从所述测试集中选择出所述数据质量满足第一指定条件的数据构建训练集；

训练模块，用于利用所述训练集训练识别模型。

第五方面，本发明实施例提供一种电子设备，包括：存储器、处理器及存储在所述存储器上并由所述处理器执行的计算机程序；

所述处理器，与所述存储器连接，用于通过执行所述计算机程序实现前述一个或多个技术方案提供的信息处理方法。

第六方面，本发明实施例提供一种计算机存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序被执行后，能够实现一个或多个技术方案提供的信息处理方法。

本发明实施例提供的信息处理方法及装置、电子设备及存储介质。

第一方面，利用第一设备提供的第一数据的数据标签传递给第一设备和第二设备同一时间采集的第二数据，来构建新识别场景下的识别模型的训练集，解决了现有技术中模型训练的样本数据获取难的问题，从而简化了识别模型的训练。

第二方面，在进行识别模型的训练时，先会基于同类数据间距离和/或异类数据间距离计算数据质量，选择数据质量高的数据构建训练集进行识别模型的训练，这样选择了可辨识度高的数据进行模型训练，从而解决了不区分异常数据和/或交界数据导致的模型训练收敛速度慢及训练效率低的问题，提升了识别模型的训练速度，并提升了训练得到的识别模型的识别能力。

附图说明

图1为本发明实施例提供的第一种信息处理方法的流程示意图；

图2为本发明实施例提供的第一种信息处理装置的结构示意图；

图3为本发明实施例提供的第二种信息处理方法的流程示意图；

图4为本发明实施例提供的第二种信息处理装置的结构示意图；

图5为本发明实施例提供的一种电子设备的结构示意图；

图6为本发明实施例提供的第三种信息处理方法的流程示意图。

具体实施方式

以下结合说明书附图及具体实施例对本发明的技术方案做进一步的详细阐述。

如图1所示，本实施例提供一种信息处理方法，包括：

步骤S110：获取第一设备提供的第一数据及所述第一数据的数据标签；

步骤S120：获取第一设备和第二设备在同一时间采集的第二数据；

步骤S130：对所述第一数据和第二数据进行分类；

步骤S140：根据分类的结果，将与所述第一数据的数据标签传递给与所述第一数据属于同一类的所述第二数据；

步骤S150：基于所述第二数据及所述第二数据的数据标签，构建训练集；

步骤S160：基于所述训练集训练识别模型。

在本实施例中所述信息处理方法，可为应用于对新设备进行识别模型训练的电子设备中，也可以是应用于需要进行识别模型训练的电子设备中，例如，穿戴式设备中。

所述识别模型，可为是基于神经网络的模型，也可以是基于学习机的模型、基于线性回归的模型、基于二叉树或多叉树的模型。

在本实施例中，先会后去第一设备提供给的第一数据，在本实施中，所述第一设备为已经具有给数据打上所述数据标签的旧设备。第二设备可为新加入到识别场景中的设备。所述第一设备和第二设备可为同一个用户的穿戴式设备，或者，应用于相同应用场景的设备。总之，所述第一设备和第二设备将会具有相同的应用场景。

在步骤S120中会获取第一设备和第二设备同一时间在同一个场景内采集的第二数据。将第一数据和第二数据进行混合后，采用分类算法进行数据分类。例如，采用邻近算法(k-Nearest Neighbor，KNN)、支持向量机算法(Support Vector Machine，SVM)或近似最邻近算法(ANN)等进行第一数据和第二数据的分类。这样的话，若某一个第二数据与第一数据A是同一类数据，则可以将第一数据A的数据标签复制给该第二数据，这样就实现了对一个第二数据的打标，即为该第二数据贴上数据标签。

这样可以将为所有的所述第二数据贴上标签。在完成所述第二数据的数据标签的确定之后，就可以基于第二数据及其对应的数据标签构建训练集，即将所述第二数据及其对应的数据标签作为识别模型的训练样本。所述第二数据作为训练样本中的输入，第二数据的数据标签对应的数据标签为训练样本中的输出。

在本实施例中，若所述第一设备和所述第二设备为采集用户动作的设备，则所述第一数据和所述第二数据包括：采集的用户的各种数据。例如，采集用户动作的线性速度、角速度、线性加速度及角度加速度等。设备采集的数据值构建了所述第一数据和/或所述第二数据。所述数据标签可为数据的分类的类型标签，或者，被识别为某一个动作的动作标签，或者，数据之间分类的分类标识等。例如，用户佩戴手环的晃手动作和抬手动作时，设备采集的加速度、角速度及速度中的一个或多个会呈现不同的数据特点。这两个动作是不同的动作，会被分配不同的数据标签。若第一数据和第二数据对应于用户的动作，则用户的不同动作对应于不同的数据标签。若第一数据和第二数据为用户操作手机界面的操作数据，则不同的操作数据对应于不同的数据标签。

一条所述第一数据为一个或多个第一设备同一时间采集的数据值组成；一条所述第二数据为：所述第一设备和第二设备同一时间采集的数据值组成。

在本实施例中获取训练集时不用用户参与提供，就能够自动获取，也不用从其他可能涉及用户隐私的数据库中获取，显然简便的获取了识别模型的训练集，解决了训练识别模型的样本数据难的问题，降低了新设备的识别模型或新应用场景下识别模型的训练难度大的问题，简化了识别模型的训练难度。

每一条所述第一数据可包括：一个或多个第一设备在同一时间采集的S个数据值，则该条所述第一数据可为包括S个元素的向量或数组，即该第一数据的数据维度为S。

每一条所述第二数据可包括：一个或多个所述第一设备及一个或多个第二设备在同一时间采集的T个数据值，则该条第二数据为包括T个元素的向量或数组。通常情况下，所述T是大于所述S。例如，一个第一设备采集从三个维度采集用户的动作，分别是三维坐标系上各轴上的线性加速度和角速度，则形成了6个维度的6个数据值。若当前增加了一个新设备，即该用户新佩戴了一个第二设备。该第二设备也可以采集三维坐标系上各轴的线性加速度和角速度，则第二设备也会形成6个维度的6个数据值。

一条所述第一数据为6个维度的向量或数组；而一条所述第二数据同时包括第一设备和第二设备同一时间采集的数据值，则为12维度的向量或数组。故在一些实施例中，所述第二数据的数据维度是大于所述第一数据的数据维度的。

但是在一些场景下，有旧设备退出识别场景，而有新的设备加入识别场景，则此时第一数据和第二数据的数据维度可能相等或第二数据的数据维度小于所述第一数据的数据维度。

可选地，所述第一数据包括：X_S；

所述步骤S120可包括：

获取所述第二数据Y_T＝(Y_S，Y_T-S)，其中，Y_S为所述第一设备采集的数据；Y_T-S为所述第二设备采集的数据；这里的Y_S为第一设备采集的数据，而Y_T-S为第二设备采集的数据。在步骤S130中进行分类时，利用分类算法对X_S和Y_S进行分类；若一条Y_S与一条数据标签为A的X_S属于同一类，则表示该Y_S的数据标签也为A的概率非常高。所述步骤S140可包括：若Y_S和所述X_S的分类结果，为Y_T设置所述分类标签。例如，将X_S的数据标签传递给Y_S与X_S是属于同一个类的Y_T。这样的话，就简单的实现了第二数据的初始打标，完成第二数据的第一个数据标签的确定。

可选地，所述方法还包括：

所述步骤S150可包括：从所述测试集中选择数据构建所述训练集。

例如，将一条数据视为一个向量，所述同类数据间距离可为具有相同数据标签的两条数据之间的距离，所述异类数据间距离为不同类数据标签的数据之间的距离。可选地，所述同类数据间距离：一条数据与其具有相同数据标签的所有数据之间的平均距离或距离中值。所述异类数据间距离可为：一条数据与其具有不同数据标签的所有数据之间的平均距离或距离中值。在本实施例中参与所述数据质量计算的异类数据间距离可为一条数据与其他类数据之间的最小距离，或者，与其他类数据之间的平均距离或者距离中值。

在本实施例中数据质量越高，则表示该数据的可辨识度越高，被精确识别为某一个数据标签的概率越高。

在本实施例中，先对第二数据的数据质量进行评价，得到出数据质量较高的数据构测试集。例如，选择数据质量高于第一阈值的数据构建所述测试集。

在步骤S150中可以选择全部的所述测试集构建所述训练集，也可以仅选择部分构建所述训练集。由于在本实施中，通过数据质量的计算，并通过基于数值质量的筛选，去除了第二数据中异常数据、不同类型之间的边界数据，从而使得在训练识别模型时，可以快速的进行收敛，从而加速识别模型的训练速度。

进一步地，所述步骤S150具体可包括：

在本实施例中将Y_T中各条数据进行同类数据间距离和/或异类数据间距离，从而计算得到Y_T的数据质量。在基于Y_T的数据质量的选择数据质量高的数据构建训练集。例如，选择Y_T的数据质量高于第二阈值的数据构建所述训练集。这样的话，通过进一步筛选，可以再次加速识别模型的训练。在本实施例中，所述第二阈值可以与所述第一阈值持平，在一些实施例中优选为所述第一阈值大于所述第二阈值。在第一阈值大于第二阈值的情况下，使得基于第一预设条件选择出的Y_T之间具有较高的可辨识度。

可选地，所述步骤S150可包括：

利用训练好的识别模型提供已生成标签数据的第三数据；这里的第三数据可为与前述第二数据具有相同的数据维度的数据。

在第一次从测试集中选择部分数据构建训练集时，选择数据质量最高的一拨第二数据进行训练，在本实施例中将第三数据和测试集中剩余的第二数据组合成一个新的可选集。而该第三数据可能与剩余的第二数据具有较高的相似性。故在本实施例中，通过重新的数据质量的计算，选择出部分可辨识度交低的第二数据构建训练集进行识别模型的继续训练。反复执行该步骤直到所有的测试集中的第二数据都用于了识别模型的训练。

在本实施例中这种识别模型的训练方式相当于，先利用可辨识度较高的训练集进行训练，并逐步将不同类数据标签的边界数据进行训练，从而逐步提升识别模型的识别能力。在训练的过程中，可以自行产生训练集所需的数据，从而无需从外部设备获取数据，在提升识别模型的识别能力(即确保识别模型的识别精确度)的同时，自行产生样本数据，降低了获取数据样本的难度，具有可实现性强的特点。

可选地，所述方法还包括：

基于所述数据质量，确定所述识别结果的可信度。

在本实施例中，利用训练完成的识别模型对新采集的数据进行识别，会给新采集的数据贴上数据标签。在本实施例中为了确保当前训练好的识别模型具有高精确率的识别结果，在本实施例中会对计算该识别结果对应的同类间距离和/或异类间距离，计算出该识别结果的数据质量，基于数据质量来判断该识别结果的可信度。

例如，在一些实施例中，将所述数据质量与特定阈值(即，第三阈值)比较，若该数据质量小于第三阈值，则可认为该识别结果不可信。若所述数据质量大于所述第三阈值，则可认为该识别结果可信。

又例如，在另一些实施例中，将所述数据质量输入到可信度值计算函数，计算出以所述数据质量为自变量，以计算因变量所述可信度值。在本实施例中，所述数据质量与所述可信度值呈现正相关，即所述数据质量越高，则所述可信度值越高。反之，所述数据质量越低，则所述可信度值月底。

在本实施例中，所述方法还包括：

为了防止后续将该识别结果作为后续的测试集或训练集，在本实施例中，若判断出该识别结果的数据质量过低，即可信度很低，直接将该数据归类为不可识别的数据，方便后续有新设备加入时对新识别场景的识别模型的训练，以确保后续训练出的识别模型同样具有高精确度，同时通过识别结果的评价，直接标记出不可以识别类型的数据，可以简化后续测试集和训练集中可辨识度高数据的筛选，加速新的识别模型的训练。

可选地，所述数据质量是根据Diff确定的，其中，所述Diff为一个数据与其距离最近的两类数据的平均距离差；其中，所述数据质量与所述Diff正相关。

一个数据被贴上数据标签之后，会归类为某一个数据类。Diff为一个数据与其距离最近的两类数据的平均距离差，若该平均距离差越大，则说明该数据与其中一类的数据靠的越近，与另一类数据的平均距离越远，说明该数据的可辨识度越高，即为本实施例中的数据质量越高。

可选地，所述数据质量是根据Q确定的，其中，所述Q为一个数据的同类数据间距离和异类数据间距离的差异度，其中，所述数据质量与所述Q正相关。Q越大表示该数据所在的类之间的距离和其与其他类的数据间的距离的差异越大，说明该数据的可辨识度越高。

在一些实施例中，所述数据质量是根据所述Diff及所述Q确定的。

计算所述Diff及Q的方式有多种，以下提供一种可选方式：

D_ij＝exp(x_i-x_j ²/2σ²)

q＝argmax_{j∈{1,...,n}}C_ij

Q_i＝exp(C_i-C_kmax ²/2σ²

kmax＝argmax_{kmax∈{1,...,n}}Diff_kmax

假设数据标记为n类，其中D_ij表示数据i和数据j之间的高斯距离，空间距离越近，高斯距离值越大。C_ik表示数据i与第k类数据间的高斯距离平均值，C_ik越大表示该数据i与第k类数据越接近，Diff_i表示数据i与其最接近的两类平均距离差，差值越大表示数据点更靠近某一类，其可分辨程度高；对应于前述Diff。C_kmax表示第k类数据中可分辨率最高点的分布情况，作为第k类的类特征，该特征表现了第k类数据点的聚集程度，以及与其他类之间的相似度，代表了整个类的可分辨程度。Q_i是数据i的异类数据间距离与该数据的同类数据间距离的差异度，Q_i越大该数据点越容易分辨，数据质量越高，对应于前述Q。用Q_i代替Diff_i可消除不同类别密度分布不均衡带来的影响。最后，Diff_i为负值，表示数据点与异类数据更近，Q_i较低，表示数据点处于两类空间交界处，这两类点都会对模型造成干扰，可提前从数据集中剔除。

在前述实施例中对识别结果进行评价，就可以基于所述Q，若Q小于第三阈值，就可以直接标记为不可识别类的数据，避免应用于后续新识别场景下识别模型的训练。

作为本发明实施例的进一步改进，所述方法还包括：

若有第一设备退出识别场景时，从所述第一数据中删除退出的第一设备的数据，构建第四数据；

利用所述第四数据重新所述识别模型。

这样即便有旧的设备退出，也可以自动完成新的识别模型的训练，维持识别模型的识别能力。

如图2所示，本实施例提供一种信息处理装置，包括：

第一获取单元110，用于获取第一设备提供的第一数据及所述第一数据的数据标签；

第二获取单元120，用于获取第一设备和第二设备在同一时间采集的第二数据；

分类单元130，用于对所述第一数据和第二数据进行分类；

传递单元140，用于根据分类的结果，将与所述第一数据的数据标签传递给与所述第一数据属于同一类的所述第二数据；

构建单元150，用于基于所述第二数据及所述第二数据的数据标签，构建训练集；

训练单元160，用于基于所述训练集训练识别模型。

在本实施例中，所述第一获取单元110、第二获取单元120、分类单元130、传递单元140、构建单元150及训练单元160都可对应于程序代码组成的程序模块。

在本实施例中，可以将程序存储在存储介质中，处理器从存储介质中读取所述程序代码(即读取所述程序模块)，并执行所述程序代码，就可以实现上述各个单元的功能，从而可以利用第一设备提供的第一数据完成新识别场景下的识别模型的训练，降低了新识别场景下训练数据的获取的问题。

可选地，所述第一数据包括：X_S。

所述第二获取单元120，用于获取所述第二数据Y_T＝(Y_S，Y_T-S)，其中，Y_S为所述第一设备采集的数据；Y_T-S为所述第二设备采集的数据；

所述分类单元130，可具体用于利用分类算法对X_S和Y_S进行分类；

所述传递单元140，用于若Y_S和所述X_S的分类结果，为Y_T设置所述分类标签。

所述装置还包括：

计算单元，用于根据同类数据间距离和/或异类数据间距离，计算所述Y_S的数据质量；其中，所述同类数据间距离为：一条数据与具有相同所述数据标签的其他数据之间的距离；所述异类数据间距离为：一条数据与具有不同所述数据标签的其他所述数据之间的距离；

选择单元，用于根据所述数据质量，从Y_T中选择出Y_S满足第一预设条件的所述Y_T构建测试集；

所述构建单元150，用于从所述测试集中选择数据构建所述训练集。

可选地，所述构建单元150，具体用于根据同类数据间距离和/或异类数据间距离，计算所述测试集中Y_T的数据质量；基于所述Y_T的数据质量，从所述测试集中选择出满足第二预设条件的数据构建所述训练集。

可选地，所述构建单元150，具体用于利用训练好的识别模型提供已生成标签数据的第三数据；基于测试集中未被选中所述第二数据及所述第三数据，根据同类数据间距离和/或异类数据间距离；根据所述同类数据间距离和/或所述异类数据间距离，计算所述测试集中的未被选中数据的数据质量；根据所述数据质量，从所述训练集中满足所述第二预设条件且尚未用于训练识别模型的所述第二数据，构建所述训练集。

进一步地，所述装置还包括：

识别单元，用于利用完成训练的所述识别模型对新采集的数据识别，获得识别结果；

计算单元，用于根据同类数据间距离和/或异类数据间距离，计算所述识别结果的数据质量；其中，所述同类数据间距离为：一条数据与具有相同所述数据标签的其他数据之间的距离；所述异类数据间距离为：一条数据与具有不同所述数据标签的其他所述数据之间的距离；

评价单元，用于基于所述数据质量，确定所述识别结果的可信度。

可选地，所述装置还包括：

标记单元，用于将所述数据质量低于特定阈值的识别结果对应的数据，归类为不可识别数据。其中，被标记为不可识别的数据，不用于后续数据集的构建，例如，测试集及训练集的构建。

或者，

所述数据质量是根据所述Diff及所述Q确定的。

如图3所示，本实施例提供一种信息处理方法，所述方法包括：

步骤S210：获取测试集，其中，所述测试集包括：数据及数据标签，所述数据标签用于指示对应数据的类别；

步骤S220：根据同类数据间距离和/或异类数据间距离，计算所述测试集中数据的数据质量；其中，所述同类数据间距离为：一条数据与具有相同所述数据标签的其他数据之间的距离；所述异类数据间距离为：一条数据与具有不同所述数据标签的其他所述数据之间的距离；

步骤S230：从所述测试集中选择出所述数据质量满足第一指定条件的数据构建训练集；

步骤S240：利用所述训练集训练识别模型。

在本实施例中先会获取测试集，该测试集中包括用于识别模型训练的样本数据。在本实施中，会先利用通过前述实施例中提供的方法，计算同类数据间距离及异类数据间距离，计算出数据质量。基于数据质量从测试集中选择出部分或全部数据进行识别模型的训练。

一方面，可以基于数据质量的筛选，从而可以优先选择出辨识度高的数据作为训练集来训练识别模型，这样可以加速识别模型的训练速度，从而提升训练模型的训练效率。

另一方面，通过基于数据质量的筛选，可以避免了异常数据或不同类之间的交界数据导致的模型训练效率低的问题，或者，训练出的识别模型的识别精确度低的问题。

所述方法还包括：

获取备选数据及所述备选数据对应的所述数据标签；

在本实施例中，在构建测试集时，先基于数据质量的计算先进行一次数据的筛选，进行第一次的筛选，以剔除异常数据和/或交界数据。

在本实施例中，所述数据质量越高，则表示该数据的类特征越明显，可辨识度越高。在本实施例中，所述第一指定条件可对应于前述的第一预设条件，即选择出数据质量大于第一阈值的数据构建所述训练集。所述第二指定条件可对应于前述第二预设条件，即选择出数据质量大于所述第二阈值的数据稿件所述测试集。

在本实施例中，为了加速识别模型的训练，会将满足所述第二指定条件的测试集中的数据，先选择出可辨识度较高的数据进行训练，然后再将可辨识度较低的数据作为输入数据继续训练，这样实现了模型训练过程中数据的可辨识度从高到低的训练。由于，先利用可辨识度高的数据进行训练，可以快速的二道识别模型的大部分的模型参数，然后将可辨识度低的数据作为样本数据进行训练，可以通过部分模型参数的调整就可以完成训练，这样数据可辨识度从高到低的模型训练方式，可以极大地提升训练效率。

所述步骤S230可包括：

所述步骤S240可包括：

依次利用第n训练集及第n+1训练集训练识别模型。

所述n和n+1均为正整数。

如图4所示，本实施例提供一种信息处理装置，包括：

获取模块210，用于获取测试集，其中，所述测试集包括：数据及数据标签，所述数据标签用于指示对应数据的类别；

计算模块220，用于根据同类数据间距离和/或异类数据间距离，计算所述测试集中数据的数据质量；其中，所述同类数据间距离为：一条数据与具有相同所述数据标签的其他数据之间的距离；所述异类数据间距离为：一条数据与具有不同所述数据标签的其他所述数据之间的距离；

选择模块230，用于从所述测试集中选择出所述数据质量满足第一指定条件的数据构建训练集；

训练模块240，用于利用所述训练集训练识别模型。

本实施例提供的获取模块210、计算模块220、选择模块230及训练模块240均可对应于程序模块，可以利用处理器对程序模块的执行，实现本实施例提供的信息处理装置中各个模块的功能。在本实施例中在进行模型训练之前，先通过数据质量的计算，从而可以选择出可辨识度高的数据进行模型训练，一方面可以提升模型的训练效率，另一方面可以剔除辨识度低的异常数据和/或交界数据导致的训练的模型的识别能力弱的问题。

可选地，所述装置还包括：

备选数据模块，还用于获取备选数据及所述备选数据对应的所述数据标签；

数据质量模块，还用于根据同类数据间距离和/或异类数据间距离，计算所述备选数据的数据质量；

测试集模块，还用于从所述备选数据中选择出满足第二指定条件的数据构建所述测试集。

可选地，所述构建模块，具体可用于从所述测试集中选择出所述数据质量大于第n预设值的数据构建第n训练集；从所述测试集中剩余数据中选择数据质量大于第n+1预设值的数据构建第n+1训练集；

所述训练模块240，具体用依次利用第n训练集及第n+1训练集训练识别模型。

如图5所示，本实施例还提供一种电子设备，包括：存储器310、处理器320及存储在所述存储器310上并由所述处理器320执行的计算机程序；

所述处理器320，与所述存储器310连接，用于通过执行所述计算机程序实现前述换一个或多个技术方案提供的信息处理方法。

所述存储器310可为包括各种类型存储介质的存储器310件，具体可为：随机存储器310、只读存储器310、闪存等；可选为非瞬间存储器310。

所述处理器320可为各种类型的处理器320，例如，中央处理器、微处理器、数字信号处理器、应用处理器、可变成阵列、专用集成电路等。所述处理器可通过集成电路等设备内总线与所述存储器连接，通过读取并执行存储器中的计算机程序，实现前述一个或多个技术方案提供的信息处理方法，例如，如图1和/或图2所示的方法。

该电子设备可包括图2或图4所示的信息处理装置。

本实施例还提供一种计算机存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序被执行后，能够实现前述一个或多个技术方案提供的信息处理方法，例如，如图1和/或图2所示的方法。

该计算机存储介质可为：移动存储设备、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质中的一种或多种的组合。所述计算机存储介质可选为非瞬间存储介质。

以下结合上述任意实施例提供一个具体示例：

本示例以穿戴式设备为前述第一设备和第二设备为例，对用户的动作进行数据，并对用户的动作进行识别为例进行说明。在穿戴式设备实际应用场景中，穿戴者经常会产生摘带设备及更换设备的行为，使场景中的穿戴式设备处于动态的变化过程中。

从数据采集角度，已有动作识别算法需要根据新场景下穿戴式设备重新获取训练样本，但是从用户隐私和训练样本采集成本方面，难以采集足够的样本以适应设备变动。

从算法适应性角度，已有动作识别算法通常在设计好后不会再发生变动，由传感器变化引发的特征空间变化会使模型立刻失效，不能自动适应动态的穿戴式设备场景。

从模型精度角度，已有动作识别算法在模型训练过程中未实现对训练集进行简化处理，使模型复杂度和训练时间随训练样本的复杂程度而升高。

此外，对于动作识别结果，已有动作识别算法没有设计出有效的评价方法，确定识别结果的可信度，规避动作识别错误所带来的决策风险。

本示例通过佩戴于人体不同位置的传感器采集动作中的加速度计、陀螺仪及磁力计数据，基于课程学习及迁移学习提出一种动态可穿戴设备场景下的动作识别算法，并对识别结果准确性进行评估，从而解决可穿戴式设备可能发生变化的问题并规避动作识别中可能出现的错误识别结果。

首先，本示例需要一组带动作标签的姿态数据作为训练样本，通过距离计算等来提取出每类动作的类特征，剔除异常数据和不同类数据之间的交界数据，使训练模型更加简单高效。这里的动作标签即为前述数据标签的一种。

其次，当有设备增加或有设备更换时，通过设备之间数据的共享可实现原有传感器将旧设备已经打标的数据传递给新加入的传感器，并通过识别模型的重新训练，利用新训练的识别模型提升新识别场景下的识别模型的识别能力，这种识别能力体现在识别精确率，可识别的动作的种类等。

再次，当有设备退出穿戴式场景时，剩下的设备利用现有数据仍能继续工作。

最后，根据采集数据的质量判断当前识别结果的可信度，规避识别结果错误造成的决策失误。

本示例中提到的方法意在利用传感器之间相互教授和学习能力，提升识别算法对使用场景的适应性，并通过对设备识别能力进行评估，避免可能出现的识别错误。

以下具体详细描述以下本示例提供的识别模型的训练和使用方法，包括：

S1：基于初始场景中的穿戴式设备采集相关动作数据，得到带有动作标签作为训练集，根据训练数据的质量对数据集进行质量评估，剔除异常数据，将带有质量评价的训练数据存储在计算资源中以进行模型训练。

S2：当有新的可穿戴式设备加入或替换到场景中，采集新设备与原场景中的设备共同记录的运动数据形成测试集，在一段时间内通过算法对测试集进行打标，从而形成新的训练集。此后根据该训练集重新构建动作识别模型，完成新穿戴式设备场景下的动作识别。

S3：当已有可穿戴式设备从场景中移除，更新训练集的数据组成，重新构建动作识别模型，完成新穿戴式场景下的动作识别。例如，在有旧设备移除之前，在识别场景中包括：设备1至设备N，若设备n移除了，则相应的移除训练集中设备n的数据，形成更新后的训练集。利用新形成的训练集进行识别模型的重新训练。

S4：根据训练集质量和采集数据的质量判断评估结果的可信度，对于可信度低的识别结果直接标记为无法识别，避免错误识别结果导致后续系统做出错误决策。

其中，在步骤S1中，本示例提出一种数据集质量评价方法，该方法是在类特征的概念下，对数据集中的逐条数据进行评估，剔出异常数据及边界数据。

类特征是指在特征空间下数据点聚集形成的类内关系及类间关系，通过计算每一个数据点与同类和异类数据点间的距离平均值，可以判断该点的可分辨性，即越靠近同类且越远离异类的数据更容易做出判断，每一类中可分辨性最高的点可以代表该类在空间分布上的类特征，其他点可根据与该点的类特征距离判断数据质量，其数学表达如下：

D_ij＝exp(x_i-x_j ²/2σ²)

q＝argmax_{j∈{1,...,n}}C_ij

Q_i＝exp(C_i-C_kmax ²/2σ²

kmax＝argmax_{kmax∈{1,...,n}}Diff_kmax

其中，在步骤S2中，本发明提出一种训练集自动更新方法，该方法是在课程学习的概念下，使用原有训练数据为新的训练数据打标，并在新数据空间中对标签进行调整。

课程学习是机器学习模仿人类的学习方式，从简单知识开始逐渐接受越来越复杂的概念。课程学习的优势在于有安排的知识引导可以减少算法为分辨较难的样本所花费的时间。另外，在参数空间中，课程学习可以指导参数向更快的方向收敛。

如图6所示，当有新穿戴设备加入到动作识别场景中，已有设备先选择一些易分辨的样本，对其打标并传给新设备，在新的数据空间中对这些带标签数据进行调整和数据质量评估，选取数据质量高的数据与原有设备的训练数据合并作为有标签数据，再从剩余无标签样本中进行选择，直到所有测试数据都打好标签。该测试集可称为新场景下的训练集。基于该算法的具体步骤如下：

1)记环境中未变动设备打标的动作数据为

对应的数据标签为

其中n为数据个数，S为数据维数，数据标签的取值为1,...,C，C为动作类别个数。

2)当有新设备加入或有设备更换后，共同记录一段时间内的无标签数据，记为

m为数据个数，T为数据维数，新数据的维度大于已打标数据维度，这里记

分别表示来自未变动设备及新设备的数据。

为第i条第二数据。

3)根据带有正确标签的X_s，从

中挑选更容易学习的数据，即数据质量较高的数据，评价方法与S1中相同，选取

的数据作为测试集，使用经典的分类方法(KNN，SVM，ANN等)为测试集数据打标，预测标签扩展到T维空间中。

4)在Y_T中，对打标数据重新评估数据质量，其中C_ik，Diff_i的计算均扩展到T维空间，且调整后的每一类数据质量最高值不高于训练集中对其评价的最高值，即预测可信度随着场景变动次数而降低，具体计算如下：

k＝argmax_k∈{1,..,n}Q_k

其中，Q_i是测试集在T维空间中，根据已有标签数据对数据进行评价，Q_i越大该数据点在新空间中越容易分辨，Q_k是测试集在原S维空间中，第k类有标签数据点中数据质量最大值，其他数据点的数据质量均不会超过该值。

5)从测试集中打好标签的数据中选取Q_i＞δ₂的高质量数据作为训练集，取前S维数据扩充原数据空间中的有标签样本，重复3)-5)步骤，直到测试集中不再有可选数据。如图6所示，先将已经完成数据标签确定的数据，和未打上数据标签的数据进行分类，基于分类的结果替新采集的数据贴上数据标签，然后进行数据质量的计算，选择出数据质量较高的数据作为识别模型的训练集进行模型训练。在图6中圆圈中的数值可理解为数据质量，数据质量可为0到1的取值。图6中灰色圆圈表示的前述的第一数据，显然在计算数据质量计算之后，进行训练集选择时，提出了数据质量仅有0.6及0.4的第二数据来构建训练集。

6)用测试集中带有标签的数据作为新穿戴式场景下的训练集，建立分类模型，对后续采集的传感器数据进行实时分类。

其中，在步骤S4中，与S1中所述方法一致，在新的传感器空间上对采集数据的质量进行评价，质量参数Q_i＜δ₃代表分类结果不确定，此时归类为不可识别类，防止识别后的系统做出错误决策。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理模块中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种信息处理方法，其特征在于，包括：

获取第一设备提供的第一数据及所述第一数据的数据标签；

获取第一设备和第二设备在同一时间采集的第二数据；

对所述第一数据和第二数据进行分类；

基于所述训练集训练识别模型。

2.根据权利要求1所述的方法，其特征在于，

所述第一数据包括：X_S；

所述对所述第一数据和第二数据进行分类，包括：

利用分类算法对X_S和Y_S进行分类；

若Y_S和所述X_S的分类结果相同，为Y_T设置所述数据标签。

3.根据权利要求1所述的方法，其特征在于，

所述第二数据为Y_T＝(Y_S，Y_T-S)，其中，Y_S为所述第一设备采集的数据；Y_T-S为所述第二设备采集的数据；

所述方法还包括：

从所述测试集中选择数据构建所述训练集。

4.根据权利要求3所述的方法，其特征在于，

所述从所述测试集中选择数据构建所述训练集，包括：

5.根据权利要求3所述的方法，其特征在于，

所述从所述测试集中选择数据构建所述训练集，包括：

利用训练好的识别模型提供已生成标签数据的第三数据；

基于测试集中未被选中所述第二数据及所述第三数据，根据所述同类数据间距离和/或所述异类数据间距离，计算所述测试集中的未被选中数据的数据质量；

根据所述数据质量，从所述训练集中满足第二预设条件且尚未用于训练识别模型的所述第二数据，构建所述训练集；

所述第三数据为与所述第二数据具有相同的数据维度的数据。

6.根据权利要求1所述的方法，其特征在于，

所述方法还包括：

基于所述数据质量，确定所述识别结果的可信度。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

8.根据权利要求3至6任一项所述的方法，其特征在于，

所述数据质量是根据Diff确定的，其中，所述Diff为一个数据与其距离最近的两类数据的平均距离差；其中，所述数据质量与所述Diff正相关；

或者，

所述数据质量是根据所述Diff及所述Q确定的。

9.一种信息处理方法，其特征在于，所述方法包括：

所述从所述测试集中选择出所述数据质量满足第一指定条件的数据构建训练集，包括：

依次利用第n训练集及第n+1训练集训练识别模型。

10.根据权利要求9所述的方法，其特征在于，所述方法还包括：

获取备选数据及所述备选数据对应的所述数据标签；

11.一种信息处理装置，其特征在于，包括：

分类单元，用于对所述第一数据和第二数据进行分类；

训练单元，用于基于所述训练集训练识别模型。

12.一种信息处理装置，其特征在于，包括：

所述选择模块，具体用于从所述测试集中选择出所述数据质量大于第n预设值的数据构建第n训练集；从所述测试集中剩余数据中选择数据质量大于第n+1预设值的数据构建第n+1训练集；

训练模块，用于依次利用第n训练集及第n+1训练集训练识别模型。

13.一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并由所述处理器执行的计算机程序；

所述处理器，与所述存储器连接，用于通过执行所述计算机程序实现权利要求1至8或9至10任一项提供的方法。

14.一种计算机存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序被执行后，能够实现权利要求1至8或9至10任一项提供的方法。