CN112884040A

CN112884040A - 训练样本数据的优化方法、系统、存储介质及电子设备

Info

Publication number: CN112884040A
Application number: CN202110195825.3A
Authority: CN
Inventors: 王昭
Original assignee: Beijing Xiaomi Pinecone Electronic Co Ltd
Current assignee: Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date: 2021-02-19
Filing date: 2021-02-19
Publication date: 2021-06-01
Anticipated expiration: 2041-02-19
Also published as: CN112884040B

Abstract

本公开涉及一种训练样本数据的优化方法、系统、存储介质及电子设备，涉及人工智能技术领域，该优化方法包括：获取待优化训练集；对所述待优化训练集中的样本数据进行降维处理，得到处理后的坐标数据；对所述坐标数据进行筛选，得到筛选后的坐标数据；根据所述筛选后的坐标数据优化所述待优化训练集。本公开的有益效果：利用降维处理，可以对待优化训练集中的正样本数据和负样本数据进行可视化分析，通过可视化分析可以针对性对待优化训练集中的样本数据进行增加或删除，从而针对性去除待优化训练集中的“脏”数据、或“异常”数据，使得根据优化后的训练集对神经网络模型进行训练能够提高神经网络模型的识别准确率。

Description

训练样本数据的优化方法、系统、存储介质及电子设备

技术领域

本公开涉及人工智能技术领域，尤其涉及一种训练样本数据的优化方法、系统、存储介质及电子设备。

背景技术

现有的模型训练往往是基于大量的训练样本数据进行的，例如，根据历史数据以及对应的结果生成至少包含正负两种样本的样本集，进而利用样本集训练特定的模型。一般来说，模型的准确度与训练样本直接相关，如果训练样本中存在过多的“脏”数据、或“异常”数据、或训练样本不平衡，会直接影响模型训练的效果，使得模型的预测结果出现偏差。

发明内容

为克服相关技术中存在的问题，本公开提供一种训练样本数据的优化方法、系统、存储介质及电子设备。

根据本公开实施例的第一方面，提供一种训练样本数据的优化方法，包括：

获取待优化训练集；

对所述待优化训练集中的样本数据进行降维处理，得到处理后的坐标数据；

对所述坐标数据进行筛选，得到筛选后的坐标数据；

根据所述筛选后的坐标数据优化所述待优化训练集。

在一些实施例中，所述对所述待优化训练集中的样本数据进行降维处理，得到处理后的坐标数据，包括：

将所述待优化训练集中的样本数据输入预训练模型，得到每个所述样本数据对应类型的概率分布信息；

针对每个所述样本数据对应的概率分布信息，对所述概率分布信息进行降维处理，得到该概率分布信息对应的坐标数据。

在一些实施例中，所述待优化训练集中的样本数据包括正样本数据以及负样本数据；

所述对所述坐标数据进行筛选，得到筛选后的坐标数据，包括：

基于得到的各个所述样本数据的坐标数据，确定所述正样本数据与所述负样本数据之间的分界线；

确定各个所述样本数据的坐标数据与所述分界线之间的距离；

根据所述距离，对所述坐标数据进行筛选，得到筛选后的坐标数据。

在一些实施例中，所述根据所述距离，对所述坐标数据进行筛选，得到筛选后的坐标数据，包括：

根据所述距离，获取所述待优化训练集中与所述分界线的距离满足预设条件的坐标数据，得到筛选后的坐标数据；

其中，所述预设条件为所述正样本数据对应的坐标数据与所述分界线的距离小于第一预设距离阈值，和/或，所述负样本数据对应的坐标数据与所述分界线的距离大于第二预设距离阈值，所述第一预设距离阈值小于所述第二预设距离阈值；

所述根据所述筛选后的坐标数据优化所述待优化训练集，包括：

将满足所述预设条件的坐标数据对应的样本数据从所述待优化训练集中筛除。

根据所述距离，获取所述待优化训练集中的第一样本数据以及第二样本数据对应的坐标数据，其中，所述第一样本数据包括与所述分界线的距离小于第三预设距离阈值的负样本数据，所述第二样本数据包括与所述分界线的距离大于第四预设距离阈值的正样本数据，所述第三预设距离阈值小于所述第四预设距离阈值；

获取新添加的样本数据；

确定所述新添加的样本数据、所述第一样本数据及所述第二样本数据的样本特征信息；

统计所述第一样本数据出现频率最多的第一样本特征信息、以及所述第二样本数据中出现频率最多的第二样本特征信息；

在所述新添加的样本数据对应的所述样本特征信息与所述第一样本特征信息或所述第二样本特征信息的相似度达到预设相似度阈值的情况下，将所述新添加的样本数据添加到所述待优化训练集中。

在一些实施例中，当所述样本数据为音频类的样本数据时，所述样本特征信息包括梅尔谱特征、短时平均过零率、样本数据中的有声部分占比、以及样本数据中的无声部分占比中的至少一种。

根据本公开实施例的第二方面，提供一种训练样本数据的优化系统，包括：

获取模块，配置为获取待优化训练集；

降维模块，配置为对所述待优化训练集中的样本数据进行降维处理，得到处理后的坐标数据；

筛选模块，配置为对所述坐标数据进行筛选，得到筛选后的坐标数据；

优化模块，配置为根据所述筛选后的坐标数据优化所述待优化训练集。

在一些实施例中，所述降维模块包括：

提取单元，配置为将所述待优化训练集中的样本数据输入预训练模型，得到每个所述样本数据对应类型的概率分布信息；

降维单元，配置为针对每个所述样本数据对应的概率分布信息，对所述概率分布信息进行降维处理，得到该概率分布信息对应的坐标数据。

根据本公开实施例的第三方面，提供一种计算机可读存储介质，其上存储有计算机程序指令，该程序指令被处理器执行时实现本公开第一方面所提供的训练样本数据的优化方法的步骤，或实现本公开第二方面所提供的神经网络模型训练方法的步骤。

根据本公开实施例的第四方面，提供一种电子设备，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以本公开第一方面所提供的训练样本数据的优化方法的步骤，或实现本公开第二方面所提供的神经网络模型训练方法的步骤。

本公开的实施例提供的技术方案可以包括以下有益效果：利用降维处理，可以对待优化训练集中的正样本数据和负样本数据进行可视化分析，通过可视化分析可以针对性对待优化训练集中的样本数据进行增加或删除，从而针对性去除待优化训练集中的“脏”数据、或“异常”数据，如此，根据优化后的训练集对神经网络模型进行训练能够提高神经网络模型的识别准确率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种训练样本数据的优化方法的流程图；

图2是根据一示例性实施例示出的对样本数据进行降维处理的流程示意图；

图3是根据一示例性实施例示出的一种神经网络模型的结构示意图；

图4是根据一示例性实施例示出的经UMAP算法降维得到的坐标数据的分布示意图；

图5是根据一示例性实施例示出的对坐标数据进行筛选的流程示意图；

图6是根据一示例性实施例示出的经支持向量机分类后的分界线分布位置的示意图；

图7是根据一示例性实施例示出的构建支持向量机的流程图；

图8是根据一示例性实施例示出的一种训练样本数据的优化系统的结构示意图；

图9是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种训练样本数据的优化方法的流程图。如图1所示，该方法可以应用于电子设备中，包括以下步骤。

在步骤S11中，获取待优化训练集。

这里，待优化训练集中可以包括多个样本数据，其中，该样本数据可以为同种类型的数据，可以是图像样本、声音样本、文字样本类型的数据。例如，在对图像类的神经网络模型进行训练时，获取的待优化训练集中的样本数据为图像类样本，在对声学类的神经网络模型进行训练时，获取的待优化训练集中的样本数据为声音类样本。

在步骤S12中，对所述待优化训练集中的样本数据进行降维处理，得到处理后的坐标数据。

这里，在机器学习和深度学习中的降维处理是指采用某种映射方法，将原高维空间中的数据点映射到低维度的空间中。降维的本质是学习一个映射函数，如f:x->y，其中，x是原始数据点的表达，y是数据点映射后的低维向量表达，通常y的维度小于x的维度，f可以是显式的或隐式的、线性的或非线性的。通过对样本数据进行降维处理，得到低维度的坐标数据，不仅可以对样本数据进行可视化分析，而且还能够有效地分析样本数据的有效信息和摒弃无用信息。

在步骤S13中，对所述坐标数据进行筛选，得到筛选后的坐标数据。

这里，在得到样本数据的坐标数据之后，可以根据该坐标数据对待优化训练集中的样本数据进行可视化分析，从而筛选出不平衡的样本数据。例如，对于二分类样本，可以根据坐标数据对二分类样本中的正样本数据、负样本数据进行分析，从而筛选出神经网络模型容易识别的样本数据对应的坐标数据。

在步骤S14中，根据所述筛选后的坐标数据优化所述待优化训练集。

这里，筛选后的坐标数据可以是属于不平衡的样本数据、“脏”数据或“异常”数据的坐标数据，相应地，根据筛选后的坐标数据优化待优化训练集可以是将筛选后的坐标数据对应的样本数据从待优化训练集中进行筛除。筛选后的坐标数据也可以是属于易于被神经网络模型混淆的困难样本数据，相应地，根据筛选后的坐标数据优化待优化训练集可以是在新添加的样本数据准备加入待优化训练集时，可以将新添加的样本数据与困难样本数据进行特征比对，从而判断困难样本数据是否属于易于被神经网络模型混淆的困难样本数据，以确定是否将该新添加的样本数据添加进该待优化训练集中。

由此，通过对待优化训练集中的样本数据进行降维处理，得到该样本数据的坐标数据这一低维表达，可以对待优化训练集中的样本数据进行可视化分析，通过可视化分析可以针对性对待优化训练集中的样本数据进行增加或删除，从而针对性去除待优化训练集中的“脏”数据、或“异常”数据，或者是向待优化训练集中添加合适的新的样本数据。

图2是根据一示例性实施例示出的对样本数据进行降维处理的流程示意图。如图2所示，在一些可实现的实施方式中，步骤S12中，对所述待优化训练集中的样本数据进行降维处理，得到处理后的坐标数据，可以包括：步骤S121至步骤S122。

在步骤S121中，将所述待优化训练集中的样本数据输入预训练模型，得到每个所述样本数据对应类型的概率分布信息。

这里，预训练模型可以是初步训练过的神经网络模型，如经过一次或多次训练的神经网络模型。在获取到待优化训练集之后，将待优化训练集中的样本数据输入该预训练模型中，从而在该预训练模型的输出层中提取样本数据对应类型的概率分布信息。其中，概率分布信息是指样本数据属于各个类别的概率。比如，对于图像识别网络，将图片输入图像识别网络，概率分布信息就是图像识别网络的输出层的结果，即该图片属于各个类别的图像的概率。对于声音事件检测任务中的事件分类网络，概率分布信息则是指声音属于各个类别的声音的概率。

图3是根据一示例性实施例示出的一种神经网络模型的结构示意图。如图3所示，样本数据输入神经网络模型之后，在输出层会计算出样本数据属于各个类别的概率，再根据各个类别的概率确定样本数据的所属类别。本公开提出的概率分布信息即可以是从输出层中提取到的结果，该概率分布信息作为一个标签信息，用于反映样本数据的样本属性。

在步骤S122中，针对每个所述样本数据对应的概率分布信息，对所述概率分布信息进行降维处理，得到该概率分布信息对应的坐标数据。

这里，针对每个概率分布信息，可以通过UMAP算法对该概率分布信息进行降维处理，从而得到对应的坐标数据。其中，UMAP算法是建立在黎曼几何和代数拓扑理论框架上的一种降维流形学习技术，其构建过程包括：构建模糊拓扑表示，简单地优化算法的低维表示，使其具有尽可能接近的模糊拓扑表示，并用交叉熵来度量。

图4是根据一示例性实施例示出的经UMAP算法降维得到的坐标数据的分布示意图。如图4所示，样本数据的概率分布信息作为UMAP算法的输入，得到如图4所示的正样本数据和负样本数据的坐标数据分布的二维投影图像。

在本公开中，通过利用UMAP算法将高维度的概率分布信息降维成低维度的坐标数据，可以保留样本数据更多的全局结构，而且UMAP算法具有优越的运行性能以及更好的可扩展性。应当理解的是，除了UMAP算法外，也可以利用其它降维算法进行降维处理，例如，ISOMap算法、LE算法、LLE算法等。

在一个可实现的实施方式中，待优化训练集中的样本数据包括正样本数据和负样本数据，例如，对于图像类的待优化训练集，其正样本数据可以是患病人群的图像，其负样本数据可以是健康人群的图像。

图5是根据一示例性实施例示出的对坐标数据进行筛选的流程示意图。如图5所示，步骤S13中，对所述坐标数据进行筛选，得到筛选后的坐标数据，包括：步骤S131至步骤S133。

在步骤S131中，基于得到的各个所述样本数据的坐标数据，确定所述正样本数据与所述负样本数据之间的分界线。

这里，分界线是指在正样本数据与负样本数据之间形成的类与类之间的分割线。在对各个样本数据进行降维处理之后，得到的正样本数据、负样本数据的低维表达是坐标数据，该坐标数据可以表示为：(x，y)。因此，通过各个样本数据的坐标数据，可以计算得到正样本数据与负样本数据之间的分界线。其中，该分界线可以表达为：y＝ax+b，其中，a、b为常数。

具体地，可以将各个所述样本数据的坐标数据作为训练好的支持向量机的输入，获得所述正样本数据与所述负样本数据之间的分界线。

这里，支持向量机(SVM)是一类按监督学习方式对数据进行二元分类的广义线性分类器，其决策边界是对学习样本求解的最大边距超平面。在获得各个样本数据的坐标数据之后，将该坐标数据作为训练好的支持向量机的输入，支持向量机计算得到正样本数据与负样本数据之间的分界线y＝ax+b、以及各个坐标数据对应的支持向量。图6是根据一示例性实施例示出的经支持向量机分类后的分界线分布位置的示意图，如图6所示，基于该分界线和支持向量可以在坐标系中绘制坐标数据的分布位置以及分界线的分布位置，从而实现对样本数据的可视化分析。

接下来，请参照图7，图7是根据一示例性实施例示出的构建支持向量机的流程图。如图7所示，在执行步骤S131之前，可以预先构建支持向量机，即还需包括以下步骤：

S101，构建支持向量机的网络架构；

S102，根据序列最小优化算法对所述支持向量机的参数变量进行优化，得到优化后的支持向量机；

S103，根据训练样本对所述优化后的支持向量机进行机器学习训练，得到训练好的支持向量机，其中，所述训练样本包括多个历史样本数据的坐标数据。

这里，SVM的优化目标实际是要计算出一组最优的alpha和常数项b的值，而序列最小优化算法(SMO)就是每次选出两个alpha进行优化，然后固定其他的alpha值，直到达到设定的终止条件程序退出并得到需要的优化结果。因此，可以利用SMO算法对SVM进行优化。

其中，训练样本包括多个历史样本数据的坐标数据。该历史样本数据可以是历史训练集中的样本数据，该样本数据经过提取概率分布信息，再将概率分布信息进行数据降维，得到历史样本数据的坐标数据，从而获得用于训练支持向量机的训练样本。进而利用该训练样本训练经过SMO优化过的SVM，得到训练好的支持向量机。

在步骤S132中，确定各个所述样本数据的坐标数据与所述分界线之间的距离。

这里，样本数据的坐标数据与该分界线的距离可以是指样本数据的坐标数据与该分界线的垂直距离。该距离反映了样本数据的属性，比如，距离该分界线较近的正样本数据、以及距离该分界线较远的负样本数据是易于被神经网络模型区分的简单样本数据。而距离该分界线较近的负样本数据、以及距离该分界线较远的正样本数据是容易被神经网络模型混淆的困难样本数据。

在步骤S133中，根据所述距离，对所述坐标数据进行筛选，得到筛选后的坐标数据。

这里，根据各个样本数据的坐标数据与该分界线的距离，可以根据该距离明确易于被神经网络模型区分的样本数据以及容易被神经网络模型混淆的困难样本的来源及分布，从而对待优化训练集中的样本数据进行优化，得到优化后的训练集。

值得说明的是，优化后的训练集可以用于对神经网络模型进行训练，即可以根据优化后的训练集对预训练模型进行训练，也可以对一个全新的与该训练集同类型的神经网络模型进行训练。

由此，根据各个样本数据的坐标数据确定出正样本数据与负样本数据之间的分界线，并计算各个坐标数据与该分界线之间的距离，从而根据该距离来对待优化训练集中的样本数据进行优化，能够针对性去除待优化训练集中的“脏”数据、或“异常”数据。

在一些可实现的实施方式中，步骤S133中，根据所述距离，对所述坐标数据进行筛选，得到筛选后的坐标数据，包括：

步骤S14中，根据所述筛选后的坐标数据优化所述待优化训练集，包括：

这里，满足预设条件的坐标数据是指与所述分界线的距离小于第一预设距离阈值的坐标数据，和/或与所述分界线的距离大于第二预设距离阈值的坐标数据。该满足预设条件的坐标数据对应的正样本数据和/或负样本数据是指神经网络模型易于区分的简单样本数据。在神经网络模型的训练中，如果使用过多的简单样本数据，会影响神经网络模型的训练效果。通过将待优化训练集中预设条件的坐标数据对应的样本数据进行筛除，可以将待优化训练集中的简单样本数据进行剔除，得到优化后的训练集，使用优化后的训练集进行模型训练可以提高神经网络模型的识别准确率。

其中，第一预设距离阈值表达的是正样本数据距离分界线较近，如正样本数据的坐标数据分布在靠近分界线的位置，第二预设距离阈值表达的是负样本数据距离分界线较远，如负样本数据的坐标数据分布在远离分界线的位置。

应当理解的是，第一预设距离阈值、以及第二预设距离阈值可以根据实际情况进行确定。该第一预设距离阈值、第二预设距离阈值可以是一个距离数字，如第一预设距离阈值为2，第二预设距离阈值为17。该第一预设距离阈值、第二预设距离阈值也可以是一个距离范围区间，例如，第一预设距离阈值可以取值为[0，2]，第二预设距离阈值可以取值为[17，+∞]。

获取新添加的样本数据；

这里，根据样本数据对应的坐标数据与分界线的距离，在待优化训练集中确定出第一样本数据以及第二样本数据对应的坐标数据。其中，第一样本数据、第二样本数据是指容易被神经网络模型混淆的困难样本数据。该第三预设距离阈值表达的是负样本数据距离分界线较近，如负样本数据的坐标数据分布在靠近分界线的位置，第四预设距离阈值表达的是正样本数据距离分界线较远，如正样本数据的坐标数据分布在远离分界线的位置。

应当理解的是，第三预设距离阈值、以及第四预设距离阈值可以根据实际情况进行确定，且该第三预设距离阈值可以与第一预设距离阈值一致，第四预设距离阈值可以与第二预设距离阈值一致。

在向待优化训练集中添加新的样本数据时，将新添加的样本数据的样本特征信息与所述第一样本特征信息或所述第二样本特征信息进行相似度比较，在新添加的样本数据对应的所述样本特征信息与所述第一样本特征信息或所述第二样本特征信息的相似度达到预设相似度阈值的情况下，确定将所述新添加的样本数据添加到所述待优化训练集中，得到优化后的训练集。

其中，第一样本特征信息是指第一样本数据出现频率最多的样本特征信息，第二样本特征信息是指第二样本数据出现频率最多的样本特征信息，该样本特征信息用于表征样本数据的属性特征。例如，当所述样本数据为音频类的样本数据时，所述样本特征信息包括梅尔(mel)谱特征、短时平均过零率、样本数据中的有声部分占比、以及样本数据中的无声部分占比中的至少一种。对于梅尔谱特征，可以利用librosa工具包从样本数据中进行提取。

应当理解的是，本公开提及的样本数据并不局限于音频类的样本数据。当待优化训练集用于训练图像类的神经网络模型时，该待优化训练集中的样本数据可以为图像类的样本数据，则图像类的样本数据的样本特征信息可以包括图像金字塔信息、亮度、色彩、纹理中的至少一种。

因此，在统计第一样本特征信息、第二样本特征信息时，可以分别统计第一样本数据和第二样本数据出现频率最多的样本特征信息，从而确定到第一样本数据和第二样本数据的在样本特征上的关联。其中，当样本特征信息包括多个时，分别统计每个样本特征信息对应的出现频率最多的样本特征信息。例如，当样本特征信息包括梅尔谱特征以及短时平均过零率时，分别统计第一样本数据和第二样本数据在梅尔谱特征上出现频率最多的波形，以及统计第一样本数据和第二样本数据在短时平均过零率上出现频率最多的数值区间。

进而，将新添加的样本数据的样本特征信息与第一样本特征信息或第二样本特征信息进行相似度比较。其中，新添加的样本数据要与其类别一致的第一样本数据出现频率最多的第一样本特征信息或第二样本数据出现频率最多的第二样本特征信息进行相似度计算。例如，当新添加的样本数据为正样本数据，该新添加的样本数据在添加至待优化训练集前，提取该新添加的样本数据的样本特征信息，并将该样本特征信息与第二样本数据出现频率最多的第二样本特征信息进行相似度比较，以判断是否达到预设相似度阈值。当新添加的样本数据为负样本数据，该新添加的样本数据在添加至待优化训练集前，提取该新添加的样本数据的样本特征信息，并将该样本特征信息与第一样本数据出现频率最多的第一样本特征信息进行相似度比较，以判断是否达到预设相似度阈值。当新添加的样本数据的样本特征信息与第一样本特征信息或与第二样本特征信息之间的相似度达到预设相似度阈值时，说明新添加的样本数据与第一样本数据或第二样本数据在样本特征信息上相似，该新添加的样本数据也为易于被神经网络模型混淆的困难样本数据。因此，将该新添加的样本数据添加至待优化训练集中，以利用该新添加的样本数据对神经网络模型进行训练，提高神经网络模型的识别准确率。

应当理解的是，当新添加的样本数据的样本特征信息与第一样本特征信息或与第二样本特征信息之间的相似度未达到预设相似度阈值时，说明新添加的样本数据与第一样本数据或第二样本数据在样本特征信息上不相似，则可以不将该新添加的样本数据添加进待优化训练集中。

下面，通过一个示例来对上述实施方式进行详细说明。

对于用于优化声音事件检测任务中的事件分类网络，在事件分类网络的训练过程中，进行一次或多次的训练之后，事件分类网络的分类准确率上升幅度会趋于平稳。

为了进一步提高事件分类网络的指标，在下一次训练开始时，将包括多个声音样本的待优化训练集中的样本数据输入该事件分类网络，进而从事件分类网络中提取得到该样本数据的概率分布信息，并利用UMAP算法对该概率分布信息进行降维，得到样本数据的坐标数据。在得到坐标数据之后，将坐标数据输入训练好的经过SMO优化的SVM中，得到正样本数据和负样本数据之间的分界线。然后计算各个样本数据的坐标数据与分界线的距离，从而根据该距离将待优化训练集中的与所述分界线的距离达到第一预设距离阈值的正样本数据以及与所述分界线的距离达到第二预设距离阈值的负样本数据进行剔除，得到优化后的训练集。

或者，在新的声音样本加入该待优化训练集时，计算该新的声音样本的样本特征信息与第一样本特征信息或第二样本特征信息之间的相似度，在该相似度满足预设相似度阈值时，将该新的声音样本加入待优化训练集中。或者，在该相似度不满足预设相似度阈值时，拒绝将该新的声音样本加入该待优化训练集中。

应当理解的是，虽然在上述示例中以用于声音事件检测任务中的事件分类网络进行举例说明，但是本公开提出的训练样本数据优化方法可以应用在任何二类样本的优化中。比如，图像类的神经网络的训练样本优化，文本类的神经网络的训练样本优化。

图8是根据一示例性实施例示出的一种训练样本数据的优化系统的结构示意图。如图8所示，本公开实施例还提供了一种训练样本数据的优化系统，该系统包括：

获取模块101，配置为获取待优化训练集；

降维模块102，配置为对所述待优化训练集中的样本数据进行降维处理，得到处理后的坐标数据；

筛选模块103，配置为对所述坐标数据进行筛选，得到筛选后的坐标数据；

优化模块104，配置为根据所述筛选后的坐标数据优化所述待优化训练集。

可选地，所述降维模块102包括：

可选地，所述待优化训练集中的样本数据包括正样本数据以及负样本数据；所述筛选模块103包括：

分界线确定单元，配置为基于得到的各个所述样本数据的坐标数据，确定所述正样本数据与所述负样本数据之间的分界线；

距离单元，配置为确定各个所述样本数据的坐标数据与所述分界线之间的距离；

筛选单元，配置为根据所述距离，对所述坐标数据进行筛选，得到筛选后的坐标数据。

可选地，所述筛选单元具体配置为：

所述优化模块104具体配置为：

可选地，所述筛选单元具体配置为：

所述优化模块104包括：

获取单元，配置为获取新添加的样本数据；

提取单元，配置为确定所述新添加的样本数据、所述第一样本数据及所述第二样本数据的样本特征信息；

统计单元，配置为统计所述第一样本数据出现频率最多的第一样本特征信息、以及所述第二样本数据中出现频率最多的第二样本特征信息；

添加单元，配置为在所述新添加的样本数据对应的所述样本特征信息与所述第一样本特征信息或所述第二样本特征信息的相似度达到预设相似度阈值的情况下，将所述新添加的样本数据添加到所述待优化训练集中。

可选地，当所述样本数据为音频类的样本数据时，所述样本特征信息包括梅尔谱特征、短时平均过零率、样本数据中的有声部分占比、以及样本数据中的无声部分占比中的至少一种。

关于上述实施例中的系统，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本公开还提供一种计算机可读存储介质，其上存储有计算机程序指令，该程序指令被处理器执行时实现如上述实施例中任一项所述的训练样本数据的优化方法的步骤，或实现如上述实施例所述的神经网络模型训练方法。

本公开还提供了一种电子设备，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现如上述实施例中任一项所述的训练样本数据的优化方法的步骤，或实现如上述实施例所述的神经网络模型构建方法。

图9是根据一示例性实施例示出的一种电子设备的框图。例如，电子设备800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图9，电子设备800可以包括以下一个或多个组件：处理组件802，存储器804，电力组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制电子设备800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令，以完成训练样本数据的优化方法或神经网络模型构建方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在电子设备800的操作。这些数据的示例包括用于在电子设备800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件806为电子设备800的各种组件提供电力。电力组件806可以包括电源管理系统，一个或多个电源，及其他与为电子设备800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述电子设备800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当电子设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当电子设备800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为电子设备800提供各个方面的状态评估。例如，传感器组件814可以检测到电子设备800的打开/关闭状态，组件的相对定位，例如所述组件为电子设备800的显示器和小键盘，传感器组件814还可以检测电子设备800或电子设备800一个组件的位置改变，用户与电子设备800接触的存在或不存在，电子设备800方位或加速/减速和电子设备800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于电子设备800和其他设备之间有线或无线方式的通信。电子设备800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述训练样本数据的优化方法或神经网络模型构建方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由电子设备800的处理器820执行以完成上述训练样本数据的优化方法或神经网络模型构建方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在另一示例性实施例中，还提供一种计算机程序产品，该计算机程序产品包含能够由可编程的装置执行的计算机程序，该计算机程序具有当由该可编程的装置执行时用于执行上述的训练样本数据的优化方法或神经网络模型构建方法的代码部分。

本领域技术人员在考虑说明书及实践本公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种训练样本数据的优化方法，其特征在于，包括：

获取待优化训练集；

对所述坐标数据进行筛选，得到筛选后的坐标数据；

根据所述筛选后的坐标数据优化所述待优化训练集。

2.根据权利要求1所述的训练样本数据的优化方法，其特征在于，所述对所述待优化训练集中的样本数据进行降维处理，得到处理后的坐标数据，包括：

3.根据权利要求1所述的训练样本数据的优化方法，其特征在于，所述待优化训练集中的样本数据包括正样本数据以及负样本数据；

4.根据权利要求3所述的训练样本数据的优化方法，其特征在于，所述根据所述距离，对所述坐标数据进行筛选，得到筛选后的坐标数据，包括：

5.根据权利要求3所述的训练样本数据的优化方法，其特征在于，所述根据所述距离，对所述坐标数据进行筛选，得到筛选后的坐标数据，包括：

获取新添加的样本数据；

6.根据权利要求5所述的训练样本数据的优化方法，其特征在于，当所述样本数据为音频类的样本数据时，所述样本特征信息包括梅尔谱特征、短时平均过零率、样本数据中的有声部分占比、以及样本数据中的无声部分占比中的至少一种。

7.一种训练样本数据的优化系统，其特征在于，包括：

获取模块，配置为获取待优化训练集；

8.根据权利要求7所述的训练样本数据的优化系统，其特征在于，所述降维模块包括：

9.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，该程序指令被处理器执行时实现权利要求1至6中任一项所述的训练样本数据的优化方法的步骤。

10.一种电子设备，其特征在于，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以如实现权利要求1至6中任一项所述的训练样本数据的优化方法的步骤。