CN113139381B

CN113139381B - 不均衡样本分类方法、装置、电子设备及存储介质

Info

Publication number: CN113139381B
Application number: CN202110474617.7A
Authority: CN
Inventors: 谢攀
Original assignee: Ping An International Smart City Technology Co Ltd
Current assignee: Ping An International Smart City Technology Co Ltd
Priority date: 2021-04-29
Filing date: 2021-04-29
Publication date: 2023-11-28
Anticipated expiration: 2041-04-29
Also published as: CN113139381A

Abstract

本发明涉及大数据技术领域，提供一种不均衡样本分类方法、装置、电子设备及存储介质，所述方法包括：获取目标标签；将目标标签的舆情新闻划分为正样本数据集和负样本数据集；对正样本数据集进行样本合成得到目标正样本数据集，及对负样本数据集进行层次聚类得到目标负样本数据集；对目标正样本数据集和目标负样本数据集采用预设的损失函数，训练分类模型；将舆情新闻输入训练好的分类模型中进行样本分类，得到样本分类结果。本发明通过对重新构建后的目标正样本数据集和目标负样本数据集，采用预设的损失函数重新训练分类模型，均衡了样本数据集中的数据量，解决了随机采样造成的分类样本不均衡的问题，提高了分类准确率。

Description

不均衡样本分类方法、装置、电子设备及存储介质

技术领域

本发明涉及大数据技术领域，具体涉及一种不均衡样本分类方法、装置、电子设备及存储介质。

背景技术

目前网络舆情的影响越来越大，爬取的舆情数据量很大，一般采用随机取样方法选取正样本数据和负样本数据，在采用随机取样过程中，可能出现数据分类不均衡的现象，现有技术通过采用随机过采样和随机欠采样解决样本不均衡的问题。

然而，随机过采样容易出现少数类样本多次复制，增加了模型复杂度；随机欠采样会丢弃一部分原始样本，可能会损失部分有用的信息，造成模型偏离样本原始分布，上述两种方式都会导致训练出的分类模型的分类准确率低。

因此，有必要提供一种快速准确的不均衡样本分类的方法。

发明内容

鉴于以上内容，有必要提出一种不均衡样本分类方法、装置、电子设备及存储介质，通过对重新构建后的目标正样本数据集和目标负样本数据集，采用预设的损失函数重新训练分类模型，均衡了样本数据集中的数据量，解决了随机采样造成的分类样本不均衡的问题，提高了分类准确率。

本发明的第一方面提供一种不均衡样本分类方法，所述方法包括：

接收舆情新闻的样本分类请求，解析所述样本分类请求获取目标标签；

爬取所述目标标签对应的舆情新闻，将所述舆情新闻划分为正样本数据集和负样本数据集，其中，正样本数据集中的数据量小于负样本数据集中的数据量；

对所述正样本数据集进行样本合成得到目标正样本数据集，及对所述负样本数据集进行层次聚类得到目标负样本数据集；

对所述目标正样本数据集和所述目标负样本数据集采用预设的损失函数，训练分类模型；

将所述舆情新闻输入训练好的分类模型中进行样本分类，得到样本分类结果。

可选地，所述对所述正样本数据集进行样本合成得到目标正样本数据集包括：

对所述正样本数据集中的每个正样本数据进行向量转换得到每个正样本数据的目标向量；

随机从所述正样本数据集中选取一个正样本数据作为一个目标正样本数据；

计算每个目标正样本数据的目标向量与剩余正样本数据的目标向量之间的距离，并选取距离最小的多个正样本数据；

对选取距离最小的多个正样本数据和对应的目标正样本数据进行样本合成，得到对应的目标正样本数据合成后的正样本数据；

将多个合成后的正样本数据确定为所述正样本数据集的目标正样本数据集。

可选地，所述对所述正样本数据集中的每个正样本数据进行向量转换得到每个正样本数据的目标向量包括：

获取所述正样本数据集中的多个正样本数据；

对每个正样本数据中的每个句子进行分词，得到多个分词；

将所述多个分词输入至预先训练好的BERT模型中，得到每个分词的词向量；

计算所述多个分词的词向量之和除以对应句子的分词总数得到每个句子的句向量；

合并每个正样本数据中的每个句子的句向量得到每个正样本数据的目标向量。

可选地，所述将多个合成后的正样本数据确定为所述正样本数据集的目标正样本数据集包括：

将所述多个合成后的正样本数据的第一数据量与预设的第一数据量阈值进行比较，当所述第一数据量大于或者等于所述预设的第一数据量阈值时，确定所述多个合成后的正样本数据达到所述预设的第一要求，将所述多个合成后的正样本数据确定为所述正样本数据集的目标正样本数据集；或者

当所述第一数据量小于所述预设的第一数据量阈值时，确定所述多个合成后的正样本数据未达到所述预设的第一要求，重复执行所述对所述正样本数据集进行预处理得到目标正样本数据集，直至获取满足所述预设条件的目标正样本数据集。

可选地，所述对所述负样本数据集进行层次聚类得到目标负样本数据集包括：

对所述负样本数据集中的每个负样本数据进行向量转换得到每个负样本数据的向量；

对多个负样本数据进行至少一次迭代聚类，直至获得达到预设的第二要求的负样本数据集；

按照预设的选取规则对达到预设的第二要求的负样本数据集进行选取得到目标负样本集。

可选地，所述至少一次迭代聚类中的任意一次迭代聚类包括：

识别每个负样本数据的向量中是否包含多个子向量；

当每个负样本数据的向量中包含有多个子向量时，计算所述多个子向量的平均值，并将所述平均值确定为每个负样本数据的目标向量；

随机从所述负样品数据集中选取一个负样本数据确定为一个目标负样本数据；

计算每个目标负样本数据的目标向量与剩余负样本数据的目标向量之间的距离，从所述距离中选取最小距离；

判断所述最小距离是否达到预设的第二要求；

当所述最小距离达到所述预设的第二要求时，将所述多个负样本数据确定为达到预设的第二要求的负样本数据集；或者，

当所述最小距离未达到所述预设的第二要求时，合并所述最小距离对应的负样本数据，到新的负样本数据，对所述新的负样本数据和剩余负样本数据进行下一次迭代聚类。

可选地，所述判断所述最小距离是否达到预设的第二要求包括：

将所述最小距离与预设的最大距离阈值进行比较；

当所述最小距离大于或者等于所述预设的最大距离阈值时，确定所述最小距离达到了所述预设的第二要求；或者

当所述最小距离小于所述预设的最大距离阈值时，确定所述最小距离未达到所述预设的第二要求。

本发明的第二方面提供一种不均衡样本分类装置，所述装置包括：

解析模块，用于接收舆情新闻的样本分类请求，解析所述样本分类请求获取目标标签；

划分模块，用于爬取所述目标标签对应的舆情新闻，将所述舆情新闻划分为正样本数据集和负样本数据集，其中，正样本数据集中的数据量小于负样本数据集中的数据量；

合成聚类模块，用于对所述正样本数据集进行样本合成得到目标正样本数据集，及对所述负样本数据集进行层次聚类得到目标负样本数据集；

训练模块，用于对所述目标正样本数据集和所述目标负样本数据集采用预设的损失函数，训练分类模型；

样本分类模块，用于将所述舆情新闻输入训练好的分类模型中进行样本分类，得到样本分类结果。

本发明的第三方面提供一种电子设备，所述电子设备包括处理器和存储器，所述处理器用于执行所述存储器中存储的计算机程序时实现所述的不均衡样本分类方法。

本发明的第四方面提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现所述的不均衡样本分类方法。

综上所述，本发明所述的不均衡样本分类方法、装置、电子设备及存储介质，一方面，通过对所述正样本数据集进行样本合成得到目标正样本数据集，通过样本合成方式对每个目标正样本数据和选取距离最小的多个正样本数据进行样本合成，扩展正样本数据集的数据量，即小样本数据集的数据量，对小样本数据进行了非重复性的样本合成样本，而非构造重复数据，有效的增减了正样本数据集的数据量，提高了正样本数据的召回率及目标正样本数据集的准确率；另一方面，通过对所述负样本数据集进行层次聚类得到目标负样本数据集，通过层次聚类方式减少负样本数据集的数据量，即大样本数据集的数据量，可以确保获取的目标负样本数据集覆盖了所有负样本数据集，提高了所述目标负样本数据集的准确率；最后，对所述目标正样本数据集和所述目标负样本数据集采用预设的损失函数，训练分类模型，通过对重新构建后的目标正样本数据集和目标负样本数据集采用预设的损失函数重新训练分类模型，均衡了样本数据集中的数据量，并引入了预设的损失函数，添加了平衡因子，解决了随机采样造成的分类样本不均衡的问题，提高了训练后的分类模型的分类准确率。

附图说明

图1是本发明实施例一提供的不均衡样本分类方法的流程图。

图2是本发明实施例二提供的不均衡样本分类装置的结构图。

图3是本发明实施例三提供的电子设备的结构示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施例对本发明进行详细描述。需要说明的是，在不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

实施例一

图1是本发明实施例一提供的不均衡样本分类方法的流程图。

在本实施例中，所述不均衡样本分类方法可以应用于电子设备中，对于需要进行不均衡样本分类的电子设备，可以直接在电子设备上集成本发明的方法所提供的不均衡样本分类的功能，或者以软件开发工具包（Software Development Kit，SDK）的形式运行在电子设备中。

如图1所示，所述不均衡样本分类方法具体包括以下步骤，根据不同的需求，该流程图中步骤的顺序可以改变，某些可以省略。

S11，接收舆情新闻的样本分类请求，解析所述样本分类请求获取目标标签。

本实施例中，进行舆情新闻的样本分类时，通过客户端发起舆情新闻的样本分类请求至服务端，具体地，所述客户端可以是智能手机、IPAD或者其他现有的智能设备，所述服务端可以为样本分类子系统，在进行舆情新闻的样本分类过程中，所述客户端向样本分类子系统发送舆情新闻的样本分类请求，所述样本分类子系统用于接收到所述客户端发送的舆情新闻的样本分类请求。

本实施例中，在接收到舆情新闻的样本分类请求，解析所述舆情新闻的样本分类请求获取目标标签，具体地，所述目标标签可以通过从解析后的舆情新闻的样本分类请求的标题中提取多个关键词，根据所述多个关键词确定的。

S12，爬取所述目标标签对应的舆情新闻，将所述舆情新闻划分为正样本数据集和负样本数据集，其中，正样本数据集中的数据量小于负样本数据集中的数据量。

本实施例中，每个目标标签对应有至少一个待爬取数据源，从所述目标标签对应的至少一个待爬取数据源爬取舆情新闻。

在一个可选的实施例中，所述爬取所述目标标签对应的舆情新闻包括：

在预设的数据源中匹配出所述目标标签对应的待爬取数据源，其中，所述待爬取数据源包含有爬取策略；

根据爬取策略采用爬虫技术从对应的待爬取数据源中爬取所述目标标签对应的舆情新闻。

本实施例中，不同的目标标签对应不同的待爬取数据源，每个数据源对应一个爬取策略。

在一个可选的实施例中，所述将所述舆情新闻划分为正样本数据集和负样本数据集包括：

识别所述目标标签的预设划分规则；

根据所述预设划分规则将所述舆情新闻划分为正样本数据集和负样本数据集。

本实施例中，可以预先设置划分规则，例如，当所述目标标签为食品安全监督时，按照食品安全监督对应的预设划分规则，将所述舆情新闻划分为食品安全舆情数据集和非食品安全舆情数据集，具体地，食品安全舆情数据集确定为正样本数据集，将非食品安全舆情数据集确定为负样本数据集。

S13，对所述正样本数据集进行样本合成得到目标正样本数据集，及对所述负样本数据集进行层次聚类得到目标负样本数据集。

本实施例中，采用样本合成方式扩展小样本的数据量；采用层次聚类的方式对减少所述负样本数据集的数据量。

在一个可选的实施例中，所述对所述正样本数据集进行样本合成得到目标正样本数据集包括：

随机从所述正样本数据集中选取一个正样本数据确定为一个目标正样本数据；

本实施例中，可以采用欧式距离算法计算每个目标正样本数据的目标向量与剩余正样本数据的目标向量之间的距离。

具体地，可以采用如下公式对每个目标正样本数据和选取距离最小的多个正样本数据进行样本合成：

，

其中，为每个目标正样本数据对应的合成后的正样本数据，x为每个目标正样本数据，/>表示采用随机函数生成的0到1之间的一个随机数，/>为每个目标正样本数据选取的任意一个距离最小的正样本数据。

本实施例中，通过样本合成方式对每个目标正样本数据和选取距离最小的多个正样本数据进行样本合成，扩展正样本数据集的数据量，即小样本数据集的数据量，对小样本数据进行了非重复性的样本合成样本，而非构造重复数据，有效的增减了正样本数据集的数据量，提高了正样本数据的召回率及目标正样本数据集的准确率。

在其他可选的实施例中，所述将多个合成后的正样本数据确定为所述正样本数据集的目标正样本数据集包括:

判断所述多个合成后的正样本数据是否达到预设的第一要求；

当所述多个合成后的正样本数据未达到预设的第一要求时，重复执行所述对所述正样本数据集进行预处理得到目标正样本数据集，直至获取满足所述预设条件的目标正样本数据集；或者

当所述多个合成后的正样本数据达到预设的第一要求时，将所述多个合成后的正样本数据确定为所述正样本数据集的目标正样本数据集。

进一步地，所述判断所述多个合成后的正样本数据是否达到预设的第一要求包括：

将所述多个合成后的正样本数据的第一数据量与预设的第一数据量阈值进行比较；

当所述第一数据量大于或者等于所述预设的第一数据量阈值时，确定所述多个合成后的正样本数据达到所述预设的第一要求；或者

当所述第一数据量小于所述预设的第一数据量阈值时，确定所述多个合成后的正样本数据未达到所述预设的第一要求。

进一步地，所述对所述正样本数据集中的每个正样本数据进行向量转换得到每个正样本数据的目标向量包括：

获取所述正样本数据集中的多个正样本数据；

对每个正样本数据中的每个句子进行分词，得到多个分词；

在一个可选的实施例中，所述对所述负样本数据集进行层次聚类得到目标负样本数据集包括：

本实施例中，可以采用对正样本数据集中的每个正样本数据进行向量转换的方式对所述负样本数据集中的每个负样本数据进行向量转换。

具体地，所述至少一次迭代聚类中的任意一次迭代聚类包括：

识别每个负样本数据的向量中是否包含多个子向量；

判断所述最小距离是否达到预设的第二要求；

当所述最小距离达到所述预设的第二要求时，将所述多个负样本数据确定为达到预设的第二要求的负样本数据集；或者

本实施例中，可以采用欧式距离算法计算每个目标负样本数据的目标向量与剩余负样本数据的目标向量之间的距离，在其他可选的实施例中，也可以采用夹角余弦算法计算每个目标负样本数据的目标向量与剩余负样本数据的目标向量之间的距离，或者其他距离计算方法，本实施例在此不做限制。

本实施例中，所述预设的第二要求可以为判断所述最小距离是否大于预设的最大距离阈值，具体地，可以预先设置最大距离阈值，具体地，所述预设的最大距离阈值可以根据历史经验值进行设置，当最小距离达到所述预设的第二要求时，确定所述多个负样本数据不相似，停止迭代聚类；当所述最小距离未达到所述预设的第二要求时，确定所述多个负样本数据中存在相似的负样本数据，合并所述最小距离对应的负样本数据，继续进行下一次迭代聚类。

在其他可选的实施例中，当所述每个负样本数据的目标向量中包含有一个子向量时，将所述子向量确定为所述负样本数据的目标向量。

进一步地，所述判断所述最小距离是否达到预设的第二要求包括：

将所述最小距离与预设的最大距离阈值进行比较；

本实施例中，对所述负样本数据集进行层次聚类过程中，初始时将每个负样本数据分别确定为单独一类；每次迭代时，计算每个类之间的距离，判断每个类之间的距离是否达到预设的第二要求，根据判断结果确定是否将最近的两个类聚合成一个新的类，通过不断重复上述过程，直至获得达到预设的第二要求的负样本数据集，确定为聚类结果，并按照预设的选取规则对达到预设的第二要求的负样本数据集进行选取，通过层次聚类方式减少负样本数据集的数据量，即大样本数据集的数据量，可以确保获取的目标负样本数据集覆盖了所有负样本数据集，提高了所述目标负样本数据集的准确率。

S14，对所述目标正样本数据集和所述目标负样本数据集采用预设的损失函数，训练分类模型。

本实施例中，所述预设的损失函数可以为Focal Loss损失函数，具体地，所述Focal Loss损失函数的目标是解决样本类别不平衡以及样本分类难度不平衡等问题，其主要思想就是添加一个平衡因子，使得在训练计算损失时，平衡目标正样本数据集和目标负样本数据集的权重。

本实施例中，由于爬取的新闻舆情中的食品安全舆情数据集的数据量小于非食品安全舆情数据集的数据量，故出现了分类样本不均衡的问题，本实施例通过对重新构建后的目标正样本数据集和目标负样本数据集采用预设的损失函数重新训练分类模型，均衡了样本数据集中的数据量，并引入了预设的损失函数，添加了平衡因子，解决了随机采样造成的分类样本不均衡的问题，提高了训练后的分类模型的分类准确率。

S15，将所述舆情新闻输入训练好的分类模型中进行样本分类，得到样本分类结果。

本实施例中，在得到训练好的分类模型后，将所述舆情新闻输入训练好的分类模型中，获取输出的样本分类结果。

综上所述，本实施例所述的不均衡样本分类方法，一方面，通过对所述正样本数据集进行样本合成得到目标正样本数据集，通过样本合成方式对每个目标正样本数据和选取距离最小的多个正样本数据进行样本合成，扩展正样本数据集的数据量，即小样本数据集的数据量，对小样本数据进行了非重复性的样本合成样本，而非构造重复数据，有效的增减了正样本数据集的数据量，提高了正样本数据的召回率及目标正样本数据集的准确率；另一方面，通过对所述负样本数据集进行层次聚类得到目标负样本数据集，通过层次聚类方式减少负样本数据集的数据量，即大样本数据集的数据量，可以确保获取的目标负样本数据集覆盖了所有负样本数据集，提高了所述目标负样本数据集的准确率；最后，对所述目标正样本数据集和所述目标负样本数据集采用预设的损失函数，训练分类模型，通过对重新构建后的目标正样本数据集和目标负样本数据集采用预设的损失函数重新训练分类模型，均衡了样本数据集中的数据量，并引入了预设的损失函数，添加了平衡因子，解决了随机采样造成的分类样本不均衡的问题，提高了训练后的分类模型的分类准确率。

实施例二

图2是本发明实施例二提供的不均衡样本分类装置的结构图。

在一些实施例中，所述不均衡样本分类装置20可以包括多个由程序代码段所组成的功能模块。所述不均衡样本分类装置20中的各个程序段的程序代码可以存储于电子设备的存储器中，并由所述至少一个处理器所执行，以执行（详见图1描述）不均衡样本分类的功能。

本实施例中，所述不均衡样本分类装置20根据其所执行的功能，可以被划分为多个功能模块。所述功能模块可以包括：解析模块201、划分模块202、合成聚类模块203、训练模块204及样本分类模块205。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段，其存储在存储器中。在本实施例中，关于各模块的功能将在后续的实施例中详述。

解析模块201，用于接收舆情新闻的样本分类请求，解析所述样本分类请求获取目标标签。

划分模块202，用于爬取所述目标标签对应的舆情新闻，将所述舆情新闻划分为正样本数据集和负样本数据集，其中，正样本数据集中的数据量小于负样本数据集中的数据量。

在一个可选的实施例中，所述划分模块202爬取所述目标标签对应的舆情新闻包括：

在一个可选的实施例中，所述划分模块202将所述舆情新闻划分为正样本数据集和负样本数据集包括：

识别所述目标标签的预设划分规则；

合成聚类模块203，用于对所述正样本数据集进行样本合成得到目标正样本数据集，及对所述负样本数据集进行层次聚类得到目标负样本数据集。

在一个可选的实施例中，所述合成聚类模块203对所述正样本数据集进行样本合成得到目标正样本数据集包括：

，

获取所述正样本数据集中的多个正样本数据；

对每个正样本数据中的每个句子进行分词，得到多个分词；

在一个可选的实施例中，所述合成聚类模块203对所述负样本数据集进行层次聚类得到目标负样本数据集包括：

识别每个负样本数据的向量中是否包含多个子向量；

判断所述最小距离是否达到预设的第二要求；

将所述最小距离与预设的最大距离阈值进行比较；

训练模块204，用于对所述目标正样本数据集和所述目标负样本数据集采用预设的损失函数，训练分类模型。

样本分类模块205，用于将所述舆情新闻输入训练好的分类模型中进行样本分类，得到样本分类结果。

综上所述，本实施例所述的不均衡样本分类装置，一方面，通过对所述正样本数据集进行样本合成得到目标正样本数据集，通过样本合成方式对每个目标正样本数据和选取距离最小的多个正样本数据进行样本合成，扩展正样本数据集的数据量，即小样本数据集的数据量，对小样本数据进行了非重复性的样本合成样本，而非构造重复数据，有效的增减了正样本数据集的数据量，提高了正样本数据的召回率及目标正样本数据集的准确率；另一方面，通过对所述负样本数据集进行层次聚类得到目标负样本数据集，通过层次聚类方式减少负样本数据集的数据量，即大样本数据集的数据量，可以确保获取的目标负样本数据集覆盖了所有负样本数据集，提高了所述目标负样本数据集的准确率；最后，对所述目标正样本数据集和所述目标负样本数据集采用预设的损失函数，训练分类模型，通过对重新构建后的目标正样本数据集和目标负样本数据集采用预设的损失函数重新训练分类模型，均衡了样本数据集中的数据量，并引入了预设的损失函数，添加了平衡因子，解决了随机采样造成的分类样本不均衡的问题，提高了训练后的分类模型的分类准确率。

实施例三

参阅图3所示，为本发明实施例三提供的电子设备的结构示意图。在本发明较佳实施例中，所述电子设备3包括存储器31、至少一个处理器32、至少一条通信总线33及收发器34。

本领域技术人员应该了解，图3示出的电子设备的结构并不构成本发明实施例的限定，既可以是总线型结构，也可以是星形结构，所述电子设备3还可以包括比图示更多或更少的其他硬件或者软件，或者不同的部件布置。

在一些实施例中，所述电子设备3是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的电子设备，其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述电子设备3还可包括客户设备，所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品，例如，个人计算机、平板电脑、智能手机、数码相机等。

需要说明的是，所述电子设备3仅为举例，其他现有的或今后可能出现的电子产品如可适应于本发明，也应包含在本发明的保护范围以内，并以引用方式包含于此。

在一些实施例中，所述存储器31用于存储程序代码和各种数据，例如安装在所述电子设备3中的不均衡样本分类装置20，并在电子设备3的运行过程中实现高速、自动地完成程序或数据的存取。所述存储器31包括只读存储器（Read-Only Memory，ROM）、可编程只读存储器（Programmable Read-Only Memory，PROM）、可擦除可编程只读存储器（ErasableProgrammable Read-Only Memory，EPROM）、一次可编程只读存储器（One-timeProgrammable Read-Only Memory，OTPROM）、电子擦除式可复写只读存储器（Electrically-Erasable Programmable Read-Only Memory，EEPROM）、只读光盘（CompactDisc Read-Only Memory，CD-ROM）或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

在一些实施例中，所述至少一个处理器32可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器（Central Processing unit，CPU）、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述至少一个处理器32是所述电子设备3的控制核心（Control Unit），利用各种接口和线路连接整个电子设备3的各个部件，通过运行或执行存储在所述存储器31内的程序或者模块，以及调用存储在所述存储器31内的数据，以执行电子设备3的各种功能和处理数据。

在一些实施例中，所述至少一条通信总线33被设置为实现所述存储器31以及所述至少一个处理器32等之间的连接通信。

尽管未示出，所述电子设备3还可以包括给各个部件供电的电源（比如电池），可选的，电源可以通过电源管理装置与所述至少一个处理器32逻辑相连，从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备3还可以包括多种传感器、蓝牙模块、Wi-Fi模块等，在此不再赘述。

应该了解，所述实施例仅为说明之用，在专利申请范围上并不受此结构的限制。

上述以软件功能模块的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，电子设备，或者网络设备等）或处理器（processor）执行本发明各个实施例所述方法的部分。

在进一步的实施例中，结合图2，所述至少一个处理器32可执行所述电子设备3的操作装置以及安装的各类应用程序（如所述的不均衡样本分类装置20）、程序代码等，例如，上述的各个模块。

所述存储器31中存储有程序代码，且所述至少一个处理器32可调用所述存储器31中存储的程序代码以执行相关的功能。例如，图2中所述的各个模块是存储在所述存储器31中的程序代码，并由所述至少一个处理器32所执行，从而实现所述各个模块的功能以达到不均衡样本分类的目的。

在本发明的一个实施例中，所述存储器31存储多个指令，所述多个指令被所述至少一个处理器32所执行以实现不均衡样本分类的功能。

具体地，所述至少一个处理器32对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述，在此不赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，既可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或，单数不排除复数。本发明中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种不均衡样本分类方法，其特征在于，所述方法包括：

对所述正样本数据集进行样本合成得到目标正样本数据集，包括：对所述正样本数据集中的每个正样本数据进行向量转换得到每个正样本数据的目标向量；随机从所述正样本数据集中选取一个正样本数据作为一个目标正样本数据；计算每个目标正样本数据的目标向量与剩余正样本数据的目标向量之间的距离，并选取距离最小的多个正样本数据；对选取距离最小的多个正样本数据和对应的目标正样本数据进行样本合成，得到对应的目标正样本数据合成后的正样本数据；将多个合成后的正样本数据确定为所述正样本数据集的目标正样本数据集；

对所述负样本数据集进行层次聚类得到目标负样本数据集，包括：对所述负样本数据集中的每个负样本数据进行向量转换得到每个负样本数据的向量；对多个负样本数据进行至少一次迭代聚类，直至获得达到预设的第二要求的负样本数据集；按照预设的选取规则对达到预设的第二要求的负样本数据集进行选取得到目标负样本集；

2.如权利要求1所述的不均衡样本分类方法，其特征在于，所述对所述正样本数据集中的每个正样本数据进行向量转换得到每个正样本数据的目标向量包括：

获取所述正样本数据集中的多个正样本数据；

对每个正样本数据中的每个句子进行分词，得到多个分词；

3.如权利要求1所述的不均衡样本分类方法，其特征在于，所述将多个合成后的正样本数据确定为所述正样本数据集的目标正样本数据集包括：

4.如权利要求1所述的不均衡样本分类方法，其特征在于，所述至少一次迭代聚类中的任意一次迭代聚类包括：

识别每个负样本数据的向量中是否包含多个子向量；

随机从所述负样本数据集中选取一个负样本数据确定为一个目标负样本数据；

判断所述最小距离是否达到预设的第二要求；

5.如权利要求4所述的不均衡样本分类方法，其特征在于，所述判断所述最小距离是否达到预设的第二要求包括：

将所述最小距离与预设的最大距离阈值进行比较；

6.一种不均衡样本分类装置，其特征在于，所述装置用于实现如权利要求1至5中任意一项所述的不均衡样本分类方法，所述装置包括：

7.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述处理器用于执行所述存储器中存储的计算机程序时实现如权利要求1至5中任意一项所述的不均衡样本分类方法。

8.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5中任意一项所述的不均衡样本分类方法。