CN108628971B

CN108628971B - 不均衡数据集的文本分类方法、文本分类器及存储介质

Info

Publication number: CN108628971B
Application number: CN201810378347.8A
Authority: CN
Inventors: 刘志煌; 吴三平
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2018-04-24
Filing date: 2018-04-24
Publication date: 2021-11-12
Anticipated expiration: 2038-04-24
Also published as: CN108628971A

Abstract

本发明公开了一种不均衡数据集的文本分类方法、文本分类器及存储介质，所述方法包括：获取用于训练分类模型的数据集；根据文本数据标注的类别信息，确定每一文本数据为多数类样本或少数类样本；计算多数类样本数量和少数类样本数量之间的比值，得到不均衡倍率；对文本数据进行预处理，得到对应的样本点以映射成向量空间；基于预设插值策略、不均衡倍率以及各个样本点，得到插值样本后，更新数据集；以更新的数据集为训练样本集，训练分类模型；获取待测文本数据，并将待测文本数据导入至训练完成的分类模型中进行分类，以得出待测文本数据属于何种类别，作为分类结果。本发明不仅能够扩大少数类样本及其边界区域，还有效提高模型的分类效果。

Description

不均衡数据集的文本分类方法、文本分类器及存储介质

技术领域

本发明涉及文本信息技术领域，尤其涉及一种不均衡数据集的文本分类方法、文本分类器及存储介质。

背景技术

随着科学技术的进步以及互联网的普及应用，面对海量文本数据，诸如用户发表或反馈的评论等急剧增加，自动文本分类技术应运而生。

目前，机器学习方法逐渐被应用到文本分类技术中，传统的机器学习方法都是基于数据均衡情况下实现的，然而在实际应用中，由于大部分数据分布不均衡，导致文本分类方法效果较差。在面对数据不均衡问题的处理有两种方法，一是算法层面，二是取样层面，从而达到类均衡，进而提高文本分类的精确度和效率。

发明内容

本发明的主要目的在于提供一种不均衡数据集的文本分类方法、文本分类器及存储介质，旨在解决传统分类方法面对不均衡数据集的局限性，从而提高文本分类的精确度和效率的技术问题。

为实现上述目的，本发明提供的一种不均衡数据集的文本分类方法，所述不均衡数据集的文本分类方法包括以下步骤：

获取用于训练分类模型的数据集，其中，所述数据集包括多个已标注的文本数据；

根据文本数据标注的类别信息，确定每一文本数据为多数类样本或少数类样本，并计算多数类样本数量和少数类样本数量之间的比值，得到数据不均衡倍率；

对文本数据进行预处理，得到对应的样本点以映射成向量空间，其中，所述预处理包括语料处理和特征向量处理；

在所述向量空间中，基于预设插值策略、所述数据不均衡倍率以及各个样本点，得到插值样本后，更新所述数据集；

以更新的所述数据集为训练样本集，训练分类模型；

获取待测文本数据，并将所述待测文本数据导入至训练完成的分类模型中进行分类，以得出所述待测文本数据属于何种类别，作为分类结果。

优选地，所述根据文本数据标注的类别信息，确定每一文本数据为多数类样本或少数类样本，并计算多数类样本数量和少数类样本数量之间的比值，得到数据不均衡倍率包括：

根据文本数据标注的类别信息，将所述文本数据划分为多数类样本和少数类样本，并打上标签；

分别统计标签为多数类样本的文本数据的数量，以及标签为少数类样本的文本数据的数量；

基于统计的数量，计算多数类样本数量和少数类样本数量之间的比值，得到数据不均衡倍率。

优选地，所述对文本数据进行预处理，得到对应的样本点以映射成向量空间，其中，所述预处理包括语料处理和特征向量处理包括：

对文本数据进行语料处理，得到若干词条，其中，所述语料处理包括格式统一、分词和去除无关字符；

采用Word2Vec对若干词条进行特征提取和平均值计算，得到的句向量作为文本数据的样本点；或

采用TFIDF对若干词条进行特征权重计算，得到特征值，并采用卡方检验对所述特征值进行选择后，将选择的特征值作为文本数据的样本点；

将各文本数据对应的样本点映射成向量空间。

优选地，每一样本点根据对应的文本数据确定为多数类样本点或少数类样本点；所述在所述向量空间中，基于预设插值策略、所述数据不均衡倍率以及各个样本点，得到插值样本后，更新所述数据集包括：

在所述向量空间中，计算任意两个样本点之间的近邻样本点及其权重值，其中，所述两个样本点至少包括一个少数类样本点；

基于所述数据不均衡倍率和所述权重值，对近邻样本点进行插值处理，得到插值样本；

基于所述插值样本，更新所述数据集。

优选地，所述在所述向量空间中，计算任意两个样本点之间的近邻样本点及其权重值包括：

以每一个少数类样本点为核心点，采用KNN算法，得到该核心点与其他样本点之间的K个近邻样本点；

基于K个近邻样本点与核心点之间的距离关系，确定距离权重和类型权重；

基于所述距离权重和类型权重，得到近邻样本的组合权重值。

优选地，所述基于所述数据不均衡倍率和所述权重值，对近邻样本点进行插值处理，得到插值样本包括：

基于所述数据不均衡倍率N和每个近邻样本的组合权重值W_ij(near)，确定插值样本的数量N_j，使用如下公式：

当确定了插值样本的数量后，根据预设插值公式，确定插值点的范围以在近邻样本点和对应的少数类样本点之间进行插值，得到插值样本。

优选地，所述预设插值公式包括：

若近邻样本点X_ij(near)的类型标签为少数类，则使用如下公式：

X_i1＝X_i+ε*(X_ij(near)-X_i),ε∈(0,1)

若近邻样本点X_ij(near)的类型标签为多数类，则使用如下公式：

X_i1＝X_i+ε*(X_ij(near)-X_i),ε∈(0,0.5)

其中，X_i表示少数类样本；

X_ij(near)表示近邻样本；

X_i1表示插值样本。

优选地，在所述以更新的所述数据集为训练样本集，训练分类模型之后，所述不均衡数据集的文本分类方法还包括：

将所述多个已标注的文本数据导入至训练完成的分类模型中进行测试，以得出所述分类模型的查全率、查准率以及综合评价指标。

此外，为实现上述目的，本发明还提供一种文本分类器，所述文本分类器包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的文本分类程序，所述文本分类程序被所述处理器执行时实现如上述中任一项所述的不均衡数据集的文本分类方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有文本分类程序，所述文本分类程序被处理器执行时实现如上述中任一项所述的不均衡数据集的文本分类方法的步骤。

本发明提出的不均衡数据集的文本分类方法，先获取用于训练分类模型的数据集，该数据集包括多个已标注的文本数据，然后对文本数据进行相关处理以增加新样本，具体是根据文本数据标注的类别信息，确定每一文本数据为多数类样本或少数类样本，从而计算多数类样本数量和少数类样本数量之间的比值，得到数据不均衡倍率；同时还对文本数据进行语料处理和特征向量处理，得到对应的样本点以映射成向量空间；在向量空间中，基于预设插值策略、数据不均衡倍率以及各个样本点，得到插值样本后，更新数据集，从而实现数据类均衡，进而用更新的数据集，作为训练样本集，训练分类模型。最后获取待测文本数据，并将待测文本数据导入至训练完成的分类模型中进行分类，以得出待测文本数据属于何种类别，作为分类结果。本发明对不均衡数据集进行处理，以达到类均衡的方法，不仅能够同时扩大少数类样本及其边界区域，还能够实现提升分类模型对少数类样本和整体样本的分类效果的有益效果。

附图说明

图1为本发明实施例方案涉及的文本分类器运行环境的结构示意图；

图2为本发明不均衡数据集的文本分类方法一实施例的流程示意图；

图3为图2中步骤S30一实施例的细化流程示意图；

图4为图2中步骤S40一实施例的细化流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明实施例方案涉及的文本分类器运行环境的结构示意图。

如图1所示，该文本分类器可以是手机、笔记本、平板电脑、云服务器等计算机设备，可以包括：处理器1001，例如CPU，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的文本分类器的硬件结构并不构成对文本分类器的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及计算机程序。其中，操作系统是管理和控制文本分类器和软件资源的程序，支持文本分类程序以及其它软件和/或程序的运行。

在图1所示的文本分类器的硬件结构中，网络接口1004主要用于接入网络；用户接口1003主要用于侦测确认指令和编辑指令等。而处理器1001可以用于调用存储器1005中存储的文本分类程序，并执行以下操作：

以更新的所述数据集为训练样本集，训练分类模型；

进一步地，所述文本分类器通过处理器1001调用存储器1005中存储的文本分类程序，以执行下述操作：

将各文本数据对应的样本点映射成向量空间。

基于所述插值样本，更新所述数据集。

进一步地，所述预设插值公式包括：

X_i1＝X_i+ε*(X_ij(near)-X_i),ε∈(0,1)

X_i1＝X_i+ε*(X_ij(near)-X_i),ε∈(0,0.5)

其中，X_i表示少数类样本；

X_ij(near)表示近邻样本；

X_i1表示插值样本。

基于上述文本分类器硬件结构，提出本发明不均衡数据集的文本分类方法的各个实施例。

参照图2，图2为本发明不均衡数据集的文本分类方法一实施例的流程示意图。

本实施例中，不均衡数据集的文本分类方法包括：

步骤S10，获取用于训练分类模型的数据集，其中，数据集包括多个已标注的文本数据；

本实施例中，分类模型是运用数理逻辑方法和数学语言构建的数学模型，是让计算机从已有的数据中学习出新的知识，也就是根据数据集处理得到的训练数据进行系统的学习，比如如何对评论、新闻或作品等进行分类、如何优化分类结果等。训练的过程就是利用训练样本并结合数据所对应的样本标签，即已有的数据确定模型参数的过程。

本实施例中，文本数据主要是用于记载和储存文字信息，而不是图像、声音或格式化的数据。文本数据包括汉字、英文字母、拼音符号等。需要说明的是，阿拉伯数字也可以作为文本型数据。获取文本数据的来源不仅包括网页、邮件、短信、论坛，还可以包括微博、云音乐、购物平台、新闻点评等APP应用。文本数据已预先分类并标注好类别，具体地，每一个文本数据表达了用户的各种情感色彩和情感倾向，根据情感分析，将文本数据划分为正面文本或负面文本，比如“我很喜欢这个产品”、“厉害了我的国”、“咖喱料理很香滑美味”等表达积极情感的文本标注的是正面文本，而“这家酒店服务太垃圾”、“再也不喝奶茶”、“黑心店铺”等表达消极情感的文本标注的是负面文本。需要说明的是，文本分类不仅可以分为两类，还可以分为三类甚至多类，具体可根据实际需要进行类别划分，即每一个用于训练模型的文本数据预先分类好并标注类别，从而让计算机学习如何分类。

步骤S20，根据文本数据标注的类别信息，确定每一文本数据为多数类样本或少数类样本，并计算多数类样本数量和少数类样本数量之间的比值，得到数据不均衡倍率；

本实施例中，根据文本数据标注的类别信息，确定每一个文本数据为多数类样本或少数类样本，比如正面文本的数据量多于负面文本的数据量，因而标注正面文本的文本数据为多数类样本，而标注负面文本的文本数据为少数类样本。根据多数类样本数量和少数类样本数量，计算两者间的比值，即数据不均衡倍率。在实际应用中，不同类型数据的数量基本不相等，也就是数据不均衡，其数据不均衡倍率如100:1，甚至10000:1等，若直接用于训练模型，计算机很难学习到少数类的数据分布和样本特征，从而容易导致少数类样本分类不准，进而降低模型的分类效果，因而不均衡的数据集存在一定缺陷。进一步地，需要说明的是，此处类别是指一开始就已经按种类不同而做出的区别，如情感类别包括正面文本和负面文本；弹幕类别包括垃圾弹幕和非垃圾弹幕；新闻类别包括娱乐、军事、体育等等。此处类型是计算机在逻辑演算中，将数量多的一类别重新定义为多数类类型，将数量少的一类别重新定义为少数类类型。

步骤S30，对文本数据进行预处理，得到对应的样本点以映射成向量空间，其中，预处理包括语料处理和特征向量处理；

本实施例中，为进一步克服数据不均衡问题，除了根据文本数据计算不均衡倍率外，还分别对各文本数据进行语料处理和特征向量处理。由于训练模型不能直接在原始文本形式上处理，因此，在预处理阶段把文本转化成计算机识别并可处理的向量，即样本点。将每一文本数据对应的样本点映射到多维或高维空间，即形成向量空间。在空间模型中计算机能够更客观的针对每个样本点执行进一步的运算操作。

进一步地，需要理解的是，文本数据、多数类或少数类样本、样本点是一一对应的。步骤S20和步骤S30是相互独立的步骤，因而先后顺序不做限定，可以是先步骤S20后步骤S30，或先步骤S30后步骤S20，也可以是步骤S20和步骤S30同时进行。在本实施例中，为方便理解本发明方法，是先执行步骤S20再执行步骤S30。

步骤S40，在向量空间中，基于预设插值策略、数据不均衡倍率以及各个样本点，得到插值样本后，更新数据集；

本实施例中，现有的解决数据不均衡有两种方法，一是过采样，二是欠采样。欠采样是保持少数类不变，通过对多数类削减部分样本来达到类均衡。而过采样是保持多数类样本数量不变，多次从少数类中有放回采样数据，减少数量差异。须知，过采样通过保持多数类不变，重复对少数类进行有放回采样，很容易造成过拟合问题；而欠采样当类别不均衡比例过大时严重削减多数类样本的数量会造成样本信息丢失。

本实施例中，在映射有多个样本点的向量空间中，插值得到新样本，也就是增加新的样本，以使原始不均衡的数据趋于类均衡，同样属于过采样方法。预设插值策略是一套用于完善数据挖掘而预先开发设计好的方案，具体是根据多数类样本数量和少数类样本数量之间的比值(数据不均衡倍率)、以及向量空间中的各个样本点，进行计算，得到插值样本。插值的样本可以是在少数类和少数类之间，也可以是少数类和多数类之间，进而避免了传统的盲目随机增加少数类的样本而增加模型噪音的风险，进而使模型更稳定有效。

本实施例中，由于机器学习分类模型，以降低总体样本的分类错误率为目标来训练分类模型，要求数据在各个类别分布是均匀的，而现有的过采样方法是随机、多次从少数类中有放回采样数据，即生成的新样本插值位于两个少数类样本点中间的任一位置，因而仅仅扩充了样本集合，并没有改变少数类样本的分布特征，从而对分类边界的影响较小，还容易导致样本重叠的问题，进而使分类模型的效果得不到提升。而本实施例，增加的插值样本，不限于只增加少数类和少数类之间的样本，还考虑到少数类与多数类样本之间的关系，进而在扩大样本数量的同时，还扩大了少数类样本的边界。

步骤S50，以更新的数据集为训练样本集，训练分类模型；

步骤S60，获取待测文本数据，并将待测文本数据导入至训练完成的分类模型中进行分类，以得出待测文本数据属于何种类别，作为分类结果。

本实施例中，用增加的插值样本更新原始的数据集，再以更新后的数据集，即多个已标注的文本数据以及新增加的插值样本，作为训练样本训练分类模型。更新后的数据集由于增加了插值样本，因而类分布趋于均衡，从而降低总体样本的分类错误率，并使整体分类性能增强。训练完成的分类模型即可投入到应用中，对待测文本数据进行分类，进而得出待测文本数据属于何种类别，作为分类结果。也就是说，训练出的分类模型能够简单的部署，进而快速得到精确度高的分类结果。分类模型不仅可应用在弹幕垃圾信息的过滤、商品的评论，还可应用在生物医学上的诊断等等，具体可根据实际应用，设计分类类型，进而训练各种不同的分类模型。

本实施例中，先获取用于训练分类模型的数据集，该数据集包括多个已标注的文本数据，然后对文本数据进行相关处理以增加新样本，具体是根据文本数据标注的类别信息，确定每一文本数据为多数类样本或少数类样本，从而计算多数类样本数量和少数类样本数量之间的比值，得到数据不均衡倍率；同时还对文本数据进行语料处理和特征向量处理，得到对应的样本点以映射成向量空间；在向量空间中，基于预设插值策略、数据不均衡倍率以及各个样本点，得到插值样本后，更新数据集，从而实现数据类均衡，进而用更新的数据集，作为训练样本集，训练分类模型。最后获取待测文本数据，并将待测文本数据导入至训练完成的分类模型中进行分类，以得出待测文本数据属于何种类别，作为分类结果。本发明对不均衡数据集进行处理，以达到类均衡的方法，不仅能够同时扩大少数类样本及其边界区域，还能够实现提升分类模型对少数类样本和整体样本的分类效果的有益效果。

进一步地，在本发明另一实施例中，上述步骤S20，根据文本数据标注的类别信息，确定每一文本数据为多数类样本或少数类样本，并计算多数类样本数量和少数类样本数量之间的比值，得到数据不均衡倍率，包括：

1、根据文本数据标注的类别信息，将文本数据划分为多数类样本和少数类样本，并打上标签；

2、分别统计标签为多数类样本的文本数据的数量，以及标签为少数类样本的文本数据的数量；

3、基于统计的数量，计算多数类样本数量和少数类样本数量之间的比值，得到数据不均衡倍率。

本实施例中，由于获取的文本数据已经标注好类别，因而可统计各类型的文本数量，数量多的一类文本数据即为多数类样本，数量少的一类文本数据为少数类样本。比如正面文本有8000条样本，负面文本有2000条样本，那么标注正面文本的文本数据增加一个多数类样本标签，标注负面文本的文本数据则增加一个少数类样本标签，便于计算机识别和计算。计算多数类样本数量和少数类样本数量之间的比值，也就是计算原始数据集的不均衡倍率，进而可得知需要增加多数样本以使数据达到类均衡。

参照图3，图3为图2中步骤S30一实施例的细化流程示意图。

基于上述实施例，本实施例中，步骤S30，对文本数据进行预处理，得到对应的样本点以映射成向量空间，包括：

步骤S31，对文本数据进行语料处理，得到若干词条，其中，语料处理包括格式统一、分词和去除无关字符；

本实施例中，语料处理可与现有技术一致，包括格式统一、分词和去除无关字符：a.格式统一，如将中文统一转换为中文简体、将英文统一转换为字母小写。b.分词，如python的结巴分词、中科院的ICTCLAS工具等，也可以基于统计的条件随机场(CRF)算法等，网络新词识别可通过人工添加新词库，或者通过计算N-Grams的内部凝固度来统计频率分词来设计新词发现算法等等。c.去除无关字符，去除标点符号、乱码、空行、空白字符等。文本数据经语料处理，拆分成若干赋有意义的词条。

步骤S32，d.采用Word2Vec对若干词条进行特征提取和平均值计算，得到的句向量作为文本数据的样本点；或e.采用TFIDF对若干词条进行特征权重计算，得到特征值，并采用卡方检验对特征值进行选择后，将选择的特征值作为文本数据的样本点；

本实施例中，一个文本数据经步骤S31处理后，得到若干词条，然后采用Word2Vec对若干词条进行特征提取，得到若干词条对应的词向量，最后求取若干词向量的平均值，得到句向量，即得到这个文本数据的样本点或向量值。word2vec是将词转变成向量的工具，本质上来说就是一个矩阵分解的模型，矩阵刻画了每个词和其上下文的词的集合的相关情况。对这个矩阵进行分解，只取每个词对应在隐含空间的向量。

本实施例中，处理后的若干词条，还可以采用TFIDF对若干词条进行特征权重计算，得到若干词条对应的特征值，也就是以特征词在文档d中出现的次数与包含该特征词的文档数之比作为该词的权重。良好的特征值输入对模型训练尤为重要，因而需要对特征进行排序选择，采用卡方检验对特征值进行选择，进而挑选出较为具有代表性和分类信息的特征作为这个文本数据的样本点。须知，TFIDF是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Term Frequency)，IDF意思是逆文本频率指数(Inverse DocumentFrequency)。简单的说，TFIDF是评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度的工具。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

进一步地，步骤S32中的d、e是两个不同的向量化方法，在处理过程中，可根据当前计算机运行状况或文本内容等选择其中一个执行计算。

步骤S33，将各文本数据对应的样本点映射成向量空间。

本实施例中，将多个文本数据对应转换成计算机容易识别和处理的样本点(向量)，将各个样本点映射到多维或高维空间中，即构成整个用于训练模型的数据集的向量空间模型。

参照图4，图4为图2中步骤S40一实施例的细化流程示意图。

基于上述实施例，本实施例中，步骤S40，在向量空间中，基于预设插值策略、比值以及各个样本点，得到插值样本后，更新数据集，包括：

步骤S41，在向量空间中，计算任意两个样本点之间的近邻样本点及其权重值，其中，两个样本点至少包括一个少数类样本点；

进一步地，步骤S41包括：

A，以每一个少数类样本点为核心点，采用KNN算法，得到该核心点与其他样本点之间的K个近邻样本点；

B，基于K个近邻样本点与核心点之间的距离关系，确定距离权重和类型权重；

C，基于距离权重和类型权重，得到近邻样本的组合权重值。

D，基于比值和权重值，对近邻样本点进行插值处理，得到插值样本；

本实施例中，采用KNN算法可与现有技术一致，计算每个少数类样本点与其他样本点之间的K个近邻样本点。少数类样本点(核心点)与少数类样本点之间，或少数类样本点(核心点)与多数类样本点之间确定某一位置作为近邻样本点。K个近邻与原来少数类样本点的距离J由近到远进行排序，得到J₁＜J₂＜…＜J_n，同时基于新合成的样本点要尽量靠近少数类边界，距离越近，被合成的概率越大的原则，进一步确定距离对应权重为D₁＞D₂＞…＞D_n，可使距离J与权重D成反比，如公式D_i＝1/J_i，D_i表示近邻样本的距离权重；J_i表示近邻样本与对应核心点之间的距离。确定每个近邻样本点的类型，若类型标签为多数类，则类型权重不变。若该近邻样本的标签为少数类别，则在类型权重的基础上还要加上一个系数，如公式S_j＝S_j+δ(δ∈C andδ>0)，S_j表示近邻样本的类型权重，δ表示权重系数，且为大于0的常数。综合距离权重和类型权重，可以是相加或相乘，进而得到该近邻的组合权重值，具体根据实际需要进行设置。需要说明的是，类型权重Sj的初始化是一个常量，如初始值为1，若是少数类类型，则类型权重Sj＝初始值1加上一个大于0的常数；若是多数类类型，那就是类型权重Sj不变，即类型权重Sj＝1。

步骤S42，基于数据不均衡倍率和权重值，对近邻样本点进行插值处理，得到插值样本；

进一步地，步骤S42包括：

E，基于数据不均衡倍率N和每个近邻样本的组合权重值W_ij(near)，确定插值样本的数量N_j，使用如下公式：

F,当确定了插值样本的数量后，根据预设插值公式，确定插值点的范围以在和近邻样本点X_ij(near)和对应的少数类样本点X_i之间进行插值，得到插值样本X_i1。

进一步地，预设插值公式包括：

X_i1＝X_i+ε*(X_ij(near)-X_i),ε∈(0,1)

X_i1＝X_i+ε*(X_ij(near)-X_i),ε∈(0,0.5)

本实施例中，由于每个少数类样本点有K个近邻样本点，为使数据达到类均衡、插值的样本点不重叠并扩大少数类边界，需要对n*K个近邻样本点进行有机筛选。具体地，根据数据不均衡倍率N，确定少数类样本需要在K个近邻的范围内共插值(N-1)个样本点，然后根据每个近邻样本点的组合权重值，求取对应权重的样本数量N_j。在确定少数类样本对应的各个近邻样本需要插值样本的数量后，确定插值样本的位置范围。进一步地，插值样本可以是两个同为少数类的样本点之间，对应的近邻样本点X_ij(near)的类型标签为少数类的，ε的取值为0至1。插值样本还可以是少数类与多数类的样本点之间，因而近邻样本点X_ij(near)的类型标签可能为多数类或少数类的，若为多数类，则ε的取值为0至0.5，进而使插值样本趋近与对应的核心点(少数类样本点)，从而扩大少数类边界。

步骤S43，基于插值样本，更新数据集。

本实施例中，基于预设插值策略，得到的插值样本，并用插值样本更新原始的不均衡的数据集，使数据达到类均衡，即可用于训练模型。

进一步，需要说明的是，本发明在综合考虑到少数类样本点的分布特性以及其近邻样本的分布特征，根据不同区域的样本有不同程度影响的分布特点，对近邻样本点设置自适应的采样倍率和合成策略，从而有效提高模型的分类效果。为降低引入噪音的影响，通过KNN算法计算少数类样本点的K个近邻来增加样本，并对合成的K个近邻样本的类型设定合成策略，具体为计算距离权重和类型权重以得到综合权重，再根据数据不均衡倍率和综合权重确定少数类样本需要在K个近邻的范围内共插值多少个样本点以及每个插值点的范围，从而使合成的样本点为两个少数类样本点之间的任一位置，和/或合成的样本点为少数类样本与多数类样本之间，且趋近于少数类样本点的某一位置，进而实现扩大少数类样本数量且扩大少数类边界。也就是说，通过算法改进原始不均衡的数据集，实现少数类样本和多数类样本之间如何合理插值得到新样本，从而平衡数据集，并得到更为可靠、稳定、精确度高的分类模型。

进一步可选的，在本发明另一实施例中，不均衡数据集的文本分类方法还包括：将多个已标注的文本数据导入至训练完成的分类模型中进行测试，以得出分类模型的查全率、查准率以及综合评价指标。

本实施例中，在将分类模型投入应用前，还需对模型的效果进行验证，验证的方法包括查全率(Recall ratio)、查准率(Precision ratio)以及综合评价指标(F1-Score)。通过将原始的不均衡的多个已标注的文本数据重新导入到分类模型中进行分类，得到的分类结果与标注的类别信息进行比对，进而得到测试结果，即查全率、查准率或综合评价指标，进而验证训练完的分类模型对少数类样本以及整体样本的分类效果。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有文本分类程序，所述文本分类程序被处理器执行时实现如上文所述的不均衡数据集的文本分类方法的步骤。

计算机可读存储介质的具体实施方式与上述不均衡数据集的文本分类方法的各个实施方式基本一致，此处不做赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个可读存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，这些均属于本发明的保护之内。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种不均衡数据集的文本分类方法，其特征在于，所述不均衡数据集的文本分类方法包括以下步骤：

在所述向量空间中，基于预设插值策略、所述数据不均衡倍率以及各个样本点，得到插值样本后，更新所述数据集，其中，每一样本点根据对应的文本数据确定为多数类样本点或少数类样本点；

以更新的所述数据集为训练样本集，训练分类模型；

获取待测文本数据，并将所述待测文本数据导入至训练完成的分类模型中进行分类，以得出所述待测文本数据属于何种类别，作为分类结果；

所述在所述向量空间中，基于预设插值策略、所述数据不均衡倍率以及各个样本点，得到插值样本后，更新所述数据集包括：

在所述向量空间中，计算任意两个样本点之间的近邻样本点及其权重值，其中，所述两个样本点至少包括一个少数类样本点，所述权重值为包括距离权重和类型权重的组合权重值，所述距离权重和所述类型权重由每一个少数类样本点及其近邻样本点之间的距离关系确定；

基于所述数据不均衡倍率和所述权重值，在近邻样本点和对应的少数类样本点之间进行插值，得到插值样本；

基于所述插值样本，更新所述数据集。

2.如权利要求1所述的不均衡数据集的文本分类方法，其特征在于，所述根据文本数据标注的类别信息，确定每一文本数据为多数类样本或少数类样本，并计算多数类样本数量和少数类样本数量之间的比值，得到数据不均衡倍率包括：

3.如权利要求1所述的不均衡数据集的文本分类方法，其特征在于，所述对文本数据进行预处理，得到对应的样本点以映射成向量空间，其中，所述预处理包括语料处理和特征向量处理包括：

将各文本数据对应的样本点映射成向量空间。

4.如权利要求1所述的不均衡数据集的文本分类方法，其特征在于，所述在所述向量空间中，计算任意两个样本点之间的近邻样本点及其权重值包括：

5.如权利要求4所述的不均衡数据集的文本分类方法，其特征在于，所述基于所述数据不均衡倍率和所述权重值，对近邻样本点进行插值处理，得到插值样本包括：

6.如权利要求5所述的不均衡数据集的文本分类方法，其特征在于，所述预设插值公式包括：

X_i1＝X_i+ε*(X_ij(near)-X_i),ε∈(0,1)

X_i1＝X_i+ε*(X_ij(near)-X_i),ε∈(0,0.5)

其中，X_i表示少数类样本；

X_ij(near)表示近邻样本；

X_i1表示插值样本。

7.如权利要求1所述的不均衡数据集的文本分类方法，其特征在于，在所述以更新的所述数据集为训练样本集，训练分类模型之后，所述不均衡数据集的文本分类方法还包括：

8.一种文本分类器，其特征在于，所述文本分类器包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的文本分类程序，所述文本分类程序被所述处理器执行时实现如权利要求1至7中任一项所述的不均衡数据集的文本分类方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有文本分类程序，所述文本分类程序被处理器执行时实现如权利要求1至7中任一项所述的不均衡数据集的文本分类方法的步骤。