CN112182214A

CN112182214A - 一种数据分类方法、装置、设备及介质

Info

Publication number: CN112182214A
Application number: CN202011035348.6A
Authority: CN
Inventors: 李虎; 陆登强; 周洋
Original assignee: China Construction Bank Corp
Current assignee: China Construction Bank Corp
Priority date: 2020-09-27
Filing date: 2020-09-27
Publication date: 2021-01-05
Anticipated expiration: 2040-09-27
Also published as: CN112182214B

Abstract

本发明实施例公开了一种数据分类方法、装置、设备及介质。其中，数据分类方法，包括：采用目标分类模型，对测试数据进行分类预测，得到与所述测试数据对应的第一概率输出矩阵；通过权值矩阵，对第一概率输出矩阵进行修正，得到第一加权概率输出矩阵，所述权值矩阵根据目标分类模型对训练样本集中各训练样本的分类结果生成；根据所述第一加权概率输出矩阵，确定所述测试数据的分类结果。本发明实施例的技术方案，可以在避免数据过拟合，数据浪费以及干扰训练过程的同时，提高了数据分类准确度。

Description

一种数据分类方法、装置、设备及介质

技术领域

本发明实施例涉及计算机技术，尤其涉及一种数据分类方法、装置、设备及介质。

背景技术

情感分类是自然语言处理(Natural Language Processing，NLP)的一个重要研究方向，情感分类是指根据文本所表达的含义和情感信息将文本划分成两种或多种类型，其中，情感分类模型的训练需要大量的训练语句，这些训练语句中还需要包含各种情感类型，例如，积极语句、中性语句和消极语句等。由于情感信息表达的隐蔽性、多义性和极性不明显问题，通常得到的训练语句中包含的中性样例最多，而积极和消极的样例偏少，从而导致了类别不均衡问题。

现有技术中为了处理类别不均衡问题，通常采用的方法是采样法和惩罚项法，其中，采样法中包含的上采样法主要通过对少量类别的数样例进行复制，使各类别样例维持在合理比例，但这种方式容易造成过拟合，下采样法是通过从多数样例中筛选出部分样例，使各类别样例维持在合理比例，会造成数据浪费，而惩罚项法是在训练分类器时，对分类器的小类样本数据项分类错误的目标函数增加权值，相当于干扰了分类器的训练过程，不利于分类器训练。

发明内容

本发明实施例提供一种数据分类方法、装置、设备及介质，通过预先确定的权值矩阵对目标分类模型输出的概率输出矩阵进行修正，提高数据分类准确度。

第一方面，本发明实施例提供了一种数据分类方法，所述方法包括：

采用目标分类模型，对测试数据进行分类预测，得到与所述测试数据对应的第一概率输出矩阵；概率输出矩阵中的各矩阵元素对应测试数据属于各分类的概率值；

通过权值矩阵，对第一概率输出矩阵进行修正，得到第一加权概率输出矩阵，所述权值矩阵根据目标分类模型对训练样本集中各训练样本的分类结果生成；

根据所述第一加权概率输出矩阵，确定所述测试数据的分类结果。

第二方面，本发明实施例还提供了一种数据分类装置，所述装置包括：

第一概率输出矩阵获取模块，用于采用目标分类模型，对测试数据进行分类预测，得到与所述测试数据对应的第一概率输出矩阵；概率输出矩阵中的各矩阵元素对应测试数据属于各分类的概率值；

第一概率输出矩阵修正模块，用于通过权值矩阵，对第一概率输出矩阵进行修正，得到第一加权概率输出矩阵，所述权值矩阵根据目标分类模型对训练样本集中各训练样本的分类结果生成；

分类结果确定模块，用于根据所述第一加权概率输出矩阵，确定所述测试数据的分类结果。

第三方面，本发明实施例还提供了一种电子设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明任意实施例提供的数据分类方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明任意实施例提供的数据分类方法。

本发明实施例的技术方案，首先采用目标分类模型，对测试数据进行分类预测，得到与测试数据对应的第一概率输出矩阵，然后通过权值矩阵，对第一概率输出矩阵进行修正，得到第一加权概率输出矩阵，其中，权值矩阵根据目标分类模型对训练样本集中各训练样本的分类结果生成，最终根据第一加权概率输出矩阵，确定测试数据的分类结果，解决了现有技术中处理类别不均衡问题时会产生数据过拟合，数据浪费以及干扰分类器训练过程的问题，通过对概率输出矩阵进行后处理，在避免数据过拟合，数据浪费以及干扰训练过程的同时，提高了数据分类准确度。

附图说明

图1是本发明实施例一中的一种数据分类方法的流程图；

图2是本发明实施例二中的一种数据分类方法的流程图；

图3是本发明实施例三中的一种数据分类方法的流程图；

图4是本发明实施例四中的一种数据分类装置的结构示意图；

图5是本发明实施例五提供的一种设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一中的一种数据分类方法的流程图，本实施例的技术方案适用于通过权值矩阵对目标分类模型输出的概率输出矩阵进行修正的情况，该方法可以由数据分类装置执行，该装置可以由软件和/或硬件来实现，并可以集成在各种通用计算机设备中。

为了便于理解，首先常用的处理类别不均衡问题的方法进行说明，包括采样法和惩罚项法，其中，采样法包括上采样和下采样，上采样是通过对少量类别的数据进行重复复制，使各类别的数据比例维持在合理的比例，但是这种方法容易造成过拟合；下采样是通过从多数数据类中筛选出部分数据使各类别的数据维持在合理的比例中，但是这样的方法容易丢失关键数据，造成数据浪费，在数据量差别悬殊的情况下不宜采用。惩罚项法是在训练分类器时，对分类器的小类样本数据项分类错误的目标函数增加权值，相当于增加了分类器对小类样本分错的代价，这个额外的代价可以使得分类器更加“关心”小类样本，但是惩罚函数的设计和选择会影响数据集合本身的独立同分布的假设，相当于干扰了训练过程，这违背了使用深度学习的初衷，另外，权值是人为设定的，不能随着训练数据的变化而改变。

本实施例中的数据分类方法，具体包括如下步骤：

步骤110、采用目标分类模型，对测试数据进行分类预测，得到与测试数据对应的第一概率输出矩阵；概率输出矩阵中的各矩阵元素对应测试数据属于各分类的概率值。

其中，目标分类模型是通过训练数据对分类模型进行训练得到的，用于对测试数据进行分类预测，其预测方式是针对输入的测试数据，输出概率输出矩阵，概率输出矩阵中的各元素对应测试数据属于各分类的概率值，且概率输出矩阵中各元素的和为1，最终分类结果即为概率值最大位置对应的类别。

本实施例中，将测试数据输入至预先训练好的目标分类模型中，通过目标分类模型对测试数据进行分类预测，得到与输入的测试数据对应的第一概率输出矩阵。示例性的，将测试文本输入至预先训练好的情感二分类模型中，得到的第一概率输出矩阵是[35％，65％]，表示测试文本属于消极类别的概率是35％，属于积极类别的概率是65％。

步骤120、通过权值矩阵，对第一概率输出矩阵进行修正，得到第一加权概率输出矩阵，权值矩阵根据目标分类模型对训练样本集中各训练样本的分类结果生成。

本实施例中，在得到目标分类模型输出的第一概率输出矩阵后，为了提高分类结果的准确度，通过预先确定的权值矩阵，对第一概率输出矩阵进行修正，得到第一加权概率输出矩阵，其中，权值矩阵是根据目标分类模型对训练样本集中各训练样本的分类结果生成的，简单的说，权值矩阵就是使分类评价指标达到最高值的权值矩阵。示例性的，计算第一概率输出矩阵与权值矩阵的哈达玛积，得到的结果作为第一加权概率输出矩阵，其中，计算第一概率输出矩阵与权值矩阵的哈达玛积，具体为将两个矩阵相同位置的元素两两相乘；分类评价指标可以根据实际情况设置，例如，分类评价指标可以是分类的准确率、召回率或者F1值。

步骤130、根据第一加权概率输出矩阵，确定测试数据的分类结果。

本实施例中，在对第一概率输出矩阵进行修正得到第一加权概率输出矩阵后，根据第一加权概率输出矩阵，确定测试数据的分类结果，具体的，首先确定第一加权概率输出矩阵中最大元素所在位置，然后将最大元素所在位置对应的类别作为测试数据的分类结果。

示例性的，第一加权概率输出矩阵是[25％，75％]，显然，最大元素的位置为1(矩阵元素下标从0开始)，则位置1对应类别即为测试数据的分类结果。

实施例二

图2为本发明实施例二中的一种数据分类方法的流程图，本实施例在上述实施例的基础上进一步细化，提供了采用目标分类模型，对测试数据进行分类预测之前的具体步骤。下面结合图2对本发明实施例二提供的一种数据分类方法进行说明，包括以下步骤：

步骤210、采用训练数据对分类模型进行训练，得到目标分类模型。

本实施例中，首先用给定的训练数据对分类模型进行训练，得到目标分类模型，其中，分类模型可以选择任意机器学习或者深度学习模型，例如，机器学习中的SVM(SupportVector Machine，支持向量机)、随机森林，或者深度学习中的LSTM(Long Short TermMemory networks，长短期记忆网络)、BERT(Bidirectional Encoder Representationsfrom Transformers，来自Transformer的双向编码表示)等。

步骤220、采用目标分类模型，对训练数据进行分类预测，得到与训练数据对应的第二概率输出矩阵。

本实施例中，在得到目标分类模型后，为了对模型输出的概率输出矩阵进行修正，再次将训练数据输入至训练好的目标分类模型进行分类预测，得到与训练数据对应的第二概率输出矩阵，以根据第二概率输出矩阵和训练数据的类别标签对概率输出矩阵进行修正。

步骤230、根据训练数据的类别标签和第二概率输出矩阵对应的分类结果，利用非线性规划方法计算权值矩阵；

其中，权值矩阵是与第二概率输出矩阵求取哈达玛积，使得分类评价指标最高的矩阵。

本实施例中，由于训练数据预先标注了类别标签，在目标分类模型输出针对各训练数据的第二概率输出矩阵后，可以根据各训练数据对应的第二概率输出矩阵确定各训练数据的分类结果，并根据预先标注的类别标签，确定分类结果是否正确，从而计算分类评价指标数值，然后计算与第二概率输出矩阵的哈达玛积对应的分类结果中，分类评价指标最高的权值矩阵。其中，分类评价指标可以是召回率、准确率或者F1值等，可以根据实际需求进行调整，这里不做具体限定。

可选的，分类评价指标为F1值。

本可选的实施例中，为了使得准确率和召回率相对平衡，将分类评价指标设置为F1值。具体的，F1值包括了准确率和召回率两部分，其中，准确率是指预测结果属于某一类别的个体，实际属于该类别的比例，召回率是指被正确预测为某个类别的个体数量与数据集中该类别个体总量的比例。这两个指标是一个矛盾关系，为了提高准确率则会牺牲部分召回率，反之亦然。F1值将准确率和召回率统一起来，计算二者的调和平均，可以评价分类模型的综合得分，F1值的具体计算公式如下：

其中，precision表示准确率，racall表示召回率。

可选的，根据训练数据的类别标签和第二概率输出矩阵对应的分类结果，利用非线性规划方法计算权值矩阵，包括：

根据训练集数据的类别标签和第二概率输出矩阵对应的分类结果，计算分类结果的F1值；

将初始权值矩阵作为输入，利用非线性优化方法，计算与第二概率输出矩阵的哈达玛积对应的F1值最大的矩阵，作为权值矩阵。

本可选的实施例中，提供一种根据训练数据的类别标签和第二概率输出矩阵对应的分类结果，利用非线性规划方法计算权值矩阵的具体方式，首先根据训练集数据的类别标签和第二概率输出矩阵对应的分类结果，计算分类结果的F1值，然后利用非线性优化方法，计算与第二概率输出矩阵的哈达玛积对应的F1值最大的矩阵，作为权值矩阵。示例性的，可以用Python库，调用非线性优化函数，计算使得F1值最大的权值矩阵。

步骤240、采用目标分类模型，对测试数据进行分类预测，得到与测试数据对应的第一概率输出矩阵；概率输出矩阵中的各矩阵元素对应测试数据属于各分类的概率值。

步骤250、通过权值矩阵，对第一概率输出矩阵进行修正，得到第一加权概率输出矩阵，权值矩阵根据目标分类模型对训练样本集中各训练样本的分类结果生成。

步骤250、根据第一加权概率输出矩阵，确定测试数据的分类结果。

本实施例的技术方案，首先采用训练数据对分类模型进行训练，得到目标分类模型，然后采用目标分类模型，对训练数据进行分类预测，得到与训练数据对应的第二概率输出矩阵，并根据训练数据的类别标签和第二概率输出矩阵对应的分类结果，利用非线性规划方法计算权值矩阵，进一步的，采用目标分类模型，对测试数据进行分类预测，得到与测试数据对应的第一概率输出矩阵，并通过权值矩阵，对第一概率输出矩阵进行修正，得到第一加权概率输出矩阵，最终根据第一加权概率输出矩阵，确定测试数据的分类结果，一方面，根据权值矩阵对第一概率输出矩阵进行修正，不影响分类模型训练过程，且提高了数据分类准确度，另一方面，可以根据训练数据计算权值矩阵，无需认为设置参数，减少人力成本的同时，进一步提高分类准确度。

实施例三

图3为本发明实施例三中的一种数据分类方法的流程图，本实施例在上述实施例的基础上进一步细化，提供了通过权值矩阵，对第一概率输出矩阵进行修正的具体步骤，以及根据第一加权概率输出矩阵，确定测试数据的分类结果的具体步骤。下面结合图3对本发明实施例三提供的一种数据分类方法进行说明，包括以下步骤：

步骤310、采用目标分类模型，对测试数据进行分类预测，得到与测试数据对应的第一概率输出矩阵；概率输出矩阵中的各矩阵元素对应测试数据属于各分类的概率值。

步骤320、计算第一概率输出矩阵和权值矩阵的哈达码积，得到第一加权概率输出矩阵。

本实施例中，在得到目标分类模型输出的与测试数据对应的第一概率输出矩阵后，计算第一概率输出矩阵与预先确定的权值矩阵的哈达玛积，得到第一加权概率输出矩阵。

步骤330、采用argmax函数，计算第一加权概率输出矩阵中，最大值所在位置，并将最大值所在位置对应的类别，作为测试数据的分类结果。

本实施例中，在得到第一加权概率输出矩阵后，采用argmax函数，确定第一加权概率输出矩阵中最大值所在的位置，例如，第一加权概率输出矩阵为[20％，30％，50％]，则确定最大值所在位置为2(各矩阵元素的位置从0开始计数)，则这一位置对应的类别，即为测试数据对应的分类结果。

可选的，目标分类模型为情感分类模型，测试数据是待分类文本。

本可选的实施例中，提供一种数据分类方法的具体应用场景，其中，目标分类模型是一种情感分类模型，用于对输入的文本进行情感分类，测试数据是待分类文本。例如，通过将待分类文本“今天天气真不错”，输入至情感分类模型，最终由情感分类模型输出待分类文本属于各情感类别的概率。

本实施例的技术方案，首先采用目标分类模型，对测试数据进行分类预测，得到与测试数据对应的第一概率输出矩阵，然后计算第一概率输出矩阵和权值矩阵的哈达码积，得到第一加权概率输出矩阵，并采用argmax函数，计算第一加权概率输出矩阵中，最大值所在位置，最终将最大值所在位置对应的类别，作为测试数据的分类结果，解决了现有技术中处理类别不均衡问题时会产生数据过拟合，数据浪费以及干扰分类器训练过程的问题，通过对概率输出矩阵进行后处理，在避免数据过拟合，数据浪费以及干扰训练过程的同时，提高了数据分类准确度。

实施例四

图4为本发明实施例四提供的一种数据分类装置的结构示意图，该数据分类装置，包括：第一概率输出矩阵获取模块410、第一概率输出矩阵修正模块420和分类结果确定模块430。

第一概率输出矩阵获取模块410，用于采用目标分类模型，对测试数据进行分类预测，得到与所述测试数据对应的第一概率输出矩阵；概率输出矩阵中的各矩阵元素对应测试数据属于各分类的概率值；

第一概率输出矩阵修正模块420，用于通过权值矩阵，对第一概率输出矩阵进行修正，得到第一加权概率输出矩阵，所述权值矩阵根据目标分类模型对训练样本集中各训练样本的分类结果生成；

分类结果确定模块430，用于根据所述第一加权概率输出矩阵，确定所述测试数据的分类结果。

可选的，所述数据分类装置，还包括：

目标分类模型获取模块，用于在采用目标分类模型，对测试数据进行分类预测之前，采用训练数据对分类模型进行训练，得到所述目标分类模型。

可选的，所述数据分类装置，还包括：

第二概率输出矩阵获取模块，用于在采用目标分类模型，对测试数据进行分类预测之前，采用所述目标分类模型，对所述训练数据进行分类预测，得到与所述训练数据对应的第二概率输出矩阵；

权值矩阵计算模块，用于根据所述训练数据的类别标签和第二概率输出矩阵对应的分类结果，利用非线性规划方法计算权值矩阵；

其中，所述权值矩阵是与所述第二概率输出矩阵求取哈达玛积，使得分类评价指标最高的矩阵。

可选的，所述分类评价指标为F1值。

可选的，所述权值矩阵计算模块，包括：

F1值计算单元，用于根据所述训练集数据的类别标签和第二概率输出矩阵对应的分类结果，计算所述分类结果的F1值；

权值矩阵计算单元，用于将初始权值矩阵作为输入，利用非线性优化方法，计算与所述第二概率输出矩阵的哈达玛积对应的F1值最大的矩阵，作为权值矩阵。

可选的，所述第一概率输出矩阵修正模块420，具体用于：

计算第一概率输出矩阵和所述权值矩阵的哈达码积，得到第一加权概率输出矩阵。

可选的，所述分类结果确定模块430，具体用于：

采用argmax函数，计算所述第一加权概率输出矩阵中，最大值所在位置；

将所述最大值所在位置对应的类别，作为所述测试数据的分类结果。

可选的，所述目标分类模型为情感分类模型，所述测试数据是待分类文本。

本发明实施例所提供的数据分类装置可执行本发明任意实施例所提供的数据分类方法，具备执行方法相应的功能模块和有益效果。

实施例五

图5为本发明实施例五提供的一种电子设备的结构示意图，如图5所示，该电子设备包括处理器50和存储器51；设备中处理器50的数量可以是一个或多个，图5中以一个处理器50为例；设备中的处理器50和存储器51可以通过总线或其他方式连接，图5中以通过总线连接为例。

存储器51作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的一种数据分类方法对应的程序指令/模块(例如，数据分类装置中的第一概率输出矩阵获取模块410、第一概率输出矩阵修正模块420和分类结果确定模块430)。处理器50通过运行存储在存储器51中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据分类，即实现上述的数据分类方法。

该方法包括：

存储器51可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器51可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器51可进一步包括相对于处理器50远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

实施例六

本发明实施例六还提供一种其上存储有计算机程序的计算机可读存储介质，所述计算机程序在由计算机处理器执行时用于执行一种数据分类方法，该方法包括：

当然,本发明实施例所提供的包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的数据分类方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，应用服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述一种数据分类装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种数据分类方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，在采用目标分类模型，对测试数据进行分类预测之前，还包括：

采用训练数据对分类模型进行训练，得到所述目标分类模型。

3.根据权利要求2所述的方法，其特征在于，在采用目标分类模型，对测试数据进行分类预测之前，还包括：

采用所述目标分类模型，对所述训练数据进行分类预测，得到与所述训练数据对应的第二概率输出矩阵；

根据所述训练数据的类别标签和第二概率输出矩阵对应的分类结果，利用非线性规划方法计算权值矩阵；

4.根据权利要求3所述的方法，其特征在于，所述分类评价指标为F1值。

5.根据权利要求4所述的方法，其特征在于，根据所述训练数据的类别标签和第二概率输出矩阵对应的分类结果，利用非线性规划方法计算权值矩阵，包括：

根据所述训练集数据的类别标签和第二概率输出矩阵对应的分类结果，计算所述分类结果的F1值；

将初始权值矩阵作为输入，利用非线性优化方法，计算与所述第二概率输出矩阵的哈达玛积对应的F1值最大的矩阵，作为权值矩阵。

6.根据权利要求1所述的方法，其特征在于，通过权值矩阵，对第一概率输出矩阵进行修正，得到第一加权概率输出矩阵，包括：

7.根据权利要求1所述的方法，其特征在于，根据所述第一加权概率输出矩阵，确定所述测试数据的分类结果，包括：

8.根据权利要求1所述的方法，其特征在于，所述目标分类模型为情感分类模型，所述测试数据是待分类文本。

9.一种数据分类装置，其特征在于，包括：

10.根据权利要求9所述的装置，其特征在于，所述数据分类装置，还包括：

11.根据权利要求10所述的装置，其特征在于，所述数据分类装置，还包括：

12.根据权利要求11所述的装置，其特征在于，所述分类评价指标为F1值。

13.根据权利要求12所述的装置，其特征在于，所述权值矩阵计算模块，包括：

14.一种电子设备，其特征在于，所述设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-8中任一所述的数据分类方法。

15.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-8中任一所述数据分类方法。