CN110705607B

CN110705607B - 一种基于循环重标注自助法的行业多标签降噪方法

Info

Publication number: CN110705607B
Application number: CN201910865170.9A
Authority: CN
Inventors: 郑庆华; 李碧婷; 阮建飞; 董博; 高宇达; 宓玲云; 范弘铖
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2019-09-12
Filing date: 2019-09-12
Publication date: 2022-10-25
Anticipated expiration: 2039-09-12
Also published as: CN110705607A

Abstract

本发明公开了一种基于循环重标注自助法的行业多标签降噪方法，包括步骤：首先，基于Word2Vec技术提取纳税人文本特征，基于One‑Hot编码对纳税人非文本信息进行处理得到非文本特征；其次，基于多输入双向循环神经网络对纳税人文本特征和非文本特征构建分类器模型；然后，在模型训练过程中，基于循环重标注自助法对噪声标签进行识别及纠正；最后，通过多轮迭代逐渐减小存在噪声标签的样本比例，进而降低噪声标签的影响。本发明解决了现有方法中不能划分噪声标签依据噪声标签纠正效果未达到最优就停止训练的问题。

Description

一种基于循环重标注自助法的行业多标签降噪方法

技术领域

本发明属于行业分类领域，特别涉及一种基于循环重标注自助法的行业多标签降噪方法。

背景技术

目前的经济行业分类方法是由税务工作人员根据纳税人登记的经营范围进行主行业及附属行业的划分，但新的活动类型与新的产业形式不断出现，行业数量也急剧增长，税务工作人员对注册纳税人的经济行业划分难度也越来越大，人工划分方法耗时耗力，依赖专家经验，不可避免会出现经济行业错误标注，由此产生的不利影响将直接影响到经济行业的规划，甚至影响到国家对各个行业活动的宏观管理和调控。

目前，经济行业错误标注主要依赖专家经验来判断纠正，在现如今庞大的数据规模和行业规模的情况下，存在工作量大、效率低下、纠正滞后的难题。针对这些难题，以下专利基于机器学习技术，提出了利用计算机处理数据的自动降噪方案：

文献1.一种企业行业多标签分类方法(201910045591.7)；

文献2.一种基于标签噪声纠正的众包标注数据质量提升方法(201510754782.2)；

文献1提出一种企业行业多标签分类方法，基于规则和图排序的算法，并利用嵌入词向量聚类和主题模型聚类，聚类的距离采用了嵌入式词向量的欧式距离，聚类后通过人工干预的方法，划分为关键词标签和噪声词这两类，对噪音词归集起来构建出噪声词库；利用得到的类标签词库匹配，得到多个行业关键词标签的训练样本；用得到的训练样本训练不同层级的标签分类模型，并利用它对企业进行自主标注多个层级的行业标签。

文献2提出一种基于标签噪声纠正的众包标注数据质量提升方法，首先在初始的众包标注数据集上运行标签集成算法，在此过程中估计出标注者质量和样本的集成标签质量信息；其次再对标签集成后的数据集进行多轮K折交叉验证，构建一个高质量数据集；再用多轮K折交叉验证过程中对每个样本的类标签的预测概率结合标注者质量和样本标签质量得到标签噪声集；然后用高质量数据集训练分类模型；最后用此模型对标签噪声数据集中的样本类标签进行预测和替换。

以上文献所述方法主要存在以下问题：文献1提出的一种企业行业多标签分类方法，使用欧式距离只能划分离群点，而行业多标签分类噪声数据往往表现上非离群点，去噪效果无法保障；文献2提出的基于标签噪声纠正的众包标注数据质量提升方法，使用训练好的模型进行标签纠正后，并未设置衡量指标来评价噪声标签纠正效果，甚至纠正出错也无法识别，这样不仅没有达到标签纠正的效果，反而可能人为引入噪声。

发明内容

为了克服上述现有技术不足，本发明的目的在于提供一种基于循环重标注自助法的行业多标签降噪方法，以解决现有方法中不能划分噪声标签以及噪声标签纠正效果未达到最优就停止训练的问题。

为达到以上目的，本发明采取如下技术方案予以实现的：

一种基于循环重标注自助法的行业多标签降噪方法，包括以下步骤：

1)基于Word2Vec技术提取纳税人文本特征，基于One-Hot编码对纳税人非文本信息进行处理得到非文本特征；

2)基于多输入双向循环神经网络对纳税人文本特征和非文本特征构建分类器模型；

3)在模型训练过程中，基于循环重标注自助法对噪声标签进行识别及纠正；

4)通过多轮迭代逐渐减小存在噪声标签的样本比例，进而降低噪声标签的影响。

本发明进一步的改进在于，步骤1)中，采用纳税人名称和经营范围作为文本特征，按照纳税人名称在前，经营范围在后的顺序将两者拼接起来，并通过构建停用词词典和经济行业专业词典，结合分词工具对合并后的文本内容进行分词处理，并采用Word2Vec技术进行向量化处理，将纳税人名称和经营范围的向量化表示作为纳税人的文本特征；

对于文本特征，首先输入词嵌入层进行向量化处理后得到文本特征的向量化表示，然后经过双向GRU网络对文本特征学习正向和反向的文本特征表示，经过正向GRU网络后得到文本特征256维向量的正向表示，经过反向GRU网络后得到文本特征256维向量的反向表示，将双向GRU学习到的正向文本表示和反向文本表示合并后，得到512维向量，最后经过注意力层通过注意力提取机制提取词注意力；采用法人信息、经营资本信息、人员规模信息和类型标志信息作为纳税人非文本特征，对定量指标进行无量纲化处理，对定性指标进行One-Hot编码处理，得到纳税人非文本特征的向量化表示；再将纳税人的文本特征向量和非文本特征向量进行结合，得到纳税人特征向量。

本发明进一步的改进在于，步骤2)中，将待分类的样本输入至双向循环神经网络中，完成分类器模型构建并得到预测概率，其中构造分类器模型包括以下步骤：

201)在样本集上进行分类器模型训练；将步骤1)得到的纳税人特征向量输入到分类器模型，再通过三层全连接层，最后通过输出层进行纳税人所属经济行业的分类和预测，输出层由若干个Sigmoid神经元组成，每个神经元的输出代表了对应类别的预测概率，完成将多标签分类问题转换为了若干个二分类问题的组合；

202)通过预测结果，计算损失函数，在大规模多标签分类时采用交叉熵损失函数作为损失函数能够起到很好的分类效果；

单个Sigmoid神经元交叉熵损失函数的计算公式为：

式中，

表示样本的原始标签，

表示预测概率，N表示样本总数量，i表示第i个样本；

在该分类器模型中，Sigmoid层包含了M个Sigmoid神经元，每个神经元对应一种行业标签，因此，该模型的整体损失则为M个交叉熵损失之和，其计算公式为：

式中，

表示联合损失，

表示单个神经元交叉熵损失，M表示输出层Sigmoid神经元个数，j表示第j个神经元，y_ij表示样本原始标签，

表示预测标签概率；

在模型的训练过程中，将整体损失作为总体的优化目标，每个行业类别对应的交叉熵损失作为该Sigmoid神经元的单独优化目标，所有Sigmoid神经元的损失共同影响模型的整体训练效果，当整体损失不再下降，则模型取得了最佳拟合效果，进而能够对所有行业明细进行准确高效的分类预测。

本发明进一步的改进在于，步骤3)中，基于分类器模型对样本标签的预测对原始标签进行纠正，从而实现噪声标签的识别及纠正的处理工作，降低样本集中噪声标签比例，得到更加准确的分类器模型，具体实现步骤如下：

301)设置预测概率的阈值，为了避免在标签纠正过程中，人为引入噪声，并设置阈值；

302)依据样本集的原始标签和预测概率识别噪声标签；当前模型对训练集和验证集的输入特征进行预测，分别得到训练集和验证集的预测概率，若预测概率大于阈值，则将该标签标记为噪声标签，否则，该标签极大概率为正确标签；

该模型将噪声标签分为两种类型，分别是120类型和021类型，噪声标签不同，识别方法也不同；

当分类器输出层的激活函数为Sigmoid函数的情况下，021类型的噪声标签识别方法为：

式中，

表示在输出层激活函数为Sigmoid函数的情况下，021类型噪声标签的最低概率阈值，_si表示输出层激活函数为Sigmoid函数，

表示样本原始标签，

表示样本预测概率，M表示输出层Sigmoid神经元个数，N表示样本总数量，j表示第j个神经元，i表示第i个样本，得到的

即为样本序号与标签序号二元组的集合；

120类型的噪声标签的识别方法为：

式中，

表示在输出层激活函数为Sigmoid函数的情况下，120类型噪声标签的最高概率阈值；

此外，

与

之和为1，设定

的取值后，则通过该关系得到

的取值；

当分类器输出层的激活函数为Softmax函数的情况下，021类型和120类型的噪声标签对于某一样本而言会成对出现，当预测概率与原始标签不同时，且预测概率对应的概率较高时，则表明该样本的标签可能会存在噪声；021类型的噪声标签识别方法为：

式中，Th^so表示在输出层激活函数为Softmax函数的情况下，021类型噪声标签的最低概率阈值，_so表示输出层激活函数为Softmax函数，h表示预测标签，k表示原始标签，

表示样本i的预测概率，

表示样本i的原始标签；

120类型的噪声标签识别方法为：

式中，Th^so表示在输出层激活函数为Softmax函数的情况下，120声标签的最低概率阈值；

303)纠正样本集中的噪声标签；对训练集和验证集的噪声标签进行纠正，将021类型的噪声标签纠正为1，将210类型的噪声标签纠正为0，并用纠正后的标签替换原始标签，更新纳税人数据集。

本发明进一步的改进在于，步骤301)中，阈值设置为0.95。

本发明进一步的改进在于，步骤4)中，具体实现步骤如下：

401)标签纠正样本比例统计，统计训练集的原始标签和纠正标签总数，计算训练集中进行过标签纠正的样本比例，计算公式为：

式中，ψ表示训练集中进行过标签纠正的样本比例，

表示训练集的原始标签，

表示纠正标签，N表示样本总数，

表示进行过标签纠正的样本总数；

402)将替换噪声标签后的训练集输入到分类器中，继续对分类模型进行训练，训练过程采用交叉熵损失作为模型损失函数，若验证集的损失相比上一轮训练的结果在下降，则继续对分类器进行训练，若验证集的损失不再下降，则暂停分类器训练过程；若分类器所得分类预测概率未超过阈值，认为当前样本集中无噪声标签，此时步骤401)中纠正样本比例为0，训练出的分类器为最优的分类器模型，结束模型训练，否则继续进行噪声标签的识别及纠正，并对模型进行新一轮的训练，这样多轮迭代降低噪声标签样本比例，以降低噪声标签的影响。

本发明具有如下有益的技术效果：

针对经济行业错误标注纠正难题，现有标签噪声识别纠正方法存在不足，本发明提供了基于循环重标注自助法的行业多标签分类方法，该方法通过训练分类器模型，根据设定阈值和分类器得到的预测概率进行噪声识别和纠正，循环采用纠正后的数据集再训练，直到分类器的预测概率不高于阈值时停止循环重标注过程。因此，使用循环重标注自助法可以同时解决现有技术不能划分噪声标签以及噪声标签纠正效果未达到最优就停止训练的问题。概括来说，本发明具有如下的优点：

1、使用Word2Vec技术提取纳税人文本特征，使用One-Hot编码提取纳税人非文本特征，充分利用了纳税人的文本特征和非文本特征，提高了分类模型的准确率；

2、基于循环重标注自助法对噪声标签进行识别及纠正，能够降低噪声标签对行业分类效果的影响；

3、设置阈值，通过多轮迭代逐渐减小存在噪声标签的样本比例，保证了行业分类模型训练效果更优得同时，避免了人为引入噪声的问题；

4、纳税人标签降噪方法过程不需要人工参与，减低了人工投入。

附图说明

图1是本发明一种基于循环重标注自助法的行业多标签降噪方法的流程图；

图2是基于多输入双向循环网络构建分类器示意图；

图3是纳税人噪声标签自动识别及纠正的流程图。

具体实施方式

以下结合附图对本发明做出进一步的说明。

如图1所示，本发明提供的一种基于循环重标注自助法的行业多标签降噪方法，该方法通过多轮迭代逐渐减少存在噪声标签的样本比例，降低噪声标签的影响，得到更为准确的经济行业分类模型，同时也为识别并纠正税务系统中已注册纳税人存在的噪声标签提供参考。该发明中从纳税人登记注册信息中提取主行业及附属行业的行业明细代码，每个纳税人具有一种主行业，附属行业为可选项，结合纳税人信息，包括以下步骤：

S101：分别用Word2Vec技术和One-Hot编码技术提取纳税人文本特征和非文本特征。如图2所示，提取纳税人文本特征和非文本特征，得出纳税人特征向量。将纳税人名称和经营范围文本拼接起来作为纳税人的文本特征，首先输入词嵌入层进行向量化处理后得到文本特征的向量化表示，然后经过双向GRU网络对文本特征学习正向和反向的文本特征表示，经过正向GRU网络后得到文本特征256维向量的正向表示，经过反向GRU网络后得到文本特征256维向量的反向表示，将双向GRU学习到的正向文本表示和反向文本表示合并后，得到512维向量，然后再经过Attention层通过注意力机制提取词注意力。

对纳税人的法定代表人年龄、注册资本、从业人数等9项定量特征采用Z-Score标准化进行无量纲化处理，得到定量指标对应的9维向量，再对法定代表人性别、登记注册类型、经营方式特征、总机构标志和是否属于国税、地税共管户5项定性指标进行One-Hot编码处理，得到86维向量，将定量指标对应的9维向量和定性指标对应的86维向量进行合并，得到非文本特征的95维向量表示。

将纳税人的文本特征向量和非文本特征向量进行结合，得到纳税人特征向量，并将纳税人样本集按照8：2的比例分为训练集和验证集。

S102：基于多输入双向循环神经网络构建分类器模型，将纳税人特征向量输入至分类器中，该过程的具体实现包括以下步骤：

Step 1：纳税人经济行业分类模型训练。同时使用文本特征和非文本特征进行纳税人经济行业分类模型训练，将S101中训练集的纳税人特征向量输入至分类模型中。这里使用了多输入双向循环神经网络作为分类器模型，该分类模型包括输入层、隐藏层和输出层。

输入层：输入纳税人训练数据集中的特征向量；

隐藏层：对输入纳税人特征多层次的抽象，提取不同层次的行业特征信息，进一步在抽象的空间中实现分类；

输出层：输出层的激活函数可用Sigmoid函数或Softmax函数。Sigmoid激活函数的定义域能够取任何范围的实数，而返回的输出值在0到1的范围内，如果输出值大于阈值，则认为属于某个类别，否则不属于，因此适合用于二分类问题，若对每个分类计算的结果分别作用一个Sigmoid分类器，则可用于多标签分类问题；Softmax激活函数将会计算每个目标类别在所有可能的目标类中的概率，其输出概率的范围为0到1，所有概率的和将等于1，该激活函数适用于多类分类问题。

Step 2：损失函数计算。为了让分类器模型在训练数据上学到的预测数据分布与真实数据分布相近，使用交叉熵损失函数。纳税人行业划分分类器模型输出层的激活函数为Sigmoid函数，则计算交叉熵损失公式为

式中，N表示样本总量，M表示输出层Sigmoid神经元的数量，当分类问题为二分类时M＝1，当分类问题为多标签分类时M与标签总数量相同，

表示样本原始标签，

表示预测标签概率，i表示第i个样本，j表示第j个神经元；

如果分类器输出层的激活函数为Softmax函数，则计算交叉熵损失公式为

式中，N表示样本数量，M表示输出层Softmax神经元的数量，并且与标签总数量相同，

表示真实标签情况，

表示预测标签概率。

Step 4：将验证集的纳税人特征向量输入到分类器模型中，得到预测概率，并通过预测概率和原始标签计算验证集的损失，如果验证集的损失相比上一轮训练的结果在下降，则执行步骤Step1，继续对分类器进行训练，如果验证集的损失不再下降，暂停对分类器的训练，执行步骤3)。

S103：基于循环重标注自助法对噪声标签进行自动识别和纠正，如图3所示，该过程的具体实现包括下述步骤：

Step 1：设置预测概率的阈值，便于后续识别噪声标签。为了在标签纠正过程中，减少人为引入噪声标签的可能性，阈值一般设置为较大值。在该模型中，将阈值设置为0.98-0.90，步长为0.01，分别进行模型训练，经过多轮对比，确定阈值为0.95时训练效果最优；

Step 2：识别噪声标签。依据当前分类器模型得到的预测概率和原始标签进行噪声标签识别。若训练集的预测概率大于阈值，则将该标签标记为噪声标签；若训练集的预测概率小于阈值，则说明该标签很大概率是正确标签。同理，对验证集也做相同的操作，识别出验证集的噪声标签。

该模型将噪声标签分为两种类型，分别是120类型和021类型，噪声标签不同，识别方法也不同。021类型的噪声标签表示某样本属于该类别，被错误标记为不属于该类别；210类型的噪声标签表示某样本不属于该类别，但被错误标记为属于该类别。

分类器模型的输出层的激活函数不同，噪声标签的识别方法也有不同。

当分类器输出层的激活函数为Sigmoid函数的情况下，021类型的噪声标签的识别方法公式为

式中，

表示在输出层激活函数为Sigmoid函数的情况下，021类型噪声标签的最低概率阈值，_si表示输出层激活函数为Sigmoid函数；M表示输出层Sigmoid神经元个数，N表示样本总数量，

表示样本原始标签，

表示预测标签概率，得到的

为样本序号与标签序号二元组的集合。该公式表示原始标签为0，并且预测概率大于等于阈值的噪声标签为021类型。

120类型的噪声标签识别方法公式为

式中，

表示在输出层激活函数为Sigmoid函数的情况下，120类型噪声标签的最高概率阈值，_si表示输出层激活函数为Sigmoid函数，

表示样本原始标签，

表示样本预测标签概率。该公式表示原始标签为1，并且预测概率小于阈值的噪声标签为120类型。

当分类器输出层的激活函数为Softmax函数的情况下，021类型和120类型的噪声标签对于某一样本而言会成对出现，当预测标签和原始标签不同，且预测标签对应的异常概率较高时，则表明该样本的标签可能会存在噪声，预测标签为021类型的噪声标签，原始标签为120类型的噪声标签。此时噪声标签识别方法公式为

式中，Th^so表示在输出层激活函数为Softmax函数的情况下，021类型噪声标签的最低概率阈值，_so表示输出层激活函数为Softmax函数，h表示预测标签，

表示预测概率，j表示预测标签，k表示原始标签，

表示样本i的预测概率，

表示样本i的原始标签。该公式标签在预测标签与原始标签不同，且预测概率大于最低概率阈值时为噪声标签。

在纳税人分类器模型中，由于纳税人行业人分类属于多标签分类问题，因此采用的激活函数是Sigmoid函数。

Step 3：噪声标签纠正并更新样本集。通过噪声标签识别结果对训练集和验证集的原始标签进行噪声标签纠正，将021类型的噪声标签

纠正为1，将120类型的噪声标签

纠正为0，噪声标签的纠正公式为

式中，

表示正确标签，

表示修改后的标签，

表示原始标签。

S104:通过多轮迭代逐渐较小存在噪声标签的样本比例，进而降低噪声标签的影响。

Step 1：标签纠正样本比例统计。统计训练集的原始标签和纠正标签总数，计算训练集中进行标签纠正的样本比例，计算公式为：

式中，ψ表示训练集中进行过标签纠正的样本比例，

表示训练集的原始标签，

表示纠正标签，N表示样本总数，

表示进行过标签纠正的样本总数。

Step 2：用纠正噪声标签后的训练集样本继续对分类器进行训练，将验证集特征向量输入分类器中得到行业分类预测概率，用交叉熵损失函数计算验证集的损失，若相比上一轮训练结果损失在下降，则继续对分类器进行训练，若验证集的损失不再下降，则判断样本集中噪声标签是否完全去除。将行业分类预测概率与阈值比较，若大于阈值，则说明噪声标签未完全去除，则执行多轮迭代过程；若行业分类预测概率小于阈值，此时Step1中样本纠正比例为0，则说明分类器模型已达最优，样本集中的噪声标签已完全去除，则停止模型训练。

Claims

1.一种基于循环重标注自助法的行业多标签降噪方法，其特征在于，包括以下步骤：

3)在模型训练过程中，基于分类器模型对样本标签的预测对原始标签进行纠正，从而实现噪声标签的识别及纠正的处理工作，降低样本集中噪声标签比例，得到更加准确的分类器模型，具体实现步骤如下：

式中，

表示在输出层激活函数为Sigmoid函数的情况下，021类型噪声标签的最低概率阈值，si表示输出层激活函数为Sigmoid函数，

表示样本原始标签，

即为样本序号与标签序号二元组的集合；

120类型的噪声标签的识别方法为：

式中，

此外，

与

之和为1，设定

的取值后，则通过该关系得到

的取值；

式中，Th^so表示在输出层激活函数为Softmax函数的情况下，021类型噪声标签的最低概率阈值，so表示输出层激活函数为Softmax函数，h表示预测标签，k表示原始标签，

表示样本i的预测概率，

表示样本i的原始标签；

120类型的噪声标签识别方法为：

303)纠正样本集中的噪声标签；对训练集和验证集的噪声标签进行纠正，将021类型的噪声标签纠正为1，将120类型的噪声标签纠正为0，并用纠正后的标签替换原始标签，更新纳税人数据集；

2.根据权利要求1所述的一种基于循环重标注自助法的行业多标签降噪方法，其特征在于，步骤1)中，采用纳税人名称和经营范围作为文本特征，按照纳税人名称在前，经营范围在后的顺序将两者拼接起来，并通过构建停用词词典和经济行业专业词典，结合分词工具对合并后的文本内容进行分词处理，并采用Word2Vec技术进行向量化处理，将纳税人名称和经营范围的向量化表示作为纳税人的文本特征；

3.根据权利要求2所述的一种基于循环重标注自助法的行业多标签降噪方法，其特征在于，步骤2)中，将待分类的样本输入至双向循环神经网络中，完成分类器模型构建并得到预测概率，其中构造分类器模型包括以下步骤：

单个Sigmoid神经元交叉熵损失函数的计算公式为：