CN112765358B

CN112765358B - 一种基于噪声标签学习的纳税人行业分类方法

Info

Publication number: CN112765358B
Application number: CN202110201214.5A
Authority: CN
Inventors: 郑庆华; 赵锐; 阮建飞; 董博; 师斌
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2021-02-23
Filing date: 2021-02-23
Publication date: 2023-04-07
Anticipated expiration: 2041-02-23
Also published as: CN112765358A; WO2022178919A1; US20230031738A1

Abstract

一种基于噪声标签学习的纳税人行业分类方法，首先，提取纳税人行业信息中待挖掘的文本信息进行文本嵌入，并对嵌入后的信息做特征处理；其次,提取纳税人行业信息中的非文本信息进行编码处理；再次，构建符合纳税人行业分类问题的BERT‑CNN深层网络结构，依据处理后的特征信息和目标类别数来确定网络的层数、每层的神经元个数以及输入输出的维度；然后，依次通过对比学习、最近邻的语义聚类及自标签学习对构建的网络进行预训练；最后，在所构建的深层网络基础上增加一个噪声建模层，通过网络的自信任以及噪声标签信息对噪声分布进行建模，并基于噪声标签数据进行模型训练；最终，将噪声建模层前的深层网络作为分类模型，基于此模型进行纳税人行业分类。

Description

一种基于噪声标签学习的纳税人行业分类方法

技术领域

本发明属于带有噪声标签的文本分类方法技术领域，特别涉及一种基于噪声标签学习的纳税人行业分类方法。

背景技术

近年来，随着国民经济的快速发展和市场经济的不断繁荣，我国的企业行业分工也不断细化。研究企业纳税人行业分类是税源分类管理的基础性工作，是提高税务档案管理电子化水平实施信息化水管的关键前提，是推进行业建模和开展税源分类监控、预警、分析以及实施专业纳税评估的重要支撑。国家税务总局印发的《纳税人分类分集管理办法》依据《国民经济行业分类》(GB/T 4754-2017)标准将企业纳税人行业分为20个门类、97个大类、473个中类和1380个小类。现有的纳税人行业分类主要通过人工实现，受限于填报人员的专业知识和经验，往往会出现分类错误的情况，这也为现有企业纳税人行业标签带来了大量的噪声。错误的企业行业分类会对国家的统计、税收、工商管理等工作产生一系列不良的影响，随着纳税人数据量日益庞大，数据类型日益复杂，如何通过大数据分析和机器学习手段基于现有的带噪标签行业分类数据学习分类器对纳税人行业进行正确分类，已成为一个亟待解决的问题，对于识别并修正现有纳税人经营范围和行业类别不相符的情况，同时为新办企业纳税人行业分类提供辅助推荐具有重要意义。

目前尚未有相关研究基于带噪标签数据对纳税人行业分类提出相应的解决方案，主要涉及的纳税人行业分类相关发明专利有：

文献1：一种基于MIMO递归神经网络的纳税人行业两层级分类方法(201910024324.1)

文献2：一种企业行业分类方法(201711137533.4)

文献1提出了一种基于MIMO递归神经网络的纳税人行业两层级分类方法，利用2维文本特征和13维非文本特征构建MIMO的GRU神经网络作为基础模型，并根据行业大类到行业明细的映射关系将基础模型进行分组融合，通过融合模型实现纳税人行业分类。

文献2设计了一种基于半监督学习的图分裂聚类算法和梯度提升决策树的企业行业分类方法，利用半监督图分裂聚类算法提取企业的主营业务关键词，并利用梯度提升决策树使用提取的关键词作为特征训练级联分类器实现企业行业分类。

上述技术方案都是基于训练数据行业标签准确的前提，训练分类模型实现纳税人行业分类。然而，现实情况下，受限于填报人员的专业知识和经验，现有数据库中的纳税人行业类别标注数据存在大量的噪声，直接将其用于模型训练，会导致行业分类准确性的急剧下降。因此，如何仅基于现有带噪标签数据构建噪声鲁棒的纳税人行业分类模型已成为一个亟待解决的问题。

发明内容

本发明旨在提供一种基于噪声标签学习的纳税人行业分类方法。首先，提取纳税人行业信息中待挖掘的文本信息进行文本嵌入，并对嵌入后的信息做特征处理；其次，提取纳税人行业信息中的非文本信息进行编码处理；再次，构建符合纳税人行业分类问题的BERT-CNN深层网络结构，依据上一步处理后的特征信息和目标类别数来确定网络的层数、每层的神经元个数以及输入输出的维度；然后，依次通过对比学习、最近邻的语义聚类及自标签学习对上一步构建的网络进行预训练；最后，在所构建的深层网络基础上增加一个噪声建模层，通过网络的自信任以及噪声标签信息对噪声分布进行建模，并基于噪声标签数据进行模型训练；最终，将噪声建模层前的深层网络作为分类模型，基于此模型进行纳税人行业分类。

为了达到以上目的，本发明采取以下技术方案：

一种基于噪声标签学习的纳税人行业分类方法，包括：

首先，提取纳税人行业信息中待挖掘的文本信息进行文本嵌入，并对嵌入后的信息做特征处理；其次，提取纳税人行业信息中的非文本信息进行编码处理；再次，构建符合纳税人行业分类问题的BERT-CNN深层网络结构，依据上一步处理后的特征信息和目标类别数来确定网络的层数、每层的神经元个数以及输入输出的维度；然后，依次通过对比学习、最近邻的语义聚类及自标签学习对上一步构建的网络进行预训练；最后，在所构建的深层网络基础上增加一个噪声建模层，通过网络的自信任以及噪声标签信息对噪声分布进行建模，并基于噪声标签数据进行模型训练；最终，将噪声建模层前的深层网络作为分类模型，基于此模型进行纳税人行业分类。

本发明进一步的改进在于，具体包括以下步骤：

1)纳税人文本信息处理

从纳税人登记信息中筛选所需的纳税人文本信息，选取基于RoBERTa训练方法的中文BERT预训练模型作为编码模型，对文本信息进行编码得到嵌入后的高维文本特征向量，并将此BERT模型作为BERT-CNN模型第一层的一部分参与模型训练；

2)纳税人非文本信息处理

从纳税人登记信息中筛选所需的纳税人非文本信息，根据非文本信息的值是否连续将其分为两类：连续的数值特征和离散的类别特征；对数值特征进行z-score归一化处理，对类别特征通过one-hot encoding方式进行编码；

3)BERT-CNN纳税人行业分类网络构建

构建一个包括输入层、卷积层、池化层和全接连层四层的BERT-CNN网络作为分类网络，根据所选取的纳税人信息维度和所需输出类别设定每层网络的神经元个数；

4)基于最近邻语义聚类的BERT-CNN网络预训练

首先基于对比学习的方式进行对比学习，根据学习到的网络将样本特征嵌入为特定维度的特征向量，依据特征向量的欧氏距离找到其K近邻；在所学到的网络上基于样本及其K近邻的特征进行最近邻语义聚类进一步训练网络；根据当前网络的聚类结果，在上一步所构建网络的基础上做自标签学习，得到最终的预训练网络；

5)基于噪声分布建模的BERT-CNN网络训练

在预训练网络的基础上添加噪声建模层，利用此层拟合噪声来实现对噪声建模，在建模层前基于最近邻语义聚类最小化近邻距离，在建模层后最小化交叉熵损失来拟合噪声，使网络可以同时获取训练样本的近邻及样本标签的信息，基于样本近邻的信息类降低噪声带来的影响，并基于经噪声建模层处理后的标签信息提升其分类精度；

6)纳税人行业分类

将经过以上五步训练得到的BERT-CNN网络作为分类网络对企业纳税人进行行业分类。

本发明进一步的改进在于，步骤1)中，纳税人文本信息处理具体包括以下步骤：

Step1：文本信息规范化

从纳税人登记信息中筛选所需的纳税人文本信息，并删除文本信息中的特殊符号、数字以及量词；

Step2：文本特征生成

纳税人登记信息中的企业名称和经营范围、地名、人名的描述中经常出现一词多义问题，利用基于RoBERTa预训练方法训练的24层中文BERT模型进行词向量嵌入能够在词嵌入时充分获取上下文信息，从而解决这一问题；同时BERT依照基于上下文的sub-word策略，将中文切分为具有上下文信息的单字，不受词典限制的将不同词的表述转换为词向量；

所述中文RoBERTa预训练方法是在BERT预训练方法上进行改进，基于Transformer双向编码表示实现的大型BERT模型预训练方法，基于此方法训练后的BERT模型对文本特征进行分词及词嵌入的具体步骤包括：

a、在文本信息前添加[CLS]标志，文本信息后添加[SEP]标志；

b、去除文本中空白字符外的控制字符和替换字符，将空白字符转换为空格；

c、按字切分句子，并去除空格和非中文字符；

d、通过预训练模型将文本信息编码，将字编码后的嵌入向量拼接为特征矩阵。

本发明进一步的改进在于，步骤2)中，通过z-score标准化将数值特征进行映射，使其均值为0，标准差为1；所述z-score方法具体步骤为：

Step1：分别计算各数值特征的样本均值μ作为对此特征期望的估计；

Step2：分别计算各数值特征的样本标准差σ作为对此特征标准差的估计；

Step3：将各数值特征分别依照z-score公式进行标准化处理

其中，X_cat表示样本X的数值特征，

表示X_cat经z-score标准化映射后的结果；

使用one-hot encoding对类别特征进行编码，详细步骤为：

Step1：使用N位的状态寄存器来表示有N种可能取值的类别特征；

Step2：状态寄存器的每一位表示一种特征取值是否有效，有效取1，无效取0，且规定每个寄存器仅一位有效；

Step3：对每个特征按照Step2规定进行编码，得到one-hot向量用于后续训练；

将处理后的特征向量通过线性层映射至与文本特征向量相同的维度，并将映射后的向量进行拼接，得到非文本特征矩阵。

本发明进一步的改进在于，步骤3)中，构建一个BERT-CNN网络；所述BERT-CNN网络共有四层网络结构，输入层分为文本特征编码部分和非文本特征映射部分；第二层为CNN卷积层，用于特征挖掘和提取；第三层对第二层的输出做最大池化max-pooling；输出层为一个全连接层，并将全连接层的输出做softmax得到最终分类结果，所述BERT-CNN网络具体构建步骤为：

Step1：构造输入层文本特征编码部分

为t个文本特征分别选定t个正整数k_i，i＝1，2，…，t，并设置t个文本特征的特征矩阵维度分别为k_i×m，设第i个文本经处理后共有h_i个字符，设置BERT字编码维度为m，依照本文提出的编码方式将其输入BERT编码层编码得到h_i×m维的中间矩阵，将中间矩阵对齐至kx×m维度则得到第一层BERT编码部分输出的特征矩阵；

具体对齐方法为：若h_i＜k_i，通过padding操作在中间矩阵上下位置添加0向量将其对齐至k_i×m维度；若h_i＞k_i，删除中间矩阵第一维索引大于k_i的向量从而将其对齐至k_i×m维度；若h_i＝k_i，则直接使用中间矩阵作为第一层BERT编码部分输出的特征矩阵；

Step2：构造输入层非文本特征映射部分

构造两个并列的线性层；

一个1×m的线性层用于处理数值特征，通过这个线性层将u个数值特征映射为u×m维的特征矩阵；

另一个线性层用于处理类别特征，设嵌入后的v个类别特征的one-hot向量维度为j_c，c＝1，2，...，v，通过在向量尾部添加0的方式将其对齐至

维，通过一个j_max×m维的线性层将v个类别特征映射至v×m维；

将BERT编码部分的输出与两个并列的线性层的输出进行拼接得到一个

的矩阵作为第一层的输出；

Step3：构造卷积层

卷积层包括维度分别为2×m、3×m、4×m、5×m、6×m的一维卷积核各一个；

Step4：构造池化层

池化层池化方法为p-maxpooling最大池化，保留每个卷积核输出的最大的p个信息并将输出连接；

Step5：构造全连接层

构造一个线性层将Step4的输出映射为一个l维向量，其中l为目标类别数，并对此向量做softmax操作。

本发明进一步的改进在于，步骤4)中，BERT-CNN网络预训练具体包括以下步骤：

Step1：对比学习

根据相似样本具有相似特征表示的思想，对样本进行mask以构造相似样本，令原样本和其mask结果间有相似的特征表示，从而提升网络的鲁棒性和特征挖掘能力；具体地，设样本X的特征经过输入层编码后的特征矩阵为S_X，由构建方式可知S_X的每个行向量分别对应文本特征中的一个字符或非文本特征中的一个特征，也就是每个行向量都对应一个原始特征；选定一个正整数mask_max，随机选取h＝{1，2，...，mask_max}，并随机mask S_X的h行令其为0向量作为对照样本，将mask后的矩阵记为ψ(S_X)；

将S_X和ψ(S_X)分别输入后续的网络，记前三层的网络参数为θ，f(X)是X经过前三层网络的映射，第三层的输出为向量f_θ(S_X)和f_θ(ψ(S_X))，通过最小化f(S_X)和f(ψ(S_X))的距离来更新网络，则训练目标为：

选取一个正整数n，根据训练目标进行反向传播更新前三层的网络参数以完成第一步预训练，并根据第三层输出向量之间的欧氏距离分别计算每个样本的n最近邻用于后续训练；

Step2：最近语义邻聚类

依据Step1中选取的近邻，由于具有相似特征向量表示的样本通常来自同一行业类别，因此缩小近邻的特征向量之间的距离有助于提升网络的分类能力，同时通过一个正则项保证各个类别的均衡以防止类别消失；

首先将网络前三层初始化为Step1训练后的网络；设共需将企业分为C类，记样本集合为

X为

中的样本，X的最近邻集合为

η为网络参数，g_η(X)为样本X经过网络映射后输出的向量，

为样本X通过网络估计分为第c类的概率，

且.

则优化目标为：

其中<·>为点积运算，λ为控制优化目标两个部分权重的超参，

根据优化目标进行反向传播更新整个网络完成第二步预训练；

Step3：自标签学习

根据前两步得到一个初步的预训练聚类网络，基于Step2训练的网络计算所有样本的聚类结果以及样本分到这一类的概率，将其中概率较高的作为原型样本，将其聚类结果作为标签对网络进行微调来提升网络表现；

选取一个阈值T，选取聚类后的各个簇上分配至这个簇的概率大于T的样本作为原型样本，并直接基于交叉熵损失，将原型样本的聚类结果作为其标签对网络进行训练，设

为原型样本集合，

为

中元素的数量，X_i为

中的样本，y′_i为X_i所在的簇，y′_i为y′_i经one-hot编码后生成的指示向量，

则训练目标为：

根据优化目标进行反向传播更新整个网络完成网络预训练工作，得到聚类网络；

Step4：噪声标签建模及分类网络训练

记当前纳税人登记信息中的带噪标签为

样本为X，样本聚类的结果为Y′，样本的真实标签为Y，假设X与

和Y′都独立，则对于任意类别

有：

显然，对于任意c，i，j，若能求得

及P(Y′＝i|Y＝j)则可将求P(Y＝j|X)的问题转化为求

从而可以基于

过滤掉其中的噪声来学习到Y的信息。

本发明进一步的改进在于，步骤5)中，通过以下方法对噪声进行建模并构建噪声建模层：

Step1：构造聚类噪声建模层

聚类噪声建模层是一个C×C的转移矩阵，记为T，其中

将T作为额外一层加到当前聚类网络后，T中的元素作为网络参数进行更新；

Step2：聚类噪声建模层预训练

固定当前聚类网络参数η，记噪声样本对

在聚类网络的输出为g(X)，通过噪声建模层后的输出为q(X)＝T^Tg(X)，对q(X)和

作交叉熵损失并进行反向传播更新T，得到经过预训练的转移矩阵T；

Step3：基于聚类噪声建模层训练聚类网络

在现有网络及噪声建模层的基础上对聚类网络进行训练并对聚类噪声建模层进行微调，通过加入噪声标签信息进一步提升网络表现，优化目标为：

其中

1(·)表示指示向量，α为调整优化目标两部分权重的参数；

Step4：生成分类置换矩阵

当前的聚类网络输出结果为聚类结果，需将其输出的类别对应至分类类别；分类置换矩阵A是一个C×C的转移矩阵，A_j，i＝P(Y′＝i|Y＝j)，在纳税人行业分类问题中可认为噪声数据中的真实数据量显著，也就是说每个类别中的噪声量小于0.5，故可以通过凸优化的方法求得置换矩阵；

具体的，凸优化限制具体步骤为：

凸优化目标为：

求得分类置换矩阵用于后续训练；

Step5：生成噪声建模矩阵

噪声建模矩阵T为一个C×C的转移矩阵，其中

基于(3)中学到的网络可以将样本分为C个簇，在每个簇上计算各噪声标签的数量，可以得到全样本上更加精确的噪声建模矩阵；

具体的，求得矩阵的方法为：

其中count(·)为计数函数，计算满足条件的样本数量，g(X)为X经过聚类网络计算后将其分至的聚类簇；

Step6：将聚类网络转置为分类网络

记W₄，b₄分别为网络输出层的权重和偏移量参数，将其进行转置：

W₄：＝AW₄

b₄：＝Ab₄

此时网络输出结果由聚类簇的估计

转置为分类结果的估计

网络转置为分类网络，记样本X经参数为η分类网络映射后的向量为h_η(X)；

Step7：构建噪声建模层并对分类网络进行微调

在分类网络输出之后构建两层矩阵组合为噪声建模层，第一个建模层为分类置换矩阵A，第二个建模层为噪声建模矩阵T，则分类网络训练目标为：

其中

通过训练目标对网络进行训练得到最终分类网络h_η(X)。

本发明进一步的改进在于，步骤6)中，通过BERT-CNN网络对纳税人行业进行分类，具体方法为：

Step1：预测纳税人行业类别概率

对于纳税人样本X，将其信息通过步骤1)和步骤2)处理后输入网络，经过网络预测得到预测向量h_η(X)，其中

为h_η(X)的第i个分量，代表X为第i类的概率P(Y＝i|X)；

Step2：纳税人行业分类

计算

则类别r为纳税人样本X所属的行业类别。

本发明至少具有以下有益的技术效果：

本发明提供的一种基于噪声标签学习的纳税人行业分类方法，充分利用现有的纳税人企业登记信息，改进了现有的分类方法，仅基于现有的带噪标签数据构建噪声鲁棒的纳税人行业分类模型，而无需额外标注。与现有技术相比，本发明的优点是：

(1)本发明直接使用现有的企业登记信息中的噪声数据进行分类模型学习，区别于现有的技术通常需要额外的精确标注数据，本发明直接基于企业登记信息中的带噪标签作为样本标签进行模型训练，节省了数据标注成本。

(2)本发明通过对比学习、最近邻语义聚类以及自标签学习的方式挖掘特征及特征间的联系，充分利用同类别样本之间的特征相似性对特征信息进行挖掘，区别于现有技术直接利用原始特征进行学习的方法，本发明能够避免浅层特征的干扰，挖掘到更多深层特征的信息，提升了分类精度；

(3)本发明提出了一种噪声建模的方法，基于前一步挖掘到高度相似的同类特征构建聚类噪声建模层，通过聚类噪声建模层将噪声标签信息加入聚类网络，提升了聚类精度；此后基于聚类结果构造分类噪声建模层和分类置换矩阵层，并基于所构造的分类噪声建模层和分类置换矩阵层进行分类模型的训练，有效降低了噪声对分类网络训练的影响，保证了纳税人分类网络的噪声鲁棒性，提升了带噪标签数据下的纳税人分类精度。

附图说明

图1为整体框架流程图。

图2为纳税人文本信息处理流程图。

图3为纳税人非文本信息处理流程图。

图4为纳税人BERT-CNN分类网络构建流程图。

图5为基于最近邻语义聚类的BERT-CNN网络预训练流程图。

图6为基于噪声分布建模的BERT-CNN网络训练流程图。

图7为纳税人行业分类流程图。

图8为聚类噪声建模网络示意图。

图9为分类噪声学习网络示意图。

具体实施方式

以下结合附图和实施例对本发明做出进一步的说明。

实施例

选取某地区国税中2017年至2019年登记注册的纳税人信息，包含97个行业大类。以下参照附图，结合实验案例及具体实施方式对本发明作进一步的详细描述。凡基于本发明内容所实现的技术均属于本发明的范围。

如图1所示，本发明的具体实施中，基于噪声标签学习的纳税人行业分类包括以下步骤：

步骤1.纳税人文本信息处理

纳税人行业信息登记表中有很多有用信息是以字符串文本的形式存储在数据库中。登记纳税人信息和登记纳税人信息扩展表中提取{纳税人名称，主营，兼营，经营方式，经营范围}五列作为文本特征。文本特征处理实施过程如图2，具体包括以下步骤：

S101.文本信息规范化

从纳税人登记信息表中筛选所需的纳税人文本信息，并删除文本信息中的特殊符号、数字以及量词；

S102.BERT文本编码

文本特征生成主要包括以下步骤：在文本信息前后添加分句标志，处理文本中空白字符外的控制字符、替换字符和空白字符，按字切分句子并去除空格和非中文字符，通过BERT预训练模型将文本信息编码；

S103.文本特征矩阵生成

将字编码后的嵌入向量拼接为文本特征矩阵。

本实施例中，选取纳税人名称为“陕西省西安市雁塔区α全景VR科技有限公司”，经过步骤1后，删除特殊符号α(图2 S101)，随后在文本前后添加分句标志，处理非中文字符后删除AR，按字切分为{陕，西，省，西，安，市，雁，塔，区，全，景，科，技，有，限，公，司}，选取编码长度为768维，通过BERT预训练模型对字编码(图2 S102)，将编码后的嵌入向量拼接后得到一个17×768维的特征矩阵(图2 S103)。

步骤2.纳税人非文本信息处理

纳税人登记信息数据库中除了文本信息还包括一些非文本信息，非文本信息中存在更直观的特征，这些非文本信息对于纳税人行业分类、聚类及异常检测同样具有重要价值。

如图3所示，本实施例非文本属性详细的处理步骤包括：

S201.数值特征标准化

查询纳税人行业信息数据库中登记纳税人信息和登记纳税人信息扩展表，选取{注册资本，投资总额，从业人数，外籍人数，合伙人数，固定人数，自然人投资比例，外资投资比例，国有投资比例}9列作为数值特征，对上述9列特征进行z-score处理。

具体地，本实施例中，首先计算上述9列特征的样本均值μ₁，μ₂，…，μ₉以及样本方差σ₁，σ₂，...，σ₉，记X_i为样本X第i个数值特征的取值，则通过z-score公式

将9列上的特征进行映射来实现数值特征标准化(图3 S201)。

S202.类别特征One-Hot编码

查询纳税人行业信息数据库中登记纳税人信息和登记纳税人信息扩展表，选取{登记注册类型，总结构标志，是否为国地税共管户，执照类别代码，行业明细代码，是否从事国家限制和禁止行业，电子发票企业标志}7列作为类别特征，对上述7列特征进行one-hot编码处理。

本实施例中，选取总机构标志特征为例，首先计算总机构标志特征的取值范围，经计算后总机构标志取值共有{总机构，非总机构，分支机构}3类，故设置3位寄存器对其进行编码；然后将{总机构，非总机构，分支机构}分别映射为{001，010，100}三种寄存器编码；最后根据映射规则将总机构标志列的所有特征进行编码(图3 S202)。

S203.特征映射

非文本特征和文本特征经过步骤S201和S202处理后，得到特征向量，将这些特征向量通过线性层映射并进行拼接，得到完整的数值特征矩阵。

具体的，本实施例中，首先通过构造一个1×768维的线性层将标准化后数值特征映射为768维的特征向量；然后比较不同类别特征的编码寄存器最大维度，经比较得到最大维度为264维，将不足264维的编码后补0至264维；最后构造一个264×768维的线性层将类别特征编码映射至768维，并将两个线性层映射后的向量进行拼接得到非文本特征向量矩阵(图3 S203)。

步骤3.构建纳税人行业分类网络(BERT-CNN)

所述BERT-CNN网络共有四层网络结构，输入层分为文本特征编码部分和非文本特征映射部分；第二层为CNN卷积层，用于特征挖掘和提取；第三层对第二层的输出做最大池化(max-pooling)；输出层为一个带softmax的全连接层。

具体的，本实施例中，首先将768维的BERT编码部分、一个1×768维的数值特征映射线性层和一个264×768维的类别特征映射线性层作为第一层；首先，BERT编码部分，本实施例中分别为{纳税人名称，主营，兼营，经营方式，经营范围}五个特征设定特征矩阵维度为{20×768，20×768，20×768，10×768，100×768}；具体的，以纳税人名称为例，输出设定为20×768维的矩阵，对于切分后不足20个字的通过补0对齐，超过20字的进行截取，数值特征映射线性层输出为一个9×768维的矩阵，类别特征映射线性层输出为一个7×768维的矩阵，将三个矩阵拼接维一个36×768维的矩阵作为本层的输出(图4 S301)；第二层构造2×768、3×768、4×768、5×768、6×768的一维卷积核各一个对上一层的矩阵进行卷积操作(图4 S302)；第三层为一个池化层，此层对上一层的输出进行2-maxpooling最大池化，保留每个卷积核输出的最大的2个信息并将其进行拼接(图4 S303)；最后构造一个全连接层将上一层的输出映射为一个97维的向量(图4 S304)。

步骤4.基于最近邻语义聚类的BERT-CNN网络预训练

所述基于最近邻语义聚类的BERT-CNN网络预训练共分为对比学习、最近邻语义聚类和自标签学习三步；首先根据相似样本具有相似特征表示的思想，对样本进行mask以构造相似样本，通过最小化原样本与对照样本网络特征表示的距离来进行对比学习；其次根据网络特征表示选取多个样本最近邻，通过最小化最近邻之间网络特征表示的距离来进行最近邻语义聚类；最后通过选取置信度较高的样本作为原型样本，基于原型样本的簇标签来进行自标签学习。

具体的，本实施例中，将数据集按照8∶1∶1的比例划分为训练集、验证集和测试集。利用训练集进行网络训练，利用验证集选取训练模型，利用测试集进行模型效果检测。具体训练过程为：首先设样本X的特征经过输入层编码后的特征矩阵为S_X，由构建方式可知S_X的每个行向量分别对应文本特征中的一个字符或非文本特征中的一个特征，也就是每个行向量都对应一个原始特征，随机选取一个数h∈{1，2，...，10}，并随机令S_X的h行为0向量作为对照样本，将mask后的矩阵记为ψ(S_X)，记前三层的网络参数为θ，第三层的输出为向量f_θ(S_X)和f_θ(ψ(S_X))，将

作为训练目标进行反向传播实现对比学习，最终根据第三层输出向量之间的欧氏距离分别计算每个样本的20最近邻用于后续训练(图5S401)；其次，依据对比学习选取的近邻，记样本集合为

X为

中的样本，X的最近邻集合为

η为网络参数，g_η(X)为样本X经过网络映射后输出的向量，

为样本X通过网络估计分为第c类的概率，

且

将

作为优化目标进行反向传播实现最近邻语义聚类(图5 S402)；最后，选取聚类后的各个簇上分配至这个簇的概率大于0.9的样本作为原型样本，记原型样本集合为

为

中元素的数量，X_i为

将

作为优化目标，通过反向传播实现自标签学习，得到一个聚类网络(图5 S403)。

步骤5.基于噪声分布建模的BERT-CNN网络训练

所述基于噪声分布建模的BERT-CNN网络预训练包括构造聚类噪声建模层、聚类噪声建模层预训练、基于聚类噪声建模层训练聚类网络、生成分类置换矩阵、生成分类噪声建模矩阵、将聚类网络转置为分类网络、构建分类噪声建模层并对分类网络进行训练。

具体的，本实施例中，构建一个97×97的转移矩阵T，将T作为额外一层加到当前聚类网络后(图6 S501)；固定当前聚类网络参数η记噪声样本对

在聚类网络的输出为g(X)，通过噪声建模层后的输出为q(X)＝T^Tg_η(X)，对q(X)和

作交叉熵损失并进行反向传播更新T(图6 S502)；在现有网络及噪声建模层的基础上对聚类网络进行训练并对聚类噪声建模层进行微调，通过加入噪声标签信息进一步提升网络表现，将

作为优化目标进行反向传播来训练网络(图6 S503)，训练网络构成如图8所示；通过凸优化的方式构造一个97×97维的置换矩阵A(图6 S504)；使用聚类网络将样本分为97个簇，在每个簇上计算各噪声标签的数量，构建一个噪声建模矩阵T(图6 S505)；基于置换矩阵A将网络输出层的权重和偏移量进行置换，将聚类网络置换为分类网络h_η(X)(图6S506)；如图9所示，构造两层的噪声建模层，第一个建模层为分类置换矩阵A，第二个建模层为噪声建模矩阵T，使用

作为分类网络训练目标，进行反向传播得到最终分类网络h_η(X)(图6 S507)。

步骤6.纳税人行业分类

如图9所示，基于所训练网络的前四层作为最终分类网络进行纳税人行业分类，具体包括预测纳税人行业类别概率和纳税人行业分类两步。

具体的，本实施例中，将测试集样本X输入网络得到97维的分类概率向量g_η(X)(图7 S601)，从向量中取最大值的索引作为X的分类结果(图7 S602)。

本领域的技术人员容易理解，以上所述仅为本发明的方法实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于噪声标签学习的纳税人行业分类方法，其特征在于，包括：

首先，提取纳税人行业信息中待挖掘的文本信息进行文本嵌入，并对嵌入后的信息做特征处理；其次，提取纳税人行业信息中的非文本信息进行编码处理；再次，构建符合纳税人行业分类问题的BERT-CNN深层网络结构，依据上一步处理后的特征信息和目标类别数来确定网络的层数、每层的神经元个数以及输入输出的维度；然后，依次通过对比学习、最近邻的语义聚类及自标签学习对上一步构建的网络进行预训练；最后，在所构建的深层网络基础上增加一个噪声建模层，通过网络的自信任以及噪声标签信息对噪声分布进行建模，并基于噪声标签数据进行模型训练；最终，将噪声建模层前的深层网络作为分类模型，基于此模型进行纳税人行业分类；

其中，通过以下方法对噪声进行建模并构建噪声建模层：

Step1：构造聚类噪声建模层

聚类噪声建模层是一个C×C的转移矩阵，记为T，其中

Step2：聚类噪声建模层预训练

固定当前聚类网络参数η，记噪声样本对

在聚类网络的输出为g(X)，通过噪声建模层后的输出为

对q(X)和

Step3：基于聚类噪声建模层训练聚类网络

其中

1(·)表示指示向量，α为调整优化目标两部分权重的参数；

Step4：生成分类置换矩阵

具体的，凸优化限制具体步骤为：

凸优化目标为：

求得分类置换矩阵用于后续训练；

Step5：生成噪声建模矩阵

噪声建模矩阵T为一个C×C的转移矩阵，其中

具体的，求得矩阵的方法为：

Step6：将聚类网络转置为分类网络

W₄：＝AW₄

b₄：＝Ab₄

此时网络输出结果由聚类簇的估计

转置为分类结果的估计

Step7：构建噪声建模层并对分类网络进行微调

其中

通过训练目标对网络进行训练得到最终分类网络h_η(X)。

2.根据权利要求1所述的一种基于噪声标签学习的纳税人行业分类方法，其特征在于，具体包括以下步骤：

1)纳税人文本信息处理

2)纳税人非文本信息处理

3)BERT-CNN纳税人行业分类网络构建

构建一个包括输入层、卷积层、池化层和全接连层四层的BERI-CNN网络作为分类网络，根据所选取的纳税人信息维度和所需输出类别设定每层网络的神经元个数；

4)基于最近邻语义聚类的BERT-CNN网络预训练

5)基于噪声分布建模的BERT-CNN网络训练

6)纳税人行业分类

3.根据权利要求2所述的一种基于噪声标签学习的纳税人行业分类方法，其特征在于，步骤1)中，纳税人文本信息处理具体包括以下步骤：

Step1：文本信息规范化

Step2：文本特征生成

a、在文本信息前添加[CLS]标志，文本信息后添加[SEP]标志；

c、按字切分句子，并去除空格和非中文字符；

4.根据权利要求3所述的一种基于噪声标签学习的纳税人行业分类方法，其特征在于，步骤2)中，通过z-score标准化将数值特征进行映射，使其均值为0，标准差为1；所述z-score方法具体步骤为：

Step3：将各数值特征分别依照z-score公式进行标准化处理

其中，X_cat表示样本X的数值特征，

表示X_cat经z-score标准化映射后的结果；

使用one-hot encoding对类别特征进行编码，详细步骤为：

5.根据权利要求4所述的一种基于噪声标签学习的纳税人行业分类方法，其特征在于，步骤3)中，构建一个BERT-CNN网络；所述BERT-CNN网络共有四层网络结构，输入层分为文本特征编码部分和非文本特征映射部分；第二层为CNN卷积层，用于特征挖掘和提取；第三层对第二层的输出做最大池化max-pooling；输出层为一个全连接层，并将全连接层的输出做softmax得到最终分类结果，所述BERT-CNN网络具体构建步骤为：

Step1：构造输入层文本特征编码部分

为t个文本特征分别选定t个正整数k_i，i＝1，2，...，t，并设置t个文本特征的特征矩阵维度分别为k_i×m，设第i个文本经处理后共有h_i个字符，设置BERT字编码维度为m，依照本文提出的编码方式将其输入BERT编码层编码得到h_i×m维的中间矩阵，将中间矩阵对齐至k_i×m维度则得到第一层BERT编码部分输出的特征矩阵；

Step2：构造输入层非文本特征映射部分

构造两个并列的线性层；

另一个线性层用于处理类别特征，设嵌入后的v个类别特征的one-hot向量维度为jc，c＝1，2，....，v，通过在向量尾部添加0的方式将其对齐至

维，通过一个j_max×m维的线性层将v个类别特征映射至u×m维；

的矩阵作为第一层的输出；

Step3：构造卷积层

Step4：构造池化层

Step5：构造全连接层

6.根据权利要求5所述的一种基于噪声标签学习的纳税人行业分类方法，其特征在于，步骤4)中，BERT-CNN网络预训练具体包括以下步骤：

Step1：对比学习

根据相似样本具有相似特征表示的思想，对样本进行mask以构造相似样本，令原样本和其mask结果间有相似的特征表示，从而提升网络的鲁棒性和特征挖掘能力；具体地，设样本X的特征经过输入层编码后的特征矩阵为S_X，由构建方式可知S_X的每个行向量分别对应文本特征中的一个字符或非文本特征中的一个特征，也就是每个行向量都对应一个原始特征；选定一个正整数mask_max，随机选取h＝{1，2，....，mask_max}，并随机maskS_X的h行令其为0向量作为对照样本，将mask后的矩阵记为ψ(S_X)；