CN112765358B - 一种基于噪声标签学习的纳税人行业分类方法 - Google Patents

一种基于噪声标签学习的纳税人行业分类方法 Download PDF

Info

Publication number
CN112765358B
CN112765358B CN202110201214.5A CN202110201214A CN112765358B CN 112765358 B CN112765358 B CN 112765358B CN 202110201214 A CN202110201214 A CN 202110201214A CN 112765358 B CN112765358 B CN 112765358B
Authority
CN
China
Prior art keywords
network
layer
taxpayer
noise
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110201214.5A
Other languages
English (en)
Other versions
CN112765358A (zh
Inventor
郑庆华
赵锐
阮建飞
董博
师斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN202110201214.5A priority Critical patent/CN112765358B/zh
Priority to PCT/CN2021/079378 priority patent/WO2022178919A1/zh
Publication of CN112765358A publication Critical patent/CN112765358A/zh
Priority to US17/956,879 priority patent/US20230031738A1/en
Application granted granted Critical
Publication of CN112765358B publication Critical patent/CN112765358B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • G06F40/129Handling non-Latin characters, e.g. kana-to-kanji conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/10Tax strategies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Business, Economics & Management (AREA)
  • Technology Law (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于噪声标签学习的纳税人行业分类方法,首先,提取纳税人行业信息中待挖掘的文本信息进行文本嵌入,并对嵌入后的信息做特征处理;其次,提取纳税人行业信息中的非文本信息进行编码处理;再次,构建符合纳税人行业分类问题的BERT‑CNN深层网络结构,依据处理后的特征信息和目标类别数来确定网络的层数、每层的神经元个数以及输入输出的维度;然后,依次通过对比学习、最近邻的语义聚类及自标签学习对构建的网络进行预训练;最后,在所构建的深层网络基础上增加一个噪声建模层,通过网络的自信任以及噪声标签信息对噪声分布进行建模,并基于噪声标签数据进行模型训练;最终,将噪声建模层前的深层网络作为分类模型,基于此模型进行纳税人行业分类。

Description

一种基于噪声标签学习的纳税人行业分类方法
技术领域
本发明属于带有噪声标签的文本分类方法技术领域,特别涉及一种基于噪声标签学习的纳税人行业分类方法。
背景技术
近年来,随着国民经济的快速发展和市场经济的不断繁荣,我国的企业行业分工也不断细化。研究企业纳税人行业分类是税源分类管理的基础性工作,是提高税务档案管理电子化水平实施信息化水管的关键前提,是推进行业建模和开展税源分类监控、预警、分析以及实施专业纳税评估的重要支撑。国家税务总局印发的《纳税人分类分集管理办法》依据《国民经济行业分类》(GB/T 4754-2017)标准将企业纳税人行业分为20个门类、97个大类、473个中类和1380个小类。现有的纳税人行业分类主要通过人工实现,受限于填报人员的专业知识和经验,往往会出现分类错误的情况,这也为现有企业纳税人行业标签带来了大量的噪声。错误的企业行业分类会对国家的统计、税收、工商管理等工作产生一系列不良的影响,随着纳税人数据量日益庞大,数据类型日益复杂,如何通过大数据分析和机器学习手段基于现有的带噪标签行业分类数据学习分类器对纳税人行业进行正确分类,已成为一个亟待解决的问题,对于识别并修正现有纳税人经营范围和行业类别不相符的情况,同时为新办企业纳税人行业分类提供辅助推荐具有重要意义。
目前尚未有相关研究基于带噪标签数据对纳税人行业分类提出相应的解决方案,主要涉及的纳税人行业分类相关发明专利有:
文献1:一种基于MIMO递归神经网络的纳税人行业两层级分类方法(201910024324.1)
文献2:一种企业行业分类方法(201711137533.4)
文献1提出了一种基于MIMO递归神经网络的纳税人行业两层级分类方法,利用2维文本特征和13维非文本特征构建MIMO的GRU神经网络作为基础模型,并根据行业大类到行业明细的映射关系将基础模型进行分组融合,通过融合模型实现纳税人行业分类。
文献2设计了一种基于半监督学习的图分裂聚类算法和梯度提升决策树的企业行业分类方法,利用半监督图分裂聚类算法提取企业的主营业务关键词,并利用梯度提升决策树使用提取的关键词作为特征训练级联分类器实现企业行业分类。
上述技术方案都是基于训练数据行业标签准确的前提,训练分类模型实现纳税人行业分类。然而,现实情况下,受限于填报人员的专业知识和经验,现有数据库中的纳税人行业类别标注数据存在大量的噪声,直接将其用于模型训练,会导致行业分类准确性的急剧下降。因此,如何仅基于现有带噪标签数据构建噪声鲁棒的纳税人行业分类模型已成为一个亟待解决的问题。
发明内容
本发明旨在提供一种基于噪声标签学习的纳税人行业分类方法。首先,提取纳税人行业信息中待挖掘的文本信息进行文本嵌入,并对嵌入后的信息做特征处理;其次,提取纳税人行业信息中的非文本信息进行编码处理;再次,构建符合纳税人行业分类问题的BERT-CNN深层网络结构,依据上一步处理后的特征信息和目标类别数来确定网络的层数、每层的神经元个数以及输入输出的维度;然后,依次通过对比学习、最近邻的语义聚类及自标签学习对上一步构建的网络进行预训练;最后,在所构建的深层网络基础上增加一个噪声建模层,通过网络的自信任以及噪声标签信息对噪声分布进行建模,并基于噪声标签数据进行模型训练;最终,将噪声建模层前的深层网络作为分类模型,基于此模型进行纳税人行业分类。
为了达到以上目的,本发明采取以下技术方案:
一种基于噪声标签学习的纳税人行业分类方法,包括:
首先,提取纳税人行业信息中待挖掘的文本信息进行文本嵌入,并对嵌入后的信息做特征处理;其次,提取纳税人行业信息中的非文本信息进行编码处理;再次,构建符合纳税人行业分类问题的BERT-CNN深层网络结构,依据上一步处理后的特征信息和目标类别数来确定网络的层数、每层的神经元个数以及输入输出的维度;然后,依次通过对比学习、最近邻的语义聚类及自标签学习对上一步构建的网络进行预训练;最后,在所构建的深层网络基础上增加一个噪声建模层,通过网络的自信任以及噪声标签信息对噪声分布进行建模,并基于噪声标签数据进行模型训练;最终,将噪声建模层前的深层网络作为分类模型,基于此模型进行纳税人行业分类。
本发明进一步的改进在于,具体包括以下步骤:
1)纳税人文本信息处理
从纳税人登记信息中筛选所需的纳税人文本信息,选取基于RoBERTa训练方法的中文BERT预训练模型作为编码模型,对文本信息进行编码得到嵌入后的高维文本特征向量,并将此BERT模型作为BERT-CNN模型第一层的一部分参与模型训练;
2)纳税人非文本信息处理
从纳税人登记信息中筛选所需的纳税人非文本信息,根据非文本信息的值是否连续将其分为两类:连续的数值特征和离散的类别特征;对数值特征进行z-score归一化处理,对类别特征通过one-hot encoding方式进行编码;
3)BERT-CNN纳税人行业分类网络构建
构建一个包括输入层、卷积层、池化层和全接连层四层的BERT-CNN网络作为分类网络,根据所选取的纳税人信息维度和所需输出类别设定每层网络的神经元个数;
4)基于最近邻语义聚类的BERT-CNN网络预训练
首先基于对比学习的方式进行对比学习,根据学习到的网络将样本特征嵌入为特定维度的特征向量,依据特征向量的欧氏距离找到其K近邻;在所学到的网络上基于样本及其K近邻的特征进行最近邻语义聚类进一步训练网络;根据当前网络的聚类结果,在上一步所构建网络的基础上做自标签学习,得到最终的预训练网络;
5)基于噪声分布建模的BERT-CNN网络训练
在预训练网络的基础上添加噪声建模层,利用此层拟合噪声来实现对噪声建模,在建模层前基于最近邻语义聚类最小化近邻距离,在建模层后最小化交叉熵损失来拟合噪声,使网络可以同时获取训练样本的近邻及样本标签的信息,基于样本近邻的信息类降低噪声带来的影响,并基于经噪声建模层处理后的标签信息提升其分类精度;
6)纳税人行业分类
将经过以上五步训练得到的BERT-CNN网络作为分类网络对企业纳税人进行行业分类。
本发明进一步的改进在于,步骤1)中,纳税人文本信息处理具体包括以下步骤:
Step1:文本信息规范化
从纳税人登记信息中筛选所需的纳税人文本信息,并删除文本信息中的特殊符号、数字以及量词;
Step2:文本特征生成
纳税人登记信息中的企业名称和经营范围、地名、人名的描述中经常出现一词多义问题,利用基于RoBERTa预训练方法训练的24层中文BERT模型进行词向量嵌入能够在词嵌入时充分获取上下文信息,从而解决这一问题;同时BERT依照基于上下文的sub-word策略,将中文切分为具有上下文信息的单字,不受词典限制的将不同词的表述转换为词向量;
所述中文RoBERTa预训练方法是在BERT预训练方法上进行改进,基于Transformer双向编码表示实现的大型BERT模型预训练方法,基于此方法训练后的BERT模型对文本特征进行分词及词嵌入的具体步骤包括:
a、在文本信息前添加[CLS]标志,文本信息后添加[SEP]标志;
b、去除文本中空白字符外的控制字符和替换字符,将空白字符转换为空格;
c、按字切分句子,并去除空格和非中文字符;
d、通过预训练模型将文本信息编码,将字编码后的嵌入向量拼接为特征矩阵。
本发明进一步的改进在于,步骤2)中,通过z-score标准化将数值特征进行映射,使其均值为0,标准差为1;所述z-score方法具体步骤为:
Step1:分别计算各数值特征的样本均值μ作为对此特征期望的估计;
Step2:分别计算各数值特征的样本标准差σ作为对此特征标准差的估计;
Step3:将各数值特征分别依照z-score公式进行标准化处理
Figure BDA0002949011700000051
其中,Xcat表示样本X的数值特征,
Figure BDA0002949011700000052
表示Xcat经z-score标准化映射后的结果;
使用one-hot encoding对类别特征进行编码,详细步骤为:
Step1:使用N位的状态寄存器来表示有N种可能取值的类别特征;
Step2:状态寄存器的每一位表示一种特征取值是否有效,有效取1,无效取0,且规定每个寄存器仅一位有效;
Step3:对每个特征按照Step2规定进行编码,得到one-hot向量用于后续训练;
将处理后的特征向量通过线性层映射至与文本特征向量相同的维度,并将映射后的向量进行拼接,得到非文本特征矩阵。
本发明进一步的改进在于,步骤3)中,构建一个BERT-CNN网络;所述BERT-CNN网络共有四层网络结构,输入层分为文本特征编码部分和非文本特征映射部分;第二层为CNN卷积层,用于特征挖掘和提取;第三层对第二层的输出做最大池化max-pooling;输出层为一个全连接层,并将全连接层的输出做softmax得到最终分类结果,所述BERT-CNN网络具体构建步骤为:
Step1:构造输入层文本特征编码部分
为t个文本特征分别选定t个正整数ki,i=1,2,…,t,并设置t个文本特征的特征矩阵维度分别为ki×m,设第i个文本经处理后共有hi个字符,设置BERT字编码维度为m,依照本文提出的编码方式将其输入BERT编码层编码得到hi×m维的中间矩阵,将中间矩阵对齐至kx×m维度则得到第一层BERT编码部分输出的特征矩阵;
具体对齐方法为:若hi<ki,通过padding操作在中间矩阵上下位置添加0向量将其对齐至ki×m维度;若hi>ki,删除中间矩阵第一维索引大于ki的向量从而将其对齐至ki×m维度;若hi=ki,则直接使用中间矩阵作为第一层BERT编码部分输出的特征矩阵;
Step2:构造输入层非文本特征映射部分
构造两个并列的线性层;
一个1×m的线性层用于处理数值特征,通过这个线性层将u个数值特征映射为u×m维的特征矩阵;
另一个线性层用于处理类别特征,设嵌入后的v个类别特征的one-hot向量维度为jc,c=1,2,...,v,通过在向量尾部添加0的方式将其对齐至
Figure BDA0002949011700000061
维,通过一个jmax×m维的线性层将v个类别特征映射至v×m维;
将BERT编码部分的输出与两个并列的线性层的输出进行拼接得到一个
Figure BDA0002949011700000062
的矩阵作为第一层的输出;
Step3:构造卷积层
卷积层包括维度分别为2×m、3×m、4×m、5×m、6×m的一维卷积核各一个;
Step4:构造池化层
池化层池化方法为p-maxpooling最大池化,保留每个卷积核输出的最大的p个信息并将输出连接;
Step5:构造全连接层
构造一个线性层将Step4的输出映射为一个l维向量,其中l为目标类别数,并对此向量做softmax操作。
本发明进一步的改进在于,步骤4)中,BERT-CNN网络预训练具体包括以下步骤:
Step1:对比学习
根据相似样本具有相似特征表示的思想,对样本进行mask以构造相似样本,令原样本和其mask结果间有相似的特征表示,从而提升网络的鲁棒性和特征挖掘能力;具体地,设样本X的特征经过输入层编码后的特征矩阵为SX,由构建方式可知SX的每个行向量分别对应文本特征中的一个字符或非文本特征中的一个特征,也就是每个行向量都对应一个原始特征;选定一个正整数maskmax,随机选取h={1,2,...,maskmax},并随机mask SX的h行令其为0向量作为对照样本,将mask后的矩阵记为ψ(SX);
将SX和ψ(SX)分别输入后续的网络,记前三层的网络参数为θ,f(X)是X经过前三层网络的映射,第三层的输出为向量fθ(SX)和fθ(ψ(SX)),通过最小化f(SX)和f(ψ(SX))的距离来更新网络,则训练目标为:
Figure BDA0002949011700000071
选取一个正整数n,根据训练目标进行反向传播更新前三层的网络参数以完成第一步预训练,并根据第三层输出向量之间的欧氏距离分别计算每个样本的n最近邻用于后续训练;
Step2:最近语义邻聚类
依据Step1中选取的近邻,由于具有相似特征向量表示的样本通常来自同一行业类别,因此缩小近邻的特征向量之间的距离有助于提升网络的分类能力,同时通过一个正则项保证各个类别的均衡以防止类别消失;
首先将网络前三层初始化为Step1训练后的网络;设共需将企业分为C类,记样本集合为
Figure BDA0002949011700000081
X为
Figure BDA0002949011700000082
中的样本,X的最近邻集合为
Figure BDA0002949011700000083
η为网络参数,gη(X)为样本X经过网络映射后输出的向量,
Figure BDA0002949011700000084
为样本X通过网络估计分为第c类的概率,
Figure BDA0002949011700000085
且.
Figure BDA0002949011700000086
则优化目标为:
Figure BDA0002949011700000087
其中<·>为点积运算,λ为控制优化目标两个部分权重的超参,
Figure BDA0002949011700000088
根据优化目标进行反向传播更新整个网络完成第二步预训练;
Step3:自标签学习
根据前两步得到一个初步的预训练聚类网络,基于Step2训练的网络计算所有样本的聚类结果以及样本分到这一类的概率,将其中概率较高的作为原型样本,将其聚类结果作为标签对网络进行微调来提升网络表现;
选取一个阈值T,选取聚类后的各个簇上分配至这个簇的概率大于T的样本作为原型样本,并直接基于交叉熵损失,将原型样本的聚类结果作为其标签对网络进行训练,设
Figure BDA0002949011700000089
为原型样本集合,
Figure BDA00029490117000000810
Figure BDA00029490117000000811
中元素的数量,Xi
Figure BDA00029490117000000812
中的样本,y′i为Xi所在的簇,y′i为y′i经one-hot编码后生成的指示向量,
Figure BDA00029490117000000813
则训练目标为:
Figure BDA00029490117000000814
根据优化目标进行反向传播更新整个网络完成网络预训练工作,得到聚类网络;
Step4:噪声标签建模及分类网络训练
记当前纳税人登记信息中的带噪标签为
Figure BDA00029490117000000815
样本为X,样本聚类的结果为Y′,样本的真实标签为Y,假设X与
Figure BDA0002949011700000091
和Y′都独立,则对于任意类别
Figure BDA0002949011700000092
有:
Figure BDA0002949011700000093
显然,对于任意c,i,j,若能求得
Figure BDA0002949011700000094
及P(Y′=i|Y=j)则可将求P(Y=j|X)的问题转化为求
Figure BDA0002949011700000095
从而可以基于
Figure BDA0002949011700000096
过滤掉其中的噪声来学习到Y的信息。
本发明进一步的改进在于,步骤5)中,通过以下方法对噪声进行建模并构建噪声建模层:
Step1:构造聚类噪声建模层
聚类噪声建模层是一个C×C的转移矩阵,记为T,其中
Figure BDA0002949011700000097
将T作为额外一层加到当前聚类网络后,T中的元素作为网络参数进行更新;
Step2:聚类噪声建模层预训练
固定当前聚类网络参数η,记噪声样本对
Figure BDA0002949011700000098
在聚类网络的输出为g(X),通过噪声建模层后的输出为q(X)=TTg(X),对q(X)和
Figure BDA0002949011700000099
作交叉熵损失并进行反向传播更新T,得到经过预训练的转移矩阵T;
Step3:基于聚类噪声建模层训练聚类网络
在现有网络及噪声建模层的基础上对聚类网络进行训练并对聚类噪声建模层进行微调,通过加入噪声标签信息进一步提升网络表现,优化目标为:
Figure BDA00029490117000000910
其中
Figure BDA00029490117000000911
1(·)表示指示向量,α为调整优化目标两部分权重的参数;
Step4:生成分类置换矩阵
当前的聚类网络输出结果为聚类结果,需将其输出的类别对应至分类类别;分类置换矩阵A是一个C×C的转移矩阵,Aj,i=P(Y′=i|Y=j),在纳税人行业分类问题中可认为噪声数据中的真实数据量显著,也就是说每个类别中的噪声量小于0.5,故可以通过凸优化的方法求得置换矩阵;
具体的,凸优化限制具体步骤为:
Figure BDA0002949011700000101
Figure BDA0002949011700000102
Figure BDA0002949011700000103
凸优化目标为:
Figure BDA0002949011700000104
求得分类置换矩阵用于后续训练;
Step5:生成噪声建模矩阵
噪声建模矩阵T为一个C×C的转移矩阵,其中
Figure BDA0002949011700000105
基于(3)中学到的网络可以将样本分为C个簇,在每个簇上计算各噪声标签的数量,可以得到全样本上更加精确的噪声建模矩阵;
具体的,求得矩阵的方法为:
Figure BDA0002949011700000106
其中count(·)为计数函数,计算满足条件的样本数量,g(X)为X经过聚类网络计算后将其分至的聚类簇;
Step6:将聚类网络转置为分类网络
记W4,b4分别为网络输出层的权重和偏移量参数,将其进行转置:
W4:=AW4
b4:=Ab4
此时网络输出结果由聚类簇的估计
Figure BDA0002949011700000111
转置为分类结果的估计
Figure BDA0002949011700000112
网络转置为分类网络,记样本X经参数为η分类网络映射后的向量为hη(X);
Step7:构建噪声建模层并对分类网络进行微调
在分类网络输出之后构建两层矩阵组合为噪声建模层,第一个建模层为分类置换矩阵A,第二个建模层为噪声建模矩阵T,则分类网络训练目标为:
Figure BDA0002949011700000113
其中
Figure BDA0002949011700000114
通过训练目标对网络进行训练得到最终分类网络hη(X)。
本发明进一步的改进在于,步骤6)中,通过BERT-CNN网络对纳税人行业进行分类,具体方法为:
Step1:预测纳税人行业类别概率
对于纳税人样本X,将其信息通过步骤1)和步骤2)处理后输入网络,经过网络预测得到预测向量hη(X),其中
Figure BDA0002949011700000115
为hη(X)的第i个分量,代表X为第i类的概率P(Y=i|X);
Step2:纳税人行业分类
计算
Figure BDA0002949011700000116
则类别r为纳税人样本X所属的行业类别。
本发明至少具有以下有益的技术效果:
本发明提供的一种基于噪声标签学习的纳税人行业分类方法,充分利用现有的纳税人企业登记信息,改进了现有的分类方法,仅基于现有的带噪标签数据构建噪声鲁棒的纳税人行业分类模型,而无需额外标注。与现有技术相比,本发明的优点是:
(1)本发明直接使用现有的企业登记信息中的噪声数据进行分类模型学习,区别于现有的技术通常需要额外的精确标注数据,本发明直接基于企业登记信息中的带噪标签作为样本标签进行模型训练,节省了数据标注成本。
(2)本发明通过对比学习、最近邻语义聚类以及自标签学习的方式挖掘特征及特征间的联系,充分利用同类别样本之间的特征相似性对特征信息进行挖掘,区别于现有技术直接利用原始特征进行学习的方法,本发明能够避免浅层特征的干扰,挖掘到更多深层特征的信息,提升了分类精度;
(3)本发明提出了一种噪声建模的方法,基于前一步挖掘到高度相似的同类特征构建聚类噪声建模层,通过聚类噪声建模层将噪声标签信息加入聚类网络,提升了聚类精度;此后基于聚类结果构造分类噪声建模层和分类置换矩阵层,并基于所构造的分类噪声建模层和分类置换矩阵层进行分类模型的训练,有效降低了噪声对分类网络训练的影响,保证了纳税人分类网络的噪声鲁棒性,提升了带噪标签数据下的纳税人分类精度。
附图说明
图1为整体框架流程图。
图2为纳税人文本信息处理流程图。
图3为纳税人非文本信息处理流程图。
图4为纳税人BERT-CNN分类网络构建流程图。
图5为基于最近邻语义聚类的BERT-CNN网络预训练流程图。
图6为基于噪声分布建模的BERT-CNN网络训练流程图。
图7为纳税人行业分类流程图。
图8为聚类噪声建模网络示意图。
图9为分类噪声学习网络示意图。
具体实施方式
以下结合附图和实施例对本发明做出进一步的说明。
实施例
选取某地区国税中2017年至2019年登记注册的纳税人信息,包含97个行业大类。以下参照附图,结合实验案例及具体实施方式对本发明作进一步的详细描述。凡基于本发明内容所实现的技术均属于本发明的范围。
如图1所示,本发明的具体实施中,基于噪声标签学习的纳税人行业分类包括以下步骤:
步骤1.纳税人文本信息处理
纳税人行业信息登记表中有很多有用信息是以字符串文本的形式存储在数据库中。登记纳税人信息和登记纳税人信息扩展表中提取{纳税人名称,主营,兼营,经营方式,经营范围}五列作为文本特征。文本特征处理实施过程如图2,具体包括以下步骤:
S101.文本信息规范化
从纳税人登记信息表中筛选所需的纳税人文本信息,并删除文本信息中的特殊符号、数字以及量词;
S102.BERT文本编码
文本特征生成主要包括以下步骤:在文本信息前后添加分句标志,处理文本中空白字符外的控制字符、替换字符和空白字符,按字切分句子并去除空格和非中文字符,通过BERT预训练模型将文本信息编码;
S103.文本特征矩阵生成
将字编码后的嵌入向量拼接为文本特征矩阵。
本实施例中,选取纳税人名称为“陕西省西安市雁塔区α全景VR科技有限公司”,经过步骤1后,删除特殊符号α(图2 S101),随后在文本前后添加分句标志,处理非中文字符后删除AR,按字切分为{陕,西,省,西,安,市,雁,塔,区,全,景,科,技,有,限,公,司},选取编码长度为768维,通过BERT预训练模型对字编码(图2 S102),将编码后的嵌入向量拼接后得到一个17×768维的特征矩阵(图2 S103)。
步骤2.纳税人非文本信息处理
纳税人登记信息数据库中除了文本信息还包括一些非文本信息,非文本信息中存在更直观的特征,这些非文本信息对于纳税人行业分类、聚类及异常检测同样具有重要价值。
如图3所示,本实施例非文本属性详细的处理步骤包括:
S201.数值特征标准化
查询纳税人行业信息数据库中登记纳税人信息和登记纳税人信息扩展表,选取{注册资本,投资总额,从业人数,外籍人数,合伙人数,固定人数,自然人投资比例,外资投资比例,国有投资比例}9列作为数值特征,对上述9列特征进行z-score处理。
具体地,本实施例中,首先计算上述9列特征的样本均值μ1,μ2,…,μ9以及样本方差σ1,σ2,...,σ9,记Xi为样本X第i个数值特征的取值,则通过z-score公式
Figure BDA0002949011700000141
将9列上的特征进行映射来实现数值特征标准化(图3 S201)。
S202.类别特征One-Hot编码
查询纳税人行业信息数据库中登记纳税人信息和登记纳税人信息扩展表,选取{登记注册类型,总结构标志,是否为国地税共管户,执照类别代码,行业明细代码,是否从事国家限制和禁止行业,电子发票企业标志}7列作为类别特征,对上述7列特征进行one-hot编码处理。
本实施例中,选取总机构标志特征为例,首先计算总机构标志特征的取值范围,经计算后总机构标志取值共有{总机构,非总机构,分支机构}3类,故设置3位寄存器对其进行编码;然后将{总机构,非总机构,分支机构}分别映射为{001,010,100}三种寄存器编码;最后根据映射规则将总机构标志列的所有特征进行编码(图3 S202)。
S203.特征映射
非文本特征和文本特征经过步骤S201和S202处理后,得到特征向量,将这些特征向量通过线性层映射并进行拼接,得到完整的数值特征矩阵。
具体的,本实施例中,首先通过构造一个1×768维的线性层将标准化后数值特征映射为768维的特征向量;然后比较不同类别特征的编码寄存器最大维度,经比较得到最大维度为264维,将不足264维的编码后补0至264维;最后构造一个264×768维的线性层将类别特征编码映射至768维,并将两个线性层映射后的向量进行拼接得到非文本特征向量矩阵(图3 S203)。
步骤3.构建纳税人行业分类网络(BERT-CNN)
所述BERT-CNN网络共有四层网络结构,输入层分为文本特征编码部分和非文本特征映射部分;第二层为CNN卷积层,用于特征挖掘和提取;第三层对第二层的输出做最大池化(max-pooling);输出层为一个带softmax的全连接层。
具体的,本实施例中,首先将768维的BERT编码部分、一个1×768维的数值特征映射线性层和一个264×768维的类别特征映射线性层作为第一层;首先,BERT编码部分,本实施例中分别为{纳税人名称,主营,兼营,经营方式,经营范围}五个特征设定特征矩阵维度为{20×768,20×768,20×768,10×768,100×768};具体的,以纳税人名称为例,输出设定为20×768维的矩阵,对于切分后不足20个字的通过补0对齐,超过20字的进行截取,数值特征映射线性层输出为一个9×768维的矩阵,类别特征映射线性层输出为一个7×768维的矩阵,将三个矩阵拼接维一个36×768维的矩阵作为本层的输出(图4 S301);第二层构造2×768、3×768、4×768、5×768、6×768的一维卷积核各一个对上一层的矩阵进行卷积操作(图4 S302);第三层为一个池化层,此层对上一层的输出进行2-maxpooling最大池化,保留每个卷积核输出的最大的2个信息并将其进行拼接(图4 S303);最后构造一个全连接层将上一层的输出映射为一个97维的向量(图4 S304)。
步骤4.基于最近邻语义聚类的BERT-CNN网络预训练
所述基于最近邻语义聚类的BERT-CNN网络预训练共分为对比学习、最近邻语义聚类和自标签学习三步;首先根据相似样本具有相似特征表示的思想,对样本进行mask以构造相似样本,通过最小化原样本与对照样本网络特征表示的距离来进行对比学习;其次根据网络特征表示选取多个样本最近邻,通过最小化最近邻之间网络特征表示的距离来进行最近邻语义聚类;最后通过选取置信度较高的样本作为原型样本,基于原型样本的簇标签来进行自标签学习。
具体的,本实施例中,将数据集按照8∶1∶1的比例划分为训练集、验证集和测试集。利用训练集进行网络训练,利用验证集选取训练模型,利用测试集进行模型效果检测。具体训练过程为:首先设样本X的特征经过输入层编码后的特征矩阵为SX,由构建方式可知SX的每个行向量分别对应文本特征中的一个字符或非文本特征中的一个特征,也就是每个行向量都对应一个原始特征,随机选取一个数h∈{1,2,...,10},并随机令SX的h行为0向量作为对照样本,将mask后的矩阵记为ψ(SX),记前三层的网络参数为θ,第三层的输出为向量fθ(SX)和fθ(ψ(SX)),将
Figure BDA0002949011700000161
作为训练目标进行反向传播实现对比学习,最终根据第三层输出向量之间的欧氏距离分别计算每个样本的20最近邻用于后续训练(图5S401);其次,依据对比学习选取的近邻,记样本集合为
Figure BDA0002949011700000162
X为
Figure BDA0002949011700000163
中的样本,X的最近邻集合为
Figure BDA0002949011700000164
η为网络参数,gη(X)为样本X经过网络映射后输出的向量,
Figure BDA0002949011700000165
为样本X通过网络估计分为第c类的概率,
Figure BDA0002949011700000166
Figure BDA0002949011700000167
Figure BDA0002949011700000171
作为优化目标进行反向传播实现最近邻语义聚类(图5 S402);最后,选取聚类后的各个簇上分配至这个簇的概率大于0.9的样本作为原型样本,记原型样本集合为
Figure BDA0002949011700000172
Figure BDA0002949011700000173
中元素的数量,Xi
Figure BDA0002949011700000174
中的样本,y′i为Xi所在的簇,y′i为y′i经one-hot编码后生成的指示向量,
Figure BDA0002949011700000175
Figure BDA0002949011700000176
作为优化目标,通过反向传播实现自标签学习,得到一个聚类网络(图5 S403)。
步骤5.基于噪声分布建模的BERT-CNN网络训练
所述基于噪声分布建模的BERT-CNN网络预训练包括构造聚类噪声建模层、聚类噪声建模层预训练、基于聚类噪声建模层训练聚类网络、生成分类置换矩阵、生成分类噪声建模矩阵、将聚类网络转置为分类网络、构建分类噪声建模层并对分类网络进行训练。
具体的,本实施例中,构建一个97×97的转移矩阵T,将T作为额外一层加到当前聚类网络后(图6 S501);固定当前聚类网络参数η记噪声样本对
Figure BDA0002949011700000177
在聚类网络的输出为g(X),通过噪声建模层后的输出为q(X)=TTgη(X),对q(X)和
Figure BDA0002949011700000178
作交叉熵损失并进行反向传播更新T(图6 S502);在现有网络及噪声建模层的基础上对聚类网络进行训练并对聚类噪声建模层进行微调,通过加入噪声标签信息进一步提升网络表现,将
Figure BDA0002949011700000179
作为优化目标进行反向传播来训练网络(图6 S503),训练网络构成如图8所示;通过凸优化的方式构造一个97×97维的置换矩阵A(图6 S504);使用聚类网络将样本分为97个簇,在每个簇上计算各噪声标签的数量,构建一个噪声建模矩阵T(图6 S505);基于置换矩阵A将网络输出层的权重和偏移量进行置换,将聚类网络置换为分类网络hη(X)(图6S506);如图9所示,构造两层的噪声建模层,第一个建模层为分类置换矩阵A,第二个建模层为噪声建模矩阵T,使用
Figure BDA0002949011700000181
作为分类网络训练目标,进行反向传播得到最终分类网络hη(X)(图6 S507)。
步骤6.纳税人行业分类
如图9所示,基于所训练网络的前四层作为最终分类网络进行纳税人行业分类,具体包括预测纳税人行业类别概率和纳税人行业分类两步。
具体的,本实施例中,将测试集样本X输入网络得到97维的分类概率向量gη(X)(图7 S601),从向量中取最大值的索引作为X的分类结果(图7 S602)。
本领域的技术人员容易理解,以上所述仅为本发明的方法实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于噪声标签学习的纳税人行业分类方法,其特征在于,包括:
首先,提取纳税人行业信息中待挖掘的文本信息进行文本嵌入,并对嵌入后的信息做特征处理;其次,提取纳税人行业信息中的非文本信息进行编码处理;再次,构建符合纳税人行业分类问题的BERT-CNN深层网络结构,依据上一步处理后的特征信息和目标类别数来确定网络的层数、每层的神经元个数以及输入输出的维度;然后,依次通过对比学习、最近邻的语义聚类及自标签学习对上一步构建的网络进行预训练;最后,在所构建的深层网络基础上增加一个噪声建模层,通过网络的自信任以及噪声标签信息对噪声分布进行建模,并基于噪声标签数据进行模型训练;最终,将噪声建模层前的深层网络作为分类模型,基于此模型进行纳税人行业分类;
其中,通过以下方法对噪声进行建模并构建噪声建模层:
Step1:构造聚类噪声建模层
聚类噪声建模层是一个C×C的转移矩阵,记为T,其中
Figure FDA0003939489180000011
将T作为额外一层加到当前聚类网络后,T中的元素作为网络参数进行更新;
Step2:聚类噪声建模层预训练
固定当前聚类网络参数η,记噪声样本对
Figure FDA0003939489180000012
在聚类网络的输出为g(X),通过噪声建模层后的输出为
Figure FDA0003939489180000016
对q(X)和
Figure FDA0003939489180000013
作交叉熵损失并进行反向传播更新T,得到经过预训练的转移矩阵T;
Step3:基于聚类噪声建模层训练聚类网络
在现有网络及噪声建模层的基础上对聚类网络进行训练并对聚类噪声建模层进行微调,通过加入噪声标签信息进一步提升网络表现,优化目标为:
Figure FDA0003939489180000014
其中
Figure FDA0003939489180000015
1(·)表示指示向量,α为调整优化目标两部分权重的参数;
Step4:生成分类置换矩阵
当前的聚类网络输出结果为聚类结果,需将其输出的类别对应至分类类别;分类置换矩阵A是一个C×C的转移矩阵,Aj,i=P(Y′=i|Y=j),在纳税人行业分类问题中可认为噪声数据中的真实数据量显著,也就是说每个类别中的噪声量小于0.5,故可以通过凸优化的方法求得置换矩阵;
具体的,凸优化限制具体步骤为:
Figure FDA0003939489180000021
Figure FDA0003939489180000022
Figure FDA0003939489180000023
凸优化目标为:
Figure FDA0003939489180000024
求得分类置换矩阵用于后续训练;
Step5:生成噪声建模矩阵
噪声建模矩阵T为一个C×C的转移矩阵,其中
Figure FDA0003939489180000025
基于(3)中学到的网络可以将样本分为C个簇,在每个簇上计算各噪声标签的数量,可以得到全样本上更加精确的噪声建模矩阵;
具体的,求得矩阵的方法为:
Figure FDA0003939489180000026
其中count(·)为计数函数,计算满足条件的样本数量,g(X)为X经过聚类网络计算后将其分至的聚类簇;
Step6:将聚类网络转置为分类网络
记W4,b4分别为网络输出层的权重和偏移量参数,将其进行转置:
W4:=AW4
b4:=Ab4
此时网络输出结果由聚类簇的估计
Figure FDA0003939489180000031
转置为分类结果的估计
Figure FDA0003939489180000032
网络转置为分类网络,记样本X经参数为η分类网络映射后的向量为hη(X);
Step7:构建噪声建模层并对分类网络进行微调
在分类网络输出之后构建两层矩阵组合为噪声建模层,第一个建模层为分类置换矩阵A,第二个建模层为噪声建模矩阵T,则分类网络训练目标为:
Figure FDA0003939489180000033
其中
Figure FDA0003939489180000034
通过训练目标对网络进行训练得到最终分类网络hη(X)。
2.根据权利要求1所述的一种基于噪声标签学习的纳税人行业分类方法,其特征在于,具体包括以下步骤:
1)纳税人文本信息处理
从纳税人登记信息中筛选所需的纳税人文本信息,选取基于RoBERTa训练方法的中文BERT预训练模型作为编码模型,对文本信息进行编码得到嵌入后的高维文本特征向量,并将此BERT模型作为BERT-CNN模型第一层的一部分参与模型训练;
2)纳税人非文本信息处理
从纳税人登记信息中筛选所需的纳税人非文本信息,根据非文本信息的值是否连续将其分为两类:连续的数值特征和离散的类别特征;对数值特征进行z-score归一化处理,对类别特征通过one-hot encoding方式进行编码;
3)BERT-CNN纳税人行业分类网络构建
构建一个包括输入层、卷积层、池化层和全接连层四层的BERI-CNN网络作为分类网络,根据所选取的纳税人信息维度和所需输出类别设定每层网络的神经元个数;
4)基于最近邻语义聚类的BERT-CNN网络预训练
首先基于对比学习的方式进行对比学习,根据学习到的网络将样本特征嵌入为特定维度的特征向量,依据特征向量的欧氏距离找到其K近邻;在所学到的网络上基于样本及其K近邻的特征进行最近邻语义聚类进一步训练网络;根据当前网络的聚类结果,在上一步所构建网络的基础上做自标签学习,得到最终的预训练网络;
5)基于噪声分布建模的BERT-CNN网络训练
在预训练网络的基础上添加噪声建模层,利用此层拟合噪声来实现对噪声建模,在建模层前基于最近邻语义聚类最小化近邻距离,在建模层后最小化交叉熵损失来拟合噪声,使网络可以同时获取训练样本的近邻及样本标签的信息,基于样本近邻的信息类降低噪声带来的影响,并基于经噪声建模层处理后的标签信息提升其分类精度;
6)纳税人行业分类
将经过以上五步训练得到的BERT-CNN网络作为分类网络对企业纳税人进行行业分类。
3.根据权利要求2所述的一种基于噪声标签学习的纳税人行业分类方法,其特征在于,步骤1)中,纳税人文本信息处理具体包括以下步骤:
Step1:文本信息规范化
从纳税人登记信息中筛选所需的纳税人文本信息,并删除文本信息中的特殊符号、数字以及量词;
Step2:文本特征生成
纳税人登记信息中的企业名称和经营范围、地名、人名的描述中经常出现一词多义问题,利用基于RoBERTa预训练方法训练的24层中文BERT模型进行词向量嵌入能够在词嵌入时充分获取上下文信息,从而解决这一问题;同时BERT依照基于上下文的sub-word策略,将中文切分为具有上下文信息的单字,不受词典限制的将不同词的表述转换为词向量;
所述中文RoBERTa预训练方法是在BERT预训练方法上进行改进,基于Transformer双向编码表示实现的大型BERT模型预训练方法,基于此方法训练后的BERT模型对文本特征进行分词及词嵌入的具体步骤包括:
a、在文本信息前添加[CLS]标志,文本信息后添加[SEP]标志;
b、去除文本中空白字符外的控制字符和替换字符,将空白字符转换为空格;
c、按字切分句子,并去除空格和非中文字符;
d、通过预训练模型将文本信息编码,将字编码后的嵌入向量拼接为特征矩阵。
4.根据权利要求3所述的一种基于噪声标签学习的纳税人行业分类方法,其特征在于,步骤2)中,通过z-score标准化将数值特征进行映射,使其均值为0,标准差为1;所述z-score方法具体步骤为:
Step1:分别计算各数值特征的样本均值μ作为对此特征期望的估计;
Step2:分别计算各数值特征的样本标准差σ作为对此特征标准差的估计;
Step3:将各数值特征分别依照z-score公式进行标准化处理
Figure FDA0003939489180000051
其中,Xcat表示样本X的数值特征,
Figure FDA0003939489180000052
表示Xcat经z-score标准化映射后的结果;
使用one-hot encoding对类别特征进行编码,详细步骤为:
Step1:使用N位的状态寄存器来表示有N种可能取值的类别特征;
Step2:状态寄存器的每一位表示一种特征取值是否有效,有效取1,无效取0,且规定每个寄存器仅一位有效;
Step3:对每个特征按照Step2规定进行编码,得到one-hot向量用于后续训练;
将处理后的特征向量通过线性层映射至与文本特征向量相同的维度,并将映射后的向量进行拼接,得到非文本特征矩阵。
5.根据权利要求4所述的一种基于噪声标签学习的纳税人行业分类方法,其特征在于,步骤3)中,构建一个BERT-CNN网络;所述BERT-CNN网络共有四层网络结构,输入层分为文本特征编码部分和非文本特征映射部分;第二层为CNN卷积层,用于特征挖掘和提取;第三层对第二层的输出做最大池化max-pooling;输出层为一个全连接层,并将全连接层的输出做softmax得到最终分类结果,所述BERT-CNN网络具体构建步骤为:
Step1:构造输入层文本特征编码部分
为t个文本特征分别选定t个正整数ki,i=1,2,...,t,并设置t个文本特征的特征矩阵维度分别为ki×m,设第i个文本经处理后共有hi个字符,设置BERT字编码维度为m,依照本文提出的编码方式将其输入BERT编码层编码得到hi×m维的中间矩阵,将中间矩阵对齐至ki×m维度则得到第一层BERT编码部分输出的特征矩阵;
具体对齐方法为:若hi<ki,通过padding操作在中间矩阵上下位置添加0向量将其对齐至ki×m维度;若hi>ki,删除中间矩阵第一维索引大于ki的向量从而将其对齐至ki×m维度;若hi=ki,则直接使用中间矩阵作为第一层BERT编码部分输出的特征矩阵;
Step2:构造输入层非文本特征映射部分
构造两个并列的线性层;
一个1×m的线性层用于处理数值特征,通过这个线性层将u个数值特征映射为u×m维的特征矩阵;
另一个线性层用于处理类别特征,设嵌入后的v个类别特征的one-hot向量维度为jc,c=1,2,....,v,通过在向量尾部添加0的方式将其对齐至
Figure FDA0003939489180000061
维,通过一个jmax×m维的线性层将v个类别特征映射至u×m维;
将BERT编码部分的输出与两个并列的线性层的输出进行拼接得到一个
Figure FDA0003939489180000071
的矩阵作为第一层的输出;
Step3:构造卷积层
卷积层包括维度分别为2×m、3×m、4×m、5×m、6×m的一维卷积核各一个;
Step4:构造池化层
池化层池化方法为p-maxpooling最大池化,保留每个卷积核输出的最大的p个信息并将输出连接;
Step5:构造全连接层
构造一个线性层将Step4的输出映射为一个l维向量,其中l为目标类别数,并对此向量做softmax操作。
6.根据权利要求5所述的一种基于噪声标签学习的纳税人行业分类方法,其特征在于,步骤4)中,BERT-CNN网络预训练具体包括以下步骤:
Step1:对比学习
根据相似样本具有相似特征表示的思想,对样本进行mask以构造相似样本,令原样本和其mask结果间有相似的特征表示,从而提升网络的鲁棒性和特征挖掘能力;具体地,设样本X的特征经过输入层编码后的特征矩阵为SX,由构建方式可知SX的每个行向量分别对应文本特征中的一个字符或非文本特征中的一个特征,也就是每个行向量都对应一个原始特征;选定一个正整数maskmax,随机选取h={1,2,....,maskmax},并随机maskSX的h行令其为0向量作为对照样本,将mask后的矩阵记为ψ(SX);
将SX和ψ(SX)分别输入后续的网络,记前三层的网络参数为θ,f(X)是X经过前三层网络的映射,第三层的输出为向量fθ(SX)和fθ(ψ(SX)),通过最小化f(SX)和f(ψ(SX))的距离来更新网络,则训练目标为:
Figure FDA0003939489180000081
选取一个正整数n,根据训练目标进行反向传播更新前三层的网络参数以完成第一步预训练,并根据第三层输出向量之间的欧氏距离分别计算每个样本的n最近邻用于后续训练;
Step2:最近语义邻聚类
依据Step1中选取的近邻,由于具有相似特征向量表示的样本通常来自同一行业类别,因此缩小近邻的特征向量之间的距离有助于提升网络的分类能力,同时通过一个正则项保证各个类别的均衡以防止类别消失;
首先将网络前三层初始化为Step1训练后的网络;设共需将企业分为C类,记样本集合为
Figure FDA0003939489180000082
X为
Figure FDA0003939489180000083
中的样本,X的最近邻集合为
Figure FDA0003939489180000084
η为网络参数,gη(X)为样本X经过网络映射后输出的向量,
Figure FDA0003939489180000085
为样本X通过网络估计分为第c类的概率,
Figure FDA0003939489180000086
Figure FDA0003939489180000087
则优化目标为:
Figure FDA0003939489180000088
其中<·>为点积运算,λ为控制优化目标两个部分权重的超参,
Figure FDA0003939489180000089
根据优化目标进行反向传播更新整个网络完成第二步预训练;
Step3:自标签学习
根据前两步得到一个初步的预训练聚类网络,基于Step2训练的网络计算所有样本的聚类结果以及样本分到这一类的概率,将其中概率较高的作为原型样本,将其聚类结果作为标签对网络进行微调来提升网络表现;
选取一个阈值τ,选取聚类后的各个簇上分配至这个簇的概率大于τ的样本作为原型样本,并直接基于交叉熵损失,将原型样本的聚类结果作为其标签对网络进行训练,设
Figure FDA00039394891800000810
为原型样本集合,
Figure FDA00039394891800000811
Figure FDA00039394891800000812
中元素的数量,Xi
Figure FDA00039394891800000813
中的样本,y′i为Xi所在的簇,y′i为y′i经one-hot编码后生成的指示向量,
Figure FDA0003939489180000091
则训练目标为:
Figure FDA0003939489180000092
根据优化目标进行反向传播更新整个网络完成网络预训练工作,得到聚类网络;
Step4:噪声标签建模及分类网络训练
记当前纳税人登记信息中的带噪标签为
Figure FDA0003939489180000093
样本为X,样本聚类的结果为Y′,样本的真实标签为Y,假设X与
Figure FDA0003939489180000094
和Y′都独立,则对于任意类别c∈c有:
Figure FDA0003939489180000095
显然,对于任意c,i,j,若能求得
Figure FDA0003939489180000096
及P(Y′=i|Y=j)则可将求P(Y=j|X)的问题转化为求
Figure FDA0003939489180000097
从而可以基于
Figure FDA0003939489180000098
过滤掉其中的噪声来学习到Y的信息。
7.根据权利要求6所述的一种基于噪声标签学习的纳税人行业分类方法,其特征在于,步骤6)中,通过BERT-CNN网络对纳税人行业进行分类,具体方法为:
Step1:预测纳税人行业类别概率
对于纳税人样本X,将其信息通过步骤1)和步骤2)处理后输入网络,经过网络预测得到预测向量hη(X),其中
Figure FDA0003939489180000099
为hη(X)的第i个分量,代表X为第i类的概率P(Y=i|X);
Step2:纳税人行业分类
计算
Figure FDA00039394891800000910
则类别r为纳税人样本X所属的行业类别。
CN202110201214.5A 2021-02-23 2021-02-23 一种基于噪声标签学习的纳税人行业分类方法 Active CN112765358B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202110201214.5A CN112765358B (zh) 2021-02-23 2021-02-23 一种基于噪声标签学习的纳税人行业分类方法
PCT/CN2021/079378 WO2022178919A1 (zh) 2021-02-23 2021-03-05 一种基于噪声标签学习的纳税人行业分类方法
US17/956,879 US20230031738A1 (en) 2021-02-23 2022-09-30 Taxpayer industry classification method based on label-noise learning

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110201214.5A CN112765358B (zh) 2021-02-23 2021-02-23 一种基于噪声标签学习的纳税人行业分类方法

Publications (2)

Publication Number Publication Date
CN112765358A CN112765358A (zh) 2021-05-07
CN112765358B true CN112765358B (zh) 2023-04-07

Family

ID=75704020

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110201214.5A Active CN112765358B (zh) 2021-02-23 2021-02-23 一种基于噪声标签学习的纳税人行业分类方法

Country Status (3)

Country Link
US (1) US20230031738A1 (zh)
CN (1) CN112765358B (zh)
WO (1) WO2022178919A1 (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113468324A (zh) * 2021-06-03 2021-10-01 上海交通大学 基于bert预训练模型和卷积网络的文本分类方法和系统
CN113379503A (zh) * 2021-06-24 2021-09-10 北京沃东天骏信息技术有限公司 推荐信息展示方法、装置、电子设备和计算机可读介质
CN113255849B (zh) * 2021-07-14 2021-10-01 南京航空航天大学 一种基于双重主动查询的标签带噪图像学习方法
CN113435863A (zh) * 2021-07-22 2021-09-24 中国人民大学 建导式协作流程优化方法、系统、存储介质及计算设备
CN113593631B (zh) * 2021-08-09 2022-11-29 山东大学 一种预测蛋白质-多肽结合位点的方法及系统
CN113610194B (zh) * 2021-09-09 2023-08-11 重庆数字城市科技有限公司 一种数字档案自动分类方法
CN113535964B (zh) * 2021-09-15 2021-12-24 深圳前海环融联易信息科技服务有限公司 企业分类模型智能构建方法、装置、设备及介质
CN115146488B (zh) * 2022-09-05 2022-11-22 山东鼹鼠人才知果数据科技有限公司 基于大数据的可变业务流程智能建模系统及其方法
CN115858777B (zh) * 2022-11-22 2023-09-08 贝壳找房(北京)科技有限公司 文本分类方法、文本分配装置及存储介质
CN115544260B (zh) * 2022-12-05 2023-04-25 湖南工商大学 用于文本情感分析的对比优化编解码方法
CN115858792B (zh) * 2023-02-20 2023-06-09 山东省计算中心(国家超级计算济南中心) 基于图神经网络的招标项目名称短文本分类方法及系统
CN116049412B (zh) * 2023-03-31 2023-07-14 腾讯科技(深圳)有限公司 文本分类方法、模型训练方法、装置及电子设备
CN116720497B (zh) * 2023-06-09 2024-02-13 国网吉林省电力有限公司信息通信公司 一种基于语义分析的电网文档关联性层级分析方法及系统
CN116912845B (zh) * 2023-06-16 2024-03-19 广东电网有限责任公司佛山供电局 一种基于nlp与ai的智能内容识别与分析方法及装置
CN116703529B (zh) * 2023-08-02 2023-10-20 山东省人工智能研究院 基于特征空间语义增强的对比学习推荐方法
CN117574258B (zh) * 2024-01-15 2024-04-26 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种基于文本噪声标签和协同训练策略的文本分类方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783818A (zh) * 2019-01-17 2019-05-21 上海三零卫士信息安全有限公司 一种企业行业多标签分类方法
CN110705607A (zh) * 2019-09-12 2020-01-17 西安交通大学 一种基于循环重标注自助法的行业多标签降噪方法
JP2020042330A (ja) * 2018-09-06 2020-03-19 株式会社リコー 情報処理装置、データ分類方法およびプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170308790A1 (en) * 2016-04-21 2017-10-26 International Business Machines Corporation Text classification by ranking with convolutional neural networks
US11531852B2 (en) * 2016-11-28 2022-12-20 D-Wave Systems Inc. Machine learning systems and methods for training with noisy labels
CN109710768B (zh) * 2019-01-10 2020-07-28 西安交通大学 一种基于mimo递归神经网络的纳税人行业两层级分类方法
CN112232241B (zh) * 2020-10-22 2022-03-25 华中科技大学 一种行人重识别方法、装置、电子设备和可读存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020042330A (ja) * 2018-09-06 2020-03-19 株式会社リコー 情報処理装置、データ分類方法およびプログラム
CN109783818A (zh) * 2019-01-17 2019-05-21 上海三零卫士信息安全有限公司 一种企业行业多标签分类方法
CN110705607A (zh) * 2019-09-12 2020-01-17 西安交通大学 一种基于循环重标注自助法的行业多标签降噪方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Learning With Auxiliary Less-Noisy Labels;Duan, Yunyan et al.;《IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS》;20170731;第1716-1721页 *
基于带噪观测的远监督神经网络关系抽取;叶育鑫等;《软件学报》;20200114(第04期);第1025-1038页 *
标签噪声鲁棒学习算法研究综述;宫辰等;《航空兵器》;20200828(第03期);第20-26页 *

Also Published As

Publication number Publication date
US20230031738A1 (en) 2023-02-02
CN112765358A (zh) 2021-05-07
WO2022178919A1 (zh) 2022-09-01

Similar Documents

Publication Publication Date Title
CN112765358B (zh) 一种基于噪声标签学习的纳税人行业分类方法
WO2023065545A1 (zh) 风险预测方法、装置、设备及存储介质
CN110532542B (zh) 一种基于正例与未标注学习的发票虚开识别方法及系统
CN109783818B (zh) 一种企业行业分类方法
CN109657947B (zh) 一种面向企业行业分类的异常检测方法
CN112015863B (zh) 一种基于图神经网络的多元特征融合中文文本分类方法
CN109710768B (zh) 一种基于mimo递归神经网络的纳税人行业两层级分类方法
CN112541355B (zh) 一种实体边界类别解耦的少样本命名实体识别方法与系统
CN112560478B (zh) 一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法
CN112084336A (zh) 一种高速公路突发事件的实体提取和事件分类方法及装置
CN116089873A (zh) 模型训练方法、数据分类分级方法、装置、设备及介质
CN114863091A (zh) 一种基于伪标签的目标检测训练方法
CN114153978A (zh) 模型训练方法、信息抽取方法、装置、设备及存储介质
CN112949476A (zh) 基于图卷积神经网络的文本关系检测方法、装置及存储介质
CN113051922A (zh) 一种基于深度学习的三元组抽取方法及系统
CN115408525A (zh) 基于多层级标签的信访文本分类方法、装置、设备及介质
CN116663540A (zh) 基于小样本的金融事件抽取方法
CN115098673A (zh) 基于变体注意力及层次结构的业务文书信息抽取方法
CN113869055A (zh) 基于深度学习的电网项目特征属性识别方法
CN112699685B (zh) 基于标签引导的字词融合的命名实体识别方法
CN116843175A (zh) 一种合同条款风险检查方法、系统、设备和存储介质
CN114757183B (zh) 一种基于对比对齐网络的跨领域情感分类方法
CN115936003A (zh) 基于神经网络的软件功能点查重方法、装置、设备及介质
CN115827871A (zh) 互联网企业分类的方法、装置和系统
CN115796635A (zh) 基于大数据和机器学习的银行数字化转型成熟度评价系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant