CN112765358B - 一种基于噪声标签学习的纳税人行业分类方法 - Google Patents
一种基于噪声标签学习的纳税人行业分类方法 Download PDFInfo
- Publication number
- CN112765358B CN112765358B CN202110201214.5A CN202110201214A CN112765358B CN 112765358 B CN112765358 B CN 112765358B CN 202110201214 A CN202110201214 A CN 202110201214A CN 112765358 B CN112765358 B CN 112765358B
- Authority
- CN
- China
- Prior art keywords
- network
- layer
- taxpayer
- noise
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
- G06F40/129—Handling non-Latin characters, e.g. kana-to-kanji conversion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/10—Tax strategies
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Business, Economics & Management (AREA)
- Technology Law (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于噪声标签学习的纳税人行业分类方法,首先,提取纳税人行业信息中待挖掘的文本信息进行文本嵌入,并对嵌入后的信息做特征处理;其次,提取纳税人行业信息中的非文本信息进行编码处理;再次,构建符合纳税人行业分类问题的BERT‑CNN深层网络结构,依据处理后的特征信息和目标类别数来确定网络的层数、每层的神经元个数以及输入输出的维度;然后,依次通过对比学习、最近邻的语义聚类及自标签学习对构建的网络进行预训练;最后,在所构建的深层网络基础上增加一个噪声建模层,通过网络的自信任以及噪声标签信息对噪声分布进行建模,并基于噪声标签数据进行模型训练;最终,将噪声建模层前的深层网络作为分类模型,基于此模型进行纳税人行业分类。
Description
技术领域
本发明属于带有噪声标签的文本分类方法技术领域,特别涉及一种基于噪声标签学习的纳税人行业分类方法。
背景技术
近年来,随着国民经济的快速发展和市场经济的不断繁荣,我国的企业行业分工也不断细化。研究企业纳税人行业分类是税源分类管理的基础性工作,是提高税务档案管理电子化水平实施信息化水管的关键前提,是推进行业建模和开展税源分类监控、预警、分析以及实施专业纳税评估的重要支撑。国家税务总局印发的《纳税人分类分集管理办法》依据《国民经济行业分类》(GB/T 4754-2017)标准将企业纳税人行业分为20个门类、97个大类、473个中类和1380个小类。现有的纳税人行业分类主要通过人工实现,受限于填报人员的专业知识和经验,往往会出现分类错误的情况,这也为现有企业纳税人行业标签带来了大量的噪声。错误的企业行业分类会对国家的统计、税收、工商管理等工作产生一系列不良的影响,随着纳税人数据量日益庞大,数据类型日益复杂,如何通过大数据分析和机器学习手段基于现有的带噪标签行业分类数据学习分类器对纳税人行业进行正确分类,已成为一个亟待解决的问题,对于识别并修正现有纳税人经营范围和行业类别不相符的情况,同时为新办企业纳税人行业分类提供辅助推荐具有重要意义。
目前尚未有相关研究基于带噪标签数据对纳税人行业分类提出相应的解决方案,主要涉及的纳税人行业分类相关发明专利有:
文献1:一种基于MIMO递归神经网络的纳税人行业两层级分类方法(201910024324.1)
文献2:一种企业行业分类方法(201711137533.4)
文献1提出了一种基于MIMO递归神经网络的纳税人行业两层级分类方法,利用2维文本特征和13维非文本特征构建MIMO的GRU神经网络作为基础模型,并根据行业大类到行业明细的映射关系将基础模型进行分组融合,通过融合模型实现纳税人行业分类。
文献2设计了一种基于半监督学习的图分裂聚类算法和梯度提升决策树的企业行业分类方法,利用半监督图分裂聚类算法提取企业的主营业务关键词,并利用梯度提升决策树使用提取的关键词作为特征训练级联分类器实现企业行业分类。
上述技术方案都是基于训练数据行业标签准确的前提,训练分类模型实现纳税人行业分类。然而,现实情况下,受限于填报人员的专业知识和经验,现有数据库中的纳税人行业类别标注数据存在大量的噪声,直接将其用于模型训练,会导致行业分类准确性的急剧下降。因此,如何仅基于现有带噪标签数据构建噪声鲁棒的纳税人行业分类模型已成为一个亟待解决的问题。
发明内容
本发明旨在提供一种基于噪声标签学习的纳税人行业分类方法。首先,提取纳税人行业信息中待挖掘的文本信息进行文本嵌入,并对嵌入后的信息做特征处理;其次,提取纳税人行业信息中的非文本信息进行编码处理;再次,构建符合纳税人行业分类问题的BERT-CNN深层网络结构,依据上一步处理后的特征信息和目标类别数来确定网络的层数、每层的神经元个数以及输入输出的维度;然后,依次通过对比学习、最近邻的语义聚类及自标签学习对上一步构建的网络进行预训练;最后,在所构建的深层网络基础上增加一个噪声建模层,通过网络的自信任以及噪声标签信息对噪声分布进行建模,并基于噪声标签数据进行模型训练;最终,将噪声建模层前的深层网络作为分类模型,基于此模型进行纳税人行业分类。
为了达到以上目的,本发明采取以下技术方案:
一种基于噪声标签学习的纳税人行业分类方法,包括:
首先,提取纳税人行业信息中待挖掘的文本信息进行文本嵌入,并对嵌入后的信息做特征处理;其次,提取纳税人行业信息中的非文本信息进行编码处理;再次,构建符合纳税人行业分类问题的BERT-CNN深层网络结构,依据上一步处理后的特征信息和目标类别数来确定网络的层数、每层的神经元个数以及输入输出的维度;然后,依次通过对比学习、最近邻的语义聚类及自标签学习对上一步构建的网络进行预训练;最后,在所构建的深层网络基础上增加一个噪声建模层,通过网络的自信任以及噪声标签信息对噪声分布进行建模,并基于噪声标签数据进行模型训练;最终,将噪声建模层前的深层网络作为分类模型,基于此模型进行纳税人行业分类。
本发明进一步的改进在于,具体包括以下步骤:
1)纳税人文本信息处理
从纳税人登记信息中筛选所需的纳税人文本信息,选取基于RoBERTa训练方法的中文BERT预训练模型作为编码模型,对文本信息进行编码得到嵌入后的高维文本特征向量,并将此BERT模型作为BERT-CNN模型第一层的一部分参与模型训练;
2)纳税人非文本信息处理
从纳税人登记信息中筛选所需的纳税人非文本信息,根据非文本信息的值是否连续将其分为两类:连续的数值特征和离散的类别特征;对数值特征进行z-score归一化处理,对类别特征通过one-hot encoding方式进行编码;
3)BERT-CNN纳税人行业分类网络构建
构建一个包括输入层、卷积层、池化层和全接连层四层的BERT-CNN网络作为分类网络,根据所选取的纳税人信息维度和所需输出类别设定每层网络的神经元个数;
4)基于最近邻语义聚类的BERT-CNN网络预训练
首先基于对比学习的方式进行对比学习,根据学习到的网络将样本特征嵌入为特定维度的特征向量,依据特征向量的欧氏距离找到其K近邻;在所学到的网络上基于样本及其K近邻的特征进行最近邻语义聚类进一步训练网络;根据当前网络的聚类结果,在上一步所构建网络的基础上做自标签学习,得到最终的预训练网络;
5)基于噪声分布建模的BERT-CNN网络训练
在预训练网络的基础上添加噪声建模层,利用此层拟合噪声来实现对噪声建模,在建模层前基于最近邻语义聚类最小化近邻距离,在建模层后最小化交叉熵损失来拟合噪声,使网络可以同时获取训练样本的近邻及样本标签的信息,基于样本近邻的信息类降低噪声带来的影响,并基于经噪声建模层处理后的标签信息提升其分类精度;
6)纳税人行业分类
将经过以上五步训练得到的BERT-CNN网络作为分类网络对企业纳税人进行行业分类。
本发明进一步的改进在于,步骤1)中,纳税人文本信息处理具体包括以下步骤:
Step1:文本信息规范化
从纳税人登记信息中筛选所需的纳税人文本信息,并删除文本信息中的特殊符号、数字以及量词;
Step2:文本特征生成
纳税人登记信息中的企业名称和经营范围、地名、人名的描述中经常出现一词多义问题,利用基于RoBERTa预训练方法训练的24层中文BERT模型进行词向量嵌入能够在词嵌入时充分获取上下文信息,从而解决这一问题;同时BERT依照基于上下文的sub-word策略,将中文切分为具有上下文信息的单字,不受词典限制的将不同词的表述转换为词向量;
所述中文RoBERTa预训练方法是在BERT预训练方法上进行改进,基于Transformer双向编码表示实现的大型BERT模型预训练方法,基于此方法训练后的BERT模型对文本特征进行分词及词嵌入的具体步骤包括:
a、在文本信息前添加[CLS]标志,文本信息后添加[SEP]标志;
b、去除文本中空白字符外的控制字符和替换字符,将空白字符转换为空格;
c、按字切分句子,并去除空格和非中文字符;
d、通过预训练模型将文本信息编码,将字编码后的嵌入向量拼接为特征矩阵。
本发明进一步的改进在于,步骤2)中,通过z-score标准化将数值特征进行映射,使其均值为0,标准差为1;所述z-score方法具体步骤为:
Step1:分别计算各数值特征的样本均值μ作为对此特征期望的估计;
Step2:分别计算各数值特征的样本标准差σ作为对此特征标准差的估计;
Step3:将各数值特征分别依照z-score公式进行标准化处理
使用one-hot encoding对类别特征进行编码,详细步骤为:
Step1:使用N位的状态寄存器来表示有N种可能取值的类别特征;
Step2:状态寄存器的每一位表示一种特征取值是否有效,有效取1,无效取0,且规定每个寄存器仅一位有效;
Step3:对每个特征按照Step2规定进行编码,得到one-hot向量用于后续训练;
将处理后的特征向量通过线性层映射至与文本特征向量相同的维度,并将映射后的向量进行拼接,得到非文本特征矩阵。
本发明进一步的改进在于,步骤3)中,构建一个BERT-CNN网络;所述BERT-CNN网络共有四层网络结构,输入层分为文本特征编码部分和非文本特征映射部分;第二层为CNN卷积层,用于特征挖掘和提取;第三层对第二层的输出做最大池化max-pooling;输出层为一个全连接层,并将全连接层的输出做softmax得到最终分类结果,所述BERT-CNN网络具体构建步骤为:
Step1:构造输入层文本特征编码部分
为t个文本特征分别选定t个正整数ki,i=1,2,…,t,并设置t个文本特征的特征矩阵维度分别为ki×m,设第i个文本经处理后共有hi个字符,设置BERT字编码维度为m,依照本文提出的编码方式将其输入BERT编码层编码得到hi×m维的中间矩阵,将中间矩阵对齐至kx×m维度则得到第一层BERT编码部分输出的特征矩阵;
具体对齐方法为:若hi<ki,通过padding操作在中间矩阵上下位置添加0向量将其对齐至ki×m维度;若hi>ki,删除中间矩阵第一维索引大于ki的向量从而将其对齐至ki×m维度;若hi=ki,则直接使用中间矩阵作为第一层BERT编码部分输出的特征矩阵;
Step2:构造输入层非文本特征映射部分
构造两个并列的线性层;
一个1×m的线性层用于处理数值特征,通过这个线性层将u个数值特征映射为u×m维的特征矩阵;
另一个线性层用于处理类别特征,设嵌入后的v个类别特征的one-hot向量维度为jc,c=1,2,...,v,通过在向量尾部添加0的方式将其对齐至维,通过一个jmax×m维的线性层将v个类别特征映射至v×m维;
Step3:构造卷积层
卷积层包括维度分别为2×m、3×m、4×m、5×m、6×m的一维卷积核各一个;
Step4:构造池化层
池化层池化方法为p-maxpooling最大池化,保留每个卷积核输出的最大的p个信息并将输出连接;
Step5:构造全连接层
构造一个线性层将Step4的输出映射为一个l维向量,其中l为目标类别数,并对此向量做softmax操作。
本发明进一步的改进在于,步骤4)中,BERT-CNN网络预训练具体包括以下步骤:
Step1:对比学习
根据相似样本具有相似特征表示的思想,对样本进行mask以构造相似样本,令原样本和其mask结果间有相似的特征表示,从而提升网络的鲁棒性和特征挖掘能力;具体地,设样本X的特征经过输入层编码后的特征矩阵为SX,由构建方式可知SX的每个行向量分别对应文本特征中的一个字符或非文本特征中的一个特征,也就是每个行向量都对应一个原始特征;选定一个正整数maskmax,随机选取h={1,2,...,maskmax},并随机mask SX的h行令其为0向量作为对照样本,将mask后的矩阵记为ψ(SX);
将SX和ψ(SX)分别输入后续的网络,记前三层的网络参数为θ,f(X)是X经过前三层网络的映射,第三层的输出为向量fθ(SX)和fθ(ψ(SX)),通过最小化f(SX)和f(ψ(SX))的距离来更新网络,则训练目标为:
选取一个正整数n,根据训练目标进行反向传播更新前三层的网络参数以完成第一步预训练,并根据第三层输出向量之间的欧氏距离分别计算每个样本的n最近邻用于后续训练;
Step2:最近语义邻聚类
依据Step1中选取的近邻,由于具有相似特征向量表示的样本通常来自同一行业类别,因此缩小近邻的特征向量之间的距离有助于提升网络的分类能力,同时通过一个正则项保证各个类别的均衡以防止类别消失;
首先将网络前三层初始化为Step1训练后的网络;设共需将企业分为C类,记样本集合为X为中的样本,X的最近邻集合为η为网络参数,gη(X)为样本X经过网络映射后输出的向量,为样本X通过网络估计分为第c类的概率,且.则优化目标为:
Step3:自标签学习
根据前两步得到一个初步的预训练聚类网络,基于Step2训练的网络计算所有样本的聚类结果以及样本分到这一类的概率,将其中概率较高的作为原型样本,将其聚类结果作为标签对网络进行微调来提升网络表现;
选取一个阈值T,选取聚类后的各个簇上分配至这个簇的概率大于T的样本作为原型样本,并直接基于交叉熵损失,将原型样本的聚类结果作为其标签对网络进行训练,设为原型样本集合,为中元素的数量,Xi为中的样本,y′i为Xi所在的簇,y′i为y′i经one-hot编码后生成的指示向量,则训练目标为:
根据优化目标进行反向传播更新整个网络完成网络预训练工作,得到聚类网络;
Step4:噪声标签建模及分类网络训练
本发明进一步的改进在于,步骤5)中,通过以下方法对噪声进行建模并构建噪声建模层:
Step1:构造聚类噪声建模层
Step2:聚类噪声建模层预训练
Step3:基于聚类噪声建模层训练聚类网络
在现有网络及噪声建模层的基础上对聚类网络进行训练并对聚类噪声建模层进行微调,通过加入噪声标签信息进一步提升网络表现,优化目标为:
Step4:生成分类置换矩阵
当前的聚类网络输出结果为聚类结果,需将其输出的类别对应至分类类别;分类置换矩阵A是一个C×C的转移矩阵,Aj,i=P(Y′=i|Y=j),在纳税人行业分类问题中可认为噪声数据中的真实数据量显著,也就是说每个类别中的噪声量小于0.5,故可以通过凸优化的方法求得置换矩阵;
具体的,凸优化限制具体步骤为:
凸优化目标为:
求得分类置换矩阵用于后续训练;
Step5:生成噪声建模矩阵
具体的,求得矩阵的方法为:
其中count(·)为计数函数,计算满足条件的样本数量,g(X)为X经过聚类网络计算后将其分至的聚类簇;
Step6:将聚类网络转置为分类网络
记W4,b4分别为网络输出层的权重和偏移量参数,将其进行转置:
W4:=AW4
b4:=Ab4
Step7:构建噪声建模层并对分类网络进行微调
在分类网络输出之后构建两层矩阵组合为噪声建模层,第一个建模层为分类置换矩阵A,第二个建模层为噪声建模矩阵T,则分类网络训练目标为:
本发明进一步的改进在于,步骤6)中,通过BERT-CNN网络对纳税人行业进行分类,具体方法为:
Step1:预测纳税人行业类别概率
Step2:纳税人行业分类
本发明至少具有以下有益的技术效果:
本发明提供的一种基于噪声标签学习的纳税人行业分类方法,充分利用现有的纳税人企业登记信息,改进了现有的分类方法,仅基于现有的带噪标签数据构建噪声鲁棒的纳税人行业分类模型,而无需额外标注。与现有技术相比,本发明的优点是:
(1)本发明直接使用现有的企业登记信息中的噪声数据进行分类模型学习,区别于现有的技术通常需要额外的精确标注数据,本发明直接基于企业登记信息中的带噪标签作为样本标签进行模型训练,节省了数据标注成本。
(2)本发明通过对比学习、最近邻语义聚类以及自标签学习的方式挖掘特征及特征间的联系,充分利用同类别样本之间的特征相似性对特征信息进行挖掘,区别于现有技术直接利用原始特征进行学习的方法,本发明能够避免浅层特征的干扰,挖掘到更多深层特征的信息,提升了分类精度;
(3)本发明提出了一种噪声建模的方法,基于前一步挖掘到高度相似的同类特征构建聚类噪声建模层,通过聚类噪声建模层将噪声标签信息加入聚类网络,提升了聚类精度;此后基于聚类结果构造分类噪声建模层和分类置换矩阵层,并基于所构造的分类噪声建模层和分类置换矩阵层进行分类模型的训练,有效降低了噪声对分类网络训练的影响,保证了纳税人分类网络的噪声鲁棒性,提升了带噪标签数据下的纳税人分类精度。
附图说明
图1为整体框架流程图。
图2为纳税人文本信息处理流程图。
图3为纳税人非文本信息处理流程图。
图4为纳税人BERT-CNN分类网络构建流程图。
图5为基于最近邻语义聚类的BERT-CNN网络预训练流程图。
图6为基于噪声分布建模的BERT-CNN网络训练流程图。
图7为纳税人行业分类流程图。
图8为聚类噪声建模网络示意图。
图9为分类噪声学习网络示意图。
具体实施方式
以下结合附图和实施例对本发明做出进一步的说明。
实施例
选取某地区国税中2017年至2019年登记注册的纳税人信息,包含97个行业大类。以下参照附图,结合实验案例及具体实施方式对本发明作进一步的详细描述。凡基于本发明内容所实现的技术均属于本发明的范围。
如图1所示,本发明的具体实施中,基于噪声标签学习的纳税人行业分类包括以下步骤:
步骤1.纳税人文本信息处理
纳税人行业信息登记表中有很多有用信息是以字符串文本的形式存储在数据库中。登记纳税人信息和登记纳税人信息扩展表中提取{纳税人名称,主营,兼营,经营方式,经营范围}五列作为文本特征。文本特征处理实施过程如图2,具体包括以下步骤:
S101.文本信息规范化
从纳税人登记信息表中筛选所需的纳税人文本信息,并删除文本信息中的特殊符号、数字以及量词;
S102.BERT文本编码
文本特征生成主要包括以下步骤:在文本信息前后添加分句标志,处理文本中空白字符外的控制字符、替换字符和空白字符,按字切分句子并去除空格和非中文字符,通过BERT预训练模型将文本信息编码;
S103.文本特征矩阵生成
将字编码后的嵌入向量拼接为文本特征矩阵。
本实施例中,选取纳税人名称为“陕西省西安市雁塔区α全景VR科技有限公司”,经过步骤1后,删除特殊符号α(图2 S101),随后在文本前后添加分句标志,处理非中文字符后删除AR,按字切分为{陕,西,省,西,安,市,雁,塔,区,全,景,科,技,有,限,公,司},选取编码长度为768维,通过BERT预训练模型对字编码(图2 S102),将编码后的嵌入向量拼接后得到一个17×768维的特征矩阵(图2 S103)。
步骤2.纳税人非文本信息处理
纳税人登记信息数据库中除了文本信息还包括一些非文本信息,非文本信息中存在更直观的特征,这些非文本信息对于纳税人行业分类、聚类及异常检测同样具有重要价值。
如图3所示,本实施例非文本属性详细的处理步骤包括:
S201.数值特征标准化
查询纳税人行业信息数据库中登记纳税人信息和登记纳税人信息扩展表,选取{注册资本,投资总额,从业人数,外籍人数,合伙人数,固定人数,自然人投资比例,外资投资比例,国有投资比例}9列作为数值特征,对上述9列特征进行z-score处理。
具体地,本实施例中,首先计算上述9列特征的样本均值μ1,μ2,…,μ9以及样本方差σ1,σ2,...,σ9,记Xi为样本X第i个数值特征的取值,则通过z-score公式将9列上的特征进行映射来实现数值特征标准化(图3 S201)。
S202.类别特征One-Hot编码
查询纳税人行业信息数据库中登记纳税人信息和登记纳税人信息扩展表,选取{登记注册类型,总结构标志,是否为国地税共管户,执照类别代码,行业明细代码,是否从事国家限制和禁止行业,电子发票企业标志}7列作为类别特征,对上述7列特征进行one-hot编码处理。
本实施例中,选取总机构标志特征为例,首先计算总机构标志特征的取值范围,经计算后总机构标志取值共有{总机构,非总机构,分支机构}3类,故设置3位寄存器对其进行编码;然后将{总机构,非总机构,分支机构}分别映射为{001,010,100}三种寄存器编码;最后根据映射规则将总机构标志列的所有特征进行编码(图3 S202)。
S203.特征映射
非文本特征和文本特征经过步骤S201和S202处理后,得到特征向量,将这些特征向量通过线性层映射并进行拼接,得到完整的数值特征矩阵。
具体的,本实施例中,首先通过构造一个1×768维的线性层将标准化后数值特征映射为768维的特征向量;然后比较不同类别特征的编码寄存器最大维度,经比较得到最大维度为264维,将不足264维的编码后补0至264维;最后构造一个264×768维的线性层将类别特征编码映射至768维,并将两个线性层映射后的向量进行拼接得到非文本特征向量矩阵(图3 S203)。
步骤3.构建纳税人行业分类网络(BERT-CNN)
所述BERT-CNN网络共有四层网络结构,输入层分为文本特征编码部分和非文本特征映射部分;第二层为CNN卷积层,用于特征挖掘和提取;第三层对第二层的输出做最大池化(max-pooling);输出层为一个带softmax的全连接层。
具体的,本实施例中,首先将768维的BERT编码部分、一个1×768维的数值特征映射线性层和一个264×768维的类别特征映射线性层作为第一层;首先,BERT编码部分,本实施例中分别为{纳税人名称,主营,兼营,经营方式,经营范围}五个特征设定特征矩阵维度为{20×768,20×768,20×768,10×768,100×768};具体的,以纳税人名称为例,输出设定为20×768维的矩阵,对于切分后不足20个字的通过补0对齐,超过20字的进行截取,数值特征映射线性层输出为一个9×768维的矩阵,类别特征映射线性层输出为一个7×768维的矩阵,将三个矩阵拼接维一个36×768维的矩阵作为本层的输出(图4 S301);第二层构造2×768、3×768、4×768、5×768、6×768的一维卷积核各一个对上一层的矩阵进行卷积操作(图4 S302);第三层为一个池化层,此层对上一层的输出进行2-maxpooling最大池化,保留每个卷积核输出的最大的2个信息并将其进行拼接(图4 S303);最后构造一个全连接层将上一层的输出映射为一个97维的向量(图4 S304)。
步骤4.基于最近邻语义聚类的BERT-CNN网络预训练
所述基于最近邻语义聚类的BERT-CNN网络预训练共分为对比学习、最近邻语义聚类和自标签学习三步;首先根据相似样本具有相似特征表示的思想,对样本进行mask以构造相似样本,通过最小化原样本与对照样本网络特征表示的距离来进行对比学习;其次根据网络特征表示选取多个样本最近邻,通过最小化最近邻之间网络特征表示的距离来进行最近邻语义聚类;最后通过选取置信度较高的样本作为原型样本,基于原型样本的簇标签来进行自标签学习。
具体的,本实施例中,将数据集按照8∶1∶1的比例划分为训练集、验证集和测试集。利用训练集进行网络训练,利用验证集选取训练模型,利用测试集进行模型效果检测。具体训练过程为:首先设样本X的特征经过输入层编码后的特征矩阵为SX,由构建方式可知SX的每个行向量分别对应文本特征中的一个字符或非文本特征中的一个特征,也就是每个行向量都对应一个原始特征,随机选取一个数h∈{1,2,...,10},并随机令SX的h行为0向量作为对照样本,将mask后的矩阵记为ψ(SX),记前三层的网络参数为θ,第三层的输出为向量fθ(SX)和fθ(ψ(SX)),将作为训练目标进行反向传播实现对比学习,最终根据第三层输出向量之间的欧氏距离分别计算每个样本的20最近邻用于后续训练(图5S401);其次,依据对比学习选取的近邻,记样本集合为X为中的样本,X的最近邻集合为η为网络参数,gη(X)为样本X经过网络映射后输出的向量,为样本X通过网络估计分为第c类的概率,且将作为优化目标进行反向传播实现最近邻语义聚类(图5 S402);最后,选取聚类后的各个簇上分配至这个簇的概率大于0.9的样本作为原型样本,记原型样本集合为为中元素的数量,Xi为中的样本,y′i为Xi所在的簇,y′i为y′i经one-hot编码后生成的指示向量,将作为优化目标,通过反向传播实现自标签学习,得到一个聚类网络(图5 S403)。
步骤5.基于噪声分布建模的BERT-CNN网络训练
所述基于噪声分布建模的BERT-CNN网络预训练包括构造聚类噪声建模层、聚类噪声建模层预训练、基于聚类噪声建模层训练聚类网络、生成分类置换矩阵、生成分类噪声建模矩阵、将聚类网络转置为分类网络、构建分类噪声建模层并对分类网络进行训练。
具体的,本实施例中,构建一个97×97的转移矩阵T,将T作为额外一层加到当前聚类网络后(图6 S501);固定当前聚类网络参数η记噪声样本对在聚类网络的输出为g(X),通过噪声建模层后的输出为q(X)=TTgη(X),对q(X)和作交叉熵损失并进行反向传播更新T(图6 S502);在现有网络及噪声建模层的基础上对聚类网络进行训练并对聚类噪声建模层进行微调,通过加入噪声标签信息进一步提升网络表现,将
作为优化目标进行反向传播来训练网络(图6 S503),训练网络构成如图8所示;通过凸优化的方式构造一个97×97维的置换矩阵A(图6 S504);使用聚类网络将样本分为97个簇,在每个簇上计算各噪声标签的数量,构建一个噪声建模矩阵T(图6 S505);基于置换矩阵A将网络输出层的权重和偏移量进行置换,将聚类网络置换为分类网络hη(X)(图6S506);如图9所示,构造两层的噪声建模层,第一个建模层为分类置换矩阵A,第二个建模层为噪声建模矩阵T,使用作为分类网络训练目标,进行反向传播得到最终分类网络hη(X)(图6 S507)。
步骤6.纳税人行业分类
如图9所示,基于所训练网络的前四层作为最终分类网络进行纳税人行业分类,具体包括预测纳税人行业类别概率和纳税人行业分类两步。
具体的,本实施例中,将测试集样本X输入网络得到97维的分类概率向量gη(X)(图7 S601),从向量中取最大值的索引作为X的分类结果(图7 S602)。
本领域的技术人员容易理解,以上所述仅为本发明的方法实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于噪声标签学习的纳税人行业分类方法,其特征在于,包括:
首先,提取纳税人行业信息中待挖掘的文本信息进行文本嵌入,并对嵌入后的信息做特征处理;其次,提取纳税人行业信息中的非文本信息进行编码处理;再次,构建符合纳税人行业分类问题的BERT-CNN深层网络结构,依据上一步处理后的特征信息和目标类别数来确定网络的层数、每层的神经元个数以及输入输出的维度;然后,依次通过对比学习、最近邻的语义聚类及自标签学习对上一步构建的网络进行预训练;最后,在所构建的深层网络基础上增加一个噪声建模层,通过网络的自信任以及噪声标签信息对噪声分布进行建模,并基于噪声标签数据进行模型训练;最终,将噪声建模层前的深层网络作为分类模型,基于此模型进行纳税人行业分类;
其中,通过以下方法对噪声进行建模并构建噪声建模层:
Step1:构造聚类噪声建模层
Step2:聚类噪声建模层预训练
Step3:基于聚类噪声建模层训练聚类网络
在现有网络及噪声建模层的基础上对聚类网络进行训练并对聚类噪声建模层进行微调,通过加入噪声标签信息进一步提升网络表现,优化目标为:
Step4:生成分类置换矩阵
当前的聚类网络输出结果为聚类结果,需将其输出的类别对应至分类类别;分类置换矩阵A是一个C×C的转移矩阵,Aj,i=P(Y′=i|Y=j),在纳税人行业分类问题中可认为噪声数据中的真实数据量显著,也就是说每个类别中的噪声量小于0.5,故可以通过凸优化的方法求得置换矩阵;
具体的,凸优化限制具体步骤为:
凸优化目标为:
求得分类置换矩阵用于后续训练;
Step5:生成噪声建模矩阵
具体的,求得矩阵的方法为:
其中count(·)为计数函数,计算满足条件的样本数量,g(X)为X经过聚类网络计算后将其分至的聚类簇;
Step6:将聚类网络转置为分类网络
记W4,b4分别为网络输出层的权重和偏移量参数,将其进行转置:
W4:=AW4
b4:=Ab4
Step7:构建噪声建模层并对分类网络进行微调
在分类网络输出之后构建两层矩阵组合为噪声建模层,第一个建模层为分类置换矩阵A,第二个建模层为噪声建模矩阵T,则分类网络训练目标为:
2.根据权利要求1所述的一种基于噪声标签学习的纳税人行业分类方法,其特征在于,具体包括以下步骤:
1)纳税人文本信息处理
从纳税人登记信息中筛选所需的纳税人文本信息,选取基于RoBERTa训练方法的中文BERT预训练模型作为编码模型,对文本信息进行编码得到嵌入后的高维文本特征向量,并将此BERT模型作为BERT-CNN模型第一层的一部分参与模型训练;
2)纳税人非文本信息处理
从纳税人登记信息中筛选所需的纳税人非文本信息,根据非文本信息的值是否连续将其分为两类:连续的数值特征和离散的类别特征;对数值特征进行z-score归一化处理,对类别特征通过one-hot encoding方式进行编码;
3)BERT-CNN纳税人行业分类网络构建
构建一个包括输入层、卷积层、池化层和全接连层四层的BERI-CNN网络作为分类网络,根据所选取的纳税人信息维度和所需输出类别设定每层网络的神经元个数;
4)基于最近邻语义聚类的BERT-CNN网络预训练
首先基于对比学习的方式进行对比学习,根据学习到的网络将样本特征嵌入为特定维度的特征向量,依据特征向量的欧氏距离找到其K近邻;在所学到的网络上基于样本及其K近邻的特征进行最近邻语义聚类进一步训练网络;根据当前网络的聚类结果,在上一步所构建网络的基础上做自标签学习,得到最终的预训练网络;
5)基于噪声分布建模的BERT-CNN网络训练
在预训练网络的基础上添加噪声建模层,利用此层拟合噪声来实现对噪声建模,在建模层前基于最近邻语义聚类最小化近邻距离,在建模层后最小化交叉熵损失来拟合噪声,使网络可以同时获取训练样本的近邻及样本标签的信息,基于样本近邻的信息类降低噪声带来的影响,并基于经噪声建模层处理后的标签信息提升其分类精度;
6)纳税人行业分类
将经过以上五步训练得到的BERT-CNN网络作为分类网络对企业纳税人进行行业分类。
3.根据权利要求2所述的一种基于噪声标签学习的纳税人行业分类方法,其特征在于,步骤1)中,纳税人文本信息处理具体包括以下步骤:
Step1:文本信息规范化
从纳税人登记信息中筛选所需的纳税人文本信息,并删除文本信息中的特殊符号、数字以及量词;
Step2:文本特征生成
纳税人登记信息中的企业名称和经营范围、地名、人名的描述中经常出现一词多义问题,利用基于RoBERTa预训练方法训练的24层中文BERT模型进行词向量嵌入能够在词嵌入时充分获取上下文信息,从而解决这一问题;同时BERT依照基于上下文的sub-word策略,将中文切分为具有上下文信息的单字,不受词典限制的将不同词的表述转换为词向量;
所述中文RoBERTa预训练方法是在BERT预训练方法上进行改进,基于Transformer双向编码表示实现的大型BERT模型预训练方法,基于此方法训练后的BERT模型对文本特征进行分词及词嵌入的具体步骤包括:
a、在文本信息前添加[CLS]标志,文本信息后添加[SEP]标志;
b、去除文本中空白字符外的控制字符和替换字符,将空白字符转换为空格;
c、按字切分句子,并去除空格和非中文字符;
d、通过预训练模型将文本信息编码,将字编码后的嵌入向量拼接为特征矩阵。
4.根据权利要求3所述的一种基于噪声标签学习的纳税人行业分类方法,其特征在于,步骤2)中,通过z-score标准化将数值特征进行映射,使其均值为0,标准差为1;所述z-score方法具体步骤为:
Step1:分别计算各数值特征的样本均值μ作为对此特征期望的估计;
Step2:分别计算各数值特征的样本标准差σ作为对此特征标准差的估计;
Step3:将各数值特征分别依照z-score公式进行标准化处理
使用one-hot encoding对类别特征进行编码,详细步骤为:
Step1:使用N位的状态寄存器来表示有N种可能取值的类别特征;
Step2:状态寄存器的每一位表示一种特征取值是否有效,有效取1,无效取0,且规定每个寄存器仅一位有效;
Step3:对每个特征按照Step2规定进行编码,得到one-hot向量用于后续训练;
将处理后的特征向量通过线性层映射至与文本特征向量相同的维度,并将映射后的向量进行拼接,得到非文本特征矩阵。
5.根据权利要求4所述的一种基于噪声标签学习的纳税人行业分类方法,其特征在于,步骤3)中,构建一个BERT-CNN网络;所述BERT-CNN网络共有四层网络结构,输入层分为文本特征编码部分和非文本特征映射部分;第二层为CNN卷积层,用于特征挖掘和提取;第三层对第二层的输出做最大池化max-pooling;输出层为一个全连接层,并将全连接层的输出做softmax得到最终分类结果,所述BERT-CNN网络具体构建步骤为:
Step1:构造输入层文本特征编码部分
为t个文本特征分别选定t个正整数ki,i=1,2,...,t,并设置t个文本特征的特征矩阵维度分别为ki×m,设第i个文本经处理后共有hi个字符,设置BERT字编码维度为m,依照本文提出的编码方式将其输入BERT编码层编码得到hi×m维的中间矩阵,将中间矩阵对齐至ki×m维度则得到第一层BERT编码部分输出的特征矩阵;
具体对齐方法为:若hi<ki,通过padding操作在中间矩阵上下位置添加0向量将其对齐至ki×m维度;若hi>ki,删除中间矩阵第一维索引大于ki的向量从而将其对齐至ki×m维度;若hi=ki,则直接使用中间矩阵作为第一层BERT编码部分输出的特征矩阵;
Step2:构造输入层非文本特征映射部分
构造两个并列的线性层;
一个1×m的线性层用于处理数值特征,通过这个线性层将u个数值特征映射为u×m维的特征矩阵;
另一个线性层用于处理类别特征,设嵌入后的v个类别特征的one-hot向量维度为jc,c=1,2,....,v,通过在向量尾部添加0的方式将其对齐至维,通过一个jmax×m维的线性层将v个类别特征映射至u×m维;
Step3:构造卷积层
卷积层包括维度分别为2×m、3×m、4×m、5×m、6×m的一维卷积核各一个;
Step4:构造池化层
池化层池化方法为p-maxpooling最大池化,保留每个卷积核输出的最大的p个信息并将输出连接;
Step5:构造全连接层
构造一个线性层将Step4的输出映射为一个l维向量,其中l为目标类别数,并对此向量做softmax操作。
6.根据权利要求5所述的一种基于噪声标签学习的纳税人行业分类方法,其特征在于,步骤4)中,BERT-CNN网络预训练具体包括以下步骤:
Step1:对比学习
根据相似样本具有相似特征表示的思想,对样本进行mask以构造相似样本,令原样本和其mask结果间有相似的特征表示,从而提升网络的鲁棒性和特征挖掘能力;具体地,设样本X的特征经过输入层编码后的特征矩阵为SX,由构建方式可知SX的每个行向量分别对应文本特征中的一个字符或非文本特征中的一个特征,也就是每个行向量都对应一个原始特征;选定一个正整数maskmax,随机选取h={1,2,....,maskmax},并随机maskSX的h行令其为0向量作为对照样本,将mask后的矩阵记为ψ(SX);
将SX和ψ(SX)分别输入后续的网络,记前三层的网络参数为θ,f(X)是X经过前三层网络的映射,第三层的输出为向量fθ(SX)和fθ(ψ(SX)),通过最小化f(SX)和f(ψ(SX))的距离来更新网络,则训练目标为:
选取一个正整数n,根据训练目标进行反向传播更新前三层的网络参数以完成第一步预训练,并根据第三层输出向量之间的欧氏距离分别计算每个样本的n最近邻用于后续训练;
Step2:最近语义邻聚类
依据Step1中选取的近邻,由于具有相似特征向量表示的样本通常来自同一行业类别,因此缩小近邻的特征向量之间的距离有助于提升网络的分类能力,同时通过一个正则项保证各个类别的均衡以防止类别消失;
首先将网络前三层初始化为Step1训练后的网络;设共需将企业分为C类,记样本集合为X为中的样本,X的最近邻集合为η为网络参数,gη(X)为样本X经过网络映射后输出的向量,为样本X通过网络估计分为第c类的概率,且则优化目标为:
Step3:自标签学习
根据前两步得到一个初步的预训练聚类网络,基于Step2训练的网络计算所有样本的聚类结果以及样本分到这一类的概率,将其中概率较高的作为原型样本,将其聚类结果作为标签对网络进行微调来提升网络表现;
选取一个阈值τ,选取聚类后的各个簇上分配至这个簇的概率大于τ的样本作为原型样本,并直接基于交叉熵损失,将原型样本的聚类结果作为其标签对网络进行训练,设为原型样本集合,为中元素的数量,Xi为中的样本,y′i为Xi所在的簇,y′i为y′i经one-hot编码后生成的指示向量,则训练目标为:
根据优化目标进行反向传播更新整个网络完成网络预训练工作,得到聚类网络;
Step4:噪声标签建模及分类网络训练
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110201214.5A CN112765358B (zh) | 2021-02-23 | 2021-02-23 | 一种基于噪声标签学习的纳税人行业分类方法 |
PCT/CN2021/079378 WO2022178919A1 (zh) | 2021-02-23 | 2021-03-05 | 一种基于噪声标签学习的纳税人行业分类方法 |
US17/956,879 US20230031738A1 (en) | 2021-02-23 | 2022-09-30 | Taxpayer industry classification method based on label-noise learning |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110201214.5A CN112765358B (zh) | 2021-02-23 | 2021-02-23 | 一种基于噪声标签学习的纳税人行业分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112765358A CN112765358A (zh) | 2021-05-07 |
CN112765358B true CN112765358B (zh) | 2023-04-07 |
Family
ID=75704020
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110201214.5A Active CN112765358B (zh) | 2021-02-23 | 2021-02-23 | 一种基于噪声标签学习的纳税人行业分类方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230031738A1 (zh) |
CN (1) | CN112765358B (zh) |
WO (1) | WO2022178919A1 (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113468324A (zh) * | 2021-06-03 | 2021-10-01 | 上海交通大学 | 基于bert预训练模型和卷积网络的文本分类方法和系统 |
CN113379503A (zh) * | 2021-06-24 | 2021-09-10 | 北京沃东天骏信息技术有限公司 | 推荐信息展示方法、装置、电子设备和计算机可读介质 |
CN113255849B (zh) * | 2021-07-14 | 2021-10-01 | 南京航空航天大学 | 一种基于双重主动查询的标签带噪图像学习方法 |
CN113435863A (zh) * | 2021-07-22 | 2021-09-24 | 中国人民大学 | 建导式协作流程优化方法、系统、存储介质及计算设备 |
CN113593631B (zh) * | 2021-08-09 | 2022-11-29 | 山东大学 | 一种预测蛋白质-多肽结合位点的方法及系统 |
CN113610194B (zh) * | 2021-09-09 | 2023-08-11 | 重庆数字城市科技有限公司 | 一种数字档案自动分类方法 |
CN113535964B (zh) * | 2021-09-15 | 2021-12-24 | 深圳前海环融联易信息科技服务有限公司 | 企业分类模型智能构建方法、装置、设备及介质 |
CN115146488B (zh) * | 2022-09-05 | 2022-11-22 | 山东鼹鼠人才知果数据科技有限公司 | 基于大数据的可变业务流程智能建模系统及其方法 |
CN115858777B (zh) * | 2022-11-22 | 2023-09-08 | 贝壳找房(北京)科技有限公司 | 文本分类方法、文本分配装置及存储介质 |
CN115544260B (zh) * | 2022-12-05 | 2023-04-25 | 湖南工商大学 | 用于文本情感分析的对比优化编解码方法 |
CN115858792B (zh) * | 2023-02-20 | 2023-06-09 | 山东省计算中心(国家超级计算济南中心) | 基于图神经网络的招标项目名称短文本分类方法及系统 |
CN116049412B (zh) * | 2023-03-31 | 2023-07-14 | 腾讯科技(深圳)有限公司 | 文本分类方法、模型训练方法、装置及电子设备 |
CN116720497B (zh) * | 2023-06-09 | 2024-02-13 | 国网吉林省电力有限公司信息通信公司 | 一种基于语义分析的电网文档关联性层级分析方法及系统 |
CN116912845B (zh) * | 2023-06-16 | 2024-03-19 | 广东电网有限责任公司佛山供电局 | 一种基于nlp与ai的智能内容识别与分析方法及装置 |
CN116703529B (zh) * | 2023-08-02 | 2023-10-20 | 山东省人工智能研究院 | 基于特征空间语义增强的对比学习推荐方法 |
CN117574258B (zh) * | 2024-01-15 | 2024-04-26 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 一种基于文本噪声标签和协同训练策略的文本分类方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109783818A (zh) * | 2019-01-17 | 2019-05-21 | 上海三零卫士信息安全有限公司 | 一种企业行业多标签分类方法 |
CN110705607A (zh) * | 2019-09-12 | 2020-01-17 | 西安交通大学 | 一种基于循环重标注自助法的行业多标签降噪方法 |
JP2020042330A (ja) * | 2018-09-06 | 2020-03-19 | 株式会社リコー | 情報処理装置、データ分類方法およびプログラム |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170308790A1 (en) * | 2016-04-21 | 2017-10-26 | International Business Machines Corporation | Text classification by ranking with convolutional neural networks |
US11531852B2 (en) * | 2016-11-28 | 2022-12-20 | D-Wave Systems Inc. | Machine learning systems and methods for training with noisy labels |
CN109710768B (zh) * | 2019-01-10 | 2020-07-28 | 西安交通大学 | 一种基于mimo递归神经网络的纳税人行业两层级分类方法 |
CN112232241B (zh) * | 2020-10-22 | 2022-03-25 | 华中科技大学 | 一种行人重识别方法、装置、电子设备和可读存储介质 |
-
2021
- 2021-02-23 CN CN202110201214.5A patent/CN112765358B/zh active Active
- 2021-03-05 WO PCT/CN2021/079378 patent/WO2022178919A1/zh active Application Filing
-
2022
- 2022-09-30 US US17/956,879 patent/US20230031738A1/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020042330A (ja) * | 2018-09-06 | 2020-03-19 | 株式会社リコー | 情報処理装置、データ分類方法およびプログラム |
CN109783818A (zh) * | 2019-01-17 | 2019-05-21 | 上海三零卫士信息安全有限公司 | 一种企业行业多标签分类方法 |
CN110705607A (zh) * | 2019-09-12 | 2020-01-17 | 西安交通大学 | 一种基于循环重标注自助法的行业多标签降噪方法 |
Non-Patent Citations (3)
Title |
---|
Learning With Auxiliary Less-Noisy Labels;Duan, Yunyan et al.;《IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS》;20170731;第1716-1721页 * |
基于带噪观测的远监督神经网络关系抽取;叶育鑫等;《软件学报》;20200114(第04期);第1025-1038页 * |
标签噪声鲁棒学习算法研究综述;宫辰等;《航空兵器》;20200828(第03期);第20-26页 * |
Also Published As
Publication number | Publication date |
---|---|
US20230031738A1 (en) | 2023-02-02 |
CN112765358A (zh) | 2021-05-07 |
WO2022178919A1 (zh) | 2022-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112765358B (zh) | 一种基于噪声标签学习的纳税人行业分类方法 | |
WO2023065545A1 (zh) | 风险预测方法、装置、设备及存储介质 | |
CN110532542B (zh) | 一种基于正例与未标注学习的发票虚开识别方法及系统 | |
CN109783818B (zh) | 一种企业行业分类方法 | |
CN109657947B (zh) | 一种面向企业行业分类的异常检测方法 | |
CN112015863B (zh) | 一种基于图神经网络的多元特征融合中文文本分类方法 | |
CN109710768B (zh) | 一种基于mimo递归神经网络的纳税人行业两层级分类方法 | |
CN112541355B (zh) | 一种实体边界类别解耦的少样本命名实体识别方法与系统 | |
CN112560478B (zh) | 一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法 | |
CN112084336A (zh) | 一种高速公路突发事件的实体提取和事件分类方法及装置 | |
CN116089873A (zh) | 模型训练方法、数据分类分级方法、装置、设备及介质 | |
CN114863091A (zh) | 一种基于伪标签的目标检测训练方法 | |
CN114153978A (zh) | 模型训练方法、信息抽取方法、装置、设备及存储介质 | |
CN112949476A (zh) | 基于图卷积神经网络的文本关系检测方法、装置及存储介质 | |
CN113051922A (zh) | 一种基于深度学习的三元组抽取方法及系统 | |
CN115408525A (zh) | 基于多层级标签的信访文本分类方法、装置、设备及介质 | |
CN116663540A (zh) | 基于小样本的金融事件抽取方法 | |
CN115098673A (zh) | 基于变体注意力及层次结构的业务文书信息抽取方法 | |
CN113869055A (zh) | 基于深度学习的电网项目特征属性识别方法 | |
CN112699685B (zh) | 基于标签引导的字词融合的命名实体识别方法 | |
CN116843175A (zh) | 一种合同条款风险检查方法、系统、设备和存储介质 | |
CN114757183B (zh) | 一种基于对比对齐网络的跨领域情感分类方法 | |
CN115936003A (zh) | 基于神经网络的软件功能点查重方法、装置、设备及介质 | |
CN115827871A (zh) | 互联网企业分类的方法、装置和系统 | |
CN115796635A (zh) | 基于大数据和机器学习的银行数字化转型成熟度评价系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |