CN110705607B - 一种基于循环重标注自助法的行业多标签降噪方法 - Google Patents

一种基于循环重标注自助法的行业多标签降噪方法 Download PDF

Info

Publication number
CN110705607B
CN110705607B CN201910865170.9A CN201910865170A CN110705607B CN 110705607 B CN110705607 B CN 110705607B CN 201910865170 A CN201910865170 A CN 201910865170A CN 110705607 B CN110705607 B CN 110705607B
Authority
CN
China
Prior art keywords
label
noise
sample
taxpayer
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910865170.9A
Other languages
English (en)
Other versions
CN110705607A (zh
Inventor
郑庆华
李碧婷
阮建飞
董博
高宇达
宓玲云
范弘铖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN201910865170.9A priority Critical patent/CN110705607B/zh
Publication of CN110705607A publication Critical patent/CN110705607A/zh
Application granted granted Critical
Publication of CN110705607B publication Critical patent/CN110705607B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/12Accounting
    • G06Q40/123Tax preparation or submission

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Accounting & Taxation (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Finance (AREA)
  • General Health & Medical Sciences (AREA)
  • Development Economics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于循环重标注自助法的行业多标签降噪方法,包括步骤:首先,基于Word2Vec技术提取纳税人文本特征,基于One‑Hot编码对纳税人非文本信息进行处理得到非文本特征;其次,基于多输入双向循环神经网络对纳税人文本特征和非文本特征构建分类器模型;然后,在模型训练过程中,基于循环重标注自助法对噪声标签进行识别及纠正;最后,通过多轮迭代逐渐减小存在噪声标签的样本比例,进而降低噪声标签的影响。本发明解决了现有方法中不能划分噪声标签依据噪声标签纠正效果未达到最优就停止训练的问题。

Description

一种基于循环重标注自助法的行业多标签降噪方法
技术领域
本发明属于行业分类领域,特别涉及一种基于循环重标注自助法的行业多标签降噪方法。
背景技术
目前的经济行业分类方法是由税务工作人员根据纳税人登记的经营范围进行主行业及附属行业的划分,但新的活动类型与新的产业形式不断出现,行业数量也急剧增长,税务工作人员对注册纳税人的经济行业划分难度也越来越大,人工划分方法耗时耗力,依赖专家经验,不可避免会出现经济行业错误标注,由此产生的不利影响将直接影响到经济行业的规划,甚至影响到国家对各个行业活动的宏观管理和调控。
目前,经济行业错误标注主要依赖专家经验来判断纠正,在现如今庞大的数据规模和行业规模的情况下,存在工作量大、效率低下、纠正滞后的难题。针对这些难题,以下专利基于机器学习技术,提出了利用计算机处理数据的自动降噪方案:
文献1.一种企业行业多标签分类方法(201910045591.7);
文献2.一种基于标签噪声纠正的众包标注数据质量提升方法(201510754782.2);
文献1提出一种企业行业多标签分类方法,基于规则和图排序的算法,并利用嵌入词向量聚类和主题模型聚类,聚类的距离采用了嵌入式词向量的欧式距离,聚类后通过人工干预的方法,划分为关键词标签和噪声词这两类,对噪音词归集起来构建出噪声词库;利用得到的类标签词库匹配,得到多个行业关键词标签的训练样本;用得到的训练样本训练不同层级的标签分类模型,并利用它对企业进行自主标注多个层级的行业标签。
文献2提出一种基于标签噪声纠正的众包标注数据质量提升方法,首先在初始的众包标注数据集上运行标签集成算法,在此过程中估计出标注者质量和样本的集成标签质量信息;其次再对标签集成后的数据集进行多轮K折交叉验证,构建一个高质量数据集;再用多轮K折交叉验证过程中对每个样本的类标签的预测概率结合标注者质量和样本标签质量得到标签噪声集;然后用高质量数据集训练分类模型;最后用此模型对标签噪声数据集中的样本类标签进行预测和替换。
以上文献所述方法主要存在以下问题:文献1提出的一种企业行业多标签分类方法,使用欧式距离只能划分离群点,而行业多标签分类噪声数据往往表现上非离群点,去噪效果无法保障;文献2提出的基于标签噪声纠正的众包标注数据质量提升方法,使用训练好的模型进行标签纠正后,并未设置衡量指标来评价噪声标签纠正效果,甚至纠正出错也无法识别,这样不仅没有达到标签纠正的效果,反而可能人为引入噪声。
发明内容
为了克服上述现有技术不足,本发明的目的在于提供一种基于循环重标注自助法的行业多标签降噪方法,以解决现有方法中不能划分噪声标签以及噪声标签纠正效果未达到最优就停止训练的问题。
为达到以上目的,本发明采取如下技术方案予以实现的:
一种基于循环重标注自助法的行业多标签降噪方法,包括以下步骤:
1)基于Word2Vec技术提取纳税人文本特征,基于One-Hot编码对纳税人非文本信息进行处理得到非文本特征;
2)基于多输入双向循环神经网络对纳税人文本特征和非文本特征构建分类器模型;
3)在模型训练过程中,基于循环重标注自助法对噪声标签进行识别及纠正;
4)通过多轮迭代逐渐减小存在噪声标签的样本比例,进而降低噪声标签的影响。
本发明进一步的改进在于,步骤1)中,采用纳税人名称和经营范围作为文本特征,按照纳税人名称在前,经营范围在后的顺序将两者拼接起来,并通过构建停用词词典和经济行业专业词典,结合分词工具对合并后的文本内容进行分词处理,并采用Word2Vec技术进行向量化处理,将纳税人名称和经营范围的向量化表示作为纳税人的文本特征;
对于文本特征,首先输入词嵌入层进行向量化处理后得到文本特征的向量化表示,然后经过双向GRU网络对文本特征学习正向和反向的文本特征表示,经过正向GRU网络后得到文本特征256维向量的正向表示,经过反向GRU网络后得到文本特征256维向量的反向表示,将双向GRU学习到的正向文本表示和反向文本表示合并后,得到512维向量,最后经过注意力层通过注意力提取机制提取词注意力;采用法人信息、经营资本信息、人员规模信息和类型标志信息作为纳税人非文本特征,对定量指标进行无量纲化处理,对定性指标进行One-Hot编码处理,得到纳税人非文本特征的向量化表示;再将纳税人的文本特征向量和非文本特征向量进行结合,得到纳税人特征向量。
本发明进一步的改进在于,步骤2)中,将待分类的样本输入至双向循环神经网络中,完成分类器模型构建并得到预测概率,其中构造分类器模型包括以下步骤:
201)在样本集上进行分类器模型训练;将步骤1)得到的纳税人特征向量输入到分类器模型,再通过三层全连接层,最后通过输出层进行纳税人所属经济行业的分类和预测,输出层由若干个Sigmoid神经元组成,每个神经元的输出代表了对应类别的预测概率,完成将多标签分类问题转换为了若干个二分类问题的组合;
202)通过预测结果,计算损失函数,在大规模多标签分类时采用交叉熵损失函数作为损失函数能够起到很好的分类效果;
单个Sigmoid神经元交叉熵损失函数的计算公式为:
Figure BDA0002201048780000031
式中,
Figure BDA0002201048780000032
表示样本的原始标签,
Figure BDA0002201048780000033
表示预测概率,N表示样本总数量,i表示第i个样本;
在该分类器模型中,Sigmoid层包含了M个Sigmoid神经元,每个神经元对应一种行业标签,因此,该模型的整体损失则为M个交叉熵损失之和,其计算公式为:
Figure BDA0002201048780000041
式中,
Figure BDA0002201048780000042
表示联合损失,
Figure BDA0002201048780000043
表示单个神经元交叉熵损失,M表示输出层Sigmoid神经元个数,j表示第j个神经元,yij表示样本原始标签,
Figure BDA0002201048780000044
表示预测标签概率;
在模型的训练过程中,将整体损失作为总体的优化目标,每个行业类别对应的交叉熵损失作为该Sigmoid神经元的单独优化目标,所有Sigmoid神经元的损失共同影响模型的整体训练效果,当整体损失不再下降,则模型取得了最佳拟合效果,进而能够对所有行业明细进行准确高效的分类预测。
本发明进一步的改进在于,步骤3)中,基于分类器模型对样本标签的预测对原始标签进行纠正,从而实现噪声标签的识别及纠正的处理工作,降低样本集中噪声标签比例,得到更加准确的分类器模型,具体实现步骤如下:
301)设置预测概率的阈值,为了避免在标签纠正过程中,人为引入噪声,并设置阈值;
302)依据样本集的原始标签和预测概率识别噪声标签;当前模型对训练集和验证集的输入特征进行预测,分别得到训练集和验证集的预测概率,若预测概率大于阈值,则将该标签标记为噪声标签,否则,该标签极大概率为正确标签;
该模型将噪声标签分为两种类型,分别是120类型和021类型,噪声标签不同,识别方法也不同;
当分类器输出层的激活函数为Sigmoid函数的情况下,021类型的噪声标签识别方法为:
Figure BDA0002201048780000045
式中,
Figure BDA0002201048780000046
表示在输出层激活函数为Sigmoid函数的情况下,021类型噪声标签的最低概率阈值,si表示输出层激活函数为Sigmoid函数,
Figure BDA0002201048780000047
表示样本原始标签,
Figure BDA0002201048780000048
表示样本预测概率,M表示输出层Sigmoid神经元个数,N表示样本总数量,j表示第j个神经元,i表示第i个样本,得到的
Figure BDA0002201048780000051
即为样本序号与标签序号二元组的集合;
120类型的噪声标签的识别方法为:
Figure BDA0002201048780000052
式中,
Figure BDA0002201048780000053
表示在输出层激活函数为Sigmoid函数的情况下,120类型噪声标签的最高概率阈值;
此外,
Figure BDA0002201048780000054
Figure BDA0002201048780000055
之和为1,设定
Figure BDA0002201048780000056
的取值后,则通过该关系得到
Figure BDA0002201048780000057
的取值;
当分类器输出层的激活函数为Softmax函数的情况下,021类型和120类型的噪声标签对于某一样本而言会成对出现,当预测概率与原始标签不同时,且预测概率对应的概率较高时,则表明该样本的标签可能会存在噪声;021类型的噪声标签识别方法为:
Figure BDA0002201048780000058
式中,Thso表示在输出层激活函数为Softmax函数的情况下,021类型噪声标签的最低概率阈值,so表示输出层激活函数为Softmax函数,h表示预测标签,k表示原始标签,
Figure BDA0002201048780000059
表示样本i的预测概率,
Figure BDA00022010487800000510
表示样本i的原始标签;
120类型的噪声标签识别方法为:
Figure BDA00022010487800000511
Figure BDA00022010487800000512
式中,Thso表示在输出层激活函数为Softmax函数的情况下,120声标签的最低概率阈值;
303)纠正样本集中的噪声标签;对训练集和验证集的噪声标签进行纠正,将021类型的噪声标签纠正为1,将210类型的噪声标签纠正为0,并用纠正后的标签替换原始标签,更新纳税人数据集。
本发明进一步的改进在于,步骤301)中,阈值设置为0.95。
本发明进一步的改进在于,步骤4)中,具体实现步骤如下:
401)标签纠正样本比例统计,统计训练集的原始标签和纠正标签总数,计算训练集中进行过标签纠正的样本比例,计算公式为:
Figure BDA0002201048780000061
Figure BDA0002201048780000062
式中,ψ表示训练集中进行过标签纠正的样本比例,
Figure BDA0002201048780000063
表示训练集的原始标签,
Figure BDA0002201048780000064
表示纠正标签,N表示样本总数,
Figure BDA0002201048780000065
表示进行过标签纠正的样本总数;
402)将替换噪声标签后的训练集输入到分类器中,继续对分类模型进行训练,训练过程采用交叉熵损失作为模型损失函数,若验证集的损失相比上一轮训练的结果在下降,则继续对分类器进行训练,若验证集的损失不再下降,则暂停分类器训练过程;若分类器所得分类预测概率未超过阈值,认为当前样本集中无噪声标签,此时步骤401)中纠正样本比例为0,训练出的分类器为最优的分类器模型,结束模型训练,否则继续进行噪声标签的识别及纠正,并对模型进行新一轮的训练,这样多轮迭代降低噪声标签样本比例,以降低噪声标签的影响。
本发明具有如下有益的技术效果:
针对经济行业错误标注纠正难题,现有标签噪声识别纠正方法存在不足,本发明提供了基于循环重标注自助法的行业多标签分类方法,该方法通过训练分类器模型,根据设定阈值和分类器得到的预测概率进行噪声识别和纠正,循环采用纠正后的数据集再训练,直到分类器的预测概率不高于阈值时停止循环重标注过程。因此,使用循环重标注自助法可以同时解决现有技术不能划分噪声标签以及噪声标签纠正效果未达到最优就停止训练的问题。概括来说,本发明具有如下的优点:
1、使用Word2Vec技术提取纳税人文本特征,使用One-Hot编码提取纳税人非文本特征,充分利用了纳税人的文本特征和非文本特征,提高了分类模型的准确率;
2、基于循环重标注自助法对噪声标签进行识别及纠正,能够降低噪声标签对行业分类效果的影响;
3、设置阈值,通过多轮迭代逐渐减小存在噪声标签的样本比例,保证了行业分类模型训练效果更优得同时,避免了人为引入噪声的问题;
4、纳税人标签降噪方法过程不需要人工参与,减低了人工投入。
附图说明
图1是本发明一种基于循环重标注自助法的行业多标签降噪方法的流程图;
图2是基于多输入双向循环网络构建分类器示意图;
图3是纳税人噪声标签自动识别及纠正的流程图。
具体实施方式
以下结合附图对本发明做出进一步的说明。
如图1所示,本发明提供的一种基于循环重标注自助法的行业多标签降噪方法,该方法通过多轮迭代逐渐减少存在噪声标签的样本比例,降低噪声标签的影响,得到更为准确的经济行业分类模型,同时也为识别并纠正税务系统中已注册纳税人存在的噪声标签提供参考。该发明中从纳税人登记注册信息中提取主行业及附属行业的行业明细代码,每个纳税人具有一种主行业,附属行业为可选项,结合纳税人信息,包括以下步骤:
S101:分别用Word2Vec技术和One-Hot编码技术提取纳税人文本特征和非文本特征。如图2所示,提取纳税人文本特征和非文本特征,得出纳税人特征向量。将纳税人名称和经营范围文本拼接起来作为纳税人的文本特征,首先输入词嵌入层进行向量化处理后得到文本特征的向量化表示,然后经过双向GRU网络对文本特征学习正向和反向的文本特征表示,经过正向GRU网络后得到文本特征256维向量的正向表示,经过反向GRU网络后得到文本特征256维向量的反向表示,将双向GRU学习到的正向文本表示和反向文本表示合并后,得到512维向量,然后再经过Attention层通过注意力机制提取词注意力。
对纳税人的法定代表人年龄、注册资本、从业人数等9项定量特征采用Z-Score标准化进行无量纲化处理,得到定量指标对应的9维向量,再对法定代表人性别、登记注册类型、经营方式特征、总机构标志和是否属于国税、地税共管户5项定性指标进行One-Hot编码处理,得到86维向量,将定量指标对应的9维向量和定性指标对应的86维向量进行合并,得到非文本特征的95维向量表示。
将纳税人的文本特征向量和非文本特征向量进行结合,得到纳税人特征向量,并将纳税人样本集按照8:2的比例分为训练集和验证集。
S102:基于多输入双向循环神经网络构建分类器模型,将纳税人特征向量输入至分类器中,该过程的具体实现包括以下步骤:
Step 1:纳税人经济行业分类模型训练。同时使用文本特征和非文本特征进行纳税人经济行业分类模型训练,将S101中训练集的纳税人特征向量输入至分类模型中。这里使用了多输入双向循环神经网络作为分类器模型,该分类模型包括输入层、隐藏层和输出层。
输入层:输入纳税人训练数据集中的特征向量;
隐藏层:对输入纳税人特征多层次的抽象,提取不同层次的行业特征信息,进一步在抽象的空间中实现分类;
输出层:输出层的激活函数可用Sigmoid函数或Softmax函数。Sigmoid激活函数的定义域能够取任何范围的实数,而返回的输出值在0到1的范围内,如果输出值大于阈值,则认为属于某个类别,否则不属于,因此适合用于二分类问题,若对每个分类计算的结果分别作用一个Sigmoid分类器,则可用于多标签分类问题;Softmax激活函数将会计算每个目标类别在所有可能的目标类中的概率,其输出概率的范围为0到1,所有概率的和将等于1,该激活函数适用于多类分类问题。
Step 2:损失函数计算。为了让分类器模型在训练数据上学到的预测数据分布与真实数据分布相近,使用交叉熵损失函数。纳税人行业划分分类器模型输出层的激活函数为Sigmoid函数,则计算交叉熵损失公式为
Figure BDA0002201048780000091
式中,N表示样本总量,M表示输出层Sigmoid神经元的数量,当分类问题为二分类时M=1,当分类问题为多标签分类时M与标签总数量相同,
Figure BDA0002201048780000092
表示样本原始标签,
Figure BDA0002201048780000093
表示预测标签概率,i表示第i个样本,j表示第j个神经元;
如果分类器输出层的激活函数为Softmax函数,则计算交叉熵损失公式为
Figure BDA0002201048780000094
式中,N表示样本数量,M表示输出层Softmax神经元的数量,并且与标签总数量相同,
Figure BDA0002201048780000095
表示真实标签情况,
Figure BDA0002201048780000096
表示预测标签概率。
Step 4:将验证集的纳税人特征向量输入到分类器模型中,得到预测概率,并通过预测概率和原始标签计算验证集的损失,如果验证集的损失相比上一轮训练的结果在下降,则执行步骤Step1,继续对分类器进行训练,如果验证集的损失不再下降,暂停对分类器的训练,执行步骤3)。
S103:基于循环重标注自助法对噪声标签进行自动识别和纠正,如图3所示,该过程的具体实现包括下述步骤:
Step 1:设置预测概率的阈值,便于后续识别噪声标签。为了在标签纠正过程中,减少人为引入噪声标签的可能性,阈值一般设置为较大值。在该模型中,将阈值设置为0.98-0.90,步长为0.01,分别进行模型训练,经过多轮对比,确定阈值为0.95时训练效果最优;
Step 2:识别噪声标签。依据当前分类器模型得到的预测概率和原始标签进行噪声标签识别。若训练集的预测概率大于阈值,则将该标签标记为噪声标签;若训练集的预测概率小于阈值,则说明该标签很大概率是正确标签。同理,对验证集也做相同的操作,识别出验证集的噪声标签。
该模型将噪声标签分为两种类型,分别是120类型和021类型,噪声标签不同,识别方法也不同。021类型的噪声标签表示某样本属于该类别,被错误标记为不属于该类别;210类型的噪声标签表示某样本不属于该类别,但被错误标记为属于该类别。
分类器模型的输出层的激活函数不同,噪声标签的识别方法也有不同。
当分类器输出层的激活函数为Sigmoid函数的情况下,021类型的噪声标签的识别方法公式为
Figure BDA0002201048780000101
式中,
Figure BDA0002201048780000102
表示在输出层激活函数为Sigmoid函数的情况下,021类型噪声标签的最低概率阈值,si表示输出层激活函数为Sigmoid函数;M表示输出层Sigmoid神经元个数,N表示样本总数量,
Figure BDA0002201048780000103
表示样本原始标签,
Figure BDA0002201048780000104
表示预测标签概率,得到的
Figure BDA0002201048780000105
为样本序号与标签序号二元组的集合。该公式表示原始标签为0,并且预测概率大于等于阈值的噪声标签为021类型。
120类型的噪声标签识别方法公式为
Figure BDA0002201048780000106
式中,
Figure BDA0002201048780000107
表示在输出层激活函数为Sigmoid函数的情况下,120类型噪声标签的最高概率阈值,si表示输出层激活函数为Sigmoid函数,
Figure BDA0002201048780000108
表示样本原始标签,
Figure BDA0002201048780000109
表示样本预测标签概率。该公式表示原始标签为1,并且预测概率小于阈值的噪声标签为120类型。
当分类器输出层的激活函数为Softmax函数的情况下,021类型和120类型的噪声标签对于某一样本而言会成对出现,当预测标签和原始标签不同,且预测标签对应的异常概率较高时,则表明该样本的标签可能会存在噪声,预测标签为021类型的噪声标签,原始标签为120类型的噪声标签。此时噪声标签识别方法公式为
Figure BDA0002201048780000111
Figure BDA0002201048780000112
式中,Thso表示在输出层激活函数为Softmax函数的情况下,021类型噪声标签的最低概率阈值,so表示输出层激活函数为Softmax函数,h表示预测标签,
Figure BDA0002201048780000113
表示预测概率,j表示预测标签,k表示原始标签,
Figure BDA0002201048780000114
表示样本i的预测概率,
Figure BDA0002201048780000115
表示样本i的原始标签。该公式标签在预测标签与原始标签不同,且预测概率大于最低概率阈值时为噪声标签。
在纳税人分类器模型中,由于纳税人行业人分类属于多标签分类问题,因此采用的激活函数是Sigmoid函数。
Step 3:噪声标签纠正并更新样本集。通过噪声标签识别结果对训练集和验证集的原始标签进行噪声标签纠正,将021类型的噪声标签
Figure BDA0002201048780000116
纠正为1,将120类型的噪声标签
Figure BDA0002201048780000117
纠正为0,噪声标签的纠正公式为
Figure BDA0002201048780000118
式中,
Figure BDA0002201048780000119
表示正确标签,
Figure BDA00022010487800001110
表示修改后的标签,
Figure BDA00022010487800001111
表示原始标签。
S104:通过多轮迭代逐渐较小存在噪声标签的样本比例,进而降低噪声标签的影响。
Step 1:标签纠正样本比例统计。统计训练集的原始标签和纠正标签总数,计算训练集中进行标签纠正的样本比例,计算公式为:
Figure BDA00022010487800001112
Figure BDA00022010487800001113
式中,ψ表示训练集中进行过标签纠正的样本比例,
Figure BDA00022010487800001114
表示训练集的原始标签,
Figure BDA00022010487800001115
表示纠正标签,N表示样本总数,
Figure BDA00022010487800001116
表示进行过标签纠正的样本总数。
Step 2:用纠正噪声标签后的训练集样本继续对分类器进行训练,将验证集特征向量输入分类器中得到行业分类预测概率,用交叉熵损失函数计算验证集的损失,若相比上一轮训练结果损失在下降,则继续对分类器进行训练,若验证集的损失不再下降,则判断样本集中噪声标签是否完全去除。将行业分类预测概率与阈值比较,若大于阈值,则说明噪声标签未完全去除,则执行多轮迭代过程;若行业分类预测概率小于阈值,此时Step1中样本纠正比例为0,则说明分类器模型已达最优,样本集中的噪声标签已完全去除,则停止模型训练。

Claims (5)

1.一种基于循环重标注自助法的行业多标签降噪方法,其特征在于,包括以下步骤:
1)基于Word2Vec技术提取纳税人文本特征,基于One-Hot编码对纳税人非文本信息进行处理得到非文本特征;
2)基于多输入双向循环神经网络对纳税人文本特征和非文本特征构建分类器模型;
3)在模型训练过程中,基于分类器模型对样本标签的预测对原始标签进行纠正,从而实现噪声标签的识别及纠正的处理工作,降低样本集中噪声标签比例,得到更加准确的分类器模型,具体实现步骤如下:
301)设置预测概率的阈值,为了避免在标签纠正过程中,人为引入噪声,并设置阈值;
302)依据样本集的原始标签和预测概率识别噪声标签;当前模型对训练集和验证集的输入特征进行预测,分别得到训练集和验证集的预测概率,若预测概率大于阈值,则将该标签标记为噪声标签,否则,该标签极大概率为正确标签;
该模型将噪声标签分为两种类型,分别是120类型和021类型,噪声标签不同,识别方法也不同;
当分类器输出层的激活函数为Sigmoid函数的情况下,021类型的噪声标签识别方法为:
Figure FDA0003773558050000011
式中,
Figure FDA0003773558050000012
表示在输出层激活函数为Sigmoid函数的情况下,021类型噪声标签的最低概率阈值,si表示输出层激活函数为Sigmoid函数,
Figure FDA0003773558050000013
表示样本原始标签,
Figure FDA0003773558050000014
表示样本预测概率,M表示输出层Sigmoid神经元个数,N表示样本总数量,j表示第j个神经元,i表示第i个样本,得到的
Figure FDA0003773558050000015
即为样本序号与标签序号二元组的集合;
120类型的噪声标签的识别方法为:
Figure FDA0003773558050000016
式中,
Figure FDA0003773558050000017
表示在输出层激活函数为Sigmoid函数的情况下,120类型噪声标签的最高概率阈值;
此外,
Figure FDA0003773558050000021
Figure FDA0003773558050000022
之和为1,设定
Figure FDA0003773558050000023
的取值后,则通过该关系得到
Figure FDA0003773558050000024
的取值;
当分类器输出层的激活函数为Softmax函数的情况下,021类型和120类型的噪声标签对于某一样本而言会成对出现,当预测概率与原始标签不同时,且预测概率对应的概率较高时,则表明该样本的标签可能会存在噪声;021类型的噪声标签识别方法为:
Figure FDA0003773558050000025
式中,Thso表示在输出层激活函数为Softmax函数的情况下,021类型噪声标签的最低概率阈值,so表示输出层激活函数为Softmax函数,h表示预测标签,k表示原始标签,
Figure FDA0003773558050000026
表示样本i的预测概率,
Figure FDA0003773558050000027
表示样本i的原始标签;
120类型的噪声标签识别方法为:
Figure FDA0003773558050000028
Figure FDA0003773558050000029
式中,Thso表示在输出层激活函数为Softmax函数的情况下,120声标签的最低概率阈值;
303)纠正样本集中的噪声标签;对训练集和验证集的噪声标签进行纠正,将021类型的噪声标签纠正为1,将120类型的噪声标签纠正为0,并用纠正后的标签替换原始标签,更新纳税人数据集;
4)通过多轮迭代逐渐减小存在噪声标签的样本比例,进而降低噪声标签的影响。
2.根据权利要求1所述的一种基于循环重标注自助法的行业多标签降噪方法,其特征在于,步骤1)中,采用纳税人名称和经营范围作为文本特征,按照纳税人名称在前,经营范围在后的顺序将两者拼接起来,并通过构建停用词词典和经济行业专业词典,结合分词工具对合并后的文本内容进行分词处理,并采用Word2Vec技术进行向量化处理,将纳税人名称和经营范围的向量化表示作为纳税人的文本特征;
对于文本特征,首先输入词嵌入层进行向量化处理后得到文本特征的向量化表示,然后经过双向GRU网络对文本特征学习正向和反向的文本特征表示,经过正向GRU网络后得到文本特征256维向量的正向表示,经过反向GRU网络后得到文本特征256维向量的反向表示,将双向GRU学习到的正向文本表示和反向文本表示合并后,得到512维向量,最后经过注意力层通过注意力提取机制提取词注意力;采用法人信息、经营资本信息、人员规模信息和类型标志信息作为纳税人非文本特征,对定量指标进行无量纲化处理,对定性指标进行One-Hot编码处理,得到纳税人非文本特征的向量化表示;再将纳税人的文本特征向量和非文本特征向量进行结合,得到纳税人特征向量。
3.根据权利要求2所述的一种基于循环重标注自助法的行业多标签降噪方法,其特征在于,步骤2)中,将待分类的样本输入至双向循环神经网络中,完成分类器模型构建并得到预测概率,其中构造分类器模型包括以下步骤:
201)在样本集上进行分类器模型训练;将步骤1)得到的纳税人特征向量输入到分类器模型,再通过三层全连接层,最后通过输出层进行纳税人所属经济行业的分类和预测,输出层由若干个Sigmoid神经元组成,每个神经元的输出代表了对应类别的预测概率,完成将多标签分类问题转换为了若干个二分类问题的组合;
202)通过预测结果,计算损失函数,在大规模多标签分类时采用交叉熵损失函数作为损失函数能够起到很好的分类效果;
单个Sigmoid神经元交叉熵损失函数的计算公式为:
Figure FDA0003773558050000031
式中,
Figure FDA0003773558050000032
表示样本的原始标签,
Figure FDA0003773558050000033
表示预测概率,N表示样本总数量,i表示第i个样本;
在该分类器模型中,Sigmoid层包含了M个Sigmoid神经元,每个神经元对应一种行业标签,因此,该模型的整体损失则为M个交叉熵损失之和,其计算公式为:
Figure FDA0003773558050000034
式中,
Figure FDA0003773558050000035
表示联合损失,
Figure FDA0003773558050000036
表示单个神经元交叉熵损失,M表示输出层Sigmoid神经元个数,j表示第j个神经元,yij表示样本原始标签,
Figure FDA0003773558050000041
表示预测标签概率;
在模型的训练过程中,将整体损失作为总体的优化目标,每个行业类别对应的交叉熵损失作为该Sigmoid神经元的单独优化目标,所有Sigmoid神经元的损失共同影响模型的整体训练效果,当整体损失不再下降,则模型取得了最佳拟合效果,进而能够对所有行业明细进行准确高效的分类预测。
4.根据权利要求1所述的一种基于循环重标注自助法的行业多标签降噪方法,其特征在于,步骤301)中,阈值设置为0.95。
5.根据权利要求1所述的一种基于循环重标注自助法的行业多标签降噪方法,其特征在于,步骤4)中,具体实现步骤如下:
401)标签纠正样本比例统计,统计训练集的原始标签和纠正标签总数,计算训练集中进行过标签纠正的样本比例,计算公式为:
Figure FDA0003773558050000042
Figure FDA0003773558050000043
式中,ψ表示训练集中进行过标签纠正的样本比例,
Figure FDA0003773558050000044
表示训练集的原始标签,
Figure FDA0003773558050000045
表示纠正标签,N表示样本总数,
Figure FDA0003773558050000046
表示进行过标签纠正的样本总数;
402)将替换噪声标签后的训练集输入到分类器中,继续对分类模型进行训练,训练过程采用交叉熵损失作为模型损失函数,若验证集的损失相比上一轮训练的结果在下降,则继续对分类器进行训练,若验证集的损失不再下降,则暂停分类器训练过程;若分类器所得分类预测概率未超过阈值,认为当前样本集中无噪声标签,此时步骤401)中纠正样本比例为0,训练出的分类器为最优的分类器模型,结束模型训练,否则继续进行噪声标签的识别及纠正,并对模型进行新一轮的训练,这样多轮迭代降低噪声标签样本比例,以降低噪声标签的影响。
CN201910865170.9A 2019-09-12 2019-09-12 一种基于循环重标注自助法的行业多标签降噪方法 Active CN110705607B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910865170.9A CN110705607B (zh) 2019-09-12 2019-09-12 一种基于循环重标注自助法的行业多标签降噪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910865170.9A CN110705607B (zh) 2019-09-12 2019-09-12 一种基于循环重标注自助法的行业多标签降噪方法

Publications (2)

Publication Number Publication Date
CN110705607A CN110705607A (zh) 2020-01-17
CN110705607B true CN110705607B (zh) 2022-10-25

Family

ID=69195078

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910865170.9A Active CN110705607B (zh) 2019-09-12 2019-09-12 一种基于循环重标注自助法的行业多标签降噪方法

Country Status (1)

Country Link
CN (1) CN110705607B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111507419B (zh) * 2020-04-22 2022-09-30 腾讯科技(深圳)有限公司 图像分类模型的训练方法及装置
CN112860895B (zh) * 2021-02-23 2023-03-28 西安交通大学 一种基于多级生成模型的纳税人行业分类方法
CN112765358B (zh) * 2021-02-23 2023-04-07 西安交通大学 一种基于噪声标签学习的纳税人行业分类方法
CN113343695B (zh) * 2021-05-27 2022-02-01 镁佳(北京)科技有限公司 一种文本标注噪声检测方法、装置、存储介质及电子设备
CN113593591B (zh) * 2021-07-27 2024-06-11 北京小米移动软件有限公司 语料降噪方法及装置、电子设备和存储介质
CN113448955B (zh) * 2021-08-30 2021-12-07 上海观安信息技术股份有限公司 数据集质量评估方法、装置、计算机设备及存储介质
CN113535964B (zh) * 2021-09-15 2021-12-24 深圳前海环融联易信息科技服务有限公司 企业分类模型智能构建方法、装置、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105426826A (zh) * 2015-11-09 2016-03-23 张静 一种基于标签噪声纠正的众包标注数据质量提升方法
CN109543756A (zh) * 2018-11-26 2019-03-29 重庆邮电大学 一种基于主动学习的标签查询与更改方法
CN109657947A (zh) * 2018-12-06 2019-04-19 西安交通大学 一种面向企业行业分类的异常检测方法
CN109710768A (zh) * 2019-01-10 2019-05-03 西安交通大学 一种基于mimo递归神经网络的纳税人行业两层级分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI679559B (zh) * 2018-02-01 2019-12-11 矽統科技股份有限公司 使用者與觸控筆的互動方法以及觸控筆產品

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105426826A (zh) * 2015-11-09 2016-03-23 张静 一种基于标签噪声纠正的众包标注数据质量提升方法
CN109543756A (zh) * 2018-11-26 2019-03-29 重庆邮电大学 一种基于主动学习的标签查询与更改方法
CN109657947A (zh) * 2018-12-06 2019-04-19 西安交通大学 一种面向企业行业分类的异常检测方法
CN109710768A (zh) * 2019-01-10 2019-05-03 西安交通大学 一种基于mimo递归神经网络的纳税人行业两层级分类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Label noise filtering techniques to improve monotonic classification;José-RamónCano 等;《Neurocomputing》;20190811;第353卷;全文 *
Reducing Noise in Label Annotation: A Lane Change Prediction Case Study;Martin Krüger 等;《IFAC-PapersOnLine》;20190910;第52卷(第8期);全文 *
标签带噪声数据的重加权半监督分类方法;陈倩 等;《烟台大学学报(自然科学与工程版)》;20190731;第32卷(第3期);全文 *

Also Published As

Publication number Publication date
CN110705607A (zh) 2020-01-17

Similar Documents

Publication Publication Date Title
CN110705607B (zh) 一种基于循环重标注自助法的行业多标签降噪方法
CN112765358B (zh) 一种基于噪声标签学习的纳税人行业分类方法
CN111143550B (zh) 一种基于层次注意力神经网络模型的争议焦点自动识别方法
CN110532542B (zh) 一种基于正例与未标注学习的发票虚开识别方法及系统
CN112069310B (zh) 基于主动学习策略的文本分类方法及系统
CN112015863B (zh) 一种基于图神经网络的多元特征融合中文文本分类方法
CN113591866B (zh) 基于db与crnn的特种作业证件检测方法及系统
CN109710768B (zh) 一种基于mimo递归神经网络的纳税人行业两层级分类方法
CN111274817A (zh) 一种基于自然语言处理技术的智能化软件成本度量方法
CN112070138A (zh) 多标签混合分类模型的构建方法、新闻分类方法及系统
CN113434688B (zh) 用于舆情分类模型训练的数据处理方法和装置
CN112800232B (zh) 一种基于大数据的案件自动分类方法
CN111273911A (zh) 基于双向lstm和注意力机制的软件技术债务识别方法
CN113886562A (zh) 一种ai简历筛选方法、系统、设备和存储介质
CN107688822B (zh) 基于深度学习的新增类别识别方法
CN114997169A (zh) 一种实体词识别方法、装置、电子设备及可读存储介质
CN110310012B (zh) 数据分析方法、装置、设备及计算机可读存储介质
CN115099310A (zh) 训练模型、对企业进行行业分类的方法和装置
CN112348108A (zh) 一种基于众包模式的样本标注方法
CN115796635A (zh) 基于大数据和机器学习的银行数字化转型成熟度评价系统
CN115062615A (zh) 一种金融领域事件抽取方法和装置
CN114548325A (zh) 基于对偶对比学习的零样本关系抽取方法和系统
CN112860895B (zh) 一种基于多级生成模型的纳税人行业分类方法
CN117975466B (zh) 一种基于版面分析的通用场景卡证识别系统
CN116468037A (zh) 一种基于nlp的数据处理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant