CN110532542A - 一种基于正例与未标注学习的发票虚开识别方法及系统 - Google Patents
一种基于正例与未标注学习的发票虚开识别方法及系统 Download PDFInfo
- Publication number
- CN110532542A CN110532542A CN201910636175.4A CN201910636175A CN110532542A CN 110532542 A CN110532542 A CN 110532542A CN 201910636175 A CN201910636175 A CN 201910636175A CN 110532542 A CN110532542 A CN 110532542A
- Authority
- CN
- China
- Prior art keywords
- enterprise
- sample
- invoice
- out falsely
- behavior
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/12—Accounting
- G06Q40/123—Tax preparation or submission
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Development Economics (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于正例与未标注学习的发票虚开识别方法及系统。本发明包括步骤:首先,对纳税人基本信息中待挖掘的文本和非文本信息进行特征处理和编码处理;其次,将基本特征和网络特征合并作为特征空间,基于提出的循环多间谍负例标记方法在每轮迭代中从已标记的正样本集中随机选择设定比例的间谍样本与未标签样本集作为负样本集,并与剩余的正样本一起作为训练集训练二分类器,通过二分类器对所有的初步负样本集取交集得到最终的可靠的负样本集;然后,将挖掘出的可靠负样本与正样本作为训练集基于k近邻回归协同训练算法构建发票虚开预测模型;最后,将未标记的企业样本的特征输入至发票虚开预测模型以识别企业是否存在发票虚开行为。
Description
技术领域
本发明属于税控技术领域,特别涉及一种基于正例与未标记学习(Positive-Unlabeled learning,简称PU learning)的发票虚开识别方法及系统。
背景技术
发票虚开指不如实开具发票的一种舞弊行为,纳税单位和个人为了达到偷税的目的,在 商品名称、数量名称、商品单价以及金额上采取弄虚作假的手段,甚至利用比较熟悉的关系, 虚构交易事项虚开发票。
由于发票本身是真的,仅通过查验发票真伪无法发现虚开问题,仅能依靠税务稽查人员 的经验,根据有限的票面信息,人工地对发票是否涉及虚开、企业是否存在与虚开行为相关 的异常行为来进行分析判断。然而,随着发票数据规模的不断增长,单纯依靠税务稽查人员 人工识别发票虚开行为变得不切实际,存在工作量大、效率低下、考虑信息不全面、识别滞 后的难题。
针对面临的这一难题,以下文献提供了可参考的基于机器学习自动识别存在虚开行为企 业的相关技术方案:
文献1.一种发票虚开企业监控识别方法及系统(201611220015.4);
文献2.一种基于并行环路检测的虚开增值税专用发票检测方法(201710147850.8);
文献3.一种基于并行关联规则挖掘的发票虚开识别方法(201810436908.5);
文献1利用决策树算法和样本集进行相应的模型训练,创建企业类型预测模型,提取目 标企业的特征信息,并将其输入至企业类型预测模型,以企业类型预测结果确定目标企业的 企业类型是否为虚开发票企业。
文献2基于分布式并行计算方法对环路检测进行了改进,改进的环路检测方法将计算任 务分配给分布式集群中的多台计算机中,最终通过改进环路检测的方法来进行虚开增值税专 用发票检测。
文献3首先提取所需会计期间内的发票记录,构建事务集;其次对不同行业明细的事务 子集分别挖掘频繁项集,生成关联规则;最后,基于不同行业明细的关联规则,计算企业的 自洽性,并通过自洽性计算结果识别存在发票虚开行为的企业。
以上文献所述方法主要存在以下问题:文献1依赖于已标记样本集,在实际的虚开发票 行为检测中,无法通过先验知识获取非虚开企业的样本(负样本),仅能通过启发式规则获取 少量的存在发票虚开行为的企业名单(正样本),传统的机器学习无法训练有效的预测模型; 文献2仅能检测资金经过多个账户后重新回到源账户的虚开发票行为,而发票虚开具有多种 形式,资金流向不一定构成环路,该方法的识别类型过于单一,模型的泛化能力较差;文献 3仅利用了企业的基本信息和发票信息构建模型去检测虚开发票的行为,而忽略了发票信息 之间关联的网络信息,而现实中的发票虚开往往存在上下游关联甚至团伙关联,网络的拓扑 信息对这类虚开行为有很重要的参考价值,忽略这些关联的网络信息会使模型的准确率下降。
发明内容
为了克服上述现有技术的不足,本发明的目的在于提出一种基于正例与未标注学习的发 票虚开识别方法及系统。
本发明采用如下技术方案来实现的:
一种基于正例与未标注学习的发票虚开识别方法,包括以下步骤:
步骤一,企业特征提取模块对纳税人基本信息中待挖掘的文本和非文本信息进行特征处 理和编码处理;
步骤二,循环多间谍负例标记方法挖掘可靠负样本模块将基本特征和网络特征合并作为 特征空间,基于提出的循环多间谍负例标记方法在每轮迭代中从已标记的正样本集中随机选 择设定比例的间谍样本与未标签样本集作为负样本集,并与剩余的正样本一起作为训练集训 练二分类器,用二分类器对间谍样本和未标记样本进行预测,选择间谍样本预测值中的最小 值作为阈值,将预测值小于阈值的未标记样本作为负样本加入初步的负样本集,通过对所有 的初步负样本集取交集得到最终的可靠的负样本集;
步骤三,基于k近邻回归协同训练的模型构建模块将挖掘出的可靠负样本与正样本作为 训练集基于k近邻回归协同训练算法构建发票虚开预测模型;
步骤四,发票虚开行为识别模块将未标记的企业样本的特征后输入至发票虚开预测模型, 以识别企业是否存在发票虚开行为。
本发明进一步的改进在于,步骤一具体包括如下实现步骤:
对企业特征提取,企业特征分为基本特征和交易网络特征,其中:
(1)企业基本特征提取
企业基本信息的数据为三个类别:文本型数据、标志型数据和数值型数据;企业基本特 征提取的具体步骤如下:
1)处理文本型数据
对企业基本信息表中的文本信息对其进行数据的预处理并进行特征提取;纳税人文本特 征处理包括:
步骤1:使用Jieba分词工具进行分词;
步骤2:构建停用表,将文本的停用词去掉;
步骤3:计算语料库中不同类别文本的所占比例,等比例地从其中提取关键词汇;
步骤4:将步骤3提取出来的N类关键词转成词向量构成一个N维的空间,每一个文本 字段对应一个N维的向量,然后将所有的N维中文向量转化成可用于计算的N维数值向量;
2)处理类别型数据
对企业基本信息表中的类别型数据进行预处理并提取特征;对于此类离散型的数据采用 One-Hot编码;对于任意离散型数据特征,设该属性共具有N种离散值,那么对于该数据对 应的特征就有N个状态位,One-Hot编码将这N个状态位中的一位表示为1,其他位均表示 成为0;一个特征值由N-1位0和一位1表示,确保只有一位有效;
3)处理数值型数据
对企业基本信息表中的数值型数据采用传统的标准化方法其进行处理,具体步骤为:
步骤1:获取各个属性的均值
记u=(u1,u2,...,um)为均值向量,其中m表示数值型属性的种类数,ui表示第i个数值型 属性的均值,其具体的计算形式为:
其中,n表示企业基本信息样本的数量,表示第i个样本的第j个数值型属性取值;
步骤2:获取各个属性的方差
记σ=(σ1,σ2,...,σm)为各个数值型属性的方差,其中m表示数值型属性的种类数,σi表 示第i个数值型属性的方差,σi的具体形式为:
均值和方差是数值型属性的基本指标,通过均值和方差可对数值型属性做标准化处理;
(2)企业交易网络特征提取
发票信息具有购方、销方双方企业的纳税人电子档案号、行业、登记注册类型以及交易 的金额、税额信息,包含着企业之间潜在的关联信息;以发票的销方和购方分别作为节点, 以每条发票记录作为一条边,边的方向由销方指向购方,形成一个有向的交易图;交易网络 特征的提取运用了网络表征学习的node2vec算法;该node2vec算法包括两个部分,随机游 走和word2Vec;
具体步骤见下:
步骤1:针对每一条发票信息,将信息中的销方和购方作为节点,并将企业基本信息作 为节点的属性,形成一条由销方指向购方的边,发票的其他信息作为边上所携带的属性信息, 形成一个交易网络图G(V,E),其中V表示节点的集合,E表示边的集合;
步骤2:将交易网络图G作为node2vec的算法的输入,设置随机游走的步长为30;以每 个企业节点为起点,在相连的企业节点中随机选择下一个企业节点,形成一条路线,每条路 线包括30个连通的企业节点;
步骤3:将每个企业节点当成一个词,每条路线当成一句话,使用word2vec算法得到企 业节点的64维特征表示。
本发明进一步的改进在于,步骤二具体包括如下实现步骤:
步骤1:初始化迭代次数记作T,当前迭代次数记作i,已标记的存在发票虚开行为的企 业数据集记作P,未标记的企业样本集记为U,设置取样概率为15%,RN表示从未标记的 企业样本集中挖掘的不存在发票虚开行为的正常企业样本的集合,初始设为空集;
步骤2:从P中选取15%的存在发票虚开行为的企业样本作为间谍样本,记为集合S,P 中其余85%的样本记作PS,标记为1,US=U∪S标记为-1;
步骤3:以PS和US作为训练集用决策树训练二分类器g;
步骤4:使用二分类器g对U进行分类,得到U中每个企业样本存在发票虚开行为的概 率Pr(d);
步骤5:使用二分类器g对间谍样本S进行分类,选择其中最小的概率作为概率阈值θ;
步骤6:对于U中每一个未标签企业样本d,若概率Pr(l|d)≤θ,则认为该企业不存在 发票虚开行为,将d加入RNi,更新RNi=RNi∪{d};
步骤7:对i加1,重复步骤2至步骤7直至i大于迭代次数T;
步骤8:对所有不存在发票虚开行为的企业样本集RNi即负样本集取交集RN=RN1∩RN2∩…∩RNT,最终获得可靠的负样本集。
本发明进一步的改进在于,步骤三具体包括如下实现步骤:
步骤1:参数初始化,已标记的存在发票虚开行为的企业样本集记为L,其中|L|为已标 记企业的数量;未标记企业样本集记为U,最大迭代次数记为T;二分类器记为hj,其中j∈{1,2};
步骤2:二分类器h1,h2初始化,使用L初始化L1和L2,L1←L,L2←L;h1,h2为采用 k近邻算法实现的二分类器,其中k近邻算法采用明可夫斯基距离度量企业样本之间的距离;在明氏距离中,xr、xs表示两个不同企业样本的特征向量,d为特征向量的维度,l代表某一维度;当p=1时,明氏距离为曼哈顿距离;当p=2时,为欧氏距离;其中二分类器h1,h2取不同的p值,采用不同的距离度量企业样本之间的差异使得两个二分类器具有不同的性能,达到更好的训练效果,过程表示为
h1←kNN(L1,k,p1)
h2←kNN(L2,k,p2)
其中k表示近邻算法中的近邻个数,p1=1,p2=2;
步骤3:从未标记的企业样本集U中随机选择企业样本集U′1和U′2,确保同一个企业样本 不会同时出现在U′1、U′2中,
步骤4:令j=1,对U′j中的每个企业样本xu,使用二分类器hj进行预测,得到伪标记过程表示为使用k近邻算法在已标记样本集Lj中找到xu的k个近邻企业样本记 为Ωj,为
Ωj←Neighbors(xu,k,Lj)
使用企业样本和Lj作为已标记企业样本集更新hj得到h′j,为
对Ωj中每一个企业样本(xi,yi)计算均方差,并求和得到为
步骤5:若存在某个企业样本的记使得取得最大值的企业样本为过程表示为:
更新样本集U′j,从U′j中去掉用二分类器对置信度最高的一个企业样本进行标 记并用以更新另一个二分类器,过程表示为
U′j←U′j-πj
若对所有的企业样本,不存在则
步骤6:令j=2,重复步骤3;
步骤7:更新已标记的存在发票虚开行为的企业样本集L1和L2, L1←L1∪π2,L2←L2∪π1;
步骤8:若迭代次数达到T则通过平均两个精确的kNN回归量得到最后的二分类器:
否则使用更新后的L1和L2,重新训练两个二分类器,使得:
h1←kNN(L1,k,p1)
h2←kNN(L2,k,p2)。
本发明进一步的改进在于,步骤四具体包括如下实现步骤:
将未标记的企业样本输入至企业特征提取模块,得到企业的基本特征和交易网络特征, 将其合并后输入至基于k近邻回归协同训练的虚开行为预测模型,最后根据预测模型的输出, 确定目标企业是否存在发票虚开行为。
一种基于正例与未标注学习的发票虚开识别系统,该系统基于上述一种基于正例与未标 注学习的发票虚开识别方法,包括依次连接的企业特征提取模块、循环多间谍负例标记方法 挖掘可靠负样本模块、基于k近邻回归协同训练的模型构建模块以及发票虚开行为识别模块。
与现有技术相比,本发明具有如下有益的技术效果:
1、基于网络表征的node2vec算法提取了企业发票交易的网络特征,充分利用了发票的 拓扑信息,提高了发票虚开预测模型的准确率;
2、循环多间谍负例标记方法不仅解决了已标记样本集中负样本缺失的问题,而且能够提 高从未标记样本集中挖掘负样本的准确率,从而使模型的发票虚开预测结果更加可靠;
3、通过k近邻回归协同训练的发票虚开预测模型,能够根据企业的基本特征和网络交易 特征识别多种不同类型的虚开发票行为,不局限于单一类型的虚开手段。
综上,PU learning是半监督学习的一种情况,本发明提出了循环多间谍负例标记方法及 系统从未标记的样本集中挖掘可靠的负样本。循环多间谍负例标记方法在每轮迭代中,从已 标记的正样本集中随机选择设定比例的间谍样本与未标签样本集作为负样本集,并与剩余的 正样本一起作为训练集训练二分类器,用二分类器对间谍样本和未标记样本进行预测,选择 间谍样本预测值中的最小值作为阈值,将预测值小于阈值的未标记样本作为负样本加入初步 的负样本集,然后对所有的负样本集取交集得到最终的可靠负样本集,解决数据集中只存在 正样本和未标记的样本而不存在负样本的问题,并使得挖掘的负样本集更加可靠。基于PU learning训练的模型根据企业的基本特征和网络交易特征识别不同的虚开类型,不局限于单一 类型的发票虚开行为。此外,本发明基于网络表征算法对发票信息进行网络特征的提取与基 本特征合并作为样本的特征空间以提高模型的准确率。
附图说明
图1为本发明整体框架流程示意图。
图2为本发明特征提取流程示意图。
图3为本发明选取可靠负样本流程示意图。
图4为本发明半监督的协同回归训练示意图。
具体实施方式
以下结合附图和实施例,对本发明的具体内容做细致描述。
如图1所示,本发明提供的基于PU learning的发票虚开识别系统,包括依次连接的企业 特征提取模块、循环多间谍负例标记方法挖掘可靠负样本模块、基于k近邻回归协同训练的 模型构建模块以及发票虚开行为识别模块。
本发明提供的基于PU learning的发票虚开识别方法,包括下述步骤:
S101:企业特征提取模块。企业特征包括基本特征和交易网络特征。
1、企业基本信息表中,企业的基本信息大致可以分为三个类型:文本型数据、类别型 数据和数值型数据。对文本型数据进行预处理,并使用word2vec算法转化成向量;对类别 性数据,用One-Hot进行编码;对数值型数据进行标准化处理。
2、企业的交易发票信息存在销方和购方,且每张发票具有不同的金额,将每条发票信 息作为一条有向边,销方企业作为边的起点,购方企业作为边的终点,以发票涉及的金额作 为边的权重,形成一个完整的交易网络图G。以图G作为node2Vec算法的输入从图G中提 取企业的交易网络特征。
S102:循环多间谍负例标记方法挖掘可靠负样本模块。首先从已标记的正样本集中随机 选出设定比例的样本集合,这些选出来的样本被称为间谍样本。将剩下的正样本集标记为 1,间谍样本和未标记的样本标记为-1,将其作为训练集用决策树训练二分类器,得到初步 的负样本集。通过迭代,对所有的负样本集取交集得到最终的负样本集。
S103:基于k近邻回归协同训练的模型构建模块。循环多间谍负例标记方法挖掘可靠负 样本模块挖掘的可靠负样本和原有的已标签正样本作为训练集通过k近邻回归协同训练算法 训练发票虚开预测模型。
S104:发票虚开行为识别块
将提取的企业的基本特征和网络特征合并,输入预先训练的发票虚开预测模型,得到目 标企业的输出标记,识别目标企业是否存在虚开发票的行为。
基于图1的流程,下面分别进行不同模块的实现步骤。
模块1:企业特征提取模块。图2所示,企业信息的特征提取分为基本特征提取和交易 网络特征提取两个部分。
1、企业基本特征提取。
(1)文本型数据的处理。在企业基本信息中,企业的经营范围字段{JYFW}是文本型数 据。
步骤1:使用Jieba分词进行分词,然后去掉停用词,对于每一个样本分词后的文本提取 相同数量的关键词。某企业的样本经营范围(JYFW)字段为:“电气设备批发;其他机械设 备及电子产品批发;软件开发;信息技术咨询服务;工程和技术研究和试验发展;集成电路 设计;工业自动控制系统装置制造;配电开关控制设备制造”。经过Jieba分词和去掉停用词 后的结果为“电气设备批发机械设备电子产品批发软件开发信息技术咨询服务 工程技术研究实验发展集成电路涉及工业自动控制系统装置制造配电开关 控制设备制造”。
步骤2:所有样本经过步骤1分词后的结果用词典树进行统计,选择出权重较大的词作 为关键词。
步骤3:基于word2vec将关键词转化为词向量。
(2):类别型数据的处理。针对企业的行业类型、登记注册类型字段{HY_ID,DJZCLX_ID}类别型数据,采用One-Hot进行编码。
步骤1:以等级注册类型字段为例,对所有的样本进行统计,得到等级注册类型一共有 10种。因此,对于该数据对应的特征就有10个状态位,每一位代表一种注册类型;
步骤2:将这10个状态位中的一位表示为1,其他位均表示成为0。该特征值由9位0和一位1表示,确保仅有一位有效。
步骤3:数值型数据处理,对自然人投资比例字段{ZRRTZBL}进行标准化处理。对企业 基本信息表中的数值型数据采用传统的标准化(Z-Score)方法其进行处理,具体步骤为:
步骤1:获取各个属性的均值
记u=(u1,u2,...,um)为均值向量,其中m表示数值型属性的种类数,ui表示第i个数值型 属性的均值,其具体的计算形式为:
其中,n表示企业基本信息样本的数量,表示第i个样本的第j个数值型属性取值;
步骤2:获取各个属性的方差
记σ=(σ1,σ2,...,σm)为各个数值型属性的方差,其中m表示数值型属性的种类数,σi表 示第i个数值型属性的方差,σi的具体形式为:
均值和方差是数值型属性的基本指标,通过均值和方差可对数值型属性做标准化处理。
2、企业交易网络特征提取。在发票信息中,每条发票信息具有{XFNSRDZDAH,XFHY_ID,GFNSRDZDAH,GFHY_ID,FPJE,FPSE}(销方纳税人电子档案号,销方行业 ID,购方纳税人电子档案号,发票金额,发票税额)字段。将购方和销方作为网络中的节 点,纳税人电子档案号作为节点的唯一标识,销方和购方纳税人信息作为节点的属性,销方 作为边的起点,购方作为边的终点,形成一条有向边,边的权重由发票金额决定,形成一个 交易网络图G(V,E),对图G进行网络表征,基于node2vec算法提取企业的交易网络特征, 具体步骤见下:
步骤1:将购方和销方作为网络中的节点,纳税人电子档案号作为节点的唯一标识,销 方和购方的纳税人信息作为节点的属性;
步骤2:销方作为边的起点,购方作为边的终点,形成一条有向边,边的权重由发票金 额决定;
步骤3:以上步骤1和步骤2形成的节点和边形成了一个网络图G(V,E),其中V表示节 点的集合,E表示边的集合;
步骤4:随机游走。将图G作为node2vec的算法的输入,以每个节点为起点,在相连的 节点中随机选择下一个节点,形成一条路线,每条路线包括30个连通的节点;
步骤5:将每个节点当成一个词,每条路线当成一句话,使用word2vec算法得到节点的 64维特征表示。
将以上两部分提取的企业基本特征和企业交易网络特征最终合并成完整的特征向量,作 为训练二分类器的样本特征。
模块2:循环多间谍负例标记方法挖掘可靠负样本模块。
PU learning是半监督学习的一种特殊情况,它用于解决数据集中只存在正样本和未标注 的样本而不存在负样本的情况。针对这种情况,本发明提出循环多间谍负例标记方法迭代地 从未标记的企业样本中挖掘初步的负样本集,然后对所有初步的负样本集取交集得到最终的 负样本集,使得挖掘的最终的负样本集更加可靠,从而提高模型的准确率。
图3所示,该模块的每轮迭代分为三个部分,训练二分类器、确定阈值、选取可靠负样 本。
1、训练二分类器过程。将已标记的存在发票虚开行为的企业样本集(正样本集)记为 P,未标记的企业样本记为U,从P中随机选取15%的正样本记为S,P中剩下的样本记为PS,并标记为-1,其中PS=P-S;将存在发票虚开行为的企业样本集S与未标记的企业样本 集U合并,记为US,标记为-1。以US和PS作为训练集采用决策树训练二分类器g。
2、确定阈值过程。将企业样本集S输入二分类器g。二分类器将输出每个企业样本所 对应的概率Pr(d),选择其中最小值作为阈值θ。
3、选取可靠负样本过程。将未标记的企业样本集U输入二分类器g,针对某一样本d,若Pr(1|d)≤θ,则认为该样本为不存在发票虚开行为(负样本),并将其加入集合 RN。
通过对以上三个步骤的迭代,对所有挖掘的不存在发票虚开行为的企业样本集取交集得 到最后可靠的负样本集,解决了已标记样本集中仅存在正样本,而负样本缺失的问题,并使 得挖掘的负样本准确率更高。
模块3:基于k近邻回归协同训练的模型构建模块。
通过循环多间谍负例标记方法挖掘可靠负样本模块已将问题转化为一个传统半监督学习 问题,以挖掘的不存在发票虚开行为的企业样本集和已标记的存在发票虚开行为的企业样本 集作为训练集,用k近邻协同回归训练算法构建发票虚开预测模型。
图4所示,将通过循环多间谍负例标记方法挖掘可靠负样本模块挖掘的可靠负样本集和 已标记的正样本集作为已标记的训练集,采用k近邻算法初始化h1和h2两个二分类器,其中 h2、h2采用不同的距离度量样本之间的差异。在每轮迭代中,每个二分类器对所有未标记 样本进行发票虚开预测,并选择最可靠的一个样本作为已标记的样本并加入下一轮迭代中。 具体步骤见下:
1、用挖掘的不存在发票虚开行为的企业样本和已标记的存在发票虚开行为的企业样本 初始化训练集,记为L1、L2,未标记的企业样本集记为U。
2、k近邻算法构建h1、h2,其中
h1←kNN(L1,k,p1)
h2←kNN(L2,k,p2)
p1取1,代表二分类器h1以曼哈顿距离来度量样本之间的差异;p2取2,代表二分类器h2采用欧氏距离。
3、在每一轮迭代中,从未标记的企业样本集U中随机选择两个子集U1和U2,用二分类 器h1对U1中的企业样本进行预测,二分类器h2对U2中的企业样本进行预测,得到每个企业 样本的伪标记,过程表示如下:
其中xu表示未标记的企业样本,表示用二分类器预测的伪标记。然后,用每一个有伪标记 的样本更新二分类器hj,得到h′j。
4、用k近邻算法在已标记的企业样本集Li中找到企业样本xu的k个有标记的企业样本的 近邻记为集合Ωj,以该集合的每个企业样本xi作为输入,计算hj和h′j的均方差之和其 中
若则说明具有伪标记的企业样本对二分类器hj有增益。
5、找到使得取得最大值的企业样本记为其中
然后,将企业样本放入另一个二分类器的已标记的企业样本集Lj,j∈{1,2}中,迭代执 行步骤2。
6、当达到最大迭代次数时,结束迭代,最终的发票虚开预测模型h*(x)为:
将企业的基本特征和网络特征合并后输入至发票虚开预测模型h*(x),输出得到企业的预 测标记以识别企业是否存在发票虚开行为。
Claims (6)
1.一种基于正例与未标注学习的发票虚开识别方法,其特征在于,包括以下步骤:
步骤一,企业特征提取模块对纳税人基本信息中待挖掘的文本和非文本信息进行特征处理和编码处理;
步骤二,循环多间谍负例标记方法挖掘可靠负样本模块将基本特征和网络特征合并作为特征空间,基于提出的循环多间谍负例标记方法在每轮迭代中从已标记的正样本集中随机选择设定比例的间谍样本与未标签样本集作为负样本集,并与剩余的正样本一起作为训练集训练二分类器,用二分类器对间谍样本和未标记样本进行预测,选择间谍样本预测值中的最小值作为阈值,将预测值小于阈值的未标记样本作为负样本加入初步的负样本集,通过对所有的初步负样本集取交集得到最终的可靠的负样本集;
步骤三,基于k近邻回归协同训练的模型构建模块将挖掘出的可靠负样本与正样本作为训练集基于k近邻回归协同训练算法构建发票虚开预测模型;
步骤四,发票虚开行为识别模块将未标记的企业样本的特征后输入至发票虚开预测模型,以识别企业是否存在发票虚开行为。
2.根据权利要求1所述的一种基于正例与未标注学习的发票虚开识别方法,其特征在于,步骤一具体包括如下实现步骤:
对企业特征提取,企业特征分为基本特征和交易网络特征,其中:
(1)企业基本特征提取
企业基本信息的数据为三个类别:文本型数据、标志型数据和数值型数据;企业基本特征提取的具体步骤如下:
1)处理文本型数据
对企业基本信息表中的文本信息对其进行数据的预处理并进行特征提取;纳税人文本特征处理包括:
步骤1:使用Jieba分词工具进行分词;
步骤2:构建停用表,将文本的停用词去掉;
步骤3:计算语料库中不同类别文本的所占比例,等比例地从其中提取关键词汇;
步骤4:将步骤3提取出来的N类关键词转成词向量构成一个N维的空间,每一个文本字段对应一个N维的向量,然后将所有的N维中文向量转化成可用于计算的N维数值向量;
2)处理类别型数据
对企业基本信息表中的类别型数据进行预处理并提取特征;对于此类离散型的数据采用One-Hot编码;对于任意离散型数据特征,设该属性共具有N种离散值,那么对于该数据对应的特征就有N个状态位,One-Hot编码将这N个状态位中的一位表示为1,其他位均表示成为0;一个特征值由N-1位0和一位1表示,确保只有一位有效;
3)处理数值型数据
对企业基本信息表中的数值型数据采用传统的标准化方法其进行处理,具体步骤为:
步骤1:获取各个属性的均值
记u=(u1,u2,...,um)为均值向量,其中m表示数值型属性的种类数,ui表示第i个数值型属性的均值,其具体的计算形式为:
其中,n表示企业基本信息样本的数量,表示第i个样本的第j个数值型属性取值;
步骤2:获取各个属性的方差
记σ=(σ1,σ2,...,σm)为各个数值型属性的方差,其中m表示数值型属性的种类数,σi表示第i个数值型属性的方差,σi的具体形式为:
均值和方差是数值型属性的基本指标,通过均值和方差可对数值型属性做标准化处理;
(2)企业交易网络特征提取
发票信息具有购方、销方双方企业的纳税人电子档案号、行业、登记注册类型以及交易的金额、税额信息,包含着企业之间潜在的关联信息;以发票的销方和购方分别作为节点,以每条发票记录作为一条边,边的方向由销方指向购方,形成一个有向的交易图;交易网络特征的提取运用了网络表征学习的node2vec算法;该node2vec算法包括两个部分,随机游走和word2Vec;
具体步骤见下:
步骤1:针对每一条发票信息,将信息中的销方和购方作为节点,并将企业基本信息作为节点的属性,形成一条由销方指向购方的边,发票的其他信息作为边上所携带的属性信息,形成一个交易网络图G(V,E),其中V表示节点的集合,E表示边的集合;
步骤2:将交易网络图G作为node2vec的算法的输入,设置随机游走的步长为30;以每个企业节点为起点,在相连的企业节点中随机选择下一个企业节点,形成一条路线,每条路线包括30个连通的企业节点;
步骤3:将每个企业节点当成一个词,每条路线当成一句话,使用word2vec算法得到企业节点的64维特征表示。
3.根据权利要求2所述的一种基于正例与未标注学习的发票虚开识别方法,其特征在于,步骤二具体包括如下实现步骤:
步骤1:初始化迭代次数记作T,当前迭代次数记作i,已标记的存在发票虚开行为的企业数据集记作P,未标记的企业样本集记为U,设置取样概率为15%,RN表示从未标记的企业样本集中挖掘的不存在发票虚开行为的正常企业样本的集合,初始设为空集;
步骤2:从P中选取15%的存在发票虚开行为的企业样本作为间谍样本,记为集合S,P中其余85%的样本记作PS,标记为1,US=U∪S标记为-1;
步骤3:以PS和US作为训练集用决策树训练二分类器g;
步骤4:使用二分类器g对U进行分类,得到U中每个企业样本存在发票虚开行为的概率Pr(d);
步骤5:使用二分类器g对间谍样本S进行分类,选择其中最小的概率作为概率阈值θ;
步骤6:对于U中每一个未标签企业样本d,若概率Pr(l|d)≤θ,则认为该企业不存在发票虚开行为,将d加入RNi,更新RNi=RNi∪{d};
步骤7:对i加1,重复步骤2至步骤7直至i大于迭代次数T;
步骤8:对所有不存在发票虚开行为的企业样本集RNi即负样本集取交集RN=RN1∩RN2∩…∩RNT,最终获得可靠的负样本集。
4.根据权利要求3所述的一种基于正例与未标注学习的发票虚开识别方法,其特征在于,步骤三具体包括如下实现步骤:
步骤1:参数初始化,已标记的存在发票虚开行为的企业样本集记为L,其中|L|为已标记企业的数量;未标记企业样本集记为U,最大迭代次数记为T;二分类器记为hj,其中j∈{1,2};
步骤2:二分类器h1,h2初始化,使用L初始化L1和L2,L1←L,L2←L;h1,h2为采用k近邻算法实现的二分类器,其中k近邻算法采用明可夫斯基距离度量企业样本之间的距离;在明氏距离中,xr、xs表示两个不同企业样本的特征向量,d为特征向量的维度,l代表某一维度;当p=1时,明氏距离为曼哈顿距离;当p=2时,为欧氏距离;其中二分类器h1,h2取不同的p值,采用不同的距离度量企业样本之间的差异使得两个二分类器具有不同的性能,达到更好的训练效果,过程表示为h1←kNN(L1,k,p1)
h2←kNN(L2,k,p2)
其中k表示近邻算法中的近邻个数,p1=1,p2=2;
步骤3:从未标记的企业样本集U中随机选择企业样本集U'1和U'2,确保同一个企业样本不会同时出现在U'1、U'2中,
步骤4:令j=1,对U'j中的每个企业样本xu,使用二分类器hj进行预测,得到伪标记过程表示为使用k近邻算法在已标记样本集Lj中找到xu的k个近邻企业样本记为Ωj,为Ωj←Neighbors(xu,k,Lj)
使用企业样本和Lj作为已标记企业样本集更新hj得到h′j,为
对Ωj中每一个企业样本(xi,yi)计算均方差,并求和得到为
步骤5:若存在某个企业样本的记使得取得最大值的企业样本为过程表示为:
更新样本集U'j,从U'j中去掉用二分类器对置信度最高的一个企业样本进行标记并用以更新另一个二分类器,过程表示为
U'j←U'j-πj
若对所有的企业样本,不存在则
步骤6:令j=2,重复步骤3;
步骤7:更新已标记的存在发票虚开行为的企业样本集L1和L2,L1←L1∪π2,L2←L2∪π1;
步骤8:若迭代次数达到T则通过平均两个精确的kNN回归量得到最后的二分类器:
否则使用更新后的L1和L2,重新训练两个二分类器,使得:
h1←kNN(L1,k,p1)
h2←kNN(L2,k,p2)。
5.根据权利要求4所述的一种基于正例与未标注学习的发票虚开识别方法,其特征在于,步骤四具体包括如下实现步骤:
将未标记的企业样本输入至企业特征提取模块,得到企业的基本特征和交易网络特征,将其合并后输入至基于k近邻回归协同训练的虚开行为预测模型,最后根据预测模型的输出,确定目标企业是否存在发票虚开行为。
6.一种基于正例与未标注学习的发票虚开识别系统,该系统基于权利要求1至5中任一项所述的一种基于正例与未标注学习的发票虚开识别方法,包括依次连接的企业特征提取模块、循环多间谍负例标记方法挖掘可靠负样本模块、基于k近邻回归协同训练的模型构建模块以及发票虚开行为识别模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910636175.4A CN110532542B (zh) | 2019-07-15 | 2019-07-15 | 一种基于正例与未标注学习的发票虚开识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910636175.4A CN110532542B (zh) | 2019-07-15 | 2019-07-15 | 一种基于正例与未标注学习的发票虚开识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110532542A true CN110532542A (zh) | 2019-12-03 |
CN110532542B CN110532542B (zh) | 2021-07-13 |
Family
ID=68660358
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910636175.4A Active CN110532542B (zh) | 2019-07-15 | 2019-07-15 | 一种基于正例与未标注学习的发票虚开识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110532542B (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111178219A (zh) * | 2019-12-24 | 2020-05-19 | 泰康保险集团股份有限公司 | 票据识别管理方法、装置、存储介质及电子设备 |
CN111192126A (zh) * | 2019-12-27 | 2020-05-22 | 航天信息股份有限公司 | 一种基于大数据分析的发票防虚开方法及系统 |
CN111191001A (zh) * | 2019-12-23 | 2020-05-22 | 浙江大胜达包装股份有限公司 | 一种面向纸包装及其相关行业的企业多元标签标识方法 |
CN111309715A (zh) * | 2020-01-15 | 2020-06-19 | 腾讯科技(深圳)有限公司 | 通话场景的识别方法和装置 |
CN111553318A (zh) * | 2020-05-14 | 2020-08-18 | 北京华宇元典信息服务有限公司 | 敏感信息提取方法、裁判文书处理方法、装置和电子设备 |
CN112016756A (zh) * | 2020-08-31 | 2020-12-01 | 北京深演智能科技股份有限公司 | 数据预测的方法和装置 |
CN112231706A (zh) * | 2020-10-09 | 2021-01-15 | 西北工业大学 | 基于投票机制的安全漏洞报告数据集构建方法 |
CN112288088A (zh) * | 2020-12-29 | 2021-01-29 | 支付宝(杭州)信息技术有限公司 | 业务模型训练方法、装置及系统 |
CN112396513A (zh) * | 2020-11-27 | 2021-02-23 | 中国银联股份有限公司 | 一种数据处理的方法及装置 |
CN112418304A (zh) * | 2020-11-19 | 2021-02-26 | 北京云从科技有限公司 | Ocr模型训练方法、系统及装置 |
CN113159084A (zh) * | 2020-12-18 | 2021-07-23 | 国家电网有限公司大数据中心 | 一种空壳企业确定方法及装置、空壳企业监测方法及装置 |
CN113434401A (zh) * | 2021-06-24 | 2021-09-24 | 杭州电子科技大学 | 基于样本分布特征和spy算法的软件缺陷预测方法 |
CN113569919A (zh) * | 2021-07-06 | 2021-10-29 | 上海淇玥信息技术有限公司 | 一种用户标签处理方法、装置和电子设备 |
CN113642735A (zh) * | 2021-07-28 | 2021-11-12 | 浪潮软件科技有限公司 | 虚开纳税人识别的持续学习方法 |
CN116910501A (zh) * | 2023-07-28 | 2023-10-20 | 中国电子科技集团公司第十五研究所 | 错例驱动的数据识别方法、装置和设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106780001A (zh) * | 2016-12-26 | 2017-05-31 | 税友软件集团股份有限公司 | 一种发票虚开企业监控识别方法及系统 |
CN106920162A (zh) * | 2017-03-14 | 2017-07-04 | 西京学院 | 一种基于并行环路检测的虚开增值税专用发票检测方法 |
CN109829804A (zh) * | 2019-01-10 | 2019-05-31 | 西安交通大学 | 一种面向标记样本缺失行政区域的纳税风险识别方法 |
-
2019
- 2019-07-15 CN CN201910636175.4A patent/CN110532542B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106780001A (zh) * | 2016-12-26 | 2017-05-31 | 税友软件集团股份有限公司 | 一种发票虚开企业监控识别方法及系统 |
CN106920162A (zh) * | 2017-03-14 | 2017-07-04 | 西京学院 | 一种基于并行环路检测的虚开增值税专用发票检测方法 |
CN109829804A (zh) * | 2019-01-10 | 2019-05-31 | 西安交通大学 | 一种面向标记样本缺失行政区域的纳税风险识别方法 |
Non-Patent Citations (3)
Title |
---|
HONGCHAO YU ET AL.: "TaxVis: a Visual System for Detecting Tax Evasion Group", 《THE WORLD WIDE WEB CONFERENCE》 * |
任亚峰 等: "基于PU学习算法的虚假评论识别研究", 《计算机研究与发展》 * |
李炳聪: "用正则的方法在正样本和无标签样本上训练二分类器", 《信息与电脑》 * |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111191001A (zh) * | 2019-12-23 | 2020-05-22 | 浙江大胜达包装股份有限公司 | 一种面向纸包装及其相关行业的企业多元标签标识方法 |
CN111178219A (zh) * | 2019-12-24 | 2020-05-19 | 泰康保险集团股份有限公司 | 票据识别管理方法、装置、存储介质及电子设备 |
CN111192126A (zh) * | 2019-12-27 | 2020-05-22 | 航天信息股份有限公司 | 一种基于大数据分析的发票防虚开方法及系统 |
CN111309715B (zh) * | 2020-01-15 | 2023-04-18 | 腾讯科技(深圳)有限公司 | 通话场景的识别方法和装置 |
CN111309715A (zh) * | 2020-01-15 | 2020-06-19 | 腾讯科技(深圳)有限公司 | 通话场景的识别方法和装置 |
CN111553318A (zh) * | 2020-05-14 | 2020-08-18 | 北京华宇元典信息服务有限公司 | 敏感信息提取方法、裁判文书处理方法、装置和电子设备 |
CN112016756A (zh) * | 2020-08-31 | 2020-12-01 | 北京深演智能科技股份有限公司 | 数据预测的方法和装置 |
CN112231706A (zh) * | 2020-10-09 | 2021-01-15 | 西北工业大学 | 基于投票机制的安全漏洞报告数据集构建方法 |
CN112418304A (zh) * | 2020-11-19 | 2021-02-26 | 北京云从科技有限公司 | Ocr模型训练方法、系统及装置 |
CN112396513B (zh) * | 2020-11-27 | 2024-02-20 | 中国银联股份有限公司 | 一种数据处理的方法及装置 |
CN112396513A (zh) * | 2020-11-27 | 2021-02-23 | 中国银联股份有限公司 | 一种数据处理的方法及装置 |
CN113159084A (zh) * | 2020-12-18 | 2021-07-23 | 国家电网有限公司大数据中心 | 一种空壳企业确定方法及装置、空壳企业监测方法及装置 |
CN113159084B (zh) * | 2020-12-18 | 2024-04-19 | 国家电网有限公司大数据中心 | 一种空壳企业确定方法及装置、空壳企业监测方法及装置 |
CN112288088A (zh) * | 2020-12-29 | 2021-01-29 | 支付宝(杭州)信息技术有限公司 | 业务模型训练方法、装置及系统 |
CN113434401A (zh) * | 2021-06-24 | 2021-09-24 | 杭州电子科技大学 | 基于样本分布特征和spy算法的软件缺陷预测方法 |
CN113569919A (zh) * | 2021-07-06 | 2021-10-29 | 上海淇玥信息技术有限公司 | 一种用户标签处理方法、装置和电子设备 |
CN113642735A (zh) * | 2021-07-28 | 2021-11-12 | 浪潮软件科技有限公司 | 虚开纳税人识别的持续学习方法 |
CN113642735B (zh) * | 2021-07-28 | 2023-07-18 | 浪潮软件科技有限公司 | 虚开纳税人识别的持续学习方法 |
CN116910501A (zh) * | 2023-07-28 | 2023-10-20 | 中国电子科技集团公司第十五研究所 | 错例驱动的数据识别方法、装置和设备 |
CN116910501B (zh) * | 2023-07-28 | 2024-04-12 | 中国电子科技集团公司第十五研究所 | 错例驱动的数据识别方法、装置和设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110532542B (zh) | 2021-07-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110532542A (zh) | 一种基于正例与未标注学习的发票虚开识别方法及系统 | |
US11734328B2 (en) | Artificial intelligence based corpus enrichment for knowledge population and query response | |
Cao et al. | Zero-shot handwritten Chinese character recognition with hierarchical decomposition embedding | |
CN112765358B (zh) | 一种基于噪声标签学习的纳税人行业分类方法 | |
CN109710919A (zh) | 一种融合注意力机制的神经网络事件抽取方法 | |
CN107861951A (zh) | 智能客服中的会话主题识别方法 | |
WO2021088499A1 (zh) | 一种基于动态网络表征的发票虚开识别方法及系统 | |
CN110705607B (zh) | 一种基于循环重标注自助法的行业多标签降噪方法 | |
CN109992668A (zh) | 一种基于自注意力的企业舆情分析方法和装置 | |
CN113742733B (zh) | 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置 | |
Samadiani et al. | A neural network-based approach for recognizing multi-font printed English characters | |
CN109740642A (zh) | 发票类别识别方法、装置、电子设备及可读存储介质 | |
CN110427458A (zh) | 基于双门lstm的社交网络双语的五分类情感分析方法 | |
CN113010683B (zh) | 基于改进图注意力网络的实体关系识别方法及系统 | |
CN111859983A (zh) | 基于人工智能的自然语言标注方法及相关设备 | |
CN111462752A (zh) | 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法 | |
CN111597811B (zh) | 一种基于图神经网络算法的金融篇章级多关联事件抽取方法 | |
Taesiri et al. | Visual correspondence-based explanations improve AI robustness and human-AI team accuracy | |
CN111626331B (zh) | 一种自动化行业分类装置及其工作方法 | |
CN111309849B (zh) | 一种基于联合学习模型的细粒度数值信息抽取方法 | |
Qamar et al. | Detecting compliance of privacy policies with data protection laws | |
Zhang et al. | Robust bayesian classification with incomplete data | |
Zhang et al. | Hierarchical attention networks for grid text classification | |
CN113449103B (zh) | 融入标签与文本交互机制的银行交易流水分类方法及系统 | |
CN114021658A (zh) | 一种命名实体识别模型的训练方法、应用方法及其系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |