CN110532542A

CN110532542A - 一种基于正例与未标注学习的发票虚开识别方法及系统

Info

Publication number: CN110532542A
Application number: CN201910636175.4A
Authority: CN
Inventors: 郑庆华; 宓玲云; 董博; 阮建飞; 吴映潮; 李碧婷; 张发
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2019-07-15
Filing date: 2019-07-15
Publication date: 2019-12-03
Anticipated expiration: 2039-07-15
Also published as: CN110532542B

Abstract

本发明公开了一种基于正例与未标注学习的发票虚开识别方法及系统。本发明包括步骤：首先，对纳税人基本信息中待挖掘的文本和非文本信息进行特征处理和编码处理；其次，将基本特征和网络特征合并作为特征空间，基于提出的循环多间谍负例标记方法在每轮迭代中从已标记的正样本集中随机选择设定比例的间谍样本与未标签样本集作为负样本集，并与剩余的正样本一起作为训练集训练二分类器，通过二分类器对所有的初步负样本集取交集得到最终的可靠的负样本集；然后，将挖掘出的可靠负样本与正样本作为训练集基于k近邻回归协同训练算法构建发票虚开预测模型；最后，将未标记的企业样本的特征输入至发票虚开预测模型以识别企业是否存在发票虚开行为。

Description

一种基于正例与未标注学习的发票虚开识别方法及系统

技术领域

本发明属于税控技术领域，特别涉及一种基于正例与未标记学习(Positive-Unlabeled learning，简称PU learning)的发票虚开识别方法及系统。

背景技术

发票虚开指不如实开具发票的一种舞弊行为，纳税单位和个人为了达到偷税的目的，在商品名称、数量名称、商品单价以及金额上采取弄虚作假的手段，甚至利用比较熟悉的关系，虚构交易事项虚开发票。

由于发票本身是真的，仅通过查验发票真伪无法发现虚开问题，仅能依靠税务稽查人员的经验，根据有限的票面信息，人工地对发票是否涉及虚开、企业是否存在与虚开行为相关的异常行为来进行分析判断。然而，随着发票数据规模的不断增长，单纯依靠税务稽查人员人工识别发票虚开行为变得不切实际，存在工作量大、效率低下、考虑信息不全面、识别滞后的难题。

针对面临的这一难题，以下文献提供了可参考的基于机器学习自动识别存在虚开行为企业的相关技术方案：

文献1.一种发票虚开企业监控识别方法及系统(201611220015.4)；

文献2.一种基于并行环路检测的虚开增值税专用发票检测方法(201710147850.8)；

文献3.一种基于并行关联规则挖掘的发票虚开识别方法(201810436908.5)；

文献1利用决策树算法和样本集进行相应的模型训练，创建企业类型预测模型，提取目标企业的特征信息，并将其输入至企业类型预测模型，以企业类型预测结果确定目标企业的企业类型是否为虚开发票企业。

文献2基于分布式并行计算方法对环路检测进行了改进，改进的环路检测方法将计算任务分配给分布式集群中的多台计算机中，最终通过改进环路检测的方法来进行虚开增值税专用发票检测。

文献3首先提取所需会计期间内的发票记录，构建事务集；其次对不同行业明细的事务子集分别挖掘频繁项集，生成关联规则；最后，基于不同行业明细的关联规则，计算企业的自洽性，并通过自洽性计算结果识别存在发票虚开行为的企业。

以上文献所述方法主要存在以下问题：文献1依赖于已标记样本集，在实际的虚开发票行为检测中，无法通过先验知识获取非虚开企业的样本(负样本)，仅能通过启发式规则获取少量的存在发票虚开行为的企业名单(正样本)，传统的机器学习无法训练有效的预测模型；文献2仅能检测资金经过多个账户后重新回到源账户的虚开发票行为，而发票虚开具有多种形式，资金流向不一定构成环路，该方法的识别类型过于单一，模型的泛化能力较差；文献 3仅利用了企业的基本信息和发票信息构建模型去检测虚开发票的行为，而忽略了发票信息之间关联的网络信息，而现实中的发票虚开往往存在上下游关联甚至团伙关联，网络的拓扑信息对这类虚开行为有很重要的参考价值，忽略这些关联的网络信息会使模型的准确率下降。

发明内容

为了克服上述现有技术的不足，本发明的目的在于提出一种基于正例与未标注学习的发票虚开识别方法及系统。

本发明采用如下技术方案来实现的：

一种基于正例与未标注学习的发票虚开识别方法，包括以下步骤：

步骤一，企业特征提取模块对纳税人基本信息中待挖掘的文本和非文本信息进行特征处理和编码处理；

步骤二，循环多间谍负例标记方法挖掘可靠负样本模块将基本特征和网络特征合并作为特征空间，基于提出的循环多间谍负例标记方法在每轮迭代中从已标记的正样本集中随机选择设定比例的间谍样本与未标签样本集作为负样本集，并与剩余的正样本一起作为训练集训练二分类器，用二分类器对间谍样本和未标记样本进行预测，选择间谍样本预测值中的最小值作为阈值，将预测值小于阈值的未标记样本作为负样本加入初步的负样本集，通过对所有的初步负样本集取交集得到最终的可靠的负样本集；

步骤三，基于k近邻回归协同训练的模型构建模块将挖掘出的可靠负样本与正样本作为训练集基于k近邻回归协同训练算法构建发票虚开预测模型；

步骤四，发票虚开行为识别模块将未标记的企业样本的特征后输入至发票虚开预测模型，以识别企业是否存在发票虚开行为。

本发明进一步的改进在于，步骤一具体包括如下实现步骤：

对企业特征提取，企业特征分为基本特征和交易网络特征，其中：

(1)企业基本特征提取

企业基本信息的数据为三个类别：文本型数据、标志型数据和数值型数据；企业基本特征提取的具体步骤如下：

1)处理文本型数据

对企业基本信息表中的文本信息对其进行数据的预处理并进行特征提取；纳税人文本特征处理包括：

步骤1：使用Jieba分词工具进行分词；

步骤2：构建停用表，将文本的停用词去掉；

步骤3：计算语料库中不同类别文本的所占比例，等比例地从其中提取关键词汇；

步骤4：将步骤3提取出来的N类关键词转成词向量构成一个N维的空间，每一个文本字段对应一个N维的向量，然后将所有的N维中文向量转化成可用于计算的N维数值向量；

2)处理类别型数据

对企业基本信息表中的类别型数据进行预处理并提取特征；对于此类离散型的数据采用 One-Hot编码；对于任意离散型数据特征，设该属性共具有N种离散值，那么对于该数据对应的特征就有N个状态位，One-Hot编码将这N个状态位中的一位表示为1，其他位均表示成为0；一个特征值由N-1位0和一位1表示，确保只有一位有效；

3)处理数值型数据

对企业基本信息表中的数值型数据采用传统的标准化方法其进行处理，具体步骤为：

步骤1：获取各个属性的均值

记u＝(u₁,u₂,...,u_m)为均值向量，其中m表示数值型属性的种类数，u_i表示第i个数值型属性的均值，其具体的计算形式为：

其中，n表示企业基本信息样本的数量，表示第i个样本的第j个数值型属性取值；

步骤2：获取各个属性的方差

记σ＝(σ₁,σ₂,...,σ_m)为各个数值型属性的方差，其中m表示数值型属性的种类数，σ_i表示第i个数值型属性的方差，σ_i的具体形式为：

均值和方差是数值型属性的基本指标，通过均值和方差可对数值型属性做标准化处理；

(2)企业交易网络特征提取

发票信息具有购方、销方双方企业的纳税人电子档案号、行业、登记注册类型以及交易的金额、税额信息，包含着企业之间潜在的关联信息；以发票的销方和购方分别作为节点，以每条发票记录作为一条边，边的方向由销方指向购方，形成一个有向的交易图；交易网络特征的提取运用了网络表征学习的node2vec算法；该node2vec算法包括两个部分，随机游走和word2Vec；

具体步骤见下：

步骤1：针对每一条发票信息，将信息中的销方和购方作为节点，并将企业基本信息作为节点的属性，形成一条由销方指向购方的边，发票的其他信息作为边上所携带的属性信息，形成一个交易网络图G(V,E)，其中V表示节点的集合，E表示边的集合；

步骤2：将交易网络图G作为node2vec的算法的输入，设置随机游走的步长为30；以每个企业节点为起点，在相连的企业节点中随机选择下一个企业节点，形成一条路线，每条路线包括30个连通的企业节点；

步骤3：将每个企业节点当成一个词，每条路线当成一句话，使用word2vec算法得到企业节点的64维特征表示。

本发明进一步的改进在于，步骤二具体包括如下实现步骤：

步骤1：初始化迭代次数记作T，当前迭代次数记作i，已标记的存在发票虚开行为的企业数据集记作P，未标记的企业样本集记为U，设置取样概率为15％，RN表示从未标记的企业样本集中挖掘的不存在发票虚开行为的正常企业样本的集合，初始设为空集；

步骤2：从P中选取15％的存在发票虚开行为的企业样本作为间谍样本，记为集合S，P 中其余85％的样本记作P_S，标记为1，U_S＝U∪S标记为-1；

步骤3：以P_S和U_S作为训练集用决策树训练二分类器g；

步骤4：使用二分类器g对U进行分类，得到U中每个企业样本存在发票虚开行为的概率Pr(d)；

步骤5：使用二分类器g对间谍样本S进行分类，选择其中最小的概率作为概率阈值θ；

步骤6：对于U中每一个未标签企业样本d，若概率Pr(l|d)≤θ，则认为该企业不存在发票虚开行为，将d加入RN_i，更新RN_i＝RN_i∪{d}；

步骤7：对i加1，重复步骤2至步骤7直至i大于迭代次数T；

步骤8：对所有不存在发票虚开行为的企业样本集RN_i即负样本集取交集RN＝RN₁∩RN₂∩…∩RN_T，最终获得可靠的负样本集。

本发明进一步的改进在于，步骤三具体包括如下实现步骤：

步骤1：参数初始化，已标记的存在发票虚开行为的企业样本集记为L，其中|L|为已标记企业的数量；未标记企业样本集记为U，最大迭代次数记为T；二分类器记为h_j，其中j∈{1,2}；

步骤2：二分类器h₁，h₂初始化，使用L初始化L₁和L₂，L₁←L,L₂←L；h₁，h₂为采用 k近邻算法实现的二分类器，其中k近邻算法采用明可夫斯基距离度量企业样本之间的距离；在明氏距离中，x_r、x_s表示两个不同企业样本的特征向量，d为特征向量的维度，l代表某一维度；当p＝1时，明氏距离为曼哈顿距离；当p＝2时，为欧氏距离；其中二分类器h₁，h₂取不同的p值，采用不同的距离度量企业样本之间的差异使得两个二分类器具有不同的性能，达到更好的训练效果，过程表示为

h₁←kNN(L₁,k,p₁)

h₂←kNN(L₂,k,p₂)

其中k表示近邻算法中的近邻个数，p₁＝1，p₂＝2；

步骤3：从未标记的企业样本集U中随机选择企业样本集U′₁和U′₂，确保同一个企业样本不会同时出现在U′₁、U′₂中，

步骤4：令j＝1，对U′_j中的每个企业样本x_u，使用二分类器h_j进行预测，得到伪标记过程表示为使用k近邻算法在已标记样本集L_j中找到x_u的k个近邻企业样本记为Ω_j，为

Ω_j←Neighbors(x_u,k,L_j)

使用企业样本和L_j作为已标记企业样本集更新h_j得到h′_j，为

对Ω_j中每一个企业样本(x_i,y_i)计算均方差，并求和得到为

步骤5：若存在某个企业样本的记使得取得最大值的企业样本为过程表示为：

更新样本集U′_j，从U′_j中去掉用二分类器对置信度最高的一个企业样本进行标记并用以更新另一个二分类器，过程表示为

U′_j←U′_j-π_j

若对所有的企业样本，不存在则

步骤6：令j＝2，重复步骤3；

步骤7：更新已标记的存在发票虚开行为的企业样本集L₁和L₂， L₁←L₁∪π₂，L₂←L₂∪π₁；

步骤8：若迭代次数达到T则通过平均两个精确的kNN回归量得到最后的二分类器：

否则使用更新后的L₁和L₂，重新训练两个二分类器，使得：

h₁←kNN(L₁,k,p₁)

h₂←kNN(L₂,k,p₂)。

本发明进一步的改进在于，步骤四具体包括如下实现步骤：

将未标记的企业样本输入至企业特征提取模块，得到企业的基本特征和交易网络特征，将其合并后输入至基于k近邻回归协同训练的虚开行为预测模型，最后根据预测模型的输出，确定目标企业是否存在发票虚开行为。

一种基于正例与未标注学习的发票虚开识别系统，该系统基于上述一种基于正例与未标注学习的发票虚开识别方法，包括依次连接的企业特征提取模块、循环多间谍负例标记方法挖掘可靠负样本模块、基于k近邻回归协同训练的模型构建模块以及发票虚开行为识别模块。

与现有技术相比，本发明具有如下有益的技术效果：

1、基于网络表征的node2vec算法提取了企业发票交易的网络特征，充分利用了发票的拓扑信息，提高了发票虚开预测模型的准确率；

2、循环多间谍负例标记方法不仅解决了已标记样本集中负样本缺失的问题，而且能够提高从未标记样本集中挖掘负样本的准确率，从而使模型的发票虚开预测结果更加可靠；

3、通过k近邻回归协同训练的发票虚开预测模型，能够根据企业的基本特征和网络交易特征识别多种不同类型的虚开发票行为，不局限于单一类型的虚开手段。

综上，PU learning是半监督学习的一种情况，本发明提出了循环多间谍负例标记方法及系统从未标记的样本集中挖掘可靠的负样本。循环多间谍负例标记方法在每轮迭代中，从已标记的正样本集中随机选择设定比例的间谍样本与未标签样本集作为负样本集，并与剩余的正样本一起作为训练集训练二分类器，用二分类器对间谍样本和未标记样本进行预测，选择间谍样本预测值中的最小值作为阈值，将预测值小于阈值的未标记样本作为负样本加入初步的负样本集，然后对所有的负样本集取交集得到最终的可靠负样本集，解决数据集中只存在正样本和未标记的样本而不存在负样本的问题，并使得挖掘的负样本集更加可靠。基于PU learning训练的模型根据企业的基本特征和网络交易特征识别不同的虚开类型，不局限于单一类型的发票虚开行为。此外，本发明基于网络表征算法对发票信息进行网络特征的提取与基本特征合并作为样本的特征空间以提高模型的准确率。

附图说明

图1为本发明整体框架流程示意图。

图2为本发明特征提取流程示意图。

图3为本发明选取可靠负样本流程示意图。

图4为本发明半监督的协同回归训练示意图。

具体实施方式

以下结合附图和实施例，对本发明的具体内容做细致描述。

如图1所示，本发明提供的基于PU learning的发票虚开识别系统，包括依次连接的企业特征提取模块、循环多间谍负例标记方法挖掘可靠负样本模块、基于k近邻回归协同训练的模型构建模块以及发票虚开行为识别模块。

本发明提供的基于PU learning的发票虚开识别方法，包括下述步骤：

S101：企业特征提取模块。企业特征包括基本特征和交易网络特征。

1、企业基本信息表中，企业的基本信息大致可以分为三个类型：文本型数据、类别型数据和数值型数据。对文本型数据进行预处理，并使用word2vec算法转化成向量；对类别性数据，用One-Hot进行编码；对数值型数据进行标准化处理。

2、企业的交易发票信息存在销方和购方，且每张发票具有不同的金额，将每条发票信息作为一条有向边，销方企业作为边的起点，购方企业作为边的终点，以发票涉及的金额作为边的权重，形成一个完整的交易网络图G。以图G作为node2Vec算法的输入从图G中提取企业的交易网络特征。

S102：循环多间谍负例标记方法挖掘可靠负样本模块。首先从已标记的正样本集中随机选出设定比例的样本集合，这些选出来的样本被称为间谍样本。将剩下的正样本集标记为 1，间谍样本和未标记的样本标记为-1，将其作为训练集用决策树训练二分类器，得到初步的负样本集。通过迭代，对所有的负样本集取交集得到最终的负样本集。

S103：基于k近邻回归协同训练的模型构建模块。循环多间谍负例标记方法挖掘可靠负样本模块挖掘的可靠负样本和原有的已标签正样本作为训练集通过k近邻回归协同训练算法训练发票虚开预测模型。

S104：发票虚开行为识别块

将提取的企业的基本特征和网络特征合并，输入预先训练的发票虚开预测模型，得到目标企业的输出标记，识别目标企业是否存在虚开发票的行为。

基于图1的流程，下面分别进行不同模块的实现步骤。

模块1：企业特征提取模块。图2所示，企业信息的特征提取分为基本特征提取和交易网络特征提取两个部分。

1、企业基本特征提取。

(1)文本型数据的处理。在企业基本信息中，企业的经营范围字段{JYFW}是文本型数据。

步骤1：使用Jieba分词进行分词，然后去掉停用词，对于每一个样本分词后的文本提取相同数量的关键词。某企业的样本经营范围(JYFW)字段为：“电气设备批发；其他机械设备及电子产品批发；软件开发；信息技术咨询服务；工程和技术研究和试验发展；集成电路设计；工业自动控制系统装置制造；配电开关控制设备制造”。经过Jieba分词和去掉停用词后的结果为“电气设备批发机械设备电子产品批发软件开发信息技术咨询服务工程技术研究实验发展集成电路涉及工业自动控制系统装置制造配电开关控制设备制造”。

步骤2：所有样本经过步骤1分词后的结果用词典树进行统计，选择出权重较大的词作为关键词。

步骤3：基于word2vec将关键词转化为词向量。

(2)：类别型数据的处理。针对企业的行业类型、登记注册类型字段{HY_ID，DJZCLX_ID}类别型数据，采用One-Hot进行编码。

步骤1：以等级注册类型字段为例，对所有的样本进行统计，得到等级注册类型一共有 10种。因此，对于该数据对应的特征就有10个状态位，每一位代表一种注册类型；

步骤2：将这10个状态位中的一位表示为1，其他位均表示成为0。该特征值由9位0和一位1表示，确保仅有一位有效。

步骤3：数值型数据处理，对自然人投资比例字段{ZRRTZBL}进行标准化处理。对企业基本信息表中的数值型数据采用传统的标准化(Z-Score)方法其进行处理，具体步骤为：

步骤1：获取各个属性的均值

步骤2：获取各个属性的方差

均值和方差是数值型属性的基本指标，通过均值和方差可对数值型属性做标准化处理。

2、企业交易网络特征提取。在发票信息中，每条发票信息具有{XFNSRDZDAH，XFHY_ID，GFNSRDZDAH，GFHY_ID，FPJE，FPSE}(销方纳税人电子档案号，销方行业 ID，购方纳税人电子档案号，发票金额，发票税额)字段。将购方和销方作为网络中的节点，纳税人电子档案号作为节点的唯一标识，销方和购方纳税人信息作为节点的属性，销方作为边的起点，购方作为边的终点，形成一条有向边，边的权重由发票金额决定，形成一个交易网络图G(V,E)，对图G进行网络表征，基于node2vec算法提取企业的交易网络特征，具体步骤见下：

步骤1：将购方和销方作为网络中的节点，纳税人电子档案号作为节点的唯一标识，销方和购方的纳税人信息作为节点的属性；

步骤2：销方作为边的起点，购方作为边的终点，形成一条有向边，边的权重由发票金额决定；

步骤3：以上步骤1和步骤2形成的节点和边形成了一个网络图G(V,E)，其中V表示节点的集合，E表示边的集合；

步骤4：随机游走。将图G作为node2vec的算法的输入，以每个节点为起点，在相连的节点中随机选择下一个节点，形成一条路线，每条路线包括30个连通的节点；

步骤5：将每个节点当成一个词，每条路线当成一句话，使用word2vec算法得到节点的 64维特征表示。

将以上两部分提取的企业基本特征和企业交易网络特征最终合并成完整的特征向量，作为训练二分类器的样本特征。

模块2：循环多间谍负例标记方法挖掘可靠负样本模块。

PU learning是半监督学习的一种特殊情况，它用于解决数据集中只存在正样本和未标注的样本而不存在负样本的情况。针对这种情况，本发明提出循环多间谍负例标记方法迭代地从未标记的企业样本中挖掘初步的负样本集，然后对所有初步的负样本集取交集得到最终的负样本集，使得挖掘的最终的负样本集更加可靠，从而提高模型的准确率。

图3所示，该模块的每轮迭代分为三个部分，训练二分类器、确定阈值、选取可靠负样本。

1、训练二分类器过程。将已标记的存在发票虚开行为的企业样本集(正样本集)记为 P，未标记的企业样本记为U，从P中随机选取15％的正样本记为S，P中剩下的样本记为P_S，并标记为-1，其中P_S＝P-S；将存在发票虚开行为的企业样本集S与未标记的企业样本集U合并，记为U_S，标记为-1。以U_S和P_S作为训练集采用决策树训练二分类器g。

2、确定阈值过程。将企业样本集S输入二分类器g。二分类器将输出每个企业样本所对应的概率Pr(d)，选择其中最小值作为阈值θ。

3、选取可靠负样本过程。将未标记的企业样本集U输入二分类器g，针对某一样本d，若Pr(1|d)≤θ，则认为该样本为不存在发票虚开行为(负样本)，并将其加入集合 RN。

通过对以上三个步骤的迭代，对所有挖掘的不存在发票虚开行为的企业样本集取交集得到最后可靠的负样本集，解决了已标记样本集中仅存在正样本，而负样本缺失的问题，并使得挖掘的负样本准确率更高。

模块3：基于k近邻回归协同训练的模型构建模块。

通过循环多间谍负例标记方法挖掘可靠负样本模块已将问题转化为一个传统半监督学习问题，以挖掘的不存在发票虚开行为的企业样本集和已标记的存在发票虚开行为的企业样本集作为训练集，用k近邻协同回归训练算法构建发票虚开预测模型。

图4所示，将通过循环多间谍负例标记方法挖掘可靠负样本模块挖掘的可靠负样本集和已标记的正样本集作为已标记的训练集，采用k近邻算法初始化h₁和h₂两个二分类器，其中 h₂、h₂采用不同的距离度量样本之间的差异。在每轮迭代中，每个二分类器对所有未标记样本进行发票虚开预测，并选择最可靠的一个样本作为已标记的样本并加入下一轮迭代中。具体步骤见下：

1、用挖掘的不存在发票虚开行为的企业样本和已标记的存在发票虚开行为的企业样本初始化训练集，记为L₁、L₂，未标记的企业样本集记为U。

2、k近邻算法构建h₁、h₂，其中

h₁←kNN(L₁,k,p₁)

h₂←kNN(L₂,k,p₂)

p₁取1，代表二分类器h₁以曼哈顿距离来度量样本之间的差异；p₂取2，代表二分类器h₂采用欧氏距离。

3、在每一轮迭代中，从未标记的企业样本集U中随机选择两个子集U₁和U₂，用二分类器h₁对U₁中的企业样本进行预测，二分类器h₂对U₂中的企业样本进行预测，得到每个企业样本的伪标记，过程表示如下：

其中x_u表示未标记的企业样本，表示用二分类器预测的伪标记。然后，用每一个有伪标记的样本更新二分类器h_j，得到h′_j。

4、用k近邻算法在已标记的企业样本集L_i中找到企业样本x_u的k个有标记的企业样本的近邻记为集合Ω_j，以该集合的每个企业样本x_i作为输入，计算h_j和h′_j的均方差之和其中

若则说明具有伪标记的企业样本对二分类器h_j有增益。

5、找到使得取得最大值的企业样本记为其中

然后，将企业样本放入另一个二分类器的已标记的企业样本集L_j,j∈{1,2}中，迭代执行步骤2。

6、当达到最大迭代次数时，结束迭代，最终的发票虚开预测模型h*(x)为：

将企业的基本特征和网络特征合并后输入至发票虚开预测模型h*(x)，输出得到企业的预测标记以识别企业是否存在发票虚开行为。

Claims

1.一种基于正例与未标注学习的发票虚开识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于正例与未标注学习的发票虚开识别方法，其特征在于，步骤一具体包括如下实现步骤：

(1)企业基本特征提取

1)处理文本型数据

步骤1：使用Jieba分词工具进行分词；

步骤2：构建停用表，将文本的停用词去掉；

2)处理类别型数据

对企业基本信息表中的类别型数据进行预处理并提取特征；对于此类离散型的数据采用One-Hot编码；对于任意离散型数据特征，设该属性共具有N种离散值，那么对于该数据对应的特征就有N个状态位，One-Hot编码将这N个状态位中的一位表示为1，其他位均表示成为0；一个特征值由N-1位0和一位1表示，确保只有一位有效；

3)处理数值型数据

步骤1：获取各个属性的均值

步骤2：获取各个属性的方差

(2)企业交易网络特征提取

具体步骤见下：

3.根据权利要求2所述的一种基于正例与未标注学习的发票虚开识别方法，其特征在于，步骤二具体包括如下实现步骤：

步骤2：从P中选取15％的存在发票虚开行为的企业样本作为间谍样本，记为集合S，P中其余85％的样本记作P_S，标记为1，U_S＝U∪S标记为-1；

步骤3：以P_S和U_S作为训练集用决策树训练二分类器g；

步骤7：对i加1，重复步骤2至步骤7直至i大于迭代次数T；

4.根据权利要求3所述的一种基于正例与未标注学习的发票虚开识别方法，其特征在于，步骤三具体包括如下实现步骤：

步骤2：二分类器h₁，h₂初始化，使用L初始化L₁和L₂，L₁←L,L₂←L；h₁，h₂为采用k近邻算法实现的二分类器，其中k近邻算法采用明可夫斯基距离度量企业样本之间的距离；在明氏距离中，x_r、x_s表示两个不同企业样本的特征向量，d为特征向量的维度，l代表某一维度；当p＝1时，明氏距离为曼哈顿距离；当p＝2时，为欧氏距离；其中二分类器h₁，h₂取不同的p值，采用不同的距离度量企业样本之间的差异使得两个二分类器具有不同的性能，达到更好的训练效果，过程表示为h₁←kNN(L₁,k,p₁)

h₂←kNN(L₂,k,p₂)

其中k表示近邻算法中的近邻个数，p₁＝1，p₂＝2；

步骤3：从未标记的企业样本集U中随机选择企业样本集U'₁和U'₂，确保同一个企业样本不会同时出现在U'₁、U'₂中，

步骤4：令j＝1，对U'_j中的每个企业样本x_u，使用二分类器h_j进行预测，得到伪标记过程表示为使用k近邻算法在已标记样本集L_j中找到x_u的k个近邻企业样本记为Ω_j，为Ω_j←Neighbors(x_u,k,L_j)

对Ω_j中每一个企业样本(x_i,y_i)计算均方差，并求和得到为

更新样本集U'_j，从U'_j中去掉用二分类器对置信度最高的一个企业样本进行标记并用以更新另一个二分类器，过程表示为

U'_j←U'_j-π_j

若对所有的企业样本，不存在则

步骤6：令j＝2，重复步骤3；

步骤7：更新已标记的存在发票虚开行为的企业样本集L₁和L₂，L₁←L₁∪π₂，L₂←L₂∪π₁；

h₁←kNN(L₁,k,p₁)

h₂←kNN(L₂,k,p₂)。

5.根据权利要求4所述的一种基于正例与未标注学习的发票虚开识别方法，其特征在于，步骤四具体包括如下实现步骤：

6.一种基于正例与未标注学习的发票虚开识别系统，该系统基于权利要求1至5中任一项所述的一种基于正例与未标注学习的发票虚开识别方法，包括依次连接的企业特征提取模块、循环多间谍负例标记方法挖掘可靠负样本模块、基于k近邻回归协同训练的模型构建模块以及发票虚开行为识别模块。