CN115618926A - 一种面向纳税人企业分类的重要因子提取方法及装置 - Google Patents

一种面向纳税人企业分类的重要因子提取方法及装置 Download PDF

Info

Publication number
CN115618926A
CN115618926A CN202211414583.3A CN202211414583A CN115618926A CN 115618926 A CN115618926 A CN 115618926A CN 202211414583 A CN202211414583 A CN 202211414583A CN 115618926 A CN115618926 A CN 115618926A
Authority
CN
China
Prior art keywords
data
heterogeneous
node
neural network
heterogeneous graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211414583.3A
Other languages
English (en)
Inventor
郑庆华
王亦琛
师斌
董博
赵锐
武乐飞
徐一明
王嘉祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN202211414583.3A priority Critical patent/CN115618926A/zh
Publication of CN115618926A publication Critical patent/CN115618926A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Finance (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种面向纳税人企业分类的重要因子提取方法及装置,包括:首先,对原始数据进行数据清洗,剔除残缺数据,并构建成异构图数据形式,用于后续步骤;其次,构建基于注意力机制的异构图神经网络,并利用半监督算法对网络进行优化,实现高精确率的异常企业检测结果;再次,设计基于元路径扰动的异构图解释器,实现影响异常数据检测的重要因子的提取;最后,将异常分类结果与重要因子结合,以可视化的形式展示,交付给专业税务稽查人员以备后续使用。

Description

一种面向纳税人企业分类的重要因子提取方法及装置
技术领域
本发明属于机器学习可解释性技术领域,特别涉及一种面向纳税人企业分类的重要因子提取方法及装置。
背景技术
税收是财政的重要收入来源,纳税企业偷税漏税行为会对财政产生巨大影响。当前,利用计算机机器学习已成为能够高效准确地判断企业异常行为的方法。
相关技术中,利用大量数据来实现异常数据检测,整体上采用神经网络的办法。其核心思路是利用已有标签的部分税务数据,来训练神经网络模型,并用来预测未打标签的企业,判断其是否存在异常。但是,由于神经网络的黑盒特性,其判断推理过程对人来说是不可知的,人们也无法完全相信网络的输出结果。因此,涉及到有关医疗、金融、税务等敏感行业,数据的异常判定需要严谨的解释。相关人员在取得异常数据检测结果后,不能直接对该数据进行定性,需要进一步探究影响数据判别的重要因子。
因此,如何提取影响异常数据判别的重要因子,成为本领域技术人员关注的重点问题。
以下文献提供了可参考的影响判别结果的重要因子提取技术:
[1]慕畅.点击率重要因子的萃取方法、系统、终端设备及介质[P].广东省:CN114462499A,2022-05-10.
[2]廖菁芃.一种风景体验影响因子及其情感倾向、重要度的分析方法[P].湖南省:CN114565011A,2022-05-31.
文献1提出了一种提取影响点击率的重要因子的方法。基于设置的不同阈值下支持度和置信度,对过滤候选集进行测地线过滤,从而得到目标项集,进一步从目标项集中萃取得到点击率重要因子。
文献2提供了一种提取影响风景体验的重要因素的方法。基于最大熵模型,依据参数在正态分布中的假设检验结果P值来筛选过滤无统计学意义的风景体验影响因子。根据权重的正负值来判断影响风景体验因素的积极消极倾向,根据t值筛选显著影响因子并进行影响程度的排序。
文献1提出的方法具有一定的参考意义,即通过设置阈值函数,来判断因子是否会影响最终的结果。然而,在真实场景中,阈值函数的设置是很困难的,缺乏专家知识,不适的阈值函数可能会使结果产生较大的误差,这对于数据敏感行业是无法容忍的。而文献2的方法仅针对于某种特定的模型,其方法可移植性较差,对于不同行业,无法做到精确适配。此外,利用权重正负值来判断影响因素倾向,仅适用于数据之间相互独立的情况,而不能够处理某些数据之间依赖紧密的场景,例如税务场景。
当前,已有学者在针对于税务场景下的重要因子提取方法上做了相关研究,但这些方法大体聚焦于简单模型上,例如通过设计决策树,来判断纳税企业是否存在异常,进一步提取出影响分类结果的重要因子。然而,在面对更为复杂多维的数据时,上述方法就难以满足要求。
发明内容
本申请的目的是提供一种面向纳税人企业分类的重要因子提取方法及装置,通过构建税务场景下交易异构图,利用基于元路径扰动的可解释性方法,得到影响异常数据判别的重要因子,以提高税务领域对于异常企业数据检测结果的可信度。
本发明采用如下技术方案来实现的:
一种面向纳税人企业分类的重要因子提取方法,包括以下步骤:
步骤一,数据预处理模块对原始数据的异质图化处理;
步骤二,构建基于注意力机制的异构图神经网络模型;
步骤三,利用半监督分类方法,实现对异构图神经网络模型的优化;
步骤四,设计基于元路径扰动的异构图解释器,实现影响异常数据检测的重要因子提取。
本发明进一步的改进在于,步骤一中,原始数据包括从企业经营过程中产生的发票数据与企业注册信息可在互联网上查询到的数据。
本发明进一步的改进在于,步骤一中,具体实现方法如下:
(1)对原始数据进行数据清洗,剔除内容不完整的数据;
(2)基于数据类别,将不同类别的数据定义为不同类别的节点,同时,按照数据之间的关联信息,构建不同类别的边;对每一个节点定义相同维度的特征向量;
(3)按照定义的节点与边,构建异质的图数据。
本发明进一步的改进在于,步骤二中,通过分层注意力机制,学习异质图下的数据节点的嵌入表示,用于后续数据检测以及重要因子的提取;分层注意力包括两个阶段:基于节点级注意力的学习和基于语义级注意力的学习。
本发明进一步的改进在于,步骤二中,具体实现方法如下:
(1)构建基于节点级注意力的异质图神经网络,层节点级注意力汇聚从上述异质图构建中得到的邻域节点特征,通过定义不同的元路径,学习基于元路径的邻居节点权重,并将它们聚合得到特定语义的节点的嵌入表示;
(2)构建基于语义级注意力的异质图神经网络层,语义级注意力联合学习每个元路径的权重,并通过语义级注意力融合前面得到的语义特定的节点嵌入表示;
(3)将上述不同的神经网络层结合,构成基于层次注意力机制的异质图神经网络。
本发明进一步的改进在于,步骤三中,采用自训练半监督算法,结合上述步骤二的异质图神经网络,做到在缺少标签数据的背景下,实现端到端的模型优化,实现数据异常检测任务。
本发明进一步的改进在于,步骤三中,具体实现方法如下:
(1)基于层次注意力机制得到的节点嵌入表示,与已有的标签数据计算损失,对上述构建的异质图神经网络模型进行端到端的优化;
(2)利用优化完的模型,实现少量标签数据下的半监督节点分类检测任务,从而检测出正常数据与异常数据。
本发明进一步的改进在于,步骤四中,具体实现方法如下:
(1)定义元路径掩码矩阵,该矩阵的作用是通过将原始异质图与掩码矩阵相乘,得到新的掩码后的异质子图;
(2)随机初始化元路径掩码矩阵,将新的异质子图输入上述优化过的异质图神经网络,得到新的输出结果,并与原始异质子图的输出作比较;
(3)定义子图输出与原始图输出之间的损失函数,并优化掩码矩阵,使得损失最小;
(4)将最终优化完的掩码矩阵与原始异质图相乘,得到掩码后的异质子图,其中保留下来的邻居节点即为影响节点分类结果的重要因子。
本发明进一步的改进在于,还包括步骤五,异常数据及其重要因子的可视化展示;
将优化完毕的掩码矩阵与原始异构图相乘,得到最终需要展示的异质子图,将异常公司节点及其重要因子以图的形式发送给税务稽查人员,做进一步核查。
一种面向纳税人企业分类的重要因子提取装置,其特征在于,包括:
数据预处理模块,用于基于数据格式对原始数据进行预处理,得到异质的图数据格式;
异质神经网络构建模块,用于采用层次注意力机制异质图神经网络模型对异质图数据进行表示向量提取,得到每个数据节点对应的表示向量;
半监督优化模块,用于在缺乏标签数据的情形下,半监督地优化异质图神经网络模型元路径掩码模块,用于提取影响数据节点判断的重要因子。
与现有技术相比,本发明至少具有如下有益的技术效果:
1、基于图数据的数据处理方式,使得数据之间的联系更为紧密。与传统数据相比,数据之间不是独立存在的,图数据之间的关联使得提取出的影响企业分类的重要因子更具可解释性,进而提升了本方法较于先前方法的可信度。
2、采用多层次注意力机制的神经网络模型,在性能上相较于已有的消息传递模型更为优秀,提高了异常数据检测的准确率,进而提升了纳税企业分类任务置信度,为后续重要因子的提取提供了准确率保障。
3、本发明提出的基于异构图的重要因子提取方法,能够在更为复杂真实的异构数据场景下使用,而不仅局限于同构数据场景,这为后续适用场景的扩展和泛化提供了保障。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例所提供的一种基于异质图的异常检测重要因子提取方法的流程图;
图2为本申请实施例所提供的一种基于异质图的异常检测重要因子提取方法的结构示意图。
具体实施方式
本申请的核心是提供一种基于异质图的异常检测重要因子提取方法、重要因子提取装置、服务器以及计算机可读存储介质,以增强对异常数据检测的可信度。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
以下通过一个具体实施例,对本申请提供的一种面向纳税人企业分类的重要因子提取方法进行说明。
请参考图1,图1为本申请实施例所提供的一种面向纳税人企业分类的重要因子提取方法的流程图。
本实施例中,该方法可以包括:
S101基于数据格式,对原始数据的异质图构建
交易过程中产生的发票信息与企业注册信息是研究交易、纳税的唯一数据来源,通常将企业信息整理存于数据库中。该数据项包含了企业所有的注册信息以及交易信息,包括企业纳税人识别号、企业注册法人识别号、交易商品编号、交易金额等重要信息。但也存在许多冗余信息,对于识别异常企业的帮助微乎其微。并且,数据项主要以数据表的形式存储,不能显式表示企业之间的关联,因此需要对数据进行图数据的转化处理。
对某地区的纳税发票中获取的各企业各类信息进行整理、清洗,将企业及其法人信息,注册信息,主营业务,与其他企业之间的交易以异质图的形式呈现。其中,节点类型包含:企业、法人、事件、商品;边类型包含:交易边(企业→企业)、信息变更边(企业→事件)、销售边(企业→商品)、购买边(商品→企业)、法人边(企业→法人),同时构建相同维度的节点特征,便于后续处理;
下面介绍S101的具体实施方式。
首先,在数据库中通过SQL(Structured Query Language,结构化查询语言)语句操作,查询企业表,得到各个企业的信息,包含企业纳税人识别号、法人信息。每一家企业,在图中均表示为一个节点,节点类别为0,代表该类型节点为企业节点,节点ID从0开始,直至N1-1,代表共有N1家企业;
相同的,企业的注册法人,在图中也表示为节点,节点类别为1,代表该类型节点为企业法人,节点ID从N1开始,直至N2-1,代表共有N2-N1法人;
以企业纳税人识别号为key,查询交易数据库,得到有关该企业的所有交易信息。交易信息包含以该企业为购方的购买发票,以及以该企业为销方的销售发票,从中提取商品信息,在图中以节点的形式展示。节点类别为2,节点ID从N2开始,直至N3-1,代表共有N3-N2种商品;
以企业纳税人识别号为key,查询企业事件数据库,得到有关该企业的事件信息。事件信息包含监事备案、投资人股权变更、法人代表人变更等对企业经营有影响的信息,并将这些信息提取至图中,以节点的形式展示。节点类别为3,节点ID从N3开始,直至N4-1,代表共有N4-N3种事件。
上述节点构建过程,总共构建了N=N1+N2+N3+N4个节点,同时为了方便后续特征提取,为所有节点构建同维度的特征向量。至此,图数据中的节点已经构建完成。接下来,介绍图数据的边构建过程:
该异质图共有5种类型边,分别为:交易边(企业→企业)、信息变更边(企业→事件)、销售边(企业→商品)、购买边(商品→企业)、法人边(企业→法人),在图中以(src,dst)的有向边形式存储,其中src为边的起始节点,dst为边的终止节点。边的类型包括从0至4共五类,按照不同的起止节点类型,决定不同的边的类型。交易边(0,0),类别为0;销售边(0,2),类别为1;购买边(2,0),类别为2;信息变更边(0,3),类别为3;法人边(0,1),类别为4。至此,异质图的节点和边都已构建完成,从表数据到图数据的构建结束。
用以上的方法,获得该地区44396家企业的交易信息,包含44396家企业名称及其纳税人识别号,8789位法人信息,4260种商品以及54567件事件信息。按照上述方法构建异质图数据,得到共112012个节点,198903条边,节点特征向量维数为300维的异质图。
S102构建基于层次注意力机制的异质神经网络
构建层次注意力异质神经网络模型,用以将上述构建的异质图,学习得到各个企业节点的嵌入表示,用于下游分类任务。该模型具有两个阶段:节点级注意力学习和语义级注意力学习,下面分别介绍两个阶段:
首先,通过节点级注意力来学习基于元路径的邻域的权值,并对其进行聚合得到语义特定的节点嵌入。元路径是根据专家知识定义好的语义路径连接。在本具体实施例中,元路径有以下几种:Company-Item-Company(CIC)、Company-Person-Company(CPC)、Company-Event-Company(CEC)。在定义好元路径后,为44369家公司节点学习其表征向量。
给定某条元路径,利用节点级注意力来学习特定的语义下的节点表示。采用自注意力机制(self-attention),将学习节点及其邻居间的表示向量。具体公式如下:
Figure BDA0003939249150000081
其中,Φ为给定的元路径,hi、hj分别为i、j节点的特征向量,
Figure BDA0003939249150000082
的定义为节点j对节点i的重要性
通过softmax层,得到节点j对节点i的注意力权重:
Figure BDA0003939249150000083
最后,通过节点级的聚合操作来学习特定语义下的节点表示:
Figure BDA0003939249150000084
给定meta-path集合{Φ01,…,ΦP},在进行节点级别attention之后,可以得到P组特定语义的节点嵌入表示{Z0,Z1,...,ZP}。
然后,通过语义级注意力来区分元路径的不同,从而得到特定任务的语义特定的节点嵌入的最优加权组合。
语义级注意力的形式化描述如下:
Figure BDA0003939249150000085
其中,
Figure BDA0003939249150000091
是各个元路径的注意力权重。利用单层神经网络和语义级别注意力向量来学习每个语义(元路径)的重要性并通过softmax来进行归一化。
最终的节点嵌入表示如下计算
Figure BDA0003939249150000092
S103利用已有标签,实现半监督的节点分类任务:
在税务场景下,对异常公司的标注数量远少于全部公司数量,该地区数据中,具有标签的公司节点数量为1770,无标签的公司节点数量为42626,有标签的公司数量远少于全部公司数量.因此,在缺乏足够标签的前提下,利用自训练的半监督算法,来实现上述构建的异质图神经网络模型的优化,对于正常企业,其标签定义为0,异常企业,标签为1。模型损失函数定义如下:
Figure BDA0003939249150000093
其中,C表示分类器的参数,y表示有标签的节点的索引,Y表示有标签的节点的标签,Z表示有标签的节点的嵌入表示。经过多轮迭代,得到优化完成的异质图神经网络模型H。
S104基于元路径的影响节点分类结果重要因子提取:
基于元路径的掩码矩阵,是由多维的邻接矩阵构成,每一维都代表着一个邻接掩码矩阵,Mi×j×k=1,代表在第k种元路径下,第i公司节点和第j公司节点之间的边可以保留,而Mi×j×k=0则意味着在第k种元路径下,第i公司节点和第j公司节点之间的边需要被删除。
首先,随机初始化元路径掩码矩阵M112012×112012×3={0or 1},将原异质图G与掩码矩阵相乘,得到在不同元路径下的异质子图Gc
Gc=G·Mc,c∈{1,…,3}
选取从S103中预测为异常类别的企业,作为需要进一步提取影响其判断结果重要因子的节点,利用反向传播算法,来优化掩码矩阵M,其中损失函数定义如下:
Figure BDA0003939249150000101
其中
Figure BDA0003939249150000102
该公式将不同元路径Φ下的条件熵,通过
Figure BDA0003939249150000103
权重系数加权求和得到,既保证了模型的准确性,又兼顾不同元路径的重要性。
最后,按照损失函数L对掩码矩阵M求快速梯度下降,来优化M。在达到最大迭代次数K或损失函数L小于设定阈值l0后,输出最终结果M,以及经过掩码后的异质子图Gk。经过实验分析,这里设置l0=4.0,K=10。
S105异常节点及其重要因子的可视化
将S104优化完毕的掩码矩阵与原始异构图相乘,得到最终需要展示的异质子图,将异常公司节点及其重要因子以图的形式发送给税务稽查人员,做进一步核查。该方法为异常企业判别提供了依据,提供了可信的解决方案。
综上,本具体实施例先对原始数据进行处理,得到异质图数据,再利用基于注意力机制的异质图神经网络,得到每个数据节点的嵌入表示,该表示可用于下游的节点分类任务。接着利用自训练的半监督算法,优化异质图神经网络,提高了数据异常检测的准确性。最后,通过优化基于元路径的掩码矩阵,提取出影响数据异常检测中的重要因子,提高整体流程的可信度。
下面对本申请实施例提供的重要因子提取装置进行介绍,下文描述的重要因子提取装置与上文描述的重要因子提取方法可相互对应参照。
请参考图2,图2为本申请实施例所提供的一种面向纳税人企业分类的重要因子提取装置的结构示意图。
本实施例中,该装置可以包括:
数据预处理模块100,用于基于数据格式对原始数据进行预处理,得到异质的图数据格式;
异质神经网络构建模块200,用于采用层次注意力机制异质图神经网络模型对异质图数据进行表示向量提取,得到每个数据节点对应的表示向量;
半监督优化模块300,用于在缺乏标签数据的情形下,半监督地优化异质图神经网络模型元路径掩码模块400,用于提取影响数据节点判断的重要因子;
可视化展示模块500,用于将上述异常节点及提取的重要因子可视化展示。
可选的,该数据预处理模块100,具体用于对原始数据进行清洗,得到待整理数据;基于数据格式和数据属性对待整理数据进行表数据到图数据的转化过程。
以上对本申请所提供的一种基于异质图的异常检测重要因子提取方法进行了详细的介绍。本文中应用了具体实例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。

Claims (10)

1.一种面向纳税人企业分类的重要因子提取方法,其特征在于,包括以下步骤:
步骤一,数据预处理模块对原始数据的异质图化处理;
步骤二,构建基于注意力机制的异构图神经网络模型;
步骤三,利用半监督分类方法,实现对异构图神经网络模型的优化;
步骤四,设计基于元路径扰动的异构图解释器,实现影响异常数据检测的重要因子提取。
2.根据权利要求1所述的一种面向纳税人企业分类的重要因子提取方法,其特征在于,步骤一中,原始数据包括从企业经营过程中产生的发票数据与企业注册信息可在互联网上查询到的数据。
3.根据权利要求1所述的一种面向纳税人企业分类的重要因子提取方法,其特征在于,步骤一中,具体实现方法如下:
(1)对原始数据进行数据清洗,剔除内容不完整的数据;
(2)基于数据类别,将不同类别的数据定义为不同类别的节点,同时,按照数据之间的关联信息,构建不同类别的边;对每一个节点定义相同维度的特征向量;
(3)按照定义的节点与边,构建异质的图数据。
4.根据权利要求1所述的一种面向纳税人企业分类的重要因子提取方法,其特征在于,步骤二中,通过分层注意力机制,学习异质图下的数据节点的嵌入表示,用于后续数据检测以及重要因子的提取;分层注意力包括两个阶段:基于节点级注意力的学习和基于语义级注意力的学习。
5.根据权利要求4所述的一种面向纳税人企业分类的重要因子提取方法,其特征在于,步骤二中,具体实现方法如下:
(1)构建基于节点级注意力的异质图神经网络,层节点级注意力汇聚从上述异质图构建中得到的邻域节点特征,通过定义不同的元路径,学习基于元路径的邻居节点权重,并将它们聚合得到特定语义的节点的嵌入表示;
(2)构建基于语义级注意力的异质图神经网络层,语义级注意力联合学习每个元路径的权重,并通过语义级注意力融合前面得到的语义特定的节点嵌入表示;
(3)将上述不同的神经网络层结合,构成基于层次注意力机制的异质图神经网络。
6.根据权利要求1所述的一种面向纳税人企业分类的重要因子提取方法,其特征在于,步骤三中,采用自训练半监督算法,结合上述步骤二的异质图神经网络,做到在缺少标签数据的背景下,实现端到端的模型优化,实现数据异常检测任务。
7.根据权利要求6所述的一种面向纳税人企业分类的重要因子提取方法,其特征在于,步骤三中,具体实现方法如下:
(1)基于层次注意力机制得到的节点嵌入表示,与已有的标签数据计算损失,对上述构建的异质图神经网络模型进行端到端的优化;
(2)利用优化完的模型,实现少量标签数据下的半监督节点分类检测任务,从而检测出正常数据与异常数据。
8.根据权利要求1所述的一种面向纳税人企业分类的重要因子提取方法,其特征在于,步骤四中,具体实现方法如下:
(1)定义元路径掩码矩阵,该矩阵的作用是通过将原始异质图与掩码矩阵相乘,得到新的掩码后的异质子图;
(2)随机初始化元路径掩码矩阵,将新的异质子图输入上述优化过的异质图神经网络,得到新的输出结果,并与原始异质子图的输出作比较;
(3)定义子图输出与原始图输出之间的损失函数,并优化掩码矩阵,使得损失最小;
(4)将最终优化完的掩码矩阵与原始异质图相乘,得到掩码后的异质子图,其中保留下来的邻居节点即为影响节点分类结果的重要因子。
9.根据权利要求1所述的一种面向纳税人企业分类的重要因子提取方法,其特征在于,还包括步骤五,异常数据及其重要因子的可视化展示;
将优化完毕的掩码矩阵与原始异构图相乘,得到最终需要展示的异质子图,将异常公司节点及其重要因子以图的形式发送给税务稽查人员,做进一步核查。
10.一种面向纳税人企业分类的重要因子提取装置,其特征在于,包括:
数据预处理模块,用于基于数据格式对原始数据进行预处理,得到异质的图数据格式;
异质神经网络构建模块,用于采用层次注意力机制异质图神经网络模型对异质图数据进行表示向量提取,得到每个数据节点对应的表示向量;
半监督优化模块,用于在缺乏标签数据的情形下,半监督地优化异质图神经网络模型元路径掩码模块,用于提取影响数据节点判断的重要因子。
CN202211414583.3A 2022-11-11 2022-11-11 一种面向纳税人企业分类的重要因子提取方法及装置 Pending CN115618926A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211414583.3A CN115618926A (zh) 2022-11-11 2022-11-11 一种面向纳税人企业分类的重要因子提取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211414583.3A CN115618926A (zh) 2022-11-11 2022-11-11 一种面向纳税人企业分类的重要因子提取方法及装置

Publications (1)

Publication Number Publication Date
CN115618926A true CN115618926A (zh) 2023-01-17

Family

ID=84878537

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211414583.3A Pending CN115618926A (zh) 2022-11-11 2022-11-11 一种面向纳税人企业分类的重要因子提取方法及装置

Country Status (1)

Country Link
CN (1) CN115618926A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116383708A (zh) * 2023-05-25 2023-07-04 北京芯盾时代科技有限公司 一种交易账号的识别方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116383708A (zh) * 2023-05-25 2023-07-04 北京芯盾时代科技有限公司 一种交易账号的识别方法及装置
CN116383708B (zh) * 2023-05-25 2023-08-29 北京芯盾时代科技有限公司 一种交易账号的识别方法及装置

Similar Documents

Publication Publication Date Title
CN110188198B (zh) 一种基于知识图谱的反欺诈方法及装置
CN113822494A (zh) 风险预测方法、装置、设备及存储介质
CN104573130B (zh) 基于群体计算的实体解析方法及装置
CN112182246B (zh) 通过大数据分析建立企业画像的方法、系统、介质及应用
CN116468460B (zh) 基于人工智能的消费金融客户画像识别系统及其方法
CN116108917B (zh) 一种无标记样本增强的半监督图神经网络方法
CN114254201A (zh) 一种科技项目评审专家的推荐方法
Chen et al. [Retracted] Audit Data Analysis and Application Based on Correlation Analysis Algorithm
CN116467666A (zh) 一种基于集成学习和主动学习的图异常检测方法和系统
Wu et al. Tedm-pu: A tax evasion detection method based on positive and unlabeled learning
CN115618926A (zh) 一种面向纳税人企业分类的重要因子提取方法及装置
CN116823321B (zh) 一种电商用经济管理数据分析方法及系统
Liu et al. Analysis of Beijing Tianjin Hebei regional credit system from the perspective of big data credit reporting
CN117390299A (zh) 基于图证据的可解释性虚假新闻检测方法
Chen et al. Predicting a corporate financial crisis using letters to shareholders
Wang et al. Risk assessment of customer churn in telco using FCLCNN-LSTM model
Wu et al. Dmtmv: a unified learning framework for deep multi-task multi-view learning
Kulothungan Loan Forecast by Using Machine Learning
Nassreddine et al. Detecting Data Outliers with Machine Learning
Falahi et al. Detecting Data Outliers with Machine Learning
Xiahou et al. Customer profitability analysis of automobile insurance market based on data mining
Sun [Retracted] Construction of Digital Platform of Religious and Cultural Resources Using Deep Learning and Its Big Data Analysis
CN108520042B (zh) 实现经侦工作中嫌疑人涉案角色标定和角色评估的系统及方法
CN115545467B (zh) 一种基于图神经网络的风险商品识别模型
Wang et al. Robust fused hypergraph neural networks for multi-label classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination