CN106504084A - 一种用于识别供应链中核心企业的方法及系统 - Google Patents

一种用于识别供应链中核心企业的方法及系统 Download PDF

Info

Publication number
CN106504084A
CN106504084A CN201611010102.7A CN201611010102A CN106504084A CN 106504084 A CN106504084 A CN 106504084A CN 201611010102 A CN201611010102 A CN 201611010102A CN 106504084 A CN106504084 A CN 106504084A
Authority
CN
China
Prior art keywords
enterprise
node
identification number
identifier
taxpayer identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611010102.7A
Other languages
English (en)
Inventor
齐超
胡懋地
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aisino Corp
Original Assignee
Aisino Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aisino Corp filed Critical Aisino Corp
Priority to CN201611010102.7A priority Critical patent/CN106504084A/zh
Publication of CN106504084A publication Critical patent/CN106504084A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/12Accounting
    • G06Q40/123Tax preparation or submission

Landscapes

  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Engineering & Computer Science (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种供应链核心企业的识别方法和系统,利用图论中特征向量中心性度量方法来计算企业在供应链中的重要程度,本发明把各企业之间的购销关系当成是一个无向图结构,通过简单可行的算法,有效地计算出每个企业的重要性,有利于税务机关企业与行业中所有企业的关联。所述方法包括:构建购方识别号、销方识别号和贸易金额的三元组的集合;建立纳税人识别号的集合,并建立邻接矩阵和无向图结构;计算邻接矩阵中每个节点的相对中心性;对相对中心性最大的前k个节点所对应的纳税人识别号进行标记,以表示该纳税人识别号对应的企业是供应链核心企业。

Description

一种用于识别供应链中核心企业的方法及系统
技术领域
本发明涉及税务大数据领域,并且更具体地,涉及一种用于识别供应链中核心企业的方法及系统。
背景技术
随着互联网和大数据技术的兴起,税务机关的税务数据规模不断增长,基于税务数据的企业画像技术应运而生。互联网时代,很多企业和政府机构也嗅到了大数据带来的机遇。由于征信双方信息不对称,信息平台的数据处理能力和数据挖掘能力不够等问题,税务机关往往不能对企业形成一个立体化的描述。大部分的企业通过使用数据参与经营决策,减低经营成本,获取经营收入,使得企业的涉税行为更加隐蔽和无形,税务机关通过现有的征管手段很难跟踪和获知这些情况。
供应链核心企业作为企业画像中重要的标识,通过标记供应链核心企业能够有效找到行业供应链中的重要企业,这样有利于税务机关企业与行业中所有企业的关联,查看企业对行业的影响。
发明内容
本发明提供了一种用于识别供应链中核心企业的方法及系统,利用图论中Eigenvector Centrality特征向量中心性度量方法来计算企业在供应链中的重要程度,该方法把各企业之间的购销关系当成是一个无向图结构,计算方法简单可行,有效地计算出每个企业的重要性。供应链核心企业的识别和标注是进行企业画像的重要部分,方便税务机关通过查看供应链核心企业的税务情况了解整个行业的发展情况,对行业风向和投资决策和投资依据具有重大意义。
根据本发明的一个方面,提供一种用于识别供应链中核心企业的方法,包括:
获取发票中的购方识别号和销方识别号并建立购方识别号和销方识别号的二元组的集合,其中购方识别号和销方识别号均为纳税人识别号;
获取发票中的贸易金额添加并到所述二元组的集合中,从而形成三元组的集合;
建立纳税人识别号的集合,设纳税人识别号的个数为n,则将纳税人识别号与[1,n]之间的整数建立一一映射,建立一个n*n的邻接矩阵A,且每个企业对应一个纳税人识别号;
将企业之间的贸易金额作为邻接矩阵中相邻节点之间的权重并且添加至邻接矩阵中,以构成无向图结构;
通过AX=λX计算出特征值λ,以计算出的最大特征值作为λ的值,并计算出与λ对应的特征向量X的值,其中A为邻接矩阵;
通过计算出节点v在特征向量X中的相对中心性得分xv,其中v、t均为节点,xt为节点t在特征向量X中的相对中心性得分,λ为特征值,M(v)表示与节点v相连的点的集合,G=(E,V),其中E表示边的集合,V表示节点的集合;
对特征向量X进行归一化,然后分别对应每个节点的值进行标准化,将特征向量中每个节点的值转换为该节点在整个向量中所占的百分比;
取出相对中心性得分最高的前k个节点,并根据邻接矩阵中每个节点对应的纳税人识别号,对相对中心性得分最高的前k个纳税人识别号进行标记,以表示该纳税人识别号对应的企业是供应链中的核心企业。
优选地,若两个企业有多次贸易关系,则对贸易金额进行累加。
优选地,将企业之间的贸易金额作为邻接矩阵中相邻节点之间的权重时,按一定阈值倍数对所述贸易金额进行缩小。
优选地,所述k的值小于n的值。
根据本发明的另一方面,提供一种用于识别供应链中核心企业的系统,包括:
数据处理模块,用于构建购方识别号、销方识别号和贸易金额的三元组的集合;
图构造模块,建立纳税人识别号的集合,并建立邻接矩阵和无向图结构;
特征向量中心性度量计算模块,计算邻接矩阵中每个节点的相对中心性,即特征向量;以及
核心企业标记模块,对相对中心性最大的前k个节点所对应的纳税人识别号进行标记,以表示该纳税人识别号对应的企业是供应链核心企业。
附图说明
通过参考下面的附图,可以更为完整地理解本发明的示例性实施方式:
图1为根据本发明优选实施例的供应链核心企业的识别方法的流程图;以及
图2为根据本发明优选实施例的供应链核心企业的识别系统的结构图。
具体实施方式
现在参考附图介绍本发明的示例性实施方式,然而,本发明可以用许多不同的形式来实施,并且不局限于此处描述的实施例,提供这些实施例是为了详尽地且完全地公开本发明,并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中,相同的单元/元件使用相同的附图标记。
除非另有说明,此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外,可以理解的是,以通常使用的词典限定的术语,应当被理解为与其相关领域的语境具有一致的含义,而不应该被理解为理想化的或过于正式的意义。
图1为根据本发明优选实施例的供应链核心企业的识别方法的流程图。如图1所示,供应链核心企业的识别方法100从步骤101开始。在步骤101中,从发票数据库中识别出发票上的购方识别号和销方识别号信息,并建立购方识别号和销方识别号的二元组的集合,其中,购方识别号和销方识别号均为纳税人识别号。应当了解的是,每一个企业均有且只有一个纳税人识别号,只是因购销关系不同区分为购方识别号和销方识别号。
在步骤102中,取出发票中的贸易金额添加到步骤101形成的二元组的集合中,从而形成三元组的集合,若两个企业之间存在多次贸易关系,则对贸易金额进行累加。应当了解的是,所述两个企业之间存在贸易关系,是指两个企业之间互为购方和销方,并不仅限于某一个企业只作为购方,另一个企业只做销方。
在步骤103中,建立纳税人识别号的集合,设纳税人识别号的个数为n,则将纳税人识别号与[1,n]之间的整数建立一一映射,建立一个n*n的邻接矩阵A。
在步骤104中,将企业之间的贸易金额作为邻接矩阵中各节点之间的权重添加至邻接矩阵中,在进行权重添加时,按一定的阈值倍数对所述贸易金额进行缩小,其中,所述阈值可以为1000倍、10000倍或50000倍等,具体缩小的倍数根据实际情况选择。
在步骤105中,通过AX=λX计算出特征值λ,由于会计算出多个特征值值,在本发明中,以计算出的最大特征值作为λ的值,并计算出与λ对应的特征向量X的值,其中A为邻接矩阵。
在步骤106中,通过计算出节点v在特征向量X中的相对中心性得分xv,所述相对中心性得分,即为节点v在供应链中的重要程度。其中v、t均为节点,xt为节点t在特征向量X中的相对中心性得分,λ为特征值,M(v)表示与节点v相连的点的集合,G=(E,V),其中E表示边的集合,V表示节点的集合。
在步骤107中,对步骤105中得出的特征向量进行归一化,即对特征向量中的每个节点的值进行相加求和,然后分别对应每个节点的值进行标准化,将特征向量中每个节点的值转换为该节点在整个向量中所占的百分比。
在步骤108中,取出相对中心性得分最高的前k个节点编号,并根据邻接矩阵中每个节点对应的纳税人识别号,对相对中心性得分最高的前k个纳税人识别号进行标记,以表示该纳税人识别号对应的企业是供应链核心企业。其中,k的值小于纳税人识别号的个数n的值,并且在实际使用时,k的值推荐取5或者10。
图2为根据本发明优选实施例的供应链核心企业的识别系统的结构图。如图2所示,供应链核心企业的识别系统200主要由数据处理模块201、图构造模块202、特征向量中心性度量计算模块203以及核心企业标记模块204组成。
优选地,所述数据处理模块201用于构建购方识别号、销方识别号和贸易金额的三元组的集合。
优选地,所述图构造模块202用于建立纳税人识别号的集合,并利用与纳税人识别号个数的映射建立邻接矩阵,并在邻接矩阵中添加权重构建无向图结构。
优选地,所述特征向量中心性度量计算模块203,通过计算特征值和特征向量,计算邻接矩阵中每个节点的中心性,即企业在供应链中的重要程度。
优选地,所述核心企业标记模块204通过对相对中心性得分最高的前k个节点所对应的纳税人识别号进行标记,以表示该纳税人识别号对应的企业是供应链核心企业。
已经通过参考少量实施方式描述了本发明。然而,本领域技术人员所公知的,正如附带的专利权利要求所限定的,除了本发明以上公开的其他的实施例等同地落在本发明的范围内。
通常地,在权利要求中使用的所有术语都根据他们在技术领域的通常含义被解释,除非在其中被另外明确地定义。所有的参考“一个/所述/该[装置、组件等]”都被开放地解释为所述装置、组件等中的至少一个实例,除非另外明确地说明。这里公开的任何方法的步骤都没必要以公开的准确的顺序运行,除非明确地说明。

Claims (5)

1.一种用于识别供应链中核心企业的方法,包括:
获取发票中的购方识别号和销方识别号并建立购方识别号和销方识别号的二元组的集合,其中购方识别号和销方识别号均为纳税人识别号;
获取发票中的贸易金额添加并到所述二元组的集合中,从而形成三元组的集合;
建立纳税人识别号的集合,设纳税人识别号的个数为n,则将纳税人识别号与[1,n]之间的整数建立一一映射,建立一个n*n的邻接矩阵A,且每个企业对应一个纳税人识别号;
将企业之间的贸易金额作为邻接矩阵中相邻节点之间的权重并且添加至邻接矩阵中,以构成无向图结构;
通过AX=λX计算出特征值λ,以计算出的最大特征值作为λ的值,并计算出与λ对应的特征向量X的值,其中A为邻接矩阵;
通过计算出节点v在特征向量X中的相对中心性得分xv,其中v、t均为节点,xt为节点t在特征向量X中的相对中心性得分,λ为特征值,M(v)表示与节点v相连的点的集合,G=(E,V),其中E表示边的集合,V表示节点的集合;
对特征向量X进行归一化,然后分别对应每个节点的值进行标准化,将特征向量中每个节点的值转换为该节点在整个向量中所占的百分比;
取出相对中心性得分最高的前k个节点,并根据邻接矩阵中每个节点对应的纳税人识别号,对相对中心性得分最高的前k个纳税人识别号进行标记,以表示该纳税人识别号对应的企业是供应链中的核心企业。
2.根据权利要求1所述的方法,其特征在于,若两个企业有多次贸易关系,则对贸易金额进行累加。
3.根据权利要求1所述的方法,其特征在于,将企业之间的贸易金额作为邻接矩阵中相邻节点之间的权重时,按一定阈值倍数对所述贸易金额进行缩小。
4.根据权利要求1所述的方法,其特征在于,所述k的值小于n的值。
5.一种用于识别供应链中核心企业的系统,包括:
数据处理模块,用于构建购方识别号、销方识别号和贸易金额的三元组的集合;
图构造模块,建立纳税人识别号的集合,并建立邻接矩阵和无向图结构;
特征向量中心性度量计算模块,计算邻接矩阵中每个节点的相对中心性,即特征向量;以及
核心企业标记模块,对相对中心性最大的前k个节点所对应的纳税人识别号进行标记,以表示该纳税人识别号对应的企业是供应链核心企业。
CN201611010102.7A 2016-11-16 2016-11-16 一种用于识别供应链中核心企业的方法及系统 Pending CN106504084A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611010102.7A CN106504084A (zh) 2016-11-16 2016-11-16 一种用于识别供应链中核心企业的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611010102.7A CN106504084A (zh) 2016-11-16 2016-11-16 一种用于识别供应链中核心企业的方法及系统

Publications (1)

Publication Number Publication Date
CN106504084A true CN106504084A (zh) 2017-03-15

Family

ID=58324764

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611010102.7A Pending CN106504084A (zh) 2016-11-16 2016-11-16 一种用于识别供应链中核心企业的方法及系统

Country Status (1)

Country Link
CN (1) CN106504084A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107248023A (zh) * 2017-05-16 2017-10-13 中国民生银行股份有限公司 一种对标企业名单的筛选方法和装置
CN111382843A (zh) * 2020-03-06 2020-07-07 浙江网商银行股份有限公司 企业上下游关系识别模型建立、关系挖掘的方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110161089A1 (en) * 2009-12-30 2011-06-30 National Taiwan University Of Science And Technology Method for patent valuation and computer-readable storage medium
CN102331987A (zh) * 2010-07-12 2012-01-25 管中徽 专利数据挖掘系统及方法
CN103383767A (zh) * 2013-07-12 2013-11-06 西安交通大学 基于纳税人利益关联网络模型的偷漏税关联企业识别方法
CN104156905A (zh) * 2014-08-15 2014-11-19 西安交通大学 一种基于纳税人利益关联网络的重点监控企业评估方法
CN105550191A (zh) * 2015-07-10 2016-05-04 成都信息工程大学 一种多层网络节点重要性排序的方法
CN105574761A (zh) * 2015-12-11 2016-05-11 西安交通大学 一种基于Spark的纳税人利益关联网络并行生成方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110161089A1 (en) * 2009-12-30 2011-06-30 National Taiwan University Of Science And Technology Method for patent valuation and computer-readable storage medium
CN102331987A (zh) * 2010-07-12 2012-01-25 管中徽 专利数据挖掘系统及方法
CN103383767A (zh) * 2013-07-12 2013-11-06 西安交通大学 基于纳税人利益关联网络模型的偷漏税关联企业识别方法
CN104156905A (zh) * 2014-08-15 2014-11-19 西安交通大学 一种基于纳税人利益关联网络的重点监控企业评估方法
CN105550191A (zh) * 2015-07-10 2016-05-04 成都信息工程大学 一种多层网络节点重要性排序的方法
CN105574761A (zh) * 2015-12-11 2016-05-11 西安交通大学 一种基于Spark的纳税人利益关联网络并行生成方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
任晓龙等: "网络重要节点排序方法综述", 《中国科学》 *
林标扬: "《系统生物学》", 30 June 2012 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107248023A (zh) * 2017-05-16 2017-10-13 中国民生银行股份有限公司 一种对标企业名单的筛选方法和装置
CN107248023B (zh) * 2017-05-16 2020-09-25 中国民生银行股份有限公司 一种对标企业名单的筛选方法和装置
CN111382843A (zh) * 2020-03-06 2020-07-07 浙江网商银行股份有限公司 企业上下游关系识别模型建立、关系挖掘的方法及装置
CN111382843B (zh) * 2020-03-06 2023-10-20 浙江网商银行股份有限公司 企业上下游关系识别模型建立、关系挖掘的方法及装置

Similar Documents

Publication Publication Date Title
CN104915879B (zh) 基于金融数据的社会关系挖掘的方法及装置
Markose et al. ‘Too interconnected to fail’financial network of US CDS market: Topological fragility and systemic risk
CN107832964A (zh) 银行客户关系圈分析方法及系统
CN107506941A (zh) 一种基于大数据技术的建筑施工企业信用评价方法和系统
Korniyenko et al. Evolution of the global financial network and contagion: A new approach
Long et al. A complex network for studying the transmission mechanisms in stock market
CN103544429A (zh) 用于安全性信息交互的异常检测装置及方法
CN112053061A (zh) 围串标行为识别方法、装置、电子设备和存储介质
CN108492001A (zh) 一种用于担保贷款网络风险管理的方法
CN108428200A (zh) 一种基于案例推理的电商领域专利侵权判定系统及判定方法
CN112884590A (zh) 基于机器学习算法的电网企业融资决策方法
CN106504084A (zh) 一种用于识别供应链中核心企业的方法及系统
Faggini et al. Crises in economic complex networks: Black swans or dragon kings?
Yang et al. Macroeconomic impacts of Chinese currency appreciation on China and the Rest of World: A global CGE analysis
CN108537653A (zh) 一种用于担保网络贷款中欺诈模式检测的方法
CN102331987A (zh) 专利数据挖掘系统及方法
CN110298759A (zh) 一种基金诊断方法、装置及计算机可读存储介质
CN109977131A (zh) 一种房型匹配系统
CN109636244A (zh) 企业评分模型构建方法、企业评分方法和装置
KR100601069B1 (ko) 권리의 유통가치 평가 장치
Wu et al. The BP neural network with adam optimizer for predicting audit opinions of listed companies.
CN110866694A (zh) 一种电网建设项目财务评价系统及其方法
CN112950350B (zh) 一种基于机器学习的贷款产品推荐方法及系统
Li et al. Identification of Enterprise Financial Risk Based on Clustering Algorithm
US20050246257A1 (en) Estimating fees for advisors to investment banking deals and analyzing market trends in investment banking

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170315