CN114201663B - 一种基于标签传播的集团客户挖掘方法、装置和电子设备 - Google Patents
一种基于标签传播的集团客户挖掘方法、装置和电子设备 Download PDFInfo
- Publication number
- CN114201663B CN114201663B CN202110834692.XA CN202110834692A CN114201663B CN 114201663 B CN114201663 B CN 114201663B CN 202110834692 A CN202110834692 A CN 202110834692A CN 114201663 B CN114201663 B CN 114201663B
- Authority
- CN
- China
- Prior art keywords
- enterprises
- enterprise
- stock control
- label
- shareholders
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000005065 mining Methods 0.000 title claims abstract description 31
- 230000009191 jumping Effects 0.000 claims description 6
- 238000011835 investigation Methods 0.000 claims description 5
- 238000002372 labelling Methods 0.000 claims description 5
- 230000001105 regulatory effect Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 abstract description 9
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000001276 controlling effect Effects 0.000 description 3
- 238000012937 correction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 235000013162 Cocos nucifera Nutrition 0.000 description 1
- 244000060011 Cocos nucifera Species 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Primary Health Care (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于标签传播的集团客户挖掘方法、装置和电子设备。该方法中,首先构建网络图;然后搜索符合第一预设规则的企业,并采用独立的标签标记该企业;再然后以标记的企业为根节点,搜索子节点企业,并利用父节点企业的标签标记子节点企业;之后,对于符合第二预设规则的企业进行标记;最后对环路中的企业进行标记,至所述网络图中标签的数量不变时停止;标记同一标签的企业为同一集团客户。该方法中,基于构建的企业控股关系网络图,按照一定的方法控制标签传播的路径,挖掘得到标记为同一标签的集团客户。本发明提供的方法简便可行、参数少、稳定,可满足实际业务场景中对于准确率高的需求,而且应用范围广泛。
Description
技术领域
本发明涉及金融数据处理技术领域,尤其涉及一种基于标签传播的集团客户挖掘方法、装置和电子设备。
背景技术
随着科技的进步,如今在现实生活中,许多重要的数据都以网络图的形式存在。网络图是由节点与边构成的,表示节点对象及其相互间的关联。如今,网络图是最常用的数据结构之一,比如企业间构成的资金关系网络,学术论文间构成的引文网络,社交用户间构成的社交网络等等。对于不同类型的网络图,节点与边表示不同的含义。从网络中挖掘社区结构具有非常重要的研究意义,通过对社区的划分可以更深入地理解网络,迅速区分存在强关联性的节点群。比如在企业关联关系网络中,集团企业的挖掘可以确立企业风险的传播范围,可以帮助银行客户经理更准确的分析潜在关联的企业。
目前,经过多年的发展,已经出现了许多种社区发现算法,并在不同的应用场景下取得了较好的效果。从最初的非重叠社区划分算法到近年来对重叠社区的挖掘,研究者们对复杂网络的社区挖掘问题分析的越来越透彻。例如,Newman和Girvan在2004年提出了模块度的概念,Vincent等人在2008年提出了Fast-Unfolding算法。Gregory在2010年提出的COPRA算法。然而,目前的社区发现算法依然存在着结果不稳定的弊端,需要设置额外参数来进行修正,而这种方法对于有较高准确率需求的场景适用性很差。
发明内容
为了解决现有技术中存在的问题,本发明提供了如下技术方案。
本发明一方面提供了一种基于标签传播的集团客户挖掘方法,包括:
S101,获取企业控股关系数据并构建网络图;
S102,搜索所述网络图中连边控股比例符合第一预设规则的企业,并采用独立的标签标记该企业;
S103,以采用独立的标签标记的企业为根节点,搜索连边控股比例大于50%的子节点企业,并利用父节点企业的标签标记子节点企业;
S104,若未标记标签的企业的股东对该企业的控股关系符合第二预设规则,则按照第二预设规则规定的标签标记该企业;
S105,若多个未标记标签的企业形成环路,则采用独立的标签标记环路中连边控股比例相对最大的企业或环路中的所有企业,并忽略该被标记企业与其股东之间的关系,跳转至S103;
S106,重复步骤S105至所述网络图中标签的数量不变时停止;标记同一标签的企业为同一集团客户。
优选地,所述获取企业控股关系数据并构建网络图包括:
从工商、征信、wind数据库及银行系统获取企业控股关系数据,所述数据包含行内外企业间的控股关系;
将企业作为节点、控股关系作为边,构建网络图。
优选地,S102中,所述第一预设规则包括:入度为零或父节点控股比例之和小于预设值。
优选地,S103中,所述搜索连边控股比例大于50%的子节点企业包括:
使用广度优先搜索方法搜索连边控股比例大于预设值的子节点企业。
优选地,S104中,所述第二预设规则包括:
若企业的未知股东的控股比例大于有标签股东的最大控股比例与无标签股东控股比例之和,则采用独立的标签标记该企业,并跳转至S103。
优选地,S104中,所述第二预设规则包括:
若企业的所有股东均进行了标签标记,则以控股比例最大的标签标记该企业。
优选地,S104中,所述第二预设规则包括:
若有标签标记股东的最大控股比例大于有标签标记股东的第二大控股比例与无标签标记股东控股比例之和,且有标签标记股东的最大控股比例大于等于未知股东的控股比例,则以控股比例最大的有标签标记股东的标签标记该企业。
优选地,S104中,所述第二预设规则包括:
查找企业除控股比例最大的有标签标记股东外,剩余的有标签标记股东到无标签标记股东的路径,如果存在,则将无标签标记股东的控股比例添加至路径中有标签标记股东的控股比例中,然后,若初始的有标签标记股东的最大控股比例大于其余所有股东的控股比例,则以初始的最大控股比例的有标签标记股东的标签标记该企业。
本发明第二方面提供了一种基于标签传播的集团客户挖掘装置,包括:
网络图构建模块,用于获取企业控股关系数据并构建网络图;
第一企业标记模块,用于搜索所述网络图中连边控股比例符合第一预设规则的企业,并采用独立的标签标记该企业;
第二企业标记模块,用于以采用独立的标签标记的企业为根节点,搜索连边控股比例大于50%的子节点企业,并利用父节点企业的标签标记子节点企业;
第三企业标记模块,用于若未标记标签的企业的股东对该企业的控股关系符合第二预设规则,则按照第二预设规则规定的标签标记该企业;
第四企业标记模块,用于若多个未标记标签的企业形成环路,则采用独立的标签标记环路中连边控股比例相对最大的企业或环路中的所有企业,并忽略该被标记企业与其股东之间的关系,跳转至所述第二企业标记模块;
第五企业标记模块,用于在第四企业标记模块中重复操作,至所述网络图中标签的数量不变时停止;标记同一标签的企业为同一集团客户。
本发明第三方面还提供了一种电子设备,包括处理器和与所述处理器连接的存储器,所述存储器存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行上述的方法。
本发明的有益效果是:本发明提供的基于标签传播的集团客户挖掘方法、装置和电子设备,首先构建网络图;然后搜索符合第一预设规则的企业,并采用独立的标签标记该企业;再然后以独立标签标记的企业为根节点,搜索连边控股比例大于50%的子节点企业,并利用父节点企业的标签标记子节点企业;之后,若未标记标签的企业的股东对该企业的控股关系符合第二预设规则,则按照第二预设规则规定的标签标记该企业;最后若多个未标记标签的企业形成环路,则采用独立的标签标记环路中连边控股比例相对最大的企业或环路中的所有企业,并忽略该被标记企业与其股东之间的关系,跳转至上述步骤:以独立标签标记的企业为根节点,搜索连边控股比例大于50%的子节点企业,并利用父节点企业的标签标记子节点企业,至所述网络图中标签的数量不变时停止搜索;标记同一标签的企业为同一集团客户。该方法中,基于构建企业控股关系网络图,按照一定的方法控制标签传播的路径,挖掘得到标记为同一标签的集团客户。本发明提供的方法简便可行、参数少、稳定,可满足实际业务场景中对于准确率高的需求,而且应用范围广泛,可以在多种类型的金融机构中应用,比如商业银行用于潜在集团预警、辅助贷款审查等等。
附图说明
图1为本发明所述基于标签传播的集团客户挖掘方法流程示意图;
图2为本发明所述利用标签标记企业的前半程流程示意图;
图3为本发明所述利用标签标记企业的后半程流程示意图;
图4为本发明所述利用标签标记企业后剩余的未标记企业示例示意图;
图5为本发明所述基于标签传播的集团客户挖掘装置示意图。
具体实施方式
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。
本发明提供的方法可以在如下的终端环境中实施,该终端可以包括一个或多个如下部件:处理器、存储器和显示屏。其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行以实现下述实施例所述的方法。
处理器可以包括一个或者多个处理核心。处理器利用各种接口和线路连接整个终端内的各个部分,通过运行或执行存储在存储器内的指令、程序、代码集或指令集,以及调用存储在存储器内的数据,执行终端的各种功能和处理数据。
存储器可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory,ROM)。存储器可用于存储指令、程序、代码、代码集或指令。
显示屏用于显示各个应用程序的用户界面。
除此之外,本领域技术人员可以理解,上述终端的结构并不构成对终端的限定,终端可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。比如,终端中还包括射频电路、输入单元、传感器、音频电路、电源等部件,在此不再赘述。
实施例一
如图1所示,本发明实施例提供了一种基于标签传播的集团客户挖掘方法,包括:
S101,获取企业控股关系数据并构建网络图;
S102,搜索所述网络图中连边控股比例符合第一预设规则的企业,并采用独立的标签标记该企业;
S103,以采用独立的标签标记的企业为根节点,搜索连边控股比例大于50%的子节点企业,并利用父节点企业的标签标记子节点企业;
S104,若未标记标签的企业的股东对该企业的控股关系符合第二预设规则,则按照第二预设规则规定的标签标记该企业;
S105,若多个未标记标签的企业形成环路,则采用独立的标签标记环路中连边控股比例相对最大的企业或环路中的所有企业,并忽略该被标记企业与其股东之间的关系,跳转至S103,至所述网络图中标签的数量不变时停止搜索;标记同一标签的企业为同一集团客户。
上述方法中,可以依据企业间的控股比例数据,按照控股比例从大到小的顺序依次对各企业进行标签标记,从而使得网络图中的大部分企业能够利用多个不同的独立标签进行标记,其中,标记为同一标签的企业为同一集团客户,从而实现集团客户的挖掘。这种根据控股数据,通过标签标记实现集团客户挖掘的方法,算法简单,易于操作,而且无需额外设定参数对结果进行矫正,得到的结果也更加稳定,适用于具有较高准确率需求的场景。
上述方法,在实施过程中,需要输入企业控股关系网络图,该网络图可以根据企业控股关系数据构建而得。
执行步骤S101,具体可以包括:
从工商、征信、wind数据库及银行系统获取企业控股关系数据,所述数据包含行内外企业间的控股关系;
将企业作为节点、控股关系作为边,构建网络图。
其中,比如,可以从工商系统获取到企业的如下数据:股权、高管任职、法人对外任职和投资、企业基本信息等;可以从Wind(万德)数据库获取到企业的如下数据:上市公司十大股东、财报、股票日价等;可以从征信系统获取到企业的如下数据:高管、法人、股权、担保信息等;可以从银监会获取到企业的如下数据:高管、法人、股权、担保圈信息等;可以从内部系统获取到如下数据:担保、交易信息等。
本发明实施例中,可以利用上述数据,采用规则与机器学习算法分析企业间关联关系,并将企业作为节点、控股关系作为边,构建得到网络图。
执行步骤S102,搜索所述网络图中连边控股比例符合第一预设规则的企业,并采用独立的标签标记该企业。
其中,所述第一预设规则包括:入度为零或父节点控股比例之和小于预设值。作为一个实施例,预设值可以为50%,父节点控股比例之和小于50%,在网络图中连边控股比例入度为零或父节点控股比例之和小于50%的企业采用独立的标签进行标记。此类企业由于控股比例很高,因此一般在企业集团中具有控制作用,也可以将该类企业称为控制企业。
在实际实施过程中,在网络图中连边控股比例入度为零或父节点控股比例之和小于50%的企业可能有多个,则为搜索得到的每个企业分别设置独立的标签,并利用该独立的标签对网络图中的企业进行标记。从而得到多个标记有独立标签的控制企业。
在本发明的一个优选实施例中,经过搜索得到网络图中连边控股比例入度为零或父节点控股比例之和小于预设值的企业之后,还可以根据行业规定对其中不符合要求的企业进行删除(实际操作中,可以对该企业进行忽略,而不直接在网络图中将该企业对应的节点进行删除操作),如果这些企业有子企业,而且子企业符合行业规定的要求,可以按照本发明的方法对子企业进行标签标记。也可以在执行步骤S102之前,根据行业规定对其中不符合要求的企业进行删除,然后再执行步骤S102,确保执行步骤S102之后,搜索得到的企业均为符合行业规定的企业。
执行步骤S103,以采用独立的标签标记的企业为根节点,搜索连边控股比例大于50%的子节点企业,并利用父节点企业的标签标记子节点企业。
上述方法中,选择父节点企业对子节点企业的连边控股比例大于50%,可以保证只存在一个父节点企业,而不会出现两个以上的父节点企业,从而出现无法标记的情况。其中,可以使用广度优先搜索方法搜索连边控股比例大于预设值的子节点企业。
在实际实施过程中,子节点可以包括多个级别。对于每个级别的子节点企业,都利用父节点企业的标签进行标记,因此,所有的子节点都以根节点的控制企业的标签进行标记。从而实现了控制企业的标签传播,而且,通过控制企业的标签传播实现了对子节点企业的挖掘。由于控制企业对搜索到的子节点企业的控股比例大于50%,因此,这些子节点企业是集团中的重要成员,可以称为核心企业。
通过执行步骤S103,将步骤S102中控制企业的标签传播至核心企业。即处于同一集团中的控制企业和核心企业具有相同的标签。由于控制企业可能存在多个,因此,可以得到多个企业集合,每个集合中的节点具有相同的标记,每个集合为一个集团。
执行步骤S104,若未标记标签的企业的股东对该企业的控股关系符合第二预设规则,则按照第二预设规则规定的标签标记该企业。
采用步骤S102和S103确定并标记了控制企业和核心企业后,对于网络图中未标记标签的企业进行标签标记。具体的方法为:
首先,确定企业的股东。经过分析,企业的股东可以包括三种类型:有标签股东、无标签股东和未知股东。其中,企业的有标签股东和无标签股东对企业的控股比例之和不足100%时,占有剩余控股比例的股东为未知股东。本发明实施例中,可以根据有标签股东和无标签股东的控股比例之和判断未知股东是否存在,不会出现在网络图中,网络图中只显示有标签股东和无标签股东。
然后,判断上述三种类型的股东对企业的控股关系是否符合第二预设规则,如果符合第二预设规则,则按照第二预设规则规定的标签标记该企业。具体的,可以包括如下几种情况:
其一,若企业的未知股东的控股比例大于有标签股东的最大控股比例与无标签股东控股比例之和,则采用独立的标签标记该企业,并跳转至S103。作为一个实施例,比如,有标签股东的控股比例分别为5%、5%和10%,无标签股东控股比例为20%,那么通过计算可知未知股东的控股比例为60%,大于有标签股东的最大控股比例10%和与无标签股东控股比例20%的和30%,因此,为企业设置独立的标签并采用该独立标签进行标记。其中,所谓独立的标签是指不同于已有的标签。该企业采用独立的标签进行标记之后,跳转至步骤S103,并顺序执行步骤S103-S105。
其二,若企业的所有股东均进行了标签标记,则以控股比例最大的标签标记该企业。作为一个实施例,比如,企业S具有三个股东并分别标记为标签A、B、C,其控股比例分别为30%、30%、40%,可知,其中最大的控股比例40%的标签为C,则利用标签C对企业进行标记。从而,企业属于标记为标签C的集团企业。又比如,S企业具有三个股东分别标记标签为A,A,B,对应的控股比例分别为30%,30%,40%,这里有两个股东的标签为A,则标签A的控股比例为两个股东控股比例之和60%,则最大的标签为A,利用标签为A对企业S进行标记,S属于标签A的集团企业。
其三,若有标签标记股东的最大控股比例大于有标签标记股东的第二大控股比例与无标签标记股东控股比例之和,且有标签标记股东的最大控股比例大于等于未知股东的控股比例,则以控股比例最大的有标签标记股东的标签标记该企业。作为一个实施例,比如,企业S具有三个有标签股东并分别标记为标签A、B、C,其控股比例分别为10%、50%、5%,具有一个无标签股东控股比例为15%,可知企业S还具有未知股东控股比例为20%,则有标签标记股东的最大控股比例为50%,有标签标记股东的第二大控股比例为10%,50%大于10%与无标签股东控股比例15%之和,且50%大于未知股东的控股比例20%,因此,以控股比例最大的有标签标记股东的标签B标记该企业,即企业标记为标签B,企业属于标记为标签B的集团企业。
其四,查找企业除控股比例最大的有标签标记股东外,剩余的有标签标记股东到无标签标记股东的路径,如果存在,则将无标签标记股东的控股比例添加至路径中有标签标记股东的控股比例中,然后,若初始的有标签标记股东的最大控股比例大于其余所有股东的控股比例,则以初始的最大控股比例的有标签标记股东的标签标记该企业。作为一个实施例,比如,企业S具有三个有标签股东并分别标记为标签A、B、C,其控股比例分别为10%、50%、5%,具有一个无标签股东控股比例为15%,可知企业S还具有未知股东控股比例为20%。且标记标签A的股东对无标签股东的控股比例为15%,即存在有标签标记股东到无标签标记股东的路径。则将无标签股东控股比例15%添加至标记标签A的股东控股比例中,得到标记标签A的股东控股比例25%,且在添加控股比例之前初始的有标签标记股东的最大控股比例50%大于剩余的有标签标记股东的控股比例25%、5%以及未知股东的控股比例20%,则以初始的最大控股比例的有标签标记股东的标签B标记该企业,因此,企业属于标记为标签B的集团企业。
执行完步骤S102-S104之后,对网络图中的大部分节点企业均进行了标签标记,可如图2所示,对于其中尚未进行标记的节点企业执行步骤S105,具体为:
若多个未标记标签的企业形成环路,则采用独立的标签标记环路中连边控股比例相对最大的企业或环路中的所有企业,并忽略该被标记企业与其股东之间的关系,跳转至S103。
其中,多个未标记标签的企业形成环路,作为一个实施例,比如查找企业S的控股企业为X,再进行迭代查找企业X的企业控股企业为Y……如果Y等于S,则查找到一条二级环路,同理可查找到三级、四级等多级环路,如图3所示。
对于环路中连边控股比例相对最大的企业,可以认为是控制企业,如:X控股Y60%,Y控股Z 80%,Z控股X 90%。则认为Z是环路中的控制企业。确定环路中的控制企业后,为该企业设置独立的标签,并采用该独立的标签对其进行标记。如图3所示的环路中,企业B的连边控股比例相对最大,因此,认为其为控制企业,对其设置独立的标签并进行标记。在实际应用过程中,如果环路中的所有企业的连边控股比例都相差不大,几乎无法找到相对最大的控股比例,则还可以将环路中的所有企业均认为是控制企业,并分别为其设置独立的标签进行标记。
确定了环路中的控制企业并采用独立的标签进行标记后,则可以忽略该被标记企业与其股东之间的关系,并跳转至S103,执行步骤S103-S105。
执行步骤S106,重复步骤S105至所述网络图中标签的数量不变时停止;标记同一标签的企业为同一集团客户。
其中,多次重复步骤S105之后剩余的无法进行标记的企业一般为复杂循环控股且控股比例大致相当的情况。可如图4所示。
在本发明的一个具体实施例中,采用本发明提供的方法,根据输入的企业控股关联关系数据,构建企业控股关联关系网络图,统计该网络图中包含有1191759个节点,1547104条边。执行步骤S102,找到386606个控制企业节点。执行步骤S103后,剩余220442个节点未标记。执行步骤S104后,剩余12960个节点未标记。执行步骤S105后,剩余2752个节点未标记。执行步骤S106后,剩余45个节点未标记。
采用本发明提供的方法,算法简单,可以比较容易的确定出属于同一集团中的企业。而且无需设置参数进行校正,结果比较稳定,可满足实际业务场景中对于准确率高的需求,而且可以在多种类型的金融机构中应用,比如商业银行用于潜在集团预警、辅助贷款审查等,具有良好的应用前景。
实施例二
如图5所示,本发明的另一方面还包括和前述方法流程完全对应一致的功能模块架构,即本发明实施例还提供了一种基于标签传播的集团客户挖掘装置,包括:
网络图构建模块201,用于获取企业控股关系数据并构建网络图;
第一企业标记模块202,用于搜索所述网络图中连边控股比例符合第一预设规则的企业,并采用独立的标签标记该企业;
第二企业标记模块203,用于以采用独立的标签标记的企业为根节点,搜索连边控股比例大于50%的子节点企业,并利用父节点企业的标签标记子节点企业;
第三企业标记模块204,用于若未标记标签的企业的股东对该企业的控股关系符合第二预设规则,则按照第二预设规则规定的标签标记该企业;
第四企业标记模块205,用于若多个未标记标签的企业形成环路,则采用独立的标签标记环路中连边控股比例相对最大的企业或环路中的所有企业,并忽略该被标记企业与其股东之间的关系,跳转至所述第二企业标记模块中;
第五企业标记模块206,用于重复在第四企业标记模块中操作,至所述网络图中标签的数量不变时停止;标记同一标签的企业为同一集团客户。
其中,在所述网络图构建模块中,所述获取企业控股关系数据并构建网络图包括:
从工商、征信、wind数据库及银行系统获取企业控股关系数据,所述数据包含行内外企业间的控股关系;
将企业作为节点、控股关系作为边,构建网络图。
进一步地,在所述第一企业标记模块中,所述第一预设规则包括:入度为零或父节点控股比例之和小于预设值。
进一步地,在所述第二企业标记模块中,所述搜索连边控股比例大于50%的子节点企业包括:
使用广度优先搜索方法搜索连边控股比例大于预设值的子节点企业。
进一步地,在所述第三企业标记模块中,所述第二预设规则包括:
若企业的未知股东的控股比例大于有标签股东的最大控股比例与无标签股东控股比例之和,则采用独立的标签标记该企业,并跳转至第二企业标记模块中。
进一步地,在所述第三企业标记模块中,所述第二预设规则包括:
若企业的所有股东均进行了标签标记,则以控股比例最大的标签标记该企业。
进一步地,在所述第三企业标记模块中,所述第二预设规则包括:
若有标签标记股东的最大控股比例大于有标签标记股东的第二大控股比例与无标签标记股东控股比例之和,且有标签标记股东的最大控股比例大于等于未知股东的控股比例,则以控股比例最大的有标签标记股东的标签标记该企业。
进一步地,在所述第三企业标记模块中,所述第二预设规则包括:
查找企业除控股比例最大的有标签标记股东外,剩余的有标签标记股东到无标签标记股东的路径,如果存在,则将无标签标记股东的控股比例添加至路径中有标签标记股东的控股比例中,然后,若初始的有标签标记股东的最大控股比例大于其余所有股东的控股比例,则以初始的最大控股比例的有标签标记股东的标签标记该企业。
该装置可通过上述实施例一提供的基于标签传播的集团客户挖掘方法实现,具体的实现方法可参见实施例一中的描述,在此不再赘述。
本发明还提供了一种存储器,存储有多条指令,所述指令用于实现如实施例一所述的方法。
本发明还提供了一种电子设备,包括处理器和与所述处理器连接的存储器,所述存储器存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行如实施例一所述的方法。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种基于标签传播的集团客户挖掘方法,其特征在于,包括:
S101,获取企业控股关系数据并构建网络图;
S102,搜索所述网络图中连边控股比例符合第一预设规则的企业,并采用独立的标签标记该企业;
S103,以采用独立的标签标记的企业为根节点,搜索连边控股比例大于50%的子节点企业,并利用父节点企业的标签标记子节点企业;
S104,若未标记标签的企业的股东对该企业的控股关系符合第二预设规则,则按照第二预设规则规定的标签标记该企业;
S105,若多个未标记标签的企业形成环路,则采用独立的标签标记环路中连边控股比例相对最大的企业或环路中的所有企业,并忽略该被标记企业与其股东之间的关系,跳转至S103,至所述网络图中标签的数量不变时停止;标记同一标签的企业为同一集团客户。
2.如权利要求1所述的基于标签传播的集团客户挖掘方法,其特征在于,所述获取企业控股关系数据并构建网络图包括:
从工商、征信、wind数据库及银行系统获取企业控股关系数据,所述数据包含银行系统内外企业间的控股关系;
将企业作为节点、控股关系作为边,构建网络图。
3.如权利要求1所述的基于标签传播的集团客户挖掘方法,其特征在于,S102中,所述第一预设规则包括:入度为零或父节点控股比例之和小于预设值。
4.如权利要求1所述的基于标签传播的集团客户挖掘方法,其特征在于,S103中,所述搜索连边控股比例大于50%的子节点企业包括:
使用广度优先搜索方法搜索连边控股比例大于50%的子节点企业。
5.如权利要求1所述的基于标签传播的集团客户挖掘方法,其特征在于,S104中,所述第二预设规则包括:
若企业的未知股东的控股比例大于有标签股东的最大控股比例与无标签股东控股比例之和,则采用独立的标签标记该企业,并跳转至S103。
6.如权利要求1所述的基于标签传播的集团客户挖掘方法,其特征在于,S104中,所述第二预设规则包括:
若企业的所有股东均进行了标签标记,则以控股比例最大的标签标记该企业。
7.如权利要求1所述的基于标签传播的集团客户挖掘方法,其特征在于,S104中,所述第二预设规则包括:
若有标签标记股东的最大控股比例大于有标签标记股东的第二大控股比例与无标签标记股东控股比例之和,且有标签标记股东的最大控股比例大于等于未知股东的控股比例,则以控股比例最大的有标签标记股东的标签标记该企业。
8.如权利要求1所述的基于标签传播的集团客户挖掘方法,其特征在于,S104中,所述第二预设规则包括:
查找企业除控股比例最大的有标签标记股东外,剩余的有标签标记股东到无标签标记股东的路径,如果存在,则将无标签标记股东的控股比例添加至路径中有标签标记股东的控股比例中,然后,若初始的有标签标记股东的最大控股比例大于其余所有股东的控股比例,则以初始的最大控股比例的有标签标记股东的标签标记该企业。
9.一种基于标签传播的集团客户挖掘装置,其特征在于,包括:
网络图构建模块,用于获取企业控股关系数据并构建网络图;
第一企业标记模块,用于搜索所述网络图中连边控股比例符合第一预设规则的企业,并采用独立的标签标记该企业;
第二企业标记模块,用于以采用独立的标签标记的企业为根节点,搜索连边控股比例大于50%的子节点企业,并利用父节点企业的标签标记子节点企业;
第三企业标记模块,用于若未标记标签的企业的股东对该企业的控股关系符合第二预设规则,则按照第二预设规则规定的标签标记该企业;
第四企业标记模块,用于若多个未标记标签的企业形成环路,则采用独立的标签标记环路中连边控股比例相对最大的企业或环路中的所有企业,并忽略该被标记企业与其股东之间的关系,跳转至所述第二企业标记模块,至所述网络图中标签的数量不变时停止;标记同一标签的企业为同一集团客户。
10.一种电子设备,其特征在于,包括处理器和与所述处理器连接的存储器,所述存储器存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行如权利要求1-8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110834692.XA CN114201663B (zh) | 2021-07-23 | 2021-07-23 | 一种基于标签传播的集团客户挖掘方法、装置和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110834692.XA CN114201663B (zh) | 2021-07-23 | 2021-07-23 | 一种基于标签传播的集团客户挖掘方法、装置和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114201663A CN114201663A (zh) | 2022-03-18 |
CN114201663B true CN114201663B (zh) | 2022-09-02 |
Family
ID=80645838
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110834692.XA Active CN114201663B (zh) | 2021-07-23 | 2021-07-23 | 一种基于标签传播的集团客户挖掘方法、装置和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114201663B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115618119A (zh) * | 2022-12-16 | 2023-01-17 | 深圳市明源云采购科技有限公司 | 企业关系分析方法、装置、设备及可读存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106097090A (zh) * | 2016-06-22 | 2016-11-09 | 西安交通大学 | 一种基于图理论的纳税人利益关联团体识别方法 |
CN110807697A (zh) * | 2019-10-31 | 2020-02-18 | 支付宝(杭州)信息技术有限公司 | 股份公司的实际控制人的确定方法、装置及设备 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020156638A1 (en) * | 2001-02-16 | 2002-10-24 | Guedri Mark G. | Process for identifying shareholders of privately owned businesses who have acquired a threshold new wealth resultant from the sale of that private business |
US7933946B2 (en) * | 2007-06-22 | 2011-04-26 | Microsoft Corporation | Detecting data propagation in a distributed system |
CN105045907B (zh) * | 2015-08-10 | 2018-03-09 | 北京工业大学 | 一种用于个性化社会图像推荐的视觉注意‑标签‑用户兴趣树的构建方法 |
CN109255054B (zh) * | 2017-07-14 | 2021-12-10 | 元素征信有限责任公司 | 一种基于关系权重的企业图谱中的社区发现方法 |
CN108763507A (zh) * | 2018-05-30 | 2018-11-06 | 北京百度网讯科技有限公司 | 企业关联关系挖掘方法和装置 |
CN110232078B (zh) * | 2019-04-26 | 2021-03-30 | 上海合合信息科技股份有限公司 | 一种企业集团关系获取方法及系统 |
CN110489599A (zh) * | 2019-07-08 | 2019-11-22 | 深圳壹账通智能科技有限公司 | 企业关系图谱构建方法、装置、计算机设备以及存储介质 |
CN111104568B (zh) * | 2019-12-17 | 2023-06-09 | 深圳前海环融联易信息科技服务有限公司 | 企业股权关系深度搜索方法、装置、计算机设备及存储介质 |
CN111177150A (zh) * | 2019-12-17 | 2020-05-19 | 北京明略软件系统有限公司 | 一种识别集团族谱的方法及系统 |
CN111414485B (zh) * | 2020-03-17 | 2022-09-30 | 北京恒通慧源大数据技术有限公司 | 企业客户关联关系图谱构建方法、装置、存储器和计算机 |
CN111382956A (zh) * | 2020-03-27 | 2020-07-07 | 中国建设银行股份有限公司 | 企业集团关系的挖掘方法和装置 |
CN111738864B (zh) * | 2020-08-14 | 2020-12-18 | 支付宝(杭州)信息技术有限公司 | 一种经营实体所属集团的识别方法、装置及设备 |
-
2021
- 2021-07-23 CN CN202110834692.XA patent/CN114201663B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106097090A (zh) * | 2016-06-22 | 2016-11-09 | 西安交通大学 | 一种基于图理论的纳税人利益关联团体识别方法 |
CN110807697A (zh) * | 2019-10-31 | 2020-02-18 | 支付宝(杭州)信息技术有限公司 | 股份公司的实际控制人的确定方法、装置及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN114201663A (zh) | 2022-03-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shachter et al. | Decision making using probabilistic inference methods | |
CN106067094A (zh) | 一种动态评估方法及系统 | |
CN109543925A (zh) | 基于机器学习的风险预测方法、装置、计算机设备和存储介质 | |
JP4820408B2 (ja) | 属性エンジン | |
CN109308258A (zh) | 测试数据的构造方法、装置、计算机设备和存储介质 | |
CN110297990A (zh) | 众包营销微博与水军的联合检测方法及系统 | |
CN111061679A (zh) | 一种基于rete和drools规则的科技创新政策速配的方法和系统 | |
CN114201663B (zh) | 一种基于标签传播的集团客户挖掘方法、装置和电子设备 | |
US20120330877A1 (en) | Efficient binary protocol marshalling for rule engine sessions | |
CN110648111A (zh) | 基于工作流的审批任务处理方法、装置、电子设备、介质 | |
CN112232754A (zh) | 一种企业数据挖掘方法、装置、设备 | |
CN113282623A (zh) | 数据处理方法及装置 | |
CN114860916A (zh) | 知识检索方法及装置 | |
Orlovskyi et al. | Enterprise architecture modeling support based on data extraction from business process models. | |
CN112906382A (zh) | 基于图神经网络的政策文本多标签标注方法及系统 | |
CN108182496A (zh) | 一种城市互联网开放数据获取处理分析方法 | |
CN116595191A (zh) | 一种交互式低代码知识图谱的构建方法及装置 | |
CN112527402A (zh) | 结算方法以及相关装置 | |
Suresh et al. | Evolutionary algorithms for object-oriented test data generation | |
CN104778606A (zh) | 账户结构数据的处理方法和装置 | |
Te'eni et al. | Systems development of organizational memory: a literature survey | |
CN115098362A (zh) | 页面测试方法、装置、电子设备以及存储介质 | |
CN113868396A (zh) | 基于知识图谱的任务类智能对话构建方法及系统 | |
CN106383863A (zh) | 一种同构子图查询优化方法 | |
CN106067139A (zh) | 一种构建特征数据库的方法、系统和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |