CN111178615A - 一种企业风险识别模型的构建方法及系统 - Google Patents
一种企业风险识别模型的构建方法及系统 Download PDFInfo
- Publication number
- CN111178615A CN111178615A CN201911349097.6A CN201911349097A CN111178615A CN 111178615 A CN111178615 A CN 111178615A CN 201911349097 A CN201911349097 A CN 201911349097A CN 111178615 A CN111178615 A CN 111178615A
- Authority
- CN
- China
- Prior art keywords
- sample
- company
- network
- risk
- serial number
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010276 construction Methods 0.000 title claims description 8
- 238000000034 method Methods 0.000 claims abstract description 41
- 239000013598 vector Substances 0.000 claims abstract description 36
- 238000005065 mining Methods 0.000 claims abstract description 17
- 238000013507 mapping Methods 0.000 claims description 12
- 238000012706 support-vector machine Methods 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 claims description 3
- 238000001228 spectrum Methods 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- Economics (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Game Theory and Decision Science (AREA)
- General Business, Economics & Management (AREA)
- Operations Research (AREA)
- Marketing (AREA)
- Educational Administration (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种企业风险识别模型的构建方法及系统,该方法包括步骤:获取样本公司的关联方网络图谱结构,所述样本公司包括空壳公司和非空壳公司;基于图挖掘算法Structure to Vector对样本公司的网络结构进行编码,获得样本公司网络结构的风险特征;学习获得的风险特征,构建所述企业风险识别模型。本发明系统或方法基于关联方图谱结构特征构造识别模型,数据来源不仅涉及目标企业本身,还涉及其关联方,因此通过本发明构造的识别模型具有更强的识别能力。
Description
技术领域
本发明涉及风险识别技术领域,特别涉及一种企业风险识别模型的构建方法及系统。
背景技术
企业在经营活动中的各种行为,原则上都会受到各种部门的监管,以维护市场的良性发展。例如,通过识别企业是否为空壳公司,可以防止空壳公司参与各种买空卖空事件,进行经济犯罪,且通常资金规模庞大,降低或避免空壳公司威胁金融秩序和经济发展。
当前识别空壳公司工作主要依赖于传统的规则模型,主要利用企业账户的基本信息和交易特征对空壳公司进行排查,比如不同公司的注册地址高度重合、公司账户短期内交易频繁且金额巨大,且与注册资本规模明显不符等特征。并且现阶段识别空壳公司模型的特征,主要提取与目标企业相关的工商信息,例如公司注册资本、公司员工数量、公司商标数量、同一注册地址注册的多家企业等工商信息指标以及资金端交易数据作为空壳公司的特征指标,但是这种方法会造成图结构信息在指标构建过程中被大量丢失,关联方的风险点也没有被很好地捕捉,基于这类指标很难精确地识别空壳公司风险。
发明内容
本发明的目的在于提供一种企业风险识别模型的构建方法及系统,以提高识别准确性及识别效率。
一种企业风险识别模型的构建方法,包括以下步骤:
获取样本公司的关联方网络图谱结构,所述样本公司包括黑样本和白样本;
基于图挖掘算法Structure to Vector对样本公司的网络结构进行编码,获得样本公司网络结构的风险特征;
学习获得的风险特征,构建所述企业风险识别模型。
上述方法基于关联方图谱结构特征构造识别模型,图谱为非结构化数据,且数据来源不仅涉及目标企业本身,还涉及其关联方,因此通过上述方法构造的识别模型具有更强的识别能力,基于该识别模型对目标公司进行风险识别,高效,准确。
上述方法可以用于识别企业的各种风险,例如空壳风险,借贷风险,持续经营风险等,基于不同的应用,所选取的样本不同,例如基于企业空壳风险识别,那么样本包括空壳公司和非空壳公司,即所述黑样本为若干个空壳公司,所述白样本为若干个非空壳公司。
上述方法中,所述基于图挖掘算法Structure to Vector对样本公司的网络结构进行编码,获得样本公司网络结构的风险特征的步骤,包括:将样本公司的网络图谱结构转换为多个关键字典;基于所述关键字典,将样本公司的关联方网络图谱中的各个节点映射为序号符号;统计各个节点的序号符号出现的次数,并将序号符号作为特征,特征的取值即为该序号符号出现的次数,得到以序号符号为特征的向量,即特征向量。
另一方面,本发明实施例同时提供了一种企业风险识别模型的构建系统,包括:
图谱获取模块,用于获取样本公司的关联方网络图谱结构,所述样本公司包括黑样本和白样本;
特征挖掘模块,用于基于图挖掘算法Structure to Vector对样本公司的网络结构进行编码,获得样本公司网络结构的风险特征;
模型生成模块,用于学习获得的风险特征,构建所述企业风险识别模型。
上述系统中,所述特征挖掘模块包括:转换子模块,用于将样本公司的网络图谱结构转换为多个关键字典;映射子模块,用于基于所述关键字典,将样本公司的关联方网络图谱中的各个节点映射为序号符号;挖掘子模块,用于统计各个节点的序号符号出现的次数,并将序号符号作为特征,特征的取值即为该序号符号出现的次数,得到以序号符号为特征的向量,即特征向量。
再一方面,本发明实施例同时提供了一种电子设备,包括:存储器,存储程序指令;处理器,与所述存储器相连接,执行存储器中的程序指令,实现本发明实施例中所述方法中的步骤。
与现有技术相比,通过本发明系统或方法构建的识别模型,具有更强的识别能力,且向识别模型中输入数据即可得出目标公司的预测风险结果,相比于人工进行数据分析,更加快速高效。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为实施例中企业风险识别模型的构建方法的流程图。
图2为利用Structure To Vector将样本公司的关联方网络图谱中的各个节点映射为序号符号的流程图。
图3a-e分别为举例中不同处理后的状态图。
图4为实施例中企业风险识别模型的构建系统的组成框图。
图5为实施例中所述的电子设备的组成框图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本实施例中示意性地提供了一种企业风险识别模型的构建方法,该方法的核心思想是,基于图挖掘算法Structure to Vector对空壳公司及非空壳公司的网络结构进行编码,学习黑样本公司的网络结构的风险特征,再基于该网络结构的风险特征识别目标企业的风险。
更具体地,上述企业风险识别模型的构建方法,包括以下步骤:
S10,通过爬虫技术获取样本公司及其关联方的数据,并运用图谱构建方法搭建关联方网络的图数据库(也就是样本公司的网络图谱结构)。此处的关联方是指与样本公司有关联关系的对象,可能是自然人,也可能是企业,关联关系可以是投资、任职等,直接关联称为一度关联,一度关联基础上的关联称为二度关联,二度关联基础上的关联称为三度关联,以此类推。当然,一般应用中,图谱结构中仅展示四度关联以内的关联方信息。
此处,图数据库至少包含两个数据表,一个数据表(可称之为图谱结构表)中记录样本公司与其关联方的关系,即,该表中的每一条数据代表与样本公司相关的一条关联关系连接,一条数据可以包含以下几个字段:时间戳、企业id、公司姓名、连接关系起点id、起点与样本公司关联度数、起点是否为自然人、起点在公司任职位置(董事、监事、高管)、连接关系终点id、终点与样本公司关联度数、终点是否为自然人。另一个数据表(可称之为公司属性表)中记录公司名称和该公司是否为空壳公司的属性信息。
本步骤中获取的数据是作为样本数据,本实施例中基于具体的企业空壳风险应用,来详细阐述本发明方法,因此此处的样本公司包括空壳公司(黑样本)和非空壳公司(白样本)。
容易理解的,如果直接就有样本公司的关联方网络图谱结构,则无需执行图谱构建的步骤,只需要制作一个公司属性表即可。
S20,基于步骤S10中得到的所述两个数据表,将样本公司的网络图谱结构转换为多个关键字典。
本步骤中是将公司的图谱结构表和公司属性表一起转换为多个关键字典,基于本实施例的应用转换为4个python字典。为了便于描述,分别命名为edge_label,graph_dict,company_summary_dict,degree_dict。edge_label是边的类型信息,一条边表示一种关联关系,比如公司关联方中边有四种标签,法人、高管等等。graph_dict就是关联方数据转过来的图,company_summary_dict是对企业的基本信息进行汇总,包括企业名称、id、关联方数量等等。degree_dict是对各关联方的关联度数进行汇总。S30中除了company_summary_dict用不到,其他三个字典都是需要的,graph_dict就是structure_to_vector的structure,node_label和degree_dict是用来标记structure(也就是graph_dict)的标签与度数信息。
S30,利用Structure To Vector(结构到矢量)算法,将样本公司的关联方网络图谱中的各个节点映射为序号符号,也就是基于步骤S20中得到的python字典,将节点映射为序号符号。
指定node_label、direction(作为有向图时考虑出入边)、depth这几个参数,node_label是节点标签,就是公司的关联方的标签,即该关联方是人还是企业,direction是指节点的边的方向,因为公司的关联方网络图是有向图,该图的每个节点的边有两个指向,要么指向该节点,要么离开该节点,depth是指能够抓取每个节点的几度关联方的信息,即相当于从初始节点往外走几步。
具体地,请参阅图2,Structure To Vector算法的执行过程包括以下步骤:
S301,基于样本公司的关联方网络图谱,针对图谱中的每一个节点(labeling byedge),将邻边标签进行字典排序,然后按照排序将邻边标签依次粘贴到该节点的标签后面,并作为该节点的更新标签。
例如图3a-d所示,图3a中每个节点上的阿拉伯数字即为节点标签node_label,不同的节点的node_label可以相同或不同,这些node_label对于该节点是人还是企业,人标记为1,企业标记为0。图3b就是将节点以及节点的邻边节点标签粘合作为标签赋予该节点,例如图3a左图谱G中编号为5的节点,它有三个邻居节点编号分别为2、3、4,那么就将邻边标签进行字典排序为234,然后将234依次粘贴到5的后面,然后图3a左图谱左上角的这个节点就变为了’5,234’,如图3b中所示。在这一步的操作中,不是把图中节点的标签和其邻居的标签进行粘合,而是将该节点的标签和其邻边的标签(edge_label)粘合,即图3a左图谱左上角的节点有三条邻边,这三条边分别和编号为2,3,4的节点相连,如果这三条邻边也有标签(edge_label),而且标签也为2,3,4,那么粘合的结果也是’5,234’,如果这三条边的标签为其他,比如为A,B,C,那么粘合的结果应该是’5,ABC’,又因为图谱是有方向的(图3a,b,c,d没有方向),所以指定了direction,比如指定的direction为in,那么只能将节点的标签和指向该节点的邻边的标签粘合起来赋予该节点,如果direction为out,那么只能将节点的标签和离开该节点的邻边的标签粘合起来。对于企业关联方图谱,每个节点的标签为人(1)或者企业(0),每个节点的邻边的标签为投资、高管、监事、法人等标签,可以分别用大写字母来表示这些标签,例如投资记为I,高管记为E,监事S,法人L。
S302,将所有节点的标签汇总后进行字典排序,然后将节点的标签映射为序号符号,该序号符号作为该节点的新标签。将标签映射为序号符号时,序号符号依次增大。图3b经过本步骤执行后结果如图3c所示。图3a中已经有1,2,3,4,5这五个标签了,所以图3c对图3b中的标签排序是从序号6开始的。图3d就是将图3c中各标签对应的序号给贴到图上去了。
例如,有三个标签‘1,4’,‘1,32’,‘2,13’,先字典排序,排序结果为‘1,32’,‘1,4’,‘2,13’,那么‘1,32’映射为1,‘1,4’映射为2,‘2,13’映射为3。
S303,根据给定的编码次数(编码次数就是depth,一次循环就表示一次编码),重复以下过程:
i)将上一次给节点打的标签作为当前标签;
ii)对图上的每一个节点,将邻边标签进行字典排序,然后按照排序将邻边标签依次粘贴到该节点的标签后面,作为节该点的更新标签;
iii)将所有节点的更新标签汇总然后字典排序,然后将标签映射为序号字符,将该序号字符作为节点的新标签。
S40,统计各个节点的标签(即编码,也即序号符号)出现的次数,并将这些编码作为特征,特征的取值即为该编码出现的次数,这样就得到了一个以编码为特征的向量,即为图的特征向量。特征向量每一个维度都代表一种编码(即编号)。
如图3e所示,由图3a左图谱G最终得到的特征向量为(2,1,1,1,1,2,0,1,0,1,1,0,1),该特征向量的前面5个取值为原始编码(图3a左图谱G)出现的次数,后面8个取值为映射后对应编码(图3d左图谱G)出现的次数,总共有13个编号,所以特征向量中每一个取值依次为各个编号出现的次数。
S50,利用步骤S40中得到的特征向量对线性支持向量机模型进行训练,得到用于进行空壳公司识别的识别模型。首先利用特征向量计算两两公司之间的内积矩阵,然后将内积矩阵输入dual-LinearSVM(对偶形式的线性支持向量机)进行支持向量机模型训练。
实验中,总样本数2870,黑白样本比例1:2.2。结果分析显示所选特征对空壳公司有较高的辨别能力,100次随机试验模型AUC值0.72。
采用上述方法训练得到的识别模型可以较好地识别企业风险,尤其是企业空壳风险,主要体现在以下几个方面:该方法是基于企业的关联方网络图谱而进行的,企业的关联方网络图谱是非结构化数据,而工商信息和交易数据主要是结构化数据;该方法针对的是空壳公司(黑样本)具有相似的关联方图谱结构,直观上看就是任意的两家空壳公司,他们的关联方图谱结构长得很相似;算法是从隐藏的信息中判断一家公司是否为空壳公司,是根据关联方网络的结构相似性来判断,这个结构相似性是一个整体的特征表现,很难被企业短时间内主观更改,只能随着企业经营的时间逐渐改变。
应用上述识别模型对待识别的目标公司进行空壳风险识别时,方法如下:
步骤1,运用图谱构建方法搭建目标公司的关联方网络图谱。
步骤2,将目标公司的网络图谱结构转换为多个关键字典。
步骤3,利用Structure To Vector算法,将目标公司的关联方网络图谱中的各个节点映射为序号符号,并构建特征向量。
步骤4,将步骤3得到的目标公司的特征向量输入前述训练得到的识别模型中,输出结果即为目标公司为空壳公司的概率,概率大于设定值(例如60%)即可判定为空壳公司,否则判定为非空壳公司。
请参阅图4,本实施例同时给出了上述识别模型的构建系统,包括:
图谱获取模块,用于获取样本公司的关联方网络图谱结构,所述样本公司包括空壳公司和非空壳公司。如果有样本公司的关联方网络图谱结构,则直接提取即可,如果没有,则通过爬虫技术获取样本公司及其关联方的数据,并运用图谱构建方法搭建样本公司的关联方网络图谱结构。
特征挖掘模块,用于基于图挖掘算法Structure to Vector对样本公司的网络结构进行编码,获得样本公司网络结构的风险特征。
模型生成模块,用于学习获得的风险特征,构建所述企业风险识别模型。本实施例中,模型生成模块利用所述特征向量对线性支持向量机模型进行训练,得到所述企业风险识别模型。
其中,特征挖掘模块包括:
转换子模块,用于将样本公司的网络图谱结构转换为多个关键字典;
映射子模块,用于基于所述关键字典,将样本公司的关联方网络图谱中的各个节点映射为序号符号;
挖掘子模块,用于统计各个节点的序号符号出现的次数,并将序号符号作为特征,特征的取值即为该序号符号出现的次数,得到以序号符号为特征的向量,即特征向量。
上述系统中各个模块的执行过程可以参阅前述方法的相应描述,此处不再细述。
需要特别说明的是,上述方法或系统是基于企业空壳风险识别的具体应用而言的,实际上,上述方法或系统可以应用于企业的各种风险识别,例如借贷风险、持续经营风险等,基于不同的应用,区别在于所选取的样本不同。例如,基于空壳风险应用,样本公司包括空壳公司和非空壳公司;又例如基于借贷风险应用,样本公司包括存在借贷逾期情况的黑样本和不存在借贷逾期情况的白样本。
如图5所示,本实施例同时提供了一种电子设备,该电子设备可以包括处理器51和存储器52,其中存储器52耦合至处理器51。值得注意的是,该图是示例性的,还可以使用其他类型的结构来补充或替代该结构,实现数据提取、哈希值计算、通信或其他功能。
如图5所示,该电子设备还可以包括:输入单元53、显示单元54和电源55。值得注意的是,该电子设备也并不是必须要包括图5中显示的所有部件。此外,电子设备还可以包括图5中没有示出的部件,可以参考现有技术。
处理器51有时也称控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该处理器51接收输入并控制电子设备的各个部件的操作。
其中,存储器52例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其他合适装置中的一种或多种,可存储上述处理器51的配置信息、处理器51执行的指令、记录的表格数据等信息。处理器51可以执行存储器52存储的程序,以实现信息存储或处理等。在一个实施例中,存储器52中还包括缓冲存储器,即缓冲器,以存储中间信息。
输入单元53例如用于向处理器51提供爬虫得到的样本公司和其关联方的数据。显示单元54用于显示处理过程中的各种结果,例如图3e所示结果、目标公司的识别结果等,该显示单元例如可以为LCD显示器,但本发明并不限于此。电源55用于为电子设备提供电力。
本发明实施例还提供一种计算机可读指令,其中当在电子设备中执行所述指令时,所述程序使得电子设备执行本发明方法所包含的操作步骤。
本发明实施例还提供一种存储有计算机可读指令的存储介质,其中所述计算机可读指令使得电子设备执行本发明方法所包含的操作步骤。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的模块,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成模块及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种企业风险识别模型的构建方法,其特征在于,包括以下步骤:
获取样本公司的关联方网络图谱结构,所述样本公司包括黑样本和白样本;
基于图挖掘算法Structure to Vector对样本公司的网络结构进行编码,获得样本公司网络结构的风险特征;
学习获得的风险特征,构建所述企业风险识别模型。
2.根据权利要求1所述的方法,其特征在于,所述基于图挖掘算法Structure toVector对样本公司的网络结构进行编码,获得样本公司网络结构的风险特征的步骤,包括:
将样本公司的网络图谱结构转换为多个关键字典;
基于所述关键字典,将样本公司的关联方网络图谱中的各个节点映射为序号符号;
统计各个节点的序号符号出现的次数,并将序号符号作为特征,特征的取值即为该序号符号出现的次数,得到以序号符号为特征的向量,即特征向量。
3.根据权利要求2所述的方法,其特征在于,所述学习获得的风险特征,构建所述企业风险识别模型的步骤,包括:
利用所述特征向量对线性支持向量机模型进行训练,得到所述企业风险识别模型。
4.根据权利要求1所述的方法,其特征在于,所述获取样本公司的关联方网络图谱结构的步骤,包括:
通过爬虫技术获取样本公司及其关联方的数据,并运用图谱构建方法搭建样本公司的关联方网络图谱结构。
5.根据权利要求1所述的方法,其特征在于,所述企业风险为企业空壳风险,所述黑样本为若干个空壳公司,所述白样本为若干个非空壳公司。
6.一种企业风险识别模型的构建系统,其特征在于,包括:
图谱获取模块,用于获取样本公司的关联方网络图谱结构,所述样本公司包括黑样本和白样本;
特征挖掘模块,用于基于图挖掘算法Structure to Vector对样本公司的网络结构进行编码,获得样本公司网络结构的风险特征;
模型生成模块,用于学习获得的风险特征,构建所述企业风险识别模型。
7.根据权利要求6所述的系统,其特征在于,所述特征挖掘模块包括:
转换子模块,用于将样本公司的网络图谱结构转换为多个关键字典;
映射子模块,用于基于所述关键字典,将样本公司的关联方网络图谱中的各个节点映射为序号符号;
挖掘子模块,用于统计各个节点的序号符号出现的次数,并将序号符号作为特征,特征的取值即为该序号符号出现的次数,得到以序号符号为特征的向量,即特征向量。
8.根据权利要求7所述的系统,其特征在于,所述模型生成模块利用所述特征向量对线性支持向量机模型进行训练,得到所述企业风险识别模型。
9.一种包括计算机可读指令的计算机可读存储介质,其特征在于,所述计算机可读指令在被执行时使处理器执行权利要求1-5任一所述方法中的操作。
10.一种电子设备,其特征在于,所述的设备包括:
存储器,存储程序指令;
处理器,与所述存储器相连接,执行存储器中的程序指令,实现权利要求1-5任一所述方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911349097.6A CN111178615B (zh) | 2019-12-24 | 2019-12-24 | 一种企业风险识别模型的构建方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911349097.6A CN111178615B (zh) | 2019-12-24 | 2019-12-24 | 一种企业风险识别模型的构建方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111178615A true CN111178615A (zh) | 2020-05-19 |
CN111178615B CN111178615B (zh) | 2023-10-27 |
Family
ID=70657957
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911349097.6A Active CN111178615B (zh) | 2019-12-24 | 2019-12-24 | 一种企业风险识别模型的构建方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111178615B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112200592A (zh) * | 2020-10-26 | 2021-01-08 | 支付宝(杭州)信息技术有限公司 | 一种空壳公司识别方法、装置及设备 |
CN115115380A (zh) * | 2022-04-13 | 2022-09-27 | 江苏省联合征信有限公司 | 基于知识图谱识别空壳公司的方法及系统 |
Citations (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6571199B1 (en) * | 1998-10-30 | 2003-05-27 | International Business Machines Corporation | Method and apparatus for performing pattern dictionary formation for use in sequence homology detection |
US20110246298A1 (en) * | 2010-03-31 | 2011-10-06 | Williams Gregory D | Systems and Methods for Integration and Anomymization of Supplier Data |
CN104217022A (zh) * | 2014-09-25 | 2014-12-17 | 天津大学 | 一种基于交替乘子法的分布式大数据分类系统及方法 |
CN104484459A (zh) * | 2014-12-29 | 2015-04-01 | 北京奇虎科技有限公司 | 一种对知识图谱中的实体进行合并的方法及装置 |
CN105786860A (zh) * | 2014-12-23 | 2016-07-20 | 华为技术有限公司 | 一种数据建模中的数据处理方法及装置 |
CN105930465A (zh) * | 2016-04-21 | 2016-09-07 | 成都数联铭品科技有限公司 | 一种数据挖掘处理方法 |
CN107292463A (zh) * | 2016-03-30 | 2017-10-24 | 阿里巴巴集团控股有限公司 | 一种对应用程序进行项目评估的方法及系统 |
CN107832407A (zh) * | 2017-11-03 | 2018-03-23 | 上海点融信息科技有限责任公司 | 用于生成知识图谱的信息处理方法、装置和可读存储介质 |
CN107943879A (zh) * | 2017-11-14 | 2018-04-20 | 上海维信荟智金融科技有限公司 | 基于社交网络的欺诈团体检测方法及系统 |
CN107945024A (zh) * | 2017-12-12 | 2018-04-20 | 厦门市美亚柏科信息股份有限公司 | 识别互联网金融借贷企业经营异常的方法、终端设备及存储介质 |
CN108492173A (zh) * | 2018-03-23 | 2018-09-04 | 上海氪信信息技术有限公司 | 一种基于双模网络图挖掘算法的信用卡反欺诈预测方法 |
CN109064318A (zh) * | 2018-08-24 | 2018-12-21 | 苏宁消费金融有限公司 | 一种基于知识图谱的互联网金融风险监测系统 |
CN109299362A (zh) * | 2018-09-21 | 2019-02-01 | 平安科技(深圳)有限公司 | 相似企业推荐方法、装置、计算机设备及存储介质 |
CN109299811A (zh) * | 2018-08-20 | 2019-02-01 | 众安在线财产保险股份有限公司 | 一种基于复杂网络的欺诈团伙识别和风险传播预测的方法 |
CN109460664A (zh) * | 2018-10-23 | 2019-03-12 | 北京三快在线科技有限公司 | 风险分析方法、装置、电子设计及计算机可读介质 |
CN109472485A (zh) * | 2018-11-01 | 2019-03-15 | 成都数联铭品科技有限公司 | 企业失信风险传播查询系统及方法 |
CN109509556A (zh) * | 2018-11-09 | 2019-03-22 | 天津开心生活科技有限公司 | 知识图谱生成方法、装置、电子设备及计算机可读介质 |
CN109614603A (zh) * | 2018-12-12 | 2019-04-12 | 北京百度网讯科技有限公司 | 用于生成信息的方法和装置 |
CN109657947A (zh) * | 2018-12-06 | 2019-04-19 | 西安交通大学 | 一种面向企业行业分类的异常检测方法 |
CN109657918A (zh) * | 2018-11-19 | 2019-04-19 | 平安科技(深圳)有限公司 | 关联评估对象的风险预警方法、装置和计算机设备 |
CN109657978A (zh) * | 2018-12-19 | 2019-04-19 | 重庆誉存大数据科技有限公司 | 一种风险识别方法和系统 |
CN109685647A (zh) * | 2018-12-27 | 2019-04-26 | 阳光财产保险股份有限公司 | 信贷欺诈检测方法及其模型的训练方法、装置和服务器 |
US20190156196A1 (en) * | 2017-11-21 | 2019-05-23 | Fair Isaac Corporation | Explaining Machine Learning Models by Tracked Behavioral Latent Features |
CN109829631A (zh) * | 2019-01-14 | 2019-05-31 | 北京中兴通网络科技股份有限公司 | 一种基于记忆网络的企业风险预警分析方法及系统 |
CN109829804A (zh) * | 2019-01-10 | 2019-05-31 | 西安交通大学 | 一种面向标记样本缺失行政区域的纳税风险识别方法 |
CN109918584A (zh) * | 2019-03-25 | 2019-06-21 | 中国科学院自动化研究所 | 比特币交易所地址识别方法、系统、装置 |
CN109934697A (zh) * | 2017-12-15 | 2019-06-25 | 阿里巴巴集团控股有限公司 | 一种基于图结构模型的信用风险控制方法、装置以及设备 |
CN110019841A (zh) * | 2018-07-24 | 2019-07-16 | 南京涌亿思信息技术有限公司 | 构建债务人知识图谱的数据分析方法、装置及系统 |
CN110188198A (zh) * | 2019-05-13 | 2019-08-30 | 北京一览群智数据科技有限责任公司 | 一种基于知识图谱的反欺诈方法及装置 |
CN110223168A (zh) * | 2019-06-24 | 2019-09-10 | 浪潮卓数大数据产业发展有限公司 | 一种基于企业关系图谱的标签传播反欺诈检测方法及系统 |
CN110390465A (zh) * | 2019-06-18 | 2019-10-29 | 深圳壹账通智能科技有限公司 | 业务数据的风控分析处理方法、装置和计算机设备 |
CN110400082A (zh) * | 2019-07-29 | 2019-11-01 | 中国工商银行股份有限公司 | 异常交易企业的识别方法和装置 |
CN110428137A (zh) * | 2019-07-04 | 2019-11-08 | 阿里巴巴集团控股有限公司 | 一种风险防控策略的更新方法及装置 |
CN110458686A (zh) * | 2019-07-02 | 2019-11-15 | 阿里巴巴集团控股有限公司 | 用于确定借贷风险的方法及装置 |
CN110458697A (zh) * | 2019-08-19 | 2019-11-15 | 北京百度网讯科技有限公司 | 用于评估风险的方法和装置 |
CN110473083A (zh) * | 2019-07-08 | 2019-11-19 | 阿里巴巴集团控股有限公司 | 树状风险账户识别方法、装置、服务器及存储介质 |
CN110519246A (zh) * | 2019-08-15 | 2019-11-29 | 安徽师范大学 | 基于信任区块链节点的信任度计算方法 |
CN110570111A (zh) * | 2019-08-30 | 2019-12-13 | 阿里巴巴集团控股有限公司 | 企业风险预测方法、模型训练方法、装置及设备 |
-
2019
- 2019-12-24 CN CN201911349097.6A patent/CN111178615B/zh active Active
Patent Citations (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6571199B1 (en) * | 1998-10-30 | 2003-05-27 | International Business Machines Corporation | Method and apparatus for performing pattern dictionary formation for use in sequence homology detection |
US20110246298A1 (en) * | 2010-03-31 | 2011-10-06 | Williams Gregory D | Systems and Methods for Integration and Anomymization of Supplier Data |
CN104217022A (zh) * | 2014-09-25 | 2014-12-17 | 天津大学 | 一种基于交替乘子法的分布式大数据分类系统及方法 |
CN105786860A (zh) * | 2014-12-23 | 2016-07-20 | 华为技术有限公司 | 一种数据建模中的数据处理方法及装置 |
CN104484459A (zh) * | 2014-12-29 | 2015-04-01 | 北京奇虎科技有限公司 | 一种对知识图谱中的实体进行合并的方法及装置 |
CN107292463A (zh) * | 2016-03-30 | 2017-10-24 | 阿里巴巴集团控股有限公司 | 一种对应用程序进行项目评估的方法及系统 |
CN105930465A (zh) * | 2016-04-21 | 2016-09-07 | 成都数联铭品科技有限公司 | 一种数据挖掘处理方法 |
CN107832407A (zh) * | 2017-11-03 | 2018-03-23 | 上海点融信息科技有限责任公司 | 用于生成知识图谱的信息处理方法、装置和可读存储介质 |
CN107943879A (zh) * | 2017-11-14 | 2018-04-20 | 上海维信荟智金融科技有限公司 | 基于社交网络的欺诈团体检测方法及系统 |
US20190156196A1 (en) * | 2017-11-21 | 2019-05-23 | Fair Isaac Corporation | Explaining Machine Learning Models by Tracked Behavioral Latent Features |
CN107945024A (zh) * | 2017-12-12 | 2018-04-20 | 厦门市美亚柏科信息股份有限公司 | 识别互联网金融借贷企业经营异常的方法、终端设备及存储介质 |
CN109934697A (zh) * | 2017-12-15 | 2019-06-25 | 阿里巴巴集团控股有限公司 | 一种基于图结构模型的信用风险控制方法、装置以及设备 |
CN108492173A (zh) * | 2018-03-23 | 2018-09-04 | 上海氪信信息技术有限公司 | 一种基于双模网络图挖掘算法的信用卡反欺诈预测方法 |
CN110019841A (zh) * | 2018-07-24 | 2019-07-16 | 南京涌亿思信息技术有限公司 | 构建债务人知识图谱的数据分析方法、装置及系统 |
CN109299811A (zh) * | 2018-08-20 | 2019-02-01 | 众安在线财产保险股份有限公司 | 一种基于复杂网络的欺诈团伙识别和风险传播预测的方法 |
CN109064318A (zh) * | 2018-08-24 | 2018-12-21 | 苏宁消费金融有限公司 | 一种基于知识图谱的互联网金融风险监测系统 |
CN109299362A (zh) * | 2018-09-21 | 2019-02-01 | 平安科技(深圳)有限公司 | 相似企业推荐方法、装置、计算机设备及存储介质 |
CN109460664A (zh) * | 2018-10-23 | 2019-03-12 | 北京三快在线科技有限公司 | 风险分析方法、装置、电子设计及计算机可读介质 |
CN109472485A (zh) * | 2018-11-01 | 2019-03-15 | 成都数联铭品科技有限公司 | 企业失信风险传播查询系统及方法 |
CN109509556A (zh) * | 2018-11-09 | 2019-03-22 | 天津开心生活科技有限公司 | 知识图谱生成方法、装置、电子设备及计算机可读介质 |
CN109657918A (zh) * | 2018-11-19 | 2019-04-19 | 平安科技(深圳)有限公司 | 关联评估对象的风险预警方法、装置和计算机设备 |
CN109657947A (zh) * | 2018-12-06 | 2019-04-19 | 西安交通大学 | 一种面向企业行业分类的异常检测方法 |
CN109614603A (zh) * | 2018-12-12 | 2019-04-12 | 北京百度网讯科技有限公司 | 用于生成信息的方法和装置 |
CN109657978A (zh) * | 2018-12-19 | 2019-04-19 | 重庆誉存大数据科技有限公司 | 一种风险识别方法和系统 |
CN109685647A (zh) * | 2018-12-27 | 2019-04-26 | 阳光财产保险股份有限公司 | 信贷欺诈检测方法及其模型的训练方法、装置和服务器 |
CN109829804A (zh) * | 2019-01-10 | 2019-05-31 | 西安交通大学 | 一种面向标记样本缺失行政区域的纳税风险识别方法 |
CN109829631A (zh) * | 2019-01-14 | 2019-05-31 | 北京中兴通网络科技股份有限公司 | 一种基于记忆网络的企业风险预警分析方法及系统 |
CN109918584A (zh) * | 2019-03-25 | 2019-06-21 | 中国科学院自动化研究所 | 比特币交易所地址识别方法、系统、装置 |
CN110188198A (zh) * | 2019-05-13 | 2019-08-30 | 北京一览群智数据科技有限责任公司 | 一种基于知识图谱的反欺诈方法及装置 |
CN110390465A (zh) * | 2019-06-18 | 2019-10-29 | 深圳壹账通智能科技有限公司 | 业务数据的风控分析处理方法、装置和计算机设备 |
CN110223168A (zh) * | 2019-06-24 | 2019-09-10 | 浪潮卓数大数据产业发展有限公司 | 一种基于企业关系图谱的标签传播反欺诈检测方法及系统 |
CN110458686A (zh) * | 2019-07-02 | 2019-11-15 | 阿里巴巴集团控股有限公司 | 用于确定借贷风险的方法及装置 |
CN110428137A (zh) * | 2019-07-04 | 2019-11-08 | 阿里巴巴集团控股有限公司 | 一种风险防控策略的更新方法及装置 |
CN110473083A (zh) * | 2019-07-08 | 2019-11-19 | 阿里巴巴集团控股有限公司 | 树状风险账户识别方法、装置、服务器及存储介质 |
CN110400082A (zh) * | 2019-07-29 | 2019-11-01 | 中国工商银行股份有限公司 | 异常交易企业的识别方法和装置 |
CN110519246A (zh) * | 2019-08-15 | 2019-11-29 | 安徽师范大学 | 基于信任区块链节点的信任度计算方法 |
CN110458697A (zh) * | 2019-08-19 | 2019-11-15 | 北京百度网讯科技有限公司 | 用于评估风险的方法和装置 |
CN110570111A (zh) * | 2019-08-30 | 2019-12-13 | 阿里巴巴集团控股有限公司 | 企业风险预测方法、模型训练方法、装置及设备 |
Non-Patent Citations (1)
Title |
---|
程红;马建国;余超;师改梅;: "网络多层语义深度挖掘及流媒体缓存策略研究", 电视技术, no. 11 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112200592A (zh) * | 2020-10-26 | 2021-01-08 | 支付宝(杭州)信息技术有限公司 | 一种空壳公司识别方法、装置及设备 |
CN115115380A (zh) * | 2022-04-13 | 2022-09-27 | 江苏省联合征信有限公司 | 基于知识图谱识别空壳公司的方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111178615B (zh) | 2023-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110781246A (zh) | 一种企业关联关系构建方法及系统 | |
CN111324679B (zh) | 地址信息的处理方法、装置和系统 | |
US9665600B2 (en) | Method for implementing database | |
US20110097694A1 (en) | Interpersonal relationships analysis system and method | |
CN104331285A (zh) | 一种代码自动生成方法及系统 | |
CN103514201A (zh) | 一种非关系型数据库的数据查询方法和装置 | |
CN111178615A (zh) | 一种企业风险识别模型的构建方法及系统 | |
CN104809105B (zh) | 基于最大熵的事件论元及论元角色的识别方法及系统 | |
CN110837568A (zh) | 实体对齐方法及装置、电子设备、存储介质 | |
CN113297435B (zh) | 一种基于基因码的物资管理方法和系统 | |
CN107766519B (zh) | 一种可视化配置数据结构的方法 | |
CN112328653B (zh) | 数据识别方法、装置、电子设备及存储介质 | |
CN114610955A (zh) | 一种智能检索方法、装置、电子设备及存储介质 | |
CN107145947A (zh) | 一种信息处理方法、装置及电子设备 | |
CN113065354A (zh) | 语料中地理位置的识别方法及其相关设备 | |
CN109829008A (zh) | 一种数据分析实时可视化方法和系统 | |
CN111309996A (zh) | 一种智能化图书馆辅助管理系统 | |
CN105446711A (zh) | 获取用于软件开发任务的上下文信息的方法及装置 | |
US11798301B1 (en) | Compositional pipeline for generating synthetic training data for machine learning models to extract line items from OCR text | |
CN116501897B (zh) | 基于模糊匹配构建知识图谱的方法 | |
CN102193967B (zh) | 比较有界域的值 | |
CN117217172B (zh) | 表格信息获取方法、装置、计算机设备、存储介质 | |
CN113536751B (zh) | 表格数据的处理方法、装置、电子设备和存储介质 | |
CN113868487B (zh) | 基于GeoHash地址编码的行员选取方法、装置、设备及介质 | |
CN107992509A (zh) | 职位词典信息的生成方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
EE01 | Entry into force of recordation of patent licensing contract | ||
EE01 | Entry into force of recordation of patent licensing contract |
Application publication date: 20200519 Assignee: Shansikaiwu Technology (Chengdu) Co.,Ltd. Assignor: CHENGDU BUSINESS BIG DATA TECHNOLOGY Co.,Ltd. Contract record no.: X2023510000034 Denomination of invention: A Method and System for Constructing an Enterprise Risk Identification Model Granted publication date: 20231027 License type: Common License Record date: 20231219 |