CN113657986A - 基于混合神经网络的企业非法集资风险预测方法 - Google Patents
基于混合神经网络的企业非法集资风险预测方法 Download PDFInfo
- Publication number
- CN113657986A CN113657986A CN202111025302.0A CN202111025302A CN113657986A CN 113657986 A CN113657986 A CN 113657986A CN 202111025302 A CN202111025302 A CN 202111025302A CN 113657986 A CN113657986 A CN 113657986A
- Authority
- CN
- China
- Prior art keywords
- risk
- enterprise
- illegal
- prediction
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Finance (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于混合神经网络的企业非法集资风险预测方法,包括:步骤1、利用XLNet模型对企业信息进行语义表征编码;步骤2、构建风险等级预测网络,在风险等级预测网络中对XLNet得到的语义表征向量使用GRU网络处理得到风险等级结果以及对应的隐藏状态向量,并共同参与非法集资的预测;步骤3、嵌入非法集资风险知识库;步骤4、预测非法集资风险。该风险预测方法有助于在互联网背景下提升金融监督管理部门对于企业非法集资监管和防范的效率,及时发现和管理企业早期的非法集资风险,保护财产,避免遭受侵害。
Description
技术领域
本发明涉及一种基于混合神经网络的企业非法集资风险预测方法。
背景技术
近年来,全国共查处大量的非法集资案件,涉案金额巨大,不但涉及财富管理、私募基金、保险代理、房地产等传统领域,还涉及到养老服务、涉农互助、线上教育、区块链及虚拟货币等多种新形态。
为防止非法集资,现有非法集资企业的识别,主要基于从业人员根据工作经验从该企业的财务信息、资金流水、关联股东等多方面综合判断该企业是否有非法集资的嫌疑(如申请号为CN201711448476.1公开的一种基于企业关联关系打击非法集资的系统及处理方法)。然而,互联网下的非法集资具有作案手段智能化、隐蔽性、突发性强等特点,此类识别方法面临诸多挑战。
预测企业是否具有非法集资风险通常的做法是在人工提取特征的基础上利用机器学习方法训练一个预测模型(如申请号为CN202011539768.8公开的类金融企业的非法集资风险监测系统和申请号为CN202010357155.6公开的非法集资的识别方法和装置、存储介质、电子装置)。这种方法需要做大量的特征工程,特征的选取和分析方式复杂,可能导致花费大量精力去构思出来的特征可能与指定的任务不相关。
发明内容
本发明的目的是提供一种基于混合神经网络的企业非法集资风险预测方法,该风险预测方法有助于在互联网背景下提升金融监督管理部门对于企业非法集资监管和防范的效率,及时发现和管理企业早期的非法集资风险,保护财产,避免遭受侵害。
为了实现上述目的,本发明提供了一种基于混合神经网络的企业非法集资风险预测方法,包括:
步骤1、利用XLNet模型对企业信息进行语义表征编码;
步骤2、构建风险等级预测网络,在风险等级预测网络中对XLNet得到的语义表征向量使用GRU网络处理得到风险等级结果以及对应的隐藏状态向量,并共同参与非法集资的预测;
步骤3、嵌入非法集资风险知识库;
步骤4、预测非法集资风险。
优选地,步骤1中包括:
步骤1a、删除企业名称及经营范围中的不规则元素和特殊符号;
步骤1b、将经过预处理后的企业名称和经营范围文本序列输入XLNet预训练模型,并将输出的特征向量作为输入到风险等级预测网络的语义表征向量;
步骤1c、将企业非文本类型数据进行特征编码并输入到风险等级预测网络,其中,企业非文本类型数据包括企业注册资本、成立日期、从业人数、企业类型等数值型、日期型和类别型数据。
优选地,步骤2中包括:
步骤2b、输入向量xt与上一步隐藏状态ht-1线性组合并经过sigmod激活函数非线性化处理后得到更新门zt和重置门rt,计算方法为:
zt←σ(Wzxt+Uzht-1+bz)
rt←σ(Wrxt+Urht-1+br);
步骤2e、将不同时间节点隐藏状态ht构成集合H={ht|t=1,2,…,n,n+1,…,n+m},经由全连接层以及softmax函数后得到候选集C={ci|i=1,2,…,m};
步骤2g、通过将网络的输入部分、GRU隐藏状态与输出结果使用门控机制进行相加,得到最终网络输出结果Vout:
Vout=f(X)+h(X)+X
其中,f是风险预测网络,h是GRU隐藏状态和维度变换结构。
优选地,步骤3中包括:
步骤3a、从基本风险、遵从风险、经营风险、族群风险和舆情风险构建企业非法集资风险特征知识库;其中,针对群族风险,通过构建知识图谱实现;首先,利用企业相关数据构建企业知识图谱的模式图,包含企业、法人、高管、投资等顶层概念本体以及相互之间的关系;然后,将企业信息转换为企业实体,法人和高管转换为人物实体,并存入Neo4j图数据库构成图节点;抽取和分类实体之间的关系并存入图数据库构成关系边,将企业其他标签信息结合非法集资风险特征知识引入预测模型,以键值对key-value的形式构建出结构化的外部知识L=[(s1,v1),(s2,v2),…,(sn,vn)];
步骤3b、将结构化知识库L=[(s1,v1),(s2,v2),…,(sn,vn)]经过Embedding得到向量L=[I1,I2,…,In];
步骤3d、对BiGRU的隐藏状态hi应用注意力机制,并引入知识库上下文向量u来衡量知识的重要性,从而得到有助于增强预测的额外知识向量V;
优选地,步骤4中包括:
步骤4a、对经过GRU网络处理后的结果使用softmax函数进行非法集资风险等级预测:pc=softmax(H′);
p=sigmoid(WVconcat+b);
步骤4d、使用二分类交叉熵损失函数作为非法集资预测的损失函数:
其中,pi是企业的非法集资预测概率,yi是非法集资变量;
步骤4e、采用联合损失函数进行模型训练:Lall=L+Lc。
根据上述技术方案,本发明首先将企业文本信息序列输入XLNet预训练语言模型,并将输出的特征向量作为输入到下一层网络的语义表征向量;然后,构建了一种基于门限循环神经网络GRU的风险等级预测网络,通过GRU生成分类候选集用于增强预测能力;最后,通过引入结合双向门限循环神经网络BiGRU和注意力Attention机制的非法集资风险特征知识嵌入,有效提升预测模型的理解层次,提升企业非法集资预测的准确性。
本发明的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本发明的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明,但并不构成对本发明的限制。在附图中:
图1是本发明提供的一种基于混合神经网络的企业非法集资风险预测方法的流程示意图;
图2是本发明提供的一种基于混合神经网络的企业非法集资风险预测方法中的模型结构图;
图3是本发明提供的一种基于混合神经网络的企业非法集资风险预测方法中的风险等级预测网络;
图4是本发明提供的一种基于混合神经网络的企业非法集资风险预测方法中的风险特征知识嵌入模块。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
参见图1和图2,本发明提供一种基于混合神经网络的企业非法集资风险预测方法,包括:
步骤1、利用XLNet模型对企业信息进行语义表征编码;
步骤2、构建风险等级预测网络,在风险等级预测网络中对XLNet得到的语义表征向量使用GRU网络处理得到风险等级结果以及对应的隐藏状态向量,并共同参与非法集资的预测;
步骤3、嵌入非法集资风险知识库;
步骤4、预测非法集资风险。
具体的,步骤1中包括:
步骤1a、删除企业名称及经营范围中的不规则元素和特殊符号;
步骤1b、将经过预处理后的企业名称和经营范围文本序列输入XLNet预训练模型,并将输出的特征向量作为输入到风险等级预测网络的语义表征向量;
步骤1c、将企业非文本类型数据进行特征编码并输入到风险等级预测网络,其中,企业非文本类型数据包括企业注册资本、成立日期、从业人数、企业类型等数值型、日期型和类别型数据。
在步骤2中,如图3中基于GRU的风险等级预测网络结构示意图所示,风险等级预测网络中对XLNet得到的语义表征向量使用GRU网络处理得到风险等级结果(高风险、中高风险、中低风险和低风险)以及对应的隐藏状态向量,共同参与非法集资的预测。具体包括:
步骤2b、输入向量xt与上一步隐藏状态ht-1线性组合并经过sigmod激活函数非线性化处理后得到更新门zt和重置门rt,计算方法为:
zt←σ(Wzxt+Uzht-1+bz)
rt←σ(Wrxt+Urht-1+br);
步骤2e、将不同时间节点隐藏状态ht构成集合H={ht|t=1,2,…,n,n+1,…,n+m},经由全连接层以及softmax函数后得到候选集C={ci|i=1,2,…,m};
步骤2g、通过将网络的输入部分、GRU隐藏状态与输出结果使用门控机制进行相加,得到最终网络输出结果Vout:
Vout=f(X)+h(X)+X
其中,f是风险预测网络,h是GRU隐藏状态和维度变换结构。
同时,本发明构建了一个非法集资风险特征的知识库,有效提高模型的理解层次,提升预测准确性。由于非法集资企业普遍存在虚假宣传、虚增注册资本、大量招聘与经营范围不符合的理财产品推销人员等行为,因此,嵌入非法集资风险知识库时具体包括:
步骤3a、从基本风险、遵从风险、经营风险、族群风险和舆情风险构建企业非法集资风险特征知识库;其中,针对群族风险,通过构建知识图谱实现;首先,利用企业相关数据构建企业知识图谱的模式图,包含企业、法人、高管、投资等顶层概念本体以及相互之间的关系;然后,将企业信息转换为企业实体,法人和高管转换为人物实体,并存入Neo4j图数据库构成图节点;抽取和分类实体之间的关系并存入图数据库构成关系边,将企业其他标签信息结合非法集资风险特征知识引入预测模型,以键值对key-value的形式构建出结构化的外部知识L=[(s1,v1),(s2,v2),…,(sn,vn)];
步骤3b、将结构化知识库L=[(s1,v1),(s2,v2),…,(sn,vn)]经过Embedding得到向量L=[I1,I2,…,In];
步骤3d、对BiGRU的隐藏状态hi应用注意力机制,并引入知识库上下文向量u来衡量知识的重要性,从而得到有助于增强预测的额外知识向量V;
其中,风险特征嵌入模块分为BiGRU部分和attention部分,具体结构如图4所示。
此外,步骤4中包括:
步骤4a、对经过GRU网络处理后的结果使用softmax函数进行非法集资风险等级预测:pc=softmax(H′);
p=sigmoid(WVconcat+b);
步骤4d、使用二分类交叉熵损失函数作为非法集资预测的损失函数:
其中,pi是企业的非法集资预测概率,yi是非法集资变量;
步骤4e、采用联合损失函数进行模型训练:Lall=L+Lc。
通过上述技术方案,将企业文本信息经过XLNet处理后得到的语义表征向量和经过编码的其他类型特征向量输入到风险等级预测网络产生风险候选等级以及风险候选特征向量;同时,非法集资风险特征知识库作为外部知识在使用BiGRU和注意力机制后与特征向量进行拼接得到融合的特征向量,融合后的特征向量最终输入到分类器,完成企业非法集资预测。这样,有助于在互联网背景下提升金融监督管理部门对于企业非法集资监管和防范的效率,及时发现和管理企业早期的非法集资风险。基于本发明风险特征知识库的群族风险,可以利用大数据关联分析方法来识别集团企业的自融、自担保行为并快速锁定核心企业、核心人员。此外,也可以基于本发明的内容以企业公开信息为基础建立一套非法集资风险评价指标体系,通过层次分析法为指标赋值将这些特征量化,建立一个定量与定性相结合的非法集资监测体系。
以上结合附图详细描述了本发明的优选实施方式,但是,本发明并不限于上述实施方式中的具体细节,在本发明的技术构思范围内,可以对本发明的技术方案进行多种简单变型,这些简单变型均属于本发明的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本发明对各种可能的组合方式不再另行说明。
此外,本发明的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明的思想,其同样应当视为本发明所公开的内容。
Claims (5)
1.一种基于混合神经网络的企业非法集资风险预测方法,其特征在于,包括:
步骤1、利用XLNet模型对企业信息进行语义表征编码;
步骤2、构建风险等级预测网络,在风险等级预测网络中对XLNet得到的语义表征向量使用GRU网络处理得到风险等级结果以及对应的隐藏状态向量,并共同参与非法集资的预测;
步骤3、嵌入非法集资风险知识库;
步骤4、预测非法集资风险。
2.根据权利要求1所述的基于混合神经网络的企业非法集资风险预测方法,其特征在于,步骤1中包括:
步骤1a、删除企业名称及经营范围中的不规则元素和特殊符号;
步骤1b、将经过预处理后的企业名称和经营范围文本序列输入XLNet预训练模型,并将输出的特征向量作为输入到风险等级预测网络的语义表征向量;
步骤1c、将企业非文本类型数据进行特征编码并输入到风险等级预测网络,其中,企业非文本类型数据包括企业注册资本、成立日期、从业人数、企业类型等数值型、日期型和类别型数据。
3.根据权利要求1所述的基于混合神经网络的企业非法集资风险预测方法,其特征在于,步骤2中包括:
步骤2b、输入向量xt与上一步隐藏状态ht-1线性组合并经过sigmod激活函数非线性化处理后得到更新门zt和重置门rt,计算方法为:
zt←σ(Wzxt+Uzht-1+bz)
rt←σ(Wrxt+Urht-1+br);
步骤2e、将不同时间节点隐藏状态ht构成集合H={ht|t=1,2,…,n,n+1,…,n+m},经由全连接层以及softmax函数后得到候选集C={ci|i=1,2,…,m};
步骤2g、通过将网络的输入部分、GRU隐藏状态与输出结果使用门控机制进行相加,得到最终网络输出结果Vout:
Vout=f(X)+h(X)+X
其中,f是风险预测网络,h是GRU隐藏状态和维度变换结构。
4.根据权利要求1所述的基于混合神经网络的企业非法集资风险预测方法,其特征在于,步骤3中包括:
步骤3a、从基本风险、遵从风险、经营风险、族群风险和舆情风险构建企业非法集资风险特征知识库;其中,针对群族风险,通过构建知识图谱实现;首先,利用企业相关数据构建企业知识图谱的模式图,包含企业、法人、高管、投资等顶层概念本体以及相互之间的关系;然后,将企业信息转换为企业实体,法人和高管转换为人物实体,并存入Neo4j图数据库构成图节点;抽取和分类实体之间的关系并存入图数据库构成关系边,将企业其他标签信息结合非法集资风险特征知识引入预测模型,以键值对key-value的形式构建出结构化的外部知识L=[(s1,v1),(s2,v2),…,(sn,vn)];
步骤3b、将结构化知识库L=[(s1,v1),(s2,v2),…,(sn,vn)]经过Embedding得到向量L=[I1,I2,…,In];
步骤3d、对BiGRU的隐藏状态hi应用注意力机制,并引入知识库上下文向量u来衡量知识的重要性,从而得到有助于增强预测的额外知识向量V;
5.根据权利要求1所述的基于混合神经网络的企业非法集资风险预测方法,其特征在于,步骤4中包括:
步骤4a、对经过GRU网络处理后的结果使用softmax函数进行非法集资风险等级预测:pc=softmax(H′);
p=sigmoid(WVconcat+b);
步骤4d、使用二分类交叉熵损失函数作为非法集资预测的损失函数:
其中,pi是企业的非法集资预测概率,yi是非法集资变量;
步骤4e、采用联合损失函数进行模型训练:Lall=L+Lc。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111025302.0A CN113657986A (zh) | 2021-09-02 | 2021-09-02 | 基于混合神经网络的企业非法集资风险预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111025302.0A CN113657986A (zh) | 2021-09-02 | 2021-09-02 | 基于混合神经网络的企业非法集资风险预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113657986A true CN113657986A (zh) | 2021-11-16 |
Family
ID=78493469
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111025302.0A Withdrawn CN113657986A (zh) | 2021-09-02 | 2021-09-02 | 基于混合神经网络的企业非法集资风险预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113657986A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114022058A (zh) * | 2022-01-06 | 2022-02-08 | 成都晓多科技有限公司 | 基于时序知识图谱的中小企业失信风险预测方法 |
-
2021
- 2021-09-02 CN CN202111025302.0A patent/CN113657986A/zh not_active Withdrawn
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114022058A (zh) * | 2022-01-06 | 2022-02-08 | 成都晓多科技有限公司 | 基于时序知识图谱的中小企业失信风险预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109872162B (zh) | 一种处理用户投诉信息的风控分类识别方法及系统 | |
CN110276068B (zh) | 法律案情分析方法及装置 | |
CN116992005B (zh) | 基于大模型及本地知识库的智能对话方法、系统及设备 | |
CN110675023B (zh) | 一种基于神经网络的诉讼请求合理性预测模型训练方法和预测方法及装置 | |
CN110458324B (zh) | 风险概率的计算方法、装置和计算机设备 | |
CN109657947A (zh) | 一种面向企业行业分类的异常检测方法 | |
CN111259851B (zh) | 一种多模态事件检测方法及装置 | |
CN110826316B (zh) | 一种应用于裁判文书中敏感信息的识别方法 | |
CN113742733B (zh) | 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置 | |
CN116402512B (zh) | 一种基于人工智能的账户安全排查管理方法 | |
CN114860882A (zh) | 一种基于文本分类模型的公平竞争审查辅助方法 | |
CN111985207A (zh) | 一种访问控制策略的获取方法、装置及电子设备 | |
CN115204886A (zh) | 账户识别的方法、装置、电子设备和存储介质 | |
CN117290508A (zh) | 一种基于自然语言处理的贷后文本数据处理方法和系统 | |
Yu et al. | Using BiLSTM with attention mechanism to automatically detect self-admitted technical debt | |
CN116484025A (zh) | 漏洞知识图谱构建方法、评估方法、设备及存储介质 | |
CN115545437A (zh) | 一种基于多源异构数据融合的金融企业经营风险预警方法 | |
CN117272142A (zh) | 一种日志异常检测方法、系统及电子设备 | |
CN113657986A (zh) | 基于混合神经网络的企业非法集资风险预测方法 | |
Yang et al. | Auto insurance fraud detection with multimodal learning | |
CN117314623A (zh) | 融合外部知识的贷款欺诈预测方法、装置及存储介质 | |
CN112307170A (zh) | 关系抽取模型的训练方法、关系抽取方法、设备及介质 | |
CN113517045A (zh) | 一种基于路径生成的电子病历icd代码预测方法及预测系统 | |
CN110705638A (zh) | 一种利用深度网络学习模糊信息特征技术的信用评级预测分类方法 | |
CN115952438A (zh) | 社交平台用户属性预测方法、系统、移动设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20211116 |