CN110704572A - 疑似非法集资风险的预警方法、装置、设备和存储介质 - Google Patents
疑似非法集资风险的预警方法、装置、设备和存储介质 Download PDFInfo
- Publication number
- CN110704572A CN110704572A CN201910833127.4A CN201910833127A CN110704572A CN 110704572 A CN110704572 A CN 110704572A CN 201910833127 A CN201910833127 A CN 201910833127A CN 110704572 A CN110704572 A CN 110704572A
- Authority
- CN
- China
- Prior art keywords
- risk value
- value
- enterprise
- risk
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/06—Asset management; Financial planning or analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Software Systems (AREA)
- Game Theory and Decision Science (AREA)
- Human Resources & Organizations (AREA)
- Operations Research (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了疑似非法集资风险的预警方法,包括:从互联网公开数据中获取结构化数据和文本数据;根据所述结构化数据和所述文本数据,构建实体企业的多维画像;根据所述多维画像,计算实体企业的产品违约风险值、企业经营风险值、违规宣传风险值和负面舆情值;根据所述产品违约风险值、所述企业经营风险值、所述违规宣传风险值和所述负面舆情值,计算实体企业的综合风险值,若所述综合风险值大于预设值,则发出疑似非法集资风险预警。以及,疑似非法集资风险的预警装置,计算机设备和计算机可读存储介质。本发明可基于互联网公开文本实现疑似非法集资风险的早期预警。
Description
技术领域
本发明涉及数据挖掘和机器学习领域。更具体地说,本发明涉及一种疑似非法集资风险的预警方法、装置、设备和存储介质。
背景技术
长期以来,我国经济社会保持较快发展,资金需求旺盛,融资难、融资贵等问题突出,民间投资渠道狭窄的现实和非法集资高额回报的巨大诱惑交织共存,非法集资的整体形势复杂严峻,案件高发频发。随着经济金融的发展,非法集资的手法不断翻新,从以往的商品营销、资源开发、种植养殖等“实体经济”领域向理财、私募、众筹、期权的“资本运作”领域转移。同时,随着互联网和金融支付手段的快速融合发展,使得非法集资组织化、网络化特征日益明显,跨区域案件不断增多,犯罪风险不断向三、四线城市辐射并向边远省份传导。这使得非法集资案件牵涉的人数越来越多,涉及到的财产损失也在成倍增加。一些案件由于参与群众多、财产损失大,频繁引发群体性事件,甚至导致极端过激事件发生,影响社会稳定。因此,非法集资问题亟待提出有效方法进行监管。
当前的疑似非法集资风险识别通常会面临数据质量的问题。首先,企业信息披露不足,以重要的互联网金融业务P2P网络借贷为例,截至2017年底,我国上市或由上市企业控股的P2P平台数不足总数的1%,即绝大多数不会公布企业经营信息,而目前我国网络借贷平台的备案进展缓慢,企业经营数据披露不全,使得很难对它们的疑似非法集资风险进行充分评估。其次,信息披露的滞后性,风险评估中经常使用的用户信息、借贷信息和财务数据等的披露一般有较长时间的延迟,而产品周期较短的涉金融业务企业更有可能面临由资金链断裂、兑付危机等问题,从而有潜在疑似非法集资风险。
因此,传统的依靠企业披露信息的风险评估方法已经难以满足数据完整性和时效性的要求,更难达到疑似非法集资风险识别和预警这一新型的重点监管任务。
发明内容
本发明的一个目的是提供一种疑似非法集资风险的预警方法、装置、设备和存储介质,其基于互联网公开文本实现疑似非法集资风险的早期预警。
为了实现本发明的目的和其它优点,提供了一种疑似非法集资风险的预警方法,包括:
从互联网公开数据中获取结构化数据和文本数据;
根据所述结构化数据和所述文本数据,构建实体企业的多维画像;
根据所述多维画像,计算实体企业的产品违约风险值、企业经营风险值、违规宣传风险值和负面舆情值;
根据所述产品违约风险值、所述企业经营风险值、所述违规宣传风险值和所述负面舆情值,计算实体企业的综合风险值,若所述综合风险值大于预设值,则发出疑似非法集资风险预警。
优选的是,所述的疑似非法集资风险的预警方法,从互联网公开数据中获取结构化数据和文本数据,包括:
确定所述互联网公开数据的数据来源,包括新闻媒体、社交媒体、第三方信息披露平台和第三方商业数据库;
从所述新闻媒体、社交媒体、第三方信息披露平台和第三方商业数据库中获取包括企业信息数据、产品信息数据、互联网广告信息数据和互联网评论信息数据的结构化数据和文本数据。
优选的是,所述的疑似非法集资风险的预警方法,根据所述结构化数据和所述文本数据,构建实体企业的多维画像,包括:
获取全国涉金融业务的实体企业名录,将所述结构化数据和所述文本数据与实体企业相映射,构建与实体企业相关联的互联网公开信息数据库,生成实体企业索引;
构建金融文本分类模型,对所述数据库中的文本数据进行分类,并过滤所述数据库中的非金融文本数据;
根据所述实体企业索引,从所述数据库中提取与该实体企业相关的产品特征、公司特征、互联网广告特征和负面舆情特征,构建该实体企业的多维画像。
优选的是,所述的疑似非法集资风险的预警方法,根据所述多维画像,计算实体企业的产品违约风险值、企业经营风险值、违规宣传风险值和负面舆情值,包括:
将所述产品特征、公司特征和互联网广告特征分别作为输入变量,输入到梯度上升决策树分类模型中,计算实体企业的产品违约风险值、企业经营风险值、违规宣传风险值;
将所述负面舆情特征作为输入变量,输入到负面舆情模型中,计算实体企业的负面舆情值。
优选的是,所述的疑似非法集资风险的预警方法,根据所述产品违约风险值、所述企业经营风险值、所述违规宣传风险值和所述负面舆情值,计算实体企业的综合风险值,包括,
采用逻辑回归模型,对所述产品违约风险值、所述企业经营风险值、所述违规宣传风险值和所述负面舆情值进行融合,计算实体企业的综合风险值,其中,逻辑回归模型的每个维度分别对应实体企业的所述产品违约风险值、所述企业经营风险值、所述违规宣传风险值和所述负面舆情值。
优选的是,所述的疑似非法集资风险的预警方法,所述产品特征包括,产品收益率、产品近一个月平均投资期限、风险评级上调/下调变化;所述公司特征包括,经营年限、注册资本、高管离职人次、子公司和分公司数量、经营异常记录数量、违法违规记录数量;所述互联网广告特征包括,广告投放量、弱煽动性广告数量、强煽动性广告数量、极强煽动性广告数量、违规保本或本息承诺数量;所述负面舆情特征包括,严重负面舆情文本数量、一般负面舆情文本数量。
本发明还提供一种疑似非法集资风险的预警装置,包括:
数据获取模块,用于从互联网公开数据中获取结构化数据和文本数据;
多维画像生成模块,用于根据所述结构化数据和所述文本数据,构建实体企业的多维画像;
风险值计算模块,用于根据所述多维画像,计算实体企业的产品违约风险值、企业经营风险值、违规宣传风险值和负面舆情值;
风险预警模块,用于根据所述产品违约风险值、所述企业经营风险值、所述违规宣传风险值和所述负面舆情值,计算实体企业的综合风险值,若所述综合风险值大于预设值,则发出疑似非法集资风险预警。
本发明还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时,实现权利要求1-6中任一项所述的疑似非法集资风险的预警方法的步骤。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现权利要求1-6中任一项所述的疑似非法集资风险的预警方法的步骤。
本发明至少包括以下有益效果:
第一、本发明的方法不依赖企业主动披露的财务数据,而是基于互联网公开数据,可对所有涉金融业务的实体企业展开监控,实现疑似非法集资风险的早期预警,适用于各种大数据场景下的企业风险识别和预警问题,对既有风险识别和预警方法做出补充。
第二、本发明将产品违约风险值、企业经营风险值、违规宣传风险值和负面舆情值的风险指标进行融合,使得最终的综合风险值具有较高的稳定性和可解释性。
第三、本发明的方法容易实现并行化计算,可以实现较高的检测效率。
本发明的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。
附图说明
图1是根据本发明一个实施例的预警方法的流程示意图;
图2是根据本发明一个实施例的预警装置的结构框图。
具体实施方式
下面结合实施例和附图对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本发明提供了一种疑似非法集资风险的预警方法,如图1所示,包括以下步骤:
S10、从互联网公开数据中获取结构化数据和文本数据;
本步骤中,结构化数据和文本数据直接从网页上采用Scrapy爬虫框架爬取;
S20、根据所述结构化数据和所述文本数据,构建实体企业的多维画像;
本步骤中,通过梳理典型非法集资案例中的结构化数据和文本数据,获取疑似非法集资企业的行为特征,从所述结构化数据和所述文本数据提取所述行为特征,构建实体企业的多维画像,其中,所述行为特征包括产品特征、公司特征、互联网广告特征和负面舆情特征;
S30、根据所述多维画像,计算实体企业的产品违约风险值、企业经营风险值、违规宣传风险值和负面舆情值;
本步骤中,在获取实体企业的多维画像后,根据产品特征计算得到产品的违约风险值,根据公司特征计算得到企业的经验风险值,根据互联网广告特征计算得到产品的违规宣传风险值,根据负面舆情特征,计算实体企业的负面舆情值;
S40、根据所述产品违约风险值、所述企业经营风险值、所述违规宣传风险值和所述负面舆情值,计算实体企业的综合风险值,若所述综合风险值大于预设值,则发出疑似非法集资风险预警。
本步骤中,实体企业的综合风险值可以是违约风险值、企业经营风险值、违规宣传风险值和负面舆情值相加之和,也可以是违约风险值、企业经营风险值、违规宣传风险值和负面舆情值的平均值或将违约风险值、企业经营风险值、违规宣传风险值和负面舆情值通过逻辑回归模型进行回归得到,预设值可根据典型非法集资案例的综合风险值确定,当综合风险值大于预设值时,判定该实体企业存在疑似非法集资,发出疑似非法集资风险预警,当综合风险值小于等于预设值,判定该实体企业不存在疑似非法集资,不发出疑似非法集资风险预警。
本技术方案中,通过从互联网公开网页上爬取结构化数据和文本数据,梳理典型非法集资案例中的结构化数据和文本数据,获取疑似非法集资企业的行为特征,构建实体企业的多维画像,从产品违约风险、企业经营风险、违规宣传风险和负面舆情四个维度对实体企业的疑似非法集资风险进行评估,即本技术方案不依赖企业主动披露的财务数据,而是基于互联网网页公开信息,可对所有涉金融业务的实体企业展开监控,实现疑似非法集资风险的早期预警,适用于各种大数据场景下的企业风险识别和预警问题,对既有风险识别和预警方法做出补充。
在一个实施例中,从互联网公开数据中获取结构化数据和文本数据,包括:
确定所述互联网公开数据的数据来源,包括新闻媒体、社交媒体、第三方信息披露平台和第三方商业数据库;
从所述新闻媒体、社交媒体、第三方信息披露平台和第三方商业数据库中获取包括企业信息数据、产品信息数据、互联网广告信息数据和互联网评论信息数据的结构化数据和文本数据。
本实施例中,根据从事非法集资活动常用的项目融资、理财产品、互联网金融产品等集资方式和产品形态,分析识别企业疑似非法集资风险的重要因素,确定4类需要收集的信息类别和4类公开互联网数据源;具体的信息类别包括产品信息、企业信息、互联网广告信息和互联网评论信息;具体的互联网数据源包括新闻媒体、社交媒体、第三方信息披露平台和第三方商业数据库。
在一个实施例中,根据所述结构化数据和所述文本数据,构建实体企业的多维画像,包括:
获取全国涉金融业务的实体企业名录,将所述结构化数据和所述文本数据与实体企业相映射,构建与实体企业相关联的互联网公开信息数据库,生成实体企业索引;
构建金融文本分类模型,对所述数据库中的文本数据进行分类,并过滤所述数据库中的非金融文本数据;
根据所述实体企业索引,从所述数据库中提取与该实体企业相关的产品特征、公司特征、互联网广告特征和负面舆情特征,构建该实体企业的多维画像。
本实施例中,从企业注册信息平台上爬取全国涉金融业务的实体企业名录,构建与实体企业相映射的互联网公开信息数据库,生成实体企业索引;利用互联网渠道金融类文本与非金融类文本的语料库,构建基于词特征的金融文本分类模型,对获取的文本数据进行金融/非金融文本分类,过滤掉数据库中的非金融文本数据;再依据数据库中的金融文本数据以及其他结构化数据,提取用于识别企业疑似非法集资风险的重要因素,构建包含产品特征、公司特征、互联网广告特征和负面舆情特征的涉金融业务的实体企业的多维画像,其中,产品特征的提取方法包括:1)直接从网页,如网贷之家、网贷天眼等网络借贷产品信息平台上爬取;2)利用正则表达式从互联网文本中提取并进行计算或换算;3)从第三方商业数据库中下载;公司特征的提取方法包括:1)直接从网页,如天眼查等企业信息平台上爬取并统计;互联网广告特征提取方法包括:1)构建基于文本挖掘的“广告/非广告”分类模型和“强煽动性广告/强煽动性广告/弱煽动性广告”分类模型,根据分类结果进行统计;2)利用正则表达式和从互联网文本中提取并统计;负面舆情特征的提取方法包括:获取已经定性的非法集资实体企业名录,从所述数据库中提取与所述非法集资实体企业名录相映射的金融文本数据并构建负面舆情中文词典,并标注词汇的负面程度等级 (一般负面和严重负面),根据所述词汇在所述数据库中的金融文本中的命中情况,按照负面程度,分类统计文本数量。
在一个实施例中,根据所述多维画像,计算实体企业的产品违约风险值、企业经营风险值、违规宣传风险值和负面舆情值,包括:
将所述产品特征、公司特征和互联网广告特征分别作为输入变量,输入到梯度上升决策树分类模型中,计算实体企业的产品违约风险值、企业经营风险值、违规宣传风险值;
将所述负面舆情特征作为输入变量,输入到负面舆情模型中,计算实体企业的负面舆情值。
本实施例中,依据不同的企业画像维度,分别构建风险模型,其中,产品违约风险建模:将产品特征中的产品收益率、产品近一个月平均投资期限、产品外部风险评级的级别变化(评级上调、评级不变、评级下调)作为输入特征,输入到梯度上升决策树分类模型中,计算产品违约风险值;将公司特征中的经营年限、注册资本、高管离职人次、子公司和分公司数量、经营异常记录数量、违法违规记录数量作为输入特征,输入到梯度上升决策树分类模型中,计算企业经营风险值;将互联网广告特征中的各渠道广告投放量、弱煽动性广告数量、强煽动性广告数量、极强煽动性广告数量、违规保本或本息承诺数量作为输入特征,输入到梯度上升决策树分类模型中,计算违规宣传风险值;将负面舆情特征中的严重负面舆情文本数量和一般负面舆情文本数量作为输入特征,输入到负面舆情模型中,计算实体企业的负面舆情值,具体的,本实施例使用的负面舆情模型为:实体企业负面舆情值=一般负面舆情文本数量+权重*严重负面舆情文本数量,权重可根据典型非法集资案例的企业负面舆情值确定。
在一个实施例中,根据所述产品违约风险值、所述企业经营风险值、所述违规宣传风险值和所述负面舆情值,计算实体企业的综合风险值,包括,
采用逻辑回归模型,对所述产品违约风险值、所述企业经营风险值、所述违规宣传风险值和所述负面舆情值进行融合,计算实体企业的综合风险值,其中,逻辑回归模型的每个维度分别对应实体企业的所述产品违约风险值、所述企业经营风险值、所述违规宣传风险值和所述负面舆情值。
本实施例中,优选了一种实体企业综合风险值的计算方法,具体为,借助逻辑回归模型,对涉金融业务的实体企业的产品违约风险值、企业经营风险值、违规宣传风险值和负面舆情值进行融合,逻辑回归模型的每个维度分别对应实体企业的产品违约风险值、企业经营风险值、违规宣传风险值和负面舆情值,逻辑回归模型使用前需进行训练,具体为,将已经被监管部门定性的非法集资实体企业标注为正类样本,将人工审核为无疑似非法集资风险的实体企业标注为负类样本,使用正类样本和负类样本对逻辑回归模型进行训练,再用训练好的逻辑回归模型对待识别实体企业的违约风险值、企业经营风险值、违规宣传风险值和负面舆情值进行回归,得到待识别企业的综合风险值。通过将产品违约风险值、企业经营风险值、违规宣传风险值和负面舆情值的风险指标利用逻辑回归模型进行融合,使得最终的综合风险值具有较高的稳定性和可解释性。
在一个实施例中,所述产品特征包括产品收益率、产品近一个月平均投资期限、风险评级上调/下调变化;所述公司特征包括经营年限、注册资本、高管离职人次、子公司和分公司数量、经营异常记录数量、违法违规记录数量;所述互联网广告特征包括,广告投放量、弱煽动性广告数量、强煽动性广告数量、极强煽动性广告数量、违规保本或本息承诺数量;所述负面舆情特征包括,严重负面舆情文本数量、一般负面舆情文本数量。
本实施例中,产品特征的提取方法包括:1)直接从网页,如网贷之家、网贷天眼等网络借贷产品信息平台上爬取;2)利用正则表达式从互联网文本中提取并进行计算或换算;3)从第三方商业数据库中下载;公司特征的提取方法包括:1)直接从网页,如天眼查等企业信息平台上爬取并统计;互联网广告特征提取方法包括:1)构建基于文本挖掘的“广告/非广告”分类模型和“强煽动性广告/强煽动性广告/弱煽动性广告”分类模型,根据分类结果进行统计;2)利用正则表达式和从互联网文本中提取并统计;负面舆情特征的提取方法包括:获取已经定性的非法集资实体企业名录,从所述数据库中提取与所述非法集资实体企业名录相映射的金融文本数据并构建用于表达企业存在疑似非法集资风险的负面舆情中文词典,并标注词汇的负面程度等级(一般负面舆情和严重负面舆情),例如,“爆雷”、“崩盘”、“逮捕”、“非法获利”等为严重负面舆情词汇;“拆分理财”、“老赖”、“追缴”、“资产不透明”等为一般负面舆情词汇,根据所述词汇在所述数据库中的金融文本中的命中情况,判断其是否属于负面舆情文本,若金融文本中出现严重负面舆情词汇,则判定该条金融文本为严重负面舆情文本,若金融文本中仅出现一般负面舆情词汇,则判定该条金融文本为一般负面舆情文本,若金融文本中未出现词典中的词汇,则判定为非负面舆情文本,按照负面程度等级,分类统计严重负面舆情文本数量和一般负面舆情文本数量。
本发明还提供一种疑似非法集资风险的预警装置,如图2所示,包括:
数据获取模块10,用于从互联网公开数据中获取结构化数据和文本数据;
多维画像生成模块20,用于根据所述结构化数据和所述文本数据,构建实体企业的多维画像;
风险值计算模块30,用于根据所述多维画像,计算实体企业的产品违约风险值、企业经营风险值、违规宣传风险值和负面舆情值;
风险预警模块40,用于根据所述产品违约风险值、所述企业经营风险值、所述违规宣传风险值和所述负面舆情值,计算实体企业的综合风险值,若所述综合风险值大于预设值,则发出疑似非法集资风险预警。
在一个实施例中,所述数据获取模块10用于确定所述互联网公开数据的数据来源,包括新闻媒体、社交媒体、第三方信息披露平台和第三方商业数据库;并从所述新闻媒体、社交媒体、第三方信息披露平台和第三方商业数据库中获取包括企业信息数据、产品信息数据、互联网广告信息数据和互联网评论信息数据的结构化数据和文本数据。
在一个实施例中,所述多维画像生成模块20用于获取全国涉金融业务的实体企业名录,将所述结构化数据和所述文本数据与实体企业相映射,构建与实体企业相关联的互联网公开信息数据库,生成实体企业索引;构建金融文本分类模型,对所述数据库中的文本数据进行分类,并过滤所述数据库中的非金融文本数据;并根据所述实体企业索引,从所述数据库中提取与该实体企业相关的产品特征、公司特征、互联网广告特征和负面舆情特征,构建该实体企业的多维画像。
在一个实施例中,所述风险值计算模块30用于将所述产品特征、公司特征和互联网广告特征分别作为输入变量,输入到梯度上升决策树分类模型中,计算实体企业的产品违约风险值、企业经营风险值、违规宣传风险值;将所述负面舆情特征作为输入变量,输入到负面舆情模型中,计算实体企业的负面舆情值。
在一个实施例中,所述风险预警模块40用于采用逻辑回归模型,对所述产品违约风险值、所述企业经营风险值、所述违规宣传风险值和所述负面舆情值进行融合,计算实体企业的综合风险值,并将所述综合风险值与预设值进行比较,若所述综合风险值大于预设值,则发出疑似非法集资风险预警,其中,逻辑回归模型的每个维度分别对应实体企业的所述产品违约风险值、所述企业经营风险值、所述违规宣传风险值和所述负面舆情值。
在一个实施例中,所述产品特征包括,产品收益率、产品近一个月平均投资期限、风险评级上调/下调变化;所述公司特征包括,经营年限、注册资本、高管离职人次、子公司和分公司数量、经营异常记录数量、违法违规记录数量;所述互联网广告特征包括,广告投放量、弱煽动性广告数量、强煽动性广告数量、极强煽动性广告数量、违规保本或本息承诺数量;所述负面舆情特征包括,严重负面舆情文本数量、一般负面舆情文本数量。
本发明还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时,实现以下步骤:
从互联网公开数据中获取结构化数据和文本数据;
根据所述结构化数据和所述文本数据,构建实体企业的多维画像;
根据所述多维画像,计算实体企业的产品违约风险值、企业经营风险值、违规宣传风险值和负面舆情值;
根据所述产品违约风险值、所述企业经营风险值、所述违规宣传风险值和所述负面舆情值,计算实体企业的综合风险值,若所述综合风险值大于预设值,则发出疑似非法集资风险预警。
在一个实施例中,所述处理器执行所述计算机程序实现确定所述互联网公开数据的数据来源,包括新闻媒体、社交媒体、第三方信息披露平台和第三方商业数据库;并从所述新闻媒体、社交媒体、第三方信息披露平台和第三方商业数据库中获取包括企业信息数据、产品信息数据、互联网广告信息数据和互联网评论信息数据的结构化数据和文本数据。
在一个实施例中,所述处理器执行所述计算机程序实现获取全国涉金融业务的实体企业名录,将所述结构化数据和所述文本数据与实体企业相映射,构建与实体企业相关联的互联网公开信息数据库,生成实体企业索引;构建金融文本分类模型,对所述数据库中的文本数据进行分类,并过滤所述数据库中的非金融文本数据;并根据所述实体企业索引,从所述数据库中提取与该实体企业相关的产品特征、公司特征、互联网广告特征和负面舆情特征,构建该实体企业的多维画像。
在一个实施例中,所述处理器执行所述计算机程序实现将所述产品特征、公司特征和互联网广告特征分别作为输入变量,输入到梯度上升决策树分类模型中,计算实体企业的产品违约风险值、企业经营风险值、违规宣传风险值;将所述负面舆情特征作为输入变量,输入到负面舆情模型中,计算实体企业的负面舆情值。
在一个实施例中,所述处理器执行所述计算机程序实现采用逻辑回归模型,对所述产品违约风险值、所述企业经营风险值、所述违规宣传风险值和所述负面舆情值进行融合,计算实体企业的综合风险值,并将所述综合风险值与预设值进行比较,若所述综合风险值大于预设值,则发出疑似非法集资风险预警,其中,逻辑回归模型的每个维度分别对应实体企业的所述产品违约风险值、所述企业经营风险值、所述违规宣传风险值和所述负面舆情值。
在一个实施例中,所述产品特征包括,产品收益率、产品近一个月平均投资期限、风险评级上调/下调变化;所述公司特征包括,经营年限、注册资本、高管离职人次、子公司和分公司数量、经营异常记录数量、违法违规记录数量;所述互联网广告特征包括,广告投放量、弱煽动性广告数量、强煽动性广告数量、极强煽动性广告数量、违规保本或本息承诺数量;所述负面舆情特征包括,严重负面舆情文本数量、一般负面舆情文本数量。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现以下步骤:
从互联网公开数据中获取结构化数据和文本数据;
根据所述结构化数据和所述文本数据,构建实体企业的多维画像;
根据所述多维画像,计算实体企业的产品违约风险值、企业经营风险值、违规宣传风险值和负面舆情值;
根据所述产品违约风险值、所述企业经营风险值、所述违规宣传风险值和所述负面舆情值,计算实体企业的综合风险值,若所述综合风险值大于预设值,则发出疑似非法集资风险预警。
在一个实施例中,所述计算机程序被处理器执行时实现确定所述互联网公开数据的数据来源,包括新闻媒体、社交媒体、第三方信息披露平台和第三方商业数据库;并从所述新闻媒体、社交媒体、第三方信息披露平台和第三方商业数据库中获取包括企业信息数据、产品信息数据、互联网广告信息数据和互联网评论信息数据的结构化数据和文本数据。
在一个实施例中,所述计算机程序被处理器执行时实现获取全国涉金融业务的实体企业名录,将所述结构化数据和所述文本数据与实体企业相映射,构建与实体企业相关联的互联网公开信息数据库,生成实体企业索引;构建金融文本分类模型,对所述数据库中的文本数据进行分类,并过滤所述数据库中的非金融文本数据;并根据所述实体企业索引,从所述数据库中提取与该实体企业相关的产品特征、公司特征、互联网广告特征和负面舆情特征,构建该实体企业的多维画像。
在一个实施例中,所述计算机程序被处理器执行时实现将所述产品特征、公司特征和互联网广告特征分别作为输入变量,输入到梯度上升决策树分类模型中,计算实体企业的产品违约风险值、企业经营风险值、违规宣传风险值;将所述负面舆情特征作为输入变量,输入到负面舆情模型中,计算实体企业的负面舆情值。
在一个实施例中,所述计算机程序被处理器执行时实现采用逻辑回归模型,对所述产品违约风险值、所述企业经营风险值、所述违规宣传风险值和所述负面舆情值进行融合,计算实体企业的综合风险值,并将所述综合风险值与预设值进行比较,若所述综合风险值大于预设值,则发出疑似非法集资风险预警,其中,逻辑回归模型的每个维度分别对应实体企业的所述产品违约风险值、所述企业经营风险值、所述违规宣传风险值和所述负面舆情值。
在一个实施例中,所述产品特征包括,产品收益率、产品近一个月平均投资期限、风险评级上调/下调变化;所述公司特征包括,经营年限、注册资本、高管离职人次、子公司和分公司数量、经营异常记录数量、违法违规记录数量;所述互联网广告特征包括,广告投放量、弱煽动性广告数量、强煽动性广告数量、极强煽动性广告数量、违规保本或本息承诺数量;所述负面舆情特征包括,严重负面舆情文本数量、一般负面舆情文本数量。
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。
Claims (9)
1.疑似非法集资风险的预警方法,其特征在于,包括:
从互联网公开数据中获取结构化数据和文本数据;
根据所述结构化数据和所述文本数据,构建实体企业的多维画像;
根据所述多维画像,计算实体企业的产品违约风险值、企业经营风险值、违规宣传风险值和负面舆情值;
根据所述产品违约风险值、所述企业经营风险值、所述违规宣传风险值和所述负面舆情值,计算实体企业的综合风险值,若所述综合风险值大于预设值,则发出疑似非法集资风险预警。
2.如权利要求1所述的疑似非法集资风险的预警方法,其特征在于,从互联网公开数据中获取结构化数据和文本数据,包括:
确定所述互联网公开数据的数据来源,包括新闻媒体、社交媒体、第三方信息披露平台和第三方商业数据库;
从所述新闻媒体、社交媒体、第三方信息披露平台和第三方商业数据库中获取包括企业信息数据、产品信息数据、互联网广告信息数据和互联网评论信息数据的结构化数据和文本数据。
3.如权利要求2所述的疑似非法集资风险的预警方法,其特征在于,根据所述结构化数据和所述文本数据,构建实体企业的多维画像,包括:
获取全国涉金融业务的实体企业名录,将所述结构化数据和所述文本数据与实体企业相映射,构建与实体企业相关联的互联网公开信息数据库,生成实体企业索引;
构建金融文本分类模型,对所述数据库中的文本数据进行分类,并过滤所述数据库中的非金融文本数据;
根据所述实体企业索引,从所述数据库中提取与该实体企业相关的产品特征、公司特征、互联网广告特征和负面舆情特征,构建该实体企业的多维画像。
4.如权利要求3所述的疑似非法集资风险的预警方法,其特征在于,根据所述多维画像,计算实体企业的产品违约风险值、企业经营风险值、违规宣传风险值和负面舆情值,包括:
将所述产品特征、公司特征和互联网广告特征分别作为输入变量,输入到梯度上升决策树分类模型中,计算实体企业的产品违约风险值、企业经营风险值、违规宣传风险值;
将所述负面舆情特征作为输入变量,输入到负面舆情模型中,计算实体企业的负面舆情值。
5.如权利要求4所述的疑似非法集资风险的预警方法,其特征在于,根据所述产品违约风险值、所述企业经营风险值、所述违规宣传风险值和所述负面舆情值,计算实体企业的综合风险值,包括,
采用逻辑回归模型,对所述产品违约风险值、所述企业经营风险值、所述违规宣传风险值和所述负面舆情值进行融合,计算实体企业的综合风险值,其中,逻辑回归模型的每个维度分别对应实体企业的所述产品违约风险值、所述企业经营风险值、所述违规宣传风险值和所述负面舆情值。
6.如权利要求3所述的疑似非法集资风险的预警方法,其特征在于,所述产品特征包括,产品收益率、产品近一个月平均投资期限、风险评级上调/下调变化;所述公司特征包括,经营年限、注册资本、高管离职人次、子公司和分公司数量、经营异常记录数量、违法违规记录数量;所述互联网广告特征包括,广告投放量、弱煽动性广告数量、强煽动性广告数量、极强煽动性广告数量、违规保本或本息承诺数量;所述负面舆情特征包括,严重负面舆情文本数量、一般负面舆情文本数量。
7.疑似非法集资风险的预警装置,其特征在于,包括:
数据获取模块,用于从互联网公开数据中获取结构化数据和文本数据;
多维画像生成模块,用于根据所述结构化数据和所述文本数据,构建实体企业的多维画像;
风险值计算模块,用于根据所述多维画像,计算实体企业的产品违约风险值、企业经营风险值、违规宣传风险值和负面舆情值;
风险预警模块,用于根据所述产品违约风险值、所述企业经营风险值、所述违规宣传风险值和所述负面舆情值,计算实体企业的综合风险值,若所述综合风险值大于预设值,则发出疑似非法集资风险预警。
8.计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时,实现权利要求1-6中任一项所述的疑似非法集资风险的预警方法的步骤。
9.计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现权利要求1-6中任一项所述的疑似非法集资风险的预警方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910833127.4A CN110704572B (zh) | 2019-09-04 | 2019-09-04 | 疑似非法集资风险的预警方法、装置、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910833127.4A CN110704572B (zh) | 2019-09-04 | 2019-09-04 | 疑似非法集资风险的预警方法、装置、设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110704572A true CN110704572A (zh) | 2020-01-17 |
CN110704572B CN110704572B (zh) | 2021-03-16 |
Family
ID=69194251
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910833127.4A Active CN110704572B (zh) | 2019-09-04 | 2019-09-04 | 疑似非法集资风险的预警方法、装置、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110704572B (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111353716A (zh) * | 2020-03-05 | 2020-06-30 | 苏宁金融科技(南京)有限公司 | 一种非法集资检测方法、系统及计算机可读存储介质 |
CN111369369A (zh) * | 2020-03-16 | 2020-07-03 | 中科天玑数据科技股份有限公司 | 一种微盘交易平台监控系统和方法 |
CN111583012A (zh) * | 2020-03-23 | 2020-08-25 | 北京航空航天大学 | 融合文本信息的信用债发债主体违约风险评估方法 |
CN111709841A (zh) * | 2020-04-29 | 2020-09-25 | 国家计算机网络与信息安全管理中心 | 非法集资的识别方法和装置、存储介质、电子装置 |
CN111914542A (zh) * | 2020-05-21 | 2020-11-10 | 国家计算机网络与信息安全管理中心 | 疑似非法集资市场主体识别方法、装置、终端及存储介质 |
CN111967802A (zh) * | 2020-09-25 | 2020-11-20 | 杭州安恒信息安全技术有限公司 | 一种企业金融风险定量分析和预警方法、装置及设备 |
CN112150294A (zh) * | 2020-10-12 | 2020-12-29 | 中国农业银行股份有限公司 | 针对非法集资的识别方法、装置及电子设备 |
CN112182246A (zh) * | 2020-09-28 | 2021-01-05 | 上海市浦东新区行政服务中心(上海市浦东新区市民中心) | 通过大数据分析建立企业画像的方法、系统、介质及应用 |
CN112907101A (zh) * | 2021-03-09 | 2021-06-04 | 山大地纬软件股份有限公司 | 一种企业非法集资行为风险预警方法及系统 |
CN113297283A (zh) * | 2020-11-12 | 2021-08-24 | 苏宁金融科技(南京)有限公司 | 用于企业风险预警的舆情分析方法及系统 |
CN113505221A (zh) * | 2020-03-24 | 2021-10-15 | 国家计算机网络与信息安全管理中心 | 一种企业虚假宣传风险识别方法、设备和存储介质 |
CN113538134A (zh) * | 2021-07-27 | 2021-10-22 | 天元大数据信用管理有限公司 | 一种区域风险蔓延监测的方法、设备及介质 |
CN113780604A (zh) * | 2020-05-22 | 2021-12-10 | 杭州衡泰软件有限公司 | 一种复合企业信用预警系统及方法 |
CN115277121A (zh) * | 2022-07-12 | 2022-11-01 | 山西西电信息技术研究院有限公司 | 一种基于互联网的社交网络安全监测系统及方法 |
CN115907568A (zh) * | 2023-02-27 | 2023-04-04 | 北京金信网银金融信息服务有限公司 | 一种基于冒烟指数的非法金融活动监测方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070208600A1 (en) * | 2006-03-01 | 2007-09-06 | Babus Steven A | Method and apparatus for pre-emptive operational risk management and risk discovery |
CN102339415A (zh) * | 2010-07-22 | 2012-02-01 | 北京市药品监督管理局药品认证管理中心 | 药品生产经营企业风险评估系统 |
CN108921456A (zh) * | 2018-08-21 | 2018-11-30 | 深圳市人民政府金融发展服务办公室 | 风险评估方法、装置及计算机可读存储介质 |
US20190080399A1 (en) * | 2017-09-12 | 2019-03-14 | Pramod Jain | Automated collateral risk and business performance assessment system |
CN109523153A (zh) * | 2018-11-12 | 2019-03-26 | 平安科技(深圳)有限公司 | 非法集资企业的获取方法、装置、计算机设备和存储介质 |
CN109816272A (zh) * | 2019-02-25 | 2019-05-28 | 北京工商大学 | 受限信息条件下科技型上市企业财务风险预警方法 |
-
2019
- 2019-09-04 CN CN201910833127.4A patent/CN110704572B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070208600A1 (en) * | 2006-03-01 | 2007-09-06 | Babus Steven A | Method and apparatus for pre-emptive operational risk management and risk discovery |
CN102339415A (zh) * | 2010-07-22 | 2012-02-01 | 北京市药品监督管理局药品认证管理中心 | 药品生产经营企业风险评估系统 |
US20190080399A1 (en) * | 2017-09-12 | 2019-03-14 | Pramod Jain | Automated collateral risk and business performance assessment system |
CN108921456A (zh) * | 2018-08-21 | 2018-11-30 | 深圳市人民政府金融发展服务办公室 | 风险评估方法、装置及计算机可读存储介质 |
CN109523153A (zh) * | 2018-11-12 | 2019-03-26 | 平安科技(深圳)有限公司 | 非法集资企业的获取方法、装置、计算机设备和存储介质 |
CN109816272A (zh) * | 2019-02-25 | 2019-05-28 | 北京工商大学 | 受限信息条件下科技型上市企业财务风险预警方法 |
Non-Patent Citations (1)
Title |
---|
杜建徽: ""类金融企业的异质性及其对防范民间金融风险的启示"", 《上海经济》 * |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111353716A (zh) * | 2020-03-05 | 2020-06-30 | 苏宁金融科技(南京)有限公司 | 一种非法集资检测方法、系统及计算机可读存储介质 |
CN111369369A (zh) * | 2020-03-16 | 2020-07-03 | 中科天玑数据科技股份有限公司 | 一种微盘交易平台监控系统和方法 |
CN111583012B (zh) * | 2020-03-23 | 2021-09-21 | 北京航空航天大学 | 融合文本信息的信用债发债主体违约风险评估方法 |
CN111583012A (zh) * | 2020-03-23 | 2020-08-25 | 北京航空航天大学 | 融合文本信息的信用债发债主体违约风险评估方法 |
CN113505221B (zh) * | 2020-03-24 | 2024-03-12 | 国家计算机网络与信息安全管理中心 | 一种企业虚假宣传风险识别方法、设备和存储介质 |
CN113505221A (zh) * | 2020-03-24 | 2021-10-15 | 国家计算机网络与信息安全管理中心 | 一种企业虚假宣传风险识别方法、设备和存储介质 |
CN111709841A (zh) * | 2020-04-29 | 2020-09-25 | 国家计算机网络与信息安全管理中心 | 非法集资的识别方法和装置、存储介质、电子装置 |
CN111914542A (zh) * | 2020-05-21 | 2020-11-10 | 国家计算机网络与信息安全管理中心 | 疑似非法集资市场主体识别方法、装置、终端及存储介质 |
CN113780604A (zh) * | 2020-05-22 | 2021-12-10 | 杭州衡泰软件有限公司 | 一种复合企业信用预警系统及方法 |
CN111967802A (zh) * | 2020-09-25 | 2020-11-20 | 杭州安恒信息安全技术有限公司 | 一种企业金融风险定量分析和预警方法、装置及设备 |
CN112182246A (zh) * | 2020-09-28 | 2021-01-05 | 上海市浦东新区行政服务中心(上海市浦东新区市民中心) | 通过大数据分析建立企业画像的方法、系统、介质及应用 |
CN112182246B (zh) * | 2020-09-28 | 2022-01-11 | 上海市浦东新区行政服务中心(上海市浦东新区市民中心) | 通过大数据分析建立企业画像的方法、系统、介质及应用 |
CN112150294B (zh) * | 2020-10-12 | 2023-10-13 | 中国农业银行股份有限公司 | 针对非法集资的识别方法、装置及电子设备 |
CN112150294A (zh) * | 2020-10-12 | 2020-12-29 | 中国农业银行股份有限公司 | 针对非法集资的识别方法、装置及电子设备 |
CN113297283A (zh) * | 2020-11-12 | 2021-08-24 | 苏宁金融科技(南京)有限公司 | 用于企业风险预警的舆情分析方法及系统 |
CN112907101A (zh) * | 2021-03-09 | 2021-06-04 | 山大地纬软件股份有限公司 | 一种企业非法集资行为风险预警方法及系统 |
CN113538134A (zh) * | 2021-07-27 | 2021-10-22 | 天元大数据信用管理有限公司 | 一种区域风险蔓延监测的方法、设备及介质 |
CN113538134B (zh) * | 2021-07-27 | 2024-04-16 | 天元大数据信用管理有限公司 | 一种区域风险蔓延监测的方法、设备及介质 |
CN115277121A (zh) * | 2022-07-12 | 2022-11-01 | 山西西电信息技术研究院有限公司 | 一种基于互联网的社交网络安全监测系统及方法 |
CN115277121B (zh) * | 2022-07-12 | 2023-12-29 | 山西西电信息技术研究院有限公司 | 一种基于互联网的社交网络安全监测系统及方法 |
CN115907568A (zh) * | 2023-02-27 | 2023-04-04 | 北京金信网银金融信息服务有限公司 | 一种基于冒烟指数的非法金融活动监测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110704572B (zh) | 2021-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110704572B (zh) | 疑似非法集资风险的预警方法、装置、设备和存储介质 | |
CN110223168B (zh) | 一种基于企业关系图谱的标签传播反欺诈检测方法及系统 | |
CN112632405B (zh) | 一种推荐方法、装置、设备及存储介质 | |
CN112182246B (zh) | 通过大数据分析建立企业画像的方法、系统、介质及应用 | |
CN108572967A (zh) | 一种创建企业画像的方法及装置 | |
CN112419029B (zh) | 类金融机构风险监控方法、风险模拟系统及存储介质 | |
CN110633316A (zh) | 一种多场景融合双随机市场监管方法 | |
CN115907568A (zh) | 一种基于冒烟指数的非法金融活动监测方法及系统 | |
CN116402512B (zh) | 一种基于人工智能的账户安全排查管理方法 | |
CN113723737A (zh) | 一种基于企业画像的政策匹配方法、装置、设备及介质 | |
CN113901308A (zh) | 基于知识图谱的企业推荐方法及推荐装置、电子设备 | |
CN115456745A (zh) | 小微企业画像构建方法及装置 | |
Huang et al. | View analysis of personal information leakage and privacy protection in big data era—based on Q method | |
CN112132368A (zh) | 信息处理方法以及装置、计算设备、存储介质 | |
CN106202299A (zh) | 一种基于残疾人特征的残疾人权威用户推荐方法 | |
CN112950359A (zh) | 一种用户识别方法和装置 | |
CN117114812A (zh) | 一种针对企业的金融产品推荐方法及装置 | |
Wang et al. | E-business websites evaluation based on opinion mining | |
KR20210001625A (ko) | 뉴스 기사의 감성 정보 레이블링에 기초한 기업 부실 정보 서비스 제공 방법 및 그 장치 | |
CN116308416A (zh) | 一种空壳企业识别方法及系统 | |
KR20210001649A (ko) | 기업 부실 예측 프로그램 | |
CN116049243A (zh) | 企业知识产权大数据情报分析系统、方法及存储介质 | |
KR20210001707A (ko) | 뉴스 기사의 감성 정보 레이블링에 기초한 기업 부실 정보 서비스 제공 장치 | |
KR20210001686A (ko) | 뉴스 기사 레이블링 기반 기업 부실 예측 정보 서비스 제공 프로그램 | |
KR20210001693A (ko) | 뉴스 기사 레이블링 기반 기업 부실 예측 정보 서비스 제공 프로그램 기록매체 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |