CN115907568A - 一种基于冒烟指数的非法金融活动监测方法及系统 - Google Patents
一种基于冒烟指数的非法金融活动监测方法及系统 Download PDFInfo
- Publication number
- CN115907568A CN115907568A CN202310166043.6A CN202310166043A CN115907568A CN 115907568 A CN115907568 A CN 115907568A CN 202310166043 A CN202310166043 A CN 202310166043A CN 115907568 A CN115907568 A CN 115907568A
- Authority
- CN
- China
- Prior art keywords
- enterprise
- risk
- data
- illegal
- events
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种基于冒烟指数的非法金融活动监测方法及系统,所述方法包括:1.1:获取被监测企业基本数据并形成数据库;1.2:抽取样本,通过时间序列分析、提取关键词,在非法性、利诱性、公开性、特征性、规模指数标签维度下再进一步归类形成子标签,得到非法金融活动的标签体系;提取当前企业自身风险特征和关联风险特征并与所述子标签匹配形成当前被企业的企业风险标签;1.3:对企业风险标签进行评分,得到被监测企业疑似非法金融活动阶段等级和计算等级区间分数,相加形成冒烟指数,得到冒烟指数结果的标签体系模型为冒烟指数模型。本发明通过冒烟指数模型结合互联网金融自身特点量化金融风险,有效辅助政府金融风险防控工作顺利开展。
Description
技术领域
本发明涉及地方政府对非法金融活动防控领域,具体涉及一种基于冒烟指数的非法金融活动监测方法及系统。
背景技术
专利CN115345401提供了一种发现企业金融风险的六维分析方法,从规模、舆情、关联、运营、司法角度对企业金融风险进行判定,该发明从对企业金融风险衡量的传统指标,即企业的规模、舆情、关联、运营、司法角度实现对企业金融风险的监管,对非法金融活动本身存在的金融风险特点未进行设计,例如:宣传承诺(高)收益、(高)回报或返利;以及企业是否进行不设门槛的公众宣传等风险特点对企业的金融风险进行判定。因此,现有技术并不能解决对现有非法金融活动、特别是隐匿性高、新兴行业的非法金融活动的监管需求。
发明内容
为了解决现有技术中对当前非法金融活动只通过衡量企业金融风险的传统指标对非法金融活动进行监测,对非法金融活动本身存在的金融风险的特点并未纳入企业金融风险监管体系的问题,提出了一种基于冒烟指数的非法金融活动监测方法及系统。
具体方案如下所述:
一种基于冒烟指数的非法金融活动监测方法,包括以下步骤:
1.1:从企业全生命周期互联网公开数据中获取被监测企业基本数据并形成数据库,所述基本数据包括:企业事件和企业基本信息;所述企业事件包括:企业风险专项事件、企业宣传事件、企业投诉事件、企业政务事件、企业经营事件、企业舆情事件;
1.2:抽取1.1中的所述数据库中的历史被监测企业的数据作为样本,通过时间序列分析对样本中的事件进行时间排序,提取所述事件中与企业非法金融活动有关的关键词,在非法性、利诱性、公开性、特征性、规模指数五个标签维度下通过总结关键词并归类以作为子标签,得到非法金融活动的标签体系,依据评分卡模型对标签体系建立评分机制,得到标签体系模型;从1.1中获得当前被检测企业的数据,进一步提取每个事件中与非法经营活动或企业异常行为相关的风险类关键词作为当前企业自身风险特征,同时利用知识图谱关联人和企业分析得到被监测企业关联风险下的当前企业关联风险特征,使上述风险特征与所述子标签通过正则表达式进行匹配,最终形成当前被监测企业在五个维度下的企业风险标签;所述利诱性标签代表高利息、高回报吸引投资者事件;所述公开性标签代表企业通过互联网公开渠道不设门槛的对公众进行宣传事件;
1.3:依据评分卡模型对1.2中企业风险标签进行评分,得到被监测企业疑似非法金融活动阶段等级和计算等级区间分数,疑似非法金融活动阶段等级的基础分数与等级区间分数相加形成冒烟指数,得到冒烟指数结果的标签体系模型为冒烟指数模型,并在可视化界面进行展示。
优选地,1.1中所述数据库中被监测企业基本数据还包括本地特有政务数据。
优选地,1.1中所述的企业风险专项事件包括企业高风险、黑名单、立案专项收集事件;所述企业宣传事件包括搜索引擎投放广告,各事件网站投放的产品宣传事件。
优选地,1.1中所述获取被监测企业基本数据并形成数据库的方法,步骤包括:
S1:利用爬虫工具采集网页数据并形成企业事件,采集步骤包括:发送请求,获取网页素材,解析源码,生成结构化数据,最终形成企业事件;
S2:对所述企业事件进行数据清洗和图片处理得到处理后的数据;所述图片处理通过计算机视觉技术对二维码图片进行识别,查询IP、所属IP以及对应企业主体;
S3:将数据储存在数据库。
优选地,1.2中所述非法性标签代表企业非法经营活动事件,所述非法经营活动事件包括:被监测企业行政处罚或违法事件、是否具有金融从业许可、工商部门经营异常,严重违法。
优选地,1.2中所述特征性标签代表企业存在特征性金融风险事件,所述特征性金融风险事件包括:频繁变更工商事件,招募大量金融从业人员,集中扩张行为,具备吸金模式特点事件。
优选地,1.2中所述规模指数标签代表企业体量,分支量,对外投资企业数量,宣传招聘判断企业的规模影响力。
优选地,1.2中利用非法金融活动的标签体系形成当前被监测企业的所述企业风险标签的方法为:
8.1:利用1.1中的所述数据库中事件的文本数据通过Bert文本分类模型进行主题分类,筛选出涉金融类信息数据,从所述五个维度对事件进行分类,利用关键词和正则规则对提取事件自身风险特征并与所述子标签进行匹配;
8.2:通过Bert实体抽取模型抽取事件文本数据中的实体,通过实体映射库得出事件主体,并将事件主体作为企业风险标签中的数据主体标签;
8.3:利用知识图谱关联人和企业分析得到被监测企业的关联风险特征并与所述子标签进行匹配;
8.4:同时,对于1.1中的所述数据库中事件的图片数据利用二维码技术进行识别,通过域名IP反查追踪技术查询关联实体确定企业主体添加到企业风险标签中;
8.5:最终形成当前被监测企业在五个维度下的企业风险标签。
优选地,1.3中形成冒烟指数的方法包括:
9.1:对被监测企业疑似非法金融活动阶段等级进行判定:通过将1.2中的风险特征进行chimerge分箱,根据其进化的生命周期特性将其划分为疑似设立准备、疑似吸金发展、疑似异常扩增、疑似暴雷跑路四个等级,之后进行WOE编码将离散的变量连续化,经过IV值筛选,构建逻辑回归模型判断此分箱合理适用性,得出最终的评分机制;通过所述评分机制和事件时间衰减影响判断被监测企业的疑似非法金融活动阶段等级,最终获得其等级基础分数;
9.2:再进行计算9.1确认的疑似非法金融活动阶段等级下的等级区间分数:对不同的风险特征设定不同的离散值;根据被监测企业事件发生距今时间,设置风险特征的时间衰减系数,再根据所述时间衰减系数和离散值、风险规模、风险特征的权重系数计算被监测企业的等级区间分数;
9.3:9.1中所述疑似非法金融活动阶段等级基础分数与9.2中所述等级区间分数相加形成冒烟指数。
优选地,所述非法性标签对应的部分二级疑似非法金融活动指标,即子标签包括,涉嫌非法集资,涉嫌传销,涉嫌诈骗;所述子标签对应部分细分指标,即下级子标签包括:涉诉数据-涉嫌非法集资,处罚数据-涉嫌传销。
优选地,所述子标签可通过修改被监测企业历史数据样本或通过管理者进行标签修改。
一种基于冒烟指数的非法金融活动监测系统,包括:
数据采集模块:包括从企业全生命周期互联网公开数据中采集被监测企业基本数据并将数据格式规范化的数据采集单元和数据库,所述基本数据包括;企业风险专项事件、企业宣传事件、企业投诉事件、企业政务事件、企业经营事件、企业舆情事件;
五维数据打标分类抽取模块:包括:对所述数据库事件文本数据进行关键词提取的文本识别单元、对所述数据库中的事件图片数据进行解析识别的图片识别单元,设置非法金融活动的标签体系,将文本识别单元和图片识别单元的数据与非法金融活动的标签体系进行匹配,最终形成当前被监测企业在非法性、利诱性、公开性、特征性、规模指数五个维度下的企业风险标签的企业风险标签单元;
冒烟指数计算模块:利用五维度数据打标分类抽取模块中的所述企业风险标签并依据评分卡模型对被监测企业进行疑似非法金融活动等级判定和等级区间分数计算,所述疑似非法金融活动阶段等级判定的基础分数与所述等级区间分数相加形成冒烟指数;
可视化预警界面:对所述五维数据打标分类抽取模块形成的企业风险标签和冒烟指数计算模块计算结果进行展示。
优选地,数据采集模块中所述数据库中被监测企业基本数据还包括本地特有政务数据。
本发明提供了一种基于冒烟指数的非法金融活动监测方法及系统,对金融风险企业进行监测。首先,通过获取被监测企业互联网公开数据并形成数据库,特别加入了企业风险专项事件、企业宣传事件、企业投诉事件,还可以将地方政府特有的政务事件加入数据库;其次,在1.2中建立了非法性、利诱性、公开性、特征性、规模指数五个标签维度下,同时通过总结关键词并归类建立了子标签,使对非法金融活动的评价不只利用例如非法性这个大标签维度对非法金融活动进行评价,而是对非法性的标签内容更加细化,形成了更加科学的非法金融活动的标签体系。第三,依据评分卡模型对1.2中企业风险标签进行评分,得到被监测企业疑似非法金融活动阶段等级和计算等级区间分数,疑似非法金融活动阶段等级的基础分数与等级区间分数相加形成冒烟指数,得到冒烟指数结果的标签体系模型为冒烟指数模型,本发明在进行金融风险评估时创造性地提出了冒烟指数,不在局限于现有技术对金融风险进行单一打分,而是将等级评价纳入打分规则,并添加了离散值、权重系数、时间衰减系数风险规模等参数对等级区间分数进行量化评估,使冒烟指数的计算考虑了时间因素和影响力,更具有客观性。本发明可以作为政府金融风险防控工作的重要抓手,适用多种行业方向,包括不限于:非法集资,网络诈骗,非法放贷,网络传销等,有效辅助风险防控工作的顺利开展。
附图说明
图1:一种基于冒烟指数的非法金融活动监测方法流程图。
图2:获取被监测企业基本数据并形成数据库的方法流程图。
图3:形成所述企业风险标签和得到所述关联企业的方法流程图。
图4:形成冒烟指数的方法流程图。
图5:一种基于冒烟指数的非法金融活动监测系统结构图。
具体实施方式
下面结合附图和实施例对本发明做进一步说明。
具体方案如下所述:
如图1所示,一种基于冒烟指数的非法金融活动监测方法,包括以下步骤:
1.1:从企业全生命周期互联网公开数据中获取被监测企业基本数据并形成数据库,所述基本数据包括:企业事件和企业基本信息;所述企业事件包括:企业风险专项事件、企业宣传事件、企业投诉事件、企业政务事件、企业经营事件、企业舆情事件;
1.2:抽取1.1中的所述数据库中的历史被监测企业的数据作为样本,通过时间序列分析对样本中的事件进行时间排序,提取所述事件中与企业非法金融活动有关的关键词,在非法性、利诱性、公开性、特征性、规模指数五个标签维度下通过总结关键词并归类以作为子标签,得到非法金融活动的标签体系,依据评分卡模型对标签体系建立评分机制,得到标签体系模型;从1.1中获得当前被检测企业的数据,进一步提取每个事件中与非法经营活动或企业异常行为相关的风险类关键词作为当前企业自身风险特征,同时利用知识图谱关联人和企业分析得到被监测企业关联风险下的当前企业关联风险特征,使上述风险特征与所述子标签通过正则表达式进行匹配,最终形成当前被监测企业在五个维度下的企业风险标签;所述利诱性标签代表高利息、高回报吸引投资者事件;所述公开性标签代表企业通过互联网公开渠道不设门槛的对公众进行宣传事件;
1.3:依据评分卡模型对1.2中企业风险标签进行评分,得到被监测企业疑似非法金融活动阶段等级和计算等级区间分数,疑似非法金融活动阶段等级的基础分数与等级区间分数相加形成冒烟指数,得到冒烟指数结果的标签体系模型为冒烟指数模型,并在可视化界面进行展示。
优选地,1.1中所述数据库中被监测企业基本数据还包括本地特有政务数据。
优选地,1.1中所述的企业风险专项事件包括企业高风险、黑名单、立案专项收集事件;所述企业宣传事件包括搜索引擎投放广告,各事件网站投放的产品宣传事件。
优选地,如图2所示,1.1中所述获取被监测企业基本数据并形成数据库的方法,步骤包括:
S1:利用爬虫工具采集网页数据并形成企业事件,采集步骤包括:发送请求,获取网页素材,解析源码,生成结构化数据,最终形成企业事件;
S2:对所述企业事件进行数据清洗和图片处理得到处理后的数据;所述图片处理通过计算机视觉技术对二维码图片进行识别,查询IP、所属IP以及对应企业主体;
S3:将数据储存在数据库。
优选地,1.2中所述非法性标签代表企业非法经营活动事件,所述非法经营活动事件包括:被监测企业行政处罚或违法事件、是否具有金融从业许可、工商部门经营异常,严重违法。
优选地,1.2中所述特征性标签代表企业存在特征性金融风险事件,所述特征性金融风险事件包括:频繁变更工商事件,招募大量金融从业人员,集中扩张行为,具备吸金模式特点事件。
优选地,1.2中所述规模指数标签代表企业体量,分支量,对外投资企业数量,宣传招聘判断企业的规模影响力。
优选地,如图3所示,1.2中利用非法金融活动的标签体系形成当前被监测企业的所述企业风险标签的方法为:
8.1:利用1.1中的所述数据库中事件的文本数据通过Bert文本分类模型进行主题分类,筛选出涉金融类信息数据,从所述五个维度对事件进行分类,利用关键词和正则规则对提取事件自身风险特征并与所述子标签进行匹配;
8.2:通过Bert实体抽取模型抽取事件文本数据中的实体,通过实体映射库得出事件主体,并将事件主体作为企业风险标签中的数据主体标签;
8.3:利用知识图谱关联人和企业分析得到被监测企业的关联风险特征并与所述子标签进行匹配;
8.4:同时,对于1.1中的所述数据库中事件的图片数据利用二维码技术进行识别,通过域名IP反查追踪技术查询关联实体确定企业主体添加到企业风险标签中;
8.5:最终形成当前被监测企业在五个维度下的企业风险标签。
如图4所示,优选地,1.3中形成冒烟指数的方法包括:
9.1:对被监测企业疑似非法金融活动阶段等级进行判定:通过将1.2中的风险特征进行chimerge分箱,根据其进化的生命周期特性将其划分为疑似设立准备、疑似吸金发展、疑似异常扩增、疑似暴雷跑路四个等级,之后进行WOE编码将离散的变量连续化,经过IV值筛选,构建逻辑回归模型判断此分箱合理适用性,得出最终的评分机制;通过所述评分机制和事件时间衰减影响判断被监测企业的疑似非法金融活动阶段等级,最终获得其等级基础分数;
9.2:再进行计算9.1确认的疑似非法金融活动阶段等级下的等级区间分数:对不同的风险特征设定不同的离散值;根据被监测企业事件发生距今时间,设置风险特征的时间衰减系数,再根据所述时间衰减系数和离散值、风险规模、风险特征的权重系数计算被监测企业的等级区间分数;
9.3:9.1中所述疑似非法金融活动阶段等级基础分数与9.2中所述等级区间分数相加形成冒烟指数。
优选地,所述非法性标签对应的部分二级疑似非法金融活动指标,即子标签包括,涉嫌非法集资,涉嫌传销,涉嫌诈骗;所述子标签对应部分细分指标,即下级子标签包括:涉诉数据-涉嫌非法集资,处罚数据-涉嫌传销。
优选地,所述子标签可通过修改被监测企业历史数据样本或通过管理者进行标签修改。
如图5所示,一种基于冒烟指数的非法金融活动监测系统,包括:
数据采集模块:包括从企业全生命周期互联网公开数据中采集被监测企业基本数据并将数据格式规范化的数据采集单元和数据库,所述基本数据包括;企业风险专项事件、企业宣传事件、企业投诉事件、企业政务事件、企业经营事件、企业舆情事件;
五维数据打标分类抽取模块:包括:对所述数据库事件文本数据进行关键词提取的文本识别单元、对所述数据库中的事件图片数据进行解析识别的图片识别单元,设置非法金融活动的标签体系,将文本识别单元和图片识别单元的数据与非法金融活动的标签体系进行匹配,最终形成当前被监测企业在非法性、利诱性、公开性、特征性、规模指数五个维度下的企业风险标签的企业风险标签单元;
冒烟指数计算模块:利用五维度数据打标分类抽取模块中的所述企业风险标签并依据评分卡模型对被监测企业进行疑似非法金融活动等级判定和等级区间分数计算,所述疑似非法金融活动阶段等级判定的基础分数与所述等级区间分数相加形成冒烟指数;
可视化预警界面:对所述五维数据打标分类抽取模块形成的企业风险标签和冒烟指数计算模块计算结果进行展示。
优选地,数据采集模块中所述数据库中被监测企业基本数据还包括本地特有政务数据。
具体地,对于1.1步骤:企业风险专项事件、企业宣传事件、企业投诉事件、企业政务事件、企业经营事件、企业舆情事件具体包括:
企业政务事件,如:工商事件,税务事件,司法事件,各行政单位处罚事件,各行政单位公示事件等;
企业宣传事件,如:搜索引擎投放广告,各事件网站投放的产品宣传等;
企业投诉事件,如:黑猫投诉,315投诉,各地方投诉网站等;
企业经营事件,如:招聘,年报,财报,公示事件,经营的标的事件等;
企业舆情事件,如:各大门户网站,微信公众号,微博,各大论坛数据等;
企业风险专项事件:包括企业高风险、黑名单、立案等专项收集数据库;
同时对于服务客户如果有本地特有政务数据均可纳入企业监测的数据层进行内外部数据打通。所述本地特有政务数据可以是市长信箱、实名举报投诉数据等客户具有的非公开的数据。
在对企业相关数据不断搜索过程中,记录发现的新数据源。最多发现的是企业业务宣传,同时发现,企业在宣传过程中,不再局限于文本文字性描述,对于图片,二维码跳转链接下载自发明app等更具青睐且隐蔽性更强,企业主体发现更难,识别其下载链接,通过域名IP查询所属企业,所发现企业主体相对会更加准确,目标性更强。同时数据的采集方面也会有更多的挑战,对于图片存储,关联,二维码识别,域名跳转IP反查以及反爬等工作的增加。会采取构建IP代理池、验证码校验、登录账号、模拟浏览器内核等方法解决爬虫工作中的反爬问题。
同时,通过公开数据发现非法金融活动不仅能发现在线上的进行标的产品售卖的企业,还可以发现非互联网方式的非法金融活动。经过对公开舆情数据微博、黑猫投诉网站、裁判文书网文书、信用中国网发布的异常数据、企业信息公示网数据分析,发现B公司在其门店,路边设立摊位,对公众进行无门槛无针对性宣传,并承诺“房屋售后返租,以租金为利息返给购房者”以这种“售后返租”的模式,开展非法集资活动。
其次,在1.2步骤中,以A企业为例,从A企业成立之初,将数据库中A企业经历的事件(舆情事件,投诉事件,变更事件,处罚事件,公示事件,司法案件,宣传事件等)以时间轴进行罗列,以及A企业人员(法人、实控人等)的关联事件进行关联逻辑分析。采用时间序列分析,事件分类分析,知识图谱关联人和企业分析等,最终形成非法性、利诱性、公开性、特征性、规模指数五个维度确定企业疑似非法金融活动的指标体系。非法性标签对应的部分二级疑似非法金融活动指标,即子标签有,涉嫌非法集资,涉嫌传销,涉嫌诈骗等。子标签对应部分细分指标,即下级子标签名称有:涉诉数据-涉嫌非法集资,即涉嫌非法集资子标签下一级的下级子标签:涉诉数据,还有比如:处罚数据-涉嫌传销等。同时,在构建风险指标体系的过程中,可通过人工总结事件的风险特征关键词,所述风险特征是与非法经营活动或企业异常行为相关的关键词,整理风险标签体系。各类数据线索,都有其特有的标签判断逻辑规则。比如:涉嫌传销标签,在司法数据,投诉数据,舆情数据,处罚数据中都会涉猎但是各自表述和特征不同,需要进行总结标注。利用机器学习对打标算法进行反复迭代修正例如关键词、打标长度、前后距离语义判断等。
例如在企业宣传事件中利用搜索引擎投放的广告涉及赌博、诈骗的关键词,例如:高返利、高额利率、放款快等,都可作为风险特征。
关联风险相当于把两家企业通过关联人和企业联系起来后涉及的风险,即关联人和企业存在风险可能会关联到目标企业,通过关联企业和关联人信息有助于增强对目标企业风险的判断。
同时,还可以通过五个维度的企业指标体系构建企业画像,从发展角度对企业的非法金融活动进行进一步的研究,发现非法金融活动企业发展可分为四个阶段:疑似设立准备、疑似吸金发展、疑似异常扩增、疑似暴雷跑路。这些发展阶段更多体现了企业对社会的危害或影响程度,中间可能有越级现象可能跳过第二或第三阶段。
判断企业发展阶段和风险特征具体步骤为:将文本数据作为输入,经过Bert文本分类模型处理后,筛选出和金融相关的数据,再经过Bert实体抽取模型抽取实体,通过映射库标注数据所属企业主体。再把数据库中的筛选后且具有主体事件文本数据作为输入,通过jieba分词,去无用词,后将二维词组输入LDA(Latent Dirichlet Allocation)模型进行关键词主题提取,通过k-means算法将事件进行分类在过程中不断进行调参,将分类后的事件,通过时间序列分析方法确定非法金融活动阶段特点并确定划分阶段。将事件、关系作为边,人员和企业作为点输入图数据库,进行关联度计算判断对企业疑似非法金融活动的影响。
此模型的目的有两个,判断企业疑似非法金融活动所处阶段和疑似非法金融活动的影响程度。基于此目的将模型计算分为两部分,确定阶段等级和具体分数量化。在实际复盘研究中发现,数据的作用力受距今时间影响,距离当前越远作用力越小,有的甚至对当前企业不具备影响,其权重系数几乎为0,遂设计时间作用力线性衰减公式和衰减窗口。
第一,对被监测企业疑似非法金融活动阶段等级进行判断:通过将数据库中的事件特征进行chimerge分箱,依据疑似非法金融活动的阶段等级分箱设置为四段,之后进行WOE(weight of evidence)编码将离散的变量连续化,经过IV(information value)值筛选,构建逻辑回归模型判断此分箱合理适用性,最终确定模型阶段等级评分机制。最终等级确定也会根据时间,进行等级时间衰减计算处理。
第二,区间分数计算则将五维度全量指标分别计算指标分,最终进行求和的结果。以各数据独有的特点进行维度拓展专家赋值,确定各特征的离散值和权重系数。A公司区间分数中单个指标计算举例:处罚数据-涉嫌非法集资=(数量对应离散值(80)*权重(0.6)+处罚单位离散值(40)*权重(0.4)+处罚方式离散值(60)*权重(0.2))* 时间衰减系数(0.95)*规模指数(0.8)
冒烟指数分数为百分制,为了便于解释理解和风险量化比较,将企业疑似非法金融活动进行冒烟指数分数值的关联。冒烟指数对应企业四阶段,同时对阶段赋予颜色预警对标,分数段和预警等级分别为:[0-40)蓝色预警[40-60)黄色预警[60-80)橙色预警[80-100)红色预警。
也可以这样理解,对企业的发展过程中所处时间点进行企业的风险画像,判断企业所处的阶段,据此来判断对社会的危害程度,同时也可以通过分数变化看出其在阶段中进展程度。
模型可以根据业务具体的需求进行指标增减和权重调整,以及细分区间修改和等级的换算配置。例如:对非法集资领域,更关注通过利诱吸收资金并承诺收益,同样会根据其所处行业进行特征性、利诱性、公开性维度下指标权重的多方调整。
冒烟指数分数 = 预警等级分数 + 区间分数
定级策略:直接定级;跃迁(联合)定级。
1.根据关键指标确定其等级。
2.a企业当前等级为Ⅱ级,且同时满足两个Ⅱ级关键指标条件时,会实现等级跃迁至Ⅲ级;b企业当前等级为Ⅲ级,且同时满足两个Ⅲ级关键指标条件时,会实现等级跃迁至Ⅳ级。
区间分计算:各指标分数之和。
等级基础分、区间分对应关系:
发展阶段 | 预警等级 | 等级分 | 区间分范围 |
疑似设立准备阶段 | 蓝色预警(Ⅰ) | 0 | 0-39 |
疑似吸金发展阶段 | 黄色预警(Ⅱ) | 40 | 0-19 |
疑似异常扩增阶段 | 橙色预警(Ⅲ) | 60 | 0-19 |
疑似暴雷跑路阶段 | 红色预警(Ⅳ) | 80 | 0-19 |
应当指出,以上所述具体实施方式可以使本领域的技术人员更全面地理解本发明创造,但不以任何方式限制本发明创造。因此,尽管本说明书参照附图和实施例对本发明创造已进行了详细的说明,但是,本领域技术人员应当理解,仍然可以对本发明创造进行修改或者等同替换,总之,一切不脱离本发明创造的精神和范围的技术方案及其改进,其均应涵盖在本发明创造专利的保护范围当中。
Claims (13)
1.一种基于冒烟指数的非法金融活动监测方法,其特征在于,包括以下步骤:
1.1:从企业全生命周期互联网公开数据中获取被监测企业基本数据并形成数据库,所述基本数据包括:企业事件和企业基本信息;所述企业事件包括:企业风险专项事件、企业宣传事件、企业投诉事件、企业政务事件、企业经营事件、企业舆情事件;
1.2:抽取1.1中的所述数据库中的历史被监测企业的数据作为样本,通过时间序列分析对样本中的事件进行时间排序,提取所述事件中与企业非法金融活动有关的关键词,在非法性、利诱性、公开性、特征性、规模指数五个标签维度下通过总结关键词并归类以作为子标签,得到非法金融活动的标签体系,依据评分卡模型对标签体系建立评分机制,得到标签体系模型;从1.1中获得当前被检测企业的数据,进一步提取每个事件中与非法经营活动或企业异常行为相关的风险类关键词作为当前企业自身风险特征,同时利用知识图谱关联人和企业分析得到被监测企业关联风险下的当前企业关联风险特征,使上述风险特征与所述子标签通过正则表达式进行匹配,最终形成当前被监测企业在五个维度下的企业风险标签;所述利诱性标签代表高利息、高回报吸引投资者事件;所述公开性标签代表企业通过互联网公开渠道不设门槛的对公众进行宣传事件;
1.3:依据评分卡模型对1.2中企业风险标签进行评分,得到被监测企业疑似非法金融活动阶段等级和计算等级区间分数,疑似非法金融活动阶段等级的基础分数与等级区间分数相加形成冒烟指数,得到冒烟指数结果的标签体系模型为冒烟指数模型,并在可视化界面进行展示。
2.根据权利要求1所述一种基于冒烟指数的非法金融活动监测方法,其特征在于,1.1中所述数据库中被监测企业基本数据还包括本地特有政务数据。
3.根据权利要求1所述一种基于冒烟指数的非法金融活动监测方法,其特征在于,1.1中所述的企业风险专项事件包括企业高风险、黑名单、立案专项收集事件;所述企业宣传事件包括搜索引擎投放广告,各事件网站投放的产品宣传事件。
4.根据权利要求1所述一种基于冒烟指数的非法金融活动监测方法,其特征在于,1.1中所述获取被监测企业基本数据并形成数据库的方法,步骤包括:
S1:利用爬虫工具采集网页数据并形成企业事件,采集步骤包括:发送请求,获取网页素材,解析源码,生成结构化数据,最终形成企业事件;
S2:对所述企业事件进行数据清洗和图片处理得到处理后的数据;所述图片处理通过计算机视觉技术对二维码图片进行识别,查询IP、所属IP以及对应企业主体;
S3:将数据储存在数据库。
5.根据权利要求1所述一种基于冒烟指数的非法金融活动监测方法,其特征在于,1.2中所述非法性标签代表企业非法经营活动事件,所述非法经营活动事件包括:被监测企业行政处罚或违法事件、是否具有金融从业许可、工商部门经营异常,严重违法。
6.根据权利要求1所述一种基于冒烟指数的非法金融活动监测方法,其特征在于,1.2中所述特征性标签代表企业存在特征性金融风险事件,所述特征性金融风险事件包括:频繁变更工商事件,招募大量金融从业人员,集中扩张行为,具备吸金模式特点事件。
7.根据权利要求1所述一种基于冒烟指数的非法金融活动监测方法,其特征在于,1.2中所述规模指数标签代表企业体量,分支量,对外投资企业数量,宣传招聘判断企业的规模影响力。
8.根据权利要求1所述一种基于冒烟指数的非法金融活动监测方法,其特征在于,1.2中利用非法金融活动的标签体系形成当前被监测企业的所述企业风险标签的方法为:
8.1:利用1.1中的所述数据库中事件的文本数据通过Bert文本分类模型进行主题分类,筛选出涉金融类信息数据,从所述五个维度对事件进行分类,利用关键词和正则规则对提取事件自身风险特征并与所述子标签进行匹配;
8.2:通过Bert实体抽取模型抽取事件文本数据中的实体,通过实体映射库得出事件主体,并将事件主体作为企业风险标签中的数据主体标签;
8.3:利用知识图谱关联人和企业分析得到被监测企业的关联风险特征并与所述子标签进行匹配;
8.4:同时,对于1.1中的所述数据库中事件的图片数据利用二维码技术进行识别,通过域名IP反查追踪技术查询关联实体确定企业主体添加到企业风险标签中;
8.5:最终形成当前被监测企业在五个维度下的企业风险标签。
9.根据权利要求1或8所述一种基于冒烟指数的非法金融活动监测方法,其特征在于,1.3中形成冒烟指数的方法包括:
9.1:对被监测企业疑似非法金融活动阶段等级进行判定:通过将1.2中的风险特征进行chimerge分箱,根据其进化的生命周期特性将其划分为疑似设立准备、疑似吸金发展、疑似异常扩增、疑似暴雷跑路四个等级,之后进行WOE编码将离散的变量连续化,经过IV值筛选,构建逻辑回归模型判断此分箱合理适用性,得出最终的评分机制;通过所述评分机制和事件时间衰减影响判断被监测企业的疑似非法金融活动阶段等级,最终获得其等级基础分数;
9.2:再进行计算9.1确认的疑似非法金融活动阶段等级下的等级区间分数:对不同的风险特征设定不同的离散值;根据被监测企业事件发生距今时间,设置风险特征的时间衰减系数,再根据所述时间衰减系数和离散值、风险规模、风险特征的权重系数计算被监测企业的等级区间分数;
9.3:9.1中所述疑似非法金融活动阶段等级基础分数与9.2中所述等级区间分数相加形成冒烟指数。
10.根据权利要求1所述一种基于冒烟指数的非法金融活动监测方法,其特征在于,所述非法性标签对应的部分二级疑似非法金融活动指标,即子标签包括,涉嫌非法集资,涉嫌传销,涉嫌诈骗;与所述子标签对应部分细分指标,即下级子标签包括:涉诉数据-涉嫌非法集资,处罚数据-涉嫌传销。
11.根据权利要求1所述一种基于冒烟指数的非法金融活动监测方法,其特征在于,所述子标签可通过修改被监测企业历史数据样本或通过管理者进行标签修改。
12.一种基于冒烟指数的非法金融活动监测系统,其特征在于,包括:
数据采集模块:包括从企业全生命周期互联网公开数据中采集被监测企业基本数据并将数据格式规范化的数据采集单元和数据库,所述基本数据包括;企业风险专项事件、企业宣传事件、企业投诉事件、企业政务事件、企业经营事件、企业舆情事件;
五维数据打标分类抽取模块:包括:对所述数据库事件文本数据进行关键词提取的文本识别单元、对所述数据库中的事件图片数据进行解析识别的图片识别单元,设置非法金融活动的标签体系,将文本识别单元和图片识别单元的数据与非法金融活动的标签体系进行匹配,最终形成当前被监测企业在非法性、利诱性、公开性、特征性、规模指数五个维度下的企业风险标签的企业风险标签单元;
冒烟指数计算模块:利用五维度数据打标分类抽取模块中的所述企业风险标签并依据评分卡模型对被监测企业进行疑似非法金融活动阶段等级判定和等级区间分数计算,所述疑似非法金融活动阶段等级判定的基础分数与所述等级区间分数相加形成冒烟指数;
可视化预警界面:对所述五维数据打标分类抽取模块形成的企业风险标签和冒烟指数计算模块计算结果进行展示。
13.根据权利要求12所述一种基于冒烟指数的非法金融活动监测系统,其特征在于,数据采集模块中所述数据库中被监测企业基本数据还包括本地特有政务数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310166043.6A CN115907568A (zh) | 2023-02-27 | 2023-02-27 | 一种基于冒烟指数的非法金融活动监测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310166043.6A CN115907568A (zh) | 2023-02-27 | 2023-02-27 | 一种基于冒烟指数的非法金融活动监测方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115907568A true CN115907568A (zh) | 2023-04-04 |
Family
ID=86482204
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310166043.6A Pending CN115907568A (zh) | 2023-02-27 | 2023-02-27 | 一种基于冒烟指数的非法金融活动监测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115907568A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117078008A (zh) * | 2023-08-16 | 2023-11-17 | 平安科技(深圳)有限公司 | 舆情风险演变路径预测方法、装置、服务器及存储介质 |
CN117172557A (zh) * | 2023-11-02 | 2023-12-05 | 金华市交通投资集团有限公司 | 企业监督管理系统及方法 |
CN117575329A (zh) * | 2023-12-13 | 2024-02-20 | 广州智能科技发展有限公司 | 一种基于炸响指数的安全生产风险监测方法、存储介质及设备 |
CN117593101A (zh) * | 2023-11-30 | 2024-02-23 | 北京聚汇融盛互联网科技有限公司 | 基于多维数据的金融风险数据处理分析方法及系统 |
CN118396641A (zh) * | 2024-04-12 | 2024-07-26 | 重庆梦之想科技有限责任公司 | 一种可疑传销组织识别方法、装置及设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109472691A (zh) * | 2018-10-31 | 2019-03-15 | 哈尔滨工业大学 | 互联网金融企业异常预警排名方法及软件系统 |
CN110704572A (zh) * | 2019-09-04 | 2020-01-17 | 北京航空航天大学 | 疑似非法集资风险的预警方法、装置、设备和存储介质 |
CN113312916A (zh) * | 2021-05-28 | 2021-08-27 | 北京航空航天大学 | 基于触发词语态学习的金融文本事件抽取方法及装置 |
CN114936769A (zh) * | 2022-05-13 | 2022-08-23 | 中科金审(北京)科技有限公司 | 一种利用资金数据分析网络赌博的实时追踪方法 |
CN115345401A (zh) * | 2021-05-14 | 2022-11-15 | 中科天玑数据科技股份有限公司 | 一种发现企业金融风险的六维分析方法 |
-
2023
- 2023-02-27 CN CN202310166043.6A patent/CN115907568A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109472691A (zh) * | 2018-10-31 | 2019-03-15 | 哈尔滨工业大学 | 互联网金融企业异常预警排名方法及软件系统 |
CN110704572A (zh) * | 2019-09-04 | 2020-01-17 | 北京航空航天大学 | 疑似非法集资风险的预警方法、装置、设备和存储介质 |
CN115345401A (zh) * | 2021-05-14 | 2022-11-15 | 中科天玑数据科技股份有限公司 | 一种发现企业金融风险的六维分析方法 |
CN113312916A (zh) * | 2021-05-28 | 2021-08-27 | 北京航空航天大学 | 基于触发词语态学习的金融文本事件抽取方法及装置 |
CN114936769A (zh) * | 2022-05-13 | 2022-08-23 | 中科金审(北京)科技有限公司 | 一种利用资金数据分析网络赌博的实时追踪方法 |
Non-Patent Citations (2)
Title |
---|
李崇纲 等: "冒烟指数:大数据监测 互联网金融风险", 大数据 * |
石笑川: "基于公开信息的企业涉嫌非法集资 特征指标体系构建与协同治理", 江苏商论 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117078008A (zh) * | 2023-08-16 | 2023-11-17 | 平安科技(深圳)有限公司 | 舆情风险演变路径预测方法、装置、服务器及存储介质 |
CN117172557A (zh) * | 2023-11-02 | 2023-12-05 | 金华市交通投资集团有限公司 | 企业监督管理系统及方法 |
CN117593101A (zh) * | 2023-11-30 | 2024-02-23 | 北京聚汇融盛互联网科技有限公司 | 基于多维数据的金融风险数据处理分析方法及系统 |
CN117593101B (zh) * | 2023-11-30 | 2024-03-22 | 北京聚汇融盛互联网科技有限公司 | 基于多维数据的金融风险数据处理分析方法及系统 |
CN117575329A (zh) * | 2023-12-13 | 2024-02-20 | 广州智能科技发展有限公司 | 一种基于炸响指数的安全生产风险监测方法、存储介质及设备 |
CN118396641A (zh) * | 2024-04-12 | 2024-07-26 | 重庆梦之想科技有限责任公司 | 一种可疑传销组织识别方法、装置及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110704572B (zh) | 疑似非法集资风险的预警方法、装置、设备和存储介质 | |
CN115907568A (zh) | 一种基于冒烟指数的非法金融活动监测方法及系统 | |
Karakatsanis et al. | Data mining approach to monitoring the requirements of the job market: A case study | |
CN110223168B (zh) | 一种基于企业关系图谱的标签传播反欺诈检测方法及系统 | |
Lim et al. | Detecting product review spammers using rating behaviors | |
CN112632405B (zh) | 一种推荐方法、装置、设备及存储介质 | |
Drew et al. | Automatic identification of replicated criminal websites using combined clustering | |
CN113901308A (zh) | 基于知识图谱的企业推荐方法及推荐装置、电子设备 | |
CN113554310A (zh) | 基于智能合约的企业信用动态评估模型 | |
Beltzung et al. | Real-time detection of fake-shops through machine learning | |
Chimonaki et al. | Identification of financial statement fraud in Greece by using computational intelligence techniques | |
Zach et al. | Learning from press releases: implications for hospitality innovation | |
Mitsuzuka et al. | Analysis of CSR activities affecting corporate value using machine learning | |
Carragher et al. | Detection and discovery of misinformation sources using attributed webgraphs | |
Nai et al. | Public tenders, complaints, machine learning and recommender systems: a case study in public administration | |
Wang et al. | Online recruitment information as an indicator to appraise enterprise performance | |
Wang et al. | E-business websites evaluation based on opinion mining | |
CN116562785A (zh) | 审计迎审系统 | |
CN116308416A (zh) | 一种空壳企业识别方法及系统 | |
Seo et al. | Measuring News Sentiment of Korea Using Transformer | |
Zhou et al. | Understanding Current Demand for BIM Professionals in China through Recruitment Data Mining | |
CN114528448A (zh) | 一种全球外贸客户客户画像精准分析系统 | |
CN114529383A (zh) | 实现税务缴纳追踪和税款流失预警方法及系统 | |
CN112818215A (zh) | 产品数据的处理方法、装置、设备及存储介质 | |
CN111382926A (zh) | 一种评估地方交易场所风险的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |