CN111709841A - 非法集资的识别方法和装置、存储介质、电子装置 - Google Patents

非法集资的识别方法和装置、存储介质、电子装置 Download PDF

Info

Publication number
CN111709841A
CN111709841A CN202010357155.6A CN202010357155A CN111709841A CN 111709841 A CN111709841 A CN 111709841A CN 202010357155 A CN202010357155 A CN 202010357155A CN 111709841 A CN111709841 A CN 111709841A
Authority
CN
China
Prior art keywords
model
information
vector
sub
illegal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010357155.6A
Other languages
English (en)
Inventor
贺敏
杜慧
董琳
王秀文
徐小磊
郭富民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
National Computer Network and Information Security Management Center
Original Assignee
Institute of Computing Technology of CAS
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS, National Computer Network and Information Security Management Center filed Critical Institute of Computing Technology of CAS
Priority to CN202010357155.6A priority Critical patent/CN111709841A/zh
Publication of CN111709841A publication Critical patent/CN111709841A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/06Asset management; Financial planning or analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Operations Research (AREA)
  • General Physics & Mathematics (AREA)
  • Technology Law (AREA)
  • Educational Administration (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种非法集资的识别方法和装置、存储介质、电子装置。其中,该方法包括:获取第一对象的第一信息,第一信息包括第一对象在多个维度的特征信息,第一对象为存在虚拟资源的收集行为的对象;将第一信息转换为第一向量,第一向量包括多个子向量,多个子向量中的每个子向量用于表示第一信息中的一个维度的特征信息,多个子向量中任意两个子向量表示的特征信息的维度不同;将第一向量输入第一模型,并通过第一模型识别出第一对象的虚拟资源的收集行为是否为非法集资行为,其中,第一模型是使用第二信息进行训练得到的。本申请解决了检测非法集资行为的识别效率较低的技术问题。

Description

非法集资的识别方法和装置、存储介质、电子装置
技术领域
本申请涉及安全领域,具体而言,涉及一种非法集资的识别方法和装置、存储介质、电子装置。
背景技术
在金融领域,存在较多的异常金融行为,如非法集资,非法集资是指单位或者个人未依照法定程序,以发行股票、债券、彩票、投资基金证券或者其他债权凭证的方式向社会公众筹集资金,并承诺在一定期限内以货币、实物以及其他方式向出资人还本付息或给予回报的行为。同时具备非法性、公开性、利诱性和社会性四个特征。而健全金融监管体系,守住不发生系统性金融风险是金融安全的底线,防止发生系统性金融风险是金融工作的根本性任务,要把主动防范化解系统性金融风险放在更加重要的位置。防范化解金融风险,事关财产安全等重大问题,是实现高质量发展必须跨越的重大关口,而打击非法集资是防范金融风险的重要领域。
发明人认识到,随着“互联网+”计划的深入推进实施,以及以互联网金融为代表的互联网融合产业的蓬勃发展,提高了资金配置效率和金融服务质量,产生了良好的经济效益和社会效益。同时,由于互联网具有不分地域、快速传播、涉众面广等特性,通过互联网金融平台进行的非法集资活动影响面更广危害更大,表现为参与人数众多,涉及金额巨大,涉及地域广等方面。目前防范、打击和处置非法集资工作面临的形式严峻,大案要案频发,风险隐患大量积聚;同时,案件涉及投资理财、网络借贷、农民专业合作社、房地产、教育、私募股权等多种形态,严重影响社会稳定。
目前,监控以上非法集资的行为,主要依靠人工收集相关信息实现,准确率和效率均较低。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种非法集资的识别方法和装置、存储介质、电子装置,以至少解决检测非法集资行为的识别效率较低的技术问题。
根据本申请实施例的一个方面,提供了一种非法集资的识别方法,包括:获取第一对象的第一信息,其中,第一信息包括第一对象在多个维度的特征信息,第一对象为存在虚拟资源的收集行为的对象;将第一信息转换为第一向量,其中,第一向量包括多个子向量,多个子向量中的每个子向量用于表示第一信息中的一个维度的特征信息,多个子向量中任意两个子向量表示的特征信息的维度不同;将第一向量输入第一模型,并通过第一模型识别出第一对象的虚拟资源的收集行为是否为非法集资行为,其中,第一模型是使用第二信息进行训练得到的,第二信息包括第二对象在多个维度上的特征信息和对应的标识信息,该标识信息用于指示第二对象是否存在非法集资行为。
根据本申请实施例的另一方面,还提供了一种非法集资的识别装置,包括:第一获取单元,用于获取第一对象的第一信息,其中,第一信息包括第一对象在多个维度的特征信息,第一对象为存在虚拟资源的收集行为的对象;第一转换单元,用于将第一信息转换为第一向量,其中,第一向量包括多个子向量,多个子向量中的每个子向量用于表示第一信息中的一个维度的特征信息,多个子向量中任意两个子向量表示的特征信息的维度不同;识别单元,用于将第一向量输入第一模型,并通过第一模型识别出第一对象的虚拟资源的收集行为是否为非法集资行为,其中,第一模型是使用第二信息进行训练得到的,第二信息包括第二对象在多个维度上的特征信息和对应的标识信息,该标识信息用于指示第二对象是否存在非法集资行为。
根据本申请实施例的另一方面,还提供了一种存储介质,该存储介质包括存储的程序,程序运行时执行上述的方法。
根据本申请实施例的另一方面,还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器通过计算机程序执行上述的方法。
在本申请实施例中,获取第一对象的第一信息,其中,第一信息包括第一对象在多个维度的特征信息,第一对象为存在虚拟资源的收集行为的对象;将第一信息转换为第一向量,其中,第一向量包括多个子向量,多个子向量中的每个子向量用于表示第一信息中的一个维度的特征信息,多个子向量中任意两个子向量表示的特征信息的维度不同;将第一向量输入第一模型,并通过第一模型识别出第一对象的虚拟资源的收集行为是否为非法集资行为,其中,第一模型是使用第二信息进行训练得到的,第二信息包括第二对象在多个维度上的特征信息和对应的标识信息,该标识信息用于指示第二对象是否存在非法集资行为,进而解决了检测非法集资行为的识别效率较低的技术问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的一种可选的非法集资的识别方法的流程图;
图2是根据本申请实施例的一种可选的指标体系的示意图;
图3是根据本申请实施例的一种可选的非法集资的识别装置的示意图;以及,
图4是根据本申请实施例的一种终端的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
互联网为非集活动提供了便利的蔓延渠道,但同时也为防范和处置非法集资工作带来了高效的数据来源。通过互联网信息采集、大数据分析等技术手段对非法集资风险进行监测和预警,能够有效支撑金融异常行为的防范、打击和处置,保护广大群众免受非集活动的危害。通过对非法集资活动的进行了深入分析,本申请提出了一套评估市场主体的非法集资行为的指标体系,利用互联网信息流数据进行市场主体非集风险的评估,将复杂难以刻画的非法集资行为转化为计算机可表示的风险体系,具有自动化、可操作性。当前对互联网新金融形式下的非法集资自动研判分析的研究尚在起步阶段,本申请对自动化非法集资研判任务提出了一整套的非集研判指标体系,在本申请的指标体系的指导下,能够有效的从海量的市场主体中快速定位疑似非集企业,帮助有关部门发现隐蔽的非集活动主体,有效提高非法集资防范工作的覆盖率。
根据本申请实施例的一方面,提供了一种非法集资的识别方法的方法实施例。图1是根据本申请实施例的一种可选的非法集资的识别方法的流程图,如图1所示,该方法可以包括以下步骤:
步骤S102,获取第一对象的第一信息,第一信息包括第一对象在多个维度的特征信息(如图2所示),第一对象为存在虚拟资源的收集行为的对象。
对象(包括上述第一对象、下述第二对象等)即存在经济行为的主体,如公司、法人、组织、个人等;虚拟资源可以为虚拟货币、股票、债券等;多个维度的特征信息可以为非法性、利诱性、公开性和社会性、异常风险、舆情风险、关联风险等维度的信息。
步骤S104,将第一信息转换为第一向量,第一向量包括多个子向量,多个子向量中的每个子向量用于表示第一信息中的一个维度的特征信息,多个子向量中任意两个子向量表示的特征信息的维度不同。即将上述多个维度的特征信息转换为模型能够识别的数字信息。
可选地,在将第一向量输入第一模型之前,可以按照如下方式训练得到所需模型:
步骤1,获取多个第二信息,其中,每个第二信息包括一个第二对象在多个维度上的特征信息和对应的标识信息,该标识信息用于指示第二对象是否存在非法集资行为。
步骤2,将第二信息转换为第二向量,第二向量包括多个子向量,第二向量中的每个子向量用于表示第二信息中的一个维度的特征信息,第二向量中任意两个子向量表示的特征信息的维度不同。
步骤3,将第二向量作为第二模型的输入,并将对应的标识信息作为第二模型的预计输出,以对第二模型中的参数进行训练,得到第一模型。
上述步骤3中的将第二向量作为第二模型的输入,并将对应的标识信息作为第二模型的预计输出,以对第二模型中的参数进行训练,得到第一模型可以通过如下方式实现:
步骤31,将第二向量作为第二模型的输入,并将对应的标识信息作为第二模型的预计输出,以对第二模型中的参数进行训练。
步骤32,在对第二模型的训练次数达到第一阈值的情况下,利用第三信息对第二模型进行测试,其中,第三信息包括第三对象在多个维度上的特征信息和对应的标识信息,该标识信息用于指示第三对象是否存在非法集资行为。
步骤33,在对第二模型的测试准确率达到第二阈值的情况下,将第二模型作为第一模型,其中,测试准确率为多次测试中第二模型的输出与第三信息中的标识信息匹配的次数与测试的总次数之间的比值。
步骤34,在对第二模型的测试准确率未达到第二阈值的情况下,继续将第二向量作为第二模型的输入并将对应的标识信息作为第二模型的预计输出,以对第二模型中的参数进行训练,直至训练后对第二模型的测试准确率达到第二阈值。
步骤S106,将第一向量输入第一模型,并通过第一模型识别出第一对象的虚拟资源的收集行为是否为非法集资行为,第一模型是使用第二信息进行训练得到的,第二信息包括第二对象在多个维度上的特征信息和对应的标识信息,该标识信息用于指示第二对象是否存在非法集资行为。
可选地,将第一向量输入第一模型,并通过第一模型识别出第一对象的虚拟资源的收集行为是否为非法集资行为包括:将第一向量输入第一模型的第一网络层,第一网络层通过如下函数来描述:
Figure BDA0002473887420000061
其中,x表示第一向量中子向量的向量矩阵,θ表示与x对应的权重向量,T表示向量的转置;在第一模型的第二网络层中,根据第一网络层的输出值h(θTx)的所属范围确定是否为非法集资,T表示矩阵的装置,e是代表数的符号。
非法集资行为是复杂的综合性的非法金融活动,同时具备非法性、公开性、利诱性和社会性四个维度的特征。通过深入分析非法集资活动的特征和标识非法集资活动的关键要素,对难以刻画的非集行为,基于可通过互联网获取的公开数据,将非法集资风险表示为一整套的计算机可表示的风险知识体系,在本申请的非法集资风险评估指标体系的指导下,可从多个维度对市场主体的经营活动进行监测,通过自动化的风险评估模型,对市场主体进行非法集资风险评估,从而发现疑似非法集资市场主体,本申请将复杂的非法集资行为拆解为了一系列的可自动化判别的风险指标,旨在通过易于获取的数据尽早发现疑似非法集资活动,具有实际操作性,能够有效的帮助相关部门从海量信息中发现疑似非集企业,可以解决检测非法集资行为的识别效率较低的技术问题,极大的缩小后期人工研判的工作量,有较高的实际应用价值。
作为一种可选的实施例,下面结合具体的实施方式详述本申请的技术方案。界定非法集资要根据司法解释里关于非法集资的四个特征要件来判断,即非法性、公开性、利诱性、社会性。
非法集资的“非法性”认定应当以金融管理法律法规作为依据,对于国家金融管理法律法规仅作原则性规定的,可以参考央行、银保监会、证监会等行政主管部门依照国家金融管理法律法规制定的部门规章或者国家有关金融管理的规定、办法、实施细则等规范性文件的规定予以认定。一方面,金融管理法规、规范、细则等的数量多、范围广;另一方面,很多非法集资活动披着非金融业务的外衣行集资之实,如消费返利、买房代租等,辨别这类隐蔽行为较为困难。非法性的认定是一个较为复杂的、涉及面广的综合判定过程,实际的执行过程中需要对金融业务的深入理解,结合实际业务情况进行。
金融业务是最直接的吸收资金的方式、监管较为严格的经营形式,经营国家允许的金融业务形式并具备开展该金融业务所要求的金融许可才是合法的。非金融业务、类金融业务形式吸收公众资金的行为通常是变相的,是一种超出经营范围的违规吸收资金的行为。本申请结合当前的非法集资活动的特点,从“非法性”角度将涉及集资行为的业务经营形式分为以下五类,相应的建立非法集资风险评估体系中的基础指标,见表1:
表1
Figure BDA0002473887420000081
非持牌的融资行为:经营需要相关管理部门发放牌照的吸收资金的金融业务形式,但实际未获得相关金融牌照,包括:外汇、期货等。
未备案融资行为:需要进行备案的金融业务行为,但实际未进行备案,如私募、交易所。
不合法金融融资业务行为,如微盘、二元期权、拆分盘。
高危集资行为:当前非法集资活动高发的集资形式,不限于金融、类金融、非金融行业,如游戏理财。游戏理财是一种以游戏的形式对集资行为进行包装的集资形式。
超出工商经营范围的违规融资行为:企业的融资行为超过了工商注册的业务范围,该指标涵盖了金融、类金融、非金融业务,覆盖面广。
“利诱性”是指承诺在一定期限内给予出资人货币、实物、股权等形式的投资回报,本质是以“高回报率”为诱饵。高息诱导不止是直接给出一个较高的年化收益率,可能是通过返现等间接的形式达到高收益,“静态和动态收益”、“日化收益”也是常见的高息诱导形式。按照国家对金融投资产品的政策规定,一些违规宣传如“保本承诺”、“夸大宣传”能够诱导投资人相信高收益而参与投资,也具有利诱性。因此,构建两类“利诱性”基础指标,参见表2:
表2
Figure BDA0002473887420000091
集资活动的传播运营渠道和面向的目标群体在一定程度上能够反映其公开性和社会性。网站、客户端方式运营具有公开性、社会性。线下投资行为和点对点传播的行为非常隐蔽,具有较高风险。将老年人作为目标人群的集资活动也有较高的风险。这类公开性和社会性的风险特征指标如表3所示。
表3
Figure BDA0002473887420000092
Figure BDA0002473887420000101
非法集资活动非常隐蔽,特别是对于一些仅在线下运营的企业,上述指标数据的获取有一定的难度,本发明的目的是发现疑似非集行为,为监管和公安等部门提供线索,与政府部门对非集行为的最终认定不同。因此,除按照法律对非集的四性判定标准建立评估指标外,从非集企业的动机、非集造成的影响和企业关联情况三个角度辅助分析,对指标体系进行扩充。
多数非集活动的目标是诈骗钱财,这些公司多是一些异常、问题企业。本申请对企业的异常情况进行了总结,包括工商异常、司法异常、网站异常、经营异常,构建四类基础指标,如表4所示。
表4
Figure BDA0002473887420000102
非集活动最终会导致投资人利益受损,网络舆情中网民、媒体发布的关于企业的负面舆情信息也是一类有效的间接的非集评价指标,选取与非集相关的负面特征,构建负面舆情类基础指标,如表5所示。
表5
Figure BDA0002473887420000103
公司是由法人、高管、股东来经营的,法人、高管、股东的风险行为会传播给公司,称为关联风险,构建表6中的几类基础指标。
表6
Figure BDA0002473887420000111
上述基础指标构成了非集风险评估指标体系,如图2所示,利用企业画像数据(画像数据可从公开互联网中获得,包括舆情、工商、司法等)采用自动化识别和评估量化技术得到基础指标,所有基础指标经过综合评估算法后得到企业是否有非集风险。
上述指标体系是可扩展的,可对基础指标按照其所属的类别进行补充,如发现新的高危集资形式,那么就在非法性指标下的高危集资行为类别下进行添加。也可增加新的指标类别,类似进行添加即可。
下面结合具体步骤详述非法集资的识别方式:
步骤1,获取或者准备计算基础指标所需数据。本申请的内容是非集指标体系,指标体系中所用到的数据在公开互联网中是能够获取的,具体的获取过程不是本申请所关注的部分,此处仅对所需的数据进行说明,如表7所示。
表7
Figure BDA0002473887420000112
Figure BDA0002473887420000121
步骤2,基础指标评估计算,对每个企业得到一个风险特征向量x,向量中的每个元素对应于指标体系中的一个基础指标。
基础指标的数值有两类形式,一类是0/1形式,另外一类是数值型,记录数量或者次数。可根据实际数据的情况选定一种形式。
0/1形式指标:即判断是否有该风险行为,有则该指标为1,没有该行为或者没有相关数据则为0。数值型指标:对风险项信息进行量级评定。评定的依据是预先定好的数量阈值,如股东变更频繁借助变更的次数进行判定。
步骤3,构建非集风险评估预警模型,可选用多种评估模型,如加权求和、基于机器学习的分类方法等。直观上理解企业涉及的基础风险指标越多(不为0),那么企业的非集风险也就越高。同时,能够直接反映非集四性的基础风险指标对非集风险的贡献较高应给予较高的权重。非集风险达到一定的强度,应进行预警。
此处选用回归模型进行风险评估,作为实施方式示例。本发明并不限定非集风险评估预警模型,其他能够充分挖掘基础风险指标对非集综合风险的影响的评估预警模型都可在此处应用。
以逻辑回归为例,使用sigmoid函数进行预测:
Figure BDA0002473887420000122
其中:θ是权重向量,包括了所有基础指标对应的权重信息,相当于θ可以包括多个元素,每个元素表示x中相应的一个指标的权重,权重越大则对应的特征对非集风险的影响力越大。权重向量通过训练学习得到,将已有的人工标注获得的具有和不具有非法集资风险的企业数据作为训练样本,定义交叉熵损失函数:
Figure BDA0002473887420000131
其中:m为训练样本的个数;hθ(x)为用参数θ和x预测出来的y值;y为训练样本的真实类别:是否判定为非集企业。预测值和真实值越接近,则损失函数越小。因此,极小化损失函数,可根据历史数据拟合参数θ。
步骤4,非集风险识别,使用步骤三中确定的非集风险评估预警模型,判定企业是否有非法集资行为。以逻辑回归风险评估模型为例,将企业的风险向量输入到h(θTx)计算得到0-1之间的数值,若h(θTx)高于设定的阈值,那么认为该企业有非法集资风险,需要予以关注或者提交相关部门进一步核查处理。
本申请的最终目的在于提供一种用于企业非法集资风险识别的指标体系,将复杂的非集风险转化为一系列可自动化识别的风险指标,在此基础上指导非法集资风险研判工作,有助于非集活动的早期发现任务。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
根据本申请实施例的另一个方面,还提供了一种用于实施上述非法集资的识别方法的非法集资的识别装置。图3是根据本申请实施例的一种可选的非法集资的识别装置的示意图,如图3所示,该装置可以包括:
第一获取单元401,用于获取第一对象的第一信息,其中,所述第一信息包括所述第一对象在多个维度的特征信息,所述第一对象为存在虚拟资源的收集行为的对象;
第一转换单元403,用于将所述第一信息转换为第一向量,其中,所述第一向量包括多个子向量,所述多个子向量中的每个子向量用于表示所述第一信息中的一个维度的特征信息,所述多个子向量中任意两个子向量表示的特征信息的维度不同;
识别单元405,用于将所述第一向量输入第一模型,并通过所述第一模型识别出所述第一对象的虚拟资源的收集行为是否为非法集资行为,其中,所述第一模型是使用第二信息进行训练得到的,所述第二信息包括第二对象在所述多个维度上的特征信息和对应的标识信息,该标识信息用于指示所述第二对象是否存在非法集资行为。
需要说明的是,该实施例中的第一获取单元401可以用于执行本申请实施例中的步骤S102,该实施例中的第一转换单元403可以用于执行本申请实施例中的步骤S104,该实施例中的识别单元405可以用于执行本申请实施例中的步骤S106。
此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在相应的硬件环境中,可以通过软件实现,也可以通过硬件实现。
可选地,该装置还可包括:第二获取单元,用于在将所述第一向量输入第一模型之前,获取多个所述第二信息,其中,每个所述第二信息包括一个所述第二对象在所述多个维度上的特征信息和对应的标识信息,该标识信息用于指示所述第二对象是否存在非法集资行为;第二转换单元,用于将所述第二信息转换为第二向量,其中,所述第二向量包括多个子向量,所述第二向量中的每个子向量用于表示所述第二信息中的一个维度的特征信息,所述第二向量中任意两个子向量表示的特征信息的维度不同;训练单元,用于将所述第二向量作为第二模型的输入,并将对应的标识信息作为所述第二模型的预计输出,以对所述第二模型中的参数进行训练,得到所述第一模型。
可选地,所述训练单元可包括:第一训练模块,用于将所述第二向量作为第二模型的输入,并将对应的标识信息作为所述第二模型的预计输出,以对所述第二模型中的参数进行训练;测试模块,用于在对所述第二模型的训练次数达到第一阈值的情况下,利用第三信息对所述第二模型进行测试,其中,所述第三信息包括第三对象在所述多个维度上的特征信息和对应的标识信息,该标识信息用于指示所述第三对象是否存在非法集资行为;确定模块,用于在对所述第二模型的测试准确率达到第二阈值的情况下,将所述第二模型作为所述第一模型,其中,所述测试准确率为多次测试中所述第二模型的输出与所述第三信息中的标识信息匹配的次数与测试的总次数之间的比值;第二训练模块,用于在对所述第二模型的测试准确率未达到所述第二阈值的情况下,继续将所述第二向量作为第二模型的输入并将对应的标识信息作为所述第二模型的预计输出,以对所述第二模型中的参数进行训练,直至训练后对所述第二模型的测试准确率达到所述第二阈值。
可选地,识别单元还可用于将所述第一向量中的子向量输入所述第一模型的第一网络层,所述第一网络层通过如下函数来描述:
Figure BDA0002473887420000151
Figure BDA0002473887420000152
其中,x表示所述第一向量中子向量的向量矩阵,θ表示与x对应的权重向量;在所述第一模型的第二网络层中,根据所述第一网络层的输出值h(θTx)的所属范围确定是否为非法集资行为。
此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在相应的硬件环境中,可以通过软件实现,也可以通过硬件实现,其中,硬件环境包括网络环境。
根据本申请实施例的另一个方面,还提供了一种用于实施上述非法集资的识别方法的服务器或终端。
图4是根据本申请实施例的一种终端的结构框图,如图4所示,该终端可以包括:一个或多个(图4中仅示出一个)处理器501、存储器503、以及传输装置505,如图4所示,该终端还可以包括输入输出设备507。
其中,存储器503可用于存储软件程序以及模块,如本申请实施例中的非法集资的识别方法和装置对应的程序指令/模块,处理器501通过运行存储在存储器503内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的非法集资的识别方法。存储器503可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器503可进一步包括相对于处理器501远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
上述的传输装置505用于经由一个网络接收或者发送数据,还可以用于处理器与存储器之间的数据传输。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置505包括一个网络适配器(Network Interface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置505为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
其中,具体地,存储器503用于存储应用程序。
处理器501可以通过传输装置505调用存储器503存储的应用程序,以执行下述步骤:
获取第一对象的第一信息,其中,所述第一信息包括所述第一对象在多个维度的特征信息,所述第一对象为存在虚拟资源的收集行为的对象;
将所述第一信息转换为第一向量,其中,所述第一向量包括多个子向量,所述多个子向量中的每个子向量用于表示所述第一信息中的一个维度的特征信息,所述多个子向量中任意两个子向量表示的特征信息的维度不同;
将所述第一向量输入第一模型,并通过所述第一模型识别出所述第一对象的虚拟资源的收集行为是否为非法集资行为,其中,所述第一模型是使用第二信息进行训练得到的,所述第二信息包括第二对象在所述多个维度上的特征信息和对应的标识信息,该标识信息用于指示所述第二对象是否存在非法集资行为。
处理器501还用于执行下述步骤:
将所述第二向量作为第二模型的输入,并将对应的标识信息作为所述第二模型的预计输出,以对所述第二模型中的参数进行训练;
在对所述第二模型的训练次数达到第一阈值的情况下,利用第三信息对所述第二模型进行测试,其中,所述第三信息包括第三对象在所述多个维度上的特征信息和对应的标识信息,该标识信息用于指示所述第三对象是否存在非法集资行为;
在对所述第二模型的测试准确率达到第二阈值的情况下,将所述第二模型作为所述第一模型,其中,所述测试准确率为多次测试中所述第二模型的输出与所述第三信息中的标识信息匹配的次数与测试的总次数之间的比值;
在对所述第二模型的测试准确率未达到所述第二阈值的情况下,继续将所述第二向量作为第二模型的输入并将对应的标识信息作为所述第二模型的预计输出,以对所述第二模型中的参数进行训练,直至训练后对所述第二模型的测试准确率达到所述第二阈值。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
本领域普通技术人员可以理解,图4所示的结构仅为示意,终端可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile InternetDevices,MID)、PAD等终端设备。图4其并不对上述电子装置的结构造成限定。例如,终端还可包括比图4中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图4所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
本申请的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于执行非法集资的识别方法的程序代码。
可选地,在本实施例中,上述存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:
获取第一对象的第一信息,其中,所述第一信息包括所述第一对象在多个维度的特征信息,所述第一对象为存在虚拟资源的收集行为的对象;
将所述第一信息转换为第一向量,其中,所述第一向量包括多个子向量,所述多个子向量中的每个子向量用于表示所述第一信息中的一个维度的特征信息,所述多个子向量中任意两个子向量表示的特征信息的维度不同;
将所述第一向量输入第一模型,并通过所述第一模型识别出所述第一对象的虚拟资源的收集行为是否为非法集资行为,其中,所述第一模型是使用第二信息进行训练得到的,所述第二信息包括第二对象在所述多个维度上的特征信息和对应的标识信息,该标识信息用于指示所述第二对象是否存在非法集资行为。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:
将所述第二向量作为第二模型的输入,并将对应的标识信息作为所述第二模型的预计输出,以对所述第二模型中的参数进行训练;
在对所述第二模型的训练次数达到第一阈值的情况下,利用第三信息对所述第二模型进行测试,其中,所述第三信息包括第三对象在所述多个维度上的特征信息和对应的标识信息,该标识信息用于指示所述第三对象是否存在非法集资行为;
在对所述第二模型的测试准确率达到第二阈值的情况下,将所述第二模型作为所述第一模型,其中,所述测试准确率为多次测试中所述第二模型的输出与所述第三信息中的标识信息匹配的次数与测试的总次数之间的比值;
在对所述第二模型的测试准确率未达到所述第二阈值的情况下,继续将所述第二向量作为第二模型的输入并将对应的标识信息作为所述第二模型的预计输出,以对所述第二模型中的参数进行训练,直至训练后对所述第二模型的测试准确率达到所述第二阈值。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种非法集资的识别方法,其特征在于,包括:
获取第一对象的第一信息,其中,所述第一信息包括所述第一对象在多个维度的特征信息,所述第一对象为存在虚拟资源的收集行为的对象;
将所述第一信息转换为第一向量,其中,所述第一向量包括多个子向量,所述多个子向量中的每个子向量用于表示所述第一信息中的一个维度的特征信息,所述多个子向量中任意两个子向量表示的特征信息的维度不同;
将所述第一向量输入第一模型,并通过所述第一模型识别出所述第一对象的虚拟资源的收集行为是否为非法集资行为,其中,所述第一模型是使用第二信息进行训练得到的,所述第二信息包括第二对象在所述多个维度上的特征信息和对应的标识信息,该标识信息用于指示所述第二对象是否存在非法集资行为。
2.根据权利要求1所述的方法,其特征在于,在将所述第一向量输入第一模型之前,所述方法还包括:
获取多个所述第二信息,其中,每个所述第二信息包括一个所述第二对象在所述多个维度上的特征信息和对应的标识信息;
将所述第二信息转换为第二向量,其中,所述第二向量包括多个子向量,所述第二向量中的每个子向量用于表示所述第二信息中的一个维度的特征信息,所述第二向量中任意两个子向量表示的特征信息的维度不同;
将所述第二向量作为第二模型的输入,并将对应的标识信息作为所述第二模型的预计输出,以对所述第二模型中的参数进行训练,得到所述第一模型。
3.根据权利要求2所述的方法,其特征在于,将所述第二向量作为第二模型的输入,并将对应的标识信息作为所述第二模型的预计输出,以对所述第二模型中的参数进行训练,得到所述第一模型包括:
将所述第二向量作为第二模型的输入,并将对应的标识信息作为所述第二模型的预计输出,以对所述第二模型中的参数进行训练;
在对所述第二模型的训练次数达到第一阈值的情况下,利用第三信息对所述第二模型进行测试,其中,所述第三信息包括第三对象在所述多个维度上的特征信息和对应的标识信息,该标识信息用于指示所述第三对象是否存在非法集资行为;
在对所述第二模型的测试准确率达到第二阈值的情况下,将所述第二模型作为所述第一模型,其中,所述测试准确率为多次测试中所述第二模型的输出与所述第三信息中的标识信息匹配的次数与测试的总次数之间的比值;
在对所述第二模型的测试准确率未达到所述第二阈值的情况下,继续将所述第二向量作为第二模型的输入并将对应的标识信息作为所述第二模型的预计输出,以对所述第二模型中的参数进行训练,直至训练后对所述第二模型的测试准确率达到所述第二阈值。
4.根据权利要求1至3中任意一项所述的方法,其特征在于,将所述第一向量输入第一模型,并通过所述第一模型识别出所述第一对象的虚拟资源的收集行为是否为非法集资行为包括:
将所述第一向量中的子向量输入所述第一模型的第一网络层,所述第一网络层通过如下函数来描述:
Figure FDA0002473887410000021
其中,x表示所述第一向量中子向量的向量矩阵,θ表示与x对应的权重向量;
在所述第一模型的第二网络层中,根据所述第一网络层的输出值h(θTx)的所属范围确定是否为非法集资行为。
5.一种非法集资的识别装置,其特征在于,包括:
第一获取单元,用于获取第一对象的第一信息,其中,所述第一信息包括所述第一对象在多个维度的特征信息,所述第一对象为存在虚拟资源的收集行为的对象;
第一转换单元,用于将所述第一信息转换为第一向量,其中,所述第一向量包括多个子向量,所述多个子向量中的每个子向量用于表示所述第一信息中的一个维度的特征信息,所述多个子向量中任意两个子向量表示的特征信息的维度不同;
识别单元,用于将所述第一向量输入第一模型,并通过所述第一模型识别出所述第一对象的虚拟资源的收集行为是否为非法集资行为,其中,所述第一模型是使用第二信息进行训练得到的,所述第二信息包括第二对象在所述多个维度上的特征信息和对应的标识信息,该标识信息用于指示所述第二对象是否存在非法集资行为。
6.根据权利要求5所述的装置,其特征在于,所述装置还包括:
第二获取单元,用于在将所述第一向量输入第一模型之前,获取多个所述第二信息,其中,每个所述第二信息包括一个所述第二对象在所述多个维度上的特征信息和对应的标识信息;
第二转换单元,用于将所述第二信息转换为第二向量,其中,所述第二向量包括多个子向量,所述第二向量中的每个子向量用于表示所述第二信息中的一个维度的特征信息,所述第二向量中任意两个子向量表示的特征信息的维度不同;
训练单元,用于将所述第二向量作为第二模型的输入,并将对应的标识信息作为所述第二模型的预计输出,以对所述第二模型中的参数进行训练,得到所述第一模型。
7.根据权利要求6所述的装置,其特征在于,所述训练单元包括:
第一训练模块,用于将所述第二向量作为第二模型的输入,并将对应的标识信息作为所述第二模型的预计输出,以对所述第二模型中的参数进行训练;
测试模块,用于在对所述第二模型的训练次数达到第一阈值的情况下,利用第三信息对所述第二模型进行测试,其中,所述第三信息包括第三对象在所述多个维度上的特征信息和对应的标识信息,该标识信息用于指示所述第三对象是否存在非法集资行为;
确定模块,用于在对所述第二模型的测试准确率达到第二阈值的情况下,将所述第二模型作为所述第一模型,其中,所述测试准确率为多次测试中所述第二模型的输出与所述第三信息中的标识信息匹配的次数与测试的总次数之间的比值;
第二训练模块,用于在对所述第二模型的测试准确率未达到所述第二阈值的情况下,继续将所述第二向量作为第二模型的输入并将对应的标识信息作为所述第二模型的预计输出,以对所述第二模型中的参数进行训练,直至训练后对所述第二模型的测试准确率达到所述第二阈值。
8.根据权利要求5所述的装置,其特征在于,所述识别单元还用于:
将所述第一向量中的子向量输入所述第一模型的第一网络层,所述第一网络层通过如下函数来描述:
Figure FDA0002473887410000041
其中,x表示所述第一向量中子向量的向量矩阵,θ表示与x对应的权重向量;
在所述第一模型的第二网络层中,根据所述第一网络层的输出值h(θTx)的所属范围确定是否为非法集资行为。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序运行时执行上述权利要求1至4任一项中所述的方法。
10.一种电子装置,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器通过所述计算机程序执行上述权利要求1至4任一项中所述的方法。
CN202010357155.6A 2020-04-29 2020-04-29 非法集资的识别方法和装置、存储介质、电子装置 Pending CN111709841A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010357155.6A CN111709841A (zh) 2020-04-29 2020-04-29 非法集资的识别方法和装置、存储介质、电子装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010357155.6A CN111709841A (zh) 2020-04-29 2020-04-29 非法集资的识别方法和装置、存储介质、电子装置

Publications (1)

Publication Number Publication Date
CN111709841A true CN111709841A (zh) 2020-09-25

Family

ID=72536876

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010357155.6A Pending CN111709841A (zh) 2020-04-29 2020-04-29 非法集资的识别方法和装置、存储介质、电子装置

Country Status (1)

Country Link
CN (1) CN111709841A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112150294A (zh) * 2020-10-12 2020-12-29 中国农业银行股份有限公司 针对非法集资的识别方法、装置及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109523153A (zh) * 2018-11-12 2019-03-26 平安科技(深圳)有限公司 非法集资企业的获取方法、装置、计算机设备和存储介质
CN109657894A (zh) * 2018-09-27 2019-04-19 深圳壹账通智能科技有限公司 企业信用风险预警方法、装置、设备及存储介质
CN110704572A (zh) * 2019-09-04 2020-01-17 北京航空航天大学 疑似非法集资风险的预警方法、装置、设备和存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109657894A (zh) * 2018-09-27 2019-04-19 深圳壹账通智能科技有限公司 企业信用风险预警方法、装置、设备及存储介质
CN109523153A (zh) * 2018-11-12 2019-03-26 平安科技(深圳)有限公司 非法集资企业的获取方法、装置、计算机设备和存储介质
CN110704572A (zh) * 2019-09-04 2020-01-17 北京航空航天大学 疑似非法集资风险的预警方法、装置、设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
猿媛之家,辛晓婷,李华荣等: "Python程序员面试笔试宝典", 机械工业出版社, pages: 323 - 324 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112150294A (zh) * 2020-10-12 2020-12-29 中国农业银行股份有限公司 针对非法集资的识别方法、装置及电子设备
CN112150294B (zh) * 2020-10-12 2023-10-13 中国农业银行股份有限公司 针对非法集资的识别方法、装置及电子设备

Similar Documents

Publication Publication Date Title
CN107945024B (zh) 识别互联网金融借贷企业经营异常的方法、终端设备及存储介质
Sun et al. Predicting credit card delinquencies: An application of deep neural networks
Tsai et al. Determinants of intangible assets value: The data mining approach
Politou et al. Profiling tax and financial behaviour with Big Data under the GDPR
CN111507831A (zh) 信贷风险自动评估方法和装置
Syed Nor et al. Personal bankruptcy prediction using decision tree model
CN112926699A (zh) 异常对象识别方法、装置、设备及存储介质
CN112668859A (zh) 基于大数据的客户风险评级方法、装置、设备及存储介质
Ucoglu Current machine learning applications in accounting and auditing
Gepp et al. Lifting the numbers game: identifying key input variables and a best‐performing model to detect financial statement fraud
CN111583033A (zh) 基于上市公司和股东之间联系的关联分析方法及装置
CN111179051A (zh) 金融目标客户确定方法、装置及电子设备
Sampagnaro et al. Monitoring in small business lending: How to observe the unobservable
Murugan Large-scale data-driven financial risk management & analysis using machine learning strategies
Hoti et al. Measuring risk in environmental finance
Chimonaki et al. Identification of financial statement fraud in Greece by using computational intelligence techniques
Korol The implementation of fuzzy logic in forecasting financial ratios
CN111709841A (zh) 非法集资的识别方法和装置、存储介质、电子装置
Tritscher et al. Towards explainable occupational fraud detection
CN115907947A (zh) 一种企业贷款风险的预测方法及系统
CN112712270B (zh) 信息处理方法、装置、设备及存储介质
Dorofeev et al. Application of machine analysis algorithms to automate implementation of tasks of combating criminal money laundering
Li et al. P2P default risk prediction based on XGBoost, SVM and RF fusion model
Li et al. Research on Efficiency in Credit Risk Prediction Using Logistic‐SBM Model
Phong et al. Fraud identification of financial statements by machine learning technology: case of listed companies in Vietnam

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination