CN111914542A

CN111914542A - 疑似非法集资市场主体识别方法、装置、终端及存储介质

Info

Publication number: CN111914542A
Application number: CN202010437168.4A
Authority: CN
Inventors: 贺敏; 杜慧; 董琳; 郭富民; 杨菁林; 徐小磊
Original assignee: Institute of Computing Technology of CAS; National Computer Network and Information Security Management Center
Current assignee: Institute of Computing Technology of CAS; National Computer Network and Information Security Management Center
Priority date: 2020-05-21
Filing date: 2020-05-21
Publication date: 2020-11-10

Abstract

本申请实施例提供了疑似非法集资市场主体识别方法、装置、终端及存储介质，涉及金融安全领域。本申请通过从互联网公开数据中获取与市场主体相关联的文本数据；通过预先训练的数据识别模型，从文本数据中识别出非法集资线索数据；将非法集资线索数据输入到预先训练的市场主体抽取模型中，得到疑似非法集资市场主体。本方案可以从互联网公开数据中自动识别出疑似非法集资行为的线索信息，定位疑似非法集资市场主体，从而提高识别非法集资市场主体的效率。

Description

疑似非法集资市场主体识别方法、装置、终端及存储介质

技术领域

本申请涉及金融安全领域，尤其涉及一种疑似非法集资市场主体识别方法、装置、终端及存储介质。

背景技术

非法集资是一种犯罪活动，是指单位或者个人未依照法定程序经有关部门批准，以发行股票、债券、彩票、投资基金证券或者其他债权凭证的方式向社会公众筹集资金，并承诺在一定期限内以货币、实物以及其他方式向出资人还本付息或给予回报的行为。同时具备非法性、公开性、利诱性和社会性四个特征。

对于非法集资市场主体的识别，相关技术中使用的方案是基于人工对待识别企业的财务信息数据及企业信息数据进行审核，判断出企业是否存在异常，从而判断出该企业是否为疑似非法集资市场主体。

然而，由于市场主体的数量过于庞大，依靠人工对所有市场主体一一进行识别，识别效率很低。

发明内容

本申请实施例的目的在于提供疑似非法集资市场主体识别方法、装置、终端及存储介质。具体技术方案如下：

第一方面，提供了疑似非法集资市场主体识别方法，所述方法包括：

从互联网公开数据中获取与市场主体相关联的文本数据；

通过预先训练的数据识别模型，从所述文本数据中识别出非法集资线索数据；

将所述非法集资线索数据输入到预先训练的市场主体抽取模型中，得到疑似非法集资市场主体。

可选的，所述文本数据包括内容发布平台中的内容数据，所述通过预先训练的数据识别模型，从所述文本数据中识别出非法集资线索数据，包括：

通过预先训练的违规金融广告识别模型，从所述内容数据中识别出违规金融广告线索信息；

通过预先训练的负面爆料识别模型，从所述内容数据中识别出负面爆料线索信息；

通过预先训练的高危业态识别模型，从所述内容数据中识别出高危业态线索信息；

其中，识别出的所述违规金融广告线索信息、负面爆料线索信息及高危业态线索信息构成非法集资线索数据。

可选的，所述文本数据包括投诉举报数据，所述通过预先训练的数据识别模型，从所述文本数据中识别出非法集资线索数据，包括：

通过预先训练的投诉举报识别模型，从投诉举报数据中识别出投诉举报线索信息，作为非法集资线索数据。

可选的，所述文本数据包括工商数据和企业黑名单数据，所述方法还包括：

基于所述工商数据和企业黑名单数据，提取与黑名单企业相关联的企业作为疑似非法集资市场主体。

可选的，所述文本数据包括司法诉讼数据，所述方法还包括：

基于所述司法诉讼数据，统计每个企业在预设时间段的司法诉讼次数；

获取司法诉讼次数大于基础阈值的企业作为疑似非法集资市场主体。

第二方面，提供了疑似非法集资市场主体识别装置，所述装置包括：

第一获取模块，用于从互联网公开数据中获取与市场主体相关联的文本数据；

识别模块，用于通过预先训练的数据识别模型，从所述文本数据中识别出非法集资线索数据；

抽取模块，用于将所述非法集资线索数据输入到预先训练的市场主体抽取模型中，得到疑似非法集资市场主体。

可选的，所述文本数据包括内容发布平台中的内容数据，所述识别模块具体用于：

可选的，所述文本数据包括投诉举报数据，所述识别模块具体用于：

可选的，所述文本数据包括工商数据和企业黑名单数据，所述装置还包括：

提取模块，用于基于所述工商数据和企业黑名单数据，提取与黑名单企业相关联的企业作为疑似非法集资市场主体。

可选的，所述文本数据包括司法诉讼数据，所述装置还包括：

统计模块，用于基于所述司法诉讼数据，统计每个企业在预设时间段的司法诉讼次数；

第二获取模块，用于获取司法诉讼次数大于基础阈值的企业作为疑似非法集资市场主体。

第三方面，提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-5任一所述的方法步骤。

第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-5任一所述的方法步骤。

第五方面，提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的疑似非法集资市场主体识别方法。

本申请实施例有益效果：

本申请实施例提供了疑似非法集资市场主体识别方法、装置、终端及存储介质，本申请通过从互联网公开数据中获取与市场主体相关联的文本数据；通过预先训练的数据识别模型，从文本数据中识别出非法集资线索数据；将非法集资线索数据输入到预先训练的市场主体抽取模型中，得到疑似非法集资市场主体。本方案可以从互联网公开数据中自动识别出疑似非法集资行为的线索信息，定位疑似非法集资市场主体，从而提高识别非法集资市场主体的效率。

当然，实施本申请的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的疑似非法集资市场主体识别方法的流程图；

图2为本申请实施例提供的疑似非法集资市场主体识别方法的处理流程示意图；

图3为本申请实施例提供的疑似非法集资市场主体识别装置的结构示意图；

图4为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例提供了疑似非法集资市场主体识别方法，可以应用于终端。

下面将结合具体实施方式，对本申请实施例提供的疑似非法集资市场主体识别方法进行详细的说明，如图1所示，具体步骤如下：

步骤101，从互联网公开数据中获取与市场主体相关联的文本数据。

本申请实施例中，可以从各个平台的互联网公开数据中，通过网络爬虫或者人工读取的方式，采集与市场主体相关联的文本数据。文本数据可以是各个平台上的内容文本数据。市场主体是指在市场上从事生产和交换活动的组织和个人,包括自然人和法人。

步骤102，通过预先训练的数据识别模型，从文本数据中识别出非法集资线索数据；

本申请实施例中，可以预先训练出数据识别模型，通过将文本数据输入到数据识别模型中，识别出非法集资线索数据。数据识别模型可以通过文本分类模型实现，文本分类模型例如支持向量机(Support Vector Machine,SVM)模型、卷积神经网络(ConvolutionalNeural Networks,CNN)模型；也可以通过人工编写特征词规则的方法实现。

可选的，文本数据包括内容发布平台中的内容数据，内容发布平台是指公众可以通过文字发表言论的网络平台，例如，微博、自媒体公众号等；内容数据是指公众发布的文字内容。针对内容发布平台中的内容数据进行识别的方式有三种，具体如下：

方式一，通过预先训练的违规金融广告识别模型，从内容发布平台内容数据中识别出违规金融广告线索信息，识别出的违规金融广告线索信息作为非法集资线索数据。

本申请实施例中，可以预先训练出违规金融广告识别模型，通过将内容发布平台中的内容数据输入到违规金融广告识别模型中，识别出违规金融广告线索信息，识别出的违规金融广告线索信息作为非法集资线索数据。违规金融广告线索信息是指市场主体为达到吸引投资人参与投资或者变相投资金融活动，采用煽动性、诱惑性、夸大性语言或违反国家对金融广告法规等宣传方式、给予投资者高收益或低风险等承诺直接或间接推动投资人参与投资活动的广告信息。例如，通过违规金融广告识别模型，识别到微博上发布的带有“高收益”的文本内容，则这条文本内容作为非法集资线索数据。

方式二，通过预先训练的负面爆料识别模型，从内容发布平台内容数据中识别出负面爆料线索信息，识别出的负面爆料线索信息作为非法集资线索数据。

本申请实施例中，可以预先训练出负面爆料识别模型，通过将内容发布平台中的内容数据输入到负面爆料识别模型中，识别出负面爆料线索信息，识别出的负面爆料线索信息作为非法集资线索数据。负面爆料线索信息是指在非法集资活动中的受害人或者媒体知情人士，对高危市场主体金融欺诈、违规、失联跑路等高危金融风险行为进行曝光的文本信息。例如，通过负面爆料识别模型，识别到某论坛上发布的“某平台无法提现后未关闭充值功能”的文本内容，则这条文本内容作为非法集资线索数据。

方式三，通过预先训练的高危业态识别模型，从内容发布平台内容数据中识别出高危业态线索信息，识别出的高危业态线索信息作为非法集资线索数据。

本申请实施例中，可以预先训练出高危业态识别模型，通过将内容发布平台中的内容数据输入到高危业态识别模型中，识别出高危业态线索信息，识别出的高危业态线索信息作为非法集资线索数据。高危业态是指当前非法集资活动高发的集资业态或者业务模型。例如，通过高危业态识别模型，识别到带有“游戏理财”、“影视众筹”、“消费全返”的文本内容，则这条文本内容作为非法集资线索数据。

可选的，文本数据也可以包括投诉举报数据，投诉举报数据是指从投诉举报网站、平台收集的文本数据，如政府投诉平台。针对投诉举报数据进行识别的方式具体如下：

本申请实施例中，可以预先训练出投诉举报识别模型，将投诉举报数据输入到投诉举报识别模型中识别出投诉举报线索信息，识别出的投诉举报线索信息作为非法集资线索数据。

步骤103，将非法集资线索数据输入到预先训练的市场主体抽取模型中，得到疑似非法集资市场主体。

本申请实施例中，可以预先训练出市场主体抽取模型，将非法集资线索数据输入到市场主体抽取模型中，得到疑似非法集资市场主体。构建市场主体抽取模型可以采用命名实体识别(Named Entity Recognition,NER)模型。

本申请实施例中，通过从互联网公开数据中获取与市场主体相关联的文本数据；通过预先训练的数据识别模型，从文本数据中识别出非法集资线索数据；将非法集资线索数据输入到预先训练的市场主体抽取模型中，得到疑似非法集资市场主体。本方案利用多种方式，从互联网公开数据中识别出多种疑似非法集资行为的线索信息，从而定位疑似非法集资市场主体，可以有效缩小非法集资市场主体的识别范围，从而提高识别非法集资市场主体的效率。

可选的，文本数据还可以包括工商数据和企业黑名单数据，基于工商数据和企业黑名单数据，提取与黑名单企业相关联的企业作为疑似非法集资市场主体。

本申请实施例中，黑名单企业是指已经出现问题的企业，如非法集资立案企业、失联跑路企业、提现企业，黑名单企业可以从政府网站、公安部门微信公众号等平台获取。基于工商数据和企业黑名单数据，可以根据工商关联关系，如投资控股关联、法人股东关联以及企业重要人员之间的亲属关系等找到与黑名单企业相关联的企业，提取与黑名单企业相关联的企业作为疑似非法集资市场主体。例如，A企业为非法集资立案企业，A企业和B企业的法人均是C，则B企业作为疑似非法集资市场主体。

为了提高确定疑似非法集资市场主体的准确性，可以对关联关系的密切程度进行衡量，筛选出密切程度高的企业，作为疑似非法集资市场主体。密切程度可以通过企业间的投资关系来判定，例如，提取黑名单企业控股比例达到设定阈值的企业作为疑似非法集资市场主体；密切程度也可以通过与股东、法人等更为复杂的关系判定方式，查找与黑名单企业密切程度高的企业作为疑似非法集资市场主体。

本申请实施例中，基于工商数据和企业黑名单数据，提取与黑名单企业相关联的企业作为疑似非法集资市场主体。本方案通过从工商数据中，提取与黑名单企业关联的企业，定位疑似非法集资市场主体，可以有效缩小非法集资市场主体的识别范围，从而提高识别非法集资市场主体的效率。

可选的，文本数据还可以包括司法诉讼数据，基于司法诉讼数据，统计每个企业在预设时间段的司法诉讼次数；获取司法诉讼次数大于基础阈值的企业作为疑似非法集资市场主体。

本申请实施例中，司法诉讼数据可以从司法网站获取，基于司法诉讼数据，统计每个企业在预设时间段的司法诉讼次数，判断司法诉讼次数是否大于预设阈值。如果大于，则确定该企业作为疑似非法集资市场主体，如果小于，则确定该企业不是疑似非法集资市场主体。在一种实现方式中，司法诉讼次数可以是所有类型司法诉讼次数，例如，针对所有类型司法诉讼次数设定基础阈值“3”，预设时间段设为一年，A企业在一年当中的所有类型司法诉讼次数为“5”，则A企业为疑似非法集资市场主体；在另一种实现方式中，司法诉讼次数也可以是筛选出的民间借贷诉讼次数，例如：针对民间借贷诉讼次数设定基础阈值“1”，预设时间段设为6个月，B企业在6个月当中民间借贷诉讼次数为0，则B企业不是疑似非法集资市场主体。

本申请实施例中，基于司法诉讼数据，统计每个企业在预设时间段的司法诉讼次数；获取司法诉讼次数大于基础阈值的企业作为疑似非法集资市场主体。本方案通过从司法诉讼数据中，获取司法诉讼次数大于基础阈值的企业，定位疑似非法集资市场主体，可以有效缩小非法集资市场主体的识别范围，从而提高识别非法集资市场主体的效率。

可选的，本申请实施例还提供了疑似非法集资市场主体识别方法的处理流程，如图2所示，具体步骤如下。

步骤201，从互联网公开数据中获取与市场主体相关联的文本数据；

步骤202，通过预先训练的违规金融广告识别模型，从内容数据中识别出违规金融广告线索信息；将违规金融广告线索信息输入到预先训练的市场主体抽取模型中，得到疑似非法集资市场主体。

步骤203，通过预先训练的负面爆料识别模型，从内容数据中识别出负面爆料线索信息；将负面爆料线索信息输入到预先训练的市场主体抽取模型中，得到疑似非法集资市场主体。

步骤204，通过预先训练的高危业态识别模型，从内容数据中识别出高危业态线索信息；将高危业态线索信息输入到预先训练的市场主体抽取模型中，得到疑似非法集资市场主体。

步骤205，通过预先训练的投诉举报识别模型，从投诉举报数据中识别出投诉举报线索信息，将投诉举报线索信息输入到预先训练的市场主体抽取模型中，得到疑似非法集资市场主体。

步骤206，基于工商数据和企业黑名单数据，提取与黑名单企业相关联的企业作为疑似非法集资市场主体。

步骤207，基于司法诉讼数据，统计每个企业在预设时间段的司法诉讼次数；获取司法诉讼次数大于基础阈值的企业作为疑似非法集资市场主体。

以上步骤202至207，执行顺序不分先后，也可以同时进行。

本申请实施例中，通过从互联网公开数据中获取与市场主体相关联的文本数据；通过预先训练的数据识别模型，从文本数据中识别出非法集资线索数据；将非法集资线索数据输入到预先训练的市场主体抽取模型中，得到疑似非法集资市场主体。本方案利用多种方式，从互联网公开数据中自动识别出多种疑似非法集资行为的线索信息，从而定位疑似非法集资市场主体，可以有效缩小非法集资市场主体的识别范围，从而提高识别非法集资市场主体的效率。

基于相同的技术构思，本申请实施例还提供了疑似非法集资市场主体识别装置，如图3所示，该装置包括：

第一获取模块301，用于从互联网公开数据中获取与市场主体相关联的文本数据；

识别模块302，用于通过预先训练的数据识别模型，从所述文本数据中识别出非法集资线索数据；

抽取模块303，用于将所述非法集资线索数据输入到预先训练的市场主体抽取模型中，得到疑似非法集资市场主体。

可选的，所述文本数据包括投诉举报数据，所述识别模块具体还用于：

提取模块304，用于基于所述工商数据和企业黑名单数据，提取与黑名单企业相关联的企业作为疑似非法集资市场主体。

统计模块305，用于基于所述司法诉讼数据，统计每个企业在预设时间段的司法诉讼次数；

第二获取模块306，用于获取司法诉讼次数大于基础阈值的企业作为疑似非法集资市场主体。

基于相同的技术构思，本发明实施例还提供了一种电子设备，如图4所示，包括处理器401、通信接口402、存储器403和通信总线404，其中，处理器401，通信接口402，存储器403通过通信总线404完成相互间的通信，

存储器403，用于存放计算机程序；

处理器401，用于执行存储器403上所存放的程序时，实现如下步骤：

从互联网公开数据中获取与市场主体相关联的文本数据；

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一可疑市场主体的识别方法的步骤。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一可疑市场主体的识别方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本申请的具体实施方式，使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.疑似非法集资市场主体识别方法，其特征在于，所述方法包括：

从互联网公开数据中获取与市场主体相关联的文本数据；

2.根据权利要求1所述的方法，其特征在于，所述文本数据包括内容发布平台中的内容数据，所述通过预先训练的数据识别模型，从所述文本数据中识别出非法集资线索数据，包括：

3.根据权利要求1所述的方法，其特征在于，所述文本数据包括投诉举报数据，所述通过预先训练的数据识别模型，从所述文本数据中识别出非法集资线索数据，包括：

通过预先训练的投诉举报识别模型，从所述投诉举报数据中识别出投诉举报线索信息，作为非法集资线索数据。

4.根据权利要求1所述的方法，其特征在于，所述文本数据包括工商数据和企业黑名单数据，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述文本数据包括司法诉讼数据，所述方法还包括：

6.疑似非法集资市场主体识别装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述文本数据包括工商数据和企业黑名单数据，所述装置还包括：

8.根据权利要求6所述的装置，其特征在于，所述文本数据包括司法诉讼数据，所述装置还包括：

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-5任一所述的方法步骤。