具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了使本技术领域的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器( Moving Picture ExpertsGroup Audio Layer III,动态影像专家压缩标准音频层面3 )、MP4( Moving PictureExperts Group Audio Layer IV,动态影像专家压缩标准音频层面4 )播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器,服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
需要说明的是,本申请实施例所提供的企业异常行为检测方法一般由服务器执行,相应地,企业异常行为检测装置一般设置于服务器中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的企业异常行为检测方法的一个实施例的流程图。本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
目前识别非法集资企业主要采取监管机构监测、公众举报投诉、媒体曝光、评论识别等手段实现,但是非法集资企业通常会采取各种手段来掩盖其真实意图和行为,使其更难被识别,识别成功率较低,并且监管机构和相关部门在识别和打击非法集资企业方面可能存在一定的滞后性,非法集资企业可能在短时间内快速发展并吸收大量资金,当前这种非法集资企业识别方式的滞后性会导致投资者的损失。其中,本申请中的评论可以是公众的评论、观点或者看法。
为了解决上述技术问题,本申请公开一种企业异常行为检测方法、装置、计算机设备及存储介质,属于人工智能技术领域和金融科技领域,本申请通过联邦学习框架和多个参与方节点的协作,并充分利用各方的多源数据特征进行非法集资企业预测模型的训练,在联邦学习框架下通过多维度数据特征评估企业行为,消除监管机构等现有监测手段存在的视角盲点和隐患,提高了非法集资企业预测的准确性和实时性。
所述的企业异常行为检测方法,包括以下步骤:
S201,基于联邦学习框架构建企业异常行为检测平台,并将各个参与方注册到企业异常行为检测平台中,生成若干个参与方节点。
在传统的机器学习方法中,数据通常被收集并汇总到一个中央服务器上,然后在该服务器上进行训练,然而这种集中式的方法可能会面临数据隐私和安全性的问题,因为用户的个人数据需要传输到中央服务器。
为此,本申请通过联邦学习框架构建企业异常行为检测平台,也可以称为非法集资企业预测平台,用于实现企业异常行为检测和非法集资企业预测功能。联邦学习(Federated Learning)是一种机器学习的分布式学习方法,旨在通过在多个本地设备或边缘设备上进行模型训练,而无需将原始数据上传到中央服务器。在联邦学习中,许多参与方共同合作来训练一个共享的全局模型,而不是将数据集集中在一个地方进行训练,能够保护用户隐私,减少数据传输量,降低了通信成本。
在本实施例中,基于联邦学习框架构建非法集资企业预测平台,各个参与方可以注册到平台中,共同参与模型构建和训练,并且通过联邦学习的方式,各个参与方可以在本地服务器完成本地预测模型的训练,最后只需上传本地预测模型的参数至非法集资企业预测平台进行聚合即可,无需上传用户数据,减少了数据传输量,保护了用户隐私。
S202,生成企业异常行为检测平台的全局模型,对全局模型进行初始化,并将初始化后的全局模型分发到各个参与方节点上。
在联邦学习方案中,初始化全局模型的选择可以根据具体的应用需求和场景来决定。可以使用传统的机器学习算法和模型作为全局模型的初始版本,例如逻辑回归、支持向量机(SVM)、决策树等;对于需要处理大规模复杂数据的任务,也可以选择使用深度学习模型作为全局模型的初始版本,深度学习模型,如卷积神经网络(CNN)、循环神经网络(RNN)、Transformer等。
在本实施例中,在非法集资企业预测平台中生成全局模型,并对其进行初始化,全局模型是整个非法集资企业预测系统的基础,全局模型将在后续步骤中对其进行参数更新,以生成非法集资企业预测模型。将初始化后的全局模型分发给每个参与方节点,这样每个参与方节点都可以在本地进行数据处理和模型训练,能够减少了数据传输量,保护用户数据隐私,同时实现模型的共享和协作。
S203,在各个参与方节点上获取参与方本地数据,并对参与方本地数据进行数据分类,其中,参与方本地数据的类别包括企业基本数据、公开评论数据、银行及政务数据。
一般用来进行非法集资企业预测的数据来源比较广泛,包括企业基本数据、公开评论数据、银行及政务数据这几个大类,而且涉及主体众多,部分数据对隐私安全的要求较高,如银行流水,部分数据隐蔽性较强,如评论数据中将敏感词“分红”写成“分h”。因此,应对不同来源数据应该针对性地采用不同方式处理,以提高后续模型的训练效果和优化效果,例如:
对于企业基本数据,可以进行数据清洗和标准化,确保数据的一致性和准确性,包括去除重复数据、填补缺失值、纠正错误等操作。然后通过生成企业基本数据的关联关系图谱,通过关联关系图谱进行企业基本数据的特征处理,以判断企业是否有股权关联异常等。
对于公开评论数据,需要考虑数据的来源、可信度和隐蔽性,可以使用自然语言处理技术对文本数据进行分词、词性标注、情感分析等处理,以获取情感倾向和关键词信息。同时,可以利用一些关键词特征映射表识别隐蔽性较强敏感词,或者通过预设的码表中定义敏感词映射关系,通过码表识别隐蔽性较强敏感词,如将“分红”、“分h”这两个敏感词在码表中映射到相同的编码,如映射为"FRUIT001",通过码表行识别隐蔽性较强敏感词。
对于银行及政务数据,保护客户隐私和敏感信息是至关重要的,在处理这些数据时,需要采取严格的隐私保护措施,确保数据的安全性,可以使用数据加密技术对敏感信息进行加密,采用数据脱敏方法对个人身份信息进行处理,以降低隐私泄露的风险。同时,可以利用数据挖掘和机器学习技术对银行及政务数据进行分析,提取关键特征,计算银行流水特征和政务数据特征之间的相似度,相似度用于预测非法集资企业行为。
在本实施例中,各个参与方节点从本地获取本地数据,并对本地数据进行分类,本地数据包括企业基本数据、公开评论数据、银行及政务数据,通过数据分类,以便后续应对不同来源数据应该针对性地采用不同方式处理,可以更全面地反映企业行为的情况,提高非法集资企业预测模型的准确性。
S204,对各个类别的参与方本地数据分别进行特征处理,得到合规特征和非合规特征。
在非法集资企业预测平台中,合规特征即合规企业特征,非合规特征即非法集资企业特征,合规企业特征和非法集资企业特征是用于区分合规企业和非法集资企业的特征集合。合规企业特征是指与合规企业相关的特征,这些特征通常与正常经营、合法运作的企业行为和属性有关;非法集资企业特征是指与非法集资企业相关的特征,这些特征通常与非法集资、欺诈行为和违规操作有关。
在本实施例中,针对每个本地数据的类别,参与方节点件采用不同的方式进行特征处理,以识别本地数据中的合规企业特征和非法集资企业特征,包括分别采用不同的特征处理方式将企业基本数据、公开评论数据、银行及政务数据转化为可供模型训练的数值特征,以便更好地描述企业的特征,利用各方的多源数据特征进行非法集资企业预测模型的训练,提高非法集资企业预测模型的准确性。
S205,在各个参与方节点上基于合规特征和非合规特征训练初始化后的全局模型,得到各个参与方节点的本地预测模型。
本地预测模型是联邦学习中的重要组成部分,代表了本地节点的特定数据分布和特征,通过本地节点的训练和更新,本地预测模型逐步优化,以适应本地数据的特征和模式。在联邦学习的迭代过程中,本地模型会通过参与方之间的通信与全局模型进行交互,将本地更新应用于全局模型的参数更新中,这种分布式的模型更新方式,保护了参与方的数据隐私,同时实现了全局模型的共同学习。
在本实施例中,在每个参与方本地节点上,使用各个参与方节点的合规企业特征和非法集资企业特征对初始化后的全局模型进行训练,这样每个参与方节点都能根据自己的本地数据和特征进行模型训练,最终各个参与方节点都能得到的一个本地预测模型,提高预测模型的个性化和适应性。
S206,获取各个本地预测模型的模型参数,将模型参数发送至企业异常行为检测平台。
在本实施例中,获取各个参与方节点的本地预测模型的模型参数,并将这些参数发送至非法集资企业预测平台,这样可以在非法集资企业预测平台将各个参与方节点的模型参数进行聚合,以实现联邦学习的模型训练方案。
S207,在企业异常行为检测平台中使用模型参数对初始化后的全局模型进行参数更新,得到企业异常行为检测模型。
在本实施例中,在非法集资企业预测平台中,对各个参与方节点发送来的模型参数进行聚合运算,然后使用聚合的模型参数对初始化后的全局模型进行参数更新,得到非法集资企业预测模型,完成基于联邦学习的模型训练过程。这样的参数更新过程可以将各个参与方节点的模型结果进行整合,最终获得非法集资企业预测模型。通过结合联邦学习框架和充分利用各方的多源数据特征训练一个非法集资企业预测模型,提高了非法集资企业预测的准确性和实时性。
S208,接收异常行为检测指令,获取待识别企业数据,将待识别企业数据导入企业异常行为检测模型,输出待识别企业数据的异常行为检测结果。
在本实施例中,异常行为检测即非法集资企业预测,在完成非法集资企业预测模型训练以后,接收非法集资企业预测指令,并获取待识别企业的企业数据,这些数据将用于后续的非法集资企业预测。将待识别企业的数据导入非法集资企业预测模型,通过模型进行预测,并输出待识别企业的非法集资企业预测结果,这样可以快速、准确地判断企业是否存在非法集资的风险。
在上述实施例中,本申请公开一种企业异常行为检测方法,属于人工智能技术领域和金融科技领域,本申请通过联邦学习框架和多个参与方节点的协作,并充分利用各方的多源数据特征进行企业异常行为检测模型的训练,在联邦学习框架下通过多维度数据特征评估企业行为,消除监管机构等现有监测手段存在的视角盲点和隐患,提高了企业异常行为检测和非法集资企业预测的准确性和实时性。
进一步地,在各个参与方节点上获取参与方本地数据,并对参与方本地数据进行数据分类的步骤,具体包括:
识别参与方本地数据的数据来源;
基于数据来源对参与方本地数据进行数据分类,得到企业基本数据、公开评论数据、银行及政务数据。
在本实施例中,首先要确定参与方本地数据的来源,参与方可能会提供各种类型的数据,如企业基本数据、公开评论数据、银行及政务数据,这些数据可以来自不同的渠道和系统,如企业注册机构、评论识别平台、银行系统等,在系统中建立适当的接口或连接方式,以便确定参与方的本地数据的来源。基于数据来源对参与方本地数据进行数据分类,得到企业基本数据、公开评论数据、银行及政务数据,其中:
企业基本数据:这类数据通常包含有关企业的基本信息,如注册信息、经营状况、财务指标等,通过对企业基本数据的分类,可以更好地了解和管理参与方的基本情况。企业基本数据包括企业基础信息和企业经营信息,企业基本数据为结构化数据。
公开评论数据:这类数据指涉及参与方在公开媒体、社交网络等渠道上的评论信息,如新闻报道、评论、社交媒体帖子等,对公开评论数据进行分类可以帮助系统更好地监测和分析参与方在公众视野中的形象和声誉。公开评论数据为文本数据,文本数据为非结构化数据。
银行及政务数据:这类数据涉及到参与方与银行机构之间以及参与方与机构之间的交互和业务数据,如交易记录、贷款信息、账户余额、税务信息等,对银行及政务数据进行分类可以帮助系统了解参与方的金融状况和风险。银行及政务数据包括银行流水信息和机构政务信息(本申请中的机构可以是公共管理机构),银行及政务数据为结构化数据。
通过上述步骤,通过对参与方本地数据的识别和分类,系统能够更好地管理和利用这些数据,为后续的数据处理、分析和预测提供基础。
进一步地,对各个类别的参与方本地数据分别进行特征处理,得到合规特征和非合规特征的步骤,具体包括:
基于企业基本数据之间的关联关系对企业基本数据进行特征处理,得到企业基本数据中的合规特征和非合规特征;
使用预设的词袋模型对公开评论数据进行特征处理,得到公开评论数据中的合规特征和非合规特征;
基于银行及政务数据之间的相似关系对银行及政务数据进行特征处理,得到银行及政务数据中的合规特征和非合规特征。
在本实施例中,各个参与方节点会针对自身的企业基本数据进行特征处理,主要是通过分析企业基本数据之间的关联关系来提取特征,这些关联关系可以包括企业的注册资本、经营范围、股东信息等,通过对这些关联关系的分析,可以提取出描述企业合规性和非法集资风险的特征,即企业基本数据中的合规特征和非合规特征。
参与方节点会使用预设的词袋模型对自身的公开评论数据进行特征处理,将文本信息转化为数值特征,词袋模型可以将文本信息表示为词的频率或出现与否的二进制值,从而提取出描述企业合规性和非法集资风险的特征,即公开评论数据中的合规特征和非合规特征。
词袋模型(Bag of Words Model)是一种常用的文本表示方法,用于将文本数据转化为数值化的向量表示,词袋模型将文本看作是一个无序的词语集合,忽略了词语之间的顺序和语法结构,仅仅考虑词语的出现频率。
参与方节点会针对自身的银行及政务数据进行处理,主要是通过分析银行及政务数据之间的相似关系来提取特征,这些相似关系可以包括企业的流水规模、资金流向等,通过对这些相似关系的分析,可以提取出描述企业合规性和非法集资风险的特征,即银行及政务数据中的合规特征和非合规特征。
通过对参与方本地数据的识别和分类,并对每个类别的数据进行特征处理,能够更好地管理和利用这些数据,为后续的数据处理、分析和预测提供了基础,提高了预测模型的准确性和可靠性。
进一步地,基于企业基本数据之间的关联关系对企业基本数据进行特征处理,得到企业基本数据中的合规特征和非合规特征的步骤,具体包括:
对企业基本数据进行特征编码,得到企业基本特征;
识别企业基础信息和企业经营信息之间的关联关系;
基于关联关系构建企业关联关系图谱;
基于企业关联关系图谱对企业基本特征进行分类,得到企业基本数据中的合规特征和非合规特征。
在本实施例中,企业基本数据为结构化数据,各个参与方节点会对自身的企业基本数据进行特征编码,将其转化为数值特征,通过对这些特征的编码,可以将企业基本数据表示为数值向量,为后续的关联关系分析提供基础。
然后参与方节点会分析企业基础信息和企业经营信息之间的关联关系。例如,可以通过比较企业的注册资本和经营范围,或者分析企业的股东信息和经营活动之间的关系,通过这些关联关系的识别,可以了解企业基本数据之间的相互依赖和联系。
参与方节点根据识别到的关联关系,构建企业关联关系图谱,这个图谱可以将企业基本数据之间的关联关系表示为图的节点和边,节点表示企业基本数据,边表示不同数据之间的关联关系。通过分析企业关联关系图谱中的节点和边的属性,可以判断企业是否符合合规要求或存在非法集资风险,根据分类结果,可以将企业基本数据中的企业划分为合规企业和非法集资企业。
通过以上步骤,可以对企业基本数据进行特征处理,得到企业基本数据中的合规企业特征和非法集资企业特征,这些特征可以为后续的数据分析和预测提供基础。
在申请一种具体的实施例中,在对企业基本数据进行特征编码时,可以采用深度卷积自编码器实现,自编码器模型由编码器和解码器两个部分组成,编码器接收输入数据,并将其映射到一个低维表示,也称为编码层,这个编码层的维度比输入数据的维度小,起到了降维的作用,编码过程可以使用卷积核池化层进行非线性变换。解码器接收编码层的输出,并通过反卷积和反池化操作重构输入数据,解码层将低维表示映射回原始维度空间,恢复输入数据的结构和特征。
自编码器模型训练完成后,编码层的输出可以被用作特征表示,具有较低维度的数据表示可以帮助降低冗余信息并捕捉输入数据的重要特征。同时,解码器可以用于重构数据,通过将编码层的输出映射回原始维度空间,来生成与输入尽可能相似的重构数据。重构特征再次进行编码、解码操作还原后,对重构后的特征计算还原误差,进行可视化展示,寻找离群数据点即异常数据点,抽取异常点企业。
进一步地,使用预设的词袋模型对公开评论数据进行特征处理,得到公开评论数据中的合规特征和非合规特征的步骤,具体包括:
获取公开评论数据,对公开评论数据进行分词处理,得到评论分词;
使用词袋模型将评论分词转化为文本特征向量;
计算评论分词的词频,并将评论分词的词频添加到文本特征向量中,得到公开评论特征;
基于预设的关键词特征映射表对公开评论特征进行分类,得到公开评论数据中的合规特征和非合规特征。
在本实施例中,首先需要获取公开评论数据,包括新闻报道、社交媒体评论、网络论坛帖子等,公开评论数据可以涵盖对企业的评价、讨论和评论。将公开评论数据进行分词处理,将文本拆分为一个个独立的词语。将评论分词转化为文本特征向量,可以使用词袋模型,词袋模型将每个词语视为一个独立的特征,并将其出现与否作为特征向量的取值。对于每个评论分词,计算其在文本中的出现频率,即词频,将这些词频添加到文本特征向量中,可以更好地反映评论数据中不同词语的重要性。根据预设的关键词特征映射表,对公开评论特征进行分类,以得到合规企业特征和非法集资企业特征,通过匹配评论特征与映射表中的关键词,可以判断评论数据是否涉及合规问题或非法集资风险。
关键词特征映射表可以是预先配置的敏感词库,其构建过程如下:
首先,采用自然语言处理(如分词、去除停用词、统计词频等)构建词袋模型;其次,根据词频统计结果,选择出现频率较高的词汇作为候选敏感词;然后,进行人工筛选和标注,将从特征选择得到的词汇进一步确认为敏感词或非敏感词;最后,将经过筛选和标注的敏感词汇组成敏感词库。其中,可以将敏感词库保存为一个列表、哈希表或者其他适合的数据结构。
在本申请一种具体的实施例中,首先获取公开评论数据,可以通过网络爬虫、API接口等方式从各种公开信息源(如新闻网站、社交媒体、论坛等)中收集相关数据,确保数据来源广泛、多样化,并涵盖与合规企业和非法集资企业相关的信息。对从评论数据中获取的文本进行分词处理,将文本划分为单个词语或标记的序列,使用合适的分词工具或库,如中文分词工具jieba等,根据语言的特点将文本拆解成离散的词语,通过关键词特征映射表对文本分词进行分类,以判断评论数据是否涉及合规问题或非法集资风险。最后基于词袋模型将评论分词转化为文本特征向量,对于每个评论分词,计算其在文本中的出现频率,即词频,将这些词频添加到文本特征向量中,可以更好地反映评论数据中不同词语的重要性,得到公开评论数据中的合规企业特征和非法集资企业特征,以便后续使用。
通过以上步骤,可以对公开评论数据进行特征处理,得到公开评论数据中的合规企业特征和非法集资企业特征,公开评论特征可以为后续的数据分析和预测提供基础。
进一步地,基于银行及政务数据之间的相似关系对银行及政务数据进行特征处理,得到银行及政务数据中的合规特征和非合规特征的步骤,具体包括:
对银行流水信息进行特征编码,得到银行流水特征;
对机构政务信息进行特征编码,得到机构政务特征;
计算银行流水特征和机构政务特征之间的相似度,其中,相似度为余弦相似度或欧氏距离;
基于相似度对银行流水特征进行分类,得到银行及政务数据中的合规特征和非合规特征。
在本实施例中,首先需要对银行流水信息进行特征编码,将其转化为可以表示其特征的数值或向量形式,包括对银行流水信息中的交易金额、交易时间、交易类型等进行编码。
同样地,对机构政务信息进行特征编码,将其转化为可以表示其特征的数值或向量形式,机构政务信息可以包括企业的注册信息、纳税记录、行政许可等。
通过计算银行流水特征和机构政务特征之间的相似度来判断企业的合规情况和非法集资风险,常用的相似度计算方法包括余弦相似度和欧氏距离。余弦相似度可以衡量两个向量的夹角,值越接近1表示相似度越高;欧氏距离可以衡量两个向量之间的距离,值越小表示相似度越高。
根据计算得到的相似度,对银行流水特征进行分类,以得到合规企业特征和非法集资企业特征。可以设置一个阈值,当相似度超过该阈值时,判定为合规企业特征;反之,判定为非法集资企业特征。
通过以上步骤,可以对银行及政务数据进行特征处理,得到银行及政务数据中的合规企业特征和非法集资企业特征,这些特征可以为后续的数据分析和预测提供基础。
在本申请一种具体的实施例中,在进行特征处理时,可以使用SHAP值作为特征选择的依据,了解每个特征对模型预测结果的贡献程度。对于给定的一个特征向量,SHAP值会计算所有可能的排列组合,并计算出每个特征的边际贡献值,然后将这些边际贡献值进行加权平均,得到每个特征的SHAP值,SHAP值可以为正或负,表示该特征对于预测结果是正向还是负向影响。
SHAP(SHapley Additive exPlanations)值是一种用于解释特征对模型预测结果的贡献度的方法,基于博弈论中的Shapley值概念,用于衡量每个特征在不同组合下对预测结果的影响。SHAP值提供了一种方式来解释模型的预测结果,帮助理解模型对每个特征的重要性和贡献。
通过在特征处理阶段添加SHAP值评估特征的重要性和贡献,明晰数据中企业处于非法集资的哪个阶段并提供相应的解释依据,实际应用中指导监管部门针对不同阶段,关注不同特征,采取不同措施。
进一步地,在各个参与方节点上基于合规特征和非合规特征训练初始化后的全局模型,得到各个参与方节点的本地预测模型的步骤,具体包括:
基于各个参与方节点的合规特征和非合规特征构建数据特征集,其中,将非合规特征作为正样本特征,将合规特征作为负样本特征;
对数据特征集进行数据划分,得到训练特征集和测试特征集;
在各个参与方节点上使用训练特征集训练初始化后的全局模型,得到各个参与方节点的本地预测模型;
使用测试特征集对各个参与方节点的本地预测模型进行模型测试。
在本实施例中,各个参与方节点基于自身的合规企业特征和非法集资企业特征构建数据特征集,其中,将非法集资企业特征作为正样本特征,将合规企业特征作为负样本特征,对数据特征集进行数据划分,得到训练特征集和测试特征集,每个参与方节点使用训练特征集来训练自身节点中初始化后的全局模型,可以采用各种机器学习算法或深度学习模型进行训练,例如逻辑回归、支持向量机、神经网络等。使用测试特征集对各个参与方节点的本地预测模型进行模型测试,评估模型的性能,可以计算预测准确率、召回率、F1分数等指标来评估模型的性能。
通过以上步骤,可以在各个参与方节点上基于合规企业特征和非法集资企业特征训练初始化后的全局模型,得到各个参与方节点的本地预测模型。
结构化数据和非结构化数据在特征提取时需要考虑不同的处理方式,结构化数据通常直接使用原始特征或进行简单的编码处理,而非结构化数据需要经过分词、编码和序列建模等多个步骤来提取有意义的特征。
进一步地,在企业异常行为检测平台中使用模型参数对初始化后的全局模型进行参数更新,得到企业异常行为检测模型的步骤,具体包括:
获取各个参与方节点上传的模型参数,并将各个参与方节点上传的模型参数发送至企业异常行为检测平台;
计算各个参与方节点上传的模型参数中的相同参数的平均值,得到模型参数均值;
基于模型参数均值对初始化后的全局模型进行参数更新,得到企业异常行为检测模型。
在本实施例中,获取各个参与方节点上传的模型参数,并将各个参与方节点上传的模型参数发送至非法集资企业预测平台,在非法集资企业预测平台上,对各个参与方节点上传的模型参数中的相同参数进行求平均操作,使用模型参数均值对初始化后的全局模型进行参数更新,参数更新的方法可以使用梯度下降等优化算法来更新模型的参数,通过更新参数,全局模型将逐渐调整以适应各个参与方节点上传的模型参数,得到非法集资企业预测模型。
通过以上步骤,可以使用各个参与方节点上传的模型参数对初始化后的全局模型进行参数更新,从而得到非法集资企业预测模型,这个非法集资企业预测模型将综合各个参与方节点的贡献,并具有更好的预测性能。
此外,在本申请另外的一些实施例中,也可以通过投票法对各个参与方节点上传的模型参数进行处理。具体来说,收集所有参与方节点的模型参数,并进行投票决策,对于分类任务,可以选择预测结果中出现最多类别对应的模型参数作为全局模型的模型参数;对于回归任务,可以选择预测结果的模型参数均值作为全局模型的模型参数。
在本申请另外的一些实施例中,也可以通过堆叠法对各个参与方节点上传的模型参数进行处理。具体来说,收集所有参与方节点的模型参数,并将其用作堆叠模型的输入,堆叠模型可以是另一个机器学习模型,该模型可以是逻辑回归、随机森林等,堆叠模型使用参与方节点的参数作为特征,进行训练并生成最终的全局模型参数。
在上述实施例中,本申请公开一种企业异常行为检测方法,属于人工智能技术领域和金融科技领域,本申请通过联邦学习框架和多个参与方节点的协作,并充分利用各方的多源数据特征进行企业异常行为检测模型的训练,在联邦学习框架下通过多维度数据特征评估企业行为,消除监管机构等现有监测手段存在的视角盲点和隐患,提高了企业异常行为检测和非法集资企业预测的准确性和实时性。
在本实施例中,企业异常行为检测方法运行于其上的电子设备(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式接收指令或者获取数据。需要指出的是,上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB( ultra wideband )连接、以及其他现在已知或将来开发的无线连接方式。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,该计算机可读指令可存储于一计算机可读取存储介质中,该计算机可读指令在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
进一步参考图3,作为对上述图2所示方法的实现,本申请提供了一种企业异常行为检测装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图3所示,本实施例所述的企业异常行为检测装置300,包括:
参与方注册模块301,用于基于联邦学习框架构建企业异常行为平台,并将各个参与方注册到企业异常行为平台中,生成若干个参与方节点;
全局模型配置模块302,用于生成企业异常行为平台的全局模型,对全局模型进行初始化,并将初始化后的全局模型分发到各个参与方节点上;
数据分类处理模块303,用于在各个参与方节点上获取参与方本地数据,并对参与方本地数据进行数据分类,其中,参与方本地数据的类别包括企业基本数据、公开评论数据、银行及政务数据;
数据特征处理模块304,用于对各个类别的参与方本地数据分别进行特征处理,得到合规特征和非合规特征;
本地模型训练模块305,用于在各个参与方节点上基于合规特征和非合规特征训练初始化后的全局模型,得到各个参与方节点的本地预测模型;
模型参数上传模块306,用于获取各个本地预测模型的模型参数,将模型参数发送至企业异常行为平台;
全局模型更新模块307,用于在企业异常行为平台中使用模型参数对初始化后的全局模型进行参数更新,得到企业异常行为模型;
异常行为检测模块308,用于接收异常行为检测指令,获取待识别企业数据,将待识别企业数据导入企业异常行为模型,输出待识别企业数据的异常行为检测结果。
进一步地,数据分类处理模块303具体包括:
数据来源识别单元,用于识别参与方本地数据的数据来源;
数据分类处理单元,用于基于数据来源对参与方本地数据进行数据分类,得到企业基本数据、公开评论数据、银行及政务数据;
进一步地,数据特征处理模块304具体包括:
企业基本数据特征处理单元,用于基于企业基本数据之间的关联关系对企业基本数据进行特征处理,得到企业基本数据中的合规特征和非合规特征;
公开评论数据特征处理单元,用于使用预设的词袋模型对公开评论数据进行特征处理,得到公开评论数据中的合规特征和非合规特征;
银行及政务数据特征处理单元,用于基于银行及政务数据之间的相似关系对银行及政务数据进行特征处理,得到银行及政务数据中的合规特征和非合规特征。
进一步地,企业基本数据包括企业基础信息和企业经营信息,企业基本数据为结构化数据,企业基本数据特征处理单元具体包括:
第一特征编码子单元,用于对企业基本数据进行特征编码,得到企业基本特征;
关联关系识别子单元,用于识别企业基础信息和企业经营信息之间的关联关系;
关系图谱构建子单元,用于基于关联关系构建企业关联关系图谱;
企业基本特征分类子单元,用于基于企业关联关系图谱对企业基本特征进行分类,得到企业基本数据中的合规特征和非合规特征。
进一步地,公开评论数据为文本数据,文本数据为非结构化数据,公开评论数据特征处理单元具体包括:
分词处理子单元,用于获取公开评论数据,对公开评论数据进行分词处理,得到评论分词;
向量转化子单元,用于使用词袋模型将评论分词转化为文本特征向量;
分词词频计算子单元,用于计算评论分词的词频,并将评论分词的词频添加到文本特征向量中,得到公开评论特征;
公开评论特征分类子单元,用于基于预设的关键词特征映射表对公开评论特征进行分类,得到公开评论数据中的合规特征和非合规特征。
进一步地,银行及政务数据包括银行流水信息和机构政务信息,银行及政务数据为结构化数据,银行及政务数据特征处理单元具体包括:
第二特征编码子单元,用于对银行流水信息进行特征编码,得到银行流水特征;
第三特征编码子单元,用于对机构政务信息进行特征编码,得到机构政务特征;
相似度计算子单元,用于计算银行流水特征和机构政务特征之间的相似度,其中,相似度为余弦相似度或欧氏距离;
银行流水特征分类子单元,用于基于相似度对银行流水特征进行分类,得到银行及政务数据中的合规特征和非合规特征。
进一步地,本地模型训练模块305具体包括:
特征集构建单元,用于基于各个参与方节点的合规特征和非合规特征构建数据特征集,其中,将非合规特征作为正样本特征,将合规特征作为负样本特征;
特征集划分单元,用于对数据特征集进行数据划分,得到训练特征集和测试特征集;
本地模型训练单元,用于在各个参与方节点上使用训练特征集训练初始化后的全局模型,得到各个参与方节点的本地预测模型;
本地模型测试单元,用于使用测试特征集对各个参与方节点的本地预测模型进行模型测试。
进一步地,全局模型更新模块307具体包括:
模型参数获取单元,用于获取各个参与方节点上传的模型参数,并将各个参与方节点上传的模型参数发送至企业异常行为检测平台;
模型参数平均单元,用于计算各个参与方节点上传的模型参数中的相同参数的平均值,得到模型参数均值;
模型参数更新单元,用于基于模型参数均值对初始化后的全局模型进行参数更新,得到企业异常行为检测模型。
在上述实施例中,本申请公开一种企业异常行为检测装置,属于人工智能技术领域和金融科技领域,本申请通过联邦学习框架和多个参与方节点的协作,并充分利用各方的多源数据特征进行企业异常行为检测模型的训练,在联邦学习框架下通过多维度数据特征评估企业行为,消除监管机构等现有监测手段存在的视角盲点和隐患,提高了企业异常行为检测和非法集资企业预测的准确性和实时性。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图4,图4为本实施例计算机设备基本结构框图。
所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是,图中仅示出了具有组件41-43的计算机设备4,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable GateArray,FPGA)、数字处理器 (Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器41至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器41可以是所述计算机设备4的内部存储单元,例如该计算机设备4的硬盘或内存。在另一些实施例中,所述存储器41也可以是所述计算机设备4的外部存储设备,例如该计算机设备4上配备的插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital, SD)卡,闪存卡(FlashCard)等。当然,所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中,所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件,例如企业异常行为检测方法的计算机可读指令等。此外,所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器42在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中,所述处理器42用于运行所述存储器41中存储的计算机可读指令或者处理数据,例如运行所述企业异常行为检测方法的计算机可读指令。
所述网络接口43可包括无线网络接口或有线网络接口,该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。
在上述实施例中,本申请公开一种计算机设备,属于人工智能技术领域和金融科技领域,本申请通过联邦学习框架和多个参与方节点的协作,并充分利用各方的多源数据特征进行企业异常行为检测模型的训练,在联邦学习框架下通过多维度数据特征评估企业行为,消除监管机构等现有监测手段存在的视角盲点和隐患,提高了企业异常行为检测和非法集资企业预测的准确性和实时性。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令可被至少一个处理器执行,以使所述至少一个处理器执行如上述的企业异常行为检测方法的步骤。
在上述实施例中,本申请公开一种计算机可读存储介质,属于人工智能技术领域和金融科技领域,本申请通过联邦学习框架和多个参与方节点的协作,并充分利用各方的多源数据特征进行企业异常行为检测模型的训练,在联邦学习框架下通过多维度数据特征评估企业行为,消除监管机构等现有监测手段存在的视角盲点和隐患,提高了企业异常行为检测和非法集资企业预测的准确性和实时性。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
本申请可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。