CN115187066A - 风险识别方法、装置、电子设备及存储介质 - Google Patents

风险识别方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN115187066A
CN115187066A CN202210813786.3A CN202210813786A CN115187066A CN 115187066 A CN115187066 A CN 115187066A CN 202210813786 A CN202210813786 A CN 202210813786A CN 115187066 A CN115187066 A CN 115187066A
Authority
CN
China
Prior art keywords
risk
candidate
risk factors
factors
identified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210813786.3A
Other languages
English (en)
Inventor
李娜
王磊
王全斌
王媛
吴文哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202210813786.3A priority Critical patent/CN115187066A/zh
Publication of CN115187066A publication Critical patent/CN115187066A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities

Abstract

本申请涉及人工智能技术领域,具体公开了一种风险识别方法、装置、计算机设备及计算机可读存储介质,本申请的风险识别方法通过对待识别对象的关联数据进行风险因子提取,得到多个候选风险因子,并根据多个候选风险因子之间的相似度对多个候选风险因子进行聚类处理,得到聚类结果,然后根据聚类结果计算候选风险因子的选择权重,将选择权重满足预设条件的候选风险因子作为目标风险因子,从而降低了风险因子的维度。然后,根据预设的风险知识图谱对维度降低后的目标风险因子进行风险特征提取,得到对象风险特征,根据对象风险特征确定待识别对象的风险识别结果,使得到的风险识别结果更加准确。

Description

风险识别方法、装置、电子设备及存储介质
技术领域
本公开涉及人工智能技术领域,具体而言,涉及一种风险识别方法、装置、计算机设备及计算机可读存储介质。
背景技术
企业需要定期进行企业信息披露,企业信息披露是指企业应管理部门要求主动披露经营与财务信息,供利益相关者参考。因此,为了保证信息披露的真实性,避免企业故意提供虚假信息以误导用户,需要对企业进行风险分析。然而,由于企业的相关数据具有数据维度多、数据量大等特征,导致对企业的风险分析不够准确。
因此,如何提高现有针对企业进行风险识别所得的识别结果的准确性,是待解决的技术问题。
发明内容
为解决上述技术问题,本申请的实施方式提供了一种风险识别方法、装置、计算机设备及计算机可读存储介质,以提高风险识别的准确性。
第一方面,本申请提供一种风险识别方法,包括:对待识别对象的关联数据进行风险因子提取,得到多个候选风险因子;根据多个候选风险因子之间的相似度对多个候选风险因子进行聚类处理,得到聚类结果;根据聚类结果计算候选风险因子的选择权重,将选择权重满足预设条件的候选风险因子作为目标风险因子;其中,选择权重用于指示候选风险因子对确定待识别对象的风险识别结果的贡献程度;根据预设的风险知识图谱对目标风险因子进行风险特征提取,得到对象风险特征;根据对象风险特征确定待识别对象的风险识别结果。
根据本发明优选实施方式,根据多个候选风险因子之间的相似度对多个候选风险因子进行聚类处理,得到聚类结果,包括;根据多个候选风险因子分别对应的数据生成时间对多个候选风险因子进行拆分,得到多个候选风险因子序列;根据各个候选风险因子序列之间的相似度对候选风险因子序列进行聚类处理,得到聚类结果。
根据本发明优选实施方式,在根据各个候选风险因子序列之间的相似度对候选风险因子序列进行聚类处理,得到聚类结果之前,还包括:根据各个候选风险因子序列的长度构建距离矩阵,距离矩阵中的各个位置表示各个候选风险因子序列之间的距离;计算距离矩阵中的起始位置到距离矩阵中的目标位置之间的第一累加距离,并计算距离矩阵中的终止位置到目标位置之间的第二累加距离;根据第一累加距离和第二累加距离计算各个候选风险因子序列之间的最小距离,并根据最小距离确定各个候选风险因子序列之间的相似度。
根据本发明优选实施方式,聚类结果包括多个聚类集合;根据聚类结果计算候选风险因子的选择权重,将选择权重满足预设条件的候选风险因子作为目标风险因子,包括:确定各个聚类集合分别对应的聚类中心向量;根据聚类中心向量计算候选风险因子属于各个聚类集合的概率,以根据概率生成候选风险因子的弱标签矩阵;根据特征选择矩阵以及候选风险因子的弱标签矩阵计算候选风险因子的选择权重,将选择权重满足预设条件的候选风险因子作为目标风险因子;其中,特征选择矩阵是根据训练样本中的样本风险因子和样本风险识别结果进行深度学习训练得到的。
根据本发明优选实施方式,根据预设的风险知识图谱对目标风险因子进行风险特征提取,得到对象风险特征,包括:确定目标风险因子对应的风险实体;从风险知识图谱中提取与风险实体匹配的子图谱;对子图谱中每个节点进行编码,得到节点特征;将每个节点的节点特征进行融合,得到对象风险特征。
根据本发明优选实施方式,根据对象风险特征确定待识别对象的风险识别结果,包括;获取与待识别对象存在关联关系的关联对象对应的风险数据;根据关联关系的类别对风险数据进行风险传导计算,得到关联对象相对于待识别对象的风险传导特征;根据对象风险特征以及风险传导特征确定待识别对象的风险识别结果。
根据本发明优选实施方式,根据关联关系的类别对风险数据进行风险传导计算,得到关联对象相对于待识别对象的风险传导特征,包括:计算风险数据与待识别对象之间的风险关联度;以及根据关联关系的类别确定关联对象对应的权重系数;根据权重系数对风险关联度进行加权计算,得到关联对象相对于待识别对象的风险传导特征。
第二方面,本申请提供一种风险识别装置,包括:风险因子提取模块,配置为对待识别对象的关联数据进行风险因子提取,得到多个候选风险因子;聚类模块,配置为根据多个候选风险因子之间的相似度对多个候选风险因子进行聚类处理,得到聚类结果;目标风险因子选择模块,配置为根据聚类结果计算候选风险因子的选择权重,将选择权重满足预设条件的候选风险因子作为目标风险因子;其中,选择权重用于指示候选风险因子对确定待识别对象的风险识别结果的贡献程度;风险特征提取模块,配置为根据预设的风险知识图谱对目标风险因子进行风险特征提取,得到对象风险特征;风险识别模块,配置为根据对象风险特征确定待识别对象的风险识别结果。
第三方面,本申请提供一种计算机设备,计算机设备包括存储器和处理器;存储器,用于存储计算机程序;处理器,用于执行的计算机程序并在执行的计算机程序时实现上述风险识别方法的步骤。
第四方面,本申请提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时使处理器实现上述风险识别方法的步骤。
本申请实施方式公开的风险识别方法、装置、计算机设备及计算机可读存储介质,通过对待识别对象的关联数据进行风险因子提取,得到多个候选风险因子,并根据多个候选风险因子之间的相似度对多个候选风险因子进行聚类处理,得到聚类结果,然后根据聚类结果计算候选风险因子的选择权重,将选择权重满足预设条件的候选风险因子作为目标风险因子,从而降低了风险因子的维度。然后,根据预设的风险知识图谱对维度降低后的目标风险因子进行风险特征提取,得到对象风险特征,根据对象风险特征确定待识别对象的风险识别结果,使得到的风险识别结果更加准确。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术者来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1是本申请一示例性实施例提供的风险识别方法的应用环境示意图;
图2是本申请一示例性实施例提供的风险识别方法的流程图;
图3是本申请一示例性实施例提供的生成风险知识图谱的示意图;
图4是本申请另一示例性实施例提供的风险识别方法的流程图;
图5是本申请一示例性实施例提供的对候选风险因子序列进行聚类处理的示意图;
图6是本申请另一示例性实施例提供的一种风险识别的流程图;
图7是本申请另一示例性实施例提供的一种风险识别的流程图;
图8是本申请一示例性实施例提供的获取待识别对象的关联数据的示意图;
图9是本申请一示例性实施例提供的风险识别装置的示意性框图;
图10是本申请一示例性实施例提供的计算机设备的示意性框图。
具体实施方式
这里将详细地对示例性实施方式执行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施方式中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
还需要说明的是:在本申请中提及的“多个”是指两个或者两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
图1示出了本申请示例性实施方式的运行环境的一种系统架构示意图,参考图1所示,该系统可以包括终端110、服务器120。终端110和服务器120之间通过网络通信连接,网络可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
终端110可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载终端等,但并不局限于此。本领域技术人员可以知晓,上述终端的数量可以更多或更少。比如上述终端可以仅为一个,或者上述终端为几十个或几百个,或者更多数量,此时上述图像处理方法的实施环境还包括其他终端。本申请实施例对终端的数量和设备类型不加以限定。
服务器120可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。服务器120用于为终端110运行的应用程序提供后台服务。
可选的,上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也可以是任何网络,包括但不限于局域网(Local Area Network,LAN)、城域网(Metropolitan Area Network,MAN)、广域网(Wide Area Network,WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合)。在一些实施例中,使用包括超文本标记语言(Hyper Text Mark-up Language,HTML)、可扩展标记语言(Extensible MarkupLanguage,XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(Secure Socket Layer,SSL)、传输层安全(Transport Layer Security,TLS)、虚拟专用网络(Virtual Private Network,VPN)、网际协议安全(Internet ProtocolSecurity,IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中,还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。
可选的,服务器120承担主要风险识别工作,终端110承担次要风险识别工作;或者,服务器120承担次要风险识别工作,终端110承担主要风险识别工作;或者,服务器120或终端110分别可以单独承担风险识别工作。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施方式及实施方式中的特征可以相互组合。
请参阅图2,图2为本申请实施方式提供的风险识别方法的一个流程示意图。该风险识别方法可以应用于图1所示的实施环境,并由该实施环境中的服务器120具体执行。应理解的是,该方法也可以适用于其它的示例性实施环境,并由其它实施环境中的设备具体执行,本实施例不对该方法所适用的实施环境进行限制。
如图2所示,在一示例性的实施例中,该方法至少包括步骤S210至步骤S250,详细介绍如下:
步骤S210,对待识别对象的关联数据进行风险因子提取,得到多个候选风险因子。
需要说明的是,待识别对象的关联数据是指与该待识别对象相关的数据,例如待识别对象为企业时,关联数据可以是企业的注册资本、财务信息、各类新闻舆情、法律判决文书、工商信息等信息。风险因子是指导致待识别对象出现风险的因素,例如待识别对象为企业时,风险因子可以是企业的交易记录、逾期记录、股权变动等信息。
示例性地,可以是周期性的对待识别对象的关联数据进行获取并记录,以根据关联数据对该待识别对象进行风险因子提取,进而实时检测待识别对象的风险;也可以是检测到预设的触发事件时,对待识别对象的关联数据进行获取并记录,以根据关联数据对该待识别对象进行风险因子提取,例如待识别对象为企业,当检测到该企业进行企业信息披露时,对该企业在预设时间段内的注册资本、财务信息、各类新闻舆情、企业评价、法律判决文书、工商信息等信息进行风险因子提取。
在一些实施方式中,结合上文描述,待识别对象的关联数据的数据类型包括结构化数据和非结构化数据,在不同的场景下,所获取的关联数据的数据类型可能不同,为了对这些关联数据进行处理,本申请提出了多种数据处理规则,用于将该关联数据进行结构化处理,以得到相应的结构化数据,便于后续能够对该结构化数据进行分析。因此,在服务器获取待识别对象的关联数据后,可以先确定该关联数据的数据类型,再选择与其对应的数据处理规则,从而按照所选择的数据处理规则,对获取的关联数据进行结构化处理,得到相应的结构化数据。
通过对待识别对象的关联数据进行结构化处理,可以在对待识别对象进行风险分析时考虑如新闻舆情、企业评价等非结构化的数据,丰富了风险分析的数据维度,提高了风险分析的准确性。
可选的,可以是服务器存储有预设的风险因子集合,该风险因子集合中包含有预先提取的风险因子,通过风险因子集合对待识别对象的关联数据进行关键词匹配,得到多个候选风险因子。
例如待识别对象为企业时,服务器向网页中爬取各个企业的历史关联数据,该历史关联数据包括历史风险事件以及与该历史风险事件关联的企业数据,然后利用自然语言处理(Natural Language Processing,NLP)对爬取得到的各个企业的历史关联数据进行处理,如进行词法分析、情感分析、语义分析等,得到历史风险事件关联的企业数据中包含的多个待存储风险因子。待存储风险因子可以包括不同类型,如财务因子、事件因子等。
然后,对历史风险事件以及与该历史风险事件关联的企业数据进行关联分析,以得到每个待存储风险因子的关联强度,并将关联强度大于或等于预设关联强度阈值的待存储风险因子存储至风险因子集合中。
以待存储风险因子为事件因子为例,待存储风险因子的关联强度的计算公式可以如下:
Figure BDA0003740654340000071
其中,Scorek,i(t)表示第i家企业在第t季度的第k类事件的得分,Prot(Eventk|Dt)表示Eventk事件发生频率与Dt天所有事件发生频率的比例,Power(Eventk)表示事件Eventk的影响,取决于种类k。w(Dt)表示事件Eventk在关联风险发生后的第Dt′天的权重。
例如,在判定该企业是否出现风险时,可以是当企业出现下述三种情况之一时,则判定为企业出现风险,则该企业在该时间点被标记为1,否则为0:
1、该公司出现债券违约情况;
2、该公司相较于前一报告期出现信用评级下调情况;
3、该公司出现业绩亏损或破产类重大财务风险事件。
可以理解的是,待存储风险因子的关联强度越强,则表明该待存储风险因子针对该历史风险事件的影响力越强,因此,风险因子集合中包含的风险因子更加准确,则根据风险因子集合对待识别对象的关联数据进行风险因子提取得到的候选风险因子也更加准确。
步骤S220,根据多个候选风险因子之间的相似度对多个候选风险因子进行聚类处理,得到聚类结果。
在实际应用中,待识别对象的关联数据中包含的候选风险因子维度较高,如待识别对象为企业时,获取到的关联数据中包含的候选风险因子可能是市场风险、产品风险、经营风险、投资风险、外汇风险、人事风险、体制风险等,使得待预测的企业在每个时间点上都有几十甚至上百维度的数据输入,而高维度数据对于后续的风险识别以及模型训练都会产生负面影响,降低风险识别的准确性。
基于此,本申请实施例根据多个候选风险因子之间的相似度,确定相似的候选风险因子,以对多个候选风险因子进行聚类处理得到聚类结果。
示例性的,可以根据每个候选风险因子的语义相似度对多个候选风险因子进行聚类处理。例如,根据每个候选风险因子对应的词向量,将多个候选风险因子进行语义聚类,得到多个聚类集合,从而根据语义聚类的方式将候选风险因子划分为多个聚类集合,处于同一个聚类集合中的候选风险因子所表达的语义较为相似,如候选风险因子“财务报表”和分词“消费记录”会被划分至同一个聚类集合中,用于表征与企业经济相关的语义。
本申请不具体限定语义聚类的方式,如K-means聚类模型、K中心聚类模型、具有噪声的基于密度的聚类(Density-Based Spatial Clustering of Applications withNoise,DBSCAN)等模型进行语义聚类。
步骤S230,根据聚类结果计算候选风险因子的选择权重,将选择权重满足预设条件的候选风险因子作为目标风险因子;其中,选择权重用于指示候选风险因子对确定待识别对象的风险识别结果的贡献程度。
在对候选风险因子进行聚类后,虽然降低了风险因子的维度,但是根据关联数据得到的候选风险因子并不一定都对风险识别有用,因此候选风险因子中必然存在大量的冗余数据,从而影响风险识别的预测效果。因此,本申请实施例对候选风险因子进行筛选,以去除冗余数据并进一步降低风险因子的维度,提高后续风险识别的准确性。
需要说明的是,本申请实施例所涉及的候选风险因子和目标风险因子实质上均为风险因子数据,只是通过不同的名称来区分对风险因子进行数据筛选过程中的不同阶段,以便于准确地理解本申请实施例从海量的候选风险因子中筛选适合于进行风险识别的目标风险因子的过程。
本申请实施例根据聚类结果计算候选风险因子的选择权重,将选择权重满足预设条件的候选风险因子作为目标风险因子,进而对候选风险因子进行筛选,以去除对确定待识别对象的风险识别结果的贡献度较低的候选风险因子,保留对确定待识别对象的风险识别结果的贡献度较高的候选风险因子。
其中,候选风险因子对确定待识别对象的风险识别结果的贡献程度越高,则表明该候选风险因子中包含的信息导致风险的可能性越高,即该候选风险因子的选择权重越高;候选风险因子对确定待识别对象的风险识别结果的贡献程度越低,则表明该候选风险因子中包含的信息导致风险的可能性越低,即该候选风险因子的选择权重越低。
示例性的,可以利用特征选择算法或机器学习算法对候选风险因子进行选择权重的计算。在本申请实施例中,对于获得的各个聚类集合中的候选风险因子之间会存在相关性,可以采用特征选择算法,还可以结合机器学习算法,对聚类集合中的候选风险因子进行进一步筛选,得到对确定待识别对象的风险识别结果的贡献度高的目标风险因子,且同时保证筛选后的目标风险因子的维度数量,避免由于维度过低而降低风险识别的准确性。其中,关于对候选风险因子进行筛选得到目标风险因子的实现方法,可以参照下文实施例描述,但并不局限于本申请描述的实现方法,本申请在此不做赘述。
步骤S240,根据预设的风险知识图谱对目标风险因子进行风险特征提取,得到对象风险特征。
需要说明的是,预设的风险知识图谱是根据所有对象的关联数据得到的。例如待识别对象为企业时,则获取所有企业的关联数据,并基于这些关联数据生成对应的风险知识图谱。
在一些实施方式中,在生成风险知识图谱之前,还包括对关联数据进行预处理。
示例性的,通过爬虫工具从新闻网页爬取的关联数据中包括大量广告、页面头尾信息,因此需进行去噪处理,在进行去噪处理中,可以使用的算法包括以下至少一种:
1、字符过滤,例如可以通过中文字符和常用标点在美国信息交换标准代码(American Standard Code for Information Interchange,ASCII)码的编号,去掉其他字符。
2、超文本标记语言(Hyper Text Markup Language,HTML)字段匹配。通过识别HTML文本中的指示标题、内容等符号,例如<title><content><p>等符号,对关键文本内容进行提取。
3、网页结果互相校验,通过对比同一网站不同页面的爬取结果,将网页匹配到的重复内容(例如导航栏、广告、logo等)进行去除。
对关联数据进行去噪处理后,还包括对去噪后的关联数据进行分词和去停用词处理。例如,可以采用序列标注的方法对去噪后的关联数据进行分词处理,并对分词处理结果进行数据清洗。通过将所获取的关联数据进行数据清洗,以避免关联数据本身存在的缺陷导致的后续处理出现误差的情况。
然后,对分词和去停用词处理后的关联数据进行文本向量化处理。例如,可以是将ALBERT(A Lite Bidirectional Encoder Representations from Transformers)模型与TinyBERT(Tiny Bidirectional Encoder Representations from Transformers)模型融合,使用蒸馏技术压缩ALBERT的训练负载,实现高速、高效的文本向量化。可以理解的是,对关联数据进行文本向量化处理采用的具体算法可以根据实际情况进行选择,本申请对此不做具体限定。
进一步的,根据预处理后的关联数据生成风险知识图谱。
请参阅图3,图3为在企业风险识别的场景下生成风险知识图谱的示意图,如图3所示:
对各个企业的关联数据进行文本主题分类。可以是联合Attention机制与Bi-LSTM(Bi-directional Long Short-Term Memory)文本分类模型对各个企业的关联数据进行文本主题分类,由于不断接受输入的Bi-LSTM的细胞状态会慢慢损失之前输入的信息,但是有时候重要信息反而在前面,于是通过Attention机制对重要信息赋予大的注意力权重进行强化,对不重要的信息赋予小权重进行弱化,进而提高文本主题分类的准确性。
对分类后的关联数据进行情感分析。情感分析可以使用多角度重复阅读机制(Multi-Glance Mechanism,MGM),其主要负责目标领域内多方面的语义抽取,以用于模拟阅读行为的习惯,即在阅读文本时,通过浏览一段文字以获得大致含义,然后根据获得的粗略信息再次阅读文本,从中提取更重要的关键内容,进而提高情感分析的准确性。
对情感分析后的关联数据进行实体提取。企业实体提取在具体实现中,采用多分类模型,每个字或者词可以同时属于多个实体类别,分类器可以采用softmax分类方式,也可以采用多层单分类逻辑回归分类方式,在对分类器进行训练时采用的损失函数可以为二元交叉熵损失函数(Binary CrossEntropy,BCE)或者KL散度损失函数(Kullback-LeiblerDivergence,KL-divergence),本申请对此不做限制。
对提取得到的实体进行实体消歧。实体歧义是指相同的实体指称在不同的上下文中可以指不同的实体,本申请实施例中实体消歧可以采用基于聚类的实体消歧方法、基于实体链接的实体消歧方法等,本申请对此不做限制。
对消歧后的实体进行关系识别。示例性的,企业关系可以包括原材料生产、股权关系、技术服务上下游、销售渠道上下游、投资关系、技术竞争、直接供应商、直接服务对象等。
根据识别得到的关系和实体构建三元组。例如,三元组可以为“实体-事件-情感”。
根据三元组构建风险知识图谱。通过得到的所有三元组信息,得到三元组集合,并根据三元组集合得到对应的风险知识图谱。风险知识图谱包括节点和边,其中,节点为对应的实体信息,边用于连接两个节点,是指知识图谱中连接节点的有向线条,用于表示不同节点之间的关系。
可选的,可以周期性获取各个企业的关联数据,以对风险知识图谱进行更新,进而保证风险知识图谱的失效性,避免信息滞后而导致风险识别不准确的情况。
进一步的,根据风险知识图谱对目标风险因子对进行实体提取,得到目标风险因子中包括的实体。例如,服务器可以利用实体识别工具得到目标风险因子中包括的实体,该实体识别工具是基于实体识别技术得到的,可以是TexSmart(一种文本理解工具与服务),也可以是其他实体识别工具,本申请对此不做限制。
服务器在获取到目标风险因子中包括的实体后,可以利用实体链接技术将目标风险因子中包括的实体链接到预先建立的风险知识图谱中的对应实体,需说明的是,预先建立的风险知识图谱中的对应实体与目标风险因子中的实体并不要求完全一致,例如“零售店”和“超市”可以说的是同一个实体,服务器可以获取在预先建立的风险知识图谱中该对应实体周围的实体和关系,从而得到与目标风险因子相关联的目标知识图谱,例如目标风险因子中包括的实体为“超市”,服务器获取到的目标知识图谱包括:三元组<超市,营业额,x元>、三元组<超市,营业时间,早上9点至晚上9点>等。因此,通过对目标风险因子对应的目标知识图谱进行风险特征提取,得到对象风险特征。
步骤S250,根据对象风险特征确定待识别对象的风险识别结果。
示例性的,可以调用风险识别模型,将对象风险特征输入风险识别模型中进行风险识别,得到该风险识别模型输出的风险识别结果。
其中,预设企业风险等级评估模型的训练方法可以包括:采集样本对象的历史数据以及与历史数据对应的历史风险,将历史数据作为输入,将历史数据对应的历史风险作为目标输出结果,对预设神经网络基础模型进行模型深度学习训练,得到风险识别模型。
本申请提供的风险识别方法,通过对待识别对象的关联数据进行风险因子提取,得到多个候选风险因子,并根据多个候选风险因子之间的相似度对多个候选风险因子进行聚类处理,得到聚类结果,然后根据聚类结果计算候选风险因子的选择权重,将选择权重满足预设条件的候选风险因子作为目标风险因子,从而降低了风险因子的维度。然后,根据预设的风险知识图谱对维度降低后的目标风险因子进行风险特征提取,得到对象风险特征,根据对象风险特征确定待识别对象的风险识别结果,使得到的风险识别结果更加准确。
请参阅图4,图4是另一示例性实施例示出的一种风险识别的流程图。如图4所示,在一示例性的实施例中,步骤S220中根据多个候选风险因子之间的相似度对多个候选风险因子进行聚类处理,得到聚类结果,可以包括如下步骤:
步骤S221,根据多个候选风险因子分别对应的数据生成时间对多个候选风险因子进行拆分,得到多个候选风险因子序列。
其中,将待识别对象的关联数据中与候选风险因子所有相关的数据作为面板数据。面板数据具有横截面和时间序列两个维度,它是截面上个体在不同时间点的重复测量数据,面板数据从横截面看,是由若干个体在某一时点构成的截面观测值,从纵剖面看每个个体都是一个时间序列。
通过对候选风险因子对应的面板数据按照数据的生成时间进行拆分,得到T个截面数据,得到T个候选风险因子序列,T为数据的生成时间对应的时间点的数目。
其中,候选风险因子序列通过如下公式学习一维表示:
min‖L‖*+λ‖S‖1
s.t.X=L+S
其中,X是某一时间点对应的一个候选风险因子序列,L为低维表示,S为噪声,所有候选风险因子序列的低维表示形成新的数据集作为后续输入进行聚类处理。
步骤S222,根据各个候选风险因子序列之间的相似度对候选风险因子序列进行聚类处理,得到聚类结果。
在一些实施方式中,根据各个候选风险因子序列之间的相似度对候选风险因子序列进行聚类处理,得到聚类结果,包括:根据各个候选风险因子序列的长度构建距离矩阵,距离矩阵中的各个位置表示各个候选风险因子序列之间的距离;计算距离矩阵中的起始位置到距离矩阵中的目标位置之间的第一累加距离,并计算距离矩阵中的终止位置到目标位置之间的第二累加距离;根据第一累加距离和第二累加距离计算各个候选风险因子序列之间的最小距离,并根据最小距离确定各个候选风险因子序列之间的相似度。
请参阅图5,图5为对候选风险因子序列进行聚类处理的示意图。如图5所示,获取某一时间点对应的一个候选风险因子序列X,并得到X的一维表示,然后根据每个候选风险因子序列的一维表示得到距离矩阵。距离矩阵中的各个位置表示候选风险因子序列上的一个点与其他候选风险因子序列上的一个点之间的距离,该距离可以是欧氏距离。
距离矩阵中的起始位置即候选风险因子序列上的第一个点与其他候选风险因子序列上的第一个点在距离矩阵中所对应的位置。距离矩阵中的终止位置即候选风险因子序列上的最后一个点与其他候选风险因子序列上的最后一个点在距离矩阵中所对应的位置。距离矩阵中的目标位置可以是距离矩阵中除起始位置和终止位置之外的位置。
分别计算起始位置到距离矩阵中与目标位置关联的多个第一候选位置之间的累加距离,其中,第一候选位置位于起始位置与所述目标位置之间。例如,可以从矩阵上的三个方向来逐个位置进行距离累加计算。然后,根据起始位置到各个第一候选位置之间的累加距离,以及各个第一候选位置所表示的距离值,计算得到起始位置到目标位置之间的多个第一候选累加距离。然后,将多个第一候选累加距离中的最小值作为所述第一累加距离。
计算终止位置到目标位置之间的第二累加距离的过程与计算起始位置到目标位置的第一累加距离的过程类似,本申请在此不作赘述。
进一步的,根据第一累加距离和第二累加距离计算各个候选风险因子序列之间的最小距离,并根据最小距离确定各个候选风险因子序列之间的相似度。例如,可以对目标位置所表示的距离值、第一累加距离和第二累加距离进行求和,得到目标位置对应的最小累加距离,将该最小累加距离作为目标位置对应的候选风险因子序列之间的相似度。
请参阅图6,图6是另一示例性实施例示出的一种风险识别的流程图。如图6所示,在一示例性的实施例中,聚类结果包括多个聚类集合,步骤S230中根据聚类结果计算候选风险因子的选择权重,将选择权重满足预设条件的候选风险因子作为目标风险因子,可以包括如下步骤:
步骤S231,确定各个聚类集合分别对应的聚类中心向量。
聚类中心向量是指在聚类分析中的一个特殊样本,可用来代表某一类别,聚类集合中的其他数据可以通过与它计算距离来决定是否属于该类别。
聚类中心向量可以是预先基于聚类集合包括的每个候选风险因子分别对应的特征向量确定的向量。通常,聚类中心向量用于表征由多个特征向量(即聚类集合包括的每个候选风险因子的特征向量)组成的特征向量聚类的中心点,因此,聚类中心向量可以准确地表征聚类集合包括的候选风险因子的平均特征。
作为示例,可以将各个特征向量中相同位置的元素取平均值,作为聚类中心向量中相应位置的元素的取值。或者,可以将各个特征向量中相同位置的元素取中位数,作为聚类中心向量中相应位置的元素的取值。应当理解,聚类中心向量还可以按照其他方法得到,这里不再一一列举。
步骤S232,根据聚类中心向量计算候选风险因子属于各个聚类集合的概率,以根据概率生成候选风险因子的弱标签矩阵。
其中,候选风险因子属于各个聚类集合的概率即为该候选风险因子与各个聚类集合对应的聚类中心向量之间的距离。
步骤S233,根据特征选择矩阵以及候选风险因子的弱标签矩阵计算候选风险因子的选择权重,将选择权重满足预设条件的候选风险因子作为目标风险因子;其中,特征选择矩阵是根据训练样本中的样本风险因子和样本风险识别结果进行深度学习训练得到的。
其中,选择权重满足预设条件的候选风险因子可以是权重满足大于或等于选择权重阈值的候选风险因子,也可以是根据选择权重对每个候选风险因子进行排序,将序列前预设数量的候选风险因子作为预设条件的候选风险因子。
示例性的,对目标风险因子进行选择可以参见如下公式:
Figure BDA0003740654340000141
Figure BDA0003740654340000142
其中,oj为低维表示空间中的第j类聚类集合的聚类中心向量,n为候选风险因子的数量,c为聚类集合的数量,hij表示候选风险因子xi属于第j类的可能性,得到候选风险因子xi的弱标签矩阵H,I为单位矩阵,
Figure BDA0003740654340000151
表示矩阵的最大奇异值的平方,
Figure BDA0003740654340000152
表示矩阵元素的平方和,P为特征选择矩阵,PT为矩阵P的转置运算,PTX即为所需的目标风险因子。
其中,特征选择矩阵P以及参数α,β,λ通过训练样本中的样本风险因子和样本风险识别结果进行深度学习训练得到的,例如,将训练样本中的样本风险因子作为输入,并将样本风险识别结果对应的样本目标风险因子作为输出,然后根据实际输出的目标风险因子和样本目标风险因子之间的差距调制特征选择矩阵P以及参数α,β,λ,在实际输出的目标风险因子和样本目标风险因子之间的差距小于阈值时,得到训练完成的特征选择矩阵P以及参数α,β,λ。
通过对聚类后的候选风险因子进行选择,得到维度降低且具有较高判别信息的目标风险因子,提高后续风险识别的准确性。
在一些实施方式中,在深度学习训练过程中,采用分布式机器学习调度框架。例如,在机器学习模型参数的训练过程中,包含GPU(Graphics Processing Unit)版本的学习任务和CPU(Central Processing Unitcentral)版本的学习任务。在训练过程中的每一次迭代操作开始前,首先得到可以使用的CPU设备数量m以及GPU设备数量n,再根据学习任务的历史分配统计数据,确定CPU和GPU上运行时间的比值(这个比值相当于CPU和GPU执行效率比),根据比值可将学习任务分解为p和q个。然后将GPU任务提交到GPU计算资源,CPU任务提交到CPU计算资源。最后,保证分配的CPU任务与GPU任务之间的同步执行,即CPU任务与GPU任务之间不存在滞后的情况,以提升深度学习训练的速度。
在一些实施方式中,根据预设的风险知识图谱对目标风险因子进行风险特征提取,得到对象风险特征,包括:确定风险因子对应的风险实体;从风险知识图谱中提取与风险实体匹配的子图谱;对子图谱中每个节点进行编码,得到节点特征;将每个节点的节点特征进行融合,得到对象风险特征。
在得到目标风险因子后,可以根据风险知识图谱对目标风险因子进行匹配,以得到对应的子图谱,子图谱中的每个子图节点对应的实体是与目标风险因子的匹配度大于匹配度阈值的实体。
示例性地,计算目标风险因子与风险知识图谱中各个图谱节点对应的实体之间的匹配度,当匹配度越大时,则表明对应的实体与该目标风险因子越相似;当匹配度越小时,则表明对应的实体与该目标风险因子的差异越大。然后,选取将匹配度大于匹配度阈值的图谱节点作为目标节点,以根据目标节点得到子图谱。
然后,对子图谱中每个节点进行编码,得到每个节点的节点特征。如根据每个节点的节点内容、节点位置进行编码,得到节点内容特征和节点位置特征,对节点内容特征和节点位置特征进行拼接得到每个节点的节点特征。
进一步的,将每个节点的节点特征进行融合,得到对象风险特征。
请参阅图7,图7是另一示例性实施例示出的一种风险识别的流程图。如图7所示,在一示例性的实施例中,聚类结果包括多个聚类集合,步骤S250中根据对象风险特征确定待识别对象的风险识别结果,可以包括如下步骤:
步骤S251,获取与待识别对象存在关联关系的关联对象对应的风险数据。
本申请实施例基于各个对象之间的上下游关系构造了关系网络,该网络中的关系即为风险发生传导的潜在路径。
因此,通过关系网络获取与待识别对象存在关联关系的关联对象,然后获取每个关联对象对应的风险数据。例如,当待识别对象为企业时,获取与待识别企业存在关联关系的关联企业的风险数据。
步骤S252,根据关联关系的类别对风险数据进行风险传导计算,得到关联对象相对于待识别对象的风险传导特征。
示例性的,对风险数据进行风险传导计算可以参见如下公式:
Figure BDA0003740654340000161
Figure BDA0003740654340000162
Figure BDA0003740654340000163
其中,a为关系网络中企业Vi的风险度,Pow(Ec)是基于数据驱动的关系
Figure BDA0003740654340000164
的权重,Str(Ei,j)为企业Vi与企业Vj之间的风险关联度,α为超参数,可以通过交叉验证方法确定,其默认值为0.5,
Figure BDA0003740654340000165
表示企业Vi发生风险后通过关联关系C传给企业Vj,如果企业Vi与企业Vj之间仅存在关联关系C但没发生风险传导则
Figure BDA0003740654340000166
其中,Str(Ei,j)的值越大,则说明通过这条边发生风险传导的可行性越大。
在一些实施方式中,根据关联关系的类别对风险数据进行风险传导计算,得到关联对象相对于待识别对象的风险传导特征,包括:计算风险数据与待识别对象之间的风险关联度;以及根据关联关系的类别确定关联对象对应的权重系数;根据权重系数对风险关联度进行加权计算,得到关联对象相对于待识别对象的风险传导特征。
可以理解的是,关联对象与待识别对象之间的关联关系的不同,则关联对象与待识别对象之间进行风险传导的概率也不同,因此,对不同的关联关系设定不同的权重系数,然后根据权重系数对风险关联度进行加权计算,得到关联对象相对于待识别对象的风险传导度,将该风险传导度作为风险传导特征。
步骤S253,根据对象风险特征以及风险传导特征确定待识别对象的风险识别结果。
由于多个对象之间可能存在风险传导现象,因此,通过结合待识别对象自身的对象风险特征以及与该待识别对象存在关联关系的其他对象的风险传导特征,得到该待识别对象的风险识别结果,使得到的风险识别结果更加准确。
以针对企业的风险识别场景为例,对风险识别过程进行说明:
示例性的,基于检索信息获取待识别对象的关联数据。如图8所示,在实际应用中,用户可以在搜索界面中输入检索信息。其中,该检索信息体现用户的检索意图,检索信息的具体形式可以为文本、图像,等等,例如服务器获取到的检索信息可以是文本“企业A”,也可以是包含“企业A”的商标的图像。搜索界面可以为企业风险分析软件提供的搜索入口进入的界面,视频类新闻类等资讯软件提供的搜索栏所在的界面等。基于用户输入的检索词得到待识别对象,如服务器存储有多个企业的企业名称,根据这些企业名称对该检索词进行匹配,将匹配成功的企业名称作为待识别对象。然后,服务器能够搜索到待识别对象对应的关联数据,关联数据可以为文本、音频、视频、图片等,文本可以为文档、新闻、网页等数据结构。
基于待识别对象确定关联数据可以分为两种情况,下面分别进行说明。
情况一:若基于待识别对象确定的关联数据为文本形式,则将任意一个文本形式的检索结果中的文本作为关联数据。
情况二:若基于待识别对象确定的关联数据为非文本形式,如视频、音频、图片等,则将非文本形式的检索结果转换为其对应的文本形式。例如,提取视频中的音频,基于语义将音频转换为对应的文本,并将转换后的文本为关联数据。
然后,对得到的待识别对象的关联数据进行风险因子提取,得到多个候选风险因子,并对候选风险因子进行聚类处理得到聚类结果,根据聚类结果计算所述候选风险因子的选择权重,将选择权重大于或等于选择权重阈值的候选风险因子作为目标风险因子,进而根据风险知识图谱对目标风险因子进行风险特征提取,得到对象风险特征。同时,获取与待识别对象存在关联关系的关联对象对应的风险数据,根据该风险数据进行风险传导计算,得到关联对象相对于待识别对象的风险传导特征。最后,根据对象风险特征以及风险传导特征确定所述待识别对象的风险识别结果。
本申请提供的风险识别方法,通过对待识别对象的关联数据进行风险因子提取,得到多个候选风险因子,并根据多个候选风险因子之间的相似度对多个候选风险因子进行聚类处理,得到聚类结果,然后根据聚类结果计算候选风险因子的选择权重,将选择权重满足预设条件的候选风险因子作为目标风险因子,从而降低了风险因子的维度。然后,根据预设的风险知识图谱对维度降低后的目标风险因子进行风险特征提取,得到对象风险特征,根据对象风险特征确定待识别对象的风险识别结果,使得到的风险识别结果更加准确。
请参阅图9,图9是本申请一实施方式提供的一种风险识别装置900的示意框图,该风险识别装置900可以配置于服务器或终端中,用于执行前述的风险识别方法。
如图9所示,风险识别装置900包括:风险因子提取模块910、聚类模块920、目标风险因子选择模块930、风险特征提取模块940以及风险识别模块950。
风险因子提取模块910,配置为对待识别对象的关联数据进行风险因子提取,得到多个候选风险因子;
聚类模块920,配置为根据多个候选风险因子之间的相似度对多个候选风险因子进行聚类处理,得到聚类结果;
目标风险因子选择模块930,配置为根据聚类结果计算候选风险因子的选择权重,将选择权重满足预设条件的候选风险因子作为目标风险因子;其中,选择权重用于指示候选风险因子对确定待识别对象的风险识别结果的贡献程度;
风险特征提取模块940,配置为根据预设的风险知识图谱对目标风险因子进行风险特征提取,得到对象风险特征;
风险识别模块950,配置为根据对象风险特征确定待识别对象的风险识别结果。
在一些实施方式中,基于前述方案,聚类模块920包括拆分单元和聚类单元。
拆分单元,配置为根据多个候选风险因子分别对应的数据生成时间对多个候选风险因子进行拆分,得到多个候选风险因子序列;
聚类单元,配置为根据各个候选风险因子序列之间的相似度对候选风险因子序列进行聚类处理,得到聚类结果。
在一些实施方式中,基于前述方案,聚类单元包括距离矩阵构建单元、距离计算单元以及相似度确定单元。
距离矩阵构建单元,配置为根据各个候选风险因子序列的长度构建距离矩阵,距离矩阵中的各个位置表示各个候选风险因子序列之间的距离;
距离计算单元,配置为计算距离矩阵中的起始位置到距离矩阵中的目标位置之间的第一累加距离,并计算距离矩阵中的终止位置到目标位置之间的第二累加距离;
相似度确定单元,配置为根据第一累加距离和第二累加距离计算各个候选风险因子序列之间的最小距离,并根据最小距离确定各个候选风险因子序列之间的相似度。
在一些实施方式中,基于前述方案,聚类结果包括多个聚类集合;目标风险因子选择模块930包括聚类中心向量确定单元、弱标签矩阵生成单元和选择权重确定单元。
聚类中心向量确定单元,配置为确定各个聚类集合分别对应的聚类中心向量;
弱标签矩阵生成单元,配置为根据聚类中心向量计算候选风险因子属于各个聚类集合的概率,以根据概率生成候选风险因子的弱标签矩阵;
选择权重确定单元,配置为根据特征选择矩阵以及候选风险因子的弱标签矩阵计算候选风险因子的选择权重,将选择权重满足预设条件的候选风险因子作为目标风险因子;其中,特征选择矩阵是根据训练样本中的样本风险因子和样本风险识别结果进行深度学习训练得到的。
在一些实施方式中,基于前述方案,风险特征提取模块940包括风险实体确定单元、子图谱提取单元、编码单元和融合单元。
风险实体确定单元,配置为确定目标风险因子对应的风险实体;
子图谱提取单元,配置为从风险知识图谱中提取与风险实体匹配的子图谱;
编码单元,配置为对子图谱中每个节点进行编码,得到节点特征;
融合单元,配置为将每个节点的节点特征进行融合,得到对象风险特征。
在一些实施方式中,基于前述方案,风险识别模块950包括关联获取单元、风险传导特征获取单元和综合识别单元。
关联获取单元,配置为获取与待识别对象存在关联关系的关联对象对应的风险数据;
风险传导特征获取单元,配置为根据关联关系的类别对风险数据进行风险传导计算,得到关联对象相对于待识别对象的风险传导特征;
综合识别单元,配置为根据对象风险特征以及风险传导特征确定待识别对象的风险识别结果。
在一些实施方式中,基于前述方案,风险传导特征获取单元包括数据确定单元和加权计算单元。
数据确定单元,配置为计算风险数据与待识别对象之间的风险关联度;以及根据关联关系的类别确定关联对象对应的权重系数;
加权计算单元,配置为根据权重系数对风险关联度进行加权计算,得到关联对象相对于待识别对象的风险传导特征。
需要说明的是,上述实施例所提供的风险识别装置与上述实施例所提供的风险识别方法属于同一构思,其中各个模块和单元执行操作的具体方式已经在方法实施例中进行了详细描述,此处不再赘述。上述实施例所提供的风险识别装置在实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能,本处不对此进行限制。
本申请的方法、装置可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
图10示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
需要说明的是,图10示出的电子设备的计算机系统1000仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图10所示,电子设备1000以通用计算设备的形式表现。电子设备1000的组件可以包括但不限于:上述至少一个处理单元1010、上述至少一个存储单元1020、连接不同系统组件(包括存储单元1020和处理单元1010)的总线1030、显示单元1040。
其中,存储单元存储有程序代码,程序代码可以被处理单元1010执行,使得处理单元1010执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施例的步骤。
存储单元1020可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)1021和/或高速缓存存储单元1022,还可以进一步包括只读存储单元(ROM)1023。
存储单元1020还可以包括具有一组(至少一个)程序模块1025的程序/实用工具1024,这样的程序模块1025包括但不限于:操作系统、一个或者多个应用程序、其它程序模块和程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线1030可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备1000也可以与一个或多个外部设备1070(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备1000交互的设备通信,和/或与使得该电子设备1000能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1050进行。并且,电子设备1000还可以通过网络适配器1060与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器1060通过总线1030与电子设备1000的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备1000使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器和数据备份存储系统等。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的计算机程序。在该计算机程序被处理单元1010执行时,执行本申请的系统中限定的各种功能。
需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不相同于附图中所标注的顺序发生。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
本申请的另一方面还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如前的风险识别方法。该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的,也可以是单独存在,而未装配入该电子设备中。
本申请的另一方面还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各个实施例中提供的风险识别方法。
上述内容,仅为本申请的较佳示例性实施例,并非用于限制本申请的实施方案,本领域普通技术人员根据本申请的主要构思和精神,可以十分方便地进行相应的变通或修改,故本申请的保护范围应以权利要求书所要求的保护范围为准。

Claims (10)

1.一种风险识别方法,其特征在于,包括:
对待识别对象的关联数据进行风险因子提取,得到多个候选风险因子;
根据所述多个候选风险因子之间的相似度对所述多个候选风险因子进行聚类处理,得到聚类结果;
根据所述聚类结果计算所述候选风险因子的选择权重,将所述选择权重满足预设条件的候选风险因子作为目标风险因子;其中,所述选择权重用于指示所述候选风险因子对确定所述待识别对象的风险识别结果的贡献程度;
根据预设的风险知识图谱对所述目标风险因子进行风险特征提取,得到对象风险特征;
根据所述对象风险特征确定所述待识别对象的风险识别结果。
2.根据权利要求1所述的方法,其特征在于,所述根据所述多个候选风险因子之间的相似度对所述多个候选风险因子进行聚类处理,得到聚类结果,包括:
根据所述多个候选风险因子分别对应的数据生成时间对所述多个候选风险因子进行拆分,得到多个候选风险因子序列;
根据各个所述候选风险因子序列之间的相似度对所述候选风险因子序列进行聚类处理,得到聚类结果。
3.根据权利要求2所述的方法,其特征在于,在所述根据各个所述候选风险因子序列之间的相似度对所述候选风险因子序列进行聚类处理,得到聚类结果之前,还包括:
根据各个所述候选风险因子序列的长度构建距离矩阵,所述距离矩阵中的各个位置表示各个所述候选风险因子序列之间的距离;
计算所述距离矩阵中的起始位置到所述距离矩阵中的目标位置之间的第一累加距离,并计算所述距离矩阵中的终止位置到所述目标位置之间的第二累加距离;
根据所述第一累加距离和所述第二累加距离计算各个所述候选风险因子序列之间的最小距离,并根据所述最小距离确定各个所述候选风险因子序列之间的相似度。
4.根据权利要求1所述的方法,其特征在于,所述聚类结果包括多个聚类集合;所述根据所述聚类结果计算所述候选风险因子的选择权重,将所述选择权重满足预设条件的候选风险因子作为目标风险因子,包括:
确定各个所述聚类集合分别对应的聚类中心向量;
根据所述聚类中心向量计算所述候选风险因子属于各个所述聚类集合的概率,以根据所述概率生成所述候选风险因子的弱标签矩阵;
根据特征选择矩阵以及所述候选风险因子的弱标签矩阵计算所述候选风险因子的选择权重,将所述选择权重满足预设条件的候选风险因子作为目标风险因子;其中,所述特征选择矩阵是根据训练样本中的样本风险因子和样本风险识别结果进行深度学习训练得到的。
5.根据权利要求1所述的方法,其特征在于,所述根据预设的风险知识图谱对所述目标风险因子进行风险特征提取,得到对象风险特征,包括:
确定所述目标风险因子对应的风险实体;
从所述风险知识图谱中提取与所述风险实体匹配的子图谱;
对所述子图谱中每个节点进行编码,得到节点特征;
将所述每个节点的节点特征进行融合,得到所述对象风险特征。
6.根据权利要求1所述的方法,其特征在于,所述根据所述对象风险特征确定所述待识别对象的风险识别结果,包括;
获取与所述待识别对象存在关联关系的关联对象对应的风险数据;
根据所述关联关系的类别对所述风险数据进行风险传导计算,得到所述关联对象相对于所述待识别对象的风险传导特征;
根据所述对象风险特征以及所述风险传导特征确定所述待识别对象的风险识别结果。
7.根据权利要求6所述的方法,其特征在于,所述根据所述关联关系的类别对所述风险数据进行风险传导计算,得到所述关联对象相对于所述待识别对象的风险传导特征,包括:
计算所述风险数据与所述待识别对象之间的风险关联度;以及根据所述关联关系的类别确定所述关联对象对应的权重系数;
根据所述权重系数对所述风险关联度进行加权计算,得到所述关联对象相对于所述待识别对象的风险传导特征。
8.一种风险识别装置,其特征在于,所述装置包括:
风险因子提取模块,配置为对待识别对象的关联数据进行风险因子提取,得到多个候选风险因子;
聚类模块,配置为根据所述多个候选风险因子之间的相似度对所述多个候选风险因子进行聚类处理,得到聚类结果;
目标风险因子选择模块,配置为根据所述聚类结果计算所述候选风险因子的选择权重,将所述选择权重满足预设条件的候选风险因子作为目标风险因子;其中,所述选择权重用于指示所述候选风险因子对确定所述待识别对象的风险识别结果的贡献程度;
风险特征提取模块,配置为根据预设的风险知识图谱对所述目标风险因子进行风险特征提取,得到对象风险特征;
风险识别模块,配置为根据所述对象风险特征确定所述待识别对象的风险识别结果。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于执行所述的计算机程序并在执行所述的计算机程序时实现如权利要求1至7中任一项所述的风险识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如权利要求1至7中任一项所述的风险识别方法。
CN202210813786.3A 2022-07-11 2022-07-11 风险识别方法、装置、电子设备及存储介质 Pending CN115187066A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210813786.3A CN115187066A (zh) 2022-07-11 2022-07-11 风险识别方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210813786.3A CN115187066A (zh) 2022-07-11 2022-07-11 风险识别方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN115187066A true CN115187066A (zh) 2022-10-14

Family

ID=83516676

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210813786.3A Pending CN115187066A (zh) 2022-07-11 2022-07-11 风险识别方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN115187066A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115841335A (zh) * 2023-02-07 2023-03-24 支付宝(杭州)信息技术有限公司 数据处理方法、装置及设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115841335A (zh) * 2023-02-07 2023-03-24 支付宝(杭州)信息技术有限公司 数据处理方法、装置及设备

Similar Documents

Publication Publication Date Title
Sohangir et al. Big Data: Deep Learning for financial sentiment analysis
WO2018184518A1 (zh) 微博数据处理方法、装置、计算机设备及存储介质
CN109472462B (zh) 一种基于多模型堆栈融合的项目风险评级方法及装置
CN112214614B (zh) 基于知识图谱挖掘风险传播路径的方法及其系统
KR20210023452A (ko) 속성 단위 리뷰 분석 장치 및 방법
CN114254201A (zh) 一种科技项目评审专家的推荐方法
KR20210033294A (ko) 자동보고서생성장치 및 그 동작 방법
CN116821372A (zh) 基于知识图谱的数据处理方法、装置、电子设备及介质
CN113392920B (zh) 生成作弊预测模型的方法、装置、设备、介质及程序产品
Sharma et al. Ideology detection in the indian mass media
CN115187066A (zh) 风险识别方法、装置、电子设备及存储介质
CN113378090A (zh) 一种互联网网站相似度分析方法、装置以及可读存储介质
Surekha et al. Digital misinformation and fake news detection using WoT integration with Asian social networks fusion based feature extraction with text and image classification by machine learning architectures
CN112651768A (zh) 基于区块链的电商分析方法及系统
Huang et al. Application of informetrics on financial network text mining based on affective computing
CN112149413A (zh) 基于神经网络识别互联网网站所属业态的方法、装置以及计算机可读存储介质
CN116719999A (zh) 文本相似度检测方法和装置、电子设备及存储介质
CN114491076B (zh) 基于领域知识图谱的数据增强方法、装置、设备及介质
CN115907801A (zh) 一种电商评价信息处理方法、系统、设备及介质
Hamad et al. Sentiment analysis of restaurant reviews in social media using naïve bayes
CN112463966B (zh) 虚假评论检测模型训练方法、检测方法及装置
KR20230059364A (ko) 언어 모델을 이용한 여론조사 시스템 및 운영 방법
Harshvardhan et al. Topic modelling Twitterati sentiments using Latent Dirichlet allocation during demonetization
Strelnikoff et al. Causal maps for multi-document summarization
CN115618968B (zh) 新意图发现方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination