CN117493549A - 风险用户的识别方法、装置、电子设备及存储介质 - Google Patents

风险用户的识别方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN117493549A
CN117493549A CN202310424529.5A CN202310424529A CN117493549A CN 117493549 A CN117493549 A CN 117493549A CN 202310424529 A CN202310424529 A CN 202310424529A CN 117493549 A CN117493549 A CN 117493549A
Authority
CN
China
Prior art keywords
risk
target
vector
user
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310424529.5A
Other languages
English (en)
Inventor
袁和应
许奥狄
蒋宁
王思远
吴海英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mashang Consumer Finance Co Ltd
Original Assignee
Mashang Consumer Finance Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mashang Consumer Finance Co Ltd filed Critical Mashang Consumer Finance Co Ltd
Priority to CN202310424529.5A priority Critical patent/CN117493549A/zh
Publication of CN117493549A publication Critical patent/CN117493549A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供了风险用户的识别方法、装置、电子设备及存储介质,首先基于用户特征数据集进行风险关键词识别以及命名实体识别,得到风险关键词词向量集合和命名实体词向量集合;再基于这两个词向量集合生成目标融合拼接向量;然后将目标融合拼接向量先输入第一神经网络模型进行特征提取,再将得到的第一特征表示向量输入第二神经网络模型进行风险识别,得到目标用户的风险识别结果;模型输入的目标融合拼接向量不仅与风险关键词有关,还与命名实体有关,确保了模型输入的特征全面性和多样性;并且借助两个神经网络模型,确保最终用于识别目标用户是否为风险用户的特征表示向量是低维度且稠密且包含更多高层特征,从而提高风险识别准确度。

Description

风险用户的识别方法、装置、电子设备及存储介质
技术领域
本申请涉及人工智能技术领域,尤其涉及一种风险用户的识别方法、装置、电子设备及存储介质。
背景技术
目前,随着互联网时代的到来,互联网在人们日常的学习、工作和生活中得到广泛的应用。人们日常的各种事务都可以通过互联网来处理和呈现,其中,为了确保互联网业务的健康运行,在业务处理之前,对某一预设业务的申请用户进行风险识别尤为重要;并且随着人工智能技术的快速发展,可以通过预先基于样本数据训练风险识别模型,然后将申请用户的用户特征数据输入至预先训练的风险识别模型中,预测申请用户为风险用户的概率,进而指导是否对该申请用户的业务申请请求进行拦截。然而,利用现有的风险识别模型得到的风险预测结果存在准确度低的问题,导致部分风险用户的业务申请被放行。
发明内容
本申请实施例的目的是提供一种风险用户的识别方法、装置、电子设备及存储介质,一方面,模型输入的目标融合拼接向量不仅与风险关键词有关,还与命名实体有关,确保了模型输入的特征全面性和多样性;另一方面,借助两个神经网络模型,确保最终用于识别目标用户是否为风险用户的特征表示向量为低维度且稠密且包含更多高层语义特征的特征向量,从而提高风险识别准确度。
为了实现上述技术方案,本申请实施例是这样实现的:
第一方面,本申请实施例提供的一种风险用户的识别方法,所述方法包括:
获取目标用户的用户特征数据集;
基于所述用户特征数据集进行风险关键词识别,生成风险关键词词向量集合;以及,基于所述用户特征数据集进行命名实体识别,生成命名实体词向量集合;
基于所述风险关键词词向量集合和所述命名实体词向量集合,生成目标融合拼接向量;
将所述目标融合拼接向量输入至预先训练的第一神经网络模型进行特征提取,得到所述目标用户的第一特征表示向量;
将所述第一特征表示向量输入至预先训练的第二神经网络模型进行风险识别,得到所述目标用户的风险识别结果。
第二方面,本申请实施例提供的一种风险用户的识别装置,所述装置包括:
特征数据获取模块,用于获取目标用户的用户特征数据集;
词向量集合生成模块,用于基于所述用户特征数据集进行风险关键词识别,生成风险关键词词向量集合;以及,基于所述用户特征数据集进行命名实体识别,生成命名实体词向量集合;
词向量处理模块,用于基于所述风险关键词词向量集合和所述命名实体词向量集合,生成目标融合拼接向量;
特征向量生成模块,用于将所述目标融合拼接向量输入至预先训练的第一神经网络模型进行特征提取,得到所述目标用户的第一特征表示向量;
风险结果生成模块,用于将所述第一特征表示向量输入至预先训练的第二神经网络模型进行风险识别,得到所述目标用户的风险识别结果。
第三方面,本申请实施例提供的一种电子设备,所述设备包括:
处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令被配置由所述处理器执行,所述可执行指令包括用于执行如第一方面中所述的方法中的步骤。
第四方面,本申请实施例提供的一种计算机可读存储介质,其中,所述存储介质用于存储计算机可执行指令,所述可执行指令使得计算机执行如第一方面中所述的方法中的步骤。
可以看出,在本申请实施例中,首先基于目标用户的用户特征数据集进行风险关键词识别以及命名实体识别,得到风险关键词词向量集合和命名实体词向量集合;再基于这两个词向量集合生成目标融合拼接向量;然后,将目标融合拼接向量先输入第一神经网络模型进行特征提取,再将得到的第一特征表示向量输入第二神经网络模型进行风险识别,得到目标用户的风险识别结果;一方面,模型输入的目标融合拼接向量不仅与风险关键词有关,还与命名实体有关,确保了模型输入的特征全面性和多样性;另一方面,借助两个神经网络模型,这两个神经网络模型的侧重点可以是不同的,一个神经网络模型可以侧重于提取的特征表示向量的稠密性,另一个神经网络模型可以侧重于提取高层特征,并且两个神经网络模型可以使得目标融合拼接向量经过两次特征向量降维处理,从而得到低维度且稠密且包含更多高层特征的用户特征表示向量,再基于该用户特征表示向量识别目标用户是否为风险用户,使得最终用于对目标用户进行二分类(即目标用户是否为风险用户)的用户特征表示向量更加具有风险判别能力,有助于更加准确地进行风险分类,从而提高风险识别准确度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请一个或多个中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的风险用户的识别方法的第一种流程示意图;
图2为本申请实施例提供的风险用户的识别方法的第一种具体实现原理示意图;
图3为本申请实施例提供的风险用户的识别方法的第二种流程示意图;
图4为本申请实施例提供的风险用户的识别方法的第二种具体实现原理示意图;
图5为本申请实施例提供的风险用户的识别方法的第三种流程示意图;
图6为本申请实施例提供的风险用户的识别方法的第三种具体实现原理示意图;
图7为本申请实施例提供的风险用户的识别装置的模块组成示意图;
图8为本申请实施例提供的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请一个或多个中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一个或多个一部分实施例,而不是全部的实施例。基于本申请一个或多个中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请的保护范围。
需要说明的是,在不冲突的情况下,本申请中的一个或多个实施例以及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请实施例。
本申请一个或多个实施例提供了一种风险用户的识别方法、装置、电子设备及存储介质,考虑到直接获取的用户特征数据集中特征信息比较多,且风险关键词词库的量级比较大,如果仅仅是从用户特征数据集中提取风险关键词,再将风险关键词的词向量输入至一个风险识别模型进行风险识别,势必导致最终用于风险分类的特征表示向量存在特征维度高且特征稀疏的问题,从而导致风险识别结果的准确度低,基于上述问题,本技术方案通过先基于目标用户的用户特征数据集进行风险关键词识别以及命名实体识别,得到风险关键词词向量集合和命名实体词向量集合;再基于这两个词向量集合生成目标融合拼接向量;然后,将目标融合拼接向量先输入第一神经网络模型进行特征提取,再将得到的第一特征表示向量输入第二神经网络模型进行风险识别,得到目标用户的风险识别结果;一方面,模型输入的目标融合拼接向量不仅与风险关键词有关,还与命名实体有关,确保了模型输入的特征全面性和多样性;另一方面,借助两个神经网络模型,这两个神经网络模型的侧重点可以是不同的,一个神经网络模型可以侧重于提取的特征表示向量的稠密性,另一个神经网络模型可以侧重于提取高层特征,并且两个神经网络模型可以使得目标融合拼接向量经过两次特征向量降维处理,从而得到低维度且稠密且包含更多高层特征的用户特征表示向量,再基于该用户特征表示向量识别目标用户是否为风险用户,使得最终用于对目标用户进行二分类(即目标用户是否为风险用户)的用户特征表示向量更加具有风险判别能力,有助于更加准确地进行风险分类,从而提高风险识别准确度。
其中,图1为本申请一个或多个实施例提供的风险用户的识别方法的第一种流程示意图,图1中的方法能够由电子设备执行,该电子设备可以是终端设备或者指定服务器;如图1所示,该方法至少包括以下步骤:
S102,获取目标用户的用户特征数据集;其中,上述目标用户可以是目标业务的申请用户,目标业务可以是租赁业务,也可以是贷款业务,还可以是其他申请业务;
具体的,以贷款业务为例,先基于目标用户的用户特征数据集对目标用户进行风险识别,在确定目标用户不属于风险用户的情况下,才对目标用户的贷款业务申请请求进行放行处理;如果确定目标用户属于风险用户,则对目标用户的贷款业务申请请求进行拦截处理。
具体的,在接收到目标用户的贷款业务申请请求后,获取目标用户的n个数据采集维度分别对应的用户特征数据子集;其中,每个用户特征数据子集包括m个文本类别的用户特征文本,n和m均为大于1的整数;然后,基于n个用户特征数据子集,生成目标用户的用户特征数据集。
其中,上述用户特征数据子集可以包括用户基本信息、用户授权数据、用户历史订单数据、用户历史行为数据中任一项;用户基本信息可以包括用户基本特征数据(如性别、年龄、职业等)、用户家庭相关信息、用户工作相关信息、用户持有资产相关信息、用户持有信贷相关信息中至少一项;用户授权数据可以包括设备指纹信息、其他联系人信息、手机应用列表、位置定位信息、身份标识信息(如身份证号码等各种证件号码)或其他授权数据中至少一项;用户历史订单数据可以包括预设历史时间段内的本人已完成订单详情信息、本人进行中订单详情信息、关联订单详情信息(如其他联系人的订单详情信息或者基于定位位置关联用户的订单详情信息)或其他订单详情信息中至少一项;用户历史行为数据可以包括预设历史时间段内的网页浏览行为数据、消费行为数据、应用点击行为数据、客户端埋点数据、服务端埋点数据或其他行为数据中至少一项。
S104,基于上述用户特征数据集进行风险关键词识别,生成风险关键词词向量集合;以及,基于上述用户特征数据集进行命名实体识别,生成命名实体词向量集合;
具体的,上述风险关键词词向量集合包括上述用户特征数据集中属于风险关键词的第一词语的词向量,风险关键词是基于目标业务有关的关键词词库进行关键词匹配得到的;上述命名实体词向量集合包括上述用户特征数据集中属于命名实体的第二词语的词向量,命名实体可以包括人名、机构名、地名、其他以名称为标识的实体,命名实体还可以包括时间、日期、地址等等;其中,哪些属于命名实体可以根据实际需求进行设置,本申请对此不作限定;
也就是说,并非直接用户特征数据集中所有词语的词向量均作为模型输入,而是将用户特征数据集中属于风险关键词或者命名实体中至少一项的词语的词向量均作为模型输入,即从用户特征数据集中提取助于识别目标用户是否为风险用户的有效词语,剔除用户特征数据集中的无效词语;具体的,不仅提取用户特征数据集所包含的风险关键词,还提取用户特征数据集所包含的命名实体,从而确保了模型输入的特征全面性和多样性。
S106,基于上述风险关键词词向量集合和上述命名实体词向量集合,生成目标融合拼接向量;
具体的,在获取到风险关键词词向量集合和命名实体词向量集合之后,可以直接将风险关键词词向量集合和命名实体词向量集合进行词向量拼接处理,得到目标融合拼接向量;也可以先对风险关键词词向量集合和命名实体词向量集合进行去重处理,再将去重后的多个词向量进行拼接处理,得到目标融合拼接向量;还可以先对风险关键词词向量集合和命名实体词向量集合进行去重处理,得到去重后词向量集合,并确定去重后词向量集合中风险识别参考价值比较高的至少一个目标词向量,再将至少一个目标词向量和去重后词向量集合中多个词向量进行拼接处理,得到目标融合拼接向量。
S108,将上述目标融合拼接向量输入至预先训练的第一神经网络模型进行特征提取,得到上述目标用户的第一特征表示向量;
具体的,上述第一神经网络模型可以是深度卷积网络模型,如Sigmoid信念网络模型、Deep信念网络模型等等,在基于目标用户的用户特征数据集得到目标融合拼接向量之后,将目标融合拼接向量作为第一神经网络的输入,利用第一神经网络模型对上述目标融合拼接向量进行特征提取,输出低维度且稠密的第一特征表示向量;其中,特征提取的过程本质上可以实现对特征表示向量进行降维、去燥处理,因此,第一神经网络模型在保留用户特征数据中有效风险识别信息的情况下,对用户特征数据进行特征降维、卷积及池化处理,以提取更有价值的特征信息,进而得到低维度且稠密的第一特征表示向量;其中,虽然第一特征表示向量的特征维度小于上述目标融合拼接向量的特征维度,但第一特征表示向量包含更多用于风险识别的有效特征信息。
需要说明的是,简单意义上来说,特征表示向量中1的数量越多,说明特征表示向量所表达的特性信息越多,从而可以认为该特征表示向量是稠密的,但本申请对此不作限定。
S110,将上述第一特征表示向量输入至预先训练的第二神经网络模型进行风险识别,得到上述目标用户的风险识别结果。
其中,上述风险识别结果包括表征目标用户是风险用户的第一识别结果、或者表征目标用户不是风险用户的第二识别结果;具体的,上述第二神经网络模型可以是文本分类卷积网络模型,还可以是其他卷积神经网络,在利用第一神经网络模型输出第一特征表示向量之后,将第一特征表示向量作为第二神经网络模型的输入,可以直接基于第一特征表示向量识别目标用户是否为风险用户(即对目标用户进行二分类);然而,为了提高目标用户的风险识别结果的准确度,进一步提高最终用于识别目标用户是否为风险用户的用户特征表示向量的风险判别能力,先将上述第一特征表示向量输入至第二神经网络模型进行特征提取,得到第二特征表示向量,再基于第二特征表示向量进行风险识别,得到目标用户的风险识别结果;其中,利用第二神经网络模型对第一特征表示向量进行特征提取的过程本质上也可以实现对特征表示向量进行特征降维、卷积及池化处理,以提取出具有更强语义信息的高层特征,进而得到低维度且稠密且包含更多高层特征的第二特征表示向量;其中,虽然第二特征表示向量的特征维度小于上述第一特征表示向量的特征维度,但第二特征表示向量包含更多高层特征信息;由于高层特征信息具有更强的语义信息,因此基于第二特征表示向量进行风险识别,能够进一步提高风险识别准确度。
也就是说,用于识别目标用户是否为风险用户的风险识别模型可以包括第一神经网络模型和第二神经网络模型,在风险识别模型训练阶段,首先,获取X个样本用户的用户特征数据集;针对每个样本用户,基于该样本用户的用户特征数据集进行风险关键词识别及命名实体识别,得到风险关键词词向量集合和命名实体词向量集合;再基于该样本用户对应的风险关键词词向量集合和命名实体词向量集合,生成目标融合拼接向量;然后,将各样本用户对应的目标融合拼接向量输入至待训练的风险识别模型中的第一神经网络模型进行特征提取,得到各样本用户分别对应的第三特征表示向量;再将各样本用户分别对应的第三特征表示向量输入至待训练的风险识别模型中的第一神经网络模型进行特征提取,得到各样本用户分别对应的第四特征表示向量,并基于第四特征表示向量进行风险识别,得到各样本用户的预测标签;然后,基于各样本用户的预测标签和真实标签,计算模型损失值,再基于模型损失值对待训练的风险识别模型中第一神经网络模型和第二神经网络模型进行模型参数迭代更新,得到训练后的风险识别模型;其中,在模型训练过程中,通过对第一神经网络模型中特征提取层的参数调整,促使第一神经网络模型侧重于学习如何确保提取得到的第三特征表示向量的特征稠密性,以及通过对第二神经网络模型中特征提取层的参数调整,促使第二神经网络模型侧重于学习如何确保提取得到的第四特征表示向量包含更多地高层特征,这样在风险识别阶段,利用第一神经网络模型进行特征提取,得到低维度且稠密的第一特征表示向量,再利用第二神经网络模型进行特征提取,得到低维度且稠密且包含更多高层特征的第二特征表示向量。
需要说明的是,基于模型损失值对待训练的风险识别模型中第一神经网络模型和第二神经网络模型进行模型参数迭代更新的过程可以参见现有的利用梯度下降方法反向传播对模型参数进行调优的过程,在此不再赘述。
本申请实施例中,首先基于目标用户的用户特征数据集进行风险关键词识别以及命名实体识别,得到风险关键词词向量集合和命名实体词向量集合;再基于这两个词向量集合生成目标融合拼接向量;然后,将目标融合拼接向量先输入第一神经网络模型进行特征提取,再将得到的第一特征表示向量输入第二神经网络模型进行风险识别,得到目标用户的风险识别结果;一方面,模型输入的目标融合拼接向量不仅与风险关键词有关,还与命名实体有关,确保了模型输入的特征全面性和多样性;另一方面,借助两个神经网络模型,这两个神经网络模型的侧重点可以是不同的,一个神经网络模型可以侧重于提取的特征表示向量的稠密性,另一个神经网络模型可以侧重于提取高层特征,并且两个神经网络模型可以使得目标融合拼接向量经过两次特征向量降维处理,从而得到低维度且稠密且包含更多高层特征的用户特征表示向量,再基于该用户特征表示向量识别目标用户是否为风险用户,使得最终用于对目标用户进行二分类(即目标用户是否为风险用户)的用户特征表示向量更加具有风险判别能力,有助于更加准确地进行风险分类,从而提高风险识别准确度。
在一个具体实施例中,仍以目标用户为申请贷款业务的用户为例,即对目标用户进行贷前风险识别,确定目标用户是否为风险用户;如图2所示,给出了一种风险用户的识别方法的具体实现过程,主要包括:
(1)在接收到目标用户的贷款业务申请请求后,从用户特征数据库中获取目标用户的n个数据采集维度分别对应的用户特征数据子集;例如,用户特征数据子集1(对应于用户基本信息)、用户特征数据子集2(对应于用户授权数据)、用户特征数据子集3(对应于用户历史订单数据)、用户特征数据子集4(对应于用户历史行为数据);
(2)基于上述n个用户特征数据子集进行风险关键词识别,生成风险关键词词向量集合;以及,基于上述n个用户特征数据子集进行命名实体识别,生成命名实体词向量集合;
(3)基于上述风险关键词词向量集合和上述命名实体词向量集合,生成目标融合拼接向量;
(4)将上述目标融合拼接向量输入至预先训练的第一神经网络模型进行特征提取,得到上述目标用户的第一特征表示向量;
(5)将上述第一特征表示向量输入至预先训练的第二神经网络模型进行风险识别,得到上述目标用户的风险识别结果。
其中,针对基于目标用户的第一特征表示向量进行风险识别的过程,为了确保最终用于识别目标用户是否为风险用户的特征表示向量包含更多地有价值特征信息(即具有更强的语义信息的文本高层特征),并非直接将第一特征表示向量作为最终用于对目标用户进行二分类的特征表示向量,而是通过第二神经网络模型先基于第一特征表示向量进行特征提取,再基于提取得到的第二特征表示向量识别目标用户是否为风险用户;具体的,上述第二神经网络模型可以包括特征提取网络和风险识别网络;对应的,如图3所示,上述步骤S110,将上述第一特征表示向量输入至预先训练的第二神经网络模型进行风险识别,得到上述目标用户的风险识别结果,具体包括:
S1102,将上述第一特征表示向量输入至上述特征提取网络进行特征提取,得到目标用户的第二特征表示向量;其中,上述第二特征表示向量的特征维度小于上述第一特征表示向量的特征维度;
S1104,将上述第二特征表示向量输入至上述风险识别网络进行风险识别,得到目标用户的风险识别结果。
在一个具体实施例中,仍以目标用户为申请贷款业务的用户为例,即对目标用户进行贷前风险识别,确定目标用户是否为风险用户;在上述图2的基础上,如图4所示,给出了另一种风险用户的识别方法的具体实现过程,主要包括:
(1)在接收到目标用户的贷款业务申请请求后,从用户特征数据库中获取目标用户的n个数据采集维度分别对应的用户特征数据子集;
(2)基于上述n个用户特征数据子集进行风险关键词识别,生成风险关键词词向量集合;以及,基于上述n个用户特征数据子集进行命名实体识别,生成命名实体词向量集合;
(3)基于上述风险关键词词向量集合和上述命名实体词向量集合,生成目标融合拼接向量;
(4)将上述目标融合拼接向量输入至预先训练的第一神经网络模型进行特征提取,得到上述目标用户的第一特征表示向量;
(5)将上述第一特征表示向量输入至预先训练的第二神经网络模型中的特征提取网络进行特征提取,得到目标用户的第二特征表示向量;
(6)将上述第二特征表示向量输入至预先训练的第二神经网络模型中的风险识别网络进行风险识别,得到上述目标用户的风险识别结果。
其中,针对对目标用户的用户特征数据集进行风险关键词识别的过程,考虑到直接从用户特征数据集中提取出的初始风险关键词的数量可能比较多,又考虑到不同的风险关键词对识别用户是否为风险用户的贡献度也有所不同,因此,为了减少风险关键词词向量集合中词向量的数量,进而减少输入至模型的目标融合拼接向量的特征维度,并非对所有初始风险关键词均进行词向量转换处理,而是从初始关键词集合中选取风险识别贡献程度排序靠前的目标关键词集合,这样风险关键词词向量中均包含目标关键词的词向量;具体的,上述步骤S104中的基于上述用户特征数据集进行风险关键词识别,生成风险关键词词向量集合,具体包括:
步骤A1,从上述用户特征数据集中提取初始关键词集合;其中,初始关键词集合包括N个初始风险关键词,N为大于1的整数;
具体的,将用户特征数据集中各个分词与目标业务有关的关键词词库中各个风险关键词进行匹配,将匹配成功的分词确定为初始风险关键词;在具体实施时,可以先对用户特征数据集进行预处理,得到预处理后的用户特征数据集,再将预处理后的用户特征数据集中各个分词与目标业务有关的关键词词库中各个风险关键词进行匹配;其中,上述预处理包括去重、无用词剔除等处理。
步骤A2,从上述N个初始风险关键词中确定目标关键词集合;其中,目标关键词集合包括风险识别贡献程度排序靠前的M个目标风险关键词,M为大于1且小于N的整数;
具体的,在选取出初始关键词集合之后,确定初始关键词集合中各初始风险关键词的风险识别贡献程度,再选取风险识别贡献程度排序靠前的M个初始风险关键词作为目标风险关键词。
步骤A3,针对每个目标风险关键词,对该目标风险关键词进行词向量转换,得到上述目标风险关键词对应的风险关键词词向量;
具体的,将上述目标风险关键词输入至预设词向量转换模型,该词向量转换模型的输出即为目标风险关键词的词向量。
步骤A4,基于上述M个目标风险关键词分别对应的风险关键词词向量,生成风险关键词词向量集合。
进一步地,为了提高从用户特征数据集中提取出的目标风险关键词的准确度,即提高各初始风险关键词的风险识别贡献度的确定准确度,考虑到出现频率高的风险关键词,不一定是对风险识别贡献程度高的风险关键词,且出现频率低的风险关键词,也不一定就是对风险识别贡献程度低的风险关键词,因此,在从初始关键词集合中选取M个目标风险关键词的过程中,不仅考虑初始风险关键词的出现频率,还考虑初始风险关键词的类别区分能力,来综合确定初始风险关键词的风险识别贡献程度,再选取风险识别贡献程度排序靠前的风险关键词作为目标风险关键词;具体的,上述步骤A2,从上述N个初始风险关键词中确定目标关键词集合,具体包括:
步骤A21,针对每个初始风险关键词,确定该初始风险关键词的出现频率;以及,确定该初始风险关键词的类别区分能力;
具体的,初始风险关键词i的出现频率可以是基于初始风险关键词i在提取来源文本中出现次数和该提取来源文本中分词总数确定的;其中,提取来源文本是指目标用户的用户特征数据集中初始风险关键词i所在文本(即初始风险关键词i是从用户特征数据集中哪个特征文本中提取到的),例如,某一初始风险关键词i为目标用户的年收入,则该初始风险关键词i的提取来源文本为包含用户工作相关信息的特征文本;在具体实施时,可以将上述出现次数与分词总数的商值确定为出现频率;
其中,初始风险关键词i的类别区分能力用来表征初始风险关键词i对其所在文本的类别进行区分的贡献程度;也就是说,如果某一风险关键词在某一类别文本中频繁出现,但在其他类别文本中很少出现,即仅在少数文本中包含某一风险关键词,那么说明该风险关键词能够很好地代表这个类别的文本的特征,这种风险关键词属于文本中比较有价值的关键词,因此,类别区分能力比较高的风险关键词有助于风险识别;具体的,考虑到在众多文本中包含某一初始风险关键词i的文本越少,说明该初始风险关键词i的类别区分能力越强,因此,初始风险关键词i的类别区分能力可以是基于预设文本总数与包含该初始风险关键词i的文本数的商值确定的;其中,预设文本总数可以是基于多个关联用户的用户特征数据集所包含的文本数确定的,该关联用户可以是历史预设时间段内目标业务的申请用户,也可以是目标用户,也可以是样本用户,还可以是其他预设用户;
可选地,某一关联用户的用户特征数据集中每个用户特征数据子集中每一项特征数据均可以作为一个特征文本,如果用户特征数据子集1为用户基本信息,且用户基本信息包括用户基本特征数据、用户家庭相关信息、用户工作相关信息、用户持有资产相关信息、用户持有信贷相关信息,那么,用户特征数据子集1包含5个特征文本,每个用户特征数据集包含的特征文本数等于其包含的用户特征数据子集所包含的特征文本数之和。
步骤A22,基于上述出现频率和上述类别区分能力,确定上述初始风险关键词的风险识别贡献程度;
具体的,在确定出各初始风险关键词对应的出现频率和类别区分能力之后,可以将出现频率与类别区分能力的乘积确定为初始风险关键词的风险识别贡献程度。
步骤A23,基于各初始风险关键词分别对应的风险识别贡献程度,按照风险识别贡献程度由高至低的顺序选取M个初始风险关键词作为目标风险关键词。
进一步地,针对初始风险关键词的类别区分能力的确定过程,为了提高风险关键词的类别区分能力的准确度,由于某一用户特征数据集所包含的特征文本的文本类别是已知的,并且考虑到初始风险关键词i可能同时出现在不同的文本类别的特征文本中,又考虑到如果属于目标文本类别且包含初始风险关键词i的文本数量越多,而属于目标文本类别但不包含初始风险关键词i的文本数量越少(即属于目标文本类别的特征文本多数是包含初始风险关键词i的),则说明该初始风险关键词i的类别区分能力越强,因此,在确定风险关键词的类别区分能力的过程中,还可以考虑包含初始风险关键词的特征文本的类别是否为目标文本类别,具体的,上述步骤A21中确定上述初始风险关键词的类别区分能力,具体包括:
步骤A211,确定上述初始风险关键词的第一评估指标取值;其中,上述第一评估指标取值为预设文本总数与第一目标文本数的乘积,上述预设文本总数为x个关联用户的用户特征数据集所包含的文本总数,上述第一目标文本数为上述预设文本总数中属于目标文本类别且包含上述初始风险关键词的文本数,上述目标文本类别为上述初始风险关键词的提取来源文本所属的文本类别,x为大于1的整数;
其中,上述提取来源文本是指目标用户的用户特征数据集中初始风险关键词i所在文本(即初始风险关键词i是从用户特征数据集中哪个特征文本中提取到的);预设文本总数可以是基于多个关联用户的用户特征数据集所包含的文本数确定的,该关联用户可以是历史预设时间段内目标业务的申请用户,也可以是目标用户,也可以是样本用户,还可以是其他预设用户;可选地,某一关联用户的用户特征数据集中每个用户特征数据子集中每一项特征数据均可以作为一个特征文本,如果用户特征数据子集1为用户基本信息,且用户基本信息包括用户基本特征数据、用户家庭相关信息、用户工作相关信息、用户持有资产相关信息、用户持有信贷相关信息,那么,用户特征数据子集1包含5个特征文本,每个用户特征数据集包含的特征文本数等于其包含的用户特征数据子集所包含的特征文本数之和;具体的,用户特征数据子集1中5个特征文本的文本类别分别为:用户基本特征、用户家庭成员特征、用户工作属性、用户持有资产、用户持有信贷。
步骤A212,确定上述初始风险关键词的第二评估指标取值;其中,上述第二评估指标取值为第二目标文本数和第三目标文本数之和,上述第二目标文本数为上述预设文本总数中与上述目标文本类别相同的文本数,上述第三目标文本数为不属于上述目标文本类别而包含上述初始风险关键词的文本数;
具体的,对于初始风险关键词i而言,上述第二目标文本数等于属于目标文本类别而包含初始风险关键词i的文本数与属于目标文本类别但不包含初始风险关键词i的文本数,上述第三目标文本数与属于目标文本类别而包含初始风险关键词i的文本数之和等于包含初始风险关键词i的文本数,因此,上述第二评估指标取值等于属于目标文本类别但不包含初始风险关键词i的文本数与包含初始风险关键词i的文本数之和;
步骤A213,基于上述第一评估指标取值和第二评估指标取值,确定上述初始风险关键词的类别区分能力。
在具体实施时,上述初始风险关键词的类别区分能力可以是基于上述第一评估指标取值和第二评估指标取值的商值确定的;其中,由于预设文本总数与预设文本总数中属于目标文本类别且包含初始风险关键词i的文本数的乘积(即第一评估指标取值)作为分子,并且,预设文本总数中属于目标文本类别但不包含初始风险关键词i的文本数与包含初始风险关键词i的文本数之和(即第二评估指标取值)作为分母,因此,预设文本总数中属于目标文本类别且包含初始风险关键词i的文本数越大,则确定该初始风险关键词i的类别区分能力得分越大,并且,预设文本总数中属于目标文本类别但不包含初始风险关键词i的文本数越小,则确定该初始风险关键词i的类别区分能力得分越大。
本申请实施中,上述风险关键词词向量集合包括多个目标风险关键词的词向量,目标风险关键词是从多个初始风险关键词中基于各初始风险关键词的风险识别贡献程度选取的,风险识别贡献程度是基于初始风险关键词的出现频率和类别区分能力确定的;其中,初始风险关键词的类别区分能力可以是基于预设文本总数与包含该初始风险关键词i的文本数的商值确定的;优选地,初始风险关键词的类别区分能力也可以是基于上述第一评估指标取值和第二评估指标取值的商值确定的。
进一步地,考虑到除了常用的风险关键词可以作为用户风险识别的依据之外,某些机构名、地名等同样对用户风险识别具有一定贡献度,因此,在目标融合拼接向量的生成过程还引入了用户特征数据集所包含的命名实体的词向量,具体的,针对对目标用户的用户特征数据集进行命名实体识别的过程,上述步骤S104中的基于上述用户特征数据集进行命名实体识别,生成命名实体词向量集合,具体包括:
步骤B1,将上述用户特征数据集输入至预先训练的命名实体识别模型进行命名实体识别,得到P个目标命名实体,P为大于1的整数;
具体的,利用预先训练的命名实体识别模型从目标用户的用户特征数据集中提取出可以作为用户风险识别的依据的多个命名实体;例如,目标用户的工作单位名称可以作为一个目标命名实体,由于风险关键词词库中可能不包含工作单位名称,但是工作单位名称也可以作为识别用户是否属于风险用户的参考信息,因此,通过对用户特征数据集进行命名实体识别,可以选取出不属于风险关键词但对用户风险识别具有一定贡献度的其他关键词,从而增加目标融合拼接向量中包含更多有助于风险识别的语义信息。
步骤B2,针对每个目标命名实体,对上述目标命名实体进行词向量转换,得到上述目标命名实体对应的命名实体词向量;
具体的,将上述目标命名实体输入至预设词向量转换模型,该词向量转换模型的输出即为目标命名实体的词向量。
步骤B3,基于上述P个目标命名实体分别对应的命名实体词向量,生成命名实体词向量集合。
进一步地,针对上述目标融合拼接向量的生成过程,可以直接按照预设词向量融合拼接方式,将风险关键词词向量集合中各词向量与命名实体词向量集合中各词向量拼接起来,得到目标融合拼接向量;然而,为了提高第一神经网络模型的特征提取准确度,还可以对重要性比较高的关键词词向量进行标记,如增加风险关键词提示向量,这样第一神经网络模型能够基于该风险关键词提示向量增加对重要性比较高的关键词词向量的关注程度,具体的,如图5所示,上述步骤S106,基于上述风险关键词词向量集合和上述命名实体词向量集合,生成目标融合拼接向量,具体包括以下步骤S1062至S1068:
S1062,基于上述风险关键词词向量集合和上述命名实体词向量集合进行词向量去重处理,得到去重后词向量集合;
具体的,上述去重后词向量集合可以是将目标风险关键词与目标命名实体进行关键词比对去重得到的;例如,若目标风险关键词i与某一目标命名实体j,则从上述风险关键词词向量集合中删掉目标风险关键词i的词向量,或者从上述命名实体词向量集合中删掉目标命名实体j的词向量,得到去重后词向量集合;
具体的,上述去重后词向量集合可以是将目标风险关键词的词向量与目标命名实体的词向量进行相似度匹配去重得到的;具体可以包括:
基于上述风险关键词词向量集合和上述命名实体词向量集合进行词向量相似度匹配,得到词向量匹配结果;其中,上述词向量匹配结果包括Q个词向量相似度,每个上述词向量相似度包括一个风险关键词词向量和一个命名实体词向量之间的相似度,Q为大于1的整数;然后,基于上述词向量匹配结果,对上述风险关键词词向量集合和上述命名实体词向量集合进行去重处理,得到去重后词向量集合;
另外,需要说明的是,由于词向量相似度是可以量化的具体数值,因此,基于词向量相似度不仅能够确定风险关键词词向量与命名实体词向量基本相同的第一词向量组合,其中,该第一词向量组合中两个词向量仅保留一个即可;还可以确定词向量相似度比较高的第二词向量组合,其中,第二词向量组合对应的目标风险关键词和目标命名实体的风险等级可以是相同的,词性也可以是相同的,由于风险关键词识别的过程中,可以确定目标风险关键词的风险等级信息,而不会自动识别目标风险关键词的词性信息,而命名实体识别的过程中,可以确定目标命名实体的词性信息,而不会自动识别目标命名实体的风险等级,因此,针对每个第二词向量组合,可以基于该第二词向量组合对应的目标风险关键词的风险等级信息,确定该第二词向量组合对应的目标命名实体的风险等级信息,并且可以基于该第二词向量组合对应的目标命名实体的词性信息,确定该第二词向量组合对应的目标风险关键词的词性信息,即同一第二词向量组合对应的风险等级和词性信息可以在目标风险关键词和目标命名实体之间共享,从而实现扩充部分目标风险关键词的词性信息和部分目标命名实体的风险等级信息,从而提高后续风险关键词提示向量的确定准确度。
S1064,基于上述去重后词向量集合进行词向量拼接处理,得到风险关键词拼接向量;
具体的,在确定出去重后词向量集合之后,按照预设词向量融合拼接方式,将去重后词向量集合中各词向量拼接起来,得到风险关键词拼接向量。
S1066,基于上述去重后词向量集合中各词向量对应的关键词属性信息,确定风险关键词提示向量;其中,上述关键词属性信息包括风险等级信息、关键词词性中至少一项;
具体的,在确定出去重后词向量集合之后,针对去重后词向量集合中每个词向量,基于该词向量对应的关键词(即目标风险关键词或者目标命名实体)的属性信息进行重要性打分,得到去重后词向量集合中各词向量的重要性得分;基于重要性得分排序靠前的至少一个词向量生成风险关键词提示向量;在具体实施时,可以将重要性得分排序靠前的至少一个词向量进行拼接处理,得到风险关键词提示向量;也可以用于表征重要性得分排序靠前的至少一个词向量在风险关键词拼接向量中的位置信息的向量作为风险关键词提示向量。
S1068,基于上述风险关键词拼接向量和上述风险关键词提示向量,生成目标融合拼接向量。
具体的,可以将上述风险关键词提示向量添加至上述风险关键词拼接向量的指定位置,得到目标融合拼接向量;例如,将上述风险关键词提示向量添加至上述风险关键词拼接向量的首端位置,又如,将上述风险关键词提示向量添加至上述风险关键词拼接向量的尾端位置。
进一步地,针对上述目标融合拼接向量包括风险关键词拼接向量和风险关键词提示向量的情况,模型可以基于风险关键词提示向量快速识别风险关键词拼接向量中哪些词向量的重要性比较高,从而增加对此部分词向量的关注程度,进而提高特征提取准确度,具体的,上述第一神经网络模型可以包括关键词重要性预测网络和特征提取网络;
对应的,上述S108,将上述目标融合拼接向量输入至预先训练的第一神经网络模型进行特征提取,得到上述目标用户的第一特征表示向量,具体包括:
步骤C1,将上述目标融合拼接向量输入上述关键词重要性预测网络进行词向量权重预测,得到目标权重序列;其中,上述目标权重序列是基于上述目标融合拼接向量中风险关键词提示向量对初始权重序列进行调整得到,上述初始权重序列是基于上述目标融合拼接向量中风险关键词拼接向量进行词向量权重识别得到;
具体的,上述初始权重序列包括上述风险关键词拼接向量中各词向量的初始权重,上述目标权重序列包括上述风险关键词拼接向量中各词向量的目标权重,上述风险关键词提示向量所指示的词向量的目标权重是通过对其初始权重进行增大调整得到的。
步骤C2,将上述目标权重序列和上述风险关键词拼接向量输入至上述特征提取网络进行特征提取,得到上述目标用户的第一特征表示向量。
具体的,上述特征提取网络在特征提取的过程中,侧重于从上述风险关键词拼接向量中目标权重大的词向量中提取更多地特征信息,这样有助于模型更准确地进行特征提取,提取出更多有价值的特征信息。
进一步地,为了提高上述风险关键词提示向量的可参考性,可以针对每个指定文本类别分别确定重要性得分比较高的词向量,具体的,上述用户特征数据集包括多个数据采集维度分别对应的用户特征数据子集,每个用户特征数据子集包括多个文本类别的用户特征文本;
对应的,上述S1066,基于上述去重后词向量集合中各词向量对应的关键词属性信息,确定风险关键词提示向量,具体包括:
步骤一,针对每个数据采集维度下指定文本类别,基于上述去重后词向量集合中各词向量对应的关键词属性信息,确定上述指定文本类别对应的参考优先级最高的目标词向量;其中,上述参考优先级最高是基于上述目标词向量对应的关键属性信息的重要性得分确定的;具体的,指定文本类别可以是预先设定的,针对用户基本信息这一数据采集维度下的指定文本类别,例如,可以将用户基本特征、用户家庭成员特征、用户工作属性、用户持有资产、用户持有信贷中至少一项作为指定文本类别。
步骤二,对各上述指定文本类别分别对应的目标词向量进行词向量拼接处理,得到风险关键词提示向量。
具体的,基于去重后词向量集合和该去重后词向量集合中各词向量对应的关键词(即目标风险关键词或者目标命名实体)的文本来源标识,确定每个数据采集维度下指定文本类别对应的去重后词向量子集;其中,该去重后词向量子集包括来自于属于该指定文本类别的特征文本的关键词的词向量;
针对每个数据采集维度下指定文本类别,基于该指定文本类别对应的去重后词向量子集中各词向量对应的关键词的属性信息进行重要性打分,得到各词向量的重要性得分;基于重要性得分确定上述指定文本类别对应的参考优先级最高的目标词向量;然后,基于各指定文本类别对应的目标词向量生成风险关键词提示向量;在具体实施时,可以将各指定文本类别对应的目标词向量进行拼接处理,得到风险关键词提示向量;也可以用于表征各目标词向量在风险关键词拼接向量中的位置信息的向量作为风险关键词提示向量。
在一个具体实施例中,仍以目标用户为申请贷款业务的用户为例,即对目标用户进行贷前风险识别,确定目标用户是否为风险用户;在上述图4的基础上,如图6所示,给出了另一种风险用户的识别方法的具体实现过程,主要包括:
(1)在接收到目标用户的贷款业务申请请求后,从用户特征数据库中获取目标用户的n个数据采集维度分别对应的用户特征数据子集;
(2)基于上述n个用户特征数据子集进行风险关键词识别,提取初始关键词集合;基于上述初始关键词集合中的各初始风险关键词的出现频率和类别区分能力,确定目标关键词集合;
(3)对目标关键词集合中各目标风险关键词进行词向量转换,得到风险关键词词向量集合;
(4)将上述n个用户特征数据子集输入至预先训练的命名实体识别模型进行命名实体识别,得到命名实体集合;
(5)对命名实体集合中各目标命名实体进行词向量转换,得到命名实体词向量集合;
(6)基于上述风险关键词词向量集合和上述命名实体词向量集合进行词向量去重处理,得到去重后词向量集合;
(7)基于上述去重后词向量集合进行词向量拼接处理,得到风险关键词拼接向量;
(8)基于上述去重后词向量集合中各词向量对应的关键词属性信息,确定风险关键词提示向量;
(9)基于上述风险关键词拼接向量和上述风险关键词提示向量,生成目标融合拼接向量;
(10)将上述目标融合拼接向量输入至预先训练的第一神经网络模型进行特征提取,得到上述目标用户的第一特征表示向量;
(11)将上述第一特征表示向量输入至预先训练的第二神经网络模型中的特征提取网络进行特征提取,得到目标用户的第二特征表示向量;
(12)将上述第二特征表示向量输入至预先训练的第二神经网络模型中的风险识别网络进行风险识别,得到上述目标用户的风险识别结果。
本申请实施例中的风险用户的识别方法,首先基于目标用户的用户特征数据集进行风险关键词识别以及命名实体识别,得到风险关键词词向量集合和命名实体词向量集合;再基于这两个词向量集合生成目标融合拼接向量;然后,将目标融合拼接向量先输入第一神经网络模型进行特征提取,再将得到的第一特征表示向量输入第二神经网络模型进行风险识别,得到目标用户的风险识别结果;一方面,模型输入的目标融合拼接向量不仅与风险关键词有关,还与命名实体有关,确保了模型输入的特征全面性和多样性;另一方面,借助两个神经网络模型,这两个神经网络模型的侧重点可以是不同的,一个神经网络模型可以侧重于提取的特征表示向量的稠密性,另一个神经网络模型可以侧重于提取高层特征,并且两个神经网络模型可以使得目标融合拼接向量经过两次特征向量降维处理,从而得到低维度且稠密且包含更多高层特征的用户特征表示向量,再基于该用户特征表示向量识别目标用户是否为风险用户,使得最终用于对目标用户进行二分类(即目标用户是否为风险用户)的用户特征表示向量更加具有风险判别能力,有助于更加准确地进行风险分类,从而提高风险识别准确度。
对应上述图1至图6描述的风险用户的识别方法,基于相同的技术构思,本申请实施例还提供了一种风险用户的识别装置,图7为本申请实施例提供的风险用户的识别装置的模块组成示意图,该装置用于执行图1至图6描述的风险用户的识别方法,如图7所示,该装置包括:
特征数据获取模块702,用于获取目标用户的用户特征数据集;
词向量集合生成模块704,用于基于所述用户特征数据集进行风险关键词识别,生成风险关键词词向量集合;以及,基于所述用户特征数据集进行命名实体识别,生成命名实体词向量集合;
词向量处理模块706,用于基于所述风险关键词词向量集合和所述命名实体词向量集合,生成目标融合拼接向量;
特征向量生成模块708,用于将所述目标融合拼接向量输入至预先训练的第一神经网络模型进行特征提取,得到所述目标用户的第一特征表示向量;
风险结果生成模块710,用于将所述第一特征表示向量输入至预先训练的第二神经网络模型进行风险识别,得到所述目标用户的风险识别结果。
本申请实施例中的风险用户的识别装置,首先基于目标用户的用户特征数据集进行风险关键词识别以及命名实体识别,得到风险关键词词向量集合和命名实体词向量集合;再基于这两个词向量集合生成目标融合拼接向量;然后,将目标融合拼接向量先输入第一神经网络模型进行特征提取,再将得到的第一特征表示向量输入第二神经网络模型进行风险识别,得到目标用户的风险识别结果;一方面,模型输入的目标融合拼接向量不仅与风险关键词有关,还与命名实体有关,确保了模型输入的特征全面性和多样性;另一方面,借助两个神经网络模型,这两个神经网络模型的侧重点可以是不同的,一个神经网络模型可以侧重于提取的特征表示向量的稠密性,另一个神经网络模型可以侧重于提取高层特征,并且两个神经网络模型可以使得目标融合拼接向量经过两次特征向量降维处理,从而得到低维度且稠密且包含更多高层特征的用户特征表示向量,再基于该用户特征表示向量识别目标用户是否为风险用户,使得最终用于对目标用户进行二分类(即目标用户是否为风险用户)的用户特征表示向量更加具有风险判别能力,有助于更加准确地进行风险分类,从而提高风险识别准确度。
需要说明的是,本申请中关于风险用户的识别装置的实施例与本申请中关于风险用户的识别方法的实施例基于同一发明构思,因此该实施例的具体实施可以参见前述对应的风险用户的识别方法的实施,重复之处不再赘述。
进一步地,对应上述图1至图6所示的方法,基于相同的技术构思,本申请实施例还提供了一种电子设备,该设备用于执行上述的风险用户的识别方法,如图8所示。
电子设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上的处理器801和存储器802,存储器802中可以存储有一个或一个以上存储应用程序或数据。其中,存储器802可以是短暂存储或持久存储。存储在存储器802的应用程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对电子设备中的一系列计算机可执行指令。更进一步地,处理器801可以设置为与存储器802通信,在电子设备上执行存储器802中的一系列计算机可执行指令。电子设备还可以包括一个或一个以上电源803,一个或一个以上有线或无线网络接口804,一个或一个以上输入输出接口805,一个或一个以上键盘806等。
在一个具体的实施例中,电子设备包括有存储器,以及一个或一个以上的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一个以上程序可以包括一个或一个以上模块,且每个模块可以包括对电子设备中的一系列计算机可执行指令,且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令:
获取目标用户的用户特征数据集;
基于所述用户特征数据集进行风险关键词识别,生成风险关键词词向量集合;以及,基于所述用户特征数据集进行命名实体识别,生成命名实体词向量集合;
基于所述风险关键词词向量集合和所述命名实体词向量集合,生成目标融合拼接向量;
将所述目标融合拼接向量输入至预先训练的第一神经网络模型进行特征提取,得到所述目标用户的第一特征表示向量;
将所述第一特征表示向量输入至预先训练的第二神经网络模型进行风险识别,得到所述目标用户的风险识别结果。
本申请实施例中的电子设备,首先基于目标用户的用户特征数据集进行风险关键词识别以及命名实体识别,得到风险关键词词向量集合和命名实体词向量集合;再基于这两个词向量集合生成目标融合拼接向量;然后,将目标融合拼接向量先输入第一神经网络模型进行特征提取,再将得到的第一特征表示向量输入第二神经网络模型进行风险识别,得到目标用户的风险识别结果;一方面,模型输入的目标融合拼接向量不仅与风险关键词有关,还与命名实体有关,确保了模型输入的特征全面性和多样性;另一方面,借助两个神经网络模型,这两个神经网络模型的侧重点可以是不同的,一个神经网络模型可以侧重于提取的特征表示向量的稠密性,另一个神经网络模型可以侧重于提取高层特征,并且两个神经网络模型可以使得目标融合拼接向量经过两次特征向量降维处理,从而得到低维度且稠密且包含更多高层特征的用户特征表示向量,再基于该用户特征表示向量识别目标用户是否为风险用户,使得最终用于对目标用户进行二分类(即目标用户是否为风险用户)的用户特征表示向量更加具有风险判别能力,有助于更加准确地进行风险分类,从而提高风险识别准确度。
需要说明的是,本申请中关于电子设备的实施例与本申请中关于风险用户的识别方法的实施例基于同一发明构思,因此该实施例的具体实施可以参见前述对应的风险用户的识别方法的实施,重复之处不再赘述。
进一步地,对应上述图1至图6所示的方法,基于相同的技术构思,本申请实施例还提供了一种计算机可读存储介质,用于存储计算机可执行指令,一种具体的实施例中,该存储介质可以为U盘、光盘、硬盘等,该存储介质存储的计算机可执行指令在被处理器执行时,能实现以下流程:
获取目标用户的用户特征数据集;
基于所述用户特征数据集进行风险关键词识别,生成风险关键词词向量集合;以及,基于所述用户特征数据集进行命名实体识别,生成命名实体词向量集合;
基于所述风险关键词词向量集合和所述命名实体词向量集合,生成目标融合拼接向量;
将所述目标融合拼接向量输入至预先训练的第一神经网络模型进行特征提取,得到所述目标用户的第一特征表示向量;
将所述第一特征表示向量输入至预先训练的第二神经网络模型进行风险识别,得到所述目标用户的风险识别结果。
本申请实施例中的存储介质存储的计算机可执行指令在被处理器执行时,首先基于目标用户的用户特征数据集进行风险关键词识别以及命名实体识别,得到风险关键词词向量集合和命名实体词向量集合;再基于这两个词向量集合生成目标融合拼接向量;然后,将目标融合拼接向量先输入第一神经网络模型进行特征提取,再将得到的第一特征表示向量输入第二神经网络模型进行风险识别,得到目标用户的风险识别结果;一方面,模型输入的目标融合拼接向量不仅与风险关键词有关,还与命名实体有关,确保了模型输入的特征全面性和多样性;另一方面,借助两个神经网络模型,这两个神经网络模型的侧重点可以是不同的,一个神经网络模型可以侧重于提取的特征表示向量的稠密性,另一个神经网络模型可以侧重于提取高层特征,并且两个神经网络模型可以使得目标融合拼接向量经过两次特征向量降维处理,从而得到低维度且稠密且包含更多高层特征的用户特征表示向量,再基于该用户特征表示向量识别目标用户是否为风险用户,使得最终用于对目标用户进行二分类(即目标用户是否为风险用户)的用户特征表示向量更加具有风险判别能力,有助于更加准确地进行风险分类,从而提高风险识别准确度。
需要说明的是,本申请中关于存储介质的实施例与本申请中关于风险用户的识别方法的实施例基于同一发明构思,因此该实施例的具体实施可以参见前述对应的风险用户的识别方法的实施,重复之处不再赘述。
上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本领域内的技术人员应明白,本申请实施例可提供为方法、系统或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁盘存储或其他磁性存储设备或任何其他非传输介质,用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本申请实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请的一个或多个实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。以上所述仅为本文件的实施例而已,并不用于限制本文件。对于本领域技术人员来说,本文件可以有各种更改和变化。凡在本文件的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本文件的权利要求范围之内。

Claims (13)

1.一种风险用户的识别方法,其特征在于,所述方法包括:
获取目标用户的用户特征数据集;
基于所述用户特征数据集进行风险关键词识别,生成风险关键词词向量集合;以及,基于所述用户特征数据集进行命名实体识别,生成命名实体词向量集合;
基于所述风险关键词词向量集合和所述命名实体词向量集合,生成目标融合拼接向量;
将所述目标融合拼接向量输入至预先训练的第一神经网络模型进行特征提取,得到所述目标用户的第一特征表示向量;
将所述第一特征表示向量输入至预先训练的第二神经网络模型进行风险识别,得到所述目标用户的风险识别结果。
2.根据权利要求1所述的方法,其特征在于,所述第二神经网络模型包括特征提取网络和风险识别网络;
所述将所述第一特征表示向量输入至预先训练的第二神经网络模型进行风险识别,得到所述目标用户的风险识别结果,包括:
将所述第一特征表示向量输入至所述特征提取网络进行特征提取,得到所述目标用户的第二特征表示向量;其中,所述第二特征表示向量的特征维度小于所述第一特征表示向量的特征维度;
将所述第二特征表示向量输入至所述风险识别网络进行风险识别,得到所述目标用户的风险识别结果。
3.根据权利要求1所述的方法,其特征在于,所述基于所述用户特征数据集进行风险关键词识别,生成风险关键词词向量集合,包括:
从所述用户特征数据集中提取初始关键词集合;其中,所述初始关键词集合包括N个初始风险关键词,N为大于1的整数;
从所述N个初始风险关键词中确定目标关键词集合;其中,所述目标关键词集合包括M个目标风险关键词,M为大于1且小于N的整数;
针对每个所述目标风险关键词,对所述目标风险关键词进行词向量转换,得到所述目标风险关键词对应的风险关键词词向量;
基于所述M个目标风险关键词分别对应的风险关键词词向量,生成风险关键词词向量集合。
4.根据权利要求3所述的方法,其特征在于,所述从所述N个初始风险关键词中确定目标关键词集合,包括:
针对每个所述初始风险关键词,确定所述初始风险关键词的出现频率;以及,确定所述初始风险关键词的类别区分能力;
基于所述出现频率和所述类别区分能力,确定所述初始风险关键词的风险识别贡献程度;
基于各所述初始风险关键词分别对应的风险识别贡献程度,按照风险识别贡献程度由高至低的顺序选取M个初始风险关键词作为目标风险关键词。
5.根据权利要求4所述的方法,其特征在于,所述确定所述初始风险关键词的类别区分能力,包括:
确定所述初始风险关键词的第一评估指标取值;其中,所述第一评估指标取值为预设文本总数与第一目标文本数的乘积,所述预设文本总数为x个关联用户的用户特征数据集所包含的文本总数,所述第一目标文本数为所述预设文本总数中属于目标文本类别且包含所述初始风险关键词的文本数,所述目标文本类别为所述初始风险关键词的提取来源文本所属的文本类别,x为大于1的整数;
确定所述初始风险关键词的第二评估指标取值;其中,所述第二评估指标取值为第二目标文本数和第三目标文本数之和,所述第二目标文本数为所述预设文本总数中与所述目标文本类别相同的文本数,所述第三目标文本数为不属于所述目标文本类别而包含所述初始风险关键词的文本数;
基于所述第一评估指标取值和第二评估指标取值,确定所述初始风险关键词的类别区分能力。
6.根据权利要求1所述的方法,其特征在于,所述基于所述用户特征数据集进行命名实体识别,生成命名实体词向量集合,包括:
将所述用户特征数据集输入至预先训练的命名实体识别模型进行命名实体识别,得到P个目标命名实体,P为大于1的整数;
针对每个所述目标命名实体,对所述目标命名实体进行词向量转换,得到所述目标命名实体对应的命名实体词向量;
基于所述P个目标命名实体分别对应的命名实体词向量,生成命名实体词向量集合。
7.根据权利要求1所述的方法,其特征在于,所述基于所述风险关键词词向量集合和所述命名实体词向量集合,生成目标融合拼接向量,包括:
基于所述风险关键词词向量集合和所述命名实体词向量集合进行词向量去重处理,得到去重后词向量集合;
基于所述去重后词向量集合进行词向量拼接处理,得到风险关键词拼接向量;
基于所述去重后词向量集合中各词向量对应的关键词属性信息,确定风险关键词提示向量;其中,所述关键词属性信息包括风险等级信息、关键词词性中至少一项;
基于所述风险关键词拼接向量和所述风险关键词提示向量,生成目标融合拼接向量。
8.根据权利要求7所述的方法,其特征在于,所述第一神经网络模型包括关键词重要性预测网络和特征提取网络;
所述将所述目标融合拼接向量输入至预先训练的第一神经网络模型进行特征提取,得到所述目标用户的第一特征表示向量,包括:
将所述目标融合拼接向量输入所述关键词重要性预测网络进行词向量权重预测,得到目标权重序列;其中,所述目标权重序列是基于所述目标融合拼接向量中风险关键词提示向量对初始权重序列进行调整得到,所述初始权重序列是基于所述目标融合拼接向量中风险关键词拼接向量进行词向量权重识别得到;
将所述目标权重序列和所述风险关键词拼接向量输入至所述特征提取网络进行特征提取,得到所述目标用户的第一特征表示向量。
9.根据权利要求7所述的方法,其特征在于,所述用户特征数据集包括多个数据采集维度分别对应的用户特征数据子集,每个用户特征数据子集包括多个文本类别的用户特征文本;
所述基于所述去重后词向量集合中各词向量对应的关键词属性信息,确定风险关键词提示向量,包括:
针对每个所述数据采集维度下指定文本类别,基于所述去重后词向量集合中各词向量对应的关键词属性信息,确定所述指定文本类别对应的参考优先级最高的目标词向量;其中,所述参考优先级最高是基于所述目标词向量对应的关键属性信息的重要性得分确定的;
对各所述指定文本类别分别对应的目标词向量进行词向量拼接处理,得到风险关键词提示向量。
10.根据权利要求1至9任一项所述的方法,其特征在于,所述获取目标用户的用户特征数据集,包括:
在接收到目标用户的贷款业务申请请求后,获取所述目标用户的n个数据采集维度分别对应的用户特征数据子集;其中,每个用户特征数据子集包括m个文本类别的用户特征文本,n和m均为大于1的整数;
基于n个所述用户特征数据子集,生成所述目标用户的用户特征数据集。
11.一种风险用户的识别装置,其特征在于,所述装置包括:
特征数据获取模块,用于获取目标用户的用户特征数据集;
词向量集合生成模块,用于基于所述用户特征数据集进行风险关键词识别,生成风险关键词词向量集合;以及,基于所述用户特征数据集进行命名实体识别,生成命名实体词向量集合;
词向量处理模块,用于基于所述风险关键词词向量集合和所述命名实体词向量集合,生成目标融合拼接向量;
特征向量生成模块,用于将所述目标融合拼接向量输入至预先训练的第一神经网络模型进行特征提取,得到所述目标用户的第一特征表示向量;
风险结果生成模块,用于将所述第一特征表示向量输入至预先训练的第二神经网络模型进行风险识别,得到所述目标用户的风险识别结果。
12.一种电子设备,其特征在于,所述设备包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令被配置由所述处理器执行,所述可执行指令包括用于执行如权利要求1至10任一项所述的方法中的步骤。
13.一种计算机可读存储介质,其特征在于,所述存储介质用于存储计算机可执行指令,所述可执行指令使得计算机执行如权利要求1至10任一项所述的方法。
CN202310424529.5A 2023-04-19 2023-04-19 风险用户的识别方法、装置、电子设备及存储介质 Pending CN117493549A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310424529.5A CN117493549A (zh) 2023-04-19 2023-04-19 风险用户的识别方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310424529.5A CN117493549A (zh) 2023-04-19 2023-04-19 风险用户的识别方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN117493549A true CN117493549A (zh) 2024-02-02

Family

ID=89669648

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310424529.5A Pending CN117493549A (zh) 2023-04-19 2023-04-19 风险用户的识别方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN117493549A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118051620A (zh) * 2024-02-27 2024-05-17 华泽中熙(北京)科技发展有限公司 一种支付数据的分布式存储方法
CN118555131A (zh) * 2024-07-23 2024-08-27 深圳市常行科技有限公司 基于人工智能的网络风险预警方法和系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118051620A (zh) * 2024-02-27 2024-05-17 华泽中熙(北京)科技发展有限公司 一种支付数据的分布式存储方法
CN118555131A (zh) * 2024-07-23 2024-08-27 深圳市常行科技有限公司 基于人工智能的网络风险预警方法和系统
CN118555131B (zh) * 2024-07-23 2024-10-01 深圳市常行科技有限公司 基于人工智能的网络风险预警方法和系统

Similar Documents

Publication Publication Date Title
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN111488426A (zh) 一种查询意图确定方法、装置及处理设备
CN109190110A (zh) 一种命名实体识别模型的训练方法、系统及电子设备
CN117493549A (zh) 风险用户的识别方法、装置、电子设备及存储介质
CN107679082A (zh) 问答搜索方法、装置以及电子设备
CN111259130B (zh) 用于在对话中提供答复语句的方法及装置
Jain et al. Fine-tuning textrank for legal document summarization: A Bayesian optimization based approach
CN112307190B (zh) 医学文献排序方法、装置、电子设备及存储介质
CN112487827A (zh) 问题回答方法及电子设备、存储装置
CN115062135B (zh) 一种专利筛选方法与电子设备
WO2021118462A1 (en) Context detection
CN117609479A (zh) 一种模型处理方法、装置、设备、介质及产品
Trupthi et al. Possibilistic fuzzy C-means topic modelling for twitter sentiment analysis
CN115329176A (zh) 搜索请求的处理方法、装置、计算机设备及存储介质
CN113722507B (zh) 基于知识图谱的住院费用预测方法、装置及计算机设备
CN117131155A (zh) 多类目识别方法、装置、电子设备及储存介质
CN111460808A (zh) 同义文本识别及内容推荐方法、装置及电子设备
CN116089724A (zh) 对比学习模型的生成方法、物品推荐方法及其装置
CN114969253A (zh) 市场主体与政策的匹配方法、装置、计算设备及介质
CN115098619A (zh) 资讯去重方法、装置、电子设备及计算机可读取存储介质
CN115129864A (zh) 文本分类方法、装置、计算机设备和存储介质
CN111199170B (zh) 配方文件识别方法及装置、电子设备、存储介质
CN112765340A (zh) 一种确定云服务资源的方法、装置、电子设备及存储介质
CN112579774A (zh) 模型训练方法、模型训练装置及终端设备
Qiu et al. Deep active learning with crowdsourcing data for privacy policy classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination