CN116108145B - 基于预训练的风控分析方法及装置 - Google Patents

基于预训练的风控分析方法及装置 Download PDF

Info

Publication number
CN116108145B
CN116108145B CN202310387341.8A CN202310387341A CN116108145B CN 116108145 B CN116108145 B CN 116108145B CN 202310387341 A CN202310387341 A CN 202310387341A CN 116108145 B CN116108145 B CN 116108145B
Authority
CN
China
Prior art keywords
wind control
text
feature
data
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310387341.8A
Other languages
English (en)
Other versions
CN116108145A (zh
Inventor
胡申民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mountain View Intelligent Beijing Technology Co ltd
Original Assignee
Mountain View Intelligent Beijing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mountain View Intelligent Beijing Technology Co ltd filed Critical Mountain View Intelligent Beijing Technology Co ltd
Priority to CN202310387341.8A priority Critical patent/CN116108145B/zh
Publication of CN116108145A publication Critical patent/CN116108145A/zh
Application granted granted Critical
Publication of CN116108145B publication Critical patent/CN116108145B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于预训练的风控分析方法及装置,该方法包括:获得风控场景中用户的风控画像,并输入至沉淀特征知识模型,获得用户的特征文本,特征文本包括多个特征句子,每个特征句子对应一个业务域,每个特征句子包括多个特征词,每个特征词是根据用户的风控画像生成的;将所述特征文本输入至改进bert模型的预训练模型,获得文本嵌入,所述改进bert模型包括预训练模型和任务层,其中,任务层中的预设参数用银行的风控模型的预设变量替换,且任务层反馈至预训练模型;将文本嵌入输入至沉淀特征预训练模型,获得拼装数据;将拼装数据输入至改进bert模型,获得用户的风控数据。本发明可以实现更优化的风控场景中通用的特征预训练。

Description

基于预训练的风控分析方法及装置
技术领域
本发明涉及风控管理技术领域,尤其涉及基于预训练的风控分析方法及装置。
背景技术
本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
目前预训练模型的方法针对不同的特征域,将数据类型作为不同的嵌入的方式,采用不同的表征方式,这样对数据挖掘和分析的时间成本很高,但是在数据联合建模的场景或多数据多特征的场景,例如,风控场景,需要快速接入数据,时间成本和人工成本难以支撑这样的场景。
因此,目前需要一种更优化的基于预训练的风控分析方案。
发明内容
本发明实施例提供一种基于预训练的风控分析方法,用以实现更优化的风控场景中通用的特征预训练,该方法包括:
获得风控场景中用户的风控画像,并输入至沉淀特征知识模型,获得用户的特征文本,其中,所述特征文本包括多个特征句子,每个特征句子对应一个业务域,每个特征句子包括多个特征词,每个特征词是根据用户的风控画像生成的;
将所述特征文本输入至改进bert模型的预训练模型,获得文本嵌入,所述改进bert模型包括预训练模型和任务层,其中,任务层中的预设参数用银行的风控模型的预设变量替换,且任务层反馈至预训练模型;
将文本嵌入输入至沉淀特征预训练模型,获得拼装数据;
将拼装数据输入至改进bert模型,获得用户的风控数据。
本发明实施例还提供一种基于预训练的风控分析装置,用以实现更优化的风控场景中通用的特征预训练,该装置包括:
特征文本分析模块,用于获得风控场景中用户的风控画像,并输入至沉淀特征知识模型,获得用户的特征文本,其中,所述特征文本包括多个特征句子,每个特征句子对应一个业务域,每个特征句子包括多个特征词,每个特征词是根据用户的风控画像生成的;
文本嵌入生成模块,用于将所述特征文本输入至改进bert模型的预训练模型,获得文本嵌入,所述改进bert模型包括预训练模型和任务层,其中,任务层中的预设参数用银行的风控模型的预设变量替换,且任务层反馈至预训练模型;
拼装数据获得模块,用于将文本嵌入输入至沉淀特征预训练模型,获得拼装数据;
风控数据获得模块,用于将拼装数据输入至改进bert模型,获得用户的风控数据。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于预训练的风控分析方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述基于预训练的风控分析方法。
本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现上述基于预训练的风控分析方法。
本发明实施例中,获得风控场景中用户的风控画像,并输入至沉淀特征知识模型,获得用户的特征文本,其中,所述特征文本包括多个特征句子,每个特征句子对应一个业务域,每个特征句子包括多个特征词,每个特征词是根据用户的风控画像生成的;将所述特征文本输入至改进bert模型的预训练模型,获得文本嵌入,所述改进bert模型包括预训练模型和任务层,其中,任务层中的预设参数用银行的风控模型的预设变量替换,且任务层反馈至预训练模型;将文本嵌入输入至沉淀特征预训练模型,获得拼装数据;将拼装数据输入至改进bert模型,获得用户的风控数据。与现有技术中将数据类型作为不同的嵌入的方式,采用不同的表征方式的预训练的技术方案相比,通过同时考虑用户的风控画像和银行的风控模型的预设变量,实现了脱离特征分析用自然语言处理的方式泛化嵌入的思路,不需要进行手工的风控特征处理,这样嵌入除了风控画像的特征外,还对银行的风控模型表示的业务的效果负责,从而获得了更准确的风控数据。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本发明实施例中基于预训练的风控分析方法的流程图;
图2为本发明实施例中基于预训练的风控分析方法中涉及模型的原理图;
图3为本发明实施例中风控画像的组成示意图;
图4为本发明实施例中沉淀特征知识模型的结构示意图;
图5为本发明实施例中预训练模型的结构示意图;
图6为本发明实施例中改进bert模型的结构示意图;
图7为本发明实施例中沉淀特征预训练模型的结构示意图;
图8为本发明实施例中基于预训练的风控分析装置的示意图;
图9为本发明实施例中计算机设备的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
图1为本发明实施例中基于预训练的风控分析方法的流程图,图2为本发明实施例中基于预训练的风控分析方法中涉及模型的原理图,参见图1和图2,基于预训练的风控分析方法包括:
步骤101,获得风控场景中用户的风控画像,并输入至沉淀特征知识模型,获得用户的特征文本,其中,所述特征文本包括多个特征句子,每个特征句子对应一个业务域,每个特征句子包括多个特征词,每个特征词是根据用户的风控画像生成的;
步骤102,将所述特征文本输入至改进bert模型的预训练模型,获得文本嵌入,所述改进bert模型包括预训练模型和任务层,其中,任务层中的预设参数用银行的风控模型的预设变量替换,且任务层反馈至预训练模型;
步骤103,将文本嵌入输入至沉淀特征预训练模型,获得拼装数据;
步骤104,将拼装数据输入至改进bert模型,获得用户的风控数据。
本发明实施例与现有技术中将数据类型作为不同的嵌入的方式,采用不同的表征方式的预训练的技术方案相比,通过同时考虑用户的风控画像和银行的风控模型的预设变量,实现了脱离特征分析用自然语言处理的方式泛化嵌入的思路,不需要进行手工的风控特征处理,这样嵌入除了风控画像的特征外,还对银行的风控模型表示的业务的效果负责,从而获得了更准确的风控数据。下面进行详细介绍。
在步骤101,获得风控场景中用户的风控画像,并输入至沉淀特征知识模型,获得用户的特征文本,其中,所述特征文本document包括多个特征句子,每个特征句子对应一个业务域,每个特征句子包括多个特征词token,每个特征词token是根据用户的风控画像生成的;其中,特征词token包括特征名称和特征值,也就是,特征词token整个特征名称和特征值就可以是组成用户画像的自然语言描述,也就是将所有的第三方数据进行整合和重新定义排布。
本发明实施例中,特征文本document的形式可以随机,任意类型的特征进行训练快速对接预训练模型,无固定长度的限制。
图3为本发明实施例中风控画像的组成示意图,其中,风控画像是按照业务域划分的。在一实施例中,所述业务域包括基础画像、网购画像、信贷画像、异常信息画像、异常通信画像、商旅信息、运营商信息、社保纳税信息、行为数据采集中的其中一种或任意组合。
图4为本发明实施例中沉淀特征知识模型的结构示意图,包括:
接口字典,用于基于输入的风控场景中用户的风控画像,获得用户的特征;
编码模块,对所有的特征进行编码,获得所有特征的表示编码;
语义聚类管理模块,用于将所有特征的表示编码按照业务域进行聚类,获得多个分类,其中,每个业务域对应一个分类;
特征文本生成模块,用于基于多个分类,生成用户的特征文本。
在一实施例中,表示编码包括参数表示编码、枚举值表示编码、类型表示编码、簇分类模型表示编码中的其中一种或任意组合。
在步骤102,将所述特征文本输入至改进bert模型的预训练模型,获得文本嵌入,所述改进bert模型包括预训练模型和任务层,其中,任务层中的预设参数用银行的风控模型的预设变量替换,且任务层反馈至预训练模型;可见,预训练模型是改进bert模型的一部分,另外,银行有很多风控模型(例如,判断用户账户是否异常的模型),每种风控模型有不同的变量,本发明实施例中,任务层中的预设参数用银行的风控模型的预设变量替换,那么银行的风控模型的预设变量和风控画像都作为了训练数据,且任务层反馈至预训练模型的嵌入层。
图5为本发明实施例中预训练模型的结构示意图,在一实施例中,所述预训练模型包括特征文本层input document和嵌入层,所述嵌入包括词嵌入token embeddings、分割嵌入segment embeddings和位置嵌入position embeddings;
其中,特征文本层用于输入特征文本;
任务层反馈至预训练模型的嵌入层。
图6为本发明实施例中改进bert模型的结构示意图,改进bert模型除了包括预训练模型pretrain和任务层summarization layer,还包括与预训练模型连接的Transformer层,分别与Transformer层和任务层连接的LSTM层;
将拼装数据输入至改进bert模型,获得用户的风控数据,包括:
将拼装数据输入至改进bert模型的Transformer层,获得用户的风控数据,然后再依次通过LSTM层、任务层,输出用户的风控数据。
在一实施例中,任务层采用训练文档的双向掩码器(hugging face bert)中的端对端最后任务层,也就是,用这样的任务层反向优化预训练模型pretrain的嵌入层的特征,这样嵌入层除了风控模型外,还对业务的效果负责,实现了更好的训练效果。
在步骤103,将文本嵌入输入至沉淀特征预训练模型,获得拼装数据;图7为本发明实施例中沉淀特征预训练模型的结构示意图,参见图7,沉淀特征预训练模型包括:
输入接口,用于接收文本嵌入,其中,各家银行的风控系统的输入接口不同,但是都能接收文本嵌入,且不同银行有不同的风控模型;
平铺模块,用于将json形式的特征文本转换为文本数据;具体做法包括将json打平一层{key:value},变成文本数据;
数据重构模块,用于将文本数据按照业务域进行拼装,获得拼装数据。在一实施例中,数据重构模块具体用于:
将文本数据按照业务域(按照cluster)进行拼装,获得每个业务域对应的数据;
将多个业务域对应的数据进行拼装,获得拼装数据。
在步骤104,将拼装数据输入至改进bert模型,获得用户的风控数据。也就是,将拼装数据输入至改进bert模型的Transformer层,获得用户的风控数据,然后再依次通过LSTM层、任务层,输出用户的风控数据。
综上所述,在本发明实施例提出的方法中,获得风控场景中用户的风控画像,并输入至沉淀特征知识模型,获得用户的特征文本,其中,所述特征文本包括多个特征句子,每个特征句子对应一个业务域,每个特征句子包括多个特征词,每个特征词是根据用户的风控画像生成的;将所述特征文本输入至改进bert模型的预训练模型,获得文本嵌入,所述改进bert模型包括预训练模型和任务层,其中,任务层中的预设参数用银行的风控模型的预设变量替换,且任务层反馈至预训练模型;将文本嵌入输入至沉淀特征预训练模型,获得拼装数据;将拼装数据输入至改进bert模型,获得用户的风控数据。与现有技术中将数据类型作为不同的嵌入的方式,采用不同的表征方式的预训练的技术方案相比,通过同时考虑用户的风控画像和银行的风控模型的预设变量,实现了脱离特征分析用自然语言处理的方式泛化嵌入的思路,不需要进行手工的风控特征处理,这样嵌入除了风控画像的特征外,还对银行的风控模型表示的业务的效果负责,从而获得了更准确的风控数据。
本发明实施例中还提供了一种基于预训练的风控分析装置,如下面的实施例所述。由于该装置解决问题的原理与基于预训练的风控分析方法相似,因此该装置的实施可以参见基于预训练的风控分析方法的实施,重复之处不再赘述。
图8为本发明实施例中基于预训练的风控分析装置的示意图,包括:
特征文本分析模块801,用于获得风控场景中用户的风控画像,并输入至沉淀特征知识模型,获得用户的特征文本,其中,所述特征文本包括多个特征句子,每个特征句子对应一个业务域,每个特征句子包括多个特征词,每个特征词是根据用户的风控画像生成的;
文本嵌入生成模块802,用于将所述特征文本输入至改进bert模型的预训练模型,获得文本嵌入,所述改进bert模型包括预训练模型和任务层,其中,任务层中的预设参数用银行的风控模型的预设变量替换,且任务层反馈至预训练模型;
拼装数据获得模块803,用于将文本嵌入输入至沉淀特征预训练模型,获得拼装数据;
风控数据获得模块804,用于将拼装数据输入至改进bert模型,获得用户的风控数据。
在一实施例中,沉淀特征知识模型包括:
接口字典,用于基于输入的风控场景中用户的风控画像,获得用户的特征;
编码模块,对所有的特征进行编码,获得所有特征的表示编码;
语义聚类管理模块,用于将所有特征的表示编码按照业务域进行聚类,获得多个分类,其中,每个业务域对应一个分类;
特征文本生成模块,用于基于多个分类,生成用户的特征文本。
在一实施例中,改进bert模型还包括与预训练模型连接的Transformer层,分别与Transformer层和任务层连接的LSTM层;
将拼装数据输入至改进bert模型,获得用户的风控数据,包括:
将拼装数据输入至改进bert模型的Transformer层,获得用户的风控数据。
在一实施例中,所述预训练模型包括特征文本层和嵌入层,所述嵌入包括词嵌入、分割嵌入和位置嵌入;
其中,特征文本层用于输入特征文本;
任务层反馈至预训练模型的嵌入层。
在一实施例中,任务层采用训练文档的双向掩码器中的端对端最后任务层。
在一实施例中,沉淀特征预训练模型包括:
输入接口,用于接收文本嵌入;
平铺模块,用于将json形式的特征文本转换为文本数据;
数据重构模块,用于将文本数据按照业务域进行拼装,获得拼装数据。
在一实施例中,数据重构模块具体用于:
将文本数据按照业务域进行拼装,获得每个业务域对应的数据;
将多个业务域对应的数据进行拼装,获得拼装数据。
在一实施例中,表示编码包括参数表示编码、枚举值表示编码、类型表示编码、簇分类模型表示编码中的其中一种或任意组合。
在一实施例中,所述业务域包括基础画像、网购画像、信贷画像、异常信息画像、异常通信画像、商旅信息、运营商信息、社保纳税信息、行为数据采集中的其中一种或任意组合。
综上所述,在本发明实施例提出的装置中,特征文本分析模块,用于获得风控场景中用户的风控画像,并输入至沉淀特征知识模型,获得用户的特征文本,其中,所述特征文本包括多个特征句子,每个特征句子对应一个业务域,每个特征句子包括多个特征词,每个特征词是根据用户的风控画像生成的;文本嵌入生成模块,用于将所述特征文本输入至改进bert模型的预训练模型,获得文本嵌入,所述改进bert模型包括预训练模型和任务层,其中,任务层中的预设参数用银行的风控模型的预设变量替换,且任务层反馈至预训练模型;拼装数据获得模块,用于将文本嵌入输入至沉淀特征预训练模型,获得拼装数据;风控数据获得模块,用于将拼装数据输入至改进bert模型,获得用户的风控数据。与现有技术中将数据类型作为不同的嵌入的方式,采用不同的表征方式的预训练的技术方案相比,通过同时考虑用户的风控画像和银行的风控模型的预设变量,实现了脱离特征分析用自然语言处理的方式泛化嵌入的思路,不需要进行手工的风控特征处理,这样嵌入除了风控画像的特征外,还对银行的风控模型表示的业务的效果负责,从而获得了更准确的风控数据。
本发明实施例还提供一种计算机设备,图9为本发明实施例中计算机设备的示意图,所述计算机设备900包括存储器910、处理器920及存储在存储器910上并可在处理器920上运行的计算机程序930,所述处理器920执行所述计算机程序930时实现上述基于预训练的风控分析方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述基于预训练的风控分析方法。
本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现上述基于预训练的风控分析方法。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于预训练的风控分析方法,其特征在于,包括:
获得风控场景中用户的风控画像,并输入至沉淀特征知识模型,获得用户的特征文本,其中,所述特征文本包括多个特征句子,每个特征句子对应一个业务域,每个特征句子包括多个特征词,每个特征词是根据用户的风控画像生成的;
将所述特征文本输入至改进bert模型的预训练模型,获得文本嵌入,所述改进bert模型包括预训练模型和任务层,其中,任务层中的预设参数用银行的风控模型的预设变量替换,且任务层反馈至预训练模型;
将文本嵌入输入至沉淀特征预训练模型,获得拼装数据;
将拼装数据输入至改进bert模型,获得用户的风控数据;
沉淀特征预训练模型包括:输入接口,用于接收文本嵌入;平铺模块,用于将json形式的特征文本转换为文本数据;数据重构模块,用于将文本数据按照业务域进行拼装,获得拼装数据;
数据重构模块具体用于:将文本数据按照业务域进行拼装,获得每个业务域对应的数据;将多个业务域对应的数据进行拼装,获得拼装数据。
2.如权利要求1所述的方法,其特征在于,沉淀特征知识模型包括:
接口字典,用于基于输入的风控场景中用户的风控画像,获得用户的特征;
编码模块,对所有的特征进行编码,获得所有特征的表示编码;
语义聚类管理模块,用于将所有特征的表示编码按照业务域进行聚类,获得多个分类,其中,每个业务域对应一个分类;
特征文本生成模块,用于基于多个分类,生成用户的特征文本。
3.如权利要求1所述的方法,其特征在于,改进bert模型还包括与预训练模型连接的Transformer层,分别与Transformer层和任务层连接的LSTM层;
将拼装数据输入至改进bert模型,获得用户的风控数据,包括:
将拼装数据输入至改进bert模型的Transformer层,获得用户的风控数据。
4.如权利要求1所述的方法,其特征在于,所述预训练模型包括特征文本层和嵌入层,所述嵌入包括词嵌入、分割嵌入和位置嵌入;
其中,特征文本层用于输入特征文本;
任务层反馈至预训练模型的嵌入层。
5.如权利要求1所述的方法,其特征在于,任务层采用训练文档的双向掩码器中的端对端最后任务层。
6.如权利要求1所述的方法,其特征在于,表示编码包括参数表示编码、枚举值表示编码、类型表示编码、簇分类模型表示编码中的其中一种或任意组合。
7.如权利要求1所述的方法,其特征在于,所述业务域包括基础画像、网购画像、信贷画像、异常信息画像、异常通信画像、商旅信息、运营商信息、社保纳税信息、行为数据采集中的其中一种或任意组合。
8.一种基于预训练的风控分析装置,其特征在于,包括:
特征文本分析模块,用于获得风控场景中用户的风控画像,并输入至沉淀特征知识模型,获得用户的特征文本,其中,所述特征文本包括多个特征句子,每个特征句子对应一个业务域,每个特征句子包括多个特征词,每个特征词是根据用户的风控画像生成的;
文本嵌入生成模块,用于将所述特征文本输入至改进bert模型的预训练模型,获得文本嵌入,所述改进bert模型包括预训练模型和任务层,其中,任务层中的预设参数用银行的风控模型的预设变量替换,且任务层反馈至预训练模型;
拼装数据获得模块,用于将文本嵌入输入至沉淀特征预训练模型,获得拼装数据;
风控数据获得模块,用于将拼装数据输入至改进bert模型,获得用户的风控数据;
沉淀特征预训练模型包括:输入接口,用于接收文本嵌入;平铺模块,用于将json形式的特征文本转换为文本数据;数据重构模块,用于将文本数据按照业务域进行拼装,获得拼装数据;
数据重构模块具体用于:将文本数据按照业务域进行拼装,获得每个业务域对应的数据;将多个业务域对应的数据进行拼装,获得拼装数据。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一所述方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至7任一所述方法。
CN202310387341.8A 2023-04-12 2023-04-12 基于预训练的风控分析方法及装置 Active CN116108145B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310387341.8A CN116108145B (zh) 2023-04-12 2023-04-12 基于预训练的风控分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310387341.8A CN116108145B (zh) 2023-04-12 2023-04-12 基于预训练的风控分析方法及装置

Publications (2)

Publication Number Publication Date
CN116108145A CN116108145A (zh) 2023-05-12
CN116108145B true CN116108145B (zh) 2023-07-21

Family

ID=86265851

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310387341.8A Active CN116108145B (zh) 2023-04-12 2023-04-12 基于预训练的风控分析方法及装置

Country Status (1)

Country Link
CN (1) CN116108145B (zh)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113011884B (zh) * 2021-01-29 2023-08-04 腾讯科技(深圳)有限公司 账户特征的提取方法、装置、设备及可读存储介质
CN113609851A (zh) * 2021-07-09 2021-11-05 浙江连信科技有限公司 心理学上想法认知偏差的识别方法、装置及电子设备
US20230074189A1 (en) * 2021-08-19 2023-03-09 Fmr Llc Methods and systems for intelligent text classification with limited or no training data
CN113946678A (zh) * 2021-09-26 2022-01-18 广州市伟时信息系统技术有限公司 一种政府采购品目层次分类模型的构建方法
CN113780479A (zh) * 2021-10-29 2021-12-10 北京沃东天骏信息技术有限公司 周期预测模型的训练方法及装置、周期预测方法、设备
CN114047929B (zh) * 2022-01-12 2022-05-03 广东省科技基础条件平台中心 基于知识增强的用户定义函数识别方法、装置及介质
CN114566141A (zh) * 2022-03-03 2022-05-31 上海科技大学 基于变分自动编码器的跨语句语音合成方法、系统及设备

Also Published As

Publication number Publication date
CN116108145A (zh) 2023-05-12

Similar Documents

Publication Publication Date Title
CN111859960B (zh) 基于知识蒸馏的语义匹配方法、装置、计算机设备和介质
EP3935573A1 (en) Leveraging language models for generating commonsense explanations
CN110598191B (zh) 一种基于神经网络的复杂pdf结构解析方法及装置
EP4111375A1 (en) Automated content tagging with latent dirichlet allocation of contextual word embeddings
CN112784580A (zh) 基于事件抽取的金融数据分析方法及装置
CN112860901A (zh) 一种融合情感词典的情感分析方法及装置
CN112232070A (zh) 自然语言处理模型构建方法、系统、电子设备及存储介质
CN111241843B (zh) 基于复合神经网络的语义关系推断系统和方法
Guo et al. Steganographic visual story with mutual-perceived joint attention
CN115099233A (zh) 一种语义解析模型的构建方法、装置、电子设备及存储介质
CN113032001B (zh) 一种智能合约分类方法及装置
CN111523301B (zh) 合同文档合规性检查方法及装置
CN113609866A (zh) 文本标记方法、装置、设备及存储介质
CN111444328B (zh) 一种带有解释生成的自然语言自动预测推断方法
CN116108145B (zh) 基于预训练的风控分析方法及装置
CN112232052A (zh) 文本拼接方法、装置、计算机设备及存储介质
CN116702765A (zh) 一种事件抽取方法、装置及电子设备
CN111723186A (zh) 用于对话系统的基于人工智能的知识图谱生成方法、电子设备
CN116561298A (zh) 基于人工智能的标题生成方法、装置、设备及存储介质
CN116702770A (zh) 长文本的生成方法、装置、终端及存储介质
Popattia et al. Guiding attention using partial-order relationships for image captioning
CN112528674B (zh) 文本处理方法、模型的训练方法、装置、设备及存储介质
CN114547391A (zh) 消息审核方法及装置
CN114881012A (zh) 基于自然语言处理的文章标题及内容的智能改写系统及方法
CN114610576A (zh) 一种日志生成监控方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant