CN116205664A - 一种中介欺诈识别方法、装置、电子设备及存储介质 - Google Patents
一种中介欺诈识别方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116205664A CN116205664A CN202310474441.4A CN202310474441A CN116205664A CN 116205664 A CN116205664 A CN 116205664A CN 202310474441 A CN202310474441 A CN 202310474441A CN 116205664 A CN116205664 A CN 116205664A
- Authority
- CN
- China
- Prior art keywords
- fraud
- model
- sub
- training
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/018—Certifying business or products
- G06Q30/0185—Product, service or business identity fraud
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Health & Medical Sciences (AREA)
- Entrepreneurship & Innovation (AREA)
- Artificial Intelligence (AREA)
- Marketing (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Collating Specific Patterns (AREA)
Abstract
本申请提供一种中介欺诈识别方法、装置、电子设备及存储介质,其中中介欺诈识别方法包括:采用第一模型在待识别用户的多模态数据中提取所述待识别用户的第一欺诈特征;对所述第一欺诈特征进行筛选,获取第二欺诈特征;采用第二模型,根据所述第二欺诈特征获取所述待识别用户的中介欺诈识别结果。采用第一模型在待识别用户的多模态数据中提取待识别用户的第一欺诈特征,所提取的第一欺诈特征能够更全面的表征待识别用户的欺诈画像,采用经过筛选后的第二欺诈特征进行中介欺诈识别能够有效提高中介欺诈识别的准确率。
Description
技术领域
本申请涉及数据处理技术领域,具体而言,涉及一种中介欺诈识别方法、装置、电子设备及存储介质。
背景技术
中介欺诈是指在例如零售信贷等信贷领域的贷款申请、审批和还款等过程中,通过欺骗、虚假信息或其他手段来获取本不应该被提供的信贷或信贷优惠的行为。由于中介欺诈行为可能会对信贷提供机构造成巨大损失,并对客户产生不良影响,因此需要采用中介欺诈行为识别方法来识别中介欺诈行为,以便信贷提供机构能够及时对中介欺诈行为进行处理。
目前,相关技术中的中介欺诈识别方法仅采用一种类型的用户数据进行中介欺诈识别,这种识别方式没有充分利用多样性的用户数据,导致中介欺诈识别的准确率较低。
发明内容
本申请实施例的目的在于提供一种中介欺诈识别方法、装置、电子设备及存储介质,用以改善中介欺诈的识别准确率。
第一方面,本申请实施例提供一种中介欺诈识别方法,包括:采用第一模型在待识别用户的多模态数据中提取所述待识别用户的第一欺诈特征;对所述第一欺诈特征进行筛选,获取第二欺诈特征;采用第二模型,根据所述第二欺诈特征获取所述待识别用户的中介欺诈识别结果。
在上述方案的实现过程中,采用第一模型在待识别用户的多模态数据中提取待识别用户的第一欺诈特征,所提取的第一欺诈特征能够更全面的表征待识别用户的欺诈画像,采用经过筛选后的第二欺诈特征进行中介欺诈识别能够有效提高中介欺诈识别的准确率。
在第一方面的一种实现方式中,还包括:采用训练数据、第一预设标签以及预测头,训练所述第一模型;采用训练好的所述第一模型,提取所述训练数据的第一训练特征;对第一训练特征进行筛选,获取第二训练特征;采用第二训练特征和第二预设标签训练所述第二模型。
在上述方案的实现过程中,通过对第一模型和第二模型分开训练的训练方式,使得第一模型更加专注于在待识别用户的多模态数据中提取第一欺诈特征,使得所提取出的欺诈特征能够更全面地表征待识别用户的各类行为和场景,提高了上述中介欺诈识别方法的欺诈识别准确率。
在第一方面的一种实现方式中,所述采用第一模型在待识别用户的多模态数据中提取所述待识别用户的第一欺诈特征,包括:
采用第一模型的第一子模型,在待识别用户的图像类型数据中提取第一欺诈特征的第一欺诈子特征;和/或,采用第一模型的第二子模型,在待识别用户的文本类型数据中提取第一欺诈特征的第二欺诈子特征;和/或,采用第一模型的第三子模型,在待识别用户的序列类型数据中提取第一欺诈特征的第三欺诈子特征;和/或,采用第一模型的第四子模型,在待识别用户的信号类型数据中提取第一欺诈特征的第四欺诈子特征。
在上述方案的实现过程中,设置第一子模型、第二子模型、第三子模型和第四子模型分别提取图像类型数据、文本类型数据、序列类型数据和信号类型数据的欺诈特征,使得可以选用不同类型的四个子模型来分别处理对应类型的数据,可以更加提取更加全面的欺诈特征,有效提高了上述中介欺诈识别方法的欺诈识别准确率。
在第一方面的一种实现方式中,其中,所述第一子模型为基于卷积神经网络CNN所构建的图像特征提取模型;所述第二子模型为基于预训练BERT模型或预训练ERNIE所构建的文本特征提取模型;所述第三子模型为基于长短期记忆网络LSTM所构建的序列特征提取模型;所述第四子模型为基于Transformer网络所构建的信号特征提取模型。
在上述方案的实现过程中,针对不同模态的数据采用不通过的特征提取模型来提取对应模态数据的欺诈特征,使得第一模型所提取的欺诈特征更加全面,有效提高了上述中介欺诈识别方法的欺诈识别准确率。
在第一方面的一种实现方式中,所述采用第一模型在待识别用户的多模态数据中提取所述待识别用户的第一欺诈特征,还包括:基于预设映射规则,在待识别用户的结构化数据中提取第一欺诈特征的第五欺诈子特征。
在上述方案的实现过程中,通过对结构化数据提取第五欺诈子特征,使得第一欺诈特征更加全面,进而提高了上述中介欺诈识别方法的欺诈识别准确率;同时,由于第五欺诈子特征具有可解释性,使得上述中介欺诈识别方法也具有一定程度的可解释性。
在第一方面的一种实现方式中,还包括:采用训练数据的第一子训练数据,训练第一模型的第一子模型;和/或,采用训练数据的第二子训练数据,训练第一模型的第二子模型;和/或,采用训练数据的第三子训练数据,训练第一模型的第三子模型;和/或,采用训练数据的第四子训练数据,训练第一模型的第四子模型。
在上述方案的实现过程中,第一子模型、第二子模型、第三子模型和第四子模型可以独立训练,以使各个子模型能够适用于不同模态的数据,使得第一模型所提取的欺诈特征更加全面,有效提高了上述中介欺诈识别方法的欺诈识别准确率。
在第一方面的一种实现方式中,所述对第一欺诈特征进行筛选,获取第二欺诈特征,包括:采用预设的过滤式筛选规则或者预设的包裹式筛选规则,对第一欺诈特征进行筛选,获取第二欺诈特征。
在上述方案的实现过程中,可以通过预设的过滤式筛选规则或者包裹式筛选规则来对第一欺诈特征进行筛选,从而降低欺诈特征的复杂程度,所筛选出的第二欺诈特征能够更精确的表征待识别用户的相关欺诈行为,第二模型采用筛选后的第二欺诈特征进行中介欺诈识别能够获得更加准确的中介欺诈识别结果,进而提高了上述中介欺诈识别方法的欺诈识别准确率。
第三方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令被处理器读取并运行时,执行第一方面或第一方面的任意一种可能的实现方式提供的方法。
第四方面,本申请实施例提供一种电子设备,包括:处理器、存储器和通信总线,其中所述处理器和所述存储器通过所述通信总线完成相互间的通信;所述存储器中存储有可被所述处理器执行的计算机程序指令,所述计算机程序指令被所述处理器读取并运行时,执行第一方面或第一方面的任意一种可能的实现方式提供的方法。
本申请的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的中介欺诈识别方法的流程示意图;
图2为本申请实施例提供的中介欺诈识别装置的结构示意图;
图3为本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。以下实施例仅用于更加清楚地说明本申请的技术方案,因此只作为示例,而不能以此来限制本申请的保护范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。
在本申请实施例的描述中,技术术语“第一”“第二”等仅用于区别不同对象,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量、特定顺序或主次关系。在本申请实施例的描述中,“多个”的含义是两个以上,除非另有明确具体的限定。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
在本申请实施例的描述中,术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
目前,常用的中介欺诈行为识别方法包括:
(1)人工审核:该方法是指通过人工审核客户信贷申请材料,以发现可疑的中介欺诈行为;
(2)数据分析:该方法是指通过对客户的信贷数据进行分析,以发现可疑的中介欺诈行为;
(3)基于机器学习的识别方法:该方法是指通过机器学习算法对客户的信贷数据进行分析,以发现可疑的中介欺诈行为。
发明人经过研究发现,相关技术中所采用的基于机器学习的中介欺诈识别方法一般采用一个机器学习模型来提取用户信贷数据的欺诈特征,然后采用所提取的欺诈特征进行中介欺诈识别,由于用户信贷数据的多样性,上述中介欺诈识别方式很难充分利用用户信贷数据的多样性,从而实现对中介欺诈的精准识别。
基于此,本申请实施例提供一种中介欺诈识别方法,该方法采用第一模型在用户的多模态数据中提取欺诈特征,然后采用第二模型对所提取出的欺诈特征进行识别,从而获得待识别用户的中介欺诈识别结果。该方法充分利用了用户的多模态数据,大大提高了中介欺诈识别准确率。
下面详细介绍上述中介欺诈识别方法:
请参见图1,本申请实施例提供一种中介欺诈识别方法,包括:
步骤S110:采用第一模型在待识别用户的多模态数据中提取所述待识别用户的第一欺诈特征;
步骤S120:对第一欺诈特征进行筛选,获取第二欺诈特征;
步骤S130:采用第二模型,根据第二欺诈特征获取所述待识别用户的中介欺诈识别结果。
可以理解的是,上述多模态数据是指:具有不同存在形式或信息来源的数据可以成为不同模态的数据,由两种或两种以上模态组成的数据可以成为多模态数据。
另外,可以理解的是,上述第一欺诈特征和第二欺诈特征并不代表欺诈特征的数量,第一欺诈特征和第二欺诈特征均可以包含若干个欺诈特征。
需要指出的是,上述第一模型和第二模型均为机器学习模型,其中,第一模型能够实现第一欺诈特征的提取即可,第二模型能够实现根据第二欺诈特征获取中介欺诈识别结果即可。
在上述方案的实现过程中,采用第一模型在待识别用户的多模态数据中提取待识别用户的第一欺诈特征,所提取的第一欺诈特征能够更全面的表征待识别用户的欺诈画像,采用经过筛选后的第二欺诈特征进行中介欺诈识别能够有效提高中介欺诈识别的准确率。
作为上述中介欺诈识别方法的一种可选实施方式,上述中介欺诈识别方法还包括:采用训练数据、第一预设标签以及预测头,训练所述第一模型;采用训练好的所述第一模型,提取所述训练数据的第一训练特征;对第一训练特征进行筛选,获取第二训练特征;采用第二训练特征和第二预设标签训练所述第二模型。
可以理解的是,机器学习模型可以包括编码器和预测头两个部分,其中编码器部分用于提取输入数据的特征,预测头部分用于对编码器所提取的特征进行分类,并输出所识别出的类别,其中类别由预设标签确定。上述第一模型对应机器学习模型的编码器部分,因此需要配合预测头来对第一模型进行训练。
另外,可以理解的是,上述第一预设标签和第二预设标签可以为相同的标签,也可以为不同的标签,即可以采用相同的标签来训练第一模型和第二模型,也可以采用不同的第一预设标签和第二预设标签分别训练第一模型和第二模型。其中,采用不同的第一预设标签和第二预设标签分别训练第一模型和第二模型的应用场景包括:在出现新型中介欺诈时,若新型中介欺诈所对应的欺诈特征可以直接采用第一预设标签训练好的第一模型进行提取,则可以继续使用采用第一预设标签训练好的第一模型提取待识别用户的第一欺诈特征,但需要采用添加有新型中介欺诈标签的第二预设标签训练第二模型,以使得第二模型可以识别出新型中介欺诈。
上述多模态数据可以包括:
(1)图像类型数据:例如信贷申请过程中的活体认证视频数据以及身份证图像数据;
(2)文本类型数据:例如用户在信贷申请过程中所填写的文本,以及通过光学字符识别OCR技术所识别出的文本,其中使用OCR技术所识别出的文本可以包括对用户在信贷申请过程中所填写的纸质文件进行OCR识别从而提取出的关键信息,以及对用户身份证图像进行OCR识别所提取的用户身份信息等;
(3)序列类型数据:例如整个信贷周期中预定义的各类事件以及设备触控行为,预定义事件如注册、活体认证等,序列类型数据记录包括发生时间、发生地点等事件信息,以及触控行为信息;
(4)信号类型数据:例如声音信号数据和运动传感器信号数据。
可以理解的是,在使用第一模型提取多模态数据的第一欺诈特征之前,还包括:对多模态数据进行预处理。
对多模态数据的预处理包括:
(1)对于图像类型数据中的身份证图像数据,使用光学字符识别OCR技术对图像中的文字进行识别提取,生成文本数据;
(2)对于序列类型数据中的事件信息,计算每个事件对于前一个事件发生时间的时间间隔以及空间位移,并将时间间隔信息和空间位移信息作为序列类型数据的衍生信息,然后衍生信息拼接到事件信息中,已生成表示该事件的向量,然后将事件向量按照时间顺序堆叠,生成事件向量序列;
(3)针对信号类型数据中的传感器信号数据,由于信号数据通常为一维或三维的等频采样的时间域数据,因此可以通过傅里叶变换或小波变换,获得对应的频率域序列。
作为上述中介欺诈识别方法的一种可选实施方式,步骤S110采用第一模型在待识别用户的多模态数据中提取所述待识别用户的第一欺诈特征,包括:
采用第一模型的第一子模型,在待识别用户的图像类型数据中提取第一欺诈特征的第一欺诈子特征;
和/或,采用第一模型的第二子模型,在待识别用户的文本类型数据中提取第一欺诈特征的第二欺诈子特征;
和/或,采用第一模型的第三子模型,在待识别用户的序列类型数据中提取第一欺诈特征的第三欺诈子特征;
和/或,采用第一模型的第四子模型,在待识别用户的信号类型数据中提取第一欺诈特征的第四欺诈子特征。
作为上述中介欺诈识别方法的一种可选实施方式,所述第一子模型为基于卷积神经网络CNN所构建的图像特征提取模型;所述第二子模型为基于预训练BERT模型或预训练ERNIE所构建的文本特征提取模型;所述第三子模型为基于长短期记忆网络LSTM所构建的序列特征提取模型;所述第四子模型为基于Transformer网络所构建的信号特征提取模型。
可以理解的是,上述图像特征提取模型、文本特征提取模型、序列特征提取模型和信号特征提取模型均为编码器,模型的输出均为欺诈特征的特征向量。
作为上述中介欺诈识别方法的一种可选实施方式,上述中介欺诈识别方法还包括:
采用训练数据的第一子训练数据,训练第一模型的第一子模型;
和/或,采用训练数据的第二子训练数据,训练第一模型的第二子模型;
和/或,采用训练数据的第三子训练数据,训练第一模型的第三子模型;
和/或,采用训练数据的第四子训练数据,训练第一模型的第四子模型。
可以理解的是,第一子模型、第二子模型、第三子模型和第四子模型均为编码器,因此需要配合预测头来对第一子模型、第二子模型、第三子模型和第四子模型进行训练。
需要指出的是,上述图像类型数据、文本类型数据、序列类型数据和信号类型数据均为非结构化数据,本申请实施例所获取的待识别用户的多模态数据还可以包括用户个人信息、设备信息等结构化数据。
作为上述中介欺诈识别方法的一种可选实施方式,步骤S110采用第一模型在待识别用户的多模态数据中提取所述待识别用户的第一欺诈特征,还包括:基于预设映射规则,在待识别用户的结构化数据中提取第一欺诈特征的第五欺诈子特征。
上述预设映射规则可以包括:基于业务经验所生成的映射规则,例如将学历信息映射为学历类别,将通过OCR技术所识别出的用户身份信息映射为省级行政单位平均可支配收入,将用户填写信息中的职业映射为职业类别等。
可以理解的是,基于预设映射规则所提取的第五欺诈子特征具有可解释性。
作为上述中介欺诈识别方法的一种可选实施方式,步骤S120对第一欺诈特征进行筛选,获取第二欺诈特征,包括:采用预设的过滤式筛选规则或者预设的包裹式筛选规则,对第一欺诈特征进行筛选,获取第二欺诈特征。
其中,过滤式筛选规则是指:基于预定义的筛选标准来筛选特征,筛选标准例如基于特征与目标变量的相关性,或者特征的信息增益;
包裹式筛选规则是指:基于特征有利于模型性能的程度来筛选特征,例如使用递归特征消除算法来迭代消除不重要的特征,保留较为重要的特征。
下面提供一种上述中介欺诈识别方法在零售信贷场景下的具体应用方法:
步骤一:数据采集;
在用户使用手持可触控智能设备中的信贷产品客户端软件进行贷款申请时,客户端会在用户授权后,采集设备中的各类数据。设备可采集运动传感器的记录,包括加速规和陀螺仪,这类数据为信号类型数据;同时可采集用户的触控操作记录,该数据为序列类型数据。在信贷申请流程中,有活体认证环节,客户端可采集活体认证的视频,该类数据为图像类型数据。申请过程中,用户须现场拍摄身份证,包括头像面与国徽面,客户端可采集实时拍摄的照片,该数据为图像类型数据。在整个申请流程中,记录每个事件的信息,这些事件包括注册,活体认证,申请等,记录的信息包括事件发生的时间和地点。客户端也采集自身运行的设备的属性信息和用户填写的个人基本信息。除客户端直接采集的数据以外,还会利用第三方数据,如用户的信用历史信息等。
步骤二:数据预处理;
对于身份证照片,使用光学字符识别(OCR)技术对照片上的文字进行识别提取,生成文本类型数据。对于申请流程的事件,计算每个事件对于前一个事件的时间间隔和空间位移,作为事件的衍生属性,然后将事件的属性和衍生属性拼接,生成表示这个事件的向量,然后将事件向量按照时间顺序堆叠,形成事件向量序列。对于运动传感器记录的时间信号,进行傅里叶变换或小波变换,生成频谱,其中小波变换可以使用 Ricker 小波。
步骤三:特征衍生;
这一步主要是将原始数据进行基于规则的映射,得到衍生的特征。使用用户填写的信息,身份证照片通过OCR技术生成的文字,和设备属性等信息,基于业务经验生成的规则,将这些信息映射成类别型或数值标量型特征。例如,将学历信息映射成学历类别,将身份证文字数据映射成省级行政单位平均可支配收入等。然后将衍生的特征加入特征池。这些特征是基于规则产生的,具有可解释性。
步骤四:设计用于训练模型的标签;
根据业务经验和理解,为每个样本增加是否为疑似涉及中介代办欺诈的二分类标签。
步骤五:进行模型训练;
第一步,训练第一模型:对于每一类高维度数据,建立适合这类数据的模型结构,结合设计的标签,进行深度学习的训练。机器学习模型的结构分为编码器和预测头,数据输入编码器,输出特征向量,然后进入预测头,输出预测值。训练的方式有三种:第一种,使用每一类高维数据独立训练其对应的特征提取模型,但使用相同的标签;第二种,使用每一类高维度数据独立训练其对应的特征提取,且使用不同的标签;第三种,使用所有计划入模的高维数据,将它们对应的特征提取模型集成在一起,选取一种标签,进行多模态数据的训练。
第二步,使用训练完成的特征提取模型提取特征。然后使用新的训练集,将其中的高维数据输入特征提取模型,进行推理,得到特征向量。
第三步,将特征向量加入特征池,与步骤三得到的基于规则衍生的特征共同形成一个混合特征池。
第四步,特征筛选:特征筛选可使用以下两种方法:过滤式方法:过滤式方法基于某些预定义的标准来筛选特征,如基于单独特征与目标变量的相关性或单独特征的信息增益来筛选特征;包裹式方法:包裹式方法基于模型性能来筛选特征,如使用递归特征消除算法来迭代地消除不重要的特征。
第五步,训练第二模型:将第四步筛选出的特征作为输入数据,结合设计好的标签,训练第二模型。第二模型的训练标签和第一模型的训练标签可以相同,也可以不同,根据业务需求和模型设计而定。
步骤六:将训练完成的模型进行回溯测试,根据测试结果制定策略规则,嵌入反欺诈策略体系中。
请参见图2,基于同一发明构思,本申请实施例中还提供一种中介欺诈识别装置200,包括:
第一欺诈特征提取模块210,用于采用第一模型在待识别用户的多模态数据中提取所述待识别用户的第一欺诈特征;
特征筛选模块220,用于对第一欺诈特征进行筛选,获取第二欺诈特征;
欺诈识别模块230,用于采用第二模型,根据第二欺诈特征获取所述待识别用户的中介欺诈识别结果。
作为上述中介欺诈识别装置的一种可选实施方式,中介欺诈识别装置200还包括:
第一模型训练模块,用于采用训练数据、第一预设标签以及预测头,训练所述第一模型;
第一训练特征提取模块,用于采用训练好的所述第一模型,提取所述训练数据的第一训练特征;
训练特征筛选模块,用于对第一训练特征进行筛选,获取第二训练特征;
第二模型训练模块,用于采用第二训练特征和第二预设标签训练所述第二模型。
作为上述中介欺诈识别装置的一种可选实施方式,第一欺诈特征提取模块210包括:
第一欺诈子特征提取单元,用于采用第一模型的第一子模型,在待识别用户的图像类型数据中提取第一欺诈特征的第一欺诈子特征;
和/或,第二欺诈子特征提取单元,用于采用第一模型的第二子模型,在待识别用户的文本类型数据中提取第一欺诈特征的第二欺诈子特征;
和/或,第三欺诈子特征提取单元,用于采用第一模型的第三子模型,在待识别用户的序列类型数据中提取第一欺诈特征的第三欺诈子特征;
和/或,第四欺诈子特征提取单元,用于采用第一模型的第四子模型,在待识别用户的信号类型数据中提取第一欺诈特征的第四欺诈子特征。
作为上述中介欺诈识别装置的一种可选实施方式,上述第一欺诈子特征提取单元所采用的第一子模型为基于卷积神经网络CNN所构建的图像特征提取模型;
上述第二欺诈子特征提取单元所采用的第二子模型为基于预训练BERT模型或预训练ERNIE所构建的文本特征提取模型;
上述第三欺诈子特征提取单元所采用的第三子模型为基于长短期记忆网络LSTM所构建的序列特征提取模型;
上述第四欺诈子特征提取单元所采用的第四子模型为基于Transformer网络所构建的信号特征提取模型。
作为上述中介欺诈识别装置的一种可选实施方式,第一欺诈特征提取模块210还包括:
第五欺诈子特征提取单元,用于基于预设映射规则,在待识别用户的结构化数据中提取第一欺诈特征的第五欺诈子特征。
作为上述中介欺诈识别装置的一种可选实施方式,第一模型训练模块包括:
第一子模型训练单元,用于采用训练数据的第一子训练数据,训练第一模型的第一子模型;
第二子模型训练单元,用于采用训练数据的第二子训练数据,训练第一模型的第二子模型;
第三子模型训练单元,用于采用训练数据的第三子训练数据,训练第一模型的第三子模型;
第四子模型训练单元,用于采用训练数据的第四子训练数据,训练第一模型的第四子模型。
作为上述中介欺诈识别装置的一种可选实施方式,特征筛选模块220具体用于:采用预设的过滤式筛选规则或者预设的包裹式筛选规则,对第一欺诈特征进行筛选,获取第二欺诈特征。
图3为本申请实施例提供的一种电子设备的示意图。参照图3,电子设备300包括:处理器310、存储器320以及通信接口330,这些组件通过通信总线340和/或其他形式的连接机构(未示出)互连并相互通讯。
其中,存储器320包括一个或多个(图中仅示出一个),其可以是,但不限于,随机存取存储器(RandomAccessMemory,简称RAM),只读存储器(Read Only Memory,简称ROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,简称EEPROM)等。处理器310以及其他可能的组件可对存储器320进行访问,读和/或写其中的数据。
处理器310包括一个或多个(图中仅示出一个),其可以是一种集成电路芯片,具有信号的处理能力。上述的处理器310可以是通用处理器,包括中央处理器(CentralProcessingUnit,简称CPU)、微控制单元(Micro Controller Unit,简称MCU)、网络处理器(NetworkProcessor,简称NP)或者其他常规处理器;还可以是专用处理器,包括数字信号处理器(DigitalSignalProcessor,简称DSP)、专用集成电路(ApplicationSpecific Integrated Circuits,简称ASIC)、现场可编程门阵列(Field ProgrammableGate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
通信接口330包括一个或多个(图中仅示出一个),可以用于和其他设备进行直接或间接地通信,以便进行数据的交互。例如,通信接口330可以是以太网接口;可以是移动通信网络接口,例如3G、4G、5G网络的接口;还是可以是具有数据收发功能的其他类型的接口。
在存储器320中可以存储一个或多个计算机程序指令,处理器310可以读取并运行这些计算机程序指令,以实现本申请实施例提供的中介欺诈识别方法以及其他期望的功能。
可以理解,图3所示的结构仅为示意,电子设备300还可以包括比图3中所示更多或者更少的组件,或者具有与图3所示不同的配置。图3中所示的各组件可以采用硬件、软件或其组合实现。例如,电子设备300可以是单台服务器(或其他具有运算处理能力的设备)、多台服务器的组合、大量服务器的集群等,并且,既可以是物理设备也可以是虚拟设备。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令被计算机的处理器读取并运行时,执行本申请实施例提供的中介欺诈识别方法。例如,计算机可读存储介质可以实现为图3中电子设备300中的存储器320。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
再者,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种中介欺诈识别方法,其特征在于,包括:
采用第一模型在待识别用户的多模态数据中提取所述待识别用户的第一欺诈特征;
对所述第一欺诈特征进行筛选,获取第二欺诈特征;
采用第二模型,根据所述第二欺诈特征获取所述待识别用户的中介欺诈识别结果。
2.根据权利要求1所述的中介欺诈识别方法,其特征在于,还包括:
采用训练数据、第一预设标签以及预测头,训练所述第一模型;
采用训练好的所述第一模型,提取所述训练数据的第一训练特征;
对第一训练特征进行筛选,获取第二训练特征;
采用第二训练特征和第二预设标签训练所述第二模型。
3.根据权利要求1所述的中介欺诈识别方法,其特征在于,所述采用第一模型在待识别用户的多模态数据中提取所述待识别用户的第一欺诈特征,包括:
采用第一模型的第一子模型,在待识别用户的图像类型数据中提取第一欺诈特征的第一欺诈子特征;
和/或,采用第一模型的第二子模型,在待识别用户的文本类型数据中提取第一欺诈特征的第二欺诈子特征;
和/或,采用第一模型的第三子模型,在待识别用户的序列类型数据中提取第一欺诈特征的第三欺诈子特征;
和/或,采用第一模型的第四子模型,在待识别用户的信号类型数据中提取第一欺诈特征的第四欺诈子特征。
4.根据权利要求3所述的中介欺诈识别方法,其特征在于,其中,所述第一子模型为基于卷积神经网络CNN所构建的图像特征提取模型;
所述第二子模型为基于预训练BERT模型或预训练ERNIE所构建的文本特征提取模型;
所述第三子模型为基于长短期记忆网络LSTM所构建的序列特征提取模型;
所述第四子模型为基于Transformer网络所构建的信号特征提取模型。
5.根据权利要求3所述的中介欺诈识别方法,其特征在于,所述采用第一模型在待识别用户的多模态数据中提取所述待识别用户的第一欺诈特征,还包括:
基于预设映射规则,在待识别用户的结构化数据中提取第一欺诈特征的第五欺诈子特征。
6.根据权利要求3所述的中介欺诈识别方法,其特征在于,还包括:
采用训练数据的第一子训练数据,训练第一模型的第一子模型;
和/或,采用训练数据的第二子训练数据,训练第一模型的第二子模型;
和/或,采用训练数据的第三子训练数据,训练第一模型的第三子模型;
和/或,采用训练数据的第四子训练数据,训练第一模型的第四子模型。
7.根据权利要求1~6中任一项所述的中介欺诈识别方法,其特征在于,所述对所述第一欺诈特征进行筛选,获取第二欺诈特征,包括:
采用预设的过滤式筛选规则或者预设的包裹式筛选规则,对第一欺诈特征进行筛选,获取第二欺诈特征。
8.一种中介欺诈识别装置,其特征在于,包括:
第一欺诈特征提取模块,用于采用第一模型在待识别用户的多模态数据中提取所述待识别用户的第一欺诈特征;
特征筛选模块,用于对第一欺诈特征进行筛选,获取第二欺诈特征;
欺诈识别模块,用于采用第二模型,根据第二欺诈特征获取所述待识别用户的中介欺诈识别结果。
9.一种电子设备,其特征在于,包括:处理器、存储器和通信总线,其中,所述处理器和所述存储器通过所述通信总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1~7中任一项所述的方法。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令被计算机运行时,使所述计算机执行如权利要求1~7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310474441.4A CN116205664A (zh) | 2023-04-28 | 2023-04-28 | 一种中介欺诈识别方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310474441.4A CN116205664A (zh) | 2023-04-28 | 2023-04-28 | 一种中介欺诈识别方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116205664A true CN116205664A (zh) | 2023-06-02 |
Family
ID=86509748
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310474441.4A Pending CN116205664A (zh) | 2023-04-28 | 2023-04-28 | 一种中介欺诈识别方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116205664A (zh) |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110969441A (zh) * | 2019-12-23 | 2020-04-07 | 集奥聚合(北京)人工智能科技有限公司 | 基于深度学习的反欺诈模型处理方法及装置 |
CN111127185A (zh) * | 2019-11-25 | 2020-05-08 | 北京明略软件系统有限公司 | 信贷欺诈识别模型构建方法及装置 |
CN112101045A (zh) * | 2020-11-02 | 2020-12-18 | 北京淇瑀信息科技有限公司 | 一种多模态语义完整性识别方法、装置及电子设备 |
CN112328999A (zh) * | 2021-01-05 | 2021-02-05 | 北京远鉴信息技术有限公司 | 双录质检方法、装置、服务器及存储介质 |
CN112348519A (zh) * | 2020-10-21 | 2021-02-09 | 上海淇玥信息技术有限公司 | 一种欺诈用户识别方法、装置和电子设备 |
CN113630495A (zh) * | 2020-05-07 | 2021-11-09 | 中国电信股份有限公司 | 涉诈订单预测模型训练方法和装置,订单预测方法和装置 |
CN114218488A (zh) * | 2021-12-16 | 2022-03-22 | 中国建设银行股份有限公司 | 基于多模态特征融合的信息推荐方法、装置及处理器 |
CN114328679A (zh) * | 2021-10-22 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、计算机设备以及存储介质 |
CN114707420A (zh) * | 2022-04-24 | 2022-07-05 | 深圳微言科技有限责任公司 | 一种信贷欺诈行为识别方法、装置、设备及存储介质 |
CN114782161A (zh) * | 2022-03-31 | 2022-07-22 | 度小满科技(北京)有限公司 | 识别风险用户的方法、装置、存储介质及电子装置 |
CN115099339A (zh) * | 2022-06-23 | 2022-09-23 | 未鲲(上海)科技服务有限公司 | 欺诈行为识别方法、装置、电子设备及存储介质 |
CN115270984A (zh) * | 2022-08-08 | 2022-11-01 | 中国农业银行股份有限公司 | 一种反欺诈模型构建方法、装置、电子设备及存储介质 |
CN115601042A (zh) * | 2022-10-26 | 2023-01-13 | 中国农业银行股份有限公司(Cn) | 信息识别方法、装置、电子设备及存储介质 |
CN115909374A (zh) * | 2021-09-30 | 2023-04-04 | 腾讯科技(深圳)有限公司 | 一种信息识别方法、装置、设备及存储介质、程序产品 |
-
2023
- 2023-04-28 CN CN202310474441.4A patent/CN116205664A/zh active Pending
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111127185A (zh) * | 2019-11-25 | 2020-05-08 | 北京明略软件系统有限公司 | 信贷欺诈识别模型构建方法及装置 |
CN110969441A (zh) * | 2019-12-23 | 2020-04-07 | 集奥聚合(北京)人工智能科技有限公司 | 基于深度学习的反欺诈模型处理方法及装置 |
CN113630495A (zh) * | 2020-05-07 | 2021-11-09 | 中国电信股份有限公司 | 涉诈订单预测模型训练方法和装置,订单预测方法和装置 |
CN112348519A (zh) * | 2020-10-21 | 2021-02-09 | 上海淇玥信息技术有限公司 | 一种欺诈用户识别方法、装置和电子设备 |
CN112101045A (zh) * | 2020-11-02 | 2020-12-18 | 北京淇瑀信息科技有限公司 | 一种多模态语义完整性识别方法、装置及电子设备 |
CN112328999A (zh) * | 2021-01-05 | 2021-02-05 | 北京远鉴信息技术有限公司 | 双录质检方法、装置、服务器及存储介质 |
CN115909374A (zh) * | 2021-09-30 | 2023-04-04 | 腾讯科技(深圳)有限公司 | 一种信息识别方法、装置、设备及存储介质、程序产品 |
CN114328679A (zh) * | 2021-10-22 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、计算机设备以及存储介质 |
CN114218488A (zh) * | 2021-12-16 | 2022-03-22 | 中国建设银行股份有限公司 | 基于多模态特征融合的信息推荐方法、装置及处理器 |
CN114782161A (zh) * | 2022-03-31 | 2022-07-22 | 度小满科技(北京)有限公司 | 识别风险用户的方法、装置、存储介质及电子装置 |
CN114707420A (zh) * | 2022-04-24 | 2022-07-05 | 深圳微言科技有限责任公司 | 一种信贷欺诈行为识别方法、装置、设备及存储介质 |
CN115099339A (zh) * | 2022-06-23 | 2022-09-23 | 未鲲(上海)科技服务有限公司 | 欺诈行为识别方法、装置、电子设备及存储介质 |
CN115270984A (zh) * | 2022-08-08 | 2022-11-01 | 中国农业银行股份有限公司 | 一种反欺诈模型构建方法、装置、电子设备及存储介质 |
CN115601042A (zh) * | 2022-10-26 | 2023-01-13 | 中国农业银行股份有限公司(Cn) | 信息识别方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107545241A (zh) | 神经网络模型训练及活体检测方法、装置及存储介质 | |
CN109413023B (zh) | 机器识别模型的训练及机器识别方法、装置、电子设备 | |
CN111522987A (zh) | 一种图像审核方法、设备及计算机可读存储介质 | |
CN110428399A (zh) | 用于检测图像的方法、装置、设备和存储介质 | |
CN108229485A (zh) | 用于测试用户界面的方法和装置 | |
CN112052186A (zh) | 目标检测方法、装置、设备以及存储介质 | |
CN109919754A (zh) | 一种数据获取方法、装置、终端及存储介质 | |
CN107609463A (zh) | 活体检测方法、装置、设备及存储介质 | |
CN112541443B (zh) | 发票信息抽取方法、装置、计算机设备及存储介质 | |
CN115050064A (zh) | 人脸活体检测方法、装置、设备及介质 | |
CN108549848A (zh) | 用于输出信息的方法和装置 | |
CN108875509A (zh) | 活体检测方法、装置和系统及存储介质 | |
CN115204886A (zh) | 账户识别的方法、装置、电子设备和存储介质 | |
CN116958637A (zh) | 图像检测模型的训练方法、装置、设备及存储介质 | |
CN111931628A (zh) | 人脸识别模型的训练方法、装置及相关设备 | |
CN112837466B (zh) | 票据识别方法、装置、设备以及存储介质 | |
CN115277205B (zh) | 模型训练方法及装置、端口的风险识别方法 | |
CN116205664A (zh) | 一种中介欺诈识别方法、装置、电子设备及存储介质 | |
Dong et al. | Scene-oriented hierarchical classification of blurry and noisy images | |
CN110097258A (zh) | 一种用户关系网络建立方法、装置及计算机可读存储介质 | |
CN115731620A (zh) | 检测对抗攻击的方法和训练对抗攻击检测模型的方法 | |
CN115880702A (zh) | 数据处理方法、装置、设备、程序产品及存储介质 | |
CN113542527B (zh) | 一种人脸图像传输方法、装置、电子设备及存储介质 | |
Hannan et al. | Analysis of Detection and Recognition of Human Face Using Support Vector Machine | |
CN113762237A (zh) | 文本图像处理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |