CN112463923B - 用户欺诈行为检测方法、装置、设备及存储介质 - Google Patents

用户欺诈行为检测方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112463923B
CN112463923B CN202011351758.1A CN202011351758A CN112463923B CN 112463923 B CN112463923 B CN 112463923B CN 202011351758 A CN202011351758 A CN 202011351758A CN 112463923 B CN112463923 B CN 112463923B
Authority
CN
China
Prior art keywords
model
user
vector
fraud detection
medical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011351758.1A
Other languages
English (en)
Other versions
CN112463923A (zh
Inventor
颜泽龙
王健宗
吴天博
程宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202011351758.1A priority Critical patent/CN112463923B/zh
Publication of CN112463923A publication Critical patent/CN112463923A/zh
Priority to PCT/CN2021/082613 priority patent/WO2021213123A1/zh
Application granted granted Critical
Publication of CN112463923B publication Critical patent/CN112463923B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Accounting & Taxation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Finance (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • General Business, Economics & Management (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Development Economics (AREA)
  • Technology Law (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Health & Medical Sciences (AREA)
  • Strategic Management (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computational Linguistics (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明涉及人工智能,公开一种用户欺诈行为检测方法、装置、设备及存储介质,该方法包括:从医疗数据中读取医疗诊断信息以及用户描述信息;根据医疗诊断信息查找对应的欺诈行为检测模型;根据医疗诊断信息和用户描述信息生成模型嵌入向量;将模型嵌入向量输入模型中获得模型输出结果;然后判断用户是否存在欺诈行为。由于是根据医疗数据中的医疗诊断信息选取欺诈行为检测模型,从而能够保证模型选取的准确性和针对性,另外根据医疗诊断信息和用户描述信息生成模型嵌入向量,相较于将整个医疗数据笼统的输入到模型中进行欺诈行为检测的方式,本发明的模型嵌入向量更为准确,也能够保证检测结果的准确度和可靠性。

Description

用户欺诈行为检测方法、装置、设备及存储介质
技术领域
本发明涉及人工智能技术领域,尤其涉及一种用户欺诈行为检测方法、装置、设备及存储介质。
背景技术
医疗保险欺诈会给保险公司造成严重的经济损失,并且会同时导致消费者保费和自付费用的升高。传统的保险索赔采用的是固定规则+人工核查的方式,会非常耗费人力。
近年来,保险索赔进入智能检测阶段之后,往往采用智能预警+多维核验的方式来进行用户保险欺诈行为的检测。所谓智能预警+多维核验,即先通过自然语言处理技术对投保用户提交的医疗(保险)数据进行语义特征的挖掘,然后根据挖掘的语义特征从多个维度核验用户提交的医疗数据中是否存在与事实不符的欺诈特征,最后再确定是否存在欺诈行为。这种方式虽然应用场景较为广泛,但在一些具体医疗场景,例如针对某一类具体疾病或症状时,对投保用户欺诈行为的识别结果不够准确。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供了一种用户欺诈行为检测方法、装置、设备及存储介质,旨在解决现有技术对投保用户欺诈行为的识别结果不够准确的技术问题。
为实现上述目的,本发明提供了一种用户欺诈行为检测方法,所述方法包括以下步骤:
从用户提交的医疗数据中读取医疗诊断信息以及用户描述信息;
根据所述医疗诊断信息在预设模型数据库中查找对应的欺诈行为检测模型;
根据所述医疗诊断信息和所述用户描述信息生成模型嵌入向量;
将所述模型嵌入向量输入至所述欺诈行为检测模型,以获得模型输出结果;
根据所述模型输出结果判断所述用户是否存在欺诈行为。
优选地,所述根据所述医疗诊断信息在预设模型数据库中查找对应的欺诈行为检测模型的步骤,包括:
获取所述医疗诊断信息中包含的疾病类型标签;
获取所述疾病类型标签的标签数量,并根据所述标签数量确定模型类别;
根据所述模型类别在预设模型数据库中查找对应的欺诈行为检测模型。
优选地,所述从用户提交的医疗数据中读取医疗诊断信息以及用户描述信息的步骤之前,所述方法还包括:
从中心服务器获取待训练的初始分类模型;
在接收到样本对齐指令时,根据所述样本对齐指令中包含的样本标识从本地数据库中提取模型训练集;
获取所述模型训练集中包含的医疗数据样本和所述医疗数据样本对应的欺诈结果;
根据所述医疗数据样本和所述欺诈结果对所述初始分类模型执行基于联邦学习的模型训练,获得欺诈行为检测模型。
优选地,所述根据所述医疗数据样本和所述欺诈结果对所述初始分类模型执行基于联邦学习的模型训练,获得欺诈行为检测模型的步骤,包括:
从所述医疗数据样本中读取医疗诊断样本和用户描述样本;
将所述医疗诊断样本和所述用户描述样本嵌入为不同维度的医疗特征向量;
根据不同维度的医疗特征向量确定初始模型嵌入向量;
根据所述初始模型嵌入向量和所述欺诈结果对所述初始分类模型执行基于联邦学习的模型训练,获得欺诈行为检测模型。
优选地,所述根据不同维度的医疗特征向量确定初始模型嵌入向量的步骤,包括:
从不同维度的医疗特征向量中提取若干词粒度向量和若干文本粒度向量;
基于注意力机制定义各词粒度向量的注意力分值,并根据所述注意力分值确定各文本粒度向量的向量权重;
根据所述文本粒度向量和所述向量权重确定初始模型嵌入向量。
优选地,所述基于注意力机制定义各词粒度向量的注意力分值,并根据所述注意力分值确定各文本粒度向量的向量权重的步骤,包括:
获取所述医疗数据对应的初始化向量;
基于注意力机制,通过所述初始化向量和以下公式定义各词粒度向量的注意力分值;
Figure BDA0002798082590000031
式中,scorei,j为词粒度向量的注意力分值,ni K为词粒度向量的文本嵌入,sj为初始化的医疗特征向量;
根据所述注意力分值确定各文本粒度向量的向量权重。
优选地,所述根据所述初始模型嵌入向量和所述欺诈结果对所述初始分类模型执行基于联邦学习的模型训练,获得欺诈行为检测模型的步骤,包括:
根据所述初始模型嵌入向量和所述欺诈结果对获取的所述初始分类模型进行模型训练,获得待更新分类模型;
获取所述待更新模型中不同模型参数对应的参数梯度;
对所述参数梯度进行加密,并将加密后的参数梯度发送至所述中心服务器;
获取所述中心服务器返回的欺诈行为检测模型,所述欺诈行为检测模型为所述中心服务器根据加密后的所述参数梯度对所述初始分类模型进行模型更新后获得。
此外,为实现上述目的,本发明还提出一种用户欺诈行为检测装置,所述用户欺诈行为检测装置包括:
信息提取模块,用于从用户提交的医疗数据中读取医疗诊断信息以及用户描述信息;
模型获取模块,用于根据所述医疗诊断信息在预设模型数据库中查找对应的欺诈行为检测模型;
向量生成模块,用于根据所述医疗诊断信息和所述用户描述信息生成模型嵌入向量;
结果获取模块,用于将所述模型嵌入向量输入至所述欺诈行为检测模型,以获得模型输出结果;
行为判断模块,用于根据所述模型输出结果判断所述用户是否存在欺诈行为。
此外,为实现上述目的,本发明还提出一种用户欺诈行为检测设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的用户欺诈行为检测程序,所述用户欺诈行为检测程序配置为实现如上文所述的用户欺诈行为检测方法的步骤。
此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有用户欺诈行为检测程序,所述用户欺诈行为检测程序被处理器执行时实现如上文所述的用户欺诈行为检测方法的步骤。
本发明通过从用户提交的医疗数据中读取医疗诊断信息以及用户描述信息;根据医疗诊断信息在预设模型数据库中查找对应的欺诈行为检测模型;根据医疗诊断信息和用户描述信息生成模型嵌入向量;将模型嵌入向量输入至欺诈行为检测模型获得模型输出结果;根据模型输出结果判断用户是否存在欺诈行为。由于是根据医疗数据中的医疗诊断信息选取欺诈行为检测模型,从而能够保证模型选取的准确性和针对性,另外根据医疗诊断信息和用户描述信息生成模型嵌入向量,相较于将整个医疗数据笼统的输入到模型中进行欺诈行为检测的方式,本发明的模型嵌入向量更为准确,也能够保证检测结果的准确度和可靠性。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的用户欺诈行为检测设备的结构示意图;
图2为本发明用户欺诈行为检测方法第一实施例的流程示意图;
图3为本发明用户欺诈行为检测方法第二实施例的流程示意图;
图4为本发明用户欺诈行为检测装置第一实施例的结构框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的用户欺诈行为检测设备结构示意图。
如图1所示,该用户欺诈行为检测设备可以包括:处理器1001,例如中央处理器(Central Processing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity,WI-FI)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory,RAM)存储器,也可以是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对用户欺诈行为检测设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、数据存储模块、网络通信模块、用户接口模块以及用户欺诈行为检测程序。
在图1所示的用户欺诈行为检测设备中,网络接口1004主要用于与网络服务器进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明用户欺诈行为检测设备中的处理器1001、存储器1005可以设置在用户欺诈行为检测设备中,所述用户欺诈行为检测设备通过处理器1001调用存储器1005中存储的用户欺诈行为检测程序,并执行本发明实施例提供的用户欺诈行为检测方法。
本发明实施例提供了一种用户欺诈行为检测方法,参照图2,图2为本发明用户欺诈行为检测方法第一实施例的流程示意图。
本实施例中,所述用户欺诈行为检测方法包括以下步骤:
步骤S10:从用户提交的医疗数据中读取医疗诊断信息以及用户描述信息;
需要说明的是,本实施例方法的执行主体可以是具有数据处理、网络通信以及程序运行功能的计算服务设备,例如手机、平板电脑、个人电脑等,也可以是具有类似功能的用户欺诈行为检测设备,以下简称检测设备。
本实施例及下述各实施例中,所述医疗数据,可以是投保用户提交的医疗保险索赔单中包含的数据,例如投保人的疾病症状、患病时间、就诊次数、人口学信息、索赔缘由、信用级别等信息。其中,所述医疗诊断信息可以是投保人的疾病诊断信息,如疾病症状,患病时间,就诊次数等;所述用户描述信息可以是投保人对疾病诊断结果的描述信息,例如描述内容等。
应理解的是,医疗保险索赔单的表单格式或模板一般较为固定,因此检测设备可根据医疗保险索赔单的表单格式或模板来在对应区域读取上述医疗诊断信息以及用户描述信息。
步骤S20:根据所述医疗诊断信息在预设模型数据库中查找对应的欺诈行为检测模型;
需要说明的是,上述欺诈行为检测模型可以是预先根据过往存在保险欺诈行为的医疗数据所训练的、用于检测投保用户是否欺诈行为的分类模型。由于欺诈行为只包含欺诈和非欺诈两种结果,因此上述分类模型可采用标签为欺诈/非欺诈的二分类模型,即训练出的欺诈行为检测模型最终输出的结果只有一种:欺诈或者非欺诈。
进一步地,考虑到不同保险机构甚至不同险种都在追求用户信息的保密隐私,且各保险机构或者不同险种的用户医疗保险数据都比较有限,而这些医疗保险数据中用于对欺诈行为检测模型进行训练的模型训练样本又存在正样本较少的问题,进而使得模型的训练变得较为困难。为了克服上述缺陷,在保证各保险机构和不同险种用户信息的私密性和安全性的前提下,本实施例优选采用基于联邦学习的模型训练方法进行上述欺诈行为检测模型的模型训练。
进一步地,为了保证所训练的欺诈行为检测模型的精准度,可预先针对不同的疾病类型精细化的进行模型训练,然后将这些训练好的欺诈行为检测模型与对应的疾病类型进行关联后存放在预先设定的模型数据库中,以便检测设备根据医疗诊断信息中包含的疾病类型标签进行查找。上述关联方式可以是通过建立欺诈行为检测模型的模型标识(例如模型名称、模型调用路径、存放路径等)与疾病类型之间的映射关系来实现。所述疾病类型标签即疾病所属的种类或对应的名称,例如心血管疾病、肿瘤、慢性病等。
需要说明的是,考虑到疾病之间可能存在多疾病并发的情况,即存在并发症的情况。针对这种情况,若采用某单一疾病对应的欺诈行为检测模型来对用户提交的医疗数据进行欺诈行为检测,将会导致检测结果出现偏差。因此本实施例在实际应用过程中,还可以根据不同疾病的并发症来训练特定的欺诈行为检测模型,以便根据实际疾病情况来选用相应的欺诈行为检测模型。
本实施例中检测设备判断是根据单一疾病对应的欺诈行为检测模型(即单一疾病模型)进行欺诈行为检测,还是根据疾病的并发症对应的欺诈行为检测模型(即并发症模型)进行欺诈行为检测,具体可根据疾病类型标签的标签数量来确定,例如,若检测设备判断出医疗诊断信息中包含的疾病类型标签有心血管疾病和脑梗塞等,标签数量大于2,此时若仅用心血管疾病对应的欺诈行为检测模型,可能会导致检测结果不够准确,因而需要采用心血管疾病的并发症对应的欺诈行为检测模型进行检测。
具体的,检测设备可获取所述医疗诊断信息中包含的疾病类型标签;然后获取所述疾病类型标签的标签数量,并根据所述标签数量确定模型类别;再根据所述模型类别在预设模型数据库中查找对应的欺诈行为检测模型。
其中,根据标签数量确定模型类别的方式可以是先根据标签数量确定使用哪一类模型,即确定模型类别(单一疾病模型或并发症模型),然后根据模型类别和疾病类型标签确定对应的欺诈行为检测模型。
步骤S30:根据所述医疗诊断信息和所述用户描述信息生成模型嵌入向量;
需要说明的是,实际情况中对于用来训练的二分类模型种类很多,具体的模型类别本实施不作具体限制。例如本实施例中的二分类模型可以选用逻辑回归模型、支持向量机(SVM)、随机森林(RF)和多层神经网络(MLP)等。所述模型嵌入向量即模型的输入参数,本实施例中检测设备将根据医疗诊断信息和用户描述信息生成模型嵌入向量,即对医疗诊断信息和用户描述信息向量化,获得模型嵌入向量。
在本实施中,检测设备可通过BERT(Bidirectional Encoder Representationsfrom Transformers)算法将医疗诊断信息和所述用户描述信息嵌入为上述模型嵌入向量。
应理解的是,BERT是通过在海量的语料的基础上运行自监督学习方法,为单词学习一个好的特征表示,所谓自监督学习是指在没有人工标注的数据上运行的监督学习。本实施例通过BERT算法获得模型嵌入向量,能够省略人工标注数据的环节,有效的节省了人力物力。
步骤S40:将所述模型嵌入向量输入至所述欺诈行为检测模型,以获得模型输出结果;
在具体实现中,检测设备在获取到模型嵌入向量后,即可将该模型嵌入向量输入至欺诈行为检测模型,以获得模型输出结果。应理解的是,对于二分类模型而言,其模型输出结果通常为每种类别的概率值,例如欺诈概率值80%,非欺诈概率值20%,检测设备即可判断出该用户存在欺诈行为。
步骤S50:根据所述模型输出结果判断所述用户是否存在欺诈行为。
应理解的是,检测设备在获取到模型输出的类别概率值后,即可根据该类别概率值中,概率值较大的类型来确定出最终的行为结果,进而判断出用户是否存在欺诈行为。
本实施例通过从用户提交的医疗数据中读取医疗诊断信息以及用户描述信息;根据医疗诊断信息在预设模型数据库中查找对应的欺诈行为检测模型;根据医疗诊断信息和用户描述信息生成模型嵌入向量;将模型嵌入向量输入至欺诈行为检测模型获得模型输出结果;根据模型输出结果判断用户是否存在欺诈行为。由于是根据医疗数据中的医疗诊断信息选取欺诈行为检测模型,从而能够保证模型选取的准确性和针对性,另外根据医疗诊断信息和用户描述信息生成模型嵌入向量,相较于将整个医疗数据笼统的输入到模型中进行欺诈行为检测的方式,本发明的模型嵌入向量更为准确,也能够保证检测结果的准确度和可靠性。
参考图3,图3为本发明用户欺诈行为检测方法第二实施例的流程示意图。
基于上述第一实施例,在本实施例中,所述步骤S10之前还包括:
步骤S01:从中心服务器获取待训练的初始分类模型;
需要说明的是,本实施例中所述中心服务器可以是参与联邦学习的模型训练的核心服务器,该中心服务器中存放有参与本次联邦学习模型训练的模型训练方(至少两个)所要训练的初始模型,由于本实施例是采用二分类模型对用户的欺诈行为进行检测,因此,所述初始模型可定义为初始分类模型。
在实际应用中,参与模型训练的各模型训练方(本实施例中的检测设备也属于模型训练方),先从中心服务器下载初始分类模型,然后根据本地数据库中的数据对各自下载的模型进行模型训练,再将训练后的模型对应的模型参数回传至中心服务器;由中心服务器对接收到的模型参数进行聚合,并根据聚合后的模型参数对存放在其数据库中的初始分类模型进行模型参数的更新,再对更新后的模型进行模型是否收敛的验证,在模型收敛时,即可将更新后的模型作为可以投入使用的欺诈行为检测模型;若模型还未收敛,则循环执行上述模型训练-模型参数回传-(中心服务器)更新模型参数的步骤,直至模型收敛。
步骤S02:在接收到样本对齐指令时,根据所述样本对齐指令中包含的样本标识从本地数据库中提取模型训练集;
应理解的是,所述样本对齐指令,即指示参与模型训练的各模型训练方执行样本对齐操作的命令,该命令中包含有样本标识,用于各模型训练方根据其对本地的数据求交集,获得模型训练集。例如模型训练方a拥有的模型训练数据包括{A、B、C},模型训练方b拥有的模型训练数据包括{C、D、E},该样本标识即为与数据C(样本中存在交集的数据)相对应的标识信息(如数据存储路径、数据名称等),以使得各模型训练方根据同一样本标识从本地数据库中提取相同的模型训练集,进而保证模型训练的一致性。
步骤S03:获取所述模型训练集中包含的医疗数据样本和所述医疗数据样本对应的欺诈结果;
应理解的是,为实现对医疗保险索赔的欺诈行为进行检测,保证模型训练的准确性。本实施例模型训练集中需要包含医疗数据样本和该医疗数据样本对应的欺诈结果,例如用户A提交的医疗数据(样本)存在欺诈行为,则其对应的欺诈结果则为欺诈;用户B提交的医疗数据(样本)不存在欺诈行为,则其对应的欺诈结果则为非欺诈。因此,检测设备在获取到模型训练集后,需要从中提取出医疗数据样本和该医疗数据样本对应的欺诈结果,进而开始对模型进行训练。
本实施例中所述欺诈结果可以是以标签的形式附加或标记在医疗数据样本上。
步骤S04:根据所述医疗数据样本和所述欺诈结果对所述初始分类模型执行基于联邦学习的模型训练,获得欺诈行为检测模型。
应理解的是,联邦机器学习又名联邦学习,联合学习,联盟学习。联邦机器学习是一个机器学习框架,能有效帮助多个机构在满足用户隐私保护、数据安全和政府法规的要求下,进行数据使用和机器学习建模。
进一步地,针对不同保险机构之间用户重叠较少而特征重叠较多的特点,本实施例优选采用横向联邦学习的方法来进行训练模型。所谓横向联邦学习,在两个数据集的用户特征重叠较多而用户重叠较少的情况下把参与联邦建模或模型训练的双方(当然也可以是多方)的各自拥有的数据集按照横向(即用户维度)切分,并取出双方用户特征相同而用户不完全相同的那部分数据进行训练。比如,两家不同地区的保险公司,它们的用户群体分别来自各自所在的地区,相互的交集很小,但是他们的业务很相似,因此记录的用户特征是相同的,此时就可以使用横向联邦学习来构建联合模型或联合进行模型训练。
本实施例通过基于联邦学习的模型训练方式进行模型训练,能够克服保险机构或者不同险种的用户医疗保险数据比较有限,模型训练样本存在正样本较少的问题。
进一步地,为了能够尽可能的挖掘医疗数据对应的语义信息,避免识别出的语义特征过于简略,影响模型训练的准确度。本实施例中,所述步骤S04可具体细化为:
步骤S041:从所述医疗数据样本中读取医疗诊断样本和用户描述样本;
需要说明的是,所述医疗诊断样本即包含医疗诊断信息的样本数据,所述用户描述样本即包含用户描述信息的样本数据。
步骤S042:将所述医疗诊断样本和所述用户描述样本嵌入为不同维度的医疗特征向量;
本实施例中可采用预先训练的BERT模型将数据嵌入成不同维度的医疗特征向量。具体的,检测设备可通过预训练的BERT模型将医疗诊断样本和用户描述样本嵌入成两种粒度的向量:基于词粒度的向量以及基于文本粒度的向量,即上述医疗特征向量。
步骤S043:根据不同维度的医疗特征向量确定初始模型嵌入向量;
在具体实现中,检测设备在获取到上述不同维度的医疗特征向量后,即可根据该医疗特征向量确定输入到初始分类模型中进行模型训练的初始模型嵌入向量。具体的,检测设备可将不同维度的医疗特征向量进行拼接,然后将拼接后的医疗特征向量作为初始模型嵌入向量。
进一步地,为了保证模型训练的准确度,本实施例将采用注意力机制获得表达能力更强的初始模型嵌入向量。具体的,检测设备可以从不同维度的医疗特征向量中提取若干词粒度向量和若干文本粒度向量;基于注意力机制定义各词粒度向量的注意力分值,并根据所述注意力分值确定各文本粒度向量的向量权重;根据所述文本粒度向量和所述向量权重确定初始模型嵌入向量。
其中,文本粒度向量的权重可通过下述方式来获得:
检测设备先获取所述医疗数据对应的初始化向量;然后基于注意力机制,通过所述初始化向量和以下公式定义各词粒度向量的注意力分值;再根据所述注意力分值确定各文本粒度向量的向量权重。
Figure BDA0002798082590000111
式中,scorei,j为词粒度向量的注意力分值,ni K为词粒度向量的文本嵌入,sj为初始化的医疗特征向量;
进一步地,所述根据所述注意力分值确定各文本粒度向量的向量权重可通过下述方式来获得:
根据所述注意力分值,通过以下公式确定各文本粒度向量的向量权重;
Figure BDA0002798082590000112
式中,αj i为文本粒度向量的向量权重。
步骤S044:根据所述初始模型嵌入向量和所述欺诈结果对所述初始分类模型执行基于联邦学习的模型训练,获得欺诈行为检测模型。
在具体实现中,检测设备在获取到初始模型嵌入向量后,即可根据欺诈结果对初始分类模型执行基于联邦学习的模型训练,获得欺诈行为检测模型。
需要说明的是,为了保证模型训练更加的精确,本实施例输入到初始分类中的初始模型嵌入向量还还可包括其他医疗特征对应的其他特征向量,这些其他特征向量可以是例如文本描述方式、投保人信用级别等特征对应的向量。因此,在实际过程中,可将不同维度的医疗特征向量和上述其他特征向量进行拼接,获得初始模型嵌入向量。
进一步地,为了保证最终训练出的模型能够有较好的模型效果,本实施例中,检测设备还可以根据所述初始模型嵌入向量和所述欺诈结果对获取的所述初始分类模型进行模型训练,获得待更新分类模型;然后获取所述待更新模型中不同模型参数对应的参数梯度;再对所述参数梯度进行加密,并将加密后的参数梯度发送至所述中心服务器;最后获取所述中心服务器返回的欺诈行为检测模型,所述欺诈行为检测模型为所述中心服务器根据加密后的所述参数梯度对所述初始分类模型进行模型更新后获得。
进一步地,本实施在得上述到初始模型嵌入向量后,还可以将该向量迁移到各个具体类别的欺诈检测模型中去。比如心血管疾病保险和运动伤病保险都会涉及人口学信息,描述方式等特征,只需要在预训练的向量上进行微调就可以针对具体疾病类型的保险继续进行模型训练,得到效果更好的欺诈检测模型。举例来说,如果要判断用户的心血管疾病保险是否存在欺诈行为,可以用更精细领域的的数据(心血管保险的病例,人口学特征,描述方式,用户病史等)对之前的嵌入向量进行微调,得到微调后的心血管保险特征的嵌入向量,之后将嵌入向量和其他特征向量进行拼接组合,作为欺诈检测模型的输入(例如MLP),输出结果就是欺诈的概率。本实施例中还可以定义正则的交叉熵为损失函数,采用ADAM优化器利用基于联邦学习的模型训练方式进行训练,最终得到心血管保险欺诈检测的模型。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有用户欺诈行为检测程序,所述用户欺诈行为检测程序被处理器执行时实现如上文所述的用户欺诈行为检测方法的步骤。
参照图4,图4为本发明用户欺诈行为检测装置第一实施例的结构框图。
如图4所示,本发明实施例提出的用户欺诈行为检测装置包括:
信息提取模块401,用于从用户提交的医疗数据中读取医疗诊断信息以及用户描述信息;
模型获取模块402,用于根据所述医疗诊断信息在预设模型数据库中查找对应的欺诈行为检测模型;
向量生成模块403,用于根据所述医疗诊断信息和所述用户描述信息生成模型嵌入向量;
结果获取模块404,用于将所述模型嵌入向量输入至所述欺诈行为检测模型,以获得模型输出结果;
行为判断模块405,用于根据所述模型输出结果判断所述用户是否存在欺诈行为。
本实施例通过从用户提交的医疗数据中读取医疗诊断信息以及用户描述信息;根据医疗诊断信息在预设模型数据库中查找对应的欺诈行为检测模型;根据医疗诊断信息和用户描述信息生成模型嵌入向量;将模型嵌入向量输入至欺诈行为检测模型获得模型输出结果;根据模型输出结果判断用户是否存在欺诈行为。由于是根据医疗数据中的医疗诊断信息选取欺诈行为检测模型,从而能够保证模型选取的准确性和针对性,另外根据医疗诊断信息和用户描述信息生成模型嵌入向量,相较于将整个医疗数据笼统的输入到模型中进行欺诈行为检测的方式,本发明的模型嵌入向量更为准确,也能够保证检测结果的准确度和可靠性。
基于本发明上述用户欺诈行为检测装置第一实施例,提出本发明用户欺诈行为检测装置的第二实施例。
在本实施例中,所述模型获取模块402,还用于获取所述医疗诊断信息中包含的疾病类型标签;获取所述疾病类型标签的标签数量,并根据所述标签数量确定模型类别;根据所述模型类别在预设模型数据库中查找对应的欺诈行为检测模型。
进一步地,本实施例中用户欺诈行为检测装置还包括模型训练模块,用于从中心服务器获取待训练的初始分类模型;在接收到样本对齐指令时,根据所述样本对齐指令中包含的样本标识从本地数据库中提取模型训练集;获取所述模型训练集中包含的医疗数据样本和所述医疗数据样本对应的欺诈结果;根据所述医疗数据样本和所述欺诈结果对所述初始分类模型执行基于联邦学习的模型训练,获得欺诈行为检测模型。
进一步地,所述模型训练模块,还用于从所述医疗数据样本中读取医疗诊断样本和用户描述样本;将所述医疗诊断样本和所述用户描述样本嵌入为不同维度的医疗特征向量;根据不同维度的医疗特征向量确定初始模型嵌入向量;根据所述初始模型嵌入向量和所述欺诈结果对所述初始分类模型执行基于联邦学习的模型训练,获得欺诈行为检测模型。
进一步地,所述模型训练模块,还用于从不同维度的医疗特征向量中提取若干词粒度向量和若干文本粒度向量;基于注意力机制定义各词粒度向量的注意力分值,并根据所述注意力分值确定各文本粒度向量的向量权重;根据所述文本粒度向量和所述向量权重确定初始模型嵌入向量。
进一步地,所述模型训练模块,还用于获取所述医疗数据对应的初始化向量;基于注意力机制,通过所述初始化向量和以下公式定义各词粒度向量的注意力分值;
Figure BDA0002798082590000141
式中,scorei,j为词粒度向量的注意力分值,ni K为词粒度向量的文本嵌入,sj为初始化的医疗特征向量;
根据所述注意力分值确定各文本粒度向量的向量权重。
进一步地,所述模型训练模块,还用于根据所述初始模型嵌入向量和所述欺诈结果对获取的所述初始分类模型进行模型训练,获得待更新分类模型;获取所述待更新模型中不同模型参数对应的参数梯度;对所述参数梯度进行加密,并将加密后的参数梯度发送至所述中心服务器;获取所述中心服务器返回的欺诈行为检测模型,所述欺诈行为检测模型为所述中心服务器根据加密后的所述参数梯度对所述初始分类模型进行模型更新后获得。
本发明用户欺诈行为检测装置的其他实施例或具体实现方式可参照上述各方法实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器/随机存取存储器、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (6)

1.一种用户欺诈行为检测方法,其特征在于,所述用户欺诈行为检测方法包括:
从用户提交的医疗数据中读取医疗诊断信息以及用户描述信息;
根据所述医疗诊断信息在预设模型数据库中查找对应的欺诈行为检测模型;
根据所述医疗诊断信息和所述用户描述信息生成模型嵌入向量;
将所述模型嵌入向量输入至所述欺诈行为检测模型,以获得模型输出结果;
根据所述模型输出结果判断所述用户是否存在欺诈行为;
所述从用户提交的医疗数据中读取医疗诊断信息以及用户描述信息的步骤之前,所述方法还包括:
从中心服务器获取待训练的初始分类模型;
在接收到样本对齐指令时,根据所述样本对齐指令中包含的样本标识从本地数据库中提取模型训练集;
获取所述模型训练集中包含的医疗数据样本和所述医疗数据样本对应的欺诈结果;
从所述医疗数据样本中读取医疗诊断样本和用户描述样本,将所述医疗诊断样本和所述用户描述样本嵌入为不同维度的医疗特征向量;
从不同维度的医疗特征向量中提取若干词粒度向量和若干文本粒度向量;
获取所述医疗数据对应的初始化向量,基于注意力机制,通过所述初始化向量和以下公式定义各词粒度向量的注意力分值;
Figure FDA0004051747690000011
式中,scorei,j为词粒度向量的注意力分值,ni K为词粒度向量的文本嵌入,sj为初始化的医疗特征向量;
根据所述注意力分值确定各文本粒度向量的向量权重;
根据所述文本粒度向量和所述向量权重确定初始模型嵌入向量;
根据所述初始模型嵌入向量和所述欺诈结果对所述初始分类模型执行基于联邦学习的模型训练,获得欺诈行为检测模型。
2.如权利要求1所述的用户欺诈行为检测方法,其特征在于,所述根据所述医疗诊断信息在预设模型数据库中查找对应的欺诈行为检测模型的步骤,包括:
获取所述医疗诊断信息中包含的疾病类型标签;
获取所述疾病类型标签的标签数量,并根据所述标签数量确定模型类别;
根据所述模型类别在预设模型数据库中查找对应的欺诈行为检测模型。
3.如权利要求1所述的用户欺诈行为检测方法,其特征在于,所述根据所述初始模型嵌入向量和所述欺诈结果对所述初始分类模型执行基于联邦学习的模型训练,获得欺诈行为检测模型的步骤,包括:
根据所述初始模型嵌入向量和所述欺诈结果对获取的所述初始分类模型进行模型训练,获得待更新分类模型;
获取所述待更新模型中不同模型参数对应的参数梯度;
对所述参数梯度进行加密,并将加密后的参数梯度发送至所述中心服务器;
获取所述中心服务器返回的欺诈行为检测模型,所述欺诈行为检测模型为所述中心服务器根据加密后的所述参数梯度对所述初始分类模型进行模型更新后获得。
4.一种用户欺诈行为检测装置,其特征在于,所述用户欺诈行为检测装置包括:
信息提取模块,用于从用户提交的医疗数据中读取医疗诊断信息以及用户描述信息;
模型获取模块,用于根据所述医疗诊断信息在预设模型数据库中查找对应的欺诈行为检测模型;
向量生成模块,用于根据所述医疗诊断信息和所述用户描述信息生成模型嵌入向量;
结果获取模块,用于将所述模型嵌入向量输入至所述欺诈行为检测模型,以获得模型输出结果;
行为判断模块,用于根据所述模型输出结果判断所述用户是否存在欺诈行为;
其中,所述用户欺诈行为检测装置还包括模型训练模块;
所述模型训练模块,用于从中心服务器获取待训练的初始分类模型;
在接收到样本对齐指令时,根据所述样本对齐指令中包含的样本标识从本地数据库中提取模型训练集;
获取所述模型训练集中包含的医疗数据样本和所述医疗数据样本对应的欺诈结果;
从所述医疗数据样本中读取医疗诊断样本和用户描述样本,将所述医疗诊断样本和所述用户描述样本嵌入为不同维度的医疗特征向量;
从不同维度的医疗特征向量中提取若干词粒度向量和若干文本粒度向量;
获取所述医疗数据对应的初始化向量,基于注意力机制,通过所述初始化向量和以下公式定义各词粒度向量的注意力分值;
Figure FDA0004051747690000031
式中,scorei,j为词粒度向量的注意力分值,ni K为词粒度向量的文本嵌入,sj为初始化的医疗特征向量;
根据所述注意力分值确定各文本粒度向量的向量权重;
根据所述文本粒度向量和所述向量权重确定初始模型嵌入向量;
根据所述初始模型嵌入向量和所述欺诈结果对所述初始分类模型执行基于联邦学习的模型训练,获得欺诈行为检测模型。
5.一种用户欺诈行为检测设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的用户欺诈行为检测程序,所述用户欺诈行为检测程序配置为实现如权利要求1至3中任一项所述的用户欺诈行为检测方法的步骤。
6.一种存储介质,其特征在于,所述存储介质上存储有用户欺诈行为检测程序,所述用户欺诈行为检测程序被处理器执行时实现如权利要求1至3任一项所述的用户欺诈行为检测方法的步骤。
CN202011351758.1A 2020-11-25 2020-11-25 用户欺诈行为检测方法、装置、设备及存储介质 Active CN112463923B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011351758.1A CN112463923B (zh) 2020-11-25 2020-11-25 用户欺诈行为检测方法、装置、设备及存储介质
PCT/CN2021/082613 WO2021213123A1 (zh) 2020-11-25 2021-03-24 用户欺诈行为检测方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011351758.1A CN112463923B (zh) 2020-11-25 2020-11-25 用户欺诈行为检测方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN112463923A CN112463923A (zh) 2021-03-09
CN112463923B true CN112463923B (zh) 2023-04-28

Family

ID=74808784

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011351758.1A Active CN112463923B (zh) 2020-11-25 2020-11-25 用户欺诈行为检测方法、装置、设备及存储介质

Country Status (2)

Country Link
CN (1) CN112463923B (zh)
WO (1) WO2021213123A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112463923B (zh) * 2020-11-25 2023-04-28 平安科技(深圳)有限公司 用户欺诈行为检测方法、装置、设备及存储介质
CN114549026B (zh) * 2022-04-26 2022-07-19 浙江鹏信信息科技股份有限公司 基于算法组件库分析的未知诈骗的识别方法及系统
CN115225575B (zh) * 2022-06-08 2023-11-24 香港理工大学深圳研究院 一种基于元数据辅助和联邦学习的未知网络流量分类方法
CN117575596A (zh) * 2023-09-06 2024-02-20 临沂万鼎网络科技有限公司 基于人工智能的欺诈行为分析方法及数字金融大数据系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105631049A (zh) * 2016-02-17 2016-06-01 北京奇虎科技有限公司 一种识别诈骗短信的方法和系统
CN109389494A (zh) * 2018-10-25 2019-02-26 北京芯盾时代科技有限公司 借贷欺诈检测模型训练方法、借贷欺诈检测方法及装置
CN109410036A (zh) * 2018-10-09 2019-03-01 北京芯盾时代科技有限公司 一种欺诈检测模型训练方法和装置及欺诈检测方法和装置
CN109858032A (zh) * 2019-02-14 2019-06-07 程淑玉 融合Attention机制的多粒度句子交互自然语言推理模型
CN110288488A (zh) * 2019-06-24 2019-09-27 泰康保险集团股份有限公司 医疗险欺诈预测方法、装置、设备和可读存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10832257B2 (en) * 2018-06-29 2020-11-10 Sachcontrol Gmbh Information security system for fraud detection
CN110009486B (zh) * 2019-04-09 2020-10-02 连连银通电子支付有限公司 一种欺诈检测的方法、系统、设备及计算机可读存储介质
CN112463923B (zh) * 2020-11-25 2023-04-28 平安科技(深圳)有限公司 用户欺诈行为检测方法、装置、设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105631049A (zh) * 2016-02-17 2016-06-01 北京奇虎科技有限公司 一种识别诈骗短信的方法和系统
CN109410036A (zh) * 2018-10-09 2019-03-01 北京芯盾时代科技有限公司 一种欺诈检测模型训练方法和装置及欺诈检测方法和装置
CN109389494A (zh) * 2018-10-25 2019-02-26 北京芯盾时代科技有限公司 借贷欺诈检测模型训练方法、借贷欺诈检测方法及装置
CN109858032A (zh) * 2019-02-14 2019-06-07 程淑玉 融合Attention机制的多粒度句子交互自然语言推理模型
CN110288488A (zh) * 2019-06-24 2019-09-27 泰康保险集团股份有限公司 医疗险欺诈预测方法、装置、设备和可读存储介质

Also Published As

Publication number Publication date
CN112463923A (zh) 2021-03-09
WO2021213123A1 (zh) 2021-10-28

Similar Documents

Publication Publication Date Title
CN112463923B (zh) 用户欺诈行为检测方法、装置、设备及存储介质
WO2020232861A1 (zh) 命名实体识别方法、电子装置及存储介质
CN112860841B (zh) 一种文本情感分析方法、装置、设备及存储介质
US10692019B2 (en) Failure feedback system for enhancing machine learning accuracy by synthetic data generation
CN111898031B (zh) 一种获得用户画像的方法及装置
US20220358493A1 (en) Data acquisition method and apparatus for analyzing cryptocurrency transaction
CN110175851A (zh) 一种作弊行为检测方法及装置
CN111177367B (zh) 案件分类方法、分类模型训练方法及相关产品
CN111710383A (zh) 病历质控方法、装置、计算机设备和存储介质
CN112417887B (zh) 敏感词句识别模型处理方法、及其相关设备
CN113010785B (zh) 用户推荐方法及设备
CN110610003A (zh) 用于辅助文本标注的方法和系统
CN114202336A (zh) 一种金融场景下的风险行为监测方法及系统
CN113868419A (zh) 基于人工智能的文本分类方法、装置、设备及介质
CN112087473A (zh) 文档下载方法、装置、计算机可读存储介质和计算机设备
CN116308551A (zh) 基于数字金融ai平台的内容推荐方法及系统
CN112364649B (zh) 命名实体的识别方法、装置、计算机设备及存储介质
CN114067343A (zh) 一种数据集的构建方法、模型训练方法和对应装置
CN112990147A (zh) 一种涉政图像的识别方法、装置、电子设备及存储介质
US20230367780A1 (en) Data enrichment using name, location, and image lookup
CN115114904B (zh) 语言模型的优化方法、装置以及电子设备
CN116049446B (zh) 一种事件抽取方法、装置、设备及计算机可读存储介质
CN115599921B (zh) 文本分类、文本分类模型训练方法、装置和存储介质
CN112329468B (zh) 异质关系网络的构建方法、装置、计算机设备及存储介质
CN113723524B (zh) 基于预测模型的数据处理方法、相关设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant