CN111444965B - 基于机器学习的数据处理方法及相关设备 - Google Patents
基于机器学习的数据处理方法及相关设备 Download PDFInfo
- Publication number
- CN111444965B CN111444965B CN202010229157.7A CN202010229157A CN111444965B CN 111444965 B CN111444965 B CN 111444965B CN 202010229157 A CN202010229157 A CN 202010229157A CN 111444965 B CN111444965 B CN 111444965B
- Authority
- CN
- China
- Prior art keywords
- class
- classifier
- underwriting
- data set
- training data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010801 machine learning Methods 0.000 title claims abstract description 39
- 238000003672 processing method Methods 0.000 title claims abstract description 24
- 239000013598 vector Substances 0.000 claims abstract description 219
- 230000036541 health Effects 0.000 claims abstract description 58
- 238000000034 method Methods 0.000 claims abstract description 55
- 238000012545 processing Methods 0.000 claims abstract description 39
- 238000003860 storage Methods 0.000 claims abstract description 26
- 238000003058 natural language processing Methods 0.000 claims abstract description 13
- 238000012015 optical character recognition Methods 0.000 claims abstract description 13
- 238000013139 quantization Methods 0.000 claims abstract description 8
- 238000012549 training Methods 0.000 claims description 208
- 239000011159 matrix material Substances 0.000 claims description 74
- 238000013507 mapping Methods 0.000 claims description 42
- 230000008569 process Effects 0.000 claims description 26
- 230000002787 reinforcement Effects 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 10
- 238000010276 construction Methods 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 7
- 238000004891 communication Methods 0.000 abstract description 10
- 238000012795 verification Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 15
- 238000004364 calculation method Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 13
- 238000009826 distribution Methods 0.000 description 11
- 238000005728 strengthening Methods 0.000 description 6
- 230000009471 action Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 4
- 238000012550 audit Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 239000008280 blood Substances 0.000 description 2
- 210000004369 blood Anatomy 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000001356 surgical procedure Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 206010033799 Paralysis Diseases 0.000 description 1
- 108010001267 Protein Subunits Proteins 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000035622 drinking Effects 0.000 description 1
- 235000006694 eating habits Nutrition 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 208000002672 hepatitis B Diseases 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 230000003907 kidney function Effects 0.000 description 1
- 230000003908 liver function Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000000391 smoking effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 210000002700 urine Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/08—Insurance
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Medical Informatics (AREA)
- General Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Artificial Intelligence (AREA)
- Public Health (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Finance (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Evolutionary Biology (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Image Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本公开的实施例提供了一种基于机器学习的数据处理方法及装置、计算机可读存储介质和电子设备,属于计算机和通信技术领域。该方法包括:从客户端获取目标对象的当前健康数据图像;对当前健康数据图像进行光学字符识别和自然语言处理,获得当前健康数据图像的结构化体检数据;对结构化体检数据进行量化处理,生成当前特征向量;对当前特征向量进行归一化处理;通过强分类器对归一化后的当前特征向量进行处理,获得目标对象的当前核保结论;将当前核保结论发送至客户端,以将当前核保结论显示于客户端。本公开实施例的技术方案能够实现自动进行基于机器学习的数据处理,提高核保的效率和准确性。
Description
技术领域
本公开涉及计算机和通信技术领域,具体而言,涉及一种基于机器学习的数据处理方法及装置、计算机可读存储介质和电子设备。
背景技术
随着人们对个人健康的重视和医疗消费支出的急剧增加,加之保险公司对于健康险和重疾险的宣传推广,健康险和重疾险业务量正呈现出快速增长的趋势。
核保是保险公司的核心业务,是评估保险风险、降低承保风险最重要的一环。但是,目前保险公司主要是采用人工核保的方式进行承保风险的审核与控制,效率较低,导致核保时间过长,降低了用户体验。同时,人工核保难以避免一些人为主观差错,从而导致给出错误的核保结论的可能性。此外,人工核保还需要耗费大量的人力物力,在保险业务量急剧增长的阶段,保险公司难以承担这些费用和支出。
因此,需要一种新的基于机器学习的数据处理方法及装置、计算机可读存储介质和电子设备。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开实施例提供一种基于机器学习的数据处理方法及装置、计算机可读存储介质和电子设备,通过人工智能技术对用户的健康数据进行图像处理,从而能够提高核保的效率和准确性。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的一个方面,提供一种基于机器学习的数据处理方法,所述方法包括:从客户端获取目标对象的当前健康数据图像;对所述当前健康数据图像进行光学字符识别和自然语言处理,获得所述当前健康数据图像的结构化体检数据;对所述结构化体检数据进行量化处理,生成当前特征向量;对所述当前特征向量进行归一化处理;通过强分类器对归一化后的当前特征向量进行处理,获得所述目标对象的当前核保结论;将所述当前核保结论发送至所述客户端,以将所述当前核保结论显示于所述客户端。
根据本公开的一个方面,提供一种基于机器学习的数据处理装置,所述装置包括:健康数据图像获取模块,配置为从客户端获取目标对象的当前健康数据图像;结构化数据获得模块,配置为对所述当前健康数据图像进行光学字符识别和自然语言处理,获得所述当前健康数据图像的结构化体检数据;特征向量生成模块,配置为对所述结构化体检数据进行量化处理,生成当前特征向量;向量归一处理模块,配置为对所述当前特征向量进行归一化处理;核保结论预测模块,配置为通过强分类器对归一化后的当前特征向量进行处理,获得所述目标对象的当前核保结论;核保结论发送模块,配置为将所述当前核保结论发送至所述客户端,以将所述当前核保结论显示于所述客户端。
根据本公开实施例的一个方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,配置为存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述实施例所述的基于机器学习的数据处理方法。
根据本公开实施例的一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上述实施例中所述的基于机器学习的数据处理方法。
在本公开的一些实施例所提供的技术方案中,一方面,通过从客户端获取目标对象的当前健康数据图像,通过对当前健康数据图像进行图像处理,可以生成当前特征向量;对所述当前特征向量进行归一化处理,能够使得不同量纲的健康数据归一化到同一个计量尺度相同的标量空间中,以便于后续的强分类器对其进行处理;另一方面,还通过强分类器对归一化后的当前特征向量进行处理,获得所述目标对象的当前核保结论;将所述当前核保结论发送至所述客户端,以将所述当前核保结论显示于所述客户端,从而可以实现基于目标对象的当前健康数据,通过强分类器自动预测核保结论,提高了核保作业效率和准确性,能够降低承保风险。同时,可以将其用于辅助核保作业人员进行核保,减轻核保作业人员的工作量,减少保险公司的时间成本和人力成本。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示出了可以应用本公开实施例的基于机器学习的数据处理方法或基于机器学习的数据处理装置的示例性系统架构的示意图;
图2示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图;
图3示意性示出了根据本公开的一实施例的基于机器学习的数据处理方法的流程图;
图4示意性示出了根据本公开的另一实施例的基于机器学习的数据处理方法的流程图;
图5示意性示出了基于图4的步骤S410在一实施例中的流程图;
图6示意性示出了基于图5的步骤S412在一实施例中的流程图;
图7示意性示出了根据本公开的一实施例的基于机器学习的数据处理方法的示意图;
图8示意性示出了根据本公开的一实施例的保险承保过程的流程图;
图9示意性示出了根据本公开的一实施例的保险核保系统的架构示意图;
图10示意性示出了根据本公开的一实施例的基于机器学习的数据处理装置的框图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
图1示出了可以应用本公开实施例的基于机器学习的数据处理方法或基于机器学习的数据处理装置的示例性系统架构100的示意图。
如图1所示,系统架构100可以包括终端设备101、102、103中的一种或多种,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103可以是具有显示屏的各种电子设备,包括但不限于智能手机、平板电脑、便携式计算机和台式计算机、数字电影放映机等等。
服务器105可以是提供各种服务的服务器。例如用户利用终端设备103(也可以是终端设备101或102)向服务器105发送核保请求。服务器105可以基于该核保请求中携带的目标对象的当前健康数据图像,对所述当前健康数据图像进行光学字符识别和自然语言处理,获得所述当前健康数据图像的结构化体检数据;并对所述结构化体检数据进行量化处理,生成当前特征向量;对所述当前特征向量进行归一化处理;通过强分类器对归一化后的当前特征向量进行处理,获得所述目标对象的当前核保结论,并将当前核保结论反馈给终端设备103,进而用户可以基于终端设备103上显示的内容观看相应的当前核保结论,用户可以根据终端设备103上显示的当前核保结论来决定是否同意目标对象购买相应保险产品的请求。
又如终端设备103(也可以是终端设备101或102)可以是智能电视、VR(VirtualReality,虚拟现实)/AR(Augmented Reality,增强现实)头盔显示器、或者其上安装有导航、网约车、即时通讯、视频应用程序(application,APP)等的移动终端例如智能手机、平板电脑等,用户可以通过该智能电视、VR/AR头盔显示器或者该导航、网约车、即时通讯、视频APP向服务器105发送核保请求。服务器105可以基于该核保请求,获得核保结论,并将核保结论返回给该智能电视、VR/AR头盔显示器或者该导航、网约车、即时通讯、视频APP,进而通过该智能电视、VR/AR头盔显示器或者该导航、网约车、即时通讯、视频APP将返回的核保结论显示。
图2示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。
需要说明的是,图2示出的电子设备的计算机系统200仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图2所示,计算机系统200包括中央处理单元(CPU,Central Processing Unit)201,其可以根据存储在只读存储器(ROM,Read-Only Memory)202中的程序或者从储存部分208加载到随机访问存储器(RAM,Random Access Memory)203中的程序而执行各种适当的动作和处理。在RAM 203中,还存储有系统操作所需的各种程序和数据。CPU 201、ROM 202以及RAM 203通过总线204彼此相连。输入/输出(I/O)接口205也连接至总线204。
以下部件连接至I/O接口205:包括键盘、鼠标等的输入部分206;包括诸如阴极射线管(CRT,Cathode Ray Tube)、液晶显示器(LCD,Liquid Crystal Display)等以及扬声器等的输出部分207;包括硬盘等的储存部分208;以及包括诸如LAN(Local Area Network,局域网)卡、调制解调器等的网络接口卡的通信部分209。通信部分209经由诸如因特网的网络执行通信处理。驱动器210也根据需要连接至I/O接口205。可拆卸介质211,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器210上,以便于从其上读出的计算机程序根据需要被安装入储存部分208。
特别地,根据本公开的实施例,下文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分209从网络上被下载和安装,和/或从可拆卸介质211被安装。在该计算机程序被中央处理单元(CPU)201执行时,执行本申请的方法和/或装置中限定的各种功能。
需要说明的是,本公开所示的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM(Erasable Programmable Read Only Memory,可擦除可编程只读存储器)或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读存储介质,该计算机可读存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF(RadioFrequency,射频)等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本公开各种实施例的方法、装置和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的模块和/或单元和/或子单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的模块和/或单元和/或子单元也可以设置在处理器中。其中,这些模块和/或单元和/或子单元的名称在某种情况下并不构成对该模块和/或单元和/或子单元本身的限定。
作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现如下述实施例中所述的方法。例如,所述的电子设备可以实现如图3或图4或图5或图6或图8所示的各个步骤。
相关技术中,例如可以采用机器学习方法、深度学习方法等进行核保预测,不同方法适用的范围不同。核保常用的结论包括:标准体、次标准体、延期、拒保等,区别于传统分类问题的是,核保结论是一个具有类别相关性的分类问题,标准体、次标准体、延期、拒保对应类别的严重程度是递增的,而针对这种递增性分类问题的研究比较少,并且应用在核保业务的预测的更少。
图3示意性示出了根据本公开的一实施例的基于机器学习的数据处理方法的流程图。本公开实施方式的方法步骤可以由终端设备执行,也可以由服务端执行,或者由终端设备和服务端交互执行,例如,可以由上述图1中的服务器105执行,但本公开并不限定于此。
在步骤S310中,从客户端获取目标对象的当前健康数据图像。
在这里,所述客户端可以预先安装于终端设备,投保人、被保险人、保险代理人、保险经纪人或者保险公司的核保作业人员等,可以通过该客户端提交核保请求,所述核保请求中携带所述目标对象的当前健康数据图像,所述目标对象例如可以是被保险人。具体的,所述目标对象的当前健康数据图像可以包括所述目标对象距离当前时间最近的体检报告数据(也可以参考其历史上之前的体检报告数据)、医疗治疗数据(例如最近两年的服药、住院、手术等数据)、运动数据(例如每天的步行量、户外时长等数据)、生活习惯数据(例如是否吸烟、是否喝酒、饮食习惯、睡眠情况等数据)和居住环境数据(例如经常居住地点是哪里、生活环境的好坏等数据)等中的任意一项或者多项。在下面的举例说明中,以体检报告数据为例进行举例说明,此时当前健康数据图像包括被投保客户的体检报告影像,可以通过终端设备上安装的APP(application,应用程序或者客户端)投保系统,打开终端设备上设置的摄像头等图像传感器拍摄体检报告数据形成体检报告影像,但本公开对当前健康数据图像的获取方式并不限定于此,例如还可以从客户端的本地存储空间直接读取,或者从其他服务器接收所传输的当前健康数据图像。但本公开实际上并不限定于此,只要是与目标对象的身体健康相关的因素均可在核保过程中进行考虑。
本公开实施例中,终端设备可以以各种形式来实施。例如,本公开中描述的终端可以包括诸如手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(personal digitalassistant,PDA)、便捷式媒体播放器(portable media player,PMP)、基于机器学习的数据处理装置、可穿戴设备、智能手环、计步器、机器人、无人驾驶车等移动终端,以及诸如数字TV(television,电视机)、台式计算机等固定终端。
在步骤S320中,对所述当前健康数据图像进行光学字符识别和自然语言处理,获得所述当前健康数据图像的结构化体检数据。
本公开实施例中,服务器上可以部署承保系统,承保系统中可以包括体检影像结构化引擎,以用于提供体检报告影像资料的结构化API(Application ProgrammingInterface,应用程序接口)服务,可以对体检报告影像或者当前健康数据图像进行光学字符识别(Optical Character Recognition,OCR),识别出体检报告影像中的字符信息,然后再通过自然语言处理(Natural Language Processing,NLP)技术对OCR识别出的字符信息进行进一步的处理,获得当前健康数据图像的结构化体检数据。其中,NLP是人工智能的一个子领域。
在步骤S330中,对所述结构化体检数据进行量化处理,生成当前特征向量。
当服务器端接收到所述目标对象的体检报告数据后,其可以用特征向量的形式表达该体检报告数据。
在步骤S340中,对所述当前特征向量进行归一化处理。
这里还是以体检报告数据为所述当前健康数据为例,体检报告中包含多项检查化验项,例如通常包括:一般检查、血常规、尿常规、内科、外科、妇科、眼科、耳鼻喉科、口腔科、肝功、肾功、血糖、乙肝五项、超声检查、放射线检查、心电图等,其中与核保紧密相关的核心指标大约有244项,这些数据有矢量数据,也有标量数据,数据的量纲和重要性也不尽相同,为了能够将这244项体检数据合并到一个数据向量中,以便于后续经过模型训练的强分类器进行处理,可以对这些数据做归一化处理,以便将所有的数据归一化到同一个计量尺度相同的标量空间中。
例如,假设体检报告数据构成的当前特征向量为X={x1,x2,...,xn},其中xi表示目标对象的体检报告中的第i个体检指标项,n表示所述目标对象的体检报告中的体检指标项总数,n为大于1的正整数(例如244,但本公开并不限定于此,可以根据实际情况进行取值),i为大于等于1且小于等于n的正整数,那么第i个体检指标项xi的归一化计算公式可以为:
其中,上述公式(1)中,x'i为归一化后的第i个体检指标项,μ为当前特征向量X的均值,σ为当前特征向量X的标准差,分别可以通过以下公式计算获得:
由此可以获得归一化后的当前特征向量X'={x'1,x'2,...,x'n}。
在步骤S350中,通过强分类器对归一化后的当前特征向量进行处理,获得所述目标对象的当前核保结论。
其中,分类器是数据挖掘中对样本进行分类的方法的统称,包含决策树、逻辑回归、朴素贝叶斯、神经网络等算法。分类器的强弱是其分类能力的一种描述。能够迅速正确的识别的分类器就是强分类器,而易错的则是弱分类器。强分类器可以由多个弱分类器组成。
具体的,可以将上述归一化后的当前特征向量X'={x'1,x'2,...,x'n}输入到所述强分类器中,所述强分类器可以预测输出所述目标对象的当前核保结论。
在步骤S360中,将所述当前核保结论发送至所述客户端,以将所述当前核保结论显示于所述客户端。
具体的,服务器端根据目标对象的当前健康数据自动预测所述目标对象的当前核保结论后,可以将其返回至安装所述客户端的终端设备,以便于用户直观方便地查看核保结论。
本公开实施方式提供的基于机器学习的数据处理方法,一方面,通过从客户端获取目标对象的当前健康数据,生成当前特征向量;对所述当前特征向量进行归一化处理,能够使得不同量纲的健康数据归一化到同一个计量尺度相同的标量空间中,以便于后续的强分类器对其进行处理;另一方面,还通过强分类器对归一化后的当前特征向量进行处理,获得所述目标对象的当前核保结论;将所述当前核保结论发送至所述客户端,以将所述当前核保结论显示于所述客户端,从而可以实现基于目标对象的当前健康数据,通过强分类器自动预测核保结论,提高了核保作业效率和准确性,能够降低承保风险。同时,可以将其用于辅助核保作业人员进行核保,减轻核保作业人员的工作量,减少保险公司的时间成本和人力成本。
图4示意性示出了根据本公开的另一实施例的基于机器学习的数据处理方法的流程图。本公开实施例中,假设所述当前核保结论可以为第一核保结论(例如标准体)、第二核保结论(例如次标准体)和第三核保结论(例如延期)中的任一一种,所述强分类器可以包括第一强化分类器和第二强化分类器。
与上述实施例的不同之处在于,图4提供的基于机器学习的数据处理方法还可以进一步包括以下步骤。
在步骤S410中,分别构建第一弱分类器和第二弱分类器。
本公开实施例中,假设所述第一弱分类器和所述第二弱分类器均为二分类器,为了能够准确地预测三个核保结论,需要至少两个二分类器。
在步骤S420中,分别强化训练所述第一弱分类器和第二弱分类器,获得所述第一强化分类器和第二强化分类器。
在步骤S430中,级联所述第一强化分类器和第二强化分类器,构建所述强分类器。
其中,假设第一强化分类器可以用于预测所述目标对象属于第一核保结论或者第二核保结论和第三核保结论,第二强化分类器可以用于预测所述目标对象属于第一核保结论和第二核保结论或者第三核保结论,由此强分类器可以根据上述第一强化分类器和第二强化分类器的预测结果,获得最终的核保结论属于上述三种中的哪一种。
实验表明,并非所有的体检检查项都对核保结论的预测产生显著作用,因此,为了过滤低价值数据项,提高特征向量的描述能力,同时降低特征向量的维度,提高实时性,可以构建一个特征映射模型W,将原始的归一化后的当前特征向量映射到一个新的低维高价值密度特征空间中。针对上述不同的弱分类器,可以通过其相应的训练数据集构建不同的特征映射模型。
图5示意性示出了基于图4的步骤S410在一实施例中的流程图。
在步骤S411中,获取第一训练数据集D1。
具体的,可以获取大量历史对象(例如历史上已经向保险公司提出过核保请求且已经获得核保结论的被投保人,这里假设一共有m个历史对象,m为大于1的正整数)的历史健康数据例如各个历史对象的提交的用于核保的体检报告数据,将这些体检报告数据均用特征向量形式表示,例如Xj={xj1,xj2,...,xjn}表示第j个历史对象的n维的历史特征向量,其中j为大于等于1且小于等于m的正整数。参考上述公式(1)-(3)对这些历史特征向量进行归一化,可以获得归一化后的第j个历史特征向量为X'j={x'j1,x'j2,...,x'jn},再结合这m个历史对象的m个历史核保结论,可以构建第一训练数据集D1={(X'1,Y11),(X'2,Y12),...,(X'm,Y1m)},其中归一化后的第j个历史特征向量为第一训练数据集中的第j个样本,m表示第一训练数据集中的样本个数,样本X'j对应的类别标签为Y1j,Y1j∈{C1,C2,...,Ck},k为大于1的正整数,k表示类别标签的个数,以强分类器是基于级联的二分类器构建的,则k=2,还可以假设C1=-1,C2=1,但本公开并不限定于此,例如在其他实施例中,也可以假设C1=0,C2=1等等。(X'j,Y1j)表示第一训练数据集D1中的第j个样本的归一化后的历史特征向量是X'j,对应的类别标签是Y1j。
在步骤S412中,根据所述第一训练数据集获得第一特征映射模型W1。
在步骤S413中,利用所述第一特征映射模型和所述第一训练数据集构建所述第一弱分类器。
图6示意性示出了基于图5的步骤S412在一实施例中的流程图。本公开实施例中,所述第一训练数据集可以包括归一化后的历史特征向量及其对应的类别标签,所述类别标签可以包括第一类别标签和第二类别标签,所述第一类别标签可以对应所述第一核保结论,所述第二类别标签可以对应所述第二核保结论和所述第三核保结论。
在这里,假设将当前要预测的核保结论一共划分为三种,其中第一核保结论为“标准体”,第二核保结论为“次标准体”,第三核保结论为“延期”,三个核保结论对应的类别标签分别为{1,2,3},同时假设第一弱分类器用于区分核保结论{1}和{2,3},第二弱分类器用于区分核保结论{1,2}和{3},则若第j个样本的历史核保结论为“标准体”,在第一训练数据集中,X'j对应的类别标签是Y1j=-1;若第j个样本的历史核保结论为“次标准体”或者“延期”,在第一训练数据集中,X'j对应的类别标签是Y1j=1。
在步骤S4121中,分别计算所述第一类别标签和所述第二类别标签的历史特征向量的均值向量。
其中,第一训练数据集中的各个样本对应的类别标签假设为k,第q类别标签对应的第q类样本的均值向量μ1q可以通过以下公式计算获得:
上述公式(4)中,q为大于等于1且小于等于k的正整数,N1q表示第一训练数据集中属于第q类样本的个数,X’1q表示所述第一训练数据集中第q类样本的归一化后的历史特征向量的集合,X'1,g1,q表示所述第一训练数据集第q类样本中的第g1个样本的归一化后的历史特征向量,其中g1为大于等于1且小于等于N1q的正整数。
例如,在第一训练数据集中,属于第一类别标签“-1”的第1类样本为历史核保结论为“标准体”的样本,则第一类别标签的均值向量μ11等于历史核保结论为“标准体”的归一化后的历史特征向量的向量之和除以历史核保结论为“标准体”的历史对象的个数;第二类别标签的均值向量μ12等于历史核保结论为“次标准体”和“延期”的归一化后的历史特征向量的向量之和除以历史核保结论为“次标准体”和“延期”的历史对象的个数。
在步骤S4122中,根据所述第一类别标签和所述第二类别标签的历史特征向量的均值向量分别获得所述第一类别标签和所述第二类别标签的样本类内协方差矩阵。
其中,第一训练数据集的第q类样本的类内协方差矩阵∑1q可以通过以下公式计算获得:
上述公式中,T表示矩阵的转置。
例如,在第一训练数据集中,根据以上公式(5),可以计算第一类别标签的类内协方差矩阵∑11和第二类别标签的类内协方差矩阵∑12。
在步骤S4123中,根据所述第一类别标签和所述第二类别标签的样本类内协方差矩阵获得所述第一训练数据集的总类内散度矩阵。
其中,可以根据以下公式计算获得第一训练数据集的总类内散度矩阵S1w:
即第一训练数据集的总类内散度矩阵S1w等于第一训练数据集中各类样本的类内协方差矩阵之和。
在步骤S4124中,根据所述第一类别标签和所述第二类别标签的历史特征向量的均值向量以及所述第一训练数据集的均值向量获得所述第一训练数据集的总类间散度矩阵。
其中,根据以下公式可以计算获得所述第一训练数据集的总类间散度矩阵S1b:
上述公式中,μh表示所述第一训练数据集中所有样本的均值向量,可以通过以下公式计算获得:
在步骤S4125中,根据所述第一训练数据集的总类内散度矩阵和总类间散度矩阵获得所述第一特征映射模型W1。
其中,分类器(也可以称之为分类模型)的目标是离散类间样本的同时聚集类内样本,因此,对于采用二分类器的第一弱分类器,本公开实施例可以使用所述第一训练数据集的类内方差与类间方差构建目标函数为:
其中,J(W1)是构建的一个目标函数公式,它的分子是所述第一训练数据集的类间方差,分母是类内方差,区argmax最大时,分子类间方差最大,分母类内方差最小,也就是说此时对应的W1分类效果最好。W1={w11,w12,...,w1d}为n×d的矩阵,d为大于等于1的正整数,是待求解的第一弱分类器的特征映射模型矩阵。
基于Rayleigh Quotient(瑞利熵)理论,第一弱分类器的特征映射模型矩阵W1可以通过矩阵对应的最大特征值对应的特征向量得到,而这两个向量均是已知的,因此可以计算获得W1。
在得到W1后,第一训练数据集中的所有的样本归一化后的历史特征向量X'j都进行W1 TX'j的变换,得到X'j在新特征空间中的投影向量,投影后的特征向量的分布具有较为明显的类别分布,因此这里定义第一弱分类器(二分类器)G1(X'j)为:
在示例性实施例中,构建所述第二弱分类器,可以包括:获取第二训练数据集;根据所述第二训练数据集获得第二特征映射模型;利用所述第二特征映射模型和所述第二训练数据集构建所述第二弱分类器。
在示例性实施例中,所述第二训练数据集可以包括归一化后的历史特征向量及其对应的类别标签,所述类别标签可以包括第一类别标签和第二类别标签,所述第一类别标签可以对应所述第一核保结论和第二核保结论,所述第二类别标签对应所述第三核保结论。其中,根据所述第二训练数据集获得第二特征映射模型,可以包括:分别计算所述第一类别标签和所述第二类别标签的历史特征向量的均值向量;根据所述第一类别标签和所述第二类别标签的历史特征向量的均值向量分别获得所述第一类别标签和所述第二类别标签的样本类内协方差矩阵;根据所述第一类别标签和所述第二类别标签的样本类内协方差矩阵获得所述第二训练数据集的总类内散度矩阵;根据所述第一类别标签和所述第二类别标签的历史特征向量的均值向量以及所述第二训练数据集的均值向量获得所述第二训练数据集的总类间散度矩阵;根据所述第二训练数据集的总类内散度矩阵和总类间散度矩阵获得所述第二特征映射模型。
还是以上述获取m个历史对象及其m个体检报告数据为例,将这些体检报告数据均用特征向量形式表示,例如Xj={xj1,xj2,...,xjn}表示第j个历史对象的n维的历史特征向量,其中j为大于等于1且小于等于m的正整数。参考上述公式(1)-(3)对这些历史特征向量进行归一化,可以获得归一化后的第j个历史特征向量为X'j={x'j1,x'j2,...,x'jn},再结合这m个历史对象的m个历史核保结论,可以构建第二训练数据集D2={(X'1,Y21),(X'2,Y22),...,(X'm,Y2m)},其中归一化后的第j个历史特征向量为第二训练数据集中的第j个样本,m表示第二训练数据集中的样本个数,样本X'j对应的类别标签为Y2j,Y2j∈{C1,C2,...,Ck},k为大于1的正整数,k表示类别标签的个数,以强分类器是基于级联的二分类器构建的,则k=2,还可以假设C1=-1,C2=1,但本公开并不限定于此,例如在其他实施例中,也可以假设C1=0,C2=1等等。(X'j,Y2j)表示第二训练数据集D2中的第j个样本的归一化后的历史特征向量是X'j,对应的类别标签是Y2j。
在这里,假设将当前要预测的核保结论一共划分为三种,其中第一核保结论为“标准体”,第二核保结论为“次标准体”,第三核保结论为“延期”,三个核保结论对应的类别标签分别为{1,2,3},同时假设第一弱分类器用于区分核保结论{1}和{2,3},第二弱分类器用于区分核保结论{1,2}和{3},则若第j个样本的历史核保结论为“标准体”或者“次标准体”,在第二训练数据集中,X'j对应的类别标签是Y2j=-1;若第j个样本的历史核保结论为“延期”,在第二训练数据集中,X'j对应的类别标签是Y2j=1。
其中,第二训练数据集中的各个样本对应的类别标签假设为k,第q类别标签对应的第q类样本的均值向量μ2q可以通过以下公式计算获得:
上述公式(11)中,N2q表示第二训练数据集中属于第q类样本的个数,X’2q表示所述第二训练数据集中第q类样本的归一化历史特征向量的集合,X'2,g2,q表示所述第二训练数据集第q类样本中的第g2个样本的归一化后的历史特征向量,其中g2为大于等于1且小于等于N2q的正整数。
例如,在第二训练数据集中,属于第一类别标签“-1”的第1类样本为历史核保结论为“标准体”和“次标准体”的样本,则第一类别标签的均值向量μ21等于历史核保结论为“标准体”和“次标准体”的历史特征向量的向量之和除以历史核保结论为“标准体”和“次标准体”的历史对象的个数;第二类别标签的均值向量μ22等于历史核保结论为“延期”的历史特征向量的向量之和除以历史核保结论为“延期”的历史对象的个数。
其中,第二训练数据集的第q类样本的类内协方差矩阵∑2q可以通过以下公式计算获得:
例如,在第二训练数据集中,根据以上公式(12),可以计算第一类别标签的类内协方差矩阵∑21和第二类别标签的类内协方差矩阵∑22。
其中,可以根据以下公式计算获得第二训练数据集的总类内散度矩阵S2w:
即第二训练数据集的总类内散度矩阵S2w等于第二训练数据集中各类样本的类内协方差矩阵之和。
其中,根据以下公式可以计算获得所述第二训练数据集的总类间散度矩阵S2b:
对于采用二分类器的第二弱分类器,本公开实施例可以使用所述第二训练数据集的类内方差与类间方差构建目标函数为:
其中,J(W2)是构建的一个目标函数公式,它的分子是所述第二训练数据集的类间方差,分母是类内方差,区argmax最大时,分子类间方差最大,分母类内方差最小,也就是说此时对应的W2分类效果最好。W2={w21,w22,...,w2d}为n×d的矩阵,d为大于等于1的正整数,是待求解的第二弱分类器的特征映射模型矩阵。
由以上可知,第二弱分类器的特征映射模型矩阵W2可以通过矩阵对应的最大特征值对应的特征向量得到,而这两个向量均是已知的,因此可以计算获得W2。
在得到W2后,第二训练数据集中的所有的样本归一化后的历史特征向量X'j都进行W2 TX'j的变换,得到X'j在新特征空间中的投影向量,投影后的特征向量的分布具有较为明显的类别分布,因此这里定义第二弱分类器(二分类器)G2(X'j)为:
在示例性实施例中,强化训练所述第一弱分类器,获得所述第一强化分类器,可以包括:初始化所述第一训练数据集中的归一化后的历史特征向量的权值;在利用所述第一训练数据集强化训练所述第一弱分类器的过程中,迭代执行以下过程:根据当前时刻的权值计算所述当前时刻所述第一弱分类器的分类误差;根据所述当前时刻所述第一弱分类器的分类误差计算所述当前时刻所述第一弱分类器的权重;根据所述当前时刻所述第一弱分类器的权重更新下一时刻所述第一训练数据集中的归一化后的历史特征向量的权值;当所述第一弱分类器的分类误差最小时,根据所述第一弱分类器的权重构建所述第一强化分类器。
上述步骤中得到的第一弱分类器和第二弱分类器的特征映射模型W1和W2,可以在一定程度上实现映射后的特征向量具有较好的粗分类特性,但是由于体检报告各数据指标项并不严格服从高斯分布,因此结果不能直接用于强分类,可以组合多个弱分类器(这里以两个为例)构建可用于核保预测的强分类器。
首先,确定分类目标。这里选择使用Boost理论中关于级联弱分类器的方式构建强分类器,假设核保预测有三类结论,因此至少需要训练二个弱分类器,才能实现三分类的目标,定义核保结论为{标准体,次标准体,延期}的类别标签表示为{1,2,3},设计第一个弱分类器的分类任务为:{1}和{2,3};设计第二个弱分类器的分类任务为:{1,2}和{3}。这里两个分类任务所使用的第一训练数据集和第二训练数据集中的归一化后的历史特征向量X'j可以是相同的,但是类别标签Y1j和Y2j代表的核保结论的含义不同,分别按照上述分类标准构建第一弱分类器和第二弱分类器,得到两个特征映射模型W1和W2不同的第一弱分类器G1(X'j)和第二弱分类器G2(X'j)。
然后,初始化训练第一弱分类器和第二弱分类器用的数据。两个弱分类器对应了两份映射不同核保结论的类别标签的训练数据集,对应第一训练数据集和第二训练数据集的m个样本的权值分别被初始化为:
A1={a11,...,a1j,...,a1m}
A2={a21,...,a2j,...,a2m}
其中a1j表示第一弱分类器的第一训练数据集中第j个样本的权值,a2j表示第二弱分类器的第二训练数据集中第j个样本的权值,j的取值范围为{1,2,...,m}。每个样本的权值被初始化为:
a1j=a2j=1/m (17)
然后,训练第一弱分类器和第二弱分类器以及更新样本数据的权值。为了构建最终的强分类器,这里以各弱分类器分类误差的和最小化为目标函数,最终强分类器的分类误差为各个级联的弱分类器分类误差之和最小化,即以经过强化训练的各个弱分类器的分类误差之和最小化为训练目标,为了达到这个目标,需要最小化各个弱分类器的分类误差。
其中,第一弱分类器G1(X'j)的分类误差e1计算公式可以如下:
第二弱分类器G2(X'j)的分类误差e2计算公式可以如下:
e1表示第一弱分类器作用下得到的未正确分类的样本数据对应的权值之和;e2表示第二弱分类器作用下得到的未正确分类的样本数据对应的权值之和。I(G1(X'j)≠Y1j)和I(G2(X'j)≠Y2j)条件成立时值为1,不成立时值为0。
第一弱分类器G1(X'j)的权重可以通过以下公式计算获得:
第二弱分类器G2(X'j)的权重可以通过以下公式计算获得:
对于更新各弱分类器的训练数据集中的样本数据的权值,下面以第一弱分类器的样本的权值更新为例进行举例说明,其他弱分类器的样本的权值更新方式与此类似。假设t时刻(作为当前时刻)第一训练数据集中的样本的权值为:
A1,t={a1,t,1,...,a1,t,j,...,a1,t,m}
a1,t,j表示第一弱分类器的第一训练数据集中第j个样本在t时刻的权值。
那么,t+1时刻(作为下一时刻)第一训练数据集中的样本的权值为:
A1,t+1={a1,t+1,1,...,a1,t+1,j,...,a1,t+1,m}
其中,可以根据以下公式计算第一弱分类器的第一训练数据集中第j个样本在t+1时刻的权值a1,t+1,j:
上述公式中,α1,t表示第一弱分类器在t时刻的权重,G1,t(X'j)表示第一弱分类器在t时刻对应样本数据X'j的输出。
需要说明的是,各个弱分类器的权重在各个弱分类器训练阶段是一个动态调整的值,其值大小与相应弱分类器在t时刻的分类误差有关,训练完后是一个固定的值。以第一弱分类器为例,在训练过程中,计算t时刻第一弱分类器的分类误差e1,t,获得t时刻第一弱分类器的权重α1,t,然后,根据α1,t更新t+1时刻第一弱分类器的每个样本数据的权值,这样迭代训练下去,直到第一弱分类器的某一个时刻的分类误差e1达到最小值,第一弱分类器训练结束。
最后,可以基于强化训练后的第一弱分类器构建第一强化分类器如下:
上述公式中α1是第一弱分类器强化训练结束后获得的第一弱分类器的权重。
可以基于强化训练后的第二弱分类器构建第二强化分类器如下:
上述公式中α2是第二弱分类器强化训练结束后获得的第二弱分类器的权重。
将第一强化分类器和第二强化分类器级联后获得最终的强分类器。然后可以基于以下规则实现最终的核保结论预测:先使用第一强化分类器判断所述目标对象属于第1类即第一核保结论“标准体”还是其它(包括“次标准体”和“延期”);如果所述目标对象属于其它,再使用第二强化分类器判断所述目标对象是属于第2类即第二核保结论“次标准体”还是第3类即第三核保结论“延期”。三个分类结果,最多执行两次分类即可完成核保结论的预测。
需要说明的是,上述举例说明中,均是以核保结论分为三类为例进行说明的,但本公开实施例提供的方法对核保结论的分类数量和分类类型并不作限制,例如其还可以分为四类,例如第一至第四核保结论分别为“标准体”、“次标准体”、“延期”和“拒保”;再例如其还可以分为五类,例如第一至第五核保结论分别为“标准体”、“次标准体”、“延期”、“加费”和“拒保”等等。
下面以分为四类,且假设第一至第四核保结论分别为“标准体”、“次标准体”、“延期”和“拒保”,且这四个核保结论的类别标签表示为{1,2,3,4},为例进行说明。
获取大量历史对象(例如历史上已经向保险公司提出过核保请求且已经获得核保结论的被投保人,这里假设一共有m个历史对象,m为大于1的正整数)的历史健康数据例如各个历史对象的提交的用于核保的体检报告数据,将这些体检报告数据均用特征向量形式表示,例如Xj={xj1,xj2,...,xjn}表示第j个历史对象的n维的历史特征向量,其中j为大于等于1且小于等于m的正整数。参考上述公式(1)-(3)对这些历史特征向量进行归一化,可以获得归一化后的第j个历史特征向量为X'j={x'j1,x'j2,...,x'jn},再结合这m个历史对象的m个历史核保结论,可以构建第一训练数据集D1={(X'1,Y11),(X'2,Y12),...,(X'm,Y1m)},第二训练数据集D2={(X'1,Y21),(X'2,Y22),...,(X'm,Y2m)},第三训练数据集D3={(X'1,Y31),(X'2,Y32),...,(X'm,Y3m)},其中归一化后的第j个历史特征向量为第一至第三训练数据集中的第j个样本,m表示第一至第三训练数据集中的样本个数,在第一至第三训练数据集中,样本X'j对应的类别标签分别为Y1j,Y2j,Y3j,Y1j∈{C1,C2,...,Ck},Y2j∈{C1,C2,...,Ck},Y3j∈{C1,C2,...,Ck},k为大于1的正整数,k表示类别标签的个数,以强分类器是基于级联的二分类器构建的,则k=2,还可以假设C1=-1,C2=1,但本公开并不限定于此,例如在其他实施例中,也可以假设C1=0,C2=1等等。(X'j,Y1j)表示第一训练数据集D1中的第j个样本的归一化后的历史特征向量是X'j,对应的类别标签是Y1j。(X'j,Y2j)表示第二训练数据集D2中的第j个样本的归一化后的历史特征向量是X'j,对应的类别标签是Y2j。(X'j,Y3j)表示第三训练数据集D3中的第j个样本的归一化后的历史特征向量是X'j,对应的类别标签是Y3j。
为了实现采用多个级联的二分类器实现四分类的目的,设计了三个二分类的第一至第三弱分类器。同时假设第一弱分类器用于区分核保结论{1}和{2,3,4},第二弱分类器用于区分核保结论{1,2}和{3,4},第三个弱分类器用于区分核保结论{1,2,3}和{4},则若第j个样本的历史核保结论为“标准体”,在第一训练数据集中,X'j对应的类别标签是Y1j=-1;若第j个样本的历史核保结论为“次标准体”或者“延期”或者“拒保”,在第一训练数据集中,X'j对应的类别标签是Y1j=1。若第j个样本的历史核保结论为“标准体”或者“次标准体”,在第二训练数据集中,X'j对应的类别标签是Y2j=-1;若第j个样本的历史核保结论为“延期”或者“拒保”,在第二训练数据集中,X'j对应的类别标签是Y2j=1。若第j个样本的历史核保结论为“标准体”或者“次标准体”或者“延期”,在第三训练数据集中,X'j对应的类别标签是Y3j=-1;若第j个样本的历史核保结论为“拒保”,在第三训练数据集中,X'j对应的类别标签是Y3j=1。
在第一训练数据集中,属于第一类别标签“-1”的第1类样本为历史核保结论为“标准体”的样本,则第一类别标签的均值向量μ11等于历史核保结论为“标准体”的归一化后的历史特征向量的向量之和除以历史核保结论为“标准体”的历史对象的个数;第二类别标签的均值向量μ12等于历史核保结论为“次标准体”、“延期”和“拒保”的归一化后的历史特征向量的向量之和除以历史核保结论为“次标准体”、“延期”和“拒保”的历史对象的个数。
在第二训练数据集中,属于第一类别标签“-1”的第1类样本为历史核保结论为“标准体”和“次标准体”的样本,则第一类别标签的均值向量μ21等于历史核保结论为“标准体”和“次标准体”的归一化后的历史特征向量的向量之和除以历史核保结论为“标准体”和“次标准体”的历史对象的个数;第二类别标签的均值向量μ22等于历史核保结论为“延期”和“拒保”的归一化后的历史特征向量的向量之和除以历史核保结论为“延期”和“拒保”的历史对象的个数。
在第三训练数据集中,属于第一类别标签“-1”的第1类样本为历史核保结论为“标准体”、“次标准体”和“延期”的样本,则第一类别标签的均值向量μ31等于历史核保结论为“标准体”、“次标准体”和“延期”的归一化后的历史特征向量的向量之和除以历史核保结论为“标准体”、“次标准体”和“延期”的历史对象的个数;第二类别标签的均值向量μ32等于历史核保结论为“拒保”的归一化后的历史特征向量的向量之和除以历史核保结论为“拒保”的历史对象的个数。
其中,参照上述公式(5),第一训练数据集的第1类样本的类内协方差矩阵∑11可以根据第1类样本的均值向量μ11和第1类样本中的归一化后的历史特征向量计算获得;第一训练数据集的第2类样本的类内协方差矩阵∑12可以根据第2类样本的均值向量μ12和第2类样本中的归一化后的历史特征向量计算获得。进而可以根据第一训练数据集中各类样本的类内协方差矩阵获得第一训练数据集的总类内散度矩阵S1w=∑11+∑12。此外,参考上述公式(7),可以根据第一训练数据集中第1类样本的均值向量μ11以及第1类样本的历史对象的个数、第2类样本的均值向量μ12以及第2类样本的历史对象的个数和第一训练数据集中所有样本的均值向量,计算获得第一训练数据集的总类间散度矩阵S1b。参考上述公式(9),第一弱分类器的特征映射模型矩阵W1可以通过矩阵对应的最大特征值对应的特征向量得到,而这两个向量均是已知的,因此可以计算获得W1。在得到W1后,第一训练数据集中的所有的样本归一化后的历史特征向量X'j都进行W1 TX'j的变换,得到X'j在新特征空间中的投影向量,投影后的特征向量的分布具有较为明显的类别分布,参考上述公式(10)构建第一弱分类器(二分类器)G1(X'j)。
第二训练数据集的第1类样本的类内协方差矩阵∑21可以根据第1类样本的均值向量μ21和第1类样本中的归一化后的历史特征向量计算获得;第二训练数据集的第2类样本的类内协方差矩阵∑22可以根据第2类样本的均值向量μ22和第2类样本中的归一化后的历史特征向量计算获得。进而可以根据第二训练数据集中各类样本的类内协方差矩阵获得第二训练数据集的总类内散度矩阵S2w=∑21+∑22。此外,可以根据第二训练数据集中第1类样本的均值向量μ21以及第1类样本的历史对象的个数、第2类样本的均值向量μ22以及第2类样本的历史对象的个数和第二训练数据集中所有样本的均值向量,计算获得第二训练数据集的总类间散度矩阵S2b。类似地,第二弱分类器的特征映射模型矩阵W2可以通过矩阵对应的最大特征值对应的特征向量得到,而这两个向量均是已知的,因此可以计算获得W2。在得到W2后,第二训练数据集中的所有的样本归一化后的历史特征向量X'j都进行W2 TX'j的变换,得到X'j在新特征空间中的投影向量,投影后的特征向量的分布具有较为明显的类别分布,构建第二弱分类器(二分类器)G2(X'j)。
第三训练数据集的第1类样本的类内协方差矩阵∑31可以根据第1类样本的均值向量μ31和第1类样本中的归一化后的历史特征向量计算获得;第三训练数据集的第2类样本的类内协方差矩阵∑32可以根据第2类样本的均值向量μ32和第2类样本中的归一化后的历史特征向量计算获得。进而可以根据第三训练数据集中各类样本的类内协方差矩阵获得第三训练数据集的总类内散度矩阵S3w=∑31+∑32。此外,可以根据第三训练数据集中第1类样本的均值向量μ31以及第1类样本的历史对象的个数、第2类样本的均值向量μ32以及第2类样本的历史对象的个数和第三训练数据集中所有样本的均值向量,计算获得第三训练数据集的总类间散度矩阵S3b。类似地,第三弱分类器的特征映射模型矩阵W3可以通过矩阵对应的最大特征值对应的特征向量得到,而这两个向量均是已知的,因此可以计算获得W3。在得到W3后,第三训练数据集中的所有的样本归一化后的历史特征向量X'j都进行W3 TX'j的变换,得到X'j在新特征空间中的投影向量,投影后的特征向量的分布具有较为明显的类别分布,构建第三弱分类器(二分类器)G3(X'j):/>
初始化训练第一弱分类器、第二弱分类器和第三弱分类器用的数据。三个弱分类器对应了三份映射不同核保结论的类别标签的训练数据集,对应第一训练数据集、第二训练数据集和第三训练数据集的m个样本的权值分别被初始化为:
A1={a11,...,a1j,...,a1m}
A2={a21,...,a2j,...,a2m}
A3={a31,...,a3j,...,a3m}
其中a1j表示第一弱分类器的第一训练数据集中第j个样本的权值,a2j表示第二弱分类器的第二训练数据集中第j个样本的权值,a3j表示第三弱分类器的第三训练数据集中第j个样本的权值,j的取值范围为{1,2,...,m}。每个样本的权值被初始化为:
a1j=a2j=a3j=1/m (26)
然后,训练第一弱分类器、第二弱分类器和第三分类器以及更新样本数据的权值。为了构建最终的强分类器,这里以各弱分类器分类误差的和最小化为目标函数,最终强分类器的分类误差为各个级联的弱分类器分类误差之和最小化,即以经过强化训练的各个弱分类器的分类误差之和最小化为训练目标,为了达到这个目标,需要最小化各个弱分类器的分类误差。
其中,参照上述公式(18)可以获得第一弱分类器G1(X'j)的分类误差e1。参照上述公式(19)可以获得第二弱分类器G2(X'j)的分类误差e2。类似的,可以通过以下公式计算获得第三弱分类器G3(X'j)的分类误差e3:
e3表示第三弱分类器作用下得到的未正确分类的样本数据对应的权值之和。I(G3(X'j)≠Y3j)条件成立时值为1,不成立时值为0。
参照上述公式(20),可以获得第一弱分类器G1(X'j)的权重α1。参照上述公式(21)第二弱分类器G2(X'j)的权重α2。类似地,可以通过以下公式计算获得第三弱分类器G3(X'j)的权重α3:
对于更新各弱分类器的训练数据集中的样本数据的权值,下面以第一弱分类器的样本的权值更新为例进行举例说明,其他弱分类器的样本的权值更新方式与此类似。假设t时刻(作为当前时刻)第一训练数据集中的样本的权值为:
A1,t={a1,t,1,...,a1,t,j,...,a1,t,m}
a1,t,j表示第一弱分类器的第一训练数据集中第j个样本在t时刻的权值。
那么,t+1时刻(作为下一时刻)第一训练数据集中的样本的权值为:
A1,t+1={a1,t+1,1,...,a1,t+1,j,...,a1,t+1,m}
其中,可以根据参照上述公式(22)计算第一弱分类器的第一训练数据集中第j个样本在t+1时刻的权值a1,t+1,j。各个弱分类器的权重在各个弱分类器训练阶段是一个动态调整的值,其值大小与相应弱分类器在t时刻的分类误差有关,训练完后是一个固定的值。以第一弱分类器为例,在训练过程中,计算t时刻第一弱分类器的分类误差e1,t,获得t时刻第一弱分类器的权重α1,t,然后,根据α1,t更新t+1时刻第一弱分类器的每个样本数据的权值,这样迭代训练下去,直到第一弱分类器的某一个时刻的分类误差e1达到最小值,第一弱分类器训练结束。
最后,可以参照上述公式(23)基于强化训练后的第一弱分类器构建第一强化分类器O1(X'j)。可以参照上述公式(24)基于强化训练后的第二弱分类器构建第二强化分类器O2(X'j)。类似地,可以基于强化训练后的第三弱分类器构建第三强化分类器如下:
上述公式中α3是第三弱分类器强化训练结束后获得的第三弱分类器的权重。
将第一强化分类器、第二强化分类器和第三强化分类器级联后获得最终的强分类器。然后可以基于以下如图7所示的规则实现最终的核保结论预测:先使用第一强化分类器判断所述目标对象属于第1类即第一核保结论“标准体”还是其它(包括“次标准体”、“延期”和“拒保”);如果所述目标对象属于其它,再使用第二强化分类器判断所述目标对象是属于第2类即第二核保结论“次标准体”还是其它(包括“延期”和“拒保”);如果所述目标对象还是属于其它,再使用第三强化分类器判断所述目标对象属于第3类(第三核保结论“延期”)还是第四类(第四核保结论“拒保”)。四个分类结果,最多执行三次分类即可完成核保结论的预测。
本公开实施方式提供的基于机器学习的数据处理方法,能够实现基于被投保人的健康数据例如体检报告数据进行核保结论的自动预测,有利于大幅减轻核保工作的压力,提升了业务作业效率和自动化率,为实现自动化核保打下基础。也可以将其作为一种辅助核保结论复核手段,对人工审核结果进行复核,减少核保出错率,降低成本风险。本公开实施例提供的方法,可以被快速集成进各类软件系统中。例如:在认知核保项目中,基于机器学习的数据处理方法被独立的封装成一个软件服务,实时的为保险公司的其他作业系统提供基于机器学习的数据处理支持,作业人员可根据核保预测结论决定在审核时需要投入的精力大小,提升了工作效率,降低了承保风险。
下面结合图8和9对本公开实施例提供的方法用于保险核保系统的实现过程进行举例说明。
图8示意性示出了根据本公开的一实施例的保险承保过程的流程图。
如图8所示,本公开实施例中,保险承保过程可以包括以下步骤。
在步骤S801,客户可以通过其终端设备上安装的APP投保系统进行投保。
在步骤S802,该客户可以在APP上选择保险产品并填写个人信息,这里的个人信息例如可以包括该客户的真实姓名、身份证号码、手机号码、住址等信息。
在步骤S803,通过APP打开终端设备的摄像头拍摄该客户的体检报告形成体检报告影像上传至后台承保系统所在的服务器。
在步骤S804,客户投保信息(包括客户个人信息和体检报告影像)全部发送给后台承保系统。
在步骤S805,承保系统收到客户发送的核保请求或者投保请求,进行初级审核,该核保请求包括上述客户个人信息和体检报告影像。
在步骤S806,初级审核中,判断上传的客户个人信息和体检报告影像等资料是否完整;如果不完整,则调回到步骤S801,让该客户在客户端补充资料。
在步骤S807,若判断资料完整,则触发影像结构化服务,对体检报告影像进行OCR识别、NLP等处理后,整理成结构化体检数据。
如图9所示,承保系统包括体检影像结构化引擎,可以提供体检报告影像的结构化API服务。在这里,体检影像结构化引擎可以采用分布式形式,部署于多台服务器上,从而可以对多并发的海量的核保请求或者投保请求进行并行处理,提高了处理效率,能够实时响应用户请求。
本公开实施例中,体检影像结构化引擎可以采用微服务架构。微服务架构是一种架构模式,它提倡将单一应用程序划分成一组小的服务,服务之间相互协调、互相配合,为用户提供最终价值。每个服务运行在其独立的进程中,服务和服务之间采用轻量级的通信机制相互沟通(通常是基于HTTP的Restful API)。每个服务都围绕着具体的业务进行构建,并且能够被独立的部署到生产环境、类生产环境等。采用微服务结构,可以提升开发交流,每个服务足够内聚,足够小,代码容易理解;服务独立测试、部署、升级、发布;按需定制,可以提高资源利用率,每个服务可以各自进行x扩展和z扩展,而且,每个服务可以根据自己的需要部署到合适的硬件服务器上;每个服务按需要选择接受服务的实例个数;容易扩大开发团队,可以针对每个服务(service)组件开发团队;提高容错性(fault isolation),一个服务的内存泄露并不会让整个系统瘫痪;新技术的应用,系统不会被长期限制在某个技术栈上。
在步骤S808,对结构化体检数据进行量化,形成多维数据向量。
在步骤S809,基于体检报告数据和核保预测模型,进行核保结论预测。
继续参考图9,承保系统还可以包括核保结论预测引擎,提高核保结论预测API服务。图9实施例中,核保结论预测引擎也可以采用分布式形式,部署于多台服务器上。在其他实施例中,核保结论预测引擎也可以采用微服务架构。
在步骤S810,将核保结论返回给承保系统。
在步骤S811,对结论进行审核确认。
在步骤S812,将核保结论通过APP反馈给客户。
图9实施例中,承保系统还可以包括MySQL数据库(一种关系型数据库管理系统),可以用于存放客户的账户信息、鉴权信息、结构化体检数据、预测的核保结论数据以及复核后的核保结论数据等等。但本公开并不限定于此,例如,也可以将上述信息存储于区块链中。
图10示意性示出了根据本公开的一实施例的基于机器学习的数据处理装置的框图。本公开实施例提供的基于机器学习的数据处理装置1000可以设置在终端设备上,也可以设置在服务端上,或者部分设置在终端设备上,部分设置在服务端上,例如,可以设置在图1中的服务器105,但本公开并不限定于此。
本公开实施例提供的基于机器学习的数据处理装置1000可以包括健康数据图像获取模块1010、结构化数据获得模块1020、特征向量生成模块1030、向量归一处理模块1040、核保结论预测模块1050以及核保结论发送模块1060。
其中,健康数据图像获取模块1010可以配置为从客户端获取目标对象的当前健康数据图像。结构化数据获得模块1020可以配置为对所述当前健康数据图像进行光学字符识别和自然语言处理,获得所述当前健康数据图像的结构化体检数据。特征向量生成模块1030可以配置为对所述结构化体检数据进行量化处理,生成当前特征向量。向量归一处理模块1040可以配置为对所述当前特征向量进行归一化处理。核保结论预测模块1050可以配置为通过强分类器对归一化后的当前特征向量进行处理,获得所述目标对象的当前核保结论。核保结论发送模块1060可以配置为将所述当前核保结论发送至所述客户端,以将所述当前核保结论显示于所述客户端。
在示例性实施例中,所述当前核保结论可以为第一核保结论、第二核保结论和第三核保结论中的任一一种,所述强分类器可以包括第一强化分类器和第二强化分类器。
在示例性实施例中,基于机器学习的数据处理装置1010还可以包括:弱分类器构建模块,可以配置为分别构建第一弱分类器和第二弱分类器;分类器强化训练模块,可以配置为分别强化训练所述第一弱分类器和第二弱分类器,获得所述第一强化分类器和第二强化分类器;强分类器构建模块,可以配置为级联所述第一强化分类器和第二强化分类器,构建所述强分类器。
在示例性实施例中,所述弱分类器构建模块可以包括:第一数据集获取单元,可以配置为获取第一训练数据集;第一映射模型获得单元,可以配置为根据所述第一训练数据集获得第一特征映射模型;第一弱分类器构建单元,可以配置为利用所述第一特征映射模型和所述第一训练数据集构建所述第一弱分类器。
在示例性实施例中,所述第一训练数据集包括归一化后的历史特征向量及其对应的类别标签,所述类别标签包括第一类别标签和第二类别标签,所述第一类别标签对应所述第一核保结论,所述第二类别标签对应所述第二核保结论和所述第三核保结论。
在示例性实施例中,所述第一映射模型获得单元可以包括:第一均值向量计算子单元,可以配置为分别计算所述第一类别标签和所述第二类别标签的历史特征向量的均值向量;第一类内协方差获得子单元,可以配置为根据所述第一类别标签和所述第二类别标签的历史特征向量的均值向量分别获得所述第一类别标签和所述第二类别标签的样本类内协方差矩阵;第一类内散度矩阵获得子单元,可以配置为根据所述第一类别标签和所述第二类别标签的样本类内协方差矩阵获得所述第一训练数据集的总类内散度矩阵;第一类间散度矩阵获得子单元,可以配置为根据所述第一类别标签和所述第二类别标签的历史特征向量的均值向量以及所述第一训练数据集的均值向量获得所述第一训练数据集的总类间散度矩阵;第一映射模型获得子单元,可以配置为根据所述第一训练数据集的总类内散度矩阵和总类间散度矩阵获得所述第一特征映射模型。
在示例性实施例中,所述弱分类器构建模块可以包括:第二数据集获取单元,可以配置为获取第二训练数据集;第二映射模型获得单元,可以配置为根据所述第二训练数据集获得第二特征映射模型;第二弱分类器构建单元,可以配置为利用所述第二特征映射模型和所述第二训练数据集构建所述第二弱分类器。
在示例性实施例中,所述第二训练数据集包括归一化后的历史特征向量及其对应的类别标签,所述类别标签包括第一类别标签和第二类别标签,所述第一类别标签对应所述第一核保结论和第二核保结论,所述第二类别标签对应所述第三核保结论。
在示例性实施例中,所述第二映射模型获得单元可以包括:第二均值向量计算子单元,可以配置为分别计算所述第一类别标签和所述第二类别标签的历史特征向量的均值向量;第二类内协方差获得子单元,可以配置为根据所述第一类别标签和所述第二类别标签的历史特征向量的均值向量分别获得所述第一类别标签和所述第二类别标签的样本类内协方差矩阵;第二类内散度矩阵获得子单元,可以配置为根据所述第一类别标签和所述第二类别标签的样本类内协方差矩阵获得所述第二训练数据集的总类内散度矩阵;第二类间散度矩阵获得子单元,可以配置为根据所述第一类别标签和所述第二类别标签的历史特征向量的均值向量以及所述第二训练数据集的均值向量获得所述第二训练数据集的总类间散度矩阵;第二映射模型获得子单元,可以配置为根据所述第二训练数据集的总类内散度矩阵和总类间散度矩阵获得所述第二特征映射模型。
在示例性实施例中,所述分类器强化训练模块可以进一步配置为:初始化所述第一训练数据集中的归一化后的历史特征向量的权值;在利用所述第一训练数据集强化训练所述第一弱分类器的过程中,迭代执行以下过程:根据当前时刻的权值计算所述当前时刻所述第一弱分类器的分类误差;根据所述当前时刻所述第一弱分类器的分类误差计算所述当前时刻所述第一弱分类器的权重;根据所述当前时刻所述第一弱分类器的权重更新下一时刻所述第一训练数据集中的归一化后的历史特征向量的权值;当所述第一弱分类器的分类误差最小时,根据所述第一弱分类器的权重构建所述第一强化分类器。
本公开实施方式提供的基于机器学习的数据处理装置,一方面,通过从客户端获取目标对象的当前健康数据图像,生成当前特征向量;对所述当前特征向量进行归一化处理,能够使得不同量纲的健康数据归一化到同一个计量尺度相同的标量空间中,以便于后续的强分类器对其进行处理;另一方面,还通过强分类器对归一化后的当前特征向量进行处理,获得所述目标对象的当前核保结论;将所述当前核保结论发送至所述客户端,以将所述当前核保结论显示于所述客户端,从而可以实现基于目标对象的当前健康数据,通过强分类器自动预测核保结论,提高了核保作业效率和准确性,能够降低承保风险。同时,可以将其用于辅助核保作业人员进行核保,减轻核保作业人员的工作量,减少保险公司的时间成本和人力成本。
本公开实施例提供的基于机器学习的数据处理装置中的各个模块、单元和子单元的具体实现可以参照上述基于机器学习的数据处理方法中的内容,在此不再赘述。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块、单元和子单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块、单元和子单元的特征和功能可以在一个模块、单元和子单元中具体化。反之,上文描述的一个模块、单元和子单元的特征和功能可以进一步划分为由多个模块、单元和子单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本公开实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (7)
1.一种基于机器学习的数据处理方法,其特征在于,包括:
从客户端获取目标对象的当前健康数据图像;
对所述当前健康数据图像进行光学字符识别和自然语言处理,获得所述当前健康数据图像的结构化体检数据;
对所述结构化体检数据进行量化处理,生成当前特征向量;
对所述当前特征向量进行归一化处理;
通过强分类器对归一化后的当前特征向量进行处理,获得所述目标对象的当前核保结论;
将所述当前核保结论发送至所述客户端,以将所述当前核保结论显示于所述客户端;
其中,所述强分类器由多个强化分类器级联得到,每个所述强化分类器由弱分类器强化训练得到,所述弱分类器为二分类器,所述弱分类器用于区分核保结论,不同弱分类器区分的核保结论不同;所述核保结论是一个具有类别相关性的分类问题;
其中,所述当前核保结论为第一核保结论、第二核保结论和第三核保结论中的任一一种,所述强分类器包括第一强化分类器和第二强化分类器;所述强分类器的构建过程,包括:
分别构建第一弱分类器和第二弱分类器;
分别强化训练所述第一弱分类器和第二弱分类器,获得所述第一强化分类器和第二强化分类器;
级联所述第一强化分类器和第二强化分类器,构建所述强分类器;
构建所述第一弱分类器,包括:
获取第一训练数据集;
根据所述第一训练数据集获得第一特征映射模型;
利用所述第一特征映射模型和所述第一训练数据集构建所述第一弱分类器;
其中,所述第一训练数据集包括归一化后的历史特征向量及其对应的类别标签,所述类别标签包括第一类别标签和第二类别标签,所述第一类别标签对应所述第一核保结论,所述第二类别标签对应所述第二核保结论和所述第三核保结论;其中,根据所述第一训练数据集获得第一特征映射模型,包括:
分别计算所述第一类别标签和所述第二类别标签的历史特征向量的均值向量;
根据所述第一类别标签和所述第二类别标签的历史特征向量的均值向量分别获得所述第一类别标签和所述第二类别标签的样本类内协方差矩阵;
根据所述第一类别标签和所述第二类别标签的样本类内协方差矩阵获得所述第一训练数据集的总类内散度矩阵;
根据所述第一类别标签和所述第二类别标签的历史特征向量的均值向量以及所述第一训练数据集的均值向量获得所述第一训练数据集的总类间散度矩阵;
根据所述第一训练数据集的总类内散度矩阵和总类间散度矩阵获得所述第一特征映射模型;
在所述弱分类器用于区分的核保结论包括:第一核保结论、第二核保结论和第三核保结论时,所述弱分类器包括第一弱分类器和第二弱分类器,所述第一弱分类器用于区分{第一核保结论}以及{第二核保结论,第三核保结论};所述第二弱分类器用于区分{第一核保结论,第二核保结论}以及{第三核保结论};其中,所述第一核保结论为标准体、所述第二核保结论为次标准体、所述第三核保结论为延期。
2.根据权利要求1所述的方法,其特征在于,构建所述第二弱分类器,包括:
获取第二训练数据集;
根据所述第二训练数据集获得第二特征映射模型;
利用所述第二特征映射模型和所述第二训练数据集构建所述第二弱分类器。
3.根据权利要求2所述的方法,其特征在于,所述第二训练数据集包括归一化后的历史特征向量及其对应的类别标签,所述类别标签包括第一类别标签和第二类别标签,所述第一类别标签对应所述第一核保结论和第二核保结论,所述第二类别标签对应所述第三核保结论;其中,根据所述第二训练数据集获得第二特征映射模型,包括:
分别计算所述第一类别标签和所述第二类别标签的历史特征向量的均值向量;
根据所述第一类别标签和所述第二类别标签的历史特征向量的均值向量分别获得所述第一类别标签和所述第二类别标签的样本类内协方差矩阵;
根据所述第一类别标签和所述第二类别标签的样本类内协方差矩阵获得所述第二训练数据集的总类内散度矩阵;
根据所述第一类别标签和所述第二类别标签的历史特征向量的均值向量以及所述第二训练数据集的均值向量获得所述第二训练数据集的总类间散度矩阵;
根据所述第二训练数据集的总类内散度矩阵和总类间散度矩阵获得所述第二特征映射模型。
4.根据权利要求1所述的方法,其特征在于,强化训练所述第一弱分类器,获得所述第一强化分类器,包括:
初始化所述第一训练数据集中的归一化后的历史特征向量的权值;
在利用所述第一训练数据集强化训练所述第一弱分类器的过程中,迭代执行以下过程:
根据当前时刻的权值计算所述当前时刻所述第一弱分类器的分类误差;
根据所述当前时刻所述第一弱分类器的分类误差计算所述当前时刻所述第一弱分类器的权重;
根据所述当前时刻所述第一弱分类器的权重更新下一时刻所述第一训练数据集中的归一化后的历史特征向量的权值;
当所述第一弱分类器的分类误差最小时,根据所述第一弱分类器的权重构建所述第一强化分类器。
5.一种基于机器学习的数据处理装置,其特征在于,包括:
健康数据图像获取模块,配置为从客户端获取目标对象的当前健康数据图像;
结构化数据获得模块,配置为对所述当前健康数据图像进行光学字符识别和自然语言处理,获得所述当前健康数据图像的结构化体检数据;
特征向量生成模块,配置为对所述结构化体检数据进行量化处理,生成当前特征向量;
向量归一处理模块,配置为对所述当前特征向量进行归一化处理;
核保结论预测模块,配置为通过强分类器对归一化后的当前特征向量进行处理,获得所述目标对象的当前核保结论;
核保结论发送模块,配置为将所述当前核保结论发送至所述客户端,以将所述当前核保结论显示于所述客户端;
其中,所述强分类器由多个强化分类器级联得到,每个所述强化分类器由弱分类器强化训练得到,所述弱分类器为二分类器,所述弱分类器用于区分核保结论,不同弱分类器区分的核保结论不同;所述核保结论是一个具有类别相关性的分类问题;
其中,所述当前核保结论为第一核保结论、第二核保结论和第三核保结论中的任一一种,所述强分类器包括第一强化分类器和第二强化分类器;所述强分类器的构建过程,包括:
分别构建第一弱分类器和第二弱分类器;
分别强化训练所述第一弱分类器和第二弱分类器,获得所述第一强化分类器和第二强化分类器;
级联所述第一强化分类器和第二强化分类器,构建所述强分类器;
构建所述第一弱分类器,包括:
获取第一训练数据集;
根据所述第一训练数据集获得第一特征映射模型;
利用所述第一特征映射模型和所述第一训练数据集构建所述第一弱分类器;
其中,所述第一训练数据集包括归一化后的历史特征向量及其对应的类别标签,所述类别标签包括第一类别标签和第二类别标签,所述第一类别标签对应所述第一核保结论,所述第二类别标签对应所述第二核保结论和所述第三核保结论;其中,根据所述第一训练数据集获得第一特征映射模型,包括:
分别计算所述第一类别标签和所述第二类别标签的历史特征向量的均值向量;
根据所述第一类别标签和所述第二类别标签的历史特征向量的均值向量分别获得所述第一类别标签和所述第二类别标签的样本类内协方差矩阵;
根据所述第一类别标签和所述第二类别标签的样本类内协方差矩阵获得所述第一训练数据集的总类内散度矩阵;
根据所述第一类别标签和所述第二类别标签的历史特征向量的均值向量以及所述第一训练数据集的均值向量获得所述第一训练数据集的总类间散度矩阵;
根据所述第一训练数据集的总类内散度矩阵和总类间散度矩阵获得所述第一特征映射模型;
在所述弱分类器用于区分的核保结论包括:第一核保结论、第二核保结论和第三核保结论时,所述弱分类器包括第一弱分类器和第二弱分类器,所述第一弱分类器用于区分{第一核保结论}以及{第二核保结论,第三核保结论};所述第二弱分类器用于区分{第一核保结论,第二核保结论}以及{第三核保结论};其中,所述第一核保结论为标准体、所述第二核保结论为次标准体、所述第三核保结论为延期。
6.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,配置为存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至4中任一项所述的基于机器学习的数据处理方法。
7.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述的基于机器学习的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010229157.7A CN111444965B (zh) | 2020-03-27 | 2020-03-27 | 基于机器学习的数据处理方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010229157.7A CN111444965B (zh) | 2020-03-27 | 2020-03-27 | 基于机器学习的数据处理方法及相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111444965A CN111444965A (zh) | 2020-07-24 |
CN111444965B true CN111444965B (zh) | 2024-03-12 |
Family
ID=71657449
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010229157.7A Active CN111444965B (zh) | 2020-03-27 | 2020-03-27 | 基于机器学习的数据处理方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111444965B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112364896B (zh) * | 2020-10-26 | 2023-10-24 | 平安科技(深圳)有限公司 | 基于机器学习的健康信息分布的确定方法及装置 |
CN113086799B (zh) * | 2021-04-09 | 2022-01-04 | 新沂慧科智能科技有限公司 | 一种基于图像识别的电梯故障检测及预警方法 |
CN113610375A (zh) * | 2021-07-30 | 2021-11-05 | 平安健康保险股份有限公司 | 基于自然语言处理的保单核保方法及核保装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101099675A (zh) * | 2007-07-26 | 2008-01-09 | 上海交通大学 | 带有弱分类器的组合系数的人脸检测方法 |
CN107247965A (zh) * | 2017-05-31 | 2017-10-13 | 安徽四创电子股份有限公司 | 一种基于自适应匹配和学习的失真图像处理方法及系统 |
CN110163111A (zh) * | 2019-04-24 | 2019-08-23 | 平安科技(深圳)有限公司 | 基于人脸识别的叫号方法、装置、电子设备及存储介质 |
CN110647809A (zh) * | 2019-08-15 | 2020-01-03 | 中国平安人寿保险股份有限公司 | 基于图像分析的ai核保系统、方法及计算机可读存储介质 |
CN110852894A (zh) * | 2019-11-04 | 2020-02-28 | 泰康保险集团股份有限公司 | 保险核保方法及装置、计算机存储介质、电子设备 |
CN110909618A (zh) * | 2019-10-29 | 2020-03-24 | 泰康保险集团股份有限公司 | 一种宠物身份的识别方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10643446B2 (en) * | 2017-12-28 | 2020-05-05 | Cerner Innovation, Inc. | Utilizing artificial intelligence to detect objects or patient safety events in a patient room |
-
2020
- 2020-03-27 CN CN202010229157.7A patent/CN111444965B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101099675A (zh) * | 2007-07-26 | 2008-01-09 | 上海交通大学 | 带有弱分类器的组合系数的人脸检测方法 |
CN107247965A (zh) * | 2017-05-31 | 2017-10-13 | 安徽四创电子股份有限公司 | 一种基于自适应匹配和学习的失真图像处理方法及系统 |
CN110163111A (zh) * | 2019-04-24 | 2019-08-23 | 平安科技(深圳)有限公司 | 基于人脸识别的叫号方法、装置、电子设备及存储介质 |
CN110647809A (zh) * | 2019-08-15 | 2020-01-03 | 中国平安人寿保险股份有限公司 | 基于图像分析的ai核保系统、方法及计算机可读存储介质 |
CN110909618A (zh) * | 2019-10-29 | 2020-03-24 | 泰康保险集团股份有限公司 | 一种宠物身份的识别方法及装置 |
CN110852894A (zh) * | 2019-11-04 | 2020-02-28 | 泰康保险集团股份有限公司 | 保险核保方法及装置、计算机存储介质、电子设备 |
Non-Patent Citations (1)
Title |
---|
"基于偏二叉树SVM 多分类算法的应用层DDoS 检测方法";张斌等;《网络与信息安全学报》;20180331;第4卷(第3期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111444965A (zh) | 2020-07-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10891161B2 (en) | Method and device for virtual resource allocation, modeling, and data prediction | |
US11423538B2 (en) | Computer-implemented machine learning for detection and statistical analysis of errors by healthcare providers | |
AU2020260078B2 (en) | Computer-implemented machine learning for detection and statistical analysis of errors by healthcare providers | |
WO2019196546A1 (zh) | 确定业务请求事件的风险概率的方法及装置 | |
CN111444965B (zh) | 基于机器学习的数据处理方法及相关设备 | |
US11449947B2 (en) | Subrogation case management | |
TW201946013A (zh) | 基於lstm模型的信用風險預測方法及裝置 | |
JP7206072B2 (ja) | 改善された要求ハンドリング | |
CN113742492B (zh) | 保险方案生成方法、装置、电子设备及存储介质 | |
CN115238909A (zh) | 一种基于联邦学习的数据价值评估方法及其相关设备 | |
CN113705698A (zh) | 基于点击行为预测的信息推送方法及装置 | |
Lin et al. | A content-boosted collaborative filtering algorithm for personalized training in interpretation of radiological imaging | |
US11551817B2 (en) | Assessing unreliability of clinical risk prediction | |
CN117557331A (zh) | 一种产品推荐方法、装置、计算机设备及存储介质 | |
CN116737933A (zh) | 文本分类方法、装置、电子设备及计算机可读存储介质 | |
CN115795025A (zh) | 一种摘要生成方法及其相关设备 | |
US11341363B1 (en) | In-process engine implementation using SDK extensions | |
CN113688854A (zh) | 数据处理方法、装置及计算设备 | |
CN112699872A (zh) | 表单审核处理方法及装置、电子设备和存储介质 | |
CN111242792A (zh) | 任务处理方法以及装置 | |
CN111625572A (zh) | 在数据隐私保护下执行机器学习的方法和系统 | |
CN112669003B (zh) | 基于人工智能的业务辅导方法、装置、计算机设备 | |
US20240169188A1 (en) | Systems and Methods for Training Conditional Generative Models | |
Phan et al. | SDCANet: Enhancing Symptoms-Driven Disease Prediction with CNN-Attention Networks | |
CN115048509A (zh) | 用于保险核保场景的文本分类方法、装置、设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |