CN111192149B - 一种核保结果数据生成方法和装置 - Google Patents

一种核保结果数据生成方法和装置 Download PDF

Info

Publication number
CN111192149B
CN111192149B CN201911168113.1A CN201911168113A CN111192149B CN 111192149 B CN111192149 B CN 111192149B CN 201911168113 A CN201911168113 A CN 201911168113A CN 111192149 B CN111192149 B CN 111192149B
Authority
CN
China
Prior art keywords
feature
value
nuclear
characteristic
feature set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911168113.1A
Other languages
English (en)
Other versions
CN111192149A (zh
Inventor
喻庐军
韩森尧
刘岩
王若楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taikang Insurance Group Co Ltd
Original Assignee
Taikang Insurance Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taikang Insurance Group Co Ltd filed Critical Taikang Insurance Group Co Ltd
Priority to CN201911168113.1A priority Critical patent/CN111192149B/zh
Publication of CN111192149A publication Critical patent/CN111192149A/zh
Application granted granted Critical
Publication of CN111192149B publication Critical patent/CN111192149B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Development Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Technology Law (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明实施例提供了一种核保结果数据生成方法和装置,包括:获取核保影像文件;从核保影像文件中提取核保特征信息,核保特征信息包括特征名称和特征值;将特征名称和特征值形成的键值对导入到预设的键值表中;将键值表中的键值对转换成特征集;从特征集中去除满足预设条件的核保特征信息,得到目标特征集;通过目标特征集生成核保结果数据。通过本发明实施例,可以使得核保数据更加直观、清晰,方便核保人员查阅核保数据。同时,可以去除与核保结果数据无关或相关性很小的数据,减少参与核保结果数据生成过程的核保数据,提高核保效率。

Description

一种核保结果数据生成方法和装置
技术领域
本发明涉及核保技术领域,特别是涉及一种核保结果数据生成方法和一种核保结果数据生成装置。
背景技术
核保数据是指被保险人向保险公司提交的健康函和体检函。核保数据包括文本性的描述信息和数值型信息。传统的核保方法是通过人工进行核保。核保人员对大量的核保数据进行分析量化,得到核保结果数据,根据核保结果数据决定是否对被保险人承保。
然而核保数据中,包含了很多与得出核保结果数据的过程无关的内容。核保人员需要耗费大量时间进行数据筛选,导致核保周期长,效率低下。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种核保结果数据生成方法和相应的一种核保结果数据生成装置。
为了解决上述问题,本发明实施例公开了一种核保结果数据生成方法,包括:
获取核保影像文件;
从所述核保影像文件中提取核保特征信息,所述核保特征信息包括特征名称和特征值;
将所述特征名称和所述特征值形成的键值对导入到预设的键值表中;
将所述键值表中的键值对转换成特征集;
从所述特征集中去除满足预设条件的核保特征信息,得到目标特征集;
采用所述目标特征集生成核保结果数据。
可选地,还包括:
判断所述键值表中的特征值是否超出预设阈值范围;
当所述键值表中的特征值超出预设阈值范围时,调整所述特征值至处于所述预设阈值范围之内。
可选地,还包括:
当所述键值表中的所述特征名称对应的特征值缺失时;
获取特征值缺失的特征名称的变量类型;
采用所述变量类型为特征值缺失的特征名称生成特征值。
可选地,所述变量类型包括连续型,所述采用所述变量类型为特征值缺失的特征名称生成特征值的步骤,包括:
获取所述特征表中,与所述特征值具有第一预设关联关系,变量类型为连续型的多个第一特征值;
计算所述多个第一特征值的均值,将所述均值作为所述特征值缺失的特征名称对应的特征值。
可选地,所述变量类型还包括分类型,所述采用所述变量类型为特征值缺失的特征名称生成特征值的步骤,还包括:
获取所述特征表中,与所述特征值具有第二预设关联关系,变量类型为分类型的多个第二特征值;
计算所述多个第二特征值的中值,将所述中值作为所述特征值缺失的特征名称对应的特征值。
可选地,所述从所述特征集中去除满足预设条件的核保特征信息,得到目标特征集的步骤,包括:
从所述特征集中,去除对核保结果数据的生成影响最小的核保特征信息,得到目标特征集。
可选地,所述从所述特征集中去除对核保结果数据的生成影响最小的核保特征信息,得到目标特征集的步骤,包括:
从所述特征集中,去除对核保结果数据的生成影响最小的核保特征信息;
拆分去除了,对核保结果数据的生成影响最小的核保特征信息的特征集,得到特征子集;
训练所述特征子集的分类函数;
计算每个分类函数的准确率;
将准确率最高的分类函数对应的特征子集作为目标特征集。
本发明实施例还公开了一种核保结果数据生成装置,包括:
核保影像文件获取模块,用于获取核保影像文件;
核保特征信息提取模块,用于从所述核保影像文件中提取核保特征信息,所述核保特征信息包括特征名称和特征值;
导入模块,用于将所述特征名称和所述特征值形成的键值对导入到预设的键值表中;
特征集生成模块,用于将所述键值表中的键值对转换成特征集;
目标特征集获取模块,用于从所述特征集中去除满足预设条件的核保特征信息,得到目标特征集;
核保结果数据生成模块,用于采用所述目标特征集生成核保结果数据。
可选地,还包括:
判断模块,用于判断所述键值表中的特征值是否超出预设阈值范围;
调整模块,用于当所述键值表中的特征值超出预设阈值范围时,调整所述特征值至处于所述预设阈值范围之内。
可选地,还包括:
变量类型获取模块,用于当所述键值表中的所述特征名称对应的特征值缺失时,获取特征值缺失的特征名称的变量类型;
特征值生成模块,用于采用所述变量类型为特征值缺失的特征名称生成特征值。
可选地,所述变量类型包括连续型,所述特征值生成模块,包括:
第一特征值获取子模块,用于获取所述特征表中,与所述特征值具有第一预设关联关系,变量类型为连续型的多个第一特征值;
均值计算子模块,用于计算所述多个第一特征值的均值,将所述均值作为所述特征值缺失的特征名称对应的特征值。
可选地,所述变量类型还包括分类型,所述特征值生成模块,还包括:
第二特征值获取子模块,用于获取所述特征表中,与所述特征值具有第二预设关联关系,变量类型为分类型的多个第二特征值;
中值计算子模块,用于计算所述多个第二特征值的中值,将所述中值作为所述特征值缺失的特征名称对应的特征值。
可选地,所述目标特征集获取模块,包括:
目标特征集获取子模块,用于从所述特征集中,去除对核保结果数据的生成影响最小的核保特征信息,得到目标特征集。
可选地,所述目标特征集获取子模块,包括:
核保特征向量去除单元,用于从所述特征集中,去除对核保结果数据的生成影响最小的核保特征信息;
拆分单元,用于拆分去除了,对核保结果数据的生成影响最小的核保特征信息的特征集,得到特征子集;
训练单元,用于训练所述特征子集的分类函数;
计算单元,用于计算每个分类函数的准确率;
目标特征集确定单元,用于将准确率最高的分类函数对应的特征子集作为目标特征集。
本发明实施例还公开了一种装置,包括:
一个或多个处理器;和
其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述装置执行如上所述的一个或多个的方法。
本发明实施例还公开了一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得所述处理器执行如上所述的一个或多个的方法。
本发明实施例包括以下优点:在本发明实施例中,通过将核保特征信息保存为键值对的形式,并导入到预设的键值表中,可以使得核保数据更加直观、清晰,方便核保人员查阅核保数据。同时,通过使用键值表中的键值对生成特征集,并从特征集中去除与核保结果数据无关或相关性很小的数据,可以减少参与核保结果数据生成过程的核保数据,提高核保效率。
附图说明
图1是本发明的一种核保结果数据生成方法实施例的步骤流程图;
图2是本发明的一种核保结果数据生成方法的另一种实施例的步骤流程图;
图3是本发明的一种去除与核保结果数据无关或相关性很小的核保特征信息的方法的步骤流程图;
图4是本发明的一种装置实施例的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明实施例的核心构思之一在于,将核保影像文件转化为键值对信息,并基于键值对信息生成特征集,采用基于逻辑回归的特征分类算法,结合递归特征消除法,依次从特征集中去除与核保结果数据无关或者相关性很小的变量,便于后期对核保结果数据进行分析预测。
参照图1,示出了本发明的一种核保结果数据生成方法实施例的步骤流程图,具体可以包括如下步骤:
步骤101,获取核保影像文件;
核保影像文件,用于记录核保数据的文件。在一个示例中,核保影像文件可以为体检报表,其中记录了与体检有关的各项数据。
在本发明实施例中,需要从核保影像文件中获取与核保有关的数据来进行分析预测。因此,在此之前,首先需要获取记录了核保数据的核保影像文件。
步骤102,从所述核保影像文件中提取核保特征信息,所述核保特征信息包括特征名称和特征值;
核保特征信息,记录了核保特征以及核保特征的关联信息。
在本发明实施例中,可以通过ocr(Optical Character Recognition,光学字符识别)技术,从核保影像文件中,识别出文本信息。该文本信息即为核保特征信息。其中,核保特征信息可以包括特征名称和特征值,比如,以体检报表为例,核保特征信息可以为“身高:170cm”,其中,特征名称为“身高”,特征值为“170”。
步骤103,将所述特征名称和所述特征值形成的键值对导入到预设的键值表中;
键值对是数据库存储最简单的组织形式。键就是存的值的编号;值就是要存放的数据。
在本发明实施例中,可以根据核保特征信息中的特征名称和特征值形成键值对,并将键值对存储在预设的键值表中。
在本发明实施例中,核保特征信息可以包括数值型信息和文字性信息。
在一个示例中,当核保特征信息为数值型信息时,可以利用nlp(NaturalLanguage Process,自然语言处理)技术,以特征名称为“键”,特征值为“值”,形成键值对,并将键值对导入到预设的键值表中。
如数值型信息“身高:170cm”,可以以特征名称“身高”为“键”,特征值“170”为“值”,形成键值对,并将其导入到预设的键值表中。
在一个示例中,当核保特征信息为文字型信息时,可以以特征名称为键,以特征值的分类变量为值,形成键值对,并将键值对导入到预设的键值表中。
如文字型信息“肾结石”,特征名称为“特征_肾”,特征值为2的分类变量,形成“特征_肾:2”形式的键值对,并将其导入到预设的键值表中。
步骤104,将所述键值表中的键值对转换成特征集;
在本发明实施例中,在将核保特征信息以键值对的形式导入到键值表后,可以将键值表中的键值对进行数据标准化处理。例如,可以分别将每个特征转换到均值为0,方差为1的特征空间中,将键值对转换为核保特征向量,形成特征集合。
步骤105,从所述特征集中去除满足预设条件的核保特征信息,得到目标特征集;
在获取到特征集后,可以从特征集中去除满足预设条件的核保特征信息,得到目标特征集。
其中,在本发明实施例中,预设条件可以为与核保无关或关联性最小的特征。
步骤106,采用所述目标特征集生成核保结果数据。
在本发明实施例中,当获取到目标特征集后,可以对目标特征集进行分析量化,生成核保结果数据。
在本发明实施例中,通过将核保特征信息保存为键值对的形式,并导入到预设的键值表中,可以使得核保数据更加直观、清晰,方便核保人员查阅核保数据。同时,通过使用键值表中的键值对生成特征集,并从特征集中去除与核保结果数据无关或相关性很小的数据,可以减少参与核保结果数据生成过程的核保数据,提高核保效率。
参照图2,示出了本发明的一种核保结果数据生成方法的另一种实施例的步骤流程图,具体可以包括如下步骤:
步骤201,获取核保影像文件;
核保影像文件,用于记录核保数据的文件。在一个示例中,核保影像文件可以为体检报表,其中记录了与体检有关的各项数据。
在本发明实施中,需要从核保影像文件中获取与核保有关的数据来进行分析预测。因此,在此之前,首先需要获取记录了核保数据的核保影像文件。
步骤202,从所述核保影像文件中提取核保特征信息,所述核保特征信息包括特征名称和特征值;
核保特征信息,记录了核保特征以及核保特征的关联信息。
在本发明实施例中,可以通过ocr(Optical Character Recognition,光学字符识别)技术,从核保影像文件中,识别出文本信息。该文本信息即为核保特征信息。其中,核保特征信息可以包括特征名称和特征值,比如,以体检报表为例,核保特征信息可以为“身高:170cm”,其中,特征名称为“身高”,特征值为“170”。
步骤203,将所述特征名称和所述特征值形成的键值对导入到预设的键值表中;
键值对是数据库存储最简单的组织形式。键就是存的值的编号;值就是要存放的数据。
在本发明实施例中,可以根据核保特征信息中的特征名称和特征值形成键值对,并将键值对存储在预设的键值表中。
在本发明实施例中,核保特征信息可以包括数值型信息和文字性信息。
在一个示例中,当核保特征信息为数值型信息时,可以利用nlp(Naturallanguage process,自然语言处理)技术,以特征名称为“键”,特征值为“值”,形成键值对,并将键值对导入到预设的键值表中。
如数值型信息“身高:170cm”,可以以特征名称“身高”为“键”,特征值“170”为值,形成键值对,并将其导入到预设的键值表中。
在一个示例中,当核保特征信息为文字型信息时,可以以特征名称为“键”,以特征值的分类变量为“值”,形成键值对,并将键值对导入到预设的键值表中。
如文字型信息“肾结石”,特征名称为“特征_肾”,特征值为2的分类变量,形成“特征_肾:2”形式的键值对。
其中,键值表可以根据核保关联数据预先设置,具体键值表中具有何种键值对可以根据实际情况设定,本发明实施例不做具体限制。
在本发明实施例中,在将根据核保特征信息生成的键值对导入到预设的键值表后,可以判断所填入的特征值是否超过预设阈值范围(如远远偏离正常值);如果所填入的特征值超过预设阈值范围(如“身高:17000cm”,超过正常人的身高范围),则对所填入的特征值进行调整,将其调整到处于预设阈值之内(如将“身高:17000cm”调整为“身高:170cm”)。
在本发明实施例中,由于键值表是预设的,里面的“键”是确定的,而我们从核保特征信息中提取的特征名称不一定能与键值表中的“键”一一对应。因此,在将键值对导入到键值表中后,需要判断键值表中的“键”是否均有对应的值。如果键值表中的“值”缺失,则需要将缺失的“值”补全。
在本发明实施例中,当所述键值表中的所述特征名称对应的特征值缺失时,获取特征值缺失的特征名称的变量类型;采用所述变量类型为特征值缺失的特征名称生成特征值。
在本发明实施例中,当键值表中的特征名称对应的特征值缺失时,可以获取特征值缺失的特征名称的变量类型,采用变量类型为特征值缺失的特征名称生成特征值。
在一个示例中,所述变量类型包括连续型,所述采用所述变量类型为特征值缺失的特征名称生成特征值的步骤,可以包括以下子步骤:
S11,获取所述特征表中,与所述特征值具有第一预设关联关系,变量类型为连续型的多个第一特征值;
在本发明实施例中,当特征值缺失的特征名称的变量类型为连续型时,可以获取与缺失的特征值构成连续变量的多个第一特征值。
S12,计算所述多个第一特征值的均值,将所述均值作为所述特征值缺失的特征名称对应的特征值。
计算多个第一特征值的平均值,将平均值作为特征值缺失的特征名称对应的特征值填入键值表中。
在一个示例中,所述变量类型还包括分类型,所述采用所述变量类型为特征值缺失的特征名称生成特征值的步骤,还可以包括:
S21,获取所述特征表中,与所述特征值具有第二预设关联关系,变量类型为分类型的多个第二特征值;
获取与缺失的特征值形成分类变量的多个第二特征值。
S22,计算所述多个第二特征值的中值,将所述中值作为所述特征值缺失的特征名称对应的特征值。
求取多个第二特征值的中值,将中值作为特征值缺失的特征名称对应的特征值填入键值表中。
步骤204,将所述键值表中的键值对转换成核保特征向量和对应的类别标签,采用所述核保特征向量和对应的类别标签生成特征集;
在本发明实施例中,在将核保特征信息以键值对的形式导入到键值表后,可以对键值表中的键值对进行数据标准化处理。例如,可以分别将每个特征转换到均值为0,方差为1的特征空间中。将键值对转换为核保特征向量和对应的类别标签。得到
Figure BDA0002287999860000101
的数据形式,进而形成特征集。
其中,xi为核保特征向量,yi={0,1,2,3}为类别标签,N为样本总数。
类别标签即核保结论,包括标准体、次标体、延期和拒保。
步骤205,从所述特征集中,去除对核保结果数据的生成影响最小的核保特征信息,得到目标特征集。
一般地,所形成的特征集存在数据冗余,因此,在生成核保结论前,需要进行特征筛选,剔除对核保结论影响最小的变量。
在本发明实施例中,要剔除对核保结论影响最小的变量,可以采用基于逻辑回归的递归特征消除法。每次去除一个对核保结论影响最小的变量。具体方法如下:
S31,从所述特征集中,去除对核保结果数据的生成影响最小的核保特征信息;
S32,拆分去除了,对核保结果数据的生成影响最小的核保特征信息的特征集,得到特征子集;
在一个示例中,拆分特征集得到特征子集,可以采用交叉验证的方法,将特征集平均划分成K份。
Figure BDA0002287999860000102
其中,Ni=i/K*N,S为特征集,Ti为单份样本特征集。
则新生成的特征子集为{Si=S-Ti,i∈[1,K]}。设置特征排序集合R={}。
S33,训练所述特征子集的分类函数;
在获取到特征子集后,可以训练特征子集的分类函数。
由于核保分类是个四分类问题,在本发明实施例中,可以采用one-vs-all的思想分别拟合每个类别的分类函数;基于逻辑回归算法,训练分类函数。
具体的,可以将线性函数hθ(z)=θ01z12z2+…+θnzn=θTZ作为特征子集的分类函数。
其中,z1、z2...为核保特征信息。θ01,…为特征空间参数。
S34,计算每个分类函数的准确率;
将Logistic函数(logistic function)带入到线性函数中,即可得到逻辑回归函数:
Figure BDA0002287999860000111
利用梯度下降法求取θ=(θ01,…,θn)
求解目标函数
Figure BDA0002287999860000112
使目标函数的输出结果最小。进而得到预测值/>
Figure BDA0002287999860000113
并通过/>
Figure BDA0002287999860000114
计算每个分类函数的准确率。
其中,λ||θ||2为正则化项,λ为正则化因子。
S35,将准确率最高的分类函数对应的特征子集作为目标特征集。
求解
Figure BDA0002287999860000115
保留求取的p所对应的特征索引(特征索引用以指示特征集中的核保特征信息的位置),并更新特征集合S=S/p,R=R∪p。
将更新得到的特征集作为S31中去除了与核保结果数据的生成影响最小的核保特征向量的特征集。重复S31-S35,直到S={},比较基于每个分类函数计算得到的准确率,将准确率最高的分类函数对应的特征子集作为目标特征集。
参照图3,示出了本申请一种去除与核保结果数据无关或相关性很小的核保特征信息的方法的步骤流程图,具体步骤如下:
首先通过交叉验证方法,将特征集分为多个特征子集,训练特征子集的分类函数,得到分类器;计算每个分类器的准确率;再通过分类器对特征进行排序,通过递归特征消除方法,去除相关性最小的特征。重复进行上述操作。
步骤206,采用所述目标特征集生成核保结果数据。
在本发明实施例中,当获取到目标特征集后,可以对目标特征集进行分析量化,生成核保结果数据。
在本发明实施例中,通过将核保特征信息保存为键值对的形式,并导入到预设的键值表中,可以使得核保数据更加直观、清晰,方便核保人员查阅核保数据。同时,通过使用键值表中的键值对生成特征集,并从特征集中去除与核保结果数据无关或相关性很小的数据,可以减少参与核保结果数据生成过程的核保数据,提高核保效率。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图4,示出了本发明的一种核保结果数据生成装置实施例的结构框图,具体可以包括如下模块:
核保影像文件获取模块401,用于获取核保影像文件;
核保特征信息提取模块402,用于从所述核保影像文件中提取核保特征信息,所述核保特征信息包括特征名称和特征值;
导入模块403,用于将所述特征名称和所述特征值形成的键值对导入到预设的键值表中;
特征集生成模块404,用于将所述键值表中的键值对转换成特征集;
目标特征集获取模块405,用于从所述特征集中去除满足预设条件的核保特征信息,得到目标特征集;
核保结果数据生成模块406,用于采用所述目标特征集生成核保结果数据。
在本发明实施例中,还包括:
判断模块,用于判断所述键值表中的特征值是否超出预设阈值范围;
调整模块,用于当所述键值表中的特征值超出预设阈值范围时,调整所述特征值至处于所述预设阈值范围之内。
在本发明实施例中,还包括:
变量类型获取模块,用于当所述键值表中的所述特征名称对应的特征值缺失时,获取特征值缺失的特征名称的变量类型;
特征值生成模块,用于采用所述变量类型为特征值缺失的特征名称生成特征值。
在本发明实施例中,所述变量类型包括连续型,所述特征值生成模块,包括:
第一特征值获取子模块,用于获取所述特征表中,与所述特征值具有第一预设关联关系,变量类型为连续型的多个第一特征值;
均值计算子模块,用于计算所述多个第一特征值的均值,将所述均值作为所述特征值缺失的特征名称对应的特征值。
在本发明实施例中,所述变量类型还包括分类型,所述特征值生成模块,还包括:
第二特征值获取子模块,用于获取所述特征表中,与所述特征值具有第二预设关联关系,变量类型为分类型的多个第二特征值;
中值计算子模块,用于计算所述多个第二特征值的中值,将所述中值作为所述特征值缺失的特征名称对应的特征值。
在本发明实施例中,所述目标特征集获取模块,包括:
目标特征集获取子模块,用于从所述特征集中,去除对核保结果数据的生成影响最小的核保特征向量,得到目标特征集。
在本发明实施例中,所述目标特征集获取子模块,包括:
核保特征向量去除单元,用于从所述特征集中,去除对核保结果数据的生成影响最小的核保特征信息;
拆分单元,用于拆分去除了,对核保结果数据的生成影响最小的核保特征信息的特征集,得到特征子集;
训练单元,用于训练所述特征子集的分类函数;
计算单元,用于计算每个分类函数的准确率;
目标特征集确定单元,用于将准确率最高的分类函数对应的特征子集最为目标特征集。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本发明实施例还提供了一种装置,包括:
一个或多个处理器;和
其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述装置执行本发明实施例所述的方法。
本发明实施例还提供了一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得所述处理器执行本发明实施例所述的方法。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种核保结果数据生成方法和一种核保结果数据生成装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种核保结果数据生成方法,其特征在于,包括:
获取核保影像文件;
从所述核保影像文件中提取核保特征信息,所述核保特征信息包括特征名称和特征值;
将所述特征名称和所述特征值形成的键值对导入到预设的键值表中;
将所述键值表中的键值对转换成特征集;
从所述特征集中去除满足预设条件的核保特征信息,得到目标特征集;
采用所述目标特征集生成核保结果数据;
其中,所述从所述特征集中去除满足预设条件的核保特征信息,得到目标特征集的步骤,包括:
从所述特征集中,去除对核保结果数据的生成影响最小的核保特征信息,得到目标特征集;
其中,所述从所述特征集中去除对核保结果数据的生成影响最小的核保特征信息,得到目标特征集的步骤,包括:
从所述特征集中,去除对核保结果数据的生成影响最小的核保特征信息;
拆分去除了对核保结果数据的生成影响最小的核保特征信息的特征集,得到特征子集;
训练所述特征子集的分类函数;
计算每个分类函数的准确率;
将准确率最高的分类函数对应的特征子集作为目标特征集。
2.根据权利要求1所述的方法,其特征在于,还包括:
判断所述键值表中的特征值是否超出预设阈值范围;
当所述键值表中的特征值超出预设阈值范围时,调整所述特征值至处于所述预设阈值范围之内。
3.根据权利要求1所述的方法,其特征在于,还包括:
当所述键值表中的所述特征名称对应的特征值缺失时,
获取特征值缺失的特征名称的变量类型;
采用所述变量类型为特征值缺失的特征名称生成特征值。
4.根据权利要求3所述的方法,其特征在于,所述变量类型包括连续型,所述采用所述变量类型为特征值缺失的特征名称生成特征值的步骤,包括:
获取特征表中,与所述特征值具有第一预设关联关系,变量类型为连续型的多个第一特征值;
计算所述多个第一特征值的均值,将所述均值作为所述特征值缺失的特征名称对应的特征值。
5.根据权利要求4所述的方法,其特征在于,所述变量类型还包括分类型,所述采用所述变量类型为特征值缺失的特征名称生成特征值的步骤,还包括:
获取所述特征表中,与所述特征值具有第二预设关联关系,变量类型为分类型的多个第二特征值;
计算所述多个第二特征值的中值,将所述中值作为所述特征值缺失的特征名称对应的特征值。
6.一种核保结果数据生成装置,其特征在于,包括:
核保影像文件获取模块,用于获取核保影像文件;
核保特征信息提取模块,用于从所述核保影像文件中提取核保特征信息,所述核保特征信息包括特征名称和特征值;
导入模块,用于将所述特征名称和所述特征值形成的键值对导入到预设的键值表中;
特征集生成模块,用于将所述键值表中的键值对转换成特征集;
目标特征集获取模块,用于从所述特征集中去除满足预设条件的核保特征信息,得到目标特征集;
核保结果数据生成模块,用于采用所述目标特征集生成核保结果数据;
其中,所述目标特征集获取模块,包括:
目标特征集获取子模块,用于从所述特征集中,去除对核保结果数据的生成影响最小的核保特征信息,得到目标特征集;
其中,所述目标特征集获取子模块,包括:
核保特征向量去除单元,用于从所述特征集中,去除对核保结果数据的生成影响最小的核保特征信息;
拆分单元,用于拆分去除了,对核保结果数据的生成影响最小的核保特征信息的特征集,得到特征子集;
训练单元,用于训练所述特征子集的分类函数;
计算单元,用于计算每个分类函数的准确率;
目标特征集确定单元,用于将准确率最高的分类函数对应的特征子集作为目标特征集。
7.一种电子设备,其特征在于,包括:
一个或多个处理器;和
其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述电子设备执行如权利要求1-5任一项所述的方法。
8.一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得所述处理器执行如权利要求1-5任一项所述的方法。
CN201911168113.1A 2019-11-25 2019-11-25 一种核保结果数据生成方法和装置 Active CN111192149B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911168113.1A CN111192149B (zh) 2019-11-25 2019-11-25 一种核保结果数据生成方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911168113.1A CN111192149B (zh) 2019-11-25 2019-11-25 一种核保结果数据生成方法和装置

Publications (2)

Publication Number Publication Date
CN111192149A CN111192149A (zh) 2020-05-22
CN111192149B true CN111192149B (zh) 2023-06-16

Family

ID=70707211

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911168113.1A Active CN111192149B (zh) 2019-11-25 2019-11-25 一种核保结果数据生成方法和装置

Country Status (1)

Country Link
CN (1) CN111192149B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5953691A (en) * 1996-10-11 1999-09-14 Divicom, Inc. Processing system with graphics data prescaling
JP2006059016A (ja) * 2004-08-18 2006-03-02 Seiwa Business Support Co Ltd 保険見直し支援方法及び装置
CN107067326A (zh) * 2017-04-06 2017-08-18 河南云保遥感科技有限公司 一种农业保险承保系统及其实现方法
WO2017162069A1 (zh) * 2016-03-25 2017-09-28 阿里巴巴集团控股有限公司 一种图像文本的识别方法和装置
CN107705047A (zh) * 2017-11-08 2018-02-16 泰康保险集团股份有限公司 一种保险核保风险预测方法及装置
CN109410071A (zh) * 2018-09-17 2019-03-01 平安科技(深圳)有限公司 核保数据处理方法、装置、计算机设备和存储介质
CN109460944A (zh) * 2018-12-14 2019-03-12 平安健康保险股份有限公司 基于大数据的核保方法、装置、设备及可读存储介质
CN109584091A (zh) * 2018-12-12 2019-04-05 泰康保险集团股份有限公司 保险图像文件的生成方法与装置
CN109800313A (zh) * 2018-12-14 2019-05-24 中国平安财产保险股份有限公司 保险续保的方法、装置、计算机设备和存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140358582A1 (en) * 2013-05-31 2014-12-04 Innodata Synodex, Llc Method for Generating a Selected Pool of Underwritten Insurance Policies
IN2013MU02918A (zh) * 2013-09-10 2015-07-03 Tata Consultancy Services Ltd
US10902524B2 (en) * 2015-09-30 2021-01-26 Sensormatic Electronics, LLC Sensor based system and method for augmenting underwriting of insurance policies
CN106959960B (zh) * 2016-01-11 2020-07-03 杭州海康威视数字技术股份有限公司 数据获取方法及装置
CN106780140B (zh) * 2016-12-15 2021-07-09 国网浙江省电力公司 基于大数据的电力信用评价方法
CN107633455A (zh) * 2017-09-04 2018-01-26 深圳市华傲数据技术有限公司 基于数据模型的信用评估方法及装置
CN108198591A (zh) * 2017-12-28 2018-06-22 泰康保险集团股份有限公司 用于远程审核单据的方法与装置
CN110334346B (zh) * 2019-06-26 2020-09-29 京东数字科技控股有限公司 一种pdf文件的信息抽取方法和装置
CN110442744B (zh) * 2019-08-09 2022-11-04 泰康保险集团股份有限公司 提取图像中目标信息的方法、装置、电子设备及可读介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5953691A (en) * 1996-10-11 1999-09-14 Divicom, Inc. Processing system with graphics data prescaling
JP2006059016A (ja) * 2004-08-18 2006-03-02 Seiwa Business Support Co Ltd 保険見直し支援方法及び装置
WO2017162069A1 (zh) * 2016-03-25 2017-09-28 阿里巴巴集团控股有限公司 一种图像文本的识别方法和装置
CN107067326A (zh) * 2017-04-06 2017-08-18 河南云保遥感科技有限公司 一种农业保险承保系统及其实现方法
CN107705047A (zh) * 2017-11-08 2018-02-16 泰康保险集团股份有限公司 一种保险核保风险预测方法及装置
CN109410071A (zh) * 2018-09-17 2019-03-01 平安科技(深圳)有限公司 核保数据处理方法、装置、计算机设备和存储介质
CN109584091A (zh) * 2018-12-12 2019-04-05 泰康保险集团股份有限公司 保险图像文件的生成方法与装置
CN109460944A (zh) * 2018-12-14 2019-03-12 平安健康保险股份有限公司 基于大数据的核保方法、装置、设备及可读存储介质
CN109800313A (zh) * 2018-12-14 2019-05-24 中国平安财产保险股份有限公司 保险续保的方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN111192149A (zh) 2020-05-22

Similar Documents

Publication Publication Date Title
CN109598095B (zh) 评分卡模型的建立方法、装置、计算机设备和存储介质
CN107808011B (zh) 信息的分类抽取方法、装置、计算机设备和存储介质
CN110458324B (zh) 风险概率的计算方法、装置和计算机设备
CN111651992A (zh) 命名实体标注方法、装置、计算机设备和存储介质
CN115828112B (zh) 一种故障事件的响应方法、装置、电子设备及存储介质
CN113256383B (zh) 保险产品的推荐方法、装置、电子设备及存储介质
CN112966100B (zh) 一种数据分类分级模型的训练方法、装置及电子设备
CN110968689A (zh) 罪名及法条预测模型的训练方法以及罪名及法条预测方法
CN111210402A (zh) 人脸图像质量评分方法、装置、计算机设备及存储介质
CN113590823A (zh) 一种合同审批方法、装置、存储介质及电子设备
CN110414806B (zh) 员工风险预警方法及相关装置
CN111695874B (zh) 一种司法判决辅助系统以及方法、设备、可存储介质
CN110969017A (zh) 一种司法数据的处理方法及系统
CN111192149B (zh) 一种核保结果数据生成方法和装置
CN112801806A (zh) 一种基于知识图谱的理赔方法及系统
CN110390083B (zh) 近似案件的推送方法、装置、计算机设备和存储介质
CN110362828B (zh) 网络资讯风险识别方法及系统
CN115618297A (zh) 识别异常企业的方法及其装置
CN114064893A (zh) 一种异常数据审核方法、装置、设备及存储介质
CN113157757A (zh) 一种数据推荐方法、装置、电子设备及存储介质
CN113807256A (zh) 票据数据处理方法、装置、电子设备和存储介质
CN113240213A (zh) 基于神经网络和树模型的人员甄选方法、装置及设备
CN110909914A (zh) 诉讼成功率预测方法、装置、计算机设备和存储介质
CN115936431B (zh) 再犯罪风险评估方法、装置、计算机设备及可读存储介质
EP4089568A1 (en) Cascade pooling for natural language document processing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant