CN112183113A

CN112183113A - 基于健康医疗大数据的保险客户名单筛选方法及装置

Info

Publication number: CN112183113A
Application number: CN202011094374.6A
Authority: CN
Inventors: 黄玉丽
Original assignee: Shandong Health Medical Big Data Co ltd
Current assignee: Shandong Health Medical Big Data Co ltd
Priority date: 2020-10-14
Filing date: 2020-10-14
Publication date: 2021-01-05

Abstract

本发明公开了一种基于健康医疗大数据的保险客户名单筛选方法及装置，属于医疗大数据的语义处理及语义分析技术领域，本发明要解决的技术问题为现有技术中针对用户筛选分析时基于单一数据源的单一指标分析，而无法多维度精确筛选客户，采用的技术方案为：该方法具体如下：输入保险客户信息；查找及提取医疗数据：通过客户信息从医疗健康大数据中查找该客户的医疗数据，并提取该客户的医疗数据；语义标准化处理：对找到的客户医疗数据进行语义标准化处理，生成具有语义关系的客户标准化数据，进而形成客户医疗语义网；语义匹配：将筛选规则库与客户医疗语义网进行语义匹配；获得客户筛选结果。

Description

基于健康医疗大数据的保险客户名单筛选方法及装置

技术领域

本发明涉及医疗大数据的语义处理及语义分析技术领域，特别是保险客户筛选领域的医疗大数据的语义处理与语义分析技术，具体地说是一种基于健康医疗大数据的保险客户名单筛选方法及装置。

背景技术

近些年，随着社会经济和医疗体制改革的发展，商业健康险通过提供保险保障、整合服务供给、加强产业整合等方式，深度参与“三医联动”，成为深化医改的助推器，在参与社会民生工程和医疗保障体系建设中取得了长足进步。但是，经营风险高、赔付率和赔付额高、盈利难等因素制约着商业健康险的持续发展，这使得风控管理成为商业健康险发展的重中之重，而投保过程中对客户信用和客户优质度进行筛选是风控管理的重要环节之一。

目前客户筛选方式有很多，平安科技根据经验积累的黑名单判断规则以及客户运营数据分析客户标签对保险投保客户进行筛选；武汉泰乐奇基于医学教育数据进行客户筛选；平安科技还通过自动爬取客户个人实体维度信息(犯罪信息、金融预期信息等信息)和企业法人信息(企业诉讼信息、食品药品监督局黑名单信息等信息)等多维度信息进行黑名单筛选。可见，目前针对客户进行分析时，往往通过非临床诊疗数据源或单一数据源或单一指标体系进行判断，不能通过多来源医疗数据和全面完善的指标体系进行综合分析。

发明内容

本发明的技术任务是提供一种基于健康医疗大数据的保险客户名单筛选方法及装置，来解决现有技术中针对用户筛选分析时基于单一数据源的单一指标分析，而无法多维度精确筛选客户的问题。

本发明的技术任务是按以下方式实现的，一种基于健康医疗大数据的保险客户名单筛选方法，该方法具体如下：

输入保险客户信息；

查找及提取医疗数据：通过客户信息从医疗健康大数据中查找该客户的医疗数据，并提取该客户的医疗数据；

语义标准化处理：对找到的客户医疗数据进行语义标准化处理，生成具有语义关系的客户标准化数据，进而形成客户医疗语义网；

语义匹配：将筛选规则库与客户医疗语义网进行语义匹配；

获得客户筛选结果。

作为优选，客户信息包括客户身份信息，客户身份信息包括姓名、性别、出生日期、地址、身份证号码和电话。

更优地，查找及提取医疗数据具体如下：

通过客户查找方法进行精确匹配，并将查找到的客户记录整合去重；其中，客户查找方法包括如下两种方式：

两要素客户查找方法：身份证+姓名；

五要素客户查找方法：姓名+性别+出生日期+地址+电话；

根据去重后的客户记录，从医疗健康大数据中提取该客户的全生命周期的医疗数据；其中，医疗健康大数据包括临床诊断数据、临床用药数据、检查检验数据、手术数据、临床费用结算数据、电子病历数据、医保参保数据和医保结算数据；

将该客户的全生命周期的医疗健康大数据以时间为主线串联形成各维度各类型的就诊数据。

作为优选，语义标准化处理是指基于医学标准词表和命名实体识别技术，从医疗数据中自动抽取出医疗术语，并对医疗术语进行概念上的归一和规范，进而形成医疗概念语义网；

其中，医疗标准词表是在ICD10基础上，扩建等同关系和属分关系的概念后得到的体现语义关系的医疗标准词表；

医疗标准词表分为树状结构表和字顺表；

树状结构表包括树状结构号、标准术语编码及术语名称；树状结构表用于体现词与词之间的语义属分关系；

字顺表包括术语名称、标准名称及术语编码；字顺表用于体现词与词之间的等同关系。

更优地，所述筛选规则库是指多维度的筛选指标体系，多维度的筛选指标体系分为三层，分别为第一类指标、第二类指标和第三类指标；

其中，第一类指标包括诊断信息；其中，诊断信息的指标判断规则为诊断ICD10编码是否符合规则表，规则表为事先编制的黑名单客户疾病编码表；

第二类指标包括医院名称、就诊科室、手术信息、药品名称、检查名称、检验名称及医保大病保险支付基金；其中，医院名称的指标判断规则为医院名称中是否包含肿瘤字样的医院名称；就诊科室的指标判断规则为科室名称中包含医院名称中是否包含肿瘤字样的科室名称；手术信息的指标判断规则为手术ICD9-CM3编码是否符合规则表，规则表为事先编制的高风险客户手术编码表；药品名称的指标判断规则为药品名称是否符合规则表，规则表为事先编制的高风险客户药品名称表；检查名称的指标判断规则为检查名称是否符合规则表，规则表为事先编制的高风险客户影像检查名称表；检验名称的指标判断规则为检验名称是否符合规则表以及检查结果异常字段是否为是，规则表为事先编制的高风险客户实验室检查名称表；医保大病保险支付基金的指标判断规则为医保大病保险支付基金是否有值；

第三类指标包括就诊次数、BMI、职业、血压、参保状态和结算费用；就诊次数的指标判断规则为该客户所有就诊号个数判断是否大于10次/年；BMI的指标判断规则为是否大于30；职业的指标判断规则为是否符合职业病的职业表；血压的指标判断规则为是否超过三次血压值异常；参保状态的指标判断规则为是否无医保；结算费用的指标判断规则为费用是否大于20000元。

更优地，所述语义匹配具体如下：

根据指标体系中每个指标的判断规则与客户医疗语义网中相应字段进行匹配，优先第一类指标进行匹配；

当第一类指标匹配成功时，则标识客户类型为第一类客户；

当第一类指标匹配不成功时，则用第二类指标进行匹配；

若其中有一个第二类指标匹配成功时，则标识客户类型为第二类客户；

当第一类指标和第二类指标匹配均未成功时，则用第三类指标进行匹配；

若第三类指标中所有指标均匹配成功时，则标识客户类型为第三类客户；

若第一类指标、第二类指标及第三类指标均未匹配成功时，则标识客户为第四类客户。

更优地，获得客户筛选结果是指将语义匹配过程中标记的客户类型分别输出；

客户类型包括第一类客户、第二类客户、第三类客户和第四类客户；其中，第一类客户为明确黑名单客户；第二类客户为高风险可疑客户；第三类客户为低风险可疑客户；第四类客户为安全客户或白名单客户。

一种基于健康医疗大数据的保险客户名单筛选装置，该装置包括，

信息输入模块，用于输入保险客户信息，客户信息包括客户身份信息，客户身份信息包括姓名、性别、出生日期、地址、身份证号码和电话；

医疗数据查找及提取模块，用于通过客户信息找到医疗健康大数据中该客户的全生命周期的、以时间为主线串联的所有医疗数据；

语义标准化处理模块，用于对找到的客户医疗数据进行语义标准化处理，生成具有语义关系的客户标准化数据，进而形成客户医疗语义网；

语义匹配模块，用于将筛选规则库与客户医疗语义网进行语义匹配；其中，语义匹配模块的工作过程具体如下：

①、根据指标体系中每个指标的判断规则与客户医疗语义网中相应字段进行匹配，优先第一类指标进行匹配；

②、当第一类指标匹配成功时，则标识客户类型为第一类客户；

③、当第一类指标匹配不成功时，则用第二类指标进行匹配；

④、若其中有一个第二类指标匹配成功时，则标识客户类型为第二类客户；

⑤、当第一类指标和第二类指标匹配均未成功时，则用第三类指标进行匹配；

⑥、若第三类指标中所有指标均匹配成功时，则标识客户类型为第三类客户；

⑦、若第一类指标、第二类指标及第三类指标均未匹配成功时，则标识客户为第四类客户；

客户筛选结果获得模块，用于将语义匹配过程中标记的客户类型分别输出；其中，客户类型包括第一类客户、第二类客户、第三类客户和第四类客户；其中，第一类客户为明确黑名单客户；第二类客户为高风险可疑客户；第三类客户为低风险可疑客户；第四类客户为安全客户或白名单客户。

一种电子设备，包括：存储器和至少一个处理器；

其中，所述存储器上存储有计算机程序；

所述至少一个处理器执行所述存储器存储的计算机程序，使得所述至少一个处理器执行如上述的基于健康医疗大数据的保险客户名单筛选方法。

一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序可被处理器执行以实现如上述的基于健康医疗大数据的保险客户名单筛选方法。

本发明的基于健康医疗大数据的保险客户名单筛选方法及装置具有以下优点：

(一)本发明解决了现有技术中针对用户筛选分析时基于单一数据源的单一指标分析，而无法多维度精确筛选客户的问题，实现了基于医疗大数据、多数据源的多维度指标规则的健康险客户的智能化精准筛选；

(二)，本发明一方面通过健康医疗大数据种类多种多样，覆盖医疗领域全面数据，包括临床诊断数据、临床用药数据、检查检验数据、手术数据、临床费用结算数据、健康体检数据、电子病历数据、医保参保数据、医保结算数据等，解决了单一指标体系无法全面精准的客户筛选的问题，另一方面通过健康医疗大数据语义标准化技术，通过语义标准词表是的标准化后的术语之间具有语义关系，解决了语义标准化数据后进行语义分析的难点，进而提高了客户筛选的精准性；

(三)客户筛选指标为多维度、多层级的体系，可从更全面角度反应客户优质状态；

(四)本发明中的医疗标准词表不仅克服了ICD10只满足分类需求而存在概念不集中的缺陷外，还比ICD10的概念颗粒度更细，实现了概念上的细分和聚类更灵活的特点。

附图说明

下面结合附图对本发明进一步说明。

附图1为基于健康医疗大数据的保险客户名单筛选方法的流程框图；

附图2为客户医疗数据标准化前的数据表；

附图3为客户医疗数据标准化后的数据表。

具体实施方式

参照说明书附图和具体实施例对本发明的基于健康医疗大数据的保险客户名单筛选方法及装置作以下详细地说明。

实施例1：

如附图1所示，本发明的基于健康医疗大数据的保险客户名单筛选方法，该方法具体如下：

S1、输入保险客户信息；

S2、查找及提取医疗数据：通过客户信息从医疗健康大数据中查找该客户的医疗数据，并提取该客户的医疗数据；

S3、语义标准化处理：对找到的客户医疗数据进行语义标准化处理，生成具有语义关系的客户标准化数据，进而形成客户医疗语义网；

S4、语义匹配：将筛选规则库与客户医疗语义网进行语义匹配；

S5、获得客户筛选结果。

本实施例中，步骤S1中的客户信息包括客户身份信息，客户身份信息包括姓名、性别、出生日期、地址、身份证号码和电话。

在本实施例中，步骤S2中，查找及提取医疗数据具体如下：

S201、通过客户查找方法进行精确匹配，并将查找到的客户记录整合去重；其中，客户查找方法包括如下两种方式：

两要素客户查找方法：身份证+姓名；

五要素客户查找方法：姓名+性别+出生日期+地址+电话；

S202、根据去重后的客户记录，从医疗健康大数据中提取该客户的全生命周期的医疗数据；其中，医疗健康大数据包括临床诊断数据、临床用药数据、检查检验数据、手术数据、临床费用结算数据、电子病历数据、医保参保数据和医保结算数据；

S203、将该客户的全生命周期的医疗健康大数据以时间为主线串联形成各维度各类型的就诊数据。

本实施例中的客户医疗数据语义标准化处理，生成具有语义关系的客户标准化数据，提取出的医疗数据内容存在自然语言书写形式、自由文本形式，如附图2所示，无法对其内容进行语义分析，无法达到精准筛选的目的。

而步骤S3中的语义标准化处理是指基于医学标准词表和命名实体识别技术，从医疗数据中自动抽取出医疗术语，并对医疗术语进行概念上的归一和规范，进而形成医疗概念语义网，如附图3所示；

其中，医疗标准词表是在ICD10基础上，扩建等同关系和属分关系的概念后得到的体现语义关系的医疗标准词表；医疗标准词表不仅克服了ICD10只满足分类需求而存在概念不集中的缺陷外，还比ICD10的概念颗粒度更细，实现了概念上的细分和聚类更灵活的特点。

本实施例中的医疗标准词表分为树状结构表和字顺表；树状结构表包括树状结构号、标准术语编码及术语名称；树状结构表用于体现词与词之间的语义属分关系，如下表所示：

树状结构号	标准术语名称	术语编码
			T008.001	糖尿病	E10-E14
T008.001.001	1型糖尿病	E10
			T008.001.001.00*	……..
T008.001.002	2型糖尿病	E11
			T008.001.002.001	2型糖尿病性酮症酸中毒	E11.101
T008.001.002.002	2型糖尿病性视网膜病变	E11.301+
			T008.001.002.003	2型糖尿病性白内障	E11.302+
T008.001.002.004	2型糖尿病足	E11.503+
			T008.001.002.005	……..
T008.001.003	妊娠期糖尿病	O24.900
			T008.001.004	新生儿糖尿病	P70.200
T005.001	白内障	H25-H26
			T005.001.001	2型糖尿病性白内障	E11.302+
T005.001.002	代谢性白内障	E88.906+
			T005.001.003	老年性白内障(类目)	H25
T005.001.004	药物性白内障(亚目)	H26.300
			T005.001.005	婴儿期白内障	H26.001
T005.001.006	幼年性白内障	H26.002
			T005.001.007	后发性白内障	H26.400
T005.001.008	混合性白内障	H26.801
			T005.001.009	放射性白内障	H26.802
T005.001.010	先天性白内障	Q12.000

字顺表包括术语名称、标准名称及术语编码；字顺表用于体现词与词之间的等同关系，如下表所示：

术语名称	标准名称	术语编码
			非胰岛素依赖性糖尿病	2型糖尿病	E11
成人发病型糖尿病	2型糖尿病
			二型糖尿病	2型糖尿病
II型糖尿病	2型糖尿病
			糖尿病,2型	2型糖尿病
T2DM	2型糖尿病
			胰岛素依赖型糖尿病	1型糖尿病

本实施例中，步骤S4中的筛选规则库是指多维度的筛选指标体系，如下表所示：

由上表可知：多维度的筛选指标体系分为三层，分别为第一类指标、第二类指标和第三类指标；

本实施例中，步骤S4中语义匹配具体如下：

S401、根据指标体系中每个指标的判断规则与客户医疗语义网中相应字段进行匹配，优先第一类指标进行匹配；

S402、当第一类指标匹配成功时，则标识客户类型为第一类客户；

S403、当第一类指标匹配不成功时，则用第二类指标进行匹配；

S404、若其中有一个第二类指标匹配成功时，则标识客户类型为第二类客户；

S405、当第一类指标和第二类指标匹配均未成功时，则用第三类指标进行匹配；

S406、若第三类指标中所有指标均匹配成功时，则标识客户类型为第三类客户；

S407、若第一类指标、第二类指标及第三类指标均未匹配成功时，则标识客户为第四类客户。

本实施例中，步骤S5中的获得客户筛选结果是指将语义匹配过程中标记的客户类型分别输出；

实施例2：

本发明的基于健康医疗大数据的保险客户名单筛选装置，该装置包括，

实施例3：

本发明实施例还提供了一种电子设备，包括：存储器和至少一个处理器；

其中，所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行本发明任一实施例中的基于健康医疗大数据的保险客户名单筛选方法。

实施例4：

本发明实施例还提供了一种计算机可读存储介质，其中存储有多条指令，指令由处理器加载，使处理器执行本发明任一实施例中的基于健康医疗大数据的保险客户名单筛选方法。具体地，可以提供配有存储介质的系统或者装置，在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该系统或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。

在这种情况下，从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此程序代码和存储程序代码的存储介质构成了本发明的一部分。

用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-R基于健康医疗大数据的保险客户名单筛选方法及装置M、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机上下载程序代码。

此外，应该清楚的是，不仅可以通过执行计算机所读出的程序代码，而且可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作，从而实现上述实施例中任意一项实施例的功能。

此外，可以理解的是，将由存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中，随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作，从而实现上述实施例中任一实施例的功能。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于健康医疗大数据的保险客户名单筛选方法，其特征在于，该方法具体如下：

输入保险客户信息；

语义匹配：将筛选规则库与客户医疗语义网进行语义匹配；

获得客户筛选结果。

2.根据权利要求1所述的基于健康医疗大数据的保险客户名单筛选方法，其特征在于，客户信息包括客户身份信息，客户身份信息包括姓名、性别、出生日期、地址、身份证号码和电话。

3.根据权利要求1或2所述的基于健康医疗大数据的保险客户名单筛选方法，其特征在于，查找及提取医疗数据具体如下：

两要素客户查找方法：身份证+姓名；

五要素客户查找方法：姓名+性别+出生日期+地址+电话；

4.根据权利要求1所述的基于健康医疗大数据的保险客户名单筛选方法，其特征在于，语义标准化处理是指基于医学标准词表和命名实体识别技术，从医疗数据中自动抽取出医疗术语，并对医疗术语进行概念上的归一和规范，进而形成医疗概念语义网；

医疗标准词表分为树状结构表和字顺表；

5.根据权利要求1或4所述的基于健康医疗大数据的保险客户名单筛选方法，其特征在于，所述筛选规则库是指多维度的筛选指标体系，多维度的筛选指标体系分为三层，分别为第一类指标、第二类指标和第三类指标；

6.根据权利要求5所述的基于健康医疗大数据的保险客户名单筛选方法，其特征在于，所述语义匹配具体如下：

当第一类指标匹配成功时，则标识客户类型为第一类客户；

当第一类指标匹配不成功时，则用第二类指标进行匹配；

7.根据权利要求6所述的基于健康医疗大数据的保险客户名单筛选方法，其特征在于，获得客户筛选结果是指将语义匹配过程中标记的客户类型分别输出；

8.一种基于健康医疗大数据的保险客户名单筛选装置，其特征在于，该装置包括，

客户筛选结果获得模块，用于将语义匹配过程中标记的客户类型分别输出；其中，客户类型包括第一类客户、第二类客户、第三类客户和第四类客户；其中，第一类客户为明确黑名单客户；第二类客户为高风险可以客户；第三类客户为低风险可以客户；第四类客户为安全客户或白名单客户。

9.一种电子设备，其特征在于，包括：存储器和至少一个处理器；

其中，所述存储器上存储有计算机程序；

所述至少一个处理器执行所述存储器存储的计算机程序，使得所述至少一个处理器执行如权利要求1至7任一项所述的基于健康医疗大数据的保险客户名单筛选方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序可被处理器执行以实现如权利要求1至7中所述的基于健康医疗大数据的保险客户名单筛选方法。