CN112183113A - 基于健康医疗大数据的保险客户名单筛选方法及装置 - Google Patents
基于健康医疗大数据的保险客户名单筛选方法及装置 Download PDFInfo
- Publication number
- CN112183113A CN112183113A CN202011094374.6A CN202011094374A CN112183113A CN 112183113 A CN112183113 A CN 112183113A CN 202011094374 A CN202011094374 A CN 202011094374A CN 112183113 A CN112183113 A CN 112183113A
- Authority
- CN
- China
- Prior art keywords
- client
- medical
- type
- data
- index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012216 screening Methods 0.000 title claims abstract description 63
- 230000036541 health Effects 0.000 title claims abstract description 49
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000012545 processing Methods 0.000 claims abstract description 18
- 238000007689 inspection Methods 0.000 claims description 28
- 239000003814 drug Substances 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 10
- 230000036772 blood pressure Effects 0.000 claims description 9
- 238000003745 diagnosis Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 7
- 238000005516 engineering process Methods 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 7
- 206010028980 Neoplasm Diseases 0.000 claims description 6
- 230000002159 abnormal effect Effects 0.000 claims description 6
- 238000003759 clinical diagnosis Methods 0.000 claims description 5
- 229940079593 drug Drugs 0.000 claims description 5
- 208000028571 Occupational disease Diseases 0.000 claims description 3
- 201000010099 disease Diseases 0.000 claims description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 abstract description 13
- 208000001072 type 2 diabetes mellitus Diseases 0.000 description 12
- 208000002177 Cataract Diseases 0.000 description 8
- 230000006870 function Effects 0.000 description 4
- 206010067584 Type 1 diabetes mellitus Diseases 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 206010012601 diabetes mellitus Diseases 0.000 description 3
- 206010007749 Cataract diabetic Diseases 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 201000007025 diabetic cataract Diseases 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 206010007747 Cataract congenital Diseases 0.000 description 1
- 208000001380 Diabetic Ketoacidosis Diseases 0.000 description 1
- 206010012689 Diabetic retinopathy Diseases 0.000 description 1
- 206010036346 Posterior capsule opacification Diseases 0.000 description 1
- 206010037756 Radiation cataract Diseases 0.000 description 1
- 229930194936 Tylosin Natural products 0.000 description 1
- 239000004182 Tylosin Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 208000004104 gestational diabetes Diseases 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000000366 juvenile effect Effects 0.000 description 1
- 230000002503 metabolic effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 201000008525 senile cataract Diseases 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- WBPYTXDJUQJLPQ-VMXQISHHSA-N tylosin Chemical compound O([C@@H]1[C@@H](C)O[C@H]([C@@H]([C@H]1N(C)C)O)O[C@@H]1[C@@H](C)[C@H](O)CC(=O)O[C@@H]([C@H](/C=C(\C)/C=C/C(=O)[C@H](C)C[C@@H]1CC=O)CO[C@H]1[C@@H]([C@H](OC)[C@H](O)[C@@H](C)O1)OC)CC)[C@H]1C[C@@](C)(O)[C@@H](O)[C@H](C)O1 WBPYTXDJUQJLPQ-VMXQISHHSA-N 0.000 description 1
- 229960004059 tylosin Drugs 0.000 description 1
- 235000019375 tylosin Nutrition 0.000 description 1
- 208000035408 type 1 diabetes mellitus 1 Diseases 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/08—Insurance
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Development Economics (AREA)
- Strategic Management (AREA)
- Accounting & Taxation (AREA)
- Human Resources & Organizations (AREA)
- Finance (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- General Health & Medical Sciences (AREA)
- Educational Administration (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Tourism & Hospitality (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Technology Law (AREA)
- Data Mining & Analysis (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种基于健康医疗大数据的保险客户名单筛选方法及装置,属于医疗大数据的语义处理及语义分析技术领域,本发明要解决的技术问题为现有技术中针对用户筛选分析时基于单一数据源的单一指标分析,而无法多维度精确筛选客户,采用的技术方案为:该方法具体如下:输入保险客户信息;查找及提取医疗数据:通过客户信息从医疗健康大数据中查找该客户的医疗数据,并提取该客户的医疗数据;语义标准化处理:对找到的客户医疗数据进行语义标准化处理,生成具有语义关系的客户标准化数据,进而形成客户医疗语义网;语义匹配:将筛选规则库与客户医疗语义网进行语义匹配;获得客户筛选结果。
Description
技术领域
本发明涉及医疗大数据的语义处理及语义分析技术领域,特别是保险客户筛选领域的医疗大数据的语义处理与语义分析技术,具体地说是一种基于健康医疗大数据的保险客户名单筛选方法及装置。
背景技术
近些年,随着社会经济和医疗体制改革的发展,商业健康险通过提供保险保障、整合服务供给、加强产业整合等方式,深度参与“三医联动”,成为深化医改的助推器,在参与社会民生工程和医疗保障体系建设中取得了长足进步。但是,经营风险高、赔付率和赔付额高、盈利难等因素制约着商业健康险的持续发展,这使得风控管理成为商业健康险发展的重中之重,而投保过程中对客户信用和客户优质度进行筛选是风控管理的重要环节之一。
目前客户筛选方式有很多,平安科技根据经验积累的黑名单判断规则以及客户运营数据分析客户标签对保险投保客户进行筛选;武汉泰乐奇基于医学教育数据进行客户筛选;平安科技还通过自动爬取客户个人实体维度信息(犯罪信息、金融预期信息等信息)和企业法人信息(企业诉讼信息、食品药品监督局黑名单信息等信息)等多维度信息进行黑名单筛选。可见,目前针对客户进行分析时,往往通过非临床诊疗数据源或单一数据源或单一指标体系进行判断,不能通过多来源医疗数据和全面完善的指标体系进行综合分析。
发明内容
本发明的技术任务是提供一种基于健康医疗大数据的保险客户名单筛选方法及装置,来解决现有技术中针对用户筛选分析时基于单一数据源的单一指标分析,而无法多维度精确筛选客户的问题。
本发明的技术任务是按以下方式实现的,一种基于健康医疗大数据的保险客户名单筛选方法,该方法具体如下:
输入保险客户信息;
查找及提取医疗数据:通过客户信息从医疗健康大数据中查找该客户的医疗数据,并提取该客户的医疗数据;
语义标准化处理:对找到的客户医疗数据进行语义标准化处理,生成具有语义关系的客户标准化数据,进而形成客户医疗语义网;
语义匹配:将筛选规则库与客户医疗语义网进行语义匹配;
获得客户筛选结果。
作为优选,客户信息包括客户身份信息,客户身份信息包括姓名、性别、出生日期、地址、身份证号码和电话。
更优地,查找及提取医疗数据具体如下:
通过客户查找方法进行精确匹配,并将查找到的客户记录整合去重;其中,客户查找方法包括如下两种方式:
两要素客户查找方法:身份证+姓名;
五要素客户查找方法:姓名+性别+出生日期+地址+电话;
根据去重后的客户记录,从医疗健康大数据中提取该客户的全生命周期的医疗数据;其中,医疗健康大数据包括临床诊断数据、临床用药数据、检查检验数据、手术数据、临床费用结算数据、电子病历数据、医保参保数据和医保结算数据;
将该客户的全生命周期的医疗健康大数据以时间为主线串联形成各维度各类型的就诊数据。
作为优选,语义标准化处理是指基于医学标准词表和命名实体识别技术,从医疗数据中自动抽取出医疗术语,并对医疗术语进行概念上的归一和规范,进而形成医疗概念语义网;
其中,医疗标准词表是在ICD10基础上,扩建等同关系和属分关系的概念后得到的体现语义关系的医疗标准词表;
医疗标准词表分为树状结构表和字顺表;
树状结构表包括树状结构号、标准术语编码及术语名称;树状结构表用于体现词与词之间的语义属分关系;
字顺表包括术语名称、标准名称及术语编码;字顺表用于体现词与词之间的等同关系。
更优地,所述筛选规则库是指多维度的筛选指标体系,多维度的筛选指标体系分为三层,分别为第一类指标、第二类指标和第三类指标;
其中,第一类指标包括诊断信息;其中,诊断信息的指标判断规则为诊断ICD10编码是否符合规则表,规则表为事先编制的黑名单客户疾病编码表;
第二类指标包括医院名称、就诊科室、手术信息、药品名称、检查名称、检验名称及医保大病保险支付基金;其中,医院名称的指标判断规则为医院名称中是否包含肿瘤字样的医院名称;就诊科室的指标判断规则为科室名称中包含医院名称中是否包含肿瘤字样的科室名称;手术信息的指标判断规则为手术ICD9-CM3编码是否符合规则表,规则表为事先编制的高风险客户手术编码表;药品名称的指标判断规则为药品名称是否符合规则表,规则表为事先编制的高风险客户药品名称表;检查名称的指标判断规则为检查名称是否符合规则表,规则表为事先编制的高风险客户影像检查名称表;检验名称的指标判断规则为检验名称是否符合规则表以及检查结果异常字段是否为是,规则表为事先编制的高风险客户实验室检查名称表;医保大病保险支付基金的指标判断规则为医保大病保险支付基金是否有值;
第三类指标包括就诊次数、BMI、职业、血压、参保状态和结算费用;就诊次数的指标判断规则为该客户所有就诊号个数判断是否大于10次/年;BMI的指标判断规则为是否大于30;职业的指标判断规则为是否符合职业病的职业表;血压的指标判断规则为是否超过三次血压值异常;参保状态的指标判断规则为是否无医保;结算费用的指标判断规则为费用是否大于20000元。
更优地,所述语义匹配具体如下:
根据指标体系中每个指标的判断规则与客户医疗语义网中相应字段进行匹配,优先第一类指标进行匹配;
当第一类指标匹配成功时,则标识客户类型为第一类客户;
当第一类指标匹配不成功时,则用第二类指标进行匹配;
若其中有一个第二类指标匹配成功时,则标识客户类型为第二类客户;
当第一类指标和第二类指标匹配均未成功时,则用第三类指标进行匹配;
若第三类指标中所有指标均匹配成功时,则标识客户类型为第三类客户;
若第一类指标、第二类指标及第三类指标均未匹配成功时,则标识客户为第四类客户。
更优地,获得客户筛选结果是指将语义匹配过程中标记的客户类型分别输出;
客户类型包括第一类客户、第二类客户、第三类客户和第四类客户;其中,第一类客户为明确黑名单客户;第二类客户为高风险可疑客户;第三类客户为低风险可疑客户;第四类客户为安全客户或白名单客户。
一种基于健康医疗大数据的保险客户名单筛选装置,该装置包括,
信息输入模块,用于输入保险客户信息,客户信息包括客户身份信息,客户身份信息包括姓名、性别、出生日期、地址、身份证号码和电话;
医疗数据查找及提取模块,用于通过客户信息找到医疗健康大数据中该客户的全生命周期的、以时间为主线串联的所有医疗数据;
语义标准化处理模块,用于对找到的客户医疗数据进行语义标准化处理,生成具有语义关系的客户标准化数据,进而形成客户医疗语义网;
语义匹配模块,用于将筛选规则库与客户医疗语义网进行语义匹配;其中,语义匹配模块的工作过程具体如下:
①、根据指标体系中每个指标的判断规则与客户医疗语义网中相应字段进行匹配,优先第一类指标进行匹配;
②、当第一类指标匹配成功时,则标识客户类型为第一类客户;
③、当第一类指标匹配不成功时,则用第二类指标进行匹配;
④、若其中有一个第二类指标匹配成功时,则标识客户类型为第二类客户;
⑤、当第一类指标和第二类指标匹配均未成功时,则用第三类指标进行匹配;
⑥、若第三类指标中所有指标均匹配成功时,则标识客户类型为第三类客户;
⑦、若第一类指标、第二类指标及第三类指标均未匹配成功时,则标识客户为第四类客户;
客户筛选结果获得模块,用于将语义匹配过程中标记的客户类型分别输出;其中,客户类型包括第一类客户、第二类客户、第三类客户和第四类客户;其中,第一类客户为明确黑名单客户;第二类客户为高风险可疑客户;第三类客户为低风险可疑客户;第四类客户为安全客户或白名单客户。
一种电子设备,包括:存储器和至少一个处理器;
其中,所述存储器上存储有计算机程序;
所述至少一个处理器执行所述存储器存储的计算机程序,使得所述至少一个处理器执行如上述的基于健康医疗大数据的保险客户名单筛选方法。
一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序可被处理器执行以实现如上述的基于健康医疗大数据的保险客户名单筛选方法。
本发明的基于健康医疗大数据的保险客户名单筛选方法及装置具有以下优点:
(一)本发明解决了现有技术中针对用户筛选分析时基于单一数据源的单一指标分析,而无法多维度精确筛选客户的问题,实现了基于医疗大数据、多数据源的多维度指标规则的健康险客户的智能化精准筛选;
(二),本发明一方面通过健康医疗大数据种类多种多样,覆盖医疗领域全面数据,包括临床诊断数据、临床用药数据、检查检验数据、手术数据、临床费用结算数据、健康体检数据、电子病历数据、医保参保数据、医保结算数据等,解决了单一指标体系无法全面精准的客户筛选的问题,另一方面通过健康医疗大数据语义标准化技术,通过语义标准词表是的标准化后的术语之间具有语义关系,解决了语义标准化数据后进行语义分析的难点,进而提高了客户筛选的精准性;
(三)客户筛选指标为多维度、多层级的体系,可从更全面角度反应客户优质状态;
(四)本发明中的医疗标准词表不仅克服了ICD10只满足分类需求而存在概念不集中的缺陷外,还比ICD10的概念颗粒度更细,实现了概念上的细分和聚类更灵活的特点。
附图说明
下面结合附图对本发明进一步说明。
附图1为基于健康医疗大数据的保险客户名单筛选方法的流程框图;
附图2为客户医疗数据标准化前的数据表;
附图3为客户医疗数据标准化后的数据表。
具体实施方式
参照说明书附图和具体实施例对本发明的基于健康医疗大数据的保险客户名单筛选方法及装置作以下详细地说明。
实施例1:
如附图1所示,本发明的基于健康医疗大数据的保险客户名单筛选方法,该方法具体如下:
S1、输入保险客户信息;
S2、查找及提取医疗数据:通过客户信息从医疗健康大数据中查找该客户的医疗数据,并提取该客户的医疗数据;
S3、语义标准化处理:对找到的客户医疗数据进行语义标准化处理,生成具有语义关系的客户标准化数据,进而形成客户医疗语义网;
S4、语义匹配:将筛选规则库与客户医疗语义网进行语义匹配;
S5、获得客户筛选结果。
本实施例中,步骤S1中的客户信息包括客户身份信息,客户身份信息包括姓名、性别、出生日期、地址、身份证号码和电话。
在本实施例中,步骤S2中,查找及提取医疗数据具体如下:
S201、通过客户查找方法进行精确匹配,并将查找到的客户记录整合去重;其中,客户查找方法包括如下两种方式:
两要素客户查找方法:身份证+姓名;
五要素客户查找方法:姓名+性别+出生日期+地址+电话;
S202、根据去重后的客户记录,从医疗健康大数据中提取该客户的全生命周期的医疗数据;其中,医疗健康大数据包括临床诊断数据、临床用药数据、检查检验数据、手术数据、临床费用结算数据、电子病历数据、医保参保数据和医保结算数据;
S203、将该客户的全生命周期的医疗健康大数据以时间为主线串联形成各维度各类型的就诊数据。
本实施例中的客户医疗数据语义标准化处理,生成具有语义关系的客户标准化数据,提取出的医疗数据内容存在自然语言书写形式、自由文本形式,如附图2所示,无法对其内容进行语义分析,无法达到精准筛选的目的。
而步骤S3中的语义标准化处理是指基于医学标准词表和命名实体识别技术,从医疗数据中自动抽取出医疗术语,并对医疗术语进行概念上的归一和规范,进而形成医疗概念语义网,如附图3所示;
其中,医疗标准词表是在ICD10基础上,扩建等同关系和属分关系的概念后得到的体现语义关系的医疗标准词表;医疗标准词表不仅克服了ICD10只满足分类需求而存在概念不集中的缺陷外,还比ICD10的概念颗粒度更细,实现了概念上的细分和聚类更灵活的特点。
本实施例中的医疗标准词表分为树状结构表和字顺表;树状结构表包括树状结构号、标准术语编码及术语名称;树状结构表用于体现词与词之间的语义属分关系,如下表所示:
树状结构号 | 标准术语名称 | 术语编码 |
T008.001 | 糖尿病 | E10-E14 |
T008.001.001 | 1型糖尿病 | E10 |
T008.001.001.00* | …….. | |
T008.001.002 | 2型糖尿病 | E11 |
T008.001.002.001 | 2型糖尿病性酮症酸中毒 | E11.101 |
T008.001.002.002 | 2型糖尿病性视网膜病变 | E11.301+ |
T008.001.002.003 | 2型糖尿病性白内障 | E11.302+ |
T008.001.002.004 | 2型糖尿病足 | E11.503+ |
T008.001.002.005 | …….. | |
T008.001.003 | 妊娠期糖尿病 | O24.900 |
T008.001.004 | 新生儿糖尿病 | P70.200 |
T005.001 | 白内障 | H25-H26 |
T005.001.001 | 2型糖尿病性白内障 | E11.302+ |
T005.001.002 | 代谢性白内障 | E88.906+ |
T005.001.003 | 老年性白内障(类目) | H25 |
T005.001.004 | 药物性白内障(亚目) | H26.300 |
T005.001.005 | 婴儿期白内障 | H26.001 |
T005.001.006 | 幼年性白内障 | H26.002 |
T005.001.007 | 后发性白内障 | H26.400 |
T005.001.008 | 混合性白内障 | H26.801 |
T005.001.009 | 放射性白内障 | H26.802 |
T005.001.010 | 先天性白内障 | Q12.000 |
字顺表包括术语名称、标准名称及术语编码;字顺表用于体现词与词之间的等同关系,如下表所示:
术语名称 | 标准名称 | 术语编码 |
非胰岛素依赖性糖尿病 | 2型糖尿病 | E11 |
成人发病型糖尿病 | 2型糖尿病 | |
二型糖尿病 | 2型糖尿病 | |
II型糖尿病 | 2型糖尿病 | |
糖尿病,2型 | 2型糖尿病 | |
T2DM | 2型糖尿病 | |
胰岛素依赖型糖尿病 | 1型糖尿病 |
本实施例中,步骤S4中的筛选规则库是指多维度的筛选指标体系,如下表所示:
由上表可知:多维度的筛选指标体系分为三层,分别为第一类指标、第二类指标和第三类指标;
其中,第一类指标包括诊断信息;其中,诊断信息的指标判断规则为诊断ICD10编码是否符合规则表,规则表为事先编制的黑名单客户疾病编码表;
第二类指标包括医院名称、就诊科室、手术信息、药品名称、检查名称、检验名称及医保大病保险支付基金;其中,医院名称的指标判断规则为医院名称中是否包含肿瘤字样的医院名称;就诊科室的指标判断规则为科室名称中包含医院名称中是否包含肿瘤字样的科室名称;手术信息的指标判断规则为手术ICD9-CM3编码是否符合规则表,规则表为事先编制的高风险客户手术编码表;药品名称的指标判断规则为药品名称是否符合规则表,规则表为事先编制的高风险客户药品名称表;检查名称的指标判断规则为检查名称是否符合规则表,规则表为事先编制的高风险客户影像检查名称表;检验名称的指标判断规则为检验名称是否符合规则表以及检查结果异常字段是否为是,规则表为事先编制的高风险客户实验室检查名称表;医保大病保险支付基金的指标判断规则为医保大病保险支付基金是否有值;
第三类指标包括就诊次数、BMI、职业、血压、参保状态和结算费用;就诊次数的指标判断规则为该客户所有就诊号个数判断是否大于10次/年;BMI的指标判断规则为是否大于30;职业的指标判断规则为是否符合职业病的职业表;血压的指标判断规则为是否超过三次血压值异常;参保状态的指标判断规则为是否无医保;结算费用的指标判断规则为费用是否大于20000元。
本实施例中,步骤S4中语义匹配具体如下:
S401、根据指标体系中每个指标的判断规则与客户医疗语义网中相应字段进行匹配,优先第一类指标进行匹配;
S402、当第一类指标匹配成功时,则标识客户类型为第一类客户;
S403、当第一类指标匹配不成功时,则用第二类指标进行匹配;
S404、若其中有一个第二类指标匹配成功时,则标识客户类型为第二类客户;
S405、当第一类指标和第二类指标匹配均未成功时,则用第三类指标进行匹配;
S406、若第三类指标中所有指标均匹配成功时,则标识客户类型为第三类客户;
S407、若第一类指标、第二类指标及第三类指标均未匹配成功时,则标识客户为第四类客户。
本实施例中,步骤S5中的获得客户筛选结果是指将语义匹配过程中标记的客户类型分别输出;
客户类型包括第一类客户、第二类客户、第三类客户和第四类客户;其中,第一类客户为明确黑名单客户;第二类客户为高风险可疑客户;第三类客户为低风险可疑客户;第四类客户为安全客户或白名单客户。
实施例2:
本发明的基于健康医疗大数据的保险客户名单筛选装置,该装置包括,
信息输入模块,用于输入保险客户信息,客户信息包括客户身份信息,客户身份信息包括姓名、性别、出生日期、地址、身份证号码和电话;
医疗数据查找及提取模块,用于通过客户信息找到医疗健康大数据中该客户的全生命周期的、以时间为主线串联的所有医疗数据;
语义标准化处理模块,用于对找到的客户医疗数据进行语义标准化处理,生成具有语义关系的客户标准化数据,进而形成客户医疗语义网;
语义匹配模块,用于将筛选规则库与客户医疗语义网进行语义匹配;其中,语义匹配模块的工作过程具体如下:
①、根据指标体系中每个指标的判断规则与客户医疗语义网中相应字段进行匹配,优先第一类指标进行匹配;
②、当第一类指标匹配成功时,则标识客户类型为第一类客户;
③、当第一类指标匹配不成功时,则用第二类指标进行匹配;
④、若其中有一个第二类指标匹配成功时,则标识客户类型为第二类客户;
⑤、当第一类指标和第二类指标匹配均未成功时,则用第三类指标进行匹配;
⑥、若第三类指标中所有指标均匹配成功时,则标识客户类型为第三类客户;
⑦、若第一类指标、第二类指标及第三类指标均未匹配成功时,则标识客户为第四类客户;
客户筛选结果获得模块,用于将语义匹配过程中标记的客户类型分别输出;其中,客户类型包括第一类客户、第二类客户、第三类客户和第四类客户;其中,第一类客户为明确黑名单客户;第二类客户为高风险可疑客户;第三类客户为低风险可疑客户;第四类客户为安全客户或白名单客户。
实施例3:
本发明实施例还提供了一种电子设备,包括:存储器和至少一个处理器;
其中,所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行本发明任一实施例中的基于健康医疗大数据的保险客户名单筛选方法。
实施例4:
本发明实施例还提供了一种计算机可读存储介质,其中存储有多条指令,指令由处理器加载,使处理器执行本发明任一实施例中的基于健康医疗大数据的保险客户名单筛选方法。具体地,可以提供配有存储介质的系统或者装置,在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该系统或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。
在这种情况下,从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此程序代码和存储程序代码的存储介质构成了本发明的一部分。
用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-R基于健康医疗大数据的保险客户名单筛选方法及装置M、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机上下载程序代码。
此外,应该清楚的是,不仅可以通过执行计算机所读出的程序代码,而且可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作,从而实现上述实施例中任意一项实施例的功能。
此外,可以理解的是,将由存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中,随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作,从而实现上述实施例中任一实施例的功能。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种基于健康医疗大数据的保险客户名单筛选方法,其特征在于,该方法具体如下:
输入保险客户信息;
查找及提取医疗数据:通过客户信息从医疗健康大数据中查找该客户的医疗数据,并提取该客户的医疗数据;
语义标准化处理:对找到的客户医疗数据进行语义标准化处理,生成具有语义关系的客户标准化数据,进而形成客户医疗语义网;
语义匹配:将筛选规则库与客户医疗语义网进行语义匹配;
获得客户筛选结果。
2.根据权利要求1所述的基于健康医疗大数据的保险客户名单筛选方法,其特征在于,客户信息包括客户身份信息,客户身份信息包括姓名、性别、出生日期、地址、身份证号码和电话。
3.根据权利要求1或2所述的基于健康医疗大数据的保险客户名单筛选方法,其特征在于,查找及提取医疗数据具体如下:
通过客户查找方法进行精确匹配,并将查找到的客户记录整合去重;其中,客户查找方法包括如下两种方式:
两要素客户查找方法:身份证+姓名;
五要素客户查找方法:姓名+性别+出生日期+地址+电话;
根据去重后的客户记录,从医疗健康大数据中提取该客户的全生命周期的医疗数据;其中,医疗健康大数据包括临床诊断数据、临床用药数据、检查检验数据、手术数据、临床费用结算数据、电子病历数据、医保参保数据和医保结算数据;
将该客户的全生命周期的医疗健康大数据以时间为主线串联形成各维度各类型的就诊数据。
4.根据权利要求1所述的基于健康医疗大数据的保险客户名单筛选方法,其特征在于,语义标准化处理是指基于医学标准词表和命名实体识别技术,从医疗数据中自动抽取出医疗术语,并对医疗术语进行概念上的归一和规范,进而形成医疗概念语义网;
其中,医疗标准词表是在ICD10基础上,扩建等同关系和属分关系的概念后得到的体现语义关系的医疗标准词表;
医疗标准词表分为树状结构表和字顺表;
树状结构表包括树状结构号、标准术语编码及术语名称;树状结构表用于体现词与词之间的语义属分关系;
字顺表包括术语名称、标准名称及术语编码;字顺表用于体现词与词之间的等同关系。
5.根据权利要求1或4所述的基于健康医疗大数据的保险客户名单筛选方法,其特征在于,所述筛选规则库是指多维度的筛选指标体系,多维度的筛选指标体系分为三层,分别为第一类指标、第二类指标和第三类指标;
其中,第一类指标包括诊断信息;其中,诊断信息的指标判断规则为诊断ICD10编码是否符合规则表,规则表为事先编制的黑名单客户疾病编码表;
第二类指标包括医院名称、就诊科室、手术信息、药品名称、检查名称、检验名称及医保大病保险支付基金;其中,医院名称的指标判断规则为医院名称中是否包含肿瘤字样的医院名称;就诊科室的指标判断规则为科室名称中包含医院名称中是否包含肿瘤字样的科室名称;手术信息的指标判断规则为手术ICD9-CM3编码是否符合规则表,规则表为事先编制的高风险客户手术编码表;药品名称的指标判断规则为药品名称是否符合规则表,规则表为事先编制的高风险客户药品名称表;检查名称的指标判断规则为检查名称是否符合规则表,规则表为事先编制的高风险客户影像检查名称表;检验名称的指标判断规则为检验名称是否符合规则表以及检查结果异常字段是否为是,规则表为事先编制的高风险客户实验室检查名称表;医保大病保险支付基金的指标判断规则为医保大病保险支付基金是否有值;
第三类指标包括就诊次数、BMI、职业、血压、参保状态和结算费用;就诊次数的指标判断规则为该客户所有就诊号个数判断是否大于10次/年;BMI的指标判断规则为是否大于30;职业的指标判断规则为是否符合职业病的职业表;血压的指标判断规则为是否超过三次血压值异常;参保状态的指标判断规则为是否无医保;结算费用的指标判断规则为费用是否大于20000元。
6.根据权利要求5所述的基于健康医疗大数据的保险客户名单筛选方法,其特征在于,所述语义匹配具体如下:
根据指标体系中每个指标的判断规则与客户医疗语义网中相应字段进行匹配,优先第一类指标进行匹配;
当第一类指标匹配成功时,则标识客户类型为第一类客户;
当第一类指标匹配不成功时,则用第二类指标进行匹配;
若其中有一个第二类指标匹配成功时,则标识客户类型为第二类客户;
当第一类指标和第二类指标匹配均未成功时,则用第三类指标进行匹配;
若第三类指标中所有指标均匹配成功时,则标识客户类型为第三类客户;
若第一类指标、第二类指标及第三类指标均未匹配成功时,则标识客户为第四类客户。
7.根据权利要求6所述的基于健康医疗大数据的保险客户名单筛选方法,其特征在于,获得客户筛选结果是指将语义匹配过程中标记的客户类型分别输出;
客户类型包括第一类客户、第二类客户、第三类客户和第四类客户;其中,第一类客户为明确黑名单客户;第二类客户为高风险可疑客户;第三类客户为低风险可疑客户;第四类客户为安全客户或白名单客户。
8.一种基于健康医疗大数据的保险客户名单筛选装置,其特征在于,该装置包括,
信息输入模块,用于输入保险客户信息,客户信息包括客户身份信息,客户身份信息包括姓名、性别、出生日期、地址、身份证号码和电话;
医疗数据查找及提取模块,用于通过客户信息找到医疗健康大数据中该客户的全生命周期的、以时间为主线串联的所有医疗数据;
语义标准化处理模块,用于对找到的客户医疗数据进行语义标准化处理,生成具有语义关系的客户标准化数据,进而形成客户医疗语义网;
语义匹配模块,用于将筛选规则库与客户医疗语义网进行语义匹配;其中,语义匹配模块的工作过程具体如下:
①、根据指标体系中每个指标的判断规则与客户医疗语义网中相应字段进行匹配,优先第一类指标进行匹配;
②、当第一类指标匹配成功时,则标识客户类型为第一类客户;
③、当第一类指标匹配不成功时,则用第二类指标进行匹配;
④、若其中有一个第二类指标匹配成功时,则标识客户类型为第二类客户;
⑤、当第一类指标和第二类指标匹配均未成功时,则用第三类指标进行匹配;
⑥、若第三类指标中所有指标均匹配成功时,则标识客户类型为第三类客户;
⑦、若第一类指标、第二类指标及第三类指标均未匹配成功时,则标识客户为第四类客户;
客户筛选结果获得模块,用于将语义匹配过程中标记的客户类型分别输出;其中,客户类型包括第一类客户、第二类客户、第三类客户和第四类客户;其中,第一类客户为明确黑名单客户;第二类客户为高风险可以客户;第三类客户为低风险可以客户;第四类客户为安全客户或白名单客户。
9.一种电子设备,其特征在于,包括:存储器和至少一个处理器;
其中,所述存储器上存储有计算机程序;
所述至少一个处理器执行所述存储器存储的计算机程序,使得所述至少一个处理器执行如权利要求1至7任一项所述的基于健康医疗大数据的保险客户名单筛选方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序可被处理器执行以实现如权利要求1至7中所述的基于健康医疗大数据的保险客户名单筛选方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011094374.6A CN112183113A (zh) | 2020-10-14 | 2020-10-14 | 基于健康医疗大数据的保险客户名单筛选方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011094374.6A CN112183113A (zh) | 2020-10-14 | 2020-10-14 | 基于健康医疗大数据的保险客户名单筛选方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112183113A true CN112183113A (zh) | 2021-01-05 |
Family
ID=73950069
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011094374.6A Pending CN112183113A (zh) | 2020-10-14 | 2020-10-14 | 基于健康医疗大数据的保险客户名单筛选方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112183113A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115619387A (zh) * | 2022-11-22 | 2023-01-17 | 云账户技术(天津)有限公司 | 询证数据的校核方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107146160A (zh) * | 2016-02-26 | 2017-09-08 | 平安科技(深圳)有限公司 | 投保客户健康状况分析方法及服务器 |
CN109377388A (zh) * | 2018-09-13 | 2019-02-22 | 平安医疗健康管理股份有限公司 | 医保投保方法、装置、计算机设备和存储介质 |
CN109935330A (zh) * | 2019-04-01 | 2019-06-25 | 太平洋医疗健康管理有限公司 | 个人健康风险评分预测方法及系统 |
CN111180065A (zh) * | 2018-11-09 | 2020-05-19 | 天津幸福生命科技有限公司 | 保险用户评估方法、装置、电子设备及计算机可读介质 |
CN111626876A (zh) * | 2020-05-27 | 2020-09-04 | 泰康保险集团股份有限公司 | 保险审核方法、保险审核装置、电子设备、存储介质 |
-
2020
- 2020-10-14 CN CN202011094374.6A patent/CN112183113A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107146160A (zh) * | 2016-02-26 | 2017-09-08 | 平安科技(深圳)有限公司 | 投保客户健康状况分析方法及服务器 |
CN109377388A (zh) * | 2018-09-13 | 2019-02-22 | 平安医疗健康管理股份有限公司 | 医保投保方法、装置、计算机设备和存储介质 |
CN111180065A (zh) * | 2018-11-09 | 2020-05-19 | 天津幸福生命科技有限公司 | 保险用户评估方法、装置、电子设备及计算机可读介质 |
CN109935330A (zh) * | 2019-04-01 | 2019-06-25 | 太平洋医疗健康管理有限公司 | 个人健康风险评分预测方法及系统 |
CN111626876A (zh) * | 2020-05-27 | 2020-09-04 | 泰康保险集团股份有限公司 | 保险审核方法、保险审核装置、电子设备、存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115619387A (zh) * | 2022-11-22 | 2023-01-17 | 云账户技术(天津)有限公司 | 询证数据的校核方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210210184A1 (en) | Clinical concept identification, extraction, and prediction system and related methods | |
US11003796B2 (en) | Artificial intelligence based document processor | |
CN107784058B (zh) | 药品数据处理方法及装置 | |
US20200364404A1 (en) | Artificial intelligence (ai) based document processor | |
WO2020243732A1 (en) | Systems and methods of clinical trial evaluation | |
JP5952835B2 (ja) | 撮像プロトコルの更新及び/又はリコメンダ | |
US11537748B2 (en) | Self-contained system for de-identifying unstructured data in healthcare records | |
AU2011247830B2 (en) | Method and system for generating text | |
CN114026651A (zh) | 结构化患者数据记录的自动生成 | |
US20190371475A1 (en) | Generating and applying subject event timelines | |
US8676800B2 (en) | Method and system for generating text | |
CN110765199B (zh) | 医疗保险药品目录的遴选方法、存储介质及计算机设备 | |
CN115878893A (zh) | 临床试验项目的推荐方法、装置、电子设备和存储介质 | |
Malke et al. | Enhancing case capture, quality, and completeness of primary melanoma pathology records via natural language processing | |
CN112183113A (zh) | 基于健康医疗大数据的保险客户名单筛选方法及装置 | |
CA3118095A1 (en) | Artificial intelligence (ai) based document processor | |
Brady et al. | Machine-learning algorithms to code public health spending accounts | |
Sakib et al. | A novel approach on machine learning based data warehousing for intelligent healthcare services | |
Chondrogiannis et al. | A novel approach for clinical data harmonization | |
WO2018081703A1 (en) | Extracting patient data to provide provider and patient data similarity scoring | |
US10586616B2 (en) | Systems and methods for generating subsets of electronic healthcare-related documents | |
Benedetto et al. | Design, functionality, and validity of the SWInCaRe, a web-based application used to administer cancer registry records | |
CN112735584A (zh) | 一种恶性肿瘤诊疗辅助决策生成方法及装置 | |
Kefeli et al. | TCGA-Reports: A machine-readable pathology report resource for benchmarking text-based AI models | |
Lee et al. | A naturalistic patient matching algorithm: Derivation and validation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210105 |
|
RJ01 | Rejection of invention patent application after publication |