CN112183113A - 基于健康医疗大数据的保险客户名单筛选方法及装置 - Google Patents

基于健康医疗大数据的保险客户名单筛选方法及装置 Download PDF

Info

Publication number
CN112183113A
CN112183113A CN202011094374.6A CN202011094374A CN112183113A CN 112183113 A CN112183113 A CN 112183113A CN 202011094374 A CN202011094374 A CN 202011094374A CN 112183113 A CN112183113 A CN 112183113A
Authority
CN
China
Prior art keywords
client
medical
type
data
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011094374.6A
Other languages
English (en)
Inventor
黄玉丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Health Medical Big Data Co ltd
Original Assignee
Shandong Health Medical Big Data Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Health Medical Big Data Co ltd filed Critical Shandong Health Medical Big Data Co ltd
Priority to CN202011094374.6A priority Critical patent/CN112183113A/zh
Publication of CN112183113A publication Critical patent/CN112183113A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Accounting & Taxation (AREA)
  • Human Resources & Organizations (AREA)
  • Finance (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Educational Administration (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Technology Law (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种基于健康医疗大数据的保险客户名单筛选方法及装置,属于医疗大数据的语义处理及语义分析技术领域,本发明要解决的技术问题为现有技术中针对用户筛选分析时基于单一数据源的单一指标分析,而无法多维度精确筛选客户,采用的技术方案为:该方法具体如下:输入保险客户信息;查找及提取医疗数据:通过客户信息从医疗健康大数据中查找该客户的医疗数据,并提取该客户的医疗数据;语义标准化处理:对找到的客户医疗数据进行语义标准化处理,生成具有语义关系的客户标准化数据,进而形成客户医疗语义网;语义匹配:将筛选规则库与客户医疗语义网进行语义匹配;获得客户筛选结果。

Description

基于健康医疗大数据的保险客户名单筛选方法及装置
技术领域
本发明涉及医疗大数据的语义处理及语义分析技术领域,特别是保险客户筛选领域的医疗大数据的语义处理与语义分析技术,具体地说是一种基于健康医疗大数据的保险客户名单筛选方法及装置。
背景技术
近些年,随着社会经济和医疗体制改革的发展,商业健康险通过提供保险保障、整合服务供给、加强产业整合等方式,深度参与“三医联动”,成为深化医改的助推器,在参与社会民生工程和医疗保障体系建设中取得了长足进步。但是,经营风险高、赔付率和赔付额高、盈利难等因素制约着商业健康险的持续发展,这使得风控管理成为商业健康险发展的重中之重,而投保过程中对客户信用和客户优质度进行筛选是风控管理的重要环节之一。
目前客户筛选方式有很多,平安科技根据经验积累的黑名单判断规则以及客户运营数据分析客户标签对保险投保客户进行筛选;武汉泰乐奇基于医学教育数据进行客户筛选;平安科技还通过自动爬取客户个人实体维度信息(犯罪信息、金融预期信息等信息)和企业法人信息(企业诉讼信息、食品药品监督局黑名单信息等信息)等多维度信息进行黑名单筛选。可见,目前针对客户进行分析时,往往通过非临床诊疗数据源或单一数据源或单一指标体系进行判断,不能通过多来源医疗数据和全面完善的指标体系进行综合分析。
发明内容
本发明的技术任务是提供一种基于健康医疗大数据的保险客户名单筛选方法及装置,来解决现有技术中针对用户筛选分析时基于单一数据源的单一指标分析,而无法多维度精确筛选客户的问题。
本发明的技术任务是按以下方式实现的,一种基于健康医疗大数据的保险客户名单筛选方法,该方法具体如下:
输入保险客户信息;
查找及提取医疗数据:通过客户信息从医疗健康大数据中查找该客户的医疗数据,并提取该客户的医疗数据;
语义标准化处理:对找到的客户医疗数据进行语义标准化处理,生成具有语义关系的客户标准化数据,进而形成客户医疗语义网;
语义匹配:将筛选规则库与客户医疗语义网进行语义匹配;
获得客户筛选结果。
作为优选,客户信息包括客户身份信息,客户身份信息包括姓名、性别、出生日期、地址、身份证号码和电话。
更优地,查找及提取医疗数据具体如下:
通过客户查找方法进行精确匹配,并将查找到的客户记录整合去重;其中,客户查找方法包括如下两种方式:
两要素客户查找方法:身份证+姓名;
五要素客户查找方法:姓名+性别+出生日期+地址+电话;
根据去重后的客户记录,从医疗健康大数据中提取该客户的全生命周期的医疗数据;其中,医疗健康大数据包括临床诊断数据、临床用药数据、检查检验数据、手术数据、临床费用结算数据、电子病历数据、医保参保数据和医保结算数据;
将该客户的全生命周期的医疗健康大数据以时间为主线串联形成各维度各类型的就诊数据。
作为优选,语义标准化处理是指基于医学标准词表和命名实体识别技术,从医疗数据中自动抽取出医疗术语,并对医疗术语进行概念上的归一和规范,进而形成医疗概念语义网;
其中,医疗标准词表是在ICD10基础上,扩建等同关系和属分关系的概念后得到的体现语义关系的医疗标准词表;
医疗标准词表分为树状结构表和字顺表;
树状结构表包括树状结构号、标准术语编码及术语名称;树状结构表用于体现词与词之间的语义属分关系;
字顺表包括术语名称、标准名称及术语编码;字顺表用于体现词与词之间的等同关系。
更优地,所述筛选规则库是指多维度的筛选指标体系,多维度的筛选指标体系分为三层,分别为第一类指标、第二类指标和第三类指标;
其中,第一类指标包括诊断信息;其中,诊断信息的指标判断规则为诊断ICD10编码是否符合规则表,规则表为事先编制的黑名单客户疾病编码表;
第二类指标包括医院名称、就诊科室、手术信息、药品名称、检查名称、检验名称及医保大病保险支付基金;其中,医院名称的指标判断规则为医院名称中是否包含肿瘤字样的医院名称;就诊科室的指标判断规则为科室名称中包含医院名称中是否包含肿瘤字样的科室名称;手术信息的指标判断规则为手术ICD9-CM3编码是否符合规则表,规则表为事先编制的高风险客户手术编码表;药品名称的指标判断规则为药品名称是否符合规则表,规则表为事先编制的高风险客户药品名称表;检查名称的指标判断规则为检查名称是否符合规则表,规则表为事先编制的高风险客户影像检查名称表;检验名称的指标判断规则为检验名称是否符合规则表以及检查结果异常字段是否为是,规则表为事先编制的高风险客户实验室检查名称表;医保大病保险支付基金的指标判断规则为医保大病保险支付基金是否有值;
第三类指标包括就诊次数、BMI、职业、血压、参保状态和结算费用;就诊次数的指标判断规则为该客户所有就诊号个数判断是否大于10次/年;BMI的指标判断规则为是否大于30;职业的指标判断规则为是否符合职业病的职业表;血压的指标判断规则为是否超过三次血压值异常;参保状态的指标判断规则为是否无医保;结算费用的指标判断规则为费用是否大于20000元。
更优地,所述语义匹配具体如下:
根据指标体系中每个指标的判断规则与客户医疗语义网中相应字段进行匹配,优先第一类指标进行匹配;
当第一类指标匹配成功时,则标识客户类型为第一类客户;
当第一类指标匹配不成功时,则用第二类指标进行匹配;
若其中有一个第二类指标匹配成功时,则标识客户类型为第二类客户;
当第一类指标和第二类指标匹配均未成功时,则用第三类指标进行匹配;
若第三类指标中所有指标均匹配成功时,则标识客户类型为第三类客户;
若第一类指标、第二类指标及第三类指标均未匹配成功时,则标识客户为第四类客户。
更优地,获得客户筛选结果是指将语义匹配过程中标记的客户类型分别输出;
客户类型包括第一类客户、第二类客户、第三类客户和第四类客户;其中,第一类客户为明确黑名单客户;第二类客户为高风险可疑客户;第三类客户为低风险可疑客户;第四类客户为安全客户或白名单客户。
一种基于健康医疗大数据的保险客户名单筛选装置,该装置包括,
信息输入模块,用于输入保险客户信息,客户信息包括客户身份信息,客户身份信息包括姓名、性别、出生日期、地址、身份证号码和电话;
医疗数据查找及提取模块,用于通过客户信息找到医疗健康大数据中该客户的全生命周期的、以时间为主线串联的所有医疗数据;
语义标准化处理模块,用于对找到的客户医疗数据进行语义标准化处理,生成具有语义关系的客户标准化数据,进而形成客户医疗语义网;
语义匹配模块,用于将筛选规则库与客户医疗语义网进行语义匹配;其中,语义匹配模块的工作过程具体如下:
①、根据指标体系中每个指标的判断规则与客户医疗语义网中相应字段进行匹配,优先第一类指标进行匹配;
②、当第一类指标匹配成功时,则标识客户类型为第一类客户;
③、当第一类指标匹配不成功时,则用第二类指标进行匹配;
④、若其中有一个第二类指标匹配成功时,则标识客户类型为第二类客户;
⑤、当第一类指标和第二类指标匹配均未成功时,则用第三类指标进行匹配;
⑥、若第三类指标中所有指标均匹配成功时,则标识客户类型为第三类客户;
⑦、若第一类指标、第二类指标及第三类指标均未匹配成功时,则标识客户为第四类客户;
客户筛选结果获得模块,用于将语义匹配过程中标记的客户类型分别输出;其中,客户类型包括第一类客户、第二类客户、第三类客户和第四类客户;其中,第一类客户为明确黑名单客户;第二类客户为高风险可疑客户;第三类客户为低风险可疑客户;第四类客户为安全客户或白名单客户。
一种电子设备,包括:存储器和至少一个处理器;
其中,所述存储器上存储有计算机程序;
所述至少一个处理器执行所述存储器存储的计算机程序,使得所述至少一个处理器执行如上述的基于健康医疗大数据的保险客户名单筛选方法。
一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序可被处理器执行以实现如上述的基于健康医疗大数据的保险客户名单筛选方法。
本发明的基于健康医疗大数据的保险客户名单筛选方法及装置具有以下优点:
(一)本发明解决了现有技术中针对用户筛选分析时基于单一数据源的单一指标分析,而无法多维度精确筛选客户的问题,实现了基于医疗大数据、多数据源的多维度指标规则的健康险客户的智能化精准筛选;
(二),本发明一方面通过健康医疗大数据种类多种多样,覆盖医疗领域全面数据,包括临床诊断数据、临床用药数据、检查检验数据、手术数据、临床费用结算数据、健康体检数据、电子病历数据、医保参保数据、医保结算数据等,解决了单一指标体系无法全面精准的客户筛选的问题,另一方面通过健康医疗大数据语义标准化技术,通过语义标准词表是的标准化后的术语之间具有语义关系,解决了语义标准化数据后进行语义分析的难点,进而提高了客户筛选的精准性;
(三)客户筛选指标为多维度、多层级的体系,可从更全面角度反应客户优质状态;
(四)本发明中的医疗标准词表不仅克服了ICD10只满足分类需求而存在概念不集中的缺陷外,还比ICD10的概念颗粒度更细,实现了概念上的细分和聚类更灵活的特点。
附图说明
下面结合附图对本发明进一步说明。
附图1为基于健康医疗大数据的保险客户名单筛选方法的流程框图;
附图2为客户医疗数据标准化前的数据表;
附图3为客户医疗数据标准化后的数据表。
具体实施方式
参照说明书附图和具体实施例对本发明的基于健康医疗大数据的保险客户名单筛选方法及装置作以下详细地说明。
实施例1:
如附图1所示,本发明的基于健康医疗大数据的保险客户名单筛选方法,该方法具体如下:
S1、输入保险客户信息;
S2、查找及提取医疗数据:通过客户信息从医疗健康大数据中查找该客户的医疗数据,并提取该客户的医疗数据;
S3、语义标准化处理:对找到的客户医疗数据进行语义标准化处理,生成具有语义关系的客户标准化数据,进而形成客户医疗语义网;
S4、语义匹配:将筛选规则库与客户医疗语义网进行语义匹配;
S5、获得客户筛选结果。
本实施例中,步骤S1中的客户信息包括客户身份信息,客户身份信息包括姓名、性别、出生日期、地址、身份证号码和电话。
在本实施例中,步骤S2中,查找及提取医疗数据具体如下:
S201、通过客户查找方法进行精确匹配,并将查找到的客户记录整合去重;其中,客户查找方法包括如下两种方式:
两要素客户查找方法:身份证+姓名;
五要素客户查找方法:姓名+性别+出生日期+地址+电话;
S202、根据去重后的客户记录,从医疗健康大数据中提取该客户的全生命周期的医疗数据;其中,医疗健康大数据包括临床诊断数据、临床用药数据、检查检验数据、手术数据、临床费用结算数据、电子病历数据、医保参保数据和医保结算数据;
S203、将该客户的全生命周期的医疗健康大数据以时间为主线串联形成各维度各类型的就诊数据。
本实施例中的客户医疗数据语义标准化处理,生成具有语义关系的客户标准化数据,提取出的医疗数据内容存在自然语言书写形式、自由文本形式,如附图2所示,无法对其内容进行语义分析,无法达到精准筛选的目的。
而步骤S3中的语义标准化处理是指基于医学标准词表和命名实体识别技术,从医疗数据中自动抽取出医疗术语,并对医疗术语进行概念上的归一和规范,进而形成医疗概念语义网,如附图3所示;
其中,医疗标准词表是在ICD10基础上,扩建等同关系和属分关系的概念后得到的体现语义关系的医疗标准词表;医疗标准词表不仅克服了ICD10只满足分类需求而存在概念不集中的缺陷外,还比ICD10的概念颗粒度更细,实现了概念上的细分和聚类更灵活的特点。
本实施例中的医疗标准词表分为树状结构表和字顺表;树状结构表包括树状结构号、标准术语编码及术语名称;树状结构表用于体现词与词之间的语义属分关系,如下表所示:
树状结构号 标准术语名称 术语编码
T008.001 糖尿病 E10-E14
T008.001.001 1型糖尿病 E10
T008.001.001.00* ……..
T008.001.002 2型糖尿病 E11
T008.001.002.001 2型糖尿病性酮症酸中毒 E11.101
T008.001.002.002 2型糖尿病性视网膜病变 E11.301+
T008.001.002.003 2型糖尿病性白内障 E11.302+
T008.001.002.004 2型糖尿病足 E11.503+
T008.001.002.005 ……..
T008.001.003 妊娠期糖尿病 O24.900
T008.001.004 新生儿糖尿病 P70.200
T005.001 白内障 H25-H26
T005.001.001 2型糖尿病性白内障 E11.302+
T005.001.002 代谢性白内障 E88.906+
T005.001.003 老年性白内障(类目) H25
T005.001.004 药物性白内障(亚目) H26.300
T005.001.005 婴儿期白内障 H26.001
T005.001.006 幼年性白内障 H26.002
T005.001.007 后发性白内障 H26.400
T005.001.008 混合性白内障 H26.801
T005.001.009 放射性白内障 H26.802
T005.001.010 先天性白内障 Q12.000
字顺表包括术语名称、标准名称及术语编码;字顺表用于体现词与词之间的等同关系,如下表所示:
术语名称 标准名称 术语编码
非胰岛素依赖性糖尿病 2型糖尿病 E11
成人发病型糖尿病 2型糖尿病
二型糖尿病 2型糖尿病
II型糖尿病 2型糖尿病
糖尿病,2型 2型糖尿病
T2DM 2型糖尿病
胰岛素依赖型糖尿病 1型糖尿病
本实施例中,步骤S4中的筛选规则库是指多维度的筛选指标体系,如下表所示:
Figure BDA0002723220620000081
由上表可知:多维度的筛选指标体系分为三层,分别为第一类指标、第二类指标和第三类指标;
其中,第一类指标包括诊断信息;其中,诊断信息的指标判断规则为诊断ICD10编码是否符合规则表,规则表为事先编制的黑名单客户疾病编码表;
第二类指标包括医院名称、就诊科室、手术信息、药品名称、检查名称、检验名称及医保大病保险支付基金;其中,医院名称的指标判断规则为医院名称中是否包含肿瘤字样的医院名称;就诊科室的指标判断规则为科室名称中包含医院名称中是否包含肿瘤字样的科室名称;手术信息的指标判断规则为手术ICD9-CM3编码是否符合规则表,规则表为事先编制的高风险客户手术编码表;药品名称的指标判断规则为药品名称是否符合规则表,规则表为事先编制的高风险客户药品名称表;检查名称的指标判断规则为检查名称是否符合规则表,规则表为事先编制的高风险客户影像检查名称表;检验名称的指标判断规则为检验名称是否符合规则表以及检查结果异常字段是否为是,规则表为事先编制的高风险客户实验室检查名称表;医保大病保险支付基金的指标判断规则为医保大病保险支付基金是否有值;
第三类指标包括就诊次数、BMI、职业、血压、参保状态和结算费用;就诊次数的指标判断规则为该客户所有就诊号个数判断是否大于10次/年;BMI的指标判断规则为是否大于30;职业的指标判断规则为是否符合职业病的职业表;血压的指标判断规则为是否超过三次血压值异常;参保状态的指标判断规则为是否无医保;结算费用的指标判断规则为费用是否大于20000元。
本实施例中,步骤S4中语义匹配具体如下:
S401、根据指标体系中每个指标的判断规则与客户医疗语义网中相应字段进行匹配,优先第一类指标进行匹配;
S402、当第一类指标匹配成功时,则标识客户类型为第一类客户;
S403、当第一类指标匹配不成功时,则用第二类指标进行匹配;
S404、若其中有一个第二类指标匹配成功时,则标识客户类型为第二类客户;
S405、当第一类指标和第二类指标匹配均未成功时,则用第三类指标进行匹配;
S406、若第三类指标中所有指标均匹配成功时,则标识客户类型为第三类客户;
S407、若第一类指标、第二类指标及第三类指标均未匹配成功时,则标识客户为第四类客户。
本实施例中,步骤S5中的获得客户筛选结果是指将语义匹配过程中标记的客户类型分别输出;
客户类型包括第一类客户、第二类客户、第三类客户和第四类客户;其中,第一类客户为明确黑名单客户;第二类客户为高风险可疑客户;第三类客户为低风险可疑客户;第四类客户为安全客户或白名单客户。
实施例2:
本发明的基于健康医疗大数据的保险客户名单筛选装置,该装置包括,
信息输入模块,用于输入保险客户信息,客户信息包括客户身份信息,客户身份信息包括姓名、性别、出生日期、地址、身份证号码和电话;
医疗数据查找及提取模块,用于通过客户信息找到医疗健康大数据中该客户的全生命周期的、以时间为主线串联的所有医疗数据;
语义标准化处理模块,用于对找到的客户医疗数据进行语义标准化处理,生成具有语义关系的客户标准化数据,进而形成客户医疗语义网;
语义匹配模块,用于将筛选规则库与客户医疗语义网进行语义匹配;其中,语义匹配模块的工作过程具体如下:
①、根据指标体系中每个指标的判断规则与客户医疗语义网中相应字段进行匹配,优先第一类指标进行匹配;
②、当第一类指标匹配成功时,则标识客户类型为第一类客户;
③、当第一类指标匹配不成功时,则用第二类指标进行匹配;
④、若其中有一个第二类指标匹配成功时,则标识客户类型为第二类客户;
⑤、当第一类指标和第二类指标匹配均未成功时,则用第三类指标进行匹配;
⑥、若第三类指标中所有指标均匹配成功时,则标识客户类型为第三类客户;
⑦、若第一类指标、第二类指标及第三类指标均未匹配成功时,则标识客户为第四类客户;
客户筛选结果获得模块,用于将语义匹配过程中标记的客户类型分别输出;其中,客户类型包括第一类客户、第二类客户、第三类客户和第四类客户;其中,第一类客户为明确黑名单客户;第二类客户为高风险可疑客户;第三类客户为低风险可疑客户;第四类客户为安全客户或白名单客户。
实施例3:
本发明实施例还提供了一种电子设备,包括:存储器和至少一个处理器;
其中,所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行本发明任一实施例中的基于健康医疗大数据的保险客户名单筛选方法。
实施例4:
本发明实施例还提供了一种计算机可读存储介质,其中存储有多条指令,指令由处理器加载,使处理器执行本发明任一实施例中的基于健康医疗大数据的保险客户名单筛选方法。具体地,可以提供配有存储介质的系统或者装置,在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该系统或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。
在这种情况下,从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此程序代码和存储程序代码的存储介质构成了本发明的一部分。
用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-R基于健康医疗大数据的保险客户名单筛选方法及装置M、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机上下载程序代码。
此外,应该清楚的是,不仅可以通过执行计算机所读出的程序代码,而且可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作,从而实现上述实施例中任意一项实施例的功能。
此外,可以理解的是,将由存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中,随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作,从而实现上述实施例中任一实施例的功能。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种基于健康医疗大数据的保险客户名单筛选方法,其特征在于,该方法具体如下:
输入保险客户信息;
查找及提取医疗数据:通过客户信息从医疗健康大数据中查找该客户的医疗数据,并提取该客户的医疗数据;
语义标准化处理:对找到的客户医疗数据进行语义标准化处理,生成具有语义关系的客户标准化数据,进而形成客户医疗语义网;
语义匹配:将筛选规则库与客户医疗语义网进行语义匹配;
获得客户筛选结果。
2.根据权利要求1所述的基于健康医疗大数据的保险客户名单筛选方法,其特征在于,客户信息包括客户身份信息,客户身份信息包括姓名、性别、出生日期、地址、身份证号码和电话。
3.根据权利要求1或2所述的基于健康医疗大数据的保险客户名单筛选方法,其特征在于,查找及提取医疗数据具体如下:
通过客户查找方法进行精确匹配,并将查找到的客户记录整合去重;其中,客户查找方法包括如下两种方式:
两要素客户查找方法:身份证+姓名;
五要素客户查找方法:姓名+性别+出生日期+地址+电话;
根据去重后的客户记录,从医疗健康大数据中提取该客户的全生命周期的医疗数据;其中,医疗健康大数据包括临床诊断数据、临床用药数据、检查检验数据、手术数据、临床费用结算数据、电子病历数据、医保参保数据和医保结算数据;
将该客户的全生命周期的医疗健康大数据以时间为主线串联形成各维度各类型的就诊数据。
4.根据权利要求1所述的基于健康医疗大数据的保险客户名单筛选方法,其特征在于,语义标准化处理是指基于医学标准词表和命名实体识别技术,从医疗数据中自动抽取出医疗术语,并对医疗术语进行概念上的归一和规范,进而形成医疗概念语义网;
其中,医疗标准词表是在ICD10基础上,扩建等同关系和属分关系的概念后得到的体现语义关系的医疗标准词表;
医疗标准词表分为树状结构表和字顺表;
树状结构表包括树状结构号、标准术语编码及术语名称;树状结构表用于体现词与词之间的语义属分关系;
字顺表包括术语名称、标准名称及术语编码;字顺表用于体现词与词之间的等同关系。
5.根据权利要求1或4所述的基于健康医疗大数据的保险客户名单筛选方法,其特征在于,所述筛选规则库是指多维度的筛选指标体系,多维度的筛选指标体系分为三层,分别为第一类指标、第二类指标和第三类指标;
其中,第一类指标包括诊断信息;其中,诊断信息的指标判断规则为诊断ICD10编码是否符合规则表,规则表为事先编制的黑名单客户疾病编码表;
第二类指标包括医院名称、就诊科室、手术信息、药品名称、检查名称、检验名称及医保大病保险支付基金;其中,医院名称的指标判断规则为医院名称中是否包含肿瘤字样的医院名称;就诊科室的指标判断规则为科室名称中包含医院名称中是否包含肿瘤字样的科室名称;手术信息的指标判断规则为手术ICD9-CM3编码是否符合规则表,规则表为事先编制的高风险客户手术编码表;药品名称的指标判断规则为药品名称是否符合规则表,规则表为事先编制的高风险客户药品名称表;检查名称的指标判断规则为检查名称是否符合规则表,规则表为事先编制的高风险客户影像检查名称表;检验名称的指标判断规则为检验名称是否符合规则表以及检查结果异常字段是否为是,规则表为事先编制的高风险客户实验室检查名称表;医保大病保险支付基金的指标判断规则为医保大病保险支付基金是否有值;
第三类指标包括就诊次数、BMI、职业、血压、参保状态和结算费用;就诊次数的指标判断规则为该客户所有就诊号个数判断是否大于10次/年;BMI的指标判断规则为是否大于30;职业的指标判断规则为是否符合职业病的职业表;血压的指标判断规则为是否超过三次血压值异常;参保状态的指标判断规则为是否无医保;结算费用的指标判断规则为费用是否大于20000元。
6.根据权利要求5所述的基于健康医疗大数据的保险客户名单筛选方法,其特征在于,所述语义匹配具体如下:
根据指标体系中每个指标的判断规则与客户医疗语义网中相应字段进行匹配,优先第一类指标进行匹配;
当第一类指标匹配成功时,则标识客户类型为第一类客户;
当第一类指标匹配不成功时,则用第二类指标进行匹配;
若其中有一个第二类指标匹配成功时,则标识客户类型为第二类客户;
当第一类指标和第二类指标匹配均未成功时,则用第三类指标进行匹配;
若第三类指标中所有指标均匹配成功时,则标识客户类型为第三类客户;
若第一类指标、第二类指标及第三类指标均未匹配成功时,则标识客户为第四类客户。
7.根据权利要求6所述的基于健康医疗大数据的保险客户名单筛选方法,其特征在于,获得客户筛选结果是指将语义匹配过程中标记的客户类型分别输出;
客户类型包括第一类客户、第二类客户、第三类客户和第四类客户;其中,第一类客户为明确黑名单客户;第二类客户为高风险可疑客户;第三类客户为低风险可疑客户;第四类客户为安全客户或白名单客户。
8.一种基于健康医疗大数据的保险客户名单筛选装置,其特征在于,该装置包括,
信息输入模块,用于输入保险客户信息,客户信息包括客户身份信息,客户身份信息包括姓名、性别、出生日期、地址、身份证号码和电话;
医疗数据查找及提取模块,用于通过客户信息找到医疗健康大数据中该客户的全生命周期的、以时间为主线串联的所有医疗数据;
语义标准化处理模块,用于对找到的客户医疗数据进行语义标准化处理,生成具有语义关系的客户标准化数据,进而形成客户医疗语义网;
语义匹配模块,用于将筛选规则库与客户医疗语义网进行语义匹配;其中,语义匹配模块的工作过程具体如下:
①、根据指标体系中每个指标的判断规则与客户医疗语义网中相应字段进行匹配,优先第一类指标进行匹配;
②、当第一类指标匹配成功时,则标识客户类型为第一类客户;
③、当第一类指标匹配不成功时,则用第二类指标进行匹配;
④、若其中有一个第二类指标匹配成功时,则标识客户类型为第二类客户;
⑤、当第一类指标和第二类指标匹配均未成功时,则用第三类指标进行匹配;
⑥、若第三类指标中所有指标均匹配成功时,则标识客户类型为第三类客户;
⑦、若第一类指标、第二类指标及第三类指标均未匹配成功时,则标识客户为第四类客户;
客户筛选结果获得模块,用于将语义匹配过程中标记的客户类型分别输出;其中,客户类型包括第一类客户、第二类客户、第三类客户和第四类客户;其中,第一类客户为明确黑名单客户;第二类客户为高风险可以客户;第三类客户为低风险可以客户;第四类客户为安全客户或白名单客户。
9.一种电子设备,其特征在于,包括:存储器和至少一个处理器;
其中,所述存储器上存储有计算机程序;
所述至少一个处理器执行所述存储器存储的计算机程序,使得所述至少一个处理器执行如权利要求1至7任一项所述的基于健康医疗大数据的保险客户名单筛选方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序可被处理器执行以实现如权利要求1至7中所述的基于健康医疗大数据的保险客户名单筛选方法。
CN202011094374.6A 2020-10-14 2020-10-14 基于健康医疗大数据的保险客户名单筛选方法及装置 Pending CN112183113A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011094374.6A CN112183113A (zh) 2020-10-14 2020-10-14 基于健康医疗大数据的保险客户名单筛选方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011094374.6A CN112183113A (zh) 2020-10-14 2020-10-14 基于健康医疗大数据的保险客户名单筛选方法及装置

Publications (1)

Publication Number Publication Date
CN112183113A true CN112183113A (zh) 2021-01-05

Family

ID=73950069

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011094374.6A Pending CN112183113A (zh) 2020-10-14 2020-10-14 基于健康医疗大数据的保险客户名单筛选方法及装置

Country Status (1)

Country Link
CN (1) CN112183113A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115619387A (zh) * 2022-11-22 2023-01-17 云账户技术(天津)有限公司 询证数据的校核方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107146160A (zh) * 2016-02-26 2017-09-08 平安科技(深圳)有限公司 投保客户健康状况分析方法及服务器
CN109377388A (zh) * 2018-09-13 2019-02-22 平安医疗健康管理股份有限公司 医保投保方法、装置、计算机设备和存储介质
CN109935330A (zh) * 2019-04-01 2019-06-25 太平洋医疗健康管理有限公司 个人健康风险评分预测方法及系统
CN111180065A (zh) * 2018-11-09 2020-05-19 天津幸福生命科技有限公司 保险用户评估方法、装置、电子设备及计算机可读介质
CN111626876A (zh) * 2020-05-27 2020-09-04 泰康保险集团股份有限公司 保险审核方法、保险审核装置、电子设备、存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107146160A (zh) * 2016-02-26 2017-09-08 平安科技(深圳)有限公司 投保客户健康状况分析方法及服务器
CN109377388A (zh) * 2018-09-13 2019-02-22 平安医疗健康管理股份有限公司 医保投保方法、装置、计算机设备和存储介质
CN111180065A (zh) * 2018-11-09 2020-05-19 天津幸福生命科技有限公司 保险用户评估方法、装置、电子设备及计算机可读介质
CN109935330A (zh) * 2019-04-01 2019-06-25 太平洋医疗健康管理有限公司 个人健康风险评分预测方法及系统
CN111626876A (zh) * 2020-05-27 2020-09-04 泰康保险集团股份有限公司 保险审核方法、保险审核装置、电子设备、存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115619387A (zh) * 2022-11-22 2023-01-17 云账户技术(天津)有限公司 询证数据的校核方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
US20210210184A1 (en) Clinical concept identification, extraction, and prediction system and related methods
US11003796B2 (en) Artificial intelligence based document processor
CN107784058B (zh) 药品数据处理方法及装置
US20200364404A1 (en) Artificial intelligence (ai) based document processor
WO2020243732A1 (en) Systems and methods of clinical trial evaluation
JP5952835B2 (ja) 撮像プロトコルの更新及び/又はリコメンダ
US11537748B2 (en) Self-contained system for de-identifying unstructured data in healthcare records
AU2011247830B2 (en) Method and system for generating text
CN114026651A (zh) 结构化患者数据记录的自动生成
US20190371475A1 (en) Generating and applying subject event timelines
US8676800B2 (en) Method and system for generating text
CN110765199B (zh) 医疗保险药品目录的遴选方法、存储介质及计算机设备
CN115878893A (zh) 临床试验项目的推荐方法、装置、电子设备和存储介质
Malke et al. Enhancing case capture, quality, and completeness of primary melanoma pathology records via natural language processing
CN112183113A (zh) 基于健康医疗大数据的保险客户名单筛选方法及装置
CA3118095A1 (en) Artificial intelligence (ai) based document processor
Brady et al. Machine-learning algorithms to code public health spending accounts
Sakib et al. A novel approach on machine learning based data warehousing for intelligent healthcare services
Chondrogiannis et al. A novel approach for clinical data harmonization
WO2018081703A1 (en) Extracting patient data to provide provider and patient data similarity scoring
US10586616B2 (en) Systems and methods for generating subsets of electronic healthcare-related documents
Benedetto et al. Design, functionality, and validity of the SWInCaRe, a web-based application used to administer cancer registry records
CN112735584A (zh) 一种恶性肿瘤诊疗辅助决策生成方法及装置
Kefeli et al. TCGA-Reports: A machine-readable pathology report resource for benchmarking text-based AI models
Lee et al. A naturalistic patient matching algorithm: Derivation and validation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210105

RJ01 Rejection of invention patent application after publication