CN112329450A - 一种保险医学编码映射字典表生产方法 - Google Patents

一种保险医学编码映射字典表生产方法 Download PDF

Info

Publication number
CN112329450A
CN112329450A CN202010742001.9A CN202010742001A CN112329450A CN 112329450 A CN112329450 A CN 112329450A CN 202010742001 A CN202010742001 A CN 202010742001A CN 112329450 A CN112329450 A CN 112329450A
Authority
CN
China
Prior art keywords
insurance
medical
medicine
clinical
disease
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010742001.9A
Other languages
English (en)
Inventor
汤文巍
章智云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Vhs Shanghai Health Technology Co ltd
Original Assignee
Vhs Shanghai Health Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Vhs Shanghai Health Technology Co ltd filed Critical Vhs Shanghai Health Technology Co ltd
Priority to CN202010742001.9A priority Critical patent/CN112329450A/zh
Publication of CN112329450A publication Critical patent/CN112329450A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明提供一种保险医学编码映射字典表生产方法,包括以下步骤:步骤(1)背景调研:步骤(2)语料库拆分:步骤(3)临床医学词汇结构分层:步骤(4)部位对应:步骤(5)模型训练:利用现有获得的医疗大数据,包括就诊记录、患者数据等,对匹配模型进行BERT模型训练;步骤(6)字典形成:形成临床医学‑保险医学编码映射字典表,该字典表将临床医学词汇、疾病名称、病因、诊疗手段及编码与保险医学中关注的疾病类型和名称、病因、诊疗手段及编码等因素形成映射。本发明通过模糊语义识别技术和BERT模型训练,建立一款将保险条款中的保险医学诊断等词汇映射到临床医学诊断等词汇的字典,解决保险医学与临床医学之间的定义壁垒,使商业保险利用大数据技术与临床医学诊断等数据形成对应关系。

Description

一种保险医学编码映射字典表生产方法
技术领域
本发明涉及保险医学技术领域,具体为一种保险医学编码映射字典表生产方法。
背景技术
随着人们对未来健康的重视和保障未来生活质量的要求的提高,作为医疗服务外的保障和服务市场,商业保险,尤其是健康险领域,正迎来巨大的发展机遇。
大数据时代的来临,依托大数据的平台和技术,在健康险的定价、风控和监管领域,商业保险机构需要与医疗机构,尤其是众多公立医院的临床数据形成互通,然而由于行业之间的差异,临床医学和保险医学的疾病以及其他术语之间也存在差异,使得保险的定价、核保以及理赔等业务端在实际应用中经常遇到障碍,因此,建立一个多对多的映射关系,作为保险医学和临床医学专业术语词汇的字典和桥梁,将保险条款中的规则映射到临床医学诊断中。
保险医学和临床医学之间的专业差异,使得保险公司在风控定价、核保、理赔过程中,容易产生纠纷和困惑,限制了健康险市场规模的发展和扩大,也使商业保险机构与大数据技术的结合遭遇瓶颈。
发明内容
本发明所解决的技术问题在于提供一种保险医学编码映射字典表生产方法,以解决上述背景技术中提出的问题。
本发明所解决的技术问题采用以下技术方案来实现:一种保险医学编码映射字典表生产方法,包括以下步骤:
步骤(1)背景调研:完成保险端医学词汇及相关解释词条的收集汇总,形成术语及规则语料库;
步骤(2)语料库拆分:对语料库中保险医学名词及相关词义解释,为后续匹配准备;
步骤(3)临床医学词汇结构分层:对于输入的临床医学词汇,以ICD-10编码规则为工具,对临床医学专业词汇对应的编码进行结构分层;
步骤(4)部位对应:对于保险医学名词中,能够分离出疾病对应人体部位的词汇,将临床医学词汇分离出的“疾病部位”与语料库中保险医学名词中疾病部位进行匹配对应:
步骤(5)模型训练:利用现有获得的医疗大数据,包括就诊记录、患者数据,对匹配模型进行BERT模型训练;
步骤(6)字典形成:形成临床医学-保险医学编码映射字典表,该字典表将临床医学词汇及编码与保险医学中关注的疾病类型、病因、以及诊疗手段等因素形成映射。
所述步骤(1)中对在售保险产品,针对各商业保险机构产品的条款目录,包括疾病描述信息,以及银保监会健康险产品备案信息进行调研入库。
所述步骤(2)中将无实义的冗余词汇过滤筛选后,进行拆分,拆分结果为保险机构对疾病名称的命名本身及保险条款中对相关词义的解释两部分。
所述步骤(3)中形成疾病、MCD疾病大类、病因、定语描述结构分层。
所述步骤(4)中首先完成疾病产生部位的对应,保险医学和临床医学分术语分离出的人体部位能够达到强关联,下一步进行描述性词义解释的模型训练;对于保险医学名词中无法分离出对应人体部位的疾病词汇,将疾病名称和词义解释分离后,以词义解释的匹配模型结果为准。
所述步骤(5)中模型中采用现有的医疗记录数据的文本语料进行训练;训练过程中,输入的文字每个字都会被转化为字向量,与描述全局语义信息的文本向量和用以区分处于不同位置字词的附加的位置向量,共同组成模型的输入部分;随着数据库中医疗数据网络规模的扩展,BERT模型的训练结果会更精确;利用BERT模型完成“MDC疾病大类、病因、定语描述”与保险端医学词汇语料库中相关词义解释部分的语义相似度匹配;为了进一步避免系统性风险,将匹配后的数据递交至临床医学专家进行复核。
与现有技术相比,本发明的有益效果是:本发明通过模糊语义识别技术和BERT模型训练,建立一款将保险条款映射到临床医学诊断的字典,解决保险医学与临床医学之间的定义壁垒,使商业保险利用大数据技术与临床医学诊断数据形成对应关系。
附图说明
图1为本发明的方法流程示意图。
具体实施方式
为了使本发明的实现技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体图示,进一步阐述本发明。
实施例1
如图1所示,一种保险医学编码映射字典表生产方法,包括以下步骤:
步骤(1)背景调研;对在售保险产品,尤其是健康险产品,针对各商业保险机构产品的条款目录,包括疾病描述等信息,以及银保监会健康险产品备案信息进行调研入库,完成保险端医学词汇及相关解释词条的收集汇总,形成术语及规则语料库。
步骤(2)语料库拆分;对语料库中保险医学名词及相关词义解释,将无实义的冗余词汇过滤筛选后,进行拆分,拆分结果为保险机构对疾病名称的命名本身及保险条款中对相关词义的解释两部分,为后续匹配准备。
步骤(3)临床医学词汇结构分层;对于输入的临床医学词汇,以ICD-10编码规则为工具,对临床医学专业词汇对应的编码进行结构分层,形成“疾病、MCD疾病大类、病因、定语描述”等部分结构。
步骤(4)部位对应;对于保险医学名词中,能够分离出疾病对应人体部位的词汇,将临床医学词汇分离出的“疾病部位”与语料库中保险医学名词中疾病部位进行匹配对应,首先完成疾病产生部位的对应,这部分要求达到“硬对应”,即保险医学和临床医学分术语分离出的人体部位能够达到强关联。下一步进行描述性词义解释的模型训练。对于保险医学名词中无法分离出对应人体部位的疾病词汇,将疾病名称和词义解释分离后,以词义解释的匹配模型结果为准。
步骤(5)模型训练;利用现有获得的医疗大数据,包括就诊记录、患者数据,对匹配模型进行BERT模型训练,BERT实际上是一个语言模型。本模型中采用现有大规模的医疗记录数据的文本语料进行训练。训练过程中,输入的文字(即临床医学字段和保险医学中相关词义解释)每个字都会被转化为字向量,与描述全局语义信息的文本向量和用以区分处于不同位置字词的附加的位置向量,共同组成模型的输入部分。随着数据库中医疗数据网络规模的扩展,BERT模型的训练结果会更精确。利用BERT模型完成“MDC疾病大类、病因、定语描述”与保险端医学词汇语料库中相关词义解释部分的语义相似度匹配。为了进一步避免系统性风险,将匹配后的数据递交至临床医学专家进行复核。
步骤(6)字典形成;形成临床医学-保险医学编码映射字典表,该字典表将临床医学词汇及编码与保险医学中关注的疾病类型、病因、以及诊疗手段等因素形成映射。
本发明通过模糊语义识别技术和BERT模型训练,建立一款将保险条款映射到临床医学诊断的字典,解决保险医学与临床医学之间的定义壁垒,使商业保险利用大数据技术与临床医学诊断数据形成对应关系;规范保险行业数据标准,并推进医疗机构与保险机构的沟通与合作。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明的要求保护范围由所附的权利要求书及其等效物界定。

Claims (6)

1.一种保险医学编码映射字典表生产方法,其特征在于:包括以下步骤:
步骤(1)背景调研:完成保险端医学词汇及相关解释词条的收集汇总,形成术语及规则语料库;
步骤(2)语料库拆分:对语料库中保险医学名词及相关词义解释,为后续匹配准备;
步骤(3)临床医学词汇结构分层:对于输入的临床医学词汇,以ICD-10编码规则为工具,对临床医学专业词汇对应的编码进行结构分层;
步骤(4)部位对应:对于保险医学名词中,能够分离出疾病对应人体部位的词汇,将临床医学词汇分离出的“疾病部位”与语料库中保险医学名词中疾病部位进行匹配对应;
步骤(5)模型训练:利用现有获得的医疗大数据,包括就诊记录、患者数据,对匹配模型进行BERT模型训练;
步骤(6)字典形成:形成临床医学-保险医学编码映射字典表,该字典表将临床医学词汇及编码与保险医学中关注的疾病类型、病因、以及诊疗手段形成映射。
2.根据权利要求1所述的一种保险医学编码映射字典表生产方法,其特征在于:所述步骤(1)中对在售保险产品,针对各商业保险机构产品的条款目录,包括疾病描述信息,以及银保监会健康险产品备案信息进行调研入库。
3.根据权利要求1所述的一种保险医学编码映射字典表生产方法,其特征在于:所述步骤(2)中将无实义的冗余词汇过滤筛选后,进行拆分,拆分结果为保险机构对疾病名称的命名本身及保险条款中对相关词义的解释两部分。
4.根据权利要求1所述的一种保险医学编码映射字典表生产方法,其特征在于:所述步骤(3)中形成疾病、MCD疾病大类、病因、定语描述结构分层。
5.根据权利要求1所述的一种保险医学编码映射字典表生产方法,其特征在于:所述步骤(4)中首先完成疾病产生部位的对应,保险医学和临床医学分术语分离出的人体部位能够达到强关联,下一步进行描述性词义解释的模型训练;对于保险医学名词中无法分离出对应人体部位的疾病词汇,将疾病名称和词义解释分离后,以词义解释的匹配模型结果为准。
6.根据权利要求1所述的一种保险医学编码映射字典表生产方法,其特征在于:所述步骤(5)中模型中采用现有的医疗记录数据的文本语料进行训练;训练过程中,输入的文字每个字都会被转化为字向量,与描述全局语义信息的文本向量和用以区分处于不同位置字词的附加的位置向量,共同组成模型的输入部分;随着数据库中医疗数据网络规模的扩展,BERT模型的训练结果会更精确;利用BERT模型完成“MDC疾病大类、病因、定语描述”与保险端医学词汇语料库中相关词义解释部分的语义相似度匹配;为了进一步避免系统性风险,将匹配后的数据递交至临床医学专家进行复核。
CN202010742001.9A 2020-07-29 2020-07-29 一种保险医学编码映射字典表生产方法 Pending CN112329450A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010742001.9A CN112329450A (zh) 2020-07-29 2020-07-29 一种保险医学编码映射字典表生产方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010742001.9A CN112329450A (zh) 2020-07-29 2020-07-29 一种保险医学编码映射字典表生产方法

Publications (1)

Publication Number Publication Date
CN112329450A true CN112329450A (zh) 2021-02-05

Family

ID=74303116

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010742001.9A Pending CN112329450A (zh) 2020-07-29 2020-07-29 一种保险医学编码映射字典表生产方法

Country Status (1)

Country Link
CN (1) CN112329450A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109033080A (zh) * 2018-07-12 2018-12-18 上海金仕达卫宁软件科技有限公司 基于概率转移矩阵的医疗术语标准化方法及系统
CN109255013A (zh) * 2018-08-14 2019-01-22 平安医疗健康管理股份有限公司 理赔决策方法、装置、计算机设备和存储介质
CN110162782A (zh) * 2019-04-17 2019-08-23 平安科技(深圳)有限公司 基于医学词典的实体提取方法、装置、设备及存储介质
CN110287494A (zh) * 2019-07-01 2019-09-27 济南浪潮高新科技投资发展有限公司 一种基于深度学习bert算法的短文本相似匹配的方法
CN111414481A (zh) * 2020-03-19 2020-07-14 哈尔滨理工大学 基于拼音和bert嵌入的中文语义匹配方法
CN111428044A (zh) * 2020-03-06 2020-07-17 中国平安人寿保险股份有限公司 多模态获取监管识别结果的方法、装置、设备及存储介质
CN111444333A (zh) * 2020-04-25 2020-07-24 上海健交科技服务有限责任公司 一种保险医学与临床医学编码映射方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109033080A (zh) * 2018-07-12 2018-12-18 上海金仕达卫宁软件科技有限公司 基于概率转移矩阵的医疗术语标准化方法及系统
CN109255013A (zh) * 2018-08-14 2019-01-22 平安医疗健康管理股份有限公司 理赔决策方法、装置、计算机设备和存储介质
CN110162782A (zh) * 2019-04-17 2019-08-23 平安科技(深圳)有限公司 基于医学词典的实体提取方法、装置、设备及存储介质
CN110287494A (zh) * 2019-07-01 2019-09-27 济南浪潮高新科技投资发展有限公司 一种基于深度学习bert算法的短文本相似匹配的方法
CN111428044A (zh) * 2020-03-06 2020-07-17 中国平安人寿保险股份有限公司 多模态获取监管识别结果的方法、装置、设备及存储介质
CN111414481A (zh) * 2020-03-19 2020-07-14 哈尔滨理工大学 基于拼音和bert嵌入的中文语义匹配方法
CN111444333A (zh) * 2020-04-25 2020-07-24 上海健交科技服务有限责任公司 一种保险医学与临床医学编码映射方法

Similar Documents

Publication Publication Date Title
CN111708874B (zh) 基于复杂意图智能识别的人机交互问答方法与系统
CN108182262B (zh) 基于深度学习和知识图谱的智能问答系统构建方法和系统
CN107577826B (zh) 基于原始诊断数据的疾病分类编码方法及系统
CN112542223A (zh) 一种从中文电子病历构建医疗知识图谱的半监督学习方法
CN109597994B (zh) 短文本问题语义匹配方法和系统
US9779211B2 (en) Computer-assisted abstraction for reporting of quality measures
CN107705839A (zh) 疾病自动编码方法及系统
US9043206B2 (en) System and methods for matching an utterance to a template hierarchy
CN111897967A (zh) 一种基于知识图谱和社交媒体的医疗问诊推荐方法
CN107731269A (zh) 基于原始诊断数据和病历文件数据的疾病编码方法及系统
CN112131393A (zh) 一种基于bert和相似度算法的医疗知识图谱问答系统构建方法
CN106776711A (zh) 一种基于深度学习的中文医学知识图谱构建方法
CN112183026B (zh) Icd编码方法、装置、电子设备和存储介质
CN106649223A (zh) 基于自然语言处理的金融报告自动生成方法
CN113505243A (zh) 基于医疗知识图谱的智能问答方法和装置
CN103250129A (zh) 使用具有受限结构的文本提供具有延迟类型评估的问答
CN114064931A (zh) 一种基于多模态知识图谱的急救知识问答方法及系统
CN112905764A (zh) 流行病咨询防治与培训系统构建方法及系统
CN110600123A (zh) 一种中医临床辅助诊断方法
CN111191415A (zh) 基于原始手术数据的手术分类编码方法
CN113764112A (zh) 一种在线医疗问答方法
CN113569023A (zh) 一种基于知识图谱的中文医药问答系统及方法
CN115293161A (zh) 基于自然语言处理和药品知识图谱的合理用药系统及方法
CN112883172B (zh) 一种基于双重知识选择的生物医学问答方法
CN115312186B (zh) 一种糖尿病视网膜病变辅助筛查系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210205

RJ01 Rejection of invention patent application after publication