CN118365459B - 一种商保理赔规则智能匹配系统、方法、设备及介质 - Google Patents
一种商保理赔规则智能匹配系统、方法、设备及介质 Download PDFInfo
- Publication number
- CN118365459B CN118365459B CN202410785024.6A CN202410785024A CN118365459B CN 118365459 B CN118365459 B CN 118365459B CN 202410785024 A CN202410785024 A CN 202410785024A CN 118365459 B CN118365459 B CN 118365459B
- Authority
- CN
- China
- Prior art keywords
- matching
- data
- rule
- entity
- deep learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000007781 pre-processing Methods 0.000 claims abstract description 59
- 238000012545 processing Methods 0.000 claims abstract description 27
- 238000010276 construction Methods 0.000 claims abstract description 24
- 238000013136 deep learning model Methods 0.000 claims description 92
- 238000002372 labelling Methods 0.000 claims description 21
- 238000000605 extraction Methods 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 17
- 230000011218 segmentation Effects 0.000 claims description 17
- 238000004140 cleaning Methods 0.000 claims description 15
- 230000010354 integration Effects 0.000 claims description 13
- 230000015654 memory Effects 0.000 claims description 9
- 238000003860 storage Methods 0.000 claims description 9
- 238000004458 analytical method Methods 0.000 claims description 8
- 238000012163 sequencing technique Methods 0.000 claims description 8
- 238000003745 diagnosis Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 7
- 238000013480 data collection Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 abstract description 25
- 230000036541 health Effects 0.000 abstract description 7
- 238000012549 training Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 5
- 201000010099 disease Diseases 0.000 description 5
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000002159 abnormal effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 208000025174 PANDAS Diseases 0.000 description 3
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 description 3
- 240000004718 Panda Species 0.000 description 3
- 235000016496 Panda oleosa Nutrition 0.000 description 3
- 230000009471 action Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 206010008479 Chest Pain Diseases 0.000 description 2
- 206010011224 Cough Diseases 0.000 description 2
- 206010035664 Pneumonia Diseases 0.000 description 2
- 206010037660 Pyrexia Diseases 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000012550 audit Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 208000017574 dry cough Diseases 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 239000012567 medical material Substances 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 208000012260 Accidental injury Diseases 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Landscapes
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本申请公开了一种商保理赔规则智能匹配系统、方法、设备及介质,涉及医疗保险理赔技术领域,包括数据预处理模块,用于对医疗保障基金结算清单数据进行数据预处理,得到数据集;理赔规则构建模块,用于对商业保险条款文本进行文本预处理,得到文本数据,识别各关键实体,确定关键实体间的实体关系,构建各理赔规则;匹配模块,用于各理赔规则分类排序,得到匹配策略,执行匹配策略并对数据集和理赔规则进行匹配,匹配成功,生成医疗保障基金结算清单数据与理赔规则的匹配结果,进行校验,校验通过,输出匹配结果。本申请能将医疗保障基金结算清单数据与商业保险理赔规则自动化匹配,提高保险机构处理效率和准确性,保证商业健康险理赔过程公正性。
Description
技术领域
本发明涉及商业健康险理赔技术领域,特别涉及一种商保理赔规则智能匹配系统、方法、设备及介质。
背景技术
当前技术中,商业健康险理赔过程较为复杂,包含人工审核投保人提交的各种医疗材料和解析保险条款,耗时且易出错。此外,因医疗服务和保险规则复杂性,理赔信息处理和决策存在挑战。同时,医疗保障基金结算清单数据的敏感性要求对其处理高度准确和严谨。目前,多数保险公司对医疗项目的审核采用人工方式,效率低且可能出现漏洞。
由上可见,如何实现将医疗保障基金结算清单数据与商业保险理赔规则自动化匹配,提高保险机构处理医疗保障基金结算清单数据的效率和准确性,从而提高保险理赔效率,并且保证商业健康险理赔过程的公正性是本领域有待解决的问题。
发明内容
有鉴于此,本发明的目的在于提供一种商保理赔规则智能匹配系统、方法、设备及介质,能够实现将医疗保障基金结算清单数据与商业保险理赔规则自动化匹配,提高保险机构处理医疗保障基金结算清单数据的效率和准确性,从而提高保险理赔效率,并且保证商业健康险理赔过程的公正性。其具体方案如下:
第一方面,本申请公开了一种商保理赔规则智能匹配系统,包括:
数据预处理模块,用于获取医疗保障基金结算清单数据,对所述医疗保障基金结算清单数据进行数据预处理,以得到数据集;
理赔规则构建模块,用于对商业保险条款文本进行文本预处理,以得到文本数据,基于第一深度学习模型识别所述文本数据中的各关键实体,并利用第二深度学习模型根据所述文本数据确定各所述关键实体之间的实体关系,利用各所述关键实体及所述实体关系构建各理赔规则;所述第二深度学习模型为在向所述第一深度学习模型中添加用于预测关键实体之间的关系的分类层后得到的模型;
匹配模块,用于对各所述理赔规则进行分类及排序,以得到匹配策略,执行所述匹配策略并对所述数据集和所述理赔规则进行匹配,若匹配成功,则生成所述医疗保障基金结算清单数据与所述理赔规则之间的匹配结果,对所述匹配结果进行校验,若校验通过,则输出所述匹配结果。
可选的,所述数据预处理模块,包括:
数据获取模块,用于获取医疗保障基金结算清单数据;所述医疗保障基金结算清单数据包括患者基本信息、住院诊疗信息以及医疗收费信息;
数据清洗模块,用于对所述医疗保障基金结算清单数据进行数据清洗,以得到清洗后的所述医疗保障基金结算清单数据;所述数据清洗包括空值处理、异常值剔除以及数据格式统一;
数据匹配模块,用于利用预设的映射库对清洗后的所述医疗保障基金结算清单数据进行数据匹配、标记及记录,以得到匹配清洗后的所述医疗保障基金结算清单数据;
数据归集模块,用于对匹配清洗后的所述医疗保障基金结算清单数据进行分类及归结,以得到所述数据集。
可选的,所述理赔规则构建模块,包括:
文本预处理组件,用于对输入的商业保险条款文本进行文本预处理,以得到文本数据;所述文本预处理包括分词、消歧以及长句划分;
实体识别组件,用于对预训练的深度学习模型进行参数调整,以得到第一深度学习模型,利用所述第一深度学习模型识别所述文本数据中的各关键实体;
关系抽取组件,用于在所述第一深度学习模型中添加用于预测关键实体之间的关系的分类层并进行参数调整,以得到第二深度学习模型,利用所述第二深度学习模型并根据所述文本数据确定各所述关键实体之间的实体关系;
规则整合组件,用于利用各所述关键实体及所述实体关系构建各所述理赔规则;
规则库,用于获取并存储所述规则整合组件中的各所述理赔规则。
可选的,所述实体识别组件,包括:
参数调整子模块,用于对预训练的深度学习模型进行参数调整,以得到第一深度学习模型;
数据分词子模块,用于对所述文本数据进行分词,以得到分词后的所述文本数据;
识别子模块,用于将分词后的所述文本数据输入至所述第一深度学习模型中进行概率计算,以得到各实体类型概率,将数值最高的所述实体类型概率作为目标实体类型概率,并基于与所述目标实体类型概率对应的分词后的所述文本数据确定关键实体。
可选的,所述关系抽取组件,包括:
第二深度学习模型构建子模块,用于获取用于进行参数调整的数据,对所述数据进行处理、标注以及格式转换,以得到转换后数据,在所述第一深度学习模型中添加用于预测关键实体之间的关系的分类层,并利用所述转换后数据进行参数调整,以得到所述第二深度学习模型;
实体关系确定子模块,用于利用所述第二深度学习模型并根据所述文本数据确定各所述关键实体之间的实体关系。
可选的,所述匹配模块,包括:
匹配策略制定子模块,用于对各理赔规则进行分类及排序,以得到匹配策略;所述匹配策略包括等值匹配策略、范围匹配策略以及模糊匹配策略;
匹配策略执行子模块,用于按照预设的匹配策略执行优先级执行所述匹配策略中的等值匹配策略,并对所述数据集和所述理赔规则进行等值匹配,若等值匹配成功,则生成所述医疗保障基金结算清单数据与所述理赔规则之间的匹配结果;
结果校验子模块,用于对所述匹配结果进行校验,若校验通过,则输出所述匹配结果。
可选的,所述匹配策略执行子模块,还包括:
范围匹配策略执行子模块,用于若等值匹配不成功,则执行所述匹配策略中的所述范围匹配策略,并对所述数据集和所述理赔规则进行范围匹配,若范围匹配成功,则生成所述医疗保障基金结算清单数据与所述理赔规则之间的匹配结果;
模糊匹配策略执行子模块,用于若范围匹配不成功,则执行所述匹配策略中的所述模糊匹配策略,并对所述数据集和所述理赔规则进行模糊匹配,若模糊匹配成功,则生成所述医疗保障基金结算清单数据与所述理赔规则之间的匹配结果。
第二方面,本申请公开了一种商保理赔规则智能匹配方法,包括:
获取医疗保障基金结算清单数据,对所述医疗保障基金结算清单数据进行数据预处理,以得到数据集;
对商业保险条款文本进行文本预处理,以得到文本数据,基于第一深度学习模型识别所述文本数据中的各关键实体,并利用第二深度学习模型根据所述文本数据确定各所述关键实体之间的实体关系,利用各所述关键实体及所述实体关系构建各理赔规则;所述第二深度学习模型为在向所述第一深度学习模型中添加用于预测关键实体之间的关系的分类层后得到的模型;
对各所述理赔规则进行分类及排序,以得到匹配策略,执行所述匹配策略并对所述数据集和所述理赔规则进行匹配,若匹配成功,则生成所述医疗保障基金结算清单数据与所述理赔规则之间的匹配结果,对所述匹配结果进行校验,若校验通过,则输出所述匹配结果。
第三方面,本申请公开了一种电子设备,包括:
存储器,用于保存计算机程序;
处理器,用于执行所述计算机程序,以实现前述的商保理赔规则智能匹配方法。
第四方面,本申请公开了一种计算机存储介质,用于保存计算机程序;其中,所述计算机程序被处理器执行时实现前述公开的商保理赔规则智能匹配方法的步骤。
可见,本申请提供了一种商保理赔规则智能匹配系统,包括数据预处理模块,用于获取医疗保障基金结算清单数据,对所述医疗保障基金结算清单数据进行数据预处理,以得到数据集;理赔规则构建模块,用于对商业保险条款文本进行文本预处理,以得到文本数据,识别所述文本数据中的各关键实体,并根据所述文本数据确定各所述关键实体之间的实体关系,利用各所述关键实体及所述实体关系构建各理赔规则;匹配模块,用于对各所述理赔规则进行分类及排序,以得到匹配策略,执行所述匹配策略并对所述数据集和所述理赔规则进行匹配,若匹配成功,则生成所述医疗保障基金结算清单数据与所述理赔规则之间的匹配结果,对所述匹配结果进行校验,若校验通过,则输出所述匹配结果。本申请通过分别对医疗保障基金结算清单数据和商业保险条款文本进行预处理,得到数据集和文本数据,能够提高保险机构处理医疗保障基金结算清单数据的效率和准确性,识别关键实体,确定关键实体之间的实体关系,并利用关键实体及实体关系构建各理赔规则,通过对理赔规则进行分类及排序,得到匹配策略,执行匹配策略,以得到匹配结果,将医疗保障基金结算清单中的数据与商业保险的理赔规则相结合,实现医疗保障基金结算清单数据与保险理赔规则之间的自动化匹配,提高保险理赔效率,并且本申请不仅能够提高保险公司的运营效率,还能够保证商业健康险理赔过程的公正性和准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请公开的一种商保理赔规则智能匹配系统结构示意图;
图2为本申请公开的一种理赔规则构建模块结构图;
图3为本申请公开的一种理赔规则构建模块具体运行流程图;
图4为本申请公开的一种商保理赔规则智能匹配系统具体运行流程图;
图5为本申请公开的一种商保理赔规则智能匹配方法流程图;
图6为本申请提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
当前技术中,商业健康险理赔过程较为复杂,包含人工审核投保人提交的各种医疗材料和解析保险条款,耗时且易出错。此外,因医疗服务和保险规则复杂性,理赔信息处理和决策存在挑战。同时,医疗保障基金结算清单数据的敏感性要求对其处理高度准确和严谨。目前,多数保险公司对医疗项目的审核采用人工方式,效率低且可能出现漏洞。由上可见,如何实现将医疗保障基金结算清单数据与商业保险理赔规则进行自动化匹配,提高处理医疗保障基金结算清单数据的效率和准确性,从而提高保险理赔效率,并且保证商业健康险理赔过程的公正性是本领域有待解决的问题。
参见图1所示,本申请实施例公开了一种商保理赔规则智能匹配系统,包括:
数据预处理模块11,用于获取医疗保障基金结算清单数据,对所述医疗保障基金结算清单数据进行数据预处理,以得到数据集;
理赔规则构建模块12,用于对商业保险条款文本进行文本预处理,以得到文本数据,基于第一深度学习模型识别所述文本数据中的各关键实体,并利用第二深度学习模型根据所述文本数据确定各所述关键实体之间的实体关系,利用各所述关键实体及所述实体关系构建各理赔规则;所述第二深度学习模型为在向所述第一深度学习模型中添加用于预测关键实体之间的关系的分类层后得到的模型;
匹配模块13,用于对各所述理赔规则进行分类及排序,以得到匹配策略,执行所述匹配策略并对所述数据集和所述理赔规则进行匹配,若匹配成功,则生成所述医疗保障基金结算清单数据与所述理赔规则之间的匹配结果,对所述匹配结果进行校验,若校验通过,则输出所述匹配结果。
本实施例中,所述数据预处理模块11,包括:数据获取模块,用于获取医疗保障基金结算清单数据;所述医疗保障基金结算清单数据包括患者基本信息、住院诊疗信息以及医疗收费信息;数据清洗模块,用于对所述医疗保障基金结算清单数据进行数据清洗,以得到清洗后的所述医疗保障基金结算清单数据;所述数据清洗包括空值处理、异常值剔除以及数据格式统一;数据匹配模块,用于利用预设的映射库对清洗后的所述医疗保障基金结算清单数据进行数据匹配、标记及记录,以得到匹配清洗后的所述医疗保障基金结算清单数据;数据归集模块,用于对匹配清洗后的所述医疗保障基金结算清单数据进行分类及归结,以得到所述数据集。
具体的,将医疗保障基金结算清单数据输入系统中的数据预处理模块11,该医疗保障基金结算清单数据包括但不限于患者基本信息、住院诊疗信息、医疗收费信息。
本申请利用数据预处理模块11来处理输入的医疗保障基金结算清单数据,这个步骤中,系统会对输入的医疗保障基金结算清单数据进行数据清洗、数据匹配以及数据归集,为后续的步骤做好准备。具体的,有以下步骤:
(1)数据清洗:对输入的医疗保障基金结算清单使用诸如Python(一种计算机编程语言)的Pandas库(一个用于数据处理和分析的Python库)或R语言(一种用于统计分析、绘图的编程语言和操作环境)进行数据清洗,包括空值处理、异常值剔除、数据格式统一等步骤;
(2)数据匹配:系统基于映射库进行匹配比对,可以使用Python中的“模糊匹配”库来匹配基于映射库的数据。模糊匹配库,如fuzzywuzzy库(一个用于模糊字符串匹配的Python库)可以使用Levenshtein距离(编辑距离)来比较相似性并获得最佳匹配,对清洗后的信息进行标记和记录;其中,映射库映射项目表如表1所示:
表1
(3)数据归集:经过上述步骤后,系统将看似分散无序的医疗保障基金结算清单数据转化为了高度有组织,归类精准的数据集,方便进行后续的统计分析和数据理解。这个归集进程涉及到的关键是有效地数据存储和索引,可以用Python中的Pandas进行操作,groupby函数(数据分析过程中数据汇总分组操作的有效工具)就可以方便地进行归集操作。具体的,有如下步骤:1.数据分类,基于需求,定义分类标准。例如,根据费用类型(如药费、治疗费、诊察费等)对数据进行分类;2.创建分类标签,将数据中的项与定义的分类标准进行对应,因此,每个数据项都将有一个相应的分类标签;3.应用groupby函数,在Python的Pandas库中,可以使用groupby函数根据某个字段(此处应为'分类标签'字段)将数据进行分类。在这个步骤中,类似的数据项将会被归结在一起。
例如,假设有一个DataFrame,名为'df',有一列名为'费用类型',可以按照这个分类进行归类:
python
grouped = df.groupby('费用类型')。
这样,就有了一个GroupBy对象,可以对其进行各种操作,如计算每一组的总和、平均值、中位数等。还可以使用'GroupBy'对象的.get_group()方法获取特定的组。
本实施例中,所述理赔规则构建模块12,包括:文本预处理组件,用于对输入的商业保险条款文本进行文本预处理,以得到文本数据;所述文本预处理包括分词、消歧以及长句划分;实体识别组件,用于对预训练的深度学习模型进行参数调整,以得到第一深度学习模型,利用所述第一深度学习模型识别所述文本数据中的各关键实体;关系抽取组件,用于在所述第一深度学习模型中添加用于预测关键实体之间的关系的分类层并进行参数调整,以得到第二深度学习模型,利用所述第二深度学习模型并根据所述文本数据确定各所述关键实体之间的实体关系;规则整合组件,用于利用各所述关键实体及所述实体关系构建各所述理赔规则;规则库,用于获取并存储所述规则整合组件中的各所述理赔规则。
具体的,理赔规则构建模块12是系统中的一个关键组成部分,能解析保险条款,提取出关键的理赔条件和要求,形成理赔规则。该模块主要含有文本预处理组件、实体识别组件、关系抽取组件、规则整合组件以及规则库。理赔规则构建模块12的结构如图2所示。各个组件的具体功能如下:
文本预处理组件:该部分的职能是对输入的保险条款文本进行初始处理,比如进行分词、消歧,将长句划分为短句等,目的是让文本数据更符合后续组件的处理需求。
实体识别组件:该部分的工作是识别文本中的关键实体,如"普通床位费"、"重症监护室床位费"等,将非结构化的文本转化为结构化数据。这一部分使用了预训练的BERT模型。BERT(Bidirectional Encoder Representations from Transformers)是一种深度学习模型,特点是可以使用无标注的文本进行预训练。预训练过程中,BERT模型将在大规模文本数据上进行自我学习,学会表示文本的能力,然后在实体识别任务上进行针对性的微调。这样一来,BERT能够有效地捕捉和理解上下文信息,从而实现精确的实体识别结果。
关系抽取组件:依据实体识别组件给出的关键实体,以及文本预处理组件处理后的上下文,该组件可以判断这些实体之间的关系。具体的,该组件使用经过针对关系抽取任务微调的BERT模型对实体间关系进行抽取。首先,模型将利用预训练过的能力理解各个实体的上下文,然后根据这些上下文情境,利用针对关系抽取任务微调的模型判断出实体之间的关系。例如,它能够从"床位费用不得超过普通双人间病房的标准费用"这样的句子中判断出"床位费用"和"普通双人间病房标准费用"之间的数量关系。
规则整合组件:该部分主要根据实体识别组件和关系抽取组件提取出的信息,形成明确的、结构化的理赔规则。
举个具体的例子以说明这一过程:假设一份保险条款中包含如下句子:"被保险人在住院期间实际发生的床位费,包括普通床位费和重症监护室床位费。普通床位费指住院期间实际发生的不超过普通双人间病房标准的费用,重症监护室床位费则是必须接受在重症监护病房进行合理且必要的医疗而产生的床位费。床位费不包括陪床、观察床位、套房和家庭病床的费用。"在这个例子中,实体识别组件首先会识别出关键实体,包括"被保险人"、"住院"、"床位费"、"普通床位费"、"重症监护室床位费"、"不超过普通双人间病房标准的费用"、"陪床"、"观察床位"、"套房"、"家庭病床的费用"等。其中,"普通床位费"、"重症监护室床位费"和"不包括的项"是关键实体。关系抽取组件根据这些实体和上下文来判断它们之间的关系。其中,选择关键的实体关系可以依据任务需求和实体关系的具体含义来确定。具体有以下策略:1.通过概率阈值:设置一个概率阈值,举例来说,只选择预测关系概率大于0.8的实体对关系。2.结合规则:根据经验或者人为设定的规则(如基于业务知识或者专家判断)来选择关键实体关系。3.特定类型关系优选:如果任务中某些类型的关系更重要或者更关键,可以优先选择这些类型的实体关系。需要结合使用,因为选择关键关系需要根据具体的任务目标、数据特性以及专业知识共同决定。
在这个例子中,关键的关系就是"普通床位费"不能超过"普通双人间病房标准的费用",并且"床位费"不包括其他几类特定的费用。最后,规则整合组件会对这些实体和关系进行结构化,整理出一个如下的理赔规则:
理赔规则(结构化格式):
1.理赔条件:被保险人住院
2.理赔项目:普通床位费:
金额限制:不超过普通双人间病房标准的费用
重症监护室床位费:
金额限制:仅包括在重症监护病房进行合理且必要的医疗产生的费用
3.不包含的项目:陪床费用、观察床位费用、套房费用、家庭病床的费用
其中,理赔规则如表2所示:
表2
规则整合组件主要依据实体识别和关系抽取组件的输出结果,构建具体的理赔规则。具体的,整合规则的过程包括以下步骤:1.基于实体识别和关系抽取的结果,识别出的实体和关系信息将用于创建理赔规则。例如,有关"被保险人","住院","床位费","普通床位费","重症监护室床位费"等的实体信息,以及这些实体之间的关系,都是创建规则的基础。2.接下来,规则整合组件会根据这些信息,识别出理赔条件、理赔项目、金额限制等关键字段。这依赖于建立一套定义好的规则集和关键词列表。例如,"条件"类的关键词可能包括"如果","需","必须"等;"项目"类的关键词可能包括"包括","项目","费用"等;"金额限制"类的关键词可能包括"不超过","限制","最高"等。3.使用这些关键词在实体和关系信息中进行匹配和标注,以识别出理赔条件,理赔项目,金额限制等字段。例如,如果一个实体或关系信息包含"不超过"这个关键词,那么这个信息可能就被标记为"金额限制"。同样,如果一个实体或关系信息包含"必须"这个关键词,那么这个信息可能就被标记为"理赔条件"。4.分析和标注完成后,规则整合组件会按照预定义的结构化格式,整理和组合各个字段,形成明确的理赔规则。例如,输出的结构化规则可能会按照"理赔条件","理赔项目","金额限制"的顺序进行排列。关于结构化格式是否有多种,这主要取决于具体的业务需求。如果业务中的理赔规则有多种不同的格式要求,那么结构化的过程就需要支持多种格式。
规则库:用于储存规则整合组件给出的各理赔规则。
本实施例中,理赔规则构建模块12中的所述实体识别组件,包括:参数调整子模块,用于对预训练的深度学习模型进行参数调整,以得到第一深度学习模型;数据分词子模块,用于对所述文本数据进行分词,以得到分词后的所述文本数据;识别子模块,用于将分词后的所述文本数据输入至所述第一深度学习模型中进行概率计算,以得到各实体类型概率,将数值最高的所述实体类型概率作为目标实体类型概率,并基于与所述目标实体类型概率对应的分词后的所述文本数据确定关键实体。
具体的,BERT模型训练过程如下:使用BERT这样的双向上下文语言模型作为基础模型。BERT模型取得了自然语言处理任务中的突出性能,而且它是开源的,可以方便地使用预训练好的BERT模型进行参数调整,以得到第一深度学习模型。第一深度学习模型:在这一阶段,准备特定于保险领域的训练语料,对预训练的BERT模型进行微调。语料库可以从公开的保险政策和条款,以及保险公司的内部文件等收集整理得来。这一步的目标是让模型更好地理解保险相关的语言和知识。具体的,对预训练好的BERT模型进行参数调整包括以下几个步骤:
1.数据准备:收集保险政策和条款的文本数据,这些数据可以来源于公开的保险文档和保险公司的内部文件。对收集的数据进行清洗和预处理,确保数据质量。使用专业领域知识对数据进行标注,即实体标注和关系标注。对于实体识别任务,需要标注出关键实体的边界和类别。具体的,以下列保险条款文本为例:
“住院医疗费用”中的“床位费”包括普通床位费和重症监护室床位费。普通床位费不超过普通双人间病房标准。重症监护室床位费指必要且合理的费用,由本公司认可的医院或指定医生决定。床位费不包括陪床、观察床位、套房和家庭病床的费用。
对应标注步骤如下:
1.定义实体类别:床位费(BED_FEE)、普通床位(GENERAL_BED、重症监护室(ICU)、除外费用(EXCLUDED_EXPENSE)。实体类别根据具体的专业领域和任务有所不同,这里只是给出了一个基本的示例。在保险业中,实体类别还包括但不限于以下几种:1.保险人(INSURED_PERSON):如“被保险人”,“投保人”,“受益人”等。2.保障范围(COVERAGE_SCOPE):即保险条款中规定,保险公司承诺保障被保险人的具体风险,如“疾病”,“意外伤害”,“住院”等。3.赔偿金额(COMPENSATION_AMOUNT):保险合同中规定的保险公司支付的赔偿金额或者赔偿条件。4.理赔过程(CLAIMS_PROCESS):涉及到理赔的步骤,如“申请理赔”,“理赔审核”,“赔付”等。5.其他专有名词:这些词可能特定于某一家保险公司或者保险产品,需要根据具体情况来确定。这些都是可能需要标注的实体类别,具体的实体类别设置应根据具体的业务需求进行确定,以获取最佳的模型效果。
2.实体标注:
在下面这个标注示例中,使用了BIO标注法,其中"B"表示实体的开始位置,"I"表示实体的内部位置,"O"表示非实体位置。这样的标注有助于模型学习如何识别和分类保险文本中的关键实体。
其中,实体标注示例如表3所示:
表3
关系类别数据的获取过程与实体类别数据的获取过程类似,但关注的是实体之间的关系,而不是单一实体的分类。以上文实体标注使用的保险条款文本为例,以下是关系类别数据获取和标注过程的说明:
①定义关系类别:在保险政策和条款的文本中,不同的实体之间存在不同的关系。首先,需要定义这些关系类别。例如:
包含关系(INCLUDES);
除外关系(EXCLUDES);
决定因素(DETERMINED_BY);
费用限制(LIMITED_BY)。
②关系标注:在实体标注完成后,下一步是识别和标注实体之间的关系。这通常使用类似于实体标注的方法,但专注于实体对之间的相互作用。
标注示例:
具体的关系类别、实体类别以及相关实体如表4所示:“序号”表示句子中词语的顺序。“词语”表示句子中的具体词语。“实体类别”表示该词语所属的实体类别。“关系开始”和“关系结束”标记表示关系的起点和终点。在这里,本申请使用B(Begin)来标记关系的开始,E(End)来标记关系的结束“关系类别”表示两个实体之间的关系类型。“相关实体”表示与当前词语有关系的另一个实体。
表4
这里的关系标注是简化的,仅为了说明如何表示实体之间的关系。在实际操作中,可能不需要为每个词语都标注关系,只需要标注参与关系的实体对即可。
其中,在对预训练的深度学习模型进行参数调整,得到第一深度学习模型之后,将其应用于实体识别任务,具体流程如下:
1.输入处理:将保险条款文本分割成句子,并使用BERT的分词器进行分词。将分词后的文本输入到第一深度学习模型中。
2.模型预测:第一深度学习模型通过其深层网络结构捕捉上下文信息,并通过序列标注层输出每个词令牌的标签预测。这个预测结果是对应各个实体类型标签的概率。具体来说,标签预测的输出内容是,给定的每一个词令牌属于各个实体类型标签的概率。例如,给定一个词“保险”,模型可能给出它是“保险产品”类别标签的概率是0.7,是“保险公司”类别标签的概率是0.2,是“无关词”类别的概率是0.1。这些概率之和为1。
以标签预测为基础,选择概率最高的标签作为该词令牌的预测实体类型,这样就完成了句子中实体的识别,最后得到文本数据中的各关键实体。
本实施例中,理赔规则构建模块12中的所述关系抽取组件,包括:第二深度学习模型构建子模块,用于获取用于进行参数调整的数据,对所述数据进行处理、标注以及格式转换,以得到转换后数据,在所述第一深度学习模型中添加用于预测关键实体之间的关系的分类层,并利用所述转换后数据进行参数调整,以得到所述第二深度学习模型;实体关系确定子模块,用于利用所述第二深度学习模型并根据所述文本数据确定各所述关键实体之间的实体关系。
具体的构建第二深度学习模型的流程如下:1.选择一个预训练好的BERT模型作为起点,可以选择BERT-Base或BERT-Large。2.对预训练好的BERT模型进行参数调整,得到第一深度学习模型。3.数据转换,在将标注的数据输入到第一深度学习模型之前,需要将数据转换为适合模型处理的格式。这涉及到将文本分割为句子或段落,并使用BERT的分词器将其转换为词令牌(tokens)。4.在所述第一深度学习模型中添加用于预测关键实体之间的关系的分类层,并利用转换后数据进行参数调整。这涉及到以下步骤:
a.添加输出层:对于实体识别任务,在BERT的顶部添加一个序列标注层,这可以是一个BiLSTM(Bi-directional Long Short-Term Memory,双向长短期记忆网络)后接一个CRF(Conditional Random Field,条件随机场)层,输出实体标签。对于关系抽取任务,需要在实体识别的基础上,再添加一个关系分类层,比如一个多分类层,来预测实体对之间的关系。
b.数据准备与处理:将清洗和标注好的数据分为训练集、验证集和测试集。将文本转化为BERT能够接受的格式,即输入序列的格式。这包括将文本分词,并添加特殊标记如[CLS]用于分类任务的开始,以及[SEP]用于分隔句子或不同的实体。
c.参数调整:从预训练的BERT模型加载权重。由于是在特定的任务上进行微调,因此设置较小的学习率(例如,1e-5或更低),以避免破坏BERT在预训练阶段学到的语言表示。选择合适的优化器,如AdamW,并结合学习率预热(learning rate warmup)和衰减策略。
d.训练过程:使用小批量梯度下降(例如,批量大小为16或32)来更新模型权重。在每个epoch结束后,使用验证集来评估模型性能,并根据需要调整超参数。实施早停(earlystopping)机制,当验证集的性能不再提升时停止训练,以防止过拟合。
e.模型评估:使用测试集来评估微调后模型的性能。对于实体识别和关系抽取,常用的评估指标包括准确率(Precision)、召回率(Recall)和F1分数(F1 Score)。
f.输出层微调:对于实体识别任务,在训练序列标注层时,将实体类别作为标签进行损失计算。对于关系抽取任务,在训练关系分类层时,将实体对的关系类别作为标签。
通过上述步骤,可以对第一深度学习模型进行分类层添加以及参数调整,使其适应特定的保险政策和条款理解任务。分类层添加以及参数调整的过程中,需要细致监控模型的性能变化,并根据任务需求调整策略。
关系抽取模块,对于关系抽取任务,可以采用以下方法:1.实体对提取与组合:首先,识别出句子中的所有实体。然后根据具体的目标和任务需求,对这些实体进行组合。这可以是句子中所有实体的排列组合(for instance,有全部可能的实体对:(实体A,实体B),(实体A,实体C),(实体B,实体C),或者依据特定类型对实体进行组合(例如单独挑选出“人-地点”或“公司-产品”等特定类型的实体对)。对于每一对实体,提取包含这对实体的上下文文本。2.句对分类:将提取的实体对及其上下文文本作为输入,送入第二深度学习模型。在第二深度学习模型中,由于之前已在模型顶部增加了一个新的输出层,这个层被视为关系分类层。这个关系分类层会对输入的句对进行分类,根据预定的关系类别给出每对实体间可能的关系类型,具体输出的是每一种关系类别的概率。3.关系类别定义:根据任务需求定义关系类别(例如,数量关系、从属关系、事实关系、因果关系、时间关系、空间关系、等同关系、互斥关系、属性关系等)。在训练过程中,模型学习预测这些预定义的关系类别。
本申请中的理赔规则构建模块12的具体运行流程如图3所示,首先,输入保险条款的文本数据,并将其传递给预处理组件进行处理。然后,实体识别组件会识别出文本中的关键信息。接下来,关系抽取组件会根据实体和句子结构,判断出实体之间的关系。根据关系,规则整合组件会形成规则并存储到规则库中。
本实施例中,匹配模块13包括:匹配策略制定子模块,用于对各理赔规则进行分类及排序,以得到匹配策略;所述匹配策略包括等值匹配策略、范围匹配策略以及模糊匹配策略;匹配策略执行子模块,用于按照预设的匹配策略执行优先级执行所述匹配策略中的等值匹配策略,并对所述数据集和所述理赔规则进行等值匹配,若等值匹配成功,则生成所述医疗保障基金结算清单数据与所述理赔规则之间的匹配结果;结果校验子模块,用于对所述匹配结果进行校验,若校验通过,则输出所述匹配结果。
匹配模块13的主要任务是将经过数据预处理模块11处理后的医疗结算清单数据与理赔规则构建模块12的规则库中的保险理赔规则进行匹配,为精确兑付保险赔款提供决策依据。
其中,所述匹配策略执行子模块,还包括:范围匹配策略执行子模块,用于若等值匹配不成功,则执行所述匹配策略中的所述范围匹配策略,并对所述数据集和所述理赔规则进行范围匹配,若范围匹配成功,则生成所述医疗保障基金结算清单数据与所述理赔规则之间的匹配结果;模糊匹配策略执行子模块,用于若范围匹配不成功,则执行所述匹配策略中的所述模糊匹配策略,并对所述数据集和所述理赔规则进行模糊匹配,若模糊匹配成功,则生成所述医疗保障基金结算清单数据与所述理赔规则之间的匹配结果。
具体的,匹配模块13具体包括以下组成部分:
匹配策略制定子模块:本子模块负责制定匹配规则和策略。根据保险公司的理赔要求,将提取的理赔规则进行分类和排序,形成具有优先级的匹配策略。匹配策略有3种,包括:a.等值匹配:这是一种严格的一对一匹配,通过哈希查找或者二分查找等搜索算法进行匹配。b.范围匹配:此策略使用区间树或KD-Tree(k-dimensional树)等数据结构进行高效范围查询匹配。c.模糊匹配:针对难以物理匹配的数据项,使用余弦相似度、Jaccard相似度(Jaccard index,杰卡德相似度)或TF-IDF(Term Frequency-Inverse DocumentFrequency,词频-逆文本频率)矢量空间模型等算法进行相似度匹配或关键词匹配。匹配模块的三个匹配策略(等值匹配、范围匹配、模糊匹配)在实际应用中是按特定顺序执行,而不是并行执行。这种顺序执行的方式有助于提高匹配的效率和准确性。以下是详细的执行顺序和具体实施例:
1.等值匹配:首先进行等值匹配,因为它是对数据准确性要求最高的一种匹配方式,可以快速准确地定位完全匹配的规则。例如,如果医疗结算清单数据中包含一个具体的疾病编码(如ICD-10编码),则可以直接与规则库中对应的编码进行匹配。
2.范围匹配:如果等值匹配没有找到合适的规则,接下来进行范围匹配。范围匹配适用于那些规则定义了某个区间或范围的情况。例如,如果规则是基于患者的年龄范围来确定理赔金额,那么系统会检查医疗结算清单数据中的患者年龄是否落在规则定义的年龄区间内。
3.模糊匹配:如果前两种匹配方法都没有成功,则最后尝试模糊匹配。模糊匹配适用于处理那些不精确或文本描述类的数据。例如,医疗结算清单数据中可能包含对入院病情的描述性文字,这些文字可能在不同情况下有不同的表述,但本质上是相同的。在这种情况下,可以使用Jaccard相似度或TF-IDF矢量空间模型来计算文本的相似度,从而找到最匹配的规则。
例如,假设有一个医疗结算清单数据,其中包含以下信息:患者年龄为45岁,疾病诊断为“肺炎”(ICD-10编码:J18.9),入院病情描述为“患者低热不退,干咳,胸痛”。1.对于“患者年龄为45岁”,匹配模块先进行等值匹配,没有找到匹配的规则,接着使用范围匹配进行查找,如果规则库中有一项规则表示年龄在40到50岁之间的患者有特定的理赔金额,那么范围匹配将会找到这个规则。2.对于疾病诊断“肺炎”(ICD-10编码:J18.9),匹配策略将会首先使用等值匹配进行查找。如果规则库中有与ICD-10编码:J18.9匹配的规则,那么等值匹配将会成功。否则,将会继续尝试范围匹配和模糊匹配。3.对于患者的入院病情描述(患者低热不退,干咳,胸痛),匹配策略首先会尝试进行等值匹配和范围匹配。由于这是一种描述性的数据,等值匹配和范围匹配可能不会得到结果。在这种情况下,模糊匹配将会被使用来处理这份入院病情描述。系统可能会使用Jaccard相似度或TF-IDF矢量空间模型来计算该描述与规则库中的规则的相似度,以此来找到最匹配的规则。
在整个匹配过程中,系统会根据实际需要调整匹配策略的权重,以提高匹配的准确性和完整性。例如,如果发现等值匹配的准确性很高,系统可能会增加等值匹配的权重。反之,如果模糊匹配在实际应用中表现更好,系统可能会相应地调整权重以提高整体性能。
匹配策略执行子模块:本子模块负责根据匹配策略,对预处理后的医疗结算清单数据和规则库中的理赔规则进行匹配。具体步骤如下:
a.从规则库中获取结构化的理赔规则。
b.逐条读取经过数据预处理模块的医疗结算清单数据。
c.根据匹配策略,对每一条数据与规则进行比对,判断是否满足规则条件。规则匹配执行子模块中对匹配策略的选择,基于以下几个考虑因素:
数据准确性:若待匹配数据和保险理赔规则均为精确数据,例如特定的诊断编码,药物编码等,此时优先选择等值匹配策略。
数据范围:如果理赔规则涉及一定的范围,如疾病的病程天数,或患者的年龄等涉及在某一区间的数据,此时选择范围匹配策略。
数据模糊性:当数据包含模糊、不精确或者难以进行准确比对的部分时,如对于医疗描述内容的比对,此时选择模糊匹配策略。
实际操作过程中,匹配策略执行子模块会根据以上原则,对每一条数据先进行等值匹配,如果无法匹配成功,再进行范围匹配,最后再尝试模糊匹配。此外,还需要注意的是,在具体应用过程中,同时采取多种匹配策略并考虑他们的权重,以便提高匹配的准确性和完整性。而这个权重的设定,一般基于实际经验和历史数据进行不断的优化调整。
d.若满足规则条件,则将匹配结果保存,并记录对应的理赔金额、比例等信息。
结果校验子模块:本子模块负责对匹配结果进行校验,以提高匹配准确性和公正性。具体包括:对匹配结果进行合理性检查,排除异常数据,例如频率分析,异常值检测等方法,可以有效地发现并排除异常的匹配数据。具体的,匹配结果主要包括以下几个方面的数据:1.匹配的医疗保障结算清单数据(包括门诊和住院的诊疗信息、医疗收费项目)与对应的理赔规则:例如,患者年龄、疾病诊断代码、项目名称、项目代码、规则代码等。2.匹配的结果分类:包括等值匹配、范围匹配、模糊匹配的结果。3.若满足规则条件的相关信息:包括理赔金额、理赔比例、理赔条件等。
关于匹配结果合理性检测,主要可以从以下几个方面进行:1.匹配结果的合理性:例如,检查匹配的医疗收费项目是否确实存在于理赔规则中,或者匹配的理赔金额、比例等是否在规定的范围内。2.匹配结果的完整性:例如,检查每条医疗收费项目都有对应的匹配结果,没有遗漏。3.匹配结果的一致性:例如,比较多次匹配的结果是否一致,检查等值匹配和范围匹配、模糊匹配的结果是否有明显的矛盾。4.异常值检测:例如,使用频率分析、箱线图等方法,检测匹配结果中是否有明显偏离正常范围的数据。
综上所述,本申请的整个具体流程如图4所示,首先,利用数据预处理模块获取医疗保障基金结算清单数据,然后对医疗保障基金结算清单数据进行数据预处理,得到数据集;然后,利用理赔规则构建模块对商业保险条款文本进行文本预处理,以得到文本数据,基于第一深度学习模型识别文本数据中的各关键实体,利用第二深度学习模型根据文本数据确定各关键实体之间的实体关系,利用各关键实体及实体关系构建各理赔规则;然后,利用匹配模块对各理赔规则进行分类及排序,得到匹配策略,执行匹配策略并对数据集和理赔规则进行匹配,若匹配成功,则生成医疗保障基金结算清单数据与所述理赔规则之间的匹配结果,对匹配结果进行校验,若校验通过,则输出匹配结果。
本申请包括通过数据预处理模块、理赔规则构建模块以及匹配模块的结合使用,实现了医疗保障基金结算清单数据与商业保险理赔条款的智能匹配。通过这样的方式,不仅大大提高了保险理赔的效率,而且保证了理赔过程的准确性和公正性。这项技术可以提高保险公司的运营效率,同时也让保险消费者更加理解和接受保险公司的理赔决策,对于提升整个保险行业的服务水平和公信力具有重要意义。
本实施例中,数据预处理模块,用于获取医疗保障基金结算清单数据,对所述医疗保障基金结算清单数据进行数据预处理,以得到数据集;理赔规则构建模块,用于对商业保险条款文本进行文本预处理,以得到文本数据,识别所述文本数据中的各关键实体,并根据所述文本数据确定各所述关键实体之间的实体关系,利用各所述关键实体及所述实体关系构建各理赔规则;匹配模块,用于对各所述理赔规则进行分类及排序,以得到匹配策略,执行所述匹配策略并对所述数据集和所述理赔规则进行匹配,若匹配成功,则生成所述医疗保障基金结算清单数据与所述理赔规则之间的匹配结果,对所述匹配结果进行校验,若校验通过,则输出所述匹配结果。本申请通过分别对医疗保障基金结算清单数据和商业保险条款文本进行预处理,得到数据集和文本数据,能够提高保险机构处理医疗保障基金结算清单数据的效率和准确性,识别关键实体,确定关键实体之间的实体关系,并利用关键实体及实体关系构建各理赔规则,通过对理赔规则进行分类及排序,得到匹配策略,执行匹配策略,以得到匹配结果,将医疗保障基金结算清单中的数据与商业保险的理赔规则相结合,实现医疗保障基金结算清单数据与保险理赔规则之间的自动化匹配,提高保险理赔效率,并且本申请不仅能够提高保险公司的运营效率,还能够保证商业健康险理赔过程的公正性和准确性。
参见图5所示,本发明实施例公开了一种商保理赔规则智能匹配方法,包括:
步骤S21:获取医疗保障基金结算清单数据,对所述医疗保障基金结算清单数据进行数据预处理,以得到数据集。
步骤S22:对商业保险条款文本进行文本预处理,以得到文本数据,基于第一深度学习模型识别所述文本数据中的各关键实体,并利用第二深度学习模型根据所述文本数据确定各所述关键实体之间的实体关系,利用各所述关键实体及所述实体关系构建各理赔规则;所述第二深度学习模型为在向所述第一深度学习模型中添加用于预测关键实体之间的关系的分类层后得到的模型。
步骤S23:对各所述理赔规则进行分类及排序,以得到匹配策略,执行所述匹配策略并对所述数据集和所述理赔规则进行匹配,若匹配成功,则生成所述医疗保障基金结算清单数据与所述理赔规则之间的匹配结果,对所述匹配结果进行校验,若校验通过,则输出所述匹配结果。
本实施例中,获取医疗保障基金结算清单数据,对所述医疗保障基金结算清单数据进行数据预处理,以得到数据集;对商业保险条款文本进行文本预处理,以得到文本数据,基于第一深度学习模型识别所述文本数据中的各关键实体,并利用第二深度学习模型根据所述文本数据确定各所述关键实体之间的实体关系,利用各所述关键实体及所述实体关系构建各理赔规则;所述第二深度学习模型为在向所述第一深度学习模型中添加用于预测关键实体之间的关系的分类层后得到的模型;对各所述理赔规则进行分类及排序,以得到匹配策略,执行所述匹配策略并对所述数据集和所述理赔规则进行匹配,若匹配成功,则生成所述医疗保障基金结算清单数据与所述理赔规则之间的匹配结果,对所述匹配结果进行校验,若校验通过,则输出所述匹配结果。本申请通过分别对医疗保障基金结算清单数据和商业保险条款文本进行预处理,得到数据集和文本数据,能够提高保险机构处理医疗保障基金结算清单数据的效率和准确性,识别关键实体,确定关键实体之间的实体关系,并利用关键实体及实体关系构建各理赔规则,通过对理赔规则进行分类及排序,得到匹配策略,执行匹配策略,以得到匹配结果,将医疗保障基金结算清单中的数据与商业保险的理赔规则相结合,实现医疗保障基金结算清单数据与保险理赔规则之间的自动化匹配,提高保险理赔效率,并且本申请不仅能够提高保险公司的运营效率,还能够保证商业健康险理赔过程的公正性和准确性。
图6为本申请实施例提供的一种商保理赔规则智能匹配设备的结构示意图。该商保理赔规则智能匹配设备20,具体可以包括:至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中,所述存储器22用于存储计算机程序,所述计算机程序由所述处理器21加载并执行,以实现前述任一实施例公开的由电子设备执行的商保理赔规则智能匹配方法中的相关步骤。
本实施例中,电源23用于为商保理赔规则智能匹配设备20上的各硬件设备提供工作电压;通信接口24能够为商保理赔规则智能匹配设备20创建与外界设备之间的数据传输通道,其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议,在此不对其进行具体限定;输入输出接口25,用于获取外界输入数据或向外界输出数据,其具体的接口类型可以根据具体应用需要进行选取,在此不进行具体限定。
另外,存储器22作为资源存储的载体,可以是只读存储器、随机存储器、磁盘或者光盘等,其上所存储的资源包括操作系统221、计算机程序222及数据223等,存储方式可以是短暂存储或者永久存储。
其中,操作系统221用于管理与控制商保理赔规则智能匹配设备20上的各硬件设备以及计算机程序222,以实现处理器21对存储器22中数据223的运算与处理,其可以是Windows、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由商保理赔规则智能匹配设备20执行的商保理赔规则智能匹配方法的计算机程序之外,还可以进一步包括能够用于完成其他特定工作的计算机程序。数据223除了可以包括商保理赔规则智能匹配设备接收到的由外部设备传输进来的数据,也可以包括由自身输入输出接口25采集到的数据等。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
进一步的,本申请实施例还公开了一种计算机可读存储介质,所述存储介质中存储有计算机程序,所述计算机程序被处理器加载并执行时,实现前述任一实施例公开的商保理赔规则智能匹配方法步骤。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明所提供的一种商保理赔规则智能匹配系统、方法、设备及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (9)
1.一种商保理赔规则智能匹配系统,其特征在于,包括:
数据预处理模块,用于获取医疗保障基金结算清单数据,对所述医疗保障基金结算清单数据进行数据预处理,以得到数据集;
理赔规则构建模块,用于对商业保险条款文本进行文本预处理,以得到文本数据,基于第一深度学习模型识别所述文本数据中的各关键实体,并利用第二深度学习模型根据所述文本数据确定各所述关键实体之间的实体关系,利用各所述关键实体及所述实体关系构建各理赔规则;所述第二深度学习模型为在向所述第一深度学习模型中添加用于预测关键实体之间的关系的分类层后得到的模型;
匹配模块,用于对各所述理赔规则进行分类及排序,以得到匹配策略,执行所述匹配策略并对所述数据集和所述理赔规则进行匹配,若匹配成功,则生成所述医疗保障基金结算清单数据与所述理赔规则之间的匹配结果,对所述匹配结果进行校验,若校验通过,则输出所述匹配结果;
其中,所述理赔规则构建模块,包括:文本预处理组件,用于对输入的商业保险条款文本进行文本预处理,以得到文本数据;所述文本预处理包括分词、消歧以及长句划分;实体识别组件,用于对预训练的深度学习模型进行参数调整,以得到第一深度学习模型,利用所述第一深度学习模型识别所述文本数据中的各关键实体;关系抽取组件,用于在所述第一深度学习模型中添加用于预测关键实体之间的关系的分类层并进行参数调整,以得到第二深度学习模型,利用所述第二深度学习模型并根据所述文本数据确定各所述关键实体之间的实体关系;规则整合组件,用于利用各所述关键实体及所述实体关系构建各所述理赔规则;规则库,用于获取并存储所述规则整合组件中的各所述理赔规则。
2.根据权利要求1所述的商保理赔规则智能匹配系统,其特征在于,所述数据预处理模块,包括:
数据获取模块,用于获取医疗保障基金结算清单数据;所述医疗保障基金结算清单数据包括患者基本信息、住院诊疗信息以及医疗收费信息;
数据清洗模块,用于对所述医疗保障基金结算清单数据进行数据清洗,以得到清洗后的所述医疗保障基金结算清单数据;所述数据清洗包括空值处理、异常值剔除以及数据格式统一;
数据匹配模块,用于利用预设的映射库对清洗后的所述医疗保障基金结算清单数据进行数据匹配、标记及记录,以得到匹配清洗后的所述医疗保障基金结算清单数据;
数据归集模块,用于对匹配清洗后的所述医疗保障基金结算清单数据进行分类及归结,以得到所述数据集。
3.根据权利要求1所述的商保理赔规则智能匹配系统,其特征在于,所述实体识别组件,包括:
参数调整子模块,用于对预训练的深度学习模型进行参数调整,以得到第一深度学习模型;
数据分词子模块,用于对所述文本数据进行分词,以得到分词后的所述文本数据;
识别子模块,用于将分词后的所述文本数据输入至所述第一深度学习模型中进行概率计算,以得到各实体类型概率,将数值最高的所述实体类型概率作为目标实体类型概率,并基于与所述目标实体类型概率对应的分词后的所述文本数据确定关键实体。
4.根据权利要求1所述的商保理赔规则智能匹配系统,其特征在于,所述关系抽取组件,包括:
第二深度学习模型构建子模块,用于获取用于进行参数调整的数据,对所述数据进行处理、标注以及格式转换,以得到转换后数据,在所述第一深度学习模型中添加用于预测关键实体之间的关系的分类层,并利用所述转换后数据进行参数调整,以得到所述第二深度学习模型;
实体关系确定子模块,用于利用所述第二深度学习模型并根据所述文本数据确定各所述关键实体之间的实体关系。
5.根据权利要求1至4任一项所述的商保理赔规则智能匹配系统,其特征在于,所述匹配模块,包括:
匹配策略制定子模块,用于对各理赔规则进行分类及排序,以得到匹配策略;所述匹配策略包括等值匹配策略、范围匹配策略以及模糊匹配策略;
匹配策略执行子模块,用于按照预设的匹配策略执行优先级执行所述匹配策略中的等值匹配策略,并对所述数据集和所述理赔规则进行等值匹配,若等值匹配成功,则生成所述医疗保障基金结算清单数据与所述理赔规则之间的匹配结果;
结果校验子模块,用于对所述匹配结果进行校验,若校验通过,则输出所述匹配结果。
6.根据权利要求5所述的商保理赔规则智能匹配系统,其特征在于,所述匹配策略执行子模块,还包括:
范围匹配策略执行子模块,用于若等值匹配不成功,则执行所述匹配策略中的所述范围匹配策略,并对所述数据集和所述理赔规则进行范围匹配,若范围匹配成功,则生成所述医疗保障基金结算清单数据与所述理赔规则之间的匹配结果;
模糊匹配策略执行子模块,用于若范围匹配不成功,则执行所述匹配策略中的所述模糊匹配策略,并对所述数据集和所述理赔规则进行模糊匹配,若模糊匹配成功,则生成所述医疗保障基金结算清单数据与所述理赔规则之间的匹配结果。
7.一种商保理赔规则智能匹配方法,其特征在于,包括:
获取医疗保障基金结算清单数据,对所述医疗保障基金结算清单数据进行数据预处理,以得到数据集;
对商业保险条款文本进行文本预处理,以得到文本数据,基于第一深度学习模型识别所述文本数据中的各关键实体,并利用第二深度学习模型根据所述文本数据确定各所述关键实体之间的实体关系,利用各所述关键实体及所述实体关系构建各理赔规则;所述第二深度学习模型为在向所述第一深度学习模型中添加用于预测关键实体之间的关系的分类层后得到的模型;
对各所述理赔规则进行分类及排序,以得到匹配策略,执行所述匹配策略并对所述数据集和所述理赔规则进行匹配,若匹配成功,则生成所述医疗保障基金结算清单数据与所述理赔规则之间的匹配结果,对所述匹配结果进行校验,若校验通过,则输出所述匹配结果;
其中,所述对商业保险条款文本进行文本预处理,以得到文本数据,基于第一深度学习模型识别所述文本数据中的各关键实体,并利用第二深度学习模型根据所述文本数据确定各所述关键实体之间的实体关系,利用各所述关键实体及所述实体关系构建各理赔规则,包括:对输入的商业保险条款文本进行文本预处理,以得到文本数据;所述文本预处理包括分词、消歧以及长句划分;对预训练的深度学习模型进行参数调整,以得到第一深度学习模型,利用所述第一深度学习模型识别所述文本数据中的各关键实体;在所述第一深度学习模型中添加用于预测关键实体之间的关系的分类层并进行参数调整,以得到第二深度学习模型,利用所述第二深度学习模型并根据所述文本数据确定各所述关键实体之间的实体关系;利用各所述关键实体及所述实体关系构建各所述理赔规则;获取并存储各所述理赔规则。
8.一种电子设备,其特征在于,包括:
存储器,用于保存计算机程序;
处理器,用于执行所述计算机程序,以实现如权利要求7所述的商保理赔规则智能匹配方法。
9.一种计算机可读存储介质,其特征在于,用于保存计算机程序;其中,所述计算机程序被处理器执行时实现如权利要求7所述的商保理赔规则智能匹配方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410785024.6A CN118365459B (zh) | 2024-06-18 | 2024-06-18 | 一种商保理赔规则智能匹配系统、方法、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410785024.6A CN118365459B (zh) | 2024-06-18 | 2024-06-18 | 一种商保理赔规则智能匹配系统、方法、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN118365459A CN118365459A (zh) | 2024-07-19 |
CN118365459B true CN118365459B (zh) | 2024-08-30 |
Family
ID=91882263
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410785024.6A Active CN118365459B (zh) | 2024-06-18 | 2024-06-18 | 一种商保理赔规则智能匹配系统、方法、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118365459B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113779260A (zh) * | 2021-08-12 | 2021-12-10 | 华东师范大学 | 一种基于预训练模型的领域图谱实体和关系联合抽取方法及系统 |
CN114170600A (zh) * | 2021-11-26 | 2022-03-11 | 深圳麦亚信科技股份有限公司 | 一种数据处理方法、装置、计算机设备及存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190236460A1 (en) * | 2018-01-29 | 2019-08-01 | Salesforce.Com, Inc. | Machine learnt match rules |
CN109918639B (zh) * | 2018-12-13 | 2024-02-13 | 北京海致星图科技有限公司 | 一种基于深度学习技术和规则库的银行授信文本解析方法 |
CN110866836B (zh) * | 2019-11-14 | 2022-12-06 | 支付宝(杭州)信息技术有限公司 | 计算机执行的医疗保险立案审核方法和装置 |
CN117808603A (zh) * | 2021-12-10 | 2024-04-02 | 国泰财产保险有限责任公司 | 保险智能理赔作业辅助系统和方法 |
CN114493904B (zh) * | 2022-04-18 | 2022-06-28 | 北京合理至臻科技有限公司 | 一种智能核保风控方法、系统、设备及介质 |
CN116523661A (zh) * | 2023-05-04 | 2023-08-01 | 中国平安财产保险股份有限公司 | 基于人工智能的理赔方法、装置、设备及存储介质 |
-
2024
- 2024-06-18 CN CN202410785024.6A patent/CN118365459B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113779260A (zh) * | 2021-08-12 | 2021-12-10 | 华东师范大学 | 一种基于预训练模型的领域图谱实体和关系联合抽取方法及系统 |
CN114170600A (zh) * | 2021-11-26 | 2022-03-11 | 深圳麦亚信科技股份有限公司 | 一种数据处理方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN118365459A (zh) | 2024-07-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107644011B (zh) | 用于细粒度医疗实体提取的系统和方法 | |
US11983498B2 (en) | System and methods for language processing of document sequences using a neural network | |
US20180241881A1 (en) | Integrated service centre support | |
CN108447534A (zh) | 一种基于nlp的电子病历数据质量管理方法 | |
CN115547466B (zh) | 基于大数据的医疗机构登记评审系统及其方法 | |
CN114547346B (zh) | 知识图谱的构建方法和装置、电子设备和存储介质 | |
CN110532367A (zh) | 一种信息提示方法及系统 | |
CN117574898A (zh) | 基于电网设备的领域知识图谱更新方法及系统 | |
CN117764741A (zh) | 基于无监督机器学习和集成学习的医疗异常违规大数据风险预警方法 | |
Chen et al. | Automatic ICD code assignment utilizing textual descriptions and hierarchical structure of ICD code | |
Qudsi et al. | Predictive data mining of chronic diseases using decision tree: A case study of health insurance company in Indonesia | |
Lüders et al. | Automated detection of typed links in issue trackers | |
Chen et al. | Converting natural language policy article into MBSE model | |
CN111881294B (zh) | 一种语料标注系统、方法及存储介质 | |
AU2019290658B2 (en) | Systems and methods for identifying and linking events in structured proceedings | |
CN116719840A (zh) | 一种基于病历后结构化处理的医疗信息推送方法 | |
CN118365459B (zh) | 一种商保理赔规则智能匹配系统、方法、设备及介质 | |
Ullah et al. | Unveiling the Power of Deep Learning: A Comparative Study of LSTM, BERT, and GRU for Disaster Tweet Classification | |
CN113688854A (zh) | 数据处理方法、装置及计算设备 | |
Ha et al. | Examine the effectiveness of patent embedding-based company comparison method | |
Dhanta et al. | Twitter sentimental analysis using machine learning | |
Yang et al. | DRGs grouping prediction method based on semantics information of clinical notes | |
Amin et al. | Enhancing the detection of fake news in social media based on machine learning models | |
US20240145050A1 (en) | Phenotyping of clinical notes using natural language processing models | |
Rahman | Optimizing Customer Satisfaction through Sentiment Analysis: A BERT-based Machine Learning Approach to Extract Insights |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |