CN114330284A - 一种基于规则模型的自动化保险条款解析方法 - Google Patents
一种基于规则模型的自动化保险条款解析方法 Download PDFInfo
- Publication number
- CN114330284A CN114330284A CN202111322606.3A CN202111322606A CN114330284A CN 114330284 A CN114330284 A CN 114330284A CN 202111322606 A CN202111322606 A CN 202111322606A CN 114330284 A CN114330284 A CN 114330284A
- Authority
- CN
- China
- Prior art keywords
- clause
- insurance
- parsing
- analysis
- rule
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明提供了一种基于规则模型的自动化保险条款解析方法,包括:第一步骤:搜集并整理所有人身险条款文件,所有人身险条款文件的文件格式为PDF文档格式;第二步骤:实现对所有人身险条款文件的解析处理,并生成条款结构化解析知识库、以及保额计算及责任定义规则库,分别实现对条款的结构化拆解分析、以及保障责任对应额度及保障内容的计算;第三步骤:生成条款解析结果数据库和条款‑险种产品对照规则库,采用条款险种信息匹配引擎,将条款解析的所有信息与险种产品建立关联;第四步骤:根据关联结果生成全量信息数据库。
Description
技术领域
本发明涉及保险领域,具体涉及一种基于规则模型的自动化保险条款解析方法。
背景技术
国内保险公司已经在中保协官方网站登记备案的人身险条款数量众多,已达3万多个条款,分布在数百家保险公司。而且不同保险公司之间,或者同一个保险公司在不同类型产品类型、不同阶段定义的保险条款之间,文档格式差异较大,用户理解有很大难度,这对于已经拥有多个保单的用户来讲,承保成功之后只依据保单文件和保险条款内容,很难简单、快速的理解自己的保单合同内容,市场上形成了对于用户保单条款进行解读解析的刚性需求。
自动化文档处理、自然语言处理、自然语言理解、知识库及知识图谱等大数据和AI人工智能等相关技术的发展,已经可以满足对海量保险条款内容进行自动化拆解、解析及标准化定义的需求,可以基于上述技术,实现对复杂保险条款进行理解、拆分、标准化的定义。
现有技术一般通过如下方式进行:
1.通过完全手工的方式,对数万个复杂的保险条款进行拆分和解读,形成知识库。
2.部分基于自然语言处理及知识库的保险条款拆解方法,实际上也是先投入了大量的人工进行内容先期拆分处理,形成比较规则的条款内容块之后,再结合部分自然语言处理及知识库的自动化处理技术方法进行保险条款拆解。
然而,现有通过完全手工的方式,或者一部分先期采用人工方式,再结合自动化处理技术的方式,工作量投入是巨大的,而且实施周期较长,快速商业化应用的效果不好,很难满足快速自动化进行保险条款拆分理解的需求。
发明内容
本发明所要解决的技术问题是针对现有技术中存在上述缺陷,提供一种基于规则模型的自动化保险条款解析方法。
根据本发明,提供了一种基于规则模型的自动化保险条款解析方法包括:
第一步骤:搜集并整理所有人身险条款文件,所有人身险条款文件的文件格式为PDF文档格式;
第二步骤:实现对所有人身险条款文件的解析处理,并生成条款结构化解析知识库、以及保额计算及责任定义规则库,分别实现对条款的结构化拆解分析、以及保障责任对应额度及保障内容的计算;
第三步骤:生成条款解析结果数据库和条款-险种产品对照规则库,采用条款险种信息匹配引擎,将条款解析的所有信息与险种产品建立关联;
第四步骤:根据关联结果生成全量信息数据库。
优选地,第二步骤的处理步骤采用条款解析引擎,条款解析引擎完成将所有人身险条款文件的PDF文档转换成条款文本,并插入格式符,抽取各级标题,形成标准化条款解析内容块。
优选地,在第二步骤,条款解析引擎基于条款结构化解析知识库、保额计算及责任定义规则库中的知识条目及规则参数,完成将所有条款PDF文档转换成条款文本文件,并插入格式符,抽取条款中的各级标题,并按照预定义的条款拆分结构,将条款转换成一系列的解析内容块。
优选地,条款结构化解析知识库对条款文件中的各部分条款内容进行标准化定义,建立关键词集合,形成标准化定义的条款结构化解析知识库,用于条款的标准化内容拆解。
优选地,保额计算及责任定义规则库基于条款内容,通过自动化脚本及人工分析的方式,建立每个条款中各保障责任的参数计算规则集,用于定义各保障责任的额度及内容的计算和生成。
优选地,全量信息数据库包括险种产品ID关键字段、产品名称关键字段、保司名称关键字段、条款解析内容关键字段和保障责任定义关键字段。
本发明通过特定的技术方案和机制,实现对数万条人身险保险条款(PDF文件,合同文本制式)各部分内容的自动化拆分、解析、计算和条款内容的标准化,以便达到将结构复杂、内容不规则的保险条款PDF文档转换成结构化的、容易理解的、标准化的保险条款解读内容的目的。
附图说明
结合附图,并通过参考下面的详细描述,将会更容易地对本发明有更完整的理解并且更容易地理解其伴随的优点和特征,其中:
图1示意性地示出了根据本发明优选实施例的基于规则模型的自动化保险条款解析方法的流程图。
图2和图3示意性地示出了条款文件夹示例。
图4至图8示意性地示出了保险条款原始PDF文档内容摘录样。
图9示意性地示出了条款解析引擎实现文本化、脏数据处理及文本抽取的机制的示例。
图10示意性地示出了经条款解析引擎转换后的数据样例示。
图11示意性地示出了条款结构化解析知识库样例数据示。
图12示意性地示出了保障责任定义及保额计算参数规则示例。
需要说明的是,附图用于说明本发明,而非限制本发明。注意,表示结构的附图可能并非按比例绘制。并且,附图中,相同或者类似的元件标有相同或者类似的标号。
具体实施方式
为了使本发明的内容更加清楚和易懂,下面结合具体实施例和附图对本发明的内容进行详细描述。
图1示意性地示出了根据本发明优选实施例的基于规则模型的自动化保险条款解析方法的流程图。
如图1所示,根据本发明优选实施例的基于规则模型的自动化保险条款解析方法包括:
第一步骤S1:搜集并整理所有人身险条款文件,所有人身险条款文件的文件格式为PDF文档格式;
例如,第一步骤通过人工搜集、技术采集等方式,结合中保协官方公开发布信息库,搜集并整理所有人身险条款文件。
一般情况下,全部条款文件数量为3万条以上。
第二步骤S2:实现对所有人身险条款文件的解析处理,并生成条款结构化解析知识库、以及保额计算及责任定义规则库,分别实现对条款的结构化拆解分析、以及保障责任对应额度及保障内容的计算;
具体地,第二步骤的处理步骤采用条款解析引擎,条款解析引擎完成将所有人身险条款文件的PDF文档转换成条款文本,并插入格式符,抽取各级标题,形成标准化条款解析内容块。
第三步骤S3:生成条款解析结果数据库和条款-险种产品对照规则库,采用条款险种信息匹配引擎,将条款解析的所有信息与险种产品建立关联;
通过上述第二步骤的结果,生成了条款解析结果数据库。基于此,例如,再进一步采用条款险种信息匹配引擎,通过其他平台采集获取险种产品信息库,进而基于条款解析结果数据库、条款-险种产品对照规则库,将条款解析的所有信息与险种产品建立关联。
第四步骤S4:根据关联结果生成全量信息数据库(即,图1中的条款解析+险种产品全量信息数据库)。
通过上述第三步骤的处理,即可建立条款解析+险种产品全量信息数据库,该数据库包括险种产品ID、产品名称、保司名称、条款解析内容、保障责任定义等关键字段,可广泛应用于各类险种条款匹配的应用。
<具体示例>
第一步:条款搜集
条款的搜集采用自动化+人工结合的方式,条款文件为PDF,全部为人身险产品,搜集完成后按照“保险公司全称”命名文件夹目录,分别存储。
全部条款文件数量为3万条以上。
条款文件夹示例如图2和图3所示。
保险条款原始PDF文档内容摘录样例如图4至图8所示。
从上述样例可见,保险条款合同内容晦涩、复杂,标准不一致,用户难以理解,需要将条款内容的重点部分拆分出来并且进行标准化描述。
第二步:条款解析处理
条款解析引擎
条款解析引擎基于条款结构化解析知识库、保额计算及责任定义规则库中的知识条目及规则参数,完成将所有条款PDF文档转换成条款文本文件,并插入格式符,抽取条款中的各级标题,并按照预定义的条款拆分结构,将条款转换成一系列的解析内容块。
上述条款解析引擎重点实现了条款文本化及脏数据处理、条款内容解析(内容抽取、标准化定义)等功能,条款解析引擎实现文本化、脏数据处理及文本抽取的机制的示例如图9所示。
条款解析引擎采用模板规则引擎技术,每个保险公司的每一种类型产品的条款制定专有的模板引擎,模板引擎主要包含识别判定机制,经条款解析引擎转换后的数据样例示例如图10所示。
条款结构化解析知识库
对条款文件中的各部分条款内容进行标准化定义,建立关键词集合,形成标准化定义的条款结构化解析知识库,用于条款的标准化内容拆解。
条款结构化解析知识库样例数据示例如图11所示。
保额计算及责任定义规则库
基于条款内容,通过自动化脚本及人工分析的方式,建立每个条款中各保障责任的参数计算规则集,用于定义各保障责任的额度及内容的计算和生成。
保障责任定义及保额计算参数规则示例如图12所示。
第三步、第四步:条款-险种信息匹配,生成条款解析+险种产品全量信息数据库
经过上述四个步骤,即可生成条款解析+险种产品全量信息数据库,该数据库包括险种产品ID、产品名称、保司名称、条款解析内容、保障责任定义等关键字段,是将来进行各类产品及保单应用的基础知识库数据。本发明专利的目的就是通过上述步骤定义的技术方式方法,实现了从原始条款PDF文档到最终条款解析+险种产品全量信息数据库的生成。
本发明实现了完全自动化的保险条款解析流程,中间的重要工作包括条款PDF文档的文本化处理,条款自动化拆分及解析,条款内容标准化定义和抽取,保额自动计算规则生成,最终形成保险条款解析结构知识库。这是一种基于自动化文本处理技术、自然语言处理技术、规则模型、知识库及专业保险领域知识等多种技术的实现机制。
总之,本发明基于自动化文档处理、自然语言处理、自然语言理解、知识库及和AI人工智能等相关技术,可以实现从PDF格式的保险条款文档输入,到自动化进行条款文档的文本转换,脏数据处理,有用数据抽离,根据规则模型进行条款内容的拆分,解读,以及保障内容的标准化定义,条款内容对照等,最后形成完全结构化的保险条款解析库,实现了完全自动化流程处理的机制,大大的提高了条款文档解读的效率,而且能够做到对条款解析的正确性和保证解析的高质量。
需要说明的是,除非特别指出,否则说明书中的术语“第一”、“第二”、“第三”等描述仅仅用于区分说明书中的各个组件、元素、步骤等,而不是用于表示各个组件、元素、步骤之间的逻辑关系或者顺序关系等。
可以理解的是,虽然本发明已以较佳实施例披露如上,然而上述实施例并非用以限定本发明。对于任何熟悉本领域的技术人员而言,在不脱离本发明技术方案范围情况下,都可利用上述揭示的技术内容对本发明技术方案作出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。
Claims (6)
1.一种基于规则模型的自动化保险条款解析方法,其特征在于包括:
第一步骤:搜集并整理所有人身险条款文件,所有人身险条款文件的文件格式为PDF文档格式;
第二步骤:实现对所有人身险条款文件的解析处理,并生成条款结构化解析知识库、以及保额计算及责任定义规则库,分别实现对条款的结构化拆解分析、以及保障责任对应额度及保障内容的计算;
第三步骤:生成条款解析结果数据库和条款-险种产品对照规则库,采用条款险种信息匹配引擎,将条款解析的所有信息与险种产品建立关联;
第四步骤:根据关联结果生成全量信息数据库。
2.根据权利要求1所述的基于规则模型的自动化保险条款解析方法,其特征在于,第二步骤的处理步骤采用条款解析引擎,条款解析引擎完成将所有人身险条款文件的PDF文档转换成条款文本,并插入格式符,抽取各级标题,形成标准化条款解析内容块。
3.根据权利要求1或2所述的基于规则模型的自动化保险条款解析方法,其特征在于,在第二步骤,条款解析引擎基于条款结构化解析知识库、保额计算及责任定义规则库中的知识条目及规则参数,完成将所有条款PDF文档转换成条款文本文件,并插入格式符,抽取条款中的各级标题,并按照预定义的条款拆分结构,将条款转换成一系列的解析内容块。
4.根据权利要求1或2所述的基于规则模型的自动化保险条款解析方法,其特征在于,条款结构化解析知识库对条款文件中的各部分条款内容进行标准化定义,建立关键词集合,形成标准化定义的条款结构化解析知识库,用于条款的标准化内容拆解。
5.根据权利要求1或2所述的基于规则模型的自动化保险条款解析方法,其特征在于,保额计算及责任定义规则库基于条款内容,通过自动化脚本及人工分析的方式,建立每个条款中各保障责任的参数计算规则集,用于定义各保障责任的额度及内容的计算和生成。
6.根据权利要求1或2所述的基于规则模型的自动化保险条款解析方法,其特征在于,全量信息数据库包括险种产品ID关键字段、产品名称关键字段、保司名称关键字段、条款解析内容关键字段和保障责任定义关键字段。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111322606.3A CN114330284A (zh) | 2021-11-09 | 2021-11-09 | 一种基于规则模型的自动化保险条款解析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111322606.3A CN114330284A (zh) | 2021-11-09 | 2021-11-09 | 一种基于规则模型的自动化保险条款解析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114330284A true CN114330284A (zh) | 2022-04-12 |
Family
ID=81045577
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111322606.3A Pending CN114330284A (zh) | 2021-11-09 | 2021-11-09 | 一种基于规则模型的自动化保险条款解析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114330284A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114792272A (zh) * | 2022-05-10 | 2022-07-26 | 北京华通互惠科技有限公司 | 保险产品处理装置、方法、电子设备及存储介质 |
CN115374239A (zh) * | 2022-07-13 | 2022-11-22 | 北京中海住梦科技有限公司 | 法律法规解析方法、装置、计算机设备及可读存储介质 |
-
2021
- 2021-11-09 CN CN202111322606.3A patent/CN114330284A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114792272A (zh) * | 2022-05-10 | 2022-07-26 | 北京华通互惠科技有限公司 | 保险产品处理装置、方法、电子设备及存储介质 |
CN114792272B (zh) * | 2022-05-10 | 2024-02-23 | 北京华通互惠科技有限公司 | 保险产品处理装置、方法、电子设备及存储介质 |
CN115374239A (zh) * | 2022-07-13 | 2022-11-22 | 北京中海住梦科技有限公司 | 法律法规解析方法、装置、计算机设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20050183002A1 (en) | Data and metadata linking form mechanism and method | |
CN108153729B (zh) | 一种面向金融领域的知识抽取方法 | |
CN114330284A (zh) | 一种基于规则模型的自动化保险条款解析方法 | |
US20050144166A1 (en) | Method for assisting in automated conversion of data and associated metadata | |
CN114117171A (zh) | 一种基于赋能思维的工程档案智能收整方法及系统 | |
US10366461B2 (en) | Automated document analysis for varying natural languages | |
US8321469B2 (en) | Systems and methods of profiling data for integration | |
CN112926299B (zh) | 一种文本比对方法、合同审阅方法、审核系统 | |
CN110543475A (zh) | 一种基于机器学习的财务报表数据自动识别和分析方法 | |
CN109614594B (zh) | 一种将题目文档解析为题库数据的方法 | |
CN109902215A (zh) | 一种交易匹配的方法及系统 | |
CN114003692A (zh) | 合同文本信息的处理方法、装置、计算机设备及存储介质 | |
WO2005076900A2 (en) | Data and metadata linking form mechanism and method | |
CN116701506A (zh) | 融合非结构化数据的需求计划合规性检验方法 | |
CN116340387A (zh) | 一种用于数据表的个人信息披露情况统计分析方法及系统 | |
Heidari et al. | Financial footnote analysis: developing a text mining approach | |
CN114419645A (zh) | 一种基于ai的合同智能解析方法 | |
CN114495138A (zh) | 一种智能文档识别与特征提取方法、装置平台和存储介质 | |
Oswari et al. | Extensible business report language (XBRL) implementation of financial reporting standard in Indonesian banking industry | |
CN114118098A (zh) | 基于要素抽取的合同评审方法、设备及存储介质 | |
CN113127647A (zh) | 一种基于大数据分析的工艺知识库构建方法 | |
Wiechork et al. | Automated data extraction from PDF documents: Application to large sets of educational tests | |
CN115640758B (zh) | 一种基于知识构建的三维模型数模质检方法 | |
CN113342920B (zh) | 一种针对内容资源的编目自动化方法及系统 | |
LU504881B1 (en) | Intelligent collection method and system for engineering archives based on enabling thinking |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |