CN113627189A

CN113627189A - 一种面向保险条款的实体识别信息抽取、存储、展示方法

Info

Publication number: CN113627189A
Application number: CN202110940483.3A
Authority: CN
Inventors: 王晶
Original assignee: Qingdao Quanshopkeeper Technology Co ltd
Current assignee: Qingdao Quanshopkeeper Technology Co ltd
Priority date: 2021-08-17
Filing date: 2021-08-17
Publication date: 2021-11-09

Abstract

本发明提出一种面向保险条款的实体识别信息抽取、存储、展示方法，包括以下步骤：(1)上传保险条款文件；(2)对上传文件进行分类、清洗、识别；(3)对识别结果进行文本重组、实体识别；(4)实体属性的提取；(5)数据存储、展示。所述面向保险条款的实体识别信息抽取、存储、展示方法，将保险条款中的核心信息、易忽略信息通过知识图谱的方式客观展示，不但让消费者更简单清楚的了解保险条款中的核心信息，也利于代理人对保险条款的解释，提升消费者对代理人及保险中介公司的信任度，有效提高客户的转化率，实现消费者、代理人和保险中介的三者共赢。

Description

一种面向保险条款的实体识别信息抽取、存储、展示方法

技术领域

本发明属于自然语言处理领域，涉及一种面向保险条款的实体识别信息抽取、存储、展示方法。

背景技术

保险条款是保险合同上规定的有关保险人与被保险人的权利、义务及其他保险事项的条文。近年，随着互联网技术的发展，保险行业也发展迅速，据相关数据统计，每天面市的保险产品上万，利用人工解析保险条款，成本巨大。保险条款非常重要，消费者在购买保险产品时，由于保险条款较长，文字描述复杂，很少有消费者花费较长时间仔细阅读保险条款。

目前保险代理平台往往只是将保险条款中的较少字段以表格的形式给消费者，完整版的保险条款文档多达几十页，通常只会通过URL跳转让消费者下载PDF文档自行查看，保险代理人也不方便给消费者讲透彻。消费者选购保险时，碍于对保险知识的缺失，很少有人理解保险条款中的某些字段含义，或因保险条款中文字数量较多，对保险条款中内容理解不透彻，一旦发生保险事故，容易产生纠纷，减少消费者对保险中介的信任，造成客户流失。因此，保险中介平台需要提供一种保险条款的展示功能，提高消费者和代理人对保险条款的理解，提升用户体验，提高保险中介的业绩。

发明内容

本发明的目的是：为了让消费者更透明、详尽的了解保险条款的要点内容，本发明提出了一种面向保险条款的实体识别信息抽取、存储、展示方法。

为了解决上述问题，本发明所采用的技术方案是：一种面向保险条款的实体识别信息抽取、存储、展示方法，其特征在于，包括如下步骤：

(1)上传保险条款文件；

(2)对上传文件进行分类、清洗、识别；

(3)对识别结果进行文本重组、实体识别；

(4)实体属性的提取；

(5)数据存储、展示。

进一步的，所述步骤(1)包括：用户通过网页上传保险条款，后台系统接收上传文件，并通过文件后缀名对上传文件做分类，丢弃不属于PDF格式的文件，接受PDF格式文件。

进一步的，所述步骤(2)包括：

(2.1)分类：使用PDFPlumber解析上传文件，根据解析结果，利用统计学判断该文件是否具有可编辑性，将文件分为可编辑和影印两种类型；

(2.2)识别：对可编辑类型文件，使用PDFPlumber解析得到的结果，转换为带有文字及文字坐标的Json文件；对于影印类型，使用OCR识别技术，对保险条款中的文字识别，经Pandas转换同样可以得到带有文字及文字坐标的Json数据；

(2.3)清洗：由于PDF文件的封面、页眉、页尾、图例、图表名这些位置的额信息冗余，对保险条款提取的信息没有意义，故根据解析结果中的文字坐标，删除这些位置的文本信息，保留有效的Json数据。

进一步的，所述步骤(3)包括：

(3.1)文本重组：经过步骤(2)解析得到数据，由于一级标题、二级标题以及正文字体大小不一，获取的文字坐标无法按行对齐，使用Pandas将所有文字重组到一个坐标系下，按行坐标分组，还原PDF中文字的位置；

(3.2)实体识别：

首先，通过已有的保险资料，通过无监督训练得到词向量预训练模型Bert，将文本用向量表示；

然后，利用实体构造实体识别模型的测试语料，包括保险公司、年龄、疾病名称、免责条款、犹豫期、等待期、保障责任这些保险实体；

最后，构建Bert&Bilstm&Crf实体识别的网络模型，将已标注的测试语料，经过监督式训练，生成实体识别模型，并将模型保存成h5格式。

进一步的，所述步骤(4)包括：

首先，根据已有保险资料，人工标注阅读理解模型的训练语料；

然后，构建Bert&TransModel的神经网络阅读理解模型；

最后，将训练语料输入模型，得到并保存h5格式的属性抽取模型；

根据步骤(3)中提取的实体，将实体所有句子及段落作为属性抽取模型的输入，经神经网络计算得到实体属性信息，并将该文件中的所有实体内容整合成一条Json数据。

进一步的，所述步骤(5)包括：将步骤(4)中生成的Json数据，通过接口的形式保存到Neo4j数据库，经后端的查询接口，通过前端页面展示实体和实体、实体和实体属性间的关系。

本发明实施例提供的上述技术方案的有益效果至少包括：本发明提出的面向保险条款的实体识别信息抽取、存储、展示方法，将保险条款中的核心信息、易忽略信息通过知识图谱的方式客观展示，不但让消费者更简单清楚的了解保险条款中的核心信息，也利于代理人对保险条款的解释，提升消费者对代理人及保险中介公司的信任度，有效提高客户的转化率，实现消费者、代理人和保险中介的三者共赢。

本发明方法打破了目前保险领域内还没有专门为PDF保险条款进行识别、提取、存储及展示的自动化流程，成为保险领域的先例。依靠深度学习的强大识别能力和图数据库NEO4J的强大展示功能，可以更加直观的展示保险条款中相关实体和实体属性的关系，让产品设计人员、代理人乃至普通消费者对于保险条款有一个全面了解，具有十分重要的使用价值。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例公开的面向保险条款的实体识别信息抽取、存储、展示方法的流程图。

图2为本发明实施例公开的实体识别的流程图。

图3为本发明实施例公开的实体属性的提取的流程图。

图4为本发明实施例公开的数据展示实例的解析结果。

图5为本发明实施例公开的保险条款经解析后生成的跟重庆有关的部分保险信息展示。

具体实施例

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明提出的一种面向保险条款的实体识别信息抽取、存储、展示方法，包括以下步骤：(1)上传保险条款文件；(2)对上传文件进行分类、清洗、识别；(3)对识别结果进行文本重组、实体识别；(4)实体属性的提取；(5)数据存储、展示。

1、文件上传。用户通过网页上传保险条款，后台系统接收上传文件，并通过文件后缀名对上传文件做分类，丢弃不属于PDF格式的文件，接受PDF格式文件。

2、文件分类、识别、清洗。本步骤进一步包括：

2.1分类。使用PDFPlumber解析上传文件，根据解析结果，利用统计学判断该文件是否具有可编辑性，将文件分为可编辑和影印两种类型。

2.2识别。对可编辑类型文件，使用PDFPlumber解析得到的结果，转换为带有文字及文字坐标的Json文件；对于影印类型，使用OCR识别技术，对保险条款中的文字识别，经Pandas转换同样可以得到带有文字及文字坐标的Json数据。

2.3清洗。由于PDF文件的封面、页眉、页尾、图例、图表名等位置的额信息冗余，对保险条款提取的信息没有意义，故根据解析结果中的文字坐标，删除这些位置的文本信息，保留有效的Json数据。

3、文本重组、实体识别。本步骤进一步包括：

3.1文本重组。经过步骤2解析得到数据，由于一级标题、二级标题以及正文字体大小不一，获取的文字坐标无法按行对齐。使用Pandas将所有文字重组到一个坐标系下，按行坐标分组，还原PDF中文字的位置。

3.2实体识别。首先，通过已有的保险资料，通过无监督训练得到词向量预训练模型Bert，将文本用向量表示；然后利用实体构造实体识别模型的测试语料，有保险公司、年龄、疾病名称、免责条款、犹豫期、等待期、保障责任等保险实体；最后构建Bert&Bilstm&Crf实体识别的网络模型，将已标注的测试语料，经过监督式训练，生成实体识别模型，并将模型保存成h5格式。

4、属性提取。首先，根据已有保险资料，人工标注阅读理解模型的训练语料；然后，构建Bert&TransModel的神经网络阅读理解模型；最后将训练语料输入模型，得到并保存h5格式的属性抽取模型。根据步骤3中提取的实体，将实体所句子及段落作为属性抽取模型的输入，经神经网络计算得到实体属性信息，并将该文件中的所有实体内容整合成一条Json数据。

5、数据存储展示。将步骤4中生成的Json数据，通过接口的形式保存到Neo4j数据库，经后端的查询接口，通过前端页面展示实体和实体、实体和实体属性间的关系。

图2描述了实体识别的流程图，[CLS]文本开始标志，wi表示单个字二者构成系统输入，Ei、EA、Ewi分别表示字wi的位置向量、句子向量、字向量，三者构成了Embedding层，即将输入转化为一个标准向量；Mix Model表示经过Bert模型的Encoder之后，将输入向量化，构成标准输出；Forward&Bacward LSTM Layer将句子之间的语义充分组合，构成BiLSTM输出，最后经过Crf，完成实体识别。比如输入句子“重庆地区可以买重疾险吗”，经过实体识别模型，可以获取“重庆”这个地区实体，用B-LOC表示实体“重庆”的第一个字，I-LOC表示实体“重庆”的第二个字。

图3描述了实体属性的提取，输入为图2识别出的实体所在的句子SentenceA，[CLS]表示句子SentenceA开头，[SEP]表示SentenceA的结尾及SentenceB的结尾，SentenceB表示SentenceA中实体所在的段落，每个wi表示一个字；经过Bert Model转化为标准的Word Vetor；Trans Model由FCNN、Softmax、Activation及MatrixTrans构成，输出Start&End Vector，经过Pooling Layer后得到实体的属性值。

图4是数据展示实例，通过上传中意心脑血管特定疾病保险条款，经过系统解析出的该险种可以保障的疾病、所属保险公司、险种等部分信息。

图5描述的是所有上传的保险条款经解析后，生成的跟重庆有关的部分保险信息。

应该明白，公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好，应该理解，过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素，并且不是要限于所述的特定顺序或层次。

在上述的详细描述中，各种特征一起组合在单个的实施方案中，以简化本公开。不应该将这种公开方法解释为反映了这样的意图，即，所要求保护的主题的实施方案需要清楚地在每个权利要求中所陈述的特征更多的特征。相反，如所附的权利要求书所反映的那样，本发明处于比所公开的单个实施方案的全部特征少的状态。因此，所附的权利要求书特此清楚地被并入详细描述中，其中每项权利要求独自作为本发明单独的优选实施方案。

本领域技术人员还应当理解，结合本文的实施例描述的各种说明性的逻辑框、模块、电路和算法步骤均可以实现成电子硬件、计算机软件或其组合。为了清楚地说明硬件和软件之间的可交换性，上面对各种说明性的部件、框、模块、电路和步骤均围绕其功能进行了一般地描述。至于这种功能是实现成硬件还是实现成软件，取决于特定的应用和对整个系统所施加的设计约束条件。熟练的技术人员可以针对每个特定应用，以变通的方式实现所描述的功能，但是，这种实现决策不应解释为背离本公开的保护范围。

结合本文的实施例所描述的方法或者算法的步骤可直接体现为硬件、由处理器执行的软件模块或其组合。软件模块可以位于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动磁盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质连接至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。该ASIC可以位于用户终端中。当然，处理器和存储介质也可以作为分立组件存在于用户终端中。

对于软件实现，本申请中描述的技术可用执行本申请所述功能的模块(例如，过程、函数等)来实现。这些软件代码可以存储在存储器单元并由处理器执行。存储器单元可以实现在处理器内，也可以实现在处理器外，在后一种情况下，它经由各种手段以通信方式耦合到处理器，这些都是本领域中所公知的。

上文的描述包括一个或多个实施例的举例。当然，为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的，但是本领域普通技术人员应该认识到，各个实施例可以做进一步的组合和排列。因此，本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外，就说明书或权利要求书中使用的术语“包含”，该词的涵盖方式类似于术语“包括”，就如同“包括，”在权利要求中用作衔接词所解释的那样。此外，使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。

Claims

1.一种面向保险条款的实体识别信息抽取、存储、展示方法，其特征在于，包括如下步骤：

(1)上传保险条款文件；

(2)对上传文件进行分类、清洗、识别；

(3)对识别结果进行文本重组、实体识别；

(4)实体属性的提取；

(5)数据存储、展示。

2.如权利要求1所述的一种面向保险条款的实体识别信息抽取、存储、展示方法，其特征在于，所述步骤(1)包括：用户通过网页上传保险条款，后台系统接收上传文件，并通过文件后缀名对上传文件做分类，丢弃不属于PDF格式的文件，接受PDF格式文件。

3.如权利要求2所述的一种面向保险条款的实体识别信息抽取、存储、展示方法，其特征在于，所述步骤(2)包括：

4.如权利要求3所述的一种面向保险条款的实体识别信息抽取、存储、展示方法，其特征在于，所述步骤(3)包括：

(3.2)实体识别：

5.如权利要求4所述的一种面向保险条款的实体识别信息抽取、存储、展示方法，其特征在于，所述步骤(4)包括：

然后，构建Bert&TransModel的神经网络阅读理解模型；

6.如权利要求5所述的一种面向保险条款的实体识别信息抽取、存储、展示方法，其特征在于，所述步骤(5)包括：将步骤(4)中生成的Json数据，通过接口的形式保存到Neo4j数据库，经后端的查询接口，通过前端页面展示实体和实体、实体和实体属性间的关系。