CN117194663A

CN117194663A - 一种用于车辆保险理赔的文本清洗方法及系统

Info

Publication number: CN117194663A
Application number: CN202311243205.8A
Authority: CN
Inventors: 郭乐深; 甘宗成; 方伟; 缪德江
Original assignee: Sinosoft Co ltd
Current assignee: Sinosoft Co ltd
Priority date: 2023-09-25
Filing date: 2023-09-25
Publication date: 2023-12-08

Abstract

本发明涉及信息技术领域，具体公开了一种用于车辆保险理赔的文本清洗方法，包括：步骤S10，通过爬虫模块爬取外部数据，根据外部数据构建车辆保险理赔的知识库；步骤S20，将知识库中的数据转换成指定格式，得到语料库；步骤S30，基于NLP模型训练模块，根据语料库对Bert模型、RoBERTa模型和Ernie模型分别进行训练，得到用于车辆保险理赔的Pytorch模型；步骤S40，接收用户输入的半结构化目标数据，将半结构化目标数据解析成Pytorch模型可识别的结构化目标数据；步骤S50，通过Pytorch模型对结构化目标数据进行识别，确定是否理赔。

Description

一种用于车辆保险理赔的文本清洗方法及系统

技术领域

本发明涉及信息技术领域，具体涉及一种用于车辆保险理赔的文本清洗方法及系统。

背景技术

车辆保险通常对于以下造成保险车辆的损失，通常存在责任免除：：违反《道路交通管理条例》中有关机动车辆装载的规定；自然磨损、朽蚀、故障、轮胎单独损坏(轮胎包括外胎及轮辋)；两轮及轻便摩托车停放期间翻倒的损失；保险车辆涉水行驶或被水淹后致使发动机损坏；非被保险人或其允许的驾驶员使用保险车辆；驾驶员饮酒、吸毒、被药物麻醉；没有驾驶证；驾驶与驾驶证准驾车型不相符合的车辆；持军队或武警部队驾驶证驾驶地方车辆；持地方驾驶证驾驶军队或武警部队车辆；公安交通管理部门规定的其他属于无有效驾驶证的情况；保险车辆肇事逃逸等等情况；

这些情况通常以文本方式存在，所以车辆保险的文本清洗可抽象为文本分类问题，该类问题一般有三种解决方案：

1)专家系统：采用基于规则的文本处理技术，通过手动编写规则，，穷举关键字等方法提取信息。这类方法在处理描述标准的理赔文本时效果尚可，但对于较为复杂的文本力不从心。原因在于无法通过有限的规则和关键字覆盖无限的语言描述。

2)机器学习：基于统计理论的机器学习算法，例如朴素贝叶斯/KNN/SVM等，优点在于可解释性较强，但精度不及深度学习算法。

3)深度学习：采用深度神经网络模型，可自动通过训练学习如何提取文本标签，从而完成分类任务，精度高但可解释性差。

综上所述，为了追求高准确率的车辆保险的文本清洗，本发明提出采用基于深度学习的自然语言处理模型(NLP)—BERT，它的主要模型结构是Transformer的框架，通过训练以及在各个具体任务上进行迁移学习。

BERT作为当前最成熟的基于深度学习的自然语言处理模型之一，具有如下几个优势：

基于Transformer：相较于LSTM，BERT基于Transformer，信息提取能力更强，可提取长距离关系，没有梯度消失问题且为双向语言模型

参数量大：由多种embedding策略、注意力机制、残差网络等结构组成，包含亿级参数，可拟合更加复杂的映射关系。

预训练技术：Bert训练模型基于Mask Language Modeling和Next SentencePrediction两种方式进行预训练，使模型具有通用的语义理解能力。

易于迁移学习：训练+迁移学习已经成为自然语言处理建模的标准范式，基于训练模型在保险场景下进行微调。

发明内容

针对上述问题，本发明提供一种用于车辆保险理赔的文本清洗方法及系统，通过人工智能的NLP技术，对理赔文本中的定责和定残文本进行提取，从而支持保险业务开展。

本发明提供了一种用于车辆保险理赔的文本清洗方法，包括：

步骤S10，通过爬虫模块爬取外部数据，根据所述外部数据构建车辆保险理赔的知识库；

步骤S20，将所述知识库中的数据转换成指定格式，得到语料库；

步骤S30，基于NLP模型训练模块，根据所述语料库对Bert模型、RoBERTa模型和Ernie模型分别进行训练，得到用于车辆保险理赔的Pytorch模型；

步骤S40，接收用户输入的半结构化目标数据，将所述半结构化目标数据解析成所述Pytorch模型可识别的结构化目标数据；

步骤S50，通过所述Pytorch模型对所述结构化目标数据进行识别，确定是否理赔。

在一种可能的实现方式中，所述S10包括：

通过爬虫模块爬取外部数据，并对所述外部数据进行清洗和转化。

在一种可能的实现方式中，所述S20包括：

提取所述知识库的文本内容中的关键字，并根据所述关键字确定所述文本内容的标签；

根据所述文本内容、所述关键字和所述标签，生成所述语料库。

在一种可能的实现方式中，所述S30包括：

根据所述语料库对所述Bert模型、所述RoBERTa模型和所述Erniie模型分别进行训练，得到所述Bert模型的判断概率、所述RoBERTa模型的判断概率和所述Ernie模型的判断概率；

根据所述Bert模型、所述RoBERTa模型和所述Ernie模型，以及所述Bert模型的判断概率、所述RoBERTa模型的判断概率和所述Ernie模型的判断概率，，得到用于车辆保险理赔的Pytorch模型。

在一种可能的实现方式中，所述S40包括：

通过API接口接收所述半结构化目标数据。

在一种可能的实现方式中，所述S40包括：

通过Web页面接收所述半结构化目标数据。

在一种可能的实现方式中，所述S50包括：

所述Pytorch模型对所述结构化目标数据进行识别，得到所述Bert模型的判断概率、所述RoBERTa模型的判断概率和所述Ernie模型的判断概率；

对所述Bert模型的判断概率、所述RoBERTa模型的判断概率和所述Ernie模型的判断概率进行加权平均，确定是否理赔。

在一种可能的实现方式中，所述S50包括：

对所述Bert模型的判断概率、所述RoBERTa模型的判断概率和所述Ernie模型的判断概率进行Sigmoid平均，确定是否理赔。

在一种可能的实现方式中，所述判断概率包括全责概率、半责概率和无责概率。

本发明还提供了一种用于车辆保险理赔的文本清洗系统，用于执行任一所述的文本清洗方法，包括：

爬虫模块，用于爬取外部数据，根据所述外部数据构建车辆保险理赔的知识库；

语料库模块，用于将所述知识库中的数据转换成指定格式，得到语料库；

NLP模型训练模块，用于根据所述语料库对Bert模型、RoBERTa模型和Ernie模型分别进行训练，得到用于车辆保险理赔的Pytorch模型；

文本清洗模块，用于接收用户输入的半结构化目标数据，将所述半结构化目标数据解析成所述Pytorch模型可识别的结构化目标数据；

判定模块，用于通过所述Pytorch模型对所述结构化目标数据进行识别，确定是否理赔。

本发明提供的用于车辆保险理赔的文本清洗方法及系统，其用于清洗和审核基于文本的车辆保险相关记录，通过人工智能的NLP技术，从理赔文本描述中提取本次理赔对应的定责和定残等重要信息，从而支持保险业务开展。

附图说明

图1为本发明实施例提供的用于车辆保险理赔的文本清洗方法的流程示意图；

图2为本发明实施例提供的用于车辆保险理赔的文本清洗系统的结构示意图。

具体实施方式

下面结合附图和实施例对本发明的实施方式作进一步详细描述。以下实施例的详细描述和附图用于示例性地说明本发明的原理，但不能用来限制本发明的范围，即本发明不限于所描述的优选实施例，本发明的范围由权利要求书限定。

在本发明的描述中，需要说明的是，除非另有说明，“多个”的含义是两个或两个以上；术语“第一”“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性；对于本领域的普通技术人员而言，可视具体情况理解上述术语在本发明中的具体含义。

通常的理赔文本是保险机构对理赔案件的文字描述，一般包括事故认定书、伤残鉴定书等文本处理和清洗，其中事故的定责和定残是重要的理赔信息；保险机构的汽车保险中，数据分析、产品开发、定价和风控等方面有着重要的应用价值。

随着保险理赔数据的爆炸式增长，如何快速、精准的进行理赔文本清洗，开展精细化的数据分析，从而利用赔付经验指导产品、定价和风控，是摆在各大保险机构面前的实质性难题。随着技术的发展，基于人工智能的自然语言处理技术给处理海量理赔数据带来了新的解决方案。人工智能已经成为保险产业升级、提高企业竞争力、创造新赢利点的重要手段。

本发明不仅具有多功能性和完整性，在检测的精度和准确率上，采用最新的大模型技术，能够有所保障，还能够方便各种应用的模型迁移学习。

图1为本发明实施例提供的用于车辆保险理赔的文本清洗方法的流程示意图，如图1所示，本发明提供的用于车辆保险理赔的文本清洗方法，包括：

步骤S10，通过爬虫模块爬取外部数据，根据外部数据构建车辆保险理赔的知识库；

在一种可能的实现方式中，通过爬虫模块爬取外部数据，并对外部数据进行清洗和转化。

在一个示例中，外部数据包含网站数据、文本数据和数据库数据。

一方面数据来源基于相关金融机构，即保险公司已有提供结构化数据，直接转成模型训练知识库；

另一方面来源基于互联网数据，它主要在相关政府网站、交通综合管理类网站等相关网站采集的综合管廊相关文档信息；这些文档信息包括文档信息、法律法规、政策标准、期刊、专利、报告、百科以及相关新闻等。

步骤S20，将知识库中的数据转换成指定格式，得到语料库；

在一种可能的实现方式中，提取知识库的文本内容中的关键字，并根据关键字确定文本内容的标签；根据文本内容、关键字和标签，生成语料库。

在一个示例中，语料库格式：《文本内容：文本关键字：文本标签》等三个字段，采用基于Mysql数据库存取。

例如：A保险公司的车险理赔规定，自燃险4种免责情况。

第二条责任免除

(一)自燃仅造成电器、线路、油路、供油系统、供气系统的损失；

(二)由于擅自改装、加装电器及设备导致被保险机动车起火造成的损失；

(三)被保险人在使用被保险机动车过程中，因人工直接供油、高温烘烤等违反车辆安全操作规则造成的损失；

(四)本附加险每次赔偿实行20％的绝对免赔率，不适用主险中的各项免赔率、免赔额约定。通过上述A公司保险的车险理赔规定，构建语料库范例如下：

步骤S30，基于NLP模型训练模块，根据语料库对Bert模型、RoBERTa模型和Ernie模型分别进行训练，得到用于车辆保险理赔的Pytorch模型；

自然语言处理NLP就是在机器语言和人类语言之间沟通的桥梁，以实现人机交流的目的。

BERT是一个预训练的语言表征模型。它强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练，而是采用新的maskedlanguage model(MLM)，以致能生成深度的双向语言表征。

该模型有以下主要优点：

1)采用MLM对双向的Transformers进行预训练，以生成深层的双向语言表征。

2)预训练后，只需要添加一个额外的输出层进行fine-tune，就可以在各种各样的下游任务中取得state-of-the-art的表现。在这过程中并不需要对BERT进行任务特定的结构修改。

RoBERTa主要在三方面对之前提出的BERT做了该进，其一是模型的具体细节层面，改进了优化函数；其二是训练策略层面，改用了动态掩码的方式训练模型，证明了NSP训练策略的不足，采用了更大的batch size；其三是数据层面，一方面使用了更大的数据集，另一方面是使用BPE来处理文本数据。

ERNIE是基于BERT模型做的进一步优化，在中文的NLP任务上得到了state-of-the-art的结果。它主要的改进是在mask的机制上做了改进，它的mask不是基本的wordpiece的mask，而是在pretrainning阶段增加了外部的知识，由三种level的mask组成，分别是basic-level masking(word piece)+phrase level masking(WWM style)+entitylevelmasking。

PyTorch是一种用于构建深度学习模型的功能完备框架，是一种通常用于图像识别和语言处理等应用程序的机器学习。使用Python编写。PyTorch的独特之处在于，它完全支持GPU，并且使用反向模式自动微分技术，因此可以动态修改计算图形，是快速实验和原型设计的常用选择。

在一种可能的实现方式中，根据语料库对Bert模型、RoBERTa模型和Ernie模型分别进行训练，得到Bert模型的判断概率、RoBERTa模型的判断概率和Ernie模型的判断概率。

根据Bert模型、RoBERTa模型和Ernie模型，以及Bert模型的判断概率、RoBERTa模型的判断概率和Ernie模型的判断概率，得到用于车辆保险理赔的Pytorch模型，生成三组config.json pytorch_model.bin vocab.txt模型文件。

对这三组模型文件启动推理过程中，可以得到相关模型的判断概率。如果数据量越大，准确率提升明显。

步骤S40，接收用户输入的半结构化目标数据，将半结构化目标数据解析成Pytorch模型可识别的结构化目标数据；

其中，半结构化数据是用户输入的文本数据，例如：道路交通事故认定书(简易程序)，朱XX驾驶证，行车证(复印件)：XXXXXXXX，证明内容：认定朱XXX负全部责任，致伤两人，车损一辆。

结构化数据是梳理后的半结构化数据，对应《文本内容：文本关键字：文本标签》等三个字段的数据，例如：

文本内容：道路交通事故认定书(简易程序)，朱XX驾驶证，行车证(复印件)：XXXXXXXX，证明内容：认定朱XXX负全部责任，致伤两人，车损一辆；

关键字：交通事故、负全部责任；

标签：交通事故。

在一种可能的实现方式中，通过API接口接收半结构化目标数据，或者通过Web页面接收半结构化目标数据。

API接口主要用于批量的文本清洗，根据批量用户提交的半结构化目标数据，推理出批量的车险是否需要理赔。

Web页面主要用于提供Web服务，在线的文本清洗服务，通过Web页面接收用户提交的半结构化目标数据，推理出单一的车险是否需要理赔。

步骤S50，通过Pytorch模型对结构化目标数据进行识别，确定是否理赔。

在一种可能的实现方式中，提供批量或单次方式，通过Pytorch模型推理，提供车险理赔标签，作为保险理赔的判定标准。

在一种可能的实现方式中，Pytorch模型对结构化目标数据进行识别，得到Bert模型的判断概率、RoBERTa模型的判断概率和Ernie模型的判断概率。

对Bert模型的判断概率、RoBERTa模型的判断概率和Ernie模型的判断概率进行加权平均，确定是否理赔。

在一种可能的实现方式中，对Bert模型的判断概率、RoBERTa模型的判断概率和Ernie模型的判断概率进行Sigmoid平均，确定是否理赔。

sigmoid函数也叫Logistic函数，用于隐层神经元输出，取值范围为(0,1)，它可以将一个实数映射到(0,1)的区间，可以用来做二分类。在特征相差比较复杂或是相差不是特别大时效果比较好。Sigmoid函数为神经网络中的激励函数，是一种光滑且严格单调的饱和函数。

在数学，尤其是概率论和相关领域中，归一化指数函数，或称Softmax函数，是逻辑函数的一种推广。它能将一个含任意实数的K维向量z“压缩”到另一个K维实向量σ(z)中，使得每一个元素的范围都在(0,1)之间，并且所有元素的和为1。该函数多用于多分类问题中。

图2为本发明实施例提供的用于车辆保险理赔的文本清洗系统的结构示意图，如图2所示，本发明还提供了一种用于车辆保险理赔的文本清洗系统，用于执行任一上述的文本清洗方法，包括：

爬虫模块1，用于通过爬虫模块爬取外部数据，根据外部数据构建车辆保险理赔的知识库；

爬虫模块1就是通过编程向网络服务器请求数据(HTML表单)，然后解析HTML，提取出自己想要的数据。

语料库模块2，用于将知识库中的数据转换成指定格式，得到语料库；

NLP模型训练模块3，用于根据语料库对Bert模型、RoBERTa模型和Ernie模型分别进行训练，得到用于车辆保险理赔的Pytorch模型；

文本清洗模块4，用于接收用户输入的半结构化目标数据，将半结构化目标数据解析成Pytorch模型可识别的结构化目标数据；

判定模块5，用于通过Pytorch模型对结构化目标数据进行识别，确定是否理赔。

在一种可能的实现方式中，爬虫模块1还用于：通过爬虫模块爬取外部数据，并对外部数据进行清洗和转化。

在一种可能的实现方式中，语料库模块2还用于：提取知识库的文本内容中的关键字，并根据关键字确定文本内容的标签；

根据文本内容、关键字和标签，生成语料库。

在一种可能的实现方式中，NLP模型训练模块3还用于：根据语料库对Bert模型、RoBERTa模型和Ernie模型分别进行训练，得到Bert模型的判断概率、RoBERTa模型的判断概率和Ernie模型的判断概率；

根据Bert模型、RoBERTa模型和Ernie模型，以及Bert模型的判断概率、RoBERTa模型的判断概率和Ernie模型的判断概率，得到用于车辆保险理赔的Pytorch模型。

在一种可能的实现方式中，文本清洗模块4还用于：通过API接口接收半结构化目标数据。

在一种可能的实现方式中，文本清洗模块4还用于：通过Web页面接收半结构化目标数据

在一种可能的实现方式中，判定模块5还用于：Pytorch模型对结构化目标数据进行识别，得到Bert模型的判断概率、RoBERTa模型的判断概率和Ernie模型的判断概率；

在一种可能的实现方式中，判定模块5还用于：对Bert模型的判断概率、RoBERTa模型的判断概率和Ernie模型的判断概率进行Sigmoid平均，确定是否理赔。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种用于车辆保险理赔的文本清洗方法，其特征在于，包括：

2.根据权利要求1所述的文本清洗方法，其特征在于，所述S10包括：

3.根据权利要求1所述的文本清洗方法，其特征在于，所述S20包括：

4.根据权利要求1所述的文本清洗方法，其特征在于，所述S30包括：

根据所述语料库对所述Bert模型、所述RoBERTa模型和所述Ernie模型分别进行训练，得到所述Bert模型的判断概率、所述RoBERTa模型的判断概率和所述Ernie模型的判断概率；

根据所述Bert模型、所述RoBERTa模型和所述Ernie模型，以及所述Bert模型的判断概率、所述RoBERTa模型的判断概率和所述Ernie模型的判断概率，得到用于车辆保险理赔的Pytorch模型。

5.根据权利要求1所述的文本清洗方法，其特征在于，所述S40包括：

通过API接口接收所述半结构化目标数据。

6.根据权利要求1所述的文本清洗方法，其特征在于，所述S40包括：

通过Web页面接收所述半结构化目标数据。

7.根据权利要求4所述的文本清洗方法，其特征在于，所述S50包括：

8.根据权利要求7所述的文本清洗方法，其特征在于，所述S50包括：

9.根据权利要求7所述的文本清洗方法，其特征在于，所述判断概率包括全责概率、半责概率和无责概率。

10.一种用于车辆保险理赔的文本清洗系统，用于执行根据权利要求1-9任一所述的文本清洗方法，其特征在于，包括：