CN110276054B

CN110276054B - 一种保险文本结构化实现方法

Info

Publication number: CN110276054B
Application number: CN201910405167.9A
Authority: CN
Inventors: 肖国庆; 曾子豪; 周旭; 李肯立; 李克勤; 郑浩; 周晴宇
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2019-05-16
Filing date: 2019-05-16
Publication date: 2023-08-15
Anticipated expiration: 2039-05-16
Also published as: CN110276054A

Abstract

本发明提供了一种保险文本结构化实现方法，包括如下步骤：建立实体信息模板，所述实体信息模板包括不同类型保险文本的保障责任所含实体信息及实体类型标签；选取分隔位置将原始保险文本进行语义拆分，得到文本块；基于SVM的文本分类器对所述文本块进行分类，预测其所属的实体信息模板；基于条件随机场概率图模型对分类后的所述文本块进行序列标注，并根据所述文本块所属实体信息模板抽取实体信息，形成结构化数据；融合多个所述文本块的结构化数据，得到所述原始保险文本的结构化结果。本发明提供的保险文本结构化实现方法抽取保险文本中的结构化数据信息，可以简化保险文本的内容，实现保险文本的快速阅读。

Description

一种保险文本结构化实现方法

【技术领域】

本发明属于自然语言处理技术领域，特别涉及一种保险文本结构化实现方法。

【背景技术】

随着当前中国经济水平的发展和民众对保险产业认知的加深，使得保险产业在互联网效应的驱动下有了更进一步的发展。目前各大应用平台纷纷上线人寿保险、理财保险等相关保险产品，从保险购买者的角度出发，对于种类繁多的保险产品，投保人如何根据保险人的实际家庭经济状况和所需相关保障进行投保更大程度上取决于投保人对保险条款的理解和判断。但对于普通保险购买人来说，保险行业信息仍然存在着极大的不透明性，保险合同格式条款是由保险公司单方面商定、购买人并不参与定制的文本文件，且保险合同格式条款大多为长文本数据类型，并没有预定义的文字模板，文本内容多采用专业性语言和超长词汇进行描述。

相关技术中，主要以人工或基于规则的方式将保险条款的文本内容抽取展示，而不同险种文本内容各不相同，不同保险公司的保险产品中对于同一险种的保障责任描述方式也不一样。采用人工总结或者编写可匹配的正则表达式耗费了大量时间成本，且对于保险产品的覆盖面不够广泛，他们大多数只提取了赔付计算公式，对于保险文本中描述可能发生理赔的条件没有细化解析。

文本信息结构化的目的是利用中文分词、词性标注、命名实体识别等自然语言处理技术对非结构化文本的分析和处理，抽取文本内容中的结构化数据信息。不同类型的文本由于格式的不同，从其中要获取的结构化数据信息往往也是不同的，现有技术中针对不同类型的文本需要定义不同的方法和不同的程序，不能依靠同一套方法来实现不同类型文本的结构化。

因此，实有必要提供一种保险文本结构化实现方法以解决上述问题。

【发明内容】

本发明的目的在于提供一种保险文本结构化实现方法以解决现有技术中采用人工或基于规则的方式将保险条款的文本内容抽取展示，所造成的效率低下的问题。

本发明提供一种保险文本结构化实现方法，包括如下步骤：

S1：建立实体信息模板，所述实体信息模板包括不同类型保险文本的保障责任所含实体信息及实体类型标签；

S2：选取分隔位置将原始保险文本进行语义拆分，得到文本块；

S3：基于SVM的文本分类器对所述文本块进行分类，预测其所属的实体信息模板；

S4：基于条件随机场概率图模型对分类后的所述文本块进行序列标注，并根据所述文本块所属实体信息模板抽取实体信息，形成结构化数据；

S5：融合多个所述文本块的结构化数据，得到所述原始保险文本的结构化结果。

优选的，所述保险文本的类型包括人寿、意外、疾病、医疗和理财中的一种或多种。

优选的，所述步骤S2包括如下步骤：

S21：以分号及句号位置为潜在分割点，将所述原始保险文本拆分为多个文本块；

S22：遍历每个所述潜在分割点，计算每个所述潜在分割点的相似值；

S23：选取相似值高于给定阈值的潜在分割点作为所述原始保险文本的分隔位置。

优选的，所述步骤S22具体为：

自所述潜在分割点向左侧连续取m(m≥1)个文本块，形成第一文本，自所述潜在分割点P向右侧连续取n(n≥1)个文本块，形成第二文本，计算所述第一文本和所述第二文本的相似度；

调节m、n的值，得到第一文本和第二文本的相似度序列，取所述相似度序列中的最大值作为所述潜在分割点的相似值。

优选的，所述步骤S3包括如下步骤：

S31：抽取大量文本块样本作为分类训练样本，给出其所属的实体类别标签，生成类别集合；

S32：利用开源的中文分词工具对所述文本块进行分词，统计所述文本块中每个词在所述分类训练文本中出现的频数，去除频数小于某一阈值的词，生成分类训练样本词集；

S33：基于卡方统计，筛选出卡方值高于给定阈值的词作为文本特征词；

S34：以所述文档特征词在所述文本块中出现的频数作为特征值，对特征值进行归一化处理后生成特征向量，并采用支持向量机算法，预测所述原始保险文本类别。

优选的，所述支持向量机算法包括如下步骤：

S10：建立模型，选取所述分类训练样本中某一类别作为正类，其他类别作为负类，构造一个二分类器；

S20：重复步骤S10，依次另选一类为正类，其他类为负类，构建新的二分类模型，直至遍历完所有类别；

S30：输入所述文本块的词序列，利用每个二分类模型测试，取最大值作为分类结果，得到所述原始保险文本的类别。

与相关技术相比，本发明提供的保险文本结构化实现方法，采用建立实体信息模板后，将原始保险文本进行语义拆分，得到文本块，对所述文本块进行分类后，预测其所所属的实体信息模板，并对分类后的所述文本块进行序列标注，并抽取实体信息，形成结构化数据，将多个所述文本块的结构化数据进行融合，得到所述原始保险文本的结构化结果，使得所述原始保险文本的条款以更加直观、易理解且可对比的方式展示给保险购买人，方便保险购买人理解阅读。

【附图说明】

图1为本发明提供的保险文本结构化实现方法的步骤图；

图2为图1所示的步骤S2的步骤图；

图3为图1所示的步骤S3的步骤图；

图4为图3所示的支持向量机算法的步骤图；

图5为实施方式中文本块的实体信息抽取结果图；

图6为原始保险文本的结构化数据图。

【具体实施方式】

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

请结合参阅图1至图6，本发明提供一种保险条款文本结构化的实现方法，其包括如下步骤：

S1：建立实体信息模板，所述实体信息模板包括不同类型保险文本的保障责任所含实体信息及实体类型标签。

可以理解的是，不同类型保险文本的保障责任描述文本内容各不相同，在本实施方式中，将保险文本类型分为人寿、意外、疾病、医疗和理财五大类，并针对每一类别定义其需要抽取的实体信息，给每一实体信息打上实体类型标签，以供后续进行序列标注时使用。例如：

人寿类保险文本需要抽取的实体信息有：结果、原因、有效期间、年龄上限、年龄下限、结果发生时间、赔付额等；

疾病类保险文本需要抽取的实体信息有：结果、原因、有效期间、认可医生、确诊次数、组别数量、赔付额等；

理财类保险文本需要抽取的实体信息有：结果、领取时间、截至时间、赔付额等；

意外类保险文本需要抽取的实体信息有：结果、原因、地点、交通工具、身份、赔付额等；

医疗类保险文本需要抽取的实体信息有：结果、原因、诊疗次数、医疗机构、就诊时间、赔付额等。

当然，需要说明的是，本实施方式并非限定保险文本类型仅仅为上述五大类，也并非限定不同类型保险文本的具体实体信息，所述保险文本的类型和不同保险类型的实体信息还可以根据实际情况进行调整。

S2：选取分隔位置将原始保险文本进行语义拆分，得到文本块。

由于所述原始保险文本需要描述不同赔付条件下的不同赔付情况，且各赔付条件之间存在层级关系，为了便于后续处理以及达到高准确率的结构化结果，需要先将所述原始保险文本拆分成若干语义上独立的短句，且各个短句为并列关系，句式结构相似。

具体的，所述步骤S2包括如下步骤：

S21：以分号及句号位置为潜在分割点，将所述原始保险文本拆分为多个文本块。

可以理解的是，在汉语文字中分号主要用以分隔存在一定关系(并列、转折、承接、因果等，通常以并列关系居多)的两句分句或用来分隔作为列举分项出现的并列短语；句号表示一句话的结束。采用分号和句号作为潜在分隔点，可以较大程度上的保持多个所述文本块在语义及逻辑上的独立性。

S22：遍历每个所述潜在分割点，计算每个所述潜在分割点的相似值。

具体的，给定窗口大小L，L为文本块数量，遍历每个所述潜在分割点。具体的，对于任一个所述潜在分割点P，自所述潜在分割点P向左侧连续取m(1≤m≤L)个文本块，形成第一文本，自所述潜在分割点P向右侧连续取n(1≤n≤L)个文本块，形成第二文本，计算所述第一文本和所述第二文本的相似度，其中，所述第一文本和所述第二文本的相似度计算采用本领域的常规算法即可，如：基于词向量的算法(余弦相似度/曼哈顿距离/欧几里得距离/明式距离)、基于字符的算法(编辑距离/simhash/共有字符数)、基于概率统计的算法(杰卡德相似系数)和基于词嵌入模型的算法(word2vec/doc2vec)等。

可以理解的是，随着m、n取值的不同，所获得的第一文本和所述第二文本的长度不同，所计算出的第一文本和所述第二文本的相似度也不相同。调节m、n的值，得到第一文本和第二文本的相似度序列，取所述相似度序列中的最大值作为所述潜在分割点的相似值。

需要说明的是，本实施方式中针对的是汉语语言中采用从左往右的书写方式，在其他语言形式的保险文本中，所述第一文本还可以自所述潜在分割点向右侧或向下方或向上方连续取m个文本块形成；所述第二文本还可以自所述潜在分割点向左侧或向上方或向下方连续取n个文本块形成。

所述给定阈值可以根据实际情况进行给定，本发明对此不做限制。

具体的，给定保险文本“被保险人于本合同生效之日起一年后因疾病身故，本公司按本合同基本保险金额给付身故保险金，本合同终止。被保险人于本合同生效之日起一年内因疾病身故，本公司按以下二者之和给付身故全残保险金，本合同终止。a.本合同现金价值；b.已交保险费。”

根据步骤S21-S23将上述保险文本分为如下两个文本块：

(1)被保险人于本合同生效之日起一年后因疾病身故，本公司按本合同基本保险金额给付身故保险金，本合同终止。

(2)被保险人于本合同生效之日起一年内因疾病身故，本公司按以下二者之和给付身故保险金，本合同终止。a.本合同现金价值；b.已交保险费。

S3：基于SVM的文本分类器对所述文本块进行分类，预测其所属的实体信息模板。

具体的，所述步骤S3包括如下步骤：

S31：抽取大量文本块样本作为分类训练样本，给出其所属的实体类别标签，生成类别集合。

具体的，所述类型集合C＝{c₁,c₂,...,c_i,...c_n}，其中c_i为实体类别标签，n为总类别数量。

S32：利用开源的中文分词工具对所述文本块进行分词，统计所述文本块中每个词在所述分类训练文本中出现的频数，去除频数小于某一阈值的词，生成分类训练样本词集。

具体的，在本实施方式中，采用jieba分词工具所述文本块进行分词，将所述文本块转换为词序列；统计所述文本块中每个词出现的频数，过滤频数较低的词，并去除“若”、“并且”、“而”等停用词。

S33：基于卡方统计，筛选出卡方值高于给定阈值的词作为文本特征词。

具体的，计算所述分类训练样本词集W中每个词w_j与所述实体类别标签c_i的CHI值，取CHI值的最大值作为衡量指标，筛选出高于给定阈值的词作为文档特征词。

其中，CHI值计算如下：

其中，N表示所述分类训练样本W中所述文本块样本的总数，X表示属于ci类且包含词wj的文本块样本频数，Y表示不属于c_i类但包含词w_j的文本块样本频数，Z表示属于c_i类但不包含词w_j的文本块样本频数，A表示既不属于c_i类也不包含词wj的文本块样本频数。

具体的，对于所述原始保险文本，以文本特征词在文本块中出现的频数作为特征值，对特征值进行归一化处理后生成特征向量x＝[t₁,t₂,…,t_k,…,t_m]，其中t_k为编号为k的词的特征值，m为文本特征个数。得到文本特征向量后，采用支持向量机算法，预测保险文本类别。

具体的，所述支持向量机算法的过程如下：

S10：建立模型，选取所述分类训练样本中某一类别作为正类，其他类别作为负类，构造一个二分类器。

训练样本为T＝{(t₁₁,…,t_1m,y₁),(t₂₁,…,t_2m,y₂),…,(t_s1,…,t_sm,y_s)}，其中t_sm是第s个文本块样本中编号为m的词的特征值，y₁-y_s是s个文本块样本的标签值，正类为1，负类为-1。构造一个最大几何间隔分离超平面w^Tx+b＝0将两类数据划分，其中w为超平面法向量，目标函数如下所示：

根据上述函数，采用优化计算包求解出w，b的值，得到当前的分类模型并保存。

S20：重复步骤S10，依次另选一类为正类，其他类为负类，构建新的二分类模型，直至遍历完所有类别。

S4：基于条件随机场概率图模型对分类后的所述文本块进行序列标注，并根据所述文本块所属实体信息模板抽取实体信息，形成结构化数据。

具体的，采用条件随机场模型输入序列为所述文本块的词和词性的线性序列，输出序列为标记序列。对于分类后的所述文本块，可直接获取其实体信息模板对应的类型标签的集合，结合“BMES”标注体系，将每一类型标签名拼接B、M、E、S构成逐个标记。其中，B表示当前词位于实体首部，M表示当前词位于实体中间位置，E表示当前词位于实体尾部，S表示单个词构成实体，以及采用OUT标记表示当前词不属于任何实体信息。设P(Y|X)为线性链条件随机场，在随机变量X取值为某个词x的条件下，随机变量Y被标记为y的条件概率具有如下形式：

其中

上述表达式中，t_k和s_t为特征函数，λ_k和μ_l是对应的权值。Z(x)是规范化因子，求和是在所有可能的输出序列上进行的。训练好模型后，对于给定的文本块序列x，求出条件概率P(y|x)最大的输出标记序列y。最后根据输出的标记序列进行解码，提取其对应信息模板的实体内容，得到所述文本块的实体信息。

本实施例利用条件随机场模型进行命名实体识别，并且选择CRF++作为CRF实现工具，分别对每一类别的文本块单独训练一个模型，每个模型的输入文件包括训练语料及特征模板文件。其中训练语料有三列，第一列为词，第二列为词性，第三列为实体标记，不同文本块使用空行间隔，格式如下表所示：

#SENT_BEG#	begin	OUT
			若	c	OUT
被保险人	nz	OUT
			身故	vn	RS_S
时	qt	OUT
			未满	nz	OUT
18	m	AGH_B
			周岁	q	AGH_E
，	w	OUT
			…	…	…

训练好模型后，将保险短文本进行中文分词及词性标注转换为CRF++需要的测试文件格式利用模型预测其输出标记序列，最后对标记序列根据“BMES”标签体系提供的位置信息以及该保险短文本所属实体模板类别进行解码，形成结构化数据信息。例如上表中“身故”为“结果”这一实体信息的内容信息，“18周岁”为“年龄上限”这一实体信息的内容信息。

步骤5：融合多个所述文本块的结构化数据，得到所述原始保险文本的结构化结果。

对于任一短文本结构化结果可视为一个实体节点序列，预定义其实体节点顺序，使得后一实体类型节点为前一实体类型节点的子节点，即构成一颗除叶子节点外每一实体类型节点只有单一子节点的结构化树。由于本发明目的在于整段保险描述文本信息结构化，因此需将整段保险描述文本的多个短文本结构化结果合并为一颗结构化树，其合并策略为：从根节点往下，只对比相同实体类型的节点；对于实体类型相同的节点，若实体内容信息也相同且子树完全相同，则直接合并为一条分支；对于实体类型相同的节点，若其子节点不同，则新增一条分支。

上述举例中的保险文本两个短句实体信息抽取结果如图5所示，将crf模型识别出的多个实体信息转换为实体节点序列，根据预定义的实体类型顺序排序，最终将各个短句的实体节点序列合并为树形结构，形成所述原始保险文本的结构化结果，结果如图6所示。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种保险文本结构化实现方法，其特征在于，包括如下步骤：

S5：融合多个所述文本块的结构化数据，得到所述原始保险文本的结构化结果，

所述步骤S2包括如下步骤：

S22：遍历每个所述潜在分割点，根据相似度算法计算每个所述潜在分割点的相似值；

S23：选取相似值高于给定阈值的潜在分割点作为所述原始保险文本的分隔位置，

所述步骤S22具体为：

自所述潜在分割点向左侧连续取m个文本块，形成第一文本，自所述潜在分割点P向右侧连续取n个文本块，形成第二文本，计算所述第一文本和所述第二文本的相似度，其中，m≥1，n≥1；

2.根据权利要求1所述的方法，其特征在于，所述保险文本的类型包括人寿、意外、疾病、医疗和理财中的一种或多种。

3.根据权利要求1所述的方法，其特征在于，所述步骤S3包括如下步骤：

S34：以所述文本特征词在所述文本块中出现的频数作为特征值，对特征值进行归一化处理后生成特征向量，并采用支持向量机算法，预测所述原始保险文本类别。

4.根据权利要求3所述的方法，其特征在于，所述支持向量机算法包括如下步骤：