CN112270604A

CN112270604A - 信息结构化处理方法、装置及计算机可读存储介质

Info

Publication number: CN112270604A
Application number: CN202011100234.5A
Authority: CN
Inventors: 吴凡
Original assignee: China Merchants Bank Co Ltd
Current assignee: China Merchants Bank Co Ltd
Priority date: 2020-10-14
Filing date: 2020-10-14
Publication date: 2021-01-26
Anticipated expiration: 2040-10-14
Also published as: CN112270604B

Abstract

本发明公开了一种信息结构化处理方法。该信息结构化处理方法包括：获取待处理保险条款文档，将所述待处理保险条款文档输入至预先训练好的位置标注模型，得到位置标注结果；根据所述位置标注结果对所述待处理保险条款文档进行截取，得到目标保险条款内容；利用预先训练好的标签标注模型对所述目标保险条款内容进行标签标注，得到标签标注结果，所述标签标注结果包括目标标注标签及其对应的原始信息；对所述原始信息进行结构化处理，得到各目标标注标签对应的目标信息。本发明还公开了一种信息结构化处理装置及计算机可读存储介质。本发明能够实现保险条款信息的结构化处理、以便于保险条款的阅读和信息录入。

Description

信息结构化处理方法、装置及计算机可读存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种信息结构化处理方法、装置及计算机可读存储介质。

背景技术

保险条款是保险公司与投保人关于保险权利义务的约定，是保险合同的核心内容。保险合同是一种定式合同，一般而言，条款由保险公司单方面制订，具有内容复杂、专业性强和非结构化的特点。因此，保险购买者在阅读时，或保险经纪人在录入保险条款信息时，往往难以找寻到保险产品的关键信息，如保险责任给付的条件、结果、限制等。因此，如何实现保险条款信息的结构化处理、以便于保险条款的阅读和信息录入，是目前亟需解决的技术问题。

发明内容

本发明的主要目的在于提供一种信息结构化处理方法、装置及计算机可读存储介质，旨在实现保险条款信息的结构化处理、以便于保险条款的阅读和信息录入。

为实现上述目的，本发明提供一种信息结构化处理方法，所述信息结构化处理方法包括：

获取待处理保险条款文档，将所述待处理保险条款文档输入至预先训练好的位置标注模型，得到位置标注结果；

根据所述位置标注结果对所述待处理保险条款文档进行截取，得到目标保险条款内容；

利用预先训练好的标签标注模型对所述目标保险条款内容进行标签标注，得到标签标注结果，所述标签标注结果包括目标标注标签及其对应的原始信息；

对所述原始信息进行结构化处理，得到各目标标注标签对应的目标信息。

可选地，所述利用预先训练好的标签标注模型对所述目标保险条款内容进行标签标注，得到标签标注结果的步骤之前，还包括：

获取第一训练样本集，所述第一训练样本集包括保险条款内容样本、真实标注标签及其真实信息，其中，所述真实标注标签及其真实信息是基于预设语料库标注得到的；

通过所述第一训练样本集对预设标签标注模型进行训练，得到训练好的标签标注模型。

可选地，所述预设标签标注模型包括信息抽取层和分类层；

所述通过所述第一训练样本集对预设标签标注模型进行训练，得到训练好的标签标注模型的步骤包括：

将所述保险条款内容样本输入至所述信息抽取层进行信息抽取，得到各保险条款内容样本对应的特征信息；

将所述特征信息转换为特征向量，将所述特征向量输入至所述分类层中，得到预测标注标签，并根据所述预测标注标签和所述特征信息确定出对应的预测信息；

根据所述预测标注标签、所述预测信息、所述保险条款内容样本的真实标注标签及其真实信息，计算得到损失值；

根据所述损失值通过梯度下降算法对预设标签标注模型的参数进行更新,并基于所述第一训练样本集进行迭代训练，得到训练好的标签标注模型。

可选地，所述信息结构化处理方法还包括：

获取保险条款样本文档，按产品名称对所述保险条款样本文档进行分类；

对分类后的保险条款样本文档的各部分保险条款内容进行聚类分析，得到聚类结果；

根据所述聚类结果对各类保险条款内容进行标签标注，得到预设标签，并对各类保险条款内容中所述预设标签对应的值进行统计分析，得到值特征；

根据所述预设标签和所述值特征，构建得到所述预设语料库。

可选地，所述根据所述聚类结果对各类保险条款内容进行标签标注，得到预设标签的步骤包括：

根据所述聚类结果对各类保险条款内容进行标签标注，得到初始标签；

根据所述初始标签对应的产品类型对所述初始标签进行统计，根据统计结果对所述初始标签进行聚类和去重处理，以得到预设标签。

可选地，所述将所述待处理保险条款文档输入至预先训练好的位置标注模型，得到位置标注结果的步骤之前，还包括：

获取第二训练样本集，所述第二训练样本集包括保险条款样本文档及各部分保险条款内容的标注框；

通过所述第二训练样本集对预设位置标注模型进行训练，得到训练好的位置标注模型。

检测所述目标保险条款内容中是否存在表格；

若存在，则获取所述目标保险条款内容中表格的行列信息和维度；

若表格的维度为一维，则根据第一预设表达式对所述行列信息进行连接处理，得到处理后的目标保险条款内容；

若表格的维度为多维，则根据第二预设表达式对所述行列信息进行连接处理，得到处理后的目标保险条款内容；

所述利用预先训练好的标签标注模型对所述目标保险条款内容进行标签标注，得到标签标注结果的步骤包括：

利用预先训练好的标签标注模型对所述处理后的目标保险条款内容进行标签标注，得到标签标注结果。

检测所述待处理保险条款文档的格式是否为预设文档格式；

若不为预设文档格式，则对所述待处理保险条款文档进行格式转换，得到格式转换后的待处理保险条款文档；

所述将所述待处理保险条款文档输入至预先训练好的位置标注模型，得到位置标注结果的步骤包括：

将所述格式转换后的待处理保险条款文档输入至预先训练好的位置标注模型，得到位置标注结果；

所述根据所述位置标注结果对所述待处理保险条款文档进行截取，得到目标保险条款内容的步骤包括：

根据所述位置标注结果对所述格式转换后的待处理保险条款文档进行截取，得到目标保险条款内容。

此外，为实现上述目的，本发明还提供一种信息结构化处理装置，所述信息结构化处理装置包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的信息结构化处理程序，所述信息结构化处理程序被所述处理器执行时实现如上所述的信息结构化处理方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有信息结构化处理程序，所述信息结构化处理程序被处理器执行时实现如上所述的信息结构化处理方法的步骤。

本发明提供一种信息结构化处理方法、装置及计算机可读存储介质，通过获取待处理保险条款文档，将待处理保险条款文档输入至预先训练好的位置标注模型，得到位置标注结果；然后，根据位置标注结果对待处理保险条款文档进行截取，得到目标保险条款内容；再利用预先训练好的标签标注模型对目标保险条款内容进行标签标注，得到标签标注结果，标签标注结果包括目标标注标签及其对应的原始信息；进而对原始信息进行结构化处理，得到各目标标注标签对应的目标信息。通过上述方式，可通过标签的方式对非结构化的保险条款信息自动进行结构化处理，从而将保险条款标签化和结构化，相比于现有技术中通过人工进行处理，可大大提高处理效率和准确率，同时可便于用户快速阅读保险条款，或便于工作人员对保险条款的信息进行录入。

附图说明

图1为本发明实施例方案涉及的硬件运行环境的终端结构示意图；

图2为本发明信息结构化处理方法第一实施例的流程示意图；

图3为本发明信息结构化处理方法第二实施例的流程示意图；

图4为本发明信息结构化处理方法第三实施例的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明实施例方案涉及的硬件运行环境的终端结构示意图。

本发明实施例终端可以是PC(personal computer，个人计算机)，也可以是平板电脑、便携计算机、服务器等终端设备。

如图1所示，该终端可以包括：处理器1001，例如CPU(Central Processing Unit，中央处理器)，通信总线1002，用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真Wireless-Fidelity，Wi-Fi接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatilememory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块以及信息结构化处理程序。

在图1所示的终端中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的信息结构化处理程序，并执行以下操作：

进一步地，处理器1001可以调用存储器1005中存储的信息结构化处理程序，还执行以下操作：

进一步地，所述预设标签标注模型包括信息抽取层和分类层，处理器1001可以调用存储器1005中存储的信息结构化处理程序，还执行以下操作：

检测所述目标保险条款内容中是否存在表格；

检测所述待处理保险条款文档的格式是否为预设文档格式；

基于上述硬件结构，提出本发明信息结构化处理方法各个实施例。

本发明提供一种信息结构化处理方法。

参照图2，图2为本发明信息结构化处理方法第一实施例的流程示意图。

在本实施例中，该信息结构化处理方法包括：

步骤S10，获取待处理保险条款文档，将所述待处理保险条款文档输入至预先训练好的位置标注模型，得到位置标注结果；

本发明实施例的终端可以是PC(personal computer，个人计算机)，也可以是平板电脑、便携计算机、服务器等终端设备。本实施例中以服务器为例进行说明。

在本实施例中，先获取待处理保险条款文档，将待处理保险条款文档输入至预先训练好的位置标注模型，得到位置标注结果。其中，位置标注模型用于对待处理保险条款文档中的各部分保险条款内容(如保险条款基本信息、责任基本信息等部分，当然可实际需要进行细分)的位置进行标注，从而有助于后续对各部分保险条款内容进行截图，以缩小保险条款的处理范围，可提高处理效率，同时可避免无用部分的干扰，从而可在一定程度上提高处理的准确率。位置标注模型的训练过程可参照下述第四实施例，此处不作赘述。

步骤S20，根据所述位置标注结果对所述待处理保险条款文档进行截取，得到目标保险条款内容；

然后，根据位置标注结果对待处理保险条款文档进行截取，得到目标保险条款内容。即，截取出后续需进行结构化处理的信息所在部分，以便于后续进行标签标注和结构化处理，如保险条款的重要信息主要包括保险的基本信息(如文件名称、保险公司全称、产品名称、设计类型、责任所在页数及位置)、责任给付信息(如责任基本信息、责任给付条件和责任给付公式等)、限定类信息及一些其他特殊信息(如分红信息)等。

步骤S30，利用预先训练好的标签标注模型对所述目标保险条款内容进行标签标注，得到标签标注结果，所述标签标注结果包括目标标注标签及其对应的原始信息；

在从待处理保险条款文档进行截取得到目标保险条款内容之后，利用预先训练好的标签标注模型对目标保险条款内容进行标签标注，得到标签标注结果，其中，标签标注结果包括目标标注标签及其对应的原始信息，原始信息即为目标标注标签所对应的值。标签标注模型的训练过程可参照下述第二实施例。

作为其中一种标签标注方式，可预先训练得到一个可用于对各种标签进行识别标注的标签标注模型，然后，将目标保险条款内容输入至该标签标注模型，即可得到标签标注结果。

作为另一种标签标注方式，可预先训练得到多个标签标注模型，各标签标注模型分别针对不同类型的保险条款内容，以用于对不同类型的保险条款内容进行标注，然后，根据目标保险条款内容所属的类型，将各类型的目标保险条款内容分别输入至对应的标签标注模型中，以得到标签标注结果。相比于上述标签标注方式，本实施方式可使得各类型的目标保险条款内容并列处理，可提高处理效率，且标签标注模型是针对各类型的保险条款内容训练得到的，其处理更具针对性，从而可提高处理结果的准确性。

此处，需要说明的是，目标标注标签可分为保险条款基本信息、责任基本信息、责任的详细解析、比例系数、限制类标签、其他标签、年金类标签、万能或投连标签、分红产品标签、疾病类标签、医疗类标签、医疗费用类标签、医疗津贴类、失能类标签、持续奖金、养老保障委托标签等17个大类，各大类中又有具体的细化标签，如，保险条款基本信息中又可以包括文件名称、保险公司全称、产品名称、设计类型、责任所在页数及位置这5个细化标签，责任基本信息中可以包括责任名称、责任分层一、责任分层二、责任条款概述这4个细化标签，责任的详细解析可以包括等待期、责任条件给付文字描述、责任给付公式、与本合同的责任关联的描述、与其它合同的责任关联的描述这5个细化标签，限制类标签可以包括给付形式、给付次数限制、给付期限上限、同一次事故间隔、给付限制描述、给付金额限制这6个细化标签，其他标签可以包括可选责任核心词、保单贷款比例、常见词复杂情形、保证续保期间、无理赔优惠这5个细化标签，年金类标签可以包括起始领取年龄、终止领取年龄、转换年金选择权、年金进入万能账户、年金保证给付这5个细化标签，万能或投连标签可以包括初始费用、风险保险费、保单管理费、买入卖出差价、最低保证利率这5个细化标签，分红产品标签可以包括分红信息位置、分红模式、红利用途这3个细化标签，疾病类标签可以包括疾病种类、疾病分组这2个细化标签，医疗类标签可以包括责任延续日数这1个细化标签、医疗费用类标签可以包括免赔额这1个细化标签、医疗津贴类可以包括免赔期、每日给付津贴、每次给付津贴基数、投保分数这4个细化标签、失能类标签可以包括再次失能、失能状态改变这2个细化标签、持续奖金可以包括持续奖金条件描述、持续奖金给付描述这2个细化标签。当然，可以理解，各细化标签下也可适当设置其他子标签。上述标识标签的设定是基于对现有的保险条款信息进行识别处理及统计分析等过程确定得到的，可以涵盖保险条款的各种重要信息。

步骤S40，对所述原始信息进行结构化处理，得到各目标标注标签对应的目标信息。

最后，对原始信息进行结构化处理，即以统一的格式进行表示，以得到各目标标注标签对应的目标信息，从而使得待处理保险条款文档最终以目标标注标签及目标信息的结构化方式进行输出，便于用户阅读保险条款，或便于工作人员对保险条款的信息进行录入。

在进行结构化处理时，可基于预先构建的语料库进行处理，预设语料库中规定了各标注标签对应值的标准化表达，包括单位的统一表达、字符的统一表达、用词的标准化表达、公式表达等。例如，对于单位而言，期限单位统一为d、m、y，分别代表天(日)、月、年；对于字符而言，可以包括符合的表达、中英文字符的统一表达，公式符号统一为：max、min、+、-、*、/，中英文字符统一为修改为对应的中文全称或英文缩写；对于用词而言，统一采用标准化的表达方式；对于公式表达而言，一方面也是公式符号和用词的表达，另一方面在于各类型公式形式上的表达，如“第五个保险合同周年日与满六十五岁的首个保险合同周年日较大者”这一表述，可用公式表达为“max(投保年龄+5，65)”，再如，“自首个保单周年日起”这一表述，可用公式表达为“投保年龄+1”。再例如，对于责任给付公式的表达，可按照上述公式符号的统一规定及句意分析转换得到，例如，责任给付部分的文字描述为“本公司按本合同约定的意外伤害保险金额扣除已给付伤残保险金后的余额给付身故保险金，本合同终止。”，则可转换得到责任给付公式为“意外伤害保险金额-已付保险金额”。

再例如，责任给付条件描述为“自本合同第四个年生效对应日起,若被保险人生存至本合同的年生效对应日”、责任给付公式描述为“本公司每年按下列规定给付关爱年金://关爱年金＝基本保险金额*交费期间(年数)*1％*[1+3％*(本合同已经过保单年度数-3)]时，可得到初步的保险责任给付公式：基本保险金额*交费期间(年数)*1％*[1+3％*(本合同已经过保单年度数-3)]，然后，对其中的用词进行标准化的表达，从而得到标准的保险责任给付公式为：基本保险金额*交费期间*1％*[1+3％*(保单年度数-3)]。

再例如，责任给付条件描述为“被保险人生存至年满七十五周岁的年生效对应日”、责任给付公式描述为“本公司按下列规定给付满期保险金，本合同终止。//满期保险金＝基本保险金额×交费期间(年数)”时，可得到初步的保险责任给付公式：基本保险金额*交费期间(年数)，然后，对其中的用词进行标准化的表达，从而得到标准的保险责任给付公式为：基本保险金额*交费期间。

进一步地，在得到待处理保险条款文档的目标标注标签及其目标信息之后，可将其应用于智能保单管理、客户持有保险产品的性价比分析、客户保障缺口分析、智能问答、知识图谱等场景。

本发明实施例提供一种信息结构化处理方法，通过获取待处理保险条款文档，将待处理保险条款文档输入至预先训练好的位置标注模型，得到位置标注结果；然后，根据位置标注结果对待处理保险条款文档进行截取，得到目标保险条款内容；再利用预先训练好的标签标注模型对目标保险条款内容进行标签标注，得到标签标注结果，标签标注结果包括目标标注标签及其对应的原始信息；进而对原始信息进行结构化处理，得到各目标标注标签对应的目标信息。通过上述方式，可通过标签的方式对非结构化的保险条款信息自动进行结构化处理，从而将保险条款标签化和结构化，相比于现有技术中通过人工进行处理，可大大提高处理效率和准确率，同时可便于用户快速阅读保险条款，或便于工作人员对保险条款的信息进行录入。

进一步地，基于上述第一实施例，提出本发明信息结构化处理方法的第二实施例。参照图3，图3为本发明信息结构化处理方法第二实施例的流程示意图。

在本实施例中，在上述步骤S30之前，该信息结构化处理方法还包括：

步骤S50，获取第一训练样本集，所述第一训练样本集包括保险条款内容样本、真实标注标签及其真实信息，其中，所述真实标注标签及其真实信息是基于预设语料库标注得到的；

在本实施例中，提供了标签标注模型的获取过程，具体如下：

先获取第一训练样本集，第一训练样本集包括保险条款内容样本、真实标注标签及其真实信息，其中，真实标注标签及其真实信息是基于预设语料库标注得到的，真实标注标签为基于预设语料库中的预设标签，人工判断保险条款内容样本中的文字所属的标签，进而标注得到的，真实信息为保险条款内容样本中，真实标注标签所对应的值。预设语料库的构建方式可参照下述第三实施例。

步骤S60，通过所述第一训练样本集对预设标签标注模型进行训练，得到训练好的标签标注模型。

然后，通过第一训练样本集对预设标签标注模型进行训练，得到训练好的标签标注模型。其中，预设标签标注模型可以包括一个或多个，当包括一个时，直接将第一训练样本集输入至该预设标签标注模型中进行迭代训练。当包括多个时，则可根据保险条款内容样本按类型分别输入至各个预设标签标注模型中进行迭代训练，以得到用于不同类型保险条款内容样本的标签标注的标签标注模型。

具体的，所述预设标签标注模型包括信息抽取层和分类层，步骤S60包括：

步骤a61，将所述保险条款内容样本输入至所述信息抽取层进行信息抽取，得到各保险条款内容样本对应的特征信息；

步骤a62，将所述特征信息转换为特征向量，将所述特征向量输入至所述分类层中，得到预测标注标签，并根据所述预测标注标签和所述特征信息确定出对应的预测信息；

步骤a63，根据所述预测标注标签、所述预测信息、所述保险条款内容样本的真实标注标签及其真实信息，计算得到损失值；

步骤a64，根据所述损失值通过梯度下降算法对预设标签标注模型的参数进行更新,并基于所述第一训练样本集进行迭代训练，得到训练好的标签标注模型。

本实施例中，标签标注模型包括信息抽取层和分类层，其中，信息抽取层用于特征信息的抽取，分类层用于对特征信息进行分类、以确定各个词或各个句子所对应的标签。标签标注模型的训练过程如下：

先将保险条款内容样本输入至信息抽取层进行信息抽取，得到各保险条款内容样本对应的特征信息，其中，特征信息可以包括但不限于词性信息(主谓宾信息)、实体信息(实体名称)、位置信息(在整个句子中的位置信息)、词向量、句向量等。各种特征的抽取可采用对应的模块进行抽取，可根据实际需要进行构建得到信息抽取层。

然后，将特征信息转换为特征向量，将特征向量输入至分类层中，得到初步得到的标注标签，记为预测标注标签，进而根据预测标注标签和特征信息确定出对应的预测信息，其中，预测信息即为预测标注标签所对应的预测值。在确定预测信息时，可以根据预设语料库中预设值所对应的值特征，与提取得到的特征信息进行匹配得到。

在得到预测标注标签和对应的预测信息之后，根据预测标注标签、预测信息、保险条款内容样本的真实标注标签及其真实信息，计算得到损失值。具体的，可先根据预测标注标签与真实标注标签计算得到第一损失值，然后根据预测信息和真实信息计算得到第二损失值，将第一损失值与第二损失值进行加和，即可得到最终的损失值。其中，第一损失值和第二损失值的计算，可以采用均方误差(Mean Square Error，MSE)、平均绝对误差(MeanAbsolute Error，MAE)、多分类SVM损失(Hinge Loss)函数、交叉熵损失函数等损失函数计算得到。

最后，根据损失值通过梯度下降算法对预设标签标注模型的参数进行更新,并基于第一训练样本集进行迭代训练，即根据总损失来更新标签标注模型中各层结点的梯度，进而更新各结点的权值参数，重复上述步骤a61至步骤a63，不断迭代直至网络收敛，即总损失稳定下降到一个较小范围(低于预设阈值或达到最小值)，此时，可得到训练好的标签标注模型。通过梯度下降算法可求解大规模样本数据的优化问题，具体的梯度下降算法可参照现有技术，此处不做赘述。

本实施例中，通过预先训练标签标注模型，以用于对各类型的保险条款内容中所包含的标签及其值(原始信息)进行标注，进而对原始信息进行结构化处理，得到待处理保险条款文档对应的目标标注标签及其目标信息，以将保险条款标签化和结构化，便于用户快速阅读保险条款，或便于工作人员对保险条款的信息进行录入。

进一步地，基于上述第二实施例，提出本发明信息结构化处理方法的第三实施例。参照图4，图4为本发明信息结构化处理方法第三实施例的流程示意图。

在本实施例中，在步骤S50之前，该信息结构化处理方法还包括：

步骤S70，获取保险条款样本文档，按产品名称对所述保险条款样本文档进行分类；

在本实施例中，提供了预设语料库的获取过程，具体如下：

先获取保险条款样本文档，按产品名称对保险条款样本文档进行分类。在分类时，可先获取保险条款样本文档的产品名称，进而按产品名称对保险条款样本文档进行分类，以将同一产品分为一类。

步骤S80，对分类后的保险条款样本文档的各部分保险条款内容进行聚类分析，得到聚类结果；

然后，对分类后的保险条款样本文档的各部分保险条款内容进行聚类分析，得到聚类结果。在进行聚类分析时，可采用基于划分的聚类算法(如k-means(k均值)聚类算法)、基于层次的聚类算法(如变色龙Floyd算法、AGNES(Agglomerative NE Sting，自底向上凝聚算法)、CURE(Clustering Using RE Presentatives)等)、基于密度的聚类算法、基于网格的聚类算法、基于模型的聚类算法以及基于模糊的聚类算法等。当然，为便于聚类，可先分别提取各类产品的各部分保险条款内容的特征信息，如词向量或句向量，进而基于提取得到的特征信息进行聚类分析，得到聚类结果。

步骤S90，根据所述聚类结果对各类保险条款内容进行标签标注，得到预设标签，并对各类保险条款内容中所述预设标签对应的值进行统计分析，得到值特征；

在得到聚类结果之后，根据聚类结果对各类保险条款内容进行标签标注，得到预设标签，在进行标注时，其标注方法包括但不限于：1)人工标注，即将聚类结果及各类保险条款内容发送至工作端，以使得工作人员根据聚类结果，设置对应的标签；2)机器标注，即根据聚类结果与预设的多类型标签进行匹配，根据匹配结果筛选出对应的标签作为预设标签；3)将人工标注与机器标注的方式相结合。在进行标签标注的同时，对各类保险条款内容中预设标签对应的值进行统计分析，得到值特征。

例如，对于给付期限上限这一细分标签，可包括为单次给付日数上限、单个保单年度内给付日数上限、合同有效期内累计给付日数上限、每一保证续保期间内给付日数上限、单个保单年度内多个保险金累计给付日数上限、合同有效期内多个保险金累计给付日数上限、合同有效期内同一原因累计给付日数上限、单个保单年度同一原因累计给付日数上限这8种，其值特征均为数字和字母的组合，字母为年/月/日。

作为一实施方式，可直接根据聚类结果对各类保险条款内容进行标签标注，将得到所有类型产品的标签作为预设标签。

进一步地，所述“根据所述聚类结果对各类保险条款内容进行标签标注，得到预设标签”的步骤包括：

步骤a91，根据所述聚类结果对各类保险条款内容进行标签标注，得到初始标签；

步骤a92，根据所述初始标签对应的产品类型对所述初始标签进行统计，根据统计结果对所述初始标签进行聚类和去重处理，以得到预设标签。

作为另一实施方式，可先根据聚类结果对各类保险条款内容进行标签标注，得到初始标签，初始标签即为各产品类型的各部分保险条款内容的集合；然后，根据初始标签对应的产品类型对初始标签进行统计，即对不同产品类型的标签分别进行统计，得到各类型产品的标签，进而根据统计结果对初始标签进行聚类和去重处理，以对各类型产品中同一含义却不同名称的标签进行合并，避免同一事物多种表达，进而可得到最终的预设标签。通过上述方式，可使得得到的预设标签更加精炼，避免重复和类似的情况。

步骤S100，根据所述预设标签和所述值特征，构建得到所述预设语料库。

在得到预设标签及其对应的之特征之后，根据预设标签和值特征，构建得到预设语料库。

本实施例中，通过对海量的保险条款进行统计、提炼，最终构建出一语料库，即多维度的保险条款特征的标签指标体系，以供后续对保险条款的标签及其信息进行标注，将保险条款标签化和结构化，便于用户快速阅读保险条款，或便于工作人员对保险条款的信息进行录入。

进一步地，基于上述第一实施例，提出本发明信息结构化处理方法的第四实施例。

在本实施例中，在上述步骤“将所述待处理保险条款文档输入至预先训练好的位置标注模型，得到位置标注结果”之前，还包括：

步骤A，获取第二训练样本集，所述第二训练样本集包括保险条款样本文档及各部分保险条款内容的标注框；

在本实施例中，提供了位置标注模型的获取过程，具体如下：

先获取第二训练样本集，其中，第二训练样本集包括保险条款样本文档及各部分保险条款内容的标注框。各部分保险条款内容可以包括但不限于保险条款基本信息、责任基本信息等部分，可根据实际需要进行划分，标注框即用于标注各部分条款内容在保险条款样本文档中对应的位置。

步骤B，通过所述第二训练样本集对预设位置标注模型进行训练，得到训练好的位置标注模型。

然后，通过第二训练样本集对预设位置标注模型进行训练，得到训练好的位置标注模型。其中，预设位置标注模型可选地为多分类模型，如神经网络模型、随机森林模型、逻辑回归模型等。具体的训练过程可参照现有技术。

本实施例中，通过预先训练位置标注模型，以用于对保险条款样本文档中的各部分保险条款内容的位置进行标注，从而有助于后续对各部分保险条款内容进行截图，以缩小保险条款的处理范围，可提高处理效率，同时可避免无用部分的干扰，从而可在一定程度上提高处理的准确率。

进一步地，基于上述各实施例，提出本发明信息结构化处理方法的第五实施例。

在本实施例中，在步骤S30之前，还包括：

步骤C，检测所述目标保险条款内容中是否存在表格；

在本实施例中，由于表格不利于后续的标签标注处理，因此，可在将目标保险条款内容输入至标签标注模型中进行处理前，先检测目标保险条款内容中是否存在表格。

若存在，则执行步骤D，获取所述目标保险条款内容中表格的行列信息和维度；

步骤E1，若表格的维度为一维，则根据第一预设表达式对所述行列信息进行连接处理，得到处理后的目标保险条款内容；

步骤E2，若表格的维度为多维，则根据第二预设表达式对所述行列信息进行连接处理，得到处理后的目标保险条款内容；

若目标保险条款内容中存在表格，则获取目标保险条款内容中表格的行列信息和维度，其中，行列信息记为各行各列表中显示的信息。

若表格的维度为一维，则根据第一预设表达式对行列信息进行连接处理，得到处理后的表格内容，进而将处理后的表格与其他内容作为处理后的目标保险条款内容。其中，第一预设表达式可为(以字段包括2个进行说明)：表格标识、字段1！[字段1对应的维度字段]＝字段2！[字段2对应的维度字段]，其中，表格标识可根据表格的类型确定得到，用于区别该处表达为表格，例如赋值类表格可设为table，展示类表格可设为gentable，字段1和2对应首行或首列的表格字段，字段1或2对应的维度字段即为字段1或2对应行或列的数值。此外，为进一步便于后续的标签标注处理，可对各字段进行标准化转换，具体的，可根据预设的非标准字段与标准化字段之间的映射关系进行转换，对应的，第一预设表达式可为(以字段包括2个进行说明)：表格标识、字段1！标准化字段1！[字段1对应的维度字段]＝字段2！标准化字段2！[字段2对应的维度字段]。

例如，若表格为下表1所示的表格，则可转换得到：gentable保险单年度(见释义二)！(保单年度)[第1年，第2年，第3年，第4年及以后]＝基本保险金额的百分比！比例系数1！[10％，20％，40％，100％]。

保险单年度(见释义二)	基本保险金额的百分比
		第1年	10％
第2年	20％
		第3年	40％
第4年及以后	100％

表1一维表格

若表格的维度为多维，则根据第二预设表达式对行列信息进行连接处理，得到处理后的表格内容，进而将处理后的表格与其他内容作为处理后的目标保险条款内容。

其中，第二预设表达式可为(以字段包括3个进行说明)：表格标识、字段1！[字段1对应的维度字段]#字段2！[字段2对应的维度字段]＝字段3！[字段1和2下对应的字段3的值]，其中，表格标识可根据表格的类型确定得到，用于区别该处表达为表格，例如赋值类表格可设为table，展示类表格可设为gentable，字段1、2和3对应首行和首列的表格字段，字段1和2下对应的字段3的值即为字段1或2对应行或列的数值，字段3对应的维度字段即为字段1和2下字段3对应的数值。此外，为进一步便于后续的标签标注处理，可对各字段进行标准化转换，具体的，可根据预设的非标准字段与标准化字段之间的映射关系进行转换，对应的，第二预设表达式可为(以字段包括3个进行说明)：表格标识、字段1！标准化字段1！[字段1对应的维度字段]#字段2！标准化字段2！[字段2对应的维度字段]＝字段3！标准化字段3！[字段1和2下对应的字段3的值]。此外，第二预设表达式还可以在上述基础上，将各字段对应的维度字段以矩阵的形式进行表示。

例如，若表格为下表2所示的表格，则可转换得到：table保险期间！保险期间！[10年，15年]#交费期间！交费期间！[3年，5年，10年]＝每年生存金给付比例！比例系数1！[9％，14％，18％，10％，15％，25％]。还可以转换得到：

步骤S30包括：

步骤a31，利用预先训练好的标签标注模型对所述处理后的目标保险条款内容进行标签标注，得到标签标注结果。

在得到处理后的目标保险条款内容之后，利用预先训练好的标签标注模型对处理后的目标保险条款内容进行标签标注，得到标签标注结果。具体的执行过程可参照上述实施例，此处不作赘述。

本实施例中，通过对表格进行降维处理，根据表格维度将其转换为对应的表达式，以实现表格的规范化表达，从而便于后续的处理。

进一步地，基于上述各实施例，提出本发明信息结构化处理方法的第六实施例。

步骤F，检测所述待处理保险条款文档的格式是否为预设文档格式；

在本实施例中，在获取到待处理保险条款文档之后，为便于后续的处理，可先检测待处理保险条款文档的格式是否为预设文档格式。其中，预设文档格式可选地为txt文档、doc文档。在检测时，可以获取待处理保险条款文档的文件后缀，以与预设文档格式对应的文件后缀进行比对。

步骤G，若不为预设文档格式，则对所述待处理保险条款文档进行格式转换，得到格式转换后的待处理保险条款文档；

若不为预设文档格式，则对待处理保险条款文档进行格式转换，得到格式转换后的待处理保险条款文档。例如，若待处理保险条款文档为pdf文档时，可以将pdf转为txt文档或doc文档；若待处理保险条款文档为图片时，则通过OCR(Optical CharacterRecognition，光学字符识别)识别技术对其进行识别，得到其文字信息及其在文档中的位置信息，进而根据该位置信息将对应的文字信息输入至txt文档或doc文档中。

此时，步骤“将所述待处理保险条款文档输入至预先训练好的位置标注模型，得到位置标注结果”包括：

步骤a11，将所述格式转换后的待处理保险条款文档输入至预先训练好的位置标注模型，得到位置标注结果；

然后，将格式转换后的待处理保险条款文档输入至预先训练好的位置标注模型，得到位置标注结果。具体的执行过程可参照上述实施例，此处不作赘述。

步骤S20包括：

步骤a21，根据所述位置标注结果对所述格式转换后的待处理保险条款文档进行截取，得到目标保险条款内容。

在得到位置标注结果之后，根据位置标注结果对格式转换后的待处理保险条款文档进行截取，得到目标保险条款内容，进而执行后续步骤，具体的执行过程可参照上述实施例，此处不作赘述。

进一步地，在步骤F之后，还包括：若为预设文档格式，则直接将格式转换后的待处理保险条款文档输入至预先训练好的位置标注模型，得到位置标注结果；进而执行后续步骤。

本实施例中，通过对待处理保险条款文档的格式进行检测，并在检测到待处理保险条款文档的格式不为预设文档格式时，对其进行格式转换，以便于后续的处理。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质上存储有信息结构化处理程序，所述信息结构化处理程序被处理器执行时实现如以上任一项实施例所述的信息结构化处理方法的步骤。

本发明计算机可读存储介质的具体实施例与上述信息结构化处理方法各实施例基本相同，在此不作赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种信息结构化处理方法，其特征在于，所述信息结构化处理方法包括以下步骤：

2.如权利要求1所述的信息结构化处理方法，其特征在于，所述利用预先训练好的标签标注模型对所述目标保险条款内容进行标签标注，得到标签标注结果的步骤之前，还包括：

3.如权利要求2所述的信息结构化处理方法，其特征在于，所述预设标签标注模型包括信息抽取层和分类层；

4.如权利要求2所述的信息结构化处理方法，其特征在于，所述信息结构化处理方法还包括：

5.如权利要求4所述的信息结构化处理方法，其特征在于，所述根据所述聚类结果对各类保险条款内容进行标签标注，得到预设标签的步骤包括：

6.如权利要求1所述的信息结构化处理方法，其特征在于，所述将所述待处理保险条款文档输入至预先训练好的位置标注模型，得到位置标注结果的步骤之前，还包括：

7.如权利要求1至6中任一项所述的信息结构化处理方法，其特征在于，所述利用预先训练好的标签标注模型对所述目标保险条款内容进行标签标注，得到标签标注结果的步骤之前，还包括：

检测所述目标保险条款内容中是否存在表格；

8.如权利要求1至6中任一项所述的信息结构化处理方法，其特征在于，所述将所述待处理保险条款文档输入至预先训练好的位置标注模型，得到位置标注结果的步骤之前，还包括：

检测所述待处理保险条款文档的格式是否为预设文档格式；

9.一种信息结构化处理装置，其特征在于，所述信息结构化处理装置包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的信息结构化处理程序，所述信息结构化处理程序被所述处理器执行时实现如权利要求1至8中任一项所述的信息结构化处理方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有信息结构化处理程序，所述信息结构化处理程序被处理器执行时实现如权利要求1至8中任一项所述的信息结构化处理方法的步骤。