CN115481630A

CN115481630A - 基于序列对抗和先验推理的电子保函自动生成方法及装置

Info

Publication number: CN115481630A
Application number: CN202211178562.6A
Authority: CN
Inventors: 杨之乐; 吴承科; 郭媛君; 刘祥飞; 冯伟
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2022-09-27
Filing date: 2022-09-27
Publication date: 2022-12-16
Also published as: WO2024066041A1

Abstract

本发明涉及一种基于序列对抗和先验推理的电子保函自动生成方法及装置。该方法及装置首先将获取到的初始训练数据，输入至保函生成模型中的生成器G；之后生成器G通过其自注意力编码器接收初始训练数据中的整句输入文本，输出编码器隐向量，隐向量再输入至生成器G内的解码器；最后解码器在解码阶段中，根据每次输入的一个字词就预测下一个字词，最终输出为一句完整的用于电子保函部分的语句。本发明基于序列对抗生成网络和知识图谱中的先验知识，通过学习电子自然语言书写的电子保函文本内容的形式、风格、结构，实现给定特定保险种类的自动保函生成，节约保险管理人员时间成本。

Description

基于序列对抗和先验推理的电子保函自动生成方法及装置

技术领域

本发明涉及电子保函领域，具体而言，涉及一种基于序列对抗和先验推理的电子保函自动生成方法及装置。

背景技术

担保函是指银行、保险公司、担保公司或个人应申请人的请求，向第三方开立的一种书面信用担保凭证。但是随着电子保函数量的增加、保函相关的业务信息难以集中展示，保函自身的时效性跟踪、分类信息查询仍需要人工介入，传统的电子担保函只改变了保函的展现形式，保函及相关业务信息的管理与原始的线下纸质保函没有发生太大变化，整个保函开具的流程需要投入大量的时间成本和人力成本，效率低下。

发明内容

本发明实施例提供了一种基于序列对抗和先验推理的电子保函自动生成方法及装置，以至少解决现有电子保函开具效率低下的技术问题。

根据本发明的一实施例，提供了一种基于序列对抗和先验推理的电子保函自动生成方法，包括以下步骤：

S101:将获取到的初始训练数据，输入至保函生成模型中的生成器G；

S102:生成器G通过其自注意力编码器接收初始训练数据中的整句输入文本，输出编码器隐向量，隐向量再输入至生成器G内的解码器；

S103:解码器在解码阶段中，根据每次输入的一个字词就预测下一个字词，最终输出为一句完整的用于电子保函部分的语句。

进一步地，在步骤S103之后，方法还包括：

S104:生成器G将输出结果输入至保函生成模型中的判别器D，对保函生成模型进行训练。

进一步地，步骤S104具体包括：

判别器D采用EMLo模型，EMLo模型接收生成器G产生的序列化文本，输出维度和现有主题词类型相同的向量，通过Softmax计算每类主题概率，选择最高概率的主题类型与实际主题类型标签对比，通过交叉熵损失反向传播方法同时更新判别器D和生成器G，对保函生成模型进行训练。

进一步地，判别器D计算损失函数时增加一惩罚项，表示待判别的句子是否包括先验高频词，如果包括，再判断是否按顺序出现，根据其顺序差异做出惩罚，对不符合经验规则的生成句子施加更高的损失。

进一步地，生成器G使用ALBERT模型，输入为文本句子与其主题类型标签；ALBERT模型被配置为：经典NLP模型BERT的轻量级优化版本，其通过对输入矩阵进行线性解耦，把原始BERT模型的输入矩阵拆分为两个小矩阵的乘积的方式减小模型参数数量。

进一步地，步骤S102具体包括：

生成器G首先使用预训练词向量将文本句子中的字词根据分词结果转换为语义数值向量，然后输入至ALBERT模型，通过其自注意力编码器接收整句输入文本，输出编码器隐向量，隐向量再输入至其解码器。

进一步地，在步骤S101之前，方法还包括：

S100：按建设项目安全风险管理经验，梳理当前建设工程电子保函的主题类型；采集不同主题类型的已有电子保函文件，提取电子保函文件的文本并使用开源中文自然语言处理工具进行预处理，按文本所属主题类别进行标注，作为初始训练数据。

根据本发明的另一实施例，提供了一种基于序列对抗和先验推理的电子保函自动生成装置，包括：

数据输入单元，用于将获取到的初始训练数据，输入至保函生成模型中的生成器G；

数据接收单元，用于生成器G通过其自注意力编码器接收初始训练数据中的整句输入文本，输出编码器隐向量，隐向量再输入至生成器G内的解码器；

解码单元，用于解码器在解码阶段中，根据每次输入的一个字词就预测下一个字词，最终输出为一句完整的用于电子保函部分的语句。

进一步地，装置还包括：

训练单元，用于生成器G将输出结果输入至保函生成模型中的判别器D，对保函生成模型进行训练。

进一步地，装置还包括：

数据获取单元，用于按建设项目安全风险管理经验，梳理当前建设工程电子保函的主题类型；采集不同主题类型的已有电子保函文件，提取电子保函文件的文本并使用开源中文自然语言处理工具进行预处理，按文本所属主题类别进行标注，作为初始训练数据。

一种存储介质，存储介质存储有能够实现上述任意一项基于序列对抗和先验推理的电子保函自动生成方法的程序文件。

一种处理器，处理器用于运行程序，其中，程序运行时执行上述任意一项的基于序列对抗和先验推理的电子保函自动生成方法。

本发明实施例中的基于序列对抗和先验推理的电子保函自动生成方法及装置，基于序列对抗生成网络和知识图谱中的先验知识，通过学习电子自然语言书写的电子保函文本内容的形式、风格、结构，实现给定特定保险种类的自动保函生成，节约保险管理人员时间成本。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明基于序列对抗和先验推理的电子保函自动生成方法的流程图；

图2为本发明基于序列对抗和先验推理的电子保函自动生成方法的一优选流程图；

图3为本发明基于序列对抗和先验推理的电子保函自动生成方法的另一优选流程图；

图4为本发明基于序列对抗和先验推理的电子保函自动生成装置的模块图；

图5为本发明基于序列对抗和先验推理的电子保函自动生成装置的一优选模块图；

图6为本发明基于序列对抗和先验推理的电子保函自动生成装置的另一优选模块图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本发明一实施例，提供了一种基于序列对抗和先验推理的电子保函自动生成方法，参见图1，包括以下步骤：

本发明实施例中的基于序列对抗和先验推理的电子保函自动生成方法，基于序列对抗生成网络和知识图谱中的先验知识，通过学习电子自然语言书写的电子保函文本内容的形式、风格、结构，实现给定特定保险种类的自动保函生成，节约保险管理人员时间成本。

其中，在步骤S103之后，参见图2，方法还包括：

其中，步骤S104具体包括：

其中，判别器D计算损失函数时增加一惩罚项，表示待判别的句子是否包括先验高频词，如果包括，再判断是否按顺序出现，根据其顺序差异做出惩罚，对不符合经验规则的生成句子施加更高的损失。

其中，生成器G使用ALBERT模型，输入为文本句子与其主题类型标签；ALBERT模型被配置为：经典NLP模型BERT的轻量级优化版本，其通过对输入矩阵进行线性解耦，把原始BERT模型的输入矩阵拆分为两个小矩阵的乘积的方式减小模型参数数量。

其中，步骤S102具体包括：

其中，在步骤S101之前，参见图3，方法还包括：

下面以具体实施例，对本发明的基于序列对抗和先验推理的电子保函自动生成方法进行详细说明：

本发明的基于序列对抗和先验推理的建设工程电子保函自动生成方法基于序列对抗生成网络和知识图谱中的先验知识，通过学习电子自然语言书写的电子保函文本内容的形式、风格、结构，实现给定特定保险种类(即主题)的自动保函生成，节约保险管理人员时间成本。具体包括如下步骤：

按建设项目安全风险管理经验，梳理当前建设工程电子保函的主题类型，如按严重程度可以分为死亡、重伤、轻伤，按事故类型可以分为高空坠落、物体打击、触电等；采集不同主题类型的已有电子保函文件，提取电子保函文件的文本并使用开源中文自然语言处理工具如hanNLP和Jeba等进行预处理，预处理主要包括分句、分词、停用词去除等，按文本所属主题类别进行标注，作为初始训练数据。

给定初始训练数据，用其训练保函生成模型中的生成器G；生成器G使用ALBERT模型，输入为文本句子与其主题类型标签。ALBERT模型是经典NLP模型BERT的轻量级优化版本，其通过对输入矩阵进行线性解耦，即把原始BERT模型的输入矩阵拆分为两个较小矩阵的乘积的方式减小模型参数数量，其优化程度取决于BERT模型需要处理的字词总量，总量越高加速效果越明显，一般可将计算速度提高8-10倍。

首先使用预训练词向量(word2vec或glove)将文本句子中的字词根据分词结果转换为语义数值向量，然后输入至ALBERT模型，该模型除在输入端做解耦调优之外其他部分和BERT模型相同，通过其自注意力编码器(self-attention)接收整句输入文本，输出编码器隐向量，隐向量再输入至其解码器(decoder)，在解码阶段每次输入一个字词，保函生成模型计算所有语料库内字词在当前状态下的概率进行挑选，然后解码器预测下一个字词，从而实现连续文本生成，解码器最终输出为一句完整的用于建设工程电子保函部分的语句。

生成器G将输出结果输入判别器D,其目的是判断生成得到的序列是否来自于真实数据集，从而引导生成器G的改进优化；判别器D采用EMLo模型，其包含多层双向长短时记忆网络Bi-LSTM可以很好捕捉序列文本语义，不会丢失掉序列较早位置处字词的信息；EMLo模型接收生成器G产生的序列化文本，输出维度和现有主题词类型相同的向量，通过Softmax计算每类主题概率，选择最高概率的主题类型与实际主题类型标签对比，通过交叉熵损失反向传播方法同时更新判别器D和生成器G，从而实现保函生成模型的训练。

本发明的创新点及有益效果至少在于：

1)与一般的基于对抗生成网络文本生成模型不同，本发明的保函生成模型考虑了工程电子保函的一般结构，包括各类填空，比如，投保人姓名_____，年龄_____等空白以及空白的表述方式都包括在训练数据内，因此该模型可以学习并自动生成。

2)通过先验知识，可以知道在特定的建设工程保险领域中，某些高频词且按固定顺序出现，可以表明一个句子是合理的，而违反这种规律则大概率表示句子不符合该领域的经验规则，因此，本发明的模型在判别器D计算损失函数时增加一惩罚项，表示待判别的句子是否包括先验高频词，如果包括，再判断是否按顺序出现，根据其顺序差异做出惩罚，对不符合经验规则的生成句子施加更高的损失。

实施例2

根据本发明的另一实施例，提供了一种基于序列对抗和先验推理的电子保函自动生成装置，参见图4，包括：

数据输入单元201，用于将获取到的初始训练数据，输入至保函生成模型中的生成器G；

数据接收单元202，用于生成器G通过其自注意力编码器接收初始训练数据中的整句输入文本，输出编码器隐向量，隐向量再输入至生成器G内的解码器；

解码单元203，用于解码器在解码阶段中，根据每次输入的一个字词就预测下一个字词，最终输出为一句完整的用于电子保函部分的语句。

本发明实施例中的基于序列对抗和先验推理的电子保函自动生成装置，基于序列对抗生成网络和知识图谱中的先验知识，通过学习电子自然语言书写的电子保函文本内容的形式、风格、结构，实现给定特定保险种类的自动保函生成，节约保险管理人员时间成本。

其中，参见图5，装置还包括：

训练单元204，用于生成器G将输出结果输入至保函生成模型中的判别器D，对保函生成模型进行训练。

其中，参见图6，装置还包括：

数据获取单元200，用于按建设项目安全风险管理经验，梳理当前建设工程电子保函的主题类型；采集不同主题类型的已有电子保函文件，提取电子保函文件的文本并使用开源中文自然语言处理工具进行预处理，按文本所属主题类别进行标注，作为初始训练数据。

下面以具体实施例，对本发明的基于序列对抗和先验推理的电子保函自动生成装置进行详细说明：

本发明的基于序列对抗和先验推理的建设工程电子保函自动生成装置基于序列对抗生成网络和知识图谱中的先验知识，通过学习电子自然语言书写的电子保函文本内容的形式、风格、结构，实现给定特定保险种类(即主题)的自动保函生成，节约保险管理人员时间成本。具体包括如下步骤：

数据获取单元200：按建设项目安全风险管理经验，梳理当前建设工程电子保函的主题类型，如按严重程度可以分为死亡、重伤、轻伤，按事故类型可以分为高空坠落、物体打击、触电等；采集不同主题类型的已有电子保函文件，提取电子保函文件的文本并使用开源中文自然语言处理工具如hanNLP和Jeba等进行预处理，预处理主要包括分句、分词、停用词去除等，按文本所属主题类别进行标注，作为初始训练数据。

数据输入单元201：给定初始训练数据，用其训练保函生成模型中的生成器G；生成器G使用ALBERT模型，输入为文本句子与其主题类型标签。ALBERT模型是经典NLP模型BERT的轻量级优化版本，其通过对输入矩阵进行线性解耦，即把原始BERT模型的输入矩阵拆分为两个较小矩阵的乘积的方式减小模型参数数量，其优化程度取决于BERT模型需要处理的字词总量，总量越高加速效果越明显，一般可将计算速度提高8-10倍。

数据接收单元202：首先使用预训练词向量(word2vec或glove)将文本句子中的字词根据分词结果转换为语义数值向量，然后输入至ALBERT模型，该模型除在输入端做解耦调优之外其他部分和BERT模型相同，通过其自注意力编码器(self-attention)接收整句输入文本，输出编码器隐向量，隐向量再输入至其解码器(decoder)。

解码单元203：在解码阶段每次输入一个字词，保函生成模型计算所有语料库内字词在当前状态下的概率进行挑选，然后解码器预测下一个字词，从而实现连续文本生成，解码器最终输出为一句完整的用于建设工程电子保函部分的语句。

训练单元204：生成器G将输出结果输入判别器D,其目的是判断生成得到的序列是否来自于真实数据集，从而引导生成器G的改进优化；判别器D采用EMLo模型，其包含多层双向长短时记忆网络Bi-LSTM可以很好捕捉序列文本语义，不会丢失掉序列较早位置处字词的信息；EMLo模型接收生成器G产生的序列化文本，输出维度和现有主题词类型相同的向量，通过Softmax计算每类主题概率，选择最高概率的主题类型与实际主题类型标签对比，通过交叉熵损失反向传播方法同时更新判别器D和生成器G，从而实现保函生成模型的训练。

本发明的创新点及有益效果至少在于：

实施例3

实施例4

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的系统实施例仅仅是示意性的，例如单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于序列对抗和先验推理的电子保函自动生成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于序列对抗和先验推理的电子保函自动生成方法，其特征在于，在步骤S103之后，所述方法还包括：

3.根据权利要求2所述的基于序列对抗和先验推理的电子保函自动生成方法，其特征在于，步骤S104具体包括：

4.根据权利要求3所述的基于序列对抗和先验推理的电子保函自动生成方法，其特征在于，判别器D计算损失函数时增加一惩罚项，表示待判别的句子是否包括先验高频词，如果包括，再判断是否按顺序出现，根据其顺序差异做出惩罚，对不符合经验规则的生成句子施加更高的损失。

5.根据权利要求1所述的基于序列对抗和先验推理的电子保函自动生成方法，其特征在于，生成器G使用ALBERT模型，输入为文本句子与其主题类型标签；ALBERT模型被配置为：经典NLP模型BERT的轻量级优化版本，其通过对输入矩阵进行线性解耦，把原始BERT模型的输入矩阵拆分为两个小矩阵的乘积的方式减小模型参数数量。

6.根据权利要求5所述的基于序列对抗和先验推理的电子保函自动生成方法，其特征在于，步骤S102具体包括：

7.根据权利要求1所述的基于序列对抗和先验推理的电子保函自动生成方法，其特征在于，在步骤S101之前，所述方法还包括：

8.一种基于序列对抗和先验推理的电子保函自动生成装置，其特征在于，包括：

9.根据权利要求8所述的基于序列对抗和先验推理的电子保函自动生成装置，其特征在于，所述装置还包括：

10.根据权利要求8所述的基于序列对抗和先验推理的电子保函自动生成装置，其特征在于，所述装置还包括：