CN111930939A

CN111930939A - 一种文本检测的方法及装置

Info

Publication number: CN111930939A
Application number: CN202010654027.8A
Authority: CN
Inventors: 陈利琴; 闫永泽; 刘设伟
Original assignee: Taikang Insurance Group Co Ltd; Taikang Online Property Insurance Co Ltd
Current assignee: Taikang Insurance Group Co Ltd; Taikang Online Property Insurance Co Ltd
Priority date: 2020-07-08
Filing date: 2020-07-08
Publication date: 2020-11-13

Abstract

本发明实施例提供了一种文本检测的方法及装置，其中，所述的方法包括：获取训练样本，所述训练样本包括第一训练样本和第二训练样本；采用所述第一训练样本对预设第一初始模型进行训练，生成第一层分类模型；采用所述第二训练样本对预设第二初始模型进行训练，生成第二层分类模型；组合所述第一层分类模型和所述第二层分类模型得到文本检测模型，以采用所述文本检测模型检测待检测文本的合规性。从而通过对训练样本进行区分，采用不同的训练样本分层训练得到两个分类模型，组合这两个分类模型得到文本检测模型，使得可以采用文本检测模型对待检测文本进行分层检测，确定待检测文本的合规性，提高了文本合规性检查的准确性。

Description

一种文本检测的方法及装置

技术领域

本发明涉及人工智能技术领域，特别是涉及一种文本检测的方法，以及一种文本检测的装置。

背景技术

文本检测是自然语言处理技术领域中的一项重要任务，它的目标是将文档指定一个被预先定义好的类别。现有技术在处理NLP(Natural Language Processing，自然语言处理)项目时经常会出现样本不均衡的现象，直接使用不均衡样本训练出来的模型会使检测结果倾向于样本数据较多的类别，普遍的解决方式是在数据层面采用过采样小样本、欠采用大样本，这些方法可能会将一些有用数据丢失，或增强了一些噪音样，且容易造成过拟合；在检测模型层面采用优化算法或者目标函数的方法，但这种方法不够简单、效果提升不显著。

目前，文本合规性检测方法主要是一个基于规则匹配或者以传统的深度学习技术为主的文本检测方法，针对特定的文本制定特定的规则或训练一个检测模型，从而判断文本是否符合规范。然而，在规则匹配时利用传统的词向量化方法提取的词向量缺乏一定的语义信息，没有考虑文本的语义信息，其泛化能力较低；同时，现有训练模型的方式一般是将数据混合一起训练模型，没有考虑数据的特性，对于不均衡样本或者具有一定特性的样本，使得训练生成的模型很难将困难样本区分开。

发明内容

鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种文本检测的方法和相应的一种文本检测的装置。

本发明实施例公开了一种文本检测的方法，所述方法包括：

获取训练样本，所述训练样本包括第一训练样本和第二训练样本；

采用所述第一训练样本对预设第一初始模型进行训练，生成第一层分类模型；

采用所述第二训练样本对预设第二初始模型进行训练，生成第二层分类模型；

组合所述第一层分类模型和所述第二层分类模型得到文本检测模型，以采用所述文本检测模型检测待检测文本的合规性。

可选地，所述预设第一初始模型包含BERT结构层，长短时记忆模型层，最大池化层，线性层和第一分类层，所述采用所述第一训练样本对预设第一初始模型进行训练，生成第一层分类模型，包括：

采用所述第一训练样本训练所述BERT结构层，长短时记忆模型层，最大池化层，线性层和第一分类层，生成第一层分类模型。

可选地，所述第一分类层包含sigmoid激活函数，所述BERT结构层，长短时记忆模型层，最大池化层，线性层和第一分类层分别具有不同的学习率。

可选地，所述预设第二初始模型包含BERT结构层，长短时记忆模型层，最大池化层，线性层和第二分类层，所述采用所述第二训练样本对预设第二初始模型进行训练，生成第二层分类模型，包括：

采用所述第二训练样本训练所述BERT结构层，长短时记忆模型层，最大池化层，线性层和第二分类层，生成第二层分类模型。

可选地，所述第二分类层包含softmax激活函数，所述BERT结构层，长短时记忆模型层，最大池化层，线性层和第二分类层分别具有不同的学习率。

可选地，所述的方法还包括：

对所述待检测文本进行解析，得到目标检测文本；

采用所述文本检测模型的第一层分类模型检测所述目标检测文本是否合规；若所述目标检测文本合规，则确定所述目标检测文本为合规文本；若所述目标检测文本不合规，则确定所述目标检测文本为存疑文本；

采用所述文本检测模型的第二层分类模型检测所述存疑文本是否合规；若所述存疑文本合规，则确定所述存疑文本为合规文本；若所述存疑文本不合规，则确定所述存疑文本为不合规文本。

可选地，所述训练样本通过如下方式生成：

获取文本数据，并对所述文本数据进行分句处理，得到第一语料；

对所述第一语料进行预处理，得到第二语料；

对所述第二语料进行归类，得到绝对合规语料，边缘语料，新增语料和被删除语料；所述边缘语料包括修改前的语料和修改后的语料；

将所述绝对合规语料和所述新增语料确定为第一正样本，将所述边缘语料和所述被删除语料确定为第一负样本，将所述第一正样本和第一负样本标注为第一训练样本；

将所述修改后的语料确定为第二正样本，将所述修改前的语料和被删除语料确定为第二负样本，将所述第二正样本和第二负样本标注为第二训练样本。

本发明实施例还公开了一种文本检测的装置，所述装置包括：

训练样本获取模块，用于获取训练样本，所述训练样本包括第一训练样本和第二训练样本；

第一训练模块，用于采用所述第一训练样本对预设第一初始模型进行训练，生成第一层分类模型；

第二训练模块，用于采用所述第二训练样本对预设第二初始模型进行训练，生成第二层分类模型；

模型组合模块，用于组合所述第一层分类模型和所述第二层分类模型得到文本检测模型，以采用所述文本检测模型检测待检测文本的合规性。

可选地，所述预设第一初始模型包含BERT结构层，长短时记忆模型层，最大池化层，线性层和第一分类层，所述第一训练模块，包括：

第一训练子模块，用于采用所述第一训练样本训练所述BERT结构层，长短时记忆模型层，最大池化层，线性层和第一分类层，生成第一层分类模型。

可选地，所述预设第二初始模型包含BERT结构层，长短时记忆模型层，最大池化层，线性层和第二分类层，所述第二训练模块，包括：

第二训练子模块，用于采用所述第二训练样本训练所述BERT结构层，长短时记忆模型层，最大池化层，线性层和第二分类层，生成第二层分类模型。

可选地，所述的装置还包括：

文本解析模块，用于对所述待检测文本进行解析，得到目标检测文本；

第一检测模块，用于采用所述文本检测模型的第一层分类模型检测所述目标检测文本是否合规；若所述目标检测文本合规，则确定所述目标检测文本为合规文本；若所述目标检测文本不合规，则确定所述目标检测文本为存疑文本；

第二检测模块，用于采用所述文本检测模型的第二层分类模型检测所述存疑文本是否合规；若所述存疑文本合规，则确定所述存疑文本为合规文本；若所述存疑文本不合规，则确定所述存疑文本为不合规文本。

可选地，所述训练样本通过如下方式模块：

数据获取模块，用于获取文本数据，并对所述文本数据进行分句处理，得到第一语料；

预处理模块，用于对所述第一语料进行预处理，得到第二语料；

语料归类模块，用于对所述第二语料进行归类，得到绝对合规语料，边缘语料，新增语料和被删除语料；所述边缘语料包括修改前的语料和修改后的语料；

第一样本标注模块，用于将所述绝对合规语料和所述新增语料确定为第一正样本，将所述边缘语料和所述被删除语料确定为第一负样本，将所述第一正样本和第一负样本标注为第一训练样本；

第二样本标注模块，用于将所述修改后的语料确定为第二正样本，将所述修改前的语料和被删除语料确定为第二负样本，将所述第二正样本和第二负样本标注为第二训练样本。

本发明实施例还公开了一种电子设备，包括：

一个或多个处理器；和

其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述电子设备执行如本发明实施例所述的一个或多个的方法的步骤。

本发明实施例还公开了一种计算机可读存储介质，其上存储有指令，当由一个或多个处理器执行时，使得所述处理器执行如本发明实施例所述的一个或多个的方法的步骤。

本发明实施例包括以下优点：

在本发明实施例中，通过获取训练样本，采用第一训练样本对预设第一初始模型进行训练，生成第一层分类模型，采用第二训练样本对预设第二初始模型进行训练，生成第二层分类模型，组合第一层分类模型和第二层分类模型得到文本检测模型，以采用文本检测模型检测待检测文本的合规性。从而通过对训练样本进行区分，采用不同的训练样本分层训练得到两个分类模型，组合这两个分类模型得到文本检测模型，使得可以采用文本检测模型对待检测文本进行分层检测，确定待检测文本的合规性，提高了文本合规性检查的准确性。

附图说明

图1是本发明的一种文本检测的方法实施例的步骤流程图；

图2是本发明的一种文本检测模型的网络结构的示意图；

图3是本发明的一种分类模型的网络结构的示意图；

图4是本发明的一种BERT结构层的示意图；

图5是本发明的一种训练分类模型的步骤流程图；

图6是本发明的一种检测待检测文本的合规性的步骤流程图；

图7是本发明的一种文本检测的装置实施例的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明的设计初衷是解决如何判断文本中的内容是否合规的问题，可以将该问题看作是一种文本分类的问题，针对现有技术的不足，在本发明实施例中，可以根据训练数据集的特性，设置两个不同的训练数据集，分层训练两个分类模型，并以组合模型的方式形成一个分层结构的深度神经网络文本分类模型，从而提高了文本合规性检测的准确性。

参照图1，示出了本发明的一种文本检测的方法实施例的步骤流程图，具体可以包括如下步骤：

步骤101，获取训练样本，所述训练样本包括第一训练样本和第二训练样本；

训练样本可以指用于训练文本检测模型的样本，该训练样本可以是一个个的句子。在文本合规性检测的场景中，训练样本可以是各种合同文本(如保险合同文本)中的数据，包括不存在修改的数据和存在修改的数据等，其中，存在修改的数据可以包括修改后的数据和修改前的数据。合同文本可以为Word或PDF等格式的文本，通过对合同文本进行分句，数据预处理和添加标注等操作，以获得训练样本。

在本发明实施例中，训练样本包括第一训练样本和第二训练样本，其中，第一训练样本和第二训练样本中的数据不同，用于训练不同的分类模型。

步骤102，采用所述第一训练样本对预设第一初始模型进行训练，生成第一层分类模型；

预设第一初始模型可以是预先设定的第一初始卷积神经网络模型，用于训练第一层分类模型。

具体的，预设第一初始模型可以由一个BERT(Bidirectional EncoderRepresentations from Transformers，语义表示模型)结构层、双向的长短时记忆模型(Bi-LSTM)层、最大池化层、线性层和第一分类层组成。训练预设第一初始模型的过程由前向计算和反向传播两个过程组成，通过网络结构的前向计算过程进行语义编译，以及根据语义编译的结果通过反向传播的过程学习预设第一初始模型中各层函数的参数。

步骤103，采用所述第二训练样本对预设第二初始模型进行训练，生成第二层分类模型；

预设第二初始模型可以是预先设定的第二初始卷积神经网络模型，用于训练第二层分类模型。

具体的，预设第二初始模型可以由一个BERT结构层、双向的长短时记忆模型(Bi-LSTM)层、最大池化层、线性层和第二分类层组成。训练预设第二初始模型的过程由前向计算和反向传播两个过程组成，通过网络结构的前向计算过程进行语义编译，以及根据语义编译的结果通过反向传播的过程学习预设第二初始模型中各层函数的参数。

需要说明的是，预设第二初始模型与预设第一初始模型的结构基本相同，只是用于分类的激活函数不相同，即第一分类层与第二分类层不同，如，第一分类层采用sigmoid激活函数进行分类，第二分类层采用softmax激活函数进行分类。

步骤104，组合所述第一层分类模型和所述第二层分类模型得到文本检测模型，以采用所述文本检测模型检测待检测文本的合规性。

在训练得到第一层分类模型和第二层分类模型之后，可以组合第一层分类模型和第二层分类模型，得到文本检测模型。分层结构的神经网络模型可以类似一个二叉树的形式，由若干个节点和叶子节点组成，可以称这个网络结构为文本类别树。在本发明实施例中，文本检测模型中包含第一层分类模型和第二层分类模型，其中，第二层分类模型可以是第一层分类模型的子节点。如图2所示，A节点是步骤102中训练好的第一层分类模型，C节点是步骤103中训练好的第二层分类模型，B、D、E叶子节点代表不同的分类，是最终的分类结果，即合规与不合规。

训练好文本检测模型后，可以采用该文本检测模型对待检测文本进行检测，具体的，可以根据文本检测模型的网络结构自顶向下对待检测文本进行检测。如图2中，先利用左子树(A、B、C)对文本类型进行判断，然后用其右子树(C、D、E)对文本进行最终类型的判断。具体的，首先对文本进行解析，获取文本中的每个句子，然后采用第一层分类模型进行判断，如果判断为合规，那么该句子就为绝对合规句子，否则为存疑；如果经过第一层分类模型的判断为存疑类型时，则采用第二层分类模型进行识别，确定存疑句子的最终类型。

通过对训练样本进行区分，采用不同的训练样本分层训练得到两个分类模型，组合这两个分类模型得到文本检测模型，使得可以采用文本检测模型对待检测文本进行分层检测，确定待检测文本的合规性，提高了文本合规性检查的准确性。

在本发明实施例中，用于训练的分类模型的网络结构可以包括BERT层，Bi-LSTM层，max-pooling层，线性层和第一层sigmoid层或第二层softmax层，如图3所示，通过将训练样本作为输入数据，输入至分类模型的各层中进行训练，从而得到训练好的最佳分类模型。

在本发明的一种优选实施例中，所述预设第一初始模型包含BERT结构层，长短时记忆模型层，最大池化层，线性层和第一分类层，所述步骤102可以包括如下子步骤：

其中，BERT(Bidirectional Encoder Representations from Transformers，预训练语言模型)结构层，BERT预训练语言模型是利用大规模语料训练所得，采用transformer编码器作为主体模型结构，利用transformer强大的特征抽取能力来学习词语的深度双向编码表示，能够表达出字词的多义性，且增强了句子的语义表示能力。鉴于BERT预训练语言模型强大的语义表达能力，本发明实施例将BERT预训练模型嵌入到文本分类模型中，并在此基础上提出了BERT-BILSTM-POOLING网络结构。

BERT结构层可以获得输入数据的语义表示，即获得训练样本中每个字的特征向量，具体包括如下2个子步骤：

子步骤S11，确定训练样本中每个字的特征向量；

具体的，BERT结构层可以包括：Token Embeddings层，Segment Embedings层，Position Embeddings层，通过计算句子中每个token的Token Embedding、PositionEmbedding、Segment Embeding来对句子进行编码。其中，token embedding就是一个词向量，对中文文本而言，是一个字向量；segment embedding用来区分两种句子，表示该字所属的句子；position embedding是token包含位置信息的位置向量，由模型训练而来。最后，训练样本序列经过这三个嵌入层后可以获得三种不同的向量表示，文本中每个词的特征向量就是这三种向量的和。如图4所示的一种BERT结构层的示意图，通过input操作输入句子“[CLS]my dog is cute[SEP]he likes play##ing[SEP]”，其中，输入的第一个单词CLS专门用于下游的分类任务，其包含隐含层最后一层的所有信息，直接利用此位置的输出作为分类任务的输入表示，SEP表示分隔符号，用于分隔所输入的两个句子“my dog is cute”和“he likes play##ing”。

子步骤S12，确定所述每个字的特征向量的双向编码表示；

具体的，BERT结构层在获取到训练样本中每个词汇的embedding表示后，可以经过一个多层双向的transformer编码器，利用transformer内部的多注意力机制充分地学习到训练样本的上下文信息，从而可以获取到训练样本的双向编码表示。

在本发明实施例中，可以采用两种方式将BERT嵌入到训练模型的网络结构中，从而训练出一个精确的文本分类模型，这两种方式分别为：

BERT的Fine_Tuning微调方式：在子步骤S12后接入到Bi-LSTM(Bi-directionalLong Short-Term Memory，长短时记忆模型)层。这种方式在模型训练的过程中，要训练整个BERT-BILSTM-POOLING模型的参数，包括BERT整个模型的参数。

利用BERT生成字特征向量的方式：在子步骤S12后接入Bi-LSTM层，但只利用BERT提取句子中每个字的特征向量，在模型训练的过程中固定BERT参数，这种方法相对于上述的Fine_Tuning微调方式，能够减少训练参数和缩短训练时间；可以将利用BERT生成字特征向量的方式看作类似于word2vec训练词向量模型的方法，并作为网络结构的embedding层。

训练样本在经过BERT结构层后，可以将得到的数据输入到Bi-LSTM层，Bi-LSTM层可以利用双向的长短时记忆模型提取句子的上文特征，此过程是一个编码的过程，具体包括如下子步骤：

双向的长短时记忆模型由一个前向的LSTM(Long Short-Term Memory，长短期记忆网络)和一个后向的LSTM构成，对通过上述两种嵌入方式得到的句子的词嵌入序列(x₁,x₂,...x_n)的特征向量，分别进行从左到右和从右到左的LSTM编码处理后，分别得到了在两个方向上的每个时间点的隐藏层状态，其中，前向隐藏层输出记为

后向隐藏层输出为

在具体实现中，LSTM单元的计算公式可以如下所示：

i_t＝σ(W_xix_t+W_hih_t-1+W_cic_t-1+b_i)，

f_t＝σ(W_xfx_t+W_hfh_t-1+W_cfc_t-1+b_f)，

c_t＝f_tc_t-1+i_ttanh(W_xcx_t+W_hch_t-1+b_c)，

o_t＝σ(W_xox_t+W_hoh_t-1+W_coc_t+b_o)，

h_t＝o_t tanh(c_t)。

其中，σ表示logistic激活函数，x_t表示由BERT结构层得到的t时刻的词特征向量，i_t表示t时刻的输入门、f_t表示t时刻的遗忘门、o_t表示t时刻的输出门，c_t表示t时刻的细胞单元的记忆流状态，和c_t-1分别表示t-1时刻的细胞单元的记忆流状态，h_t表示t时刻的隐藏层的词特征向量，h_t-1表示t-1时刻的隐藏层的词特征向量，b_i表示输入门的偏置参数、b_f表示遗忘门的偏置参数、b_c表示输出门的偏置参数、b_o表示记忆细胞的偏置参数，w_xi表示t时刻输入门的权值矩阵，w_hi表示连接t-1时刻隐藏层到输入门的权值矩阵，w_ci表示连接t-1时刻细胞单元到输入门的权值矩阵，w_xf表示连接t时刻输入门到遗忘门的权值矩阵，w_hf表示t-1时刻隐藏层到遗忘门的权值矩阵，w_cf表示连接t-1时刻细胞单元到遗忘门的权值矩阵，w_xc表示连接t时刻输入门到细胞状态的权值矩阵，w_hc表示连接t-1时刻隐藏层到细胞单元的权值矩阵，w_xo表示连接t时刻输入门到输出门的权值矩阵，w_ho表示连接t-1时刻隐藏层到输出门的权值矩阵，w_co表示连接t时刻细胞单元到输出门的权值矩阵。

为了充分利用训练样本中每个时刻的上下文信息，将隐藏层的前向信息和后向信息拼接在一起作为该时刻隐藏层的输出，表示为：

在本发明实施例中，可以将Bi-LSTM层得到的数据输入到最大池化层，在最大池化层中可以采用max-pooling操作来获得输入序列的特征表示，以提取到最有用的特征向量。然后将池化后的特征向量依次连接到线性层进行线性变换，以获取到文本的最佳语义表示，最后将线性变换后的数据输入至第一分类层进行分类。

进一步的，可以利用上述第一分类层输出的结果计算出误差损失函数值，然后开始反向传播，将计算得到的损失函数值、学习率通过梯度下降算法来对网络结构中各层的参数进行求导计算梯度，从而更新模型中各层的参数值。具体的，常用的随机梯度下降方法的梯度更新公式如下为：

其中，θ_t表示t时刻的下降梯度，α表示学习率，J(θ)表示损失函数，Δ为求偏导的符号，

表示损失函数J(θ)对θ求偏导。

学习率对误差损失函数的收敛过程有着重要影响，所以选择一种动态的学习率，在训练模型时的每次迭代中对学习率进行修正，如，学习率可以以先增加后减少的形式进行修正，同时将网络结构中的每一层设置不同的学习率，那么保持了在训练模型的每次迭代过程中网络结构中每一层有不同的学习率，具体的，学习率的计算公式可以表示如下：

其中，T表示训练所要迭代的次数，ratio_increase表示设置学习率上升的迭代次数比例，n_inrease表示学习率开始衰减时的迭代次数，epoch表示当前的迭代次数，α_t表示第t次迭代时的学习率，α_max表示设置得最大学习率，ratio表示学习率从最大值衰减到最小值的迭代数。

预设第一初始模型的网络结构中每一层可以设置不同的学习率。在本发明实施例中，可以将网络结构中后一层的学习率设置为前一层学习率的2.6倍，最后，将上述的每次迭代学习率的设置方法和每一层学习率的设置方法结合在一起，那么，在每次迭代中每一层的学习率的计算公式可以表示如下：

其中，

是模型的网络结构中最后一层t时刻的学习率，

是其前一层t时刻的学习率。依次类推可以计算出模型的网络结构中每一层的学习率。

在本发明的一种优选实施例中，所述第一分类层包含sigmoid激活函数，所述BERT结构层，长短时记忆模型层，最大池化层，线性层和第一分类层分别具有不同的学习率。

由于，第一层分类模型对组合后生成的文本检测模型最终的检测效果有着重要影响，要保证第一层分类模型对合规样本识别的准确率，降低存疑样本的误识别率，且第一层分类模型是一个二分类模型，因此，在本发明实施例中，可以设置第一分类层包含sigmoid激活函数，采用sigmoid激活函数，并使用网格搜索的方法寻找出最佳的分类阈值，最后用这个分类阈值对文本进行分类。

学习率的设置对训练模型的性能有重要影响，当学习率设置较大时，梯度会在最小值周围来回震荡，可能会使目标损失函数值无法达到收敛；当学习率设置较小时，可能会使收敛的过程十分缓慢。现有的深度学习模型中，学习率通常是根据经验值设置，或者根据数据集不断训练模型调整得到，这种方法费时费力；有的仅仅只是在每次迭代训练的过程中动态修改学习率，然而，由于网络结构中的每一层都在学习文本词汇不同的语义信息，所以还应该要保持网络结构不同层次上有不同的学习率。在本发明实施例中，可以选择一种动态的学习率，保证在训练预设第一初始模型的网络结构中，每次迭代过程中每一层有不同的学习率，例如，可以将网络结构中后一层的学习率设置为前一层的学习率的2.6倍。

在本发明的一种优选实施例中，所述预设第二初始模型包含BERT结构层，长短时记忆模型层，最大池化层，线性层和第二分类层，所述步骤103可以包括如下子步骤：

预设第二初始模型的结构与预设第一初始模型的结果基本相同，区别在于预设第二初始模型采用第二分类层进行分类，而预设第一初始模型采用第一分类层进行分类。在具体实现中，可以按照如上述训练预设第一初始模型的方法训练来预设第二初始模型，即通过BERT结构层获得输入数据的语义表示，即获得训练样本中每个字的特征向量后，再将特征向量序列连接到双向的长短时记忆模型(Bi-LSTM)层进行进一步的语义编码，然后依次连接一个最大池化层、线性层和第二分类层。

在本发明的一种优选实施例中，所述第二分类层包含softmax激活函数，所述BERT结构层，长短时记忆模型层，最大池化层，线性层和第二分类层分别具有不同的学习率。

在本发明实施例中，可以设置第二分类层包含softmax激活函数，采用softmax激活函数确定文本所属的类别。预设第二初始模型的网络结构中，长短时记忆模型层，最大池化层，线性层和第二分类层分别具有不同的学习率，例如，可以将网络结构中后一层的学习率设置为前一层的学习率的2.6倍。

如图5示出了本发明的一种训练分类模型的步骤流程图，具体包括如下步骤：

步骤S101，数据预处理与数据标注。

具体的，可以对第一层训练样本数据集或第二层训练样本数据集进行数据预处理与数据标注。由于，合同一般是word或pdf文档，需要对已标注数据和未标注数据依次进行数据预处理、数据标注后才能训练模型。

其中，数据预处理过程可以包括如下子步骤：

1-1)提取保险合同中的所有条款，将所有的保险条款进行分句，作为训练模型的初始语料；

1-2)将步骤1-1)中生成的数据归类：将文档中没有修改过的句子作为绝对合规句子，将修改前和修改后的句子作为边缘句子；

1-3)载入步骤1-2)归类后的句子进行数据预处理，包括去掉特殊字符、繁写转简写、英文大写转小写等；

2)数据标注

2-1)第一层分类模型数据标注集的获取：将步骤1-3)中的绝对合规句子和审核通过的合同中增加的句子标注成正样本，步骤1-3)中的边缘句子和原稿中被删除的句子全部标注成负样本；

2-2)第二层分类模型数据标记集的获取：将步骤1-3)中修改后的边缘句子作为正样本，修改前的边缘句子与原稿中被删除的句子作为负样本。

作为一种示例，合同原稿中的句子“被保险人或其代理人未履行本通知义务，因危险程度显着增加而发生的保险事故，保险人不负责赔偿”，在终稿中被修改为“被保险人未履行前述通知义务的，因借款人违约风险程度显着增加而发生的保险事故，保险人不承担赔偿保险金的责任”，那么，可以将修改前的句子“被保险人或其代理人未履行本通知义务，因危险程度显着增加而发生的保险事故，保险人不负责赔偿”标注为负样本，修改后的句子“被保险人未履行前述通知义务的，因借款人违约风险程度显着增加而发生的保险事故，保险人不承担赔偿保险金的责任”标注为正样本。

步骤S102，载入BERT预训练模型。

根据NLP下游任务选择不同的预训练语言模型，例如，在文本合规性检测的应用场景中，是做基于中文的文本分类，那么，可以下载对应的中文预训练模型，即BERT BASE模型。

在对训练语料进行数据预处理、数据标注，且准备好了BERT预训练模型后，下面开始用保险合同语料分层学习两个文本合规性检测分类模型，以供应用阶段使用。

第一层分类模型由一个BERT网络结构层、双向的长短时记忆模型(Bi-LSTM)层、最大池化层、线性层和第一分类层组成。训练模型的过程由前向计算和反向传播两个过程组成，其中，网络结构的前向计算过程为：先通过BERT预训练语言模型获得输入数据的语义表示，获取到句子中每个字的特征向量后，再将字向量序列连接到双向的长短时记忆模型(Bi-LSTM)层进行进一步的语义编码。

步骤S103，依次通过BERT网络结构层、Bi-LSTM网络结构层。最大池化层和线性层，获取到文本的最佳语义表示。

将训练第一层分类模型的文本数据通过BERT预训练语言模型生成对应的词向量序列，将这些字向量序列经过双向的长短时记忆网络Bi-LSTM层进行进一步的语义编码；对Bi-LSTM层输出结果经过最大池化层，采用max-pooling操作来获得输入序列的特征表示，它可以提取到最有用的特征，最后对池化后的特征向量依次连接一个线性层。

步骤S104，第一层采用sigmoid激活函数进行分类。

在训练第一层分类模型时，可以将线性层的输出数据连接到sigmoid分类层，从而利用sigmoid函数进行分类。

步骤S105，第二层采用softmax激活函数进行分类。

在训练第二层分类模型时，可以将线性层的输出数据连接到softmax分类层，从而利用softmax函数进行分类。

在本发明的一种优选实施例中，所述的方法还可以包括如下子步骤：

对所述待检测文本进行解析，得到目标检测文本；

在本发明实施例中，可以采用上述文本检测模型分层检测待检测文本的合规性，首先采用第一层分类模型进行粗分类，然后采用第二层分类模型对粗分类为存疑文本进行进一步的检测，确定存疑文本最终的合规性。

如图6示出了本发明的一种检测待检测文本的合规性的步骤流程图，具体包括如下步骤：

步骤S201，对待检测文本进行解析，生成目标检测文本。

具体的，解析过程可以包括分句处理，和数据预处理，其中，数据预处理可以包括去掉特殊字符、繁写转简写、英文大写转小写等。

步骤S202，将目标检测文本输入到训练好的第一层分类模型中。

采用文本检测模型的第一层分类模型对目标检测文本进行粗分类。

步骤S203中，如果第一层分类模型预测为合规，则返回“合规”，否则输入到第二层分类模型中。

具体的，如果第一层分类模型预测目标检测文本为合规，则可以确定目标检测文本为合规文本，如果判定目标检测文本不合规，则可以确定目标检测文本为存疑文本，并将存疑文本输入到第二层分类模型中。

步骤S204：如果第二层分类模型预测为合规，则返回“合规”，否则返回“不合规”。

进一步地，可以采用第二层分类模型对存疑文本进行精分类。如果第二层分类模型预测存疑文本为合规，则可以确定存疑文本为合规文本，如果预测存疑文本不合规，则可以确定存疑文本为不合规文本。

在本发明的一种优选实施例中，所述训练样本通过如下方式生成：

获取文本数据，并对所述文本数据进行分句处理，得到第一语料；对所述第一语料进行预处理，得到第二语料；对所述第二语料进行归类，得到绝对合规语料，边缘语料，新增语料和被删除语料；所述边缘语料包括修改前的语料和修改后的语料；将所述绝对合规语料和所述新增语料确定为第一正样本，将所述边缘语料和所述被删除语料确定为第一负样本，将所述第一正样本和第一负样本标注为第一训练样本；将所述修改后的语料确定为第二正样本，将所述修改前的语料和被删除语料确定为第二负样本，将所述第二正样本和第二负样本标注为第二训练样本。

具体的，可以对文本数据进行分句，将分句得到的句子作为训练模型的第一语料，对第一语料进行预处理得到第二语料，该预处理可以包括去掉特殊字符、繁写转简写、英文大写转小写等。然后，对第二语料进行归类，得到绝对合规语料，边缘语料，新增语料和被删除语料。其中，边缘语料指存在修改的句子，该边缘语料可以包括修改前的语料和修改后的语料。绝对合规语料指不存在修改的句子。新增语料指审核通过的合同中所新增的句子。被删除语料指合同原稿中被删除的句子。

在本发明实施例中，将绝对合规语料和新增语料确定为第一正样本，将边缘语料和被删除语料确定为第一负样本，将第一正样本和第一负样本标注为第一训练样本。

将修改后的语料确定为第二正样本，将修改前的语料和被删除语料确定为第二负样本，将第二正样本和第二负样本标注为第二训练样本。作为一种示例，合同原稿中的句子“被保险人或其代理人未履行本通知义务，因危险程度显着增加而发生的保险事故，保险人不负责赔偿”，在终稿(审核通过的合同)中被修改为“被保险人未履行前述通知义务的，因借款人违约风险程度显着增加而发生的保险事故，保险人不承担赔偿保险金的责任”，那么可以将修改前的句子“被保险人或其代理人未履行本通知义务，因危险程度显着增加而发生的保险事故，保险人不负责赔偿”标注为负样本，修改后的句子“被保险人未履行前述通知义务的，因借款人违约风险程度显着增加而发生的保险事故，保险人不承担赔偿保险金的责任”标注为正样本。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图7，示出了本发明的一种文本检测的装置实施例的结构框图，具体可以包括如下模块：

训练样本获取模块701，用于获取训练样本，所述训练样本包括第一训练样本和第二训练样本；

第一训练模块702，用于采用所述第一训练样本对预设第一初始模型进行训练，生成第一层分类模型；

第二训练模块703，用于采用所述第二训练样本对预设第二初始模型进行训练，生成第二层分类模型；

模型组合模块704，用于组合所述第一层分类模型和所述第二层分类模型得到文本检测模型，以采用所述文本检测模型检测待检测文本的合规性。

在本发明的一种优选实施例中，所述预设第一初始模型包含BERT结构层，长短时记忆模型层，最大池化层，线性层和第一分类层，所述第一训练模块702，包括：

在本发明的一种优选实施例中，所述预设第二初始模型包含BERT结构层，长短时记忆模型层，最大池化层，线性层和第二分类层，所述第二训练模块703，包括：

在本发明的一种优选实施例中，所述的装置还包括：

在本发明的一种优选实施例中，所述训练样本通过如下模块生成：

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本发明实施例还提供了一种电子设备，包括：

一个或多个处理器；和

其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述电子设备执行本发明实施例所述的方法的步骤。

本发明实施例还提供了一种计算机可读存储介质，其上存储有指令，当由一个或多个处理器执行时，使得所述处理器执行本发明实施例所述的方法的步骤。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种文本检测的方法和一种文本检测的装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种文本检测的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述预设第一初始模型包含BERT结构层，长短时记忆模型层，最大池化层，线性层和第一分类层，所述采用所述第一训练样本对预设第一初始模型进行训练，生成第一层分类模型，包括：

3.根据权利要求2所述的方法，其特征在于，所述第一分类层包含sigmoid激活函数，所述BERT结构层，长短时记忆模型层，最大池化层，线性层和第一分类层分别具有不同的学习率。

4.根据权利要求1所述的方法，其特征在于，所述预设第二初始模型包含BERT结构层，长短时记忆模型层，最大池化层，线性层和第二分类层，所述采用所述第二训练样本对预设第二初始模型进行训练，生成第二层分类模型，包括：

5.根据权利要求4所述的方法，其特征在于，所述第二分类层包含softmax激活函数，所述BERT结构层，长短时记忆模型层，最大池化层，线性层和第二分类层分别具有不同的学习率。

6.根据权利要求1所述的方法，其特征在于，所述的方法还包括：

对所述待检测文本进行解析，得到目标检测文本；

7.根据权利要求1所述的方法，其特征在于，所述训练样本通过如下方式生成：

对所述第一语料进行预处理，得到第二语料；

8.一种文本检测的装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括：

一个或多个处理器；和

其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述电子设备执行如权利要求1-7所述的一个或多个的方法的步骤。

10.一种计算机可读存储介质，其上存储有指令，当由一个或多个处理器执行时，使得所述处理器执行如权利要求1-7所述的一个或多个的方法的步骤。