CN112528643A

CN112528643A - 一种基于神经网络的文本信息提取方法及装置

Info

Publication number: CN112528643A
Application number: CN202011475339.9A
Authority: CN
Inventors: 姚毅; 王亚雷; 张亚辉; 周鹏; 吕德贺
Original assignee: Shanghai Qimeng Technology Co ltd
Current assignee: Shanghai Qimeng Technology Co ltd
Priority date: 2020-12-14
Filing date: 2020-12-14
Publication date: 2021-03-19

Abstract

本发明涉及自然语言处理技术领域，更具体的说，涉及一种基于神经网络的文本信息提取方法及装置。本发明提出的基于神经网络的文本信息提取方法，包括以下步骤：S1、输入训练文本数据；S2、快速训练模式下的文本预处理，提取构造通用文本特征信息；S3、构造快速训练模型并进行训练；S4、深度训练模式下的文本预处理；S5、构造深度训练模型并进行训练，深度训练模型为编码器解码器结构；S6、根据快速训练模型和/或深度训练模型对文本信息进行预测。本发明通过构建通用的特征提取模块和模型训练模块实现初步的信息提取，结合进行远程监督对初步信息提取结果进行修正，实现信息的自定义提取，通用性高、成本低、准确率高。

Description

一种基于神经网络的文本信息提取方法及装置

技术领域

本发明涉及自然语言处理技术领域，更具体的说，涉及一种基于神经网络的文本信息提取方法及装置。

背景技术

文本信息提取作为自然语言处理的基本技术，广泛应用各类数据挖掘、数据分析、文本处理、知识图谱构建等领域。文本信息提取是指，根据特定业务场景需求，从自然语言文本中获取所需的信息，形成结构化数据的过程。

近年来，随着文本提取技术的不断发展，多种技术不断发明出来。

例如，HMM(Hidden Markov Model)隐马尔科夫模型，通过统计文字与标签之间的转移概率与发射概率，使用Viterbi(维特比)算法求解隐藏状态最大值，取得不错的信息提取效果。

CRF(Conditional random field)条件随机场模型，作为用来标注和划分结构文本的概率模型，可以用于构造在给定一组输入随机变量的条件下，另一组输出随机变量的条件概率分布，也广泛应用于文本信息提取上。

实践证明，在大多数场景中，CRF模型可较HMM模型取得更优的结果。

除根据专家分析人工构成文本特征外，近年来通过深度学习的方法自动训练文本特征渐渐形成主流。

例如，使用LSTM(Long Short-Term Memory)长短期记忆网络，作为RNN(RecurrentNeural Network)中典型变体，可有效编码文本特征，尤其针对长文本，较其他模型可取得更好的效果。

又例如，IDCNN(Iterated Dilated Convolution Neural Network)膨胀卷积，一定程度上传统CNN无法编码长文本的缺点，也取得不错的效果。

另外，由谷歌提出的BERT(Bidirectional Encoder Representation fromTransformers)预训练语言模型，通过在大规模文本及强大的模型编码能力下预训练，在特定领域数据上微调过可取得更加优秀的效果。

可以看到，无论是构造文本特征，还是使用神经网络对文本进行编码，文本信息提取技术不断向前发展。

但是，各种技术却未能与产业迅速结合，普通人若要实现高准确率的信息提取模型，必须要付出诸如标注数据、提取规则设计、计算资源等高额成本。这些高额的成本阻碍了很多特定领域自动化信息提取技术的实现。

发明内容

本发明的目的是提供一种基于神经网络的文本信息提取方法和装置，解决现有技术的文本信息提取准确率低、成本高和通用性差的问题。

为了实现上述目的，本发明提供了一种基于神经网络的文本信息提取方法，包括以下步骤：

S1、输入训练文本数据；

S2、快速训练模式下的文本预处理，提取构造通用文本特征信息；

S3、构造快速训练模型并进行训练，快速训练模型包括但不限于CRF算法模型和HMM算法模型；

S4、深度训练模式下的文本预处理；

S5、构造深度训练模型并进行训练，深度训练模型为编码器解码器结构，所述编码器包括但不限于BERT算法模型、LSTM算法模型和IDCNN算法模型，所述解码器包括但不限于CRF算法模型和SOFTMAX算法模型；

S6、根据快速训练模型和/或深度训练模型对文本信息进行预测。

在一实施例中，所述步骤S1，进一步包括以下步骤：

基于远程监督自定义数据标签字段，自定义标注待提取文本段数据。

在一实施例中，所述步骤S6之后，进一步包括以下步骤：根据模型预测结果，对错误结果进行修正，迭代训练模型。

在一实施例中，所述步骤S2，进一步包括以下步骤：

S21、全角字符转半角字；

S22、中文繁体字转简体字；

S23、以滑动窗口分割语料，提取文本的通用特征数据，构造文本及上下文独立加组合特征，通用特征数据包括词性特征、实体识别特征和依存关系特征数据。

在一实施例中，所述步骤S3中的快速训练模型为CRF算法模型，构造CRF算法模型，进一步包括以下步骤：

S31、设输入数据为x_1:N，标签为z_1:N，则计算二者的条件概率可定义为，

其中，Z为归一化因子，f_i(z_n-1，z_n，x_1：N，n)为给定输入四参数的特征函数，参数z_n-1和z_n为相邻标签对，x_1:N为所有的输入数据，n为计算当前序列中的位置，λ_i为特征函数的权值参数；

S32、对最大化训练数据的条件概率，实施正则化后的计算结果，定义为快速训练模型的目标函数，表达式为：

其中，m为输入数据的批次大小参数，z为标签，x为输入数据，λ_i为特征函数的权值参数，σ为数据的标准差。

在一实施例中，所述步骤S4，进一步包括以下步骤：

S41、全角字符转半角字；

S42、中文繁体字转简体字；

S43、对英文使用进行双字节编码；

S44、字符编码转换，文本前后添加特殊字符，将自然字符转化为数字，构建字符数字对应关系表；

S45、根据指定序列长度补齐输入文本；

S46、构造输入掩码；

S47、构造段间隔，用于同一数据多句匹配。

在一实施例中，所述步骤S5中的编码器，将输入序列(x₁，...，x_n)转换成连续性的向量表示(z₁，...，z_n)：

编码器叠加6个相同的神经网络层；

所述神经网络层包括第一子层和第二子层，第一子层为多头注意力层，第二子层为全连接层；

每个子层之间使用残差模块，并进行层正则化计算。

在一实施例中，层正则化的计算公式如下：

其中，m为表示训练数据的批次大小参数，x_ij为输入数据，i、j为输入的维度。

在一实施例中，所述步骤S5中的解码器，将向量表示(z₁，...，z_n)生成输出序列(y₁，...，y_n)：

解码器叠加6个相同的神经网络层；

所述神经网络层包括第一子层、第二子层和第三子层，第一子层为多头注意力层，第二子层为全连接层，第三子层为多头注意力层；

每个子层之间使用残差模块，并进行层正则化计算。

在一实施例中，层正则化的计算公式如下：

在一实施例中，所述步骤S5，多头注意力层的输出为将每个头的输出结果拼接得到，每个头的输出为：

其中，Q、K和V为输入数据，d_k为Q和K的维度；

softmax函数的表达式为，

其中，V_i为输入数据，C为输入数据的大小。

在一实施例中，所述步骤S5的编码器和解码器中，采用文本位置向量矩阵，计算公式如下：

其中，PE表示位置矩阵，pos表示位置，i表示维度，d_model表示文本输入的维度。

在一实施例中，所述步骤S5中，采用深度训练模型训练之前，加载预训练模型：

所述预训练模型，为BERT模型，在大规模文本上进行预训练操作，预训练结束后保存预训练权重。

为了实现上述目的，本发明提供了一种基于神经网络的文本信息提取装置，其特征在于，包括远程监督模块、特征提取模块和模型训练模块：

所述远程监督模块，与特征提取模块、模型训练模块连接，向特征提取模块发送目标文本数据，接收模型训练模块发送的文本预测结果并进行修正，将修正结果发送至模型训练模块；

特征提取模块，根据训练模型对目标文本数据进行提取获得文本特征信息并发送至模型训练模块；

模型训练模块，根据文本特征信息进行训练得到训练模型进行预测，将预测结果反馈至远程监督模块，所述训练模型包括快速训练模型和深度训练模型。

在一实施例中，所述远程监督模块，包括数据标注单元和数据纠正单元：

所述数据标注单元，上传或输入目标文本数据，自定义数据标签，标注待提取文本段；

所述数据纠正单元，根据模型预测的结果，对预测错误的结果进行纠正。

在一实施例中，所述模型训练模块，包括快速训练模型的编码器，所述编码器通过以下方式构建快速训练模型：

设输入数据为x_1:N，标签为z_1:N，则二者的条件概率可定义为，

定义模型的目标函数为最大化训练数据的条件概率，实施正则化后的计算结果，表达式为：

在一实施例中，所述模型训练模块，包括深度训练模型的编码器和解码器：

所述编码器，将输入序列(x₁，...，x_n)转换成连续性的向量表示(z₁，...，z_n)，叠加6个相同的神经网络层，所述神经网络层包括第一子层和第二子层，第一子层为多头注意力层，第二子层为全连接层，每个子层之间使用残差模块，并进行层正则化计算；

所述解码器，将向量表示(z₁，...，z_n)生成输出序列(y₁，...，y_n)，叠加6个相同的神经网络层，所述神经网络层包括第一子层、第二子层和第三子层，第一子层为多头注意力层，第二子层为全连接层，第三子层为多头注意力层，每个子层之间使用残差模块，并进行层正则化计算。

在一实施例中，多头注意力层的输出为将每个头的输出结果拼接得到，每个头的输出为：

其中，Q、K和V为输入数据，d_k为Q和K的维度；

softmax函数的表达式为，

其中，V_i为输入数据，C为输入数据的大小。

在一实施例中，编码器和解码器中，采用文本位置向量矩阵，计算公式如下：

本发明提供的一种基于神经网络的文本信息提取方法和装置，通过构建通用的特征提取模块和模型训练模块实现初步的信息提取，结合用户自身的需求和专业知识背景进行远程监督，对初步信息提取结果进行修正，将修正后的数据导入模型中进行迭代，从而形成闭环的优化模型系统，可实现信息的自定义提取，通用性高、成本低、准确率高。

附图说明

本发明上述的以及其他的特征、性质和优势将通过下面结合附图和实施例的描述而变的更加明显，在附图中相同的附图标记始终表示相同的特征，其中：

图1揭示了根据本发明一实施例的基于神经网络的文本信息提取方法流程图；

图2揭示了根据本发明一实施例的基于神经网络的文本信息提取装置结构图；

图3揭示了根据本发明一实施例的基于神经网络的文本信息提取装置的工作模式示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释发明，并不用于限定发明。

本发明的发明目的是基于通用特征提取器与通用编码器，结合用户远程监督，实现自然语言文本自定义提取，实现准确率的持续循环增长。

为实现上述目的，本发明提出的一种基于神经网络的文本信息提取方法，图1揭示了根据本发明一实施例的基于神经网络的文本信息提取方法流程图，如图1所示，本发明提出的基于神经网络的文本信息提取方法，基于机器学习、深度学习等算法，结合客户端远程监督，具体包含以下步骤：

S1、输入训练文本数据；

S4、深度训练模式下的文本预处理；

下面详细说明具体的每一步骤。

S1、输入训练文本数据。

基于用户远程监督，用户进行上传数据、自定义数据标签字段，自定义标注待提取文本段数据以及修改模型标注结果等。

S2、快速训练模式下的文本预处理。

对步骤S1产生的文本数据进行预处理，构造通过特征提取器构造文本特征，构造成步骤S3中快速训练模式所需的格式。

所述步骤S2，进一步包括以下步骤：

S21、全角字符转半角字。

全角字符与半角字符之间仅仅存在格式差别，文字内容语义无差别，转换之后可显著减少字符类别数量，降低模型训练难度。

S22、中文繁体字转简体字。

类似的，中文的繁体字与简体字之间文字内容语义无差别，转换之后可显著减少字符类别数量，降低模型训练难度。

S23、提取文本的通用特征数据。

首先获取基本特征数据。

使用开源工具获取词性特征、实体识别特征、依存关系特征数据。

可选的，开源工具可使用jieba(结巴，百度工程师开源的NLP工具)或standfordnlp(斯坦福NLP)等工具。

以5个字作为滑动窗口分割语料，构造文本及上下文独立加组合特征。

S3、构造快速训练模型并进行训练。

本实施例中，使用CRF算法，根据预置的优化算法、迭代次数、正则系统等参数，基于步骤B中返回的文本特征训练模型，并保存模型权重文件。

所述步骤S3，构建CRF算法模型，进一步包括以下步骤：

S31、设输入数据为x_1:N，标签为z_1:N，则二者的条件概率可定义为，

其中，Z为归一化因子，使其概率归一化为有效概率；

f_i(z_n-1,z_n，x_1：n，n)为给定输入四参数的特征函数；

参数z_n-1和z_n为相邻标签对；

x_1:N为所有的输入数据；

n为计算当前序列中的位置；

λ_i为特征函数的权值参数，随机初始化后经训练确定实际值，作用是判断特征函数的权值，如果值为正，则该特征函数起作用，若值为负，则该特征函数不起作用；

S32、定义模型的目标函数，为最大化训练数据的条件概率函数，表达式为：

其中，m为输入数据的批次大小参数。

更进一步的，对上述条件概率函数实施正则化，防止过拟合，生成的目标函数的表达式为：

在其他实施例中，可以选择其他算法如HMM算法等，并根据实际情况，调整相关参数。无论使用CRF算法、HMM算法或者采用其他算法，均符合整体系统架构。

S4、深度训练模式下的文本预处理。

对步骤S1产生的文本数据进行预处理，使用Byte Pair Encoding进行双字节编码，并构造为输入步骤S5中神经网络模型的特定格式的数据。

所述步骤S4，进一步包括以下步骤：

S41、全角字符转半角字。

S42、中文繁体字转简体字。

S43、对英文使用BPE(Byte-Pair Encoding)进行双字节编码。

为了更好的处理英文数据，防止使用英文单词产生的OOV(Out of Vocabulary)问题，对英文使用BPE(Byte-Pair Encoding)进行双字节编码。具体操作为，对确定的文本数据，建立初始词汇库，指定词汇库大小，本实施例中，指定为30000。

将文本数据所有字符输入词汇库，然后不断以滑动窗口进行词性判断，并将符合词性判断的文本加入到词汇库中，直到词汇库的大小达到指定的词汇库大小为止。

可选的，词性判断通过jieba等开源工具完成。

S44、字符编码转换。

文本前添加特殊字符[CLS]，文本末尾添加特殊字符[SEP]。

每段将自然字符转化为数字，构建字符数字对应关系表。

S45、根据指定序列长度补齐输入文本。

补齐的目的是为了让多个数据长度相同，这样可以将多个训练数据构造成矩阵形式，方便模型按照一个batch(批次)的形式训练。

Padding(补齐)后形成输入数据，可表示为：

input_ids(shape＝batch_size*max_sequence_length)。

上述伪代码对应的参数含义表示输入数据的矩阵维度为：每批次含有的数据条数*(乘以)指定序列长度。

S46、构造输入掩码。

真实的输入数据对应为1，Padding构造的数据对应于0。

这样每条数据对应的输入掩码为由0和1构成，长度为指定文本长度的一维向量。可表示为：

input_masks(shape＝batch_size*max_sequence_length)。

上述伪代码对应的参数含义表示输入掩码的矩阵维度为：每批次含有的数据条数*(乘以)指定序列长度。

S47、构造段间隔。

段间隔主要用于同一数据多句匹配等任务。

本实施例中，直接根据数据长度设置为全0的向量即可，可表示为：

segment_ids(shape＝batch_size*max_sequence_length)。

上述伪代码对应的参数含义表示段间隔的矩阵维度为：每批次含有的数据条数*(乘以)指定序列长度。

S5：构造深度训练模型并进行训练。

深度训练模型整体结构为典型的编码器解码器结构。

本实施例中，深度训练模型为BERT+CRF模型，构造以BERT算法为基础的编码器对步骤S4输入的数据进行编码，编码后以CRF算法为基础的解码器进行解码，多次迭代训练完毕后，保存模型权重文件。

编码器，将输入数据序列(x₁，...，x_n)转换成连续性的向量表示(z₁，...，z_n)。

解码器，将向量表示(z₁，...，z_n)生成输出序列(y₁，...，y_n)。

所述步骤S5，构造以BERT为基础的编码器对输入数据进行编码，进一步包括以下步骤：

编码器叠加6个相同的神经网络层；

每一层的神经网络层均包括第一子层和第二子层，第一子层为多头注意力层，第二子层为全连接层；

每个子层之间使用了残差模块，并进行层正则化计算。

所述残差是指预测值和观测值之间的差距。

残差网络的一层通常可以看做y＝H(x)，而残差网络的一个残差块可以表示为H(x)＝F(x)+x，也就是F(x)＝H(x)-x，在单位映射中，y＝x便是观测值，而H(x)是预测值，所以F(x)便对应着残差，因此叫做残差网络。其作用防止梯度消失，加深网络深度。

层正则化的作用是防止模型过拟合，层正则化的计算公式如下：

其中，m为表示训练数据的batch大小，x_ij为输入数据，i、j为输入的维度，

为输出数据；

经过上述层正则化公式的转换，矩阵中的每个元素数据均在层级别进行了正则化处理。

所述步骤S5，以CRF算法进行解码，CRF算法与步骤S3中的相同，进一步包括以下步骤：

解码器同样叠加了6个相同的神经网络层；

与编码器不同的是，解码器每一层的神经网络层包含三个子层。相比较编码器的子层，解码器增加了第三子层，为一个多头注意力层，用于接收编码器的输出。

解码器同样包含了残差模块和正则化层。

对每个子层之间使用残差模块，并进行层正则化计算。

所述多头注意力层，每个头的输出可通过如下公式计算：

其中，Q、K和V为输入数据，d_k为Q和K的维度；

softmax函数的表达式为，

其中，V_i为输入数据，C为输入数据的大小。

多头注意力就是上面的同样的操作，实施多次并将结果拼接后接上全接连层得到最终结果。

设头的数量为h，则多头注意力的输出可表示为：

MultiHead(Q，K，V)＝Concat(head₁，...，head_h)W^O；

其中，h表示头的数目，W^O表示输出层的权值，W_i ^Q表示第i个头中Q的权值，W_i ^K表示第i个头中K的权值，W_i ^V表示第i个头中V的权值。

Concat函数将多个矩阵按维度进行拼接。

编码器和解码器中，需要采用文本位置向量矩阵，计算公式如下：

更进一步的，在采用深度训练模型的BERT+CRF模型训练之前，加载预训练模型。

可选的，使用上述BERT模型在大规模文本上进行预训练操作，预训练结束后保存预训练权重。

在其他实施例中，也可以使用开源的其他方训练好的预训练模型。

在其他实施例中，可以采用其他编码器，如LSTM、IDCNN等作为编码器，也可以采用SOFTMAX等作为解码器。

SOFTMAX算法模型为：

其中，V_i为输入数据，C为输入数据的大小。

S6、根据快速训练模型和/或深度训练模型对文本信息进行提取。

在用户标注或纠正的数据基础上进行再次微调训练，根据训练情况调整训练时间和迭代次数。

所述步骤S6之后，进一步包括以下步骤：根据模型预测结果，对错误结果进行修正，迭代训练模型。

快速训练模型和深度训练模型的侧重点不同，方便用户根据自身场景进行选择。

快速训练模型所需时长较短，模型提取准确度较差；深度训练模式即为训练采用了BERT编码的模型，训练时间较长，在长文本提取中准确率较高。

另需要注意，本实施例步骤S3和步骤S5中涉及大量的参数。在实际操作过程中，可以根据实际情况调整这些参数。无论选择什么参数，均符合本系统的实现。本实施例中指定的参数仅是一个优选方案。

为实现上述目的，本发明提出的一种基于神经网络的文本信息提取装置，图2和图3分别揭示了根据本发明一实施例的基于神经网络的文本信息提取装置结构图和工作模式示意图，如图2和图3所示，本发明提出的基于神经网络的文本信息提取装置，包括远程监督模块100、特征提取模块200和模型训练模块300：

所述远程监督模块100，与特征提取模块200、模型训练模块300连接，向特征提取模块200发送目标文本数据，接收模型训练模块300发送的文本预测结果并进行修正，将修正结果发送至模型训练模块300；

特征提取模块200，根据训练模型对目标文本数据进行提取获得文本特征信息并发送至模型训练模块300；

模型训练模块300，根据文本特征信息进行训练得到训练模型进行预测，将预测结果反馈至远程监督模块100，所述训练模型包括快速训练模型和深度训练模型。

更进一步的，所述远程监督模块100，包括数据标注单元和数据纠正单元：

所述数据标注单元，用户可根据该单元，上传或输入目标文本数据，自定义数据标签，标注待提取文本段；

所述数据纠正单元，用户根据模型预测的结果，对预测错误的结果进行纠正。

具体纠正操作包含：左边界纠正，右边界纠正，遗漏补充，错误删除等。

左边界纠正是指在模型预测的基础上，可自定义地调整待提取文本段的开始位置；

右边界纠正是指在模型预测的基础上，可自定义地调整待提取文本段的结束位置；

遗漏补充是指可自定义地补充模型预测的遗漏部分；

错误删除是指可自定义地删除模型预测的错误部分。

所述特征提取模块200，采用上述方法的步骤S2进行快速训练模式下的文本预处理。

所述特征提取模块200，采用上述方法的步骤S4进行深度训练模式下的文本预处理。

更进一步的，特征提取模块200包括通用内置特征提取引擎，用于在快速训练模式下，生成文本特征，训练快速提取模型。

更进一步的，通用内置特征提取引擎，可在不同的文字场景条件下，自动构造文本特征。

所述模型训练模块300，包括快速训练模型的编码器，所述编码器通过上述方法的步骤S3构建快速训练模型并进行训练。

所述模型训练模块300，包括深度训练模型的编码器和解码器，所述编码器和解码器通过上述方法的步骤S5构建并进行训练。

更进一步的，模型训练模块300的编码器为内置通用编码器，与通用内置特征提取引擎紧密结合，可接受通用范围内自然语言数据，针对自定义数据做编码处理。

更进一步的，模型训练模块300在采用深度训练模型的BERT+CRF模型训练之前，加载预训练模型。

本发明提出的一种基于神经网络的文本信息提取装置，基于远程监督流程，从客户端输入，结合特征提取模块200和模型训练模块300，再根据客户端的自定义反馈，多周期循环，最终实现可提取自定义内容，不断提高准确率的效果。

尽管为使解释简单化将上述方法图示并描述为一系列动作，但是应理解并领会，这些方法不受动作的次序所限，因为根据一个或多个实施例，一些动作可按不同次序发生和/或与来自本文中图示和描述或本文中未图示和描述但本领域技术人员可以理解的其他动作并发地发生。

如本申请和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其他的步骤或元素。

本领域技术人员将进一步领会，结合本文中所公开的实施例来描述的各种解说性逻辑板块、模块、电路、和算法步骤可实现为电子硬件、计算机软件、或这两者的组合。为清楚地解说硬件与软件的这一可互换性，各种解说性组件、框、模块、电路、和步骤在上面是以其功能性的形式作一般化描述的。此类功能性是被实现为硬件还是软件取决于具体应用和施加于整体系统的设计约束。技术人员对于每种特定应用可用不同的方式来实现所描述的功能性，但这样的实现决策不应被解读成导致脱离了本发明的范围。

上述实施例是提供给熟悉本领域内的人员来实现或使用本发明的，熟悉本领域的人员可在不脱离本发明的发明思想的情况下，对上述实施例做出种种修改或变化，因而本发明的保护范围并不被上述实施例所限，而应该是符合权利要求书提到的创新性特征的最大范围。