CN116028595A

CN116028595A - 一种基于非结构化文档内容的自动识别方法

Info

Publication number: CN116028595A
Application number: CN202310059604.2A
Authority: CN
Inventors: 王栋; 刘宁; 赵书函; 杨明杰; 张驰; 陈沛
Original assignee: Information and Telecommunication Branch of State Grid Gansu Electric Power Co Ltd
Current assignee: Information and Telecommunication Branch of State Grid Gansu Electric Power Co Ltd
Priority date: 2023-01-17
Filing date: 2023-01-17
Publication date: 2023-04-28

Abstract

本发明是一种基于非结构化文档内容的自动识别方法，包括：根据电网公司在生产经营、经验管理过程中产生的各类非结构化数据确定语料库数据来源，将公司业务文档和电力业务以及巡检报告作为电力专业语料来源，建立具有电力专业特点的语料库；对语料库使用语料分词、词性标注和去停用词的方法，得到方便后续处理的语料；通过一个基于预训练的特征提取网络BERT对电网非结构化文本进行特征提取形成网络模型，网络模型预先在大算力的服务器上对大型句子语料库进行预训练，电力业务数据作为下游任务对模型训练微调模型参数，用于电网非结构化文本分析和分类中。本发明可以使智能分析系统更准确地捕捉非结构化文本的特征以便进行后续文本分类或分析。

Description

一种基于非结构化文档内容的自动识别方法

技术领域

本发明涉及电网非结构化文本分析和分类的技术领域，尤其涉及一种基于非结构化文档内容的自动识别方法。

背景技术

随着互联网和大数据的日益发展，电网企业在信息化建设过程中产出数据量越来越大，非结构化数据占比也在逐步增大。非结构化数据指文本、图像、视频/音频、网页等无法用数据库二维逻辑表来表示的数据结构，是企业重要的数据资产，在提高企业竞争力方面正发挥越来越重要的作用。然而，非结构化数据往往数据类型多、数据量大，难以统一管理和充分利用，同时非结构化数据挖掘的业务需求不明确，缺乏统一的业务数据模型规范导致非结构化数据不能有效的利用。

自然语言处理是计算机科学领域和人工智能领域的一个重要方向，主要研究人与计算机之间进行有效通信的理论和方法。针对非结构化文档数据量庞大，冗余信息多等特点，将前沿的自然语言处理、深度学习等技术应用到非结构化数据的抽取、挖掘中，转化为易于分析的结构化数据，对于企业信息化建设具有重要意义。

文档分类识别作为自然语言处理的基本问题，主要用于识别文本单元(段落、句子、文档)的类型，可用于内容审核、内容过滤、敏感文件检测等。但由于文本数据来源的广泛性和数据非结构化的性质，文本分类识别任务非常具有挑战性。

企业在日常业务中会产出大量的数据，但可用于数据库处理的结构化数据占比较少，往往只占数据总量的20％，而其余80％的非结构化数据无法使用数据库来处理，随着大数据领域的不断发展，非结构化数据的管理和利用将会愈发重要，当前企业在非结构化数据管理方面存在一系列问题：

1、企业对非结构化数据挖掘的业务需求缺乏清晰的认识和应用能力。

2、企业缺乏针对非结构化文档数据管理平台的统一规划。

3、非结构化文档数据模型缺乏统一的业务规范，难以跨部门流通和共享，同时各业务系统对非结构化数据交互访问存在结构复杂、实现方式多样等问题，难以展开统一规范管理和高效存储。

发明内容

本发明旨在解决现有技术的不足，而提供一种基于非结构化文档内容的自动识别方法，利用前沿的深度学习和自然语言处理技术，充分发挥非结构化数据的重要价值，并应用于电网非结构化文本分析和分类中。

本发明为实现上述目的，采用以下技术方案：

一种基于非结构化文档内容的自动识别方法，具体包括：

S1、电力业务数据语料库的构建：

根据电网公司在生产经营、经验管理过程中产生的各类非结构化数据确定语料库数据来源，将公司业务文档和电力业务以及巡检报告作为电力专业语料来源，建立具有电力专业特点的语料库；

对语料库使用语料分词、词性标注和去停用词的方法，得到方便后续处理的语料；

S2、基于文本预训练模型的非结构化数据识别：

通过一个基于预训练的特征提取网络BERT(Bidirectional EncoderRepresentations from Transformers)对电网非结构化文本进行特征提取形成网络模型，所述的网络模型预先在大算力的服务器上对大型句子语料库进行预训练，电力业务数据作为下游任务对模型训练微调模型参数，之后用于电网非结构化文本分析和分类中。

步骤S1中电力业务数据语料库的构建依次包括：数据采集、数据清洗、语料分词和词性标注、词频统计。

数据采集、数据清洗的过程为：使用爬虫的方法获得电网公司在互联网上的OA系统各种文本语料；对于所爬取到的数据进行数据清洗和数据转换操作，消除冗余数据或编码错误。

语料分词和词性标注的过程为：针对电力行业所构建的专业语料库在基础词表的基础上增加电力专业词表，包括电力常用词汇、电工电气、电力设备专业词表；对清洗之后的语料进行分词和词性标注，获得电力行业语料库。

词频统计的过程为：对分词后的语料库进行词频统计来获得语料库的整体信息。

步骤S1中，业务文档包括发文、收文、通知；电力业务包括输电、变电、配电、发电。

步骤S2中网络模型的框架由词嵌入层、Transformer编码层和输出层组成。

词嵌入层包括Token嵌入层、Segment嵌入层和Position嵌入层；

词嵌入层处理过程如下：

首先对输入的每个字符经过Token嵌入层将字符转换为固定维的向量表示形式，之后使用Segment嵌入层对每个句子进行量化表示，最后使用Position嵌入层对每一个字符进行位置向量表示，最后对这些层的元素进行相加求和并输入到Transformer编码器层。

Transformer编码层的处理过程如下：

Transformer编码层对输入分别计算K向量、Q向量和V向量，K向量为键值向量，Q向量为查询向量，V向量为值向量；

设输入为X_i，分别通过线性层神经网络W来计算K、Q和V矩阵，具体计算过程如下式所示：

K＝X_i·W_k

Q＝X_i·W_q

V＝X_i·W_v

在得到每个字符的K、Q、V三个矩阵后，需要得到每个字符的加权求和表示，为：

在得到所有字符的加权融合的结果后，经过并正则化层、线性层、Dropout、残差连接等操作得到最后的输出向量。

输出层的处理过程如下：在经过多层的Transformer层提取特征后，接入一个Softmax函数充当分类器来完成对电网非结构化文本数据的分析或分类。

本发明的有益效果是：本发明可以使智能分析系统更准确地捕捉非结构化文本的特征以便进行后续文本分类或分析。

附图说明

图1为本发明的流程图；

以下将结合本发明的实施例参照附图进行详细叙述。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。在下列段落中参照附图以举例方式更具体地描述本发明。根据下面说明和权利要求书，本发明的优点和特征将更清楚。需说明的是，附图均采用非常简化的形式且均使用非精准的比例，仅用以方便、明晰地辅助说明本发明实施例的目的。

需要说明的是，当组件被称为“固定于”另一个组件，它可以直接在另一个组件上或者也可以存在居中的组件。当一个组件被认为是“连接”另一个组件，它可以是直接连接到另一个组件或者可能同时存在居中组件。当一个组件被认为是“设置于”另一个组件，它可以是直接设置在另一个组件上或者可能同时存在居中组件。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。

下面结合附图和实施例对本发明作进一步说明：

鉴于企业在非结构化数据管理应用方面存在的诸多问题，同时根据非结构化数据量大，冗余信息多等特点，本发明利用前沿的深度学习和自然语言处理技术，提出一种基于非结构化文档内容的自动识别方法，充分发挥非结构化数据的重要价值，并应用于电网非结构化文本分析和分类中。

一种基于非结构化文档内容的自动识别方法，如图1所示，具体包括：

S1、电力业务数据语料库的构建：

根据电网公司在生产经营、经验管理过程中产生的各类非结构化数据确定语料库数据来源，将公司业务文档和电力业务以及巡检报告作为电力专业语料来源，建立具有电力专业特点的语料库；业务文档包括发文、收文、通知，但不限于此；电力业务包括输电、变电、配电、发电，但不限于此。

对语料库使用语料分词、词性标注和去停用词的方法，当然不限于这些方法，得到方便后续处理的语料；

具体包括：数据采集、数据清洗、语料分词和词性标注、词频统计。

数据采集：使用爬虫等方法获得电网公司在互联网上的OA系统各种文本语料；

数据清洗：对于所爬取到的数据进行数据清洗和数据转换操作，消除冗余数据或编码错误。

语料分词和词性标注：针对电力行业所构建的专业语料库在基础词表的基础上增加电力专业词表，包括电力常用词汇、电工电气、电力设备专业词表；对清洗之后的语料进行分词和词性标注，获得电力行业语料库。

词频统计：对分词后的语料库进行词频统计来获得语料库的整体信息。

S2、基于文本预训练模型的非结构化数据识别：

通过一个基于预训练的特征提取网络BERT(Bidirectional EncoderRepresentations from Transformers)对电网非结构化文本进行特征提取，网络模型是谷歌公司预先在大算力的服务器上对大型句子语料库进行预训练，电力业务数据作为下游任务对模型训练微调模型参数，之后用于电网非结构化文本分析和分类中。

网络模型的框架由词嵌入层、Transformer编码层和输出层组成。

词嵌入层包括Token嵌入层、Segment嵌入层和Position嵌入层；

词嵌入层：首先对输入的每个字符经过Token嵌入层将字符转换为固定维(768维)的向量表示形式，即每个输入的字符都是一个768维度的向量表示形式，之后使用Segment嵌入层对每个句子进行量化表示，最后使用Position嵌入层对每一个字符进行位置向量表示，最后对这些层的元素进行相加求和并输入到Transformer编码器层。

Transformer编码层：Transformer编码层对输入分别计算K向量(key，键值向量)、Q向量(Query，查询向量)和V向量(Value，值向量)；

具体为：设输入为X_i，分别通过线性层神经网络W来计算K、Q和V矩阵，具体计算过程如下式所示：

K＝X_i·W_k

Q＝X_i·W_q

V＝X_i·W_v

在得到每个字符的K、Q、V三个矩阵后，需要得到每个字符的加权求和表示，例如，对于某个字符而言，其Q矩阵分别与所有字符的K矩阵做矩阵乘法运算，之后对结果进行缩放并使用Softmax函数对结果进行归一化处理，将结果归一化到0到1之间，其目的是寻找当前字符与所有字符的关联程度，越接近1代表关联程度越高。之后其结果作为权重与V矩阵做矩阵乘法运算，得到当前字符的加权求和表示，该流程也称为自注意力机制。在实际处理中，以上过程可简化为：

输出层：在经过多层的Transformer层提取特征后，接入一个Softmax函数充当分类器来完成对电网非结构化文本数据的分析或分类。

本发明专利针对海量非结构化文档数据智能分析与应用提出一种电力行业的非结构化数据文本识别方法，该方法包括电力业务数据语料库的构建和基于文本预训练模型的非结构化数据识别，可以使智能分析系统更准确地捕捉非结构化文本的特征以便进行后续文本分类或分析。

上面结合附图对本发明进行了示例性描述，显然本发明具体实现并不受上述方式的限制，只要采用了本发明的方法构思和技术方案进行的各种改进，或未经改进直接应用于其它场合的，均在本发明的保护范围之内。

Claims

1.一种基于非结构化文档内容的自动识别方法，其特征在于，具体包括：

S1、电力业务数据语料库的构建：

S2、基于文本预训练模型的非结构化数据识别：

通过一个基于预训练的特征提取网络BERT对电网非结构化文本进行特征提取形成网络模型，所述的网络模型预先在大算力的服务器上对大型句子语料库进行预训练，电力业务数据作为下游任务对模型训练微调模型参数，之后用于电网非结构化文本分析和分类中。

2.根据权利要求1所述的一种基于非结构化文档内容的自动识别方法，其特征在于，步骤S1中电力业务数据语料库的构建依次包括：数据采集、数据清洗、语料分词和词性标注、词频统计。

3.根据权利要求2所述的一种基于非结构化文档内容的自动识别方法，其特征在于，数据采集、数据清洗的过程为：使用爬虫的方法获得电网公司在互联网上的OA系统各种文本语料；对于所爬取到的数据进行数据清洗和数据转换操作，消除冗余数据或编码错误。

4.根据权利要求3所述的一种基于非结构化文档内容的自动识别方法，其特征在于，语料分词和词性标注的过程为：针对电力行业所构建的专业语料库在基础词表的基础上增加电力专业词表，包括电力常用词汇、电工电气、电力设备专业词表；对清洗之后的语料进行分词和词性标注，获得电力行业语料库。

5.根据权利要求4所述的一种基于非结构化文档内容的自动识别方法，其特征在于，词频统计的过程为：对分词后的语料库进行词频统计来获得语料库的整体信息。

6.根据权利要求5所述的一种基于非结构化文档内容的自动识别方法，其特征在于，步骤S1中，业务文档包括发文、收文、通知；电力业务包括输电、变电、配电、发电。

7.根据权利要求1所述的一种基于非结构化文档内容的自动识别方法，其特征在于，

8.根据权利要求7所述的一种基于非结构化文档内容的自动识别方法，其特征在于，

词嵌入层包括Token嵌入层、Segment嵌入层和Position嵌入层；

词嵌入层处理过程如下：

9.根据权利要求8所述的一种基于非结构化文档内容的自动识别方法，其特征在于，

Transformer编码层的处理过程如下：

K＝X_i·W_k

Q＝X_i·W_q

V＝X_i·W_v

10.根据权利要求9所述的一种基于非结构化文档内容的自动识别方法，其特征在于，