CN113486177A

CN113486177A - 一种基于文本分类的电力领域表格列标注方法

Info

Publication number: CN113486177A
Application number: CN202110782328.3A
Authority: CN
Inventors: 张云菊; 郭明; 史虎军; 杨强; 张玉罗; 邢苗苗; 石启宏
Original assignee: Guizhou Power Grid Co Ltd
Current assignee: Guizhou Power Grid Co Ltd
Priority date: 2021-07-12
Filing date: 2021-07-12
Publication date: 2021-10-08

Abstract

本发明公开了一种基于文本分类的电力领域表格列标注方法，它包括：步骤1、采集电力领域相关表格文本语料，对于表格中的每一行，从该行中提取实体或句子，利用搜索引擎搜索该实体，获取该实体对应的搜索结果；步骤2、从搜索结果条目中抽取锚文本形成摘要，并用电力领域关键词库进行过滤，过滤掉不包含电力领域关键词的摘要，从而组成该单元格内容要素的上下文；步骤3、将单元格的上下文输入到基于预训练模型分类器中，获得该单元格要素属于的类别，并分类标注；步骤4、对于表格中的一列，根据列中单元格内容元素所属类别，确定该列的列标签；解决了现有技术对电力领域表格列标注存在较大的局限性等技术问题。

Description

一种基于文本分类的电力领域表格列标注方法

技术领域

本发明属于自然语言处理技术领域，尤其涉及一种基于文本分类的电力领域表格列标注方法。

背景技术

互联网上数以亿计的表格具备良好的结构化特性和潜在的语义特性，相较于非结构化的文本数据引起半结构化的特性更容易识别其语义信息，因此，近年来基于网络表格的知识获取成为了研究热点，表格数据也已被用于知识库的构建、扩展、数据融合等方面的研究。通常情况下，表格包含一列是实体列，这一列所有元素都是具有相似性的实体，其它列为属性列，描述实体的属性。表中的每一行由一个实体及其相关属性值组成。同一列的单元格所包含的内容具有相似性。但是大量网络表格缺少明确的列名、列间关系等关键语义信息，使得计算机不能直接对表格进行知识获取，因此，如何获得表格列语义标签成为了基于表格的知识获取的重要研究问题，是三大关键技术问题之一。

在实际的电力领域知识库构建过程，知识来源于电力领域的文本内容，具有很高的电力领域的特色。电力领域文本文档中存在着大量的表头缺失的表格，还有很多数据库表也缺乏明确且有意义的列名，因此，基于电力领域表格的特点，本发明解决中文电力领域网络表格的列标注问题。

目前，针对中文电力领域表格的列标注研究甚少，已有的方法大多是基于YAGO、DBpedia、Probase等语义丰富的知识库或Web上获取的知识数据库。通用方法将表格中的单元格元素映射到知识库或Web数据库中的概念，进而获得多个候选列标签，最后综合一列所有单元格元素对应的概念，通过某种评估方法选择可能性最大的概念作为列最合适的列标签。

目前，公开可用且语义知识比较完备的中文知识库基本没有，面向电力领域的知识库更是基本没有，这就给常用的基于知识库的语义表格列标注方法带来很大的局限性，导致很多表格中的元素在知识库中找不到对应的概念，严重降低方法的召回率。同时，由于知识库很难做到完全完备，知识库中欧未知的知识标签就发现不了，从而导致方法具有较大的局限性。此外，由于电力领域表格中的单元格元素并没有统一规范成一个词或词组，经常会是句子，因此就无法从知识库中获取到概念。

发明内容

本发明要解决的技术问题是：提供一种基于文本分类的电力领域表格列标注方法，以解决现有技术对电力领域表格列标注存在较大的局限性等技术问题。

本发明技术方案：

一种基于文本分类的电力领域表格列标注方法，它包括：

步骤1、采集电力领域相关表格文本语料，对于表格中的每一行，从该行中提取实体或句子，利用搜索引擎搜索该实体，获取该实体对应的搜索结果；

步骤2、从搜索结果条目中抽取锚文本形成摘要，并用电力领域关键词库进行过滤，过滤掉不包含电力领域关键词的摘要，从而组成该单元格内容要素的上下文；

步骤3、将单元格的上下文输入到基于预训练模型分类器中，获得该单元格要素属于的类别，并分类标注；

步骤4、对于表格中的一列，根据列中单元格内容元素所属类别，确定该列的列标签。

步骤1的实现方法为：首先获取电力领域相关百度百科的文本语料，然后从电力领域的百科语料中半结构化的infobox中抽取“属性名-属性值”对信息，通过分析网页的html结构化特征获取infobox中的“属性名-属性值”，然后通过搜索引擎搜索“属性名-属性值”中的实际概念，获取该对应的搜索结果。

在搜索的过程中，如果有一个以上锚文本包含该关键词，则将这些句子组成该关键字的相关文本，与属性名共同形成一个训练样本；如果没有句子包含完整的关键词，则对该关键词进行分词处理，以分词为关键词进行搜索，抽取包含一个或一个以上的关键词的句子。

获取到训练样本之后对文本语料进行预处理及向量化表示，然后使用向量化的文本数据进行分类器训练与参数学习。

分类器训练与参数学习的方法为：预先在大规模无标注语料库上进行语言模型的训练以得到通用的、上下文相关的特征表示，并使用这些特征表示对模型初始化，最终在具体的下游任务对参数进行微调以达到更好的模型效果；预训练模型从语料中学习得到通用的语言表示，提高模型的泛化能力和加速模型收敛；使用BERT作为预训练模型提取文本的全局特征。

使用微调BERT的特征向量作为输入，使用预训练模型BERT加全连接网络算法进行分类模型的训练。本发明提案会用自动构建的训练语料对bert模型进行微调，模型的初始化输入用one-hot向量化表示。

分类标注的方法为：表格单元格内容分类标注的方法为，将经过处理的上下文文本按照one-hot向量化表示，输入到预训练模型获得词向量，数字化的向量输入到全连接网络中，通过计算获得得分最高的标签为该该单元格所属的类别，即为该单元格所在列的候选表标签。

表格列标签判别方法为：利用表格列单元的一致性来排除错误的标注；对于表格的某一列，综合考虑该列中每一个单元格的标注，使用多数投票的原则来确定该列的列标签。

本发明的有益效果：

本发明能够有效的对电力领域网络表格进行列标注；面对电力领域知识库缺失问题，本发明能够自动构建电力领域表格列标注训练语料，自动搜索获取带分类表格的上下文信息，完全不依赖于语义知识库，可以发现电力领域的知识库中没有的新知识，可以解决电力领域知识图谱构建“冷启动”问题；无表头列标注后的表格可用于电力领域中文知识图谱的构建和扩展。

解决了现有技术对电力领域表格列标注存在较大的局限性等技术问题。

附图说明：

图1为BERT架构示意图；

图2为基于预训练的分类模型示意图。

具体实施方式

一种基于文本分类的电力领域表格列标注方法，它包括：

本发明具体实施方式将整个方法分为模型训练微调、表格单元格内容分类标注和表格列标签判别三个部分，下面将对这三个部分进行详细的介绍：

模型训练微调

本发明所提供表格列标注方法的重要问题就是如何自动化构建训练数据集以及如何训练文本分类器。

本发明首先获取电力领域相关百度百科的文本语料，然后从电力领域的百科语料中半结构化的infobox中抽取“属性名-属性值”对信息，通过分析网页的html结构化特征获取infobox中的“属性名-属性值”，然后通多搜索引擎搜索“属性名-属性值”中的实际概念，返回的搜索结果条目中抽取锚文本形成摘要，并用电力领域关键词库进行过滤，过滤掉不包含电力领域关键词的摘要，从而组成该“属性名-属性值”内容要素的上下文。

在搜索的过程中，使用两条启发式的规则：

1)如果有多个锚文本包含该关键词，则将这些句子组成该关键字的相关文本，与属性名共同形成一个训练样本；

2)如果没有句子包含完整的关键词，则对该关键词进行分词处理，以这些词为关键词进行搜索，抽取包含一个或多个关键词的句子。

获取到训练语料之后对文本语料进行预处理及向量化表示，然后使用向量化的文本数据进行分类器训练与参数学习。

近几年来，随着计算机算力的不断提升和大规模语料库的不断公布，越来越多的通用语言表征的预训练模型涌现。预训练旨在预先在大规模无标注语料库上进行语言模型的训练以得到通用的、上下文相关的特征表示，并使用这些特征表示对模型初始化，最终在具体的下游任务对参数进行微调以达到更好的模型效果。预训练模型可以从大规模语料中学习得到通用的语言表示，有助于提高模型的泛化能力和加速模型收敛。在现有的NLP任务中，最经典的方法是使用BERT作为预训练模型提取文本的全局特征，

为了支持各种下游任务的支持，BERT设计了一种通用的输入表示，即“[CLS]，输入1，[SEP]，输入2，[SEP]”。其中，输入1和输入2是文本序列，“[CLS]”是可学习的标识符，能捕获文本输入的全局信息，而“[SEP]”仅为输入1和输入2的分割符。之后，BERT将其输入至双向的Transformerencoder中，通过文本从左向右和从右向左两个方向上的训练得到上下文的双向表示。Transformer的encode也是一种多层的堆叠模型。它的每一层都是由自注意力层和全连接层组成。在每一层中，给定三个由n个行向量组成的矩阵queriesQ∈R^n×dk，keysK∈R^n×dk和valuesV∈R^n×dv，则注意力机制按照如下方式同时计算注意力权重

这里，dk表示queries和keys的维度，d_v表示values的维度。然后，将输入映射为h份，计算注意力权重之后再拼接结果以增强模型的鲁棒性和泛化能力。

Head_i＝Attention(QW_i ^Q，KW_i ^K，VW_i ^V)

MHA(Q，K，V)＝Concat(Head₁，...，Head_h)W^O

这里，

是可学习的线性变换矩阵，并且d_k＝d_v＝d_model/h。然后，多头自注意力层的输出将传送至全连接层中。在经过多层多头自注意力层和全连接层之后，BERT通过自对齐从输入序列中提取关键信息。

本发明使用微调BERT的特征向量作为输入，使用预训练模型(BERT)加全连接网络算法进行分类模型的训练。本发明会用自动构建的训练语料对bert模型进行微调，模型的初始化输入用one-hot向量化表示。表格单元格内容分类标注

表格单元格内容分类标注，将经过处理的上下文文本按照one-hot向量化表示，输入到预训练模型获得词向量，数字化的向量输入到全连接网络中，通过计算获得得分最高的标签为该该单元格所属的类别，即为该单元格所在列的候选表标签。

1.表格列标签判别

由于同一列的单元格内容元素是相似的一组概念，会用共同的上位概念，因此本发明利用表格列单元的一致性来排除那些错误的标注。对于表格的某一列，本发明综合考虑该列中每一个单元格的标注，使用多数投票的原则来确定该列的列标签。

基于上述方案设计，在此说明本发明所提出方法产生的积极效果。使用电力领域公司类别的数据进行实验，选择成立时间、总部地点、创始人、公司类型和经营范围五个常见的相关属性类型作为测试对象。通过扫描百度百科的数据选择电力领域与这五个属性类别的相关的数据自动构建训练数据集，数据集中80％的数据作为训练数据，20％的数据作为测试数据，表3列出了数据集中各个类别的数据统计，使用这些数据训练预训练模型。

本发明应用的BERT模型是HuggingFace开源发布的bert-base-chinese版本1。BERT预训练模型的堆叠层数为12，词向量维度为768，多头自注意力机制的头数H＝12,d_model＝768，前馈神经网络的隐藏层维度为3072。本方案设置边向量层的维度d_t＝100，设置每一步的输入样本数batch_size＝8，并且使用初始学习率lr_rate＝2e^-5。接层隐藏单元个数设置为128。

表1 训练数据集和测试数据集

使用项目中文档中实际包含的电力公司类实体的表格，对表格进行筛选并从中选择出60个表格，表格的每一行包含一个实体和若干属性信息，对于实验中的五个目标属性类型，总共获取到498个实例。对所有表格进行人工标注，用于实验评估。

使用训练好的分类器来对60个表格单元格内容元素进行标注，来测试本发明所提出的电力领域中文表格列标注方法处理网络上真实数据表格的能力。最后基于多数投票原则，确定表格每一列的语义标签。

表2 单元格标注和列标签标注准确率评估

表2展示了表格单元格标注与列标签标注实验结果对比，方法通过多数投票操作之后，准确率均得到较大幅度的提升。

Claims

1.一种基于文本分类的电力领域表格列标注方法，它包括：

2.根据权利要求1所述的一种基于文本分类的电力领域表格列标注方法，其特征在于：步骤1的实现方法为：首先获取电力领域相关百度百科的文本语料，然后从电力领域的百科语料中半结构化的infobox中抽取“属性名-属性值”对信息，通过分析网页的html结构化特征获取infobox中的“属性名-属性值”，然后通过搜索引擎搜索“属性名-属性值”中的实际概念，获取该对应的搜索结果。

3.根据权利要求2所述的一种基于文本分类的电力领域表格列标注方法，其特征在于：在搜索的过程中，如果有一个以上锚文本包含该关键词，则将这些句子组成该关键字的相关文本，与属性名共同形成一个训练样本；如果没有句子包含完整的关键词，则对该关键词进行分词处理，以分词为关键词进行搜索，抽取包含一个或一个以上的关键词的句子。

4.根据权利要求3所述的一种基于文本分类的电力领域表格列标注方法，其特征在于：获取到训练样本之后对文本语料进行预处理及向量化表示，然后使用向量化的文本数据进行分类器训练与参数学习。

5.根据权利要求4所述的一种基于文本分类的电力领域表格列标注方法，其特征在于：分类器训练与参数学习的方法为：预先在大规模无标注语料库上进行语言模型的训练以得到通用的、上下文相关的特征表示，并使用这些特征表示对模型初始化，最终在具体的下游任务对参数进行微调以达到更好的模型效果；预训练模型从语料中学习得到通用的语言表示，提高模型的泛化能力和加速模型收敛；使用BERT作为预训练模型提取文本的全局特征。

6.根据权利要求5所述的一种基于文本分类的电力领域表格列标注方法，其特征在于：使用微调BERT的特征向量作为输入，使用预训练模型BERT加全连接网络算法进行分类模型的训练。本发明提案会用自动构建的训练语料对bert模型进行微调，模型的初始化输入用one-hot向量化表示。

7.根据权利要求1所述的一种基于文本分类的电力领域表格列标注方法，其特征在于：分类标注的方法为：表格单元格内容分类标注的方法为，将经过处理的上下文文本按照one-hot向量化表示，输入到预训练模型获得词向量，数字化的向量输入到全连接网络中，通过计算获得得分最高的标签为该该单元格所属的类别，即为该单元格所在列的候选表标签。

8.根据权利要求1所述的一种基于文本分类的电力领域表格列标注方法，其特征在于：表格列标签判别方法为：利用表格列单元的一致性来排除错误的标注；对于表格的某一列，综合考虑该列中每一个单元格的标注，使用多数投票的原则来确定该列的列标签。