CN113868372A

CN113868372A - 基于规则及文本序列标注的统计公报指标提取方法

Info

Publication number: CN113868372A
Application number: CN202111051343.7A
Authority: CN
Inventors: 于宝龙; 崔宏帆
Original assignee: Beijing Guoyan Network Information Co ltd
Current assignee: Beijing Guoyan Network Information Co ltd
Priority date: 2021-09-08
Filing date: 2021-09-08
Publication date: 2021-12-31

Abstract

一种基于规则及文本序列标注的统计公报指标提取方法。其包括收集所有地区现有统计公报的文本获得数据集并划分成训练集和测试集；构建由嵌入有正则表达式的BiLSTM+CRF模型组成的指标提取模型；利用训练集训练BiLSTM+CRF模型，利用测试集验证，获得指标提取模型；将待提取指标的统计公报文本输入指标提取模型，以表格方式输出指标增长趋势关系结果等步骤。本发明效果：利用自然语言处理信息抽取技术，基于规则的方法匹配和基于BiLSTM+CRF序列标注模型进行指标提取，可将统计公报中出现的指标名称、地区、趋势、数值、单位在内的指标及时间提取出来，形成结构化关系数据，有效地完成了统计公报中的重点指标抽取任务。

Description

基于规则及文本序列标注的统计公报指标提取方法

技术领域

本发明属于自然语言处理技术领域，尤其涉及一种基于规则及文本序列标注的统计公报指标提取方法。

背景技术

目前统计公报指标提取研究的重要意义在于利用自然语言信息抽取技术及基于规则的方法提取出统计公报中的重要指标及趋势信息，并能够反映出统计公报的主要内容，从而形成结构化数据。对于数据分析及研究工作具有重要的意义，通过算法模型提取的方式在一定程度上可降低人力提取成本。

命名实体识别是自然语言处理的一个基础任务，是指从文本中识别出具有特定意义的专有词汇，并标注出其位置及类型，为关系抽取等任务做铺垫。实体识别目前常用的方法有：基于规则的方法、基于统计机器学习的方法以及基于神经网络的方法。其中，基于规则的方法需要相关领域专家手工编写规则，由于构建规则的过程费时费力，因此系统可移植性差。基于统计机器学习的方法要求从文本中选取对任务有影响的各种特征，缺点是需依赖高质量的语料库。与前两种方法相比，基于神经网络的方法可以自动提取特征，所得到的模型可以直接在实体识别过程中使用。

实体抽取是典型的文本序列标注问题，RNN网络能够有效地利用数据的序列信息，并具有一定的记忆功能，是一种有效地解决序列标注任务的神经网络，但其无法很好地处理长距离依赖问题，LSTM引入门限制机制对历史信息进行过滤，有效地解决了这个问题。由于LSTM只是利用当前词的上文信息，而在实体抽取处理中，对当前词的识别同样需要下文信息，双向长短时记忆网络模型BiLSTM结构能同时包含文本上下文信息。在双向长短时记忆网络模型BiLSTM中，包含前向和后向两个LSTM层，连接着同一个输出层。由于训练序列的前向和后向LSTM层组成了双向长短时记忆网络模型BiLSTM的网络结构，所以在实体抽取中，双向长短时记忆网络模型BiLSTM能兼顾上下文信息，自动提取句子特征，获得更好的结果。

发明内容

为了解决上述问题，本发明的目的在于提供一种基于规则及文本序列标注的统计公报指标提取方法。

为了达到上述目的，本发明提供的基于规则及文本序列标注的统计公报指标提取方法包括按顺序进行的下列步骤：

1)预先收集所有地区现有统计公报的文本，所述文本由多个句子组成，每个句子由用于描述所需提取指标的字和用于描述非指标的字组成，然后定义文本标注方式BIO中的标签，之后利用标签逐字标注文本，获得数据集；

2)将上述数据集按比例划分成训练集和测试集；

3)构建由嵌入有正则表达式的BiLSTM+CRF模型组成的指标提取模型，并设定相关的用于训练BiLSTM+CRF模型的参数；

4)将上述步骤2)获得的训练集输入步骤3)构建的BiLSTM+CRF模型进行参数训练，获得训练后的BiLSTM+CRF模型，然后将测试集输入训练后的BiLSTM+CRF模型进行验证，获得训练好的BiLSTM+CRF模型；同时利用正则表达式提取时间，最后将训练好的BiLSTM+CRF模型和正则表达式融合而构成训练好的指标提取模型；

5)将待提取指标的统计公报的文本输入上述训练好的指标提取模型，该模型将提取出时间以及地区、指标名称、数值、趋势和单位在内的指标，并形成指标数据映射，最后以表格方式输出指标增长趋势关系结果。

在步骤1)中，所需提取指标为地区、指标名称、数值、趋势和单位；其余均为非指标；

所述定义文本标注方式BIO中的标签，之后利用标签逐字标注文本，获得数据集的方法是：

首先定义文本标注方式BIO中的标签：

·B为Begin的缩写，将其作为标注指标的开头字符；

·I为Inside的缩写，将其作为标注指标的中间或末尾字符；

·将O作为标注非指标的字符；

所有标签定义如表1所示：

表1、标签定义

然后根据上述定义的标签将统计公报的文本按顺序逐字进行标注，由从B开始至最近的I结束的多个连续标签构成一个实体，标注O的标签为非实体，由所有实体和非实体构成数据集。

在步骤2)中，所述数据集按8∶2的比例划分成训练集和测试集。

在步骤3)中，所述BiLSTM+CRF模型主要分为三层，第一层为表示层，第二层为BiLSTM层，由双向的LSTM网络构成，第三层为CRF层；BiLSTM+CRF模型用于提取指标，正则表达式用于提取时间；

用于训练BiLSTM+CRF模型的参数如表2所示：

表2、用于训练BiLSTM+CRF模型的参数

参数名称	参数值
		batch_size	64
epoch	60
		embedding_dim	128
hidden_dim	128
		learning_rate	0.001
dropout	0.5

。

在步骤4)中，所述将上述步骤2)获得的训练集输入步骤3)构建的BiLSTM+CRF模型进行参数训练，获得训练后的BiLSTM+CRF模型，然后将测试集输入训练后的BiLSTM+CRF模型进行验证，获得训练好的BiLSTM+CRF模型；同时利用正则表达式提取时间，最后将训练好的BiLSTM+CRF模型和正则表达式融合而构成训练好的指标提取模型的方法是：

4.1)利用第一层，即表示层，将训练集中的字符转换为字符嵌入编码，即将每个字都表示为一个N维空间内的点，即一个高维空间内的向量，由此将文本计算转换为向量计算，然后输入第二层；

4.2)利用第二层，即BiLSTM层，自动而有效地提取出过去和将来的有用信息来表示特征关系，通过输出预测的概率值，得到每个字的预测标签，然后输入第三层；

4.3)利用第三层，即CRF层，对上述预测标签的合法性进行校验，并在CRF层加入约束条件来保证最终预测结果是有效的；约束条件应满足：

(1)句子的开头应该是“B-”或“O”，而不是“I-”；

(2)“B-label1 I-label2 I-label3…”，在该模式中，类别1,2,3应该是同一种指标类别；

(3)“O I-label”是错误的，指标的开头应该是“B-”而不是“I-”；

若满足上述约束条件，则可作为最终预测标签并输出，由此获得训练后的BiLSTM+CRF模型；

然后将测试集输入上述训练后的BiLSTM+CRF模型进行验证，当BiLSTM+CRF模型的分类精确率、召回率和F-score在内的评估指标达到预期值时，获得训练好的BiLSTM+CRF模型；

同时利用正则表达式提取时间；

最后将训练好的BiLSTM+CRF模型和正则表达式融合而构成训练好的指标提取模型。

本发明提供的基于规则及文本序列标注的统计公报指标提取方法具有如下有益效果：

利用自然语言处理信息抽取技术，基于规则的方法匹配和基于BiLSTM+CRF序列标注模型进行指标提取，可将统计公报中出现的指标名称、地区、趋势、数值、单位在内的指标及时间提取出来，形成结构化关系数据，有效地完成了统计公报中的重点指标抽取任务。

附图说明

图1为部分文本标注样例示意图。

图2为BiLSTM+CRF模型结构示意图。

图3为指标提取模型训练、验证及应用过程示意图。

图4为字符转换过程示意图。

图5为BiLSTM层预测标签过程示意图。

具体实施方式

下面结合附图和具体实施例详细说明本发明。

本发明提供的基于规则及文本序列标注的统计公报指标提取方法包括按顺序进行的下列步骤：

在本发明中，文本中所需提取的指标为地区、指标名称、数值、趋势和单位；其余均为非指标。

因为实体识别技术是一种序列标注问题，所以数据标注方式也遵照序列标注问题的方式，本发明采用文本标注方式BIO来标注文本；在BIO序列标注任务中，一般会定义一组标签集合，来表示所有可能取到的预测结果。

首先定义文本标注方式BIO中的标签：

·B为Begin的缩写，将其作为标注指标的开头字符；

·I为Inside的缩写，将其作为标注指标的中间或末尾字符；

·将O作为标注非指标的字符。

所有标签定义如表1所示。将标签集合label定义为：

label＝{B-LOC,I-LOC,B-IDX,I-IDX,B-VAL,I-VAL,B-TRD,I-TRD,B-UNT,I-UNT,O}

表1、标签定义

部分文本标注样例如图1所示。

2)将上述数据集按比例划分成训练集和测试集；

在本发明中，将数据集按8∶2的比例划分成训练集和测试集。

3)构建由嵌入有正则表达式的BiLSTM+CRF(双向长短期记忆网络+条件随机场)模型组成的指标提取模型，并设定相关的用于训练BiLSTM+CRF模型的参数；

如图2所示，所述BiLSTM+CRF模型主要分为三层，第一层为表示层(look-uplayer)，第二层为BiLSTM层，由双向的LSTM网络构成，第三层为CRF层；BiLSTM+CRF模型用于提取指标，正则表达式用于提取时间；

用于训练BiLSTM+CRF模型的参数如表2所示。

表2、用于训练BiLSTM+CRF模型的参数

如图3所示，具体训练和验证方法如下：

4.1)利用第一层，即表示层，将训练集中的字符转换为字符嵌入编码(characterembedding)，即将每个字都表示为一个N维空间内的点，即一个高维空间内的向量。通过这种方法，可将文本计算转换为向量计算，然后输入第二层；字符转换过程如图4所示。

4.2)利用第二层，即BiLSTM层，自动而有效地提取出过去和将来的有用信息来表示特征关系，通过输出预测的概率值，得到每个字的预测标签，然后输入第三层；BiLSTM层预测标签过程如图5所示。

4.3)上述句子中标记每个字符的标签是通过Softmax层标记相应的位置，但可能会得到一些不合法的位置，这就需要利用第三层，即CRF层，对上述预测标签的合法性进行校验，并且在CRF层加入约束条件来保证最终预测结果是有效的。约束条件应满足：

(1)句子的开头应该是“B-”或“O”，而不是“I-”；

(2)“B-label1 I-label2 I-label3…”，在该模式中，类别1,2,3应该是同一种指标类别；比如，“B-LOC I-LOC”是正确的，而“B-LOC I-VAL”则是错误的；

(3)“O I-label”是错误的，指标的开头应该是“B-”而不是“I-”。

这样就实现了CRF层对预测标签的校验，若满足上述约束条件，则可作为最终预测标签并输出，由此获得训练后的BiLSTM+CRF模型；

同时利用正则表达式提取时间，因为时间的格式比较固定，规则性强，正则提取不易出错；

表3示出部分指标增长趋势关系结果。

表3、指标增长趋势关系结果示例

为了验证本发明方法的效果，本发明人将共计314429行数据的统计公报的文本输入上述训练好的指标提取模型，经测定，该模型的分类精确率为94.6％，召回率为91.57％，F-score为91.22％，证明本发明方法能够有效完成统计公报指标提取任务，所构建的指标提取模型具备文字理解能力，可帮助用户提升文字处理效率，极大降低人工成本。

Claims

1.一种基于规则及文本序列标注的统计公报指标提取方法，其特征在于：所述统计公报指标提取方法包括按顺序进行的下列步骤：

2)将上述数据集按比例划分成训练集和测试集；

2.根据权利要求1所述的基于规则及文本序列标注的统计公报指标提取方法，其特征在于：在步骤1)中，所需提取指标为地区、指标名称、数值、趋势和单位；其余均为非指标；

首先定义文本标注方式BIO中的标签：

·B为Begin的缩写，将其作为标注指标的开头字符；

·I为Inside的缩写，将其作为标注指标的中间或末尾字符；

·将O作为标注非指标的字符；

所有标签定义如表1所示：

表1、标签定义

标签定义 B-LOC 地区起始位置 I-LOC 地区中间位置或结束位置 B-IDX 指标名称起始位置 I-IDX 指标名称中间位置或结束位置 B-VAL 数值起始位置 I-VAL 数值中间位置或结束位置 B-TRD 趋势起始位置 I-TRD 趋势中间位置或结束位置 B-UNT 单位起始位置 I-UNT 单位中间位置或结束位置 O 非指标

3.根据权利要求1所述的基于规则及文本序列标注的统计公报指标提取方法，其特征在于：在步骤2)中，所述数据集按8∶2的比例划分成训练集和测试集。

4.根据权利要求1所述的基于规则及文本序列标注的统计公报指标提取方法，其特征在于：在步骤3)中，所述BiLSTM+CRF模型主要分为三层，第一层为表示层，第二层为BiLSTM层，由双向的LSTM网络构成，第三层为CRF层；BiLSTM+CRF模型用于提取指标，正则表达式用于提取时间；

用于训练BiLSTM+CRF模型的参数如表2所示：

表2、用于训练BiLSTM+CRF模型的参数

参数名称参数值 batch_size 64 epoch 60 embedding_dim 128 hidden_dim 128 learning_rate 0.001 dropout 0.5

。

5.根据权利要求4所述的基于规则及文本序列标注的统计公报指标提取方法，其特征在于：在步骤4)中，所述将上述步骤2)获得的训练集输入步骤3)构建的BiLSTM+CRF模型进行参数训练，获得训练后的BiLSTM+CRF模型，然后将测试集输入训练后的BiLSTM+CRF模型进行验证，获得训练好的BiLSTM+CRF模型；同时利用正则表达式提取时间，最后将训练好的BiLSTM+CRF模型和正则表达式融合而构成训练好的指标提取模型的方法是：

(1)句子的开头应该是“B-”或“O”，而不是“I-”；

同时利用正则表达式提取时间；