CN113868372A - 基于规则及文本序列标注的统计公报指标提取方法 - Google Patents
基于规则及文本序列标注的统计公报指标提取方法 Download PDFInfo
- Publication number
- CN113868372A CN113868372A CN202111051343.7A CN202111051343A CN113868372A CN 113868372 A CN113868372 A CN 113868372A CN 202111051343 A CN202111051343 A CN 202111051343A CN 113868372 A CN113868372 A CN 113868372A
- Authority
- CN
- China
- Prior art keywords
- bilstm
- index
- model
- layer
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于规则及文本序列标注的统计公报指标提取方法。其包括收集所有地区现有统计公报的文本获得数据集并划分成训练集和测试集;构建由嵌入有正则表达式的BiLSTM+CRF模型组成的指标提取模型;利用训练集训练BiLSTM+CRF模型,利用测试集验证,获得指标提取模型;将待提取指标的统计公报文本输入指标提取模型,以表格方式输出指标增长趋势关系结果等步骤。本发明效果:利用自然语言处理信息抽取技术,基于规则的方法匹配和基于BiLSTM+CRF序列标注模型进行指标提取,可将统计公报中出现的指标名称、地区、趋势、数值、单位在内的指标及时间提取出来,形成结构化关系数据,有效地完成了统计公报中的重点指标抽取任务。
Description
技术领域
本发明属于自然语言处理技术领域,尤其涉及一种基于规则及文本序列标注的统计公报指标提取方法。
背景技术
目前统计公报指标提取研究的重要意义在于利用自然语言信息抽取技术及基于规则的方法提取出统计公报中的重要指标及趋势信息,并能够反映出统计公报的主要内容,从而形成结构化数据。对于数据分析及研究工作具有重要的意义,通过算法模型提取的方式在一定程度上可降低人力提取成本。
命名实体识别是自然语言处理的一个基础任务,是指从文本中识别出具有特定意义的专有词汇,并标注出其位置及类型,为关系抽取等任务做铺垫。实体识别目前常用的方法有:基于规则的方法、基于统计机器学习的方法以及基于神经网络的方法。其中,基于规则的方法需要相关领域专家手工编写规则,由于构建规则的过程费时费力,因此系统可移植性差。基于统计机器学习的方法要求从文本中选取对任务有影响的各种特征,缺点是需依赖高质量的语料库。与前两种方法相比,基于神经网络的方法可以自动提取特征,所得到的模型可以直接在实体识别过程中使用。
实体抽取是典型的文本序列标注问题,RNN网络能够有效地利用数据的序列信息,并具有一定的记忆功能,是一种有效地解决序列标注任务的神经网络,但其无法很好地处理长距离依赖问题,LSTM引入门限制机制对历史信息进行过滤,有效地解决了这个问题。由于LSTM只是利用当前词的上文信息,而在实体抽取处理中,对当前词的识别同样需要下文信息,双向长短时记忆网络模型BiLSTM结构能同时包含文本上下文信息。在双向长短时记忆网络模型BiLSTM中,包含前向和后向两个LSTM层,连接着同一个输出层。由于训练序列的前向和后向LSTM层组成了双向长短时记忆网络模型BiLSTM的网络结构,所以在实体抽取中,双向长短时记忆网络模型BiLSTM能兼顾上下文信息,自动提取句子特征,获得更好的结果。
发明内容
为了解决上述问题,本发明的目的在于提供一种基于规则及文本序列标注的统计公报指标提取方法。
为了达到上述目的,本发明提供的基于规则及文本序列标注的统计公报指标提取方法包括按顺序进行的下列步骤:
1)预先收集所有地区现有统计公报的文本,所述文本由多个句子组成,每个句子由用于描述所需提取指标的字和用于描述非指标的字组成,然后定义文本标注方式BIO中的标签,之后利用标签逐字标注文本,获得数据集;
2)将上述数据集按比例划分成训练集和测试集;
3)构建由嵌入有正则表达式的BiLSTM+CRF模型组成的指标提取模型,并设定相关的用于训练BiLSTM+CRF模型的参数;
4)将上述步骤2)获得的训练集输入步骤3)构建的BiLSTM+CRF模型进行参数训练,获得训练后的BiLSTM+CRF模型,然后将测试集输入训练后的BiLSTM+CRF模型进行验证,获得训练好的BiLSTM+CRF模型;同时利用正则表达式提取时间,最后将训练好的BiLSTM+CRF模型和正则表达式融合而构成训练好的指标提取模型;
5)将待提取指标的统计公报的文本输入上述训练好的指标提取模型,该模型将提取出时间以及地区、指标名称、数值、趋势和单位在内的指标,并形成指标数据映射,最后以表格方式输出指标增长趋势关系结果。
在步骤1)中,所需提取指标为地区、指标名称、数值、趋势和单位;其余均为非指标;
所述定义文本标注方式BIO中的标签,之后利用标签逐字标注文本,获得数据集的方法是:
首先定义文本标注方式BIO中的标签:
·B为Begin的缩写,将其作为标注指标的开头字符;
·I为Inside的缩写,将其作为标注指标的中间或末尾字符;
·将O作为标注非指标的字符;
所有标签定义如表1所示:
表1、标签定义
然后根据上述定义的标签将统计公报的文本按顺序逐字进行标注,由从B开始至最近的I结束的多个连续标签构成一个实体,标注O的标签为非实体,由所有实体和非实体构成数据集。
在步骤2)中,所述数据集按8∶2的比例划分成训练集和测试集。
在步骤3)中,所述BiLSTM+CRF模型主要分为三层,第一层为表示层,第二层为BiLSTM层,由双向的LSTM网络构成,第三层为CRF层;BiLSTM+CRF模型用于提取指标,正则表达式用于提取时间;
用于训练BiLSTM+CRF模型的参数如表2所示:
表2、用于训练BiLSTM+CRF模型的参数
参数名称 | 参数值 |
batch_size | 64 |
epoch | 60 |
embedding_dim | 128 |
hidden_dim | 128 |
learning_rate | 0.001 |
dropout | 0.5 |
。
在步骤4)中,所述将上述步骤2)获得的训练集输入步骤3)构建的BiLSTM+CRF模型进行参数训练,获得训练后的BiLSTM+CRF模型,然后将测试集输入训练后的BiLSTM+CRF模型进行验证,获得训练好的BiLSTM+CRF模型;同时利用正则表达式提取时间,最后将训练好的BiLSTM+CRF模型和正则表达式融合而构成训练好的指标提取模型的方法是:
4.1)利用第一层,即表示层,将训练集中的字符转换为字符嵌入编码,即将每个字都表示为一个N维空间内的点,即一个高维空间内的向量,由此将文本计算转换为向量计算,然后输入第二层;
4.2)利用第二层,即BiLSTM层,自动而有效地提取出过去和将来的有用信息来表示特征关系,通过输出预测的概率值,得到每个字的预测标签,然后输入第三层;
4.3)利用第三层,即CRF层,对上述预测标签的合法性进行校验,并在CRF层加入约束条件来保证最终预测结果是有效的;约束条件应满足:
(1)句子的开头应该是“B-”或“O”,而不是“I-”;
(2)“B-label1 I-label2 I-label3…”,在该模式中,类别1,2,3应该是同一种指标类别;
(3)“O I-label”是错误的,指标的开头应该是“B-”而不是“I-”;
若满足上述约束条件,则可作为最终预测标签并输出,由此获得训练后的BiLSTM+CRF模型;
然后将测试集输入上述训练后的BiLSTM+CRF模型进行验证,当BiLSTM+CRF模型的分类精确率、召回率和F-score在内的评估指标达到预期值时,获得训练好的BiLSTM+CRF模型;
同时利用正则表达式提取时间;
最后将训练好的BiLSTM+CRF模型和正则表达式融合而构成训练好的指标提取模型。
本发明提供的基于规则及文本序列标注的统计公报指标提取方法具有如下有益效果:
利用自然语言处理信息抽取技术,基于规则的方法匹配和基于BiLSTM+CRF序列标注模型进行指标提取,可将统计公报中出现的指标名称、地区、趋势、数值、单位在内的指标及时间提取出来,形成结构化关系数据,有效地完成了统计公报中的重点指标抽取任务。
附图说明
图1为部分文本标注样例示意图。
图2为BiLSTM+CRF模型结构示意图。
图3为指标提取模型训练、验证及应用过程示意图。
图4为字符转换过程示意图。
图5为BiLSTM层预测标签过程示意图。
具体实施方式
下面结合附图和具体实施例详细说明本发明。
本发明提供的基于规则及文本序列标注的统计公报指标提取方法包括按顺序进行的下列步骤:
1)预先收集所有地区现有统计公报的文本,所述文本由多个句子组成,每个句子由用于描述所需提取指标的字和用于描述非指标的字组成,然后定义文本标注方式BIO中的标签,之后利用标签逐字标注文本,获得数据集;
在本发明中,文本中所需提取的指标为地区、指标名称、数值、趋势和单位;其余均为非指标。
因为实体识别技术是一种序列标注问题,所以数据标注方式也遵照序列标注问题的方式,本发明采用文本标注方式BIO来标注文本;在BIO序列标注任务中,一般会定义一组标签集合,来表示所有可能取到的预测结果。
首先定义文本标注方式BIO中的标签:
·B为Begin的缩写,将其作为标注指标的开头字符;
·I为Inside的缩写,将其作为标注指标的中间或末尾字符;
·将O作为标注非指标的字符。
所有标签定义如表1所示。将标签集合label定义为:
label={B-LOC,I-LOC,B-IDX,I-IDX,B-VAL,I-VAL,B-TRD,I-TRD,B-UNT,I-UNT,O}
表1、标签定义
然后根据上述定义的标签将统计公报的文本按顺序逐字进行标注,由从B开始至最近的I结束的多个连续标签构成一个实体,标注O的标签为非实体,由所有实体和非实体构成数据集。
部分文本标注样例如图1所示。
2)将上述数据集按比例划分成训练集和测试集;
在本发明中,将数据集按8∶2的比例划分成训练集和测试集。
3)构建由嵌入有正则表达式的BiLSTM+CRF(双向长短期记忆网络+条件随机场)模型组成的指标提取模型,并设定相关的用于训练BiLSTM+CRF模型的参数;
如图2所示,所述BiLSTM+CRF模型主要分为三层,第一层为表示层(look-uplayer),第二层为BiLSTM层,由双向的LSTM网络构成,第三层为CRF层;BiLSTM+CRF模型用于提取指标,正则表达式用于提取时间;
用于训练BiLSTM+CRF模型的参数如表2所示。
表2、用于训练BiLSTM+CRF模型的参数
4)将上述步骤2)获得的训练集输入步骤3)构建的BiLSTM+CRF模型进行参数训练,获得训练后的BiLSTM+CRF模型,然后将测试集输入训练后的BiLSTM+CRF模型进行验证,获得训练好的BiLSTM+CRF模型;同时利用正则表达式提取时间,最后将训练好的BiLSTM+CRF模型和正则表达式融合而构成训练好的指标提取模型;
如图3所示,具体训练和验证方法如下:
4.1)利用第一层,即表示层,将训练集中的字符转换为字符嵌入编码(characterembedding),即将每个字都表示为一个N维空间内的点,即一个高维空间内的向量。通过这种方法,可将文本计算转换为向量计算,然后输入第二层;字符转换过程如图4所示。
4.2)利用第二层,即BiLSTM层,自动而有效地提取出过去和将来的有用信息来表示特征关系,通过输出预测的概率值,得到每个字的预测标签,然后输入第三层;BiLSTM层预测标签过程如图5所示。
4.3)上述句子中标记每个字符的标签是通过Softmax层标记相应的位置,但可能会得到一些不合法的位置,这就需要利用第三层,即CRF层,对上述预测标签的合法性进行校验,并且在CRF层加入约束条件来保证最终预测结果是有效的。约束条件应满足:
(1)句子的开头应该是“B-”或“O”,而不是“I-”;
(2)“B-label1 I-label2 I-label3…”,在该模式中,类别1,2,3应该是同一种指标类别;比如,“B-LOC I-LOC”是正确的,而“B-LOC I-VAL”则是错误的;
(3)“O I-label”是错误的,指标的开头应该是“B-”而不是“I-”。
这样就实现了CRF层对预测标签的校验,若满足上述约束条件,则可作为最终预测标签并输出,由此获得训练后的BiLSTM+CRF模型;
然后将测试集输入上述训练后的BiLSTM+CRF模型进行验证,当BiLSTM+CRF模型的分类精确率、召回率和F-score在内的评估指标达到预期值时,获得训练好的BiLSTM+CRF模型;
同时利用正则表达式提取时间,因为时间的格式比较固定,规则性强,正则提取不易出错;
最后将训练好的BiLSTM+CRF模型和正则表达式融合而构成训练好的指标提取模型。
5)将待提取指标的统计公报的文本输入上述训练好的指标提取模型,该模型将提取出时间以及地区、指标名称、数值、趋势和单位在内的指标,并形成指标数据映射,最后以表格方式输出指标增长趋势关系结果。
表3示出部分指标增长趋势关系结果。
表3、指标增长趋势关系结果示例
为了验证本发明方法的效果,本发明人将共计314429行数据的统计公报的文本输入上述训练好的指标提取模型,经测定,该模型的分类精确率为94.6%,召回率为91.57%,F-score为91.22%,证明本发明方法能够有效完成统计公报指标提取任务,所构建的指标提取模型具备文字理解能力,可帮助用户提升文字处理效率,极大降低人工成本。
Claims (5)
1.一种基于规则及文本序列标注的统计公报指标提取方法,其特征在于:所述统计公报指标提取方法包括按顺序进行的下列步骤:
1)预先收集所有地区现有统计公报的文本,所述文本由多个句子组成,每个句子由用于描述所需提取指标的字和用于描述非指标的字组成,然后定义文本标注方式BIO中的标签,之后利用标签逐字标注文本,获得数据集;
2)将上述数据集按比例划分成训练集和测试集;
3)构建由嵌入有正则表达式的BiLSTM+CRF模型组成的指标提取模型,并设定相关的用于训练BiLSTM+CRF模型的参数;
4)将上述步骤2)获得的训练集输入步骤3)构建的BiLSTM+CRF模型进行参数训练,获得训练后的BiLSTM+CRF模型,然后将测试集输入训练后的BiLSTM+CRF模型进行验证,获得训练好的BiLSTM+CRF模型;同时利用正则表达式提取时间,最后将训练好的BiLSTM+CRF模型和正则表达式融合而构成训练好的指标提取模型;
5)将待提取指标的统计公报的文本输入上述训练好的指标提取模型,该模型将提取出时间以及地区、指标名称、数值、趋势和单位在内的指标,并形成指标数据映射,最后以表格方式输出指标增长趋势关系结果。
2.根据权利要求1所述的基于规则及文本序列标注的统计公报指标提取方法,其特征在于:在步骤1)中,所需提取指标为地区、指标名称、数值、趋势和单位;其余均为非指标;
所述定义文本标注方式BIO中的标签,之后利用标签逐字标注文本,获得数据集的方法是:
首先定义文本标注方式BIO中的标签:
·B为Begin的缩写,将其作为标注指标的开头字符;
·I为Inside的缩写,将其作为标注指标的中间或末尾字符;
·将O作为标注非指标的字符;
所有标签定义如表1所示:
表1、标签定义
然后根据上述定义的标签将统计公报的文本按顺序逐字进行标注,由从B开始至最近的I结束的多个连续标签构成一个实体,标注O的标签为非实体,由所有实体和非实体构成数据集。
3.根据权利要求1所述的基于规则及文本序列标注的统计公报指标提取方法,其特征在于:在步骤2)中,所述数据集按8∶2的比例划分成训练集和测试集。
4.根据权利要求1所述的基于规则及文本序列标注的统计公报指标提取方法,其特征在于:在步骤3)中,所述BiLSTM+CRF模型主要分为三层,第一层为表示层,第二层为BiLSTM层,由双向的LSTM网络构成,第三层为CRF层;BiLSTM+CRF模型用于提取指标,正则表达式用于提取时间;
用于训练BiLSTM+CRF模型的参数如表2所示:
表2、用于训练BiLSTM+CRF模型的参数
。
5.根据权利要求4所述的基于规则及文本序列标注的统计公报指标提取方法,其特征在于:在步骤4)中,所述将上述步骤2)获得的训练集输入步骤3)构建的BiLSTM+CRF模型进行参数训练,获得训练后的BiLSTM+CRF模型,然后将测试集输入训练后的BiLSTM+CRF模型进行验证,获得训练好的BiLSTM+CRF模型;同时利用正则表达式提取时间,最后将训练好的BiLSTM+CRF模型和正则表达式融合而构成训练好的指标提取模型的方法是:
4.1)利用第一层,即表示层,将训练集中的字符转换为字符嵌入编码,即将每个字都表示为一个N维空间内的点,即一个高维空间内的向量,由此将文本计算转换为向量计算,然后输入第二层;
4.2)利用第二层,即BiLSTM层,自动而有效地提取出过去和将来的有用信息来表示特征关系,通过输出预测的概率值,得到每个字的预测标签,然后输入第三层;
4.3)利用第三层,即CRF层,对上述预测标签的合法性进行校验,并在CRF层加入约束条件来保证最终预测结果是有效的;约束条件应满足:
(1)句子的开头应该是“B-”或“O”,而不是“I-”;
(2)“B-label1 I-label2 I-label3…”,在该模式中,类别1,2,3应该是同一种指标类别;
(3)“O I-label”是错误的,指标的开头应该是“B-”而不是“I-”;
若满足上述约束条件,则可作为最终预测标签并输出,由此获得训练后的BiLSTM+CRF模型;
然后将测试集输入上述训练后的BiLSTM+CRF模型进行验证,当BiLSTM+CRF模型的分类精确率、召回率和F-score在内的评估指标达到预期值时,获得训练好的BiLSTM+CRF模型;
同时利用正则表达式提取时间;
最后将训练好的BiLSTM+CRF模型和正则表达式融合而构成训练好的指标提取模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111051343.7A CN113868372A (zh) | 2021-09-08 | 2021-09-08 | 基于规则及文本序列标注的统计公报指标提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111051343.7A CN113868372A (zh) | 2021-09-08 | 2021-09-08 | 基于规则及文本序列标注的统计公报指标提取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113868372A true CN113868372A (zh) | 2021-12-31 |
Family
ID=78994846
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111051343.7A Pending CN113868372A (zh) | 2021-09-08 | 2021-09-08 | 基于规则及文本序列标注的统计公报指标提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113868372A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115099224A (zh) * | 2022-07-08 | 2022-09-23 | 江苏理工学院 | 融合BiLSTM+CRF与规则匹配的中文PDF内容抽取方法和装置 |
-
2021
- 2021-09-08 CN CN202111051343.7A patent/CN113868372A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115099224A (zh) * | 2022-07-08 | 2022-09-23 | 江苏理工学院 | 融合BiLSTM+CRF与规则匹配的中文PDF内容抽取方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111694924B (zh) | 一种事件抽取方法和系统 | |
CN110717031B (zh) | 一种智能会议纪要生成方法和系统 | |
CN109190131B (zh) | 一种基于神经机器翻译的英语单词及其大小写联合预测方法 | |
CN109359293B (zh) | 基于神经网络的蒙古文命名实体识别方法及其识别系统 | |
CN108304372B (zh) | 实体提取方法和装置、计算机设备和存储介质 | |
CN111209401A (zh) | 网络舆情文本信息情感极性分类处理系统及方法 | |
CN109685056B (zh) | 获取文档信息的方法及装置 | |
CN110276069B (zh) | 一种中国盲文错误自动检测方法、系统及存储介质 | |
CN112836046A (zh) | 一种四险一金领域政策法规文本实体识别方法 | |
CN111046670B (zh) | 基于毒品案件法律文书的实体及关系联合抽取方法 | |
CN112052684A (zh) | 电力计量的命名实体识别方法、装置、设备和存储介质 | |
CN113673254B (zh) | 基于相似度保持的知识蒸馏的立场检测方法 | |
CN115599901B (zh) | 基于语义提示的机器问答方法、装置、设备及存储介质 | |
CN111553159B (zh) | 一种问句生成方法及系统 | |
CN112883175B (zh) | 结合预训练模型及模板生成的气象服务交互方法及系统 | |
CN113191148A (zh) | 一种基于半监督学习和聚类的轨道交通实体识别方法 | |
CN112036184A (zh) | 基于BiLSTM网络模型及CRF模型的实体识别方法、装置、计算机装置及存储介质 | |
CN112329767A (zh) | 基于联合预训练的合同文本图像关键信息提取系统和方法 | |
CN114580424A (zh) | 一种用于法律文书的命名实体识别的标注方法和装置 | |
CN116070632A (zh) | 一种非正式文本实体标签识别方法和装置 | |
CN115878778A (zh) | 面向业务领域的自然语言理解方法 | |
CN112800184A (zh) | 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法 | |
CN115688784A (zh) | 一种融合字与词语特征的中文命名实体识别方法 | |
CN112347780B (zh) | 基于深度神经网络的司法事实查明生成方法、装置、介质 | |
CN113868372A (zh) | 基于规则及文本序列标注的统计公报指标提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |