CN112101007A

CN112101007A - 一种从非结构化文本数据中提取结构化数据的方法及系统

Info

Publication number: CN112101007A
Application number: CN202010991878.1A
Authority: CN
Inventors: 胡博; 李钊; 李伟; 王丽霞; 王大维; 雷振江; 田小蕾; 杨超; 顾海林; 胡楠; 刘晓强; 齐俊; 高强; 庄莉; 梁懿; 陈新梅; 刘鹏宇; 曹国强
Original assignee: State Grid Corp of China SGCC; Electric Power Research Institute of State Grid Liaoning Electric Power Co Ltd; Nari Information and Communication Technology Co; Fujian Yirong Information Technology Co Ltd
Current assignee: State Grid Corp of China SGCC; Electric Power Research Institute of State Grid Liaoning Electric Power Co Ltd; Nari Information and Communication Technology Co; Fujian Yirong Information Technology Co Ltd
Priority date: 2020-09-21
Filing date: 2020-09-21
Publication date: 2020-12-18

Abstract

一种从非结构化文本数据中提取结构化数据的方法及系统属于数据处理技术领域，尤其涉及一种从非结构化文本数据中提取结构化数据的方法及系统。本发明提供一种从非结构化文本数据中提取结构化数据的方法及系统。本发明包括以下步骤：1.在样本中标注要提取的信息在标注操作界面中建立要提取的字段，并在文本数据中标注字段对应的内容，标注完成系统会记录字段名称及其内容在文本中的起止位置。2.分词、标注词性。通过常用分词工具对步骤1中标注好的文本数据逐篇进行分词及词性标注，具体步骤包含：首先根据标注内容在文本中起止位置对文本进行分割，得到数个文本段，然后对这些文本段进行分词和词性标注。

Description

一种从非结构化文本数据中提取结构化数据的方法及系统

技术领域

本发明属于数据处理技术领域，尤其涉及一种从非结构化文本数据中提取结构化数据的方法及系统。

背景技术

非结构化文本数据是以文本（如字符、数字、标点、各种可打印的符号等）作为数据形式的非结构化数据；非结构化或半结构化文本数据的典型代表是图书馆数据库中的文档，这些文档可能包含结构字段，如标题、作者、出版日期、长度、分类等，也可能包含大量非结构化文本成分，如摘要和正文内容。

随着大数据、互联网技术的发展，每时每刻都在产生海量的数据，其中非结构化文本数据占据了较大比重，例如各种新闻、微博、博客、聊天记录等。如何快速、有效的理解和利用好这些数据成为一个迫切的需求，最直接的做法是通过注释语义信息，把非结构化文本变成结构化文本。但是巨大的数据量以及数据的差异性，使得不可能完全依靠人工来实现这种转换。这时就需要利用计算机通过有限的人工标注数据自动地从爆炸式增长的数据中抽取出结构化信息。

从非结构化文本数据中提取结构化数据目前已有多种方案，但都有一定的局限性和缺点。比如对于网页型的文本数据可以根据网页结构特征来提取结构化信息，而且背景具有较好的提取效果，但是对于非网页型的文本数据就无能为力了。使用正则匹配来技术提取结构化数据是常用的手段，而且对文本数据格式没有特定要求，但是在需要提取的字段较多时，编写正则的难度会加大，多个正则之间会形成干扰，准确率降低。

发明内容

本发明就是针对上述问题，提供一种从非结构化文本数据中提取结构化数据的方法及系统。

为实现上述目的，本发明采用如下技术方案，本发明包括以下步骤：

1.在样本中标注要提取的信息在标注操作界面中建立要提取的字段，并在文本数据中标注字段对应的内容，标注完成系统会记录字段名称及其内容在文本中的起止位置。

2.分词、标注词性

通过常用分词工具对步骤 1 中标注好的文本数据逐篇进行分词及词性标注，具体步骤包含：首先根据标注内容在文本中起止位置对文本进行分割，得到数个文本段，然后对这些文本段进行分词和词性标注，这样可以防止分词时将标注内容割裂，影响后续模型训练效果。

3.生成正则

对步骤 1 中标注好的文本数据通过其标注内容生成正则匹配表达式，并可对生成的正则表达式进行必要调整，提高其匹配效果。

4.生成 CRF 训练特征数据

CRF（条件随机场）是由一个在给定输入节点条件下计算输出节点的条件概率的无向图模型，假设 X，Y 分别表示需要标记的观察序列和相对应的标记序列的联合分布随机变量，那么条件随机场 (X,Y) 就是一个以观察序列 X 为条件的无向图模型，条件随机场的目标是在给定需要标记的观察序列的条件下，使标记序列的联合概率达到最优。本方案中的观察序列就是文本数据经过步骤 2 后的分词序列。对步骤 2 中完成分词和词性标注的文本数据生成 CRF 训练特征数据，对文本数据中任意一个词其特征包括：当前词及其前后两个词的内容、词性。

5.训练并评估 CRF 模型

对步骤 4 生成的 CRF 训练特征数据，首先按 8:2 的比例切分训练集和测试集，然后进行 CRF 模型训练。使用测试集数据对训练好的模型进行测试，根据评估指标（括准确率和召回率）评估模型效果。若模型效果不理想可重新从步骤 1 开始调整标注内容。

6.结合正则和 CRF 模型进行结构化信息提取

结合步骤 3 生成并调整后的正则和步骤 5 训练出的 CRF 模型对输入的文本数据分别进行基于正则的结构化信息提取和基于 CRF 的结构化信息提取，得到二者对应的提取结果后进行合并处理，得到最终的结构化信息提取结果。

本发明有益效果。

本发明基于中文分词、正则、CRF 算法，结合机器学习技术，通过样本数据管理模块导入优选的样本数据进行图形化标注并生成正则并训练 CRF 模型，通过调用服务接口输入非结构化文本数据得到提取到的结构化数据。对比已有方案一，本方案适用面更广，对于输入数据没有特定格式要求。对比已有方案二，本方案根据标注数据自动生成正则规则，并使用 CRF 算法进行机器学习训练，比单一的使用正则来提取结构化数据具有更高的准确率。

本发明提出了基于中文分词、正则、CRF 算法，结合机器学习技术的从非结构化文本数据中提取结构化数据的方法，其不再限于某种特定格式的文本数据（如 HTML网页），只要是文本数据（其他类型非结构化数据，如 word、pdf 等可通过简单转换得到文本格式数据）都可通过本发明方法进行结构化信息提取，具有适用面更广的效果。

本发明将正则和 CRF 结合进行结构化信息提取，对比单独只使用正则或 CRF 的方式具有提取准确率更高的效果。

附图说明

下面结合附图和具体实施方式对本发明做进一步说明。本发明保护范围不仅局限于以下内容的表述。

图1是本发明实施步骤图。

图2是本发明提取过程图。

图3是本发明样本标注图。

具体实施方式

如图所示，本实施例提供1000份样本，其中800份为训练集，200分为测试集，通过对800份训练集进行标注生成CRF模型结合基于正则的结构化信息提取，对两者提取结果进行合并处理，等到最终的结果。

本实施例提取信息包括“故障开始时间”、“故障结束时间”、“故障原因”。

步骤1，进行训练集样本标注，例如图3中，我们给三个字段标注了其在文本数据中对应的内容。

步骤2，针对标注的文本，进行分词及词性标注，防止标注内容割裂，影响后续模型训练效果，如计量用（名词）C相高压电压熔丝（名词）烧毁（动词）。

步骤3，基于标注好的文本数据通过其标注内容生成正则匹配表达式，如故障开始时间正则为“[1-9]\d{3}年(0[1-9]|1[0-2])月(0[1-9]|[1-2][0-9]|3[0-1])日” 。

步骤4，生成 CRF 训练特征数据，本实施例中使用名词，名词，动词作为一个标注序列，将此序列作为一个特征函数，通过定义一个特征函数集合，使用这个特征函数集合对标注序列打分，并据此选出最得分最高的标注序列。

步骤5，训练并评估 CRF 模型，对步骤 4 生成的 CRF 训练特征数据，使用800份训练集样本进行 CRF 模型训练，生成CRF模型；使用200份测试集数据对生成的CRF模型进行测试，根据准确率和召回率评估模型效果。若准确率和召回率较低时可重新从步骤 1 开始调整标注内容。本实施例通过两轮调整后，准确率达到86%，召回率达到92%。

步骤6，结合正则和 CRF 模型进行结构化信息提取，对输入的文本数据分别进行基于正则的结构化信息提取和基于 CRF 的结构化信息提取，二者对应的提取结果后进行合并处理，得到最终的结构化信息提取结果。

可以理解的是，以上关于本发明的具体描述，仅用于说明本发明而并非受限于本发明实施例所描述的技术方案，本领域的普通技术人员应当理解，仍然可以对本发明进行修改或等同替换，以达到相同的技术效果；只要满足使用需要，都在本发明的保护范围之内。

Claims

1.一种从非结构化文本数据中提取结构化数据的方法及系统，其特征在于包括以下步骤：

1）在样本中标注要提取的信息在标注操作界面中建立要提取的字段，并在文本数据中标注字段对应的内容，标注完成系统会记录字段名称及其内容在文本中的起止位置；

2）分词、标注词性

通过常用分词工具对步骤 1 中标注好的文本数据逐篇进行分词及词性标注，具体步骤包含：首先根据标注内容在文本中起止位置对文本进行分割，得到数个文本段，然后对这些文本段进行分词和词性标注，这样可以防止分词时将标注内容割裂，影响后续模型训练效果；

3）生成正则

对步骤 1 中标注好的文本数据通过其标注内容生成正则匹配表达式，并可对生成的正则表达式进行必要调整，提高其匹配效果；

4）生成 CRF 训练特征数据

CRF（条件随机场）是由一个在给定输入节点条件下计算输出节点的条件概率的无向图模型，假设 X，Y 分别表示需要标记的观察序列和相对应的标记序列的联合分布随机变量，那么条件随机场 (X,Y) 就是一个以观察序列 X 为条件的无向图模型，条件随机场的目标是在给定需要标记的观察序列的条件下，使标记序列的联合概率达到最优；

本方案中的观察序列就是文本数据经过步骤 2 后的分词序列；

对步骤 2 中完成分词和词性标注的文本数据生成 CRF 训练特征数据，对文本数据中任意一个词其特征包括：当前词及其前后两个词的内容、词性；

5）训练并评估 CRF 模型

对步骤 4 生成的 CRF 训练特征数据，首先按 8:2 的比例切分训练集和测试集，然后进行 CRF 模型训练；

使用测试集数据对训练好的模型进行测试，根据评估指标（括准确率和召回率）评估模型效果；

若模型效果不理想可重新从步骤 1 开始调整标注内容；

6）结合正则和 CRF 模型进行结构化信息提取