CN109542845B

CN109542845B - 一种基于关键词表达式的文本元数据提取方法

Info

Publication number: CN109542845B
Application number: CN201811355247.XA
Authority: CN
Inventors: 陈桂清
Original assignee: Guangzhou Sunshot Information Technology Co ltd
Current assignee: Guangzhou Sunshot Information Technology Co ltd
Priority date: 2018-11-14
Filing date: 2018-11-14
Publication date: 2022-12-30
Anticipated expiration: 2038-11-14
Also published as: CN109542845A

Abstract

本发明公开了一种基于关键词表达式的文本元数据提取方法，该包括以下步骤：获取文本，对文本进行预处理，对文本进行一次数据抽取，对一次抽取的数据进行二次抽取，对二次抽取的数据进行统一处理，其中步骤对文本进行一次数据抽取中包括以下步骤：从文本提取需要的抽取字段，确定抽取数据的类型，根据关键词表达式在抽取字段初步定位抽取数据位置，对关键词表达式进行组合，根据关键词表达式组合对初步定位的抽取数据进行筛选提纯抽取数据，将一次抽取的数据读取到内存。本发明的数据提取方法具有通用性，在不同行业应用的时候无需再次耗费大量人力训练神经网络识别模型即可以实现对文本元数据的抽取。

Description

一种基于关键词表达式的文本元数据提取方法

技术领域

本发明涉及一种文本元数据提取方法，具体涉及一种基于关键词表达式的文本元数据提取方法。

背景技术

在很多行业信息化系统的建设中，既存在有结构化的数据，也存在有非结构化的数据。结构化数据如一条记录中包含有姓名、年龄、身份证号码等，而非结构化的数据则大部分以文本描述的形式存在，如新闻、招标公告、案件描述、商品评论信息、投诉建议等。基于自然语言描述的文本信息要比结构化的基本信息数据更丰富形象与可读。但是，非结构化的文本数据不便于综合检索，特别在面对海量的记录文本数据时，难以发现真正需要的信息，比如：从灾难新闻报道中如何识别事故发生地点、事故发生时间、伤亡人数、事故类别后用于统计分析或预警；又如：从招标公告中识别项目编号、项目名称、招标单位、中标单位、招标金额、中标金额等用于查询统计分析等。面对互联网各种各样的数据，如何将大量无序的信息及时准确地进行提取、整理、组织成便于查询检索的形式，已成为行业大数据应用研究开发的焦点。

专利文件“CN 108170678A一种文本实体抽取方法与系统”公开了一种数据提取方法，通过训练神经网络的形式抽取文本中的特殊数据，但是缺陷是该方法需要大量的样本进行训练分析识别模型，在应用于不同的行业时需要耗费较多的人力用于训练神经网络识别模型。

发明内容

本发明的目的就是为了解决上述问题，提出了一种基于关键词表达式的文本元数据提取方法，它无需通过训练即可实现对文本准确、快速抽取各种元数据。

为了实现上述目的，本发明采用如下技术方案：

一种基于关键词表达式的文本元数据提取方法，所述方法包括以下步骤：

A.获取文本；

B.对文本进行预处理；

C.对文本进行一次数据抽取；

D.对一次抽取的数据进行二次抽取；

E.对二次抽取的数据进行统一处理；

所述步骤C.对文本进行一次数据抽取包括以下步骤：

C1.从文本提取需要的抽取字段；

C2.确定抽取数据的类型；

C3.根据关键词表达式在抽取字段初步定位抽取数据位置；

C4.对关键词表达式进行组合；

C5.根据关键词表达式组合对初步定位的抽取数据进行筛选提纯抽取数据；

C6.将一次抽取的数据读取到内存。

可选地，所述步骤A.获取文本的获取文本方式包括：通过网络爬虫或者从数据库中读取记录的文本信息、通过人工导入的形式获取文本信息。

可选地，所述步骤B.对文本进行预处理包括以下步骤：

B1.将文本按HTML的规则对内容的换行符进行移除；

B2.将文本中的HTML标签去除；

B3.将文本中的多余的空格去除；

B4.将文本中的TAB符号去除。

可选地，在所述步骤C1.从文本提取需要的抽取字段之前，还包括：确定抽取字段的名称、标题、类型等基本信息。

进一步地，在所述步骤C3.根据关键词表达式在抽取字段初步定位抽取数据位置之前，还包括：设定初步定位抽取数据位置的规则。

进一步地，所述初步定位抽取数据位置的规则包括同一行抽取原则和最近一个数据抽取原则。

可选地，所述步骤C4.对关键词表达式进行组合包括以下步骤：

C41.对关键词表示式进行与或非等逻辑组合；

C42.限定关键词表达式组合的词序；

C43.限定关键词表达式的组合之间的词距。

可选地，所述步骤D.对一次抽取的数据进行二次抽取包括：

D1.设定二次抽取的数据类型；

D2.从一次抽取的数据中抽取设定的数据类型的数据。

进一步地，所述设定二次抽取的数据类型包括：数字、地名、机构名、电话号码、手机号码、日期时间、金融货币、车牌号码与正则表达式。

可选地，所述步骤E.对二次抽取的数据进行统一处理包括以下步骤；

E1.对数据进行形式上的转换；

E2.记录转换形式后的数据；

E3.将记录保存到数据库。

本发明的有益效果：

一、具有通用性，在不同行业应用的时候无需再次耗费大量人力训练神经网络识别模型即可以实现对文本元数据的抽取；

二、基于关键词表达式的组合、词序和词距控制的技术，降低了对提取文本的规范性要求，使其使用范围更加广，和降低了人工输入文本的难度；

三、提取数据速度快，关键词表达式的逻辑运算简单，在提取数据的时候能节省时间提高效率，在大规模抽取文本元数据时具备有速度快的特点；

四、提取数据的精准性高，由于结合了逻辑运算、词距控制、词序控制和字段抽取等关键技术，多方位定位提取需要抽取的数据，准确性高；

五、易扩展满足其他应用对数据规范性的要求，对一次抽取的内容通过正则表达式等进行二次抽取和对数据进行形式上的转换，满足其他应用对数据规范性的要求。

附图说明

图1示出了本发明的实施例一的基于关键词表达式的文本元数据抽取方法的示意图；

图2为本发明的C.对文本进行一次数据抽取的流程图；

图3为本发明的B.对文本进行预处理得到流程图；

图4为本发明的D.对一次抽取的数据进行二次抽取的流程图；

图5为本发明的E.对二次抽取的数据进行统一处理的流程图；

图6为本发明的实施例一的基于关键词表达式的文本元数据抽取方法的详细示意图；

图7示出了本发明的实施例二的基于关键词表达式的文本元数据抽取方法的详细示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明具体实施例作进一步的详细描述。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。

实施例一：图1示出了本发明的一个实施例的基于关键词表达式的文本元数据抽取方法示意图。如图1所示，本实施例的基于关键词表达式的文本元数据抽取方法包括：

A.获取文本；

B.对文本进行预处理；

C.对文本进行一次数据抽取；

D.对一次抽取的数据进行二次抽取；

E.对二次抽取的数据进行统一处理。

结合附图2，所述步骤C.对文本进行一次数据抽取包括以下步骤：

C1.从文本提取需要的抽取字段；

C2.确定抽取数据的类型；

C3.根据关键词表达式在抽取字段初步定位抽取数据位置；

C4.对关键词表达式进行组合；

C6.将一次抽取的数据读取到内存。

结合附图6，附图6示出了上述的一个实施例的基于关键词表达式的文本元数据抽取方法的详细示意图。

A.获取文本；

B.对文本进行预处理；

C1.从文本提取需要的抽取字段；

C2.确定抽取数据的类型；

C3.根据关键词表达式在抽取字段初步定位抽取数据位置；

C4.对关键词表达式进行组合；

C6.将一次抽取的数据读取到内存；

D.对一次抽取的数据进行二次抽取；

E.对二次抽取的数据进行统一处理。

本实施例的基于关键词表达式的文本元数据抽取方法通过先获取文本，然后对文本进行预处理再从文本提取需要的抽取字段，接着确定抽取数据的类型，再根据关键词表达式在抽取字段初步定位抽取数据位置，然后对关键词表达式进行组合，再接着根据关键词表达式组合对初步定位的抽取数据进行筛选提纯抽取数据，跟着将一次抽取的数据读取到内存，再对一次抽取的数据进行二次抽取，最后对二次抽取的数据进行统一处理。该基于关键词表达式的文本元数据抽取方法具有通用性，在不同行业应用的时候无需再次耗费大量人力训练神经网络识别模型即可以实现对文本元数据的抽取。

实施例二：附图7示出了本发明的实施例二的基于关键词表达式的文本元数据抽取方法的详细示意图。

在实施例一的基础上结合附图3，所述步骤B.对文本进行预处理包括以下步骤：

B1.将文本按HTML的规则对内容的换行符进行移除；

B2.将文本中的HTML标签去除；

B3.将文本中的多余的空格去除；

B4.将文本中的TAB符号去除。

结合附图4，所述步骤D.对一次抽取的数据进行二次抽取包括以下步骤：

D1.设定二次抽取的数据类型；

D2.从一次抽取的数据中抽取设定的数据类型的数据。

结合附图5，所述步骤E.对二次抽取的数据进行统一处理包括以下步骤：

E1.对数据进行形式上的转换；

E2.记录转换形式后的数据；

E3.将记录保存到数据库。

如附图7所示，实施例二的基于关键词表达式的文本元数据抽取方法的详细示意图包括以下步骤。

A.获取文本；

B1.将文本按HTML的规则对内容的换行符进行移除；

B2.将文本中的HTML标签去除；

B3.将文本中的多余的空格去除；

B4.将文本中的TAB符号去除；

C0.确认抽取字段的名称、标题、类型等基本信息；

C1.从文本提取需要的抽取字段；

C2.确定抽取数据的类型；

C3.根据关键词表达式在抽取字段初步定位抽取数据位置；

C41.对关键词表达式进行与或非等逻辑组合，

C42.限定关键词表达式组合的词序，

C43.限定关键词表达式的组合之间的词距

C6.将一次抽取的数据读取到内存；

D1.设定二次抽取的数据类型；

D2.从一次抽取的数据中抽取设定的数据类型的数据。

E1.对数据进行形式上的转换；

E2.记录转换形式后的数据；

E3.将记录保存到数据库。

步骤A.获取文本中的获取文本方式包括通过网络爬虫或者从数据库中读取记录的文本信息，另外还可以通过人工导入文本的形式获得文本信息。步骤B对文本进行预处理，将文本规范化，可以降低对原始输入文本规范性的要求。步骤C先确认了导入文本中所需要抽取的字段，把所需要抽取的数据的范围缩小，可以减少分析抽取数据的时间，提高效率；然后确认要抽取数据的类型，数据的类型可以为数字、中文、英文这种分类，也可以是时间、日期、地点的这种分类，然后确认关键词表达式，关键词表达式包括前缀关键词、后缀关键词，前缀关键词为提取位于关键词后面的信息，后缀关键词为提取位于关键词前面的信息，其表达式可以为词语的逻辑组合，例如(预算|投资)+(金额|费用)表示的意思是(预算或投资)和(金额或费用)的组合，为预算金额、预算费用、投资金额、投资费用这四种组合。初步定位抽取数据和抽取数据的规则包括同一行抽取原则和最近一个数据抽取原则，同一行抽取原则是抽取和关键词表达式在同一行里面的数据；最近一个数据抽取原则为仅抽取距离关键词表达式最近一个的数据。例如：前缀关键词为预算金额，遵从同一行抽取原则和最近一个数据抽取原则，在字段“今年投资的预算金额为1000元，其中500元投资A产品，另外的投资B产品，考虑到市场的不稳定性，额度最高可以变为1500元。”“今年投资的预算金额为1000元，其中500元投资A产品，”为第一行文字，剩下的为第二行文字，抽取的数据为第一行的距离预算金额最近的数据1000元。

因为一次抽取的数据中包含有较多的噪声，所以需要二次抽取提纯。对一次抽取的数据进行二次抽取提纯，设定二次抽取的数据类型，所述二次抽取的数据类型包括数字、地名、机构名、电话号码、手机号码、日期时间、金融货币、车牌号码与正则表达式，然后从一次抽取的数据中抽取设定的数据类型的数据，二次抽取的数据与设定的数据类型相一致，能到得到更纯净的数据。例如：一次抽取的数据中包含446531和12345678911，二次抽取的数据类型设定为手机号码，因此446531这个不符合手机号码十一位数的规则就被筛选出去，12345678911符合手机号码的就被抽取出来。再接着对数据进行形式上的转换，如日期时间格式统一成“年月日时秒分”的形式，中文的货币需要转换成数字的形式，即如将“壹佰圆整”转换成“100”，以便于数据的筛选、合计与查询等；然后记录转换形式后的数据，并将记录保存到数据库，所记录数据的形式为关键词表达式和所抽取数据，例如前缀关键词表达式为营业额，抽取数据为1000万元，记录的数据为“营业额1000万元”。

虽然结合附图描述了本发明的实施方式，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种基于关键词表达式的文本元数据提取方法，其特征在于，所述方法包括以下步骤：A.获取文本；

B.对文本进行预处理；

C.对文本进行一次数据抽取；

D.对一次抽取的数据进行二次抽取；

E.对二次抽取的数据进行统一处理；

所述步骤C.对文本进行一次数据抽取包括以下步骤：C1.从文本提取需要的抽取字段；

C2.确定抽取数据的类型；

C3.根据关键词表达式在抽取字段初步定位抽取数据位置；

C4.对关键词表达式进行组合，包括：C41.对关键词表达式进行与或非逻辑组合；C42.限定关键词表达式组合的词序；C43.限定关键词表达式的组合之间的词距；

C6.将一次抽取的数据读取到内存。

2.根据权利要求1所述的基于关键词表达式的文本元数据提取方法，其特征在于：所述步骤A.获取文本的获取文本方式包括：通过网络爬虫或者从数据库中读取记录的文本信息或者通过人工导入的形式获取文本信息。

3.根据权利要求1所述的基于关键词表达式的文本元数据提取方法，其特征在于：所述步骤B.对文本进行预处理包括以下步骤：B1.将文本按HTML的规则对内容的换行符进行移除；B2.将文本中的HTML标签去除；B3.将文本中的多余的空格去除；B4.将文本中的TAB符号去除。

4.根据权利要求1所述的基于关键词表达式的文本元数据提取方法，其特征在于：在所述步骤C1.从文本提取需要的抽取字段之前，还包括：确定抽取字段的基本信息；所述基本信息包括名称、标题、类型。

5.根据权利要求1所述的基于关键词表达式的文本元数据提取方法，其特征在于：在所述步骤C3.根据关键词表达式在抽取字段初步定位抽取数据位置之前，还包括：设定初步定位抽取数据位置的规则。

6.根据权利要求5所述的基于关键词表达式的文本元数据提取方法，其特征在于：所述初步定位抽取数据位置的规则包括同一行抽取原则和最近一个数据抽取原则。

7.根据权利要求1所述的基于关键词表达式的文本元数据提取方法，其特征在于：所述步骤D.对一次抽取的数据进行二次抽取包括：D1.设定二次抽取的数据类型；D2.从一次抽取的数据中抽取设定的数据类型的数据。

8.根据权利要求7所述的基于关键词表达式的文本元数据提取方法，其特征在于：所述设定二次抽取的数据类型包括：数字、地名、机构名、电话号码、手机号码、日期时间、金融货币、车牌号码与正则表达式。

9.根据权利要求1所述的基于关键词表达式的文本元数据提取方法，其特征在于：所述步骤E.对二次抽取的数据进行统一处理包括以下步骤；E1.对数据进行形式上的转换；

E2.记录转换形式后的数据；E3.将记录保存到数据库。