CN109542845B - 一种基于关键词表达式的文本元数据提取方法 - Google Patents

一种基于关键词表达式的文本元数据提取方法 Download PDF

Info

Publication number
CN109542845B
CN109542845B CN201811355247.XA CN201811355247A CN109542845B CN 109542845 B CN109542845 B CN 109542845B CN 201811355247 A CN201811355247 A CN 201811355247A CN 109542845 B CN109542845 B CN 109542845B
Authority
CN
China
Prior art keywords
data
text
extraction
extracted
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811355247.XA
Other languages
English (en)
Other versions
CN109542845A (zh
Inventor
陈桂清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Sunshot Information Technology Co ltd
Original Assignee
Guangzhou Sunshot Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Sunshot Information Technology Co ltd filed Critical Guangzhou Sunshot Information Technology Co ltd
Priority to CN201811355247.XA priority Critical patent/CN109542845B/zh
Publication of CN109542845A publication Critical patent/CN109542845A/zh
Application granted granted Critical
Publication of CN109542845B publication Critical patent/CN109542845B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于关键词表达式的文本元数据提取方法,该包括以下步骤:获取文本,对文本进行预处理,对文本进行一次数据抽取,对一次抽取的数据进行二次抽取,对二次抽取的数据进行统一处理,其中步骤对文本进行一次数据抽取中包括以下步骤:从文本提取需要的抽取字段,确定抽取数据的类型,根据关键词表达式在抽取字段初步定位抽取数据位置,对关键词表达式进行组合,根据关键词表达式组合对初步定位的抽取数据进行筛选提纯抽取数据,将一次抽取的数据读取到内存。本发明的数据提取方法具有通用性,在不同行业应用的时候无需再次耗费大量人力训练神经网络识别模型即可以实现对文本元数据的抽取。

Description

一种基于关键词表达式的文本元数据提取方法
技术领域
本发明涉及一种文本元数据提取方法,具体涉及一种基于关键词表达式的文本元数据提取方法。
背景技术
在很多行业信息化系统的建设中,既存在有结构化的数据,也存在有非结构化的数据。结构化数据如一条记录中包含有姓名、年龄、身份证号码等,而非结构化的数据则大部分以文本描述的形式存在,如新闻、招标公告、案件描述、商品评论信息、投诉建议等。基于自然语言描述的文本信息要比结构化的基本信息数据更丰富形象与可读。但是,非结构化的文本数据不便于综合检索,特别在面对海量的记录文本数据时,难以发现真正需要的信息,比如:从灾难新闻报道中如何识别事故发生地点、事故发生时间、伤亡人数、事故类别后用于统计分析或预警;又如:从招标公告中识别项目编号、项目名称、招标单位、中标单位、招标金额、中标金额等用于查询统计分析等。面对互联网各种各样的数据,如何将大量无序的信息及时准确地进行提取、整理、组织成便于查询检索的形式,已成为行业大数据应用研究开发的焦点。
专利文件“CN 108170678A一种文本实体抽取方法与系统”公开了一种数据提取方法,通过训练神经网络的形式抽取文本中的特殊数据,但是缺陷是该方法需要大量的样本进行训练分析识别模型,在应用于不同的行业时需要耗费较多的人力用于训练神经网络识别模型。
发明内容
本发明的目的就是为了解决上述问题,提出了一种基于关键词表达式的文本元数据提取方法,它无需通过训练即可实现对文本准确、快速抽取各种元数据。
为了实现上述目的,本发明采用如下技术方案:
一种基于关键词表达式的文本元数据提取方法,所述方法包括以下步骤:
A.获取文本;
B.对文本进行预处理;
C.对文本进行一次数据抽取;
D.对一次抽取的数据进行二次抽取;
E.对二次抽取的数据进行统一处理;
所述步骤C.对文本进行一次数据抽取包括以下步骤:
C1.从文本提取需要的抽取字段;
C2.确定抽取数据的类型;
C3.根据关键词表达式在抽取字段初步定位抽取数据位置;
C4.对关键词表达式进行组合;
C5.根据关键词表达式组合对初步定位的抽取数据进行筛选提纯抽取数据;
C6.将一次抽取的数据读取到内存。
可选地,所述步骤A.获取文本的获取文本方式包括:通过网络爬虫或者从数据库中读取记录的文本信息、通过人工导入的形式获取文本信息。
可选地,所述步骤B.对文本进行预处理包括以下步骤:
B1.将文本按HTML的规则对内容的换行符进行移除;
B2.将文本中的HTML标签去除;
B3.将文本中的多余的空格去除;
B4.将文本中的TAB符号去除。
可选地,在所述步骤C1.从文本提取需要的抽取字段之前,还包括:确定抽取字段的名称、标题、类型等基本信息。
进一步地,在所述步骤C3.根据关键词表达式在抽取字段初步定位抽取数据位置之前,还包括:设定初步定位抽取数据位置的规则。
进一步地,所述初步定位抽取数据位置的规则包括同一行抽取原则和最近一个数据抽取原则。
可选地,所述步骤C4.对关键词表达式进行组合包括以下步骤:
C41.对关键词表示式进行与或非等逻辑组合;
C42.限定关键词表达式组合的词序;
C43.限定关键词表达式的组合之间的词距。
可选地,所述步骤D.对一次抽取的数据进行二次抽取包括:
D1.设定二次抽取的数据类型;
D2.从一次抽取的数据中抽取设定的数据类型的数据。
进一步地,所述设定二次抽取的数据类型包括:数字、地名、机构名、电话号码、手机号码、日期时间、金融货币、车牌号码与正则表达式。
可选地,所述步骤E.对二次抽取的数据进行统一处理包括以下步骤;
E1.对数据进行形式上的转换;
E2.记录转换形式后的数据;
E3.将记录保存到数据库。
本发明的有益效果:
一、具有通用性,在不同行业应用的时候无需再次耗费大量人力训练神经网络识别模型即可以实现对文本元数据的抽取;
二、基于关键词表达式的组合、词序和词距控制的技术,降低了对提取文本的规范性要求,使其使用范围更加广,和降低了人工输入文本的难度;
三、提取数据速度快,关键词表达式的逻辑运算简单,在提取数据的时候能节省时间提高效率,在大规模抽取文本元数据时具备有速度快的特点;
四、提取数据的精准性高,由于结合了逻辑运算、词距控制、词序控制和字段抽取等关键技术,多方位定位提取需要抽取的数据,准确性高;
五、易扩展满足其他应用对数据规范性的要求,对一次抽取的内容通过正则表达式等进行二次抽取和对数据进行形式上的转换,满足其他应用对数据规范性的要求。
附图说明
图1示出了本发明的实施例一的基于关键词表达式的文本元数据抽取方法的示意图;
图2为本发明的C.对文本进行一次数据抽取的流程图;
图3为本发明的B.对文本进行预处理得到流程图;
图4为本发明的D.对一次抽取的数据进行二次抽取的流程图;
图5为本发明的E.对二次抽取的数据进行统一处理的流程图;
图6为本发明的实施例一的基于关键词表达式的文本元数据抽取方法的详细示意图;
图7示出了本发明的实施例二的基于关键词表达式的文本元数据抽取方法的详细示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明具体实施例作进一步的详细描述。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。
实施例一:图1示出了本发明的一个实施例的基于关键词表达式的文本元数据抽取方法示意图。如图1所示,本实施例的基于关键词表达式的文本元数据抽取方法包括:
A.获取文本;
B.对文本进行预处理;
C.对文本进行一次数据抽取;
D.对一次抽取的数据进行二次抽取;
E.对二次抽取的数据进行统一处理。
结合附图2,所述步骤C.对文本进行一次数据抽取包括以下步骤:
C1.从文本提取需要的抽取字段;
C2.确定抽取数据的类型;
C3.根据关键词表达式在抽取字段初步定位抽取数据位置;
C4.对关键词表达式进行组合;
C5.根据关键词表达式组合对初步定位的抽取数据进行筛选提纯抽取数据;
C6.将一次抽取的数据读取到内存。
结合附图6,附图6示出了上述的一个实施例的基于关键词表达式的文本元数据抽取方法的详细示意图。
A.获取文本;
B.对文本进行预处理;
C1.从文本提取需要的抽取字段;
C2.确定抽取数据的类型;
C3.根据关键词表达式在抽取字段初步定位抽取数据位置;
C4.对关键词表达式进行组合;
C5.根据关键词表达式组合对初步定位的抽取数据进行筛选提纯抽取数据;
C6.将一次抽取的数据读取到内存;
D.对一次抽取的数据进行二次抽取;
E.对二次抽取的数据进行统一处理。
本实施例的基于关键词表达式的文本元数据抽取方法通过先获取文本,然后对文本进行预处理再从文本提取需要的抽取字段,接着确定抽取数据的类型,再根据关键词表达式在抽取字段初步定位抽取数据位置,然后对关键词表达式进行组合,再接着根据关键词表达式组合对初步定位的抽取数据进行筛选提纯抽取数据,跟着将一次抽取的数据读取到内存,再对一次抽取的数据进行二次抽取,最后对二次抽取的数据进行统一处理。该基于关键词表达式的文本元数据抽取方法具有通用性,在不同行业应用的时候无需再次耗费大量人力训练神经网络识别模型即可以实现对文本元数据的抽取。
实施例二:附图7示出了本发明的实施例二的基于关键词表达式的文本元数据抽取方法的详细示意图。
在实施例一的基础上结合附图3,所述步骤B.对文本进行预处理包括以下步骤:
B1.将文本按HTML的规则对内容的换行符进行移除;
B2.将文本中的HTML标签去除;
B3.将文本中的多余的空格去除;
B4.将文本中的TAB符号去除。
结合附图4,所述步骤D.对一次抽取的数据进行二次抽取包括以下步骤:
D1.设定二次抽取的数据类型;
D2.从一次抽取的数据中抽取设定的数据类型的数据。
结合附图5,所述步骤E.对二次抽取的数据进行统一处理包括以下步骤:
E1.对数据进行形式上的转换;
E2.记录转换形式后的数据;
E3.将记录保存到数据库。
如附图7所示,实施例二的基于关键词表达式的文本元数据抽取方法的详细示意图包括以下步骤。
A.获取文本;
B1.将文本按HTML的规则对内容的换行符进行移除;
B2.将文本中的HTML标签去除;
B3.将文本中的多余的空格去除;
B4.将文本中的TAB符号去除;
C0.确认抽取字段的名称、标题、类型等基本信息;
C1.从文本提取需要的抽取字段;
C2.确定抽取数据的类型;
C3.根据关键词表达式在抽取字段初步定位抽取数据位置;
C41.对关键词表达式进行与或非等逻辑组合,
C42.限定关键词表达式组合的词序,
C43.限定关键词表达式的组合之间的词距
C5.根据关键词表达式组合对初步定位的抽取数据进行筛选提纯抽取数据;
C6.将一次抽取的数据读取到内存;
D1.设定二次抽取的数据类型;
D2.从一次抽取的数据中抽取设定的数据类型的数据。
E1.对数据进行形式上的转换;
E2.记录转换形式后的数据;
E3.将记录保存到数据库。
步骤A.获取文本中的获取文本方式包括通过网络爬虫或者从数据库中读取记录的文本信息,另外还可以通过人工导入文本的形式获得文本信息。步骤B对文本进行预处理,将文本规范化,可以降低对原始输入文本规范性的要求。步骤C先确认了导入文本中所需要抽取的字段,把所需要抽取的数据的范围缩小,可以减少分析抽取数据的时间,提高效率;然后确认要抽取数据的类型,数据的类型可以为数字、中文、英文这种分类,也可以是时间、日期、地点的这种分类,然后确认关键词表达式,关键词表达式包括前缀关键词、后缀关键词,前缀关键词为提取位于关键词后面的信息,后缀关键词为提取位于关键词前面的信息,其表达式可以为词语的逻辑组合,例如(预算|投资)+(金额|费用)表示的意思是(预算或投资)和(金额或费用)的组合,为预算金额、预算费用、投资金额、投资费用这四种组合。初步定位抽取数据和抽取数据的规则包括同一行抽取原则和最近一个数据抽取原则,同一行抽取原则是抽取和关键词表达式在同一行里面的数据;最近一个数据抽取原则为仅抽取距离关键词表达式最近一个的数据。例如:前缀关键词为预算金额,遵从同一行抽取原则和最近一个数据抽取原则,在字段“今年投资的预算金额为1000元,其中500元投资A产品,另外的投资B产品,考虑到市场的不稳定性,额度最高可以变为1500元。”“今年投资的预算金额为1000元,其中500元投资A产品,”为第一行文字,剩下的为第二行文字,抽取的数据为第一行的距离预算金额最近的数据1000元。
接着根据关键词表达式在抽取字段中初步定位抽取数据的位置和抽取数据,再初步抽取数据之后要对其进行筛选提纯数据,方法步骤包括对关键词表达式进行与或非等逻辑组合,.限定关键词表达式组合的词序和限定关键词表达式的组合之间的词距。例如前缀关键词表达式为(收入|支出)和(金额|费用),其进行进行逻辑组合,(收入|支出)+(金额|费用),并对其进行词序的限定,(收入|支出)位于(金额|费用)的前面,并对其进行词距的限定,(收入|支出)与(金额|费用)的词距小于等于10个字距,那么限定就变成了收入金额、收入费用、支出金额和支出费用这四种组合,并且收入和金额、收入和费用、支出和金额、支出和费用之间的字距小于等于10,不符合的限定的初步数据会被筛选出去,提纯的数据会通过字符串的函数将内容读取到内存。例如:设定的前缀关键词表达式为(收入|支出)+(金额|费用)、(收入|支出)位于(金额|费用)的前面和(收入|支出)与(金额|费用)的词距小于等于10个字距,字段“2018年本公司收入金额为1000万元,费用支出为500万元,其中支出所有员工的工资的金额为200万元。”中满足抽取的要求的数据为1000万元,其中数据500万元不满足词序要求,200万元不满足词距要求,所以数据500万元和数据200万元不被抽取。
因为一次抽取的数据中包含有较多的噪声,所以需要二次抽取提纯。对一次抽取的数据进行二次抽取提纯,设定二次抽取的数据类型,所述二次抽取的数据类型包括数字、地名、机构名、电话号码、手机号码、日期时间、金融货币、车牌号码与正则表达式,然后从一次抽取的数据中抽取设定的数据类型的数据,二次抽取的数据与设定的数据类型相一致,能到得到更纯净的数据。例如:一次抽取的数据中包含446531和12345678911,二次抽取的数据类型设定为手机号码,因此446531这个不符合手机号码十一位数的规则就被筛选出去,12345678911符合手机号码的就被抽取出来。再接着对数据进行形式上的转换,如日期时间格式统一成“年月日时秒分”的形式,中文的货币需要转换成数字的形式,即如将“壹佰圆整”转换成“100”,以便于数据的筛选、合计与查询等;然后记录转换形式后的数据,并将记录保存到数据库,所记录数据的形式为关键词表达式和所抽取数据,例如前缀关键词表达式为营业额,抽取数据为1000万元,记录的数据为“营业额1000万元”。
虽然结合附图描述了本发明的实施方式,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (9)

1.一种基于关键词表达式的文本元数据提取方法,其特征在于,所述方法包括以下步骤:A.获取文本;
B.对文本进行预处理;
C.对文本进行一次数据抽取;
D.对一次抽取的数据进行二次抽取;
E.对二次抽取的数据进行统一处理;
所述步骤C.对文本进行一次数据抽取包括以下步骤:C1.从文本提取需要的抽取字段;
C2.确定抽取数据的类型;
C3.根据关键词表达式在抽取字段初步定位抽取数据位置;
C4.对关键词表达式进行组合,包括:C41.对关键词表达式进行与或非逻辑组合;C42.限定关键词表达式组合的词序;C43.限定关键词表达式的组合之间的词距;
C5.根据关键词表达式组合对初步定位的抽取数据进行筛选提纯抽取数据;
C6.将一次抽取的数据读取到内存。
2.根据权利要求1所述的基于关键词表达式的文本元数据提取方法,其特征在于:所述步骤A.获取文本的获取文本方式包括:通过网络爬虫或者从数据库中读取记录的文本信息或者通过人工导入的形式获取文本信息。
3.根据权利要求1所述的基于关键词表达式的文本元数据提取方法,其特征在于:所述步骤B.对文本进行预处理包括以下步骤:B1.将文本按HTML的规则对内容的换行符进行移除;B2.将文本中的HTML标签去除;B3.将文本中的多余的空格去除;B4.将文本中的TAB符号去除。
4.根据权利要求1所述的基于关键词表达式的文本元数据提取方法,其特征在于:在所述步骤C1.从文本提取需要的抽取字段之前,还包括:确定抽取字段的基本信息;所述基本信息包括名称、标题、类型。
5.根据权利要求1所述的基于关键词表达式的文本元数据提取方法,其特征在于:在所述步骤C3.根据关键词表达式在抽取字段初步定位抽取数据位置之前,还包括:设定初步定位抽取数据位置的规则。
6.根据权利要求5所述的基于关键词表达式的文本元数据提取方法,其特征在于:所述初步定位抽取数据位置的规则包括同一行抽取原则和最近一个数据抽取原则。
7.根据权利要求1所述的基于关键词表达式的文本元数据提取方法,其特征在于:所述步骤D.对一次抽取的数据进行二次抽取包括:D1.设定二次抽取的数据类型;D2.从一次抽取的数据中抽取设定的数据类型的数据。
8.根据权利要求7所述的基于关键词表达式的文本元数据提取方法,其特征在于:所述设定二次抽取的数据类型包括:数字、地名、机构名、电话号码、手机号码、日期时间、金融货币、车牌号码与正则表达式。
9.根据权利要求1所述的基于关键词表达式的文本元数据提取方法,其特征在于:所述步骤E.对二次抽取的数据进行统一处理包括以下步骤;E1.对数据进行形式上的转换;
E2.记录转换形式后的数据;E3.将记录保存到数据库。
CN201811355247.XA 2018-11-14 2018-11-14 一种基于关键词表达式的文本元数据提取方法 Active CN109542845B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811355247.XA CN109542845B (zh) 2018-11-14 2018-11-14 一种基于关键词表达式的文本元数据提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811355247.XA CN109542845B (zh) 2018-11-14 2018-11-14 一种基于关键词表达式的文本元数据提取方法

Publications (2)

Publication Number Publication Date
CN109542845A CN109542845A (zh) 2019-03-29
CN109542845B true CN109542845B (zh) 2022-12-30

Family

ID=65847506

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811355247.XA Active CN109542845B (zh) 2018-11-14 2018-11-14 一种基于关键词表达式的文本元数据提取方法

Country Status (1)

Country Link
CN (1) CN109542845B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112053758B (zh) * 2020-08-27 2024-04-16 北京颢云信息科技股份有限公司 一种单病种数据库智能构建方法
CN115600582B (zh) * 2022-12-15 2023-04-07 电子科技大学 一种基于预训练语言模型的可控文本生成方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105426360A (zh) * 2015-11-12 2016-03-23 中国建设银行股份有限公司 一种关键词抽取方法及装置
CN105608201A (zh) * 2015-12-28 2016-05-25 湖南蚁坊软件有限公司 一种支持多关键词表达式的文本匹配方法
EP3118751A1 (fr) * 2015-07-13 2017-01-18 Pixalione Procédé d'extraction de mots clés, dispositif et programme d'ordinateur correspondant
CN107608949A (zh) * 2017-10-16 2018-01-19 北京神州泰岳软件股份有限公司 一种基于语义模型的文本信息抽取方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3118751A1 (fr) * 2015-07-13 2017-01-18 Pixalione Procédé d'extraction de mots clés, dispositif et programme d'ordinateur correspondant
CN105426360A (zh) * 2015-11-12 2016-03-23 中国建设银行股份有限公司 一种关键词抽取方法及装置
CN105608201A (zh) * 2015-12-28 2016-05-25 湖南蚁坊软件有限公司 一种支持多关键词表达式的文本匹配方法
CN107608949A (zh) * 2017-10-16 2018-01-19 北京神州泰岳软件股份有限公司 一种基于语义模型的文本信息抽取方法及装置

Also Published As

Publication number Publication date
CN109542845A (zh) 2019-03-29

Similar Documents

Publication Publication Date Title
He et al. A database linking Chinese patents to China’s census firms
US20230222366A1 (en) Systems and methods for semantic analysis based on knowledge graph
CN107766371B (zh) 一种文本信息分类方法及其装置
CN108153729B (zh) 一种面向金融领域的知识抽取方法
AU2007314123A1 (en) Email document parsing method and apparatus
CN111259160B (zh) 知识图谱构建方法、装置、设备及存储介质
CN110909123B (zh) 一种数据提取方法、装置、终端设备及存储介质
CN111639183A (zh) 一种基于深度学习算法的金融同业舆情分析方法及系统
CN109542845B (zh) 一种基于关键词表达式的文本元数据提取方法
CN111859070A (zh) 一种海量互联网新闻清洗系统
CN115238217B (zh) 一种公告文本中抽取数值信息的方法及终端机
CN115964476A (zh) 一种用于证券化产品报告的关键信息智能提取方法
CN114153978A (zh) 模型训练方法、信息抽取方法、装置、设备及存储介质
CN115936624A (zh) 基层数据管理方法及装置
CN114118089A (zh) 一种基于裁判文书的企业司法诉讼关系的构建方法及系统
CN112784585A (zh) 金融公告的摘要提取方法与摘要提取终端
Leblay et al. Computational fact-checking: Problems, state of the art, and perspectives
CN111428497A (zh) 一种自动抽取出资信息的方法、装置及设备
CN112541075B (zh) 一种警情文本的标准案发时间提取方法及系统
CN113221031B (zh) 一种自动识别网站目录页的方法
CN112488593B (zh) 一种用于招标的辅助评标系统及方法
CN115186657A (zh) 错敏信息检测方法、装置、计算机设备及存储介质
Kimura et al. Budget Argument Mining Dataset Using Japanese Minutes from the National Diet and Local Assemblies
CN117112598A (zh) 处理文本数据的方法和系统、非暂时性计算机可读介质
CN111666378A (zh) 一种基于词向量的中文年报标题分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant