CN112101007A - 一种从非结构化文本数据中提取结构化数据的方法及系统 - Google Patents
一种从非结构化文本数据中提取结构化数据的方法及系统 Download PDFInfo
- Publication number
- CN112101007A CN112101007A CN202010991878.1A CN202010991878A CN112101007A CN 112101007 A CN112101007 A CN 112101007A CN 202010991878 A CN202010991878 A CN 202010991878A CN 112101007 A CN112101007 A CN 112101007A
- Authority
- CN
- China
- Prior art keywords
- data
- text
- crf
- text data
- marking
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 17
- 230000011218 segmentation Effects 0.000 claims abstract description 20
- 238000002372 labelling Methods 0.000 claims abstract description 8
- 238000012545 processing Methods 0.000 claims abstract description 4
- 238000012549 training Methods 0.000 claims description 24
- 238000000605 extraction Methods 0.000 claims description 17
- 230000000694 effects Effects 0.000 claims description 14
- 238000012360 testing method Methods 0.000 claims description 8
- 230000014509 gene expression Effects 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
一种从非结构化文本数据中提取结构化数据的方法及系统属于数据处理技术领域,尤其涉及一种从非结构化文本数据中提取结构化数据的方法及系统。本发明提供一种从非结构化文本数据中提取结构化数据的方法及系统。本发明包括以下步骤:1.在样本中标注要提取的信息在标注操作界面中建立要提取的字段,并在文本数据中标注字段对应的内容,标注完成系统会记录字段名称及其内容在文本中的起止位置。2.分词、标注词性。通过常用分词工具对步骤1中标注好的文本数据逐篇进行分词及词性标注,具体步骤包含:首先根据标注内容在文本中起止位置对文本进行分割,得到数个文本段,然后对这些文本段进行分词和词性标注。
Description
技术领域
本发明属于数据处理技术领域,尤其涉及一种从非结构化文本数据中提取结构化数据的方法及系统。
背景技术
非结构化文本数据是以文本(如字符、数字、标点、各种可打印的符号等)作为数据形式的非结构化数据;非结构化或半结构化文本数据的典型代表是图书馆数据库中的文档,这些文档可能包含结构字段,如标题、作者、出版日期、长度、分类等,也可能包含大量非结构化文本成分,如摘要和正文内容。
随着大数据、互联网技术的发展,每时每刻都在产生海量的数据,其中非结构化文本数据占据了较大比重,例如各种新闻、微博、博客、聊天记录等。如何快速、有效的理解和利用好这些数据成为一个迫切的需求,最直接的做法是通过注释语义信息,把非结构化文本变成结构化文本。但是巨大的数据量以及数据的差异性,使得不可能完全依靠人工来实现这种转换。这时就需要利用计算机通过有限的人工标注数据自动地从爆炸式增长的数据中抽取出结构化信息。
从非结构化文本数据中提取结构化数据目前已有多种方案,但都有一定的局限性和缺点。比如对于网页型的文本数据可以根据网页结构特征来提取结构化信息,而且背景具有较好的提取效果,但是对于非网页型的文本数据就无能为力了。使用正则匹配来 技术提取结构化数据是常用的手段,而且对文本数据格式没有特定要求,但是在需要提取的字段较多时,编写正则的难度会加大,多个正则之间会形成干扰,准确率降低。
发明内容
本发明就是针对上述问题,提供一种从非结构化文本数据中提取结构化数据的方法及系统。
为实现上述目的,本发明采用如下技术方案,本发明包括以下步骤:
1.在样本中标注要提取的信息在标注操作界面中建立要提取的字段,并在文本数据中标注字段对应的内容,标注完成系统会记录字段名称及其内容在文本中的起止位置。
2.分词、标注词性
通过常用分词工具对步骤 1 中标注好的文本数据逐篇进行分词及词性标注,具体步骤包含:首先根据标注内容在文本中起止位置对文本进行分割,得到数个文本段,然后对这些文本段进行分词和词性标注,这样可以防止分词时将标注内容割裂,影响后续模型训练效果。
3.生成正则
对步骤 1 中标注好的文本数据通过其标注内容生成正则匹配表达式,并可对生成的正则表达式进行必要调整,提高其匹配效果。
4.生成 CRF 训练特征数据
CRF(条件随机场)是由一个在给定输入节点条件下计算输出节点的条件概率的无向图模型,假设 X,Y 分别表示需要标记的观察序列和相对应的标记序列的联合分布随机变量,那么条件随机场 (X,Y) 就是一个以观察序列 X 为条件的无向图模型,条件随机场的目标是在给定需要标记的观察序列的条件下,使标记序列的联合概率达到最优。本方案中的观察序列就是文本数据经过步骤 2 后的分词序列。对步骤 2 中完成分词和词性标注的文本数据生成 CRF 训练特征数据,对文本数据中任意一个词其特征包括:当前词及其前后两个词的内容、词性。
5.训练并评估 CRF 模型
对步骤 4 生成的 CRF 训练特征数据,首先按 8:2 的比例切分训练集和测试集,然后进行 CRF 模型训练。使用测试集数据对训练好的模型进行测试,根据评估指标(括准确率和召回率)评估模型效果。若模型效果不理想可重新从步骤 1 开始调整标注内容。
6.结合正则和 CRF 模型进行结构化信息提取
结合步骤 3 生成并调整后的正则和步骤 5 训练出的 CRF 模型对输入的文本数据分别进行基于正则的结构化信息提取和基于 CRF 的结构化信息提取,得到二者对应的提取结果后进行合并处理,得到最终的结构化信息提取结果。
本发明有益效果。
本发明基于中文分词、正则、CRF 算法,结合机器学习技术,通过样本数据管理模块导入优选的样本数据进行图形化标注并生成正则并训练 CRF 模型,通过调用服务接口输入非结构化文本数据得到提取到的结构化数据。对比已有方案一,本方案适用面更广,对于输入数据没有特定格式要求。对比已有方案二,本方案根据标注数据自动生成正则规则,并使用 CRF 算法进行机器学习训练,比单一的使用正则来提取结构化数据具有更高的准确率。
本发明提出了基于中文分词、正则、CRF 算法,结合机器学习技术的从非结构化文本数据中提取结构化数据的方法,其不再限于某种特定格式的文本数据(如 HTML网页),只要是文本数据(其他类型非结构化数据,如 word、pdf 等可通过简单转换得到文本格式数据)都可通过本发明方法进行结构化信息提取,具有适用面更广的效果。
本发明将正则和 CRF 结合进行结构化信息提取,对比单独只使用正则或 CRF 的方式具有提取准确率更高的效果。
附图说明
下面结合附图和具体实施方式对本发明做进一步说明。本发明保护范围不仅局限于以下内容的表述。
图1是本发明实施步骤图。
图2是本发明提取过程图。
图3是本发明样本标注图。
具体实施方式
如图所示,本实施例提供1000份样本,其中800份为训练集,200分为测试集,通过对800份训练集进行标注生成CRF模型结合基于正则的结构化信息提取,对两者提取结果进行合并处理,等到最终的结果。
本实施例提取信息包括“故障开始时间”、“故障结束时间”、“故障原因”。
步骤1,进行训练集样本标注,例如图3中,我们给三个字段标注了其在文本数据中对应的内容。
步骤2,针对标注的文本,进行分词及词性标注,防止标注内容割裂,影响后续模型训练效果,如计量用(名词)C相高压电压熔丝(名词)烧毁(动词)。
步骤3,基于标注好的文本数据通过其标注内容生成正则匹配表达式,如故障开始时间正则为“[1-9]\d{3}年(0[1-9]|1[0-2])月(0[1-9]|[1-2][0-9]|3[0-1])日” 。
步骤4,生成 CRF 训练特征数据,本实施例中使用名词,名词,动词作为一个标注序列,将此序列作为一个特征函数,通过定义一个特征函数集合,使用这个特征函数集合对标注序列打分,并据此选出最得分最高的标注序列。
步骤5,训练并评估 CRF 模型,对步骤 4 生成的 CRF 训练特征数据,使用800份训练集样本进行 CRF 模型训练,生成CRF模型;使用200份测试集数据对生成的CRF模型进行测试,根据准确率和召回率评估模型效果。若准确率和召回率较低时可重新从步骤 1 开始调整标注内容。本实施例通过两轮调整后,准确率达到86%,召回率达到92%。
步骤6,结合正则和 CRF 模型进行结构化信息提取, 对输入的文本数据分别进行基于正则的结构化信息提取和基于 CRF 的结构化信息提取,二者对应的提取结果后进行合并处理,得到最终的结构化信息提取结果。
可以理解的是,以上关于本发明的具体描述,仅用于说明本发明而并非受限于本发明实施例所描述的技术方案,本领域的普通技术人员应当理解,仍然可以对本发明进行修改或等同替换,以达到相同的技术效果;只要满足使用需要,都在本发明的保护范围之内。
Claims (1)
1.一种从非结构化文本数据中提取结构化数据的方法及系统,其特征在于包括以下步骤:
1)在样本中标注要提取的信息在标注操作界面中建立要提取的字段,并在文本数据中标注字段对应的内容,标注完成系统会记录字段名称及其内容在文本中的起止位置;
2)分词、标注词性
通过常用分词工具对步骤 1 中标注好的文本数据逐篇进行分词及词性标注,具体步骤包含:首先根据标注内容在文本中起止位置对文本进行分割,得到数个文本段,然后对这些文本段进行分词和词性标注,这样可以防止分词时将标注内容割裂,影响后续模型训练效果;
3)生成正则
对步骤 1 中标注好的文本数据通过其标注内容生成正则匹配表达式,并可对生成的正则表达式进行必要调整,提高其匹配效果;
4)生成 CRF 训练特征数据
CRF(条件随机场)是由一个在给定输入节点条件下计算输出节点的条件概率的无向图模型,假设 X,Y 分别表示需要标记的观察序列和相对应的标记序列的联合分布随机变量,那么条件随机场 (X,Y) 就是一个以观察序列 X 为条件的无向图模型,条件随机场的目标是在给定需要标记的观察序列的条件下,使标记序列的联合概率达到最优;
本方案中的观察序列就是文本数据经过步骤 2 后的分词序列;
对步骤 2 中完成分词和词性标注的文本数据生成 CRF 训练特征数据,对文本数据中任意一个词其特征包括:当前词及其前后两个词的内容、词性;
5)训练并评估 CRF 模型
对步骤 4 生成的 CRF 训练特征数据,首先按 8:2 的比例切分训练集和测试集,然后进行 CRF 模型训练;
使用测试集数据对训练好的模型进行测试,根据评估指标(括准确率和召回率)评估模型效果;
若模型效果不理想可重新从步骤 1 开始调整标注内容;
6)结合正则和 CRF 模型进行结构化信息提取
结合步骤 3 生成并调整后的正则和步骤 5 训练出的 CRF 模型对输入的文本数据分别进行基于正则的结构化信息提取和基于 CRF 的结构化信息提取,得到二者对应的提取结果后进行合并处理,得到最终的结构化信息提取结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010991878.1A CN112101007A (zh) | 2020-09-21 | 2020-09-21 | 一种从非结构化文本数据中提取结构化数据的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010991878.1A CN112101007A (zh) | 2020-09-21 | 2020-09-21 | 一种从非结构化文本数据中提取结构化数据的方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112101007A true CN112101007A (zh) | 2020-12-18 |
Family
ID=73759754
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010991878.1A Pending CN112101007A (zh) | 2020-09-21 | 2020-09-21 | 一种从非结构化文本数据中提取结构化数据的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112101007A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112651493A (zh) * | 2021-01-12 | 2021-04-13 | 南京三百云信息科技有限公司 | 基于联合训练模型的事故车判别方法和装置 |
CN113011183A (zh) * | 2021-03-23 | 2021-06-22 | 北京科东电力控制系统有限责任公司 | 一种电力调控领域非结构化文本数据处理方法及系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109460551A (zh) * | 2018-10-29 | 2019-03-12 | 北京知道创宇信息技术有限公司 | 签名信息提取方法及装置 |
-
2020
- 2020-09-21 CN CN202010991878.1A patent/CN112101007A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109460551A (zh) * | 2018-10-29 | 2019-03-12 | 北京知道创宇信息技术有限公司 | 签名信息提取方法及装置 |
Non-Patent Citations (7)
Title |
---|
曾道建;来斯惟;张元哲;刘康;赵军;: "面向非结构化文本的开放式实体属性抽取", 江西师范大学学报(自然科学版), no. 03, pages 279 - 283 * |
熊佳茜: "基于CRF的中文微博交通信息事件抽取", 《中国优秀硕士学位论文全文数据库-信息科技I辑》, no. 06, 15 June 2015 (2015-06-15), pages 138 - 7591 * |
熊佳茜: "基于CRF的中文微博交通信息事件抽取", 《中国优秀硕士学位论文全文数据库-信息科技辑》, no. 06, pages 138 - 759 * |
翟李欣: "基于深度学习的中文影视剧本命名实体识别研究", no. 06, 15 June 2020 (2020-06-15), pages 083 - 110 * |
董哲 等: "基于机器学习与模式匹配的食品安全刑事裁判文书关键信息提取方法", 《信息技术与信息化》, no. 05, 28 May 2020 (2020-05-28), pages 219 - 221 * |
董哲 等: "基于机器学习与模式匹配的食品安全刑事裁判文书关键信息提取方法", 《信息技术与信息化》, no. 05, pages 219 - 221 * |
黄胜;王博博;朱菁;: "基于文档结构与深度学习的金融公告信息抽取", 计算机工程与设计, no. 01, pages 115 - 121 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112651493A (zh) * | 2021-01-12 | 2021-04-13 | 南京三百云信息科技有限公司 | 基于联合训练模型的事故车判别方法和装置 |
CN113011183A (zh) * | 2021-03-23 | 2021-06-22 | 北京科东电力控制系统有限责任公司 | 一种电力调控领域非结构化文本数据处理方法及系统 |
CN113011183B (zh) * | 2021-03-23 | 2023-09-05 | 北京科东电力控制系统有限责任公司 | 一种电力调控领域非结构化文本数据处理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107608949B (zh) | 一种基于语义模型的文本信息抽取方法及装置 | |
CN110609983B (zh) | 一种政策文件结构化分解方法 | |
CN101520802A (zh) | 一种问答对的质量评价方法和系统 | |
CN113312922B (zh) | 一种改进的篇章级三元组信息抽取方法 | |
CN104965823A (zh) | 一种基于大数据的观点抽取方法 | |
CN115186654B (zh) | 一种公文文本摘要生成方法 | |
CN106383814A (zh) | 一种英文社交媒体短文本分词方法 | |
Hamborg et al. | Extraction of main event descriptors from news articles by answering the journalistic five W and one H questions | |
CN105183765A (zh) | 一种基于大数据的话题抽取方法 | |
CN112101007A (zh) | 一种从非结构化文本数据中提取结构化数据的方法及系统 | |
CN114372153A (zh) | 基于知识图谱的法律文书结构化入库方法及系统 | |
CN107145591B (zh) | 一种基于标题的网页有效元数据内容提取方法 | |
CN110705285B (zh) | 一种政务文本主题词库构建方法、装置、服务器及可读存储介质 | |
CN114970502B (zh) | 一种应用于数字政府的文本纠错方法 | |
CN104346382A (zh) | 使用语言查询的文本分析系统和方法 | |
CN111178080A (zh) | 一种基于结构化信息的命名实体识别方法及系统 | |
CN111563372A (zh) | 一种基于教辅书籍出版的排版文档内容自查重方法 | |
CN113515587B (zh) | 一种标的物信息提取方法、装置、计算机设备及存储介质 | |
CN115438147A (zh) | 面向轨道交通领域的信息检索方法及系统 | |
Suriyachay et al. | Thai named entity tagged corpus annotation scheme and self verification | |
CN115757760A (zh) | 文本摘要提取方法及系统、计算设备、存储介质 | |
CN109597879B (zh) | 一种基于“引文关系”数据的业务行为关系抽取方法及装置 | |
Saroj et al. | Rule based Event Extraction System from Newswires and Social Media Text in Indian Languages (EventXtract-IL) for English and Hindi Data. | |
Yang et al. | The construction of a kind of chat corpus in Chinese word segmentation | |
Tian et al. | Mathematical expression extraction in text fields of documents based on HMM |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |