CN110728117A - 基于机器学习和自然语言处理的段落自动识别方法及系统 - Google Patents

基于机器学习和自然语言处理的段落自动识别方法及系统 Download PDF

Info

Publication number
CN110728117A
CN110728117A CN201910796555.4A CN201910796555A CN110728117A CN 110728117 A CN110728117 A CN 110728117A CN 201910796555 A CN201910796555 A CN 201910796555A CN 110728117 A CN110728117 A CN 110728117A
Authority
CN
China
Prior art keywords
document
learning
paragraph
sample
font
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910796555.4A
Other languages
English (en)
Inventor
岳小龙
陈运文
高翔
李瀚清
纪达麒
杨慧宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Daerguan Information Technology (shanghai) Co Ltd
Original Assignee
Daerguan Information Technology (shanghai) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Daerguan Information Technology (shanghai) Co Ltd filed Critical Daerguan Information Technology (shanghai) Co Ltd
Priority to CN201910796555.4A priority Critical patent/CN110728117A/zh
Publication of CN110728117A publication Critical patent/CN110728117A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种基于机器学习和自然语言处理的段落自动识别方法及系统,所述方法包括以下步骤:获取学习样本;提取学习样本的位置特征、字体特征、语义特征;将学习样本的位置特征、字体特征、语义特征输入机器学习模型进行训练,生成段落识别模型;提取待识别文档的位置特征、字体特征、语义特征;将待识别文档的文本数据及其位置特征、字体特征、语义特征输入段落识别模型,得到段落信息。本发明使用机器学习算法和自然语言处理技术,使机器学习模型自动学习海量文档的结构信息,通过训练好的机器学习模型自动识别出新文档的段落信息,段落识别的准确度高。

Description

基于机器学习和自然语言处理的段落自动识别方法及系统
技术领域
本发明涉及文本处理技术领域,尤其涉及一种基于机器学习和自然语言处理的段落自动识别方法及系统。
背景技术
文档解析是一项非常基础的工作,许多文字处理和解析领域在拿到文档之后,首先要做的就是文档解析工作。大部分PDF、扫描件等文档本身不含有文档结构信息,如何快速而准确的将文章结构解析出来,对后续的文字处理非常关键。
现有的方法大多是根据文章的位置信息来判断段落特征,比如如果某行文字前面空2格,则识别成段落的开始,如果这行后面空多格则识别成段落的结尾。
这类方法可以快速的解决问题,但在实际使用中可能会有以下几个问题:
1、通用性比较差:文档根据文档用途、文档领域往往会呈现不同的位置特征。
2、维护成本高:文档段落识别系统搭建完成后,一旦文档的结构产生变化,需要人工分析结构,之后将新的结构信息放入到系统中,新的结构信息要同时兼顾旧文档和新文档。
3、天然的自我矛盾:文档的位置本身可能存在矛盾,比如段落中间行文字后面没有空格,段落的结尾行也可能会出现没有空格。
发明内容
有鉴于此,本发明提供了一种基于机器学习和自然语言处理的段落自动识别方法及系统,用以解决上述背景技术中存在的问题。
一种基于机器学习和自然语言处理的段落自动识别方法,包括以下步骤:
S1,获取学习样本;
S2,提取学习样本的位置特征、字体特征、语义特征;
S3,将学习样本的位置特征、字体特征、语义特征输入机器学习模型进行训练,生成段落识别模型;
S4,提取待识别文档的位置特征、字体特征、语义特征;
S5,将待识别文档的文本数据及其位置特征、字体特征、语义特征输入段落识别模型,得到段落信息。
优选地,所述学习样本为带有结构信息的文档;
所述步骤S2中提取学习样本的位置特征、字体特征、语义特征的具体步骤为:
S21,对学习样本的文档结构进行解码,统计并保存学习样本的段落信息;
S22,将学习样本的文档格式转换成不含结构信息的格式,并统计所有字的位置信息和字号信息;
S23,根据位置信息计算学习样本的位置特征;
S24,根据字号信息计算学习样本的字体特征;
S25,利用自然语言处理技术对学习样本进行分词,根据每个字在文档中的语义将学习样本的文本数据转换为语义向量。
优选地,所述位置特征包括文档中每行第一个字的行、列坐标,每行最后一个字的行、列坐标。
优选地,所述步骤S24中根据字号信息计算学习样本的字体特征的具体步骤为:
根据学习样本中每个字的字号信息计算每个字的宽度和高度,根据计算结果,统计得到文档中每行文字的宽度中位数和高度中位数。
优选地,所述步骤S3和步骤S4之间还包括步骤:
获取测试样本并提取测试样本的位置特征、字体特征和语义特征;
将测试样本的位置特征、字体特征和语义特征输入段落识别模型,判断段落识别模型输出的段落信息是否准确,若不准确,将该测试样本放入学习样本中,重复步骤S3,使机器学习模型继续学习该测试样本的特征,重新生成新的段落识别模型。
优选地,当学习样本为专用文档时,机器学习模型采用梯度提升决策树机器学习模型;
当学习样本为通用文档时,机器学习模型采用随机森林分类模型。
优选地,所述待识别文档为不含结构信息的通用文档。
一种基于机器学习和自然语言处理的段落自动识别系统,包括文档结构解码模块、文档格式转换模块、特征提取模块、机器学习模块和段落识别模块;
所述文档结构解码模块用于解码学习样本或测试样本的文档结构,并保存其段落信息;
所述文档格式转换模块用于转换学习样本或测试样本的文档格式并统计文档中所有字的位置信息和字号信息;
所述特征提取模块用于提取待识别文档、或格式转换后的学习样本或测试样本的位置特征、字体特征和语义特征;
所述机器学习模块用于对学习样本和测试样本的位置特征、字体特征和语义特征进行学习,生成段落识别模型;
所述段落识别模块用于将待识别文档输入段落识别模型,获取待识别文档的段落信息。
优选地,所述特征提取模块包括位置特征计算模块、字体特征计算模块和自然语言处理模块,
所述位置特征计算模块用于计算待识别文档、或格式转换后的学习样本或测试样本的位置特征;
所述字体特征计算模块用于计算待识别文档、或格式转换后的学习样本或测试样本的字体特征;
所述自然语言处理模块用于获取待识别文档、或格式转换后的学习样本或测试样本的语义特征。
本发明的有益效果是:
1、本发明利用机器学习算法来实现文档段落的自动识别,当有新的不同类型的文档出现时,只需机器学习模型重新学习该文档的特征即可,不需要人工标注训练样本,也不需要针对新的文档类型人工修改系统,通用性强。
2、机器学习模型在学习段落特征时,使用了样本的位置特征、字体特征和语义特征这三个维度,学习多个维度特征,可以更加丰富、全面的解析文本,从而提高段落识别的准确度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明方法的流程图。
图2是构建段落识别模型的流程图。
图3是本发明系统的原理框图。
具体实施方式
为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
下面通过具体的实施例并结合附图对本申请做进一步的详细描述。
本申请的基于机器学习和自然语言处理的段落自动识别方法,用于对不含结构信息的通用文档的段落进行自动识别。
本发明使用机器学习算法和自然语言处理技术,将带有文档结构的文档输入机器学习模型中,使机器学习模型自动学习海量文档的结构信息,通过训练好的机器学习模型自动识别出新文档的段落信息,段落识别的准确度高。
本申请的基于机器学习和自然语言处理的段落自动识别方法,具体包括以下步骤:
S1,获取学习样本,所述学习样本为带有结构信息的文档。为了提高本发明的通用性,在获取学习样本时,应尽量获取各个领域的文档作为学习样本。
S2,提取学习样本的位置特征、字体特征和语义特征。
具体地,首先,对学习样本(如doc/docx文件)的文档结构进行解码,以行为单位,统计哪些行为一个段落,并保存学习样本的段落信息;
其次,将学习样本的文档格式转换成不含结构信息的格式(如将doc文件转换为pdf/jpg文件),并统计所有字的位置信息和字号信息;
然后,根据统计得到的位置信息计算学习样本的位置特征,所述位置特征包括文档中每行第一个字的行、列坐标,每行最后一个字的行、列坐标;
然后,根据统计得到的字号信息计算学习样本的字体特征:根据学习样本中每个字的字号信息计算每个字的宽度和高度,根据计算结果,统计得到文档中每行文字的宽度中位数和高度中位数;
最后,利用自然语言处理技术对格式转换后的学习样本进行分词,根据每个字在文档中的语义将学习样本的文本数据转换为语义向量。
S3,将学习样本的位置特征、字体特征、语义特征输入机器学习模型进行训练,生成段落识别模型。
获取测试样本(新的需要段落识别的文档)并按上述S2中的方法提取测试样本的位置特征、字体特征和语义特征;然后,将测试样本的位置特征、字体特征和语义特征输入段落识别模型,判断段落识别模型输出的段落信息是否准确,若不准确,将该测试样本放入学习样本中,重复步骤S3,使机器学习模型继续学习该测试样本的特征,重新生成新的段落识别模型。
本实施例中,当学习样本为专用文档时,机器学习模型采用梯度提升决策树机器学习模型;
当学习样本为通用文档时,机器学习模型采用随机森林分类模型。
S4,提取待识别文档的位置特征、字体特征、语义特征。
本实施例中,待识别文档为不含结构信息的通用文档。
提取待识别文档的位置特征、字体特征和语义特征的方法与学习样本类似,即首先统计出待识别文档中每个字的位置信息和字号信息;然后,根据位置信息计算出文档中每行第一个字的行、列坐标,每行最后一个字的行、列坐标,得到其位置特征;然后,根据字号信息计算文档中每个字的宽度和高度并统计出每行文字的宽度中位数和高度中位数,得到其字体特征;最后,利用自然语言处理技术对待识别文档进行分词,根据每个字在文档中的语义将待识别文档数据转换为语义向量。
S5,将待识别文档的文本数据及其位置特征、字体特征、语义特征输入段落识别模型,得到段落信息。
本申请的基于机器学习和自然语言处理的段落自动识别系统,包括文档结构解码模块、文档格式转换模块、特征提取模块、机器学习模块和段落识别模块,所述特征提取模块由位置特征计算模块、字体特征计算模块和自然语言处理模块构成。
所述文档结构解码模块用于解码学习样本或测试样本的文档结构,并保存其段落信息。
所述文档格式转换模块用于转换学习样本或测试样本的文档格式并统计出文档中所有字的位置信息和字号信息。
所述位置特征计算模块用于计算待识别文档、或格式转换后的学习样本或测试样本的位置特征。
所述字体特征计算模块用于计算待识别文档、或格式转换后的学习样本或测试样本的字体特征。
所述自然语言处理模块用于获取待识别文档、或格式转换后的学习样本或测试样本的语义特征。
所述机器学习模块用于对学习样本和测试样本的位置特征、字体特征和语义特征进行学习,生成段落识别模型。
所述段落识别模块用于将待识别文档输入段落识别模型,获取待识别文档的段落信息。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (9)

1.一种基于机器学习和自然语言处理的段落自动识别方法,其特征在于,包括以下步骤:
S1,获取学习样本;
S2,提取学习样本的位置特征、字体特征、语义特征;
S3,将学习样本的位置特征、字体特征、语义特征输入机器学习模型进行训练,生成段落识别模型;
S4,提取待识别文档的位置特征、字体特征、语义特征;
S5,将待识别文档的文本数据及其位置特征、字体特征、语义特征输入段落识别模型,得到段落信息。
2.根据权利要求1所述的基于机器学习和自然语言处理的段落自动识别方法,其特征在于,所述学习样本为带有结构信息的文档;
所述步骤S2中提取学习样本的位置特征、字体特征、语义特征的具体步骤为:
S21,对学习样本的文档结构进行解码,统计并保存学习样本的段落信息;
S22,将学习样本的文档格式转换成不含结构信息的格式,并统计所有字的位置信息和字号信息;
S23,根据位置信息计算学习样本的位置特征;
S24,根据字号信息计算学习样本的字体特征;
S25,利用自然语言处理技术对学习样本进行分词,根据每个字在文档中的语义将学习样本的文本数据转换为语义向量。
3.根据权利要求2所述的基于机器学习和自然语言处理的段落自动识别方法,其特征在于,所述位置特征包括文档中每行第一个字的行、列坐标,每行最后一个字的行、列坐标。
4.根据权利要求2所述的基于机器学习和自然语言处理的段落自动识别方法,其特征在于,所述步骤S24中根据字号信息计算学习样本的字体特征的具体步骤为:
根据学习样本中每个字的字号信息计算每个字的宽度和高度,根据计算结果,统计得到文档中每行文字的宽度中位数和高度中位数。
5.根据权利要求1所述的基于机器学习和自然语言处理的段落自动识别方法,其特征在于,所述步骤S3和步骤S4之间还包括步骤:
获取测试样本并提取测试样本的位置特征、字体特征和语义特征;
将测试样本的位置特征、字体特征和语义特征输入段落识别模型,判断段落识别模型输出的段落信息是否准确,若不准确,将该测试样本放入学习样本中,重复步骤S3,使机器学习模型继续学习该测试样本的特征,重新生成新的段落识别模型。
6.根据权利要求1所述的基于机器学习和自然语言处理的段落自动识别方法,其特征在于,当学习样本为专用文档时,机器学习模型采用梯度提升决策树机器学习模型;
当学习样本为通用文档时,机器学习模型采用随机森林分类模型。
7.根据权利要求1所述的基于机器学习和自然语言处理的段落自动识别方法,其特征在于,所述待识别文档为不含结构信息的通用文档。
8.一种基于机器学习和自然语言处理的段落自动识别系统,其特征在于,包括文档结构解码模块、文档格式转换模块、特征提取模块、机器学习模块和段落识别模块;
所述文档结构解码模块用于解码学习样本或测试样本的文档结构,并保存其段落信息;
所述文档格式转换模块用于转换学习样本或测试样本的文档格式并统计文档中所有字的位置信息和字号信息;
所述特征提取模块用于提取待识别文档、或格式转换后的学习样本或测试样本的位置特征、字体特征和语义特征;
所述机器学习模块用于对学习样本和测试样本的位置特征、字体特征和语义特征进行学习,生成段落识别模型;
所述段落识别模块用于将待识别文档输入段落识别模型,获取待识别文档的段落信息。
9.根据权利要求8所述的基于机器学习和自然语言处理的段落自动识别系统,其特征在于,所述特征提取模块包括位置特征计算模块、字体特征计算模块和自然语言处理模块,
所述位置特征计算模块用于计算待识别文档、或格式转换后的学习样本或测试样本的位置特征;
所述字体特征计算模块用于计算待识别文档、或格式转换后的学习样本或测试样本的字体特征;
所述自然语言处理模块用于获取待识别文档、或格式转换后的学习样本或测试样本的语义特征。
CN201910796555.4A 2019-08-27 2019-08-27 基于机器学习和自然语言处理的段落自动识别方法及系统 Pending CN110728117A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910796555.4A CN110728117A (zh) 2019-08-27 2019-08-27 基于机器学习和自然语言处理的段落自动识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910796555.4A CN110728117A (zh) 2019-08-27 2019-08-27 基于机器学习和自然语言处理的段落自动识别方法及系统

Publications (1)

Publication Number Publication Date
CN110728117A true CN110728117A (zh) 2020-01-24

Family

ID=69217762

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910796555.4A Pending CN110728117A (zh) 2019-08-27 2019-08-27 基于机器学习和自然语言处理的段落自动识别方法及系统

Country Status (1)

Country Link
CN (1) CN110728117A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111581090A (zh) * 2020-04-30 2020-08-25 重庆富民银行股份有限公司 一种基于nlp和rf框架的自动化测试用例生成方法及系统
CN111737961A (zh) * 2020-06-28 2020-10-02 网易(杭州)网络有限公司 一种故事生成的方法、装置、计算机设备和介质
CN113159013A (zh) * 2021-04-28 2021-07-23 平安科技(深圳)有限公司 基于机器学习的段落识别方法、装置、计算机设备和介质
CN113673368A (zh) * 2021-07-28 2021-11-19 达而观智能(深圳)有限公司 一种判断文档主要文字方向的方法
CN111832258B (zh) * 2020-06-02 2024-07-02 北京百度网讯科技有限公司 文档的分割方法、装置及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106383835A (zh) * 2016-08-29 2017-02-08 华东师范大学 一种基于形式语义推理和深度学习的自然语言知识挖掘系统
CN108614898A (zh) * 2018-05-10 2018-10-02 爱因互动科技发展(北京)有限公司 文档解析方法与装置
WO2019006115A1 (en) * 2017-06-30 2019-01-03 Elsevier, Inc. SYSTEMS AND METHODS FOR EXTRACTING DONOR INFORMATION FROM A TEXT
US20190258854A1 (en) * 2018-02-16 2019-08-22 Wipro Limited Method and system for determining structural blocks of a document

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106383835A (zh) * 2016-08-29 2017-02-08 华东师范大学 一种基于形式语义推理和深度学习的自然语言知识挖掘系统
WO2019006115A1 (en) * 2017-06-30 2019-01-03 Elsevier, Inc. SYSTEMS AND METHODS FOR EXTRACTING DONOR INFORMATION FROM A TEXT
US20190258854A1 (en) * 2018-02-16 2019-08-22 Wipro Limited Method and system for determining structural blocks of a document
CN108614898A (zh) * 2018-05-10 2018-10-02 爱因互动科技发展(北京)有限公司 文档解析方法与装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
贺益侗;: "基于doc2vec和TF-IDF的相似文本识别" *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111581090A (zh) * 2020-04-30 2020-08-25 重庆富民银行股份有限公司 一种基于nlp和rf框架的自动化测试用例生成方法及系统
CN111581090B (zh) * 2020-04-30 2023-02-24 重庆富民银行股份有限公司 一种基于nlp和rf框架的自动化测试用例生成方法及系统
CN111832258B (zh) * 2020-06-02 2024-07-02 北京百度网讯科技有限公司 文档的分割方法、装置及电子设备
CN111737961A (zh) * 2020-06-28 2020-10-02 网易(杭州)网络有限公司 一种故事生成的方法、装置、计算机设备和介质
CN113159013A (zh) * 2021-04-28 2021-07-23 平安科技(深圳)有限公司 基于机器学习的段落识别方法、装置、计算机设备和介质
CN113159013B (zh) * 2021-04-28 2024-05-07 平安科技(深圳)有限公司 基于机器学习的段落识别方法、装置、计算机设备和介质
CN113673368A (zh) * 2021-07-28 2021-11-19 达而观智能(深圳)有限公司 一种判断文档主要文字方向的方法
CN113673368B (zh) * 2021-07-28 2024-04-05 达而观智能(深圳)有限公司 一种判断文档主要文字方向的方法

Similar Documents

Publication Publication Date Title
CN110728117A (zh) 基于机器学习和自然语言处理的段落自动识别方法及系统
CN111783394B (zh) 事件抽取模型的训练方法、事件抽取方法和系统及设备
CN109886270B (zh) 一种面向电子卷宗笔录文本的案件要素识别方法
CN111198948A (zh) 文本分类校正方法、装置、设备及计算机可读存储介质
CN110807314A (zh) 文本情感分析模型训练方法、装置、设备及可读存储介质
CN113254654B (zh) 模型训练、文本识别方法、装置、设备和介质
CN108399157B (zh) 实体与属性关系的动态抽取方法、服务器及可读存储介质
CN113590764B (zh) 训练样本构建方法、装置、电子设备和存储介质
CN110750984B (zh) 命令行字符串处理方法、终端、装置及可读存储介质
CN114090736A (zh) 一种基于文本相似度的企业行业识别系统及识别方法
CN111209373A (zh) 基于自然语义的敏感文本识别方法和装置
CN111782793A (zh) 智能客服处理方法和系统及设备
CN109472020B (zh) 一种特征对齐中文分词方法
CN109960730B (zh) 一种基于特征扩展的短文本分类方法、装置以及设备
CN114547301A (zh) 文档处理、识别模型训练方法、装置、设备及存储介质
CN110321557A (zh) 一种文本分类方法、装置、电子设备及存储介质
CN110889274A (zh) 信息质量评估方法、装置、设备及计算机可读存储介质
CN117592470A (zh) 大语言模型驱动的低成本公报数据抽取方法
CN109472145A (zh) 一种基于图论的代码复用识别方法及系统
CN113468889A (zh) 一种基于bert预训练模型信息提取的方法和装置
CN115563278A (zh) 一种句子文本的问题分类处理方法及装置
Shirke et al. Handwritten Gujarati script recognition
CN112163217B (zh) 恶意软件变种识别方法、装置、设备及计算机存储介质
CN111341404B (zh) 一种基于ernie模型的电子病历数据组解析方法及系统
CN110889289B (zh) 信息明确度评估方法、装置、设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination