CN109948518A - 一种基于神经网络的pdf文档内容文本段落聚合的方法 - Google Patents

一种基于神经网络的pdf文档内容文本段落聚合的方法 Download PDF

Info

Publication number
CN109948518A
CN109948518A CN201910201653.9A CN201910201653A CN109948518A CN 109948518 A CN109948518 A CN 109948518A CN 201910201653 A CN201910201653 A CN 201910201653A CN 109948518 A CN109948518 A CN 109948518A
Authority
CN
China
Prior art keywords
neural network
layer
row
sample
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910201653.9A
Other languages
English (en)
Other versions
CN109948518B (zh
Inventor
聂昱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Hanwang Data Technology Co ltd
Original Assignee
Wuhan Wangda Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Wangda Data Technology Co Ltd filed Critical Wuhan Wangda Data Technology Co Ltd
Priority to CN201910201653.9A priority Critical patent/CN109948518B/zh
Publication of CN109948518A publication Critical patent/CN109948518A/zh
Application granted granted Critical
Publication of CN109948518B publication Critical patent/CN109948518B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种基于神经网络的PDF文档内容文本段落聚合的方法,通过定义一行文本的几十个特征、把特征转换为多维向量、生成样本数据集、设计算法模型,持续训练模型,最后输出训练好的算法模型。实现对输入的两行文本,使用此算法模型,准确判断是否这两行文本应该合并到同一个段落。本发明基于神经网络的人工智能技术,研发应用程序对PDF提取的行文字自动聚合成段落,还原文字原本的句子和段落结构信息,便于PDF内容数据的重复利用;人工智能程序自动聚合的效率是人工处理无法企及的,实现机器代替人工,节约人力成本、大幅提高效率。

Description

一种基于神经网络的PDF文档内容文本段落聚合的方法
技术领域
本发明属于人工智能技术领域,涉及一种PDF文档内容文本段落聚合的方法,具体涉及一种基于神经网络的PDF文档内容文本段落聚合的方法。
背景技术
PDF(Portable Document Format,可移植文档格式),是一种用独立于应用程序、硬件、操作系统的方式呈现文档的文件格式。这种文件格式与操作系统平台无关,在Windows、Unix和Mac OS等操作系统中都能以同样的显示效果将PDF文档呈现出来。PDF文档支持多种工具和浏览器打开,易于阅读、传输和存储,是目前最常用的文档格式之一。
PDF文档虽然能保证同样的呈现效果,但是如果想要重新编辑已经发布的PDF文档却并不简单。在PDF文档发布时,因为需要缩减文件大小、保护文档内容不被篡改等因素,很多跟文档呈现无关的信息都被丢弃了。缺少这些信息后想要还原成可编辑的原始PDF文档,就必须根据显示效果进行反向推导。本文主要关注PDF文档中文字的反向推导(以下称文字段落聚合),即根据文字的显示效果,推导出文字原本的句子和段落结构信息。
当PDF文档进行渲染(即PDF阅读器显示PDF文档的内容)时,文字以单个字为单位被读取出来,并附带了该文字在页面上的位置坐标,渲染程序把该文字显示在对应的位置上面。如此往复,就构成了整个PDF文档上面的文字的渲染。即我们看到的文字虽然以段落的效果显示,但是在渲染程序中他们是单个附带位置坐标的文字,并没有句子或段落这种结构。
想要把这些文字还原成句子和段落的结构化信息,就需要根据位置坐标进行推导,把单个的文字聚合成句子和段落。例如横坐标相同的文字,可以认为是在同一行上的同一句话中,而如果这一行末尾没有句号,就可以认为下一行是同一句话的延续。
按照人的书写习惯和编辑习惯,能找到很多规则去辨别两个字是不是属于同一句话、两行文字是不是属于同一段落。但是每个人的习惯都不一样,根据规则制作出的文本聚合程序,难以处理所有的具体问题。同时,规则与规则之间容易发生冲突,增加程序复杂性和出错的几率。
目前的大部分程序从PDF文档中提取文字(即还原成可编辑的文本)时,只进行了简单的行文字合并,即把同一行的文字聚合出来,但是对于相邻的行是否能组成一个段落,并没有进行处理。需要人工查看每一行文字的内容,甚至与PDF文档进行比较,才能还原出真正的段落结构。这需要大量的人力资源。
发明内容
针对现有技术的不足之处,本发明提供了一种基于神经网络的PDF文档内容文本段落聚合的方法。
本发明所采用的技术方案是:一种基于神经网络的PDF文档内容文本段落聚合的方法,其特征在于,包括以下步骤:
步骤1:针对若干PDF文档,抽取各PDF文档中行文本信息特征;
步骤2:行文本信息特征向量化,将文字特征转化为数字;
步骤3:生成带标注的样本数据集;
步骤4:搭建基于神经网络结构的算法模型;
步骤5:算法模型训练;
步骤6:导出算法模型;
步骤7:利用算法模型,根据当前行与上一行文本信息特征,确定两行文本是否聚合到段落。
本发明基于神经网络的人工智能技术,研发应用程序对PDF提取的行文字自动聚合成段落,还原文字原本的句子和段落结构信息,便于PDF内容数据的重复利用;人工智能程序自动聚合的效率是人工处理无法企及的,实现机器代替人工,节约人力成本、大幅提高效率。
附图说明
图1为本发明实施例的流程图;
图2为本发明实施例的神经网络结构图,X为输入层,L1为隐藏层一,L2为隐藏层二,Y为输出层。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
请见图1,本发明提供的一种基于神经网络的PDF文档内容文本段落聚合的方法,包括以下步骤:
步骤1:针对若干PDF文档,抽取各PDF文档中行文本信息特征;
本实施例中,行文本信息特征包括行左边距、行右边距、字符个数、行最大字符高度、行最小字符高度、行最大字符宽度、行最小字符宽度、行最大字符间距、行最小字符间距、行最大字号、行最小字号、行宽度、是否项目编号开始、首字符类型、第二字符类型、末尾字符类型、”[”个数、”]”个数、”【”个数、”】”个数、”“”个数、”””个数、”(”个数、”)”个数、”(”个数、”)”个数、”<”个数、”>”个数、”《”个数、”》”个数,共计30个特征。
步骤2:行文本信息特征向量化,将文字特征转化为数字;
本实施例中,将行文本的信息特征转换为数值,共计42维向量;其中使用one-hot编码的行文本信息特征包括首字符类型、第二字符类型、末尾字符类型,这三个特征占用了15个向量维度;字符类型one-hot编码为:是否英文数字、是否英文字母、是否中文数字、是否括号、其他,占用5个向量维度。
步骤3:生成带标注的样本数据集;
本实施例中,具体实现包括以下子步骤:
步骤3.1:将任意相邻的两行的特征向量拼接起来,构成一个样本,得到一个84维的样本向量;这个样本向量称为样本的输入数据;
步骤3.2:对每一个样本进行数据标注,标注数据为0或者1;0表示样本所含的两行不应该合并,1表示样本所含的两行应该合并;
步骤3.3:将标注好的样本数据集进行随机划分,一部分划入训练集,一部分划入测试集。
步骤4:搭建基于神经网络结构的算法模型;
请见图2,本实施例的算法模型,包括四层网络架构(X为输入层,L1为隐藏层一,L2为隐藏层二,Y为输出层),自底向上分别为:
(1)输入层,84维;
(2)隐藏层一,50维;
(3)隐藏层二,20维;
(4)输出层,1维。
其中,输入层即为84维的样本向量,输出层是一个0~1之间的浮点数,表示这个样本应该合并的概率,如果输出层的值大于等于0.5,则认为此样本所含两行应该合并;
每一层的数据经过一个全连接的线性变换和一个激活函数计算得到下一层;第一层到第二层、第二层到第三层的激活函数为Relu,第三层到第四层的激活函数为Sigmoid;
神经网络的损失函数为平方误差函数J;
其中,h(x)代表神经网络的输出,y代表标注数据,m代表训练集的样本数量。
步骤5:训练算法模型;
本实施例中,基于训练集的数据训练上一个步骤所搭建的神经网络,直到损失函数极小化收敛。
步骤6:导出算法模型;
步骤7:利用算法模型,根据当前行与上一行文本信息特征,确定两行文本是否聚合到段落;
本实施例中,输入两行文字,使用步骤6中导出的算法模型,根据当前行与上一行文本信息特征,计算此两行文字的聚合值,如果值大于等于0.5则聚合,如果值小于0.5则不聚合。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (7)

1.一种基于神经网络的PDF文档内容文本段落聚合的方法,其特征在于,包括以下步骤:
步骤1:针对若干PDF文档,抽取各PDF文档中行文本信息特征;
步骤2:行文本信息特征向量化,将文字特征转化为数字;
步骤3:生成带标注的样本数据集;
步骤4:搭建基于神经网络结构的算法模型;
步骤5:训练算法模型;
步骤6:导出算法模型;
步骤7:利用算法模型,根据当前行与上一行文本信息特征,确定两行文本是否聚合到段落。
2.根据权利要求1所述的基于神经网络的PDF文档内容文本段落聚合的方法,其特征在于:步骤1中,所述行文本信息特征包括行左边距、行右边距、字符个数、行最大字符高度、行最小字符高度、行最大字符宽度、行最小字符宽度、行最大字符间距、行最小字符间距、行最大字号、行最小字号、行宽度、是否项目编号开始、首字符类型、第二字符类型、末尾字符类型、”[”个数、”]”个数、”【”个数、”】”个数、”“”个数、”””个数、”(”个数、”)”个数、”(”个数、”)”个数、”<”个数、”>”个数、”《”个数、”》”个数,共计30个特征。
3.根据权利要求2所述的基于神经网络的PDF文档内容文本段落聚合的方法,其特征在于:步骤2中,将行文本的信息特征转换为数值,共计42维向量;其中使用one-hot编码的行文本信息特征包括首字符类型、第二字符类型、末尾字符类型,这三个特征占用了15个向量维度;字符类型one-hot编码为:是否英文数字、是否英文字母、是否中文数字、是否括号、其他,占用5个向量维度。
4.根据权利要求1所述的基于神经网络的PDF文档内容文本段落聚合的方法,其特征在于:步骤3的具体实现包括以下子步骤:
步骤3.1:将任意相邻的两行的特征向量拼接起来,构成一个样本,得到一个84维的样本向量;这个样本向量称为样本的输入数据;
步骤3.2:对每一个样本进行数据标注,标注数据为0或者1;0表示样本所含的两行不应该合并,1表示样本所含的两行应该合并;
步骤3.3:将标注好的样本数据集进行随机划分,一部分划入训练集,一部分划入测试集。
5.根据权利要求1所述的基于神经网络的PDF文档内容文本段落聚合的方法,其特征在于:步骤4中所述算法模型,包括四层网络架构,自底向上分别为输入层,84维;隐藏层一,50维;隐藏层二,20维;输出层,1维;
其中输入层即为84维的样本向量,输出层是一个0~1之间的浮点数,表示这个样本应该合并的概率,如果输出层的值大于等于0.5,则认为此样本所含两行应该合并;
每一层的数据经过一个全连接的线性变换和一个激活函数计算得到下一层;第一层到第二层、第二层到第三层的激活函数为Relu,第三层到第四层的激活函数为Sigmoid;
神经网络的损失函数为平方误差函数J;
其中,h(x)代表神经网络的输出,y代表标注数据,m代表训练集的样本数量。
6.根据权利要求1所述的基于神经网络的PDF文档内容文本段落聚合的方法,其特征在于:步骤5中,基于训练集的数据训练上一个步骤所搭建的神经网络,直到损失函数极小化收敛。
7.根据权利要求1-6任意一项所述的基于神经网络的PDF文档内容文本段落聚合的方法,其特征在于:步骤7中,输入两行文字,使用步骤6中导出的算法模型,根据当前行与上一行文本信息特征,计算此两行文字的聚合值,如果值大于等于0.5则聚合,如果值小于0.5则不聚合。
CN201910201653.9A 2019-03-18 2019-03-18 一种基于神经网络的pdf文档内容文本段落聚合的方法 Active CN109948518B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910201653.9A CN109948518B (zh) 2019-03-18 2019-03-18 一种基于神经网络的pdf文档内容文本段落聚合的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910201653.9A CN109948518B (zh) 2019-03-18 2019-03-18 一种基于神经网络的pdf文档内容文本段落聚合的方法

Publications (2)

Publication Number Publication Date
CN109948518A true CN109948518A (zh) 2019-06-28
CN109948518B CN109948518B (zh) 2023-06-09

Family

ID=67010090

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910201653.9A Active CN109948518B (zh) 2019-03-18 2019-03-18 一种基于神经网络的pdf文档内容文本段落聚合的方法

Country Status (1)

Country Link
CN (1) CN109948518B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110598191A (zh) * 2019-11-18 2019-12-20 江苏联著实业股份有限公司 一种基于神经网络的复杂pdf结构解析方法及装置
CN111126037A (zh) * 2019-12-18 2020-05-08 昆明理工大学 一种基于孪生循环神经网络的泰文句子切分方法
CN111259623A (zh) * 2020-01-09 2020-06-09 江苏联著实业股份有限公司 一种基于深度学习的pdf文档段落自动提取系统及装置
CN111325195A (zh) * 2020-02-17 2020-06-23 支付宝(杭州)信息技术有限公司 文本识别方法、装置及电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002334070A (ja) * 2001-05-10 2002-11-22 Sony Corp 文書処理装置、文書処理方法および文書処理プログラム、ならびに、記録媒体
CN101876967A (zh) * 2010-03-25 2010-11-03 深圳市万兴软件有限公司 一种pdf文本段落生成的方法
CN102033964A (zh) * 2011-01-13 2011-04-27 北京邮电大学 基于块划分及位置权重的文本分类方法
CN103377187A (zh) * 2012-04-19 2013-10-30 株式会社日立制作所 段落分割方法、装置以及程序
CN106326854A (zh) * 2016-08-19 2017-01-11 掌阅科技股份有限公司 一种版式文档段落识别方法
CN106980607A (zh) * 2017-03-31 2017-07-25 掌阅科技股份有限公司 段落识别方法、装置和终端设备
CN107391457A (zh) * 2017-07-26 2017-11-24 成都科来软件有限公司 一种基于文本行的文档分段方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002334070A (ja) * 2001-05-10 2002-11-22 Sony Corp 文書処理装置、文書処理方法および文書処理プログラム、ならびに、記録媒体
CN101876967A (zh) * 2010-03-25 2010-11-03 深圳市万兴软件有限公司 一种pdf文本段落生成的方法
CN102033964A (zh) * 2011-01-13 2011-04-27 北京邮电大学 基于块划分及位置权重的文本分类方法
CN103377187A (zh) * 2012-04-19 2013-10-30 株式会社日立制作所 段落分割方法、装置以及程序
CN106326854A (zh) * 2016-08-19 2017-01-11 掌阅科技股份有限公司 一种版式文档段落识别方法
CN106980607A (zh) * 2017-03-31 2017-07-25 掌阅科技股份有限公司 段落识别方法、装置和终端设备
CN107391457A (zh) * 2017-07-26 2017-11-24 成都科来软件有限公司 一种基于文本行的文档分段方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ANDREW M. DAI等: "Document Embedding with Paragraph Vectors" *
冯永强;李亚军;: "一种基于卷积自编码器的文档聚类模型" *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110598191A (zh) * 2019-11-18 2019-12-20 江苏联著实业股份有限公司 一种基于神经网络的复杂pdf结构解析方法及装置
CN111126037A (zh) * 2019-12-18 2020-05-08 昆明理工大学 一种基于孪生循环神经网络的泰文句子切分方法
CN111126037B (zh) * 2019-12-18 2021-10-29 昆明理工大学 一种基于孪生循环神经网络的泰文句子切分方法
CN111259623A (zh) * 2020-01-09 2020-06-09 江苏联著实业股份有限公司 一种基于深度学习的pdf文档段落自动提取系统及装置
CN111325195A (zh) * 2020-02-17 2020-06-23 支付宝(杭州)信息技术有限公司 文本识别方法、装置及电子设备
CN111325195B (zh) * 2020-02-17 2024-01-26 支付宝(杭州)信息技术有限公司 文本识别方法、装置及电子设备

Also Published As

Publication number Publication date
CN109948518B (zh) 2023-06-09

Similar Documents

Publication Publication Date Title
CN109948518A (zh) 一种基于神经网络的pdf文档内容文本段落聚合的方法
CN109977416B (zh) 一种多层次自然语言反垃圾文本方法及系统
CN107463553B (zh) 针对初等数学题目的文本语义抽取、表示与建模方法和系统
CN108090400A (zh) 一种图像文本识别的方法和装置
CN107590134A (zh) 文本情感分类方法、存储介质及计算机
CN108415887A (zh) 一种pdf文件向ofd文件转化的方法
Fahad et al. Inflectional review of deep learning on natural language processing
CN110598203A (zh) 一种结合词典的军事想定文书实体信息抽取方法及装置
CN108170649A (zh) 一种基于dcgan深度网络的汉字字库生成方法及装置
CN103488711A (zh) 一种快速制作矢量字库的方法及系统
CN108108349A (zh) 基于人工智能的长文本纠错方法、装置及计算机可读介质
CN114065738B (zh) 基于多任务学习的中文拼写纠错方法
CN111914825B (zh) 文字识别方法、装置及电子设备
CN113255331B (zh) 文本纠错方法、装置及存储介质
CN114881043B (zh) 基于深度学习模型的法律文书语义相似度评估方法及系统
CN110674298A (zh) 一种深度学习的混合主题模型构建方法
CN113918031A (zh) 使用子字符信息进行中文标点恢复的系统和方法
CN113160917B (zh) 一种电子病历实体关系抽取方法
KR20210094823A (ko) 개인 필적 맞춤형 한글 폰트 생성 방법 및 장치
CN112084788A (zh) 一种影像字幕隐式情感倾向自动标注方法及系统
Panda et al. Complex odia handwritten character recognition using deep learning model
CN114399782B (zh) 文本图像处理方法、装置、设备、存储介质及程序产品
CN109902299A (zh) 一种文本处理方法及装置
CN110929013A (zh) 一种基于bottom-up attention和定位信息融合的图片问答实现方法
CN114332476A (zh) 维语识别方法、装置、电子设备、存储介质和产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: No. 306, 3rd Floor, Building 7-3, Block 7, Guandong Science and Technology Industrial Park, Donghu New Technology Development Zone, Wuhan City, Hubei Province, 430223

Patentee after: Wuhan Hanwang Data Technology Co.,Ltd.

Address before: Room 1804, 18th Floor, Zhongzhong Creative Building, No. 33 Luoyu Road, Hongshan District, Wuhan City, Hubei Province, 430070

Patentee before: WUHAN HANWANG BIG DATA TECHNOLOGY Co.,Ltd.