CN116702718A - 一种基于pdf的信息处理方法、系统和存储介质 - Google Patents

一种基于pdf的信息处理方法、系统和存储介质 Download PDF

Info

Publication number
CN116702718A
CN116702718A CN202310683200.0A CN202310683200A CN116702718A CN 116702718 A CN116702718 A CN 116702718A CN 202310683200 A CN202310683200 A CN 202310683200A CN 116702718 A CN116702718 A CN 116702718A
Authority
CN
China
Prior art keywords
target material
material information
content
module
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310683200.0A
Other languages
English (en)
Inventor
黄先财
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Wancai Information Technology Co ltd
Original Assignee
Guangzhou Wancai Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Wancai Information Technology Co ltd filed Critical Guangzhou Wancai Information Technology Co ltd
Priority to CN202310683200.0A priority Critical patent/CN116702718A/zh
Publication of CN116702718A publication Critical patent/CN116702718A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/04812Interaction techniques based on cursor appearance or behaviour, e.g. being affected by the presence of displayed objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/0486Drag-and-drop
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/137Hierarchical processing, e.g. outlines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种基于PDF的信息处理方法、系统和存储介质,该方法包括以下步骤:获取PDF文件;响应于针对PDF文件的转换请求,对PDF文件的每一页进行页处理转换,以得到与PDF文件对应的第一目标素材信息和第二目标素材信息;响应于操作焦点的触发条件以对目标空间对应的第一目标素材信息和第二目标素材信息进行内容整合。本发明通过确定第一文段联系信息以识别第一块区,通过确定第二文段联系信息以识别第二块区,进而实现以一种更简单的方式完成对PDF文件的反解效果,提高了基于PDF文件的文章反解的效率,为需要对PDF文件文章反解的用户而言,便于后续继续完成编辑发布的工作。

Description

一种基于PDF的信息处理方法、系统和存储介质
技术领域
本发明涉及网络媒体新闻管理发布技术领域,特别是涉及一种基于PDF的信息处理方法、系统和存储介质。
背景技术
目前传统的报业机构需要通过新型网络媒体平台上传电子报刊,由于新闻行业的严肃性,就要求对外发布的新闻必须经过编辑和审核之后才能正式对外发布。
现有技术中传统的反解处理方案为需要借助自然语言处理、机器学习等技术,并涉及到文本分类、信息抽取、关系分析等多个方面,例如,新闻文本反解技术将文本中的信息进行结构化、归纳、分类等处理,从而实现对文本内容的理解和分析,其主要步骤如下:文本预处理:对原始文本进行清洗、分段、分句等操作,以去除无用信息和干扰因素;实体识别:对文本中出现的人名、地名、组织机构名等实体进行识别和提取,以帮助理解文本中的主要内容;事件抽取:通过分析文本中的关键词、实体等信息,抽取文本所描述的事件或者主题,并将其分类归纳;语法分析:通过自然语言处理等技术,对文本中的语法结构进行分析,把握文本的语义、逻辑、情感等要素;建立知识库:根据分析结果,将相关的实体、事件等信息存储到知识库中,建立起词汇、语义、逻辑等方面的关系。
但现有技术中的新闻文本反解技术比较复杂。
发明内容
为了克服现有技术存在的缺陷与不足,本发明提出了一种基于PDF的信息处理方法、系统和存储介质。
为了达到上述第一目的,本发明采用以下技术方案:
一种基于PDF的信息处理方法,所述方法包括以下步骤:
获取PDF文件;
响应于针对所述PDF文件的转换请求,对所述PDF文件的每一页进行页处理转换,以得到与所述PDF文件对应的第一目标素材信息和第二目标素材信息;
响应于操作焦点的触发条件以对目标空间对应的第一目标素材信息和第二目标素材信息进行内容整合,即通过对所述目标空间识别成块、成行、成段以形成反解文本内容,其中所述目标空间为通过所述操作焦点的触发条件确定。
作为优选的技术方案,在页处理转换中,具体包括:
提取PDF文件的二进制编码信息,所述二进制编码信息包含对应所有素材信息;
对所述二进制编码信息进行分类得到第一目标素材信息和第二目标素材信息;
当素材信息的类型为第一素材类型时,确定该素材信息的字体、大小、颜色以及位置分类为所述第一目标素材信息;
当素材信息的类型为第二素材类型或第三素材类型时,确定该素材信息的颜色、大小、位置分类为所述第二目标素材信息。
作为优选的技术方案,所述触发条件包括点击行为;
在响应于操作焦点的触发条件以对目标空间对应的第一目标素材信息和第二目标素材信息进行内容整合中,包括:
响应于操作焦点的所述点击行为,确定第一文段联系信息以识别第一块区;
对所述第一块区对应的第一目标素材信息、第二目标素材信息进行内容整合。
作为优选的技术方案,所述触发条件包括移动行为;
在响应于操作焦点的触发条件以对目标空间对应的第一目标素材信息和第二目标素材信息进行内容整合中,还包括:
响应于操作焦点的所述移动行为,确定第二文段联系信息以识别第二块区,其中所述第二文段联系信息包括字符字体和文字大小,所述第二块区为根据字符字体和文字大小使得字符与字符之间识别成行得到;
对所述第二块区对应的第一目标素材信息和第二目标素材信息进行内容整合。
作为优选的技术方案,在响应于操作焦点的触发条件以对目标空间对应的第一目标素材信息和第二目标素材信息进行内容整合中,还包括:
当通过操作焦点的多次所述点击行为产生多个第一块区时,确定多个第一文段联系信息,每个第一文段联系信息用于识别其点击行为对应的第一块区;
当两个第一块区在内容上具有上下文关联且在所述PDF文件中的位置区域为隔断关系时,则标记为跨块状态;
确定第三文段联系信息以对标记为跨块状态的第一区块建立内容关联;
根据所述第三文段联系信息对所述多个第一块区对应的第一目标素材信息和第二目标素材信息进行内容整合;
其中所述第一文段联系信息为字符和字符间的距离,所述第一块区为根据所述字符和字符间的距离使得字符与字符之间识别成块得到,所述第三文段联系信息包括行位置和行间距,根据所述行位置和行间距使得行与行之间识别成段,以完成对标记为跨块状态的第一区块建立内容关联。
作为优选的技术方案,在响应于操作焦点的触发条件以对目标空间对应的第一目标素材信息和第二目标素材信息进行内容整合中,包括:
在内容整合时,采用预设语义预测模型进行新闻语义识别,其中所述预设语义预测模型具体根据识别维度进行处理,所述识别维度为字符字体类型、文字大小以及文字位置中的任一个或多个组合。
为了达到上述第二目的,本发明采用以下技术方案:
一种基于PDF的信息处理系统,所述系统包括:
数据资源模块,用于获取PDF文件,其中所述PDF文件;
页处理转换模块,用于响应于针对所述PDF文件的转换请求,对所述PDF文件的每一页进行页处理转换,以得到与所述PDF文件对应的第一目标素材信息和第二目标素材信息;
内容整合模块:响应于操作焦点的触发条件以对目标空间对应的第一目标素材信息和第二目标素材信息进行内容整合,通过对所述目标空间识别成块、成行、成段以形成反解文本内容,其中所述目标空间为通过所述操作焦点的触发条件确定。
作为优选的技术方案,所述内容整合模块包括第一识别子模块、第一内容整合子模块、第二识别子模块、第二内容整合子模块、第三识别子模块、跨块标记子模块、内容关联子模块、第三内容整合子模块以及新闻语义识别子模块;
第一识别子模块,用于响应于操作焦点的点击行为,确定第一文段联系信息以识别第一块区;
第一内容整合子模块,用于对所述第一块区对应的第一目标素材信息和第二目标素材信息进行内容整合;
第二识别子模块,用于响应于操作焦点的移动行为,确定第二文段联系信息以识别第二块区;
第二内容整合子模块,用于对所述第二块区对应的第一目标素材信息和第二目标素材信息进行内容整合;
第三识别子模块,用于当通过操作焦点的多次点击行为产生多个第一块区时,确定多个第一文段联系信息,每个第一文段联系信息用于识别其点击行为对应的第一块区;
跨块标记子模块,用于当两个第一块区在内容上具有上下文关联且在所述PDF文件中的位置区域为隔断关系时,则标记为跨块状态;
内容关联子模块,用于确定第三文段联系信息以对标记为跨块状态的第一区块建立内容关联;
第三内容整合子模块,用于根据所述第三文段联系信息对所述多个第一块区对应的第一目标素材信息和第二目标素材信息进行内容整合;
新闻语义识别子模块,用于内容整合,采用预设语义预测模型进行新闻语义识别,该预设语义预测模型具体根据识别维度进行处理,其中识别维度为字符字体类型、文字大小以及文字位置中的任一个或多个组合;
其中,所述第一文段联系信息为字符和字符间的距离,所述第一块区为根据所述字符和字符间的距离使得字符与字符之间识别成块得到;
所述第二文段联系信息包括字符字体和文字大小,所述第二块区为根据字符字体和文字大小使得字符与字符之间识别成行得到;
所述第三文段联系信息包括行位置和行间距,根据所述行位置和行间距使得行与行之间识别成段,以完成对标记为跨块状态的第一区块建立内容关联。
作为优选的技术方案,所述系统基于C/S架构,所述系统包括第一处理子系统和多个第二处理子系统,所述第一处理子系统分别与所述多个第二处理子系统连接;
所述第一处理子系统用于执行所述数据资源模块和所述页处理转换模块;
每个第二处理子系统用于执行所述内容整合模块。
为了达到上述第三目的,本发明采用以下技术方案:
一种存储介质,所述存储介质用于存储程序代码,所述程序代码用于执行上述任一所述的基于PDF的信息处理方法。
本发明与现有技术相比,具有如下优点和有益效果:
(1)通过对PDF文件的每一页面进行处理转换,来提取出与该PDF文件对应的第一目标素材信息和第二目标素材信息,进而完成对反解文本内容所需数据的筛选,接着通过确定第一文段联系信息以识别第一块区,即根据字符和字符间的距离使得字符与字符之间识别成块,通过确定第二文段联系信息以识别第二块区,即根据字符字体和文字大小使得字符与字符之间识别成行,进而实现以一种更简单的方式完成对PDF文件的反解效果,提高了基于PDF文件的文章反解的效率,针对需要对PDF文件文章反解的用户而言,能够更快捷地获取到相应的反解文本内容,提高了新媒体或新闻工作人员的工作效率,以便工作人员后续继续完成编辑发布的任务。
(2)进一步通过确定第三文段联系信息以对标记为跨块状态的第一区块建立内容关联,即根据行位置和行间距使得行与行之间识别成段,从而解决了在PDF文件的排版时存在跨开分隔情况的识别率低问题,根据行位置和行间距的判断机制提高了对跨块状态属于同段内容的识别效果,同时在对跨块状态包含英文跨块、中文跨块、中英文跨块以及符号跨块的情况下均具有较好的识别效果,提高了跨块问题的整体识别准确率。
(3)在内容整合时,通过采用预设语义预测模型进行新闻语义识别,并根据字符字体类型、文字大小以及文字位置中的任一个或多个组合进行判断以获取预测的新闻语义,提高了在反解时对新闻语义的识别准确率,进而提高了新媒体或新闻工作人员的工作效率。
(4)在系统中,基于C/S架构实现页面的交互,每个第一处理子系统分别与多个第二处理子系统连接,每个第二处理子系统均用于显示交互页面,同时每个第一处理子系统包括数据资源模块和页处理转换模块,每个第二处理子系统包括内容整合模块,这样一方面,只需通过第一处理子系统执行一次页面处理转换,无需每个第二处理子系统针对同一个PDF文件实现反解文本内容时都重复处理,即达到了与多个执行主体实现共享处理结果数据的效果,避免了在多个执行主体交互时多个第二处理子系统重复对同一个PDF文件进行处理,节省了计算资源,提高了系统在页面显示交互中的运行效率;另一方面,多个第二处理子系统根据用户实际需要只需接收用于内容整合的相关数据,减少了对无关数据的处理和传输过程,提高了对指定的PDF文件进行新闻内容编辑时的数据处理效率。
附图说明
图1为本申请一实施例提供的基于PDF的信息处理方法的流程示意图;
图2为本申请一实施例提供的页处理转换的流程示意图;
图3为本申请一实施例提供的基于PDF的信息处理方法执行内容整合的步骤示意图;
图4为本申请一实施例提供的跨块状态包含英文跨块的反解效果示例图;
图5为本申请一实施例提供的跨块状态包含中文跨块的反解效果示例图;
图6为本申请一实施例提供的跨块状态包含中英文跨块的样本示例图;
图7为本申请一实施例提供的跨块状态包含中英文跨块的反解效果示例图;
图8为本申请一实施例提供的跨块状态包含符号跨块的反解效果示例图;
图9为本申请一实施例提供的基于PDF的信息处理系统的框架结构示意图;
图10为本申请一实施例提供的内容整合模块的框架示意图;
图11为本申请一实施例提供的基于PDF的信息处理系统在基于C/S架构的框架结构示意图;
其中,附图标记:1000、基于PDF的信息处理系统;1001、第一处理子系统;1002、第二处理子系统;1100、数据资源模块;1200、页处理转换模块;1300、内容整合模块;1301、第一识别子模块;1302、第一内容整合子模块;1303、第二识别子模块;1304、第二内容整合子模块;1305、第三识别子模块;1306、跨块标记子模块;1307、内容关联子模块;1308、第三内容整合子模块;1309、新闻语义识别子模块。
具体实施方式
在本公开的描述中,需要说明的是,下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。应当理解,本公开的方法实施方式中记载的各个步骤可以按和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。需要注意,本公开中提及的“一个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例
实施例1
如图1所示,本实施例提供了一种基于PDF的信息处理方法,该方法包括以下步骤:
步骤S100:获取PDF文件;
在本实施例中,执行主体可以为终端设备或服务器,能够提供对PDF文件的数据处理服务。执行主体可以通过从存储数据或外部网络传输中获取PDF文件。实际应用时,PDF文件为通过用户在前端操作平台上传至执行主体得到,该前端操作平台可以为小程序、Web页面、H5页面或APP页面等交互页面。
步骤S200:响应于针对PDF文件的转换请求,对PDF文件的每一页进行页处理转换,以得到与该PDF文件对应的第一目标素材信息和第二目标素材信息;
实际应用时,PDF文件包含的素材信息为PDF文件格式的数据内容,具体包括文本信息、图像信息、图形信息、多媒体元素信息、元数据信息以及安全设置信息,其中文本信息包含该PDF文件的文本内容,可能包括正文、标题、注释、标签等,这些文本内容可以用于被搜索、复制和编辑;图像信息用于在PDF文件内添加图像,而图形信息用于在PDF文件内添加图形,例如矢量图、位图、图标等,这些图像和图形可以是独立的元素,也可以与文本内容混排;多媒体元素信息可以包括音频、视频、动画等;元数据信息用于提供有关该PDF文件的信息,如作者、创建日期、修改日期等;安全设置信息用于为PDF文件提供安全设置,例如可以对其进行加密、禁止打印或更改等操作。
结合图2所示,在本实施例中,在步骤S200中的页处理转换中,具体包括:
步骤S201:提取PDF文件的二进制编码信息,二进制编码信息包含对应所有素材信息;
步骤S202:对二进制编码信息进行分类得到第一目标素材信息和第二目标素材信息;
在本实施例中,第一目标素材信息为对应PDF文件里的文本信息,第二目标素材信息为对应PDF文件里的图像信息和图形信息,即图片信息。此处将图像信息和图形信息统称为图片信息。
步骤S203:当素材信息的类型为第一素材类型时,确定该素材信息的字体、大小、颜色以及位置并分类为第一目标素材信息;
在本实施例中,素材信息的类型包括分别对应文本信息、图像信息、图形信息、多媒体元素信息、元数据信息以及安全设置信息的类型标识。其中第一素材类型为对应文本信息的类型标识。
步骤S204:当素材信息的类型为第二素材类型或第三素材类型时,确定该素材信息的颜色、大小、位置并分类为第二目标素材信息。
在本实施例中,第二素材类型为对应图像信息的类型标识,第三素材类型为对应图形信息的类型标识。
步骤S300:响应于操作焦点的触发条件以对目标空间对应的第一目标素材信息和第二目标素材信息进行内容整合,通过对目标空间识别成块、成行、成段以形成反解文本内容,其中目标空间为通过操作焦点的触发条件确定。
在本实施例中,操作焦点的触发条件包括点击行为和移动行为,目标空间为基于操作焦点的触发条件而产生的区域,例如第一块区、第二块区。实际应用时,通过提取出与该PDF文件对应的第一目标素材信息和第二目标素材信息,进而获取反解文本内容所需数据,通过内容整合以完成反解处理,为用户提供便捷的文章内容反解功能。
如图3所示,在步骤S300:响应于操作焦点的触发条件以对目标空间对应的第一目标素材信息和第二目标素材信息进行内容整合中,包括如下步骤:
步骤S301:响应于操作焦点的点击行为,确定第一文段联系信息以识别第一块区;
在本实施例中,操作焦点具体为鼠标在电脑屏幕显示时进行移动响应的光标标识,第一块区为通过操作焦点在报刊PDF文件上存在素材信息的位置进行点击得到,具体地,将点击的位置所属的文段块区域或图片区域作为第一块区,例如点击的位置为一个字符,根据该字符所属的段落确定为文段块区域,以作为第一块区。实际应用时,第一文段联系信息为字符和字符间的距离,根据字符和字符间的距离使得字符与字符之间识别成块,进而得到第一块区。
步骤S302:对第一块区对应的第一目标素材信息和第二目标素材信息进行内容整合。
在本实施例中,通过将第一块区所涉及的文本信息和图片信息进行内容整合形成相应的反解文本内容,以用于为前端用户提供内容显示或编辑操作。实际应用时,内容整合得到的反解文本内容用于页面显示,在前端操作平台的交互页面中,实现把散的文本字符集合成文章的标题、语句及段落的完整显示。
步骤S311:响应于操作焦点的移动行为,确定第二文段联系信息以识别第二块区;
在本实施例中,第二块区为通过操作焦点在报刊PDF文件上从第一位置点移动至第二位置点得到,具体地,将第一位置点至第二位置点所包围的文段块区域或图片区域作为第二块区;其中操作焦点的移动行为包括使用鼠标的光标标识滑动以产生的选中目标区域,根据该选中目标区域的文本内容确定为文段块区域,以作为第二块区。
实际应用时,第二文段联系信息包括字符字体和文字大小,根据字符字体和文字大小使得字符与字符之间识别成行,进而得到第二块区。例如,通过分割文字大小确定每个字符字体和文字大小,进而对比相邻的前后文字大小,当前后文字大小差距小于行判定阈值时,即识别成行,将本次判定的前后文字确定为同一行内容。
步骤S312:对第二块区对应的第一目标素材信息和第二目标素材信息进行内容整合。
在本实施例中,通过将第二块区所涉及的文本信息和图片信息进行内容整合形成相应的反解文本内容。
步骤S321:当通过操作焦点的多次点击行为产生多个第一块区时,确定多个第一文段联系信息,每个第一文段联系信息用于识别其点击行为对应的第一块区;
在本实施例中,通过多次点击行为得到多个第一块区,每个第一块区分别为根据字符和字符间的距离使得字符与字符之间识别成块得到。例如,通过切割纵向距离过大文字,以字符在纵向绝对距离大于块判定阈值为判断依据进行识别成块。
步骤S322:当两个第一块区在内容上具有上下文关联且在PDF文件中的位置区域为隔断关系时,则标记为跨块状态;
在此,对跨块状态进行说明:两个第一块区分别对应的文段块区域在内容上具有衔接关系,属于同一自然段内容,即具有上下文关联。而其中在PDF文件中的位置区域为隔断关系,即为两个第一块在位置上在PDF文件的排版时存在跨开分隔的情况,此时PDF文件对应的上下文内容在位置上是分隔开的。
实际应用时,当PDF文件的内容属于上下文关联但在排版上存在跨开分隔的情况时,此时PDF文件对应的上下文内容在位置上是分隔开的,这种情况下如果采用传统的反解处理方法,则不容易识别出其上下文关系。
步骤S323:确定第三文段联系信息以对标记为跨块状态的第一区块建立内容关联;
实际应用时,第三文段联系信息包括行位置和行间距,根据行位置和行间距使得行与行之间识别成段,以完成对标记为跨块状态的第一区块建立内容关联。例如,通过切割突然换段文字确定行位置的纵向距离,进而判断行位置的纵向距离大于跨块纵向阈值时,并且行位置的横向距离大于横向跨块阈值,则对跨块状态识别成段。
步骤S324:根据第三文段联系信息对多个第一块区对应的第一目标素材信息和第二目标素材信息进行内容整合。
在本实施例中,通过将多个第一块区所涉及的文本信息和图片信息进行内容整合形成相应的反解文本内容,在对跨块状态的上下文关系的识别上具有较好的效果,提高了对跨块状态属于同段文本内容的识别准确率。
此外,在对标题类进行识别时,通过切割标题类文字,当字符的横向距离大于标题横向阈值,且字符的纵向距离大于标题纵向阈值时,且字符大小大于标题大小阈值时,则识别成标题。
实际应用时,在判断两跨块内容是否具有上下文关联时,分别以两跨块的相邻字符的横向距离和纵向距离进行计算,得到相应的横向间距和纵向间距,其中两跨块的相邻字符为从两跨块最接近的行或列中所选的字符。当横向间距大于页面宽度阈值或者纵向间距大于页面高度阈值时,则视为两跨块内容具有上下文关联。
还需要说明的是,本实施例中的行判定阈值、块判定阈值、跨块纵向阈值、横向跨块阈值、标题横向阈值、标题纵向阈值、标题大小阈值、页面宽度阈值以及页面高度阈值均可以由切割出的字符大小为基础并按照相应的预设倍数进行设置得到,本领域技术人员可以根据实际情况调整,本实施例在此不做限制。
示例性地,以下分别用图4、图5、图6、图7以及图8进行反解效果的说明,应当明白,此处为了更简明地说明反解效果而截取关键部分,以对样本进行示例。
参见图4,为跨块状态包含英文跨块时的反解效果示例,左侧末尾“TECS”与右侧开头“Director”在位置上分隔开,通过识别成段使得在形成反解内容时合并为“TECSDirector”,即图中框内的文本所示。
参见图5,为跨块状态包含中文跨块时的反解效果示例,左侧末尾“在这种背景”和右侧开头“下”在位置上分隔开,通过识别成段使得在形成反解内容时合并为“在这种背景下”,即图中框内的文本所示。
参见图6和图7,为跨块状态包含中英文跨块时的样本示例和反解效果示例,左侧末尾“公众”和右侧开头“WiFi”在位置上分隔开,通过识别成段使得在形成反解内容时合并为“公众WiFi”,即图中框内的文本所示。
参见图8,为跨块状态包含符号跨块时的反解效果示例,左侧末尾“重要。”和右侧开头“收集”在位置上分隔开,通过识别成段使得在形成反解内容时合并为“重要。收集”,即图中框内的文本所示。
因此,本实施例通过对目标空间识别成块、成行、成段以形成反解文本内容,对跨块状态包含英文跨块、中文跨块、中英文跨块以及符号跨块的情况下均具有较好的识别效果。
实施例2
本实施例2在实施例1提出的基于PDF的信息处理方法的基础上进行改进,以提高在内容整合时的新闻语义识别效果。
结合图3所示,在本实施例中,在步骤S300:响应于操作焦点的触发条件以对目标空间对应的第一目标素材信息和第二目标素材信息进行内容整合中,还包括如下步骤:
步骤S331:在内容整合时,采用预设语义预测模型进行新闻语义识别,其中预设语义预测模型具体根据识别维度进行处理,其中识别维度为字符字体类型、文字大小以及文字位置中的任一个或多个组合。
在本实施例中,通过选择字符字体类型、文字大小以及文字位置中的任一个或多个组合作为判断依据进行新闻语义识别以预测出新闻语义关键词。实际应用时,一篇新闻文章中涉及引题、副标题、标题、记者、正文、日期等新闻语义的关键词,每个新闻语义的关键词具有不同的字符字体类型、文字大小以及文字位置,本发明通过预测当前形成的文段块区域所对应的内容是否是引题、副标题、标题、记者、正文、日期等新闻语义的关键词,从而提高新闻文章的识别效率,方便新媒体工作人员更快速地编辑新闻文案内容。此外,需要说明的是,结合字符字体类型、文字大小以及文字位置的组合进行新闻语义识别的识别准确率最高,单独使用字符字体类型、文字大小或文字位置中的一种的识别效果较差。
实施例3
基于相同的发明构思,结合图9所示,本实施例提出了一种基于PDF的信息处理系统1000,该系统包括:
数据资源模块1100,用于获取PDF文件;
页处理转换模块1200,用于响应于针对PDF文件的转换请求,对PDF文件的每一页进行页处理转换,以得到与PDF文件对应的第一目标素材信息和第二目标素材信息;
内容整合模块1300:响应于操作焦点的触发条件以对目标空间对应的第一目标素材信息和第二目标素材信息进行内容整合,通过对目标空间识别成块、成行、成段以形成反解文本内容,其中目标空间为通过操作焦点的触发条件确定。
如图10所示,在本实施例中,内容整合模块1300包括第一识别子模块1301、第一内容整合子模块1302、第二识别子模块1303、第二内容整合子模块1304、第三识别子模块1305、跨块标记子模块1306、内容关联子模块1307、第三内容整合子模块1308以及新闻语义识别子模块1309;
第一识别子模块1301,用于响应于操作焦点的点击行为,确定第一文段联系信息以识别第一块区;
第一内容整合子模块1302,用于对第一块区对应的第一目标素材信息和第二目标素材信息进行内容整合;
第二识别子模块1303,用于响应于操作焦点的移动行为,确定第二文段联系信息以识别第二块区;
第二内容整合子模块1304,用于对第二块区对应的第一目标素材信息和第二目标素材信息进行内容整合;
第三识别子模块1305,用于当通过操作焦点的多次点击行为产生多个第一块区时,确定多个第一文段联系信息,每个第一文段联系信息用于识别其点击行为对应的第一块区;
跨块标记子模块1306,用于当两个第一块区在内容上具有上下文关联且在PDF文件中的位置区域为隔断关系时,则标记为跨块状态;
内容关联子模块1307,用于确定第三文段联系信息以对标记为跨块状态的第一区块建立内容关联;
第三内容整合子模块1308,用于根据第三文段联系信息对多个第一块区对应的第一目标素材信息和第二目标素材信息进行内容整合;
新闻语义识别子模块1309,用于内容整合,采用预设语义预测模型进行新闻语义识别,该预设语义预测模型具体根据识别维度进行处理,其中识别维度为字符字体类型、文字大小以及文字位置中的任一个或多个组合。
此外,相应重复的内容在此不再赘述。
实施例4
基于相同的发明构思,参见图11所示,本实施例提供了一种示例性的应用场景,本实施例在实施例3的基础上提供了一种基于PDF的信息处理系统1000,该系统基于C/S架构实现页面的交互,并且是一种较优的实施方式。
在本实施例中,该系统包括至少一个第一处理子系统1001和多个第二处理子系统1002,每个第一处理子系统1001分别与多个第二处理子系统1002连接,每个第二处理子系统1002均用于显示交互页面;
其中,每个第一处理子系统1001包括数据资源模块1100和页处理转换模块1200。每个第二处理子系统1002包括内容整合模块1300。此外,相应重复的内容在此不再赘述。
相应的,在本实施例中,至少一个第一处理子系统作为服务器端的执行主体,用于执行步骤S100和步骤S200,多个第二处理子系统作为客户端的执行主体,用于执行步骤S300,并且本领域技术人员应当明白,相应的数据信息可以通过网络在第一处理子系统与第二处理子系统之间相互传输,以使得整个系统运行,例如,第二处理子系统将PDF文件、操作焦点的触发条件发送至第一处理子系统,第一处理子系统将PDF文件对应的第一目标素材信息和第二目标素材信息发送至第二处理子系统。
实际应用时,这样实施,一方面只需通过第一处理子系统执行一次页面处理转换,无需每个第二处理子系统针对同一个PDF文件实现反解文本内容时都重复处理,即达到了与多个执行主体实现共享处理结果数据的效果,避免了在多个执行主体交互时多个第二处理子系统重复对同一个PDF文件进行处理,节省了计算资源,提高了系统在页面显示交互中的运行效率;另一方面,多个第二处理子系统根据用户实际需要接收PDF文件对应的第一目标素材信息和第二目标素材信息,那么多个第二处理子系统只需接收用于内容整合的相关数据,减少了对无关数据的处理和传输过程,提高了对指定的PDF文件进行新闻内容编辑时的数据处理效率。
在此,需要说明的是,本领域技术人员应当明白,相应的数据可以通过互联网在多个执行主体之间进行传输,并且上述步骤S100至步骤S300均可以按照实际应用场景分别让相应的第一处理子系统只运行其中一部分步骤,而剩余部分步骤可以让第二处理子系统进行处理。并且本领域技术人员也应当明白,上述基于PDF的信息处理方法也可以在同一个终端设备执行,以完成研发过程时的方法步骤的测试。因此,本发明在此并不限定具体的执行主体执行指定的步骤,本领域技术人员可以根据实际情况选择指定执行主体以执行指定的步骤。
实施例5
根据上述公开的一个或多个实施例,本实施例提供了一种存储介质,存储介质用于存储程序代码,程序代码用于执行上述基于PDF的信息处理方法。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (10)

1.一种基于PDF的信息处理方法,其特征在于,所述方法包括以下步骤:
获取PDF文件;
响应于针对所述PDF文件的转换请求,对所述PDF文件的每一页进行页处理转换,以得到与所述PDF文件对应的第一目标素材信息和第二目标素材信息;
响应于操作焦点的触发条件以对目标空间对应的第一目标素材信息和第二目标素材信息进行内容整合,通过对所述目标空间识别成块、成行、成段以形成反解文本内容。
2.根据权利要求1所述的基于PDF的信息处理方法,其特征在于,其中所述目标空间为通过所述操作焦点的触发条件确定;
在页处理转换中,具体包括:
提取PDF文件的二进制编码信息,所述二进制编码信息包含对应所有素材信息;
对所述二进制编码信息进行分类得到第一目标素材信息和第二目标素材信息;
当素材信息的类型为第一素材类型时,确定该素材信息的字体、大小、颜色以及位置分类为所述第一目标素材信息;
当素材信息的类型为第二素材类型或第三素材类型时,确定该素材信息的颜色、大小、位置分类为所述第二目标素材信息。
3.根据权利要求1所述的基于PDF的信息处理方法,其特征在于,所述触发条件包括点击行为;
在响应于操作焦点的触发条件以对目标空间对应的第一目标素材信息和第二目标素材信息进行内容整合中,包括:
响应于操作焦点的所述点击行为,确定第一文段联系信息以识别第一块区;
对所述第一块区对应的第一目标素材信息、第二目标素材信息进行内容整合。
4.根据权利要求3所述的基于PDF的信息处理方法,其特征在于,所述触发条件还包括移动行为;
在响应于操作焦点的触发条件以对目标空间对应的第一目标素材信息和第二目标素材信息进行内容整合中,还包括:
响应于操作焦点的所述移动行为,确定第二文段联系信息以识别第二块区,其中所述第二文段联系信息包括字符字体和文字大小,所述第二块区为根据字符字体和文字大小使得字符与字符之间识别成行得到;
对所述第二块区对应的第一目标素材信息和第二目标素材信息进行内容整合。
5.根据权利要求3所述的基于PDF的信息处理方法,其特征在于,在响应于操作焦点的触发条件以对目标空间对应的第一目标素材信息和第二目标素材信息进行内容整合中,还包括:
当通过操作焦点的多次所述点击行为产生多个第一块区时,确定多个第一文段联系信息,每个第一文段联系信息用于识别其点击行为对应的第一块区;
当两个第一块区在内容上具有上下文关联且在所述PDF文件中的位置区域为隔断关系时,则标记为跨块状态;
确定第三文段联系信息以对标记为跨块状态的第一区块建立内容关联;
根据所述第三文段联系信息对所述多个第一块区对应的第一目标素材信息和第二目标素材信息进行内容整合;
其中所述第一文段联系信息为字符和字符间的距离,所述第一块区为根据所述字符和字符间的距离使得字符与字符之间识别成块得到,所述第三文段联系信息包括行位置和行间距,根据所述行位置和行间距使得行与行之间识别成段,以完成对标记为跨块状态的第一区块建立内容关联。
6.根据权利要求1所述的基于PDF的信息处理方法,其特征在于,在响应于操作焦点的触发条件以对目标空间对应的第一目标素材信息和第二目标素材信息进行内容整合中,包括:
在内容整合时,采用预设语义预测模型进行新闻语义识别,其中所述预设语义预测模型具体根据识别维度进行处理,所述识别维度为字符字体类型、文字大小以及文字位置中的任一个或多个组合。
7.一种基于PDF的信息处理系统,其特征在于,所述系统包括:
数据资源模块,用于获取PDF文件,其中所述PDF文件;
页处理转换模块,用于响应于针对所述PDF文件的转换请求,对所述PDF文件的每一页进行页处理转换,以得到与所述PDF文件对应的第一目标素材信息和第二目标素材信息;
内容整合模块:响应于操作焦点的触发条件以对目标空间对应的第一目标素材信息和第二目标素材信息进行内容整合,通过对所述目标空间识别成块、成行、成段以形成反解文本内容,其中所述目标空间为通过所述操作焦点的触发条件确定。
8.根据权利要求7所述的基于PDF的信息处理系统,其特征在于,所述内容整合模块包括第一识别子模块、第一内容整合子模块、第二识别子模块、第二内容整合子模块、第三识别子模块、跨块标记子模块、内容关联子模块、第三内容整合子模块以及新闻语义识别子模块;
第一识别子模块,用于响应于操作焦点的点击行为,确定第一文段联系信息以识别第一块区;
第一内容整合子模块,用于对所述第一块区对应的第一目标素材信息和第二目标素材信息进行内容整合;
第二识别子模块,用于响应于操作焦点的移动行为,确定第二文段联系信息以识别第二块区;
第二内容整合子模块,用于对所述第二块区对应的第一目标素材信息和第二目标素材信息进行内容整合;
第三识别子模块,用于当通过操作焦点的多次点击行为产生多个第一块区时,确定多个第一文段联系信息,每个第一文段联系信息用于识别其点击行为对应的第一块区;
跨块标记子模块,用于当两个第一块区在内容上具有上下文关联且在所述PDF文件中的位置区域为隔断关系时,则标记为跨块状态;
内容关联子模块,用于确定第三文段联系信息以对标记为跨块状态的第一区块建立内容关联;
第三内容整合子模块,用于根据所述第三文段联系信息对所述多个第一块区对应的第一目标素材信息和第二目标素材信息进行内容整合;
新闻语义识别子模块,用于内容整合,采用预设语义预测模型进行新闻语义识别,该预设语义预测模型具体根据识别维度进行处理,其中识别维度为字符字体类型、文字大小以及文字位置中的任一个或多个组合;
其中,所述第一文段联系信息为字符和字符间的距离,所述第一块区为根据所述字符和字符间的距离使得字符与字符之间识别成块得到;
所述第二文段联系信息包括字符字体和文字大小,所述第二块区为根据字符字体和文字大小使得字符与字符之间识别成行得到;
所述第三文段联系信息包括行位置和行间距,根据所述行位置和行间距使得行与行之间识别成段,以完成对标记为跨块状态的第一区块建立内容关联。
9.根据权利要求8所述的基于PDF的信息处理系统,其特征在于,所述系统基于C/S架构,所述系统包括第一处理子系统和多个第二处理子系统,所述第一处理子系统分别与所述多个第二处理子系统连接;
所述第一处理子系统用于执行所述数据资源模块和所述页处理转换模块;
每个第二处理子系统用于执行所述内容整合模块。
10.一种存储介质,所述存储介质用于存储程序代码,其特征在于,所述程序代码用于执行权利要求1至6中任一项所述的基于PDF的信息处理方法。
CN202310683200.0A 2023-06-09 2023-06-09 一种基于pdf的信息处理方法、系统和存储介质 Pending CN116702718A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310683200.0A CN116702718A (zh) 2023-06-09 2023-06-09 一种基于pdf的信息处理方法、系统和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310683200.0A CN116702718A (zh) 2023-06-09 2023-06-09 一种基于pdf的信息处理方法、系统和存储介质

Publications (1)

Publication Number Publication Date
CN116702718A true CN116702718A (zh) 2023-09-05

Family

ID=87825222

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310683200.0A Pending CN116702718A (zh) 2023-06-09 2023-06-09 一种基于pdf的信息处理方法、系统和存储介质

Country Status (1)

Country Link
CN (1) CN116702718A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101206639A (zh) * 2007-12-20 2008-06-25 北大方正集团有限公司 一种基于pdf的复杂版面的标引方法
US11030387B1 (en) * 2020-11-16 2021-06-08 Issuu, Inc. Device dependent rendering of PDF content including multiple articles and a table of contents
CN113378526A (zh) * 2021-06-11 2021-09-10 珠海豹趣科技有限公司 Pdf段落处理方法、装置、存储介质及设备
CN114821612A (zh) * 2022-05-30 2022-07-29 浙商期货有限公司 一种证券期货场景下pdf文档的信息抽取方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101206639A (zh) * 2007-12-20 2008-06-25 北大方正集团有限公司 一种基于pdf的复杂版面的标引方法
US11030387B1 (en) * 2020-11-16 2021-06-08 Issuu, Inc. Device dependent rendering of PDF content including multiple articles and a table of contents
CN113378526A (zh) * 2021-06-11 2021-09-10 珠海豹趣科技有限公司 Pdf段落处理方法、装置、存储介质及设备
CN114821612A (zh) * 2022-05-30 2022-07-29 浙商期货有限公司 一种证券期货场景下pdf文档的信息抽取方法和系统

Similar Documents

Publication Publication Date Title
CN106570171B (zh) 一种基于语义的科技情报处理方法及系统
CN107358208B (zh) 一种pdf文档结构化信息提取方法及装置
CN111291572B (zh) 一种文字排版方法、装置及计算机可读存储介质
CN105808722B (zh) 一种信息判别方法和系统
US20110246462A1 (en) Method and System for Prompting Changes of Electronic Document Content
CN109634436B (zh) 输入法的联想方法、装置、设备及可读存储介质
Al-Zaidy et al. Automatic summary generation for scientific data charts
CN116049397B (zh) 基于多模态融合的敏感信息发现并自动分类分级方法
CN112199526B (zh) 一种多媒体内容发布的方法、装置、电子设备及存储介质
KR20210129465A (ko) 연구노트 관리 장치 및 이를 이용한 연구노트 검색 방법
CN110516203B (zh) 争议焦点分析方法、装置、电子设备及计算机可存储介质
CN111695014A (zh) 基于ai自动生成稿件的方法、系统、装置和存储介质
CN115828874A (zh) 基于图像识别技术的行业表格数字化处理方法
CN115203338A (zh) 一种标签及标签实例推荐方法
JP4904920B2 (ja) 雛形文書作成プログラム、雛形文書作成方法および雛形文書作成装置
CN116702718A (zh) 一种基于pdf的信息处理方法、系统和存储介质
CN114155547B (zh) 一种图表识别方法、装置、设备及存储介质
CN114996458A (zh) 文本处理方法和装置、设备、介质
CN114302227A (zh) 基于容器采集的网络视频采集与解析的方法和系统
Madan et al. Parsing and summarizing infographics with synthetically trained icon detection
Mansouri et al. Text-to-concept: a semantic indexing framework for arabic news videos
CN112541331A (zh) 一种基于编写搜索查看同步同屏的电子文档填充方法
CN111666522A (zh) 信息处理方法、装置、设备和存储介质
JP5461344B2 (ja) データ分類装置、データ分類方法およびデータ分類プログラム
JP7511515B2 (ja) ラベリング方法およびラベリング装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination