CN116451683B - 一种文档合并方法、终端及计算机可读存储介质 - Google Patents

一种文档合并方法、终端及计算机可读存储介质 Download PDF

Info

Publication number
CN116451683B
CN116451683B CN202211390206.0A CN202211390206A CN116451683B CN 116451683 B CN116451683 B CN 116451683B CN 202211390206 A CN202211390206 A CN 202211390206A CN 116451683 B CN116451683 B CN 116451683B
Authority
CN
China
Prior art keywords
title
document
target
merged
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211390206.0A
Other languages
English (en)
Other versions
CN116451683A (zh
Inventor
刘吉平
贾青和
王翔
郑增忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Hangshun Chip Technology R&D Co Ltd
Original Assignee
Shenzhen Hangshun Chip Technology R&D Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Hangshun Chip Technology R&D Co Ltd filed Critical Shenzhen Hangshun Chip Technology R&D Co Ltd
Priority to CN202211390206.0A priority Critical patent/CN116451683B/zh
Publication of CN116451683A publication Critical patent/CN116451683A/zh
Application granted granted Critical
Publication of CN116451683B publication Critical patent/CN116451683B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/134Hyperlinking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种文档合并方法、终端及计算机可读存储介质,通过遍历各待合并文档,以获取待合并文档中的标题;然后基于待合并文档的预设文档合并顺序,构建待合并文档中各标题的目标标题信息;其中,预设文档合并顺序用于表征待合并文档在目标合并文档中的位置;目标标题信息至少包括:目标标题编号、目标标题链接信息;最后根据目标标题信息更新并合并待合并文档,得到目标文合并档。通过上述方案,在目标合并文档中可以保证标题编号和跳转位置的准确性,从而提高文档合并效果,提高用户阅读体验。

Description

一种文档合并方法、终端及计算机可读存储介质
技术领域
本发明涉及电子文档处理技术领域,尤其涉及一种文档合并方法、终端及计算机可读存储介质。
背景技术
近年来电子文档呈几何式倍数增长,受到广泛应用。在文档使用过程中,有时需要将不同的文档合并成单个文件。例如,团队中各成员负责不同的章节,然后将不同的章节合并为完整的手册以便使用。
目前,现有的合并文档的方法仅仅是简单的合并,合并后的文档无法对原文档中的标题等信息进行更新,有可能丢失了各原始文档中的链接、目录等信息,使得合并后的文档在阅读时不能方便地进行目录跳转,其原有的链接也不能起作用,不能跳转到相应的页面,造成文档合并效果不佳,大大降低了阅读体验。
基于此,如何提供一种提高文档合并效果的技术方案,成为亟需解决的技术问题。
发明内容
本发明的主要目的在于提供一种文档合并方法、终端及计算机可读存储介质,旨在解决现有技术中文档的合并效果差,影响用户阅读体验的问题。
为了实现上述目的,本发明实施例提供了一种文档合并方法,所述方法包括:
遍历各待合并文档,以获取所述待合并文档中的标题;
基于所述待合并文档的预设文档合并顺序,构建所述待合并文档中各所述标题的目标标题信息;
其中,所述预设文档合并顺序用于表征所述待合并文档在目标合并文档中的位置;所述目标标题信息至少包括:目标标题编号、目标标题链接信息;
根据所述目标标题信息更新并合并所述待合并文档,得到目标文合并档。
可选地,在所述遍历各待合并文档,以获取所述待合并文档中的标题之前,所述方法包括:
获取各所述待合并文档,并确定各所述待合并文档的文档格式;
在所述待合并文档的文档格式与预设文档格式不一致时,对所述待合并文档进行格式转换,以使各所述待合并文档的文档格式均为所述预设文档格式。
可选地,所述基于所述待合并文档的预设文档合并顺序,构建所述待合并文档中各所述标题的目标标题信息,具体包括:
确定所述待合并文档中各所述标题的标题类型;其中,所述标题类型包括以下至少一项:章节标题、图标题、表标题;以及
基于根据所述待合并文档在所述目标合并文档中的位置信息,确定各所述标题在所述目标合并文档中的位置信息;
在所述标题为章节标题的情况下,基于所述章节标题在所述目标合并文档中的位置信息以及所述章节标题的标题级别,生成所述章节标题的所述目标标题编号和所述目标标题链接信息;
在所述标题为图标题或表标题的情况下,基于所述图标题或所述表标题在所述目标合并文档中的位置信息,生成所述图标题或所述表标题的所述目标标题编号和所述目标标题链接信息。
可选地,所述基于根据所述待合并文档在所述目标合并文档中的位置信息,确定各所述标题在所述目标合并文档中的位置信息,具体包括:
根据所述待合并文档的预设文档合并顺序,确定各所述待合并文档在目标合并文档中的位置信息;以及
通过遍历所述待合并文档,确定所述标题在待合并文档中的位置信息;
根据所述标题在所述待合并文档中的位置信息、所述待合并文档在所述目标合并文档中的位置信息,确定各所述标题在所述目标合并文档中的位置信息。
可选地,所述根据所述目标标题信息更新并合并所述待合并文档,得到目标合并文档,具体包括:
根据所述目标标题信息,更新所述待合并文档,得到临时待合并文档;
按照所述预设文档合并顺序,将各所述临时待合并文档进行合并,以得到所述目标合并文档。
可选地,所述根据所述目标标题信息更新所述待合并文档,得到临时待合并文档,具体包括:
获取所述标题在所述待合并文档中的初始标题编号和初始标题链接信息,以组成所述标题的初始标题信息;
确定所述标题的所述初始标题信息与所述目标标题信息是否一致;
在所述初始标题信息与所述目标标题信息不一致的情况下,根据所述目标标题信息更新所述待合并文档中的标题,得到临时待合并文档。
可选地,在按照所述预设文档合并顺序,将各所述临时待合并文档进行合并之前,所述方法还包括:
获取各所述标题的标题内容;
根据所述标题的所述标题内容和所述目标标题链接信息,构建第一键值对并存储至预设索引库;以及
根据所述标题的所述标题内容和所述目标标题编号,构建第二键值对并存储至所述预设索引库。
可选地,所述按照所述预设文档合并顺序,将各所述临时待合并文档进行合并,以得到所述目标合并文档,具体包括:
按照所述预设文档合并顺序,将各所述临时待合并文档进行合并,得到临时合并文档;
遍历所述临时合并文档,确定所述临时合并文档中的标题引用引用信息;其中,所述标题引用信息用于表示引用所述标题的相关数据;
根据所述第一键值对和所述第二键值对,确定所述标题引用信息对应的所述目标标题编号和所述目标标题链接信息;
根据所述标题引用信息对应的所述目标标题编号和所述目标标题链接信息,更新所述临时合并文档中所述标题引用信息,得到所述目标合并文档。
为了实现上述目的,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或多个程序,所述一个或多个程序可被一个或多个处理器执行,以实现如上任意一项所述的文档合并方法中的步骤。
为了实现上述目的,本发明实施例还提供了一种终端,包括:处理器和存储器;所述存储器上存储有可被所述处理器执行的计算机可读程序;所述处理器执行所述计算机可读程序时实现如上任意一项所述的文档合并方法中的步骤。
本发明实施例通过遍历待合并文档获取各待合并文档中的标题,并根据待合并文档的预设文档合并顺序,构建各标题的目标标题信息,并根据各标题的目标标题信息更新并合并待合并文档,以得到对应的目标合并文档,其中目标标题信息包括目标标题编号、目标标题链接信息,通过该方案可以在文档合并过程中对待合并文档中的标题进行更新,以保证目标合并文档中各标题的编号和跳转位置准确,从而提高文档合并的合并效果,提高用户的阅读体验。
附图说明
图1为本发明实施例提供的文档合并方法的流程图;
图2为本发明实施例提供的步骤S105的流程图;
图3为本发明实施例提供的步骤S106的流程图;
图4为本发明实施例提供的文档合并方法的另一流程图;
图5为本发明实施例提供的构建键值对的流程图;
图6为本发明实施例提供的步骤S302的流程图;
图7为本发明实施例提供的步骤S302的示意图;
图8为本发明实施例提供的文档转换的示意图;
图9为本发明实施例提供的文档合并方法的另一流程图;
图10为本发明实施例提供的终端的结构示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在电子文档使用过程中,有时需要将不同的文档合并成一个文档。比如说需要编写设备A的设备使用手册,团队中不同的工作人员负责编写不同的设备使用手册章节,后期需要将各设备使用手册章节合并为完成的设备使用手册。现有技术中对文档的合并仅是将各个待合并文档拼接在一起,即为简单的合并,导致合并后的文档无法对原标题中的标题等信息进行更新,合并后的文档内容混乱,同时无法进行链接跳转等操作,从而造成文档合并效果差、用户阅读体验差等问题。
为了解决上述技术问题,本发明实施例提供了一种文档合并方法、终端及计算机可读存储介质。下面结合附图进行详细阐述:
图1为本发明实施例提供的文档合并方法的流程图,如图1所示,本发明实施例提供的文档合并方法至少可以包括以下步骤:
S101,获取待合并文档。
可以理解的是,待合并文档至少为两个。也就是说,本发明实施例提供的文档合并方法适用于多个待合并文档的合并,不需要特别限制待合并文档的数量。
在本发明实施例中,可以基于用户的选择确定待合并文档,并根据待合并文档的存储路径获取待合并文档。
例如,待合并文档分别为:
待合并文档1:C:/User/jolly.jia.HS/Desktop/专利/直接存储器访问控制器(DMA).docx;
待合并文档2:C:/User/jolly.jia.HS/Desktop/专利/通用异步收发器_UART.docx。
S102,确定各待合并文档的文档格式。
S103,在待合并文档的文档格式与预设文档格式不一致的情况下,对该待合并文档进行格式转换,以使待合并文档均为预设文档格式。
由于待合并文档可能是不同的人采用不同的软件所制作的文档,因此,待合并文档的文档格式也可能存在不同。因此,可以预先设置预设文档格式与待合并文档的文档格式进行比较,对于不一致的待合并文档将其进行文档转换,使得待合并文档的文档格式均相同,从而使得待合并文档能够进行准确的进行合并,提高文档合并的准确度。
上述预设文档格式可以为.docx、.doc等,但不限于上述两种文档格式。
例如,待合并文档1的文档格式为.doc,待合并文档2的文档为.docx,目前的预设文档格式为.doc,因此需要将待合并文档1转为.docx。再例如,待合并文档1和待合并文档2的文档格式均为.doc,而目前的预设文档格式为.docx,则需要将待合并文档1和待合并文档2的文档格式均转换为.doc格式。
需要说明的是,通过现有技术即可将.doc文档转化为.docx文档,具体方案在此不再加以赘述。并且,待合并文档的文档格式并不仅限于上述.docx、.doc的文档格式,还可以是.txt、.pdf等,通过现有的技术手段将其转换为预设文档格式即可。
此外,若需要合并的是图片形式的文字,可以先通过图像识别的方式,提取图片中的文字以获得待合并文档,再进行文档合并。
可以理解的是,在待合并文档的文档格式与预设文档格式一致的情况下,则在本发明实施例提供的文档合并方法中无需再执行步骤S103。
S104,遍历各待合并文档,以获取每个待合并文档中的所有标题。
具体地,对于每个待合并文档,轮询待合并文档中的每个段落,从而查找到每个待合并文档的所有标题。
其中,按照标题类型的不同,待合并文档的标题包括至少以下一项:章节标题、图标题、表标题。
章节标题为文档中章节段落的标题,例如:一、概述;二、发明内容。
图标题为文档中图片的标题,例如:图1-1终端结构图,图2文档合并方法流程图。
表标题为文档中表格的标题,例如:表2-1参数对照表,表5原始数据表。
需要说明的是,由于文档内容的不同,因此待合并文档中可能只存在章节标题、图标题或者表标题中的一项或几项,在本发明实施例中只需将每个待合并文档中的每个标题查询到即可。
S105,基于待合并文档的预设文档合并顺序,构建待合并文档中各标题的目标标题信息。
其中,预设文档合并顺序用于表征各待合并文档在目标合并文档中的位置,目标合并文档是指待合并文档合并后的文档。例如,待合并文档1和待合并文档2进行合并,其预设文档合并顺序为在目标合并文档中待合并文档1的文档内容在待合并文档2之前,则通过预设文档合并顺序之后可以确定待合并文档1和待合并文档2在目标合并文档中的位置。
在本发明实施例中,目标标题信息至少包括:目标标题编号、目标标题链接信息。
其中,目标标题编号用于表示标题在目标合并文档中的标题序号,例如:“二、发明内容”,其中“二”即为章节标题“发明内容”的目标标题编号;再例如:“图6-4文档合并方法流程图”,则“6-4”即为图标题“文档合并方法流程图”的目标标题编号。
目标标题链接信息用于记录标题在目标合并文档中的跳转位置,例如:“图6-4文档合并方法流程图”在目标合并文档中的第13页,则通过目标标题链接信息即可直接跳转到第13页。
在本发明实施例中,目标标题链接信息至少可以包括:文档内跳转链接、邮件地址、外部文件跳转网址。
图2为本发明实施例提供的步骤S105的流程图,如图2所示,步骤S105至少可以通过以下步骤实现:
S201,确定待合并文档中各标题的标题类型。
其中,标题的标题类型包括:章节标题、图标题和表标题。
S202,根据待合并文档在目标合并文档中的位置信息,确定各标题在目标合并文档中的位置信息。
具体地,可以根据待合并文档的预设文档合并顺序,确定待合并文档在目标合并文档中的位置信息;以及通过遍历待合并文档的方式,确定标题在待合并文档中的位置信息;再根据标题在待合并文档中的位置信息和待合并文档在目标合并文档中的位置信息,确定各标题在目标合并文档终端的位置信息。
需要说明的是,无论是标题在待合并文档中的位置信息,还是待合并文档在目标合并文档中的位置信息,亦或者是标题在目标合并文档中的位置信息,都可以通过标题所在的段落来表示位置信息,或者通过标题所在的页数和行数来表示位置信息,亦或者通过标题对应的字符在对应的文档中的位置来表示位置信息。需要说明的是,除了上述方法来表述位置信息以外还可以通过其他方式进行表述,在本发明实施例中不做具体限定。
此外在本发明实施例中,可以先执行上述步骤S201再执行步骤S202,或者先执行步骤S202再执行步骤S201,亦或者步骤S201和步骤S202同时执行,在本发明实施例中不做具体限定。
S203,在标题为章节标题的情况下,基于章节标题在目标合并文档中的位置信息以及章节标题的标题级别,生成该章节标题的目标标题编号和目标标题链接信息。
具体地,获取每个待合并文档中的所有章节标题,确定各章节标题的标题级别,以及将所有章节标题的目标标题编号的编号初始值设置为0;
获取所有章节标题中最高标题级别的章节标题,作为最高章节标题;
按照各第一章节标题在目标合并文档中的位置信息,确定第一个最高章节标题,第一个最高章节标题的目标标题编号为编号初始值的基础上加1;
在所有最高章节标题中,按照文档阅读顺序,后一个最高章节标题的目标标题编号为前一个最高章节标题的目标标题编号加1;
确定各最高章节标题的次级章节标题,将最高章节标题的目标标题编号作为次级章节标题的目标标题编号的主编号;
在最高章节标题的所有次级章节标题中,确定该最高章节标题的第一个次级章节标题,第一个次级章节标题的副编号为编号初始值的基础上加1;
根据第一个次级章节标题的主编号和副编号,组成该第一个次级章节标题的目标标题编号;其中,主编号与副编号之间可以预设以特殊符号间隔;
在该最高章节标题对应的次级章节标题中,按照文档阅读顺序,后一个次级章节标题的目标标题编号的副编号为前一个次级章节标题的目标标题编号的副编号加1;
确定各次级章节标题的下级章节标题,将次级章节标题的目标标题编号作为该次级章节标题的下级章节标题的主编号;
在该次级章节标题的下级章节标题中,确定该次级章节标题的第一个下级章节标题,第一个下一章节标题的副编号为编号初始值加1;
根据第一个下级章节标题的主编号和副编号,组成第一个下级章节标题的目标标题编号;
在该次级章节标题对应的下级章节标题中,按照文档阅读顺序,后一个下级章节标题的目标标题编号的副编号为前一个下级章节标题的副编号加1;
对于下一级别章节标题,将上一级别章节标题的目标标题编号作为主编号并按照下一级别的章节标题在目标合并文档中的位置信息生成对应的副编号,以生成下一级别章节标题的目标标题编号,直至生成所有章节标题的目标标题编号。
例如,章节标题A1、A2、A3、B1、B2、C1,其中,A1、A2、A3均为1级标题,B1、B2均为2级标题,C1为3三级标题,且标题级别:1级标题>2级标题>3三级标题。其中,按照各个章节标题在目标合并文档中的位置信息可知,按照文档阅读顺序其章节标题的顺序分别为:A1、B1、B2、C1、A2、A3。因此,根据章节标题的标题级别以及在目标合并文档中的位置信息可知,1级标题A1、A2、A3的目标标题编号分别为1(即0+1)、2(即1+1)、3(即2+1),B1、B2均在A1和A2之间即说明B1、B2均为A1的次级标题,则将A1的目标标题编号作为B1、B2的目标标题编号的主编号,B1、B2的目标标题编号的副编号分别为1(即0+1)、2(即1+1)。若预设间隔符为“.”,则章节标题B1、B2的目标标题编号分别为1.1、1.2。最后,C1在B2和A2之间,因此C1为B2的下级章节标题,则将B2的目标标题编号作为C1的主编号,C1的目标标题编号的副编号为1(即0+1),则C1的目标标题编号为:1.1.1。
通过上述方案,先确定各最高标题级别的章节标题,并生成对应的目标标题编号,再根据各最高章节标题的目标标题编号依次生成下级章节标题的目标标题编号,从而一方面可以避免章节标题发生遗漏,另一方面可以降低章节标题的目标标题编号的错误率。
可以理解的是,可以将上述方法进行适应性的顺序调整,以生成所有章节标题的目标标题编号,例如,按照上述方法找到第一个最高章节标题,生成第一个最高章节标题的目标标题编号及其对应的下级章节标题的目标标题编号;再找到第二个最高章节标题,生成第二个最高章节标题的目标标题编号及其对应的下级章节标题的目标标题编号;按照上述顺序,直至生成所有的章节标题的目标标题编号。
在本发明实施例中,对于章节标题而言,其可以预先设置相应的标题级别,例如:1级标题、2级标题、3级标题、…、N级标题等等,其中,标题级别:1级标题>2级标题>3级标题>…>N级标题。目前,一般情况下标题级别是从1级到9级。
另外,根据各章节标题在目标合并文档中的位置信息,即可确定各章节标题的跳转位置,从而根据各章节标题的跳转位置生成对应的目标标题链接信息。
S204,在标题为图标题或者表标题的情况下,基于图标题或表标题在目标合并文档中的位置信息,生成图标题或表标题的目标标题编号和目标标题链接信息。
在本发明实施例中,可以先查询出每个待合并文档中的所有的图标题,并设定每个图标题的初始编号也均为0。然后,根据各图标题在目标合并文档中的位置信息按照文档阅读顺序进行排列,将第一个图标题的目标标题编号设置为初始编号加1,第二个图标题的目标标题编号为第一个图标题的目标标题编号加1,也就是说,后一个图标题的目标标题编号为前一个图标题的目标标题编号加1,从而得到所有的图标题的目标标题编号。
例如,按照文档阅读顺序依次有结构图、流程图、示意图,则结构图的目标标题编号为1,流程图的目标标题编号为2(即1+1),示意图的目标标题编号为3(即2+1)。
可以理解的是,表标题的目标标题编号也可以参照图标题的目标标题编号的方法,在此不再多加赘述。
另外,为了进一步提高用户对目标合并文档的阅读体验,还可以采用以下方式生成图标题或表标题的目标标题编号:
预设每个图标题的初始编号均为0;
根据章节标题、图标题在目标合并文档中的位置信息,确定各最高章节标题对应的若干图标题,将该最高章节标题的目标标题编号作为若干图标题的目标标题编号的主编号;
按照文档阅读顺序,确定该最高章节标题对应的若干图标题的顺序,将该最高章节标题的第一个图标题的副编号设置为初始编号加1,后一个图标题的副编号为前一个图标题的副编号加1;
将图标题的副编号和主编号组成该图标题的目标标题编号。其中,副编号与主编号之前以预设符号间隔,例如:“-”。
例如,章节标题A1、A2为最高标题级别的标题,其按照文档阅读顺序图标题m1、m2依次在A1的范围内,按照文档阅读顺序n1和n2依次在A2的范围内,其中,章节标题A1、A2的目标标题编号分别为1、2。则,m1、m2的主编号均为1,m1、m2的副编号分别为1(即0+1)、2(即1+1);n1、n2的主编号均为2,n1和n2的副编号分别为1(即0+1)、2(即1+1);因此,m1、m2、n1和n2的目标标题编号依次分别为:1-1、1-2、2-1、2-2。
可以理解的是,表标题的目标标题编号也参照上述方法即可,在本发明实施例中不再赘述。
此外,根据各图标题或各标题在目标合并文档中的位置信息,即可确定各图标题或各标题的跳转位置,从而根据各图标题或各表标题的跳转位置生成对应的目标标题链接信息。S106,根据目标标题信息更新并合并待合并文档,得到目标合并文档。
如图3所示,步骤S106至少可以通过以下步骤实现:
S301,根据目标标题信息,更新待合并文档,得到临时待合并文档。
S302,按照预设文档合并顺序,将各临时待合并文档进行合并,以得到目标合并文档。
在本发明实施例中,先根据目标标题信息更新待合并文档得到临时待合并文档,再将临时待合并文档进行合并,相对于先将待合并文档先进行合并再对合并后的文档根据目标标题信息进行更新,可以在需要更新的内容较多的情况下,减少遗漏或者更新错误的情况,提高文档合并的准确率,提高用户阅读体验。
在本发明实施例提供文档合并方法,通过遍历待合并文档获取各待合并文档中的标题,并根据待合并文档的预设文档合并顺序,构建各标题的目标标题信息,并根据各标题的目标标题信息更新并合并待合并文档,以得到对应的目标合并文档,其中目标标题信息包括目标标题编号、目标标题链接信息,通过该方案可以在文档合并过程中对待合并文档中的标题进行更新,以保证目标合并文档中各标题的编号和跳转位置准确,从而提高文档合并的合并效果,提高用户的阅读体验。
另外,在实际应用场景中,待合并文档中的标题可能本身就存在初始标题信息,该初始标题信息包括以下至少一项:初始标题编号、初始标题链接信息。
因此,如图4所示,在标题存在初始标题信息的情况下,可以先获取标题在待合并文档中的初始标题信息;将标题的初始标题信息与目标标题信息进行比较,以确定该标题的初始标题信息与目标标题信息是否一致;在初始标题信息与目标标题信息一致的情况下,无需再更新该标题;在初始标题信息与目标标题信息不一致的情况下,根据目标标题信息更新该标题,以得到临时待合并文档。
在本发明实施例中,可以先获取待合并文档中标题的初始标题信息,以根据初始标题信息与目标标题信息是否一致确定是否需要更新,在一定程度上可以节约计算资源。
可以理解的是,也可能存在部分标题在待合并文档中没有初始标题信息的情况,在这种情况下直接利用目标标题信息更新该标题即可。
需要说明的是,若待合并文档为word文档(即文档格式为.doc、.docx等),在获取表标题或者图标题的时,可以将该表标题或该图标题所在段落对应的xml文件提取出来,更改该xml文件中表标题或图标图对应的字符位置,从而实现对表标题或者图标题的更新。
另外,在本发明的一些实施例中,在执行步骤S302之前,如图5所示,本发明实施例提供的文档合并方法还包括:
S501,获取各标题的标题内容。
其中,标题内容为标题的具体信息。例如:标题为“1.发明内容”,则“发明内容”即为标题内容;标题为1.2.5具体实施方式,则“具体实施方式”即为标题内容。
S502,根据标题的标题内容和目标标题链接信息,构建第一键值对并存储至预设索引库。
S503,根据标题的标题内容和目标标题编号,构建第二键值对并存储至预设索引库。
可以理解的是,上述先执行步骤S502再执行步骤S503,或者先执行步骤S503再执行步骤S502,亦或者步骤S502和步骤S503同时执行,在本发明实施例中不做具体限定。
在本发明实施例中,通过构建第一键值对和第一键值对并存储至预设索引库中,使得在根据目标标题信息更新待合并文档的过程中发生错误时,通过标题的标题内容即可查找到存储在预设索引库中的目标标题编号和/或目标标题链接信息,以进行数据更新,保证文档合并的准确性。
在实际应用场景中,待合并文档中除了具有标题外,还有一些文档段落中会存在引用标题的情况。由上述可知,标题包括以下至少一项:章节标题、表标题、图标题,那么对应的标题引用信息也包括以下至少一项:表标题引用信息、图标题引用信息、章节标题引用信息。其中,表标题引用信息表示对文档中表格的引用,点击表标题引用信息即可跳转到该表格;图标题引用表示对文档中图的引用,点击图标题引用信息即可跳转到该图;章节标题引用信息表示对章节的引用,点击章节标题引用信息即可跳转到该章节。
例如,待合并文档中的段落引用了“26.4.5DMA模式下的UART连续通信”,被引用的“26.4.5DMA模式下的UART连续通信”即为章节标题引用信息。
例如,待合并文档中的段落中引用了“图26-1”和“图26-2”,被引用的“图26-1”和“图26-2”即为图标题引用信息。
再例如,待合并文档的段落中引用了“表26-2”则被引用的“表26-2”即为表标题引用信息。
在文档中通过标题引用信息可以提高用户阅读体验。基于此,如图6、7所示,在本发明实施例中,步骤S302至少可以通过以下方法实现:
S601,按照预设文档合并顺序,将各临时待合并文档进行合并,得到临时合并文档。
S602,遍历该临时合并文档,确定临时合并文档中的标题引用信息。
其中,标题引用信息用于表示引用标题的相关数据。
S603,根据第一键值对和第二键值对,确定标题引用信息对应的目标标题编号和目标标题链接信息。
具体地,可以根据标题引用信息确定该标题引用信息对应的标题内容,然后通过标题内容从预设索引库存储的第一键值对和第二键值对中,查找到与该标题内容对应的目标标题编号和目标标题链接信息,即为该标题引用信息对应的目标标题编号和目标标题链接信息。
例如,标题为“图8-8终端结构示意图”,段落中包括标题引用信息“如图8-8所示”,则标题引用对应的标题即为“图8-8终端结构示意图”,其标题内容为“终端结构示意图”,通过该标题内容确定出对应的目标标题编号和目标标题链接信息。
S604,根据标题引用信息对应的目标标题编号和目标标题链接信息,更新临时合并文档中的标题引用信息,得到目标合并文档。
通过上述方案,在待合并文档中具有标题引用信息的情况下,可以进一步提高文档合并效果,提高用户的阅读体验。
可以理解的是,在待合并文档中不存在标题引用信息的情况下,临时待合并文档即为目标合并文档,无需再执行上述步骤S601-S604。
另外,为了进一步提高文档合并后的合并效果、提高用户的阅读体验。在本发明的一些实施例中,如图8所示,还可以预先设置标准格式文档,将临时待合并文档按照标准格式文档进行文档转换,然后将进行文档转换后的临时待合并文档进行合并,生成目标合并文档。
其中,标准格式文档中限定了以下一项或多项:页眉格式、页脚格式、字体格式、图标题格式、表标题格式等。
在实际应用场景中,不同的待合并文档中可能存在页眉、页脚、字体等不同的情况,在本发明实施例中,可以通过上述方式预先设置标准格式文档,对临时待合并文档按照标准格式文档进行文档转换,也就是说将临时待合并文档中的页眉、页脚以及字体等元素保持一致,从而进一步提高文档合并的效果。
在待合并文档中存在初始标题信息、标题引用信息的情况下,如图9所示,通过上述实施例提供的方法,可以得到对应的目标合并文档。
基于上述文档合并方法,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述实施例所述的文档合并方法中的步骤。
基于上述文档合并方法,本发明实施例还提供了一种终端,如图10所示,其包括至少一个处理器(processor)30;显示屏31;以及存储器(memory)32,还可以包括通信接口(Communications Interface)33和总线34。其中,处理器30、显示屏31、存储器32和通信接口33可以通过总线34完成相互间的通信。显示屏31设置为显示初始设置模式中预设的用户引导界面。通信接口33可以传输信息。处理器30可以调用存储器32中的逻辑指令,以执行上述实施例中的方法。
此外,上述的存储器32中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
存储器32作为一种计算机可读存储介质,可设置为存储软件程序、计算机可执行程序,如本公开实施例中的方法对应的程序指令或模块。处理器30通过运行存储在存储器32中的软件程序、指令或模块,从而执行功能应用以及数据处理,即实现上述实施例所述的文档合并方法。
存储器32可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器32可以包括高速随机存取存储器,还可以包括非易失性存储器。例如,U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等多种可以存储程序代码的介质,也可以是暂态存储介质。
本发明中各个实施例均采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于终端和介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本发明实施例提供的终端和介质与方法是一一对应的,因此,终端和介质也具有与其对应的方法类型的有益技术效果,由于上面已经对方法的有益技术效果进行了详细说明,因此,这里不再赘述终端和介质的有益技术效果。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
当然,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关硬件(如处理器,控制器等)来完成,所述的程序可存储于一计算机可读取的计算机可读存储介质中,所述程序在执行时可包括如上述各方法实施例的流程。其中所述的计算机可读存储介质可为存储器、磁碟、光盘等。
应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (7)

1.一种文档合并方法,其特征在于,所述方法包括:
遍历各待合并文档,以获取所述待合并文档中的标题;
基于所述待合并文档的预设文档合并顺序,构建所述待合并文档中各所述标题的目标标题信息;
其中,所述预设文档合并顺序用于表征所述待合并文档在目标合并文档中的位置;所述目标标题信息至少包括:目标标题编号、目标标题链接信息;
根据所述目标标题信息更新并合并所述待合并文档,得到目标合并文档;
所述根据所述目标标题信息更新并合并所述待合并文档,得到目标合并文档,具体包括:
根据所述目标标题信息,更新所述待合并文档,得到临时待合并文档;
获取各所述标题的标题内容;
根据所述标题的所述标题内容和所述目标标题链接信息,构建第一键值对并存储至预设索引库;以及根据所述标题的所述标题内容和所述目标标题编号,构建第二键值对并存储至所述预设索引库;
按照所述预设文档合并顺序,将各所述临时待合并文档进行合并,以得到所述目标合并文档;
所述按照所述预设文档合并顺序,将各所述临时待合并文档进行合并,以得到所述目标合并文档,具体包括:
按照所述预设文档合并顺序,将各所述临时待合并文档进行合并,得到临时合并文档;
遍历所述临时合并文档,确定所述临时合并文档中的标题引用信息;其中,所述标题引用信息用于表示引用所述标题的相关数据;
根据所述第一键值对和所述第二键值对,确定所述标题引用信息对应的所述目标标题编号和所述目标标题链接信息;
根据所述标题引用信息对应的所述目标标题编号和所述目标标题链接信息,更新所述临时合并文档中所述标题引用信息,得到所述目标合并文档。
2.根据权利要求1所述的方法,其特征在于,在所述遍历各待合并文档,以获取所述待合并文档中的标题之前,所述方法包括:
获取各所述待合并文档,并确定各所述待合并文档的文档格式;
在所述待合并文档的文档格式与预设文档格式不一致时,对所述待合并文档进行格式转换,以使各所述待合并文档的文档格式均为所述预设文档格式。
3.根据权利要求1所述的方法,其特征在于,所述基于所述待合并文档的预设文档合并顺序,构建所述待合并文档中各所述标题的目标标题信息,具体包括:
确定所述待合并文档中各所述标题的标题类型;其中,所述标题类型包括以下至少一项:章节标题、图标题、表标题;以及
基于根据所述待合并文档在所述目标合并文档中的位置信息,确定各所述标题在所述目标合并文档中的位置信息;
在所述标题为章节标题的情况下,基于所述章节标题在所述目标合并文档中的位置信息以及所述章节标题的标题级别,生成所述章节标题的所述目标标题编号和所述目标标题链接信息;
在所述标题为图标题或表标题的情况下,基于所述图标题或所述表标题在所述目标合并文档中的位置信息,生成所述图标题或所述表标题的所述目标标题编号和所述目标标题链接信息。
4.根据权利要求3所述的方法,其特征在于,所述基于根据所述待合并文档在所述目标合并文档中的位置信息,确定各所述标题在所述目标合并文档中的位置信息,具体包括:
根据所述待合并文档的预设文档合并顺序,确定各所述待合并文档在目标合并文档中的位置信息;以及
通过遍历所述待合并文档,确定所述标题在待合并文档中的位置信息;
根据所述标题在所述待合并文档中的位置信息、所述待合并文档在所述目标合并文档中的位置信息,确定各所述标题在所述目标合并文档中的位置信息。
5.根据权利要求1所述的方法,其特征在于,所述根据所述目标标题信息更新所述待合并文档,得到临时待合并文档,具体包括:
获取所述标题在所述待合并文档中的初始标题编号和初始标题链接信息,以组成所述标题的初始标题信息;
确定所述标题的所述初始标题信息与所述目标标题信息是否一致;
在所述初始标题信息与所述目标标题信息不一致的情况下,根据所述目标标题信息更新所述待合并文档中的标题,得到临时待合并文档。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或多个程序,所述一个或多个程序可被一个或多个处理器执行,以实现如权利要求1-5任意一项所述的文档合并方法中的步骤。
7.一种终端,其特征在于,包括:处理器和存储器;所述存储器上存储有可被所述处理器执行的计算机可读程序;所述处理器执行所述计算机可读程序时实现如权利要求1-5任意一项所述的文档合并方法中的步骤。
CN202211390206.0A 2022-11-08 2022-11-08 一种文档合并方法、终端及计算机可读存储介质 Active CN116451683B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211390206.0A CN116451683B (zh) 2022-11-08 2022-11-08 一种文档合并方法、终端及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211390206.0A CN116451683B (zh) 2022-11-08 2022-11-08 一种文档合并方法、终端及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN116451683A CN116451683A (zh) 2023-07-18
CN116451683B true CN116451683B (zh) 2024-01-30

Family

ID=87134374

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211390206.0A Active CN116451683B (zh) 2022-11-08 2022-11-08 一种文档合并方法、终端及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN116451683B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117113933A (zh) * 2023-09-07 2023-11-24 中国中金财富证券有限公司 资产配置报告生成方法及相关装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103390005A (zh) * 2012-05-11 2013-11-13 北大方正集团有限公司 一种合并文档的方法与系统
CN112001312A (zh) * 2020-08-21 2020-11-27 深圳传音控股股份有限公司 文档拼接方法、设备及存储介质
CN113204951A (zh) * 2021-05-27 2021-08-03 广州文石信息科技有限公司 文档处理方法、装置、存储介质及计算机设备
CN114238575A (zh) * 2021-12-15 2022-03-25 平安科技(深圳)有限公司 文档解析方法、系统、计算机设备及计算机可读存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11501056B2 (en) * 2020-07-24 2022-11-15 International Business Machines Corporation Document reference and reference update

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103390005A (zh) * 2012-05-11 2013-11-13 北大方正集团有限公司 一种合并文档的方法与系统
CN112001312A (zh) * 2020-08-21 2020-11-27 深圳传音控股股份有限公司 文档拼接方法、设备及存储介质
CN113204951A (zh) * 2021-05-27 2021-08-03 广州文石信息科技有限公司 文档处理方法、装置、存储介质及计算机设备
CN114238575A (zh) * 2021-12-15 2022-03-25 平安科技(深圳)有限公司 文档解析方法、系统、计算机设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN116451683A (zh) 2023-07-18

Similar Documents

Publication Publication Date Title
US9122768B2 (en) System and method of retrieving and presenting partial (skipped) document content
US8494287B2 (en) Character identification through glyph data matching
CN116451683B (zh) 一种文档合并方法、终端及计算机可读存储介质
US8248667B2 (en) Document management device, document management method, and computer program product
CN113515928A (zh) 电子文本生成方法、装置、设备及介质
CN113382083A (zh) 一种网页截图方法和装置
CN111125008B (zh) 一种异常inode的动态修复方法、系统及相关组件
US20180081860A1 (en) Information processing system and control method therefor
EP4187490A1 (en) Method and apparatus for displaying text, electronic device, and computer-readable storage medium
US10643022B2 (en) PDF extraction with text-based key
CN114237890A (zh) 应用的协同展示方法、装置、服务器、终端和程序产品
US20120102385A1 (en) Determining heights of table cells
EP4195011A1 (en) Character display method and apparatus, and electronic device and computer-readable storage medium
KR20200001342A (ko) 개체를 렌더링하는 웹 전자 문서 편집 장치 및 이의 동작 방법
KR101560159B1 (ko) 대체 전자문서 출력 방법 및 장치
KR102053075B1 (ko) 전자 문서 편집 장치 및 이의 동작 방법
US9326015B2 (en) Information processing apparatus, information processing system, information processing method, and non-transitory computer readable medium
CN109948123A (zh) 一种图像合并方法及装置
CN116166617B (zh) 开放版式文档ofd合并后的目录生成方法及装置
CN113326456B (zh) 网页资源获取方法、装置、设备、系统及存储介质
CN110990551B (zh) 文本内容的处理方法、装置、设备以及存储介质
CN112445474B (zh) 长文本文件名的显示方法、存储介质
CN110020419B (zh) 排版方法及装置
US20140016142A1 (en) Printing the identity of unsupported formatting attributes
US10146417B2 (en) Crowd-sourced settings and tools for document interaction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant