CN111914521A - 文档书签创建方法、装置、电子设备和可读存储介质 - Google Patents

文档书签创建方法、装置、电子设备和可读存储介质 Download PDF

Info

Publication number
CN111914521A
CN111914521A CN202010569503.6A CN202010569503A CN111914521A CN 111914521 A CN111914521 A CN 111914521A CN 202010569503 A CN202010569503 A CN 202010569503A CN 111914521 A CN111914521 A CN 111914521A
Authority
CN
China
Prior art keywords
bookmark
directory
page
title
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010569503.6A
Other languages
English (en)
Inventor
孙立英
李安
付晓红
张冬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Haijinger Pharmaceutical Technology Co ltd
Original Assignee
Beijing Haijinger Pharmaceutical Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Haijinger Pharmaceutical Technology Co ltd filed Critical Beijing Haijinger Pharmaceutical Technology Co ltd
Priority to CN202010569503.6A priority Critical patent/CN111914521A/zh
Publication of CN111914521A publication Critical patent/CN111914521A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9562Bookmark management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明涉及一种文档书签创建方法、装置、电子设备和可读存储介质,该方法包括:获取待处理文档中目录的目录信息,所述目录信息包括目录标题、所述目录标题对应的第一页码以及所述目录标题在所述第一页码对应的页面内对应的文本的第一坐标;将所述目录信息解析为书签信息,所述书签信息包括书签标题、所述书签标题对应的第二页码以及所述书签标题在所述第二页码对应的页面内对应的文本的第二坐标;根据所述书签信息生成书签。本发明能够实现在PDF文档中自动创建书签,从而提高了书签创建的效率,并且降低了书签创建的错误率。

Description

文档书签创建方法、装置、电子设备和可读存储介质
技术领域
本发明涉及文档处理技术领域,尤其是涉及一种文档书签创建方法、装置、电子设备和可读存储介质。
背景技术
在药品的注册申报中,世界各国都普遍使用eCTD(电子化通用技术文档)作为申报材料,且格式要符合药监局及ICH(人用药品注册技术要求国际协调会)的要求。其中要求:超过5页的文档必须要有与目录保持一致的书签。如果文档中没有书签,则需要在文档中创建书签。现有技术中,采用人工创建。由于文档中通常至少存在几十个目录,而且一次药品注册的文档通常有几十甚至上百个,若采用人工创建会存在效率低下、出错率高等问题。
发明内容
本发明实施例提供一种文档书签创建方法、装置、电子设备和可读存储介质,能够解决针对现有技术中人工创建文档书签的效率低下、出错率高的问题。
在本发明的第一方面,提供了一种文档书签创建方法,包括:获取待处理文档中目录的目录信息, 所述目录信息包括目录标题、所述目录标题对应的第一页码以及所述目录标题在所述第一页码对应的页面内对应的文本的第一坐标;将所述目录信息解析为书签信息, 所述书签信息包括书签标题、所述书签标题对应的第二页码以及所述书签标题在所述第二页码对应的页面内对应的文本的第二坐标;根据所述书签信息生成书签。
通过采用以上技术方案,能够实现在PDF文档中自动创建书签,从而提高了书签创建的效率,并且降低了书签创建的错误率。
本发明在一较佳示例中可以进一步配置为,所述获取所述目录标题在所述第一页码对应的页面内对应的文本的第一坐标包括:遍历所述待处理文档的所述第一页码对应的页面内的内容,查找所述目录标题在所述第一页码对应的页面内对应的文本;以所述第一页码对应的页面上的预设位置为坐标原点,确定所述文本在所述第一页内的所述第一坐标。
本发明在一较佳示例中可以进一步配置为,所述将所述目录信息解析为书签信息包括:将所述目录标题作为所述书签标题,将所述第一页码作为所述第二页码,将所述第一坐标作为所述第二坐标。
本发明在一较佳示例中可以进一步配置为,所述根据所述书签信息生成书签之前还包括:根据所述书签信息生成临时文件,所述临时文件包括一个或多个所述书签信息。
本发明在一较佳示例中可以进一步配置为,所述获取待处理文档中目录的目录信息之前还包括:根据目录特征确定所述待处理文档中是否存在目录,所述目录特征包括字符串、连接符和数字。
本发明在一较佳示例中可以进一步配置为,还包括:将所述书签写入到所述待处理文档并保存。
在本发明的第二方面,提供了一种文档书签创建装置,包括:信息获取模块,用于获取待处理文档中目录的目录信息, 所述目录信息包括目录标题、所述目录标题对应的第一页码以及所述目录标题在所述第一页码对应的页面内对应的文本的第一坐标;信息解析模块,用于将所述目录信息解析为书签信息,所述书签信息包括书签标题、所述书签标题对应的第二页码以及所述书签标题在所述第二页码对应的页面内对应的文本的第二坐标;书签生成模块,用于根据所述书签信息生成书签。
本发明在一较佳示例中可以进一步配置为,所述信息获取模块具体用于,遍历所述待处理文档的所述第一页码对应的页面内的内容,查找所述目录标题在所述第一页码对应的页面内对应的文本;以所述第一页码对应的页面上的预设位置为坐标原点,确定所述文本在所述第一页内的所述第一坐标。
本发明在一较佳示例中可以进一步配置为,所述信息解析模块具体用于,将所述目录标题作为所述书签标题,将所述第一页码作为所述第二页码,将所述第一坐标作为所述第二坐标。
本发明在一较佳示例中可以进一步配置为,所述装置还包括:文件生成模块,用于根据所述书签信息生成临时文件,所述临时文件包括一个或多个所述书签信息。
本发明在一较佳示例中可以进一步配置为,所述装置还包括:目录确定模块,用于根据目录特征确定所述待处理文档中是否存在目录,所述目录特征包括字符串、连接符和数字。
本发明在一较佳示例中可以进一步配置为,所述装置还包括:文档保存模块,用于将所述书签写入到所述待处理文档并保存。
在本发明的第三方面,提供了一种电子设备,包括存储器和处理器,所属存储器上存储有能够被处理器加载并执行如第一方面中任一种方法的计算机程序。
在本发明的第四方面,提供了一种计算机可读存储介质,存储有能够被处理器加载并执行如第一方面中任一种方法的计算机程序。
在本发明实施例提供的文档书签创建方法、装置、电子设备和可读存储介质中,获取待处理文档中目录的目录信息;将目录信息解析为书签信息;根据书签信息生成书签,能够实现在PDF文档中自动创建书签,从而提高了书签创建的效率,并且降低了书签创建的错误率。
附图说明
图1示出了本发明实施例提供的现有技术中目录转换为书签的方法的示意图。
图2示出了本发明实施例提供的文档书签创建方法的流程图。
图3示出了本发明实施例提供的文档书签创建装置的方框图。
图4示出了本发明一个实施例提供的文档书签创建的示意图。
图5示出了本发明另一个实施例提供的文档书签创建的示意图。
图6示出了本发明又一个实施例提供的文档书签创建的示意图。
图7示出了适于用来实现本发明实施例的电子设备或服务器的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,如无特殊说明,一般表示前后关联对象是一种“或”的关系。
PDF文档很大一部分是由Word文档或WPS文档等转换而来。在转换过程中,如果没有特意去设置,Word文档或WPS文档中的目录无法转换成PDF中的书签。例如,参见图1,Word文档转换成PDF文档时,只有选中“创建书签时使用”以及“标题”两项,才能够将Word文档中的目录转换成PDF中的书签。
另外,在PDF文档中根据目录创建书签,首先,用PDF编辑器(例如,福昕阅读器、Adobe Acrobat等)打开PDF文档;然后,找到PDF文档目录中的第一个目录、该目录的标题,并把页面定位到该目录的链接位置;最后,新建书签,书签的标题为该目录的标题,此时书签的位置和该目录的位置一致。
无论采用上述的哪种方法,均存在效率低下,容易出错的问题。本发明实施例提供一种文档书签创建方法、装置、电子设备和可读存储介质,旨在解决针对现有技术中人工创建文档书签的效率低下、出错率高的问题。
下面结合附图对本发明实施例提供的文档书签创建方法作进一步详细描述。
图2示出了本发明实施例提供的文档书签创建方法的流程图。如图2所示,该方法包括以下步骤:
步骤201,根据目录特征确定待处理文档中是否存在目录。若是,则执行步骤202;若否,则继续确定待处理文档中是否存在目录。
目录特征包括字符串、连接符和数字。在一示例中,字符串例如可以是目录标题或目录名称;连接符例如可以是“.”、“*”或“[空]”,其中,“[空]”为空格;数字例如可以是页码。待处理文档中的目录例如可以包括目录标题、连接符和页码。
待处理文档指PDF文档,PDF文档可以由Word文档、WPS文档、OTD文档或其他格式文档转换而来。PDF文档的目录包括多条目录,每条目录均包括目录标题、连接符和页码,且每条目录的目录标题、连接符和页码均位于同一页的同一行。
在一示例中,根据目录特征确定待处理PDF文档中是否存在目录,可以遍历待处理PDF文档,即从待处理PDF文档的首页首行开始,逐页逐行查找是否存在符合目录特征的目录。也就是说,逐页逐行查找待处理PDF文档中是否同时满足具有字符串、连接符和数字三个特征且上述三个特征位于同一行的文本,若存在,则该文本为待处理PDF文档的目录。
步骤202,获取待处理文档中目录的目录信息。
在一些实施例中,目录信息包括目录标题、目录标题对应的第一页码以及目录标题在第一页码对应的页面内对应的文本的第一坐标。获取待处理文档中目录的目录信息,即获取目录标题、目录标题对应的第一页码、目录标题在第一页码对应的页面内对应的文本的第一坐标。
目录标题以及目录标题对应的第一页码可以直接获取。获取目录标题在第一页码对应的页面内对应的文本的第一坐标可以包括以下步骤:
遍历待处理文档的第一页码对应的页面内的内容,查找目录标题在第一页码对应的页面内对应的文本;
以第一页码对应的页面上的预设位置为坐标原点,确定文本在第一页内的第一坐标。
在一示例中,例如PDF文档1中包含有目录标题“ABC”,该目录标题“ABC”在该PDF文档1中对应的页码为“P”。那么可以直接获取得到该PDF文档1的目录标题“ABC”以及目录标题“ABC”在该PDF文档1中对应的页码“P”。然后,可以通过遍历PDF文档1的第“P”页中的内容,查找文本“ABC”,例如可以以PDF文档1中第“P”页的左下角为坐标原点(0,0)建立坐标系,确定第“P”页中的文本“ABC”在该坐标系内的坐标(X,Y)。
需要说明的是,不仅可以以该PDF文档1左下角为坐标原点(0,0)建立坐标系,还可以是该PDF文档1中第“P”页的任意位置为坐标原点(0,0)建立坐标系,本领域技术人员可以自行设定,此处不作限定。
在另一示例中,例如PDF文档2中包含有目录标题“DEF”,该目录标题“DEF”在该PDF文档2中对应的页码为“Q”。那么可以直接获取得到该PDF文档2的目录标题“DEF”以及目录标题“DEF”在该PDF文档2中对应的页码“Q”。然后,遍历该PDF文档2的第“Q”页中的内容,查找文本“DEF”,例如查找到文本“DEF”位于该PDF文档2的第“Q”页中第M行、第N列,则可以确定文本“DEF”在第“Q”页内位置。
在另一些实施例中,目录信息包括目录标题以及目录标题对应的链接,该链接能够定位目录标题对应的第一页码以及目录标题在第一页码对应的页面内对应的文本的第一坐标。
因此,获取待处理文档中目录的目录信息可以获取目录标题以及目录标题对应的链接,并解析该链接,以得到目录标题对应的第一页码以及目录标题在第一页码对应的页面内对应的文本的第一坐标。
步骤203,将目录信息解析为书签信息。
书签信息包括书签标题、书签标题对应的第二页码以及书签标题在第二页码对应的页面内的文本的第二坐标。
在一些实施例中,将待处理文档中目录的目录信息解析为书签信息可以是,将目录标题作为书签标题,将目录标题对应的第一页码作为书签标题对应的第二页码,将目录标题在第一页码对应的页面内的文本所在的第一坐标作为书签标题在第二页码对应的页面内的文本所在的第二坐标。
在一示例中,可以将PDF文档1中的目录标题“ABC”作为该PDF文档1的书签标题,将PDF文档1中目录标题“ABC”在该PDF文档1中对应的页码“P”作为PDF文档1的书签标题对应的页码。然后,以PDF文档1的第P页的左下角为坐标原点(0,0)建立与上述坐标系相同的坐标系,以上述坐标系中坐标(X,Y)为PDF文档1中书签标题在第“P”页对应的文本的第二坐标。
在另一示例中,可以将PDF文档2中的目录标题“DEF”作为该PDF文档2的书签标题,将PDF文档2中目录标题“DEF”在该PDF文档2中对应的页码“Q”作为PDF文档2的书签标题对应的页码。然后,将PDF文档2的第“Q”页中第M行、第N列对应的文本作为书签标题在PDF文档2中第“Q”页对应的文本。
步骤204,根据书签信息生成书签。
可以将书签标题、书签标题对应的第二页码以及在第二页码对应的页面内的第二坐标对应的文本相关联以生成书签。
在一示例中,可以将PDF文档1中的书签标题“ABC”、书签标题“ABC”对应的第二页码“P”以及第“P”页中坐标“(X,Y)”对应的文本三者进行关联,以在PDF文档1中生成书签。
在另一示例中,可以将PDF文档2中的书签标题“DEF”、书签标题“DEF”对应的第二页码“Q”以及第“Q”页中第M行、第N列对应的文本三者进行关联,以在PDF文档2中生成书签。
步骤205,将书签写入到待处理文档并保存。
根据本公开的实施例,获取待处理文档中目录的目录信息;将目录信息解析为书签信息;根据书签信息生成书签,能够实现在PDF文档中自动创建书签,从而提高了书签创建的效率,并且降低了书签创建的错误率。
在一些实施例中,在步骤203之后,该方法还包括以下步骤:根据书签信息生成临时文件。
临时文件包括一个或多个书签信息,在根据书签信息生成书签时,可以判断临时文件中书签信息的数量,若临时文件中书签信息的数量大于零,则说明待处理文档中的目录已遍历完,则开始执行步骤204。
临时文件中的书签信息可以是以表格方式存储,即多个书签信息构成一个临时书签表,以按照临时书签表中书签信息的排列顺序逐条创建书签,从而能够降低创建书签时的错误率。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本公开并不受所描述的动作顺序的限制,因为依据本公开,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作和模块并不一定是本公开所必须的。
以上是关于方法实施例的介绍,以下通过装置实施例,对本公开所述方案进行进一步说明。
图3示出了本发明实施例提供的文档书签创建装置的方框图。如图3所示,该装置包括:
目录确定模块301,用于根据目录特征确定待处理文档中是否存在目录。
目录特征包括字符串、连接符和数字。在一示例中,字符串例如可以是目录标题或目录名称;连接符例如可以是“.”、“*”或“[空]”,其中,“[空]”为空格;数字例如可以是页码。待处理文档中的目录例如可以包括目录标题、连接符和页码。
在另一示例中,在需要在待处理文档中创建书签时,目录确定模块301会遍历待处理文档,逐页逐行地查找待处理文档中是否有同时满足具有字符串、连接符和数字三个特征且上述三个特征位于同一行的文本,例如,参见图4,“1.1 目的”、“.”和“6”位于该页的同一行,则可以确定该行为目录,同样的,通过上述的方法,能够确定该页中其他的目录。
信息获取模块302,用于获取待处理文档中目录的目录信息。目录信息包括目录标题、目录标题对应的第一页码以及目录标题在第一页码对应的页面内对应的文本的第一坐标,即信息获取模块302用于获取目录标题、目录标题对应的第一页码、目录标题在第一页码对应的页面内对应的文本的第一坐标。
信息获取模块302能够获取由目录确定模块302所确定的目录的目录信息。其中,目录的标题以及目录标题对应的页码可以由信息获取模块302直接获取得到。目录标题在第一页码对应的页面内对应的文本的第一坐标,可以由信息获取模块302在第一页码对应的第一页面上的预设位置为坐标原点,确定文本在第一页内的第一坐标来获取。信息获取模块302还可以直接获取目录标题以及目录标题对应的链接,该链接能够定位目录标题对应的第一页码以及目录标题在第一页码对应的页面内对应的文本的第一坐标。
信息解析模块303,用于将目录信息解析为书签信息。书签信息包括书签标题、书签标题对应的第二页码以及书签标题在第二页码对应的页面内的文本的第二坐标。
信息解析模块303将目录信息解析为书签信息可以是,将目录标题作为书签标题,将目录标题对应的第一页码作为书签标题对应的第二页码,将目录标题在第一页码对应的页面内的文本所在的第一坐标作为书签标题在第二页码对应的页面内的文本所在的第二坐标。
书签生成模块304,用于根据书签信息生成书签。具体地,书签生成模块304可以将书签标题、书签标题对应的第二页码以及在第二页码对应的页面内的第二坐标对应的文本相关联以生成书签。
在一示例中,参见图5,图5中的页面包括多条目录,在生成书签时,可以将多个书签标题,每个书签标题对应的第二页码以及在第二页码对应的页面内的第二坐标对应的文本相关联以生成多个书签。
在另一示例中,参见图6,在书签生成后,还可以展示在该PDF页面的一侧,方便观察新生成的书签。
在一些实施例中,该装置还包括:文件生成模块,用于根据书签信息生成临时文件,临时文件包括一个或多个书签信息。
在一些实施例中,该装置还包括:书签写入模块,用于将书签写入到待处理文档并保存。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,所述描述的模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
图7示出了适于用来实现本发明实施例的电子设备或服务器的结构示意图。
如图7所示,电子设备或服务器包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中,还存储有电子设备操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
特别地,根据本公开的实施例,上文参考流程图图2描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在机器可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时,执行本申请的系统中限定的上述功能。
需要说明的是,本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,前述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,例如,可以描述为:一种处理器包括信息获取模块、信息解析模块和书签生成模块。其中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定,例如,信息获取模块还可以被描述为“用于用于获取待处理文档中目录的目录信息的模块”。
作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中的。上述计算机可读存储介质存储有一个或者多个程序,当上述前述程序被一个或者一个以上的处理器用来执行描述于本申请的文档书签创建方法。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离前述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (14)

1.一种文档书签创建方法,其特征在于,包括:
获取待处理文档中目录的目录信息, 所述目录信息包括目录标题、所述目录标题对应的第一页码以及所述目录标题在所述第一页码对应的页面内对应的文本的第一坐标;
将所述目录信息解析为书签信息, 所述书签信息包括书签标题、所述书签标题对应的第二页码以及所述书签标题在所述第二页码对应的页面内对应的文本的第二坐标;
根据所述书签信息生成书签。
2.根据权利要求1所述的方法,其特征在于,所述获取所述目录标题在所述第一页码对应的页面内对应的文本的第一坐标包括:
遍历所述待处理文档的所述第一页码对应的页面内的内容,查找所述目录标题在所述第一页码对应的页面内对应的文本;
以所述第一页码对应的页面上的预设位置为坐标原点,确定所述文本在所述第一页内的所述第一坐标。
3.根据权利要求1所述的方法,其特征在于,所述将所述目录信息解析为书签信息包括:
将所述目录标题作为所述书签标题,将所述第一页码作为所述第二页码,将所述第一坐标作为所述第二坐标。
4.根据权利要求1所述的方法,其特征在于,所述根据所述书签信息生成书签之前还包括:
根据所述书签信息生成临时文件,所述临时文件包括一个或多个所述书签信息。
5.根据权利要求1所述的方法,其特征在于,所述获取待处理文档中目录的目录信息之前还包括:
根据目录特征确定所述待处理文档中是否存在目录,所述目录特征包括字符串、连接符和数字。
6.根据权利要求1所述的方法,其特征在于,还包括:
将所述书签写入到所述待处理文档并保存。
7.一种文档书签创建装置,其特征在于,包括:
信息获取模块,用于获取待处理文档中目录的目录信息, 所述目录信息包括目录标题、所述目录标题对应的第一页码以及所述目录标题在所述第一页码对应的页面内对应的文本的第一坐标;
信息解析模块,用于将所述目录信息解析为书签信息,所述书签信息包括书签标题、所述书签标题对应的第二页码以及所述书签标题在所述第二页码对应的页面内对应的文本的第二坐标;
书签生成模块,用于根据所述书签信息生成书签。
8.根据权利要求7所述的装置,其特征在于,所述信息获取模块具体用于,
遍历所述待处理文档的所述第一页码对应的页面内的内容,查找所述目录标题在所述第一页码对应的页面内对应的文本;
以所述第一页码对应的页面上的预设位置为坐标原点,确定所述文本在所述第一页内的所述第一坐标。
9.根据权利要求7所述的装置,其特征在于,所述信息解析模块具体用于,
将所述目录标题作为所述书签标题,将所述第一页码作为所述第二页码,将所述第一坐标作为所述第二坐标。
10.根据权利要求7所述的装置,其特征在于,所述装置还包括:
文件生成模块,用于根据所述书签信息生成临时文件,所述临时文件包括一个或多个所述书签信息。
11.根据权利要求7所述的装置,其特征在于,所述装置还包括:
目录确定模块,用于根据目录特征确定所述待处理文档中是否存在目录,所述目录特征包括字符串、连接符和数字。
12.根据权利要求7所述的装置,其特征在于,所述装置还包括:
文档保存模块,用于将所述书签写入到所述待处理文档并保存。
13.一种电子设备,其特征在于,包括存储器和处理器,所属存储器上存储有能够被处理器加载并执行如权利要求1至6中任一种方法的计算机程序。
14.一种计算机可读存储介质,其特征在于,存储有能够被处理器加载并执行如权利要求1至6中任一种方法的计算机程序。
CN202010569503.6A 2020-06-20 2020-06-20 文档书签创建方法、装置、电子设备和可读存储介质 Pending CN111914521A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010569503.6A CN111914521A (zh) 2020-06-20 2020-06-20 文档书签创建方法、装置、电子设备和可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010569503.6A CN111914521A (zh) 2020-06-20 2020-06-20 文档书签创建方法、装置、电子设备和可读存储介质

Publications (1)

Publication Number Publication Date
CN111914521A true CN111914521A (zh) 2020-11-10

Family

ID=73237804

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010569503.6A Pending CN111914521A (zh) 2020-06-20 2020-06-20 文档书签创建方法、装置、电子设备和可读存储介质

Country Status (1)

Country Link
CN (1) CN111914521A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116092108A (zh) * 2023-03-20 2023-05-09 四川竺信档案数字科技有限责任公司 一种实体文档扫描生成pdf文件的方法、系统及存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101751476A (zh) * 2010-02-02 2010-06-23 汉王科技股份有限公司 电子书签标记方法和装置
KR101078477B1 (ko) * 2011-04-18 2011-10-31 (주)캡소프트 Pdf 문서 생성 시 hwp 문서의 책갈피 정보를 pdf 문서에 자동으로 삽입하는 방법 및 시스템
CN102799639A (zh) * 2012-06-27 2012-11-28 北京久盛博通信息科技有限公司 基于移动终端的文件读取方法和系统
CN102855244A (zh) * 2011-06-28 2013-01-02 北大方正集团有限公司 文档目录处理方法和装置
CN102929890A (zh) * 2011-08-11 2013-02-13 汉王科技股份有限公司 一种基于目录的书签标记方法及装置
CN103714101A (zh) * 2012-10-04 2014-04-09 富士施乐株式会社 信息处理设备及信息处理方法
CN105468570A (zh) * 2015-12-24 2016-04-06 北京中电普华信息技术有限公司 一种文档合成展示方法及装置
CN107748738A (zh) * 2017-10-27 2018-03-02 上海京颐科技股份有限公司 电子书目录的生成方法及装置、存储介质、计算设备
CN107992460A (zh) * 2017-11-20 2018-05-04 传神联合(北京)信息技术有限公司 文档中高亮文字保护的方法及装置
CN109086304A (zh) * 2018-06-21 2018-12-25 腾讯科技(武汉)有限公司 一种电子书签的更新方法、装置及存储介质
CN109254949A (zh) * 2018-07-18 2019-01-22 北京深度智耀科技有限公司 一种文档处理的方法及装置
CN110929048A (zh) * 2018-08-30 2020-03-27 广州金山移动科技有限公司 一种书签生成方法、装置、电子设备及存储介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101751476A (zh) * 2010-02-02 2010-06-23 汉王科技股份有限公司 电子书签标记方法和装置
KR101078477B1 (ko) * 2011-04-18 2011-10-31 (주)캡소프트 Pdf 문서 생성 시 hwp 문서의 책갈피 정보를 pdf 문서에 자동으로 삽입하는 방법 및 시스템
CN102855244A (zh) * 2011-06-28 2013-01-02 北大方正集团有限公司 文档目录处理方法和装置
CN102929890A (zh) * 2011-08-11 2013-02-13 汉王科技股份有限公司 一种基于目录的书签标记方法及装置
CN102799639A (zh) * 2012-06-27 2012-11-28 北京久盛博通信息科技有限公司 基于移动终端的文件读取方法和系统
CN103714101A (zh) * 2012-10-04 2014-04-09 富士施乐株式会社 信息处理设备及信息处理方法
CN105468570A (zh) * 2015-12-24 2016-04-06 北京中电普华信息技术有限公司 一种文档合成展示方法及装置
CN107748738A (zh) * 2017-10-27 2018-03-02 上海京颐科技股份有限公司 电子书目录的生成方法及装置、存储介质、计算设备
CN107992460A (zh) * 2017-11-20 2018-05-04 传神联合(北京)信息技术有限公司 文档中高亮文字保护的方法及装置
CN109086304A (zh) * 2018-06-21 2018-12-25 腾讯科技(武汉)有限公司 一种电子书签的更新方法、装置及存储介质
CN109254949A (zh) * 2018-07-18 2019-01-22 北京深度智耀科技有限公司 一种文档处理的方法及装置
CN110929048A (zh) * 2018-08-30 2020-03-27 广州金山移动科技有限公司 一种书签生成方法、装置、电子设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116092108A (zh) * 2023-03-20 2023-05-09 四川竺信档案数字科技有限责任公司 一种实体文档扫描生成pdf文件的方法、系统及存储介质

Similar Documents

Publication Publication Date Title
CN106919711B (zh) 基于人工智能的标注信息的方法和装置
CN110377884B (zh) 文档解析方法、装置、计算机设备及存储介质
US7185277B1 (en) Method and apparatus for merging electronic documents containing markup language
CN106991175B (zh) 一种客户信息挖掘方法、装置、设备以及存储介质
CN113158101B (zh) 一种可视化页面渲染方法、装置、设备及存储介质
KR20070121798A (ko) 확장 가능 애플리케이션 마크업 언어(xaml) 파일을필터링하여 그것에 포함된 논리 내용의 인덱싱을 용이하게하는 방법 및 시스템
US10755091B2 (en) Method and apparatus for retrieving image-text block from web page
CN111143505B (zh) 文档处理方法、装置、介质及电子设备
CN110020312B (zh) 提取网页正文的方法和装置
CN111104479A (zh) 一种数据标注的方法及装置
CN109325197B (zh) 用于提取信息的方法和装置
CN112181936A (zh) 一种数据库检测方法和装置
CN112966469A (zh) 文档中的图表处理方法、装置、设备及存储介质
CN113779235B (zh) 一种Word文档大纲识别处理方法及装置
CN113360106B (zh) 一种网页打印方法和装置
CN112783482B (zh) 一种可视化表单生成方法、装置、设备及存储介质
CN111914521A (zh) 文档书签创建方法、装置、电子设备和可读存储介质
CN108694172B (zh) 信息输出方法和装置
CN107329981B (zh) 页面检测的方法和装置
WO2018208412A1 (en) Detection of caption elements in documents
CN111063447B (zh) 查询和文本处理方法及装置、电子设备和存储介质
CN110909155B (zh) 书单生成方法、计算设备及计算机存储介质
CN111914517A (zh) 文档超链接创建方法、装置、电子设备和可读存储介质
CN115344718A (zh) 跨区域文档内容识别方法、装置、设备、介质和程序产品
CN113138974B (zh) 数据库合规检测的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20201110

RJ01 Rejection of invention patent application after publication