CN108073646B - 目录提取方法及装置 - Google Patents

目录提取方法及装置 Download PDF

Info

Publication number
CN108073646B
CN108073646B CN201611028787.8A CN201611028787A CN108073646B CN 108073646 B CN108073646 B CN 108073646B CN 201611028787 A CN201611028787 A CN 201611028787A CN 108073646 B CN108073646 B CN 108073646B
Authority
CN
China
Prior art keywords
directory
catalog
content
entries
extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201611028787.8A
Other languages
English (en)
Other versions
CN108073646A (zh
Inventor
靳强
刘宝川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Founder Holdings Development Co ltd
Beijing Founder Electronics Co Ltd
Original Assignee
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Founder Group Co Ltd, Beijing Founder Electronics Co Ltd filed Critical Peking University Founder Group Co Ltd
Priority to CN201611028787.8A priority Critical patent/CN108073646B/zh
Publication of CN108073646A publication Critical patent/CN108073646A/zh
Application granted granted Critical
Publication of CN108073646B publication Critical patent/CN108073646B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3322Query formulation using system suggestions
    • G06F16/3323Query formulation using system suggestions using document space presentation or visualization, e.g. category, hierarchy or range presentation and selection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种目录提取方法及装置,其中,该方法包括:获取目录的结构以及目录内容的提取路径;根据所述提取路径,获取所述目录的目录内容;根据所述目录的结构和所述目录的目录内容,生成所述目录。本发明实施例提供的目录提取方法及装置,能够用于基于可扩展标记语言xml结构化排版的期刊类出版物的目录提取。

Description

目录提取方法及装置
技术领域
本发明实施例涉及出版技术领域,尤其涉及一种目录提取方法及装置。
背景技术
目录是出版物的重要组成部分,通过阅读目录,读者可以快速了解出版物的内容组成,以及各内容组成部分在出版物中的相应位置,从而达到优化阅读的目的。
当前,在出版物的制作过程中,出版物的目录主要是基于飞翔本身的目录样式制作而成的,目录只能根据段落样式提取出标题及页码组成目录条目,适用于图书类出版物的目录制作。但是对于基于可扩展标记语言xml结构化排版的期刊类出版物,上述方法并不适用。
发明内容
本发明实施例提供一种目录提取方法及装置,用以对基于xml结构化排版的出版物的目录进行提取。
本发明实施例第一方面提供一种目录提取方法,该方法包括:
获取目录的结构以及目录的提取路径;
根据所述提取路径,获取所述目录的目录内容;
根据所述目录的结构和所述目录的目录内容,生成所述目录。
本发明实施例第二方面提供一种目录提取装置,该装置包括:
第一获取模块,用于获取目录的结构以及目录的提取路径;
第二获取模块,用于根据所述提取路径,获取所述目录的目录内容;
生成模块,用于根据所述目录的结构和所述目录的目录内容,生成所述目录。
本发明实施例,通过对目录的结构和目录的提取路径进行获取,根据目录的提取路径提取目录内容,根据获取到的目录结构对提取到的目录内容进行组合调整,从而最终形成目录。由于本发明实施例中采用的是目录的提取路径获取目录的内容,而不是像现有技术那样只能根据出版内容的段落样式提取目录内容,因此,即使出版物是基于xml的结构化排版的期刊类出版物,也能有效、准确的提取出版物的目录。有效的解决了现有技术无法提取基于xml的结构化排版的期刊类出版物目录的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的目录提取方法的流程示意图;
图2为本发明一实施例提供的步骤S102的执行方法的流程示意图;
图3为本发明一实施例提供的目录提取装置的结构示意图;
图4为本发明一实施例提供的第二获取模块12的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤的过程或结构的装置不必限于清楚地列出的那些结构或步骤而是可包括没有清楚地列出的或对于这些过程或装置固有的其它步骤或结构。
图1为本发明一实施例提供的目录提取方法的流程示意图,该方法可以由一目录提取装置来执行,如图1所示,该方法包括:
步骤S101、获取目录的结构以及目录的提取路径。
实际应用中,一个目录中通常包括多个目录条目,这些目录条目在目录中按照一定的顺序进行排列,目录通过目录条目的排列顺序来体现出版内容的逻辑顺序。相似的,本实施例中所涉及的目录也包括多个目录条目。本实施例中所称获取目录的结构以及目录的提取路径,是指获取目录中每个目录条目的目录级别、每个目录条目的内容组成、每个目录条目在目录中的排列顺序,以及组成各目录条目的内容的提取路径。特别的,本实施例中,目录条目中可以包括如标题、作者、页码等内容中的一种或多种。特别的,本实施例中目录的结构和目录的提取路径可以是用户通过目录提取装置上的人机接口输入到目录提取装置中的。
步骤S102、根据所述提取路径,获取所述目录的目录内容。
具体的,图2为本发明一实施例提供的步骤S102的执行方法的流程示意图,如图2所示,步骤S102可以通过以下子步骤实现:
步骤S201、获取所述目录对应的出版内容的结构树。
本实施中所涉及的出版内容是根据上述目录的提取路径进行排版的。由于现有技术中都是根据出版内容的段落样式提取目录内容的,而相对于基于xml的结构化排版的出版物而言,由于其排版方式的限制,显然再利用现有技术来提取目录内容是无法实现的,因此,本实施例根据xml结构化排版的特点,利用出版内容的结构树来获取目录内容。其不但能够快速准确的获取目录内容,还具有较好的灵活性。
步骤S202、遍历所述结构树,确定各提取路径对应的结构树节点。
在获取到出版内容的结构树之后,根据步骤S101中获取到的提取路径,遍历结构树,从而确定步骤S101中获取到的每条提取路径对应的结构树节点,这些结构树节点中存储的内容即为组成目录条目的内容。
步骤S203、从所述结构树节点中提取所述目录中目录条目的内容。
举例来说,假设目录中包括目录条目1,目录条目中包括组成内容a、组成内容b、组成内容c。其中,组成内容a对应的提取路径为a1、组成内容b对应的提取路径为b1、组成内容c对应的提取路径为c1,则从提取路径a1对应的结构树节点中获取组成内容a的具体内容,从提取路径b1对应的结构树节点中获取组成内容b的具体内容,从提取路径c1对应的结构树节点中获取组成内容c的具体内容,从而完成目录条目1的内容的获取。其他目录条目的内容的获取方法与前述示例类似,在这里不再赘述。
步骤S103、根据所述目录的结构和所述目录的目录内容,生成所述目录。
实际应用中,若每条目录条目的内容都已经完成获取,则说明目录的全部目录内容已获取完成。进一步的,由于每条目录条目在目录中都具有特定的排序,而目录中目录条目的排列顺序,已在步骤S101中获得,因此,根据步骤S101中获得的排列顺序,将每条目录条目的内容写入相应的排列位置即可获得最终的目录。
进一步的,为了使得生成的目录能够在特定的区域,以及特定的大小或尺寸进行显示,本实施例中,还可以包括获取目录的显示信息的步骤。获取显示信息的方式,具体可以是通过其上的人机接口接收用户的输入信息而获得的。
可选的,本实施例中目录提取装置获取到的显示信息可以包括:目录的显示位置信息和显示大小信息。
当目录提取装置根据上述步骤完成目录的生成后,即可根据获取到的显示信息,在特定的位置,以特定的大小或尺寸对该目录进行显示。其具体执行过程与现有技术类似,在这里不再赘述。
本实施例,通过对目录的结构和目录的提取路径进行获取,根据目录的提取路径提取目录内容,根据获取到的目录结构对提取到的目录内容进行组合调整,从而最终形成目录。由于本实施例中采用的是目录的提取路径获取目录的内容,而不是像现有技术那样只能根据出版内容的段落样式提取目录内容,因此,即使出版物是基于xml的结构化排版的期刊类出版物,也能有效、准确的提取出版物的目录。有效的解决了现有技术无法提取基于xml的结构化排版的期刊类出版物目录的问题。
图3为本发明一实施例提供的目录提取装置的结构示意图,如图3所示,该装置包括:
第一获取模块11,用于获取目录的结构以及目录的提取路径;
第二获取模块12,用于根据所述提取路径,获取所述目录的目录内容;
生成模块13,用于根据所述目录的结构和所述目录的目录内容,生成所述目录。
其中,第一获取模块11,具体用于:
获取目录中目录条目的内容组成、目录中目录条目的排列顺序,以及目录条目中各内容组成的提取路径。
所述生成模块13,具体用于:
根据所述目录中目录条目的内容,以及所述目录中目录条目的排列顺序,生成所述目录。
所述目录条目由如下内容中的至少一个组成:
标题、作者、页码。
特别的,所述装置还可以包括:
第三获取模块14,用于获取所述目录的显示信息,所述显示信息包括:所述目录的显示位置信息和显示大小信息;
显示模块15,用于根据所述显示信息对所述目录进行显示。
本实施例提供的装置适用于图1实施例所示的方法,其执行方式和有益效果类似,在这里不再赘述。
图4为本发明一实施例提供的第二获取模块12的结构示意图,如图4所示,在图1所示实施例的基础上,所述第二获取模块12包括:
获取子模块121,用于获取所述目录对应的出版内容的结构树;
确定子模块122,用于遍历所述结构树,确定各提取路径对应的结构树节点;
提取子模块123,用于从所述结构树节点中提取所述目录中目录条目的内容。
本实施例提供的装置适用于图2实施例所示的方法,其执行方式和有益效果类似,在这里不再赘述
最后需要说明的是,本领域普通技术人员可以理解上述实施例方法中的全部或者部分流程,是可以通过计算机程序来指令相关的硬件完成,所述的程序可存储于一计算机可读存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可以为磁盘、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。
本发明实施例中的各个功能单元可以集成在一个处理模块中,也可以是各个单元单独的物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现,并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。上述提到的存储介质可以是只读存储器、磁盘或光盘等。
以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (8)

1.一种目录提取方法,其特征在于,包括:
获取目录的结构以及目录的提取路径;
根据所述提取路径,获取所述目录的目录内容;
根据所述目录的结构和所述目录的目录内容,生成所述目录;
所述获取目录的结构以及目录的提取路径,包括:
获取目录中目录条目的内容组成、目录中目录条目的排列顺序,以及目录条目中各内容组成的提取路径;
所述根据所述提取路径,获取所述目录的目录内容,包括:
获取所述目录对应的出版内容的结构树;
遍历所述结构树,确定各提取路径对应的结构树节点;
从所述结构树节点中提取所述目录中目录条目的内容。
2.根据权利要求1所述的方法,其特征在于,所述根据所述目录的结构和所述目录的目录内容,生成所述目录,包括:
根据所述目录中目录条目的内容,以及所述目录中目录条目的排列顺序,生成所述目录。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述目录的显示信息,所述显示信息包括:所述目录的显示位置信息和显示大小信息;
所述根据所述目录的结构和所述目录的目录内容,生成所述目录之后,所述方法还包括:
根据所述显示信息对所述目录进行显示。
4.根据权利要求1-2中任一项所述的方法,其特征在于,所述目录条目由如下内容中的至少一个组成:
标题、作者、页码。
5.一种目录提取装置,其特征在于,包括:
第一获取模块,用于获取目录的结构以及目录的提取路径;
第二获取模块,用于根据所述提取路径,获取所述目录的目录内容;
生成模块,用于根据所述目录的结构和所述目录的目录内容,生成所述目录;
所述第一获取模块,具体用于:
获取目录中目录条目的内容组成、目录中目录条目的排列顺序,以及目录条目中各内容组成的提取路径;
所述第二获取模块,包括:
获取子模块,用于获取所述目录对应的出版内容的结构树;
确定子模块,用于遍历所述结构树,确定各提取路径对应的结构树节点;
提取子模块,用于从所述结构树节点中提取所述目录中目录条目的内容。
6.根据权利要求5所述的装置,其特征在于,所述生成模块,具体用于:
根据所述目录中目录条目的内容,以及所述目录中目录条目的排列顺序,生成所述目录。
7.根据权利要求5所述的装置,其特征在于,所述装置还包括:
第三获取模块,用于获取所述目录的显示信息,所述显示信息包括:所述目录的显示位置信息和显示大小信息;
显示模块,用于根据所述显示信息对所述目录进行显示。
8.根据权利要求5-6中任一项所述的装置,其特征在于,所述目录条目由如下内容中的至少一个组成:
标题、作者、页码。
CN201611028787.8A 2016-11-18 2016-11-18 目录提取方法及装置 Expired - Fee Related CN108073646B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611028787.8A CN108073646B (zh) 2016-11-18 2016-11-18 目录提取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611028787.8A CN108073646B (zh) 2016-11-18 2016-11-18 目录提取方法及装置

Publications (2)

Publication Number Publication Date
CN108073646A CN108073646A (zh) 2018-05-25
CN108073646B true CN108073646B (zh) 2021-12-24

Family

ID=62161233

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611028787.8A Expired - Fee Related CN108073646B (zh) 2016-11-18 2016-11-18 目录提取方法及装置

Country Status (1)

Country Link
CN (1) CN108073646B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111061863B (zh) * 2019-12-16 2023-09-15 新方正控股发展有限责任公司 期刊目录展示方法、装置及设备
CN111144069B (zh) * 2019-12-30 2021-12-03 北大方正集团有限公司 一种基于表格的目录排版方法、装置及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678302A (zh) * 2012-08-30 2014-03-26 北京百度网讯科技有限公司 一种文档结构化组织方法及装置
CN104199975A (zh) * 2014-09-23 2014-12-10 中国南方电网有限责任公司 一种基于可配置的word文档结构化提取方法
CN104598462A (zh) * 2013-10-30 2015-05-06 深圳市国信互联科技有限公司 提取结构化数据的方法及装置
CN104699706A (zh) * 2013-12-06 2015-06-10 中国移动通信集团海南有限公司 目录树的生成方法、装置及系统
CN105447027A (zh) * 2014-08-27 2016-03-30 北大方正集团有限公司 一种pdf文档目录的获取方法及装置
CN105654022A (zh) * 2014-11-12 2016-06-08 北大方正集团有限公司 一种提取文档结构化信息的方法及装置
CN105718649A (zh) * 2016-01-20 2016-06-29 华中科技大学 一种层次化显示知识网络的纸质书构建方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101315640B (zh) * 2008-07-01 2010-09-01 中兴通讯股份有限公司 一种目录管理方法和装置
US10698953B2 (en) * 2009-10-30 2020-06-30 Oracle International Corporation Efficient XML tree indexing structure over XML content
CN102855244B (zh) * 2011-06-28 2015-02-25 北大方正集团有限公司 文档目录处理方法和装置
CN103365877B (zh) * 2012-03-29 2017-12-26 百度在线网络技术(北京)有限公司 对网页进行转码后建立目录的方法以及服务器
US9710446B2 (en) * 2014-08-05 2017-07-18 Shahbaz Anwar Enhanced internally linked electronic paper format report generation system and process

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678302A (zh) * 2012-08-30 2014-03-26 北京百度网讯科技有限公司 一种文档结构化组织方法及装置
CN104598462A (zh) * 2013-10-30 2015-05-06 深圳市国信互联科技有限公司 提取结构化数据的方法及装置
CN104699706A (zh) * 2013-12-06 2015-06-10 中国移动通信集团海南有限公司 目录树的生成方法、装置及系统
CN105447027A (zh) * 2014-08-27 2016-03-30 北大方正集团有限公司 一种pdf文档目录的获取方法及装置
CN104199975A (zh) * 2014-09-23 2014-12-10 中国南方电网有限责任公司 一种基于可配置的word文档结构化提取方法
CN105654022A (zh) * 2014-11-12 2016-06-08 北大方正集团有限公司 一种提取文档结构化信息的方法及装置
CN105718649A (zh) * 2016-01-20 2016-06-29 华中科技大学 一种层次化显示知识网络的纸质书构建方法

Also Published As

Publication number Publication date
CN108073646A (zh) 2018-05-25

Similar Documents

Publication Publication Date Title
JP6929278B2 (ja) タイトル表示方法及び装置
CN111309424B (zh) 一种页面还原方法及相关设备
TWI549003B (zh) 自動切割章節方法
CN105824830B (zh) 一种显示页面的方法、客户端及设备
CN108334508B (zh) 网页信息的提取方法和装置
JP2016524229A (ja) 検索推奨方法及び装置
US11222067B2 (en) Multi-index method and apparatus, cloud system and computer-readable storage medium
US20150213018A1 (en) Method for recommending videos to add to a playlist
CN109558538B (zh) 输入联想词的构建方法、装置、存储介质及电子设备
US8290925B1 (en) Locating product references in content pages
US9946813B2 (en) Computer-readable recording medium, search support method, search support apparatus, and responding method
CN108804458A (zh) 一种爬虫网页采集方法和装置
CN108073646B (zh) 目录提取方法及装置
CN114579912A (zh) 页面布局方法、装置、设备及介质
CN110969000A (zh) 数据合并的处理方法及装置
CN106156109B (zh) 一种搜索方法及装置
CN109271607A (zh) 用户页面布局检测方法和装置、电子设备
CN109408618B (zh) 关键词的推荐方法、装置、存储介质及电子设备
KR20190002627A (ko) 파일 저장 방법 및 전자 디바이스
CN108280135B (zh) 实现数据结构可视化的方法、装置和电子设备
CN106445967B (zh) 一种资源目录的管理方法和装置
Vernica et al. AERO: An extensible framework for adaptive web layout synthesis
CN105653540B (zh) 文件属性信息的处理方法和装置
US8302045B2 (en) Electronic device and method for inspecting electrical rules of circuit boards
CN104657480B (zh) 漫画搜索方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230613

Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

Address before: 100871, Beijing, Haidian District, Cheng Fu Road, No. 298, Zhongguancun Fangzheng building, 9 floor

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20211224

CF01 Termination of patent right due to non-payment of annual fee