CN102708099B - 用于图片标题的提取方法和装置 - Google Patents

用于图片标题的提取方法和装置 Download PDF

Info

Publication number
CN102708099B
CN102708099B CN201010578133.9A CN201010578133A CN102708099B CN 102708099 B CN102708099 B CN 102708099B CN 201010578133 A CN201010578133 A CN 201010578133A CN 102708099 B CN102708099 B CN 102708099B
Authority
CN
China
Prior art keywords
picture
title
book
title picture
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201010578133.9A
Other languages
English (en)
Other versions
CN102708099A (zh
Inventor
姜凯
曾建英
缪萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Founder Holdings Development Co ltd
Beijing Founder Electronics Co Ltd
Original Assignee
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Founder Group Co Ltd, Beijing Founder Electronics Co Ltd filed Critical Peking University Founder Group Co Ltd
Priority to CN201010578133.9A priority Critical patent/CN102708099B/zh
Publication of CN102708099A publication Critical patent/CN102708099A/zh
Application granted granted Critical
Publication of CN102708099B publication Critical patent/CN102708099B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本发明提供了一种用于图片标题的提取方法,包括:确定电子书籍的标题图片;提供文本控件以接受用户输入文字描述标题图片;将输入的文字和标题图片的资源信息生成文字节点;将文字节点作为电子书籍的标题加入到电子书籍的结构化内容中。本发明还提供了一种用于图片标题的提取装置,包括:确定模块,用于确定电子书籍的标题图片;文本控件,用于接受用户输入文字描述标题图片;生成模块,用于将输入的文字和标题图片的资源信息生成文字节点;加入模块,用于将文字节点作为电子书籍的标题加入到电子书籍的结构化内容中。本发明实现了对电子书籍的结构化管理。

Description

用于图片标题的提取方法和装置
技术领域
本发明涉及印刷领域,具体而言,涉及用于图片标题的提取方法和装置。
背景技术
多年以来,各个出版社、排版公司等通过文字排版软件制作出书籍、报纸、期刊等各种出版物,积累了大量的文件资源。这些文件资源绝大多数都是流式的内容数据,组织形式离散,对象关系弱化,结构层次耦合大,非常不利于数据内容的维护、重用和再加工。为此,需要采用结构化提取技术,将传统的文件资源内容抽象出具有一定组织层次结构的逻辑内容数据。
针对不同格式和形式的数据内容的特点,通过匹配规则适配和抽取文本片段是结构化加工的一种重要手段。然而发明人发现,这种方式仅对文本内容有效,而无法提取那些非文本的数据类型。有些电子书籍中采用图片作为标题,对于这种特殊类型,现有的结构化提取方法就不能处理了。
发明内容
本发明旨在提供一种用于图片标题的提取方法和装置,以解决现有技术不能对图片标题进行处理的问题。
在本发明的实施例中,提供了一种用于图片标题的提取方法,包括:确定电子书籍的标题图片;提供文本控件以接受用户输入文字描述标题图片;将输入的文字和标题图片的资源信息生成文字节点,加入到电子书籍的结构化内容中。
在本发明的实施例中,提供了一种用于图片标题的提取装置,包括:确定模块,用于确定电子书籍的标题图片;文本控件,用于接受用户输入文字描述标题图片;生成模块,用于将输入的文字和标题图片的资源信息生成文字节点,加入到电子书籍的结构化内容中。
本发明因为采用文字描述替代图片标题加入到结构化内容中,所以克服了现有技术无法处理图片标题的问题,实现了对电子书籍的结构化管理。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了根据本发明一个实施例的用于图片标题的提取方法的流程图;
图2示出了根据本发明一个优选实施例的将输入的文字和标题图片的资源信息生成文字节点的流程图;
图3示出了根据本发明一个实施例的用于图片标题的提取装置的示意图。
具体实施方式
下面将参考附图并结合实施例,来详细说明本发明。
图1示出了根据本发明一个实施例的用于图片标题的提取方法的流程图,包括:
步骤S10,确定电子书籍的标题图片;
步骤S20,提供文本控件以接受用户输入文字描述标题图片;
步骤S30,将输入的文字和标题图片的资源信息生成文字节点;
步骤S40,将文字节点作为电子书籍的标题加入到电子书籍的结构化内容中。
匹配规则适配和抽取文本片段是结构化加工的一种重要手段,而图片标题因为是图片格式,显然无法匹配规则适配和抽取文本片段,因此在现有技术中无法进行结构化加工。而本实施例中,可以在界面上提供一个文本控件(例如文本输入框)要求用户输入文字来描述标题图片,用输入的文字来代替标题图片加入到结构化内容中,显然该输入的文字是可以匹配规则适配和抽取文本片段的,从而克服了现有技术无法处理图片标题的问题,实现了对电子书籍的结构化管理。
优选地,步骤S10包括:获取电子书籍中的全部图片;提供选择控件以接受用户从全部图片中选择图片;将所选择的图片确定为电子书籍的标题图片。因为电子书籍所提供的流式内容中通常不只包含一幅图,而是可以包含书本正文中的多幅图。显然,计算机难以识别出这些图片中哪一幅图才是标题图片。而本优选实施例提供了选择控件来允许用户在界面上手动地选择图片,从而解决了现有技术的这个难题。
本优选实施例中可以对于存在的图片,获取其基本图片信息,如图片名称、图片大小等,并将这些信息按照结构化的格式保存到固定的XML文件中。
优选地,获取电子书籍中的全部图片包括:解析电子书籍中包含的全部图片的名称及路径;根据名称及路径查找并收集电子书籍的全部图片。一般来说,电子书籍的流式内容中会包含图片的名称和路径,本优选实施例利用这些信息就可以检索到电子书籍的全部图片,从而可以确定其中的标题图片。根据文件名可以查找电子书籍结构化内容中对应的逻辑图片节点,并统计逻辑图片节点的个数作为物理图片的引用次数。同时建立逻辑图片节点和物理图片的逻辑关联关系,方便从物理图片快速找到对应的逻辑图片节点。
优选地,文字节点包括:资源信息,其包括以下至少之一:标题图片的名称、标题图片的路径、标题图片的大小,标题图片在电子书籍中被引用的次数;替代文本,其包括:输入的文字和到标题图片的链接;关键字,用于检索替代文本。电子书籍的结构化内容包含文字节点,在文字节点中设置资源信息、替代文本和关键字等属性,就可以很容易地实现对标题图片的结构化管理,其中,资源信息在获取电子书籍中的全部图片时就可以得到。例如,设置标题图片的替代文本,如“第1章”、“第2章”、“第3章”等,将这些替代文本内容作为属性关联到物理图片上,并同时记录在(2)中的XML文件中。通过建立的逻辑关联关系,可以方便地查找到电子书籍结构化内容中对应的逻辑标题图片节点,将其替代为对应的普通的文本类型的逻辑节点,节点内容依次如“第1章”、“第2章”、“第3章”等。
优选地,将输入的文字和标题图片的资源信息生成文字节点包括:使用预设的规则从描述的文字中识别关键字。鉴于图片性质的标题图片节点已经被替换为文本性质的替代文本节点,因此后续便可以采用提取普通文本内容的方式提取图片标题了。例如,可以制定规则如下:“第\d章”,该规则是一个标准的正则表达式,可以匹配到所有形式为“第×章”的替代文本。
图2示出了根据本发明一个优选实施例的将输入的文字和标题图片的资源信息生成文字节点的流程图,该优选实施例综合了上述优选实施例的技术方案,包括以下步骤:
步骤11,从电子书籍中收集并管理全部图片的资源信息,包括:图片的名称、大小、引用次数、路径等;
步骤12,为标题图片设置基于文本表述的替代文本;
步骤13,根据结构化匹配规则,提取图片标题内容,即关键字。
通过提取关键字,用户就可以很容易地检索到标题图片。
优选地,本方法还包括:预先制定通用的结构化提取规则模板,其中包括用于从描述的文字中识别关键字的规则。可以将用于从描述的文字中识别关键字的规则看作通用的结构化提取规则模板的一个子集。通过模板化操作,有利于规范计算机编程,实现代码重用。该规则应该无二义性,且应该能够精确完整地匹配到预期的替代文本。
优选地,本方法还包括以下至少之一:提供检索控件以接受用户的输入,根据输入检索到在结构化内容中检索关键字以匹配到替代文本,通过替代文本关联到标题图片,将标题图片提供给用户;以层次化和结构化的逻辑视图呈现流式内容,其中包括标题图片。本优选实施例利用结构化内容实现了对电子书的结构化管理,为用户提供了更多的体验。
显然,该结构化内容还可以用于如按某一图片属性对图片进行排序、按照一个或一组属性对图片进行筛选查找、图片预览等。
图3示出了根据本发明一个实施例的用于图片标题的提取装置的示意图,包括:
确定模块10,用于确定电子书籍的标题图片;
文本控件20,用于接受用户输入文字描述标题图片;
生成模块30,用于将输入的文字和标题图片的资源信息生成文字节点;
加入模块40,用于将文字节点作为电子书籍的标题加入到电子书籍的结构化内容中。
本提取装置实现了对电子书籍的结构化管理。
优选地,文字节点包括:资源信息,其包括以下至少之一:标题图片的名称、标题图片的路径、标题图片的大小,标题图片在电子书籍中被引用的次数;替代文本,其包括:输入的文字和到标题图片的链接;关键字,用于检索替代文本;本提取装置还包括以下至少之一:检索模块,用于提供检索控件以接受用户的输入,根据输入检索到在结构化内容中检索关键字以匹配到替代文本,通过替代文本关联到标题图片,将标题图片提供给用户;呈现模块,用于以层次化和结构化的逻辑视图呈现流式内容,其中包括标题图片。本优选实施例利用结构化内容实现了对电子书的结构化管理,为用户提供了更多的体验。
从以上的描述中可以看出,本发明上述的实施例克服了现有技术无法处理图片标题的问题,实现了对电子书籍的结构化管理。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种用于图片标题的提取方法,其特征在于,包括:
确定电子书籍的标题图片;
提供文本控件以接受用户输入文字描述所述标题图片;
将所述输入的文字和所述标题图片的资源信息生成文字节点;
将所述文字节点作为所述电子书籍的标题加入到所述电子书籍的结构化内容中;
其中,所述文字节点包括:
资源信息,其包括以下至少之一:所述标题图片的名称、所述标题图片的路径、所述标题图片的大小,所述标题图片在所述电子书籍中被引用的次数;
替代文本,其包括:所述输入的文字和到所述标题图片的链接。
2.根据权利要求1所述的方法,其特征在于,确定电子书籍的标题图片包括:
获取所述电子书籍中的全部图片;
提供选择控件以接受用户从所述全部图片中选择图片;
将所选择的图片确定为所述电子书籍的标题图片。
3.根据权利要求2所述的方法,其特征在于,获取所述电子书籍中的全部图片包括:
解析所述电子书籍中包含的全部图片的名称及路径;
根据所述名称及路径查找并收集所述电子书籍的全部图片。
4.根据权利要求3所述的方法,其特征在于,所述文字节点还包括:
关键字,用于检索所述替代文本。
5.根据权利要求4所述的方法,其特征在于,将所述输入的文字和所述标题图片的资源信息生成文字节点包括:
使用预设的规则从所述输入的文字中识别所述关键字。
6.根据权利要求5所述的方法,其特征在于,还包括:
预先制定通用的结构化提取规则模板,其中包括用于从所述输入的文字中识别所述关键字的规则。
7.根据权利要求4所述的方法,其特征在于,还包括以下至少之一:
提供检索控件以接受用户的输入,根据所述输入在所述结构化内容中检索所述关键字以匹配到所述替代文本,通过所述替代文本关联到所述标题图片,将所述标题图片提供给用户;
以层次化和结构化的逻辑视图呈现所述标题图片。
8.一种用于图片标题的提取装置,其特征在于,包括:
确定模块,用于确定电子书籍的标题图片;
文本控件,用于接受用户输入文字描述所述标题图片;
生成模块,用于将所述输入的文字和所述标题图片的资源信息生成文字节点;
加入模块,用于将所述文字节点作为所述电子书籍的标题加入到所述电子书籍的结构化内容中;
其中,所述文字节点包括:
资源信息,其包括以下至少之一:所述标题图片的名称、所述标题图片的路径、所述标题图片的大小,所述标题图片在所述电子书籍中被引用的次数;
替代文本,其包括:所述输入的文字和到所述标题图片的链接。
9.根据权利要求8所述的装置,其特征在于,所述文字节点还包括:关键字,用于检索所述替代文本;所述提取装置还包括以下至少之一:
检索模块,用于提供检索控件以接受用户的输入,根据所述输入在所述结构化内容中检索所述关键字以匹配到所述替代文本,通过所述替代文本关联到所述标题图片,将所述标题图片提供给用户;
呈现模块,用于以层次化和结构化的逻辑视图呈现所述标题图片。
CN201010578133.9A 2010-12-02 2010-12-02 用于图片标题的提取方法和装置 Expired - Fee Related CN102708099B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010578133.9A CN102708099B (zh) 2010-12-02 2010-12-02 用于图片标题的提取方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010578133.9A CN102708099B (zh) 2010-12-02 2010-12-02 用于图片标题的提取方法和装置

Publications (2)

Publication Number Publication Date
CN102708099A CN102708099A (zh) 2012-10-03
CN102708099B true CN102708099B (zh) 2015-09-16

Family

ID=46900894

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010578133.9A Expired - Fee Related CN102708099B (zh) 2010-12-02 2010-12-02 用于图片标题的提取方法和装置

Country Status (1)

Country Link
CN (1) CN102708099B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104103087A (zh) * 2013-04-10 2014-10-15 中兴通讯股份有限公司 一种具有文字介绍功能的图片显示和管理的方法和系统
CN110727629B (zh) * 2019-10-10 2024-01-23 掌阅科技股份有限公司 有声电子书的播放方法、电子设备及计算机存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1893518A (zh) * 2005-05-24 2007-01-10 株式会社理光 显示控制方法以及显示控制装置
CN101192231A (zh) * 2006-11-27 2008-06-04 国际商业机器公司 基于上下文的书签
CN101751476A (zh) * 2010-02-02 2010-06-23 汉王科技股份有限公司 电子书签标记方法和装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040205543A1 (en) * 2001-11-01 2004-10-14 International Business Machines Corporation Apparatus and method of bookmarking a section of a web page
WO2006113538A2 (en) * 2005-04-19 2006-10-26 Microsoft Corporation Determining fields for presentable files and extensible markup language schemas for bibliographies and citations
CN101059800A (zh) * 2006-04-21 2007-10-24 上海晨兴电子科技有限公司 在手机上显示电子书的方法和设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1893518A (zh) * 2005-05-24 2007-01-10 株式会社理光 显示控制方法以及显示控制装置
CN101192231A (zh) * 2006-11-27 2008-06-04 国际商业机器公司 基于上下文的书签
CN101751476A (zh) * 2010-02-02 2010-06-23 汉王科技股份有限公司 电子书签标记方法和装置

Also Published As

Publication number Publication date
CN102708099A (zh) 2012-10-03

Similar Documents

Publication Publication Date Title
US20040216057A1 (en) System and method for grouping and organizing pages of an electronic document into pre-defined catagories
US20090293059A1 (en) Automatically connecting items of workflow in a computer program
CN102566945B (zh) 一种实现图书自动组稿按需印刷的方法和系统
CN101430714B (zh) 一种基于样式的内容结构化加工方法及系统
CN102982010A (zh) 提取文档结构的方法和装置
CN101488086A (zh) 一种基于领域模型的软件生成方法及装置
Chiang et al. Progressive simplification of tetrahedral meshes preserving all isosurface topologies
Matatov et al. DejaVu: a system for journalists to collaboratively address visual misinformation
CN104317891A (zh) 一种对页面标注标签的方法及装置
Halaschek-Wiener et al. Annotation and provenance tracking in semantic web photo libraries
US8799791B2 (en) System for use in editorial review of stored information
AU2015331028A1 (en) Electronic processing system for electronic document and electronic file
CN102708099B (zh) 用于图片标题的提取方法和装置
CN104750853A (zh) 一种异构数据搜索方法及装置
CN106446055A (zh) 网页的生成方法及系统
CN112307318A (zh) 一种内容发布方法、系统及装置
CN106326306A (zh) Pdf文件自动识别生成数字报刊技术
CN101261645B (zh) 一种获取多层信息的方法和装置
Halaschek-Wiener et al. A Flexible Approach for Managing Digital Images on the Semantic Web.
CN105740251B (zh) 一种总线式整合不同内容源的方法和系统
Gali et al. Extracting representative image from web page
US20120192046A1 (en) Generation of a source complex document to facilitate content access in complex document creation
Saravanan Segment based indexing technique for video data file
KR20050074058A (ko) 인터넷상에서 기사를 자동분류하여 타 웹사이트에자동송출하는 시스템 및 그 제어방법
Mannocci et al. The Europeana network of ancient Greek and Latin epigraphy data infrastructure

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220615

Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

Address before: 100871, Beijing, Haidian District Cheng Fu Road 298, founder building, 5 floor

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150916