CN110807298A - 一种对标记信息进行处理的方法及系统 - Google Patents

一种对标记信息进行处理的方法及系统 Download PDF

Info

Publication number
CN110807298A
CN110807298A CN201910931237.4A CN201910931237A CN110807298A CN 110807298 A CN110807298 A CN 110807298A CN 201910931237 A CN201910931237 A CN 201910931237A CN 110807298 A CN110807298 A CN 110807298A
Authority
CN
China
Prior art keywords
file
information
marking
node
tree structure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910931237.4A
Other languages
English (en)
Other versions
CN110807298B (zh
Inventor
陈杰清
邓鑫鑫
沈仁奎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Mind Creation Information Technology Co Ltd
Original Assignee
Beijing Mind Creation Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mind Creation Information Technology Co Ltd filed Critical Beijing Mind Creation Information Technology Co Ltd
Priority to CN201910931237.4A priority Critical patent/CN110807298B/zh
Publication of CN110807298A publication Critical patent/CN110807298A/zh
Application granted granted Critical
Publication of CN110807298B publication Critical patent/CN110807298B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种对标记信息进行处理的方法及系统,其中方法包括:对待处理的电子文件进行解析以根据数据内容、样式文件和资源文件构建包括多个对象节点的节点树结构,确定每个对象节点与待处理的电子文件中文件内容的单元标识、字节偏移量和字节数量的对应关系,根据节点树结构和样式文件构建包括多个呈现节点的渲染树结构;对所获取的标记信息进行解析以确定多个标记项,将多个标记项中的每个标记项与节点树结构中的至少一个对象节点进行关联;息对节点树结构中相关联的每个对象节点进行标记,并确定每个标记项的单元标识、字节偏移量和字节数量;以及获取每个标记项的样式信息,根据样式信息和单元标识对每个标记项进行显示。

Description

一种对标记信息进行处理的方法及系统
技术领域
本发明涉及电子书技术领域,并且更具体地,涉及一种对标记信息进行处理的方法及系统。
背景技术
电子书出版物(EPub,Electronic Publication)是一种电子书格式标准,并且属于一种可以自动重新排版的内容。文字内容可以根据阅读设备的特性,以最适合阅读的方式进行显示。EPub电子书内部使用了超文本标记语言HTML或可扩展超文本标记语言XHTML格式的文件来包含文字、图片等多媒体资源。电子书用户终端软件解析EPub并从HTML或XHTML文件中抽取文字和图片,从而将文字和图片在用户终端上绘制展示。
电子书划线笔记是用户在使用电子书用户终端浏览EPub电子书时,在电子书用户终端上对电子书中内容进行选择划线或记录的笔记记录。用户终端与划线笔记服务器记录每条划线笔记记录的位置(包括起始点和终止点)。用户在关闭电子书用户终端或切换设备等操作后,再次打开电子书用户终端时,用户终端加载原有的划线笔记数据并进行绘制显示。此外,在电子书用户终端上用户可以添加、修改和删除该用户的划线笔记。
然而在EPub电子书的现有技术中存在以下技术问题:用户终端显示的文字与从XHTML抽取的文字不匹配的情况,以及只能对EPub电子书中的文字部分进行划线笔记,无法对EPub电子书中的图片等非文字的文档对象模型(DOM,Document Object Model)节点内容进行划线笔记操作。
发明内容
为了解决EPub电子书划线笔记准确定位的技术问题,本发明提供一种EPub电子书划线笔记定位方法,通过解析EPub电子书中的HTML或XHTML文件,构建DOM节点树结构,并构建HMTL或XHTML文件中内容节点(文字或图片)在文件中的字节偏移(byteOffset)映射表。电子书划线笔记定位方法根据映射表使得用户能够在EPub电子书用户终端上进行增加、修改和删除划线笔记,随后将用户操作生成的划线笔记数据,以某种特定标记展示在电子书用户终端上。
根据本发明的一个方面,提供一种对标记信息进行处理的方法,所述方法包括:
对待处理的电子文件进行解析以获取与待处理的电子文件相关联的数据内容、样式文件和资源文件;
根据数据内容、样式文件和资源文件构建包括多个对象节点的节点树结构,确定每个对象节点与待处理的电子文件中文件内容的单元标识、字节偏移量和字节数量的对应关系,根据节点树结构和样式文件构建包括多个呈现节点的渲染树结构;
对所获取的标记信息进行解析以确定多个标记项,将多个标记项中的每个标记项与节点树结构中的至少一个对象节点进行关联;
根据每个标记项的位置信息对节点树结构中相关联的每个对象节点进行标记,并基于对象节点与呈现节点的关联关系确定每个标记项的单元标识、字节偏移量和字节数量;以及
获取每个标记项的样式信息,根据样式信息和单元标识对每个标记项进行显示。
在对待处理的电子文件进行解析之前还包括:
从文件服务器获取所述待处理的电子文件,其中所述待处理的电子文件包括数据内容、样式文件和资源文件。
其中对象节点为文档对象模型节点。
位置信息包括:单元标识、字节偏移量和字节数量。
所述对所获取的标记信息进行解析以确定多个标记项之前还包括:
确定用户的标识符和待处理的电子文件的文件标识,基于用户的标志符和所述文件标识在标记服务器中进行检索以获取与所述电子文件相关联的标记信息。
在根据样式信息和单元标识对每个标记项进行显示之后,还包括:
获取用户输入的针对于标记信息的修改信息;
确定所述修改信息的类型和修改内容,并根据修改信息的类型和修改内容对标记信息进行修改以生成经过修改的标记信息。
还包括,将所述经过修改的标记信息在本地缓存中进行存储,并且在预定时间后将所述经过修改的标记信息、电子文件的文件标识和用户的标识符发送给标记服务器。
还包括,获取经过修改的标记信息的多个标记项,将多个标记项中的每个标记项与节点树结构中的至少一个对象节点进行关联;
根据每个标记项的位置信息对节点树结构中相关联的每个对象节点进行标记,并基于对象节点与呈现节点的关联关系确定每个标记项的单元标识、字节偏移量和字节数量;以及
获取每个标记项的样式信息,根据样式信息和单元标识对每个标记项进行显示。
在获取每个标记项的样式信息后,根据每个标记项的样式信息、单元标识、字节偏移量和字节数量对节点树结构进行更新。
还包括,将经过更新的渲染树结构在本地缓存中进行存储。
根据本发明的另一方面,提供一种对标记信息进行处理的系统,所述系统包括:
解析装置,对待处理的电子文件进行解析以获取与待处理的电子文件相关联的数据内容、样式文件和资源文件;
生成装置,根据数据内容、样式文件和资源文件构建包括多个对象节点的节点树结构,确定每个对象节点与待处理的电子文件中文件内容的单元标识、字节偏移量和字节数量的对应关系,根据节点树结构和样式文件构建包括多个呈现节点的渲染树结构;
关联装置,对所获取的标记信息进行解析以确定多个标记项,将多个标记项中的每个标记项与节点树结构中的至少一个对象节点进行关联;
标记装置,根据每个标记项的位置信息对节点树结构中相关联的每个对象节点进行标记,并基于对象节点与呈现节点的关联关系确定每个标记项的单元标识、字节偏移量和字节数量;以及
显示装置,获取每个标记项的样式信息,根据样式信息和单元标识量对每个标记项进行显示。
还包括获取装置,从文件服务器获取所述待处理的电子文件,其中所述待处理的电子文件包括数据内容、样式文件和资源文件。
其中对象节点为文档对象模型节点。
位置信息包括:单元标识、字节偏移量和字节数量。
还包括检索装置,确定用户的标识符和待处理的电子文件的文件标识,基于用户的标志符和所述文件标识在标记服务器中进行检索以获取与所述电子文件相关联的标记信息。
还包括修改装置,获取用户输入的针对于标记信息的修改信息;确定所述修改信息的类型和修改内容,并根据修改信息的类型和修改内容对标记信息进行修改以生成经过修改的标记信息。
还包括本地缓存,将所述经过修改的标记信息进行存储,并且在预定时间后将所述经过修改的标记信息、电子文件的文件标识和用户的标识符发送给标记服务器。
关联装置还用于获取经过修改的标记信息的多个标记项,将多个标记项中的每个标记项与节点树结构中的至少一个对象节点进行关联。
还包括更新装置,根据每个标记项的样式信息、单元标识、字节偏移量和字节数量对节点树结构进行更新。
还包括本地缓存装置,将经过更新的渲染树结构进行存储。
本发明的EPub电子书划线笔记定位方法,通过解析EPub电子书中的HTML或XHTML文件,构建DOM节点树结构,并构建HMTL或XHTML文件中内容节点(文字或图片)在文件中的字节偏移(byteOffset)映射表。电子书划线笔记定位方法根据映射表使得用户能够在EPub电子书用户终端上进行增加、修改和删除划线笔记,随后将用户操作生成的划线笔记数据,以某种特定标记展示在电子书用户终端上。
本发明的可以支持用户在电子书上的划线笔记位置能保持准确定位,并支持对电子书的img标签(图片)进行划线笔记,提升电子书用户划线笔记体验。
附图说明
通过参考下面的附图,可以更为完整地理解本发明的示例性实施方式:
图1为根据本发明的电子书用户终端的工作流程的示意图;
图2为EPub电子书的文件组成的示意图;
图3为根据本发明的电子书服务流程的示意图:
图4为根据本发明的对标记信息进行处理的方法的流程图;
图5为根据本发明的对标记信息进行处理的系统的结构示意图;
图6为Epub电子书的容器文件的内容示意图;
图7为Epub电子书的OPF文件的内容示意图:
图8为Epub电子书的NCX文件的内容示意图;
图9为Epub电子书的XHTML文件的内容示意图:
图10为Epub电子书的CSS样式文件的内容示意图:
图11为Epub电子书XHTML文件的连续空格转义字符所对应的偏移量的示意图;
图12为Epub电子书XHTML文件的汉字“你”所对应的偏移量的示意图:
图13为Epub电子书XHTML文件的图片标签节点所对应的偏移量的示意图:
图14为Epub电子书XHTML文件的英文“Hello”所对应的偏移量的示意图:
图15为XHTML文件内容DOM节点与字节偏移量映射关系的示意图:
图16为根据本发明的DOM节点树结构的示意图:
图17为根据本发明的DOM节点树结构与字节偏移量的映射关系的示意图:
图18为根据本发明的渲染树结构示意图;以及
图19为根据本发明的电子书渲染XHTML文件的显示结果的示意图。
具体实施方式
现在参考附图介绍本发明的示例性实施方式,然而,本发明可以用许多不同的形式来实施,并且不局限于此处描述的实施例,提供这些实施例是为了详尽地且完全地公开本发明,并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中,相同的单元/元件使用相同的附图标记。
除非另有说明,此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外,可以理解的是,以通常使用的词典限定的术语,应当被理解为与其相关领域的语境具有一致的含义,而不应该被理解为理想化的或过于正式的意义。
EPub电子书是国际通用的电子书格式规范。EPub电子书采用zip压缩。EPub通常的组成内容如图2所示,主要包含:
1、mimetype文件(201部分):文件内容为application/epub+zip,表明EPub电子书文件采用zip压缩。电子书读取软件在读取EPub文件时,需要按zip文件解压方式读取。
2、container.xml文件(202部分):EPub协议规定根目录META-INF文件夹下container.xml文件(如图6所示)描述OPF文件所在相对文件夹路径,电子书读取软件根据该container.xml描述的OPF所在位置取得OPF文件。
3、OEB包格式OPF(开放式电子书OEB(Open eBook)Package Format)文件(203部分):该文件包含了EPub电子书的Meta(元数据)信息(书名、作者和出版社等基础信息)、所有资源文件(XHTML文件、CSS文件、图片和字体等)的描述信息以及指定电子书目录的NCX文件位置,如图7所示。
4、导航控制可扩展标记语言(NCX,Navigation Control Xml(可扩展标记语言))目录文件(204部分):该文件描述EPub电子书的目录层级结构,如图8所示。
5、HTML或者XHTML格式文件(207部分):图2中Text文件夹内可能包含多个XHTML文件,这些文件是Epub电子书的内容,如图9所示为Epub中XHTML文件内容。
6、层叠样式表(CSS,Cascading Style Sheets)样式文件(206部分):该样式文件在XHTML文件示例中<style>节点使用,样式文件主要包含对XHTML文件中内容的修饰排版,图10为一个CSS文件示例。
7、图片(205部分)和字体等资源文件:EPub电子书支持富文本(RichText),包括图片、视频、音频等多媒体文件,同时也支持指定文字显示字体。
EPub电子书用户终端包括但不限于:手机、手持阅读器和平板电脑等。图1为根据本发明的电子书用户终端的工作流程的示意图。如图1所示,工作流程包括:
步骤101,由EPub电子书管理模块主要负责解析已下载至电子书用户终端的文件,根据EPub电子书协议规范,从zip压缩文件中抽取所需要数据,为后续的文件解析模块和排版引擎提供数据。
步骤102,文件解析模块解析HTML或XHTML文件内容,并加载所依赖的CSS样式文件、图片或字体等资源文件,为接下来的排版引擎提供文件数据。
步骤103,EPub电子书排版引擎模块根据HTML或XHTML、CSS样式文件以及图片等资源文件,依照EPub电子书标准,构建DOM节点树、DOM节点与字节偏移量(byteOffset)映射关系,根据DOM节点树和对应的CSS样式,构建出渲染树(RenderTree)结构。
步骤104,在构建好DOM节点与字节偏移量(byteOfffset)映射关系后,用户划线笔记数据加载模块加载从划线笔记服务器下载至电子书用户终端的划线笔记数据,在对应DOM节点中标记,为步骤105展示用户划线笔记做准备。
步骤105,EPub电子书渲染模块根据步骤103构建的渲染树(RenderTree)在电子书用户终端上展示电子书,以及以特殊样式展示用户划线笔记数据。
步骤106,用户划线笔记管理模块提供用户选中文字或图片添加划线笔记、修改和删除划线笔记,再与划线笔记服务器同步数据。
主流的电子书服务架构如图3所示,一般包括:电子书服务器、用户数据(划线笔记、阅读进度等)服务器和电子书用户终端。
EPub电子书整体实施流程包括:
步骤301,打开电子书(电子书应用),例如,用户在电子书用户终端上购买某本电子书后打开该电子书;
步骤302,下载电子书,电子书用户终端收到用户打开电子书操作动作后,向电子书服务器请求下载该本EPub电子书文件到用户终端;
步骤303,同步划线笔记等用户数据,电子书用户终端从划线笔记服务器同步用户该本书的划线笔记数据,如电子书用户终端有未上传的用户划线笔记,则同步到划线笔记服务器;
步骤304,电子书用户终端对EPub解析、排版后展示电子书和展示用户划线笔记,对下载到用户终端的EPub电子书文件,根据EPub电子书格式规范,依次读取mimetype文件、container.xml文件、OPF资源描述文件和HTML或XHTML电子书内容文件,排版引擎根据HTML或XHTML文件、CSS样式文件和资源文件构建DOM节点树结构(如图17),并根据步骤303同步到电子书用户终端的划线笔记数据构建映射表(如图15和17所示),最后对电子书进行排版并展示电子书内容和划线笔记,且读取NCX文件显示EPub电子书目录(电子书用户终端工作流程在后续详细描述)。
步骤305,用户阅读电子书并添加、删除或修改划线笔记,用户阅读电子书,可以选中其中的文字、图片进行划线笔记,或对已有的划线笔记进行修改、删除操作。
步骤306,存储第一划线数据到用户终端,步骤305中用户操作划线笔记对数据修改后,首先存储到电子书用户终端。
步骤307,发送同步添加、修改或删除划线笔记数据请求。
步骤308,划线笔记服务器存储划线笔记数据,将电子书用户终端同步的划线笔记数据保存到划线笔记服务器。
步骤309,用户关闭电子书。
图4为根据本发明的对标记信息进行处理的方法400的流程图。如图4所示,方法400从步骤401处开始。
在步骤401,对待处理的电子文件进行解析以获取与待处理的电子文件相关联的数据内容、样式文件和资源文件。在对待处理的电子文件进行解析之前还包括:从文件服务器获取所述待处理的电子文件,其中所述待处理的电子文件包括数据内容、样式文件和资源文件。
在步骤402,根据数据内容、样式文件和资源文件构建包括多个对象节点的节点树结构,确定每个对象节点与待处理的电子文件中文件内容的单元标识、字节偏移量和字节数量的对应关系,根据节点树结构和样式文件构建包括多个呈现节点的渲染树结构。其中对象节点为文档对象模型节点。
在步骤403,对所获取的标记信息进行解析以确定多个标记项,将多个标记项中的每个标记项与节点树结构中的至少一个对象节点进行关联。所述对所获取的标记信息进行解析以确定多个标记项之前还包括:确定用户的标识符和待处理的电子文件的文件标识,基于用户的标志符和所述文件标识在标记服务器中进行检索以获取与所述电子文件相关联的标记信息。
在步骤404,根据每个标记项的位置信息对节点树结构中相关联的每个对象节点进行标记,并基于对象节点与呈现节点的关联关系确定每个标记项的单元标识、字节偏移量和字节数量。位置信息包括:单元标识、字节偏移量和字节数量。
电子书XHTML文件Offset示例图(图11至图14)中,文件编码均为UTF-8格式,字符内容均为16进制表示。例如,文库开头的字符“<”,十六进制表示为3C,对应十进制为60,二进制表示为00111100;再如中文“你”,它用UTF-8编码需要三个字节表示,即口E4BDA0”三个字节,均为十六进制。
将DOM节点树结构与渲染树(RenderTree)结构进行对比,包括:
1.从图17和图18可以看出,DOM节点树结构与渲染树(RenderTree)结构并非一一对应,如CSS样式为display:none;属性的节点没有出现在Render树结构中,也就是不会绘制到电子书用户终端上;示例中由于使用了float:left和float:right样式,“示例文字段1,它在……”和“示例文字段2,它在……”两个p标签节点的绘制顺序,与DOM节点树结构顺序相反。
2.由于DOM树中节点可能存在display:none样式修饰,且可能由于float等位置限定,所以排版引擎对DOM树重新排版计算后的渲染树(RenderTree)才是最终绘制在电子书用户终端显示设备上的内容。
对划线笔记数据进行定位,包括
1.用户终端加载划线笔记数据:图16和图17中显示,HTML或XHTML文件解析模块建立DOM节点树结构与文件中标签一一对应,并且构建与DOM节点一一对应的字节偏移量(byteOffset)和所占字节数量(byteCount)映射关系,再根据从划线笔记服务器下载到用户终端的划线笔记数据,与映射关系对比,若该条划线笔记数据(字节偏移量和所占字节数量)范围落在该DOM节点,则在渲染时候将该划线笔记以特殊标记(一般为在文字或图片底部添加线条)展示出来。
2.用户在终端选中文字或图片内容,生成划线笔记数据:图16至图19展示了DOM节点树结构与渲染树(RenderTree)结构和电子书最终渲染效果,用户在终端上选中的文字与图片,根据位置找到对应渲染树(RenderTree)所在节点,再找到DOM节点树对应节点,最后根据建立的映射关系,找到用户选中文字或图片对应文件的字节偏移量(byteOffset)或字符偏移量(stringOffset)和选中内容所占字节数(byteCount)或所占字符数(byteCount),生成划线笔记数据。
3.划线笔记数据生成例子:如图9示例的XHTML文件,构建的DOM节点树结构如图16,DOM节点与字节偏移量(byteOffet)映射关系如图17,渲染树(RenderTree)如图18,最终渲染结果为图19,以下为用户选中内容对应生成的划线笔记数据。
1)若选中“Hello”,划线笔记数据表示为byteOffset:284,byteCount:5。
2)若选中“你好世界”,划线笔记数据表示为byteOffset:407,byteCount:12。
3)若选中图片,划线笔记数据表示为byteOffset:1030,byteCount:69。
4)若选中“红色的”,划线笔记数据表示为byteOffset:464,byteCount:9。
在步骤405,获取每个标记项的样式信息,根据样式信息和单元标识对每个标记项进行显示。在根据样式信息和单元标识对每个标记项进行显示之后,还包括:获取用户输入的针对于标记信息的修改信息;确定所述修改信息的类型和修改内容,并根据修改信息的类型和修改内容对标记信息进行修改以生成经过修改的标记信息。
还包括,将所述经过修改的标记信息在本地缓存中进行存储,并且在预定时间后将所述经过修改的标记信息、电子文件的文件标识和用户的标识符发送给标记服务器。还包括,获取经过修改的标记信息的多个标记项,将多个标记项中的每个标记项与节点树结构中的至少一个对象节点进行关联。根据每个标记项的位置信息对节点树结构中相关联的每个对象节点进行标记,并基于对象节点与呈现节点的关联关系确定每个标记项的单元标识、字节偏移量和字节数量;以及获取每个标记项的样式信息,根据样式信息和单元标识对每个标记项进行显示。在获取每个标记项的样式信息后,根据每个标记项的样式信息、单元标识、字节偏移量和字节数量对节点树结构进行更新。还包括,将经过更新的渲染树结构在本地缓存中进行存储。
图5为根据本发明的对标记信息进行处理的系统500的结构示意图。
系统500包括:
解析装置501,对待处理的电子文件进行解析以获取与待处理的电子文件相关联的数据内容、样式文件和资源文件。
生成装置502,根据数据内容、样式文件和资源文件构建包括多个对象节点的节点树结构,确定每个对象节点与待处理的电子文件中文件内容的单元标识、字节偏移量和字节数量的对应关系,根据节点树结构和样式文件构建包括多个呈现节点的渲染树结构。其中对象节点为文档对象模型节点。
关联装置503,对所获取的标记信息进行解析以确定多个标记项,将多个标记项中的每个标记项与节点树结构中的至少一个对象节点进行关联。关联装置503还用于获取经过修改的标记信息的多个标记项,将多个标记项中的每个标记项与节点树结构中的至少一个对象节点进行关联。
标记装置504,根据每个标记项的位置信息对节点树结构中相关联的每个对象节点进行标记,并基于对象节点与呈现节点的关联关系确定每个标记项的单元标识、字节偏移量和字节数量。位置信息包括:单元标识、字节偏移量和字节数量。
显示装置505,获取每个标记项的样式信息,根据样式信息和单元标识量对每个标记项进行显示。
获取装置506,从文件服务器获取所述待处理的电子文件,其中所述待处理的电子文件包括数据内容、样式文件和资源文件。
检索装置507,确定用户的标识符和待处理的电子文件的文件标识,基于用户的标志符和所述文件标识在标记服务器中进行检索以获取与所述电子文件相关联的标记信息。
修改装置508,获取用户输入的针对于标记信息的修改信息;确定所述修改信息的类型和修改内容,并根据修改信息的类型和修改内容对标记信息进行修改以生成经过修改的标记信息。
本地缓存装置509,将所述经过修改的标记信息进行存储,并且在预定时间后将所述经过修改的标记信息、电子文件的文件标识和用户的标识符发送给标记服务器。本地缓存装置509,将经过更新的渲染树结构进行存储。
更新装置510,根据每个标记项的样式信息、单元标识、字节偏移量和字节数量对节点树结构进行更新。
已经通过参考少量实施方式描述了本发明。然而,本领域技术人员所公知的,正如附带的专利权利要求所限定的,除了本发明以上公开的其他的实施例等同地落在本发明的范围内。
通常地,在权利要求中使用的所有术语都根据他们在技术领域的通常含义被解释,除非在其中被另外明确地定义。所有的参考“一个/所述/该[装置、组件等]”都被开放地解释为所述装置、组件等中的至少一个实例,除非另外明确地说明。这里公开的任何方法的步骤都没必要以公开的准确的顺序运行,除非明确地说明。

Claims (20)

1.一种对标记信息进行处理的方法,所述方法包括:
对待处理的电子文件进行解析以获取与待处理的电子文件相关联的数据内容、样式文件和资源文件;
根据数据内容、样式文件和资源文件构建包括多个对象节点的节点树结构,确定每个对象节点与待处理的电子文件中文件内容的单元标识、字节偏移量和字节数量的对应关系,根据节点树结构和样式文件构建包括多个呈现节点的渲染树结构;
对所获取的标记信息进行解析以确定多个标记项,将多个标记项中的每个标记项与节点树结构中的至少一个对象节点进行关联;
根据每个标记项的位置信息对节点树结构中相关联的每个对象节点进行标记,并基于对象节点与呈现节点的关联关系确定每个标记项的单元标识、字节偏移量和字节数量;以及
获取每个标记项的样式信息,根据样式信息和单元标识对每个标记项进行显示。
2.根据权利要求1所述的方法,在对待处理的电子文件进行解析之前还包括:
从文件服务器获取所述待处理的电子文件,其中所述待处理的电子文件包括数据内容、样式文件和资源文件。
3.根据权利要求1所述的方法,其中对象节点为文档对象模型节点。
4.根据权利要求1所述的方法,位置信息包括:单元标识、字节偏移量和字节数量。
5.根据权利要求1所述的方法,所述对所获取的标记信息进行解析以确定多个标记项之前还包括:
确定用户的标识符和待处理的电子文件的文件标识,基于用户的标志符和所述文件标识在标记服务器中进行检索以获取与所述电子文件相关联的标记信息。
6.根据权利要求1所述的方法,在根据样式信息和单元标识对每个标记项进行显示之后,还包括:
获取用户输入的针对于标记信息的修改信息;
确定所述修改信息的类型和修改内容,并根据修改信息的类型和修改内容对标记信息进行修改以生成经过修改的标记信息。
7.根据权利要求6所述的方法,还包括,将所述经过修改的标记信息在本地缓存中进行存储,并且在预定时间后将所述经过修改的标记信息、电子文件的文件标识和用户的标识符发送给标记服务器。
8.根据权利要求6所述的方法,还包括,
获取经过修改的标记信息的多个标记项,将多个标记项中的每个标记项与节点树结构中的至少一个对象节点进行关联;
根据每个标记项的位置信息对节点树结构中相关联的每个对象节点进行标记,并基于对象节点与呈现节点的关联关系确定每个标记项的单元标识、字节偏移量和字节数量;以及
获取每个标记项的样式信息,根据样式信息和单元标识对每个标记项进行显示。
9.根据权利要求1所述的方法,在获取每个标记项的样式信息后,根据每个标记项的样式信息、单元标识、字节偏移量和字节数量对节点树结构进行更新。
10.根据权利要求9所述的方法,还包括,将经过更新的渲染树结构在本地缓存中进行存储。
11.一种对标记信息进行处理的系统,所述系统包括:
解析装置,对待处理的电子文件进行解析以获取与待处理的电子文件相关联的数据内容、样式文件和资源文件;
生成装置,根据数据内容、样式文件和资源文件构建包括多个对象节点的节点树结构,确定每个对象节点与待处理的电子文件中文件内容的单元标识、字节偏移量和字节数量的对应关系,根据节点树结构和样式文件构建包括多个呈现节点的渲染树结构;
关联装置,对所获取的标记信息进行解析以确定多个标记项,将多个标记项中的每个标记项与节点树结构中的至少一个对象节点进行关联;
标记装置,根据每个标记项的位置信息对节点树结构中相关联的每个对象节点进行标记,并基于对象节点与呈现节点的关联关系确定每个标记项的单元标识、字节偏移量和字节数量;以及
显示装置,获取每个标记项的样式信息,根据样式信息和单元标识量对每个标记项进行显示。
12.根据权利要求11所述的系统,还包括获取装置,从文件服务器获取所述待处理的电子文件,其中所述待处理的电子文件包括数据内容、样式文件和资源文件。
13.根据权利要求11所述的系统,其中对象节点为文档对象模型节点。
14.根据权利要求11所述的系统,位置信息包括:单元标识、字节偏移量和字节数量。
15.根据权利要求11所述的系统,还包括检索装置,确定用户的标识符和待处理的电子文件的文件标识,基于用户的标志符和所述文件标识在标记服务器中进行检索以获取与所述电子文件相关联的标记信息。
16.根据权利要求11所述的系统,还包括修改装置,获取用户输入的针对于标记信息的修改信息;确定所述修改信息的类型和修改内容,并根据修改信息的类型和修改内容对标记信息进行修改以生成经过修改的标记信息。
17.根据权利要求16所述的系统,还包括本地缓存装置,将所述经过修改的标记信息进行存储,并且在预定时间后将所述经过修改的标记信息、电子文件的文件标识和用户的标识符发送给标记服务器。
18.根据权利要求16所述的系统,
关联装置还用于获取经过修改的标记信息的多个标记项,将多个标记项中的每个标记项与节点树结构中的至少一个对象节点进行关联。
19.根据权利要求11所述的系统,还包括更新装置,根据每个标记项的样式信息、单元标识、字节偏移量和字节数量对节点树结构进行更新。
20.根据权利要求19所述的系统,还包括本地缓存装置,将经过更新的渲染树结构进行存储。
CN201910931237.4A 2019-09-27 2019-09-27 一种对标记信息进行处理的方法及系统 Active CN110807298B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910931237.4A CN110807298B (zh) 2019-09-27 2019-09-27 一种对标记信息进行处理的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910931237.4A CN110807298B (zh) 2019-09-27 2019-09-27 一种对标记信息进行处理的方法及系统

Publications (2)

Publication Number Publication Date
CN110807298A true CN110807298A (zh) 2020-02-18
CN110807298B CN110807298B (zh) 2023-08-08

Family

ID=69488005

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910931237.4A Active CN110807298B (zh) 2019-09-27 2019-09-27 一种对标记信息进行处理的方法及系统

Country Status (1)

Country Link
CN (1) CN110807298B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111475456A (zh) * 2020-03-06 2020-07-31 北京思维造物信息科技股份有限公司 一种基于动态参数来提供电子文件的方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102789484A (zh) * 2012-06-28 2012-11-21 奇智软件(北京)有限公司 一种网页信息处理方法和装置
CN103635897A (zh) * 2011-06-23 2014-03-12 微软公司 对运行页面进行动态更新
CN103761277A (zh) * 2014-01-09 2014-04-30 北京掌阔技术有限公司 一种ePub电子书的加载方法和系统
KR20140075853A (ko) * 2012-11-30 2014-06-20 주식회사 인프라웨어 전자서적 서비스 제공 장치 및 방법
CN104123269A (zh) * 2014-07-16 2014-10-29 华中科技大学 一种基于模板的出版物半自动生成方法及系统
US9542379B1 (en) * 2012-09-19 2017-01-10 Amazon Technologies, Inc. Synchronizing electronic publications between user devices
US9736515B1 (en) * 2012-06-27 2017-08-15 Amazon Technologies, Inc. Converting digital publications into a format for sending to a user device
US20180196885A1 (en) * 2017-01-06 2018-07-12 Samsung Electronics Co., Ltd Method for sharing data and an electronic device thereof
CN109614504A (zh) * 2018-11-30 2019-04-12 广东大比特网络科技有限公司 一种互联网电子书的管理系统及方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103635897A (zh) * 2011-06-23 2014-03-12 微软公司 对运行页面进行动态更新
US9736515B1 (en) * 2012-06-27 2017-08-15 Amazon Technologies, Inc. Converting digital publications into a format for sending to a user device
CN102789484A (zh) * 2012-06-28 2012-11-21 奇智软件(北京)有限公司 一种网页信息处理方法和装置
US9542379B1 (en) * 2012-09-19 2017-01-10 Amazon Technologies, Inc. Synchronizing electronic publications between user devices
KR20140075853A (ko) * 2012-11-30 2014-06-20 주식회사 인프라웨어 전자서적 서비스 제공 장치 및 방법
CN103761277A (zh) * 2014-01-09 2014-04-30 北京掌阔技术有限公司 一种ePub电子书的加载方法和系统
CN104123269A (zh) * 2014-07-16 2014-10-29 华中科技大学 一种基于模板的出版物半自动生成方法及系统
US20180196885A1 (en) * 2017-01-06 2018-07-12 Samsung Electronics Co., Ltd Method for sharing data and an electronic device thereof
CN109614504A (zh) * 2018-11-30 2019-04-12 广东大比特网络科技有限公司 一种互联网电子书的管理系统及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
丁建飞: "基于语义的电子书交互阅读" *
李亚楠0219: "打造web版epub阅读器(阅读设计)" *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111475456A (zh) * 2020-03-06 2020-07-31 北京思维造物信息科技股份有限公司 一种基于动态参数来提供电子文件的方法及系统
CN111475456B (zh) * 2020-03-06 2023-04-28 北京思维造物信息科技股份有限公司 一种基于动态参数来提供电子文件的方法及系统

Also Published As

Publication number Publication date
CN110807298B (zh) 2023-08-08

Similar Documents

Publication Publication Date Title
US7315867B2 (en) Document processing apparatus, document processing method, document processing program, and recording medium
EP0815517B1 (en) Image data transfer
EP2291010A1 (en) Structure processing method and apparatus for layout file
US20060218492A1 (en) Copy and paste with citation attributes
EP1600862A2 (en) Method and system for mapping content between a starting template and a target template
CN110083805A (zh) 一种将Word文件转换为EPUB文件的方法及系统
US20040205609A1 (en) System and method for generating and formatting a publication
US7240281B2 (en) System, method and program for printing an electronic document
US20190073342A1 (en) Presentation of electronic information
WO2008013720A2 (en) Method and apparatus for font subsetting
JP2003085087A (ja) トランスコーディングシステム、コンテンツ変換方法、アノテーションデータを格納した記録媒体及びアノテーション管理装置
US20100010970A1 (en) Document searching device, document searching method, document searching program
CN111611776B (zh) 一种兼容版流文档内容并支持同步阅读的方法和装置
JP4794127B2 (ja) データ処理方法、データ処理プログラム、およびデータ処理装置
CN110807298B (zh) 一种对标记信息进行处理的方法及系统
US20040181750A1 (en) Exception markup documents
CN112433995A (zh) 文件格式转换方法、系统、计算机设备及存储介质
CN110554996A (zh) 一种epub文件快速打开方法和系统
CN107066437B (zh) 数字作品标注的方法及装置
CN106648618B (zh) 虚拟应用的文本信息生成方法和装置
CN115879417A (zh) 媒体编辑方法、装置、计算机及可读存储介质
CN101464875A (zh) 使用xml表示电子字典数据的方法
CN112752165A (zh) 字幕处理方法、装置、服务器及计算机可读存储介质
US10614134B2 (en) Characteristic content determination device, characteristic content determination method, and recording medium
JP2000081999A (ja) 文書出力システム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant