CN104317949A - 文档片段内容提取方法、装置和系统 - Google Patents

文档片段内容提取方法、装置和系统 Download PDF

Info

Publication number
CN104317949A
CN104317949A CN201410638232.XA CN201410638232A CN104317949A CN 104317949 A CN104317949 A CN 104317949A CN 201410638232 A CN201410638232 A CN 201410638232A CN 104317949 A CN104317949 A CN 104317949A
Authority
CN
China
Prior art keywords
document
fragment
attribute
html
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410638232.XA
Other languages
English (en)
Other versions
CN104317949B (zh
Inventor
张达辉
罗秀春
Original Assignee
BEIJING DETA PUBO SOFTWARE Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING DETA PUBO SOFTWARE Co Ltd filed Critical BEIJING DETA PUBO SOFTWARE Co Ltd
Priority to CN201410638232.XA priority Critical patent/CN104317949B/zh
Publication of CN104317949A publication Critical patent/CN104317949A/zh
Application granted granted Critical
Publication of CN104317949B publication Critical patent/CN104317949B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

一种文档片段内容提取方法、装置和系统,该方法包括:步骤S101,基于HTML标准将文档片段与HTML中的显示标签相映射;步骤S102,对文档片段设置ID属性,对HTML中所有文档内容片段进行标注,所述ID属性用于唯一地标识该片段;步骤S103,建立实现设备屏幕点击事件触发的浏览器脚本,并在生成HTML页面时关联该脚本,生成带有交互功能的HTML页面定义文档;步骤S104,在HTML页面定义文档的片段被点击时,浏览器脚本被触发,根据被点击的片段的ID属性搜索上述HTML页面定义文档以获取片段的内容。本发明实现了通过点击方式提取指定文档片段的内容,将所选取的内容进行拷贝、粘贴等操作。

Description

文档片段内容提取方法、装置和系统
技术领域
本发明涉及文本交互技术,更具体地,涉及一种文档片段内容提取方法、装置和系统。
背景技术
读者在阅读文档和书籍的过程中,会存在与他人沟通和分享的想法,快速内容复制和提取能帮助读者从文档中选择完整的语义片段来进行阅读分享,例如分享到第三方社交平台。使用手机、平板电脑等触屏设备进行分享更为广泛。在其他一些必要的场合,还有对文档中的句子、句段、短语、关键词的鼠标悬停或者打开页面时的高亮显示的操作需求,也需要能快速准确定位到所需文档片断。当前基于HTML页面的信息内容提取并复制操作基本都采用手指滑动选取的方式,滑动选取的过程需要选取起始点和终点。由于部分触屏设备的屏幕分辨率很高,字体也较小,造成手指选取文字的起点和终点的过程非常繁琐,且技术实现交互控制很复杂。
当前互联网页面多采用HTML创建,结构化的描述了文档内容在页面中的显示格式,例如标题、段落和列表等等,也可以在一定程度上描述文档的外观和语义。但缺乏对文档内容本身原有逻辑结构的标记信息,如文档块、段落、句子等文档逻辑结构标记。因此对于基于HTML的页面,无法实现页面中文档内容的基于文档内容逻辑结构进行指定的内容提取和进一步操作。
随着手机和平板应用的普及,大部分阅读系统也采用了HTML技术作为文档的展现形式,利用互联网的优势,将各种内容片段关联起来是提高阅读体验的重要渠道。
发明内容
基于现有技术中存在的问题,本发明提出一种文档片段内容提取方法、装置和系统。该方法在HTML标准的基础上,提出了一种文档内容片段(如文档块、标题、段落、句子)标注方法,形成本发明中的标记语言规范,且通过系统可以自动将页面中文档内容按照标记规范进行内容整理,生成带有交互功能的HTML页面定义文档。进而能够实现任意文档逻辑结构片段的自动选择高亮和内容提取。
本发明的文档片段内容提取方法,包括:步骤S101,基于HTML标准将文档内容的片段与HTML中的显示标签相映射;步骤S102,对文档的片段设置ID属性,用所述ID属性对HTML中的文档内容片段进行标注,所述ID属性用于唯一地标识该片段;步骤S103,建立实现设备屏幕点击事件触发的浏览器脚本,并在生成HTML页面时关联该脚本,生成带有交互功能的HTML页面定义文档;步骤S104,文档的片段被点击时,浏览器脚本被触发,根据被点击的片段的ID属性搜索所述HTML页面定义文档以获取片段的内容。
本发明还提出一种文档片段内容提取装置,包括:映射模块:其设置所述文档的片段的逻辑结构,并将所述逻辑结构与HTML中的显示标签相映射,其中文档中的片段的逻辑结构包括:块、标题、段落、句子、短语、关键词和图片,所述块用于标识文档中的层次结构;标注模块,其对文档的片段设置ID属性,用所述ID属性对HTML中的文档内容片段进行标注,所述ID属性用于唯一地标识该片段;文档交互和生成模块,其建立实现设备屏幕点击事件触发的浏览器脚本,并在生成HTML页面时关联该脚本,生成带有交互功能的HTML页面定义文档;提取模块,其在浏览器脚本被触发后,首先确定意图提取的片段类型,然后根据该片段类型对应的ID属性搜索所述HTML页面定义文档,获取所述ID属性标识的片段的内容。
本发明还提出一种文档片段内容提取系统,包括:映射模块:其基于HTML标准将文档内容的片段与HTML中的显示标签相映射;标注模块,其对文档的片段设置ID属性,用所述ID属性对HTML中的文档内容片段进行标注,所述ID属性用于唯一地标识该片段;文档交互和生成模块,其建立实现设备屏幕点击事件触发的浏览器脚本,并在生成HTML页面时关联该脚本,成为带有交互功能的HTML页面定义文档;请求模块,其在文档的片段被点击时,浏览器脚本被触发,浏览器脚本提取点击片段的ID属性,基于所述ID属性向内容服务器发送一个请求;内容服务器,其根据该ID属性查询对应的标签内容,并返回该文档内容;提取模块,其接收内容服务器返回对应该ID属性的数据内容,从而实现文档片段内容的提取。
本发明将文档的内容分解片段与HTML映射模型相结合,并在生成HTML页面时关联该脚本,成为带有交互功能的HTML页面定义文档。
进一步,与现有技术相比,1)由于HTML文档仅能实现文档的显示方案,无法对应文档内容的逻辑结构,不能直接表达文档内容的逻辑结构关系和内容片段类型(标题、段落,句子,短语词等),所以本发明在HTML文档中实现了将自然文档的内容逻辑结构复原的标注手段,并实现了HTML显示形态到原始文档片段及逻辑结构的映射。从而解决了HTML中文档片段的内容完整性标注的问题。2)内容的选择不再依赖于手指和鼠标的滑动,极大提高内容选择和复制的效率。
进一步,本发明提出的技术方案还提供三种应用形式:1)向公共社交平台分享内容片段及评论。内容的提取不再通过手指滑动选择,而是由屏幕(包括触摸屏)点击事件,自动完成内容的提取,如:段落、句子、图片等。2)通过内容服务器,可以随时验证用户的访问和数据提取权限,并可以根据用户访问的文档片段进行相关的操作,如:相关内容检索,片段评论等功能。
附图说明
图1为本发明方法的一个实施方式的流程图;
图2为本发明方法的又一个实施方式的流程图;
图3为本发明的标注后的文档的内容数据结构图;
图4为文档页面显示图效果图;
图5为桌面WEB浏览器控台调试输出的内容选择情况的示例;
图6为本发明方法的又一个实施方式的流程图;
图7为本发明方法的又一个实施方式的流程图;
图8为本发明装置的结构模块图;
图9为本发明系统的结构模块图。
具体实施方式
本发明的目的是为了实现:基于屏幕点击(含触屏)实现文档片段内容的快速提取,从而可以进一步进行复制到其他应用中。本发明是基于在HTML规范基础之上映射文档内容逻辑结构关系来实现对文档内容结构及其有效内容的范围标注,以及可选地,通过内容服务器来实现关于文档片段的内容片段的相关功能服务。
第一实施方式(单一文档片段类型)
图1显示了本发明的方法的流程图。
在步骤S101,基于HTML标准将文档内容的片段与HTML中的显示标签相映射。
例如,当设定文档的片段为一段落时,可以设定如下映射关系:
文档片段 HTML元素映射使用 显示说明
段落 p 显示为段落,前后换行
在步骤S102,对文档的片段设置ID属性,用所述ID属性对HTML中的文档内容片段进行标注,所述ID属性用于唯一地标识该片段。
所述ID属性是为了区分每一个片段,从而通过该ID属性可以定位每一个片段,当原始文档片段为段落时,可以在HTML中以如下形式表达:
<p class=’css-class’,id=’prefix_para_001’>....</p>。
在步骤S103,建立实现设备屏幕点击事件触发的浏览器脚本,并在生成HTML页面时关联该脚本,生成带有交互功能的HTML页面定义文档。
在步骤S104,文档的片段被点击时,浏览器脚本被触发,根据被点击的片段的ID属性搜索所述HTML页面定义文档以获取片段的内容。
浏览器脚本可以通过定义脚本函数来实现,脚本函数能够获取触屏事件并且实现内容的提取。优选地,终端浏览器功能脚本还实现文档片段选择部分的复制、以及高亮显示。
所述浏览器指的是基于HTML技术实现的浏览器,适用于Android,iOS和桌面网络浏览器。
内容的提取可以通过如下方式实现:脚本函数获取点击操作对应的片段对应的ID属性,根据所述ID属性读取HTML页面定义文档,提取所述ID属性所标识的标签内容,形成可复制的文档内容。
举例而言,当原始文档的片段为段落时,可以生成如下HTML页面定义文档,在HTML中以如下形式表达:
<p class=’css-class’,onclick=’selectSegment(this,event)’,id=’prefix_para_001’>....</p>。
其中,onclick函数为点击操作触发函数。
onclick属性所指向的函数“selectSegment”为屏幕事件选择和复制,脚本也会在带有上述id规则的文档片段上触发。点击事件是触屏设备和电脑的鼠标操作的最基本事件,所有的触屏设备全都支持点击触发事件。当用户点击屏幕中某一的文档片段时,HTML页面的选择函数来实现片段的高亮显示,之后便可提取内容进行复制。也可以通过在内容片段附近设置按钮来实现复制和相关内容的提取操作。
上述实施方式仅是一个示例,针对文档中的标题、段落、句子、词条、多媒体链接、图片等,可以采用相同的方式来实现点击时内容被提取。
第二实施方式(多文档片段类型)
但是,对于一个文档,其结构是多种多样的,文档的逻辑结构单位包括:章、节、段落、图片、标题或句子,或者图片、多媒体链接等,这些都可以认定为片段的一种类型。因此,为了在HTML页面中展现不同类型的文档片段,可以在第一实施方式的基础上进一步改进,如图2所示。
在步骤S201中,设置所述文档的片段的逻辑结构,并将所述逻辑结构与HTML中的显示标签相映射,其中文档中的片段的逻辑结构包括:块、标题、段落、句子、短语、关键词和图片,所述块用于标识文档中的层次结构。
其中,HTML标签映射是采用HTML中的标签用来映射文档中的结构元素(片段)。所述块用于标识文档中的层次结构,所述层次结构例如指文档的章和节,一个文档中由多个块组成,下面的表1显示了一个文档片段的逻辑结构的示例。
表1 文档片段的逻辑结构
在步骤S202中,对文档的片段设置ID属性,用所述ID属性对HTML中的文档内容片段进行标注,所述ID属性用于唯一地标识该片段,所述ID属性包括:片段名称、片段类型、片段序列号。
由于HTML语言不能直接表达文档内容的逻辑结构关系和内容片段类型(标题、段落,句子,短语词等),所以本发明在所有的涉及到文档内容的HTML标签中增加了针方法用途的格式化ID,用来表达原始数据的对应关系,因此所述ID属性为超出HTML标签属性集之外的文档逻辑结构属性。所述ID格式可以是分段式的,例如可以设置为:
ID格式=ID前缀+分隔符+逻辑结构类型+分隔符+唯一序列号,
ID前缀可以取任何名词来区分页面中其他片段类型的ID。如果采用内容服务器方式,ID可以使用一个简单的全局ID即可,文档片段的属性信息保留在服务器端。
ID的作用是:1)确定当前标签的内容是文档逻辑结构内容映射标签;2)标识这个当前内容片段在文档中的结构类型,如段落、句子、标题等。
例如:对于段落,第一个段落的ID:prefix_para_001,第一个段落的ID:prefix_para_002。对于句子,第一个句子的ID:prefix_sentence_001,第二个句子的ID:prefix_sentence_002。
一些仅仅在HTML中用于样式设置和布局的HTML标签,如<div>、<header>、<table>等则不需要增加分段形式ID。对于没有复合该模型分段式id属性的HTML标签的内容,则认为是展现内容做需要的辅助内容。
下面的表格2显示了文档片段的逻辑结构与HTML中的显示标签的映射关系表的一个示例:
表2 文档片段的逻辑结构与HTML显示标签映射关系表
如果原始文档内容为段落,则在HTML中以如下形式表达:
<p class=’css-class’onclick=’selectSegment(this,event)’id=’prefix_para_001’>....</p>。
如果原始文档内容为块,则在HTML中以如下形式表达:
<div class=’css-class’onclick=’selectSegment(this,event)’id=’prefix_block_001’>....</div>。
如果内容为标题则使用下列标签:
<p class=‘css-class‘onclick=’selectSegment(this,event)id=’prefix_chapterTitile_001’>...</p>
其中chapterTitle标明了该标题为一个章节的标题。onclick函数为点击操作触发函数,具体如第一实施方式所述。
如果内容为句子则使用标签:
<span class=‘css-class‘onclick=’selectSegment(this,event)id=’prefix_sentence_XXX’>...</span>。
通常情况下,1)句子、词、短语、链接等行内标签<span>,包含在段落元素<p>中;2)块标签包含在页面的根元素中;3)段落和多媒体标签包含在<div id=’block’>中。
图3显示了标注后的文档的内容数据。
在步骤S203,建立实现设备屏幕点击事件触发的浏览器脚本,并在生成HTML页面时关联该脚本,生成带有交互功能的HTML页面定义文档。
在步骤S204,文档的片段被点击时,浏览器脚本被触发,确定待提取的片段类型,根据该片段类型对应的ID属性搜索所述HTML页面定义文档,获取所述ID属性标识的片段的内容。
具体地,在点击一个文档片段时,有时需要确定提取片断的类型是是一个句子,还是该句子所在的段落,例如可以弹出菜单来供使用者选择。待确定后,获得ID属性,浏览器脚本递归遍历该ID属性对应的片段下所有子片段(参考表1的层次结构关系),并将子片段的显示文本内容拼接起来,以可得到所选择片段的内容文本。
弹出菜单选择的实现属于现有技术,1)在web浏览器端可以使用浮动的div跟踪鼠标位置来实现;2)在触屏设备端可以使用设备操作系统带有的功能来完成菜单的设计。弹出菜单的实现算法为,从所点击的片段ID开始向上寻找带有该ID规则的文档片段,直到文档的根节点,所得出的ID序列即为菜单项。根据这个ID序列来创建上下文菜单,即可提示用户所选的片段范围。
如果是图片,则得到图片的设备访问URL路径。特别地,在触屏设备的Web浏览器中,需要调用设备相关的API接口来向触屏设备传递所选择的文档片段的内容到剪贴板中。
图4显示了生成的HTML标注文档,图5显示了文档片段被点击后的效果示意图。
第三实施方式(拓展应用)
基于第一、第二实施方式,提取文档片段的内容后,可以容易地将该内容复制到第三方应用中。在触屏设备中,该应用形式需要使用设备中的API将提取的内容复制到设备剪贴板。复制的过程不再使用手指划取方式,而是点击一次即可弹出复制上下文菜单,或者按钮,将所选内容片段复制到系统剪贴板,用户可以启动邮件工具、记事本工具等各种文字编辑软件进行粘贴、内容评论及回答。
或者,利用社交网络平台提供的SDK开发接口,提取内容片段并发送至社交网络分享平台,例如微信、微博等,从而实现内容片段的快速分享。该方法可以广泛用于开发移动应用,但本发明不限于目前所描述的应用形式。
第四实施方式(拓展应用)
进一步,本方法还可以用于ePub电子书生成。如果采用该方法所描述HTML模型,按照出版物的结构目录打包生成ePub电子阅读格式。则文档片段内容复制和提供仍然有效。本发明不限于ePub格式,ePub是基于HTML文档的一种电子图书打包格式标准。
第五实施方式(远程提取方法)
如图6所示,本发明还提出一种基于服务器端的文档片段的内容获取方法,包括:
步骤S501,基于HTML标准将文档内容的片段与HTML中的显示标签相映射。
步骤S502,对文档的片段设置ID属性,用所述ID属性对HTML中的文档内容片段进行标注,所述ID属性用于唯一地标识该片段。
步骤S503,建立实现设备屏幕点击事件触发的浏览器脚本,并在生成HTML页面时关联该脚本,生成带有交互功能的HTML页面定义文档。
步骤S504,HTML页面定义文档的片段被点击时,浏览器脚本被触发,浏览器脚本提取点击片段的ID属性,基于所述ID属性向内容服务器发送一个请求。
步骤S505,浏览器脚本接收内容服务器返回的对应该ID属性的数据内容,从而实现文档片段内容的提取。
具体地,在内容服务器端,内容服务器根据该ID属性查询对应的标签内容,并返回该文档片段内容。
基于服务器的方式,主要用于提供web网站和移动设备如下功能:1)除提取内容之外,仍需要从其他数据源提供各种其他相关信息的情况,如:相关片段,详细解释,图片,作者等附加信息。2)根据用户的身份认证来控制用户的文档复制权限以及对内容提取进行记录。3)内容服务器上可存储提取内容的相关附加信息(如片断相关的评论信息),提取文档片断内容时,可同时或单独提取该片断的附加信息。
基于服务器方式,在服务端存储文档片段内容的各种载体形式,当用户提取内容以及相关查询操作的请求时,则由服务器响应用户的操作结果。例如:1)当用户提取内容时,由服务器端对用户进行认证,如果该用户具有相关片段的访问权限,则用户可以得到该内容片段的字符序列和图片等多媒体文档的URL链接,如果是多媒体文件可以允许用户的到高精度的图片,而页面中可以使用低精度图片或者链接。2)服务器端访问方式还可以允许用户获得该片段的不同格式的内容。服务器端可以预先存储该片段的其他格式版本,或者动态临时转换成用户所需的内容片段载体形式,如PDF,图片等。
第六实施方式(远程提取方法)
第六实施方式为第二实施方式与第五实施方式的结合。如图7所示,该方法包括:
步骤S601,设置所述文档的片段的逻辑结构,并将所述逻辑结构与HTML中的显示标签相映射,其中文档中的片段的逻辑结构包括:块、标题、段落、句子、短语、关键词和图片,所述块用于标识文档中的层次结构。
步骤S602,对文档的片段设置ID属性,用所述ID属性对HTML中的文档内容片段进行标注,所述ID属性用于唯一地标识该片段,所述ID属性包括:片段名称、片段类型、片段序列号。
步骤S603,建立实现设备屏幕点击事件触发的浏览器脚本,并在生成HTML页面时关联该脚本,生成带有交互功能的HTML页面定义文档。
步骤S604,文档的片段被点击时,浏览器脚本被触发,确定待提取的片段类型,根据该片段类型对应的ID属性向内容服务器发送一个请求。
步骤S605,浏览器脚本接收内容服务器返回的对应该ID属性的数据内容,从而实现文档片段内容的提取。
确定待提取的片段类型,根据该片段类型对应的ID属性搜索所述HTML页面定义文档,获取所述ID属性标识的片段的内容
具体地,在内容服务器端,内容服务器根据该ID属性递归遍历该ID属性对应的片段下所有子片段(参考表1的层次结构关系),并将子片段的显示文本内容拼接起来,得到所选择片段的内容文本。
服务器端读取方式核心实现机制,可使用Ajax或者Servlet向服务器发送HTTP GET/POST请求并传送参数ID到内容服务器。由Ajax或者Servlet对象返回内容字符串形式,可以采用JSON返回形式,也可以采用XML和字符串返回等形式。服务器端可以采用结构化文档存储方式,如XML或者采用关系型采用数据库字段以及文件等。
第七实施方式(文档片段提取装置)
如图8所示,本发明还提供一种文档片段提取装置,所述装置包括:
映射模块:其基于HTML标准将文档内容的片段与HTML中的显示标签相映射;
标注模块,其对文档的片段设置ID属性,用所述ID属性对HTML中的文档内容片段进行标注,所述ID属性用于唯一地标识该片段;
文档交互和生成模块,其建立实现设备屏幕点击事件触发的浏览器脚本,并在生成HTML页面时关联该脚本,生成带有交互功能的HTML页面定义文档;
提取模块,其在文档片段被点击时触发所述浏览器脚本,根据被点击的片段的ID属性搜索所述HTML页面定义文档以获取片段的内容。
更具体地细节与第一实施方式相同,再次不再赘述。
本发明还提供另一种文档片段提取装置,包括:
映射模块:其设置所述文档的片段的逻辑结构,并将所述逻辑结构与HTML中的显示标签相映射,其中文档中的片段的逻辑结构包括:块、标题、段落、句子、短语、关键词和图片,所述块用于标识文档中的层次结构;
标注模块,其对文档的片段设置ID属性,用所述ID属性对HTML中的文档内容片段进行标注,所述ID属性用于唯一地标识该片段,所述ID属性包括:片段名称、片段类型、片段序列号;
文档交互和生成模块,建立实现设备屏幕点击事件触发的浏览器脚本,并在生成HTML页面时关联该脚本,生成带有交互功能的HTML页面定义文档;
提取模块,其在文档的片段被点击时触发浏览器脚本,确定待提取的片段类型,根据该片段类型对应的ID属性搜索所述HTML页面定义文档,获取所述ID属性标识的片段的内容。更具体地细节与第二实施方式相同,再次不再赘述。
第八实施方式(文档片段提取系统)
如图9所示,本发明还提供一种文档片段提取系统,所述系统包括:
映射模块:其基于HTML标准将文档内容的片段与HTML中的显示标签相映射;
标注模块,其对文档的片段设置ID属性,用所述ID属性对HTML中的文档内容片段进行标注,所述ID属性用于唯一地标识该片段;
文档交互和生成模块,其建立实现设备屏幕点击事件触发的浏览器脚本,并在生成HTML页面时关联该脚本,生成带有交互功能的HTML页面定义文档;
请求模块,其在文档的片段被点击时,浏览器脚本被触发,浏览器脚本提取点击片段的ID属性,基于所述ID属性向内容服务器发送一个请求;
内容服务器,其根据该ID属性查询对应的标签内容,并返回该文档内容;
提取模块,其接收内容服务器返回对应该ID属性的数据内容,从而实现文档片段内容的提取。
更具体地细节与第五实施方式相同,再次不再赘述。
另外,所述系统还可以包括epub电子书生成模块,其基于文档交互和生成模块生成的HTML页面定义文档,按照出版物的结构目录打包生成ePub电子书。
本发明还提供一种文档片段提取系统,所述系统包括:
映射模块:设置所述文档的片段的逻辑结构,并将所述逻辑结构与HTML中的显示标签相映射,其中文档中的片段的逻辑结构包括:块、标题、段落、句子、短语、关键词和图片,所述块用于标识文档中的层次结构;
标注模块,其对文档的片段设置ID属性,用所述ID属性对HTML中的文档内容片段进行标注,所述ID属性用于唯一地标识该片段,所述ID属性包括:片段名称、片段类型、片段序列号;
文档交互和生成模块,其建立实现设备屏幕点击事件触发的浏览器脚本,并在生成HTML页面时关联该脚本,生成带有交互功能的HTML页面定义文档;
请求模块,其在文档的片段被点击时,触发浏览器脚本,确定待提取的片段类型,根据该片段类型对应的ID属性向内容服务器发送一个请求;
内容服务器,其根据该ID属性递归遍历该ID属性对应的片段下所有子片段,并将子片段的显示文本内容拼接起来,得到所选择片段的内容,并返回该内容;
提取模块,其接收内容服务器返回的对应该ID属性的内容,从而实现文档片段内容的提取。
请求模块可使用Ajax或者Servlet向服务器发送HTTP GET/POST请求并传送参数ID到内容服务器。
更具体地细节与第六实施方式相同,再次不再赘述。
进一步,所述系统还可以包括分享模块,其通过设备中的API接口将提取的内容复制到设备剪贴板,或者,通过社交网络平台提供的SDK开发接口,将提取的内容片段发送至社交网络分享平台。
进一步,所述系统还可以包括epub电子书生成模块,其基于文档交互和生成模块生成的HTML页面定义文档,按照出版物的结构目录打包生成ePub电子书。
虽然已经结合目前被认为可行的示例性实施方式描述了本发明,但是将理解,本发明不限于所公开的示例性实施方式,而是相反地,本发明的各实施方式可以相互组合,本发明旨在覆盖被包括在权利要求书的精神和范围内的各种变形和等同布置。

Claims (17)

1.一种文档片段内容提取方法,其特征在于,包括:
步骤S101,基于HTML标准将文档内容的片段与HTML中的显示标签相映射;
步骤S102,对文档的片段设置ID属性,用所述ID属性对HTML中的文档内容片段进行标注,所述ID属性用于唯一地标识该片段;
步骤S103,建立实现设备屏幕点击事件触发的浏览器脚本,并在生成HTML页面时关联该脚本,生成带有交互功能的HTML页面定义文档;
步骤S104,HTML页面定义文档的片段被点击时,浏览器脚本被触发,根据被点击的片段的ID属性搜索所述HTML页面定义文档以获取片段的内容。
2.一种文档片段内容提取方法,其特征在于,包括:
步骤S101,设置所述文档的片段的逻辑结构,并将所述逻辑结构与HTML中的显示标签相映射,其中文档中的片段的逻辑结构包括:块、标题、段落、句子、短语、关键词和图片,所述块用于标识文档中的层次结构;
步骤S102,对文档的片段设置ID属性,用所述ID属性对HTML中的文档内容片段进行标注,所述ID属性用于唯一地标识该片段;
步骤S103,建立实现设备屏幕点击事件触发的浏览器脚本,并在生成HTML页面时关联该脚本,生成带有交互功能的HTML页面定义文档;
步骤S104,浏览器脚本被触发后,首先确定待提取的片段类型,然后根据该片段类型对应的ID属性搜索所述HTML页面定义文档,获取所述ID属性标识的片段的内容。
3.一种文档片段内容提取方法,其特征在于,包括:
步骤S101,基于HTML标准将文档内容的片段与HTML中的显示标签相映射;
步骤S102,对文档的片段设置ID属性,用所述ID属性对HTML中的文档内容片段进行标注,所述ID属性用于唯一地标识该片段;
步骤S103,建立实现设备屏幕点击事件触发的浏览器脚本,并在生成HTML页面时关联该脚本,生成带有交互功能的HTML页面定义文档;
步骤S104,HTML页面定义文档的片段被点击时,浏览器脚本被触发,浏览器脚本提取点击片段的ID属性,基于所述ID属性向内容服务器发送一个请求;
步骤S105,浏览器脚本接收内容服务器返回的对应该ID属性的数据内容,从而实现文档片段内容的提取。
4.一种文档片段内容提取方法,其特征在于,包括:
步骤S101,设置所述文档的片段的逻辑结构,并将所述逻辑结构与HTML中的显示标签相映射,其中文档中的片段的逻辑结构包括:块、标题、段落、句子、短语、关键词和图片,所述块用于标识文档中的层次结构;
步骤S102中,对文档的片段设置ID属性,用所述ID属性对HTML中的文档内容片段进行标注,所述ID属性用于唯一地标识该片段;
步骤S603,建立实现设备屏幕点击事件触发的浏览器脚本,并在生成HTML页面时关联该脚本,生成带有交互功能的HTML页面定义文档;
步骤S104中,浏览器脚本被触发后,首先确定待提取的片段类型,然后提取点击片段的ID属性,基于所述ID属性向内容服务器发送一个请求;
步骤S605,浏览器脚本接收内容服务器返回的对应该ID属性的数据内容,从而实现文档片段内容的提取。
5.根据权利要求1-4中任一项所述的文档片段内容提取方法,其特征在于,所述片段为段落、图片、标题或句子,所述ID属性为超出HTML标签属性集之外的文档逻辑结构属性,所述ID属性包括:片段名称、片段类型和片段序列号。
6.根据权利要求2或4所述的文档片段内容提取方法,其特征在于,在步骤104中,通过在所述HTML定义文档上弹出包括多种片段类型的菜单来确定待提取的片段类型。
7.根据权利要求2或4所述的文档片段内容提取方法,其特征在于,在步骤S104中,在内容服务器端,内容服务器根据该ID属性查询对应的标签内容,并返回该文档片段内容。
8.根据权利要求1-4中任一项所述的文档片段内容提取方法,其特征在于,还包括:通过设备中的API接口将提取的内容复制到设备剪贴板,或者,通过社交网络平台提供的SDK开发接口,将提取的内容片段发送至社交网络分享平台。
9.根据权利要求1-4中任一项所述的文档片段内容提取方法,其特征在于,还包括:按照出版物的结构目录将所述HTML页面定义文档打包生成ePub电子阅读格式。
10.一种文档片段内容提取装置,其特征在于,包括:
映射模块:其基于HTML标准将文档内容的片段与HTML中的显示标签相映射;
标注模块,其对文档的片段设置ID属性,用所述ID属性对HTML中的文档内容片段进行标注,所述ID属性用于唯一地标识该片段;
文档交互和生成模块,其建立实现设备屏幕点击事件触发的浏览器脚本,并在生成HTML页面时关联该脚本,生成带有交互功能的HTML页面定义文档;
提取模块,其在文档片段被点击时触发所述浏览器脚本,根据被点击的片段的ID属性搜索所述HTML页面定义文档以获取片段的内容。
11.一种文档片段内容提取装置,其特征在于,包括:
映射模块:其设置所述文档的片段的逻辑结构,并将所述逻辑结构与HTML中的显示标签相映射,其中文档中的片段的逻辑结构包括:块、标题、段落、句子、短语、关键词和图片,所述块用于标识文档中的层次结构;
标注模块,其对文档的片段设置ID属性,用所述ID属性对HTML中的文档内容片段进行标注,所述ID属性用于唯一地标识该片段;
文档交互和生成模块,其建立实现设备屏幕点击事件触发的浏览器脚本,并在生成HTML页面时关联该脚本,生成带有交互功能的HTML页面定义文档;
提取模块,其在浏览器脚本被触发后,首先确定待提取的片段类型,然后根据该片段类型对应的ID属性搜索所述HTML页面定义文档,获取所述ID属性标识的片段的内容。
12.一种文档片段内容提取系统,其特征在于,包括:
映射模块:其基于HTML标准将文档内容的片段与HTML中的显示标签相映射;
标注模块,其对文档的片段设置ID属性,用所述ID属性对HTML中的文档内容片段进行标注,所述ID属性用于唯一地标识该片段;
文档交互和生成模块,其建立实现设备屏幕点击事件触发的浏览器脚本,并在生成HTML页面时关联该脚本,成为带有交互功能的HTML页面定义文档;
请求模块,其在文档的片段被点击时,浏览器脚本被触发,浏览器脚本提取点击片段的ID属性,基于所述ID属性向内容服务器发送一个请求;
内容服务器,其根据该ID属性查询对应的标签内容,并返回该文档内容;
提取模块,其接收内容服务器返回对应该ID属性的数据内容,从而实现文档片段内容的提取。
13.一种文档片段内容提取系统,其特征在于,包括:
映射模块:设置所述文档的片段的逻辑结构,并将所述逻辑结构与HTML中的显示标签相映射,其中文档中的片段的逻辑结构包括:块、标题、段落、句子、短语、关键词和图片,所述块用于标识文档中的层次结构;
标注模块,其对文档的片段设置ID属性,用所述ID属性对HTML中的文档内容片段进行标注,所述ID属性用于唯一地标识该片段;
文档交互和生成模块,其建立实现设备屏幕点击事件触发的浏览器脚本,并在生成HTML页面时关联该脚本,生成带有交互功能的HTML页面定义文档;
请求模块,其在文档的片段被点击时,触发浏览器脚本,确定待提取的片段类型,根据该片段类型对应的ID属性向内容服务器发送一个请求;
内容服务器,其根据该ID属性递归遍历该ID属性对应的片段下所有子片段,并将子片段的显示文本内容拼接起来,得到所选择片段的内容,并返回该内容;
提取模块,其接收内容服务器返回对应该ID属性的内容,从而实现文档片段内容的提取。
14.根据权利要求10-13中任一项所述的文档片段内容提取装置或系统,其特征在于,所述片段为段落、图片、标题或句子,所述ID属性为超出HTML标签属性集之外的文档逻辑结构属性,所述ID属性包括:片段名称、片段类型和片段序列号。
15.根据权利要求11或13所述的文档片段内容提取装置或系统,其特征在于,所述提取模块被配置为通过在所述HTML定义文档上弹出包括多种片段类型的菜单来确定待提取的片段类型。
16.根据权利要求10-13中任一项所述的文档片段内容提取装置或系统,其特征在于,还包括:分享模块,其通过设备中的API接口将提取的内容复制到设备剪贴板,或者,通过社交网络平台提供的SDK开发接口,将提取的内容片段发送至社交网络分享平台。
17.根据权利要求10-13中任一项所述的文档片段内容提取装置或系统,其特征在于,还包括:ePub电子书生成模块,其按照出版物的结构目录将所述HTML页面定义文档打包生成ePub电子阅读格式。
CN201410638232.XA 2014-11-06 2014-11-06 文档片段内容提取方法、装置和系统 Expired - Fee Related CN104317949B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410638232.XA CN104317949B (zh) 2014-11-06 2014-11-06 文档片段内容提取方法、装置和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410638232.XA CN104317949B (zh) 2014-11-06 2014-11-06 文档片段内容提取方法、装置和系统

Publications (2)

Publication Number Publication Date
CN104317949A true CN104317949A (zh) 2015-01-28
CN104317949B CN104317949B (zh) 2017-12-08

Family

ID=52373181

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410638232.XA Expired - Fee Related CN104317949B (zh) 2014-11-06 2014-11-06 文档片段内容提取方法、装置和系统

Country Status (1)

Country Link
CN (1) CN104317949B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105468697A (zh) * 2015-11-18 2016-04-06 成都优译信息技术有限公司 用于翻译教学系统的自动定位方法
CN106649309A (zh) * 2015-10-29 2017-05-10 重庆邮电大学 信息处理方法和装置、信息显示方法和装置
CN106844672A (zh) * 2017-01-22 2017-06-13 青岛海信电器股份有限公司 一种文档中附件文件的下载方法和设备
CN106909296A (zh) * 2016-06-07 2017-06-30 阿里巴巴集团控股有限公司 数据的提取方法、装置及终端设备
CN107368472A (zh) * 2017-07-26 2017-11-21 成都科来软件有限公司 一种可迭代优化的文档分析结果的保存方法
CN109117231A (zh) * 2018-08-16 2019-01-01 福建天泉教育科技有限公司 Android应用的界面布局方法、存储介质
CN110209882A (zh) * 2018-02-11 2019-09-06 鼎复数据科技(北京)有限公司 一种用于文本标记的快速映射方法
CN110765256A (zh) * 2019-12-24 2020-02-07 杭州实在智能科技有限公司 一种在线法律咨询自动回复的生成方法与设备
CN111046629A (zh) * 2019-12-16 2020-04-21 北大方正集团有限公司 大纲显示方法、装置及设备
CN112000257A (zh) * 2019-05-27 2020-11-27 珠海金山办公软件有限公司 一种文档重点内容的导出方法及装置
CN112269519A (zh) * 2020-10-10 2021-01-26 维沃移动通信有限公司 文档处理方法、装置及电子设备
CN112422569A (zh) * 2020-11-19 2021-02-26 全知科技(杭州)有限责任公司 一种系统页面还原与可视化交互方法
CN113238686A (zh) * 2021-04-20 2021-08-10 维沃移动通信(杭州)有限公司 文档处理方法、装置和电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070055885A1 (en) * 2005-09-08 2007-03-08 Canon Kabushiki Kaisha Information processing apparatus, information processing method, and computer readable storage medium
CN101079059A (zh) * 2007-03-27 2007-11-28 腾讯科技(深圳)有限公司 一种保存网页内容的系统、方法及浏览器
CN101611397A (zh) * 2007-02-15 2009-12-23 微软公司 基于应用程序的复制和粘贴操作
CN101739415A (zh) * 2008-11-25 2010-06-16 华中师范大学 一种面向浏览器的网页标注系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070055885A1 (en) * 2005-09-08 2007-03-08 Canon Kabushiki Kaisha Information processing apparatus, information processing method, and computer readable storage medium
CN101611397A (zh) * 2007-02-15 2009-12-23 微软公司 基于应用程序的复制和粘贴操作
CN101079059A (zh) * 2007-03-27 2007-11-28 腾讯科技(深圳)有限公司 一种保存网页内容的系统、方法及浏览器
CN101739415A (zh) * 2008-11-25 2010-06-16 华中师范大学 一种面向浏览器的网页标注系统

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649309B (zh) * 2015-10-29 2020-10-23 重庆邮电大学 信息处理方法和装置、信息显示方法和装置
CN106649309A (zh) * 2015-10-29 2017-05-10 重庆邮电大学 信息处理方法和装置、信息显示方法和装置
CN105468697A (zh) * 2015-11-18 2016-04-06 成都优译信息技术有限公司 用于翻译教学系统的自动定位方法
CN106909296A (zh) * 2016-06-07 2017-06-30 阿里巴巴集团控股有限公司 数据的提取方法、装置及终端设备
US11175820B2 (en) 2016-06-07 2021-11-16 Advanced New Technologies Co., Ltd. Method, device, and terminal device for extracting data
CN106844672A (zh) * 2017-01-22 2017-06-13 青岛海信电器股份有限公司 一种文档中附件文件的下载方法和设备
CN107368472A (zh) * 2017-07-26 2017-11-21 成都科来软件有限公司 一种可迭代优化的文档分析结果的保存方法
CN107368472B (zh) * 2017-07-26 2021-01-05 成都科来软件有限公司 一种可迭代优化的文档分析结果的保存方法
CN110209882A (zh) * 2018-02-11 2019-09-06 鼎复数据科技(北京)有限公司 一种用于文本标记的快速映射方法
CN109117231A (zh) * 2018-08-16 2019-01-01 福建天泉教育科技有限公司 Android应用的界面布局方法、存储介质
CN112000257A (zh) * 2019-05-27 2020-11-27 珠海金山办公软件有限公司 一种文档重点内容的导出方法及装置
CN111046629A (zh) * 2019-12-16 2020-04-21 北大方正集团有限公司 大纲显示方法、装置及设备
CN111046629B (zh) * 2019-12-16 2022-03-01 北大方正集团有限公司 大纲显示方法、装置及设备
CN110765256B (zh) * 2019-12-24 2020-07-07 杭州实在智能科技有限公司 一种在线法律咨询自动回复的生成方法与设备
CN110765256A (zh) * 2019-12-24 2020-02-07 杭州实在智能科技有限公司 一种在线法律咨询自动回复的生成方法与设备
CN112269519A (zh) * 2020-10-10 2021-01-26 维沃移动通信有限公司 文档处理方法、装置及电子设备
CN112269519B (zh) * 2020-10-10 2022-04-12 维沃移动通信有限公司 文档处理方法、装置及电子设备
CN112422569A (zh) * 2020-11-19 2021-02-26 全知科技(杭州)有限责任公司 一种系统页面还原与可视化交互方法
CN113238686A (zh) * 2021-04-20 2021-08-10 维沃移动通信(杭州)有限公司 文档处理方法、装置和电子设备
CN113238686B (zh) * 2021-04-20 2023-11-03 维沃移动通信(杭州)有限公司 文档处理方法、装置和电子设备

Also Published As

Publication number Publication date
CN104317949B (zh) 2017-12-08

Similar Documents

Publication Publication Date Title
CN104317949A (zh) 文档片段内容提取方法、装置和系统
US11294968B2 (en) Combining website characteristics in an automatically generated website
US10387520B2 (en) Online publication system and method
KR101120301B1 (ko) 지속 저장 포탈
KR100490734B1 (ko) 주석기반 문서 자동 생성장치 및 방법
US20120030553A1 (en) Methods and systems for annotating web pages and managing annotations and annotated web pages
US20130305149A1 (en) Document reader and system for extraction of structural and semantic information from documents
CN101739415A (zh) 一种面向浏览器的网页标注系统
US9639518B1 (en) Identifying entities in a digital work
CN103246710A (zh) 一种多媒体旅游游记的自动生成方法及装置
Khalili et al. Wysiwym authoring of structured content based on schema. org
US10002117B1 (en) Translating annotation tags into suggested markup
TW200422874A (en) Graphical feedback for semantic interpretation of text and images
WO2013146394A1 (en) Information processing terminal and method, and information management apparatus and method
US20170109442A1 (en) Customizing a website string content specific to an industry
CN104142985A (zh) 一种半自动化的垂直爬虫生成工具及方法
Luczak-Rösch et al. Linked Data Authoring for Non-Experts.
Mika Microsearch: An Interface for Semantic Search.
Li et al. Synote: development of a Web-based tool for synchronized annotations
JP2019197381A (ja) 判決文データベースの作成方法、判決文データベースの検索方法、文作成方法、判決文データベースの作成装置、判決文データベースの検索装置、文作成装置、判決文データベースの作成プログラム、判決文データベースの検索プログラム、および文作成プログラム
KR101224128B1 (ko) 회의록 문서 생성 및 검색 시스템
Klebeck et al. Ontosfeeder–a versatile semantic context provider for web content authoring
Lucarelli et al. Florence–Washington Round Trip: Ways and Intersections between Semantic Indexing Tools in Different Languages
Kásler et al. Framework for semi automatically generating topic maps
Roßner et al. Demonstration of Weblinks: A rich linking layer over the web

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20190701

Address after: 100012 Unit 702, Building 3, Wangchunyuan 17, Beiyuan Home, Chaoyang District, Beijing

Patentee after: Luo Xiuchun

Address before: 100000 Floor 10, 1022, Building 10, No. 1 Courtyard, Jinfang Road, Chaoyang District, Beijing

Patentee before: BEIJING DETA PUBO SOFTWARE CO., LTD.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20171208

Termination date: 20191106