CN104331390A - 一种筛选文本的方法及装置 - Google Patents
一种筛选文本的方法及装置 Download PDFInfo
- Publication number
- CN104331390A CN104331390A CN201410658708.6A CN201410658708A CN104331390A CN 104331390 A CN104331390 A CN 104331390A CN 201410658708 A CN201410658708 A CN 201410658708A CN 104331390 A CN104331390 A CN 104331390A
- Authority
- CN
- China
- Prior art keywords
- text element
- attribute
- text
- electronic document
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012216 screening Methods 0.000 title claims abstract description 46
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000001914 filtration Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 230000002452 interceptive effect Effects 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 238000007373 indentation Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
Landscapes
- User Interface Of Digital Computer (AREA)
Abstract
本发明的实施方式提供了一种筛选文本的方法。例如,该方法可以包括:对电子文档中的文本元素进行解析,得到所述文本元素的属性;根据所述文本元素的属性,从所述文本元素中筛选出属性符合属性筛选规则的文本元素。通过从文本元素中筛选出属性符合属性筛选规则的文本元素,本发明的方法使得用户可以得到具有该特定属性的文本元素的集合,无需反复执行复制、切换文档、粘贴的操作,用户操作简单,而且终端无需与用户进行大量的交互操作,提高了终端运行效率。此外,本发明的实施方式提供了一种筛选文本的装置。
Description
技术领域
本发明的实施方式涉及文本处理领域,更具体地,本发明的实施方式涉及一种筛选文本的方法及装置。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
随着各种格式的文档阅读器的出现,给人们阅读和编辑电子文档带来了很大方便。当用户看到电子文档中喜欢的一条文本内容时,可以通过这些文档阅读器中提供的复制功能,复制这条文本内容。当切换到另一电子文档页面时,可以将复制出的文本内容粘贴到另一电子文档中。例如,人们可以通过微软提供的办公软件自带的WORD工具浏览、新建、编辑WORD文档。还可以利用WORD工具提供的复制功能复制出一条文本内容。当切换到另一WORD或TXT文档页面时,将复制出的这条文本内容粘贴到另一WORD或TXT文档中。
发明内容
但是,当用户喜欢的内容分散地出现在电子文档中时,用户只能反复执行复制、切换文档、粘贴的操作,导致用户操作复杂,而且运行文档阅读器的终端需要与用户进行大量的交互操作,降低了终端运行效率。
因此在现有技术中,如何在电子文档中高效率地筛选出用户喜欢的文本内容是非常令人烦恼的问题。
为此,非常需要一种筛选文本的方法及装置,以实现高效率地筛选出用户喜欢的文本的目的。
在本上下文中,本发明的实施方式期望提供一种筛选文本的方法及装置。
在本发明实施方式的第一方面中,提供了一种筛选文本的方法。例如,该方法可以包括:对电子文档中的文本元素进行解析,得到所述文本元素的属性,根据所述文本元素的属性,从所述文本元素中筛选出属性符合属性筛选规则的文本元素。
在本发明实施方式的第二方面中,提供了一种筛选文本的装置。例如,该装置可以包括:解析单元,可以配置用于对电子文档中的文本元素进行解析,得到所述文本元素的属性。筛选单元,可以配置用于根据所述文本元素的属性,从所述文本元素中筛选出属性符合属性筛选规则的文本元素。
根据本发明实施方式的筛选文本的方法及装置,可以对电子文档中的文本元素进行解析,得到文本元素的例如高亮、下划线等属性,因此,根据文本元素的属性,可以从文本元素中筛选出属性符合属性筛选规则的文本元素。对于用户来说,在阅读文档过程中对喜欢的文本元素添加某特定属性后,可以得到具有该特定属性的文本元素的集合,无需反复执行复制、切换文档、粘贴的操作,用户操作简单,而且终端无需与用户进行大量的交互操作,提高了终端运行效率。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
图1示意性地示出了根据本发明实施方式的应用场景示意图;
图2示意性地示出了根据本发明实施方式的筛选文本的方法的流程示意图;
图3示意性地示出了根据本发明一实施例的电子文档组成示意图;
图4示意性地示出了根据本发明再一实施例的文本元素及文本元素属性示意图;
图5示意性地示出了根据本发明实施方式的筛选文本的装置的结构示意图;
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
根据本发明的实施方式,提出了一种筛选文本的方法及装置。
在本文中,需要理解的是,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
下面参考本发明的若干代表性实施方式,详细阐释本发明的原理和精神。
发明概述
本发明人发现,用户通常会在阅读电子文档过程中对自己喜欢的文本添加某些属性,例如,添加高亮、下划线等字体。如果能够对电子文档中的文本元素进行解析,则可以得到文本元素的例如高亮、下划线等属性。根据文本元素的属性,可以从文本元素中筛选出属性符合属性筛选规则的文本元素。例如,筛选出具有高亮字体属性的文本。因此,用户在阅读文档过程中添加某些属性后,可以筛选出具有该特定属性的文本元素的集合,无需反复执行复制、切换文档、粘贴的操作,用户操作简单,而且终端无需与用户进行大量的交互操作,提高了终端运行效率。
在介绍了本发明的基本原理之后,下面具体介绍本发明的各种非限制性实施方式。
应用场景总览
首先参考图1,界面示意图101为利用word工具阅读word文档的界面示意图。本发明实施例提供的方法可以应用于图1所示word工具中。当用户想从word文档中得到高亮文本时,可以通过应用本发明实施例提供的方法的word工具对word文档中文本元素进行解析,得到其中文本元素的属性,根据文本元素的属性,从word文档的文本元素中筛选出具有高亮字体属性的文本元素,从而使用户得到筛选出的具有高亮字体属性的文本元素的集合,例如,可以通过输出到图1界面示意图102所示的另一电子文档中。
可以理解的是,本发明实施例可以依据任意属性筛选规则,从电子文档中筛选出部分文本元素,并不仅限于筛选高亮文本。
示例性方法
下面结合图1的应用场景,参考图2来描述根据本发明示例性实施方式的筛选文本的方法。需要注意的是,上述应用场景仅是为了便于理解本发明的精神和原理而示出,本发明的实施方式在此方面不受任何限制。相反,本发明的实施方式可以应用于适用的任何场景。例如,本发明实施例提供的方法还可以应用于云阅读客户端、网页浏览器等客户端中。
例如,参见图2,为本发明实施例提供的筛选文本的方法流程示意图。如图2所示,该方法可以包括:
S210、对电子文档中的文本元素进行解析,得到所述文本元素的属性。
例如,文本元素可以包括表格、标题、段落等文本字符。文本元素的属性可以包括段落对齐方式、段间距、行间距、文字颜色、大小、背景色等。
可以理解的是,任意格式的电子文档均可解析得到其中文本元素的属性,因此,本发明实施例对电子文档的格式并不进行限制。例如,所述电子文档可以为遵守openxml协议的word文档(如,文件后缀为docx的word文档)、不遵守openxml协议的word文档(如,文件后缀为doc的word文档)、HTML网页文档、PDF文档等等。
其中,遵守openxml标准协议的word文档是由微软制定的基于xml格式的压缩文件格式。可以用来展示表格数据、图表、演示文稿和文字处理类文档。实际上,遵守openxml标准协议的word文档是一个压缩文件包,里面的子文件如图3所示的压缩包中包含的所有子文件组成了整个文档的内容。
例如,如果所述电子文档是遵守openxml标准协议的word文档,可以对所述电子文档进行解压缩,得到所述电子文档的子文件(如图3所示的子文件列表),根据openxml标准协议,从所述子文件中得到使用xml标签描述所述电子文档的文本元素及其属性的控制文件(如document.xml),从所述控制文件中读取出文本元素及用于描述所述文本元素属性的xml标签。如果所述电子文档不是遵守openxml标准协议的word文档(如,文件后缀为doc的word文档),则可以将所述电子文档转换为遵守openxml标准协议的文档,进入所述对电子文档进行解压缩的步骤。例如,对于文件后缀为doc的word文档,可以调用微软office的组件,将其强制转换为docx格式的文档。
一些可能的实施方式中,由于Apache POI可以自动提取出docx电子文档中包含的子文件,自动根据openxml标准协议读取子文件如document.xml中的内容。因此可以使用Apache POI提供的接口直接获取到docx电子文档中文本元素及用于描述所述文本元素属性的xml标签。
另一些可能的实施方式中,可以使用任意解压缩工具如7zip对docx电子文档中的控制文件document.xml进行解压缩,其中,document.xml中包含使用xml标签描述的文本元素及其属性。从控制文件document.xml中读取出如图4所示的文本元素及用于描述所述文本元素属性的xml标签。可以理解的是,按照openxml协议规定的文件之间属性的引用关系,docx的压缩包中还可能存在其他xml文件描述文本元素属性。所以,除了从document.xml文件获取文本元素的属性以外,还可以根据文件之间属性的引用关系,从其他相关的xml文件中获取文本元素的属性。
S220、根据所述文本元素的属性,从所述文本元素中筛选出属性符合属性筛选规则的文本元素。
例如,所述属性筛选规则可以包括:对具有指定字体属性的文本元素的筛选规则、对具有指定段落属性的文本元素的筛选规则、和/或者,对具有指定样式属性的文本元素的筛选规则。其中,所述字体属性可以包括高亮、颜色、下划线、黑体、字号等属性。所述段落属性可以包括列表、倒悬、首行缩进等属性。所述样式属性可以包括强调样式、标题样式、副标题样式等属性。当然,属性筛选规则所设置的需要被筛选出的文本元素的属性还可以是其他任意属性,在此不再一一赘述。
例如,如图4所示,从document.xml读取出的具有高亮字体属性的文本元素可能由xml标签“<w:highlight w:val="yellow"/>”来标记。也就是说,高亮的文本元素对应了highlight属性,因此,可以根据xml标签中是否包含关键字“highlight”来判断该xml标签标记的文本元素是否填充了高亮背景色。例如,对具有高亮字体属性的文本元素的筛选规则可以设置为:xml标签包含关键字“highlight”的文本元素。
再例如,从document.xml读取出的标题级别的文本元素可能由xml标签“<w:pStyle w:val=参数/>”来标记。其中,不同参数可以表示不同级别标题的级别数。因此,可以根据xml标签中是否包含关键字“<w:pStyle w:val=”来判断其标记的文本元素是否为标题,以及,根据val对应的参数判断标题所属级别。例如,对具有指定级别标题属性的文本元素的筛选规则可以设置为:xml标签包含关键字“<w:pStyle w:val=”的文本元素。
一些可能的实施方式中,本发明实施例提供的方法可以预置有多种属性筛选规则。相应地,本发明实施例提供的方法还可以接收用户对属性筛选规则的选定,从所述文本元素中筛选出属性符合用户选定的属性筛选规则的文本元素。
可以理解的是,本发明实施例筛选出属性符合属性筛选规则的文本元素,即得到了筛选出的文本元素的集合。如何将筛选出的文本元素的集合反馈给用户,可以根据实际需要设置。
例如,一些可能的实施方式中,可以将筛选出的所有文本元素的集合集中写在被筛选的电子文档的文件尾,以便用户集中查看、复制。
再例如,另一些可能的实施方式中,可以将筛选出的所有文本元素以预置属性输出到预置格式的另一电子文档中。例如,从一电子文档筛选出的具有标题属性的文本元素可以按相同或不同的标题属性输出到另一电子文档中。再例如,从一电子文档筛选出的具有高亮字体属性的文本元素可以按普通字体或高亮字体输出到另一电子文档中。其中,被筛选的电子文档以及输出到的另一电子文档可以为不同格式的电子文档,以满足不同用户的阅读需求。例如,从word文档中筛选出的文本元素可以输出到HTML文档或者epub等格式的电子文档中。
一些可能的实施方式中,可以在筛选属性符合属性筛选规则的文本元素的过程中,每筛选出一条属性符合属性筛选规则的文本元素,即将该条文本元素写入到另一电子文档中,直到筛选整个电子文档结束。
另一些可能的实施方式中,可以在筛选属性符合属性筛选规则的文本元素的过程中,每筛选出一条属性符合属性筛选规则的文本元素,即将该条文本元素保存在内存中,直到筛选整个电子文档结束,将内存中保存的所有文本元素一块输出到另一电子文档中。
可见,由于本发明实施例提供的方法对电子文档中的文本元素进行解析,得到了文本元素的例如高亮、下划线等属性,因此,根据文本元素的属性,可以从文本元素中筛选出属性符合属性筛选规则的文本元素。对于用户来说,在阅读文档过程中对喜欢的文本元素添加某特定属性后,可以得到具有该特定属性的文本元素的集合,无需反复执行复制、切换文档、粘贴的操作,用户操作简单,而且终端无需与用户进行大量的交互操作,提高了终端运行效率。
示例性设备
在介绍了本发明示例性实施方式的方法之后,接下来,参考图5对本发明示例性实施方式的筛选文本的装置进行介绍。
例如,参见图5,为本申请实施例提供的一种筛选文本的装置结构示意图。如图5所示,该装置可以包括:解析单元510,可以配置用于对电子文档中的文本元素进行解析,得到所述文本元素的属性。筛选单元520,可以配置用于根据所述文本元素的属性,从所述文本元素中筛选出属性符合属性筛选规则的文本元素。
一些可能的实施方式中,所述筛选单元520,可以配置用于根据所述文本元素的属性,从所述文本元素中筛选出具有指定字体属性的文本元素、具有指定段落属性的文本元素、和/或者,具有指定样式属性的文本元素。
具体地,例如,结合上面的实施方式,所述筛选单元,可以配置用于根据所述文本元素的属性,从所述文本元素中筛选出具有高亮字体属性的文本元素、以及,具有标题属性的文本元素。
一些可能的实施方式中,所述解析单元510可以包括:压缩文档解析子单元511,可以配置用于如果所述电子文档是遵守openxml标准协议的word文档,对所述电子文档进行解压缩,得到所述电子文档的子文件。标签读取子单元512,可以配置用于根据openxml标准协议,从所述子文件中得到使用xml标签描述所述电子文档的文本元素及其属性的控制文件,从所述控制文件中读取出文本元素及用于描述所述文本元素属性的xml标签。非压缩文档转换子单元513,可以配置用于如果所述电子文档不是遵守openxml标准协议的word文档,将所述电子文档转换为遵守openxml标准协议的文档,触发所述压缩文档解析子单元511对转换后的文档进行解压缩。其中,所述筛选单元520,具体可以配置用于从所述标签读取子单元读取出的文本元素中筛选出所述属性筛选规则设置的筛选xml标签所描述的文本元素。
可以理解的是,本发明实施例筛选出属性符合属性筛选规则的文本元素,即得到了筛选出的文本元素的集合。如何将筛选出的文本元素的集合反馈给用户,可以根据实际需要设置。例如,一些可能的实施方式中,本发明实施例提供的装置还可以包括输出单元530,可以配置用于将筛选出的所有文本元素以预置属性输出到预置格式的另一电子文档中。
可见,由于本发明实施例提供的装置中的解析单元510对电子文档中的文本元素进行解析,得到了文本元素的例如高亮、下划线等属性,因此,筛选单元520可以根据文本元素的属性,从文本元素中筛选出属性符合属性筛选规则的文本元素。对于用户来说,在阅读文档过程中对喜欢的文本元素添加某特定属性后,可以得到具有该特定属性的文本元素的集合,无需反复执行复制、切换文档、粘贴的操作,用户操作简单,而且终端无需与用户进行大量的交互操作,提高了终端运行效率。
需要注意的是,本发明实施例所述的压缩文档解析子单元511、标签读取子单元512、非压缩文档转换子单元513、以及输出单元530在图5中以虚线绘制,以表示这些单元不是本发明实施例提供的筛选文本的装置的必要单元。
应当注意,尽管在上文详细描述中提及了筛选文本的装置的若干单元或子单元,但是这种划分仅仅并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本发明的精神和原理,但是应该理解,本发明并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。
Claims (10)
1.一种筛选文本的方法,包括:
对电子文档中的文本元素进行解析,得到所述文本元素的属性;
根据所述文本元素的属性,从所述文本元素中筛选出属性符合属性筛选规则的文本元素。
2.根据权利要求1所述的方法,其中,所述属性筛选规则包括:对具有指定字体属性的文本元素的筛选规则、对具有指定段落属性的文本元素的筛选规则、和/或者,对具有指定样式属性的文本元素的筛选规则。
3.根据权利要求2所述的方法,其中,所述对具有指定字体属性的文本元素的筛选规则具体为,对具有高亮字体属性的文本元素的筛选规则;
所述对具有指定样式属性的文本元素的筛选规则具体为,对具有标题属性的文本元素的筛选规则。
4.根据权利要求1所述的方法,其中,所述对电子文档中的文本元素进行解析,得到所述文本元素的属性包括:
如果所述电子文档是遵守openxml标准协议的word文档,对所述电子文档进行解压缩,得到所述电子文档的子文件,根据openxml标准协议,从所述子文件中得到使用xml标签描述所述电子文档的文本元素及其属性的控制文件,从所述控制文件中读取出文本元素及用于描述所述文本元素属性的xml标签;
如果所述电子文档不是遵守openxml标准协议的word文档,将所述电子文档转换为遵守openxml标准协议的文档,进入所述对电子文档进行解压缩的步骤;
所述根据所述文本元素的属性,从所述文本元素中筛选出属性符合属性筛选规则的文本元素包括:
从读取出的文本元素中筛选出所述属性筛选规则设置的筛选xml标签所描述的文本元素。
5.根据权利要求1-4任一项所述的方法,还包括:
将筛选出的所有文本元素以预置属性输出到预置格式的另一电子文档中。
6.一种筛选文本的装置,包括:
解析单元,配置用于对电子文档中的文本元素进行解析,得到所述文本元素的属性;
筛选单元,配置用于根据所述文本元素的属性,从所述文本元素中筛选出属性符合属性筛选规则的文本元素。
7.根据权利要求6所述的装置,其中,所述筛选单元,配置用于根据所述文本元素的属性,从所述文本元素中筛选出具有指定字体属性的文本元素、具有指定段落属性的文本元素、和/或者,具有指定样式属性的文本元素。
8.根据权利要求7所述的装置,其中,所述筛选单元,配置用于根据所述文本元素的属性,从所述文本元素中筛选出具有高亮字体属性的文本元素、以及,具有标题属性的文本元素。
9.根据权利要求6所述的装置,其中,所述解析单元包括:
压缩文档解析子单元,配置用于如果所述电子文档是遵守openxml标准协议的word文档,对所述电子文档进行解压缩,得到所述电子文档的子文件;
标签读取子单元,配置用于根据openxml标准协议,从所述子文件中得到使用xml标签描述所述电子文档的文本元素及其属性的控制文件,从所述控制文件中读取出文本元素及用于描述所述文本元素属性的xml标签;
非压缩文档转换子单元,配置用于如果所述电子文档不是遵守openxml标准协议的word文档,将所述电子文档转换为遵守openxml标准协议的文档,触发所述压缩文档解析子单元对转换后的文档进行解压缩;
所述筛选单元,具体配置用于从所述标签读取子单元读取出的文本元素中筛选出所述属性筛选规则设置的筛选xml标签所描述的文本元素。
10.根据权利要求6-9任一项所述的装置,还包括:
输出单元,配置用于将筛选出的所有文本元素以预置属性输出到预置格式的另一电子文档中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410658708.6A CN104331390B (zh) | 2014-11-18 | 2014-11-18 | 一种筛选文本的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410658708.6A CN104331390B (zh) | 2014-11-18 | 2014-11-18 | 一种筛选文本的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104331390A true CN104331390A (zh) | 2015-02-04 |
CN104331390B CN104331390B (zh) | 2018-09-11 |
Family
ID=52406120
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410658708.6A Expired - Fee Related CN104331390B (zh) | 2014-11-18 | 2014-11-18 | 一种筛选文本的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104331390B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108153717A (zh) * | 2017-12-29 | 2018-06-12 | 北京仁和汇智信息技术有限公司 | 一种科技期刊论文word文档的结构化处理方法及装置 |
CN108519966A (zh) * | 2018-04-11 | 2018-09-11 | 掌阅科技股份有限公司 | 电子书特定文本元素的替换方法及计算设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1732451A (zh) * | 2002-10-31 | 2006-02-08 | 艾瑞赞公司 | 为移动通信装置的文档内容做摘要的方法和装置 |
US7130461B2 (en) * | 2002-12-18 | 2006-10-31 | Xerox Corporation | Systems and method for automatically choosing visual characteristics to highlight a target against a background |
CN101055578A (zh) * | 2006-04-12 | 2007-10-17 | 龙搜(北京)科技有限公司 | 基于规则的文档内容挖掘器 |
CN102103605A (zh) * | 2009-12-18 | 2011-06-22 | 北大方正集团有限公司 | 一种智能提取文档结构的方法及系统 |
-
2014
- 2014-11-18 CN CN201410658708.6A patent/CN104331390B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1732451A (zh) * | 2002-10-31 | 2006-02-08 | 艾瑞赞公司 | 为移动通信装置的文档内容做摘要的方法和装置 |
US7130461B2 (en) * | 2002-12-18 | 2006-10-31 | Xerox Corporation | Systems and method for automatically choosing visual characteristics to highlight a target against a background |
CN101055578A (zh) * | 2006-04-12 | 2007-10-17 | 龙搜(北京)科技有限公司 | 基于规则的文档内容挖掘器 |
CN102103605A (zh) * | 2009-12-18 | 2011-06-22 | 北大方正集团有限公司 | 一种智能提取文档结构的方法及系统 |
Non-Patent Citations (1)
Title |
---|
王浩 等: "《零基础学SQL Server 2008 》", 31 January 2010, 机械工业出版社 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108153717A (zh) * | 2017-12-29 | 2018-06-12 | 北京仁和汇智信息技术有限公司 | 一种科技期刊论文word文档的结构化处理方法及装置 |
CN108519966A (zh) * | 2018-04-11 | 2018-09-11 | 掌阅科技股份有限公司 | 电子书特定文本元素的替换方法及计算设备 |
Also Published As
Publication number | Publication date |
---|---|
CN104331390B (zh) | 2018-09-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10542123B2 (en) | System and method for generating and monitoring feedback of a published webpage as implemented on a remote client | |
KR100907671B1 (ko) | 기록 매체 및 문자 입력 편집 방법 | |
CN110673847B (zh) | 配置页面的生成方法、装置、电子设备和可读存储介质 | |
US9141596B2 (en) | System and method for processing markup language templates from partial input data | |
US20150178263A1 (en) | System and Method for Constructing Markup Language Templates and Input Data Structure Specifications | |
US20160103800A1 (en) | Universal rebranding engine | |
CN110990732A (zh) | 基于网页的加载方法、装置、设备及存储介质 | |
CN112507273A (zh) | 网页页面的生成方法、装置和电子设备 | |
US20160259771A1 (en) | Information processing system, information processing apparatus, control method, and storage medium | |
CN110990345A (zh) | 一种Excel文件在线预览的方法及装置 | |
US20190278743A1 (en) | Document conversion apparatus, non-transitory computer-readable recording medium and document conversion method | |
CN113382083A (zh) | 一种网页截图方法和装置 | |
JP2001195391A (ja) | フォーマット変換・ページ分割中継サーバ | |
JP4666996B2 (ja) | 電子ファイリングシステム、電子ファイリング方法 | |
CN117093386B (zh) | 页面截图方法、装置、计算机设备和存储介质 | |
CN104331390A (zh) | 一种筛选文本的方法及装置 | |
JP6904098B2 (ja) | 文書変換装置、文書変換プログラム及び文書変換方法 | |
JP2019101889A (ja) | テスト実行装置及びプログラム | |
JP2008310816A (ja) | 複数のマークアップ・ページ・データをコンパクトに表現するシステムおよび方法 | |
CN111125605A (zh) | 页面元素获取方法和装置 | |
JP2006065467A (ja) | データ抽出定義情報生成装置およびデータ抽出定義情報生成方法 | |
CN106227713B (zh) | 文档的处理方法及装置 | |
US9916315B2 (en) | Computer implemented system and method for comparing at least two visual programming language files | |
CN112068826B (zh) | 文本输入的控制方法、系统、电子设备和存储介质 | |
JP2006309443A (ja) | 情報処理システム、情報処理装置、情報処理端末、情報処理方法、その方法をコンピュータで実行するプログラム、および記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20180911 |
|
CF01 | Termination of patent right due to non-payment of annual fee |