CN104111980B - 网页内容的提取方法、装置和终端 - Google Patents
网页内容的提取方法、装置和终端 Download PDFInfo
- Publication number
- CN104111980B CN104111980B CN201410294508.7A CN201410294508A CN104111980B CN 104111980 B CN104111980 B CN 104111980B CN 201410294508 A CN201410294508 A CN 201410294508A CN 104111980 B CN104111980 B CN 104111980B
- Authority
- CN
- China
- Prior art keywords
- node
- characteristic
- brotgher
- picture
- relation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了一种网页内容的提取方法、装置和终端。其中,该方法包括:获取当前加载页面主文档的DOM树;提取DOM树中满足设定条件的特征节点;将互为兄弟节点关系的特征节点分别构建为特征节点组;若特征节点组中的特征节点数量超过预设阀值,则提取特征节点组中的特征节点。本公开使网页内容的提取更符合用户的阅读意愿,提升了用户阅读网页的体验度。
Description
技术领域
本公开涉及通信领域,具体而言,涉及网页内容的提取方法、装置和终端。
背景技术
随着互联网的发展,各个网页的内容不断丰富,且不同的网页显示内容的侧重点不同,有的网页显示的内容以文字为主,有的网页显示的内容以图片为主,这种以图片为主的网页中,有时图片会对应较少的文字说明,比如一些景点介绍或者人物介绍等网页。但是,这种以图片为主的网页,在移动终端上浏览并不能获得良好的用户体验。
发明内容
为克服相关技术中存在的问题,本公开提供了一种网页内容的提取方法、装置和终端,以解决上述的问题。
根据本公开实施例的第一方面,提供一种网页内容的提取方法,包括:获取当前加载页面主文档的DOM树;提取DOM树中满足设定条件的特征节点;将互为兄弟节点关系的特征节点分别构建为特征节点组;若特征节点组中的特征节点数量超过预设阀值,则提取特征节点组中的特征节点。
可选的,所述提取DOM树中满足设定条件的特征节点,包括:特征节点由一个图片节点,或者互为兄弟节点关系的一个图片节点和一个文字节点构成。
可选的,所述提取DOM树中满足设定条件的特征节点,还包括:判断由一个图片节点,或者互为兄弟节点关系的一个图片节点和一个文字节点所构成的节点是否具有兄弟节点;如果有,则由一个图片节点,或者互为兄弟节点关系的一个图片节点和一个文字节点所构成的节点为特征节点;如果没有,则查找由一个图片节点,或者互为兄弟节点关系的一个图片节点和一个文字节点所构成的节点的上级父节点,直至查找到的父节点存在兄弟节点为止;将查找到的存在兄弟节点的父节点作为特征节点。
可选的,所述提取方法还包括:根据提取的特征节点组中的特征节点,进行排版显示。
根据本公开实施例的第二方面,提供一种网页内容的提取装置,包括:DOM树获取模块,用于获取当前加载页面主文档的DOM树;第一特征节点提取模块,用于提取DOM树获取模块获取的DOM树中满足设定条件的特征节点;特征节点组构建模块,用于将互为兄弟节点关系的特征节点分别构建为特征节点组;第二特征节点提取模块,用于在特征节点组构建模块构建的特征节点组中的特征节点数量超过预设阀值时,则提取特征节点组中的特征节点。
可选的,所述第一特征节点提取模块包括:第一特征节点确定单元,用于将由一个图片节点,或者互为兄弟节点关系的一个图片节点和一个文字节点所构成的节点确定为特征节点。
可选的,所述第一特征节点提取模块还包括:兄弟节点判断单元,用于判断由一个图片节点,或者互为兄弟节点关系的一个图片节点和一个文字节点所构成的节点是否具有兄弟节点;第二特征节点确定单元,用于在兄弟节点判断单元的判断结果为有时,将由一个图片节点,或者互为兄弟节点关系的一个图片节点和一个文字节点所构成的节点确定为特征节点;第三特征节点确定单元,用于在兄弟节点判断单元的判断结果为没有时,查找由一个图片节点,或者互为兄弟节点关系的一个图片节点和一个文字节点所构成的节点的上级父节点,直至查找到的父节点存在兄弟节点为止;将查找到的存在兄弟节点的父节点作为特征节点。
可选的,所述提取装置还包括:排版显示模块,用于根据第二特征节点提取模块提取的特征节点组中的特征节点,进行排版显示。
根据本公开实施例的第三方面,提供一种网页内容的提取终端,包括:处理器;用于存储处理器可执行指令的存储器;其中,处理器被配置为:获取当前加载页面主文档的文件对象模型DOM树;提取DOM树中满足设定条件的特征节点;将互为兄弟节点关系的特征节点分别构建为特征节点组;若特征节点组中的特征节点数量超过预设阀值,则提取特征节点组中的特征节点。
本公开的实施例提供的技术方案可以包括以下有益效果:
通过获取当前加载页面主文档的DOM树,从DOM树中提取出满足设定条件的特征节点,将互为兄弟节点关系的特征节点分别构建为特征节点组,若特征节点组中的特征节点数量超过预设阀值,则提取该特征节点组中的特征节点,使提取的内容更符合用户的浏览意愿,提升了用户浏览网页的体验度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的一种网页内容的提取方法的流程图;
图2是根据一示例性实施例示出的特征节点提取方法的流程图;
图3是根据一示例性实施例示出的网页内容的提取方法的第二种流程图;
图4是根据一示例性实施例示出的单元GrandUnitA的结构示意图;
图5是根据一示例性实施例示出的网页内容的提取方法的第三种流程图;
图6是根据一示例性实施例示出的网页内容的提取装置的框图;
图7是根据一示例性实施例示出的第一特征节点提取模块的框图;
图8是根据又一示例性实施例示出的网页内容的提取装置的框图;
图9是根据一示例性实施例示出的一种网页内容的提取装置的框图。。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
为了提升用户浏览网页的体验度,本公开实施例中提供了一种网页内容的提取方法和装置。
图1是根据一示例性实施例示出的一种网页内容的提取方法的流程图,如图1所示,该方法用于终端中,包括以下步骤。
在步骤S102中,获取当前加载页面主文档的DOM(Document Object Model,文件对象模型,简称DOM)树。
其中,页面主文档指一个网页对应的页面文件本身,一般是一个HTML(Hyper TextMarkup Language,超文本标记语言)文件(包括有html代码),也可以是PHP(HypertextPreprocessor,超文本预处理语言)、SHTML(使用SSI(Server Side Include,服务器端嵌入)的html文件扩展名)文件等,例如,打开任意一个网页,右键点击“查看网页源代码”,则显示该网页的页面主文档。
页面主文档由节点组成,节点的形式一般为<tag>……</tag>,tag为节点的标识,<tag>和</tag>之间为节点内容。页面主文档的各个节点组成了DOM树。
在步骤S104中,提取上述DOM树中满足设定条件的特征节点;其中,该设定条件可以根据用户的阅读喜好进行提取,例如,如果用户仅喜欢浏览网页中的图片,则可以针对图片设置此设定条件,如果用户既喜欢浏览网页中的图片,又喜欢浏览该图片对应的文字,则可以针对图片和文字设置此设定条件;
在步骤S106中,将互为兄弟节点关系的特征节点分别构建为特征节点组。
在步骤S108中,若特征节点组中的特征节点数量超过预设阀值,则提取特征节点组中的特征节点。
本实施例的方法通过获取当前加载页面主文档的DOM树,从DOM树中提取出满足设定条件的特征节点,将互为兄弟节点关系的特征节点分别构建为特征节点组,若特征节点组中的特征节点数量超过预设阀值,则提取该特征节点组中的特征节点,使提取的内容更符合用户的浏览意愿,提升了用户浏览网页的体验度。
考虑到有些网页只有图片,没有文字说明;而有些网页既有图片又有该图片的文字说明,基于此,DOM树中的子节点也分两种情况,一种是子节点由一个图片节点和一个文字节点组成,另一种是该子节点由一个图片节点组成。基于此,提取DOM树中满足设定条件的特征节点中的特征节点由一个图片节点,或者互为兄弟节点关系的一个图片节点和一个文字节点构成。
上述提取DOM树中满足设定条件的特征节点,还包括:判断由一个图片节点,或者互为兄弟节点关系的一个图片节点和一个文字节点所构成的节点是否具有兄弟节点;如果有,则由一个图片节点,或者互为兄弟节点关系的一个图片节点和一个文字节点所构成的节点为特征节点;如果没有,则查找由一个图片节点,或者互为兄弟节点关系的一个图片节点和一个文字节点所构成的节点的上级父节点,直至查找到的父节点存在兄弟节点为止;将查找到的存在兄弟节点的父节点作为特征节点。
图2是根据一示例性实施例示出的特征节点提取方法的流程图,包括以下步骤。
在步骤S202中,遍历DOM树,找到没有兄弟的各个图片节点分别构建为一个特征节点,以及找到只包括一个文字节点和一个图片节点互为兄弟的节点对分别构建为一个特征节点;
在步骤S204中,将互为兄弟关系的上述特征节点分别构建为特征节点组。
通过遍历DOM树,可能会有多个特征节点,各个特征节点中的子节点均存在父节点,而节点组指在该组中的各个特征节点中的父节点均互为兄弟关系,由此可以看出,一个特征节点组中的特征节点的个数为多个。
在步骤S206中,确定上述特征节点组中其特征节点数超过预设阀值(例如:3)的组为目标组。
通过提取特征节点的个数大于预设阀值的节点组,就可以提取到连续的图片节点,以及相应的文字节点。
在步骤S208中,提取上述目标组的特征节点。
图2的特征节点提取方法可以使提取的特征节点中的节点除了图片节点和文字节点以外没有其他类型的节点,可以满足用户既喜欢浏览图片,又喜欢浏览图片对应的文字的需要,提升了用户阅读网页的体验度。
考虑到不同开发者采用的DOM树的形式具有多样性,本实施例针对DOM树的结构给出了以下两种确定特征节点的方式。
方式一:对于当前加载网页的页面主文档的DOM树为通常的树形结构的情况,确定特征节点方法包括:(1)找到没有兄弟的各个图片节点,将该图片节点和该述图片节点的父节点组成的结构确定为一个特征节点;(2)找到只包括一个文字节点和一个图片节点互为兄弟的节点对,将该节点对和该节点对的父节点组成的结构确定为一个特征节点。即特征节点由一个图片节点,或者互为兄弟节点关系的一个图片节点和一个文字节点构成。
为了更便于理解上述方式一,本实施例还提供如图3所示的网页内容的提取方法的第二种流程图,该方法包括以下步骤。
在步骤S302中,在网页的页面主文档的DOM树中遍历查找单元(相当于上述由DOM树提取出的特征节点)。这种单元的特征是:有一个图片节点imgNode(图片节点必须有),有一个文字节点textNode(本实施例中,文字节点不是必须的)。这两个节点互为兄弟节点,且没有其他兄弟节点;如果没有文字节点textNode,则只有一个图片节点imgNode,没有其他任何兄弟节点。
在步骤S304中,找到该网页中所有具有上述特征的单元后,为各个单元命名,本实施例举例找到5个单元,分别命名为:GrandUnitA,GrandUnitB,GrandUnitC,GrandUnitD,GrandUnitE,图4是根据一示例性实施例示出的单元GrandUnitA的结构示意图,其中,GrandUnitA包括:父节点Unit和该父节点下的一个图片节点imgNode和一个文字节点textNode。
在步骤S306中,判断所有找到的单元之间在网页DOM树之间的关系(即判断各个单元内的父节点间的关系),将单元之间互为兄弟关系的单元加入到一个共同的组(相当于上述特征节点组)里。
本实施例中,如果判断出有单元之间互为兄弟关系,则将这些单元加入到一个共同的组里,并可以对这些组进行命名,例如命令为:GroupA,GroupB.........。一个网页中可能有一个或多个这样的组。
在步骤S308中,将所包含的单元数超过预设阀值的组作为目标组。
在步骤S310中,提取该目标组中的单元,即上述特征节点。
本实施例判断一个组中所包含的单元数超过预设阀值,则判断该组为目标组,可以提取该目标组中的特征节点。
图3所示的方法主要针对页面主文档的DOM树为通常的树形结构的情况设计的,该方法通过遍历网页的页面主文档的DOM树,从中找出满足上述特征的单元,并将单元互为兄弟关系的确定为同一个组,提取单元的个数大于预设阀值的组作为目标组,便得到针对图片和图片对应文字的网页的提取内容,使网页内容的提取更符合用户的阅读意愿,提升了用户阅读网页的体验度。同时,本实施例的单元的确定方式比较简单,易于实现。
方式二:对于当前加载网页的页面主文档的DOM树为不是标准的树形结构的情况,在确定单元时,考虑到子节点的父节点可能并不直接具有其兄弟节点,而是该父节点的上一级、上两级或上多级的父节点具有其兄弟节点,为了能够找到其正确的兄弟节点,上述单元的构建步骤还可以包括:(1)判断由一个图片节点,或者互为兄弟节点关系的一个图片节点和一个文字节点所构成的节点是否具有兄弟节点;(2)如果有,则由一个图片节点,或者互为兄弟节点关系的一个图片节点和一个文字节点所构成的节点为特征节点;(3)如果没有,则查找由一个图片节点,或者互为兄弟节点关系的一个图片节点和一个文字节点所构成的节点的上级父节点,直至查找到的父节点存在兄弟节点为止;将查找到的存在兄弟节点的父节点作为特征节点。
为了更便于理解上述方式二,本实施例还提供如图5所示的网页内容的提取方法的第三种流程图,该方法包括以下步骤。
在步骤S502中,整个网页加载完成后,得到网页主文档的DOM树。
在步骤S504中,得到DOM树后,通过网页的DOM树进行节点的检测,将该网页中连续图片的节点(在DOM树中)以及相应的一些文字说明节点(可能有,也可能没有)提取出来,作为一个单元,即相当于上述由DOM树提取出的特征节点。具体提取过程如下:
a、首先定义每个单元,每个单元由:一个图片节点imgNode,和文字节点textNode组成。且这两个节点在DOM树中是兄弟关系,且没有其他兄弟节点,这两个节点的父节点暂且命名为Unit。
b、扫描DOM树,找出符合条件a的单元Unit,然后向上追溯Unit的父节点,直到父节点有兄弟节点,命名为GrandUnit,命名找到的第一个GrandUnit的名字为GrandUnitA。
c、继续扫描整个DOM树,找出所有的类似GrandUnitA的节点,可以依次命名为GrandUnitB,GrandUnitC,GrandUnitD,GrandUnitE......,将这些GrandUnit节点和其子节点组成的结构作为本实施例的单元,提取这些单元。
在步骤S506中,组织上述单元,找出具有兄弟关系的GrandUnit节点(即单元中的父节点),并将具有兄弟关系的单元加入同一组(相当于上述特征节点组),这些组可以命名为GroupA,GroupB,.........。找出的组可能有一组或者多组,也可能一组没有。该特征节点组的创建过程如下:
假如找到了具有兄弟关系的一组GrandUnit节点为:GrandUnitA、GrandUnitB、GrandUnitC;创建节点GroupA,添加子节点:
GroupA.addChildNode(GrandUnitA);
GroupA.addChildNode(GrandUnitB);
GroupA.addChildNode(GrandUnitC);
在步骤S508中,将单元个数大于预设阀值的组作为目标组(也可以称为候选组)。若GroupX中的特征节点数量大于n(比如可以设为3,这个值可以固定,也可以通过用户自己设定),则该GroupX为候选组,可以命名为CandidateGroupX。
在步骤S510中,提取该目标组中的单元,即特征节点。
图5所示的方法主要针对页面主文档的DOM树为非标准树形结构的情况设计的,该方法通过遍历网页的页面主文档的DOM树,从中找出上述单元,并将单元互为兄弟关系的确定为同一个组,提取单元的个数大于预设阀值的组作为候选组,便得到针对图片和图片对应文字的网页的提取内容,使网页内容的提取更符合用户的阅读意愿,提升了用户阅读网页的体验度。同时,本实施例的单元的确定方式适用于各种DOM树的结构,更具有通用性。
上述方法将满足设定条件的节点提取出来后,可以通过特定的模式进行显示。基于此,上述将提取的节点组织成网页进行显示的步骤包括:按照设定的模式将提取的节点对应的内容排版为网页;全屏显示该网页其中,该设定的模式指图片和文字的设置形式,可以是图片在上,文字在下;也可以是文字在上,图片在下,或者文字和图片左右排列等;这种显示方式能够提供更人性化的页面,提升页面显示效果和用户的体验度。
图6是根据一示例性实施例示出的网页内容的提取装置的框图,参见图6,该装置包括DOM树获取模块62、第一特征节点提取模块64、特征节点组构建模块66和第二特征节点提取模块68。
该DOM树获取模块62被配置为获取当前加载页面主文档的DOM树;
该第一特征节点提取模块64被配置为提取DOM树获取模块获取的DOM树中满足设定条件的特征节点;
该特征节点组构建模块66被配置为将互为兄弟节点关系的特征节点分别构建为特征节点组;
该第二特征节点提取模块68被配置为在特征节点组构建模块构建的特征节点组中的特征节点数量超过预设阀值时,则提取特征节点组中的特征节点。
本实施例的装置通过获取当前加载页面主文档的DOM树,从DOM树中提取出满足设定条件的特征节点,将互为兄弟节点关系的特征节点分别构建为特征节点组,若特征节点组中的特征节点数量超过预设阀值,则提取该特征节点组中的特征节点,使提取的内容更符合用户的浏览意愿,提升了用户浏览网页的体验度。上述第一特征节点提取模块64包括:第一特征节点确定单元,用于将由一个图片节点,或者互为兄弟节点关系的一个图片节点和一个文字节点所构成的节点确定为特征节点。
图7是根据一示例性实施例示出的第一特征节点提取模块的框图,参见图7,该第一特征节点提取模块64还包括兄弟节点判断单元642、第二特征节点确定单元644和第三特征节点确定单元646。
兄弟节点判断单元642,用于判断由一个图片节点,或者互为兄弟节点关系的一个图片节点和一个文字节点所构成的节点是否具有兄弟节点;
第二特征节点确定单元644,用于在兄弟节点判断单元的判断结果为有时,将由一个图片节点,或者互为兄弟节点关系的一个图片节点和一个文字节点所构成的节点确定为特征节点;
第三特征节点确定单元646,用于在兄弟节点判断单元的判断结果为没有时,查找由一个图片节点,或者互为兄弟节点关系的一个图片节点和一个文字节点所构成的节点的上级父节点,直至查找到的父节点存在兄弟节点为止;将查找到的存在兄弟节点的父节点作为特征节点。
将满足设定条件的节点提取出来后,可以通过特定的模式进行显示,基于此,图8是根据又一示例性实施例示出的网页内容的提取装置的框图,该装置可以用于终端上,参见图8,该装置除了包括图6所示的各个模块外,还包括排版显示模块82.
该排版显示模块82被配置为根据第二特征节点提取模块68提取的特征节点组中的特征节点,进行排版显示。这种显示方式能够提供更人性化的页面,提升页面显示效果和用户的体验度。
以上实施例提供的技术方案可以应用在终端设备(例如:手机、电脑、电视机等)上,通过遍历页面主文档的DOM树,从中提取出满足设定条件的节点,将提取的节点组织成网页进行显示,便得到了满足设定条件的网页内容的提取内容,将该内容重新展示给用户,使网页内容的提取的内容更符合用户的阅读意愿,提升了用户阅读网页的体验度。
本公开实施例还提供一种网页内容的提取终端,包括:处理器;用于存储处理器可执行指令的存储器;其中,处理器被配置为:获取当前加载页面主文档的文件对象模型DOM树;提取DOM树中满足设定条件的特征节点;将互为兄弟节点关系的特征节点分别构建为特征节点组;若特征节点组中的特征节点数量超过预设阀值,则提取特征节点组中的特征节点。
图9是根据一示例性实施例示出的一种网页内容的提取装置900的框图。例如,装置900可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图9,装置900可以包括以下一个或多个组件:处理组件902,存储器904,电源组件906,多媒体组件908,音频组件910,输入/输出(I/O)接口912,传感器组件914,以及通信组件916。
处理组件902通常控制装置900的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件902可以包括一个或多个处理器920来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件902可以包括一个或多个模块,便于处理组件902和其他组件之间的交互。例如,处理组件902可以包括多媒体模块,以方便多媒体组件908和处理组件902之间的交互。
存储器904被配置为存储各种类型的数据以支持在设备900的操作。这些数据的示例包括用于在装置900上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电力组件906为装置900的各种组件提供电力。电力组件906可以包括电源管理系统,一个或多个电源,及其他与为装置900生成、管理和分配电力相关联的组件。
多媒体组件908包括在所述装置900和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件908包括一个前置摄像头和/或后置摄像头。当装置900处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件910被配置为输出和/或输入音频信号。例如,音频组件910包括一个麦克风(MIC),当装置900处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器904或经由通信组件916发送。在一些实施例中,音频组件910还包括一个扬声器,用于输出音频信号。
I/O接口912为处理组件902和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件914包括一个或多个传感器,用于为装置900提供各个方面的状态评估。例如,传感器组件914可以检测到设备900的打开/关闭状态,组件的相对定位,例如所述组件为装置900的显示器和小键盘,传感器组件914还可以检测装置900或装置900一个组件的位置改变,用户与装置900接触的存在或不存在,装置900方位或加速/减速和装置900的温度变化。传感器组件914可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件914还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件914还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件916被配置为便于装置900和其他设备之间有线或无线方式的通信。装置900可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件916经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件916还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置900可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器904,上述指令可由装置900的处理器920执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (5)
1.一种网页内容的提取方法,其特征在于,包括:
获取当前加载页面主文档的文件对象模型DOM树;
提取所述DOM树中满足设定条件的特征节点;
将互为兄弟节点关系的特征节点分别构建为特征节点组;
若所述特征节点组中的特征节点数量超过预设阀值,则提取所述特征节点组中的特征节点;
其中,所述提取所述DOM树中满足设定条件的特征节点,包括:
所述特征节点由一个图片节点,或者互为兄弟节点关系的一个图片节点和一个文字节点构成;
判断所述由一个图片节点,或者互为兄弟节点关系的一个图片节点和一个文字节点所构成的节点是否具有兄弟节点;
如果有,则所述由一个图片节点,或者互为兄弟节点关系的一个图片节点和一个文字节点所构成的节点为所述特征节点;
如果没有,则查找所述由一个图片节点,或者互为兄弟节点关系的一个图片节点和一个文字节点所构成的节点的上级父节点,直至查找到的所述父节点存在兄弟节点为止;将所述查找到的存在兄弟节点的所述父节点作为所述特征节点。
2.根据权利要求1所述的网页内容的提取方法,其特征在于,还包括:
根据所述提取的特征节点组中的特征节点,进行排版显示。
3.一种网页内容的提取装置,其特征在于,包括:
DOM树获取模块,用于获取当前加载页面主文档的文件对象模型DOM树;
第一特征节点提取模块,用于提取所述DOM树获取模块获取的DOM树中满足设定条件的特征节点;
特征节点组构建模块,用于将互为兄弟节点关系的特征节点分别构建为特征节点组;
第二特征节点提取模块,用于在所述特征节点组构建模块构建的特征节点组中的特征节点数量超过预设阀值时,则提取所述特征节点组中的特征节点;
其中,所述第一特征节点提取模块包括:
第一特征节点确定单元,用于将由一个图片节点,或者互为兄弟节点关系的一个图片节点和一个文字节点所构成的节点确定为特征节点;
兄弟节点判断单元,用于判断所述由一个图片节点,或者互为兄弟节点关系的一个图片节点和一个文字节点所构成的节点是否具有兄弟节点;
第二特征节点确定单元,用于在所述兄弟节点判断单元的判断结果为有时,将所述由一个图片节点,或者互为兄弟节点关系的一个图片节点和一个文字节点所构成的节点确定为所述特征节点;
第三特征节点确定单元,用于在所述兄弟节点判断单元的判断结果为没有时,查找所述由一个图片节点,或者互为兄弟节点关系的一个图片节点和一个文字节点所构成的节点的上级父节点,直至查找到的所述父节点存在兄弟节点为止;将所述查找到的存在兄弟节点的所述父节点作为所述特征节点。
4.根据权利要求3所述的网页内容的提取装置,其特征在于,还包括:
排版显示模块,用于根据所述第二特征节点提取模块提取的特征节点组中的特征节点,进行排版显示。
5.一种网页内容的提取终端,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取当前加载页面主文档的文件对象模型DOM树;
提取所述DOM树中满足设定条件的特征节点;
将互为兄弟节点关系的特征节点分别构建为特征节点组;
若所述特征节点组中的特征节点数量超过预设阀值,则提取所述特征节点组中的特征节点;
其中,所述提取所述DOM树中满足设定条件的特征节点,包括:
所述特征节点由一个图片节点,或者互为兄弟节点关系的一个图片节点和一个文字节点构成;
判断所述由一个图片节点,或者互为兄弟节点关系的一个图片节点和一个文字节点所构成的节点是否具有兄弟节点;
如果有,则所述由一个图片节点,或者互为兄弟节点关系的一个图片节点和一个文字节点所构成的节点为所述特征节点;
如果没有,则查找所述由一个图片节点,或者互为兄弟节点关系的一个图片节点和一个文字节点所构成的节点的上级父节点,直至查找到的所述父节点存在兄弟节点为止;将所述查找到的存在兄弟节点的所述父节点作为所述特征节点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410294508.7A CN104111980B (zh) | 2014-06-26 | 2014-06-26 | 网页内容的提取方法、装置和终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410294508.7A CN104111980B (zh) | 2014-06-26 | 2014-06-26 | 网页内容的提取方法、装置和终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104111980A CN104111980A (zh) | 2014-10-22 |
CN104111980B true CN104111980B (zh) | 2017-07-28 |
Family
ID=51708771
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410294508.7A Active CN104111980B (zh) | 2014-06-26 | 2014-06-26 | 网页内容的提取方法、装置和终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104111980B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106649762A (zh) * | 2016-12-27 | 2017-05-10 | 竹间智能科技(上海)有限公司 | 基于追问问题与反馈信息的意图识别方法、系统 |
CN110020318B (zh) * | 2017-12-26 | 2022-09-23 | 腾讯科技(深圳)有限公司 | 关键词与扩展阅读行为的处理方法、浏览器及电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102253937A (zh) * | 2010-05-18 | 2011-11-23 | 阿里巴巴集团控股有限公司 | 获取网页中的感兴趣信息的方法及相关装置 |
CN102314520A (zh) * | 2011-10-24 | 2012-01-11 | 莫雅静 | 基于统计回溯定位的网页正文提取方法和装置 |
CN103353842A (zh) * | 2013-06-20 | 2013-10-16 | 北京小米科技有限责任公司 | 一种网页的加载方法和装置 |
CN103617164A (zh) * | 2013-10-22 | 2014-03-05 | 小米科技有限责任公司 | 网页预取方法、装置及终端设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006085455A1 (ja) * | 2005-02-14 | 2006-08-17 | Justsystems Corporation | 文書処理装置および文書処理方法 |
-
2014
- 2014-06-26 CN CN201410294508.7A patent/CN104111980B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102253937A (zh) * | 2010-05-18 | 2011-11-23 | 阿里巴巴集团控股有限公司 | 获取网页中的感兴趣信息的方法及相关装置 |
CN102314520A (zh) * | 2011-10-24 | 2012-01-11 | 莫雅静 | 基于统计回溯定位的网页正文提取方法和装置 |
CN103353842A (zh) * | 2013-06-20 | 2013-10-16 | 北京小米科技有限责任公司 | 一种网页的加载方法和装置 |
CN103617164A (zh) * | 2013-10-22 | 2014-03-05 | 小米科技有限责任公司 | 网页预取方法、装置及终端设备 |
Non-Patent Citations (2)
Title |
---|
Brett McLaughlin.掌握Ajax,第6部分:建立基于DOM的Web应用程序.《http://www.ibm.com/developerworks/cn/xml/wa-ajaxintro6》.2006,1-11. * |
Robust Detection of Semi-Structured Web Records Using a DOM Structure-Knowledge-Driven Model;Lidong Bing等;《ACM Transactions on the Web》;20131031;第7卷(第4期);第1-32页 * |
Also Published As
Publication number | Publication date |
---|---|
CN104111980A (zh) | 2014-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104731688B (zh) | 提示阅读进度的方法及装置 | |
CN107203398B (zh) | 应用分发方法及装置 | |
CN107193606B (zh) | 应用分发方法及装置 | |
KR102282544B1 (ko) | 상품 표시 방법 및 장치 | |
CN105653276A (zh) | 用于语言设置的方法及装置 | |
CN104639972B (zh) | 一种分享内容的方法、装置及设备 | |
CN105095427A (zh) | 搜索推荐方法和装置 | |
CN105068976A (zh) | 票务信息展示方法及装置 | |
CN107193441B (zh) | 桌面挂件预览方法及装置 | |
CN106886540B (zh) | 一种数据搜索方法、装置以及用于数据搜索的装置 | |
CN104035995A (zh) | 群标签生成方法及装置 | |
CN106789551B (zh) | 会话消息展示方法及装置 | |
CN104636164B (zh) | 启动页面生成方法及装置 | |
CN107230137A (zh) | 商品信息获取方法及装置 | |
CN106791092A (zh) | 联系人的搜索方法及装置 | |
CN105677392A (zh) | 应用程序的推荐方法和装置 | |
CN104281703A (zh) | 统一资源定位符url间相似度计算的方法及装置 | |
CN104461348A (zh) | 信息选取方法及装置 | |
CN105373580A (zh) | 主题显示方法及装置 | |
CN104572875A (zh) | 推广信息投放有效性确定方法及装置 | |
CN104572848B (zh) | 基于浏览器的搜索方法及装置 | |
CN108733397A (zh) | 更新状态确定方法、设备及存储介质 | |
CN107560611A (zh) | 运动路线获取方法及装置 | |
CN107045541A (zh) | 数据显示方法和装置 | |
CN104111980B (zh) | 网页内容的提取方法、装置和终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |