CN113868568A - 一种网页关键字高亮方法、装置、设备及存储介质 - Google Patents

一种网页关键字高亮方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113868568A
CN113868568A CN202111144409.7A CN202111144409A CN113868568A CN 113868568 A CN113868568 A CN 113868568A CN 202111144409 A CN202111144409 A CN 202111144409A CN 113868568 A CN113868568 A CN 113868568A
Authority
CN
China
Prior art keywords
text
highlighted
keyword
nodes
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111144409.7A
Other languages
English (en)
Inventor
陈沛康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Yunzhijia Network Co ltd
Original Assignee
Shenzhen Yunzhijia Network Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Yunzhijia Network Co ltd filed Critical Shenzhen Yunzhijia Network Co ltd
Priority to CN202111144409.7A priority Critical patent/CN113868568A/zh
Publication of CN113868568A publication Critical patent/CN113868568A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/322Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种网页关键字高亮方法,包括获取待高亮关键字;从目标网页的DOM树中遍历文本节点;从文本节点中查询与待高亮关键字相同的文本作为待高亮文本;根据待高亮文本拆分对应的文本节点,并嵌套对应高亮样式的HTML标签,以对待高亮文本进行高亮。通过先从目标网页的DOM树中查找出对应目标网页显示文本内容的文本节点,再从找寻出的文本节点中找寻出关键字进行高亮,可以避免对网页编写语言代码进行关键字匹配,从而可以避免对该部分代码进行破坏导致目标网页无法正常显示情况的发生,保证准确在网页中高亮显示关键字。本发明还提供了一种装置、设备以及可读存储介质,同样具有上述有益效果。

Description

一种网页关键字高亮方法、装置、设备及存储介质
技术领域
本发明涉及网页文本显示技术领域,特别是涉及一种网页关键字高亮方法、一种网页关键字高亮装置、一种网页关键字高亮设备以及一种计算机可读存储介质。
背景技术
在现阶段,当想要在网页中对关键字进行高亮显示时,具体会钯编写成网页的语言,例如HTML(HyperText Markup Language,超文本标记语言)、CSS(Cascading StyleSheets,层叠样式表)、JavaScript部分,当成纯文本来进行关键字查找匹配,当找到了对应关键字,直接用一个新的HTML标签进行包裹着关键字,并采用CSS样式将文本高亮,直接替换所匹配到的源文本。我们可以理解成,把渲染在浏览器上网页的源代码当成一段文本来进行关键字匹配。
因此在现有技术中,由于是把源代码当成文本来匹配,即会存在对CSS,JavaScript领域的查找匹配,由于这部分信息在网页上不会变成成文本显示形式,因此匹配这部分是无用的,但是万一匹配成功了,就会破坏代码的语法规则,导致网页不能如期展示。同时也会对HTML部分,HTML语法标签行匹配,此时破坏了HTML的语法规则,也会造成网页不能如期展示。所以如何提供一种可以准确在网页中高亮显示关键字的技术方案是本领域技术人员急需解决的问题。
发明内容
本发明的目的是提供一种网页关键字高亮方法,可以准确在网页中高亮显示关键字;本发明的另一目的在于提供一种网页关键字高亮装置、一种网页关键字高亮设备以及一种计算机可读存储介质,可以准确在网页中高亮显示关键字。
为解决上述技术问题,本发明提供一种网页关键字高亮方法,包括:
获取待高亮关键字;
从目标网页的DOM树中遍历文本节点;
从所述文本节点中查询与所述待高亮关键字相同的文本作为待高亮文本;
根据所述待高亮文本拆分对应的所述文本节点,并嵌套对应高亮样式的HTML标签,以对所述待高亮文本进行高亮。
可选的,所述从目标网页的DOM树中遍历文本节点包括:
从目标网页的DOM树的顶部节点开始,沿所述DOM树的树状结构遍历元素节点;
从所述元素节点沿所述DOM树的树状结构遍历所述文本节点。
可选的,所述从目标网页的DOM树中遍历文本节点包括:
从目标网页的DOM树中遍历未被标记的文本节点;
所述从所述文本节点中查询与所述待高亮关键字相同的文本作为待高亮文本包括:
每当查询到一所述文本节点时,从所述文本节点中查询与所述待高亮关键字相同的文本作为待高亮文本;
在从所述文本节点中查询与所述待高亮关键字相同的文本作为待高亮文本之后,还包括:
对包括有所述待高亮文本的文本节点进行标记。
可选的,在所述获取待高亮关键字之后,还包括:
确定所述待高亮关键字的组号;
所述从目标网页的DOM树中遍历未被标记的文本节点包括:
从目标网页的DOM树中遍历未记录有相同所述组号的文本节点;
所述对包括有所述待高亮文本的文本节点进行标记包括:
对包括有所述待高亮文本的文本节点标记所述组号。
可选的,在从所述文本节点中查询与所述待高亮关键字相同的文本作为待高亮文本之后,还包括:
添加对应所述文本节点的文本信息;
当需要取消所述待高亮文本的高亮时,根据所述文本信息复原所述文本节点。
可选的,所述从所述文本节点中查询与所述待高亮关键字相同的文本作为待高亮文本包括:
基于正则表达式从所述文本节点中查询与所述待高亮关键字相同的文本作为待高亮文本。
可选的,所述基于正则表达式从所述文本节点中查询与所述待高亮关键字相同的文本作为待高亮文本包括:
基于正则表达式的或语法从所述文本节点中查询与多个所述待高亮关键字相同的文本作为待高亮文本。
本发明还提供了一种网页关键字高亮装置,包括:
获取模块,用于获取待高亮关键字;
遍历模块,用于从目标网页的DOM树中遍历文本节点;
查询模块,用于从所述文本节点中查询与所述待高亮关键字相同的文本作为待高亮文本;
高亮模块,用于根据所述待高亮文本拆分对应的所述文本节点,并嵌套对应高亮样式的HTML标签,以对所述待高亮文本进行高亮。
本发明还提供了一种网页关键字高亮设备,所述设备包括:
存储器:用于存储计算机程序;
处理器:用于执行所述计算机程序时实现如上述任一项所述网页关键字高亮方法的步骤。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一项所述网页关键字高亮方法的步骤。
本发明所提供的一种网页关键字高亮方法,包括获取待高亮关键字;从目标网页的DOM树中遍历文本节点;从文本节点中查询与待高亮关键字相同的文本作为待高亮文本;根据待高亮文本拆分对应的文本节点,并嵌套对应高亮样式的HTML标签,以对待高亮文本进行高亮。
通过先从目标网页的DOM树中查找出对应目标网页显示文本内容的文本节点,再从找寻出的文本节点中找寻出关键字进行高亮,可以避免对网页编写语言代码进行关键字匹配,从而可以避免对该部分代码进行破坏导致目标网页无法正常显示情况的发生,保证准确在网页中高亮显示关键字。
本发明还提供了一种网页关键字高亮装置、一种网页关键字高亮设备以及一种计算机可读存储介质,同样具有上述有益效果,在此不再进行赘述。
附图说明
为了更清楚的说明本发明实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例所提供的一种网页关键字高亮方法的流程图;
图2为本发明实施例所提供的一种具体的网页关键字高亮方法的流程图;
图3为本发明实施例所提供的另一种具体的网页关键字高亮方法的流程图;
图4为本发明实施例所提供的一种网页关键字高亮装置的结构框图;
图5为本发明实施例所提供的一种网页关键字高亮设备的结构框图。
具体实施方式
本发明的核心是提供一种网页关键字高亮方法。在现有技术中,会把渲染在浏览器上网页的源代码当成一段文本来进行关键字匹配。由于是把源代码当成文本来匹配,即会存在对CSS,JavaScript领域的查找匹配,由于这部分信息在网页上不会变成成文本显示形式,因此匹配这部分是无用的,但是万一匹配成功了,就会破坏代码的语法规则,导致网页不能如期展示。同时也会对HTML部分,HTML语法标签行匹配,此时破坏了HTML的语法规则,也会造成网页不能如期展示。
而本发明所提供的一种网页关键字高亮方法,包括获取待高亮关键字;从目标网页的DOM树中遍历文本节点;从文本节点中查询与待高亮关键字相同的文本作为待高亮文本;根据待高亮文本拆分对应的文本节点,并嵌套对应高亮样式的HTML标签,以对待高亮文本进行高亮。
通过先从目标网页的DOM树中查找出对应目标网页显示文本内容的文本节点,再从找寻出的文本节点中找寻出关键字进行高亮,可以避免对网页编写语言代码进行关键字匹配,从而可以避免对该部分代码进行破坏导致目标网页无法正常显示情况的发生,保证准确在网页中高亮显示关键字。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,图1为本发明实施例所提供的一种网页关键字高亮方法的流程图。
参见图1,在本发明实施例中,网页关键字高亮方法包括:
S101:获取待高亮关键字。
在本步骤中,会获取到用户输入的,想要在目标网页高亮的关键字,即该高亮关键字。
S102:从目标网页的DOM树中遍历文本节点。
DOM(Document Object Model,文档对象模型)是一种处理HTML和XML文件的标准API。DOM提供了对整个文档的访问模型,将文档作为一个树形结构,即DOM树。DOM树的每个结点表示了一个HTML标签或标签内的文本项。DOM树结构精确地描述了HTML文档中标签间的相互关联性。将HTML或XML文档转化为DOM树的过程称为解析。HTML文档被解析后,转化为DOM树,因此对HTML文档的处理可以通过对DOM树的操作实现。DOM模型不仅描述了文档的结构,还定义了结点对象的行为,利用对象的方法和属性,可以方便地访问、修改、添加和删除DOM树的结点和内容。
在本申请中,首先会调用到目标网页的DOM树,之后会从DOM树中找寻出文本节点,通常需要遍历DOM树的文本节点,以从文本节点中查询出待高亮关键字并进行高亮。需要说明的是,在本发明实施例中,可以是在本步骤中查询到一个文本节点之后,即执行后续的高亮步骤,也可以是在遍历完全部的文本节点之后,对每个文本节点执行后续的高亮步骤,视具体情况而定,在此不做具体限定。
S103:从文本节点中查询与待高亮关键字相同的文本作为待高亮文本。
在本步骤中,会从S102中查询到的文本节点中所搜其文本内容,查询是否包括有对应的待高亮关键字的文本。若有,则会将与待高亮关键字相同的文本作为待高亮文本进行记录。
具体的,在本步骤中可以具体通过正则表达式从文本节点查询带高亮文本。相应的,本步骤可以具体为:基于正则表达式从所述文本节点中查询与所述待高亮关键字相同的文本作为待高亮文本。有关正则表达式的具体内容可以参考现有技术,在此不再进行赘述。通常情况下,为了全面支持关键字的各种符号,我们需要对特殊字符进行转义,形成新的关键字字符串进行匹配。
进一步的,在本发明实施例中,还可以具体通过正则表达式的或语法来支持在目标网页中同时高亮多个关键字,相应的本步骤可以具体为:基于正则表达式的或语法从所述文本节点中查询与多个所述待高亮关键字相同的文本作为待高亮文本。通过利用正则表达式的“或”语法,在对多个关键字进行遍历转化特殊字符后,可以利用“或”语法拼接形成一个支持匹配多个关键字的字符串用于匹配。相应的,在上述S101中获取的待高亮关键字包括多个关键字。
S104:根据待高亮文本拆分对应的文本节点,并嵌套对应高亮样式的HTML标签,以对待高亮文本进行高亮。
在本步骤中,会对S103中选取的待高亮文本进行高亮显示。具体的,在本步骤中首先会将上述待高亮文本拆分成对应的文本节点,并嵌套预先设置的好的,对应高亮样式的HTML标签,以对待高亮文本进行高亮显示。需要说明的是,若在本发明实施例中具体是在每查询到一个文本节点时就执行上述S103至S104的高亮显示操作,则由于在高亮显示时会嵌套对应高亮样式的HTML标签从而改变目标网页对应的DOM树结构。因此需要对上述HTML标签以及已经高亮显示过的文本节点进行标注,在筛选文本节点时进行过滤。有关上述对应高亮样式的HTML标签以及相关内容可以参考现有技术,在此不再进行赘述。
本发明实施例所提供的一种网页关键字高亮方法,包括获取待高亮关键字;从目标网页的DOM树中遍历文本节点;从文本节点中查询与待高亮关键字相同的文本作为待高亮文本;根据待高亮文本拆分对应的文本节点,并嵌套对应高亮样式的HTML标签,以对待高亮文本进行高亮。
通过先从目标网页的DOM树中查找出对应目标网页显示文本内容的文本节点,再从找寻出的文本节点中找寻出关键字进行高亮,可以避免对网页编写语言代码进行关键字匹配,从而可以避免对该部分代码进行破坏导致目标网页无法正常显示情况的发生,保证准确在网页中高亮显示关键字。
有关本发明所提供的一种网页关键字高亮方法的具体内容将在下述发明实施例中做详细介绍。
请参考图2,图2为本发明实施例所提供的一种具体的网页关键字高亮方法的流程图。
参见图2,在本发明实施例中,网页关键字高亮方法包括:
S201:获取待高亮关键字。
S202:从目标网页的DOM树的顶部节点开始,沿DOM树的树状结构遍历元素节点。
在本步骤中,具体会从DOM树的顶部节点开始,首先沿M树的树状结构筛选出元素节点。由于在本发明实施例中最终筛选出的文本节点属于元素节点,因此在本申请中首先从DOM树的顶部节点开始,沿M树的树状结构筛选出元素节点可以便于文本节点的快速查找,排除例如属性节点等其他种类节点的干扰。
S203:从元素节点沿DOM树的树状结构遍历文本节点。
在本步骤中,会在从S202中筛选出的元素节点继续沿DOM树的树状结构筛选出文本节点,以便后续在文本节点中查询对应待高亮关键字的待高亮文本。需要说明的是,在本发明实施例中可以是每查询出一个元素节点后,就沿DOM树的树状结构查询该元素节点下的文本节点,并在后续依次执行完待高亮文本的筛选以及高亮后,重新返回上述S202并查询下一元素节点,或返回S203查询下一文本节点;也可以是先查询出全部的元素节点,然后在查询出全部的文本节点,最后统一从各个文本节点中查询待高亮文本并进行高亮显示。其具体内容可以根据实际情况自行设定,在此不做具体限定。
在本步骤中,当查询到某一元素节点之后,可以继续判断该元素节点是否是标记着JS领域开始的“script”标签或标记着CSS领域开始的“style”标签。若否,即在不是的情况下,则会继续往下遍历寻找文本类型的结点,即文本结点。
S204:从文本节点中查询与待高亮关键字相同的文本作为待高亮文本。
S205:根据待高亮文本拆分对应的文本节点,并嵌套对应高亮样式的HTML标签,以对待高亮文本进行高亮。
上述S204至S205与上述发明实施例中S103至S104基本一致,详细内容请参考上述发明实施例,在此不再进行赘述。
本发明实施例所提供的一种网页关键字高亮方法,可以快速从DOM树中筛选出文本节点,从而可以快速在目标网页中对关键字进行高亮显示。
请参考图3,图3为本发明实施例所提供的另一种具体的网页关键字高亮方法的流程图。
参见图3,在本发明实施例中,网页关键字高亮方法包括:
S301:获取待高亮关键字。
本步骤与上述发明实施例中S101基本一致,详细内容请参考上述发明实施例,在此不再进行赘述。
在本发明实施例中,若需要实现分组对关键字进行高亮显示的功能,则在本步骤之后,需要确定所述待高亮关键字的组号。该组号即待高亮关键字所在分组的标识信息,其具体形式可以根据实际情况自行设定,在此不做具体限定。
S302:从目标网页的DOM树中遍历未被标记的文本节点。
在后续步骤中,会对已经选择出的文本节点进行标记,其具体内容将在下述发明实施例中做详细介绍,而本步骤的其余内容已在上述发明实施例中S102做详细介绍,在此不再进行赘述。需要说明的是,在本发明实施例中可以使用上述组号对文本节点进行标记,以便实现分组对关键字进行高亮的技术特征。因此本步骤可以具体为:从目标网页的DOM树中遍历未记录有相同所述组号的文本节点。
需要说明的是,在取消关键字高亮显示时,可以根据文本节点是否有被标记来选取对应的文本节点,而不需要遍历DOM树中每个文本节点的具体内容,从而简化操作。当然,在取消高亮显示时,通常需要清除文本节点中的标记。
S303:每当查询到一文本节点时,从文本节点中查询与待高亮关键字相同的文本作为待高亮文本。
在本步骤中,会在S302每查询到一个文本节点时,就从该文本节点中查询与上述待高亮关键字相同的文本作为待高亮文本。本步骤逇其余内容已在上述发明实施例中做详细介绍,在此不再进行赘述。
S304:对包括有待高亮文本的文本节点进行标记。
在本步骤中,会对包括有上述待高亮文本的文本节点进行标记,从而避免在循环对DOM树进行遍历过程中,重复的查询已经进行高亮的文本节点。
具体的,在本步骤中可以使用上述待高亮关键字所对应的组号对其对应的文本节点进行标记。此时本步骤可以具体为:对包括有所述待高亮文本的文本节点标记所述组号,该组号为所述待高亮文本对应带高亮关键字所对应的组号。此时,当为不同关键字分配了不同组号时,可以同时或分批显示对应同一组号的关键字。
S305:根据待高亮文本拆分对应的文本节点,并嵌套对应高亮样式的HTML标签,以对待高亮文本进行高亮。
本步骤与上述发明实施例中S104基本一致,详细内容请参考上述发明实施例,在此不再进行赘述。需要说明的是,对于不同组号的待高亮文本,在本步骤中可以使用与上述组号相对应的高亮样式的HTML标签进行高亮。
S306:添加对应文本节点的文本信息。
在本步骤中,会添加被拆分的文本节点的文本信息,该文本信息相当于被拆分前原文本节点的标识信息,其通常包括有表征原文本节点具体内容,或具体结构,或具体拆分成哪些文本节点的信息,以使在本申请中可以根据该文本信息复原出被拆分的原文本节点。有关文本信息的具体内容可以根据实际情况自行设定,在此不做具体限定。
在本步骤之后,通常需要返回上述S302,继续对DOM树进行遍历。
S307:当需要取消待高亮文本的高亮时,根据文本信息复原文本节点。
在本步骤中,当需要取消高亮时,具体可以结合上述文本信息将被拆分的文本节点复原。由于在本发明实施例中具体实现了不同关键字进行分组高亮的功能。而对于不同组号的关键字,其具体内容可能会产生重复,例如第一组号所对应的待高亮关键字为“ABC”,而第二组号所对应的待高亮关键字为“AB”,则在高亮显示第二组号所对应的“AB”时,会继续对上述拆分出高亮显示的内容为“ABC”的文本节点继续拆分。若之后想要取消高亮显示“ABC”时,必然会产生问题。而在本发明实施例中通过添加对应原文本节点具体信息的文本信息的方式,可以有效解决上述问题,在需要高亮时可以准确复原出对应的文本节点。
显然,由于在本发明实施例中具体在文本节点添加了对应组号进行标记,因此在取消高亮时也可以根据上述组号实现不同组号的关键字之间分批取消高亮的操作。在取消高亮时,仅需要根据上述组号取消高亮显示即可,有关取消高亮显示的具体过程可以参考现有技术,在此不再进行赘述。
本发明实施例所提供的一种网页关键字高亮方法,可以实现在目标网页正确实现多组关键字高亮显示的具体功能,同时可以保证取消高亮时显示的正确性。
下面对本发明实施例所提供的一种网页关键字高亮装置进行介绍,下文描述的网页关键字高亮装置与上文描述的网页关键字高亮方法可相互对应参照。
请参考图4,图4为本发明实施例所提供的一种网页关键字高亮装置的结构框图。参照图4,网页关键字高亮装置可以包括:
获取模块100,用于获取待高亮关键字。
遍历模块200,用于从目标网页的DOM树中遍历文本节点。
查询模块300,用于从所述文本节点中查询与所述待高亮关键字相同的文本作为待高亮文本。
高亮模块400,用于根据所述待高亮文本拆分对应的所述文本节点,并嵌套对应高亮样式的HTML标签,以对所述待高亮文本进行高亮。
作为优选的,在本发明实施例中,遍历模块200可以包括:
元素节点遍历单元,用于从目标网页的DOM树的顶部节点开始,沿所述DOM树的树状结构遍历元素节点。
文本节点遍历单元,用于从所述元素节点沿所述DOM树的树状结构遍历所述文本节点。
作为优选的,在本发明实施例中,遍历模块200具体用于:
从目标网页的DOM树中遍历未被标记的文本节点。
所述查询模块300具体用于:
每当查询到一所述文本节点时,从所述文本节点中查询与所述待高亮关键字相同的文本作为待高亮文本。
还包括:
标记模块,用于对包括有所述待高亮文本的文本节点进行标记。
作为优选的,在本发明实施例中,还包括:
组号模块,用于确定所述待高亮关键字的组号。
遍历模块200具体用于:
从目标网页的DOM树中遍历未记录有相同所述组号的文本节点。
标记模块具体用于:
对包括有所述待高亮文本的文本节点标记所述组号。
作为优选的,在本发明实施例中,还包括:
文本信息模块,用于添加对应所述文本节点的文本信息。
复原模块,用于当需要取消所述待高亮文本的高亮时,根据所述文本信息复原所述文本节点。
作为优选的,在本发明实施例中,所述查询模块300具体用于:
基于正则表达式从所述文本节点中查询与所述待高亮关键字相同的文本作为待高亮文本。
作为优选的,在本发明实施例中,所述查询模块300具体用于:
基于正则表达式的或语法从所述文本节点中查询与多个所述待高亮关键字相同的文本作为待高亮文本。
本实施例的网页关键字高亮装置用于实现前述的网页关键字高亮方法,因此网页关键字高亮装置中的具体实施方式可见前文中的网页关键字高亮方法的实施例部分,例如,获取模块100,遍历模块200,查询模块300,高亮模块400分别用于实现上述网页关键字高亮方法中步骤S101至S104,所以,其具体实施方式可以参照相应的各个部分实施例的描述,在此不再赘述。
下面对本发明实施例提供的一种网页关键字高亮设备进行介绍,下文描述的网页关键字高亮设备与上文描述的网页关键字高亮方法以及网页关键字高亮装置可相互对应参照。
请参考图5,图5为本发明实施例所提供的一种网页关键字高亮设备的结构框图。
参照图5,该网页关键字高亮设备可以包括处理器11和存储器12。
所述存储器12用于存储计算机程序;所述处理器11用于执行所述计算机程序时实现上述发明实施例中所述的网页关键字高亮方法的具体内容。
本实施例的网页关键字高亮设备中处理器11用于安装上述发明实施例中所述的网页关键字高亮装置,同时处理器11与存储器12相结合可以实现上述任一发明实施例中所述的网页关键字高亮方法。因此网页关键字高亮设备中的具体实施方式可见前文中的网页关键字高亮方法的实施例部分,其具体实施方式可以参照相应的各个部分实施例的描述,在此不再赘述。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一发明实施例中所介绍的一种网页关键字高亮方法。其余内容可以参照现有技术,在此不再进行展开描述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明所提供的一种网页关键字高亮方法、一种网页关键字高亮装置、一种网页关键字高亮设备以及一种计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (10)

1.一种网页关键字高亮方法,其特征在于,包括:
获取待高亮关键字;
从目标网页的DOM树中遍历文本节点;
从所述文本节点中查询与所述待高亮关键字相同的文本作为待高亮文本;
根据所述待高亮文本拆分对应的所述文本节点,并嵌套对应高亮样式的HTML标签,以对所述待高亮文本进行高亮。
2.根据权利要求1所述的方法,其特征在于,所述从目标网页的DOM树中遍历文本节点包括:
从目标网页的DOM树的顶部节点开始,沿所述DOM树的树状结构遍历元素节点;
从所述元素节点沿所述DOM树的树状结构遍历所述文本节点。
3.根据权利要求2所述的方法,其特征在于,所述从目标网页的DOM树中遍历文本节点包括:
从目标网页的DOM树中遍历未被标记的文本节点;
所述从所述文本节点中查询与所述待高亮关键字相同的文本作为待高亮文本包括:
每当查询到一所述文本节点时,从所述文本节点中查询与所述待高亮关键字相同的文本作为待高亮文本;
在从所述文本节点中查询与所述待高亮关键字相同的文本作为待高亮文本之后,还包括:
对包括有所述待高亮文本的文本节点进行标记。
4.根据权利要求3所述的方法,其特征在于,在所述获取待高亮关键字之后,还包括:
确定所述待高亮关键字的组号;
所述从目标网页的DOM树中遍历未被标记的文本节点包括:
从目标网页的DOM树中遍历未记录有相同所述组号的文本节点;
所述对包括有所述待高亮文本的文本节点进行标记包括:
对包括有所述待高亮文本的文本节点标记所述组号。
5.根据权利要求4所述的方法,其特征在于,在从所述文本节点中查询与所述待高亮关键字相同的文本作为待高亮文本之后,还包括:
添加对应所述文本节点的文本信息;
当需要取消所述待高亮文本的高亮时,根据所述文本信息复原所述文本节点。
6.根据权利要求1所述的方法,其特征在于,所述从所述文本节点中查询与所述待高亮关键字相同的文本作为待高亮文本包括:
基于正则表达式从所述文本节点中查询与所述待高亮关键字相同的文本作为待高亮文本。
7.根据权利要求6所述的方法,其特征在于,所述基于正则表达式从所述文本节点中查询与所述待高亮关键字相同的文本作为待高亮文本包括:
基于正则表达式的或语法从所述文本节点中查询与多个所述待高亮关键字相同的文本作为待高亮文本。
8.一种网页关键字高亮装置,其特征在于,包括:
获取模块,用于获取待高亮关键字;
遍历模块,用于从目标网页的DOM树中遍历文本节点;
查询模块,用于从所述文本节点中查询与所述待高亮关键字相同的文本作为待高亮文本;
高亮模块,用于根据所述待高亮文本拆分对应的所述文本节点,并嵌套对应高亮样式的HTML标签,以对所述待高亮文本进行高亮。
9.一种网页关键字高亮设备,其特征在于,所述设备包括:
存储器:用于存储计算机程序;
处理器:用于执行所述计算机程序时实现如权利要求1至7任一项所述网页关键字高亮方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述网页关键字高亮方法的步骤。
CN202111144409.7A 2021-09-28 2021-09-28 一种网页关键字高亮方法、装置、设备及存储介质 Pending CN113868568A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111144409.7A CN113868568A (zh) 2021-09-28 2021-09-28 一种网页关键字高亮方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111144409.7A CN113868568A (zh) 2021-09-28 2021-09-28 一种网页关键字高亮方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN113868568A true CN113868568A (zh) 2021-12-31

Family

ID=78992028

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111144409.7A Pending CN113868568A (zh) 2021-09-28 2021-09-28 一种网页关键字高亮方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113868568A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114741632A (zh) * 2022-03-31 2022-07-12 网易有道信息技术(北京)有限公司 用于对网页中关键字进行展示的方法及其相关产品
CN115529271A (zh) * 2022-10-17 2022-12-27 中国农业银行股份有限公司 业务请求分发方法、装置、设备及介质
CN116431756A (zh) * 2023-04-18 2023-07-14 浪潮智慧科技有限公司 一种基于Vue的搜索文本高亮显示方法、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100299589A1 (en) * 2009-05-19 2010-11-25 Studio Ousia Inc. Keyword display method and keyword display system
CN102779173A (zh) * 2012-06-25 2012-11-14 北京奇虎科技有限公司 网页文本高亮显示方法及系统
CN111125598A (zh) * 2019-12-20 2020-05-08 深圳壹账通智能科技有限公司 数据智能查询方法、装置、设备及存储介质
CN111800492A (zh) * 2020-06-22 2020-10-20 深圳壹账通智能科技有限公司 web网页中文字的标记方法、装置、计算机设备及存储介质
CN112380337A (zh) * 2020-11-13 2021-02-19 平安普惠企业管理有限公司 基于富文本的高亮方法及装置
CN112579937A (zh) * 2019-09-30 2021-03-30 北京国双科技有限公司 一种字符的高亮显示方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100299589A1 (en) * 2009-05-19 2010-11-25 Studio Ousia Inc. Keyword display method and keyword display system
CN102779173A (zh) * 2012-06-25 2012-11-14 北京奇虎科技有限公司 网页文本高亮显示方法及系统
CN112579937A (zh) * 2019-09-30 2021-03-30 北京国双科技有限公司 一种字符的高亮显示方法及装置
CN111125598A (zh) * 2019-12-20 2020-05-08 深圳壹账通智能科技有限公司 数据智能查询方法、装置、设备及存储介质
CN111800492A (zh) * 2020-06-22 2020-10-20 深圳壹账通智能科技有限公司 web网页中文字的标记方法、装置、计算机设备及存储介质
CN112380337A (zh) * 2020-11-13 2021-02-19 平安普惠企业管理有限公司 基于富文本的高亮方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114741632A (zh) * 2022-03-31 2022-07-12 网易有道信息技术(北京)有限公司 用于对网页中关键字进行展示的方法及其相关产品
CN115529271A (zh) * 2022-10-17 2022-12-27 中国农业银行股份有限公司 业务请求分发方法、装置、设备及介质
CN116431756A (zh) * 2023-04-18 2023-07-14 浪潮智慧科技有限公司 一种基于Vue的搜索文本高亮显示方法、设备及介质
CN116431756B (zh) * 2023-04-18 2023-12-01 浪潮智慧科技有限公司 一种基于Vue的搜索文本高亮显示方法、设备及介质

Similar Documents

Publication Publication Date Title
CN113868568A (zh) 一种网页关键字高亮方法、装置、设备及存储介质
US8381095B1 (en) Automated document revision markup and change control
JP5576003B1 (ja) コーパス生成装置、コーパス生成方法、及びコーパス生成プログラム
US20080072140A1 (en) Techniques for inducing high quality structural templates for electronic documents
CN108090104B (zh) 用于获取网页信息的方法和装置
WO2009073389A1 (en) Providing suggestions during formation of a search query
CN116955674B (zh) 一种通过LLM生成图数据库语句的方法及web装置
CN108446136B (zh) 一种元素代码的提取方法及系统
CN111258577A (zh) 页面渲染方法、装置、电子设备和存储介质
CN111984262A (zh) 微信层叠样式表文件的处理方法、装置、设备及存储介质
CN111381809B (zh) 一种焦点页面的查找方法及装置
CN113360106B (zh) 一种网页打印方法和装置
CN112733056B (zh) 一种文档处理方法、装置、设备及存储介质
CN112347324A (zh) 一种文档查询方法、装置、电子设备及存储介质
CN114021042A (zh) 网页内容的提取方法、装置、计算机设备和存储介质
CN113409111A (zh) 一种招投标信息处理方法、系统和可读存储介质
CN111966930B (zh) 基于XPath序列的网页列表解析方法及系统
CN113806667A (zh) 一种支持网页分类的方法和系统
CN113656000A (zh) 网页的处理方法和装置
CN114760365B (zh) 一种数据提取方法、装置及电子设备
JP4584166B2 (ja) Webページ文章自動検出装置
CN113408250B (zh) 一种项目文件的处理方法和装置
CN110618809B (zh) 一种前端网页输入约束提取方法和装置
CN111159518B (zh) 一种新闻数据采集方法、装置、计算机设备及存储介质
CN112528117B (zh) 一种政务网站一级目录的识别方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination