CN114970463A - 一种搜索数据的标记方法和装置 - Google Patents

一种搜索数据的标记方法和装置 Download PDF

Info

Publication number
CN114970463A
CN114970463A CN202110209986.3A CN202110209986A CN114970463A CN 114970463 A CN114970463 A CN 114970463A CN 202110209986 A CN202110209986 A CN 202110209986A CN 114970463 A CN114970463 A CN 114970463A
Authority
CN
China
Prior art keywords
data
search
target
node
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110209986.3A
Other languages
English (en)
Inventor
汤梦美
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Cloud Network Technology Co Ltd
Original Assignee
Beijing Kingsoft Cloud Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Cloud Network Technology Co Ltd filed Critical Beijing Kingsoft Cloud Network Technology Co Ltd
Priority to CN202110209986.3A priority Critical patent/CN114970463A/zh
Publication of CN114970463A publication Critical patent/CN114970463A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • G06F40/154Tree transformation for tree-structured or markup documents, e.g. XSLT, XSL-FO or stylesheets
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/109Font handling; Temporal or kinetic typography

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种搜索数据的标记方法和装置,其中,该方法包括:从服务器获取目标搜索请求对应的第一搜索数据,其中,目标搜索请求用于请求搜索包括目标关键字的文档数据;根据第一搜索数据生成目标结构的第二搜索数据,其中,第二搜索数据基于目标结构被区分为文本类型的数据和非文本类型的数据;在文本类型的数据中标记目标关键字,得到第三搜索数据。本申请解决了相关技术中搜索数据的标记准确性较低的技术问题。

Description

一种搜索数据的标记方法和装置
技术领域
本申请涉及计算机领域,尤其涉及一种搜索数据的标记方法和装置。
背景技术
在使用搜索栏搜索数据的过程,显示的搜索结果中通常会对搜索栏中输入的关键字进行高亮显示,目前的搜索结果中标记关键字的方式一般为WEB(网页)端拿到数据后,通过遍历、正则表达式等直接进行针对关键字的标记处理。这种标记方式很容易在标记的过程中出现标记错误,比如:一种情况下,当数据里面的script标签内有匹配文本,添加标记标签后,将导致JS报错,无法渲染页面。另一种情况下,当节点标签属性里面匹配文本,添加标记标签后,如果代码中用到该属性,就会影响其功能,出现错误。还有一种情况,当关键词中包含特殊字符,标记后会出现结构错误,会导致渲染结果不正确。可见,目前在搜索结果中标记关键字的方式标记的准确性很低,非常容易出现错误。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请提供了一种搜索数据的标记方法和装置,以至少解决相关技术中搜索数据的标记准确性较低的技术问题。
根据本申请实施例的一个方面,提供了一种搜索数据的标记方法,应用于WEB端,包括:
从服务器获取目标搜索请求对应的第一搜索数据,其中,所述目标搜索请求用于请求搜索包括目标关键字的文档数据;
根据所述第一搜索数据生成目标结构的第二搜索数据,其中,所述第二搜索数据基于所述目标结构被区分为文本类型的数据和非文本类型的数据;
在所述文本类型的数据中标记所述目标关键字,得到第三搜索数据。
可选地,所述目标结构包括DOM树形结构,其中,所述根据所述第一搜索数据生成目标结构的第二搜索数据,包括:
将所述第一搜索数据转换为DOM树形结构的所述第二搜索数据;
其中,在所述第二搜索数据中,以数据节点的形式保存所述文本类型的数据和非文本类型的数据。
可选地,所述在所述文本类型的数据中标记所述目标关键字,得到第三搜索数据,包括:
遍历所述第二搜索数据中的所有数据节点;
在所述数据节点包括所述文本类型的数据的情况下,将所述文本类型的数据中的所述目标关键字标记为目标显示格式,其中,所述目标显示格式用于突出显示数据。
可选地,所述遍历所述第二搜索数据中的所有数据节点,包括:
从所述所有数据节点中获取未检测节点类型的数据节点作为当前数据节点,重复执行以下步骤,直至所述所有数据节点均完成检测:
检测所述当前数据节点的节点类型,其中,所述当前数据节点的节点类型包括文本节点和非文本节点;
在所述当前数据节点的节点类型为文本节点的情况下,确定所述当前数据节点中包括所述文本类型的数据;
在所述当前数据节点的节点类型为非文本节点的情况下,从所述当前数据节点中获取下一级数据节点作为下一个所述当前数据节点。
可选地,所述从服务器获取目标搜索请求对应的第一搜索数据,包括:
向所述服务器发送所述目标搜索请求,其中,所述目标搜索请求包括所述目标关键字,所述目标关键字根据用户输入的搜索内容确定;
接收所述服务器响应于所述目标搜索请求返回的所述第一搜索数据。
可选地,在所述文本类型的数据中标记所述目标关键字,得到第三搜索数据之后,所述方法还包括:
在所述WEB端上渲染显示页面;
在所述显示页面上显示所述第三搜索数据。
根据本申请实施例的另一方面,还提供了一种搜索数据的标记装置,应用于WEB端,包括:
获取模块,用于从服务器获取目标搜索请求对应的第一搜索数据,其中,所述目标搜索请求用于请求搜索包括目标关键字的文档数据;
生成模块,用于根据所述第一搜索数据生成目标结构的第二搜索数据,其中,所述第二搜索数据基于所述目标结构被区分为文本类型的数据和非文本类型的数据;
标记模块,用于在所述文本类型的数据中标记所述目标关键字,得到第三搜索数据。
可选地,所述目标结构包括DOM树形结构,其中,所述生成模块包括:
转换单元,用于将所述第一搜索数据转换为DOM树形结构的所述第二搜索数据;
其中,在所述第二搜索数据中,以数据节点的形式保存所述文本类型的数据和非文本类型的数据。
根据本申请实施例的另一方面,还提供了一种存储介质,该存储介质包括存储的程序,程序运行时执行上述的方法。
根据本申请实施例的另一方面,还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器通过计算机程序执行上述的方法。
在本申请实施例中,采用从服务器获取目标搜索请求对应的第一搜索数据,其中,目标搜索请求用于请求搜索包括目标关键字的文档数据;根据第一搜索数据生成目标结构的第二搜索数据,其中,第二搜索数据基于目标结构被区分为文本类型的数据和非文本类型的数据;在文本类型的数据中标记目标关键字,得到第三搜索数据的方式,通过获取目标搜索请求的搜索结果第一搜索数据,使用第一搜索数据生成目标结构的第二搜索数据,该第二搜索数据基于目标结构被区分为文本类型的数据和非文本类型的数据,从而能够在文本类型数据中进行目标关键字的标记,得到带有标记的第三搜索结果,达到了以文本类型数据为标记目标准确标记关键字的目的,避免了直接标记的方式可能对数据结构造成篡改的现象发生,从而实现了提高搜索数据的标记准确性的技术效果,进而解决了相关技术中搜索数据的标记准确性较低的技术问题。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是根据本申请实施例的搜索数据的标记方法的硬件环境的示意图;
图2是根据本申请实施例的一种可选的搜索数据的标记方法的流程图;
图3是根据本申请可选实施例的一种关键字的标记过程的示意图;
图4是根据本申请实施例的一种可选的搜索数据的标记装置的示意图;
图5是根据本申请实施例的一种电子装置的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本申请实施例的一方面,提供了一种搜索数据的标记的方法实施例,应用于WEB端。
可选地,在本实施例中,上述搜索数据的标记方法可以应用于如图1所示的由终端101和服务器103所构成的硬件环境中。如图1所示,服务器103通过网络与终端101进行连接,可用于为终端或终端上安装的客户端提供服务(如游戏服务、应用服务等),可在服务器上或独立于服务器设置数据库,用于为服务器103提供数据存储服务,上述网络包括但不限于:广域网、城域网或局域网,终端101并不限定于PC、手机、平板电脑等。本申请实施例的搜索数据的标记方法可以由终端101来执行。其中,终端101执行本申请实施例的搜索数据的标记方法也可以是由安装在其上的WEB客户端(即WEB端)来执行。
图2是根据本申请实施例的一种可选的搜索数据的标记方法的流程图,如图2所示,该方法可以包括以下步骤:
步骤S202,从服务器获取目标搜索请求对应的第一搜索数据,其中,目标搜索请求用于请求搜索包括目标关键字的文档数据;
步骤S204,根据第一搜索数据生成目标结构的第二搜索数据,其中,第二搜索数据基于目标结构被区分为文本类型的数据和非文本类型的数据;
步骤S206,在文本类型的数据中标记目标关键字,得到第三搜索数据。
通过上述步骤S202至步骤S206,通过获取目标搜索请求的搜索结果第一搜索数据,使用第一搜索数据生成目标结构的第二搜索数据,该第二搜索数据基于目标结构被区分为文本类型的数据和非文本类型的数据,从而能够在文本类型数据中进行目标关键字的标记,得到带有标记的第三搜索结果,达到了以文本类型数据为标记目标准确标记关键字的目的,避免了直接标记的方式可能对数据结构造成篡改的现象发生,从而实现了提高搜索数据的标记准确性的技术效果,进而解决了相关技术中搜索数据的标记准确性较低的技术问题。
可选地,在本实施例中,上述搜索数据的标记方法可以但不限于应用于WEB端。目标搜索请求可以是用户使用注册的帐号在WEB端的搜索页面上所输入的,第一搜索数据可以是服务器端返回的搜索结果。
在步骤S202提供的技术方案中,目标搜索请求用于请求搜索包括目标关键字的文档数据,该目标搜索请求可以但不限于是向搜索引擎发送的用于请求在全网搜索包括目标关键字的文档数据的搜索请求,还将可以但不限于是向数据存储系统(比如:数据库,云存储,分布式存储系统等等)发送的用于请求在数据存储系统中搜索包括目标关键字的文档数据的搜索请求。
可选地,在本实施例中,目标关键字可以但不限于包括:文字,数字,字母,符号等等形式以及这些形式的组合。目标关键字可以但不限于是直接输入的,也可以是从输入的内容中提取出来的,比如:通过语句的纠错,拆分,提取关键字等步骤得到目标关键字。
可选地,在本实施例中,第一搜索数据是响应于目标搜索请求得到的搜索结果,其可以是根据目标搜索请求搜索出的包括目标关键字的文档数据。
可选地,在本实施例中,文档数据可以但不限于包括:文本文件,多媒体数据的标题、描述信息,新闻文章的标题、文本内容等等。
作为一种可选的实施例,在上述步骤S202中,可以但不限于采用以下方式从服务器获取目标搜索请求对应的第一搜索数据:
S11,向所述服务器发送所述目标搜索请求,其中,所述目标搜索请求包括所述目标关键字,所述目标关键字根据用户输入的搜索内容确定;
S12,接收所述服务器响应于所述目标搜索请求返回的所述第一搜索数据。
可选地,在本实施例中,可以但不限于由WEB端与服务器交互获取第一搜索数据,并由WEB端对第一搜索数据中的目标关键字进行标记,相比于由服务器标记目标关键字的方式,能够节省数据返回的时间,提高数据搜索的效率,并且在高访问量的情况下,能够降低对服务器的压力。
可选地,在本实施例中,目标帐号可以但不限于是在服务器上注册的帐号,用户可以使用目标帐号在WEB端上使用服务器提供的业务,比如:数据的搜索,数据的存储等等。
可选地,在本实施例中,目标帐号可以但不限于在WEB端上输入需要搜索的目标关键字,或者输入包括目标关键字的搜索内容,输入方式可以但不限于包括:键入,筛选,指示路径等等。
可选地,在本实施例中,WEB端获取到目标帐号输入的搜索内容后,从中提取出目标关键字,或者根据搜索内容生成目标关键字,再生成对应的目标搜索请求发送给服务器进行数据的搜索,该目标搜索请求可以但不限于为http请求等等。
在步骤S204提供的技术方案中,第二搜索数据基于目标结构被区分为文本类型的数据和非文本类型的数据,生成第一搜索数据对应的目标结构的第二搜索数据,则可以使得关键字的标记过程仅在文本类型的数据中进行,从而避免对第二搜索数据结构,格式,样式等方面的误改动,提高关键字标记的准确性。
可选地,在本实施例中,非文本类型可以但不限于包括:结构,格式,样式等类型。
作为一种可选的实施例,目标结构包括DOM树形结构,在上述步骤S204中,可以但不限于通过以下方式生成目标结构的第二搜索数据:
S21,将所述第一搜索数据转换为DOM树形结构的所述第二搜索数据;
其中,在所述第二搜索数据中,以数据节点的形式保存所述文本类型的数据和非文本类型的数据。
可选地,在本实施例中,上述目标结构可以但不限于包括DOM(Document ObjectModel,文档对象模型)树形结构,在DOM树形结构中能够以数据节点的形式保存文本类型的数据和非文本类型的数据,从而区分出哪些数据是文本类型的数据,哪些数据是非文本类型的数据,从而在文本类型的数据中标记出目标关键字。
可选地,在本实施例中,可以但不限于通过javascript的方式转换DOM树形结构的数据。通过javascript的方式可以将第一搜索数据的网页代码转换为DOM树形结构的数据,在DOM树形结构的数据中通过数据节点间的层级关系和连接关系来表示代码中的数据结构,一个网页文档是一个文档节点,每个标签是一个元素节点,包含在元素中的文本是文本节点,每一个属性是一个属性节点,注释属于注释节点。
在步骤S206提供的技术方案中,将文本类型数据中的目标关键字标记出来,即可得到带有目标关键字标记的搜索结果。
作为一种可选的实施例,在上述步骤S206中,可以但不限于通过以下方式标记目标关键字:
S31,遍历所述第二搜索数据中的所有数据节点;
S32,在所述数据节点包括所述文本类型的数据的情况下,将所述文本类型的数据中的所述目标关键字标记为目标显示格式,其中,所述目标显示格式用于突出显示数据。
可选地,在本实施例中,目标结构的第二搜索数据以数据节点的形式保存了文本类型的数据和非文本类型的数据。遍历第二搜索数据中的所有数据节点,在包括文本类型的数据的数据节点中进行目标关键字的标记。
可选地,在本实施例中,目标显示格式用于突出显示数据,比如:目标显示格式可以但不限于包括:高亮显示,加粗显示,变色显示,加大显示等等。
可选地,在本实施例中,可以但不限于使用nodeType方法判断数据节点的节点类型,从而找出文本类型的数据节点。
可选地,在本实施例中,在上述标记目标关键字的过程中,可以但不限于通过以下方式将目标关键字标记为目标显示格式:将所述目标数据节点所包括的节点数据与所述目标关键字进行匹配;从所述目标数据节点所包括的节点数据中获取与所述目标关键字匹配一致的关键数据;将所述关键数据的显示格式标记为所述目标显示格式。
可选地,在本实施例中,匹配节点数据与目标关键字的方式可以但不限于包括正则匹配,模糊匹配等等。
可选地,在本实施例中,文本类型的数据中与目标关键字匹配一致的关键数据即为目标关键字,可以将其标记为目标显示格式。
可选地,在本实施例中,标记目标显示格式的方式可以但不限于为数据替换的方式,将文本类型的数据中与目标关键字匹配一致的关键数据替换为目标显示格式的关键数据。
作为一种可选的实施例,可以但不限于通过以下方式遍历第二搜索数据中的所有数据节点:
从所有数据节点中获取未检测节点类型的数据节点作为当前数据节点,重复执行以下步骤,直至所述所有数据节点均完成检测:
S41,检测当前数据节点的节点类型,其中,当前数据节点的节点类型包括文本节点和非文本节点;
S42,在当前数据节点的节点类型为文本节点的情况下,确定当前数据节点中包括文本类型的数据;
S43,在当前数据节点的节点类型为非文本节点的情况下,从当前数据节点中获取下一级数据节点作为下一个当前数据节点。
可选地,在本实施例中,可以但不限于通过对第二搜索数据中的所有数据节点逐个进行节点类型的检测来从中找出包括文本类型的数据的数据节点。
可选地,在本实施例中,从所有数据节点中获取未检测节点类型的数据节点作为当前数据节点的方式可以但不限于使用随机获取的方式,或者,也可以是按照数据节点间的层级关系逐层逐个获取未检测节点类型的数据节点。
可选地,在本实施例中,数据节点的节点类型可以划分为文本节点和非文本节点,非文本节点可以但不限于包括上述文档节点,元素节点,属性节点和注释节点等等不包括文本类型的数据的节点。
可选地,在本实施例中,遍历DOM树形结构中的每个数据节点,检测其节点类型,如果当前数据节点为文本节点,则确定当前数据节点中包括文本类型的数据,并对文本类型的数据进行目标关键词的标记操作。否则说明当前数据节点下面还有其他节点,继续递归遍历当前数据节点下的所有节点。
作为一种可选的实施例,在上述步骤S206之后,还可以但不限于通过以下方式处理得到的第三搜索数据:
S61,在所述WEB端上渲染显示页面;
S62,在所述显示页面上显示第三搜索数据。
可选地,在本实施例中,显示页面即为搜索结果的显示页面,将第三搜索数据显示在WEB端上渲染出的显示页面上,供用户进行浏览,用户在显示页面上显示的搜索结果中能够清晰地看出其搜索的目标关键字在各个搜索结果中的位置。
本申请还提供了一种可选实施例,该可选实施例提供了一个在WEB端通过遍历DOM节点的方式进行关键字的高亮标记的过程,图3是根据本申请可选实施例的一种关键字的标记过程的示意图,如图3所示,用户在客户端的浏览器(即上述WEB端)上输入关键字,会发送一个http请求到服务器,服务器收到请求后,通过请求中携带的关键字进行数据库匹配查询,找到相应数据后,直接返回给客户端。客户端收到服务器查询到的数据,通过浏览器进行渲染,会生成DOM树形结构,通过javascript获取DOM树形结构的数据。遍历DOM树形结构的数据中的每个数据节点,检测每个数据节点的节点类型,从中找出文本节点。将关键词与遍历出的文本节点的节点内容进行匹配,如果匹配成功,则将匹配文本替换成高亮标记的文本。完成DOM树形结构里面的数据高亮标记后,通过浏览器渲染页面,显示经过高亮标记的搜索结果。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台电子设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
根据本申请实施例的另一个方面,还提供了一种用于实施上述搜索数据的标记方法的搜索数据的标记装置,应用于WEB端。图4是根据本申请实施例的一种可选的搜索数据的标记装置的示意图,如图4所示,该装置可以包括:
获取模块42,用于从服务器获取目标搜索请求对应的第一搜索数据,其中,所述目标搜索请求用于请求搜索包括目标关键字的文档数据获取目标搜索请求对应的第一搜索数据,其中,所述目标搜索请求用于请求搜索目标关键字对应的数据;
生成模块44,用于根据所述第一搜索数据生成目标结构的第二搜索数据,其中,所述第二搜索数据基于所述目标结构被区分为文本类型的数据和非文本类型的数据根;
标记模块46,用于在所述文本类型的数据中标记所述目标关键字,得到第三搜索数据在。
需要说明的是,该实施例中的获取模块42可以用于执行本申请实施例中的步骤S202,该实施例中的生成模块44可以用于执行本申请实施例中的步骤S204,该实施例中的标记模块46可以用于执行本申请实施例中的步骤S206。
此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在如图1所示的硬件环境中,可以通过软件实现,也可以通过硬件实现。
通过上述模块,通过获取目标搜索请求的搜索结果第一搜索数据,使用第一搜索数据生成目标结构的第二搜索数据,该第二搜索数据基于目标结构被区分为文本类型的数据和非文本类型的数据,从而能够在文本类型数据中进行目标关键字的标记,得到带有标记的第三搜索结果,达到了以文本类型数据为标记目标准确标记关键字的目的,避免了直接标记的方式可能对数据结构造成篡改的现象发生,从而实现了提高搜索数据的标记准确性的技术效果,进而解决了相关技术中搜索数据的标记准确性较低的技术问题。
作为一种可选的实施例,所述目标结构包括DOM树形结构,其中,所述生成模块包括:
转换单元,用于将所述第一搜索数据转换为DOM树形结构的所述第二搜索数据;
其中,在所述第二搜索数据中,以数据节点的形式保存所述文本类型的数据和非文本类型的数据。
作为一种可选的实施例,所述标记模块包括:
遍历单元,用于遍历所述第二搜索数据中的所有数据节点;
标记单元,用于在所述数据节点包括所述文本类型的数据的情况下,将所述文本类型的数据中的所述目标关键字标记为目标显示格式,其中,所述目标显示格式用于突出显示数据。
作为一种可选的实施例,所述遍历单元用于:
从所述所有数据节点中获取未检测节点类型的数据节点作为当前数据节点,重复执行以下步骤,直至所述所有数据节点均完成检测:
检测所述当前数据节点的节点类型,其中,所述当前数据节点的节点类型包括文本节点和非文本节点;
在所述当前数据节点的节点类型为文本节点的情况下,确定所述当前数据节点中包括所述文本类型的数据;
在所述当前数据节点的节点类型为非文本节点的情况下,从所述当前数据节点中获取下一级数据节点作为下一个所述当前数据节点。
作为一种可选的实施例,所述获取模块包括:
发送单元,用于向所述服务器发送所述目标搜索请求,其中,所述目标搜索请求包括所述目标关键字,所述目标关键字根据用户输入的搜索内容确定;
接收单元,用于接收所述服务器响应于所述目标搜索请求返回的所述第一搜索数据。
作为一种可选的实施例,所述装置还包括:
渲染模块,用于在所述文本类型的数据中标记所述目标关键字,得到第三搜索数据之后,在所述WEB端上渲染显示页面;
显示模块,用于在所述显示页面上显示所述第三搜索数据。
此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在如图1所示的硬件环境中,可以通过软件实现,也可以通过硬件实现,其中,硬件环境包括网络环境。
根据本申请实施例的另一个方面,还提供了一种用于实施上述搜索数据的标记方法的电子装置。
图5是根据本申请实施例的一种电子装置的结构框图,如图5所示,该电子装置可以包括:一个或多个(图中仅示出一个)处理器501、存储器503、以及传输装置505,如图5所示,该电子装置还可以包括输入输出设备507。
其中,存储器503可用于存储软件程序以及模块,如本申请实施例中的搜索数据的标记方法和装置对应的程序指令/模块,处理器501通过运行存储在存储器503内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的搜索数据的标记方法。存储器503可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器503可进一步包括相对于处理器501远程设置的存储器,这些远程存储器可以通过网络连接至电子装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
上述的传输装置505用于经由一个网络接收或者发送数据,还可以用于处理器与存储器之间的数据传输。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置505包括一个网络适配器(Network Interface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置505为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
其中,具体地,存储器503用于存储应用程序。
处理器501可以通过传输装置505调用存储器503存储的应用程序,以执行下述步骤:
从服务器获取目标搜索请求对应的第一搜索数据,其中,目标搜索请求用于请求搜索包括目标关键字的文档数据;
根据第一搜索数据生成目标结构的第二搜索数据,其中,第二搜索数据基于目标结构被区分为文本类型的数据和非文本类型的数据;
在文本类型的数据中标记目标关键字,得到第三搜索数据。
采用本申请实施例,提供了一种搜索数据的标记的方案。通过获取目标搜索请求的搜索结果第一搜索数据,使用第一搜索数据生成目标结构的第二搜索数据,该第二搜索数据基于目标结构被区分为文本类型的数据和非文本类型的数据,从而能够在文本类型数据中进行目标关键字的标记,得到带有标记的第三搜索结果,达到了以文本类型数据为标记目标准确标记关键字的目的,避免了直接标记的方式可能对数据结构造成篡改的现象发生,从而实现了提高搜索数据的标记准确性的技术效果,进而解决了相关技术中搜索数据的标记准确性较低的技术问题。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
本领域普通技术人员可以理解,图5所示的结构仅为示意,电子装置可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(MobileInternet Devices,MID)、PAD等电子设备。图5其并不对上述电子装置的结构造成限定。例如,电子装置还可包括比图5中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图5所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令电子设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
本申请的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于执行搜索数据的标记方法的程序代码。
可选地,在本实施例中,上述存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:
从服务器获取目标搜索请求对应的第一搜索数据,其中,目标搜索请求用于请求搜索包括目标关键字的文档数据;
根据第一搜索数据生成目标结构的第二搜索数据,其中,第二搜索数据基于目标结构被区分为文本类型的数据和非文本类型的数据;
在文本类型的数据中标记目标关键字,得到第三搜索数据。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种搜索数据的标记方法,应用于WEB端,其特征在于,包括:
从服务器获取目标搜索请求对应的第一搜索数据,其中,所述目标搜索请求用于请求搜索包括目标关键字的文档数据;
根据所述第一搜索数据生成目标结构的第二搜索数据,其中,所述第二搜索数据基于所述目标结构被区分为文本类型的数据和非文本类型的数据;
在所述文本类型的数据中标记所述目标关键字,得到第三搜索数据。
2.根据权利要求1所述的方法,其特征在于,所述目标结构包括DOM树形结构,其中,所述根据所述第一搜索数据生成目标结构的第二搜索数据,包括:
将所述第一搜索数据转换为DOM树形结构的所述第二搜索数据;
其中,在所述第二搜索数据中,以数据节点的形式保存所述文本类型的数据和所述非文本类型的数据。
3.根据权利要求2所述的方法,其特征在于,所述在所述文本类型的数据中标记所述目标关键字,得到第三搜索数据,包括:
遍历所述第二搜索数据中的所有数据节点;
在所述数据节点包括所述文本类型的数据的情况下,将所述文本类型的数据中的所述目标关键字标记为目标显示格式,其中,所述目标显示格式用于突出显示数据。
4.根据权利要求3所述的方法,其特征在于,所述遍历所述第二搜索数据中的所有数据节点,包括:
从所述所有数据节点中获取未检测节点类型的数据节点作为当前数据节点,重复执行以下步骤,直至所述所有数据节点均完成检测:
检测所述当前数据节点的节点类型,其中,所述当前数据节点的节点类型包括文本节点和非文本节点;
在所述当前数据节点的节点类型为文本节点的情况下,确定所述当前数据节点中包括所述文本类型的数据;
在所述当前数据节点的节点类型为非文本节点的情况下,从所述当前数据节点中获取下一级数据节点作为下一个所述当前数据节点。
5.根据权利要求1所述的方法,其特征在于,所述从服务器获取目标搜索请求对应的第一搜索数据,包括:
向所述服务器发送所述目标搜索请求,其中,所述目标搜索请求包括所述目标关键字,所述目标关键字根据用户输入的搜索内容确定;
接收所述服务器响应于所述目标搜索请求返回的所述第一搜索数据。
6.根据权利要求5所述的方法,其特征在于,在所述文本类型的数据中标记所述目标关键字,得到第三搜索数据之后,所述方法还包括:
在所述WEB端上渲染显示页面;
在所述显示页面上显示所述第三搜索数据。
7.一种搜索数据的标记装置,应用于WEB端,其特征在于,包括:
获取模块,用于从服务器获取目标搜索请求对应的第一搜索数据,其中,所述目标搜索请求用于请求搜索包括目标关键字的文档数据;
生成模块,用于根据所述第一搜索数据生成目标结构的第二搜索数据,其中,所述第二搜索数据基于所述目标结构被区分为文本类型的数据和非文本类型的数据;
标记模块,用于在所述文本类型的数据中标记所述目标关键字,得到第三搜索数据。
8.根据权利要求7所述的装置,其特征在于,所述目标结构包括DOM树形结构,其中,所述生成模块包括:
转换单元,用于将所述第一搜索数据转换为DOM树形结构的所述第二搜索数据;
其中,在所述第二搜索数据中,以数据节点的形式保存所述文本类型的数据和所述非文本类型的数据。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序运行时执行上述权利要求1至6任一项中所述的方法。
10.一种电子装置,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器通过所述计算机程序执行上述权利要求1至6任一项中所述的方法。
CN202110209986.3A 2021-02-24 2021-02-24 一种搜索数据的标记方法和装置 Pending CN114970463A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110209986.3A CN114970463A (zh) 2021-02-24 2021-02-24 一种搜索数据的标记方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110209986.3A CN114970463A (zh) 2021-02-24 2021-02-24 一种搜索数据的标记方法和装置

Publications (1)

Publication Number Publication Date
CN114970463A true CN114970463A (zh) 2022-08-30

Family

ID=82973794

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110209986.3A Pending CN114970463A (zh) 2021-02-24 2021-02-24 一种搜索数据的标记方法和装置

Country Status (1)

Country Link
CN (1) CN114970463A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740417A (zh) * 2016-01-29 2016-07-06 青岛海信移动通信技术股份有限公司 一种基于网页的目标数据搜索方法、模块、浏览器及终端
US20200272669A1 (en) * 2019-02-25 2020-08-27 Cludo, Inc. Previewing enhanced site search functionality for website
CN112182310A (zh) * 2020-11-04 2021-01-05 上海德拓信息技术股份有限公司 一种内置实时搜索的通用树形组件实现方法
CN112380337A (zh) * 2020-11-13 2021-02-19 平安普惠企业管理有限公司 基于富文本的高亮方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740417A (zh) * 2016-01-29 2016-07-06 青岛海信移动通信技术股份有限公司 一种基于网页的目标数据搜索方法、模块、浏览器及终端
US20200272669A1 (en) * 2019-02-25 2020-08-27 Cludo, Inc. Previewing enhanced site search functionality for website
CN112182310A (zh) * 2020-11-04 2021-01-05 上海德拓信息技术股份有限公司 一种内置实时搜索的通用树形组件实现方法
CN112380337A (zh) * 2020-11-13 2021-02-19 平安普惠企业管理有限公司 基于富文本的高亮方法及装置

Similar Documents

Publication Publication Date Title
CN109299446B (zh) 报告生成方法及装置
US9471714B2 (en) Method for increasing the security level of a user device that is searching and browsing web pages on the internet
US10261984B2 (en) Browser and operating system compatibility
CN101950312B (zh) 一种互联网网页内容解析方法
CN108334508B (zh) 网页信息的提取方法和装置
CN111079043B (zh) 一种关键内容定位方法
CN107423391B (zh) 网页结构化数据的信息提取方法
CN108021598B (zh) 页面抽取模板匹配方法、装置及服务器
CN109033282B (zh) 一种基于抽取模板的网页正文抽取方法及装置
CN106649446B (zh) 信息推送方法和装置
KR102033416B1 (ko) 문서로부터 추출되는 데이터를 생성하는 방법 및 그 장치
US11880401B2 (en) Template generation using directed acyclic word graphs
CN102647414A (zh) 协议解析方法、设备及系统
CN106547749B (zh) 网页数据采集的方法和装置
CN105205080A (zh) 冗余文件清理方法、装置和系统
CN105868225A (zh) 数据查询的方法、客户端、服务器及系统
CN111209325B (zh) 业务系统接口识别方法、装置及存储介质
CN112579937A (zh) 一种字符的高亮显示方法及装置
JP5676522B2 (ja) 文字列変換方法及びプログラム
CN111158973B (zh) 一种web应用动态演化监测方法
CN110390037B (zh) 基于dom树的信息分类方法、装置、设备及存储介质
CN106611022B (zh) 提高网站站内搜索效率的方法和装置
CN108460116B (zh) 搜索方法、装置、计算机设备、存储介质及搜索系统
CN114970463A (zh) 一种搜索数据的标记方法和装置
CN114157734A (zh) 数据解析方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination