CN104765890A - 一种快速查找方法和装置 - Google Patents

一种快速查找方法和装置 Download PDF

Info

Publication number
CN104765890A
CN104765890A CN201510218705.5A CN201510218705A CN104765890A CN 104765890 A CN104765890 A CN 104765890A CN 201510218705 A CN201510218705 A CN 201510218705A CN 104765890 A CN104765890 A CN 104765890A
Authority
CN
China
Prior art keywords
character information
page
label
data
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510218705.5A
Other languages
English (en)
Other versions
CN104765890B (zh
Inventor
李适季
邵卓
彭仕文
张超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHENZHEN YOUWANG TECHNOLOGY Co Ltd
Original Assignee
SHENZHEN YOUWANG TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHENZHEN YOUWANG TECHNOLOGY Co Ltd filed Critical SHENZHEN YOUWANG TECHNOLOGY Co Ltd
Priority to CN201510218705.5A priority Critical patent/CN104765890B/zh
Publication of CN104765890A publication Critical patent/CN104765890A/zh
Application granted granted Critical
Publication of CN104765890B publication Critical patent/CN104765890B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种快速查找方法,包括:获取包括多条数据标签的标签库;将标签库中的多条数据标签以单个字符为单位进行拆分,将相同的单个字符合并,以单个字符作为节点构建搜索树,在所述搜索树中,所述数据标签所包括的字符信息的末位字符的节点中存储对应所述数据标签的标签值;当获取用户终端所打开页面的页面字符信息时,根据所述页面字符信息或所述页面字符信息的关键字,以单个字符为单位在所述搜索树中进行查找;通过所述查找获取与所述页面对应的标签值;根据所述标签值从所述标签库中确定对应的数据标签,可见,在具有树状结构的搜索树中查找速度将远大于对多条所述数据标签逐一进行查找的速度,提高了查找速度,节约了系统资源。

Description

一种快速查找方法和装置
技术领域
本发明涉及数据处理领域,特别是涉及一种快速查找方法和装置。
背景技术
随着互联网的普及以及智能移动终端的出现,人们每天基本上会有很长时间处在网络上,上网行为中有很大一部分是在通过浏览器访问网站,浏览网页。所浏览的网站中存储有信息库,信息库中具有包含网站所提供页面中的字符信息的海量数据标签,所述数据标签中的字符信息可以根据特征的不同分为多个级别,相邻级别之间的字符信息具有对应关系。
当用户在通过浏览器浏览网站所提供的页面时,分析服务器可以根据获取的信息库中的海量数据标签,分析该用户所打开的页面的标题信息,根据标题信息或标题信息中的关键字在海量数据标签中进行查找,当通过查找能够从信息库中查找到一条数据标签与所述标题信息或标题信息中的关键字相符时,则可以根据通过所述查找得出的该条数据标签中的字符信息确定该用户本次浏览页面的特征值。所述分析服务器可以对所述特征值进行相应的处理,例如当该用户再次访问网络页面时,所述分析服务器可以在该用户打开的页面上展示与所述特征值相应的内容。
由于用于查找的信息库中包含有海量的数据标签,而现有技术在进行查找时需要将标题信息或标题信息中的关键字与海量数据标签逐一比对。故查找过程非常耗时,效率低且会消耗大量系统资源。
发明内容
为了解决上述技术问题,本发明提供了一种快速查找方法和装置,以单个字符为单位,将多条数据标签中的字符信息合并构建为以单个字符作为节点的搜索树,在进行查找时,在具有树状结构的搜索树中查找速度将远大于对多条所述数据标签逐一进行查找的速度,提高了查找速度,节约了系统资源。
本发明实施例公开了如下技术方案:
一种快速查找方法,包括:
获取包括多条数据标签的标签库,所述数据标签包括字符信息,所述数据标签具有一一对应的标签值;
将所述标签库中的所述多条数据标签以单个字符为单位进行拆分,将相同的单个字符合并,以单个字符作为节点构建搜索树,所述搜索树中的节点连接为树状结构,所述树状结构中的节点的连接顺序与多个所述数据标签中字符信息的字符顺序相同,在所述搜索树中,所述数据标签所包括的字符信息的末位字符的节点中存储对应所述数据标签的标签值;
当获取用户终端所打开页面的页面字符信息时,根据所述页面字符信息或所述页面字符信息的关键字,以单个字符为单位在所述搜索树中进行查找;
通过所述查找获取与所述页面对应的标签值;
根据所述标签值从所述标签库中确定对应的数据标签。
优选的,当通过所述查找获取与所述页面对应的标签值的数量为至少两个时,根据所述标签值从所述标签库中确定对应的数据标签,具体包括:
所述数据标签中的字符信息被分为多个级别,比对所述至少两个标签值对应的至少两个数据标签的级别数量,以及所述至少两个数据标签与所述页面字符信息或所述页面字符信息的关键字的关联性;
从具有级别数量最多的数据标签中所述关联性最大的数据标签作为与所述页面字符信息或所述页面字符信息的关键字对应的数据标签。
优选的,
所述页面字符信息的关键字至少为一个,当所述页面字符信息的关键字多于一个时,根据所述页面字符信息的关键字确定与所述至少两个数据标签的关联性。
优选的,还包括:
根据类别从所述多条数据标签包括的字符信息中提取特征词;
根据提出去的多个特征词生成词典;
当获取用户终端所打开页面的页面字符信息时,根据所述词典中的特征词对所述页面字符信息进行切词,得到所述页面字符信息的关键字。
优选的,
所述页面字符信息包括页面标题信息、页面重要信息和页面搜索信息中任意一个或多个的组合。
一种快速查找装置,包括:
第一获取单元,用于获取包括多条数据标签的标签库,所述数据标签包括字符信息,所述数据标签具有一一对应的标签值;
构建单元,用于将所述标签库中的所述多条数据标签以单个字符为单位进行拆分,将相同的单个字符合并,以单个字符作为节点构建搜索树,所述搜索树中的节点连接为树状结构,所述树状结构中的节点的连接顺序与多个所述数据标签中字符信息的字符顺序相同,在所述搜索树中,所述数据标签所包括的字符信息的末位字符的节点中存储对应所述数据标签的标签值;
查找单元,用于当获取用户终端所打开页面的页面字符信息时,根据所述页面字符信息或所述页面字符信息的关键字,以单个字符为单位在所述搜索树中进行查找;
第二获取单元,用于通过所述查找获取与所述页面对应的标签值;
确定单元,用于根据所述标签值从所述标签库中确定对应的数据标签。
优选的,所述数据标签中的字符信息被分为多个级别,比对所述至少两个标签值对应的至少两个数据标签的级别数量,以及所述至少两个数据标签与所述页面字符信息或所述页面字符信息的关键字的关联性;
所述确定单元具体用于当所述第二获取单元获取与所述页面对应的标签值的数量为至少两个时,从具有级别数量最多的数据标签中所述关联性最大的数据标签作为与所述页面字符信息或所述页面字符信息的关键字对应的数据标签。
优选的,
所述页面字符信息的关键字至少为一个,当所述页面字符信息的关键字多于一个时,所述确定单元具体用于根据所述页面字符信息的关键字确定与所述至少两个数据标签的关联性。
优选的,还包括:
提取单元,用于根据类别从所述多条数据标签包括的字符信息中提取特征词;
生成单元,用于根据提出去的多个特征词生成词典;
切词单元,用于当获取用户终端所打开页面的页面字符信息时,根据所述词典中的特征词对所述页面字符信息进行切词,得到所述页面字符信息的关键字。
优选的,
所述页面字符信息包括页面标题信息、页面重要信息和页面搜索信息中任意一个或多个的组合。
由上述技术方案可以看出,对获取的多条数据标签中字符信息以单个字符为单位进行拆分并合并相同的单个字符,在保证原本数据标签中字符顺序的前提下,构建以单个字符作为节点的且具有树状结构的搜索树,在所述搜索树中,所述数据标签所包括的字符信息的末位字符的节点中存储对应所述数据标签的标签值。当在对用户所打开页面的页面字符信息在所述搜索树中以单个字符为单位进行查找时,通过树状结构的搜索树可以快速的查找到对应标签值,通过所述标签值可以确定出对应的数据标签,在具有树状结构的搜索树中查找速度将远大于对多条所述数据标签逐一进行查找的速度,提高了查找速度,节约了系统资源。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种快速查找方法的方法流程图;
图2为本发明实施例提供的一种搜索树的结构示意图;
图3为本发明实施例提供的一种快速查找装置的装置结构图;
图4为本发明实施例提供的一种通过标签库中的多个数据标签获取字典装置的装置结构图。
具体实施方式
现有技术中,在通过具有海量数据标签的信息库对用户打开页面的标题信息进行查找时,一般使用在海量数据标签中进行逐一比对的查找方式。导致查找过程非常耗时,效率低且会消耗大量系统资源。
为此,本发明实施例提供了一种快速查找方法和装置,对获取的多条数据标签中字符信息以单个字符为单位进行拆分并合并相同的单个字符,在保证原本数据标签中字符顺序的前提下,构建以单个字符作为节点的且具有树状结构的搜索树,在所述搜索树中,所述数据标签所包括的字符信息的末位字符的节点中存储对应所述数据标签的标签值,该标签用于对应表象用户行为属性。将对用户所打开页面的页面字符信息在所述搜索树中以单个字符为单位进行查找时,通过树状结构的搜索树可以快速的查找到对应标签值,通过所述标签值可以确定出对应的数据标签,在具有树状结构的搜索树中查找速度将远大于对多条所述数据标签逐一进行查找的速度,提高了查找速度,节约了系统资源。由于该方法中用于搜索的树的大小主要取决于字典中汉字数量,对数据量依赖性较小,故该方法有效规避海量数据搜索效率低的问题。
进一步的,当查找到的标签值为多个时,可以根据标签值对应的数据标签所包含的级别数量以及与所述页面信息或所述页面信息的关键字的关联性,从所述至少两个数据标签中选出具有级别数量最多,且所述关联性最大的数据标签作为与所述页面信息或所述页面信息的关键字对应的数据标签,起到提高查找准确性的作用。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
图1为本发明实施例提供的一种快速查找方法的方法流程图,包括:
S101:获取包括多条数据标签的标签库,所述数据标签包括字符信息,所述数据标签具有一一对应的标签值。
举例说明,所述标签库包括的多条数据标签例如可以如表1所示:
一级分类 二级分类 三级分类 四级分类 标签值
家用电器 个户健康 电吹风 1.1.1
家用电器 个户健康 剃须刀 1.1.2
家用电器 个户健康 电吹风 飞利浦 1.1.1.1
家用电器 个户健康 剃须刀 飞利浦 1.1.2.1
家用电器 个户健康 剃须刀 飞科 1.1.2.2
表1
表1中展示了5条标签,每条数据标签具有一个唯一对应的标签值。标签值可以是由字符或字母等形式组成,可以根据数据标签所包含的级别的数量来定义标签值。其中,标签值为1.1.1的数据标签的字符信息为:家用电器/个护健康/电吹风。标签值为1.1.2.1的数据标签的字符信息为:家用电器/个护健康/剃须刀/飞利浦。
所述数据标签主要利用各大类型主流网站爬取的标签中的单词作为字典。标签主要来源于各大主流网站爬取、专业客户主动提供等方式。
S102:将所述标签库中的所述多条数据标签的最低级别分类内容以单个字符为单位进行拆分,将相同的单个字符合并,以单个字符作为节点构建搜索树,所述搜索树中的节点连接为树状结构,所述树状结构中的节点的连接顺序与多个所述数据标签中字符信息的字符顺序相同,在所述搜索树中,所述数据标签所包括的字符信息的末位字符的节点中存储对应所述数据标签的标签值。
举例说明,以表1中所示的5条数据标签为例,通过以最低级别分类内容单个字符为单位进行拆分,将相同的单个字符合并,以单个字符作为节点构建搜索树可以如图2所示,图2为本发明实施例提供的一种搜索树的结构示意图。搜索树中的节点的连接顺序可以如图2中各个节点之间的连接箭头所示。在每个原数据标签的字符信息的末位字符的节点中存储对应所述数据标签的标签值。例如标签值为1.1.1的数据标签的字符信息为:家用电器/个护健康/电吹风,在“风”所在字节处封装了标签值1.1.1。标签值为1.1.2.1的数据标签的字符信息为:家用电器/个护健康/剃须刀/飞利浦,在“浦”所在字节处封装了标签值1.1.2.1。本发明实施例提供的搜索树,采用树状结构,匹配时只需要循环单个字,而不需要再进行回溯,大大提高了匹配速度,有效规避海量数据查找效率低的问题。
S103:当获取用户终端所打开页面的页面字符信息时,根据所述页面字符信息或所述页面字符信息的关键字,以单个字符为单位在所述搜索树中进行查找。
举例说明,可选的,所述页面字符信息包括页面标题信息、页面重要信息和页面搜索信息中任意一个或多个的组合。
S104:通过所述查找获取与所述页面对应的标签值。
S105:根据所述标签值从所述标签库中确定对应的数据标签。
举例说明,若获取的页面字符信息或所述页面字符信息的关键字为:“飞科”。通过如图2所示搜索树逐字符进行查找,先在搜索树中查找到包含了“飞”的节点,再从该包含了“飞”的节点的子节点中查找“科”,图2中包括两个子节点,分别为利和科。也就是只需要从两个节点中进行查找,查找耗时基本可以忽略。当查找到包含了“科”的节点后,还可以获取其中封装的标签值1.1.2.2。由此确定出该标签值就是对应用户终端本次所打开页面的页面字符信息的标签值。接着从S101中预先获取的标签库中根据标签值“1.1.2.2”确定出对应的数据标签。由此可以根据确定出的数据标签中所包含的信息,赋予所述用户终端本次上网行为的特征值。
可见,对获取的多条数据标签中字符信息以单个字符为单位进行拆分并合并相同的单个字符,在保证原本数据标签中字符顺序的前提下,构建以单个字符作为节点的且具有树状结构的搜索树,在所述搜索树中,所述数据标签所包括的字符信息的末位字符的节点中存储对应所述数据标签的标签值。当在对用户所打开页面的页面字符信息在所述搜索树中以单个字符为单位进行查找时,通过树状结构的搜索树可以快速的查找到对应标签值,通过所述标签值可以确定出对应的数据标签,在具有树状结构的搜索树中查找速度将远大于对多条所述数据标签逐一进行查找的速度,提高了查找速度,节约了系统资源。
实施例二
本发明实施例提供了一种获取所述页面字符信息的关键字优选方式。本发明实施例提供了一种通过标签库中的多个数据标签获取字典的方式。首先根据类别从所述多条数据标签包括的字符信息中提取特征词。如表1为例,可以从标签值为1.1.1的数据标签中提取出特征词:家用电器、个护健康和电吹风。再根据提取出的多个特征词生成词典。这样在当获取用户终端所打开页面的页面字符信息时,根据所述词典中的特征词对所述页面字符信息进行切词,得到所述页面字符信息的关键字。通过词典切词得到的关键字在搜索树中更容易查找到标签值,该改进可以达到更加有效的查找,提高查找的成功率的效果。
有种查找可能出现的情况需要注意的是,在根据所述页面字符信息或所述页面字符信息的关键字,以单个字符在搜索树中查找时,可能会查找到不止一个标签值。
为此,本发明实施例提供一种可选的方式从多个标签值中确定出最符合所述页面字符信息或所述页面字符信息的关键字的标签值。
当通过所述查找获取与所述页面对应的标签值的数量为至少两个时,例如用户打开页面的所述页面字符信息或所述页面字符信息的关键字为“飞利浦,剃须刀”。通过如图2所示搜索树进行查找时,可以得到三个标签值,分别为:1.1.2;1.1.1.1;1.1.2.1。那么根据所述标签值从所述标签库中确定对应的数据标签,具体包括:
所述数据标签中的字符信息被分为多个级别,比对所述至少两个标签值对应的至少两个数据标签的级别数量,以及所述至少两个数据标签与所述页面字符信息或所述页面字符信息的关键字的关联性。
举例说明,从表1中可以看出,例如标签值为1.1.1的数据标签的字符信息被分为了三个级别:一级分类为家用电器,二级分类为个护健康,三级分类为电吹风。标签值为1.1.2.1的数据标签的字符信息被分为四个级别:一级分类为家用电器,二级分类为个护健康,三级分类为剃须刀,四级分类为飞利浦。
从具有级别数量最多的数据标签中所述关联性最大的数据标签作为与所述页面字符信息或所述页面字符信息的关键字对应的数据标签。
上述例子中查找到的三个标签值所分别对应的三条数据标签的级别数量分别是3、4、4。1.1.1.1和1.1.2.1对应的数据标签的级别数量为4,大于1.1.1对应的数据标签的级别数量3。
在判断关联性时,本发明实施例提供了一种判断关联性的方法,当所述页面字符信息的关键字多于一个时,根据所述页面字符信息的关键字确定与所述至少两个数据标签的关联性。也就是说,如果通过查找得到多个标签值,可以通过判断该多个标签值对应的多个数据标签是否还含有多个关键字中的其他关键字,并以此作为判断关联性大小的依据。
例如通过比对,可以看出1.1.2.1对应的数据标签中含有“剃须刀”,与所述页面字符信息或所述页面字符信息的关键字的关联性最大。由此可以从上述三条数据标签中确定出1.1.2.1所对应的数据标签为与所述页面字符信息或所述页面字符信息的关键字对应的数据标签。
可见,当查找到的标签值为多个时,可以根据标签值对应的数据标签所包含的级别数量以及与所述页面信息或所述页面信息的关键字的关联性,从所述至少两个数据标签中选出具有级别数量最多,且所述关联性最大的数据标签作为与所述页面信息或所述页面信息的关键字对应的数据标签,起到提高查找准确性的作用。
实施例三
图3为本发明实施例提供的一种快速查找装置的装置结构图,包括:
第一获取单元301,用于获取包括多条数据标签的标签库,所述数据标签包括字符信息,所述数据标签具有一一对应的标签值。
举例说明,所述数据标签主要利用各大类型主流网站爬取的标签中的单词作为字典。标签主要来源于各大主流网站爬取、专业客户主动提供等方式。
构建单元302,用于将所述标签库中的所述多条数据标签以单个字符为单位进行拆分,将相同的单个字符合并,以单个字符作为节点构建搜索树,所述搜索树中的节点连接为树状结构,所述树状结构中的节点的连接顺序与多个所述数据标签中字符信息的字符顺序相同,在所述搜索树中,所述数据标签所包括的字符信息的末位字符的节点中存储对应所述数据标签的标签值。
举例说明,以表1中所示的5条数据标签为例,通过以最低级别分类内容单个字符为单位进行拆分,将相同的单个字符合并,以单个字符作为节点构建搜索树可以如图2所示,搜索树中的节点的连接顺序可以如图2中各个节点之间的连接箭头所示。在每个原数据标签的字符信息的末位字符的节点中存储对应所述数据标签的标签值。例如标签值为1.1.1的数据标签的字符信息为:家用电器/个护健康/电吹风,在“风”所在字节处封装了标签值1.1.1。标签值为1.1.2.1的数据标签的字符信息为:家用电器/个护健康/剃须刀/飞利浦,在“浦”所在字节处封装了标签值1.1.2.1。本发明实施例提供的搜索树,采用树状结构,匹配时只需要循环单个字,而不需要再进行回溯,大大提高了匹配速度,有效规避海量数据查找效率低的问题。
查找单元303,用于当获取用户终端所打开页面的页面字符信息时,根据所述页面字符信息或所述页面字符信息的关键字,以单个字符为单位在所述搜索树中进行查找。
举例说明,可选的,所述页面字符信息包括页面标题信息、页面重要信息和页面搜索信息中任意一个或多个的组合。
第二获取单元304,用于通过所述查找获取与所述页面对应的标签值。
确定单元305,用于根据所述标签值从所述标签库中确定对应的数据标签。
举例说明,若获取的页面字符信息或所述页面字符信息的关键字为:“飞科”。通过如图2所示搜索树逐字符进行查找,先在搜索树中查找到包含了“飞”的节点,再从该包含了“飞”的节点的子节点中查找“科”,图2中包括两个子节点,分别为利和科。也就是只需要从两个节点中进行查找,查找耗时基本可以忽略。当查找到包含了“科”的节点后,还可以获取其中封装的标签值1.1.2.2。由此确定出该标签值就是对应用户终端本次所打开页面的页面字符信息的标签值。接着从S101中预先获取的标签库中根据标签值“1.1.2.2”确定出对应的数据标签。由此可以根据确定出的数据标签中所包含的信息,赋予所述用户终端本次上网行为的特征值。
可见,对获取的多条数据标签中字符信息以单个字符为单位进行拆分并合并相同的单个字符,在保证原本数据标签中字符顺序的前提下,构建以单个字符作为节点的且具有树状结构的搜索树,在所述搜索树中,所述数据标签所包括的字符信息的末位字符的节点中存储对应所述数据标签的标签值。当在对用户所打开页面的页面字符信息在所述搜索树中以单个字符为单位进行查找时,通过树状结构的搜索树可以快速的查找到对应标签值,通过所述标签值可以确定出对应的数据标签,在具有树状结构的搜索树中查找速度将远大于对多条所述数据标签逐一进行查找的速度,提高了查找速度,节约了系统资源。
实施例四
本发明实施例提供了一种获取所述页面字符信息的关键字优选装置。本发明实施例提供了一种通过标签库中的多个数据标签获取字典的装置。首先根据类别从所述多条数据标签包括的字符信息中提取特征词。如表1为例,可以从标签值为1.1.1的数据标签中提取出特征词:家用电器、个护健康和电吹风。再根据提取出的多个特征词生成词典。这样在当获取用户终端所打开页面的页面字符信息时,根据所述词典中的特征词对所述页面字符信息进行切词,得到所述页面字符信息的关键字。通过词典切词得到的关键字在搜索树中更容易查找到标签值,该改进可以达到更加有效的查找,提高查找的成功率的效果。
在图3的基础上,图4为本发明实施例提供的一种通过标签库中的多个数据标签获取字典装置的装置结构图。
提取单元401,用于根据类别从所述多条数据标签包括的字符信息中提取特征词。
生成单元402,用于根据提出去的多个特征词生成词典。
切词单元403,用于当获取用户终端所打开页面的页面字符信息时,根据所述词典中的特征词对所述页面字符信息进行切词,得到所述页面字符信息的关键字。
有种查找可能出现的情况需要注意的是,在根据所述页面字符信息或所述页面字符信息的关键字,以单个字符在搜索树中查找时,可能会查找到不止一个标签值。
为此,所述数据标签中的字符信息被分为多个级别,比对所述至少两个标签值对应的至少两个数据标签的级别数量,以及所述至少两个数据标签与所述页面字符信息或所述页面字符信息的关键字的关联性。例如用户打开页面的所述页面字符信息或所述页面字符信息的关键字为“飞利浦,剃须刀”。通过如图2所示搜索树进行查找时,可以得到三个标签值,分别为:1.1.2;1.1.1.1;1.1.2.1。
所述确定单元305具体用于当所述第二获取单元304获取与所述页面对应的标签值的数量为至少两个时,从具有级别数量最多的数据标签中所述关联性最大的数据标签作为与所述页面字符信息或所述页面字符信息的关键字对应的数据标签。
举例说明,从表1中可以看出,例如标签值为1.1.1的数据标签的字符信息被分为了三个级别:一级分类为家用电器,二级分类为个护健康,三级分类为电吹风。标签值为1.1.2.1的数据标签的字符信息被分为四个级别:一级分类为家用电器,二级分类为个护健康,三级分类为剃须刀,四级分类为飞利浦。
从具有级别数量最多的数据标签中所述关联性最大的数据标签作为与所述页面字符信息或所述页面字符信息的关键字对应的数据标签。
上述例子中查找到的三个标签值所分别对应的三条数据标签的级别数量分别是3、4、4。1.1.1.1和1.1.2.1对应的数据标签的级别数量为4,大于1.1.1对应的数据标签的级别数量3。
在判断关联性时,本发明实施例提供了一种判断关联性的方法,当所述页面字符信息的关键字多于一个时,根据所述页面字符信息的关键字确定与所述至少两个数据标签的关联性。也就是说,如果通过查找得到多个标签值,可以通过判断该多个标签值对应的多个数据标签是否还含有多个关键字中的其他关键字,并以此作为判断关联性大小的依据。
例如通过比对,可以看出1.1.2.1对应的数据标签中含有“剃须刀”,与所述页面字符信息或所述页面字符信息的关键字的关联性最大。由此可以从上述三条数据标签中确定出1.1.2.1所对应的数据标签为与所述页面字符信息或所述页面字符信息的关键字对应的数据标签。
可见,当查找到的标签值为多个时,可以根据标签值对应的数据标签所包含的级别数量以及与所述页面信息或所述页面信息的关键字的关联性,从所述至少两个数据标签中选出具有级别数量最多,且所述关联性最大的数据标签作为与所述页面信息或所述页面信息的关键字对应的数据标签,起到提高查找准确性的作用。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者诸如媒体网关等网络通信设备)执行本发明各个实施例或者实施例的某些部分所述的方法。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备及系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅是本发明的优选实施方式,并非用于限定本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种快速查找方法,其特征在于,包括:
获取包括多条数据标签的标签库,所述数据标签包括字符信息,所述数据标签具有一一对应的标签值;
将所述标签库中的所述多条数据标签以单个字符为单位进行拆分,将相同的单个字符合并,以单个字符作为节点构建搜索树,所述搜索树中的节点连接为树状结构,所述树状结构中的节点的连接顺序与多个所述数据标签中字符信息的字符顺序相同,在所述搜索树中,所述数据标签所包括的字符信息的末位字符的节点中存储对应所述数据标签的标签值;
当获取用户终端所打开页面的页面字符信息时,根据所述页面字符信息或所述页面字符信息的关键字,以单个字符为单位在所述搜索树中进行查找;
通过所述查找获取与所述页面对应的标签值;
根据所述标签值从所述标签库中确定对应的数据标签。
2.根据权利要求1所述的方法,其特征在于,当通过所述查找获取与所述页面对应的标签值的数量为至少两个时,根据所述标签值从所述标签库中确定对应的数据标签,具体包括:
所述数据标签中的字符信息被分为多个级别,比对所述至少两个标签值对应的至少两个数据标签的级别数量,以及所述至少两个数据标签与所述页面字符信息或所述页面字符信息的关键字的关联性;
从具有级别数量最多的数据标签中所述关联性最大的数据标签作为与所述页面字符信息或所述页面字符信息的关键字对应的数据标签。
3.根据权利要求2所述的方法,其特征在于,
所述页面字符信息的关键字至少为一个,当所述页面字符信息的关键字多于一个时,根据所述页面字符信息的关键字确定与所述至少两个数据标签的关联性。
4.根据权利要求1至3任一项所述的方法,其特征在于,还包括:
根据类别从所述多条数据标签包括的字符信息中提取特征词;
根据提出去的多个特征词生成词典;
当获取用户终端所打开页面的页面字符信息时,根据所述词典中的特征词对所述页面字符信息进行切词,得到所述页面字符信息的关键字。
5.根据权利要求1所述的方法,其特征在于,
所述页面字符信息包括页面标题信息、页面重要信息和页面搜索信息中任意一个或多个的组合。
6.一种快速查找装置,其特征在于,包括:
第一获取单元,用于获取包括多条数据标签的标签库,所述数据标签包括字符信息,所述数据标签具有一一对应的标签值;
构建单元,用于将所述标签库中的所述多条数据标签以单个字符为单位进行拆分,将相同的单个字符合并,以单个字符作为节点构建搜索树,所述搜索树中的节点连接为树状结构,所述树状结构中的节点的连接顺序与多个所述数据标签中字符信息的字符顺序相同,在所述搜索树中,所述数据标签所包括的字符信息的末位字符的节点中存储对应所述数据标签的标签值;
查找单元,用于当获取用户终端所打开页面的页面字符信息时,根据所述页面字符信息或所述页面字符信息的关键字,以单个字符为单位在所述搜索树中进行查找;
第二获取单元,用于通过所述查找获取与所述页面对应的标签值;
确定单元,用于根据所述标签值从所述标签库中确定对应的数据标签。
7.根据权利要求6所述的装置,其特征在于,所述数据标签中的字符信息被分为多个级别,比对所述至少两个标签值对应的至少两个数据标签的级别数量,以及所述至少两个数据标签与所述页面字符信息或所述页面字符信息的关键字的关联性;
所述确定单元具体用于当所述第二获取单元获取与所述页面对应的标签值的数量为至少两个时,从具有级别数量最多的数据标签中所述关联性最大的数据标签作为与所述页面字符信息或所述页面字符信息的关键字对应的数据标签。
8.根据权利要求7所述的装置,其特征在于,
所述页面字符信息的关键字至少为一个,当所述页面字符信息的关键字多于一个时,所述确定单元具体用于根据所述页面字符信息的关键字确定与所述至少两个数据标签的关联性。
9.根据权利要求6至8任一项所述的装置,其特征在于,还包括:
提取单元,用于根据类别从所述多条数据标签包括的字符信息中提取特征词;
生成单元,用于根据提出去的多个特征词生成词典;
切词单元,用于当获取用户终端所打开页面的页面字符信息时,根据所述词典中的特征词对所述页面字符信息进行切词,得到所述页面字符信息的关键字。
10.根据权利要求6所述的装置,其特征在于,
所述页面字符信息包括页面标题信息、页面重要信息和页面搜索信息中任意一个或多个的组合。
CN201510218705.5A 2015-04-30 2015-04-30 一种快速查找方法和装置 Active CN104765890B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510218705.5A CN104765890B (zh) 2015-04-30 2015-04-30 一种快速查找方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510218705.5A CN104765890B (zh) 2015-04-30 2015-04-30 一种快速查找方法和装置

Publications (2)

Publication Number Publication Date
CN104765890A true CN104765890A (zh) 2015-07-08
CN104765890B CN104765890B (zh) 2018-03-13

Family

ID=53647717

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510218705.5A Active CN104765890B (zh) 2015-04-30 2015-04-30 一种快速查找方法和装置

Country Status (1)

Country Link
CN (1) CN104765890B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105897739A (zh) * 2016-05-23 2016-08-24 西安交大捷普网络科技有限公司 数据包深度过滤方法
CN108197124A (zh) * 2016-12-08 2018-06-22 北京京东尚科信息技术有限公司 根据isbn前缀映射出版社信息的方法、装置及系统
CN111885000A (zh) * 2020-06-22 2020-11-03 网宿科技股份有限公司 一种基于图神经网络的网络攻击检测方法、系统及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101458694A (zh) * 2008-10-09 2009-06-17 浙江大学 一种基于树形词库的中文分词方法
CN102955813A (zh) * 2011-08-29 2013-03-06 中国移动通信集团四川有限公司 一种信息搜索方法和系统
US20130103669A1 (en) * 2010-09-27 2013-04-25 International Business Machine Corporation Search Engine Indexing
CN103377259A (zh) * 2012-04-28 2013-10-30 北京新媒传信科技有限公司 一种多模式字符串匹配方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101458694A (zh) * 2008-10-09 2009-06-17 浙江大学 一种基于树形词库的中文分词方法
US20130103669A1 (en) * 2010-09-27 2013-04-25 International Business Machine Corporation Search Engine Indexing
CN102955813A (zh) * 2011-08-29 2013-03-06 中国移动通信集团四川有限公司 一种信息搜索方法和系统
CN103377259A (zh) * 2012-04-28 2013-10-30 北京新媒传信科技有限公司 一种多模式字符串匹配方法和装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105897739A (zh) * 2016-05-23 2016-08-24 西安交大捷普网络科技有限公司 数据包深度过滤方法
CN108197124A (zh) * 2016-12-08 2018-06-22 北京京东尚科信息技术有限公司 根据isbn前缀映射出版社信息的方法、装置及系统
CN111885000A (zh) * 2020-06-22 2020-11-03 网宿科技股份有限公司 一种基于图神经网络的网络攻击检测方法、系统及装置

Also Published As

Publication number Publication date
CN104765890B (zh) 2018-03-13

Similar Documents

Publication Publication Date Title
CN103544255B (zh) 基于文本语义相关的网络舆情信息分析方法
CN101593200B (zh) 基于关键词频度分析的中文网页分类方法
CN104268148B (zh) 一种基于时间串的论坛页面信息自动抽取方法及系统
CN104111941B (zh) 信息展示的方法及设备
CN103136228A (zh) 一种图片搜索方法以及图片搜索装置
CN104881458B (zh) 一种网页主题的标注方法和装置
CN102663022B (zh) 一种基于url的分类识别方法
CN103377200A (zh) 用户偏好信息采集方法和装置
US10311120B2 (en) Method and apparatus for identifying webpage type
CN103020123B (zh) 一种搜索不良视频网站的方法
CN106033415A (zh) 文本内容推荐方法及装置
CN110263021B (zh) 一种基于个性化标签体系的主题库生成方法
CN102004772A (zh) 一种用于根据检索词进行搜索结果排序的方法及设备
KR101757900B1 (ko) 지식 베이스의 구축 방법 및 장치
CN104408033A (zh) 一种文本信息提取的方法及系统
CN107977420A (zh) 一种演进式文档的摘要提取方法、装置及可读存储介质
CN103530429A (zh) 一种网页正文抽取的方法
KR20150018880A (ko) 정보 취합 분류의 디스플레이 방법 및 시스템
CN105302807A (zh) 一种获取信息类别的方法和装置
CN104298732A (zh) 一种面向网络用户的个性化文本排序及推荐方法
CN105389328B (zh) 一种大规模开源软件搜索排序优化方法
CN106919703A (zh) 电影信息搜索方法及装置
CN103870495A (zh) 用于从网站中提取信息的方法和装置
CN104765890A (zh) 一种快速查找方法和装置
CN109857952A (zh) 一种具有分类显示的搜索引擎及快速检索方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant