CN104765890A

CN104765890A - 一种快速查找方法和装置

Info

Publication number: CN104765890A
Application number: CN201510218705.5A
Authority: CN
Inventors: 李适季; 邵卓; 彭仕文; 张超
Original assignee: SHENZHEN YOUWANG TECHNOLOGY Co Ltd
Current assignee: SHENZHEN YOUWANG TECHNOLOGY Co Ltd
Priority date: 2015-04-30
Filing date: 2015-04-30
Publication date: 2015-07-08
Anticipated expiration: 2035-04-30
Also published as: CN104765890B

Abstract

本发明实施例公开了一种快速查找方法，包括：获取包括多条数据标签的标签库；将标签库中的多条数据标签以单个字符为单位进行拆分，将相同的单个字符合并，以单个字符作为节点构建搜索树，在所述搜索树中，所述数据标签所包括的字符信息的末位字符的节点中存储对应所述数据标签的标签值；当获取用户终端所打开页面的页面字符信息时，根据所述页面字符信息或所述页面字符信息的关键字，以单个字符为单位在所述搜索树中进行查找；通过所述查找获取与所述页面对应的标签值；根据所述标签值从所述标签库中确定对应的数据标签，可见，在具有树状结构的搜索树中查找速度将远大于对多条所述数据标签逐一进行查找的速度，提高了查找速度，节约了系统资源。

Description

一种快速查找方法和装置

技术领域

本发明涉及数据处理领域，特别是涉及一种快速查找方法和装置。

背景技术

随着互联网的普及以及智能移动终端的出现，人们每天基本上会有很长时间处在网络上，上网行为中有很大一部分是在通过浏览器访问网站，浏览网页。所浏览的网站中存储有信息库，信息库中具有包含网站所提供页面中的字符信息的海量数据标签，所述数据标签中的字符信息可以根据特征的不同分为多个级别，相邻级别之间的字符信息具有对应关系。

当用户在通过浏览器浏览网站所提供的页面时，分析服务器可以根据获取的信息库中的海量数据标签，分析该用户所打开的页面的标题信息，根据标题信息或标题信息中的关键字在海量数据标签中进行查找，当通过查找能够从信息库中查找到一条数据标签与所述标题信息或标题信息中的关键字相符时，则可以根据通过所述查找得出的该条数据标签中的字符信息确定该用户本次浏览页面的特征值。所述分析服务器可以对所述特征值进行相应的处理，例如当该用户再次访问网络页面时，所述分析服务器可以在该用户打开的页面上展示与所述特征值相应的内容。

由于用于查找的信息库中包含有海量的数据标签，而现有技术在进行查找时需要将标题信息或标题信息中的关键字与海量数据标签逐一比对。故查找过程非常耗时，效率低且会消耗大量系统资源。

发明内容

为了解决上述技术问题，本发明提供了一种快速查找方法和装置，以单个字符为单位，将多条数据标签中的字符信息合并构建为以单个字符作为节点的搜索树，在进行查找时，在具有树状结构的搜索树中查找速度将远大于对多条所述数据标签逐一进行查找的速度，提高了查找速度，节约了系统资源。

本发明实施例公开了如下技术方案：

一种快速查找方法，包括：

获取包括多条数据标签的标签库，所述数据标签包括字符信息，所述数据标签具有一一对应的标签值；

将所述标签库中的所述多条数据标签以单个字符为单位进行拆分，将相同的单个字符合并，以单个字符作为节点构建搜索树，所述搜索树中的节点连接为树状结构，所述树状结构中的节点的连接顺序与多个所述数据标签中字符信息的字符顺序相同，在所述搜索树中，所述数据标签所包括的字符信息的末位字符的节点中存储对应所述数据标签的标签值；

当获取用户终端所打开页面的页面字符信息时，根据所述页面字符信息或所述页面字符信息的关键字，以单个字符为单位在所述搜索树中进行查找；

通过所述查找获取与所述页面对应的标签值；

根据所述标签值从所述标签库中确定对应的数据标签。

优选的，当通过所述查找获取与所述页面对应的标签值的数量为至少两个时，根据所述标签值从所述标签库中确定对应的数据标签，具体包括：

所述数据标签中的字符信息被分为多个级别，比对所述至少两个标签值对应的至少两个数据标签的级别数量，以及所述至少两个数据标签与所述页面字符信息或所述页面字符信息的关键字的关联性；

从具有级别数量最多的数据标签中所述关联性最大的数据标签作为与所述页面字符信息或所述页面字符信息的关键字对应的数据标签。

优选的，

所述页面字符信息的关键字至少为一个，当所述页面字符信息的关键字多于一个时，根据所述页面字符信息的关键字确定与所述至少两个数据标签的关联性。

优选的，还包括：

根据类别从所述多条数据标签包括的字符信息中提取特征词；

根据提出去的多个特征词生成词典；

当获取用户终端所打开页面的页面字符信息时，根据所述词典中的特征词对所述页面字符信息进行切词，得到所述页面字符信息的关键字。

优选的，

所述页面字符信息包括页面标题信息、页面重要信息和页面搜索信息中任意一个或多个的组合。

一种快速查找装置，包括：

第一获取单元，用于获取包括多条数据标签的标签库，所述数据标签包括字符信息，所述数据标签具有一一对应的标签值；

构建单元，用于将所述标签库中的所述多条数据标签以单个字符为单位进行拆分，将相同的单个字符合并，以单个字符作为节点构建搜索树，所述搜索树中的节点连接为树状结构，所述树状结构中的节点的连接顺序与多个所述数据标签中字符信息的字符顺序相同，在所述搜索树中，所述数据标签所包括的字符信息的末位字符的节点中存储对应所述数据标签的标签值；

查找单元，用于当获取用户终端所打开页面的页面字符信息时，根据所述页面字符信息或所述页面字符信息的关键字，以单个字符为单位在所述搜索树中进行查找；

第二获取单元，用于通过所述查找获取与所述页面对应的标签值；

确定单元，用于根据所述标签值从所述标签库中确定对应的数据标签。

优选的，所述数据标签中的字符信息被分为多个级别，比对所述至少两个标签值对应的至少两个数据标签的级别数量，以及所述至少两个数据标签与所述页面字符信息或所述页面字符信息的关键字的关联性；

所述确定单元具体用于当所述第二获取单元获取与所述页面对应的标签值的数量为至少两个时，从具有级别数量最多的数据标签中所述关联性最大的数据标签作为与所述页面字符信息或所述页面字符信息的关键字对应的数据标签。

优选的，

所述页面字符信息的关键字至少为一个，当所述页面字符信息的关键字多于一个时，所述确定单元具体用于根据所述页面字符信息的关键字确定与所述至少两个数据标签的关联性。

优选的，还包括：

提取单元，用于根据类别从所述多条数据标签包括的字符信息中提取特征词；

生成单元，用于根据提出去的多个特征词生成词典；

切词单元，用于当获取用户终端所打开页面的页面字符信息时，根据所述词典中的特征词对所述页面字符信息进行切词，得到所述页面字符信息的关键字。

优选的，

由上述技术方案可以看出，对获取的多条数据标签中字符信息以单个字符为单位进行拆分并合并相同的单个字符，在保证原本数据标签中字符顺序的前提下，构建以单个字符作为节点的且具有树状结构的搜索树，在所述搜索树中，所述数据标签所包括的字符信息的末位字符的节点中存储对应所述数据标签的标签值。当在对用户所打开页面的页面字符信息在所述搜索树中以单个字符为单位进行查找时，通过树状结构的搜索树可以快速的查找到对应标签值，通过所述标签值可以确定出对应的数据标签，在具有树状结构的搜索树中查找速度将远大于对多条所述数据标签逐一进行查找的速度，提高了查找速度，节约了系统资源。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种快速查找方法的方法流程图；

图2为本发明实施例提供的一种搜索树的结构示意图；

图3为本发明实施例提供的一种快速查找装置的装置结构图；

图4为本发明实施例提供的一种通过标签库中的多个数据标签获取字典装置的装置结构图。

具体实施方式

现有技术中，在通过具有海量数据标签的信息库对用户打开页面的标题信息进行查找时，一般使用在海量数据标签中进行逐一比对的查找方式。导致查找过程非常耗时，效率低且会消耗大量系统资源。

为此，本发明实施例提供了一种快速查找方法和装置，对获取的多条数据标签中字符信息以单个字符为单位进行拆分并合并相同的单个字符，在保证原本数据标签中字符顺序的前提下，构建以单个字符作为节点的且具有树状结构的搜索树，在所述搜索树中，所述数据标签所包括的字符信息的末位字符的节点中存储对应所述数据标签的标签值，该标签用于对应表象用户行为属性。将对用户所打开页面的页面字符信息在所述搜索树中以单个字符为单位进行查找时，通过树状结构的搜索树可以快速的查找到对应标签值，通过所述标签值可以确定出对应的数据标签，在具有树状结构的搜索树中查找速度将远大于对多条所述数据标签逐一进行查找的速度，提高了查找速度，节约了系统资源。由于该方法中用于搜索的树的大小主要取决于字典中汉字数量，对数据量依赖性较小，故该方法有效规避海量数据搜索效率低的问题。

进一步的，当查找到的标签值为多个时，可以根据标签值对应的数据标签所包含的级别数量以及与所述页面信息或所述页面信息的关键字的关联性，从所述至少两个数据标签中选出具有级别数量最多，且所述关联性最大的数据标签作为与所述页面信息或所述页面信息的关键字对应的数据标签，起到提高查找准确性的作用。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

图1为本发明实施例提供的一种快速查找方法的方法流程图，包括：

S101：获取包括多条数据标签的标签库，所述数据标签包括字符信息，所述数据标签具有一一对应的标签值。

举例说明，所述标签库包括的多条数据标签例如可以如表1所示：

一级分类	二级分类	三级分类	四级分类	标签值
					家用电器	个户健康	电吹风		1.1.1
家用电器	个户健康	剃须刀		1.1.2
					家用电器	个户健康	电吹风	飞利浦	1.1.1.1
家用电器	个户健康	剃须刀	飞利浦	1.1.2.1
					家用电器	个户健康	剃须刀	飞科	1.1.2.2

表1

表1中展示了5条标签，每条数据标签具有一个唯一对应的标签值。标签值可以是由字符或字母等形式组成，可以根据数据标签所包含的级别的数量来定义标签值。其中，标签值为1.1.1的数据标签的字符信息为：家用电器/个护健康/电吹风。标签值为1.1.2.1的数据标签的字符信息为：家用电器/个护健康/剃须刀/飞利浦。

所述数据标签主要利用各大类型主流网站爬取的标签中的单词作为字典。标签主要来源于各大主流网站爬取、专业客户主动提供等方式。

S102：将所述标签库中的所述多条数据标签的最低级别分类内容以单个字符为单位进行拆分，将相同的单个字符合并，以单个字符作为节点构建搜索树，所述搜索树中的节点连接为树状结构，所述树状结构中的节点的连接顺序与多个所述数据标签中字符信息的字符顺序相同，在所述搜索树中，所述数据标签所包括的字符信息的末位字符的节点中存储对应所述数据标签的标签值。

举例说明，以表1中所示的5条数据标签为例，通过以最低级别分类内容单个字符为单位进行拆分，将相同的单个字符合并，以单个字符作为节点构建搜索树可以如图2所示，图2为本发明实施例提供的一种搜索树的结构示意图。搜索树中的节点的连接顺序可以如图2中各个节点之间的连接箭头所示。在每个原数据标签的字符信息的末位字符的节点中存储对应所述数据标签的标签值。例如标签值为1.1.1的数据标签的字符信息为：家用电器/个护健康/电吹风，在“风”所在字节处封装了标签值1.1.1。标签值为1.1.2.1的数据标签的字符信息为：家用电器/个护健康/剃须刀/飞利浦，在“浦”所在字节处封装了标签值1.1.2.1。本发明实施例提供的搜索树，采用树状结构，匹配时只需要循环单个字，而不需要再进行回溯，大大提高了匹配速度，有效规避海量数据查找效率低的问题。

S103：当获取用户终端所打开页面的页面字符信息时，根据所述页面字符信息或所述页面字符信息的关键字，以单个字符为单位在所述搜索树中进行查找。

举例说明，可选的，所述页面字符信息包括页面标题信息、页面重要信息和页面搜索信息中任意一个或多个的组合。

S104：通过所述查找获取与所述页面对应的标签值。

S105：根据所述标签值从所述标签库中确定对应的数据标签。

举例说明，若获取的页面字符信息或所述页面字符信息的关键字为：“飞科”。通过如图2所示搜索树逐字符进行查找，先在搜索树中查找到包含了“飞”的节点，再从该包含了“飞”的节点的子节点中查找“科”，图2中包括两个子节点，分别为利和科。也就是只需要从两个节点中进行查找，查找耗时基本可以忽略。当查找到包含了“科”的节点后，还可以获取其中封装的标签值1.1.2.2。由此确定出该标签值就是对应用户终端本次所打开页面的页面字符信息的标签值。接着从S101中预先获取的标签库中根据标签值“1.1.2.2”确定出对应的数据标签。由此可以根据确定出的数据标签中所包含的信息，赋予所述用户终端本次上网行为的特征值。

可见，对获取的多条数据标签中字符信息以单个字符为单位进行拆分并合并相同的单个字符，在保证原本数据标签中字符顺序的前提下，构建以单个字符作为节点的且具有树状结构的搜索树，在所述搜索树中，所述数据标签所包括的字符信息的末位字符的节点中存储对应所述数据标签的标签值。当在对用户所打开页面的页面字符信息在所述搜索树中以单个字符为单位进行查找时，通过树状结构的搜索树可以快速的查找到对应标签值，通过所述标签值可以确定出对应的数据标签，在具有树状结构的搜索树中查找速度将远大于对多条所述数据标签逐一进行查找的速度，提高了查找速度，节约了系统资源。

实施例二

本发明实施例提供了一种获取所述页面字符信息的关键字优选方式。本发明实施例提供了一种通过标签库中的多个数据标签获取字典的方式。首先根据类别从所述多条数据标签包括的字符信息中提取特征词。如表1为例，可以从标签值为1.1.1的数据标签中提取出特征词：家用电器、个护健康和电吹风。再根据提取出的多个特征词生成词典。这样在当获取用户终端所打开页面的页面字符信息时，根据所述词典中的特征词对所述页面字符信息进行切词，得到所述页面字符信息的关键字。通过词典切词得到的关键字在搜索树中更容易查找到标签值，该改进可以达到更加有效的查找，提高查找的成功率的效果。

有种查找可能出现的情况需要注意的是，在根据所述页面字符信息或所述页面字符信息的关键字，以单个字符在搜索树中查找时，可能会查找到不止一个标签值。

为此，本发明实施例提供一种可选的方式从多个标签值中确定出最符合所述页面字符信息或所述页面字符信息的关键字的标签值。

当通过所述查找获取与所述页面对应的标签值的数量为至少两个时，例如用户打开页面的所述页面字符信息或所述页面字符信息的关键字为“飞利浦，剃须刀”。通过如图2所示搜索树进行查找时，可以得到三个标签值，分别为：1.1.2；1.1.1.1；1.1.2.1。那么根据所述标签值从所述标签库中确定对应的数据标签，具体包括：

所述数据标签中的字符信息被分为多个级别，比对所述至少两个标签值对应的至少两个数据标签的级别数量，以及所述至少两个数据标签与所述页面字符信息或所述页面字符信息的关键字的关联性。

举例说明，从表1中可以看出，例如标签值为1.1.1的数据标签的字符信息被分为了三个级别：一级分类为家用电器，二级分类为个护健康，三级分类为电吹风。标签值为1.1.2.1的数据标签的字符信息被分为四个级别：一级分类为家用电器，二级分类为个护健康，三级分类为剃须刀，四级分类为飞利浦。

上述例子中查找到的三个标签值所分别对应的三条数据标签的级别数量分别是3、4、4。1.1.1.1和1.1.2.1对应的数据标签的级别数量为4，大于1.1.1对应的数据标签的级别数量3。

在判断关联性时，本发明实施例提供了一种判断关联性的方法，当所述页面字符信息的关键字多于一个时，根据所述页面字符信息的关键字确定与所述至少两个数据标签的关联性。也就是说，如果通过查找得到多个标签值，可以通过判断该多个标签值对应的多个数据标签是否还含有多个关键字中的其他关键字，并以此作为判断关联性大小的依据。

例如通过比对，可以看出1.1.2.1对应的数据标签中含有“剃须刀”，与所述页面字符信息或所述页面字符信息的关键字的关联性最大。由此可以从上述三条数据标签中确定出1.1.2.1所对应的数据标签为与所述页面字符信息或所述页面字符信息的关键字对应的数据标签。

可见，当查找到的标签值为多个时，可以根据标签值对应的数据标签所包含的级别数量以及与所述页面信息或所述页面信息的关键字的关联性，从所述至少两个数据标签中选出具有级别数量最多，且所述关联性最大的数据标签作为与所述页面信息或所述页面信息的关键字对应的数据标签，起到提高查找准确性的作用。

实施例三

图3为本发明实施例提供的一种快速查找装置的装置结构图，包括：

第一获取单元301，用于获取包括多条数据标签的标签库，所述数据标签包括字符信息，所述数据标签具有一一对应的标签值。

举例说明，所述数据标签主要利用各大类型主流网站爬取的标签中的单词作为字典。标签主要来源于各大主流网站爬取、专业客户主动提供等方式。

构建单元302，用于将所述标签库中的所述多条数据标签以单个字符为单位进行拆分，将相同的单个字符合并，以单个字符作为节点构建搜索树，所述搜索树中的节点连接为树状结构，所述树状结构中的节点的连接顺序与多个所述数据标签中字符信息的字符顺序相同，在所述搜索树中，所述数据标签所包括的字符信息的末位字符的节点中存储对应所述数据标签的标签值。

举例说明，以表1中所示的5条数据标签为例，通过以最低级别分类内容单个字符为单位进行拆分，将相同的单个字符合并，以单个字符作为节点构建搜索树可以如图2所示，搜索树中的节点的连接顺序可以如图2中各个节点之间的连接箭头所示。在每个原数据标签的字符信息的末位字符的节点中存储对应所述数据标签的标签值。例如标签值为1.1.1的数据标签的字符信息为：家用电器/个护健康/电吹风，在“风”所在字节处封装了标签值1.1.1。标签值为1.1.2.1的数据标签的字符信息为：家用电器/个护健康/剃须刀/飞利浦，在“浦”所在字节处封装了标签值1.1.2.1。本发明实施例提供的搜索树，采用树状结构，匹配时只需要循环单个字，而不需要再进行回溯，大大提高了匹配速度，有效规避海量数据查找效率低的问题。

查找单元303，用于当获取用户终端所打开页面的页面字符信息时，根据所述页面字符信息或所述页面字符信息的关键字，以单个字符为单位在所述搜索树中进行查找。

第二获取单元304，用于通过所述查找获取与所述页面对应的标签值。

确定单元305，用于根据所述标签值从所述标签库中确定对应的数据标签。

实施例四

本发明实施例提供了一种获取所述页面字符信息的关键字优选装置。本发明实施例提供了一种通过标签库中的多个数据标签获取字典的装置。首先根据类别从所述多条数据标签包括的字符信息中提取特征词。如表1为例，可以从标签值为1.1.1的数据标签中提取出特征词：家用电器、个护健康和电吹风。再根据提取出的多个特征词生成词典。这样在当获取用户终端所打开页面的页面字符信息时，根据所述词典中的特征词对所述页面字符信息进行切词，得到所述页面字符信息的关键字。通过词典切词得到的关键字在搜索树中更容易查找到标签值，该改进可以达到更加有效的查找，提高查找的成功率的效果。

在图3的基础上，图4为本发明实施例提供的一种通过标签库中的多个数据标签获取字典装置的装置结构图。

提取单元401，用于根据类别从所述多条数据标签包括的字符信息中提取特征词。

生成单元402，用于根据提出去的多个特征词生成词典。

切词单元403，用于当获取用户终端所打开页面的页面字符信息时，根据所述词典中的特征词对所述页面字符信息进行切词，得到所述页面字符信息的关键字。

为此，所述数据标签中的字符信息被分为多个级别，比对所述至少两个标签值对应的至少两个数据标签的级别数量，以及所述至少两个数据标签与所述页面字符信息或所述页面字符信息的关键字的关联性。例如用户打开页面的所述页面字符信息或所述页面字符信息的关键字为“飞利浦，剃须刀”。通过如图2所示搜索树进行查找时，可以得到三个标签值，分别为：1.1.2；1.1.1.1；1.1.2.1。

所述确定单元305具体用于当所述第二获取单元304获取与所述页面对应的标签值的数量为至少两个时，从具有级别数量最多的数据标签中所述关联性最大的数据标签作为与所述页面字符信息或所述页面字符信息的关键字对应的数据标签。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者诸如媒体网关等网络通信设备)执行本发明各个实施例或者实施例的某些部分所述的方法。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备及系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅是本发明的优选实施方式，并非用于限定本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种快速查找方法，其特征在于，包括：

通过所述查找获取与所述页面对应的标签值；

根据所述标签值从所述标签库中确定对应的数据标签。

2.根据权利要求1所述的方法，其特征在于，当通过所述查找获取与所述页面对应的标签值的数量为至少两个时，根据所述标签值从所述标签库中确定对应的数据标签，具体包括：

3.根据权利要求2所述的方法，其特征在于，

4.根据权利要求1至3任一项所述的方法，其特征在于，还包括：

根据提出去的多个特征词生成词典；

5.根据权利要求1所述的方法，其特征在于，

6.一种快速查找装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述数据标签中的字符信息被分为多个级别，比对所述至少两个标签值对应的至少两个数据标签的级别数量，以及所述至少两个数据标签与所述页面字符信息或所述页面字符信息的关键字的关联性；

8.根据权利要求7所述的装置，其特征在于，

9.根据权利要求6至8任一项所述的装置，其特征在于，还包括：

生成单元，用于根据提出去的多个特征词生成词典；

10.根据权利要求6所述的装置，其特征在于，