CN105095369A - 网址匹配方法及装置 - Google Patents
网址匹配方法及装置 Download PDFInfo
- Publication number
- CN105095369A CN105095369A CN201510370021.7A CN201510370021A CN105095369A CN 105095369 A CN105095369 A CN 105095369A CN 201510370021 A CN201510370021 A CN 201510370021A CN 105095369 A CN105095369 A CN 105095369A
- Authority
- CN
- China
- Prior art keywords
- character
- network address
- node
- banner
- group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
Abstract
本发明实施例提供的一种网址匹配方法及装置,可以获得用户输入的网页标识,根据用户输入的网页标识获得用于进行网址匹配的字符组,按照所述字符组中字符的排列顺序,依次将所述字符组中的各个字符在预先建立的网页标识树中进行匹配,直至匹配到与所述字符组中最后的字符相匹配的节点,将与字符组中最后的字符相匹配的节点对应的网址和/或与字符组中最后的字符相匹配的节点的子树中各节点对应的网址确定为与用户输入的网页标识对应的网址。由于本发明按照树状结构进行匹配,因此不必对网页标识树中的所有节点进行匹配,仅需要对网页标识树中的相应分支的节点进行匹配即可。因此,本发明可以有效减少网址匹配所花费的时间,提高了网址匹配的效率。
Description
技术领域
本发明涉及网址匹配技术领域,特别是涉及网址匹配方法及装置。
背景技术
随着互联网的发展,上网成为人们生活不可缺少的组成部分。用户可在浏览器地址栏中输入所要访问网站的网址,从而对网站进行访问。当网站的网址较长时,用户可能无法完整记住该网站的网址。
为了帮助用户对网站进行访问,现有技术对用户访问过的网址和用户收藏的网址进行记录,生成网址列表。在用户输入网址的过程中,现有技术根据用户输入的字符在网址列表中进行查询,并将查询得到的网址展示给用户,以帮助用户快速进行访问。但现有的方案需要将网址列表中的所有的网址分别与用户输入的字符进行比对,这无疑将花费较多的时间。
发明内容
本发明实施例的目的在于提供一种网址匹配方法及装置,以实现网址的快速匹配。
为达到上述目的,本发明实施例公开了一种网址匹配方法,包括:
获得用户输入的网页标识;
根据用户输入的网页标识获得用于进行网址匹配的字符组;
按照所述字符组中字符的排列顺序,依次将所述字符组中的各个字符在预先建立的网页标识树中进行匹配,直至匹配到与所述字符组中最后的字符相匹配的节点,所述网页标识树为根据预设网址组生成的字典树,所述字典树中的部分节点对应有网址,每一个节点的内容均为一个字符,所述部分节点中任一节点对应的网址均为:与由该节点的内容及该节点的所有父祖节点的内容组成的字符组对应的网址;
将与所述字符组中最后的字符相匹配的节点对应的网址和/或与所述字符组中最后的字符相匹配的节点的子树中各节点对应的网址确定为与用户输入的网页标识对应的网址。
可选的,所述按照所述字符组中字符的排列顺序,依次将所述字符组中的各个字符在预先建立的网页标识树中进行匹配,直至匹配到与所述字符组中最后的字符相匹配的节点,包括:
在预先建立的网页标识树的第二层节点中对所述字符组中排列顺序为第一的首个字符进行匹配,如果匹配到内容与所述首个字符相同的节点,则继续对排列顺序为第二的字符进行匹配;
对所述字符组中排列顺序不为第一且不为最后的字符进行匹配,在对所述字符组中排列顺序不为第一且不为最后的字符进行匹配时,在与该字符的上一字符匹配的所述网页标识树的节点的子节点中进行匹配,如果匹配到内容与该字符相同的子节点,则继续对该字符的下一字符进行匹配;
在与所述字符组中排列顺序为最后的字符的上一字符匹配的所述网页标识树的节点的子节点中对所述最后的字符进行匹配,如果匹配到内容与所述最后的字符相同的子节点,则停止匹配。
可选的,还包括:
将所确定的、与用户输入的网页标识对应的网址进行显示输出。
可选的,所述将所确定的、与用户输入的网页标识对应的网址进行显示输出,包括:
将所确定的、与用户输入的网页标识对应的网址显示在地址栏的下方。
可选的,所述网页标识为网页所对应的网址的全部或部分字符,所述根据用户输入的网页标识获得用于进行网址匹配的字符组,包括:
从用户输入的网页标识中提取表示服务器域名的字符组,将所提取的字符组确定为用于进行网址匹配的字符组。
可选的,所述预设网址组包括:历史访问网址、收藏网址和/或预设常用网址。
一种网址匹配装置,包括:标识获得模块、字符组获得模块、字符匹配模块和网址确定模块,
所述标识获得模块,用于获得用户输入的网页标识;
所述字符组获得模块,用于根据用户输入的网页标识获得用于进行网址匹配的字符组;
所述字符匹配模块,用于按照所述字符组中字符的排列顺序,依次将所述字符组中的各个字符在预先建立的网页标识树中进行匹配,直至匹配到与所述字符组中最后的字符相匹配的节点,所述网页标识树为根据预设网址组生成的字典树,所述字典树中的部分节点对应有网址,每一个节点的内容均为一个字符,所述部分节点中任一节点对应的网址均为:与由该节点的内容及该节点的所有父祖节点的内容组成的字符组对应的网址;
所述网址确定模块,用于将与所述字符组中最后的字符相匹配的节点对应的网址和/或与所述字符组中最后的字符相匹配的节点的子树中各节点对应的网址确定为与用户输入的网页标识对应的网址。
可选的,所述字符匹配模块包括:首字符匹配子模块、中间字符匹配子模块和尾字符匹配子模块,
所述首字符匹配子模块,用于在预先建立的网页标识树的第二层节点中对所述字符组中排列顺序为第一的首个字符进行匹配,如果匹配到内容与所述首个字符相同的节点,则触发所述中间字符匹配子模块继续对排列顺序为第二的字符进行匹配,所述网页标识树为根据预设网址组生成的字典树,所述字典树中的部分节点对应有网址,每一个节点的内容均为一个字符,所述部分节点中任一节点对应的网址均为:与由该节点的内容及该节点的所有父祖节点的内容组成的字符组对应的网址;
所述中间字符匹配子模块,用于对所述字符组中排列顺序不为第一且不为最后的字符进行匹配,在对所述字符组中排列顺序不为第一且不为最后的字符进行匹配时,在与该字符的上一字符匹配的所述网页标识树的节点的子节点中进行匹配,如果匹配到内容与该字符相同的子节点,则继续对该字符的下一字符进行匹配;
所述尾字符匹配子模块,用于在与所述字符组中排列顺序为最后的字符的上一字符匹配的所述网页标识树的节点的子节点中对所述最后的字符进行匹配,如果匹配到内容与所述最后的字符相同的子节点,则停止匹配。
可选的,还包括:网址显示模块,用于将所确定的、与用户输入的网页标识对应的网址进行显示输出。
可选的,所述网址显示模块具体用于:
将所确定的、与用户输入的网页标识对应的网址显示在地址栏的下方。
可选的,所述网页标识为网页所对应的网址的全部或部分字符,所述字符组获得模块,具体用于:
从用户输入的网页标识中提取表示服务器域名的字符组,将所提取的字符组确定为用于进行网址匹配的字符组。
可选的,所述预设网址组包括:历史访问网址、收藏网址和/或预设常用网址。
本发明实施例提供的一种网址匹配方法及装置,可以获得用户输入的网页标识,根据用户输入的网页标识获得用于进行网址匹配的字符组,按照所述字符组中字符的排列顺序,依次将所述字符组中的各个字符在预先建立的网页标识树中进行匹配,直至匹配到与所述字符组中最后的字符相匹配的节点,将与字符组中最后的字符相匹配的节点对应的网址和/或与字符组中最后的字符相匹配的节点的子树中各节点对应的网址确定为与用户输入的网页标识对应的网址。由于本发明按照树状结构进行匹配,因此不必对网页标识树中的所有节点进行匹配,仅需要对网页标识树中的相应分支的节点进行匹配即可。因此,本发明可以有效减少网址匹配所花费的时间,提高了网址匹配的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种网址匹配方法的流程图;
图2为本发明实施例提供的一种字典树的示意图;
图3为本发明实施例提供的另一种字典树的示意图;
图4为本发明实施例提供的另一种网址匹配方法的流程图;
图5为本发明实施例提供的一种网址显示效果示意图;
图6为本发明实施例提供的一种网址匹配装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供的一种网址匹配方法,可以包括:
S100、获得用户输入的网页标识;
其中,网页标识可以为网页所对应的网址的全部或部分字符,网页标识也可以为网页标题的全部或部分字符。
可选的,S100可以获得的网页标识可以为用户输入到地址栏中的信息。
网址中包括互联网资源类型和服务器域名,有时还包括端口和/或路径。例如:http://www.sohu.com/domain/HXWZ,http://即为互联网资源类型,www.sohu.com即为服务器域名,剩余部分即为路径。用户在输入网址时,一般会进行简化,例如:不输入http://,而直接输入服务器域名。由于每一个网站的路径和端口数量巨大,用户无法记忆,因此用户常仅输入服务器域名,而不输入端口和路径。这时,用户输入的仅为网址的部分内容。
标题Title是网页的固有属性之一,用以对该网页进行命名,帮助用户进行区分。例如:网址http://www.baidu.com所对应网页的标题为:“百度一下,你就知道”。有的标题过长,用户无法记忆完整,因此用户输入的标题可能仅为部分内容,如“百度”。
S200、根据用户输入的网页标识获得用于进行网址匹配的字符组;
其中,所述网页标识为网页所对应的网址的全部或部分字符,S200可以包括:
从用户输入的网页标识中提取表示服务器域名的字符组,将所提取的字符组确定为用于进行网址匹配的字符组。
具体的,在服务器域名中包含顶级域名,如com、net、org、gov等。顶级域名部分的变化较少,因此在实际应用中,可以仅提取服务器域名中除顶级域名之外的部分,如:www.baidu。
在网页标识为网页的标题的全部或部分字符时,可以从网页的标题中提取关键字作为用于进行网址匹配的字符组。其中,关键字可以为网页标题的前两个字或网页标题中第一个分割符号前的所有字。例如:对于标题“百度一下,你就知道”而言,当用户输入了标题“百度一下,你就知道”时,“,”即为第一个分割符号,可以将“百度一下”作为关键字,也可以将前两个字“百度”作为关键字。
S300、按照所述字符组中字符的排列顺序,依次将所述字符组中的各个字符在预先建立的网页标识树中进行匹配,直至匹配到与所述字符组中最后的字符相匹配的节点,所述网页标识树为根据预设网址组生成的字典树,所述字典树中的部分节点对应有网址,每一个节点的内容均为一个字符,所述部分节点中任一节点对应的网址均为:与由该节点的内容及该节点的所有父祖节点的内容组成的字符组对应的网址;
具体的,S300中,所述按照所述字符组中字符的排列顺序,依次将所述字符组中的各个字符在预先建立的网页标识树中进行匹配,直至匹配到与所述字符组中最后的字符相匹配的节点,可以包括:
在预先建立的网页标识树的第二层节点中对所述字符组中排列顺序为第一的首个字符进行匹配,如果匹配到内容与所述首个字符相同的节点,则继续对排列顺序为第二的字符进行匹配;
对所述字符组中排列顺序不为第一且不为最后的字符进行匹配,在对所述字符组中排列顺序不为第一且不为最后的字符进行匹配时,在与该字符的上一字符匹配的所述网页标识树的节点的子节点中进行匹配,如果匹配到内容与该字符相同的子节点,则继续对该字符的下一字符进行匹配;
在与所述字符组中排列顺序为最后的字符的上一字符匹配的所述网页标识树的节点的子节点中对所述最后的字符进行匹配,如果匹配到内容与所述最后的字符相同的子节点,则停止匹配。
其中,所述预设网址组可以包括:历史访问网址、收藏网址和/或预设常用网址。历史访问网址和收藏网址经常发生变化,而预设常用网址变化较少,由于字典树改动需要消耗较多的系统资源,因此可以建立两个字典树,一个根据历史访问网址和收藏网址构建,一个根据预设常用网址构建。这样,当历史访问网址或收藏网址发生变化时,根据预设常用网址构建的字典树就需要进行改动。进一步,可以在历史访问网址和收藏网址变化较大时再更新相应的字典树,这样就可以进一步减少字典树改动次数。
其中,字典树又称单词查找树,Trie树,是一种树形结构,是一种哈希树的变种。字典树常用于统计、排序和保存大量的字符串(但不仅限于字符串)。字典树有如下3个特点:
1、根节点不包含字符,除根节点外每一个节点都只包含一个字符;
2、从根节点到某一节点,路径上经过的字符连接起来,为该节点对应的字符串;
3、每个节点的所有子节点包含的字符都不相同。
具体的,可以从第一网址组中各网址中提取出部分内容构建字典树,例如从http://www.baidu.com中提取www.baidu构建到字典树中。在构建过程中,可以按照从所提取内容的最后一个字符开始,到第一个字符结束的顺序进行构建。如图2所示,为根据www.baidu所构建的字典树。首先构建字符u,该字符为根节点的子节点的内容,即节点001的内容;然后构建字符d,该字符为根节点的子节点的内容,即节点002的内容,同时,按照www.baidu中的字符排序,d后有字符u,因此,节点002还有子节点,该子节点为节点003,节点003中的内容为u。以此类推,按照此种方式最终可以构建到如图2所示的字典树。当有其他网址需要构建时,只需要将该网址中提取的内容中各字符按照相同方式构建到该字典树中即可。如图3所示,为将www.baihe和www.baidu构建到同一字典树后得到的结果,图3中节点012无对应的网址,图3中节点013和节点014对应的网址均为http://www.baihe.com,图3中节点005和节点007对应的网址均为http://www.baidu.com。对标题构建字典树的过程与对网址构建字典树的过程相同,不再赘述。在图2所示的字典树中,还需要为部分或全部节点设置对应的网址,例如为图2中的节点004和节点005设置http://www.baidu.com为对应的网址,这样,当用户输入www.baidu时,就可以匹配到节点005,当用户输入baidu时,就可以匹配到节点004,从而确定对应的网址。当然,为了进一步提高匹配的效率,还可以为节点006和节点007设置http://www.baidu.com为对应的网址,这样,当用户输入www.baid时,就可以匹配到节点007,当用户输入baid时,就可以匹配到节点006,从而确定对应的网址。
可以理解的是,仅使用网址的部分内容构建字典树可以减少构建节点的数量,简化构建过程,减少所构建的字典树所占用的存储空间。同时,仅使用网址部分内容或者标题的部分内容进行匹配,可以减少所需匹配的字符数量,减小匹配过程的计算量,提高匹配效率。
可选的,本发明中的字典树为双数组字典树。双数组字典树是搜索树的一种,它可以建立有效的数据检索组织结构,是中文匹配分词算法中词典的一种常见实现。它本质上是一个确定的有限状态自动机(DFA),每个节点代表自动机的一个状态。
S400、将与所述字符组中最后的字符相匹配的节点对应的网址和/或与所述字符组中最后的字符相匹配的节点的子树中各节点对应的网址确定为与用户输入的网页标识对应的网址。
下面以图2所示的字典树为例对S300和S400的具体实施过程进行说明:
假设用户输入的网页表示为网址www.baidu,则可以提取www.baidu的全部字符作为用于进行网址匹配的字符组。按照www.baidu中各字符的排列顺序,首先对第一个w字符进行匹配,由于为第一个字符,因此在第二层节点中匹配,匹配到节点008中的内容为w,则继续对第二个字符w进行匹配。将第二个字符w在节点008的子节点中进行匹配,匹配到节点009中的内容为w。继续对第三个字符w进行匹配,将第三个字符w在节点009的子节点中进行匹配,匹配到节点010的内容为w。继续对第四个字符“.”进行匹配,在节点010的子节点中进行匹配,匹配到节点011中的内容为“.”……以此类推,直至匹配到最后一个字符u,该最后一个字符u匹配到节点005,由于节点005为叶子节点,因此将节点005对应的网址http://www.baidu.com确定为与用户输入的网页标识对应的网址。
对于图3所示的字典树,如果用户输入的网页表示为网址www.bai,则可以提取www.bai的全部字符作为用于进行网址匹配的字符组。按照www.bai中各字符的排列顺序对各字符进行匹配。最终匹配到最后一个字符i,该最后一个字符i匹配到节点012,由于节点012无对应的网址,因此可以将以该节点012为根节点的子树中各节点所对应的网址中的全部或部分网址确定为与用户输入的网页标识对应的网址,也即将节点005、节点007、节点013和节点014所对应的网址的全部或部分确定为与用户输入的网页标识对应的网址。由于节点013和节点014对应的网址均为http://www.baihe.com,节点005和节点007对应的网址均为http://www.baidu.com,因此可以将http://www.baihe.com和http://www.baidu.com一起作为与用户输入的网页标识对应的网址。
本发明实施例提供的一种网址匹配方法,可以获得用户输入的网页标识,根据用户输入的网页标识获得用于进行网址匹配的字符组,按照所述字符组中字符的排列顺序,依次将所述字符组中的各个字符在预先建立的网页标识树中进行匹配,直至匹配到与所述字符组中最后的字符相匹配的节点,将与字符组中最后的字符相匹配的节点对应的网址和/或与字符组中最后的字符相匹配的节点的子树中各节点对应的网址确定为与用户输入的网页标识对应的网址。由于本发明按照树状结构进行匹配,因此不必对网页标识树中的所有节点进行匹配,仅需要对网页标识树中的相应分支的节点进行匹配即可。因此,本发明可以有效减少网址匹配所花费的时间,提高了网址匹配的效率。
如图4所示,本发明实施例提供的另一种网址匹配方法,还可以包括:
S500、将所确定的、与用户输入的网页标识对应的网址进行显示输出。
通过将网址进行显示输出,用户可以快速对所显示的网址进行访问,而不再需要输入后续的网址内容,更加方便快捷。
可选的,S500可以包括:
将所确定的、与用户输入的网页标识对应的网址显示在地址栏的下方。
当然,在本发明其他实施例中,在将网址显示在地址栏的下方之前,可以首先对网址进行排序。
具体的排序方式有多种,如按照海量用户对网址的访问次数的多少进行排序,或按照当前用户对网址的访问次数的多少进行排序,或按照网址中字母、数字的排列顺序进行排序。
可选的,可以对所显示输出的网址中用户已输入的部分进行区别显示处理,如设置不同颜色、加粗等。可选的,可以将进行排序后的网址中位置为第一的网址设置为默认访问网址,当用户发出访问指令,如按下Enter按键时,就对该默认访问网址进行访问。可选的,还可以对该默认访问网址进行区别显示处理。具体的,S500对网址进行显示输出的效果可以如图5所示。
在将所确定的、与用户输入的网页标识对应的网址显示在地址栏的下方后,上述方法还可以包括:
接收用户的网址选择指令;
根据所述网址选择指令确定所要访问的网址;
接收用户的访问确认指令;
根据所述访问确认指令对所确定的所要访问的网址进行访问。
与上述方法实施例相对应,本发明还提供了一种网址匹配装置。
如图6所示,本发明实施例提供的一种网址匹配装置,可以包括:标识获得模块100、字符组获得模块200、字符匹配模块300和网址确定模块400,
标识获得模块100,用于获得用户输入的网页标识;
其中,网页标识可以为网页所对应的网址的全部或部分字符,网页标识也可以为网页标题的全部或部分字符。
字符组获得模块200,用于根据用户输入的网页标识获得用于进行网址匹配的字符组;
其中,所述网页标识可以为网页所对应的网址的全部或部分字符,所述字符组获得模块,具体用于:
从用户输入的网页标识中提取表示服务器域名的字符组,将所提取的字符组确定为用于进行网址匹配的字符组。
在网页标识为网页的标题的全部或部分字符时,可以从网页的标题中提取关键字作为用于进行网址匹配的字符组。
字符匹配模块300,用于按照所述字符组中字符的排列顺序,依次将所述字符组中的各个字符在预先建立的网页标识树中进行匹配,直至匹配到与所述字符组中最后的字符相匹配的节点,所述网页标识树为根据预设网址组生成的字典树,所述字典树中的部分节点对应有网址,每一个节点的内容均为一个字符,所述部分节点中任一节点对应的网址均为:与由该节点的内容及该节点的所有父祖节点的内容组成的字符组对应的网址;
其中,所述预设网址组可以包括:历史访问网址、收藏网址和/或预设常用网址。历史访问网址和收藏网址经常发生变化,而预设常用网址变化较少,由于字典树改动需要消耗较多的系统资源,因此可以建立两个字典树,一个根据历史访问网址和收藏网址构建,一个根据预设常用网址构建。这样,当历史访问网址或收藏网址发生变化时,根据预设常用网址构建的字典树就需要进行改动。进一步,可以在历史访问网址和收藏网址变化较大时再更新相应的字典树,这样就可以进一步减少字典树改动次数。
其中,所述字符匹配模块300可以包括:首字符匹配子模块、中间字符匹配子模块和尾字符匹配子模块,
所述首字符匹配子模块,用于在预先建立的网页标识树的第二层节点中对所述字符组中排列顺序为第一的首个字符进行匹配,如果匹配到内容与所述首个字符相同的节点,则触发所述中间字符匹配子模块继续对排列顺序为第二的字符进行匹配,所述网页标识树为根据预设网址组生成的字典树,所述字典树中的部分节点对应有网址,每一个节点的内容均为一个字符,所述部分节点中任一节点对应的网址均为:与由该节点的内容及该节点的所有父祖节点的内容组成的字符组对应的网址;
所述中间字符匹配子模块,用于对所述字符组中排列顺序不为第一且不为最后的字符进行匹配,在对所述字符组中排列顺序不为第一且不为最后的字符进行匹配时,在与该字符的上一字符匹配的所述网页标识树的节点的子节点中进行匹配,如果匹配到内容与该字符相同的子节点,则继续对该字符的下一字符进行匹配;
所述尾字符匹配子模块,用于在与所述字符组中排列顺序为最后的字符的上一字符匹配的所述网页标识树的节点的子节点中对所述最后的字符进行匹配,如果匹配到内容与所述最后的字符相同的子节点,则停止匹配。
网址确定模块400,用于将与所述字符组中最后的字符相匹配的节点对应的网址和/或与所述字符组中最后的字符相匹配的节点的子树中各节点对应的网址确定为与用户输入的网页标识对应的网址。
可选的,本发明实施例提供的另一种网址匹配装置,还可以包括:网址显示模块,用于将所确定的、与用户输入的网页标识对应的网址进行显示输出。
通过将网址进行显示输出,用户可以快速对所显示的网址进行访问,而不再需要输入后续的网址内容,更加方便快捷。
可选的,所述网址显示模块可以具体用于:
将所确定的、与用户输入的网页标识对应的网址显示在地址栏的下方。
当然,在本发明其他实施例中,还可以包括排序模块,所述排序模块用于在所述网址显示模块将网址显示在地址栏的下方之前,对网址进行排序。
具体的排序方式有多种,如按照海量用户对网址的访问次数的多少进行排序,或按照当前用户对网址的访问次数的多少进行排序,或按照网址中字母、数字的排列顺序进行排序。
本发明实施例提供的一种网址匹配装置,可以获得用户输入的网页标识,根据用户输入的网页标识获得用于进行网址匹配的字符组,按照所述字符组中字符的排列顺序,依次将所述字符组中的各个字符在预先建立的网页标识树中进行匹配,直至匹配到与所述字符组中最后的字符相匹配的节点,将与字符组中最后的字符相匹配的节点对应的网址和/或与字符组中最后的字符相匹配的节点的子树中各节点对应的网址确定为与用户输入的网页标识对应的网址。由于本发明按照树状结构进行匹配,因此不必对网页标识树中的所有节点进行匹配,仅需要对网页标识树中的相应分支的节点进行匹配即可。因此,本发明可以有效减少网址匹配所花费的时间,提高了网址匹配的效率。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (12)
1.一种网址匹配方法,其特征在于,包括:
获得用户输入的网页标识;
根据用户输入的网页标识获得用于进行网址匹配的字符组;
按照所述字符组中字符的排列顺序,依次将所述字符组中的各个字符在预先建立的网页标识树中进行匹配,直至匹配到与所述字符组中最后的字符相匹配的节点,所述网页标识树为根据预设网址组生成的字典树,所述字典树中的部分节点对应有网址,每一个节点的内容均为一个字符,所述部分节点中任一节点对应的网址均为:与由该节点的内容及该节点的所有父祖节点的内容组成的字符组对应的网址;
将与所述字符组中最后的字符相匹配的节点对应的网址和/或与所述字符组中最后的字符相匹配的节点的子树中各节点对应的网址确定为与用户输入的网页标识对应的网址。
2.根据权利要求1所述的方法,其特征在于,所述按照所述字符组中字符的排列顺序,依次将所述字符组中的各个字符在预先建立的网页标识树中进行匹配,直至匹配到与所述字符组中最后的字符相匹配的节点,包括:
在预先建立的网页标识树的第二层节点中对所述字符组中排列顺序为第一的首个字符进行匹配,如果匹配到内容与所述首个字符相同的节点,则继续对排列顺序为第二的字符进行匹配;
对所述字符组中排列顺序不为第一且不为最后的字符进行匹配,在对所述字符组中排列顺序不为第一且不为最后的字符进行匹配时,在与该字符的上一字符匹配的所述网页标识树的节点的子节点中进行匹配,如果匹配到内容与该字符相同的子节点,则继续对该字符的下一字符进行匹配;
在与所述字符组中排列顺序为最后的字符的上一字符匹配的所述网页标识树的节点的子节点中对所述最后的字符进行匹配,如果匹配到内容与所述最后的字符相同的子节点,则停止匹配。
3.根据权利要求1所述的方法,其特征在于,还包括:
将所确定的、与用户输入的网页标识对应的网址进行显示输出。
4.根据权利要求3所述的方法,其特征在于,所述将所确定的、与用户输入的网页标识对应的网址进行显示输出,包括:
将所确定的、与用户输入的网页标识对应的网址显示在地址栏的下方。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述网页标识为网页所对应的网址的全部或部分字符,所述根据用户输入的网页标识获得用于进行网址匹配的字符组,包括:
从用户输入的网页标识中提取表示服务器域名的字符组,将所提取的字符组确定为用于进行网址匹配的字符组。
6.根据权利要求1至4中任一项所述的方法,其特征在于,所述预设网址组包括:历史访问网址、收藏网址和/或预设常用网址。
7.一种网址匹配装置,其特征在于,包括:标识获得模块、字符组获得模块、字符匹配模块和网址确定模块,
所述标识获得模块,用于获得用户输入的网页标识;
所述字符组获得模块,用于根据用户输入的网页标识获得用于进行网址匹配的字符组;
所述字符匹配模块,用于按照所述字符组中字符的排列顺序,依次将所述字符组中的各个字符在预先建立的网页标识树中进行匹配,直至匹配到与所述字符组中最后的字符相匹配的节点,所述网页标识树为根据预设网址组生成的字典树,所述字典树中的部分节点对应有网址,每一个节点的内容均为一个字符,所述部分节点中任一节点对应的网址均为:与由该节点的内容及该节点的所有父祖节点的内容组成的字符组对应的网址;
所述网址确定模块,用于将与所述字符组中最后的字符相匹配的节点对应的网址和/或与所述字符组中最后的字符相匹配的节点的子树中各节点对应的网址确定为与用户输入的网页标识对应的网址。
8.根据权利要求7所述的装置,其特征在于,所述字符匹配模块包括:首字符匹配子模块、中间字符匹配子模块和尾字符匹配子模块,
所述首字符匹配子模块,用于在预先建立的网页标识树的第二层节点中对所述字符组中排列顺序为第一的首个字符进行匹配,如果匹配到内容与所述首个字符相同的节点,则触发所述中间字符匹配子模块继续对排列顺序为第二的字符进行匹配,所述网页标识树为根据预设网址组生成的字典树,所述字典树中的部分节点对应有网址,每一个节点的内容均为一个字符,所述部分节点中任一节点对应的网址均为:与由该节点的内容及该节点的所有父祖节点的内容组成的字符组对应的网址;
所述中间字符匹配子模块,用于对所述字符组中排列顺序不为第一且不为最后的字符进行匹配,在对所述字符组中排列顺序不为第一且不为最后的字符进行匹配时,在与该字符的上一字符匹配的所述网页标识树的节点的子节点中进行匹配,如果匹配到内容与该字符相同的子节点,则继续对该字符的下一字符进行匹配;
所述尾字符匹配子模块,用于在与所述字符组中排列顺序为最后的字符的上一字符匹配的所述网页标识树的节点的子节点中对所述最后的字符进行匹配,如果匹配到内容与所述最后的字符相同的子节点,则停止匹配。
9.根据权利要求7所述的装置,其特征在于,还包括:网址显示模块,用于将所确定的、与用户输入的网页标识对应的网址进行显示输出。
10.根据权利要求9所述的装置,其特征在于,所述网址显示模块具体用于:
将所确定的、与用户输入的网页标识对应的网址显示在地址栏的下方。
11.根据权利要求7至10中任一项所述的装置,其特征在于,所述网页标识为网页所对应的网址的全部或部分字符,所述字符组获得模块,具体用于:
从用户输入的网页标识中提取表示服务器域名的字符组,将所提取的字符组确定为用于进行网址匹配的字符组。
12.根据权利要求7至10中任一项所述的装置,其特征在于,所述预设网址组包括:历史访问网址、收藏网址和/或预设常用网址。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510370021.7A CN105095369A (zh) | 2015-06-29 | 2015-06-29 | 网址匹配方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510370021.7A CN105095369A (zh) | 2015-06-29 | 2015-06-29 | 网址匹配方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105095369A true CN105095369A (zh) | 2015-11-25 |
Family
ID=54575806
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510370021.7A Pending CN105095369A (zh) | 2015-06-29 | 2015-06-29 | 网址匹配方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105095369A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105824927A (zh) * | 2016-03-16 | 2016-08-03 | 中国互联网络信息中心 | 一种基于树状自动机的域名匹配方法 |
CN106021439A (zh) * | 2016-05-16 | 2016-10-12 | 腾讯科技(深圳)有限公司 | 一种对通信号码的处理方法及装置 |
CN107357911A (zh) * | 2017-07-18 | 2017-11-17 | 北京新美互通科技有限公司 | 一种文本输入方法及装置 |
CN108334587A (zh) * | 2018-01-29 | 2018-07-27 | 广州市中智软件开发有限公司 | 采购资质匹配方法和采购资质模型建立方法 |
CN108563685A (zh) * | 2018-03-13 | 2018-09-21 | 阿里巴巴集团控股有限公司 | 一种银行标识代码的查询方法、装置及设备 |
CN108710671A (zh) * | 2018-05-16 | 2018-10-26 | 北京金堤科技有限公司 | 文本中公司名称的提取方法及装置 |
CN110245330A (zh) * | 2018-03-09 | 2019-09-17 | 腾讯科技(深圳)有限公司 | 字符序列匹配方法、实现匹配的预处理方法和装置 |
CN110363457A (zh) * | 2018-04-11 | 2019-10-22 | 苏宁易购集团股份有限公司 | 基于快递单号匹配快递公司名称的方法及系统 |
CN113312549A (zh) * | 2021-05-25 | 2021-08-27 | 北京天空卫士网络安全技术有限公司 | 一种域名处理方法和装置 |
CN113887223A (zh) * | 2021-09-29 | 2022-01-04 | 苏州浪潮智能科技有限公司 | 一种字符串匹配方法和相关装置 |
CN115878924A (zh) * | 2021-09-27 | 2023-03-31 | 小沃科技有限公司 | 一种基于双字典树数据处理方法、装置、介质及电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101546334A (zh) * | 2009-04-23 | 2009-09-30 | 腾讯科技(深圳)有限公司 | 在浏览器中提示网页信息搜索结果的方法、装置及浏览系统 |
US20100235338A1 (en) * | 2007-08-06 | 2010-09-16 | MLS Technologies PTY Ltd. | Method and/or System for Searching Network Content |
CN103729356A (zh) * | 2012-10-11 | 2014-04-16 | 腾讯科技(深圳)有限公司 | 网页地址提示方法及装置 |
CN104537107A (zh) * | 2015-01-15 | 2015-04-22 | 中国联合网络通信集团有限公司 | 一种网址存储匹配方法及装置 |
-
2015
- 2015-06-29 CN CN201510370021.7A patent/CN105095369A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100235338A1 (en) * | 2007-08-06 | 2010-09-16 | MLS Technologies PTY Ltd. | Method and/or System for Searching Network Content |
CN101546334A (zh) * | 2009-04-23 | 2009-09-30 | 腾讯科技(深圳)有限公司 | 在浏览器中提示网页信息搜索结果的方法、装置及浏览系统 |
CN103729356A (zh) * | 2012-10-11 | 2014-04-16 | 腾讯科技(深圳)有限公司 | 网页地址提示方法及装置 |
CN104537107A (zh) * | 2015-01-15 | 2015-04-22 | 中国联合网络通信集团有限公司 | 一种网址存储匹配方法及装置 |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105824927B (zh) * | 2016-03-16 | 2019-06-14 | 中国互联网络信息中心 | 一种基于树状自动机的域名匹配方法 |
CN105824927A (zh) * | 2016-03-16 | 2016-08-03 | 中国互联网络信息中心 | 一种基于树状自动机的域名匹配方法 |
CN106021439A (zh) * | 2016-05-16 | 2016-10-12 | 腾讯科技(深圳)有限公司 | 一种对通信号码的处理方法及装置 |
CN107357911A (zh) * | 2017-07-18 | 2017-11-17 | 北京新美互通科技有限公司 | 一种文本输入方法及装置 |
CN108334587A (zh) * | 2018-01-29 | 2018-07-27 | 广州市中智软件开发有限公司 | 采购资质匹配方法和采购资质模型建立方法 |
CN110245330A (zh) * | 2018-03-09 | 2019-09-17 | 腾讯科技(深圳)有限公司 | 字符序列匹配方法、实现匹配的预处理方法和装置 |
CN108563685A (zh) * | 2018-03-13 | 2018-09-21 | 阿里巴巴集团控股有限公司 | 一种银行标识代码的查询方法、装置及设备 |
CN110363457A (zh) * | 2018-04-11 | 2019-10-22 | 苏宁易购集团股份有限公司 | 基于快递单号匹配快递公司名称的方法及系统 |
CN108710671A (zh) * | 2018-05-16 | 2018-10-26 | 北京金堤科技有限公司 | 文本中公司名称的提取方法及装置 |
CN113312549A (zh) * | 2021-05-25 | 2021-08-27 | 北京天空卫士网络安全技术有限公司 | 一种域名处理方法和装置 |
CN113312549B (zh) * | 2021-05-25 | 2024-01-26 | 北京天空卫士网络安全技术有限公司 | 一种域名处理方法和装置 |
CN115878924A (zh) * | 2021-09-27 | 2023-03-31 | 小沃科技有限公司 | 一种基于双字典树数据处理方法、装置、介质及电子设备 |
CN115878924B (zh) * | 2021-09-27 | 2024-03-12 | 小沃科技有限公司 | 一种基于双字典树数据处理方法、装置、介质及电子设备 |
CN113887223A (zh) * | 2021-09-29 | 2022-01-04 | 苏州浪潮智能科技有限公司 | 一种字符串匹配方法和相关装置 |
CN113887223B (zh) * | 2021-09-29 | 2023-08-29 | 苏州浪潮智能科技有限公司 | 一种字符串匹配方法和相关装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105095369A (zh) | 网址匹配方法及装置 | |
CN109857917B (zh) | 面向威胁情报的安全知识图谱构建方法及系统 | |
CN111984689B (zh) | 信息检索的方法、装置、设备以及存储介质 | |
CN101911042B (zh) | 用户的浏览器历史的相关性排序 | |
US6826566B2 (en) | Identifier vocabulary data access method and system | |
CN100485603C (zh) | 用于从搜索查询中产生概念单元的系统和方法 | |
CN101984422B (zh) | 一种容错文本查询的方法和设备 | |
CN105630938A (zh) | 一种智能问答系统 | |
CN107092639A (zh) | 一种搜索引擎系统 | |
US8560518B2 (en) | Method and apparatus for building sales tools by mining data from websites | |
CN102867049B (zh) | 一种基于单词查找树实现的汉语拼音快速分词方法 | |
CN104537107A (zh) | 一种网址存储匹配方法及装置 | |
CN108509405A (zh) | 一种演示文稿的生成方法、装置以及设备 | |
CN105183916A (zh) | 一种管理非结构化数据的装置和方法 | |
CN108228657B (zh) | 一种关键字检索的实现方法及装置 | |
CN103116635A (zh) | 面向领域的暗网资源采集方法和系统 | |
CN105096023A (zh) | 工作标准相关数据的推送系统和方法 | |
CN105117434A (zh) | 一种网页分类方法和系统 | |
CN103970800A (zh) | 网页相关关键词的抽取处理方法和系统 | |
CN101470752A (zh) | 基于关键词解析调度的搜索引擎方法 | |
CN103076894A (zh) | 一种用于根据对象标识信息构建输入词条的方法与设备 | |
CN103617225A (zh) | 一种关联网页搜索方法和系统 | |
CN106844553A (zh) | 基于样本数据的数据探测和扩充方法及装置 | |
CN115391568A (zh) | 基于知识图谱的实体分类方法、系统、终端及存储介质 | |
CN101977251A (zh) | 服务器端网址资源优化装置及其优化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20181218 Address after: Room 105-53811, No. 6 Baohua Road, Hengqin New District, Zhuhai City, Guangdong Province Applicant after: Zhuhai Leopard Technology Co.,Ltd. Address before: 100085 East District, Second Floor, 33 Xiaoying West Road, Haidian District, Beijing Applicant before: BEIJING KINGSOFT INTERNET SECURITY SOFTWARE Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20151125 |
|
RJ01 | Rejection of invention patent application after publication |