CN101178728A - 一种网址导航的方法和系统 - Google Patents

一种网址导航的方法和系统 Download PDF

Info

Publication number
CN101178728A
CN101178728A CNA2007101778212A CN200710177821A CN101178728A CN 101178728 A CN101178728 A CN 101178728A CN A2007101778212 A CNA2007101778212 A CN A2007101778212A CN 200710177821 A CN200710177821 A CN 200710177821A CN 101178728 A CN101178728 A CN 101178728A
Authority
CN
China
Prior art keywords
network address
descriptor
keyword
user
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2007101778212A
Other languages
English (en)
Inventor
张智敏
茹立云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CNA2007101778212A priority Critical patent/CN101178728A/zh
Publication of CN101178728A publication Critical patent/CN101178728A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种生成导航数据库的方法,以及利用该导航数据库完成网址导航的解决方案。所述生成导航数据库的方法包括:分析搜索日志信息,获取在一信息查询词下,用户点击频率符合预置条件的网址;所述搜索日志信息包括信息查询词及被用户点击的网址;依据信息查询词获取针对所述网址的描述信息;所述描述信息包括关键词;依据所获得的网址和相应的描述信息,建立导航数据库。本发明通过对搜索日志信息的分析处理,可以高效的获取大规模的导航数据,比现有的人工收集更方便快捷,并且数据更宽泛。总之,本发明可以方便快捷的获取比较准确的、大规模的导航数据库,进而为用户提供更好的网址导航服务。

Description

一种网址导航的方法和系统
技术领域
本发明涉及互联网信息处理技术领域,特别是涉及一种网址导航的方法和系统。
背景技术
目前随着互联网技术应用的越来越广泛,人们很多的日常工作和娱乐都在网络上进行,从而产生了众多的互联网网页和海量的网络资源信息,以及提供各种信息服务的网站,用户一般需要通过网址找到这些信息,但是人们是无法记忆或者知悉成千上万的网址的,并且,网址也没有很好的规律便于用户记忆,因此,现有技术提出了网址导航的解决方案,例如,hao123网址之家这样的网址导航网站。
hao123作为网址导航网站,其向用户呈现了数千个常用的网址,并进行了分类排序等便于用户查找的进一步处理,从而可以方便用户进入自己所需的网站。
但是现有技术中的网址导航数据主要都是通过人工收集和整理的,该方式成本太高,速度慢,并且难以收集更大量的网站,很难形成大规模的数据。
总之,需要本领域技术人员迫切解决的一个技术问题就是:如何能够提供一种更加高效便捷的网址导航技术解决方案。
发明内容
本发明所要解决的技术问题是提供一种生成导航数据库的方法和系统,以及利用该导航数据库进行网址导航的方法和装置,能够非常方便的通过计算机自动发现导航数据,成本低廉、收集效率高,适于收集大规模的导航数据,进而向用户提供更准确、范围更广泛的网址导航服务。
为了解决上述问题,本发明公开了一种生成导航数据库的方法,包括:分析搜索日志信息,获取在一信息查询词下,用户点击频率符合预置条件的网址;所述搜索日志信息包括信息查询词及被用户点击的网址;依据信息查询词获取针对所述网址的描述信息;所述描述信息包括关键词;依据所获得的网址和相应的描述信息,建立导航数据库。
优选的,所述依据信息查询词获得描述信息的步骤可以进一步包括:获取所述网址相应的锚文本和/或相应的主题名称;分析所述网址的锚文本和/或主题名称、以及相应的用户查询词,获取针对所述网址的描述信息。
优选的,所述描述信息还包括点击频率。
优选的,所述网址和相应的关键词采用倒排表的数据结构。
优选的,所述的方法还可以包括:按照点击频率,对关键词指向的网址进行排序。
优选的,所述的方法还可以包括:依据所述搜索日志信息对所述描述信息和网址进行校验的步骤,所述校验包括:去除针对该关键词的点击频率小于或等于一定阈值的网址;和/或,去除在用户搜索查询中出现频率小于或等于一定阈值的关键词。
依据本发明的另一实施例,还公开了一种网址导航的方法,可以包括:分析搜索日志信息,获取在一信息查询词下,用户点击频率符合预置条件的网址;所述搜索日志信息包括信息查询词及被用户点击的网址;依据信息查询词获取针对所述网址的描述信息;所述描述信息包括关键词;依据所获得的网址和相应的描述信息,建立导航数据库;接收用户的网址查询词,检索所述导航数据库,向用户返回相应的网址结果集。
优选的,所述依据信息查询词获得描述信息的步骤进一步包括:获取所述网址相应的锚文本和/或相应的主题名称;分析所述网址的锚文本和/或主题名称、以及相应的用户查询词,获取针对所述网址的描述信息。
优选的,所述描述信息还包括点击频率。
优选的,所述网址和相应的关键词采用倒排表的数据结构。
优选的,所述的方法还可以包括:按照点击频率,对关键词指向的网址进行排序。
优选的,所述的方法还可以包括:依据所述搜索日志信息对所述描述信息和网址进行校验的步骤;所述校验包括:去除针对该关键词的点击频率小于或等于一定阈值的网址;和/或,去除在用户搜索查询中出现频率小于或等于一定阈值的关键词。
优选的,所述的方法还可以包括:采集与导航数据相关的权重参数;以及,利用所述权重参数修正导航数据的匹配程度和/或排序情况。
依据本发明的另一优选实施例,还公开了一种生成导航数据库的系统,可以包括以下部件:
日志分析单元,用于分析搜索日志信息,获取在一信息查询词下,用户点击频率符合预置条件的网址;所述搜索日志信息包括信息查询词及被用户点击的网址;
描述信息获取单元,用于依据信息查询词获取针对所述网址的描述信息;所述描述信息包括关键词;
数据库生成单元,用于依据所获得的网址和相应的描述信息,建立导航数据库。
优选的,所述描述信息获取单元可以进一步包括:相关信息获取子模块,用于获取所述网址相应的锚文本和/或相应的主题名称;分析子模块,用于分析所述网址的锚文本和/或主题名称、以及相应的用户查询词,获取针对所述网址的描述信息。
优选的,所述描述信息还包括点击频率。
优选的,所述网址和相应的关键词采用倒排表的数据结构。
优选的,所述系统还可以包括:排序模块,用于按照点击频率,对关键词指向的网址进行排序。
优选的,所述系统还可以包括:校验模块,用于依据所述搜索日志信息对所述描述信息和网址进行校验;所述校验包括:去除针对该关键词的点击频率小于或等于一定阈值的网址;和/或,去除在用户搜索查询中出现频率小于或等于一定阈值的关键词。
依据本发明的另一优选实施例,还公开了一种网址导航的系统,包括:
导航数据库,所述导航数据库存储有网址和相应的描述信息;所述网址包括在一信息查询词下,用户点击频率符合预置条件的网址;所述信息查询词和相应的用户点击频率通过分析搜索日志信息而获取;所述描述信息依据对信息查询词的分析而获得;
导航接口单元,用于接收用户的网址查询词,以及展示相应的网址结果集;
导航检索单元,用于依据用户的网址查询词检索所述导航数据库,返回相应的网址结果集。
优选的,可以通过以下方式获取所述描述信息:获取所述网址相应的锚文本和/或相应的主题名称;分析所述网址的锚文本和/或主题名称、以及相应的用户查询词,获取针对所述网址的描述信息。
优选的,所述描述信息还包括点击频率。
优选的,所述网址和相应的关键词采用倒排表的数据结构。
优选的,在所述倒排表数据结构中,一关键词指向的多个网址是按照在该关键词下的点击频率进行排序的。
优选的,所述描述信息和网址是经过所述搜索日志信息校验的;所述校验的方式包括:去除针对该关键词的点击频率小于或等于一定阈值的网址;和/或,去除在用户搜索查询中出现频率小于或等于一定阈值的关键词。
优选的,所述的系统还可以包括:用户参数获取模块,用于获取与导航数据相关的权重参数;权重调整模块,用于利用所述权重参数修正导航数据的匹配程度和/或排序情况。
与现有技术相比,本发明具有以下优点:
本发明通过对搜索日志信息的分析处理,可以高效的获取大规模的导航数据,比现有的人工收集更方便快捷,并且数据更宽泛。
其次,本发明在对搜索日志信息的分析处理中还引入了锚文本、主题名称等其他相关信息,以便进一步校正或修正分析结果,从而获取更为准确的导航数据。总之,本发明可以方便快捷的获取比较准确的、大规模的导航数据库,进而为用户提供更好的网址导航服务。
附图说明
图1是本发明一种生成导航数据库的方法实施例1的步骤流程图;
图2是本发明一种生成导航数据库的方法实施例2的步骤流程图;
图3是本发明一种生成导航数据库的方法实施例3的步骤流程图;
图4是本发明一种网址导航的方法实施例的步骤流程图;
图5是本发明一种生成导航数据库的系统实施例的结构框图;
图6是本发明一种网址导航的系统实施例的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、包括以上任何系统或设备的分布式计算环境等等。
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
参照图1,示出了本发明一种生成导航数据库的方法实施例1,具体可以包括以下步骤:
步骤101、分析搜索日志信息,获取在一信息查询词下,用户点击频率符合预置条件的网址;所述搜索日志信息包括信息查询词及被用户点击的网址;例如,针对同一个查询词,如果用户的点击集中在一个或者几个网址上,则该网址就是本发明所需的,即针对该查询词的点击焦点。
步骤102、依据信息查询词获取针对所述网址的描述信息;所述描述信息包括关键词。
步骤103、依据所获得的网址和相应的描述信息,建立导航数据库。存储有上述信息的数据库可以采用现有的各种数据库模式,本发明对此并不需要加以限定。当然,所述导航数据库中还可以包括其他的相关信息,例如与该网址相关的信息介绍等等,以便于用户了解该网址所拥有的资源内容。
网络上可用的每种资源:HTML文档、图像、视频片段、程序等等,都可以由一个统一资源标识符(Uniform Resource Identifier,简称″URI″)进行定位。URI一般由三部分组成:访问资源的命名机制;存放资源的主机名;资源自身的名称、路径或者参数。例如,http://www.webmonkey.com.cn/html/html40/;这个URI表示了一个可通过HTTP协议访问的资源,位于主机www.webmonkey.com.cn上,通过路径“/html/html40”访问即可。在网络资源数据传输领域中比较常用的是URL(Uniform Resource Location,统一资源定位符),URL是URI命名机制的一个子集。因此,在本发明具体例子中,可能采用URL代替“网址”进行说明。
当用户在搜索引擎上查询某个词,并点击了查询结果,则搜索引擎服务器上就会记录一条日志记录;随着大量用户的查询,则搜索引擎服务器端会形成数据量巨大的搜索日志信息。一般的,每条日志信息记录可以包括用户的信息查询词以及该用户点击的网页地址。如果用户针对某一个信息查询词,点击打开了多个网址,则可以记录为多条日志记录,也可以记录为一条日志记录,并不影响本发明的分析过程。
步骤101就是对搜索日志信息的统计分析,例如,针对一信息查询词,统计当用户以该信息查询词为搜索条件或者搜索条件之一时,都点击打开了哪些网址,并记录各个网址的点击次数。
本发明所采用的频率信息是一个通用的称呼,在计算机内部表示为一个或者一系列数据,用来评价(预测)针对某个查询词,某个网址被用户打开的可能性。所述频率信息可以为绝对值,也可以为相对值,还可以为经过一定策略或者算法处理过的间接表示频率的其他数值。当某一个输入可能匹配多个网址时,可以根据这些网址的相对频率大小来调整其在候选列表中的位置,使用户能够更方便的选择其所需的网址,进而完成导航。简单的,点击频率信息可以为该网址被点击的次数。
通过图1所示的实施例,可以很方便的获取一导航数据库,其包含了网址描述信息(关键词)、网址以及二者之间的联系;进而,用户通过输入查询词,即可获得自己所需的网址,优选的,当导航数据库存储有与网址相关的文字介绍时,用户还可以获得这些相关的信息,以便于进一步了解该网址。
当然,对于一些知名网站或者网址,也可以通过人工添加的方式存储到所述导航数据库中,即本发明并不排斥其他的获取导航数据的方式。
描述信息(关键词)和网址之间的关系可以采用正排的方式,例如,由网址指向描述信息,即某一个网址可以拥有几个关键词,只要用户输入了相匹配的查询词,即可向该用户推荐该网址。
当然,一般的,为了提高检索效率,描述信息(关键词)和网址之间采用倒排表的方式,即由描述信息指向网址,例如,描述信息:网址1,网址2......。
参见图2,示出了本发明生成导航数据库的方法实施例2,其与图1所示的实施例1的区别在于,实施例2增加了对前述所得的导航数据的扩展,尤其是扩展了针对网址的描述关键词,以提高导航数据的扩展度。实施例2具体可以包括:
步骤201、分析搜索日志信息,获取在一信息查询词下,用户点击频率符合预置条件的网址;所述搜索日志信息包括信息查询词及被用户点击的网址;
步骤202、获取所述网址相应的锚文本和/或相应的主题名称;
步骤203、分析所述网址的锚文本和/或主题名称、以及相应的用户查询词,获取针对所述网址的描述信息;所述描述信息包括关键词;
步骤204、依据所获得的网址和相应的描述信息,建立导航数据库。
因为一个网址的锚文本(Anchor,或者叫链接文本)和该网页的主题名称也能够在一定程度上起到导航的作用,所以实施例2引入这些辅助信息,以优化本发明的导航数据。所谓Anchor信息是指,一个网页通过超链接引用另一个网页时的一段文字描述,Anchor信息和主题名称是对一网页的描述。
形象的说,一个网页中所有可以点击的文字,都可以称为Anchor信息。由于搜索引擎为了完成搜索目的,需要抓取互联网上所有的网页,并对每个网页进行分析,因此,在搜索引擎的数据库中会记录所有网页上的可点击的文字和指向的链接,本发明直接利用即可。当然,本发明并不限定采用其他方式获取锚文本信息。
针对步骤101中找到的每个网址,都可以获得相应的主题名称和多个锚文本,以及与其相关联的信息查询词,将这些信息都转换为多个关键词,然后统计各个关键词出现的次数或者频率,将超过一定阈值的关键词作为描述信息输出。即将网址和描述该网址的一系列关键词关联起来。
为了检索方便,一般的,针对上述信息建立倒排表,形成如下的一个数据结构——“关键词:网址1,网址2......”。
优选的,步骤203得到的描述信息还可以包括某个网址在某个信息查询词下的点击频率,然后,在上述的数据结构——“关键词:网址1,网址2......”——中,对网址1、网址2......按照点击频率进行排序。
参照图3,示出了本发明生成导航数据库的方法实施例3,其与图2所示的实施例2的区别在于,实施例3进一步增加了对前述所得的导航数据的校正或修正,以提高导航数据的准确度。实施例3具体可以包括:
步骤301、分析搜索日志信息,获取在一信息查询词下,用户点击频率符合预置条件的网址;所述搜索日志信息包括信息查询词及被用户点击的网址;
步骤302、获取所述网址相应的锚文本和/或相应的主题名称;
步骤303、分析所述网址的锚文本和/或主题名称、以及相应的用户查询词,获取针对所述网址的描述信息;所述描述信息包括关键词;
步骤304、依据所述搜索日志信息对所述描述信息和网址进行校验;所述校验可以包括:去除针对该关键词的点击频率小于或等于一定阈值的网址;和/或,去除在用户搜索查询中出现频率小于或等于一定阈值的关键词。
步骤305、依据所获得的网址和相应的描述信息,建立导航数据库。
本实施例通过对锚文本和/或主题名称的分析,可以增加、扩展对各网址的描述信息,但是由于锚文本和/或主题名称中可能存在一些不能准确反映网址属性的信息,而相对而言,用户查询点击的行为对网址导航的意义更大更准确一些,因此,本实施例通过步骤304采用搜索日志信息对前述得到的导航数据进行校验。
例如,对于倒排表结构——“关键词:网址1,网址2......”,实施例扩展的结果是:“关键词:网址1,网址2,网址3......”,网址3是新增的;为了验证网址3是否可以作为导航数据,在搜索日志中查询,发现用户在查询该关键词时,很少或者从来没有打开网址3,则说明网址3与该关键词的关联度很低,导航不准确,因此,将其从该数据结构中删除。
再例如,通过对锚文本和/或主题名称的分析,可能新增一些关键词,但是通过在搜索日志中查询,发现用户很少或者从来没有采用这些关键词进行查询,因此,可以直接将含有该关键词的倒排表结构进行删除。
对于校验后的倒排表结构——“关键词:网址1,网址2......”,按照在关键词下的点击频率,对网址1,网址2......进行排序。
本实施例通过对锚文本和/或主题名称的分析,扩展了导航数据,又进一步通过搜索日志信息对扩展后的导航数据进行了校正或者修正,从而可以得到最佳的导航数据库。当然,具体的校验逻辑可以有很多,上面仅仅是两个举例而已。
参照图4,示出了本发明一种网址导航的方法实施例,该实施例是在前述各种方法实施例得到的导航数据库的基础上帮助用户完成网址导航的。本实施例采用前述较佳的解决方案进行描述,其他解决方案参照即可。本实施例具体可以包括:
步骤401、分析搜索日志信息,获取在一信息查询词下,用户点击频率符合预置条件的网址;所述搜索日志信息包括信息查询词及被用户点击的网址;
步骤402、获取所述网址相应的锚文本和/或相应的主题名称;
步骤403、分析所述网址的锚文本和/或主题名称、以及相应的用户查询词,获取针对所述网址的描述信息;所述描述信息包括关键词;
步骤404、依据所述搜索日志信息对所述描述信息和网址进行校验;所述校验包括:去除针对该关键词的点击频率小于或等于一定阈值的网址;和/或,去除在用户搜索查询中出现频率小于或等于一定阈值的关键词;
步骤405、依据所获得的网址和相应的描述信息,建立导航数据库;
步骤406、接收用户的网址查询词,检索所述导航数据库,向用户返回相应的网址结果集。优选的,当步骤405得到的所述导航数据库还包括有针对网址的介绍信息时(例如,文字或者图片等形式的介绍),在向用户返回相应的网址结果集的同时,还可以展示相关的介绍信息,以便用户提前了解该网址的大致情况。
其中,优选方案是:所述网址和相应的关键词采用倒排表的数据结构;并按照点击频率,对关键词指向的多个网址进行排序,以按照顺序向用户推荐。
在步骤406中,用户一般都通过关键词进行查询,在所述导航数据库中对该关键词进行匹配,即可获得该用户所需的与该关键词高度关联的多个网址,并按照一定的顺序推荐给用户,从而实现面向用户的网址导航。对于具体的对用户输入查询信息的分词、解析以及具体的数据库查询匹配等数据处理过程,现有的搜索技术已经完全实现,本发明在此不再赘述,本领域技术人员根据需要参照即可。
优选的,为了进一步提高网址导航的精度,图4所示的实施例还可以包括:采集与导航数据相关的其他信息,以便能提供更高精度的网址导航。例如,采集用户的IP、导航查询时间段、或者用户的导航反馈情况等等,进而对这些权重参数统计汇总,依据分布情况调整所述导航数据库中各个网址对于查询词的匹配程度和/或排序情况,从而为用户提供更为精确的导航数据。
即优选的,图4所示的实施例在普通关键词匹配检索的基础上,可以进一步引入与导航过程相关的一些信息,通过权重调整而获取更为精确的导航数据(对于大部分用户而言)。
具体的,上述的权重参数在现有技术条件下,可以较容易的获取。例如,IP和导航查询时间段可以直接在通信过程中获取;导航反馈情况可以通过日志信息查询获得。进一步,在数据采集不困难的情况下,本发明还可以引入更多的权重参数,以为用户提供更为精确的导航数据。
当然,此时的导航数据库中可能需要有相应的调整策略,至于具体的调整策略,一般的,与历史数据及技术人员所选择的修正方式有关,属于本领域一般技术人员所熟知的,在此简单说明。
具体的,本发明可以在统计点击频率的过程中,依据前述权重参数,修正计算得到更为精确的点击频率(例如,某些IP或时间段的点击权重降低,某些IP或时间段的点击权重增加)。本发明也可以直接依据前述权重参数对既定的匹配程度和/或排序情况进行修正(例如,某个网址的导航反馈优于另一网址,则将该网址排序在前)。
对于本实施例的步骤406,用于接收用户网址查询词和展示网址结果集的用户界面,可以是多种多样的,本领域技术人员可以设计出各种贴近用户需要的界面接口。
例如,建立一个导航网站,通过设置在该导航网站主页上的网址查询词输入框以及页面信息展示,而完成网址导航。
再例如,还可以在搜索引擎输入框中集成相应的导航数据和导航形式。具体而言,如,当用户输入查询词时,在点击搜索命令之前,可以先以浮动窗口或者下拉菜单等方式展现依据本发明导航得到的网址结果集,以实现网址导航。如果用户需要继续搜索,则点击搜索命令按钮,完成通常的网页搜索即可。
再例如,对于通常的网页搜索,在网页搜索结果集的前面先展示几项网址导航的结果。具体而言,如,当用户输入查询词时,在点击搜索命令之后,返回的结果页面中,前两项是依据本发明得到的网址导航的结果,而后面的才是依据通过搜索过程得到的网页搜索结果。
再例如,以各种客户端软件形式独立出现或者结合出现的网址导航界面。
实际上,采用各种用户界面完成网址导航和结果展示,对于本发明都是可行的,因为本发明的核心并不在于导航界面的创新,在此本发明就不一一详述了。
对于上述过程,下面举例说明。
(1)对于查询词“搜狗”,分析搜索日志得到的访问焦点(即点击率较高的两个网址)为:
24471    http://d.sogou.com/
13240    http://www.sogou.com/
对于查询词“Mp3”,得到的访问焦点为:
35477  http://mp3.baidu.com/
10339  http://mp3.sogou.com/
(2)对于每个URL用Anchor信息和点击信息扩展后得到焦点关键词(各
个焦点关键词是按照出现频率排序的):
http://d.sogou.com/
24471    搜狗
10339    mp3
http://www.sogou.com/
13240 搜狗
8336  sogou
(3)对上述信息建立倒排表,得到:
搜狗  http://www.sogou.com/    http://mp3.sogou.com/
Sogou http://www.sogou.com/
mp3   http://mp3.sogou.com/    http://mp3.baidu.com/
(4)利用搜索日志信息对上述信息进行校验,并排序:
搜狗   http://mp3.sogou.com/   http://www.sogou.com/
Sogou  http://www.sogou.com/
mp3    http://mp3.sogou.com/   http://mp3.baidu.com/
(5)对上述信息建立索引、生成导航数据库;
(6)建立网址导航查询系统,比如建立一个网站:http://123.sogou.com/
参照图5,示出了一种生成导航数据库的系统实施例,具体可以包括:
日志分析单元501,用于分析搜索日志信息,获取在一信息查询词下,用户点击频率符合预置条件的网址;所述搜索日志信息包括信息查询词及被用户点击的网址;
描述信息获取单元502,用于依据信息查询词获取针对所述网址的描述信息;所述描述信息包括关键词;
数据库生成单元503,用于依据所获得的网址和相应的描述信息,建立导航数据库。
一般的,描述信息获取单元502通过收集用户的信息查询词,即可获得包括关键的描述信息。而在本发明的另一优选实施例,为了得到扩展的所述描述信息获取单元进一步包括:相关信息获取子模块,用于获取所述网址相应的锚文本和/或相应的主题名称;分析子模块,用于分析所述网址的锚文本和/或主题名称、以及相应的用户查询词,获取针对所述网址的描述信息。
优选的,所述网址和相应的关键词采用倒排表的数据结构,并进一步包括用于按照点击频率,对关键词指向的网址进行排序的排序模块504。
在本发明的另一优选实施例,为了校正锚文本信息和网页主题名称所可能带来的噪声,本实施例还可以包括校验模块505,用于依据所述搜索日志信息对所述描述信息和网址进行校验;所述校验可以包括:去除针对该关键词的点击频率小于或等于一定阈值的网址;和/或,去除在用户搜索查询中出现频率小于或等于一定阈值的关键词。
参照图6,示出了一种网址导航的系统实施例,具体可以包括:
导航数据库601,所述导航数据库存储有网址和相应的描述信息;所述网址包括在一信息查询词下,用户点击频率符合预置条件的网址;所述信息查询词和相应的用户点击频率通过分析搜索日志信息而获取;所述描述信息依据对信息查询词的分析而获得;
导航接口单元602,用于接收用户的网址查询词,以及展示相应的网址结果集;
导航检索单元603,用于依据用户的网址查询词检索所述导航数据库601,返回相应的网址结果集。
优选的,所述导航数据库还可以包括有针对网址的介绍信息(例如,文字或者图片等形式的介绍),当导航接口单元602在向用户展示相应的网址结果集的同时,还可以展示相关的介绍信息,以便用户提前了解该网址的大致情况。
一般的,通过收集用户的信息查询词,即可获得包括关键的描述信息。而在本发明的另一优选实施例中,可以通过以下方式获取所述描述信息:首先,获取所述网址相应的锚文本和/或相应的主题名称;然后分析所述网址的锚文本和/或主题名称、以及相应的用户查询词,获取针对所述网址的描述信息。
优选的,所述网址和相应的关键词采用倒排表的数据结构,并且进一步,对于倒排表结构——“关键词:网址1,网址2......”,是按照在该关键词下的点击频率,对网址1,网址2......进行排序的。
进一步,导航数据库601中所存储的导航数据是经过校验的。例如,依据所述搜索日志信息对所述描述信息和网址进行校验;所述校验可以包括:去除针对该关键词的点击频率小于或等于一定阈值的网址;和/或,去除在用户搜索查询中出现频率小于或等于一定阈值的关键词。
优选的,所述的系统还可以包括:用户参数获取模块,用于获取与导航数据相关的权重参数;权重调整模块,用于利用所述权重参数修正导航数据的匹配程度和/或排序情况。上述两个模块可以用于优化所述导航数据库601。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于系统实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上对本发明所提供的一种生成导航数据库的方法和装置,以及一种网址导航的方法和装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (26)

1.一种生成导航数据库的方法,其特征在于,包括:
分析搜索日志信息,获取在一信息查询词下,用户点击频率符合预置条件的网址;所述搜索日志信息包括信息查询词及被用户点击的网址;
依据信息查询词获取针对所述网址的描述信息;所述描述信息包括关键词;
依据所获得的网址和相应的描述信息,建立导航数据库。
2.如权利要求1所述的方法,其特征在于,所述依据信息查询词获得描述信息的步骤进一步包括:
获取所述网址相应的锚文本和/或相应的主题名称;
分析所述网址的锚文本和/或主题名称、以及相应的用户查询词,获取针对所述网址的描述信息。
3.如权利要求1或2所述的方法,其特征在于,所述描述信息还包括点击频率。
4.如权利要求3所述的方法,其特征在于,所述网址和相应的关键词采用倒排表的数据结构。
5.如权利要求4所述的方法,其特征在于,还包括:按照点击频率,对关键词指向的网址进行排序。
6.如权利要求3所述的方法,其特征在于,还包括:依据所述搜索日志信息对所述描述信息和网址进行校验的步骤,所述校验包括:
去除针对该关键词的点击频率小于或等于一定阈值的网址;
和/或,去除在用户搜索查询中出现频率小于或等于一定阈值的关键词。
7.一种网址导航的方法,其特征在于,包括:
分析搜索日志信息,获取在一信息查询词下,用户点击频率符合预置条件的网址;所述搜索日志信息包括信息查询词及被用户点击的网址;
依据信息查询词获取针对所述网址的描述信息;所述描述信息包括关键词;
依据所获得的网址和相应的描述信息,建立导航数据库;
接收用户的网址查询词,检索所述导航数据库,向用户返回相应的网址结果集。
8.如权利要求7所述的方法,其特征在于,所述依据信息查询词获得描述信息的步骤进一步包括:
获取所述网址相应的锚文本和/或相应的主题名称;
分析所述网址的锚文本和/或主题名称、以及相应的用户查询词,获取针对所述网址的描述信息。
9.如权利要求7或8所述的方法,其特征在于,所述描述信息还包括点击频率。
10.如权利要求9所述的方法,其特征在于,所述网址和相应的关键词采用倒排表的数据结构。
11.如权利要求10所述的方法,其特征在于,还包括:按照点击频率,对关键词指向的网址进行排序。
12.如权利要求9所述的方法,其特征在于,还包括:依据所述搜索日志信息对所述描述信息和网址进行校验的步骤;所述校验包括:
去除针对该关键词的点击频率小于或等于一定阈值的网址;
和/或,去除在用户搜索查询中出现频率小于或等于一定阈值的关键词。
13.如权利要求7所述的方法,其特征在于,还包括:
采集与导航数据相关的权重参数;
利用所述权重参数修正导航数据的匹配程度和/或排序情况。
14.一种生成导航数据库的系统,其特征在于,包括:
日志分析单元,用于分析搜索日志信息,获取在一信息查询词下,用户点击频率符合预置条件的网址;所述搜索日志信息包括信息查询词及被用户点击的网址;
描述信息获取单元,用于依据信息查询词获取针对所述网址的描述信息;所述描述信息包括关键词;
数据库生成单元,用于依据所获得的网址和相应的描述信息,建立导航数据库。
15.如权利要求14所述的系统,其特征在于,所述描述信息获取单元进一步包括:
相关信息获取子模块,用于获取所述网址相应的锚文本和/或相应的主题名称;
分析子模块,用于分析所述网址的锚文本和/或主题名称、以及相应的用户查询词,获取针对所述网址的描述信息。
16.如权利要求14或15所述的系统,其特征在于,所述描述信息还包括点击频率。
17.如权利要求16所述的系统,其特征在于,所述网址和相应的关键词采用倒排表的数据结构。
18.如权利要求17所述的系统,其特征在于,还包括:
排序模块,用于按照点击频率,对关键词指向的网址进行排序。
19.如权利要求16所述的系统,其特征在于,还包括:
校验模块,用于依据所述搜索日志信息对所述描述信息和网址进行校验;所述校验包括:
去除针对该关键词的点击频率小于或等于一定阈值的网址;
和/或,去除在用户搜索查询中出现频率小于或等于一定阈值的关键词。
20.一种网址导航的系统,其特征在于,包括:
导航数据库,所述导航数据库存储有网址和相应的描述信息;所述网址包括在一信息查询词下,用户点击频率符合预置条件的网址;所述信息查询词和相应的用户点击频率通过分析搜索日志信息而获取;所述描述信息依据对信息查询词的分析而获得;
导航接口单元,用于接收用户的网址查询词,以及展示相应的网址结果集;
导航检索单元,用于依据用户的网址查询词检索所述导航数据库,返回相应的网址结果集。
21.如权利要求20所述的系统,其特征在于,通过以下方式获取所述描述信息:
获取所述网址相应的锚文本和/或相应的主题名称;
分析所述网址的锚文本和/或主题名称、以及相应的用户查询词,获取针对所述网址的描述信息。
22.如权利要求20或21所述的系统,其特征在于,所述描述信息还包括点击频率。
23.如权利要求22所述的系统,其特征在于,所述网址和相应的关键词采用倒排表的数据结构。
24.如权利要求23所述的系统,其特征在于,在所述倒排表数据结构中,一关键词指向的多个网址是按照在该关键词下的点击频率进行排序的。
25.如权利要求22所述的系统,其特征在于,所述描述信息和网址是经过所述搜索日志信息校验的;所述校验的方式包括:
去除针对该关键词的点击频率小于或等于一定阈值的网址;
和/或,去除在用户搜索查询中出现频率小于或等于一定阈值的关键词。
26.如权利要求20所述的系统,其特征在于,还包括:
用户参数获取模块,用于获取与导航数据相关的权重参数;
权重调整模块,用于利用所述权重参数修正导航数据的匹配程度和/或排序情况。
CNA2007101778212A 2007-11-21 2007-11-21 一种网址导航的方法和系统 Pending CN101178728A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2007101778212A CN101178728A (zh) 2007-11-21 2007-11-21 一种网址导航的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2007101778212A CN101178728A (zh) 2007-11-21 2007-11-21 一种网址导航的方法和系统

Publications (1)

Publication Number Publication Date
CN101178728A true CN101178728A (zh) 2008-05-14

Family

ID=39404981

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2007101778212A Pending CN101178728A (zh) 2007-11-21 2007-11-21 一种网址导航的方法和系统

Country Status (1)

Country Link
CN (1) CN101178728A (zh)

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101382954B (zh) * 2008-09-25 2010-10-20 北京搜狗科技发展有限公司 提供网址收藏名称的方法及系统
CN101997933A (zh) * 2009-08-18 2011-03-30 阿里巴巴集团控股有限公司 一种网址提供方法、装置及系统
CN102169496A (zh) * 2011-04-12 2011-08-31 清华大学 基于锚文本分析的领域术语自动生成方法
CN102354315A (zh) * 2011-09-22 2012-02-15 奇智软件(北京)有限公司 一种网址导航页面生成方法和装置
CN102682011A (zh) * 2011-03-14 2012-09-19 腾讯科技(深圳)有限公司 建立域名描述名称信息表、搜索的方法、装置及系统
WO2013041022A1 (zh) * 2011-09-22 2013-03-28 北京奇虎科技有限公司 一种网址导航页面生成方法、装置以及程序
CN103020067A (zh) * 2011-09-21 2013-04-03 北京百度网讯科技有限公司 一种确定网页类型的方法和装置
CN103020083A (zh) * 2011-09-23 2013-04-03 北京百度网讯科技有限公司 需求识别模板的自动挖掘方法、需求识别方法及对应装置
CN103106282A (zh) * 2013-02-27 2013-05-15 王义东 一种网页搜索与展示的方法
CN103399861A (zh) * 2013-07-04 2013-11-20 百度在线网络技术(北京)有限公司 一种网址导航中的网址推荐方法、装置和系统
WO2014000538A1 (zh) * 2012-06-27 2014-01-03 北京奇虎科技有限公司 基于终端访问统计的云网址推荐方法及系统及相关设备
CN103646342A (zh) * 2013-12-18 2014-03-19 北京博雅立方科技有限公司 一种搜索引擎消费数据和回报数据的拼接方法和平台
CN103678366A (zh) * 2012-09-14 2014-03-26 腾讯科技(深圳)有限公司 为浏览器提供推荐信息的方法及服务器
WO2014056369A1 (zh) * 2012-10-08 2014-04-17 合一网络技术(北京)有限公司 一种用于对搜索的网络视频进行排序的方法和系统
CN103914490A (zh) * 2013-01-08 2014-07-09 纽海信息技术(上海)有限公司 网页运行方法和系统
CN103944935A (zh) * 2013-01-21 2014-07-23 深圳市世纪光速信息技术有限公司 一种网址信息投放方法和装置
WO2014194689A1 (en) * 2013-06-06 2014-12-11 Tencent Technology (Shenzhen) Company Limited Method, server, browser, and system for recommending text information
CN104391969A (zh) * 2014-12-04 2015-03-04 百度在线网络技术(北京)有限公司 确定用户查询语句句法结构的方法及装置
CN104572719A (zh) * 2013-10-21 2015-04-29 中兴通讯股份有限公司 信息收集方法及装置
CN104639771A (zh) * 2015-01-29 2015-05-20 小米科技有限责任公司 一种提供服务信息的方法及装置
WO2016115944A1 (zh) * 2015-01-21 2016-07-28 广州神马移动信息科技有限公司 网页质量模型的建立方法及装置
CN108073588A (zh) * 2016-11-09 2018-05-25 北京国双科技有限公司 栏目信息提取方法和装置
US10019419B2 (en) 2013-06-06 2018-07-10 Tencent Technology (Shenzhen) Company Limited Method, server, browser, and system for recommending text information
CN112417248A (zh) * 2020-11-24 2021-02-26 百度在线网络技术(北京)有限公司 寻址关键词的推荐方法、装置、模型、设备和存储介质
CN112883294A (zh) * 2019-11-29 2021-06-01 北京搜狗科技发展有限公司 一种数据处理方法、装置和介质

Cited By (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101382954B (zh) * 2008-09-25 2010-10-20 北京搜狗科技发展有限公司 提供网址收藏名称的方法及系统
CN101997933A (zh) * 2009-08-18 2011-03-30 阿里巴巴集团控股有限公司 一种网址提供方法、装置及系统
CN102682011B (zh) * 2011-03-14 2017-04-12 深圳市世纪光速信息技术有限公司 建立域名描述名称信息表、搜索的方法、装置及系统
CN102682011A (zh) * 2011-03-14 2012-09-19 腾讯科技(深圳)有限公司 建立域名描述名称信息表、搜索的方法、装置及系统
CN102169496A (zh) * 2011-04-12 2011-08-31 清华大学 基于锚文本分析的领域术语自动生成方法
CN103020067A (zh) * 2011-09-21 2013-04-03 北京百度网讯科技有限公司 一种确定网页类型的方法和装置
CN103020067B (zh) * 2011-09-21 2016-07-13 北京百度网讯科技有限公司 一种确定网页类型的方法和装置
WO2013041022A1 (zh) * 2011-09-22 2013-03-28 北京奇虎科技有限公司 一种网址导航页面生成方法、装置以及程序
CN102354315A (zh) * 2011-09-22 2012-02-15 奇智软件(北京)有限公司 一种网址导航页面生成方法和装置
CN102354315B (zh) * 2011-09-22 2015-06-10 奇智软件(北京)有限公司 一种网址导航页面生成方法和装置
CN103020083A (zh) * 2011-09-23 2013-04-03 北京百度网讯科技有限公司 需求识别模板的自动挖掘方法、需求识别方法及对应装置
CN103020083B (zh) * 2011-09-23 2016-06-15 北京百度网讯科技有限公司 需求识别模板的自动挖掘方法、需求识别方法及对应装置
US10216848B2 (en) 2012-06-27 2019-02-26 Beijing Qihoo Technology Company Limited Method and system for recommending cloud websites based on terminal access statistics
WO2014000538A1 (zh) * 2012-06-27 2014-01-03 北京奇虎科技有限公司 基于终端访问统计的云网址推荐方法及系统及相关设备
CN103678366A (zh) * 2012-09-14 2014-03-26 腾讯科技(深圳)有限公司 为浏览器提供推荐信息的方法及服务器
CN103678366B (zh) * 2012-09-14 2017-11-24 腾讯科技(深圳)有限公司 为浏览器提供推荐信息的方法及服务器
WO2014056369A1 (zh) * 2012-10-08 2014-04-17 合一网络技术(北京)有限公司 一种用于对搜索的网络视频进行排序的方法和系统
CN103914490A (zh) * 2013-01-08 2014-07-09 纽海信息技术(上海)有限公司 网页运行方法和系统
CN103914490B (zh) * 2013-01-08 2018-06-12 北京京东尚科信息技术有限公司 网页运行方法和系统
CN103944935A (zh) * 2013-01-21 2014-07-23 深圳市世纪光速信息技术有限公司 一种网址信息投放方法和装置
CN103106282B (zh) * 2013-02-27 2016-01-13 王义东 一种网页搜索与展示的方法
CN103106282A (zh) * 2013-02-27 2013-05-15 王义东 一种网页搜索与展示的方法
WO2014194689A1 (en) * 2013-06-06 2014-12-11 Tencent Technology (Shenzhen) Company Limited Method, server, browser, and system for recommending text information
US10019419B2 (en) 2013-06-06 2018-07-10 Tencent Technology (Shenzhen) Company Limited Method, server, browser, and system for recommending text information
US10402479B2 (en) 2013-06-06 2019-09-03 Tencent Technology (Shenzhen) Company Limited Method, server, browser, and system for recommending text information
CN103399861A (zh) * 2013-07-04 2013-11-20 百度在线网络技术(北京)有限公司 一种网址导航中的网址推荐方法、装置和系统
CN103399861B (zh) * 2013-07-04 2017-03-08 百度在线网络技术(北京)有限公司 一种网址导航中的网址推荐方法、装置和系统
US10346414B2 (en) 2013-10-21 2019-07-09 Xi'an Zhongxing New Software Co. Ltd. Information collection method and device
CN104572719A (zh) * 2013-10-21 2015-04-29 中兴通讯股份有限公司 信息收集方法及装置
CN103646342A (zh) * 2013-12-18 2014-03-19 北京博雅立方科技有限公司 一种搜索引擎消费数据和回报数据的拼接方法和平台
CN104391969B (zh) * 2014-12-04 2018-01-30 百度在线网络技术(北京)有限公司 确定用户查询语句句法结构的方法及装置
CN104391969A (zh) * 2014-12-04 2015-03-04 百度在线网络技术(北京)有限公司 确定用户查询语句句法结构的方法及装置
WO2016115944A1 (zh) * 2015-01-21 2016-07-28 广州神马移动信息科技有限公司 网页质量模型的建立方法及装置
US10891350B2 (en) 2015-01-21 2021-01-12 Guangzhou Shenma Mobile Information Technology Co., Ltd. Method and device for establishing webpage quality model
CN104639771B (zh) * 2015-01-29 2019-02-15 小米科技有限责任公司 一种提供服务信息的方法及装置
CN104639771A (zh) * 2015-01-29 2015-05-20 小米科技有限责任公司 一种提供服务信息的方法及装置
CN108073588A (zh) * 2016-11-09 2018-05-25 北京国双科技有限公司 栏目信息提取方法和装置
CN112883294A (zh) * 2019-11-29 2021-06-01 北京搜狗科技发展有限公司 一种数据处理方法、装置和介质
CN112417248A (zh) * 2020-11-24 2021-02-26 百度在线网络技术(北京)有限公司 寻址关键词的推荐方法、装置、模型、设备和存储介质

Similar Documents

Publication Publication Date Title
CN101178728A (zh) 一种网址导航的方法和系统
CN102043833B (zh) 一种基于查询词进行搜索的方法和搜索装置
CN101452453B (zh) 一种输入法网址导航的方法和一种输入法系统
US8560513B2 (en) Searching for information based on generic attributes of the query
CN102073725B (zh) 结构化数据的搜索方法和实现该搜索方法的搜索引擎系统
JP5721818B2 (ja) 検索におけるモデル情報群の使用
CN101382954B (zh) 提供网址收藏名称的方法及系统
JP5084858B2 (ja) サマリ作成装置、サマリ作成方法及びプログラム
CN101727454A (zh) 用于对象自动分类的方法和系统
US20080065632A1 (en) Server, method and system for providing information search service by using web page segmented into several inforamtion blocks
US8838643B2 (en) Context-aware parameterized action links for search results
CA2245089A1 (en) Search system for providing fulltext search over web pages of world wide web servers
US20110208715A1 (en) Automatically mining intents of a group of queries
US20090187516A1 (en) Search summary result evaluation model methods and systems
CN101685444A (zh) 用于实现元数据搜索的系统和方法
JP5514486B2 (ja) Webページの関連性抽出方法、装置、及びプログラム
CN102169501A (zh) 基于搜索结果对应文档的类型信息生成摘要的方法与设备
CN101661490B (zh) 搜索引擎、其客户端及搜索网页的方法
CN102063454A (zh) 一种搜索与应用相结合的方法和设备
KR100671077B1 (ko) 페이지 묶음을 이용한 정보 검색 서비스 제공 서버, 방법및 시스템
CN116226494B (zh) 一种用于信息搜索的爬虫系统及方法
WO2001027712A2 (en) A method and system for automatically structuring content from universal marked-up documents
KR100931772B1 (ko) 웹사이트 검색 서비스 제공 방법 및 그 시스템
KR101362090B1 (ko) 통합 데이터베이스를 이용한 검색 서비스 제공 방법 및 그 서버
CN101923548A (zh) 一种互联网信息搜索方法及一种搜索引擎

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Open date: 20080514