CN1877583A - 访问标识索引系统及访问标识索引库生成方法 - Google Patents
访问标识索引系统及访问标识索引库生成方法 Download PDFInfo
- Publication number
- CN1877583A CN1877583A CN 200610098593 CN200610098593A CN1877583A CN 1877583 A CN1877583 A CN 1877583A CN 200610098593 CN200610098593 CN 200610098593 CN 200610098593 A CN200610098593 A CN 200610098593A CN 1877583 A CN1877583 A CN 1877583A
- Authority
- CN
- China
- Prior art keywords
- index
- index data
- access identities
- module
- increment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种访问标识索引系统包括:包括连接设置在网络的服务器模块、日志分析模块及索引模块;日志分析模块用于处理来自所述服务器模块的访问日志文件,生成增量索引数据,并将增量索引数据传送至所述索引模块;索引模块用于处理来自所述日志分析模块的所述增量索引数据,生成并存储索引数据。本发明还涉及一种基于此访问标识索引系统的访问标识索引库生成方法,收集和分析互联网网站的查询和点击日志,对访问标识所对应的用户在一段时间内的搜索点击浏览行为记录建立索引,提供查询,使得网站可以进一步深入的研究用户行为,了解用户需求,针对用户需求实现更多的个性化功能。
Description
技术领域
本发明涉及一种访问标识索引系统以及基于此访问标识索引系统的访问标识索引库生成方法。
背景技术
在互连网中,当用户访问一个Web网站时,该网站会为用户生成一个访问标识,以记录用户曾经访问过该网站。
在现有技术中,用户标识通过cookie技术实现。cookie是Web服务器保存在用户硬盘上的一段文本。cookie允许一个Web站网在用户的机器上保存信息并且随后再取回它。一个Web网站为每一个访问者产生一个唯一的ID,然后以Cookie文件的形式保存在每个用户的机器上。cookie允许一个网站在用户的机器上保存网站相关信息,从而网站可以记住浏览器上一次所处的状态。用户ID是一种简单的状态信息--如果用户的机器上有ID存在,网站会知道用户此前访问过它。
网站可以通过各种不相同的方式利用cookie实现多种功能。最为常见的有:网站通过cookie较为精确的统计浏览人数、保存用户的设置、定制用户个性化空间、记录用户网站轨迹以显示用户访问该网页的次数、显示用户上一次的访问时间、记录用户以前在本页中所做的选择等等。
在现有技术中,网站对其网站服务器上所保存的访问标识信息(特别是cookie信息)和用户行为信息的分析利用,一般仅限于基于访问标识信息(特别是cookie信息)的一些简单统计以及以数据分析挖掘方式生成的用户简档(user profile)。对于一个用户,用户简档保存了一些事实性或推测性的个人身份信息(如性别,年龄、籍贯、职业、地址等)和主要个人行为倾向信息(如某些方面的兴趣、爱好和习惯等);用户简档的特点是,数据具有总结性,存储的数据量相对较小,格式一般为结构化数据。用户简档中的每一种信息,一般是对用户在某一方面的归类信息。由于用户简档是总结性信息,用户原始行为记录中的大量具体信息可能在用户简档中没有体现,限制了网站在用户行为和用户需求了解上的准确性,使网站难以针对用户具体需求提供更有效的服务。
发明内容
本发明的目的在于针对现有技术存在的缺陷提供访问标识索引系统及基于此系统的访问标识索引库生成方法,收集和分析互联网网站的查询和点击日志,对访问标识所对应的用户在一段时间内的搜索点击浏览行为记录建立索引,提供查询,实现Web网站对访问标识的管理利用,特别是对cookie的管理利用。
为实现上述目的,本发明提供了一种访问标识索引系统以及基于此系统的访问标识索引库生成方法,进一步的,还提供了利用所述访问标识索引库生成方法生成的访问索引库建立展现内容索引库的方法。
访问标识索引系统,包括连接设置在网络的服务器模块、日志分析模块及索引模块;
日志分析模块用于处理来自所述服务器模块的访问日志文件,生成增量索引数据,并将增量索引数据传送至索引模块;
索引模块用于处理来自日志分析模块的增量索引数据,生成并存储索引数据;
所述索引数据可以是访问标识索引数据或/和关键词索引数据;
所述访问标识索引数据是访问标识到关键词的索引数据;
所述关键词索引数据是关键词到访问标识的索引数据。
访问标识索引库生成方法,包括以下步骤:
步骤1、日志分析模块从服务器模块获取访问日志文件;
步骤2、日志分析模块生成增量索引数据;
步骤3、日志分析模块将所述增量索引数据传送至索引模块;
步骤4、索引模块处理来自所述日志分析模块的所述增量索引数据,生成并更新索引数据。
进一步的,步骤4之后还可以包括:
步骤5、生成展现内容访问标识索引数据。
同样,步骤5之后还可以包括:
步骤6、生成访问标识展现内容索引数据。
本发明实现了收集和分析互联网网站的查询和点击日志,使得网站(特别是提供网上信息服务的网站,如搜索引擎)可以以访问标识(特别是cookie中的用户ID)为单位,利用记录在日志中用户与网站的互动情况,分析每个用户在一段时间内的网上行为,以进一步深入地研究用户行为特征,了解用户需求,针对用户需求实现更多的个性化功能,从而达到为用户提供更令人满意服务的目的。下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明访问标识索引系统结构示意图。
图2为本发明访问标识索引系统实施例二日志分析模块结构示意图。
图3为本发明访问标识索引系统实施例二检索模块结构示意图。
图4为本发明访问标识索引系统实施例二访问标识索引数据库模块结构示意图。
图5为本发明访问标识索引系统实施例三日志分析模块结构示意图;
图6为本发明访问标识索引系统实施例四展现内容索引模块结构示意图;
图7为本发明访问标识索引库生成方法流程图;
图8为图7所示方法中增量访问标识索引生成方法流程图;
图9为图7所示方法中生成并存储索引数据的流程图;
图10为图8所示方法中生成并储存分时段增量索引数据、历史索引数据的流程图;
图11为图10所示方法中生成并更新访问标识分时段增量索引数据流程图;
图12为图10所示方法中生成并更新访问标识历史索引数据流程图;
图13为图10所示方法中生成并更新关键词分时段增量索引数据流程图;
图14为图10所示方法中生成并更新关键词历史索引数据流程图;
图15为生成展现内容访问标识索引数据流程图;
图16为生成访问标识展现内容索引数据流程图。
具体实施方式
为实现本发明,首先需要建立一个访问标识索引系统,如图1所示,包括连接设置在网络的服务器模块、日志分析模块及索引模块。下面是该系统的具体实施例:
实施例一:
如图1所示,包括连接设置在网络的服务器模块、日志分析模块及索引模块。其中服务器模块可以通过标准的开源模块如apache模块实现,也可以通过其它服务器模块实现。
日志分析模块用于处理来自所述服务器模块的访问日志文件,用于处理来自服务器模块的访问日志文件,生成增量索引数据,并将增量索引数据传送至索引模块。索引模块用于处理来自日志分析模块的增量索引数据,生成并存储索引数据。所述索引数据可以是访问标识索引数据或/和关键词索引数据;所述访问标识索引数据是访问标识到关键词的索引数据;所述关键词索引数据是关键词到访问标识的索引数据。
进一步的,可以选择将日志分析模块和索引模块分布不同的机器和/或不同机器组上,借由多台机器的处理能力和存储能力完成对大规模数据的处理和存储。在本实施例中,所述日志分析模块和索引模块设置在不同组机器上,通过网络通信联系。
实施例二:
由于来自服务器模块的日志文件数据十分庞大,数据处理工作负荷也相应的较重。因此,在实施例一的基础上,如图2所示,日志分析模块可以进一步包括:日志预处理模块、增量访问标识索引生成模块,以实现对数据的分步处理,降低单次处理的工作量。日志分析模块中还设置增量索引传送模块,用于向索引模块送数据。
日志预处理模块用于处理来自所述服务器模块的访问日志文件,生成查询预处理数据;增量索引生成模块用于处理所述查询预处理数据,生成增量索引数据;增量索引传送模块用于将所述增量索引数据传送至索引模块。
所述日志预处理模块以及增量索引生成模块可以设置在同一机器或机器组中。通常,特别是大型网站中,访问数据十分庞大,更新速度也较快,将所述日志分析模块和增量索引生成模块设置在同一机器上,通过文件共享的方式共享所需数据,可减少不必要文件传送时间。
索引模块,如图3所示,包括:增量索引接收模块、分时段增量索引合并模块、索引库模块。增量索引接收模块用于接收来自日志分析模块的增量索引数据;分时段增量索引合并模块用于处理来自增量索引接收模块的增量索引数据生成分时段增量索引数据;索引库模块与分时段增量索引模块连接,用于更新、存储索引数据。
由于索引数据具有一个时效问题,通常,最新的索引记录通常更能反映相应用户的行为、需求等,所以,如图4所示,索引库模块包括:分时段增量索引库模块、历史索引库模块以及历史索引合并模块。
分时段增量索引库模块用于储存来自分时段增量索引合并模块的分时段增量索引数据;历史索引库模块与历史索引合并模块连接,用于存储历史索引数据;历史索引合并模块用于根据分时段增量索引数据库模块中存储的分时段增量索引数据更新历史索引库模块。
在本实施例中,分时段增量索引数据以天为单位记录增量索引数据,即分时段增量索引数据只保留当天增量索引数据。
另外,索引模块具有保存某段时间内生成的分时段增量索引的能力,以备在历史访问标识索引库崩溃、数据破坏的情况下,还可以通过索引模块中备份的分时段增量索引恢复历史索引库。
实施例三:
进一步的,如图5所示,在实施例二的基础上,日志分析模块还可以包括一个访问标识查询串库生成模块,用于处理来自所述增量索引模块的所述查询预处理数据,并存储处理后的数据。
为了提高访问标识索引系统的反映速度,访问标识索引系统对访问日志可能只是进行相对较简单的处理,如切词处理,即生成访问标识索引,并保存至访问标识索引库。通过访问标识查询串库可以保存所提取的原始的用户请求串,以进行离线的自然语言处理,如同义扩展、句子结构的语法分析、语义分析等,以分析得到更多精确的深层语义信息来反映用户的兴趣点。
另外,由于服务其访问日志数据量比较大,访问标识查询串库相对较小,可用来保存多天的数据,在系统崩溃、数据破坏情况下可提供原始数据源。
实施例四
在实施例二的基础上,索引模块还包括:展现内容索引模块,用于根据索引库模块存储的所述索引数据生成、存储展现内容索引数据。如图6所示,展现内容索引模块包括:相互连接的展现内容关键词索引库模块、展现内容访问标识索引库模块和访问标识展现内容索引库模块。展所述展现内容关键词索引库模块用于储存展现内容关键词索引数据;展现内容访问标识索引库模块连接展现内容关键词索引库模块,用于生成并储存展现内容访问标识索引数据;访问标识展现内容索引库模块连接展现内容访问标识索引库模块,用于生成、储存访问标识展现内容索引数据。
通过添加展现内容索引模块,可以使访问标识索引系统生成并保存网页展现内容(比如广告,图片等)与访问标识之间的关联关系。即,访问标识索引系统通过访问标识确定用户身份,由用户点击查询的关键词分析用户需求,并通过展现内容索引模块将这种需求与展现内容一一对应起来。具体的,展现内容关键词索引库,用来储存展现内容的关键词信息;展现内容访问标识索引库模块用于储存每一个展现内容所关联的用户群信息;访问标识展现内容索引库用于储存每一个用户感兴趣的展现内容集信息。
访问标识索引库生成方法,如图7所示,主要包括以下过程:
步骤1、日志分析模块从服务器模块获取访问日志文件;
具体的,日志分析模块向服务器模块请求发送访问日志文件,服务器模块将用户的访问日志文件,发送到日志分析模块。
步骤2、日志分析模块生成增量索引数据;
具体的,日志分析模块从访问日志文件中提取每个访问标识对应的用户的IP信息,创建时间,ID信息,最近访问时间,关键词列表等,生成包括上述信息的增量索引数据。增量索引数据可以是访问标识增量索引数据或/关键词增量索引数据。其中,访问标识增量索引数据为访问标识到关键词的增量索引数据,关键词索引数据为关键词到访问标识的增量索引数据。
步骤3、日志分析模块将所述增量索引数据传送至索引模块;
步骤4、索引模块处理来自所述日志分析模块的增量索引数据,生成并更新索引数据。
其中,索引数据可以是访问标识索引数据或/关键词索引数据。访问标识索引数据为访问标识到关键词的索引数据,关键词索引数据为关键词到访问标识的索引数据。
在步骤4中,索引子系统根据日志分析模块提供的增量索引数据,结合其存储的索引数据生成新的索引数据。
通常,特别是对于大型网站来说,来自服务器模块的日志文件数据十分庞大,数据处理工作负荷也相应较重。因此,步骤2中日志分析子模块生成增量索引数据可以分为两个步骤执行,如图8所示:
步骤21、分析来自服务器模块的所述访问日志文件,提取所需字符串,生成查询预处理数据;
步骤22、根据查询预处理数据生成增量索引数据。
首先,日志分析模块对访问日志文件进行格式分析,从中提取所述的字符串,如访问标识信息,IP信息,用户输入的查询串,用户访问的网站产品、频道或网页,用户的访问的时间等,生成包括上述信息的查询预处理数据。
再次,日志分析模块根据所述查询预处理数据进一步得到用户的IP信息,访问标识创建时间,ID信息,最近访问时间,并通过对用户查询串进行切词处理获得的用户关键词列表,生成包括上述信息的增量索引数据。
另外,上述两个步骤可以由日志分析模块的不同模块来分别实现:查询预处理数据通过日志预处理模块生成,增量索引数据通过增量索引生成模块生成。
生成的增量索引数据通过增量传送模块传送至索引模块。
索引模块生成并存储索引数据的步骤,如图9所示,具体为:
步骤41、判断是否到达索引数据生成时刻,是则执行步骤42,否则继续执行步骤41;
步骤42、读取来自日志分析模块的增量索引数据;
步骤43、判断是否有新的增量索引数据到达,是则执行步骤44,否则执行步骤41;
步骤44、从上次读取的位置点之后读取增量索引数据;
步骤45、生成新的索引数据并更新索引数据。
其中,索引模块通过增量索引接收模块执行步骤41、42,通过分时段增量索引合并模块执行步骤43、44。
由于索引数据具有一个时效问题,通常说来,新的索引记录更能反映相应用户的行为、需求等。所以,对不同时段的索引进行分别存储管理,以便利用访问标识索引时可以根据索引生成时间进行加权的综合分析,步骤45进一步包括生成并储存分时段增量索引数据、历史索引数据的步骤。分时段增量索引数据可以是访问标识分时段增量索引数据或/关键词分时段增量索引数据。访问标识分时段增量索引数据为访问标识到关键词的分时段增量索引数据,关键词分时段增量索引数据为关键词到访问标识的分时段增量索引数据。同样,历史索引数据可以是访问标识历史索引数据或/关键词历史索引数据。访问标识历史索引数据为访问标识到关键词的历史索引数据,关键词历史索引数据为关键词到访问标识的历史索引数据。
如图10所示,具体过程如下:
步骤451、生成并更新分时段增量索引数据;
步骤452、判断是否到达合并时刻,是则执行步骤453,否则继续执行步骤452;
步骤453、将分时段增量索引数据复制到合并数据目录;
步骤454、生成并更新历史索引数据。
索引模块通过分时段增量索引合并模块执行步骤451,通过历史索引合并模块执行步骤452、453、454。
本发明的访问标识索引库生成方法可以将索引数据组织为访问标识索引数据。即,按访问标识排序。索引数据格式包括IP信息,创建时间,ID信息,最近访问时间,关键词列表等。其中,关键词还可以带有一个权值,这个权值取决于词频、词属性、访问时间等。
因此,相应的,在生成访问标识索引数据的过程中,增量索引数据为访问标识增量索引数据、分时段增量索引数据为访问标识分时段增量索引数据、历史索引数据为访问标识历史索引数据。
如图11所示,步骤451具体为:
步骤4511a、判断是否已经存在此访问标识的访问标识分时段增量索引数据,是,则执行步骤4512a,否则,执行步骤4513a;
步骤4512a、将该访问标识的访问标识增量索引数据与访问标识分时段增量索引数据进行加权合并生成该访问标识新的访问标识分时段增量索引数据,保存至分时段增量索引库,执行步骤4514a;
步骤4513a、直接将该访问标识的访问标识增量索引数据插入分时段增量索引库,执行步骤4514a;
步骤4514a、判断是否还有未处理的访问标识增量索引数据,是,则执行步骤4511a,否则,结束。
具体的,在生成访问标识分时段增量索引数据时,先将访问标识增量索引数据读入内存,在内存进行内排序(按访问标识中包含的ID签名有序),再与外存的分时段增量访问标识索引库(按访问标识中包含的ID签名有序)进行多路归并,新的访问标识插入进新生成的分时段增量访问标识索引库,已有的访问标识需要将关键词列表进行合并,相同的关键词权重累加。
类似于访问标识分时段增量索引生成,历史访问标识索引生成时也采用加权合并的方法,不同的是,历史访问标识索引库中关键词的权值还随时间改变,以反映关键词最近的受关注度。
因此,如图12所示,步骤454进一步包括:
步骤4541a、判断历史索引库中是否有访问标识未在访问标识分时段增量索引数据中出现,是,则执行步骤4542a,否则,执行步骤4543a;
步骤4542a、更新历史索引库中此类访问标识的所有关键词权值;
步骤4543a、对每一个访问标识判断是否已经存在此访问标识的访问标识历史索引数据,是,则执行步骤4544a,否则,执行步骤4545a;
步骤4544a、将该访问标识的访问标识分时段增量索引数据与访问标识历史索引数据进行加权合并生成该访问标识的新的访问标识历史索引数据,保存至历史索引数据库,执行步骤4546a;
步骤4545a、直接将该访问标识的访问标识分时段增量索引数据插入历史索引数据库,执行步骤4546a;
步骤4546a、判断是否还有未处理的访问标识分时段增量索引数据,是,则执行步骤4541a,否则,结束。
具体技术手段如下:判断访问标识历史索引库中是否有访问标识未在访问标识分时段增量索引数据中出现,是,则在访问标识历史索引库中,将此类访问标识的所有关键词的权值乘上一个时间衰减因子,得到新的权值,并更新此类访问标识的所有关键词权值;如果访问标识分时段增量索引中的访问标识是原来访问标识历史索引库中没有的,将直接将该访问标识的访问标识分时段增量索引数据插入访问标识历史索引库;对于访问标识分时段增量索引和访问标识历史索引库中都有的访问标识,将该访问标识的关键词列表加权合并,其中,访问标识历史索引库的关键词权值乘上一个时间衰减因子。
本发明的访问标识索引库生成方法也可以将索引数据组织为关键词索引数据。即,索引数据按关键词排序。索引数据格式包括关键词权值、访问标识的属性信息(如访问标识的hash值、用户最近活动时间、访问标识权值等)等等。
因此,相应的,在生成访问标识索引数据的过程中,增量索引数据为关键词增量索引数据、分时段增量索引数据为关键词分时段增量索引数据、历史索引数据为关键词历史索引数据。
如图13所示,步骤451具体为:
步骤4511b、判断是否已经存在关键词的关键词分时段增量索引数据,是,则执行步骤4512b,否则,执行步骤4513b;
步骤4512b、将该关键词的关键词增量索引数据与关键词分时段增量索引数据进行加权合并生成该关键词新的关键词分时段增量索引数据,保存至分时段增量索引库,执行步骤4514b;
步骤4513b、直接将该关键词的关键词增量索引数据插入分时段增量索引库,执行步骤4514b;
步骤4514b、判断是否还有未处理的关键词增量索引数据,是,则执行步骤4511b,否则,结束。
利用关键词分时段增量索引数据生成关键词历史索引数据的实现方式与据生成访问标识历史索引数据的方法类似,具体如下:
首先遍历读入的关键词分时段增量索引数据的每个关键词结点,在关键词增量索引数据中查找,如果查找成功,则根据访问标识顺序归并两者之后的访问标识索引拉链,否则直接输出其索引拉链到新的关键词分时段增量索引拉链文件中,直至遍历完成。关键词增量索引数据中遍历剩下的关键词,将其每个结点插入到关键词分时段增量索引库,并直接输出其索引拉链到新的关键词分时段增量索引拉链文件中。保存最终结果。
如图14所示,步骤454具体为:
步骤4541b、对关键词判断是否已经存在此关键词的关键词历史索引数据,是,则执行步骤4542b,否则,执行步骤4543b;
步骤4542b、将该关键词的关键词分时段增量索引数据与关键词历史索引数据进行加权合并生成该关键词的新的关键词历史索引数据,保存至历史索引库,执行步骤4544b;
步骤4543b、直接将该关键词的关键词分时段增量索引数据插入历史索引库,执行步骤4544b;
步骤4544b、判断是否还有未处理的关键词分时段增量索引数据,是,则执行步骤4541b,否则,结束。
利用关键词分时段增量索引数据生成关键词历史索引数据的实现方式与前述利用关键词增量索引数据生成关键词分时段索引数据的方法类似。另外,在关键词历史索引库中,最近活动时刻距今到达某个设定时间长度的访问标识将被删除。通过上述手段可以清理过久没有活动的访问标识,以节约存储空间。此外,访问标识的权值也会随时间而衰减(采用在加权合并过程中,将权值乘以某一个衰减因子的手段实现,在本实施例中,衰减因子为0.9)如果权值衰减为零,该访问标识也会被删除。即,如果某访问标识较长时间没有查询某关键词,则该访问标识将被从该关键词的索引拉链中清除,以反映该用户兴趣的变化。
由于对用户的兴趣分析最终目的是为了针对用户提供更符合用户需求的内容,因此,在步骤4之后还可以进一步包括生成展现内容访问标识索引数据的步骤5。
步骤5、生成展现内容访问标识索引数据。
如图15所示,具体为:
步骤51、对每一个展现内容,从展现内容关键词索引库中取出该展现内容对应的所有关键词;
步骤52、对每一个关键词去查找索引数据库,得到一组与该关键词关联的访问标识列;
步骤53、将多组访问标识列表加权合并,得到该展现内容的关联访问标识集合,生成并保存的展现内容访问标识索引数据。
通过上述技术手段,可以生成并保存网页展现内容(比如广告,图片等)与访问标识之间的关联关系,特别是生成并保存每一个展现内容所关联的用户群信息。达到可以由展现内容检索该展现内容的兴趣用户群的效果。
除了由展现内容检索用户群之外,在实际中,往往需要对某个用户投放其感兴趣的一批展现内容,以实现对用户的个性化服务,因此,在步骤5后还可以包括一个步骤6。
步骤6、生成访问标识展现内容索引数据。
如图16所示,步骤6具体包括:
步骤61、建立一个访问标识列表;
步骤62、对于展现内容访问标识索引库中展现内容关联的每一个访问标识判断是否存在访问标识列表中,是则执行步骤63,否则执行步骤64;
步骤63、将所述展现内容加入到所述访问标识的关联展现内容列表尾,执行步骤65;
步骤64、在所述访问标识列表中加入所述访问标识,将所述访问的初始关联展示内容列表位置所述展示内容,执行步骤65;
步骤65、判断展现内容访问标识索引库模块中是否还有未处理的展现内容的,是则执行步骤61,否则储存所述访问标识列表为访问标识展现内容索引数据。
通过上述技术手段,可以实现生成并保存网页展现内容(比如广告,图片等)与访问标识之间的关联关系,特别是生成并保存每一个用户所关联的展现内容信息。即,最终达到:通过访问标识确定用户身份,由用户点击查询的关键词分析用户兴趣需求,将用户兴趣需求与网页展现内容对应起来,为用户提供一组个性化展现内容的目的。
此外,在日志分析子系统生成查询预处理的步骤21之后还可以进一步包括:
步骤21a、日志分析模块根据查询预处理数据提取的查询串生成分时段增量查询串并储存。
通过访问标识查询串库储存的原始的用户请求串,网站可以进行离线的自然语言处理,如同义扩展、句子结构的语法分析、语义分析等,以分析得到更多精确的深层语义信息来反映用户的兴趣点。另外,在系统崩溃、数据破坏情况下,访问标识查询串库可提供原始数据源。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围。
Claims (23)
1、一种访问标识索引系统,包括连接设置在网络的服务器模块,其特征在于,还包括:日志分析模块及索引模块;
所述日志分析模块用于处理来自所述服务器模块的访问日志文件,生成增量索引数据,并将所述增量索引数据传送至所述索引模块;
所述索引模块用于处理来自所述日志分析模块的所述增量索引数据,生成并存储索引数据;
所述索引数据可以是访问标识索引数据或/和关键词索引数据;
所述访问标识索引数据是访问标识到关键词的索引数据;
所述关键词索引数据是关键词到访问标识的索引数据。
2、根据权利要求1所述的访问标识索引系统,其特征在于,所述日志分析模块包括:日志预处理模块、增量索引生成模块、以及增量索引传送模块;
所述日志预处理模块用于处理来自所述服务器模块的访问日志文件,生成查询预处理数据;
所述增量索引生成模块用于处理所述查询预处理数据,生成增量索引数据;
所述增量索引传送模块用于将所述增量索引数据传送至所述索引模块。
3、根据权利要求2所述的访问标识索引系统,其特征在于,所述日志分析模块还包括一个访问标识查询串库生成模块;
所述访问标识查询串库生成模块用于处理来自所述增量索引模块的所述查询预处理数据,并存储处理后的数据。
4、根据权利要求1所述的访问标识索引系统,其特征在于,所述索引模块包括:增量索引接收模块、分时段增量索引合并模块、索引库模块;
所述增量索引接收模块用于接收来自所述日志分析模块的所述增量索引数据;
所述分时段增量索引合并模块用于处理来自所述增量索引接收模块的所述增量索引数据生成分时段增量索引数据;
所述索引库模块与分时段增量索引模块连接,用于更新、存储所述索引数据。
5、根据权利要求4所述的访问标识索引系统,其特征在于,所述索引库模块包括:分时段增量索引库模块、历史索引库模块以及历史索引合并模块;
所述分时段增量索引库模块用于储存来所述自分时段增量索引合并模块的所述分时段增量索引数据;
所述历史索引库模块与所述历史索引合并模块连接,用于存储历史索引数据;
所述历史索引合并模块用于根据所述分时段增量索引数据库模块中存储的分时段增量索引数据更新所述历史索引库模块。
6、根据权利要求4所述的访问标识索引系统,其特征在于,所述索引模块还包括:展现内容索引模块;
所述展现内容索引模块用于根据所述索引库模块存储的所述索引数据生成并存储展现内容索引数据。
7、根据权利要求6所述的访问标识索引系统,其特征在于,展现内容索引模块包括相互连接的展现内容关键词索引库模块、展现内容访问标识索引库模块和访问标识展现内容索引库模块;
所述展现内容关键词索引库模块用于储存展现内容关键词索引数据;
所述展现内容访问标识索引库模块连接所述展现内容关键词索引库模块,用于生成并储存展现内容访问标识索引数据;
所述访问标识展现内容索引库模块连接所述展现内容访问标识索引库模块,用于生成、储存访问标识展现内容索引数据。
8、一种访问标识索引库生成方法,其特征在于,包括以下步骤:
步骤1、日志分析模块从服务器模块获取访问日志文件;
步骤2、日志分析模块生成增量索引数据;
步骤3、日志分析模块将所述增量索引数据传送至索引模块;
步骤4、索引模块处理来自所述日志分析模块的所述增量索引数据,生成并更新索引数据。
9、根据权利要求8所述的访问标识索引库生成方法,其特征在于,步骤2具体为:
步骤21、分析来自服务器模块的所述访问日志文件,提取所需字符串,生成查询预处理数据;
步骤22、根据查询预处理数据生成增量索引数据。
10、根据权利要求9所述的访问标识索引库生成方法,其特征在于,步骤21之后进一步包括:
步骤21a、日志分析模块根据查询预处理数据提取的查询串生成分时段增量查询串并储存。
11、根据权利要求8所述的访问标识索引库生成方法,其特征在于,步骤4具体包括以下步骤:
步骤41、判断是否到达索引数据生成时刻,是则执行步骤42,否则继续执行步骤41;
步骤42、读取来自日志分析模块的增量索引数据;
步骤43、判断是否有新的增量索引数据到达,是则执行步骤44,否则执行步骤41;
步骤44、从上次读取的位置点之后读取增量索引数据;
步骤45、生成新的索引数据并更新索引数据。
12、根据权利要求11所述的访问标识索引库生成方法,其特征在于,步骤45具体为:
步骤451、生成并更新分时段增量索引数据;
步骤452、判断是否到达合并时刻,是则执行步骤453,否则继续执行步骤452;
步骤453、将分时段增量索引数据复制到合并数据目录;
步骤454、生成并更新历史索引数据。
13、根据权利要求12所述的访问标识索引库生成方法,其特征在于,当所述增量索引数据为访问标识增量索引数据、分时段增量索引数据为访问标识分时段增量索引数据时,步骤451具体为:
步骤4511a、判断是否已经存在此访问标识的访问标识分时段增量索引数据,是,则执行步骤4512a,否则,执行步骤4513a;
步骤4512a、将该访问标识的访问标识增量索引数据与访问标识分时段增量索引数据进行加权合并生成该访问标识新的访问标识分时段增量索引数据,保存至分时段增量索引库,执行步骤4514a;
步骤4513a、直接将该访问标识的访问标识增量索引数据插入分时段增量索引库,执行步骤4514a;
步骤4514a、判断是否还有未处理的访问标识增量索引数据,是,则执行步骤4511a,否则,结束。
14、根据权利要求12所述的访问标识索引库生成方法,其特征在于,当所述分时段增量索引数据为访问标识分时段增量索引数据、历史索引数据为访问标识历史索引数据时步骤454具体为:
步骤4541a、判断历史索引库中是否有访问标识未在访问标识分时段增量索引数据中出现,是,则执行步骤4542a,否则,执行步骤4543a;
步骤4542a、更新历史索引库中此类访问标识的所有关键词权值;
步骤4543a、对每一个访问标识判断是否已经存在此访问标识的访问标识历史索引数据,是,则执行步骤4544a,否则,执行步骤4545a;
步骤4544a、将该访问标识的访问标识分时段增量索引数据与访问标识历史索引数据进行加权合并生成该访问标识的新的访问标识历史索引数据,保存至历史索引数据库,执行步骤4546a;
步骤4545a、直接将该访问标识的访问标识分时段增量索引数据插入历史索引数据库,执行步骤4546a;
步骤4546a、判断是否还有未处理的访问标识分时段增量索引数据,是,则执行步骤4541a,否则,结束。
15、根据权利要求14所述的访问标识索引库生成方法,其特征在于,步骤4544a中,访问标识分时段增量索引数据与访问标识历史索引数据时加权合并时,访问标识历史索引数据的关键词权值乘上一个时间衰减因子后再与访问标识分时段增量索引数据加权合并。
16、根据权利要求12所述的访问标识索引库生成方法,其特征在于,当所述增量索引数据为关键词增量索引数据、分时段增量索引数据为关键词分时段增量索引数据时,步骤451具体为:
步骤4511b、判断是否已经存在关键词的关键词分时段增量索引数据,是,则执行步骤4512b,否则,执行步骤4513b;
步骤4512b、将该关键词的关键词增量索引数据与关键词分时段增量索引数据进行加权合并生成该关键词新的关键词分时段增量索引数据,保存至分时段增量索引库,执行步骤4514b;
步骤4513b、直接将该关键词的关键词增量索引数据插入分时段增量索引库,执行步骤4514b;
步骤4514b、判断是否还有未处理的关键词增量索引数据,是,则执行步骤4511b,否则,结束。
17、根据权利要求12所述的访问标识索引库生成方法,其特征在于,当所述分时段增量索引数据为关键词分时段增量索引数据、历史索引数据为关键词历史索引数据时步骤454具体为:
步骤4541b、对关键词判断是否已经存在此关键词的关键词历史索引数据,是,则执行步骤4542b,否则,执行步骤4543b;
步骤4542b、将该关键词的关键词分时段增量索引数据与关键词历史索引数据进行加权合并生成该关键词的新的关键词历史索引数据,保存至历史索引库,执行步骤4544b;
步骤4543b、直接将该关键词的关键词分时段增量索引数据插入历史索引库,执行步骤4544b;
步骤4544b、判断是否还有未处理的关键词分时段增量索引数据,是,则执行步骤4541b,否则,结束。
18、根据权利要求17所述的访问标识索引库生成方法,其特征在于,步骤4542b中,关键词分时段增量索引数据与关键词历史索引数据时加权合并时,关键词历史索引数据的访问标识权值乘上一个时间衰减因子后再与关键词分时段增量索引数据加权合并。
19、根据权利要18所述的访问标识索引库生成方法,其特征在于,当访问标识权值衰减为零时,删除该访问标识。
20、根据权利要求8所述的访问标识索引库生成方法,其特征在于,步骤4之后进一步包括:
步骤5、生成展现内容访问标识索引数据。
21、根据权利要求20所述的访问标识索引库生成方法,其特征在于,步骤5之后进一步包括:
步骤6、生成访问标识展现内容索引数据。
22、根据权利要求20所述的访问标识索引库生成方法,其特征在于,步骤5具体包括:
步骤51、对每一个展现内容,从展现内容关键词索引库中取出该展现内容对应的所有关键词;
步骤52、对每一个关键词去查找索引数据库,得到一组与该关键词关联的访问标识列;
步骤53、将多组访问标识列表加权合并,得到该展现内容的关联访问标识集合,生成并保存的展现内容访问标识索引数据。
23、根据权利要求21所述的访问标识索引库生成方法,其特征在于,步骤6具体包括:
步骤61、建立一个访问标识列表;
步骤62、对于展现内容访问标识索引库中展现内容关联的每一个访问标识判断是否存在访问标识列表中,是则执行步骤63,否则执行步骤64;
步骤63、将所述展现内容加入到所述访问标识的关联展现内容列表尾,执行步骤65;
步骤64、在所述访问标识列表中加入所述访问标识,将所述访问的初始关联展示内容列表位置所述展示内容,执行步骤65;
步骤65、判断展现内容访问标识索引库模块中是否还有未处理的展现内容的,是则执行步骤61,否则储存所述访问标识列表为访问标识展现内容索引数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2006100985935A CN100442290C (zh) | 2006-07-12 | 2006-07-12 | 访问标识索引系统及访问标识索引库生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2006100985935A CN100442290C (zh) | 2006-07-12 | 2006-07-12 | 访问标识索引系统及访问标识索引库生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1877583A true CN1877583A (zh) | 2006-12-13 |
CN100442290C CN100442290C (zh) | 2008-12-10 |
Family
ID=37510015
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB2006100985935A Active CN100442290C (zh) | 2006-07-12 | 2006-07-12 | 访问标识索引系统及访问标识索引库生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN100442290C (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101188521B (zh) * | 2007-12-05 | 2010-07-14 | 北京金山软件有限公司 | 一种挖掘用户行为数据的方法和网站服务器 |
CN101996246A (zh) * | 2010-11-09 | 2011-03-30 | 中国电信股份有限公司 | 即时索引方法及系统 |
CN102339315A (zh) * | 2011-09-30 | 2012-02-01 | 亿赞普(北京)科技有限公司 | 一种广告数据的索引更新方法和系统 |
CN101667179B (zh) * | 2008-09-03 | 2012-08-15 | 华为技术有限公司 | 移动搜索方法及其系统、搜索服务器同步元索引的方法 |
CN101681496B (zh) * | 2008-03-24 | 2012-09-05 | 株式会社Log | 用于产生单个访问者对万维网站的访问统计数据的方法 |
CN101408882B (zh) * | 2008-08-05 | 2012-10-31 | 北大方正集团有限公司 | 一种授权文档的检索方法和系统 |
CN103150365A (zh) * | 2013-03-05 | 2013-06-12 | 交通银行股份有限公司 | 银行后台系统模糊搜索的方法及设备 |
CN103164534A (zh) * | 2013-04-11 | 2013-06-19 | 苏州阔地网络科技有限公司 | 一种基于云教育平台的数据搜索方法及系统 |
CN103840969A (zh) * | 2014-01-20 | 2014-06-04 | 浪潮(北京)电子信息产业有限公司 | 云计算系统中告警日志的管理方法和系统 |
CN104657387A (zh) * | 2013-11-22 | 2015-05-27 | 华为技术有限公司 | 一种数据查询方法及装置 |
CN104679768A (zh) * | 2013-11-29 | 2015-06-03 | 百度在线网络技术(北京)有限公司 | 从文档中提取关键词的方法和设备 |
CN105045684A (zh) * | 2015-07-16 | 2015-11-11 | 北京京东尚科信息技术有限公司 | 索引切换和索引控制的方法及装置 |
CN105608204A (zh) * | 2015-12-25 | 2016-05-25 | 北京奇虎科技有限公司 | 增量式索引列表的生成方法及装置 |
CN107451176A (zh) * | 2016-05-30 | 2017-12-08 | 恩芬森株式会社 | 数据复制方法及其装置 |
CN108563706A (zh) * | 2018-03-27 | 2018-09-21 | 昆山和君纵达数据科技有限公司 | 一种催收大数据智能服务系统及其运行方法 |
CN109302297A (zh) * | 2017-07-25 | 2019-02-01 | 中国电信股份有限公司 | 网络访问记录的处理方法、装置和计算机可读存储介质 |
CN114942908A (zh) * | 2022-07-19 | 2022-08-26 | 阿里巴巴(中国)有限公司 | 索引系统、数据处理方法、电子设备及介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20000072482A (ko) * | 2000-09-06 | 2000-12-05 | 이재학 | 이용자의 검색을 용이하게 하는 인터넷 검색 시스템 및 그방법 |
US20040243704A1 (en) * | 2003-04-14 | 2004-12-02 | Alfredo Botelho | System and method for determining the unique web users and calculating the reach, frequency and effective reach of user web access |
KR100458460B1 (ko) * | 2003-04-22 | 2004-11-26 | 엔에이치엔(주) | 인터넷 사용자의 접속 의도를 이용한 인터넷 상의 광고유치 및 광고 제공 방법과 그 시스템 |
-
2006
- 2006-07-12 CN CNB2006100985935A patent/CN100442290C/zh active Active
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101188521B (zh) * | 2007-12-05 | 2010-07-14 | 北京金山软件有限公司 | 一种挖掘用户行为数据的方法和网站服务器 |
CN101681496B (zh) * | 2008-03-24 | 2012-09-05 | 株式会社Log | 用于产生单个访问者对万维网站的访问统计数据的方法 |
CN101408882B (zh) * | 2008-08-05 | 2012-10-31 | 北大方正集团有限公司 | 一种授权文档的检索方法和系统 |
CN101667179B (zh) * | 2008-09-03 | 2012-08-15 | 华为技术有限公司 | 移动搜索方法及其系统、搜索服务器同步元索引的方法 |
CN101996246B (zh) * | 2010-11-09 | 2012-11-14 | 中国电信股份有限公司 | 即时索引方法及系统 |
CN101996246A (zh) * | 2010-11-09 | 2011-03-30 | 中国电信股份有限公司 | 即时索引方法及系统 |
CN102339315A (zh) * | 2011-09-30 | 2012-02-01 | 亿赞普(北京)科技有限公司 | 一种广告数据的索引更新方法和系统 |
CN102339315B (zh) * | 2011-09-30 | 2014-11-19 | 亿赞普(北京)科技有限公司 | 一种广告数据的索引更新方法和系统 |
CN103150365B (zh) * | 2013-03-05 | 2016-12-07 | 交通银行股份有限公司 | 银行后台系统模糊搜索的方法及设备 |
CN103150365A (zh) * | 2013-03-05 | 2013-06-12 | 交通银行股份有限公司 | 银行后台系统模糊搜索的方法及设备 |
CN103164534A (zh) * | 2013-04-11 | 2013-06-19 | 苏州阔地网络科技有限公司 | 一种基于云教育平台的数据搜索方法及系统 |
CN104657387B (zh) * | 2013-11-22 | 2019-02-05 | 华为技术有限公司 | 一种数据查询方法及装置 |
CN104657387A (zh) * | 2013-11-22 | 2015-05-27 | 华为技术有限公司 | 一种数据查询方法及装置 |
CN104679768A (zh) * | 2013-11-29 | 2015-06-03 | 百度在线网络技术(北京)有限公司 | 从文档中提取关键词的方法和设备 |
CN104679768B (zh) * | 2013-11-29 | 2019-08-09 | 百度在线网络技术(北京)有限公司 | 从文档中提取关键词的方法和设备 |
CN103840969A (zh) * | 2014-01-20 | 2014-06-04 | 浪潮(北京)电子信息产业有限公司 | 云计算系统中告警日志的管理方法和系统 |
CN105045684A (zh) * | 2015-07-16 | 2015-11-11 | 北京京东尚科信息技术有限公司 | 索引切换和索引控制的方法及装置 |
CN105045684B (zh) * | 2015-07-16 | 2018-06-15 | 北京京东尚科信息技术有限公司 | 索引切换和索引控制的方法及装置 |
CN105608204A (zh) * | 2015-12-25 | 2016-05-25 | 北京奇虎科技有限公司 | 增量式索引列表的生成方法及装置 |
CN107451176A (zh) * | 2016-05-30 | 2017-12-08 | 恩芬森株式会社 | 数据复制方法及其装置 |
CN107451176B (zh) * | 2016-05-30 | 2021-06-18 | 马赫贝斯公司 | 数据复制方法及其装置 |
CN109302297A (zh) * | 2017-07-25 | 2019-02-01 | 中国电信股份有限公司 | 网络访问记录的处理方法、装置和计算机可读存储介质 |
CN109302297B (zh) * | 2017-07-25 | 2022-03-29 | 中国电信股份有限公司 | 网络访问记录的处理方法、装置和计算机可读存储介质 |
CN108563706A (zh) * | 2018-03-27 | 2018-09-21 | 昆山和君纵达数据科技有限公司 | 一种催收大数据智能服务系统及其运行方法 |
CN114942908A (zh) * | 2022-07-19 | 2022-08-26 | 阿里巴巴(中国)有限公司 | 索引系统、数据处理方法、电子设备及介质 |
CN114942908B (zh) * | 2022-07-19 | 2023-01-17 | 阿里巴巴(中国)有限公司 | 索引系统、数据处理方法、电子设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN100442290C (zh) | 2008-12-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1877583A (zh) | 访问标识索引系统及访问标识索引库生成方法 | |
CN1253821C (zh) | 基于语言模型的信息检索方法 | |
CN1877582A (zh) | 广告信息检索系统及广告信息检索方法 | |
CN1096038C (zh) | 基于贝叶斯网络的用于文件检索的方法和设备 | |
CN1959674A (zh) | 网络搜索方法、网络搜索设备和用户终端 | |
CN1871603A (zh) | 处理查询的系统和方法 | |
US8374975B1 (en) | Clustering to spread comments to other documents | |
CN1609859A (zh) | 搜索结果聚类的方法 | |
CN101046804A (zh) | 文件系统中搜索排序的方法及相关搜索引擎 | |
CN1573923A (zh) | 用于用户模型化以增强对命名实体识别的系统和方法 | |
CN1791022A (zh) | 一种日志分析方法和系统 | |
CN101051323A (zh) | 一种字符输入的方法、输入法系统及词库更新的方法 | |
CN1811757A (zh) | 用于定位万维网页以及计算机网络文件的系统和方法 | |
CN1667609A (zh) | 文档信息管理系统和文档信息管理方法 | |
CN101044478A (zh) | 分析查询日志以用于管理类别特定的电子内容 | |
CN1750002A (zh) | 提供搜索结果的方法 | |
CN1940915A (zh) | 训练语料扩充系统和方法 | |
CN1622086A (zh) | 在计算机网络中搜索 | |
CN1882943A (zh) | 使用超单元的搜索处理的系统和方法 | |
WO2014193439A1 (en) | Application installation from search results | |
CN1559044A (zh) | 信息解析方法以及装置 | |
CN1926564A (zh) | 在广告系统中确定和/或使用终端用户本地时间信息 | |
CN1629833A (zh) | 实现问与答功能和计算机辅助写作的方法及装置 | |
CN1932816A (zh) | 基于密文的全文检索系统 | |
CN1403964A (zh) | 书签管理系统和书签管理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |