CN102831224B - 一种数据索引库的建立方法、搜索建议生成方法和装置 - Google Patents

一种数据索引库的建立方法、搜索建议生成方法和装置 Download PDF

Info

Publication number
CN102831224B
CN102831224B CN201210306727.3A CN201210306727A CN102831224B CN 102831224 B CN102831224 B CN 102831224B CN 201210306727 A CN201210306727 A CN 201210306727A CN 102831224 B CN102831224 B CN 102831224B
Authority
CN
China
Prior art keywords
data
pending
prefix segment
current
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210306727.3A
Other languages
English (en)
Other versions
CN102831224A (zh
Inventor
徐旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201210306727.3A priority Critical patent/CN102831224B/zh
Publication of CN102831224A publication Critical patent/CN102831224A/zh
Application granted granted Critical
Publication of CN102831224B publication Critical patent/CN102831224B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种数据索引库的建立方法、搜索建议生成方法和装置,所述建立方法包括:对所有待处理数据进行排序,形成待处理数据列表;从所述待处理数据列表中逐一读取数据作为当前数据,确定所述当前数据记录的前缀片段的偏移量,从当前数据所记录的偏移量开始,逐次增加字符数地获取所述当前数据的前缀片段,利用每次获取的当前前缀片段,从所述待处理数据列表中获取所有具有相同前缀片段的数据,建立键值为所述当前前缀片段的索引,直至获取完所述当前数据的所有前缀片段,建立键值为对应前缀片段的索引。相较于现有技术,本发明能够降低建库时的内存使用量,减少I/O读写操作,降低了数据索引库的建库时间,提高了搜索建议服务的时效性。

Description

一种数据索引库的建立方法、搜索建议生成方法和装置
【技术领域】
本发明涉及互联网信息处理技术领域,特别涉及一种数据索引库的建立方法、搜索建议生成方法和装置。
【背景技术】
索引是对数据库表中一列或多列的值进行排序的一种结构,使用索引可快速访问数据库表中的特定信息,可以实现大量数据的存储和检索。一般来说,一条索引(或称为一条索引拉链)的结构主要包括索引的键值(key)和索引数据。索引结构的好坏会直接影响搜索引擎的检索速度,搜索引擎根据用户输入的关键词,在索引库中查找出与该些关键词相匹配的索引键值,并提取对应的索引数据作为相关搜索结果返回给用户。
现有的搜索引擎(如地图搜索、网页搜索等等)已经发展到智能化及个性化的阶段,通常在用户输入查询词时,搜索引擎会智能地猜测用户的搜索需求,提供相关的搜索建议(suggestion)供给用户做选择,提供便捷的服务,缩短用户输入用时,同时可在用户输入错误信息时提供正确的信息予以纠正,可带来很好的用户体验。在提供搜索建议时,大多也是采用索引结构的方式,将键值能与用户输入的查询词相匹配的索引数据作为搜索建议提供给用户。
目前的地图搜索建议索引库通常采用哈希(hash)方式进行,将地图兴趣点(pointofinterest,POI)数据的前缀片段作为索引拉链的键值,插入到哈希字典中,当发现有相同的前缀片段时,会到该哈希字典中查找对应的键值,然后找到索引拉链,将此兴趣点数据的信息加到这条索引拉链上,这样持续查找完成索引建库过程。
然而,由于这种采用哈希字典查找的建库方式,在每一次有新的数据需要插入时,都要将哈希字典中的所有数据存放于机器内存中。当地图数据量较大,无法将全部数据存放于机器内存中时,只能将数据存放在硬盘上来进行建库,这样,势必会存在较频繁的I/O读写操作,从而导致建库速度很慢,响应速度随着索引规模的扩大而逐渐下降,降低了搜索建议服务的时效性。
【发明内容】
有鉴于此,本发明提供了一种数据索引库的建立方法、搜索建议生成方法和装置,能够降低建库时的内存使用量,减少I/O读写操作,降低了数据索引库的建库时间,提高了搜索建议服务的时效性。
具体技术方案如下:
一种数据索引库的建立方法,该方法包括:
对所有待处理数据进行排序,形成待处理数据列表,对所述待处理数据列表中的数据分别执行以下步骤:
S1、从所述待处理数据列表中读取一条数据作为当前数据,确定所述当前数据记录的前缀片段的偏移量;
S2、从所述当前数据所记录的偏移量开始,逐次增加字符数地获取所述当前数据的前缀片段,利用每次获取的当前前缀片段,从所述待处理数据列表中获取所有具有相同前缀片段的数据,建立键值为所述当前前缀片段的索引,并记录该些数据具有相同前缀片段的偏移量;重复本步骤直到获取完所述当前数据的所有前缀片段。
根据本发明一优选实施例,所述对所有待处理数据进行排序按照数据名称的字母或数字顺序。
根据本发明一优选实施例,所述从待处理数据列表中读取一条数据作为当前数据,包括:
将所述待处理数据列表中首字符相同的数据作为同一处理批数据,依次读取各个处理批数据,从所读取的处理批数据中读取一条数据作为当前数据。
根据本发明一优选实施例,所述对所有待处理数据进行排序,形成待处理数据列表,包括:
将所有待处理数据分成多份互不冗余的待处理数据;
对每一份待处理数据按照字母或数字顺序进行排序,形成对应的待处理数据列表。
根据本发明一优选实施例,该方法还包括:
将每一份待处理数据经过步骤S1至S2所建立的索引汇总,并将键值相同的数据归并到对应键值的索引下,生成数据索引库。
一种搜索建议生成方法,该方法包括:
预先利用本发明提供的数据索引库建立方法建立的数据索引库;
接收用户输入的搜索词;
以所接收的搜索词作为前缀片段,从所述数据索引库中查找出键值为该前缀片段的数据;
根据数据的权值对所查找到的数据进行排序,生成搜索建议推荐给用户。
一种数据索引库的建立装置,该装置包括:
排序模块,用于对所有待处理数据进行排序,形成待处理数据列表;
数据读取模块,用于从所述待处理数据列表中逐一读取数据作为当前数据,确定所述当前数据记录的前缀片段的偏移量,将所读取的当前数据提供给后续的前缀片段获取模块;
前缀片段获取模块,用于从所述当前数据所记录的偏移量开始,逐次增加字符数地获取所述当前数据的前缀片段,将每次获取到的当前前缀片段提供给后续的索引建立模块,直至获取完所述当前数据的所有前缀片段;
索引建立模块,用于利用所述前缀片段获取模块获取的当前前缀片段,从所述待处理数据列表中获取所有具有相同前缀片段的数据,建立键值为所述当前前缀片段的索引;
偏移量记录模块,用于在所述索引建立模块获取到所有具有相同前缀片段的数据之后,记录该些数据具有相同前缀片段的偏移量,保存在对应数据中,以提供给所述数据读取模块。
根据本发明一优选实施例,所述排序模块按照数据名称的字母或数字顺序对所有待处理数据进行排序。
根据本发明一优选实施例,所述数据读取模块具体配置包括:
将所述待处理数据列表中首字符相同的数据作为同一处理批数据,依次读取各个处理批数据,从所读取的处理批数据中逐一读取数据作为当前数据,提供给所述前缀片段获取模块。
根据本发明一优选实施例,该装置还包括:
数据切分模块,用于将所有待处理数据分成多份互不冗余的待处理数据;
所述排序模块对每一份待处理数据按照字母或数字顺序进行排序,形成对应的待处理数据列表。
根据本发明一优选实施例,该装置还包括:
汇总模块,用于对由所述每一份待处理数据所建立的索引进行汇总,并将键值相同的数据归并到对应键值的索引下,生成数据索引库。
一种搜索建议生成装置,包括:本发明提供的数据索引库建立装置;
接收模块,用于接收用户输入的搜索词;
查询模块,用于以所述接收模块接收的搜索词作为前缀片段,从所述数据索引库建立装置建立的数据索引库中查找出键值为该前缀片段的数据;
搜索建议生成模块,用于根据数据的权值对所查找到的数据进行排序,生成搜索建议推荐给用户。
由以上技术方案可以看出,本发明提供的数据索引库的建立方法、搜索建议生成方法和装置,能够一次连续完成同一个前缀片段的索引拉链的建立,将待处理数据分次读入到内存,降低建库时的内存使用量,减少I/O读写操作,提高建库的效率和性能,减少了数据索引库的建库时间,可提高了搜索建议服务的时效性。
【附图说明】
图1为本发明实施例一提供的数据索引库的建立方法流程图;
图2为本发明实施例一提供的数据索引库的建立方法的具体流程图;
图3为本发明实施例二提供的数据索引库的建立方法流程图;
图4为本发明实施例三提供的搜索建议生成方法流程图;
图5为本发明实施例四提供的数据索引库的建立装置示意图;
图6为本发明实施例五提供的数据索引库的建立装置示意图;
图7为本发明实施例六提供的搜索建议生成装置示意图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
搜索引擎的搜索建议(suggestion)服务中提供显示的数据主要包括:电子地图中的兴趣点数据(POI),或者是一些热门搜索词(query),即用户输入的频次大于预设阈值的搜索词。在用户进行地理位置搜索时,通常会在搜索引擎中输入兴趣点名称的关键词来进行检索,而搜索引擎则是根据用户已输入的关键词词项进行匹配。因而,本发明主要以该些数据为例,对数据索引库的建立方法加以说明。
在电子地图数据中,各个兴趣点都包括名称、邮编、电话号码、地址等一系列详细的数据信息,将这些数据采用链表或数组等形式进行存储,每条数据都采用对应的数据名称作为数据键值来进行标识,即采用多级索引的方式。本发明利用待建库数据的数据名称建立搜索建议的数据索引库。
实施例一
图1是本实施例提供的数据索引库的建立方法流程图,如图1所示,该方法包括:
步骤S101、对所有待处理数据进行排序,形成待处理数据列表,对所述待处理数据列表中的数据分别执行步骤S102和步骤S103。
待处理数据包括地图的兴趣点数据或者用户输入的频次大于预设阈值的搜索词。对于这些待处理数据先进行排序,与现有的字典编排的顺序相类似,按照数据名称的字母、数字或笔划等顺序对所有待处理数据进行排序,形成待处理数据列表。
具体地,对于数据名称为汉字的数据,则可以采用拼音的字母顺序进行排序,对于同音字可以利用笔划或音调进一步确定先后顺序。对于数字名称的数据采用数字顺序进行排序;对于英文的数据采用字母顺序进行排序;对于其他语言文字的数据,同样采用语言本身默认的顺序进行排序。
步骤S102、从所述待处理数据列表中读取一条数据作为当前数据,确定所述当前数据记录的前缀片段的偏移量。
步骤S103、从所述当前数据所记录的偏移量开始,逐次增加字符数地获取所述当前数据的前缀片段,利用每次获取到的当前前缀片段,从所述待处理数据列表中获取所有具有相同前缀片段的数据,建立键值为所述当前前缀片段的索引,并记录该些数据具有相同前缀片段的偏移量;重复本步骤直至获取完所述当前数据的所有前缀片段,建立键值为对应前缀片段的索引。
在初始状态时,可以将所有待处理数据的偏移量默认设置为零或为空。
逐次增加字符数地获取所述当前数据的前缀片段具体为:当确定偏移量为零或为空时,则获取第(0+1)个前缀片段;如果确定偏移量为N,N为预设正整数,则获取第(N+1)个前缀片段。
当获取第一条待处理数据时,可以确定该数据所记录的偏移量为零或为空,则获取该数据的第一个前缀片段。
相同前缀片段的数据是指以相同的字符开头的数据,例如,“北京”和“北方”具有相同前缀片段“北”。
步骤S104、判断是否遍历完所述待处理列表中的所有数据,如果是,则结束流程,否则返回步骤S102继续获取下一条数据进行处理。
下面举个例子,以“清华大学”、“清华大学西门”、“清华大学东门”、“清华东路”、“清华西路”、“清华园”、“清琴路”、“清林路”、“清林东路”这几条待建库的数据为例,对本实施例的处理流程加以说明。
先对所有的待处理数据进行排序,按照拼音的字母顺序得到“清华大学”、“清华大学东门”、“清华大学西门”、“清华西路”、“清华园”、“清林东路”、“清林路”、“清琴路”的待处理数据列表。
从待处理数据列表中逐一读取数据,读取第一条数据“清华大学”作为当前数据,获取第一个前缀片段“清”,从待处理数据列表中获取具有相同前缀片段“清”的数据,包括“清华大学”、“清华大学东门”、“清华大学西门”、“清华西路”、“清华园”、“清林东路”、“清林路”、“清琴路”,归类到“清”的索引下,建立键值为该前缀片段“清”的索引拉链。记录这些具有相同前缀片段的数据的偏移量,记为1。
获取当前数据“清华大学”的第二个前缀片段“清华”,从待处理数据列表中获取具有该相同前缀片段“清华”的数据,包括“清华大学”、“清华大学东门”、“清华大学西门”、“清华西路”、“清华园”,归类到“清华”的索引下,建立键值为该前缀片段“清华”的索引拉链。记录这些具有相同前缀片段的数据的偏移量,记为2。
获取当前数据“清华大学”的第三个前缀片段“清华大”,从待处理数据列表中获取具有该相同前缀片段“清华大”的数据,包括“清华大学”、“清华大学东门”、“清华大学西门”,归类到“清华大”的索引下,建立键值为该前缀片段“清华大”的索引拉链。记录这些具有相同前缀片段的数据的偏移量,记为3。
获取当前数据“清华大学”的第四个前缀片段“清华大学”,从待处理数据列表中获取具有该相同前缀片段“清华大学”的数据,包括“清华大学”、“清华大学东门”、“清华大学西门”,归类到“清华大学”的索引下,建立键值为该前缀片段“清华大学”的索引拉链。记录这些具有相同前缀片段的数据的偏移量,记为4。
至此,完成了当前数据“清华大学”中所有前缀片段的索引的建立过程。
获取下一条数据“清华大学东门”作为当前数据。判断到该当前数据“清华大学东门”记录的偏移量为4,则表明该数据的前四个前缀片段对应的索引已经建立好,从偏移量开始逐次增加字符数地获取前缀片段,即获取当前数据的第五个前缀片段“清华大学东”,同样地,从待处理数据列表中获取具有相同前缀片段“清华大学东”的数据,包括“清华大学东门”一条数据,归类到“清华大学东门”的索引下,建立键值为该前缀片段“清华大学东”的索引拉链。记录这些具有相同前缀片段的数据的偏移量,记为5。
依此类推,直到获取完当前数据的所有前缀片段时,再获取下一条待处理数据,直至遍历完所有待处理数据,建立对应的数据索引库。
待处理数据经过步骤S102至S104的处理后所建立的数据索引库包括大量的索引拉链,每一条索引拉链对应一个键值(key)和对应的一条或多条数据(value)。其中,搜索建议索引库的数据(value)采用对应的数据名称来表示,可以指引到地图数据库中对应的数据项,每项具体包括名称、邮编、电话号码、地址和空间坐标等信息。
值得一提的是,为了减少一次读入到内存中的数据量,步骤S102中还可以对所述待处理数据分批进行读取,具体包括:
将所述待处理数据列表中首字符相同的数据作为同一处理批数据,依次读取各个处理批数据,从所读取的处理批数据中逐一读取数据作为当前数据。
图2是本实施例提供的数据索引库建立方法的具体流程图,如图2所示,本实施例分批处理的具体流程可以为:
步骤S201、对所有待处理数据按照字母顺序进行排序,形成待处理数据列表。
步骤S202、将所述待处理数据列表中首字符相同的数据归于同一文件中。
将首字符相同的数据按顺序存放于同一文件中,作为同一处理批数据。所述文件可以是保存好的文件,也可以是在读入内存之前生成的临时文件。
步骤S203、依顺序读入一个文件作为当前文件,从所述当前文件中逐一读取数据作为当前数据。
步骤S204、获取所述当前数据的第一个前缀片段。
步骤S205、利用所获取的当前前缀片段,从所述待处理数据列表中获取所有具有相同前缀片段的数据,建立键值为所述当前前缀片段的索引。
步骤S206、记录该些数据具有相同前缀片段的偏移量。
步骤S207、判断所述当前数据是否还有未处理的前缀片段,如果是,则进入步骤S208,获取所述当前数据的下一个前缀片段,并返回至步骤S205,否则进入步骤S209,判断所述当前文件是否还有未处理的数据,如果是,则进入步骤S210,否则,进入步骤S213。
步骤S210、获取所述当前文件的下一条数据。
步骤S211、判断所述当前数据所记录的偏移量是否为零或为空,如果是,则进入步骤S204,否则进入步骤S212,从所记录的偏移量开始获取所述当前数据的前缀片段,从而继续执行步骤S205。
步骤S213、判断是否还有未处理的文件,如果是,则继续读入下一个文件作为当前文件,否则,结束流程,完成数据索引库的建立。
这样分批读取待处理数据,可以减少一次性需要读入到内存中的数据量,相比现有技术针对每一条数据都需要读入全部的数据量,可以提高处理速度,同时避免无法全部读入造成建库数据不准确的问题。而且本发明针对同一次读入到内存中的数据,可以一次性连续地完成该些数据中包含的前缀片段的索引,相比现有一次仅完成一条数据的索引建库,可以减少数据在硬盘与内存之间传输,避免频繁的I/O读写操作,可以提高建库的速度。
实施例二
图3是本实施例提供的数据索引库的建立方法流程图,如图3所示,该方法包括:
步骤S301、将所有待处理数据分成多份互不冗余的待处理数据。
对所有待处理数据需先进行去重处理,避免不必要的重复操作,然后随机或按顺序分成多份互补冗余的待处理数据,分配到各处理设备上进行处理。
例如,将“清华大学”、“清华大学西门”、“清华大学东门”、“清华东路”、“清华西路”、“清华园”、“清琴路”、“清林路”、“清林东路”去重后随机切分成A和B两份,其中,A包括“清华大学”、“清华大学西门”、“清琴路”、“清林路”、“清林东路”,B包括“清华大学东门”、“清华东路”、“清华西路”、“清华园”。将A和B分配到两台处理设备上进行处理。
步骤S302、对每一份待处理数据按照字母顺序进行排序,形成对应的待处理数据列表。
步骤S303、从所述待处理数据列表中逐一读取数据作为当前数据,确定所述当前数据记录的前缀片段的偏移量。
步骤S304、从当前数据所记录的偏移量开始逐次增加字符数地获取所述当前数据的前缀片段。
步骤S305、利用所获取的当前前缀片段,从所述待处理数据列表中获取所有具有相同前缀片段的数据,建立键值为所述当前前缀片段的索引。
步骤S306、记录该些数据具有相同前缀片段的偏移量。
上述步骤S302至步骤S306与实施例一中步骤S101至步骤S 104相同,于此不再赘述。
步骤S307、判断所述当前数据是否还有未处理的前缀片段,如果是,则返回至步骤S304,继续获取下一个前缀片段进行处理,否则,进入步骤S308。
步骤S308、判断待处理列表中是否还有未处理的待处理数据,如果是,则返回至步骤S303,继续读取下一条数据作为当前数据进行处理,否则,进入步骤S309。
步骤S309、将每一份待处理数据建立的索引汇总,并将键值相同的数据归并到对应键值的索引下,生成数据索引库。
将分布在不同计算机上完成的建库结果进行汇总,生成数据索引库。
例如,经过步骤S302至步骤S308的处理后,从A中可以得到键值为“清华”的索引包括的数据有“清华大学”、“清华大学西门”,从B中得到键值为“清华”的索引包括的数据有“清华大学东门”、“清华东路”、“清华西路”、“清华园”。将键值相同的数据归并到对应键值的索引,合并得到最后“清华”的索引包括数据“清华大学”、“清华大学西门”、“清华大学东门”、“清华东路”、“清华西路”、“清华园”。以此类推,对于其他键值的索引,进行归并处理,构成数据索引库。
这种采用分布式计算的处理方式,可以提高单机处理的运行速度,也可以避免出现由于数据量庞大而无法全部内存中的情形。
实施例三
图4是本实施例提供的搜索建议生成方法流程图。如图4所示,该方法包括:
步骤S401、接收用户输入的搜索词。
逐字或逐词接收用户上屏操作输入的搜索词。例如,用户输入“清”、“清华”或“qing”等。
步骤S402、以所接收的搜索词作为前缀片段,从预先建立的数据索引库中查找出键值为该前缀片段的数据。
所述数据索引库是采用本发明提供的数据索引库的建立方法预先建立的。利用接收到的搜索词,从该数据索引库中查找到相匹配的数据。例如,当用户上屏输入“清”,则从数据索引库中查找到“清”这条索引,获取“清”下对应包含的所有数据。
步骤S403、根据数据的权值对所查找到的数据进行排序,生成搜索建议推荐给用户。
对于所得到的数据,根据其对应的数据权值进行排序。所述权值可以基于搜索频次、认知度或者用户行为等因素进行调节。最终,将排在前M条或者权值超过预设阈值的数据生成搜索建议推荐给用户。
这样,当用户输入“清”时,则可以提供如“清华西路”、“清华东路”、“清琴路”等搜索建议供用户选择,提升用户体验。
以上是对本发明所提供的方法进行的详细描述,下面对本发明提供的数据索引库的建立装置进行详细描述。
实施例四
图5是本实施例提供的数据索引库的建立装置示意图。如图5所示,该装置包括:
排序模块501,用于对所有待处理数据进行排序,形成待处理数据列表。
待处理数据包括地图的兴趣点数据或者用户输入的频次大于预设阈值的搜索词。排序模块501对于这些待处理数据先进行排序,与现有的字典编排的顺序相类似,按照数据名称的字母、数字或笔划等顺序对所有待处理数据进行排序,形成待处理数据列表。
具体地,对于数据名称为汉字的数据,则可以采用拼音的字母顺序进行排序,对于同音字可以利用笔划或音调进一步确定先后顺序。对于数字名称的数据采用数字顺序进行排序;对于英文的数据采用字母顺序进行排序;对于其他语言文字的数据,同样采用语言本身默认的顺序进行排序。
数据读取模块502,用于从所述待处理数据列表中逐一读取数据作为当前数据,确定所述当前数据记录的前缀片段的偏移量,将所读取的当前数据提供给后续的前缀片段获取模块503。
前缀片段获取模块503,用于从所述当前数据所记录的偏移量开始,逐次增加字符数地获取所述当前数据的前缀片段,将每次获取到的当前前缀片段提供给后续的索引建立模块504,直至获取完所述当前数据的所有前缀片段,建立键值为对应前缀片段的索引。
在初始状态时,可以将所有待处理数据的偏移量默认设置为零或为空。
逐次增加字符数地获取所述当前数据的前缀片段具体为:当确定偏移量为零或为空时,则获取第(0+1)个前缀片段;如果确定偏移量为N,N为预设正整数,则获取第(N+1)个前缀片段。
当获取第一条待处理数据时,可以确定该数据所记录的偏移量为零或为空,则获取该数据的第一个前缀片段,提供给后续的索引建立模块504。
索引建立模块504,用于利用前缀片段获取模块503所获取的当前前缀片段,从所述待处理数据列表中获取所有具有相同前缀片段的数据,建立键值为所述当前前缀片段的索引。
相同前缀片段的数据是指以相同的字符开头的数据,例如,“北京”和“北方”具有相同前缀片段“北”。
偏移量记录模块505,用于在所述索引建立模块504获取到所有具有相同前缀片段的数据之后,记录该些数据具有相同前缀片段的偏移量,保存在对应数据中,以提供给所述数据读取模块502。
下面举个例子,以“清华大学”、“清华大学西门”、“清华大学东门”、“清华东路”、“清华西路”、“清华园”、“清琴路”、“清林路”、“清林东路”这几条待建库的数据为例,对本实施例提供的装置的处理流程加以说明。
排序模块501先对所有的待处理数据进行排序,按照拼音的字母顺序得到“清华大学”、“清华大学东门”、“清华大学西门”、“清华西路”、“清华园”、“清林东路”、“清林路”、“清琴路”的待处理数据列表。
数据读取模块502从待处理数据列表中逐一读取数据,读取第一条数据“清华大学”作为当前数据,前缀片段获取模块503获取第一个前缀片段“清”,索引建立模块504从待处理数据列表中获取具有相同前缀片段“清”的数据,包括“清华大学”、“清华大学东门”、“清华大学西门”、“清华西路”、“清华园”、“清林东路”、“清林路”、“清琴路”,归类到“清”的索引下,建立键值为该前缀片段“清”的索引拉链。偏移量记录模块505记录这些具有相同前缀片段的数据的偏移量,记为1。
前缀片段获取模块503继续获取当前数据“清华大学”的第二个前缀片段“清华”,索引建立模块504从待处理数据列表中获取具有该相同前缀片段“清华”的数据,包括“清华大学”、“清华大学东门”、“清华大学西门”、“清华西路”、“清华园”,归类到“清华”的索引下,建立键值为该前缀片段“清华”的索引拉链。偏移量记录模块505记录这些具有相同前缀片段的数据的偏移量,记为2。
前缀片段获取模块503继续获取当前数据“清华大学”的第三个前缀片段“清华大”,索引建立模块504从待处理数据列表中获取具有该相同前缀片段“清华大”的数据,包括“清华大学”、“清华大学东门”、“清华大学西门”,归类到“清华大”的索引下,建立键值为该前缀片段“清华大”的索引拉链。偏移量记录模块505记录这些具有相同前缀片段的数据的偏移量,记为3。
前缀片段获取模块503继续获取当前数据“清华大学”的第四个前缀片段“清华大学”,索引建立模块504从待处理数据列表中获取具有该相同前缀片段“清华大学”的数据,包括“清华大学”、“清华大学东门”、“清华大学西门”,归类到“清华大学”的索引下,建立键值为该前缀片段“清华大学”的索引拉链。偏移量记录模块505记录这些具有相同前缀片段的数据的偏移量,记为4。
至此,完成了当前数据“清华大学”中所有前缀片段的索引的建立。
数据读取模块502获取下一条数据“清华大学东门”作为当前数据。判断到该当前数据“清华大学东门”记录的偏移量为4,则表明该数据的前四个前缀片段对应的索引已经建立好,前缀片段获取模块503从偏移量开始逐次增加字符数地获取前缀片段,即获取当前数据的第五个前缀片段“清华大学东”,同样地,索引建立模块504从待处理数据列表中获取具有相同前缀片段“清华大学东”的数据,包括“清华大学东门”一条数据,归类到“清华大学东门”的索引下,建立键值为该前缀片段“清华大学东”的索引拉链。偏移量记录模块505记录这些具有相同前缀片段的数据的偏移量,记为5。
依此类推,直到前缀片段获取模块503获取完当前数据的所有前缀片段时,数据读取模块502再获取下一条待处理数据,直至遍历完所有待处理数据,建立对应的数据索引库。
待处理数据经过上述模块的处理后,所建立的数据索引库包括大量的索引拉链,每一条索引拉链对应一个键值和对应的一条或多条数据。其中,搜索建议索引库的数据采用对应的数据名称来表示,可以指引到地图数据库中对应的数据项,每项具体包括名称、邮编、电话号码、地址和空间坐标等信息。
值得一提的是,为了减少一次读入到内存中的数据量,数据读取模块502的具体配置还可以包括:
将所述待处理数据列表中首字符相同的数据作为同一处理批数据,依次读取各个处理批数据,从所读取的处理批数据中逐一读取数据作为当前数据,提供给所述前缀片段获取模块503。
这样分批读取待处理数据,可以减少一次性需要读入到内存中的数据量,相比现有技术针对每一条数据都需要读入全部的数据量,可以提高处理速度,同时避免无法全部读入造成建库数据不准确的问题。而且本发明针对同一次读入到内存中的数据,可以一次性连续地完成该些数据中包含的前缀片段的索引,相比现有一次仅完成一条数据的索引建库,可以减少数据在硬盘与内存之间传输,避免频繁的I/O读写操作,可以提高建库的速度。
实施例五
图6是本实施例提供的数据索引库的建立装置示意图。如图6所示,该装置包括:
数据切分模块601,用于将所有待处理数据分成多份互不冗余的待处理数据。
数据切分模块601对所有待处理数据需先进行去重处理,避免不必要的重复操作,然后随机或按顺序分成多份互补冗余的待处理数据,分配到各处理设备上进行处理。
例如,将“清华大学”、“清华大学西门”、“清华大学东门”、“清华东路”、“清华西路”、“清华园”、“清琴路”、“清林路”、“清林东路”去重后随机切分成A和B两份,其中,A包括“清华大学”、“清华大学西门”、“清琴路”、“清林路”、“清林东路”,B包括“清华大学东门”、“清华东路”、“清华西路”、“清华园”。数据切分模块601将A和B分配到两台处理设备上进行处理。
排序模块602、对每一份待处理数据按照字母顺序进行排序,形成对应的待处理数据列表。
数据读取模块603,用于从所述待处理数据列表中逐一读取数据作为当前数据,确定所述当前数据记录的前缀片段的偏移量。
前缀片段获取模块604,用于从当前数据所记录的偏移量开始逐次增加字符数地获取所述当前数据的前缀片段。
索引建立模块605,用于利用所获取的当前前缀片段,从所述待处理数据列表中获取所有具有相同前缀片段的数据,建立键值为所述当前前缀片段的索引。
偏移量记录模块606,用于记录该些数据具有相同前缀片段的偏移量。
上述模块602至606与实施例四中模块501至505相同,于此不再赘述。
子控制模块607,用于判断所述当前数据是否还有未处理的前缀片段,如果是,则返回至前缀片段获取模块604,继续获取下一个前缀片段进行处理,否则,进入主控制模块608。
主控制模块608,用于判断待处理列表中是否还有未处理的待处理数据,如果是,则返回至数据读取模块603,继续读取下一条数据作为当前数据进行处理,否则,进入汇总模块609。
汇总模块609,用于将每一份待处理数据建立的索引汇总,并将键值相同的数据归并到对应键值的索引下,生成数据索引库。
汇总模块609将分布在不同计算机上完成的建库结果进行汇总,生成数据索引库。
例如,经过模块602至608的处理后,从A中可以得到键值为“清华”的索引包括的数据有“清华大学”、“清华大学西门”,从B中得到键值为“清华”的索引包括的数据有“清华大学东门”、“清华东路”、“清华西路”、“清华园”。将键值相同的数据归并到对应键值的索引,合并得到最后“清华”的索引包括数据“清华大学”、“清华大学西门”、“清华大学东门”、“清华东路”、“清华西路”、“清华园”。以此类推,对于其他键值的索引,进行归并处理,构成数据索引库。
这种采用分布式计算的处理方式,可以提高单机处理的运行速度,也可以避免出现由于数据量庞大而无法全部内存中的情形。
实施例六
图7是本实施例提供的搜索建议生成装置示意图。如图7所示,该装置包括:
接收模块701,用于接收用户输入的搜索词。
接收模块701逐字或逐词接收用户上屏操作输入的搜索词。例如,用户输入“清”、“清华”或“qing”等。
查询模块702,用于以所接收的搜索词作为前缀片段,从预先建立的数据索引库中查找出键值为该前缀片段的数据。
所述数据索引库是采用本发明提供的数据索引库的建立装置预先建立的。查询模块702利用接收到的搜索词,从该数据索引库中查找到相匹配的数据。例如,当用户上屏输入“清”,则从数据索引库中查找到“清”这条索引,获取“清”下对应包含的所有数据。
搜索建议生成模块703,用于根据数据的权值对所查找到的数据进行排序,生成搜索建议推荐给用户。
对于所得到的数据,根据其对应的数据权值进行排序。所述权值可以基于搜索频次、认知度或者用户行为等因素进行调节。最终,将排在前M条或者权值超过预设阈值的数据生成搜索建议推荐给用户。
这样,当用户输入“清”时,则可以提供如“清华西路”、“清华东路”、“清琴路”等搜索建议供用户选择,提升用户体验。
本发明提供的数据索引库的建立方法、搜索建议生成方法和装置,通过逐次对数据的前缀片段进行提取,并将相同前缀片段的数据归类到对应的索引下,一次可连续完成同一个前缀片段的索引拉链的建立,同时,可以将待处理数据分次读入到内存,降低建库时的内存使用量,减少I/O读写操作,提高建库的效率和性能,减少了数据索引库的建库时间,可提高了搜索建议服务的时效性。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (12)

1.一种数据索引库的建立方法,其特征在于,包括:
对所有待处理数据进行排序,形成待处理数据列表,对所述待处理数据列表中的数据分别执行以下步骤:
S1、从所述待处理数据列表中读取一条数据作为当前数据,确定所述当前数据记录的前缀片段的偏移量;
S2、从所述当前数据所记录的偏移量开始,逐次增加字符数地获取所述当前数据的前缀片段,利用每次获取的当前前缀片段,从所述待处理数据列表中获取所有具有相同前缀片段的数据,建立键值为所述当前前缀片段的索引,并记录该些数据具有相同前缀片段的偏移量;重复本步骤直到获取完所述当前数据的所有前缀片段。
2.根据权利要求1所述的方法,其特征在于,所述对所有待处理数据进行排序按照数据名称的字母或数字顺序。
3.根据权利要求1所述的方法,其特征在于,所述从所述待处理数据列表中读取一条数据作为当前数据,包括:
将所述待处理数据列表中首字符相同的数据作为同一处理批数据,依次读取各个处理批数据,从所读取的处理批数据中读取一条数据作为当前数据。
4.根据权利要求1所述的方法,其特征在于,所述对所有待处理数据进行排序,形成待处理数据列表,包括:
将所有待处理数据分成多份互不冗余的待处理数据;
对每一份待处理数据按照字母或数字顺序进行排序,形成对应的待处理数据列表。
5.根据权利要求4所述的方法,其特征在于,该方法还包括:
将每一份待处理数据经过步骤S1至S2所建立的索引汇总,并将键值相同的数据归并到对应键值的索引下,生成数据索引库。
6.一种搜索建议生成方法,其特征在于,包括:
预先利用如权利要求1至5任一权项所述的方法建立的数据索引库;
接收用户输入的搜索词;
以所接收的搜索词作为前缀片段,从所述数据索引库中查找出键值为该前缀片段的数据;
根据数据的权值对所查找到的数据进行排序,生成搜索建议推荐给用户。
7.一种数据索引库的建立装置,其特征在于,包括:
排序模块,用于对所有待处理数据进行排序,形成待处理数据列表;
数据读取模块,用于从所述待处理数据列表中逐一读取数据作为当前数据,确定所述当前数据记录的前缀片段的偏移量,将所读取的当前数据提供给后续的前缀片段获取模块;
前缀片段获取模块,用于从所述当前数据所记录的偏移量开始,逐次增加字符数地获取所述当前数据的前缀片段,将每次获取到的当前前缀片段提供给后续的索引建立模块,直至获取完所述当前数据的所有前缀片段;
索引建立模块,用于利用所述前缀片段获取模块获取的当前前缀片段,从所述待处理数据列表中获取所有具有相同前缀片段的数据,建立键值为所述当前前缀片段的索引;
偏移量记录模块,用于在所述索引建立模块获取到所有具有相同前缀片段的数据之后,记录该些数据具有相同前缀片段的偏移量,保存在对应数据中,以提供给所述数据读取模块。
8.根据权利要求7所述的装置,其特征在于,所述排序模块按照数据名称的字母或数字顺序对所有待处理数据进行排序。
9.根据权利要求7所述的装置,其特征在于,所述数据读取模块具体配置包括:
将所述待处理数据列表中首字符相同的数据作为同一处理批数据,依次读取各个处理批数据,从所读取的处理批数据中逐一读取数据作为当前数据,提供给所述前缀片段获取模块。
10.根据权利要求7所述的装置,其特征在于,该装置还包括:
数据切分模块,用于将所有待处理数据分成多份互不冗余的待处理数据;
所述排序模块对每一份待处理数据按照字母或数字顺序进行排序,形成对应的待处理数据列表。
11.根据权利要求10所述的装置,其特征在于,该装置还包括:
汇总模块,用于对由所述每一份待处理数据所建立的索引进行汇总,并将键值相同的数据归并到对应键值的索引下,生成数据索引库。
12.一种搜索建议生成装置,其特征在于,包括:
如权利要求7至11任一权项所述的数据索引库建立装置;
接收模块,用于接收用户输入的搜索词;
查询模块,用于以所述接收模块接收的搜索词作为前缀片段,从所述数据索引库建立装置建立的数据索引库中查找出键值为该前缀片段的数据;
搜索建议生成模块,用于根据数据的权值对所查找到的数据进行排序,生成搜索建议推荐给用户。
CN201210306727.3A 2012-08-24 2012-08-24 一种数据索引库的建立方法、搜索建议生成方法和装置 Active CN102831224B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210306727.3A CN102831224B (zh) 2012-08-24 2012-08-24 一种数据索引库的建立方法、搜索建议生成方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210306727.3A CN102831224B (zh) 2012-08-24 2012-08-24 一种数据索引库的建立方法、搜索建议生成方法和装置

Publications (2)

Publication Number Publication Date
CN102831224A CN102831224A (zh) 2012-12-19
CN102831224B true CN102831224B (zh) 2018-09-04

Family

ID=47334359

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210306727.3A Active CN102831224B (zh) 2012-08-24 2012-08-24 一种数据索引库的建立方法、搜索建议生成方法和装置

Country Status (1)

Country Link
CN (1) CN102831224B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239329B (zh) * 2013-06-18 2018-01-30 上海博泰悦臻电子设备制造有限公司 地图道路形状点数据的保存和加载方法及装置
CN104199541A (zh) * 2014-08-08 2014-12-10 乐视网信息技术(北京)股份有限公司 基于笔画输入进行搜索的方法及装置
CN105224828B (zh) * 2015-10-09 2017-10-27 人和未来生物科技(长沙)有限公司 一种基因序列片段快速定位用键值索引数据压缩方法
CN110019645B (zh) * 2017-09-28 2022-04-19 北京搜狗科技发展有限公司 索引库构建方法、搜索方法及装置
CN109388641B (zh) * 2018-10-22 2019-10-18 无锡华云数据技术服务有限公司 一种检索键值数据库中键的共同前缀的方法、设备、介质
CN110083601B (zh) * 2019-04-04 2021-11-30 中国科学院计算技术研究所 面向键值存储系统的索引树构建方法及系统
CN110348940A (zh) * 2019-05-28 2019-10-18 成都美美臣科技有限公司 一种电子商务网站搜索建议的方法
CN113239258B (zh) * 2021-05-19 2023-06-27 北京百度网讯科技有限公司 提供查询建议的方法、装置、电子设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101187941A (zh) * 2006-11-23 2008-05-28 三星电子株式会社 用于最优化索引搜索的方法和设备
CN101308030A (zh) * 2008-06-02 2008-11-19 凯立德欣技术(深圳)有限公司 一种汉字联想方法及使用了此方法的汉字联想装置
CN101572647A (zh) * 2008-04-30 2009-11-04 华为技术有限公司 一种数据查找的方法及装置
CN101577662A (zh) * 2008-05-05 2009-11-11 华为技术有限公司 一种基于树形数据结构的最长前缀匹配方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7269548B2 (en) * 2002-07-03 2007-09-11 Research In Motion Ltd System and method of creating and using compact linguistic data

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101187941A (zh) * 2006-11-23 2008-05-28 三星电子株式会社 用于最优化索引搜索的方法和设备
CN101572647A (zh) * 2008-04-30 2009-11-04 华为技术有限公司 一种数据查找的方法及装置
CN101577662A (zh) * 2008-05-05 2009-11-11 华为技术有限公司 一种基于树形数据结构的最长前缀匹配方法和装置
CN101308030A (zh) * 2008-06-02 2008-11-19 凯立德欣技术(深圳)有限公司 一种汉字联想方法及使用了此方法的汉字联想装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Efficient index compression in DB2 LUW;B Bhattacharjee etal;《Proceedings of the Vldb Endowment》;20091231;第1462-1473页 *
一种基于共享前缀的两级索引结构;喻波 等;《计算机工程与科学》;20101231;第32卷(第12期);第113-121页 *
一种基于前缀编码的查询算法;戴志强 等;《怀化学院学报》;20101130;第29卷(第11期);第71-74页 *

Also Published As

Publication number Publication date
CN102831224A (zh) 2012-12-19

Similar Documents

Publication Publication Date Title
CN102831224B (zh) 一种数据索引库的建立方法、搜索建议生成方法和装置
CN104123332B (zh) 搜索结果的显示方法及装置
CN103365925B (zh) 获取多音字拼音、基于拼音检索的方法及其相应装置
CN110399568B (zh) 信息搜索方法、装置、终端及存储介质
US20070244863A1 (en) Systems and methods for performing searches within vertical domains
NO314059B1 (no) Fremgangsmåte for strukturering og söking av informasjon
WO2014146550A1 (zh) 地图搜索的搜索建议方法、装置、计算机存储介质和设备
US20070244862A1 (en) Systems and methods for ranking vertical domains
JP2007148948A (ja) 文書検索プログラム
CN102542052A (zh) 优先散列索引
US9552398B1 (en) Presenting search query results
CN103914455B (zh) 一种兴趣点检索方法和装置
CN102819384A (zh) 一种输入栏处进行提示显示的方法和装置
KR101793578B1 (ko) 효율적으로 질의를 처리하는 방법 및 장치
CN105808737B (zh) 一种信息检索方法及服务器
CN102385597B (zh) 一种poi的容错搜索方法
CN103902626B (zh) 兴趣点检索方法、装置和带有该装置的设备
CN101436203B (zh) 一种记录索引方法及装置
WO2007120781A2 (en) Systems and methods for performing searches within vertical domains
KR100906809B1 (ko) 키워드 검색 방법
US10592573B1 (en) Interactively suggesting network location
KR101050400B1 (ko) 초성 검색용 인덱스 데이터베이스 장치, 이를 이용한 문자열 검색 시스템 및 방법
KR100931693B1 (ko) 키워드 검색 방법
US10909318B2 (en) Method for suggesting one or more multi-word candidates based on an input string received at an electronic device
JP2007011438A (ja) 絞り込み検索用インデクス構造及び情報検索装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant