CN101770499A - 搜索引擎中的信息检索方法及相应搜索引擎 - Google Patents
搜索引擎中的信息检索方法及相应搜索引擎 Download PDFInfo
- Publication number
- CN101770499A CN101770499A CN200910044984A CN200910044984A CN101770499A CN 101770499 A CN101770499 A CN 101770499A CN 200910044984 A CN200910044984 A CN 200910044984A CN 200910044984 A CN200910044984 A CN 200910044984A CN 101770499 A CN101770499 A CN 101770499A
- Authority
- CN
- China
- Prior art keywords
- keyword
- information
- word segmentation
- user
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
鉴于现有技术的上述现状,为了提高用户体验,本发明提供了一种在搜索引擎中的信息检索方法和相应搜索引擎,其中,基于用户输入的待检索信息,获得可映射关键词;根据所述可映射关键词和预存的映射信息,获得一个或多个映射结果关键词;根据所述一个或多个映射结果关键词进行检索,并将相应检索结果提供给所述用户。采用本发明提供的方法和装置,可以实现对用户的输入信息进行智能化地扩展,从而使得检索信息包括但不限于用户输入的待检索信息的直接检索结果,提升用户体验。
Description
技术领域
本发明涉及搜索引擎,尤其涉及在搜索引擎中的信息检索方法及相应的搜索引擎。
背景技术
在现有的广泛使用的搜索引擎之中,主要使用Lucene作为全文检索工具包,并使用庖丁解牛作为开源中文分词包,而在采用庖丁解牛时,存在如下的问题:
以视频内容的搜索为例。现有技术中的分词方式如表1所示:
表1:现有技术中的分词方式
输入信息 | 分词结果 |
西游记第1集 | 西游记/第/1/集 |
西游记第一集 | 西游记/第/一/集 |
其中,当用户输入“西游记+空格+第1集”进行检索时,搜索引擎对上述词汇的分词结果仅仅为西游记/第/1/集,而由此能够得到的检索结果也仅限于直接包含西游记/第/1/集这些分词结果的信息,如果一条信息以西游记/第/一/集为入口,则基于现有技术的检索方式,通过输入“西游记+空格+第1集”是无法找到这一信息的。
换而言之,现有技术中,无论用户输入怎样的关键词,搜索引擎都只会非常忠实地去执行,也即,仅限于使用用户输入的关键词进行直接检索。本文中所谓的直接检索,表示得到的搜索结果将一定包含所用的入口关键词的检索方式。
现有技术的上述不足所带来的最大一个问题是,如果用户想要得到对应于西游记/第/1/集、西游记/第/一/集、西游记/第/01/集、西游记/第/001/集等的信息,就需要分次进行检索,而且分次所得的检索结果不会同时显示,除非用户打开多个浏览器来进行上述操作,而这样不但看起来很不方便,而且多个浏览器窗口还无谓地占用了较多的系统资源。
发明内容
鉴于现有技术的上述现状,为了提高用户体验,本发明提出,在多个词之间建立映射关系,使得用户无论输入其中哪个词,都能够得到足够多的有用的信息,从而使得搜索引擎更为人性化,操作界面更为友好。
进一步地,本发明的目的还在于,以用户特征信息来影响上述映射关系,从而使得最终提供给用户的搜索结果更加智能化地贴近用户可能的需求。
根据本发明的第一方面,提供了一种在搜索引擎中的信息检索方法,其中,包括以下步骤:基于用户输入的待检索信息,获得可映射关键词;根据所述可映射关键词和预存的映射信息,获得一个或多个映射结果关键词;根据所述一个或多个映射结果关键词进行检索,并将相应检索结果提供给所述用户。
根据本发明的第二方面,提供了一种搜索引擎,其中,包括:第一获得装置,用于基于用户输入的待检索信息,获得可映射关键词;第二获得装置,用于根据所述可映射关键词和预存的映射信息,获得一个或多个映射结果关键词;检索提供装置,根据所述一个或多个映射结果关键词进行检索,并将相应检索结果提供给所述用户。
采用本发明提供的方法和装置,可以实现对用户的输入信息进行智能化地扩展,从而使得检索信息包括但不限于用户输入的待检索信息的直接检索结果,提升用户体验。
附图说明
通过阅读以下结合附图对非限定性实施例的描述,本发明的其它目的、特征和优点将变得更为明显和突出。
图1为用于实现本发明的系统简图;
图2为根据本发明的一个具体实施方式在搜索引擎中的信息检索方法流程图;
图3为根据本发明的一个具体实施方式在搜索引擎中的搜索引擎框图;
图4为根据本发明的一个具体实施例的检索结果截屏;
图5为根据本发明的一个优选实施例的在适用于媒体内容检索的搜索引擎中用于对用户输入的待检索信息进行分词的方法流程图;
图6为根据本发明的另一具体实施方式在搜索引擎中的信息检索方法流程图。
其中,相同或相似的附图标记表示相同或相似的步骤特征/装置(模块)。
具体实施方式
参看图1,其中,示出了一个用于实现本发明的系统,包括服务器1、用户终端2以及连接服务器1和用户终端2的互联网3。其中,本领域技术人员理解,图中为简明起见仅示出了一个用户终端2和一个服务器1,而在实际应用中,网络中往往存在多个服务器,其归属于一个或者多个不同的网站,而使用的搜索引擎也可以不尽相同,此外,每个服务器都可以服务多个用户终端。
下文中,不致混淆地,将使用用户设备2的用户简称为用户。
以下将结合图2、图3并参照图1对本发明的各方面进行详述。其中,图2示出了根据本发明的一个具体实施方式在搜索引擎中的信息检索方法流程图。而图3则为根据本发明的一个具体实施方式在搜索引擎中的信息检索器框图。
图2所示方法始于步骤S10,其中,用户设备2基于用户输入的待检索信息,获得可映射关键词。为更形象地描述步骤S10的这一过程,以图4所示为例介绍如下:
其中,服务器1用于实现图4所示的网站所需的搜索引擎。用户输入的待检索信息即显示于输入框40中的“士兵突击+空格+第1集”,下文中将不再区分“士兵突击+空格+第1集”和“士兵突击第1集”。
当用户点击输入栏40旁的按钮“搜索”后,“士兵突击第1集”即通过互联网3到达服务器1。
根据本例,服务器1处的信息检索器10(一般以软件形式实现)在步骤S10中对“士兵突击第1集”进行解析,不失一般性地,所述解析过程以单个汉字/阿拉伯数字/英文字母等为单位进行。
步骤S10的流程一般可以表示为:第一获得装置100中的分词装置根据预定分词规则对用户输入的待检索信息进行分词处理,得到一个或多个分词结果,继而由执行装置1002为得到的每个分词结果执行以下操作:
-基于该分词结果在一个可映射关键词库中进行检索,判断所述可映射关键词库中是否包含所述分词结果;
-如果所述可映射关键词库包含该分词结果,则将该分词结果作为一个所述可映射关键词。
其中,必要时还由合并装置1001对得到的分词结果进行合并,并将合并结果作为新的分词结果提供给执行装置1002,继而判断该等新的合并结果是否是一个可映射关键词。
本领域技术人员理解,步骤S10的实现方式有多种,以下举一例说明。
步骤S10的一个具体实现例如图5所示,其中,本发明将用户输入的待检索信息归为可映射关键词和/或其它关键词,可映射关键词如其中的“第1集”,其它关键词如“士兵突击”。当然,此种可映射、不可映射的划分仅限于本例,基于本发明的思想,“士兵突击”同样可以作为可映射关键词使用,例如,可以和其它军旅题材的影片一同互为相关词来组成一个集合,其思想在下文中将会提及。
先回到本例中,首先,在步骤S51中,判断用户输入的待检索信息中的第一个字符是否是“第”,由于字符“三”不符合该条件,因此进入步骤S52’,搜索引擎10收集“三”,并在步骤S56中判断是否存在下一个字符,如果是,则回到步骤S51继续判断,否则结束遍历,将当前收集到的信息作为分词的结果。
本例中,该方法回到步骤S51,判断“三”后的下一个字符“国”是否是“第”,并相应地进入S52’将“国”收集后,进入步骤S56再判断“国”之后是否有下一个字符。依此类推。
直至以“义”为对象执行了步骤S52’、S56后,“第”字终于成为了当前的字符。其中,本领域技术人员理解,空格会做为分隔符处理,空格本身不会成为分词结果的一部分,下文中对此不再赘述。
于是,步骤S51得到肯定的判断结果,流程进入步骤S52,判断“第”的后一个字符是否是“0”,而根据人们对序数词的惯常理解,“0”之前没有其他数字时,其没有实际的意义,因此,如果“第”之后紧跟着一至多个“0”,则这些“0”都可以被简单地忽略。正如图5所示的,步骤S52如果得到肯定的判断结果,则判断再下一个字符是否是“0”,如果仍得到肯定的判断结果,则判断再下一个字符,依此类推。
由于本例中“第”后面的字符是“1”,因此,进入步骤S53。其中,判断“1”是否是一个数字。显然结果是肯定的,因此,进入步骤S54将其收集起来,并将“1”的下一个字符作为新的针对对象,再执行步骤S53。
由于“1”的下一个字符“集”不是数字,因此步骤S53之后,该方法进入步骤S54’,其中,判断“1”的这个下一个字符是否是“集”,于是得到肯定的判断结果,进入步骤S55。
在步骤S55中,将之前在步骤S52’以及步骤S54中收集到的信息进行汇总,得到可映射关键词“第1集”和其它关键词“士兵突击”。
其后的步骤S56中,由于“集”后没有其它字符,步骤S10内部的流程至此结束。
本领域技术人员理解,图5所示的流程十分适用于带有数字尤其是序数的内容的检索。但是,本发明明显地不限于对带有数字的内容进行检索,因为,即使用户输入的待检索信息中没有数字,通过分词并结合关键词库进行判断,以及其间适当的分词结果合并,仍能够十分有效而便捷地由用户输入的待检索信息中划出可映射关键词和/或其它关键词。
当然,本领域技术人员理解,上述方案中由于以单字为分词单位,因此有时需要进行对分词结果的合并,如步骤S55中所作的那样。而在现有的或者今后可能出现的具有更为智能的分词方式的搜索引擎中,由于引擎能够弹性地确定分词的单位,上述的对分词结果进行合并以获得新的分词结果并判断是否为可映射关键词的过程将会较为少见。但这种使用弹性长度的分词单位的方式仍落入本发明权利要求书所限定的保护范围之内。
在图5所示的步骤S10的一个变化例中,用户仅输入了“士兵突击”,于是,可由分词装置1000对“士兵突击”进行分词(例如,以字符为单位的分词),而后结合预存的关键词库进行判断。鉴于本例中未将“士”“兵”“突”“击”这个四个字符中的任一个,或任多个字符组合作为可映射关键词,因此,即使经过合并装置1001的合并,“士兵突击”仍会被作为其它关键词处理。本领域技术人员由此可以理解,上述实施例均为非限定性的,本发明中的步骤S10的实现方式更不限于图5所示。
以上,就步骤S10中搜索引擎如何解析用户输入的待检索信息来获得可映射关键词和/或其它关键词的过程进行了介绍,下面,对如何基于获得的关键词来进行检索加以说明。
参看图2,步骤S10后,该方法进入步骤S11。其中,搜索引擎10处第二获得装置101需要查询可映射关键词的相关词,并将相关词和该可映射关键词作为映射结果关键词。本例中,服务器1处的搜索引擎10预存了如表2的映射信息:
表2:搜索引擎10处预存的映射信息
第一集;第1集;第01集;第001集;... |
第二集;第2集;第02集;第002集;... |
... |
第一千集;第1000集;第01000集;第001000集;... |
其中,同一行中的每项互为其它项的相关词。例如,“第一集”、“第01集”、“第001集”都是“第1集”的相关词,等等。
于是,在步骤S11中,通过以可映射关键词“第1集”,即可基于表2来获得其所有的相关词,并将“第1集”和这些相关词统统作为映射结果关键词来供后续的检索使用。
本领域技术人员可以理解,在映射信息的内容如表2这样丰富时,步骤S10中的分词过程可以被简化,例如,对于“某某第0001集”这样的待检索信息,可以不移去其中“1”之前的“000”,而是将其保留,一律在步骤S54中进行收集,并体现在步骤S55所获得的可映射关键词中。换言之,根据图5所示实施例的一个变化例,步骤S52是可以省略的。因此即使省略了步骤S52,所得到的带有“000”的可映射关键词“第0001集”仍落入了表2所示的映射信息之中,从而使第二获得装置101仍能成功地获得“第0001集”的相关词。
在得到“第一集”、“第1集”、“第01集”、“第001集”等映射结果关键词后,搜索引擎10处的检索提供装置102基于这些映射结果关键词,以及此前获得的其他关键词“士兵突击”,执行最后的检索工作。其中,根据本发明的一个具体实施例,服务器1处的存储装置(图中未示出)存储着了与表2中的各行信息相对应的预存检索信息,其形式示意性地如表4所示:
表4:搜索引擎10处预存的预存检索数据
“士兵突击”与(“第一集”或“第1集”或“第01集”或“第001集”或...) | 相应的一些链接,及相应的图片信息等,如图4所示 |
第二集;第2集;第02集;第002集;... | 相应的一些链接,及相应的图片信息等,如图4所示 |
... | ... |
第一千集;第1000集;第01000集;第001000集;... | 相应的一些链接,及相应的图片信息等,如图4所示 |
于是,经过步骤S12,即可向用户呈现如图4所示的检索结果。可以看出,虽然用户在输入栏40中输入的待检索信息仅为“士兵突击第1集”,搜索引擎仍然为该用户提供了丰富的反馈,其中,集合了现有技术中分别以“士兵突击第1集”、“士兵突击第一集”、“士兵突击第01集”为待检索信息所得到的直接检索结果。例如结果41就属于与“士兵突击第01集”相对应的直接检索结果,而结果42是与“士兵突击第一集”相对应的直接检索结果。
如此,用户不再需要执行多次检索,即可得到所有其想要得到的信息。
可选地,服务器1可以不预存如表4所示的预存检索数据,而是在每次得到用户的查询请求后,基于获得的映射结果关键词以及其它关键词来向相应的内容提供商发起查询,如果某个内容提供商拥有相应的内容(不限于媒体内容),则向其反馈,表示拥有相应的内容,并向其提供相应的链接及图片信息等。服务器1处的搜索引擎10借此来向用户提供检索结果,其形式也大致如图4所示。
另外,在服务器1预存检索数据的情形下,这些预存检索数据的更新也可以基于上述的向内容提供商的查询来实现,当然,内容提供商处的服务器等也可以主动地向服务器1报告信息的更新,从而触发服务器1处的预存检索数据的更新。
以上描述了本发明的一个具体实施例,其中,搜索引擎10通过可映射关键词,来直接找寻其各个相关词,并将找到的相关词和该可映射关键词一并作为映射结果关键词,再进行检索,并向用户提供检索结果。
在上述具体实施例的一个变化例中,其实现流程如图6所示,其中,搜索引擎10预存的映射信息如表5所示:
表5:搜索引擎10保存的映射信息的变化例
可映射关键词 | 确定词 |
“第一集”;“第1集”;“第01集”;“第001集”... | “第一集” |
第二集;第2集;第02集;第002集;... | “第二集” |
... | ... |
第一千集;第1000集;第01000集;第001000集;... | “第一千集” |
搜索引擎10处的第二获得装置101在步骤S11’中基于表5所示的映射信息,查询与“第1集”相对应的确定词“第一集”,并将其作为映射结果关键词。其中,“第一集”对应于“第1集”和“第1集”的各个相关词如“第01集”等等。
相应地,服务器1可以预存与各个确定词相对应的预存检索数据,其形式大致为将表4的左栏内容替换为如表5右栏中的内容。
可选地,映射信息中还可以设置一些过渡词,作为步骤S10中获得的可映射关键词与其各个相关词之间的接口,例如,设置“第一集”作为“第1集”等与其各个相关词之间的过渡,从而在用户输入“第1集”时,首先由第一查询装置1010将其映射至“第一集”,而后由第二查询装置1011再进一步再映射至包括“第一集”、“第1集”、“第01集”、“第001集”等的关键词集合,并将此关键词集合中的各个关键词作为映射结果关键词。
以上,以媒体内容的检索为例介绍了本发明提供的检索方法和搜索引擎,下面,再对其它具体实施例进行介绍,其中,检索的对象可以是任何可以检索的信息。
在此具体实施例中,搜索引擎10处特征信息获取装置103获取用户设备2处用户的用户特征信息。该等信息包括但不限于:用户的性别、年龄、使用该搜索引擎检索的历史检索记录信息等等。
映射信息处理装置104负责基于获得的用户特征信息来创建或更新服务器1处预存的上述映射信息,此外,词库处理装置105也根据所述用户的用户特征信息来创建或更新所述可映射关键词库。例如,如果该用户为一名20岁的男性,则根据这个年龄段男性的普遍兴趣特点,映射信息处理装置104可以建立这样的映射信息。例如,以几首近期较为热门的流行歌曲的歌名为可映射关键词,于是这几首热门歌曲的歌名将会出现在可映射关键词库中,同时也在映射信息中作为可映射关键词出现。另外,映射信息处理装置104还以“流行音乐”为相应的过渡词,以更多的其它流行歌曲的歌名为这些可映射关键词的相关词。于是,当用户输入“摩羯座”并命令搜索后,第一获得装置100将“摩羯座”作为一个可映射关键词,并将其提供给第一查询装置1010,根据本自然段中所述的映射信息,第一查询装置1010可以将“摩羯座”映射至“流行歌曲”,再由第二查询装置1011将其进一步映射至“心情日记”、“稻香”等等。这样,提供给该用户的检索结果就可以不限于“摩羯座”这首歌曲的相关链接、信息等。当然,最终提供给用户的检索结果中,应当包括所有现有技术中以“摩羯座”为关键词所得到的检索结果,因为这是该用户最直接的检索需求。
此外,用户的历史检索记录信息也可以用于更新、创建上述映射信息和可映射关键词库,从而丰富、优化搜索引擎10的性能。提高用体验。
当然,本发明的实现并不局限于以服务器/客户端方式实现的信息检索,事实上,在一个与网络隔绝的计算机设备中,同样存在着信息检索,例如,人们常需要在本地查找此前编辑过的文档、或者是自己喜欢听的歌曲,等等。此时,本发明的思想同样是适用的,唯一的区别在于,前述的实例中,用户输入的待检索信息被提供给位于网络侧的一个服务器,而此时,用户输入的待检索信息被提供给本地计算机设备自带的搜索引擎,该搜索引擎以本地的数据作为向用户提供检索结果的基础。
以上对本发明的具体实施方式进行了描述。需要说明的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在所附权利要求的范围内做出各种变型或修改。
Claims (24)
1.一种在搜索引擎中的信息检索方法,其中,包括以下步骤:
a.基于用户输入的待检索信息,获得可映射关键词;
b.根据所述可映射关键词和预存的映射信息,获得一个或多个映射结果关键词;
c.根据所述一个或多个映射结果关键词进行检索,并将相应检索结果提供给所述用户。
2.根据权利要求1所述的信息检索方法,其特征在于,所述映射信息指示与所述可映射关键词及其一个或多个相关词相对应的一个确定词,所述步骤b包括:
-根据所述映射信息,查询所述可映射关键词所对应的所述确定词,并将所述确定词作为所述映射结果关键词;
所述步骤c包括:
-根据所述映射结果关键词查询与所述映射结果关键词相关联的预存检索数据,并将其作为所述相应检索结果提供给所述用户。
3.根据权利要求2所述的方法,其特征在于,所述预存检索数据包括多个直接检索结果,其中,每个直接检索结果与所述可映射关键词和所述一个或多个相关词中的至少一个相对应。
4.根据权利要求1所述的信息检索方法,其特征在于,所述映射信息指示所述可映射关键词的一个或多个相关词,所述步骤b包括:
-根据所述映射信息及所述可映射关键词,查询所述可映射关键词的所述一个或多个相关词,并将所述可映射关键词和所述一个或多个相关词作为所述映射结果关键词。
5.根据权利要求4所述的信息检索方法,其特征在于,所述映射信息指示与所述可映射关键词相对应的一个过渡词,以及该可映射关键词的一个或多个相关词,其中,所述一个或多个相关词与所述过渡词相对应,所述步骤b还包括:
-根据所述映射信息及所述可映射关键词,查询与所述可映射关键词相对应的过渡词;
-根据所述映射信息及所述过渡词,查询所述可映射关键词的所述一个或多个相关词,并将所述可映射关键词和所述一个或多个相关词作为所述映射结果关键词。
6.根据权利要求1至5中任一项所述的信息检索方法,其特征在于,所述步骤a包括:
-对所述待检索信息进行解析,以得到所述可映射关键词和其它关键词。
7.根据权利要求6所述的信息检索方法,其特征在于,所述步骤a还包括:
a1.根据预定分词规则对所述待检索信息进行分词处理,得到一个或多个分词结果;
a3.为所述一个或多个分词结果中的每个执行以下操作:
-基于该分词结果在一个可映射关键词库中进行检索,判断所述可映射关键词库中是否包含所述分词结果;
-如果所述可映射关键词库包含该分词结果,则将该分词结果作为一个所述可映射关键词。
8.根据权利要求7所述的信息检索方法,其特征在于,当所述步骤a1中得到多个分词结果时,所述步骤a1与所述步骤a3之间还包括:
a2.对所述多个分词结果中的至少两个分词结果进行合并,以得到一个或多个合并后的分词结果,并将所述一个或多个合并后的分词结果及一个或多个未经合并的分词结果作为新的多个分词结果。
9.根据权利要求7所述的信息检索方法,其特征在于,所述预定分词规则为单字分词。
10.根据权利要求1至9所述的信息检索方法,其特征在于,所述可映射关键词包括数字。
11.根据权利要求1至10中任一项所述的信息检索方法,其特征在于,还包括以下步骤:
I.获取该用户的用户特征信息;
II.根据所述用户的用户特征信息,创建或更新所述映射信息;
其中,所述步骤I之后还包括:
-根据所述用户的用户特征信息,创建或更新所述可映射关键词库。
12.根据权利要求11所述的信息检索方法,其特征在于,所述用户特征信息包括以下各项中的任一项或任多项:
所述用户的性别;
所述用户的年龄;
所述用户使用所述搜索引擎进行检索的历史检索记录信息。
13.一种搜索引擎,其中,包括:
第一获得装置,用于基于用户输入的待检索信息,获得可映射关键词;
第二获得装置,用于根据所述可映射关键词和预存的映射信息,获得一个或多个映射结果关键词;
检索提供装置,根据所述一个或多个映射结果关键词进行检索,并将相应检索结果提供给所述用户。
14.根据权利要求13所述的搜索引擎,其特征在于,所述映射信息指示与所述可映射关键词及其一个或多个相关词相对应的一个确定词,所述第二获得装置还用于:
-根据所述映射信息,查询所述可映射关键词所对应的所述确定词,并将所述确定词作为所述映射结果关键词;
所述检索提供装置还用于:
-根据所述映射结果关键词查询与所述映射结果关键词相关联的预存检索数据,并将其作为所述相应检索结果提供给所述用户。
15.根据权利要求14所述的搜索引擎,其特征在于,所述预存检索数据包括多个直接检索结果,其中,每个直接检索结果与所述可映射关键词和所述一个或多个相关词中的至少一个相对应。
16.根据权利要求13所述的搜索引擎,其特征在于,所述映射信息指示所述可映射关键词的一个或多个相关词,所述第二获得装置还用于:
-根据所述映射信息及所述可映射关键词,查询所述可映射关键词的所述一个或多个相关词,并将所述可映射关键词和所述一个或多个相关词作为所述映射结果关键词。
17.根据权利要求16所述的搜索引擎,其特征在于,所述映射信息指示与所述可映射关键词相对应的一个过渡词,以及该可映射关键词的一个或多个相关词,其中,所述一个或多个相关词与所述过渡词相对应,所述第二获得装置包括:
第一查询装置,用于根据所述映射信息及所述可映射关键词,查询与所述可映射关键词相对应的过渡词;
第二查询装置,用于根据所述映射信息及所述过渡词,查询所述可映射关键词的所述一个或多个相关词,并将所述可映射关键词和所述一个或多个相关词作为所述映射结果关键词。
18.根据权利要求14至17中任一项所述的搜索引擎,其特征在于,所述第一获得装置还用于:
-对所述待检索信息进行解析,以得到所述可映射关键词和其它关键词。
19.根据权利要求18所述的搜索引擎,其特征在于,所述第一获得装置还包括:
分词装置,用于根据预定分词规则对所述待检索信息进行分词处理,得到一个或多个分词结果;
执行装置,用于为所述一个或多个分词结果中的每个执行以下操作:
-基于该分词结果在一个可映射关键词库中进行检索,判断所述可映射关键词库中是否包含所述分词结果;
-如果所述可映射关键词库包含该分词结果,则将该分词结果作为一个所述可映射关键词。
20.根据权利要求19所述的搜索引擎,其特征在于,所述第一获得装置还包括一个合并装置,用于当所述分词装置得到多个分词结果时,执行以下操作:
-对所述多个分词结果中的至少两个分词结果进行合并,以得到一个或多个合并后的分词结果,并将所述一个或多个合并后的分词结果及一个或多个未经合并的分词结果作为新的多个分词结果。
21.根据权利要求19所述的搜索引擎,其特征在于,所述预定分词规则为单字分词。
22.根据权利要求13至21所述的搜索引擎,其特征在于,所述可映射关键词包括数字。
23.根据权利要求13至22中任一项所述的搜索引擎,其特征在于,还包括:
特征信息获取装置,用于获取该用户的用户特征信息;
映射信息处理装置,用于根据所述用户的用户特征信息,创建或更新所述映射信息,以及
词库处理装置,用于根据所述用户的用户特征信息,创建或更新所述可映射关键词库。
24.根据权利要求23所述的搜索引擎,其特征在于,所述用户特征信息包括以下各项中的任一项或任多项:
所述用户的性别;
所述用户的年龄;
所述用户使用所述搜索引擎进行检索的历史检索记录信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200910044984A CN101770499A (zh) | 2009-01-07 | 2009-01-07 | 搜索引擎中的信息检索方法及相应搜索引擎 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200910044984A CN101770499A (zh) | 2009-01-07 | 2009-01-07 | 搜索引擎中的信息检索方法及相应搜索引擎 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101770499A true CN101770499A (zh) | 2010-07-07 |
Family
ID=42503363
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200910044984A Pending CN101770499A (zh) | 2009-01-07 | 2009-01-07 | 搜索引擎中的信息检索方法及相应搜索引擎 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101770499A (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102033955A (zh) * | 2010-12-24 | 2011-04-27 | 常华 | 扩展用户搜索结果的方法及服务器 |
CN102426571A (zh) * | 2010-12-17 | 2012-04-25 | 百度在线网络技术(北京)有限公司 | 一种基于对象特征将对象输入至目标应用的方法与设备 |
WO2013075275A1 (zh) * | 2011-11-21 | 2013-05-30 | 华为技术有限公司 | 用户信息采集方法和系统 |
CN103488787A (zh) * | 2013-09-30 | 2014-01-01 | 北京奇虎科技有限公司 | 一种基于视频搜索的在线播放入口对象的推送方法和装置 |
CN103544266A (zh) * | 2013-10-16 | 2014-01-29 | 北京奇虎科技有限公司 | 一种搜索建议词生成的方法以及装置 |
CN103544267A (zh) * | 2013-10-16 | 2014-01-29 | 北京奇虎科技有限公司 | 一种基于搜索建议词进行搜索的方法以及装置 |
CN104346160A (zh) * | 2013-08-09 | 2015-02-11 | 联想(北京)有限公司 | 信息处理的方法及电子设备 |
CN104537122A (zh) * | 2015-01-26 | 2015-04-22 | 北京奇艺世纪科技有限公司 | 一种关键词的确定方法及装置 |
CN104699724A (zh) * | 2013-12-10 | 2015-06-10 | 北京先进数通信息技术股份公司 | 一种基于Lucene的数据搜索方法及装置 |
CN105069167A (zh) * | 2015-08-28 | 2015-11-18 | 成都六四三六五科技有限公司 | 法律信息搜索方法及法律信息搜索装置 |
CN105653546A (zh) * | 2014-11-11 | 2016-06-08 | 北大方正集团有限公司 | 一种目标主题的检索方法和系统 |
CN105956137A (zh) * | 2011-11-15 | 2016-09-21 | 阿里巴巴集团控股有限公司 | 一种搜索方法、搜索装置及一种搜索引擎系统 |
CN106446235A (zh) * | 2016-10-10 | 2017-02-22 | Tcl集团股份有限公司 | 视频的搜索方法和装置 |
CN107577763A (zh) * | 2017-09-04 | 2018-01-12 | 北京京东尚科信息技术有限公司 | 检索方法和装置 |
CN110442603A (zh) * | 2019-07-03 | 2019-11-12 | 平安科技(深圳)有限公司 | 地址匹配方法、装置、计算机设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1434952A (zh) * | 2000-04-18 | 2003-08-06 | 韩国电气通信公社 | 根据有含义中心词检索信息的方法和系统 |
CN101246492A (zh) * | 2008-02-26 | 2008-08-20 | 华中科技大学 | 基于自然语言的全文检索系统 |
CN101281523A (zh) * | 2007-04-25 | 2008-10-08 | 北大方正集团有限公司 | 查询扩展方法和装置以及相关检索词库 |
-
2009
- 2009-01-07 CN CN200910044984A patent/CN101770499A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1434952A (zh) * | 2000-04-18 | 2003-08-06 | 韩国电气通信公社 | 根据有含义中心词检索信息的方法和系统 |
CN101281523A (zh) * | 2007-04-25 | 2008-10-08 | 北大方正集团有限公司 | 查询扩展方法和装置以及相关检索词库 |
CN101246492A (zh) * | 2008-02-26 | 2008-08-20 | 华中科技大学 | 基于自然语言的全文检索系统 |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102426571B (zh) * | 2010-12-17 | 2013-07-17 | 百度在线网络技术(北京)有限公司 | 一种基于对象特征将对象输入至目标应用的方法与设备 |
CN102426571A (zh) * | 2010-12-17 | 2012-04-25 | 百度在线网络技术(北京)有限公司 | 一种基于对象特征将对象输入至目标应用的方法与设备 |
CN102033955A (zh) * | 2010-12-24 | 2011-04-27 | 常华 | 扩展用户搜索结果的方法及服务器 |
CN105956137B (zh) * | 2011-11-15 | 2019-10-01 | 阿里巴巴集团控股有限公司 | 一种搜索方法、搜索装置及一种搜索引擎系统 |
CN105956137A (zh) * | 2011-11-15 | 2016-09-21 | 阿里巴巴集团控股有限公司 | 一种搜索方法、搜索装置及一种搜索引擎系统 |
WO2013075275A1 (zh) * | 2011-11-21 | 2013-05-30 | 华为技术有限公司 | 用户信息采集方法和系统 |
CN104346160A (zh) * | 2013-08-09 | 2015-02-11 | 联想(北京)有限公司 | 信息处理的方法及电子设备 |
CN104346160B (zh) * | 2013-08-09 | 2018-02-27 | 联想(北京)有限公司 | 信息处理的方法及电子设备 |
CN103488787A (zh) * | 2013-09-30 | 2014-01-01 | 北京奇虎科技有限公司 | 一种基于视频搜索的在线播放入口对象的推送方法和装置 |
CN103544267B (zh) * | 2013-10-16 | 2017-05-03 | 北京奇虎科技有限公司 | 一种基于搜索建议词进行搜索的方法以及装置 |
CN103544266A (zh) * | 2013-10-16 | 2014-01-29 | 北京奇虎科技有限公司 | 一种搜索建议词生成的方法以及装置 |
CN103544267A (zh) * | 2013-10-16 | 2014-01-29 | 北京奇虎科技有限公司 | 一种基于搜索建议词进行搜索的方法以及装置 |
CN103544266B (zh) * | 2013-10-16 | 2017-05-31 | 北京奇虎科技有限公司 | 一种搜索建议词生成的方法以及装置 |
CN104699724A (zh) * | 2013-12-10 | 2015-06-10 | 北京先进数通信息技术股份公司 | 一种基于Lucene的数据搜索方法及装置 |
CN105653546A (zh) * | 2014-11-11 | 2016-06-08 | 北大方正集团有限公司 | 一种目标主题的检索方法和系统 |
CN105653546B (zh) * | 2014-11-11 | 2019-10-25 | 北大方正集团有限公司 | 一种目标主题的检索方法和系统 |
CN104537122A (zh) * | 2015-01-26 | 2015-04-22 | 北京奇艺世纪科技有限公司 | 一种关键词的确定方法及装置 |
CN105069167A (zh) * | 2015-08-28 | 2015-11-18 | 成都六四三六五科技有限公司 | 法律信息搜索方法及法律信息搜索装置 |
CN106446235A (zh) * | 2016-10-10 | 2017-02-22 | Tcl集团股份有限公司 | 视频的搜索方法和装置 |
CN106446235B (zh) * | 2016-10-10 | 2021-04-06 | Tcl科技集团股份有限公司 | 视频的搜索方法和装置 |
CN107577763A (zh) * | 2017-09-04 | 2018-01-12 | 北京京东尚科信息技术有限公司 | 检索方法和装置 |
CN110442603A (zh) * | 2019-07-03 | 2019-11-12 | 平安科技(深圳)有限公司 | 地址匹配方法、装置、计算机设备及存储介质 |
WO2021000831A1 (zh) * | 2019-07-03 | 2021-01-07 | 平安科技(深圳)有限公司 | 地址匹配方法、装置、计算机设备及存储介质 |
CN110442603B (zh) * | 2019-07-03 | 2024-01-19 | 平安科技(深圳)有限公司 | 地址匹配方法、装置、计算机设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101770499A (zh) | 搜索引擎中的信息检索方法及相应搜索引擎 | |
US8312022B2 (en) | Search engine optimization | |
CN100405371C (zh) | 一种提取新词的方法和系统 | |
CN100530180C (zh) | 推荐搜索引擎关键词的方法和系统 | |
KR102080362B1 (ko) | 쿼리 확장 | |
US20130138674A1 (en) | System and method for recommending application by using keyword | |
US20110314011A1 (en) | Automatically generating training data | |
KR20080096887A (ko) | 사용자 관심도를 반영한 정보검색 랭킹 시스템 및 그 방법 | |
JP5066963B2 (ja) | データベース構築装置 | |
JP6355840B2 (ja) | ストップワード識別方法および装置 | |
JP2008507041A (ja) | 検索結果内におけるプレーストコンテンツの順序付けのパーソナライズ | |
JP2009140477A (ja) | サービス提案装置及びその方法、サービス提案システム、ユーザのお気に入りベースに基づくサービス提案装置及びその方法 | |
CN101127043A (zh) | 一种轻量级个性化搜索引擎及其搜索方法 | |
KR20080024712A (ko) | 사용자의 검색 히스토리를 이용한 모바일 정보 검색 방법,분류 방법 및 정보 검색 시스템 | |
JP2010538386A (ja) | クエリ別検索コレクション生成方法およびシステム | |
US20050038866A1 (en) | Information search support apparatus, computer program, medium containing the program | |
JP2003173280A (ja) | データベース生成装置、データベース生成方法及びデータベース生成プログラム | |
JP2008084193A (ja) | インスタンス選択装置、インスタンス選択方法及びインスタンス選択プログラム | |
KR101671374B1 (ko) | 키워드 추천 장치와 방법 및 키워드 지식베이스 구축 방법 | |
WO2009054611A1 (en) | System and method for managing information map | |
KR20150120591A (ko) | 연관 앱 추천 시스템 및 추천 방법 | |
KR20030088928A (ko) | 무선 통신 시스템에서 맞춤정보 제공 시스템 및 그 방법 | |
US20040193649A1 (en) | Method and apparatus for searching recommended music in the internet, and a computer-readable medium encoded with a plurality of processor-executable instruction sequences for searching recommended music in the internet | |
CN113282694B (zh) | 一种地理实体数据库用户定制化方法、系统及存储介质 | |
CN110442593B (zh) | 基于用户搜索信息跨应用共享的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20100707 |