CN103778122B - 搜索方法和系统 - Google Patents

搜索方法和系统 Download PDF

Info

Publication number
CN103778122B
CN103778122B CN201210395247.9A CN201210395247A CN103778122B CN 103778122 B CN103778122 B CN 103778122B CN 201210395247 A CN201210395247 A CN 201210395247A CN 103778122 B CN103778122 B CN 103778122B
Authority
CN
China
Prior art keywords
search term
associating websites
participle
search
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210395247.9A
Other languages
English (en)
Other versions
CN103778122A (zh
Inventor
姚静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201210395247.9A priority Critical patent/CN103778122B/zh
Publication of CN103778122A publication Critical patent/CN103778122A/zh
Application granted granted Critical
Publication of CN103778122B publication Critical patent/CN103778122B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种搜索方法,包括以下步骤:获取搜索请求;提取所述搜索请求中包含的搜索词的核心词;在预先构建的搜索词与关联网站的对应关系中查找所述核心词对应的关联网站;返回所述核心词对应的关联网站的相关信息。由于核心词过滤了搜索词中包含的冗余信息,可表示搜索词的关键信息,核心词对应的关联网站很可能是用户需求的目标网站,不需要用户在搜索结果中的众多网页信息查找较匹配的网页信息,然后根据网页信息查找到目标网站,因此,上述搜索方法可提高搜索结果与搜索词之间的匹配精确度。此外,还提供一种搜索系统。

Description

搜索方法和系统
【技术领域】
本发明涉及计算机网络技术领域,特别涉及一种搜索方法和系统。
【背景技术】
随着计算机网络技术的发展,人们越来越多的从网络上搜索自己需要的信息。搜索引擎根据用户输入的搜索词进行搜索,并向用户返回与搜索词匹配的网页信息。
传统的搜索方法,一般查找包含用户输入的整个搜索词的网页,并查找包含搜索词中的分词以及分词的组合的网页,在搜索结果中,优先展示包含整个搜索词的网页信息,其次按照网页中包含的分词从多到少的顺序展示网页信息。例如,用户输入的搜索词为“找工作的网站有哪些”,则搜索引擎有可能返回包含字串“找工作网站有哪些”的网页信息,以及返回包含字串“工作”和“哪些”以及搜索词中其它分词以及分词组合的网页信息。
传统的搜索方法向用户返回包含搜索词以及搜索词的分词和分词组合的网页信息,一方面,如果用户输入的搜索词较长或者包含较多的冗余信息,则包含整个搜索词的网页有可能搜索不到,而包含搜索词的分词或分词组合的网页与用户真正需求的网页相差甚远,因为搜索词的分词或分词组合有可能不能精确表示搜索词的主题。例如,包含字串“找工作的网站有哪些”的网页相对较少,而包含“工作”、“哪些”等分词的网页有可能很多,但是与用于找工作的网站之间的关联不大。
另一方面,即使搜索到包含整个搜索词或者包含搜索词中较多分词的网页,用户也需要从返回的众多网页信息中分析哪些是最匹配的网页信息,并进一步从较匹配的网页信息中获取目标网站信息。以上述例子为例,由于包含搜索词“找工作的网站有哪些”或搜索词分词的网页并不是用户真正想要的用于找工作的网站,因此,用户需要在搜索结果中查找包含用于找工作的网站信息的条目,点击该条目以打开网页,并在网页内容中查找用于找工作的网站的网址或链接,进一步根据查找到的网站或链接打开用于找工作的网站。
发明人发现传统的搜索方法至少存在如下问题:只返回包含搜索词以及搜索词的分词和分词组合的网页信息,由于包含搜索词或搜索词分词的网页有可能并不是用户需要查找的目标网站,因此,传统的搜索方法返回的搜索结果与搜索词的匹配精确度不高。
【发明内容】
基于此,有必要提供一种可提高搜索结果与搜索词之间的匹配精确度的搜索方法。
一种搜索方法,包括以下步骤:
获取搜索请求;
提取所述搜索请求中包含的搜索词的核心词;
在预先构建的搜索词与关联网站的对应关系中查找所述核心词对应的关联网站;
返回所述核心词对应的关联网站的相关信息。
此外,还有必要提供一种可返回搜索词的主题对应的目标网站信息的搜索系统。
一种搜索系统,包括:
请求获取模块,用于获取搜索请求;
核心词提取模块,用于提取所述搜索请求中包含的搜索词的核心词;
关联网站查找模块,用于在预先构建的搜索词与关联网站的对应关系中查找所述核心词对应的关联网站;
网站信息返回模块,用于返回所述核心词对应的关联网站的相关信息。
上述搜索方法和系统,提取搜索请求中包含的搜索词的核心词,进一步在预先构建的搜索词与关联网站的对应关系中查找到核心词对应的关联网站,并返回关联网站的相关信息,由于核心词过滤了搜索词中包含的冗余信息,可表示搜索词的关键信息,核心词对应的关联网站很可能是用户需求的目标网站,不需要用户在搜索结果中的众多网页信息查找较匹配的网页信息,然后根据网页信息查找到目标网站,提高了搜索结果与搜索词之间的匹配精确度。
【附图说明】
图1为一个实施例中的搜索方法的流程示意图;
图2为一个实施例中图1的步骤S104的流程示意图;
图3为一个实施例中构建搜索词与关联网站的对应关系的步骤的流程示意图;
图4为一个实施例中关联网站的展示示意图;
图5为一个实施例中的搜索系统的结构示意图;
图6为一个实施例中核心词提取模块的结构示意图;
图7为另一实施例中的搜索系统的结构示意图;
图8为一个实施例中对应关系构建模块的结构示意图;
图9为又一实施例中的搜索系统的结构示意图。
【具体实施方式】
如图1所示,在一个实施例中,一种搜索方法,包括以下步骤:
步骤S102,获取搜索请求。
在一个实施例中,服务端可接收浏览器提交的包含用户输入的搜索词的搜索请求。
步骤S104,提取搜索请求中包含的搜索词的核心词。
核心词为搜索词中的可表示搜索词的关键信息的词。例如,搜索词“找工作的网站有哪些”的核心词为“找工作”。服务端接收到搜索请求后,可提取搜索请求中包含的搜索词的核心词。
如图2所示,在一个实施例中,步骤S104包括以下步骤:
步骤S202,提取搜索请求中的搜索词,将搜索词进行分词处理,得到搜索词中包含的分词。
在一个实施例中,可解析搜索请求,提取用户输入的搜索词,按照预设规则将搜索词进行分词处理。
步骤S204,计算分词的重要指数,和/或在预先构建的搜索词与关联网站的对应关系中查找上述分词对应的关联网站并获取上述分词对应的关联网站的重要指数。
在一个实施例中,可基于语义计算分词的重要指数,包括以下步骤:标注分词的词性,词性包括名词、动词、形容词、数词等;根据分词的词性以及分词在搜索词中的位置计算分词的重要指数。在一个实施例中,可预先设置各类词性以及搜索词中的分词位置对应的权值,根据分词的词性对应的权值以及分词所在搜索词中的位置对应的权值计算该分词的重要指数。一般地,可设置名词对应的权值比其它类词性对应的权值高,并按照分词位置的先后顺序由低到高设置分词位置的权值,分词位置越靠前,则对应的权值越低。
在一个实施例中,可预先计算搜索词与关联网站的对应关系中包含的关联网站的热门度。网站的热门度为反映网站受关注程度的指标,网站越受关注,则网站的热门度也越高。在一个实施例中,关联网站的热门度可根据关联网站的点击量计算得到。点击量越高,则网站的热门度也越高。进一步的,可根据分词对应的关联网站的热门度计算分词对应的关联网站的重要指数。热门度越高,则重要指数也越高。
步骤S206,根据上述分词的重要指数和/或上述分词对应的关联网站的重要指数选取分词为上述搜索请求中包含的搜索词的核心词。
在一个实施例中,可计算分词的重要指数,选取重要指数最高的分词为搜索请求中包含的搜索词的核心词。
在另一个实施例中,可在预先构建的搜索词与关联网站的对应关系中查找上述分词对应的关联网站,并获取上述分词对应的关联网站的重要指数,选取对应的关联网站的重要指数最高的分词为搜索词的核心词。
在又一个实施例中,可计算分词的重要指数,以及在预先构建的搜索词与关联网站的对应关系中查找上述分词对应的关联网站,并获取上述分词对应的关联网站的重要指数,进一步的结合上述分词的重要指数和上述分词对应的关联网站的重要指数选取某一分词为上述搜索请求中包含的搜索词的核心词。在一个实施例中,可选取分词的重要指数与分词对应的关联网站的重要指数的综合值最高的分词为搜索词对应的核心词。
步骤S106,在预先构建的搜索词与关联网站的对应关系中查找核心词对应的关联网站。
如图3所示,在一个实施例中,在步骤S102之前,上述搜索方法还包括构建搜索词与关联网站的对应关系的步骤,包括:
步骤S302,获取历史搜索记录,搜索记录中包含搜索词及搜索词对应的命中网站信息。搜索词对应的命中网站为搜索词对应的搜索结果中被用户点击的网页所属的网站。
步骤S304,统计搜索词对应的命中网站的命中率。在一个实施例中,可统计搜索记录中搜索词对应的各命中网站被选中的次数,进一步计算各命中网站被选中的次数占搜索词对应的所有命中网站被选中次数总和的比值,即得到搜索词对应的命中网站的命中率。
步骤S306,根据搜索词对应的命中网站的命中率计算搜索词与命中网站的关联度。命中网站相对于搜索词的命中率越高,则该搜索词与该命中网站的关联度也越高。
步骤S308,根据搜索词与命中网站的关联度选取搜索词对应的关联网站,记录搜索词与关联网站的对应关系。
在一个实施例中,可选取与搜索词的关联度大于预设值的命中网站为搜索词对应的关联网站。在另一个实施例中,可按照与搜索词的关联度从大到小的顺序选取预设数量个命中网站为搜索词对应的关联网站。在又一实施例中,可选取与搜索词的关联度大于预设值的命中网站,进一步在选取的命中网站中按照与搜索词的关联度从大到小的顺序选取不超过预设数量的命中网站为搜索词对应的关联网站。
在一个实施例中,步骤S106可在步骤S302~S308所构建的搜索词与关联网站的对应关系中查找核心词对应的关联网站。
步骤S108,返回核心词对应的关联网站的相关信息。在一个实施例中,服务端可向浏览器返回关联网站的网址、名称等信息。
在一个实施例中,上述搜索方法还包括步骤:将上述搜索词与关联网站的对应关系中搜索词对应的关联网站进行分类;步骤S108返回的核心词对应的关联网站的相关信息中包含关联网站的分类结果信息。
在一个实施例中,可预先设置搜索词对应的类别,例如,搜索词为“购物”,可设置“购物”对应的类别包括“综合”、“服饰”、“数码”、“日用”、“导购”和“团购”等。进一步的,可统计各类别在关联网站中的出现次数,设置出现次数最多的类别为搜索词对应的关联网站的类别。步骤S108中服务器可将类别名称以及属于该类别的关联网站的相关信息对应返回给浏览器。
在一个实施例中,上述搜索方法还包括步骤:根据核心词对应的关联网站的相关信息生成关联网站的导航图表或导航栏;展示导航图表或导航栏。
在一个实施例中,浏览器接收到服务端返回的核心词对应的关联网站的相关信息后,可根据关联网站的相关信息生成关联网站的导航图表或导航栏。在一个实施例中,导航图表或导航栏中包括以关联网站名称为链接对象、以关联网站地址为链接目标的关联网站链接。
如图4所示,在一个实施例中,搜索词为“购物有哪些网站”,服务端提取搜索词中的核心词“购物”,查找到“购物”的关联网站“淘宝”、“亚马逊”等,并将关联网站进行分类,所分类别包括:“综合”、“服饰”、“数码”、“日用”、“导购”和“团购”。浏览器接收到服务端返回的关联网站相关信息后,生成包含关联网站链接的导航栏401并展示,导航栏中关联网站按照上述类别分类展示。
如图5所示,在一个实施例中,一种搜索系统,包括请求获取模块10、核心词提取模块20、关联网站查找模块30和网站信息返回模块40,其中:
请求获取模块10用于获取搜索请求。
在一个实施例中,请求获取模块10、核心词提取模块20、关联网站查找模块30和网站信息返回模块40位于服务端。请求获取模块10可接收浏览器提交的包含用户输入的搜索词的搜索请求。
核心词提取模块20用于提取搜索请求中包含的搜索词的核心词。核心词为搜索词中的可表示搜索词的关键信息的词。例如,搜索词“找工作的网站有哪些”的核心词为“找工作”。
如图6所示,在一个实施例中,核心词提取模块20包括搜索词提取模块201、分词模块202、重要指数计算模块203和核心词选取模块204,其中:
搜索词提取模块201用于提取搜索请求中的搜索词。
分词模块202用于将搜索词进行分词处理,得到搜索词中包含的分词。
在一个实施例中,搜索词提取模块201可解析搜索请求,提取用户输入的搜索词,分词模块202可按照预设规则将搜索词进行分词处理。
重要指数计算模块203用于计算分词的重要指数,和/或在预先构建的搜索词与关联网站的对应关系中查找上述分词对应的关联网站并获取上述分词对应的关联网站的重要指数。
在一个实施例中,重要指数计算模块203可基于语义计算分词的重要指数。在一个实施例中,重要指数计算模块203可标注分词的词性,词性包括名词、动词、形容词、数词等;根据分词的词性以及分词在搜索词中的位置计算分词的重要指数。在一个实施例中,重要指数计算模块203可预先设置各类词性以及搜索词中的分词位置对应的权值,根据分词的词性对应的权值以及分词所在搜索词中的位置对应的权值计算该分词的重要指数。一般地,可设置名词对应的权值比其它类词性对应的权值高,并按照分词位置的先后顺序由低到高设置分词位置的权值,分词位置越靠前,则对应的权值越低。
在一个实施例中,重要指数计算模块203可预先计算搜索词与关联网站的对应关系中包含的关联网站的热门度。网站的热门度为反映网站受关注程度的指标,网站越受关注,则网站的热门度也越高。在一个实施例中,关联网站的热门度可根据关联网站的点击量计算得到。点击量越高,则网站的热门度也越高。进一步的,重要指数计算模块203可根据分词对应的关联网站的热门度计算分词对应的关联网站的重要指数。热门度越高,则重要指数也越高。
核心词选取模块204用于根据上述分词的重要指数和/或上述分词对应的关联网站的重要指数选取分词为上述搜索请求中包含的搜索词的核心词。
在一个实施例中,重要指数计算模块203可计算分词的重要指数,核心词选取模块204选取重要指数最高的分词为搜索请求中包含的搜索词的核心词。
在另一个实施例中,重要指数计算模块203可在预先构建的搜索词与关联网站的对应关系中查找上述分词对应的关联网站,并获取上述分词对应的关联网站的重要指数,核心词选取模块204选取对应的关联网站的重要指数最高的分词为搜索词的核心词。
在又一个实施例中,重要指数计算模块203可计算分词的重要指数,以及在预先构建的搜索词与关联网站的对应关系中查找上述分词对应的关联网站,并获取上述分词对应的关联网站的重要指数,核心词选取模块204可结合上述分词的重要指数和上述分词对应的关联网站的重要指数选取某一分词为上述搜索请求中包含的搜索词的核心词。在一个实施例中,核心词选取模块204可选取分词的重要指数与分词对应的关联网站的重要指数的综合值最高的分词为搜索词对应的核心词。
关联网站查找模块30用于在预先构建的搜索词与关联网站的对应关系中查找核心词对应的关联网站。
如图7所示,在一个实施例中,上述搜索系统还包括对应关系构建模块50,用于构建所述搜索词与关联网站的对应关系。如图8所示,对应关系构建模块50包括搜索记录获取模块510、命中率统计模块520、关联度计算模块530和对应关系记录模块540,其中:
搜索记录获取模块510用于获取历史搜索记录,搜索记录中包含搜索词及搜索词对应的命中网站信息。搜索词对应的命中网站为搜索词对应的搜索结果中被用户点击的网页所属的网站。
命中率统计模块520用于统计搜索词对应的命中网站的命中率。在一个实施例中,命中率统计模块520可统计搜索记录中搜索词对应的各命中网站被选中的次数,进一步计算各命中网站被选中的次数占搜索词对应的所有命中网站被选中的次数总和的比值,即得到搜索词对应的命中网站的命中率。
关联度计算模块530用于根据搜索词对应的命中网站的命中率计算搜索词与命中网站的关联度。命中网站相对于搜索词的命中率越高,则该搜索词与该命中网站的关联度也越高。
对应关系记录模块540用于根据搜索词与命中网站的关联度选取搜索词对应的关联网站,记录搜索词与关联网站的对应关系。
在一个实施例中,对应关系记录模块540可选取与搜索词的关联度大于预设值的命中网站为搜索词对应的关联网站。在另一个实施例中,对应关系记录模块540可按照与搜索词的关联度从大到小的顺序选取预设数量个命中网站为搜索词对应的关联网站。在又一实施例中,对应关系记录模块540可选取与搜索词的关联度大于预设值的命中网站,进一步在选取的命中网站中按照与搜索词的关联度从大到小的顺序选取不超过预设数量的命中网站为搜索词对应的关联网站。
在一个实施例中,关联网站查找模块30可在对应关系构建模块50所构建的搜索词与关联网站的对应关系中查找核心词对应的关联网站。
网站信息返回模块40,返回核心词对应的关联网站的相关信息。在一个实施例中,网站信息返回模块40可向浏览器返回关联网站的网址、名称等信息。
在一个实施例中,上述搜索系统还包括分类模块(图中未示出):将上述搜索词与关联网站的对应关系中搜索词对应的关联网站进行分类;网站信息返回模块40返回的核心词对应的关联网站的相关信息中包含关联网站的分类结果信息。
在一个实施例中,分类模块可预先设置搜索词对应的类别,例如,搜索词为“购物”,可设置“购物”对应的类别包括“综合”、“服饰”、“数码”、“日用”、“导购”和“团购”等。进一步的,分类模块可统计各类别在关联网站中的出现次数,设置出现次数最多的类别为搜索词对应的关联网站的类别。网站信息返回模块40可将类别名称以及属于该类别的关联网站的相关信息对应返回给浏览器。
如图9所示,在一个实施例中,上述搜索系统还包括网站导航生成模块60和展示模块70:网站导航生成模块用于根据核心词对应的关联网站的相关信息生成关联网站的导航图表或导航栏;展示模块用于展示导航图表或导航栏;请求获取模块10、核心词提取模块20、关联网站查找模块30、网站信息返回模块40和对应关系构建模块50位于服务端,网站导航生成模块60和展示模块70位于浏览器。
在一个实施例中,导航图表或导航栏中包括以关联网站名称为链接对象、以关联网站地址为链接目标的关联网站链接。
上述搜索方法和系统,提取搜索请求中包含的搜索词的核心词,进一步在预先构建的搜索词与关联网站的对应关系中查找到核心词对应的关联网站,并返回关联网站的相关信息,由于核心词过滤了搜索词中包含的冗余信息,可表示搜索词的关键信息,核心词对应的关联网站很可能是用户需求的目标网站,不需要用户在搜索结果中的众多网页信息查找较匹配的网页信息,然后根据网页信息查找到目标网站,提高了搜索结果与搜索词之间的匹配精确度。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序控制相关的硬件来完成的,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种搜索方法,包括以下步骤:
获取搜索请求;
提取所述搜索请求中包含的搜索词的核心词,提取所述搜索请求中的搜索词,将所述搜索词进行分词处理,得到所述搜索词中包含的分词,在预先构建的搜索词与关联网站的对应关系中查找所述分词对应的关联网站并获取所述分词对应的关联网站的重要指数,根据所述分词对应的关联网站的重要指数选取分词为所述搜索请求中包含的搜索词的核心词;
在预先构建的搜索词与关联网站的对应关系中查找所述核心词对应的关联网站;
返回所述核心词对应的关联网站的相关信息。
2.根据权利要求1所述的搜索方法,其特征在于,在所述获取搜索请求之前,所述方法还包括构建所述搜索词与关联网站的对应关系的步骤,包括:
获取历史搜索记录,搜索记录中包含搜索词及搜索词对应的命中网站信息;
统计所述搜索词对应的命中网站的命中率;
根据所述搜索词对应的命中网站的命中率计算所述搜索词与所述命中网站的关联度;
根据所述关联度选取所述搜索词对应的关联网站,记录所述搜索词与所述关联网站的对应关系。
3.根据权利要求1所述的搜索方法,其特征在于,所述提取搜索请求中包含的搜索词的核心词的步骤包括:
计算所述分词的重要指数;
根据所述分词的重要指数和所述分词对应的关联网站的重要指数选取分词为所述搜索请求中包含的搜索词的核心词。
4.根据权利要求1所述的搜索方法,其特征在于,所述方法还包括:将所述对应关系中搜索词对应的关联网站进行分类;
返回的所述核心词对应的关联网站的相关信息中包含所述核心词对应的关联网站的分类结果信息。
5.根据权利要求1或4所述的搜索方法,其特征在于,所述方法还包括:
根据所述核心词对应的关联网站的相关信息生成所述关联网站的导航图表或导航栏;
展示所述导航图表或导航栏。
6.一种搜索系统,其特征在于,包括:
请求获取模块,用于获取搜索请求;
核心词提取模块,用于提取所述搜索请求中包含的搜索词的核心词,包括搜索词提取模块,用于提取所述搜索请求中的搜索词,分词模块,用于将所述搜索词进行分词处理,得到所述搜索词中包含的分词,重要指数计算模块,用于在预先构建的搜索词与关联网站的对应关系中查找所述分词对应的关联网站并获取所述分词对应的关联网站的重要指数,核心词选取模块,用于根据所述分词对应的关联网站的重要指数选取分词为所述搜索请求中包含的搜索词的核心词;
关联网站查找模块,用于在预先构建的搜索词与关联网站的对应关系中查找所述核心词对应的关联网站;
网站信息返回模块,用于返回所述核心词对应的关联网站的相关信息。
7.根据权利要求6所述的搜索系统,其特征在于,所述系统还包括对应关系构建模块,所述对应关系构建模块用于构建所述搜索词与关联网站的对应关系,包括:
搜索记录获取模块,用于获取历史搜索记录,搜索记录中包含搜索词及搜索词对应的命中网站信息;
命中率统计模块,用于统计所述搜索词对应的命中网站的命中率;
关联度计算模块,用于根据所述搜索词对应的命中网站的命中率计算所述搜索词与所述命中网站的关联度;
对应关系记录模块,用于根据所述关联度选取所述搜索词对应的关联网站,记录所述搜索词与所述关联网站的对应关系。
8.根据权利要求6所述的搜索系统,其特征在于,所述重要指数计算模块,还用于计算所述分词的重要指数;
所述核心词选取模块,还用于根据所述分词的重要指数和所述分词对应的关联网站的重要指数选取分词为所述搜索请求中包含的搜索词的核心词。
9.根据权利要求6所述的搜索系统,其特征在于,所述系统还包括:
分类模块,用于将所述对应关系中搜索词对应的关联网站进行分类;
所述网站信息返回模块返回的所述核心词对应的关联网站的相关信息中包含所述核心词对应的关联网站的分类结果信息。
10.根据权利要求6或9所述的搜索系统,其特征在于,所述系统还包括:
网站导航生成模块,用于根据所述核心词对应的关联网站的相关信息生成所述关联网站的导航图表或导航栏;
展示模块,用于展示所述导航图表或导航栏。
CN201210395247.9A 2012-10-17 2012-10-17 搜索方法和系统 Active CN103778122B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210395247.9A CN103778122B (zh) 2012-10-17 2012-10-17 搜索方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210395247.9A CN103778122B (zh) 2012-10-17 2012-10-17 搜索方法和系统

Publications (2)

Publication Number Publication Date
CN103778122A CN103778122A (zh) 2014-05-07
CN103778122B true CN103778122B (zh) 2018-01-23

Family

ID=50570367

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210395247.9A Active CN103778122B (zh) 2012-10-17 2012-10-17 搜索方法和系统

Country Status (1)

Country Link
CN (1) CN103778122B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106980613B (zh) * 2016-01-15 2020-10-20 阿里巴巴集团控股有限公司 一种搜索导航方法及设备
CN107818091B (zh) * 2016-09-12 2023-01-06 百度在线网络技术(北京)有限公司 文档处理方法及装置
CN107423362B (zh) * 2017-06-20 2021-06-08 创新先进技术有限公司 行业确定方法、对象获取方法和装置、客户端、服务器
CN107301253B (zh) * 2017-08-23 2020-02-04 杭州安恒信息技术股份有限公司 一种提高多站点搜索关键字准确性的方法及装置
CN109213848B (zh) * 2018-11-23 2022-03-11 北京字节跳动网络技术有限公司 相关搜索词的确定方法、装置、存储介质及电子设备
CN109857853B (zh) * 2019-01-28 2021-09-14 掌阅科技股份有限公司 基于电子书的搜索方法、电子设备及计算机存储介质
CN110619074A (zh) * 2019-08-21 2019-12-27 视联动力信息技术股份有限公司 一种基于视联网的搜索方法和视联网管理平台

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101373532A (zh) * 2008-07-10 2009-02-25 昆明理工大学 旅游领域faq中文问答系统实现方法
CN101576928A (zh) * 2009-06-11 2009-11-11 腾讯科技(深圳)有限公司 一种相关文章的选取方法和装置
CN102339438A (zh) * 2010-07-22 2012-02-01 阿里巴巴集团控股有限公司 一种商品信息的网络发布方法、系统和设备
CN102693320A (zh) * 2012-06-01 2012-09-26 中国科学技术大学 一种搜索方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102033877A (zh) * 2009-09-27 2011-04-27 阿里巴巴集团控股有限公司 检索方法和装置
CN102043845B (zh) * 2010-12-08 2013-08-21 百度在线网络技术(北京)有限公司 一种用于基于查询序列簇提取核心关键词的方法与设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101373532A (zh) * 2008-07-10 2009-02-25 昆明理工大学 旅游领域faq中文问答系统实现方法
CN101576928A (zh) * 2009-06-11 2009-11-11 腾讯科技(深圳)有限公司 一种相关文章的选取方法和装置
CN102339438A (zh) * 2010-07-22 2012-02-01 阿里巴巴集团控股有限公司 一种商品信息的网络发布方法、系统和设备
CN102693320A (zh) * 2012-06-01 2012-09-26 中国科学技术大学 一种搜索方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《Regression Rank: Learning to Meet the Opportunity of Descriptive Queries》;Lease M等;《Proceedings of the 31st European Conference on IR Research on Advances in Information Retrieval》;20091231;第5478卷;第99-101页 *
《受限域中文问答系统中答案抽取的研究》;邓锦辉;《中国优秀硕士学位论文全文数据库 信息科技辑》;20080915(第9期);I138-1011 *

Also Published As

Publication number Publication date
CN103778122A (zh) 2014-05-07

Similar Documents

Publication Publication Date Title
CN103778122B (zh) 搜索方法和系统
CN105488024B (zh) 网页主题句的抽取方法及装置
CN103544255B (zh) 基于文本语义相关的网络舆情信息分析方法
CN103729359B (zh) 一种推荐搜索词的方法及系统
TWI615724B (zh) 基於電子資訊的關鍵字提取的資訊推送、搜尋方法及裝置
CN105069086B (zh) 一种优化电子商务商品搜索的方法及系统
CN103425691B (zh) 一种搜索方法和系统
CN103201737B (zh) 关联词登记装置、信息处理装置、关联词登记方法、关联词登记装置用程序以及记录介质
CN101894134B (zh) 一种基于空间布局的钓鱼网页检测及其实现方法
CN102982153B (zh) 一种信息检索方法及其装置
CN105138558B (zh) 基于用户访问内容的实时个性化信息采集方法
CN109767318A (zh) 贷款产品推荐方法、装置、设备及存储介质
CN106484764A (zh) 基于人群画像技术的用户相似度计算方法
CN102200975B (zh) 一种利用语义分析的垂直搜索引擎系统
CN105302810A (zh) 一种信息搜索方法和装置
CN108763321A (zh) 一种基于大规模相关实体网络的相关实体推荐方法
CN105843796A (zh) 一种微博情感倾向分析方法及装置
CN104050163A (zh) 内容推荐系统及方法
CN102841946A (zh) 商品数据检索排序及商品推荐方法和系统
CN106909663A (zh) 基于标签用户品牌偏好行为预测方法及其装置
CN110134845A (zh) 项目舆情监控方法、装置、计算机设备及存储介质
CN105468649B (zh) 一种待展示对象匹配的判断方法及其装置
CN107092605A (zh) 一种实体链接方法及装置
CN108038173A (zh) 一种网页分类方法、系统及一种网页分类设备
CN106776567A (zh) 一种互联网大数据分析提取方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant