CN104462519A - 搜索查询方法和装置 - Google Patents
搜索查询方法和装置 Download PDFInfo
- Publication number
- CN104462519A CN104462519A CN201410806927.4A CN201410806927A CN104462519A CN 104462519 A CN104462519 A CN 104462519A CN 201410806927 A CN201410806927 A CN 201410806927A CN 104462519 A CN104462519 A CN 104462519A
- Authority
- CN
- China
- Prior art keywords
- website
- searching keyword
- search
- domain name
- searching
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种搜索查询方法和装置,主要涉及互联网技术领域,主要目的在于满足用户在限定站点获取资源的需求。方法包括:识别用户输入的第一查询关键词是否符合预设的在限定站点内进行搜索的限定规则;如符合适于在限定站点内进行搜索的限定规则,则在限定站点的域名下搜索第一查询关键词对应的搜索结果。根据本发明,搜索查询的结果既不会包含非限定站点外的结果,也不会包含某些站点的首页;由于仅在限定站点上进行搜索,所以搜索产生的计算量也较小,也更容易避免非限定站点的作弊网页的干扰。
Description
技术领域
本发明涉及互联网技术领域,具体而言,涉及一种搜索查询方法和装置。
背景技术
对于目前的搜索引擎,准确理解用户意图,提高搜索引擎结果的质量,改善用户搜索体验是搜索引擎的目标之一。
现有的搜索引擎,通常直接使用用户的查询关键词进行搜索查询,首先对查询关键词进行分词并从中选取核心词,召回含有核心词的网页并进行排序;或者对查询关键词进行转义,如同义词转义,句式转义等,之后该查询关键词被转化成多个查询关键词,然后每个查询关键词会召回的结果进行合并,最后统一进行排序。
现有的搜索引擎,在某些情况下的效果并不理想。用户使用搜索引擎的时候,有时候希望仅仅得到某个网站内的资源页面,所以往往通过在查询关键词中加入站点名称的方式来进行这种查询,例如:“葫芦娃360影视”,用户的目的实际上是在“360影视”的站点上查找“葫芦娃”节目。则现有的搜索引擎会造成:1)查询结果中含有非用户需要的站点结果,例如非“360影视”站点上的“葫芦娃”节目;2)查询结果中,站点首页可能会更靠前,因为首页的权重往往更大,如“360影视”的站点首页,但这些首页其实不是用户期待的结果;3)召回结果过多,导致查询计算量较大;4)有些作弊网站可能会错误的提权,导致放到前面。由此可见,需要一种新的搜索查询方案来满足用户在某个站点获取资源的需求。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种搜索查询方法和装置。
依据本发明的一个方面,提供了一种搜索查询方法,其包括:识别用户输入的第一查询关键词是否符合预设的在限定站点内进行搜索的限定规则;如符合适于在所述限定站点内进行搜索的所述限定规则,则在所述限定站点的域名下搜索所述第一查询关键词对应的搜索结果。
可选地,前述的方法,在识别用户输入的第一查询关键词是否符合预设的在限定站点内进行搜索的限定规则之前,还包括:从预设的搜索日志中获取URL对应的第二查询关键词;从所述URL对应的所述第二查询关键词中提取站点名称;根据所述第二查询关键词和所述站点名称进行训练得到所述限定规则,且在所述第一查询关键词符合所述限定规则时,得到所述限定站点的名称;在在所述限定站点的域名下搜索所述第一查询关键词对应的搜索结果之前,还包括:按所述限定站点的名称,确定所述限定站点的域名。
可选地,前述的方法,在识别用户输入的第一查询关键词是否符合预设的在限定站点内进行搜索的限定规则之前,还包括:从所述URL中提取域名;建立所提取域名与所述站点名称之间的对应关系;按所述限定站点的名称,确定所述限定站点的域名,具体包括:根据所述限定站点的名称和所述对应关系,查找所述限定站点的域名。
可选地,前述的方法,从所述URL对应的第二查询关键词中提取站点名称,还包括:对于每个提取的站点名称,根据每个站点名称出现在所述第二查询关键词中时对应的域名首页的被点击次数高低判断是否对其保留。
可选地,前述的方法,在所述限定站点的域名下搜索所述第一查询关键词对应的搜索结果,具体包括:从所述第一查询关键词中识别出所述限定站点的名称的对应内容;在所述限定站点的域名下,按所述第一查询关键词中除所述对应内容外的部分进行搜索。
可选地,前述的方法,从所述第一查询关键词中识别出所述限定站点的名称的对应内容,具体包括:对所述第一查询关键词进行分词得到多个词语;分别判断每个词语是否是所述限定站点名称的对应内容。
依据本发明的另一方面,还提供了一种搜索查询装置,其包括:第一查询关键词识别模块,用于识别用户输入的第一查询关键词是否符合预设的在限定站点内进行搜索的限定规则;搜索模块,如符合适于在所述限定站点内进行搜索的所述限定规则,则在所述限定站点的域名下搜索所述第一查询关键词对应的搜索结果。
可选地,前述的装置,还包括:第二查询关键词获取模块,用于从预设的搜索日志中获取URL对应的第二查询关键词;站点名称提取模块,用于从所述URL对应的所述第二查询关键词中提取站点名称;训练模块,用于根据所述第二查询关键词和所述站点名称进行训练得到所述限定规则,且在所述第一查询关键词符合所述限定规则时,得到所述限定站点的名称;域名确定模块,用于按所述限定站点的名称,确定所述限定站点的域名。
可选地,前述的装置,还包括:域名提取模块,用于从所述URL中提取域名;对应关系建立模块,用于建立所提取域名与所述站点名称之间的对应关系;所述域名确定模块根据所述限定站点的名称和所述对应关系,查找所述限定站点的域名。
可选地,前述的装置,所述站点名称提取模块对于每个提取的站点名称,根据每个站点名称出现在所述第二查询关键词中时对应的域名首页的被点击次数高低判断是否对其保留。
可选地,前述的装置,所述搜索模块从所述第一查询关键词中识别出所述限定站点的名称的对应内容,并在所述限定站点的域名下,按所述第一查询关键词中除所述对应内容外的部分进行搜索。
可选地,前述的装置,所述搜索模块对所述第一查询关键词进行分词得到多个词语,并分别判断每个词语是否是所述限定站点名称的对应内容。
根据以上技术方案,可知本发明的搜索查询方法和装置至少具有以下优点:
在接收到用户的查询关键词时,首先分析用户输入查询关键词的目的是否是为了在限定站点搜索资源;在确定用户需求在限定站点搜索资源之后,则可以在该限定站点的域名之下进行搜索查询;因此,搜索查询的结果既不会包含非限定站点外的结果,也不会包含某些站点的首页;由于仅在限定站点上进行搜索,所以搜索产生的计算量也较小,也更容易避免非限定站点的作弊网页的干扰。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明的一个实施例的搜索查询方法的流程图;
图2示出了根据本发明的一个实施例的搜索查询方法的流程图;
图3示出了根据本发明的一个实施例的搜索查询方法的流程图;
图4示出了根据本发明的一个实施例的搜索查询方法的流程图;
图5示出了根据本发明的一个实施例的搜索查询方法的流程图;
图6示出了根据本发明的一个实施例的搜索查询方法的流程图;
图7示出了根据本发明的一个实施例的搜索查询装置的框图;
图8示出了根据本发明的一个实施例的搜索查询装置的框图;
图9示出了根据本发明的一个实施例的搜索查询装置的框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
如图1所示,本发明的一个实施例中提供了一种搜索查询方法,其包括:
步骤110,识别用户输入的第一查询关键词是否符合预设的在限定站点内进行搜索的限定规则。在本实施例中,对限定规则的类型不进行限制,例如,限定规则可以是:对多个站点的名称进行记录,如果第一查询关键词中包含了其中的站点名称,则判断需要在该站点下进行搜索。
步骤120,如符合适于在限定站点内进行搜索的限定规则,则在限定站点的域名下搜索第一查询关键词对应的搜索结果。根据本实施例的技术方案,搜索查询的结果既不会包含非限定站点外的结果,也不会包含某些站点的首页;由于仅在限定站点上进行搜索,所以搜索产生的计算量也较小,也更容易避免非限定站点的作弊网页的干扰。
根据图1,假设限定规则包含:如果用户输入的查询关键词中包含“360影视”,则需要在“360影视”站点中进行搜索。某用户输入了“葫芦娃360影视”进行搜索查询,其中包含了“360影视”,则搜索引擎选择在“360影视”的域名“www.360kan.com”下进行搜索查询,得到“360影视”站点上的“葫芦娃”节目作为搜索结果提供给用户。
如图2所示,本发明的一个实施例中提供了一种搜索查询方法,其包括:
步骤210,从预设的搜索日志中获取URL对应的第二查询关键词。在本实施例中,搜索日志可以是根据搜索引擎行为记录的日志,第二查询关键词即为历史查询关键词。
步骤220,从URL对应的第二查询关键词中提取站点名称。在本实施例中,提取的站点名称可以为一个或多个。
步骤230,根据第二查询关键词和站点名称进行训练得到限定规则,且在第一查询关键词符合限定规则时,得到限定站点的名称。在本实施例中,基于历史数据可以挖掘到限定规则,历史数据反映了用户的历史搜索行为,所以基于历史数据得到的限定规则对用户更加适用。具体地,还可以依据该URL是否被点击的数据来进行训练。
步骤240,识别用户输入的第一查询关键词是否符合预设的在限定站点内进行搜索的限定规则。
步骤250,如符合适于在限定站点内进行搜索的限定规则,则按限定站点的名称,确定限定站点的域名,并在限定站点的域名下搜索第一查询关键词对应的搜索结果。在本实施例中,只要确定了站点的名称,那么站点的域名也就能够确定。
根据图2,在搜索引擎的搜索日志中,假设存在了“www.360kan.com/jqm”的url,则获取其对应的查询关键词“机器猫360影视”,从中提取出站点名称“360影视”,则基于“机器猫360影视”和“360影视”可以进行限定规则的训练,可以采用决策树方式训练。某用户输入了“葫芦娃360影视”进行搜索查询,搜索引擎判断其符合限定规则,并判断限定站点名称为“360影视”,则搜索引擎选择在“360影视”的域名“www.360kan.com”下进行搜索查询,得到“360影视”站点上的“葫芦娃”节目作为搜索结果提供给用户。
如图3所示,本发明的一个实施例中提供了一种搜索查询方法,其包括:
步骤310,从预设的搜索日志中获取URL对应的第二查询关键词。
步骤320,从URL对应的第二查询关键词中提取站点名称。
步骤330,根据第二查询关键词和站点名称进行训练得到限定规则,且在第一查询关键词符合限定规则时,得到限定站点的名称。
步骤340,从URL中提取域名。
步骤350,建立所提取域名与站点名称之间的对应关系。在本实施例中,一个域名可以与多个站点名称之间建立对应关系。
步骤360,识别用户输入的第一查询关键词是否符合预设的在限定站点内进行搜索的限定规则。
步骤370,如符合适于在限定站点内进行搜索的限定规则,则根据限定站点的名称和对应关系,查找限定站点的域名,并在限定站点的域名下搜索第一查询关键词对应的搜索结果。根据本实施例的技术方案,通过建立的对应关系,可以快速找到限定站点的域名。
根据图3,在搜索引擎的搜索日志中,假设存在了“www.360kan.com/jqm”的url,则从中可提取域名“www.360kan.com”,并建立“360影视”与“www.360kan.com”的对应关系。则某用户输入了“葫芦娃360影视”进行搜索查询,搜索引擎判断其符合限定规则,并判断限定站点名称为“360影视”,则搜索引擎根据对应关系,可知需要在域名“www.360kan.com”下进行搜索查询,得到“360影视”站点上的“葫芦娃”节目作为搜索结果提供给用户。
如图4所示,本发明的一个实施例中提供了一种搜索查询方法,其包括:
步骤410,从预设的搜索日志中获取URL对应的第二查询关键词。
步骤420,从URL对应的第二查询关键词中提取站点名称。
步骤430,对于每个提取的站点名称,根据每个站点名称出现在所述第二查询关键词中时对应的域名首页的被点击次数高低判断是否对其保留。根据本实施例的技术方案,由于从同一查询关键词提取的站点名称可能有多个,因为有必要对其进行筛选保留,而对应域名首页点击次数越高则越说明域名与站点名称的相关度更高,站点名称更有可能是正确的,有必要进行保留。
步骤440,根据第二查询关键词和站点名称进行训练得到限定规则,且在第一查询关键词符合限定规则时,得到限定站点的名称。
步骤450,识别用户输入的第一查询关键词是否符合预设的在限定站点内进行搜索的限定规则。
步骤460,如符合适于在限定站点内进行搜索的限定规则,则按限定站点的名称,确定限定站点的域名,并在限定站点的域名下搜索第一查询关键词对应的搜索结果。
根据图4,对于从“www.360kan.com/jqm”提取的站点名称“360影视”,判断在“360影视”出现在查询关键词时,“www.360kan.com”的被点击次数较高时则将“360影视”作为“www.360kan.com”的站点名称。
如图5所示,本发明的一个实施例中提供了一种搜索查询方法,其包括:
步骤510,从预设的搜索日志中获取URL对应的第二查询关键词。
步骤520,从URL对应的第二查询关键词中提取站点名称。
步骤530,根据第二查询关键词和站点名称进行训练得到限定规则,且在第一查询关键词符合限定规则时,得到限定站点的名称。
步骤540,识别用户输入的第一查询关键词是否符合预设的在限定站点内进行搜索的限定规则。
步骤550,如符合适于在限定站点内进行搜索的限定规则,从第一查询关键词中识别出限定站点的名称的对应内容。在本实施例中,对应内容可以是与限定站点名称相同的内容,或者是同义词,或者是限定站点名称的拼音或英文对照。
步骤560,在限定站点的域名下,按第一查询关键词中除对应内容外的部分进行搜索。根据本实施例的技术方案,因为用户输入的查询关键词中往往一部分用于限定站点,而另一部分才用于反映其需求的资源,所以通过本实施例可以合理将两部分划分以准确地进行搜索。
根据图5,某用户输入了“葫芦娃360yingshi”进行搜索查询,基于限定规则判断用户需求在“360影视”站点上进行搜索,则识别出与“360影视”对应的“360yingshi”,其中,“yingshi”为“影视”的拼音,则搜索引擎选择在“360影视”的域名“www.360kan.com”下以“葫芦娃”为新的查询关键词进行搜索。
如图6所示,本发明的一个实施例中提供了一种搜索查询方法,其包括:
步骤610,从预设的搜索日志中获取URL对应的第二查询关键词。
步骤620,从URL对应的第二查询关键词中提取站点名称。
步骤630,根据第二查询关键词和站点名称进行训练得到限定规则,且在第一查询关键词符合限定规则时,得到限定站点的名称。
步骤640,识别用户输入的第一查询关键词是否符合预设的在限定站点内进行搜索的限定规则。
步骤650,如符合适于在限定站点内进行搜索的限定规则,对第一查询关键词进行分词得到多个词语,并分别判断每个词语是否是限定站点名称的对应的内容。在本实施例中,可以采用现有的分词技术进行分词。而在分词之前,还可以设置黑名单和白名单,黑名单中可设置一些需要屏蔽掉的词语,白名单中可设置一些返回固定结果的词语。同时,在分词时,还需要避免对一些保护词进行分词,例如,“钢铁是怎样炼成的”;还可以过滤掉一些词语,例如一些谓语。
步骤660,在限定站点的域名下,按第一查询关键词中除对应内容外的部分进行搜索。
根据图6,某用户输入了“葫芦娃360影视”进行搜索查询,基于限定规则判断用户需求在“360影视”站点上进行搜索,对“葫芦娃360影视”分词后得到“葫芦娃”和“360影视”,其中“360影视”与站点对应,则搜索引擎选择在“360影视”的域名“www.360kan.com”下以“葫芦娃”为新的查询关键词进行搜索。
如图7所示,本发明的一个实施例中提供了一种搜索查询装置,其包括:
第一查询关键词识别模块710,识别用户输入的第一查询关键词是否符合预设的在限定站点内进行搜索的限定规则。在本实施例中,对限定规则的类型不进行限制,例如,限定规则可以是:对多个站点的名称进行记录,如果第一查询关键词中包含了其中的站点名称,则判断需要在该站点下进行搜索。
搜索模块720,如符合适于在限定站点内进行搜索的限定规则,则在限定站点的域名下搜索第一查询关键词对应的搜索结果。根据本实施例的技术方案,搜索查询的结果既不会包含非限定站点外的结果,也不会包含某些站点的首页;由于仅在限定站点上进行搜索,所以搜索产生的计算量也较小,也更容易避免非限定站点的作弊网页的干扰。
根据图7,假设限定规则包含:如果用户输入的查询关键词中包含“360影视”,则需要在“360影视”站点中进行搜索。某用户输入了“葫芦娃360影视”进行搜索查询,其中包含了“360影视”,则搜索引擎选择在“360影视”的域名“www.360kan.com”下进行搜索查询,得到“360影视”站点上的“葫芦娃”节目作为搜索结果提供给用户。
如图8所示,本发明的一个实施例中提供了一种搜索查询装置,其包括:
第二查询关键词获取模块810,从预设的搜索日志中获取URL对应的第二查询关键词。在本实施例中,搜索日志可以是根据搜索引擎行为记录的日志,第二查询关键词即为历史查询关键词。
站点名称提取模块820,从URL对应的第二查询关键词中提取站点名称。在本实施例中,提取的站点名称可以为一个或多个。
训练模块830,根据第二查询关键词和站点名称进行训练得到限定规则,且在第一查询关键词符合限定规则时,得到限定站点的名称。在本实施例中,基于历史数据可以挖掘到限定规则,历史数据反映了用户的历史搜索行为,所以基于历史数据得到的限定规则对用户更加适用。具体地,还可以根据该URL是否被点击的数据来进行训练。
第一查询关键词识别模块840,识别用户输入的第一查询关键词是否符合预设的在限定站点内进行搜索的限定规则。
搜索模块850,如符合适于在限定站点内进行搜索的限定规则,则按限定站点的名称,确定限定站点的域名,并在限定站点的域名下搜索第一查询关键词对应的搜索结果。在本实施例中,只要确定了站点的名称,那么站点的域名也就能够确定。
根据图2,在搜索引擎的搜索日志中,假设存在了“www.360kan.com/jqm”的url,则获取其对应的查询关键词“机器猫360影视”,从中提取出站点名称“360影视”,则基于“机器猫360影视”和“360影视”可以进行限定规则的训练,可以采用决策树方式训练。某用户输入了“葫芦娃360影视”进行搜索查询,搜索引擎判断其符合限定规则,并判断限定站点名称为“360影视”,则搜索引擎选择在“360影视”的域名“www.360kan.com”下进行搜索查询,得到“360影视”站点上的“葫芦娃”节目作为搜索结果提供给用户。
如图9所示,本发明的一个实施例中提供了一种搜索查询装置,其包括:
第二查询关键词获取模块910,从预设的搜索日志中获取URL对应的第二查询关键词。
站点名称提取模块920,从URL对应的第二查询关键词中提取站点名称。
训练模块930,根据第二查询关键词和站点名称进行训练得到限定规则,且在第一查询关键词符合限定规则时,得到限定站点的名称。
域名提取模块940,从URL中提取域名。
对应关系建立模块950,建立所提取域名与站点名称之间的对应关系。在本实施例中,一个域名可以与多个站点名称之间建立对应关系。
第一查询关键词识别模块960,识别用户输入的第一查询关键词是否符合预设的在限定站点内进行搜索的限定规则。
搜索模块970,如符合适于在限定站点内进行搜索的限定规则,则根据限定站点的名称和对应关系,查找限定站点的域名,并在限定站点的域名下搜索第一查询关键词对应的搜索结果。根据本实施例的技术方案,通过建立的对应关系,可以快速找到限定站点的域名。
根据图9,在搜索引擎的搜索日志中,假设存在了“www.360kan.com/jqm”的url,则从中可提取域名“www.360kan.com”,并建立“360影视”与“www.360kan.com”的对应关系。则某用户输入了“葫芦娃360影视”进行搜索查询,搜索引擎判断其符合限定规则,并判断限定站点名称为“360影视”,则搜索引擎根据对应关系,可知需要在域名“www.360kan.com”下进行搜索查询,得到“360影视”站点上的“葫芦娃”节目作为搜索结果提供给用户。
如图8所示,本发明的一个实施例中提供了一种搜索查询装置,其包括:
第二查询关键词提取模块810,从预设的搜索日志中获取URL对应的第二查询关键词。
站点名称提取模块820,从URL对应的第二查询关键词中提取站点名称。
站点名称提取模块820对于每个提取的站点名称,根据每个站点名称出现在所述第二查询关键词中时对应的域名首页的被点击次数高低判断是否对其保留。根据本实施例的技术方案,由于从同一查询关键词提取的站点名称可能有多个,因为有必要对其进行筛选保留,而对应域名首页点击次数越高则越说明域名与站点名称的相关度更高,站点名称更有可能是正确的,有必要进行保留。
训练模块830,根据第二查询关键词和站点名称进行训练得到限定规则,且在第一查询关键词符合限定规则时,得到限定站点的名称。
第一查询关键词识别模块840,识别用户输入的第一查询关键词是否符合预设的在限定站点内进行搜索的限定规则。
搜索模块850,如符合适于在限定站点内进行搜索的限定规则,则按限定站点的名称,确定限定站点的域名,并在限定站点的域名下搜索第一查询关键词对应的搜索结果。
根据图8,对于从“www.360kan.com/jqm”提取的站点名称“360影视”,判断在“360影视”出现在查询关键词时,“www.360kan.com”的被点击次数较高时则将“360影视”作为“www.360kan.com”的站点名称。
如图8所示,本发明的一个实施例中提供了一种搜索查询装置,其包括:
第二查询关键词获取模块810,从预设的搜索日志中获取URL对应的第二查询关键词。
站点名称提取模块820,从URL对应的第二查询关键词中提取站点名称。
训练模块830,根据第二查询关键词和站点名称进行训练得到限定规则,且在第一查询关键词符合限定规则时,得到限定站点的名称。
第一查询关键词识别模块840,识别用户输入的第一查询关键词是否符合预设的在限定站点内进行搜索的限定规则。
搜索模块850,如符合适于在限定站点内进行搜索的限定规则,从第一查询关键词中识别出限定站点的名称的对应内容。在本实施例中,对应内容可以是与限定站点名称相同的内容,或者是同义词,或者是限定站点名称的拼音或英文对照。
搜索模块850在限定站点的域名下,按第一查询关键词中除对应内容外的部分进行搜索。根据本实施例的技术方案,因为用户输入的查询关键词中往往一部分用于限定站点,而另一部分才用于反映其需求的资源,所以通过本实施例可以合理将两部分划分以准确地进行搜索。
根据图8,某用户输入了“葫芦娃360yingshi”进行搜索查询,基于限定规则判断用户需求在“360影视”站点上进行搜索,则识别出与“360影视”对应的“360yingshi”,其中,“yingshi”为“影视”的拼音,则搜索引擎选择在“360影视”的域名“www.360kan.com”下以“葫芦娃”为新的查询关键词进行搜索。
如图8所示,本发明的一个实施例中提供了一种搜索查询装置,其包括:
第二查询关键词获取模块810,从预设的搜索日志中获取URL对应的第二查询关键词。
站点名称提取模块820,从URL对应的第二查询关键词中提取站点名称。
训练模块830,根据第二查询关键词和站点名称进行训练得到限定规则,且在第一查询关键词符合限定规则时,得到限定站点的名称。
第一查询关键词识别模块840,识别用户输入的第一查询关键词是否符合预设的在限定点内进行搜索的限定规则。
搜索模块850,如符合适于在限定站点内进行搜索的限定规则,对第一查询关键词进行分词得到多个词语,并分别判断每个词语是否是限定站点名称的对应内容。在本实施例中,可以采用现有的分词技术进行分词。而在分词之前,还可以设置黑名单和白名单,黑名单中可设置一些需要屏蔽掉的词语,白名单中可设置一些返回固定结果的词语。同时,在分词时,还需要避免对一些保护词进行分词,例如,“钢铁是怎样炼成的”;还可以过滤掉一些词语,例如一些谓语。
搜索模块850在限定站点的域名下,按第一查询关键词中除对应内容外的部分进行搜索。
根据图6,某用户输入了“葫芦娃360影视”进行搜索查询,基于限定规则判断用户需求在“360影视”站点上进行搜索,对“葫芦娃360影视”分词后得到“葫芦娃”和“360影视”,其中“360影视”与站点对应,则搜索引擎选择在“360影视”的域名“www.360kan.com”下以“葫芦娃”为新的查询关键词进行搜索。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的搜索查询装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
Claims (12)
1.一种搜索查询方法,其包括:
识别用户输入的第一查询关键词是否符合预设的在限定站点内进行搜索的限定规则;
如符合适于在所述限定站点内进行搜索的所述限定规则,则在所述限定站点的域名下搜索所述第一查询关键词对应的搜索结果。
2.根据权利要求1所述的方法,其中,在识别用户输入的第一查询关键词是否符合预设的在限定站点内进行搜索的限定规则之前,还包括:
从预设的搜索日志中获取URL对应的第二查询关键词;
从所述URL对应的所述第二查询关键词中提取站点名称;
根据所述第二查询关键词和所述站点名称进行训练得到所述限定规则,且在所述第一查询关键词符合所述限定规则时,得到所述限定站点的名称;
在在所述限定站点的域名下搜索所述第一查询关键词对应的搜索结果之前,还包括:
按所述限定站点的名称,确定所述限定站点的域名。
3.根据权利要求2所述的方法,其中,在识别用户输入的第一查询关键词是否符合预设的在限定站点内进行搜索的限定规则之前,还包括:
从所述URL中提取域名;
建立所提取域名与所述站点名称之间的对应关系;
按所述限定站点的名称,确定所述限定站点的域名,具体包括:
根据所述限定站点的名称和所述对应关系,查找所述限定站点的域名。
4.根据权利要求2所述的方法,其中,从所述URL对应的第二查询关键词中提取站点名称,还包括:
对于每个提取的站点名称,根据每个站点名称出现在所述第二查询关键词中时对应的域名首页的被点击次数高低判断是否对其保留。
5.根据权利要求2所述的方法,其中,在所述限定站点的域名下搜索所述第一查询关键词对应的搜索结果,具体包括:
从所述第一查询关键词中识别出所述限定站点的名称的对应内容;
在所述限定站点的域名下,按所述第一查询关键词中除所述对应内容外的部分进行搜索。
6.根据权利要求5所述的方法,其中,从所述第一查询关键词中识别出所述限定站点的名称的对应内容,具体包括:
对所述第一查询关键词进行分词得到多个词语;
分别判断每个词语是否是所述限定站点名称的对应内容。
7.一种搜索查询装置,其包括:
第一查询关键词识别模块,用于识别用户输入的第一查询关键词是否符合预设的在限定站点内进行搜索的限定规则;
搜索模块,如符合适于在所述限定站点内进行搜索的所述限定规则,则在所述限定站点的域名下搜索所述第一查询关键词对应的搜索结果。
8.根据权利要求7所述的装置,其中,还包括:
第二查询关键词获取模块,用于从预设的搜索日志中获取URL对应的第二查询关键词;
站点名称提取模块,用于从所述URL对应的所述第二查询关键词中提取站点名称;
训练模块,用于根据所述第二查询关键词和所述站点名称进行训练得到所述限定规则,且在所述第一查询关键词符合所述限定规则时,得到所述限定站点的名称;
域名确定模块,用于按所述限定站点的名称,确定所述限定站点的域名。
9.根据权利要求8所述的装置,其中,还包括:
域名提取模块,用于从所述URL中提取域名;
对应关系建立模块,用于建立所提取域名与所述站点名称之间的对应关系;
所述域名确定模块根据所述限定站点的名称和所述对应关系,查找所述限定站点的域名。
10.根据权利要求8所述的装置,其中,
所述站点名称提取模块对于每个提取的站点名称,根据每个站点名称出现在所述第二查询关键词中时对应的域名首页的被点击次数高低判断是否对其保留。
11.根据权利要求8所述的装置,其中,
所述搜索模块从所述第一查询关键词中识别出所述限定站点的名称的对应内容,并在所述限定站点的域名下,按所述第一查询关键词中除所述对应内容外的部分进行搜索。
12.根据权利要求11所述的装置,其中,
所述搜索模块对所述第一查询关键词进行分词得到多个词语,并分别判断每个词语是否是所述限定站点名称的对应内容。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410806927.4A CN104462519A (zh) | 2014-12-22 | 2014-12-22 | 搜索查询方法和装置 |
PCT/CN2015/095018 WO2016101737A1 (zh) | 2014-12-22 | 2015-11-19 | 搜索查询方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410806927.4A CN104462519A (zh) | 2014-12-22 | 2014-12-22 | 搜索查询方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104462519A true CN104462519A (zh) | 2015-03-25 |
Family
ID=52908554
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410806927.4A Pending CN104462519A (zh) | 2014-12-22 | 2014-12-22 | 搜索查询方法和装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN104462519A (zh) |
WO (1) | WO2016101737A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016101737A1 (zh) * | 2014-12-22 | 2016-06-30 | 北京奇虎科技有限公司 | 搜索查询方法和装置 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110147472B (zh) * | 2017-07-14 | 2021-10-15 | 北京搜狗科技发展有限公司 | 作弊站点的检测方法、装置以及用于作弊站点的检测装置 |
CN111797205B (zh) * | 2020-06-30 | 2024-03-12 | 百度在线网络技术(北京)有限公司 | 一种词表检索方法、装置、电子设备及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050060296A1 (en) * | 2003-09-15 | 2005-03-17 | Whitby David Scott | Search system and method for simultaneous querying and notification of multiple web sales sites |
CN101505328A (zh) * | 2008-02-04 | 2009-08-12 | 台达电子工业股份有限公司 | 应用语音识别的网络数据检索方法及其系统 |
CN102591932A (zh) * | 2011-12-23 | 2012-07-18 | 优视科技有限公司 | 语音搜索方法及系统、移动终端、中转服务器 |
CN102651022A (zh) * | 2012-03-31 | 2012-08-29 | 奇智软件(北京)有限公司 | 一种搜索方法和装置 |
CN102947824A (zh) * | 2010-06-11 | 2013-02-27 | 迪内希·阿南德·尼丁 | 使用关键字标识符对信息进行寻址和访问的系统和方法 |
CN102982150A (zh) * | 2012-11-27 | 2013-03-20 | 潘燕辉 | 一种基于客户端快速输入的搜索方法 |
CN103678443A (zh) * | 2012-09-19 | 2014-03-26 | 弗里塞恩公司 | 用于提供内容提供者指定的url关键字导航的方法及系统 |
CN103873601A (zh) * | 2012-12-11 | 2014-06-18 | 百度在线网络技术(北京)有限公司 | 一种寻址类查询词的挖掘方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104123366A (zh) * | 2014-07-23 | 2014-10-29 | 谢建平 | 一种搜索方法及搜索服务器 |
CN104462519A (zh) * | 2014-12-22 | 2015-03-25 | 北京奇虎科技有限公司 | 搜索查询方法和装置 |
-
2014
- 2014-12-22 CN CN201410806927.4A patent/CN104462519A/zh active Pending
-
2015
- 2015-11-19 WO PCT/CN2015/095018 patent/WO2016101737A1/zh active Application Filing
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050060296A1 (en) * | 2003-09-15 | 2005-03-17 | Whitby David Scott | Search system and method for simultaneous querying and notification of multiple web sales sites |
CN101505328A (zh) * | 2008-02-04 | 2009-08-12 | 台达电子工业股份有限公司 | 应用语音识别的网络数据检索方法及其系统 |
CN102947824A (zh) * | 2010-06-11 | 2013-02-27 | 迪内希·阿南德·尼丁 | 使用关键字标识符对信息进行寻址和访问的系统和方法 |
CN102591932A (zh) * | 2011-12-23 | 2012-07-18 | 优视科技有限公司 | 语音搜索方法及系统、移动终端、中转服务器 |
CN102651022A (zh) * | 2012-03-31 | 2012-08-29 | 奇智软件(北京)有限公司 | 一种搜索方法和装置 |
CN103678443A (zh) * | 2012-09-19 | 2014-03-26 | 弗里塞恩公司 | 用于提供内容提供者指定的url关键字导航的方法及系统 |
CN102982150A (zh) * | 2012-11-27 | 2013-03-20 | 潘燕辉 | 一种基于客户端快速输入的搜索方法 |
CN103873601A (zh) * | 2012-12-11 | 2014-06-18 | 百度在线网络技术(北京)有限公司 | 一种寻址类查询词的挖掘方法及系统 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016101737A1 (zh) * | 2014-12-22 | 2016-06-30 | 北京奇虎科技有限公司 | 搜索查询方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2016101737A1 (zh) | 2016-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104537065A (zh) | 一种搜索结果的推送方法及系统 | |
CN104715064B (zh) | 一种实现在网页上标注关键词的方法和服务器 | |
US8799310B2 (en) | Method and system for processing a uniform resource locator | |
US20090240638A1 (en) | Syntactic and/or semantic analysis of uniform resource identifiers | |
CN103514299A (zh) | 信息搜索方法和装置 | |
CN104123366A (zh) | 一种搜索方法及搜索服务器 | |
CN103530364A (zh) | 提供下载链接的方法及系统 | |
CN105095391A (zh) | 利用分词程序识别机构名称的装置及方法 | |
CN105095381A (zh) | 新词识别方法和装置 | |
CN103186666A (zh) | 基于收藏进行搜索的方法、装置与设备 | |
CN103942264A (zh) | 推送包含新闻信息的网页的方法和装置 | |
CN102819384B (zh) | 一种输入栏处进行提示显示的方法和装置 | |
CN105808615A (zh) | 一种基于分词权重的文档索引生成方法和装置 | |
CN103984757A (zh) | 在搜索结果页上插入新闻信息条目的方法和系统 | |
US8712992B2 (en) | Method and apparatus for web crawling | |
CN104778232B (zh) | 一种基于长查询的搜索结果的优化方法和装置 | |
CN103530389A (zh) | 一种提高停用词搜索有效性的方法和装置 | |
CN104462519A (zh) | 搜索查询方法和装置 | |
CN103226574A (zh) | 信息搜索方法及装置 | |
CN103618742A (zh) | 获取子域名的方法和系统以及网站管理员权限验证方法 | |
CN103617225A (zh) | 一种关联网页搜索方法和系统 | |
Soulemane et al. | Crawling the hidden web: An approach to dynamic web indexing | |
CN104965902A (zh) | 一种富集化url的识别方法和装置 | |
CN105279249B (zh) | 一种网站中兴趣点数据的置信度的判定方法和装置 | |
CN104317929A (zh) | 搜索结果呈现优化方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20150325 |
|
RJ01 | Rejection of invention patent application after publication |