CN105843850A - 搜索优化方法和装置 - Google Patents

搜索优化方法和装置 Download PDF

Info

Publication number
CN105843850A
CN105843850A CN201610148071.5A CN201610148071A CN105843850A CN 105843850 A CN105843850 A CN 105843850A CN 201610148071 A CN201610148071 A CN 201610148071A CN 105843850 A CN105843850 A CN 105843850A
Authority
CN
China
Prior art keywords
key word
candidate keywords
candidate
feature
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610148071.5A
Other languages
English (en)
Other versions
CN105843850B (zh
Inventor
王丽杰
徐新超
刘备
刘占
刘占一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201610148071.5A priority Critical patent/CN105843850B/zh
Publication of CN105843850A publication Critical patent/CN105843850A/zh
Application granted granted Critical
Publication of CN105843850B publication Critical patent/CN105843850B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/319Inverted lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种搜索优化方法和装置,其中,搜索优化方法包括:获取输入的关键词,并将关键词切分为多个字段;获取每个字段对于关键词的重要度,并根据重要度获取符合预设条件的候选字段;基于倒排库对候选字段进行倒排拉链检索,并获取对应的候选关键词;基于迭代决策树GBDT模型对候选关键词进行排序,并获取排序结果;以及根据排序结果优化关键词,并根据优化后的关键词进行搜索,以获取搜索结果。本发明实施例通过对输入的关键词进行分析,并基于倒排库获取对应的候选关键词,再对候选关键词进行排序,以及根据排序结果优化关键词,最后根据优化后的关键词进行搜索获取搜索结果,从而获得更加满足用户需求的搜索结果,提升用户搜索体验。

Description

搜索优化方法和装置
技术领域
本发明涉及搜索引擎技术领域,尤其涉及一种搜索优化方法和装置。
背景技术
随着互联网的高速发展,搜索引擎已成为人们获取信息资源的重要工具之一。而如何提高搜索引擎的性能,则是目前亟需解决的问题。目前,主要是将用户输入的关键词修改为更通用、能够获得更多搜索结果的关键词。具体地,可采用对关键词中字段到字段的改写的方式,如将关键词“xxx的媳妇”中的字段“媳妇”,替换为“老婆”。也可采用词对齐的方式,如将关键词“桂林这个地方的著名景点有哪些”,替换为“桂林有哪些著名景点”。但是,以上两种方式均为等同替换,无法获得更加满足用户需求的搜索结果。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本发明的一个目的在于提出一种搜索优化方法,能够优化关键词,从而获得更加满足用户需求的搜索结果,提升用户搜索体验。
本发明的第二个目的在于提出一种搜索优化装置。
为了实现上述目的,本发明第一方面实施例提出了一种搜索优化方法,包括:获取输入的关键词,并将所述关键词切分为多个字段;获取每个字段对于所述关键词的重要度,并根据所述重要度获取符合预设条件的候选字段;基于倒排库对所述候选字段进行倒排拉链检索,并获取对应的候选关键词;基于迭代决策树GBDT模型对所述候选关键词进行排序,并获取排序结果;以及根据所述排序结果优化所述关键词,并根据优化后的关键词进行搜索,以获取搜索结果。
本发明实施例的搜索优化方法,通过对输入的关键词进行分析,并基于倒排库获取对应的候选关键词,再对候选关键词进行排序,以及根据排序结果优化关键词,最后根据优化后的关键词进行搜索获取搜索结果,从而获得更加满足用户需求的搜索结果,提升用户搜索体验。
本发明第二方面实施例提出了一种搜索优化装置,包括:切分模块,用于获取输入的关键词,并将所述关键词切分为多个字段;获取模块,用于获取每个字段对于所述关键词的重要度,并根据所述重要度获取符合预设条件的候选字段;检索模块,用于基于倒排库对所述候选字段进行倒排拉链检索,并获取对应的候选关键词;排序模块,用于基于迭代决策树GBDT模型对所述候选关键词进行排序,并获取排序结果;以及优化模块,用于根据所述排序结果优化所述关键词,并根据优化后的关键词进行搜索,以获取搜索结果。
本发明实施例的搜索优化装置,通过对输入的关键词进行分析,并基于倒排库获取对应的候选关键词,再对候选关键词进行排序,以及根据排序结果优化关键词,最后根据优化后的关键词进行搜索获取搜索结果,从而获得更加满足用户需求的搜索结果,提升用户搜索体验。
附图说明
图1是根据本发明一个实施例的搜索优化方法的流程图。
图2是根据本发明一个实施例的对候选关键词进行排序的流程图。
图3是根据本发明一个实施例的搜索优化装置的结构示意图一。
图4是根据本发明一个实施例的搜索优化装置的结构示意图二。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的搜索优化方法和装置。
图1是根据本发明一个实施例的搜索优化方法的流程图。
如图1所示,搜索优化方法可包括:
S1、获取输入的关键词,并将关键词切分为多个字段。
举例来说,可接收用户在输入框中输入的关键词“桂林这个地方的著名景点有哪些”,然后将其切分为诸如“桂林”、“这个”、“地方”、“的”、“著名”、“景点”、“有”、“哪些”的字段。
S2、获取每个字段对于关键词的重要度,并根据重要度获取符合预设条件的候选字段。
继续上例进行描述,可分别获取“桂林”、“这个”、“地方”、“的”、“著名”、“景点”、“有”、“哪些”这些字段对于关键词“桂林这个地方的著名景点有哪些”的重要度。其中,重要度可以是但不仅限于IDF(反文档频率,Inverse Document Frequency)。然后可选取重要度排名为前三名的字段作为候选字段。如果关键词中的字段数小于三个,则选择全部字段作为候选字段。应当理解的是,选取前三名的字段作为候选字段为根据需求预先设置的预设条件,选取的字段数越多,后续的计算量越大,因此会影响系统的性能。故本例中选取三个字段。
S3、基于倒排库对候选字段进行倒排拉链检索,并获取对应的候选关键词。
在获取候选字段之后,可基于倒排库对候选字段进行倒排拉链检索,并获取对应的候选关键词。而在此之前,需要先建立倒排库。具体地,可统计互联网络中待选关键词样本的检索次数和满意度,再根据检索次数和满意度筛选出满足预设要求的关键词样本,然后根据关键词样本建立倒排库。其中,检索次数为互联网络中用户输入该待选关键词样本进行检索的次数。满意度则是用户点击该待选关键词样本进行检索的点击次数与用户感到满意次数之间的比值,例如用户点击了“桂林自助游”10次,其中有5次用户感到满意,则满意度可为50%。假设预设要求为点击次数大于等于1000次,且满意度要求大于等于80%,则可根据该要求筛选出符合的关键词样本。最后基于上述筛选出的关键词样本建立起倒排库。
在建立好倒排库之后,便可对候选字段进行倒排拉链检索,并获取对应的候选关键词。举例来说,对字段“桂林”进行倒排拉链检索,可获取包含该字段的多个候选关键词如“桂林有哪些著名景点”、“桂林好玩的地方”、“桂林自助游”、“桂林最著名的景点是什么啊”等等。应当注意的是,在获取候选关键词时,还包括以下规则:优先获取包含候选字段数量多的候选关键词,例如候选关键词“桂林有哪些著名景点”包含“桂林”、“著名”、“景点”三个候选字段,而候选关键词“桂林好玩的地方”只包含“桂林”一个候选字段,则优先选取候选关键词“桂林有哪些著名景点”。
S4、基于迭代决策树GBDT模型对候选关键词进行排序,并获取排序结果。
在获取候选关键词之后,可基于GBDT模型(Gradient Boosting Decision Tree,迭代决策树,)对候选关键词进行排序,并获取排序结果。具体地,如图2所示,可包括以下步骤:
S41、对候选关键词进行分析,并获取候选关键词对应的特征。其中,特征可包括字面特征、语义特征、点击特征、结构特征等。
S42、根据特征获取关键词与候选关键词的相似度。
其中,获取关键词与候选关键词的相似度可包括以下方式:
第一种方式,可基于字面特征获取输入的关键词与候选关键词的字编辑距离和/或拼音编辑距离来获取关键词与候选关键词的相似度,也可以获取相同字段对于包含相同字段的候选关键词的重要度来获取关键词与候选关键词的相似度。上述均为基于字面特征获取的相似度。
第二种方式,可基于语义特征获取关键词与候选关键词的词向量相似度,也可基于二元语法BIGRAM模型获取关键词与候选关键词的DNN(深层神经网络,Deep NeuralNetworks)相似度。上述为基于语义特征获取的相似度。
第三种方式,可基于点击特征获取关键词与候选关键词的点击相似度,其中,点击特征可包括点击次数、满意次数与点击次数的比值等。
第四种方式,可基于结构特征获取关键词与候选关键词的结构相似度。举例来说,关键词为“北京到上海的火车票”,其中一个候选关键词为“上海到北京的火车票”,关键词的结构为:起点=北京,终点=上海,需求=火车票;候选关键词的结构为:起点=上海,终点=北京,需求=火车票,由此可知两者的结构相反,因此两者结构相似度为零,即可滤掉该候选关键词。
S43、根据相似度对候选关键词进行排序,并获取排序结果。
在获取关键词与候选关键词的相似度之后,可根据相似度对候选关键词进行排序,并获取排序结果。举例来说,首先可优先选择包含候选字段数量多的候选关键词。如果候选关键词包含的候选字段数量相同,则优先选择候选字段重要度高的候选关键词。其中,若候选字段数量为多个,则获取候选字段重要度之和。然后再按照候选关键词的点击次数进行排序。
另外,为了更好的处理口语化的关键词,可先提取关键词的主干信息,然后获取关键词与候选关键词的第一GBDT得分,再获取主干信息与候选关键词的第二GBDT得分,最后获取第一GBDT得分和第二GBDT得分的平均得分,并根据平均得分对候选关键词进行排序,以获取排序结果。例如:用户输入的关键词为“你知道王俊凯的女朋友吗”,可对该关键词进行分析,然后提取对应的主干信息“王俊凯女朋友”。其中,提取主干信息的方法可以是但不限于获取字段对于关键词的重要度。然后获取“你知道王俊凯的女朋友吗”与候选关键词之间的相似度得分,再获取主干信息“王俊凯女朋友”与候选关键词之间的相似度得分,最后获取两者的平均值。按照数值从高到低的顺序对候选关键词进行排序。
S5、根据排序结果优化关键词,并根据优化后的关键词进行搜索,以获取搜索结果。
在获取排序结果之后,可根据排序结果优化关键词,即将排序结果中最优的候选关键词替换掉用户输入的关键词,再进行搜索,并获取对应搜索结果,从而获取更符合用户需求的搜索结果。
此外,在根据优化后的关键词进行搜索时,如果该关键词能够匹配到阿拉丁结果,则可直接在搜索结果页展示阿拉丁结果。其中,阿拉丁结果为通过接口直接展示实体结果的搜索结果,例如关键词中包含“天气”,则可直接通过预设的接口展示当天天气及未来一周的天气情况等。
本发明实施例的搜索优化方法,通过对输入的关键词进行分析,并基于倒排库获取对应的候选关键词,再对候选关键词进行排序,以及根据排序结果优化关键词,最后根据优化后的关键词进行搜索获取搜索结果,从而获得更加满足用户需求的搜索结果,提升用户搜索体验。
为实现上述目的,本发明还提出一种搜索优化装置。
图3是根据本发明一个实施例的搜索优化装置的结构示意图一。
如图3所示,搜索优化装置可包括:切分模块110、获取模块120、检索模块130、排序模块140和优化模块150。
切分模块110用于获取输入的关键词,并将关键词切分为多个字段。举例来说,可接收用户在输入框中输入的关键词“桂林这个地方的著名景点有哪些”,然后切分模块110将其切分为诸如“桂林”、“这个”、“地方”、“的”、“著名”、“景点”、“有”、“哪些”的字段。
获取模块120用于获取每个字段对于关键词的重要度,并根据重要度获取符合预设条件的候选字段。继续上例进行描述,可分别获取“桂林”、“这个”、“地方”、“的”、“著名”、“景点”、“有”、“哪些”这些字段对于关键词“桂林这个地方的著名景点有哪些”的重要度。其中,重要度可以是但不仅限于IDF(反文档频率,Inverse DocumentFrequency)。然后可选取重要度排名为前三名的字段作为候选字段。如果关键词中的字段数小于三个,则选择全部字段作为候选字段。应当理解的是,选取前三名的字段作为候选字段为根据需求预先设置的预设条件,选取的字段数越多,后续的计算量越大,因此会影响系统的性能。故本例中选取三个字段。
检索模块130用于基于倒排库对候选字段进行倒排拉链检索,并获取对应的候选关键词。具体地,检索模块130可对候选字段进行倒排拉链检索,并获取对应的候选关键词。举例来说,对字段“桂林”进行倒排拉链检索,可获取包含该字段的多个候选关键词如“桂林有哪些著名景点”、“桂林好玩的地方”、“桂林自助游”、“桂林最著名的景点是什么啊”等等。应当注意的是,在获取候选关键词时,还包括以下规则:优先获取包含候选字段数量多的候选关键词,例如候选关键词“桂林有哪些著名景点”包含“桂林”、“著名”、“景点”三个候选字段,而候选关键词“桂林好玩的地方”只包含“桂林”一个候选字段,则优先选取候选关键词“桂林有哪些著名景点”。
排序模块140用于基于迭代决策树GBDT模型对候选关键词进行排序,并获取排序结果。其中,排序模块140可包括分析单元141、获取单元142和排序单元143。
具体地,分析单元141可对候选关键词进行分析,并获取候选关键词对应的特征。其中,特征可包括字面特征、语义特征、点击特征、结构特征等。然后获取单元142可根据特征获取关键词与候选关键词的相似度。其中,获取关键词与候选关键词的相似度可包括以下方式:第一种方式,可基于字面特征获取输入的关键词与候选关键词的字编辑距离和/或拼音编辑距离来获取关键词与候选关键词的相似度,也可以获取相同字段对于包含相同字段的候选关键词的重要度来获取关键词与候选关键词的相似度。上述均为基于字面特征获取的相似度。第二种方式,可基于语义特征获取关键词与候选关键词的词向量相似度,也可基于二元语法BIGRAM模型获取关键词与候选关键词的DNN(深层神经网络,DeepNeural Networks)相似度。上述为基于语义特征获取的相似度。第三种方式,可基于点击特征获取关键词与候选关键词的点击相似度,其中,点击特征可包括点击次数、满意次数与点击次数的比值等。第四种方式,可基于结构特征获取关键词与候选关键词的结构相似度。举例来说,关键词为“北京到上海的火车票”,其中一个候选关键词为“上海到北京的火车票”,关键词的结构为:起点=北京,终点=上海,需求=火车票;候选关键词的结构为:起点=上海,终点=北京,需求=火车票,由此可知两者的结构相反,因此两者结构相似度为零,即可滤掉该候选关键词。在获取关键词与候选关键词的相似度之后,排序单元143可根据相似度对候选关键词进行排序,并获取排序结果。举例来说,首先可优先选择包含候选字段数量多的候选关键词。如果候选关键词包含的候选字段数量相同,则优先选择候选字段重要度高的候选关键词。其中,若候选字段数量为多个,则获取候选字段重要度之和。然后再按照候选关键词的点击次数进行排序。
另外,为了更好的处理口语化的关键词,排序模块140还可提取关键词的主干信息,然后获取关键词与候选关键词的第一GBDT得分,再获取主干信息与候选关键词的第二GBDT得分,最后获取第一GBDT得分和第二GBDT得分的平均得分,并根据平均得分对候选关键词进行排序,以获取排序结果。例如:用户输入的关键词为“你知道王俊凯的女朋友吗”,可对该关键词进行分析,然后提取对应的主干信息“王俊凯女朋友”。其中,提取主干信息的方法可以是但不限于获取字段对于关键词的重要度。然后获取“你知道王俊凯的女朋友吗”与候选关键词之间的相似度得分,再获取主干信息“王俊凯女朋友”与候选关键词之间的相似度得分,最后获取两者的平均值。按照数值从高到低的顺序对候选关键词进行排序。
优化模块150用于根据排序结果优化关键词,并根据优化后的关键词进行搜索,以获取搜索结果。在获取排序结果之后,优化模块150可根据排序结果优化关键词,即将排序结果中最优的候选关键词替换掉用户输入的关键词,再进行搜索,并获取对应搜索结果,从而获取更符合用户需求的搜索结果。
此外,在根据优化后的关键词进行搜索时,如果该关键词能够匹配到阿拉丁结果,则可直接在搜索结果页展示阿拉丁结果。其中,阿拉丁结果为通过接口直接展示实体结果的搜索结果,例如关键词中包含“天气”,则可直接通过预设的接口展示当天天气及未来一周的天气情况等。
如图4所示,搜索优化装置还可包括建立模块160。
在基于倒排库对候选字段进行倒排拉链检索,并获取对应的候选关键词之前,需要预先通过建立模块160建立倒排库。
具体地,建立模块160可统计互联网络中待选关键词样本的检索次数和满意度,再根据检索次数和满意度筛选出满足预设要求的关键词样本,然后根据关键词样本建立倒排库。其中,检索次数为互联网络中用户输入该待选关键词样本进行检索的次数。满意度则是用户点击该待选关键词样本进行检索的点击次数与用户感到满意次数之间的比值,例如用户点击了“桂林自助游”10次,其中有5次用户感到满意,则满意度可为50%。假设预设要求为点击次数大于等于1000次,且满意度要求大于等于80%,则可根据该要求筛选出符合的关键词样本。最后基于上述筛选出的关键词样本建立起倒排库。
本发明实施例的搜索优化装置,通过对输入的关键词进行分析,并基于倒排库获取对应的候选关键词,再对候选关键词进行排序,以及根据排序结果优化关键词,最后根据优化后的关键词进行搜索获取搜索结果,从而获得更加满足用户需求的搜索结果,提升用户搜索体验。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (18)

1.一种搜索优化方法,其特征在于,包括以下步骤:
获取输入的关键词,并将所述关键词切分为多个字段;
获取每个字段对于所述关键词的重要度,并根据所述重要度获取符合预设条件的候选字段;
基于倒排库对所述候选字段进行倒排拉链检索,并获取对应的候选关键词;
基于迭代决策树GBDT模型对所述候选关键词进行排序,并获取排序结果;以及
根据所述排序结果优化所述关键词,并根据优化后的关键词进行搜索,以获取搜索结果。
2.如权利要求1所述的方法,其特征在于,在基于倒排库对所述候选字段进行倒排拉链检索,并获取对应的候选关键词之前,还包括:
建立所述倒排库。
3.如权利要求2所述的方法,其特征在于,建立所述倒排库,包括:
统计网络中待选关键词样本的检索次数和满意度;
根据所述检索次数和所述满意度筛选出满足预设要求的关键词样本;以及
根据所述关键词样本建立所述倒排库。
4.如权利要求1所述的方法,其特征在于,基于迭代决策树GBDT模型对所述候选关键词进行排序,并获取排序结果,包括:
对所述候选关键词进行分析,并获取所述候选关键词对应的特征,所述特征包括字面特征、语义特征、点击特征和结构特征中的一种或多种;
根据所述特征获取所述关键词与所述候选关键词的相似度;
根据所述相似度对所述候选关键词进行排序,并获取排序结果。
5.如权利要求4所述的方法,其特征在于,根据所述特征获取所述关键词与所述候选关键词的相似度,包括:
基于所述字面特征获取所述关键词与所述候选关键词的字编辑距离和/或拼音编辑距离;和/或
获取相同字段对于包含所述相同字段的候选关键词的重要度。
6.如权利要求4所述的方法,其特征在于,根据所述特征获取所述关键词与所述候选关键词的相似度,包括:
基于所述语义特征获取所述关键词与所述候选关键词的词向量相似度;和/或
基于二元语法BIGRAM模型获取所述关键词与所述候选关键词的深层神经网络DNN相似度。
7.如权利要求4所述的方法,其特征在于,根据所述特征获取所述关键词与所述候选关键词的相似度,包括:
基于所述点击特征获取所述关键词与所述候选关键词的点击相似度。
8.如权利要求4所述的方法,其特征在于,根据所述特征获取所述关键词与所述候选关键词的相似度,包括:
基于所述结构特征获取所述关键词与所述候选关键词的结构相似度。
9.如权利要求1所述的方法,其特征在于,基于迭代决策树GBDT模型对所述候选关键词进行排序,并获取排序结果,还包括:
提取所述关键词的主干信息;
获取所述关键词与所述候选关键词的第一GBDT得分;
获取所述主干信息与所述候选关键词的第二GBDT得分;
获取所述第一GBDT得分和所述第二GBDT得分的平均得分,并根据所述平均得分对所述候选关键词进行排序,以获取排序结果。
10.一种搜索优化装置,其特征在于,包括:
切分模块,用于获取输入的关键词,并将所述关键词切分为多个字段;
获取模块,用于获取每个字段对于所述关键词的重要度,并根据所述重要度获取符合预设条件的候选字段;
检索模块,用于基于倒排库对所述候选字段进行倒排拉链检索,并获取对应的候选关键词;
排序模块,用于基于迭代决策树GBDT模型对所述候选关键词进行排序,并获取排序结果;以及
优化模块,用于根据所述排序结果优化所述关键词,并根据优化后的关键词进行搜索,以获取搜索结果。
11.如权利要求10所述的装置,其特征在于,所述装置还包括:
建立模块,用于在基于倒排库对所述候选字段进行倒排拉链检索,并获取对应的候选关键词之前,建立所述倒排库。
12.如权利要求11所述的装置,其特征在于,所述建立模块,用于:
统计网络中待选关键词样本的检索次数和满意度;
根据所述检索次数和所述满意度筛选出满足预设要求的关键词样本;以及
根据所述关键词样本建立所述倒排库。
13.如权利要求10所述的装置,其特征在于,所述排序模块,包括:
分析单元,用于对所述候选关键词进行分析,并获取所述候选关键词对应的特征,所述特征包括字面特征、语义特征、点击特征和结构特征中的一种或多种;
获取单元,用于根据所述特征获取所述关键词与所述候选关键词的相似度;
排序单元,用于根据所述相似度对所述候选关键词进行排序,并获取排序结果。
14.如权利要求13所述的装置,其特征在于,所述获取单元,用于:
基于所述字面特征获取所述关键词与所述候选关键词的字编辑距离和/或拼音编辑距离;和/或
获取相同字段对于包含所述相同字段的候选关键词的重要度。
15.如权利要求13所述的装置,其特征在于,所述获取单元,用于:
基于所述语义特征获取所述关键词与所述候选关键词的词向量相似度;和/或
基于二元语法BIGRAM模型获取所述关键词与所述候选关键词的深层神经网络DNN相似度。
16.如权利要求13所述的装置,其特征在于,所述获取单元,用于:
基于所述点击特征获取所述关键词与所述候选关键词的点击相似度。
17.如权利要求13所述的装置,其特征在于,所述获取单元,用于:
基于所述结构特征获取所述关键词与所述候选关键词的结构相似度。
18.如权利要求10所述的装置,其特征在于,所述排序模块,还用于:
提取所述关键词的主干信息;
获取所述关键词与所述候选关键词的第一GBDT得分;
获取所述主干信息与所述候选关键词的第二GBDT得分;
获取所述第一GBDT得分和所述第二GBDT得分的平均得分,并根据所述平均得分对所述候选关键词进行排序,以获取排序结果。
CN201610148071.5A 2016-03-15 2016-03-15 搜索优化方法和装置 Active CN105843850B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610148071.5A CN105843850B (zh) 2016-03-15 2016-03-15 搜索优化方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610148071.5A CN105843850B (zh) 2016-03-15 2016-03-15 搜索优化方法和装置

Publications (2)

Publication Number Publication Date
CN105843850A true CN105843850A (zh) 2016-08-10
CN105843850B CN105843850B (zh) 2020-07-24

Family

ID=56586956

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610148071.5A Active CN105843850B (zh) 2016-03-15 2016-03-15 搜索优化方法和装置

Country Status (1)

Country Link
CN (1) CN105843850B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107291797A (zh) * 2017-05-08 2017-10-24 北京字节跳动科技有限公司 一种基于页面内容的信息搜索方法
CN107301227A (zh) * 2017-06-21 2017-10-27 北京百度网讯科技有限公司 基于人工智能的搜索信息解析方法及装置
CN107330037A (zh) * 2017-06-27 2017-11-07 北京金山安全软件有限公司 用于关键词优化的方法、装置以及终端设备
WO2018086470A1 (zh) * 2016-11-10 2018-05-17 腾讯科技(深圳)有限公司 关键词提取方法、装置和服务器
CN108763332A (zh) * 2018-05-10 2018-11-06 北京奇艺世纪科技有限公司 一种搜索提示词的生成方法和装置
CN109857938A (zh) * 2019-01-30 2019-06-07 杭州太火鸟科技有限公司 基于企业信息的搜索方法、搜索装置及计算机存储介质
CN109944590A (zh) * 2019-01-08 2019-06-28 浙江大学 一种可靠的采煤机切割模式识别系统
CN110096509A (zh) * 2019-05-16 2019-08-06 普元信息技术股份有限公司 大数据环境下实现历史数据拉链表存储建模处理的系统及方法
CN110175219A (zh) * 2019-05-10 2019-08-27 广州视源电子科技股份有限公司 一种k12阶段重复学校识别方法、装置、设备及存储介质
WO2020019564A1 (zh) * 2018-07-27 2020-01-30 天津字节跳动科技有限公司 搜索排序方法、装置、电子设备和存储介质
CN112149005A (zh) * 2019-06-27 2020-12-29 腾讯科技(深圳)有限公司 用于确定搜索结果的方法、装置、设备和可读存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102004792A (zh) * 2010-12-07 2011-04-06 百度在线网络技术(北京)有限公司 一种热搜词生成方法及系统
CN103377232A (zh) * 2012-04-25 2013-10-30 阿里巴巴集团控股有限公司 标题关键词推荐方法及系统
CN103399879A (zh) * 2013-07-16 2013-11-20 百度在线网络技术(北京)有限公司 基于用户搜索日志的兴趣实体获得方法及装置
US20130339369A1 (en) * 2012-06-19 2013-12-19 Alibaba Group Holding Limited Search Method and Apparatus
CN103914543A (zh) * 2014-04-03 2014-07-09 北京百度网讯科技有限公司 搜索结果的展现方法和装置
CN103942279A (zh) * 2014-04-01 2014-07-23 百度(中国)有限公司 搜索结果的展现方法和装置
CN104636334A (zh) * 2013-11-06 2015-05-20 阿里巴巴集团控股有限公司 一种关键词推荐方法和装置
CN105302882A (zh) * 2015-10-14 2016-02-03 东软集团股份有限公司 获取关键词的方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102004792A (zh) * 2010-12-07 2011-04-06 百度在线网络技术(北京)有限公司 一种热搜词生成方法及系统
CN103377232A (zh) * 2012-04-25 2013-10-30 阿里巴巴集团控股有限公司 标题关键词推荐方法及系统
US20130339369A1 (en) * 2012-06-19 2013-12-19 Alibaba Group Holding Limited Search Method and Apparatus
CN103399879A (zh) * 2013-07-16 2013-11-20 百度在线网络技术(北京)有限公司 基于用户搜索日志的兴趣实体获得方法及装置
CN104636334A (zh) * 2013-11-06 2015-05-20 阿里巴巴集团控股有限公司 一种关键词推荐方法和装置
CN103942279A (zh) * 2014-04-01 2014-07-23 百度(中国)有限公司 搜索结果的展现方法和装置
CN103914543A (zh) * 2014-04-03 2014-07-09 北京百度网讯科技有限公司 搜索结果的展现方法和装置
CN105302882A (zh) * 2015-10-14 2016-02-03 东软集团股份有限公司 获取关键词的方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
宋宇轩: "基于搜索日志和点击日志的同义词挖掘的研究和实现", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018086470A1 (zh) * 2016-11-10 2018-05-17 腾讯科技(深圳)有限公司 关键词提取方法、装置和服务器
US10878004B2 (en) 2016-11-10 2020-12-29 Tencent Technology (Shenzhen) Company Limited Keyword extraction method, apparatus and server
CN107291797A (zh) * 2017-05-08 2017-10-24 北京字节跳动科技有限公司 一种基于页面内容的信息搜索方法
CN107301227A (zh) * 2017-06-21 2017-10-27 北京百度网讯科技有限公司 基于人工智能的搜索信息解析方法及装置
US10657325B2 (en) 2017-06-21 2020-05-19 Beijing Baidu Netcom Science And Technology Co., Ltd. Method for parsing query based on artificial intelligence and computer device
CN107330037B (zh) * 2017-06-27 2020-03-27 北京金山安全软件有限公司 用于关键词优化的方法、装置以及终端设备
CN107330037A (zh) * 2017-06-27 2017-11-07 北京金山安全软件有限公司 用于关键词优化的方法、装置以及终端设备
CN108763332A (zh) * 2018-05-10 2018-11-06 北京奇艺世纪科技有限公司 一种搜索提示词的生成方法和装置
WO2020019564A1 (zh) * 2018-07-27 2020-01-30 天津字节跳动科技有限公司 搜索排序方法、装置、电子设备和存储介质
CN109944590A (zh) * 2019-01-08 2019-06-28 浙江大学 一种可靠的采煤机切割模式识别系统
CN109857938B (zh) * 2019-01-30 2020-07-28 杭州太火鸟科技有限公司 基于企业信息的搜索方法、搜索装置及计算机存储介质
CN109857938A (zh) * 2019-01-30 2019-06-07 杭州太火鸟科技有限公司 基于企业信息的搜索方法、搜索装置及计算机存储介质
CN110175219A (zh) * 2019-05-10 2019-08-27 广州视源电子科技股份有限公司 一种k12阶段重复学校识别方法、装置、设备及存储介质
CN110096509A (zh) * 2019-05-16 2019-08-06 普元信息技术股份有限公司 大数据环境下实现历史数据拉链表存储建模处理的系统及方法
CN112149005A (zh) * 2019-06-27 2020-12-29 腾讯科技(深圳)有限公司 用于确定搜索结果的方法、装置、设备和可读存储介质
CN112149005B (zh) * 2019-06-27 2023-09-01 腾讯科技(深圳)有限公司 用于确定搜索结果的方法、装置、设备和可读存储介质

Also Published As

Publication number Publication date
CN105843850B (zh) 2020-07-24

Similar Documents

Publication Publication Date Title
CN105843850A (zh) 搜索优化方法和装置
US9348934B2 (en) Systems and methods for facilitating open source intelligence gathering
CN103678576B (zh) 基于动态语义分析的全文检索系统
CN105045875B (zh) 个性化信息检索方法及装置
CN105069103B (zh) App搜索引擎利用用户评论的方法及系统
CN105095433A (zh) 实体推荐方法及装置
CN103942198B (zh) 用于挖掘意图的方法和设备
CN107526846B (zh) 频道排序模型的生成、排序方法、装置、服务器和介质
CN103064880B (zh) 一种基于搜索信息向用户提供网站选择的方法、装置和系统
US9400844B2 (en) System for finding website invitation cueing keywords and for attribute-based generation of invitation-cueing instructions
CN107145545A (zh) 一种基于位置的社交网络中Top‑k区域用户文本数据推荐方法
CN104636407B (zh) 参数取值训练及搜索请求处理方法和装置
CN107122447A (zh) 一种基于偏好的多数据源融合的网络搜索系统及控制方法
CN103488787B (zh) 一种基于视频搜索的在线播放入口对象的推送方法和装置
CN105512316A (zh) 一种结合移动终端的知识服务系统
CN106484135A (zh) 一种用于提供输入候选项的方法与装置
CN106599215A (zh) 一种基于深度学习的问句生成方法和问句生成系统
CN113282834A (zh) 基于移动互联网数据深度挖掘的网页搜索智能排序方法、系统和计算机存储介质
KR102601545B1 (ko) 지리 위치점 정렬 방법, 정렬 모델 트레이닝 방법 및 대응하는 장치
CN103927339B (zh) 知识重组系统和知识重组方法
KR20180075234A (ko) 컨텐츠에 대한 유입검색어 및 연관검색어 기반의 컨텐츠 추천방법 및 추천장치
CN102053960B (zh) 依群需特征构建物联互联双网快准搜索引擎的方法及系统
CN103942232B (zh) 用于挖掘意图的方法和设备
JP5341847B2 (ja) 検索クエリ推薦方法、検索クエリ推薦装置、検索クエリ推薦プログラム
JP5579140B2 (ja) 文書検索装置及び方法及びプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant