CN104636407A - 参数取值训练及搜索请求处理方法和装置 - Google Patents

参数取值训练及搜索请求处理方法和装置 Download PDF

Info

Publication number
CN104636407A
CN104636407A CN201310574741.6A CN201310574741A CN104636407A CN 104636407 A CN104636407 A CN 104636407A CN 201310574741 A CN201310574741 A CN 201310574741A CN 104636407 A CN104636407 A CN 104636407A
Authority
CN
China
Prior art keywords
page
degree
correlation
keyword
line
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310574741.6A
Other languages
English (en)
Other versions
CN104636407B (zh
Inventor
郑枫耀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201310574741.6A priority Critical patent/CN104636407B/zh
Publication of CN104636407A publication Critical patent/CN104636407A/zh
Application granted granted Critical
Publication of CN104636407B publication Critical patent/CN104636407B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种参数取值训练及搜索请求处理方法和装置,涉及信息搜索领域,用于提高在线关键词搜索时搜索结果的准确性。本方法中,预先通过模型训练方法得到页面相关度确定方法所使用的参数的训练结果值,该训练结果值能够使得页面排序结果对应的搜索引擎质量衡量指标值符合期望值;在线接收到包含输入的关键词的搜索请求并搜索与用户输入的关键词相关的页面后,根据该页面相关度确定方法和该训练结果值,确定搜索到的每个页面与输入的关键词的相关度并根据各页面的相关度进行页面排序,按照排序结果将各页面的地址信息进行展现。采用本发明可以提高搜索结果的准确性。

Description

参数取值训练及搜索请求处理方法和装置
技术领域
本发明涉及信息搜索领域,尤其涉及一种参数取值训练及搜索请求处理方法和装置。
背景技术
目前,在用户通过搜索引擎进行信息搜索的场景中,在线服务器在接收到包含用户输入的关键词的搜索请求后,搜索与该关键词相关的页面,并在数据库中查找该关键词对应的用户点击模型数据,该用户点击模型数据中包含根据历史用户点击数据预先得到的与该关键词相关的点击率最高的N条页面,其中N为不小于1的整数;将搜索到的各页面进行排序,其中,与该关键词相关的点击率最高的N条页面被排在较前面;在将搜索到的各页面进行排序后,按照排序结果将各页面的统一资源定位符(Uniform Resource Locator,URL)展现给用户,此时,与该关键词相关的历史点击率最高的N条页面排在搜索结果展现页面的较前面,那么,该N条页面的URL很有可能被用户优先点击,在点击进入页面发现其中的信息并不是用户所期望的信息时,再返回搜索结果展现页面继续点击其他页面的URL。一般情况下,上述根据历史用户点击数据得到关键词对应的点击率最高的N条页面的URL的方法为:离线服务器获取与该关键词相关的多个页面及获取的每个页面的历史点击数据,对于每个页面,将该页面的历史点击数据代入将历史点击数据作为输入参数的相关度计算公式,计算得到该页面对应的相关度值,相关度值越高的页面与该关键词的相关性越高,就越可能符合用户的期望;在得到获取的各页面对应的相关度值后,将相关度值最高的N个页面作为点击率最高的N条页面,并将该N条页面的URL携带在用户点击模型数据中分发给在线服务器。
上述的相关度计算公式中,历史用户点击数据可能对应有表明该点击数据对计算结果影响程度的权值参数,该权值参数通常情况下的取值是参照人为设定的经验值。
在实现本发明的过程中,发明人发现现有技术中存在以下技术问题:
根据上述描述,现有技术中相关度确定方法所采用的参数的取值均为设定的经验值,使得页面与关键词的相关度确定结果的准确性低,进而会导致页面排序结果不合理,不能将相关度高的页面排在较前面、将相关度低的页面排在较后面,进而降低了在线关键词搜索时搜索结果的准确性。
发明内容
本发明实施例提供一种参数取值训练及搜索请求处理方法和装置,用于提高在线关键词搜索时搜索结果的准确性。
本发明实施例提供了一种确定页面相关度所使用参数的取值训练方法,该方法包括:
抽取多个离线关键词及每个离线关键词的多个相关页面;
根据抽取的各离线关键词和各相关页面,采用模型训练方法得到页面相关度确定方法所使用的参数的训练结果值,以使在采用所述页面相关度确定方法和所述训练结果值确定离线关键词的相关页面的相关度并根据确定结果将该离线关键词的相关页面进行排序时,能够使排序结果对应的搜索引擎质量衡量指标值符合期望值;
将所述页面相关度确定方法所使用的参数的训练结果值进行输出,以用于确定关键词的相关页面的相关度。
较优的,所述根据抽取的各离线关键词和各相关页面,采用模型训练方法得到页面相关度确定方法所使用的参数的训练结果值,具体包括:
执行多次如下训练操作:采用所述页面相关度确定方法和所述参数的一组可能取值,确定各离线关键词的各相关页面与对应离线关键词的相关度,对于每个离线关键词,分别根据该离线关键词的各相关页面的相关度对该离线关键词的各相关页面进行排序,并确定每次排序结果对应的搜索引擎质量衡量指标值的和值;其中每次训练操作过程中所述页面相关度确定方法所使用的参数的一组可能取值不同;
将得到的最大的搜索引擎质量衡量指标值的和值对应的训练操作过程中所述页面相关度确定方法所使用的参数的一组可能取值,作为该参数的训练结果值。
较优的,所述页面相关度确定方法所使用的参数包括离线参数和在线参数;
在抽取多个离线关键词及每个离线关键词的多个相关页面之后、且执行多次所述训练操作之前,进一步包括:收集各离线关键词的各相关页面的历史点击数据;
所述采用所述页面相关度确定方法和所述参数的一组可能取值,确定各离线关键词的各相关页面与对应离线关键词的相关度,具体包括:
对于各离线关键词的各相关页面,根据该相关页面的历史点击数据和所述离线参数的可能取值,按照第一设定方法得到该相关页面的离线相关度;
根据得到的离线相关度和所述在线参数的可能取值,按照第二设定方法得到每个相关页面的在线相关度;对于每个相关页面,根据该相关页面的在线相关度确定该相关页面与对应离线关键词的相关度。
较优的,训练操作过程中所述页面相关度确定方法所使用的参数的一组可能取值的选取方法包括:
将随机生成的所述页面相关度确定方法所使用的参数的至少一组可能取值放入第一存储单元;
对于每次训练操作过程,从第一存储单元中选取所述参数的一组可能取值,作为本次训练操作过程中所述页面相关度确定方法所使用的参数的一组可能取值;
在每次训练操作过程结束后,将本次训练操作过程中所述页面相关度确定方法所使用的参数的一组可能取值放入第二存储单元;从第二存储单元中选取至少一组可能取值,并根据选取的各组可能取值按照第三设定方法生成新的一组可能取值,将该新的一组可能取值放入第一存储单元。
较优的,所述从第二存储单元中选取所述参数的至少一组可能取值,具体包括:
将第二存储单元中所述参数的各组可能取值进行排序,使得对应的搜索引擎质量衡量指标值的和值较大的一组可能取值位于对应的搜索引擎质量衡量指标值的和值较小的一组可能取值之前;选取排列在最前面的至少一组可能取值。
较优的,所述第三设定方法为:
爬山算法,或模拟退火算法,或遗传算法。
较优的,第一设定方法包括如下公式一到公式三:
公式一: score 1 = p 0 + p 1 × DocFirstClicks + p 2 × DocClicks + p 3 × DocLastClicks + p 4 × DocOnlyClicks p 1 + p 2 + p 3 + p 4 ;
公式二: score 2 = p 6 DocClicks + p 7 + p 8 QueryTime + p 9 p 6 + p 8 ;
公式三: score = score 1 × score 2 × p 10 × log ( 1 + score 1 ) log ( 1 + DocViews ) + ( 1 - p 10 ) ) ;
其中,p0、p1、p2、p3、p4、p6、p7、p8、p9、p10为离线参数,score为相关页面的离线相关度;QueryTime为在设定时间内相关页面对应的离线关键词被搜索的次数;DocClicks为在设定时间内相关页面被点击的次数;DocFirstClicks为在设定时间内相关页面作为搜索结果中第一个被点击的页面的次数;DocLastClicks为在设定时间内相关页面作为搜索结果中最后一个被点击的页面的次数;DocOnlyClicks为在设定时间内相关页面作为搜索结果中唯一被点击的页面的次数;DocViews为在设定时间内相关页面被浏览过的次数。
较优的,第二设定方法包括如下公式四到公式五:
公式四:clickScore=q0×strictScore+q1×generalizeScore;
公式五:generalizeScore=q3×parentScore+q4×ngram cov er_score;
其中,clickScore为相关页面的在线相关度,q0、q1、q3、q4为在线参数,strictScore是根据统计的设定时间内用户在线查询的关键词与相关页面对应的离线关键词完全一致时,相关页面与对应的离线关键词的离线相关度得到的相关度分值;parentScore是根据统计的设定时间内用户在线查询的关键词与相关页面对应的离线关键词不完全一致且相关页面对应的离线关键词中的所有信息元素被包含在在线查询的关键词中时,相关页面与对应的离线关键词的离线相关度得到的相关度分值;ngram cov er_score是根据统计的设定时间内用户在线查询的关键词与相关页面对应的离线关键词不完全一致且相关页面对应的离线关键词中的至少一个信息元素被包含在在线查询的关键词中时,相关页面与对应的离线关键词的离线相关度得到的相关度分值。
较优的,所述根据该在线相关度确定该相关页面与对应离线关键词的相关度,具体包括:
将该在线相关度确定为该相关页面与对应离线关键词的相关度;或者,
根据该在线相关度和该相关页面的信息,确定该相关页面与对应离线关键词的相关度。
较优的,所述相关页面的信息包括以下信息中的至少一个:
相关页面的标题与对应离线关键词的匹配度、相关页面的正文与对应离线关键词的匹配度、相关页面的页面丰富度、相关页面的权威度、相关页面的时新度。
本发明实施例还提供了一种基于所述取值训练方法的搜索请求处理方法,该方法包括:
接收到包含输入的关键词的搜索请求后,搜索与所述关键词相关的页面;
获取页面相关度确定方法所使用的参数的训练结果值;
根据所述页面相关度确定方法和所述训练结果值,分别确定搜索到的每个页面与输入的关键词的相关度;
根据搜索到的每个页面与输入的关键词的相关度将搜索到的各页面进行排序,以使相关度较高的页面位于相关度较低的页面之前;按照排序结果将搜索到的各页面的地址信息进行展现。
较优的,所述模型训练方法包括:
抽取多个离线关键词及每个离线关键词的多个相关页面;
执行多次如下训练操作:采用所述页面相关度确定方法和所述参数的一组可能取值,确定各离线关键词的各相关页面与对应离线关键词的相关度,对于每个离线关键词,分别根据该离线关键词的各相关页面的相关度对该离线关键词的各相关页面进行排序,并确定每次排序结果对应的搜索引擎质量衡量指标值的和值;其中每次训练操作过程中所述页面相关度确定方法所使用的参数的一组可能取值不同;
将得到的最大的搜索引擎质量衡量指标值的和值对应的训练操作过程中所述页面相关度确定方法所使用的参数的一组可能取值,作为该参数的训练结果值。
较优的,所述页面相关度确定方法所使用的参数包括离线参数和在线参数;
在搜索与所述关键词相关的页面之后、且根据所述页面相关度确定方法和所述训练结果值,分别确定搜索到的每个页面与输入的关键词的相关度之前,进一步包括:收集搜索到的每个页面的历史点击数据;
所述根据所述页面相关度确定方法和所述训练结果值,分别确定搜索到的每个页面与输入的关键词的相关度,具体包括:
对于搜索到的每个页面,根据该页面的历史点击数据和所述离线参数的训练结果值,按照第一设定方法得到该页面的离线相关度;
根据得到的离线相关度和所述在线参数的训练结果值,按照第二设定方法得到搜索到的每个页面的在线相关度;对于搜索到的每个页面,根据该页面的在线相关度确定该页面与输入的关键词的相关度。
较优的,第一设定方法包括如下公式一到公式三:
公式一: score 1 = p 0 + p 1 × DocFirstClicks + p 2 × DocClicks + p 3 × DocLastClicks + p 4 × DocOnlyClicks p 1 + p 2 + p 3 + p 4 ;
公式二: score 2 = p 6 DocClicks + p 7 + p 8 QueryTime + p 9 p 6 + p 8 ;
公式三: score = score 1 × score 2 × p 10 × log ( 1 + score 1 ) log ( 1 + DocViews ) + ( 1 - p 10 ) ) ;
其中,p0、p1、p2、p3、p4、p6、p7、p8、p9、p10为离线参数,score为当前页面的离线相关度;QueryTime为在设定时间内页面对应的关键词被搜索的次数;DocClicks为在设定时间内页面被点击的次数;DocFirstClicks为在设定时间内页面作为搜索结果中第一个被点击的页面的次数;DocLastClicks为在设定时间内页面作为搜索结果中最后一个被点击的页面的次数;DocOnlyClicks为在设定时间内页面作为搜索结果中唯一被点击的页面的次数;DocViews为在设定时间内页面被浏览过的次数。
较优的,第二设定方法包括如下公式四到公式五:公式四:clickScore=q0×strictScore+q1×generalizeScore;
公式五:generalizeScore=q3×parentScore+q4×ngram cov er_score;
其中,clickScore为页面的在线相关度,q0、q1、q3、q4为在线参数,strictScore是根据统计的设定时间内用户在线查询的关键词与页面对应的离线关键词完全一致时,页面与对应的离线关键词的离线相关度得到的相关度分值;parentScore是根据统计的设定时间内用户在线查询的关键词与页面对应的离线关键词不完全一致且页面对应的离线关键词中的所有信息元素被包含在在线查询的关键词中时,页面与对应的离线关键词的离线相关度得到的相关度分值;ngram cov er_score是根据统计的设定时间内用户在线查询的关键词与页面对应的离线关键词不完全一致且页面对应的离线关键词中的至少一个信息元素被包含在在线查询的关键词中时,页面与对应的离线关键词的离线相关度得到的相关度分值。
较优的,所述根据该在线相关度确定该页面与输入的关键词的相关度,具体包括:
将该在线相关度确定为该页面与输入的关键词的相关度;或者,
根据该在线相关度和该页面的信息,确定该页面与输入的关键词的相关度。
较优的,所述页面的信息包括以下信息中的至少一个:
页面的标题与输入的关键词的匹配度、页面的正文与输入的关键词的匹配度、页面的页面丰富度、页面的权威度、页面的时新度。
本发明实施例又提供了一种确定页面相关度所使用参数的取值训练装置,该装置包括:
数据采集单元,用于抽取多个离线关键词及每个离线关键词的多个相关页面;
模型训练单元,用于根据抽取的各离线关键词和各相关页面,采用模型训练方法得到页面相关度确定方法所使用的参数的训练结果值,以使在采用所述页面相关度确定方法和所述训练结果值确定离线关键词的相关页面的相关度并根据确定结果将该离线关键词的相关页面进行排序时,能够使排序结果对应的搜索引擎质量衡量指标值符合期望值;
结果输出单元,用于将所述页面相关度确定方法所使用的参数的训练结果值进行输出,以用于确定关键词的相关页面的相关度。
较优的,所述模型训练单元,具体用于:
执行多次如下训练操作:采用所述页面相关度确定方法和所述参数的一组
可能取值,确定各离线关键词的各相关页面与对应离线关键词的相关度,对于每个离线关键词,分别根据该离线关键词的各相关页面的相关度对该离线关键词的各相关页面进行排序,并确定每次排序结果对应的搜索引擎质量衡量指标值的和值;其中每次训练操作过程中所述页面相关度确定方法所使用的参数的一组可能取值不同;
将得到的最大的搜索引擎质量衡量指标值的和值对应的训练操作过程中所述页面相关度确定方法所使用的参数的一组可能取值,作为该参数的训练结果值。
较优的,所述页面相关度确定方法所使用的参数包括离线参数和在线参数;
所述数据采集单元还用于:在抽取多个离线关键词及每个离线关键词的多个相关页面之后、且执行多次所述训练操作之前,收集各离线关键词的各相关页面的历史点击数据;
所述模型训练单元具体用于:按照如下方法采用所述页面相关度确定方法和所述参数的一组可能取值,确定各离线关键词的各相关页面与对应离线关键词的相关度:
对于各离线关键词的各相关页面,根据该相关页面的历史点击数据和所述离线参数的可能取值,按照第一设定方法得到该相关页面的离线相关度;
根据得到的离线相关度和所述在线参数的可能取值,按照第二设定方法得到每个相关页面的在线相关度;对于每个相关页面,根据该相关页面的在线相关度确定该相关页面与对应离线关键词的相关度。
较优的,所述模型训练单元还用于:将随机生成的所述页面相关度确定方法所使用的参数的至少一组可能取值
放入第一存储单元;
对于每次训练操作过程,从第一存储单元中选取所述参数的一组可能取值,作为本次训练操作过程中所述页面相关度确定方法所使用的参数的一组可能取值;
在每次训练操作过程结束后,将本次训练操作过程中所述页面相关度确定方法所使用的参数的一组可能取值放入第二存储单元;从第二存储单元中选取至少一组可能取值,并根据选取的各组可能取值按照第三设定方法生成新的一组可能取值,将该新的一组可能取值放入第一存储单元。
较优的,所述模型训练单元具体用于:按照如下方法从第二存储单元中选取至少一组可能取值:
将第二存储单元中所述参数的各组可能取值进行排序,使得对应的搜索引擎质量衡量指标值的和值较大的一组可能取值位于对应的搜索引擎质量衡量指标值的和值较小的一组可能取值之前;选取排列在最前面的至少一组可能取值。
较优的,所述第三设定方法为:
爬山算法,或模拟退火算法,或遗传算法。
较优的,所述模型训练方法采用的第一设定方法包括如下公式一到公式三:
公式一: score 1 = p 0 + p 1 × DocFirstClicks + p 2 × DocClicks + p 3 × DocLastClicks + p 4 × DocOnlyClicks p 1 + p 2 + p 3 + p 4 ;
公式二: score 2 = p 6 DocClicks + p 7 + p 8 QueryTime + p 9 p 6 + p 8 ;
公式三: score = score 1 × score 2 × p 10 × log ( 1 + score 1 ) log ( 1 + DocViews ) + ( 1 - p 10 ) ) ;
其中,p0、p1、p2、p3、p4、p6、p7、p8、p9、p10为离线参数,score为相关页面的离线相关度;QueryTime为在设定时间内相关页面对应的离线关键词被搜索的次数;DocClicks为在设定时间内相关页面被点击的次数;DocFirstClicks为在设定时间内相关页面作为搜索结果中第一个被点击的页面的次数;DocLastClicks为在设定时间内相关页面作为搜索结果中最后一个被点击的页面的次数;DocOnlyClicks为在设定时间内相关页面作为搜索结果中唯一被点击的页面的次数;DocViews为在设定时间内相关页面被浏览过的次数。
较优的,所述模型训练方法采用的第二设定方法包括如下公式四到公式五:
公式四:clickScore=q0×strictScore+q1×generalizeScore;
公式五:generalizeScore=q3×parentScore+q4×ngram cov er_score;
其中,clickScore为相关页面的在线相关度,q0、q1、q3、q4为在线参数,strictScore是根据统计的设定时间内用户在线查询的关键词与相关页面对应的离线关键词完全一致时,相关页面与对应的离线关键词的离线相关度得到的相关度分值;parentScore是根据统计的设定时间内用户在线查询的关键词与相关页面对应的离线关键词不完全一致且相关页面对应的离线关键词中的所有信息元素被包含在在线查询的关键词中时,相关页面与对应的离线关键词的离线相关度得到的相关度分值;ngram cov er_score是根据统计的设定时间内用户在线查询的关键词与相关页面对应的离线关键词不完全一致且相关页面对应的离线关键词中的至少一个信息元素被包含在在线查询的关键词中时,相关页面与对应的离线关键词的离线相关度得到的相关度分值。
较优的,所述模型训练单元具体用于:按照如下方法根据该在线相关度确定该相关页面与对应离线关键词的相关度:
将该在线相关度确定为该相关页面与对应离线关键词的相关度;或者,
根据该在线相关度和该相关页面的信息,确定该相关页面与对应离线关键词的相关度。
较优的,所述相关页面的信息包括以下信息中的至少一个:
相关页面的标题与对应离线关键词的匹配度、相关页面的正文与对应离线关键词的匹配度、相关页面的页面丰富度、相关页面的权威度、相关页面的时新度。
本发明实施例再提供了一种基于所述取值训练装置的搜索请求处理装置,该装置包括:
搜索单元,用于在接收到包含输入的关键词的搜索请求后,搜索与所述关键词相关的页面;
获取单元,用于获取页面相关度确定方法所使用的参数的训练结果值;
确定单元,用于根据所述页面相关度确定方法和所述训练结果值,分别确定搜索到的每个页面与输入的关键词的相关度;
展现单元,用于根据搜索到的每个页面与输入的关键词的相关度将搜索到的各页面进行排序,以使相关度较高的页面位于相关度较低的页面之前;按照排序结果将搜索到的各页面的地址信息进行展现。
较优的,所述页面相关度确定方法所使用的参数包括离线参数和在线参数;该装置还包括:
收集单元,用于在搜索与所述关键词相关的页面之后、且根据所述页面相关度确定方法和所述训练结果值,分别确定搜索到的每个页面与输入的关键词的相关度之前,收集搜索到的每个页面的历史点击数据;
所述确定单元具体用于:
对于搜索到的每个页面,根据该页面的历史点击数据和所述离线参数的训练结果值,按照第一设定方法得到该页面的离线相关度;
根据得到的离线相关度和所述在线参数的训练结果值,按照第二设定方法得到搜索到的每个页面的在线相关度;对于搜索到的每个页面,根据该页面的在线相关度确定该页面与输入的关键词的相关度。
较优的,所述确定单元采用的第一设定方法包括如下公式一到公式三:
公式一: score 1 = p 0 + p 1 × DocFirstClicks + p 2 × DocClicks + p 3 × DocLastClicks + p 4 × DocOnlyClicks p 1 + p 2 + p 3 + p 4 ;
公式二: score 2 = p 6 DocClicks + p 7 + p 8 QueryTime + p 9 p 6 + p 8 ;
公式三: score = score 1 × score 2 × p 10 × log ( 1 + score 1 ) log ( 1 + DocViews ) + ( 1 - p 10 ) ) ;
其中,p0、p1、p2、p3、p4、p6、p7、p8、p9、p10为离线参数,score为页面的离线相关度;QueryTime为在设定时间内页面对应的关键词被搜索的次数;DocClicks为在设定时间内页面被点击的次数;DocFirstClicks为在设定时间内页面作为搜索结果中第一个被点击的页面的次数;DocLastClicks为在设定时间内页面作为搜索结果中最后一个被点击的页面的次数;DocOnlyClicks为在设定时间内页面作为搜索结果中唯一被点击的页面的次数;DocViews为在设定时间内页面被浏览过的次数。
较优的,所述确定单元采用的第二设定方法包括如下公式四到公式五:
公式四:clickScore=q0×strictScore+q1×generalizeScore;
公式五:generalizeScore=q3×parentScore+q4×ngram cov er_score;
其中,clickScore为页面的在线相关度,q0、q1、q3、q4为在线参数,strictScore是根据统计的设定时间内用户在线查询的关键词与页面对应的离线关键词完全一致时,页面与对应的离线关键词的离线相关度得到的相关度分值;parentScore是根据统计的设定时间内用户在线查询的关键词与页面对应的离线关键词不完全一致且页面对应的关离线键词中的所有信息元素被包含在在线查询的关键词中时,页面与对应的离线关键词的离线相关度得到的相关度分值;ngram cov er_score是根据统计的设定时间内用户在线查询的关键词与页面对应的离线关键词不完全一致且页面对应的离线关键词中的至少一个信息元素被包含在在线查询的关键词中时,页面与对应的离线关键词的离线相关度得到的相关度分值。
较优的,所述确定单元具体用于:按照如下方法根据该在线相关度确定该页面与输入的关键词的相关度:
将该在线相关度确定为该页面与输入的关键词的相关度;或者,
根据该在线相关度和该页面的信息,确定该页面与输入的关键词的相关度。
较优的,所述页面的信息包括以下信息中的至少一个:
页面的标题与输入的关键词的匹配度、页面的正文与输入的关键词的匹配度、页面的页面丰富度、页面的权威度、页面的时新度。
本发明实施例提供的方案中,预先通过模型训练方法得到页面相关度确定方法所使用的参数的训练结果值,该训练结果值能够使得在采用该页面相关度确定方法和该训练结果值确定关键词的相关页面的相关度并根据确定结果将各相关页面进行排序时,排序结果对应的搜索引擎质量衡量指标值符合期望值;在线接收到包含输入的关键词的搜索请求并搜索与用户输入的关键词相关的页面后,根据该页面相关度确定方法和该训练结果值,确定搜索到的每个页面与输入的关键词的相关度并根据各页面的相关度进行页面排序,然后,按照排序结果将各页面的地址信息进行展现。本方法中,由于在采用页面相关度确定方法确定搜索到的每个页面与输入的关键词的相关度时,该采用页面相关度确定方法所采用的取值是预先训练得到的能够使页面排序结果对应的搜索引擎质量衡量指标值符合期望值的数值,因此,采用本方法可以提高搜索结果的准确性,即使得展现给用户的搜索结果中与输入的关键词相关度大的页面尽量位于与输入的关键词相关度小的页面之前。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a为本发明实施例提供的数据训练方法流程示意图;
图1b为本发明实施例提供的搜索请求处理方法流程示意图;
图2为本发明实施例中模型训练方法的实现流程示意图;
图3a为本发明实施例提供的数据训练装置结构示意图;
图3b为本发明实施例提供的搜索请求处理装置结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
本发明实施例中,为了提高在线关键词搜索时搜索结果的准确性,预先通过模型训练方法得到页面相关度确定方法所使用的参数的训练结果值,该训练结果值能够使得在采用该页面相关度确定方法和该训练结果值确定关键词的相关页面的相关度并根据确定结果将各相关页面进行排序时,排序结果对应的搜索引擎质量衡量指标值符合期望值;在线接收到包含输入的关键词的搜索请求并搜索与用户输入的关键词相关的页面后,根据该页面相关度确定方法和该训练结果值,确定搜索到的每个页面与输入的关键词的相关度并根据各页面的相关度进行页面排序,然后,按照排序结果将各页面的地址信息进行展现。
参见图1a,为了得到页面相关度确定方法所使用的参数的训练结果值,本发明实施例提供一种确定页面相关度所使用参数的取值训练方法,包括如下步骤:
步骤100:抽取多个离线关键词及每个离线关键词的多个相关页面;这里,离线关键词是指离线统计的被用户查询过的关键词;在抽取多个离线关键词时,抽取的离线关键词可以是搜索引擎已统计的被用户查询过的关键词,具体可以根据查询频率进行抽取,例如抽取查询频率最高的多个关键词作为离线关键词;(搜索引擎会记录用户查询过的关键词以及它的所有点击行为数据,这里用的离线关键词是所有用户访问过的)在抽取离线关键词的多个相关页面时,具体可以根据搜索引擎已统计的对该离线关键词的相关页面的排序结果来抽取,比如抽取排在最前面的多个相关页面;
步骤101:根据抽取的各离线关键词和各相关页面,采用模型训练方法得到页面相关度确定方法所使用的参数的训练结果值,以使在采用所页面相关度确定方法和训练结果值确定离线关键词的相关页面的相关度并根据确定结果将该离线关键词的相关页面进行排序时,能够使排序结果对应的搜索引擎质量衡量指标值符合期望值;
步骤102:将页面相关度确定方法所使用的参数的训练结果值进行输出,以用于确定关键词的相关页面的相关度。
具体的,上述步骤101中,根据抽取的各离线关键词和各相关页面,采用模型训练方法得到页面相关度确定方法所使用的参数的训练结果值,具体实现可以如下:
执行多次如下训练操作:采用页面相关度确定方法和该方法所使用参数的一组可能取值,确定各离线关键词的各相关页面与对应离线关键词的相关度,对于每个离线关键词,分别根据该离线关键词的各相关页面的相关度对该离线关键词的各相关页面进行排序,以使相关度较高的相关页面位于相关度较低的相关页面之前;并确定每次排序结果对应的搜索引擎质量衡量指标值的和值;其中每次训练操作过程中页面相关度确定方法所使用的参数的一组可能取值不同;
将得到的最大的搜索引擎质量衡量指标值的和值对应的训练操作过程中页面相关度确定方法所使用的参数的一组可能取值,作为该参数的训练结果值。
优选的,本发明中的搜索引擎质量衡量指标值具体可以是贴现累计收益(Discounted Cumulative Gain,DCG)值或理想贴现累计收益(Ideal DiscountedCumulative Gain,IDCG)值。当然,搜索引擎质量衡量指标值也可以是其他用于衡量搜索引擎质量的指标值。
具体的,页面相关度确定方法所使用的参数可以包括离线参数和在线参数;其中,离线参数是指与离线数据结合使用来确定页面与关键字的相关度的参数;在线参数是指与在线数据结合使用来确定页面与关键字的相关度的参数;离线数据是指与当前的在线关键词查询行为无关的数据,比如历史点击数据等;在线数据是指与当前的在线关键词查询行为相关的数据,比如当前在线查询的关键词等;
为了得到各离线关键词的各相关页面与对应离线关键词的相关度,在抽取多个离线关键词及每个离线关键词的多个相关页面之后、且执行多次训练操作之前,可以进一步收集各离线关键词的各相关页面的历史点击数据;相应的,上述采用页面相关度确定方法和该方法所使用参数的一组可能取值,确定各离线关键词的各相关页面与对应离线关键词的相关度,具体实现可以如下:
对于各离线关键词的各相关页面,根据该相关页面的历史点击数据和离线参数的可能取值,按照第一设定方法得到该相关页面的离线相关度;
根据得到的离线相关度和在线参数的可能取值,按照第二设定方法得到每个相关页面的在线相关度;对于每个相关页面,根据该相关页面的在线相关度确定该相关页面与对应离线关键词的相关度。
具体的,上述根据在线相关度确定相关页面与对应离线关键词的相关度,具体实现可以采用如下两种方法之一:第一,将在线相关度确定为相关页面与对应离线关键词的相关度;第二,根据在线相关度和相关页面的信息,确定该相关页面与对应离线关键词的相关度。
具体的,上述相关页面的信息可以包括以下信息中的至少一个:相关页面的标题与对应离线关键词的匹配度(例如,可以将在线相关度与该匹配度的加权值作为相关页面与对应离线关键词的相关度)、相关页面的正文与对应离线关键词的匹配度(例如,可以将在线相关度与该匹配度的加权值作为相关页面与对应离线关键词的相关度)、相关页面的页面丰富度(例如,可以将在线相关度与该页面丰富度的加权值作为相关页面与对应离线关键词的相关度)、相关页面的权威度(例如,可以将在线相关度与该权威度的加权值作为相关页面与对应离线关键词的相关度)、相关页面的时新度(例如,可以将在线相关度与该时新度的加权值作为相关页面与对应离线关键词的相关度)。(是的)
举例说明:
finalScore=q5*text_match_score+q6*authority_match_score+q7*fresh_match_score+q8*text_match_score*clickScore+q9*clickScore;
其中,finalScore是相关页面与对应离线关键词的相关度,text_match_score表示相关页面的正文与对应离线关键词的匹配度,authority_match_score表示相关页面的权威度,fresh_match_score表示相关页面的时新度;q5-q9为权值。
上述离线相关度是指根据离线参数和离线数据得到的页面与关键词的相关度;在线相关度是指根据在线参数和在线数据得到的页面与关键词的相关度。相关度是指页面满足用户查询需求的概率值。
具体的,训练操作过程中页面相关度确定方法所使用的参数的一组可能取值的选取方法可以如下:
将随机生成的页面相关度确定方法所使用的参数的至少一组可能取值放入第一存储单元;
对于每次训练操作过程,从第一存储单元中选取页面相关度确定方法所使用的参数的一组可能取值,作为本次训练操作过程中页面相关度确定方法所使用的参数的一组可能取值;以及,
在每次训练操作过程结束后,将本次训练操作过程中页面相关度确定方法所使用的参数的一组可能取值放入第二存储单元;从第二存储单元中选取至少一组可能取值,并根据选取的各组可能取值按照第三设定方法生成新的一组可能取值,将该新的一组可能取值放入第一存储单元。较优的,第三设定方法可以为:爬山算法,或模拟退火算法,或遗传算法。
较佳的,为了使得使用新生成的一组可能取值得到的页面排序结果对应的搜索引擎质量衡量指标值更接近符合期望值,上述从第二存储单元中选取页面相关度确定方法所使用的参数的至少一组可能取值,具体可以是:将第二存储单元中该参数的各组可能取值进行排序,使得对应的搜索引擎质量衡量指标值的和值较大的一组可能取值位于对应的搜索引擎质量衡量指标值的和值较小的一组可能取值之前;然后选取排列在最前面的至少一组可能取值。
具体的,第一存储单元和第二存储单元均可以采用队列形式。在从第一存储单元中选取页面相关度确定方法所使用的参数的一组可能取值时,具体可以是:从第一队列中选取排列在最前面的一组可能取值。
参见图1b,本发明实施例提供一种基于上述取值训练方法的搜索请求处理方法,包括以下步骤:
步骤110:接收到包含输入的关键词的搜索请求后,搜索与输入的关键词相关的页面;
步骤111:获取上述取值训练方法输出的页面相关度确定方法所使用的参数的训练结果值,即步骤102输出的训练结果值;
步骤112:根据页面相关度确定方法和训练结果值,分别确定搜索到的每个页面与输入的关键词的相关度;
步骤113:根据搜索到的每个页面与输入的关键词的相关度将搜索到的各页面进行排序,以使相关度较高的页面位于相关度较低的页面之前;按照排序结果将搜索到的各页面的地址信息进行展现。页面的地址信息具体可以是URL等。
具体的,页面相关度确定方法所使用的参数包括离线参数和在线参数;
为了得到搜索到的页面与输入的关键词的相关度,在步骤110中搜索与输入的关键词相关的页面之后、且步骤112中根据页面相关度确定方法和该方法所使用参数的训练结果值,分别确定搜索到的每个页面与输入的关键词的相关度之前,可以进一步收集搜索到的每个页面的历史点击数据;
相应的,步骤112中根据页面相关度确定方法和该方法所使用参数的训练结果值,分别确定搜索到的每个页面与输入的关键词的相关度,具体实现可以如下:
对于搜索到的每个页面,根据该页面的历史点击数据和离线参数的训练结果值,按照第一设定方法得到该页面的离线相关度;
根据得到的离线相关度和在线参数的训练结果值,按照第二设定方法得到搜索到的每个页面的在线相关度;对于搜索到的每个页面,根据该页面的在线相关度确定该页面与输入的关键词的相关度。
具体的,上述根据在线相关度确定页面与输入的关键词的相关度,具体实现可以采用如下两种方法之一:第一,将该在线相关度确定为该页面与输入的关键词的相关度;第二,根据在线相关度和该页面的信息,确定该页面与输入的关键词的相关度。
具体的,上述页面的信息包括以下信息中的至少一个:页面的标题与输入的关键词的匹配度(例如,可以将在线相关度与该匹配度的加权值作为页面与输入的关键词的相关度)、页面的正文与输入的关键词的匹配度(例如,可以将在线相关度与该匹配度的加权值作为页面与输入的关键词的相关度)、页面的页面丰富度(例如,可以将在线相关度与该页面丰富度的加权值作为页面与输入的关键词的相关度)、页面的权威度(例如,可以将在线相关度与该权威度的加权值作为页面与输入的关键词的相关度)、页面的时新度(例如,可以将在线相关度与该时新度的加权值作为页面与输入的关键词的相关度)。
举例说明:
finalScore=q5*text_match_score+q6*authority_match_score+q7*fresh_match_score+q8*text_match_score*clickScore+q9*clickScore;
其中,finalScore是页面与输入的关键词的相关度,text_match_score表示页面的正文与输入的关键词的匹配度,authority_match_score表示页面的权威度,fresh_match_score表示页面的时新度;q5-q9为权值。
上述步骤100-步骤102中及步骤110-步骤112中涉及的第一设定方法包括如下公式一到公式三:
公式一: score 1 = p 0 + p 1 × DocFirstClicks + p 2 × DocClicks + p 3 × DocLastClicks + p 4 × DocOnlyClicks p 1 + p 2 + p 3 + p 4 ;
公式二: score 2 = p 6 DocClicks + p 7 + p 8 QueryTime + p 9 p 6 + p 8 ;
公式三: score = score 1 × score 2 × p 10 × log ( 1 + score 1 ) log ( 1 + DocViews ) + ( 1 - p 10 ) ) ;
其中,p0、p1、p2、p3、p4、p6、p7、p8、p9、p10为离线参数,score为当前页面的离线相关度;QueryTime为在设定时间内当前页面对应的关键词被搜索的次数;DocClicks为在设定时间内当前页面被点击的次数;DocFirstClicks为在设定时间内当前页面作为搜索结果中第一个被点击的页面的次数;DocLastClicks为在设定时间内当前页面作为搜索结果中最后一个被点击的页面的次数;DocOnlyClicks为在设定时间内当前页面作为搜索结果中唯一被点击的页面的次数;DocViews为在设定时间内当前页面被浏览过的次数。
其中,QueryTime、DocClicks、DocFirstClicks、DocLastClicks、DocOnlyClicks、DocViews均为历史点击数据。
上述步骤100-步骤102中及步骤110-步骤112中涉及的第二设定方法包括如下公式四到公式五:
公式四:clickScore=q0×strictScore+q1×generalizeScore;
公式五:generalizeScore=q3×parentScore+q4×ngram cov er_score;
其中,clickScore为当前页面的在线相关度,q0、q1、q3、q4为在线参数,strictScore是根据统计的设定时间内用户在线查询的关键词与当前页面对应的离线关键词完全一致时,当前页面与对应的离线关键词的离线相关度得到的相关度分值;parentScore是根据统计的设定时间内用户在线查询的关键词与当前页面对应的离线关键词不完全一致且当前页面对应的离线关键词中的所有信息元素被包含在在线查询的关键词中时,当前页面与对应的离线关键词的离线相关度得到的相关度分值;ngram cov er_score是根据统计的设定时间内用户在线查询的关键词与当前页面对应的离线关键词不完全一致且当前页面对应的离线关键词中的至少一个信息元素被包含在在线查询的关键词中时,当前页面与对应的离线关键词的离线相关度得到的相关度分值。上述q0与q1之和可以等于1,q3与q4之和可以等于1。
对于步骤100-步骤102,当前页面为离线关键词的相关页面,对于步骤110-步骤112,当前页面为搜索到的与输入的关键词相关的页面。
具体的,strictScore的统计方法可以为:在将当前页面作为搜索结果的前提下,确定设定时间内与用户在线查询的关键词完全一致的离线关键词的离线相关度,将该离线相关度作为strictScore的结果值。parentScore的统计方法可以为:在将当前页面作为搜索结果的前提下,统计设定时间内所有信息元素被包含在用户在线查询的关键词的离线关键词的离线相关度的加权值,作为parentScore的结果值;ngram cov er_score的统计方法可以为:在将当前页面作为搜索结果的前提下,统计设定时间内至少一个信息元素被包含在用户在线查询的关键词的离线关键词的离线相关度的加权值,作为ngram cov er_score的结果值。下面举例说明:
在计算strictScore时,首先获取与当前页面相关的离线关键词的集合,以及集合中各离线关键词的离线相关度。如果用户在线查询的关键词在离线关键词集合中出现,并完全一致,则获取完全一致的离线关键词的离线相关度,作为strictScore的结果值;否则,strictScore的结果值为0。
parentScore的计算方法如下表1:
表1
ngram cov er_score的计算方法如下表1:
表2
上表2中是将统计的至少一个信息元素被包含在用户在线查询的关键词的离线关键词的离线相关度的加权值,作为ngram cov er_score的结果值,还可以按照如下方法得到ngram cov er_score的结果值:首先,计算用户在线查询的关键词中每个信息元素的第一得分,具体的,一个信息元素的第一得分等于包含该信息元素的离线关键词的离线相关度的和值,比如,上表2中,用户在线查询的关键词中的字符A的第一得分为0.24+0.4,字符B和字符C的第一得分为0.24+0.245+0.4;然后,根据第一得分采用IDF算法得到用户在线查询的关键词中每个信息元素的第二得分,比如,字符A的第二得分为0.1,字符B的第二得分为0.3,字符C的第二得分为0.6;最后,根据第二得分采用余弦相似度算法得到ngram cov er_score的结果值。
下面结合具体实施例对本发明进行说明:
实施例一:
本实施例是为了得到公式一到公式五所使用的参数的训练结果值的模型训练方法,如图2所示,需要预先将随机生成的公式一到公式五所使用的离线参数和在线参数的至少一组可能取值放入第一队列;具体模型训练流程如下:
步骤201:抽取多个离线关键词及每个离线关键词的多个相关页面,例如抽取7000个离线关键词,以及每个离线关键词的2000个相关页面;收集各离线关键词的各相关页面的历史点击数据;
还可以收集各离线关键词的各相关页面的一些信息,比如页面的标题与输入的关键词的匹配度、页面的正文与输入的关键词的匹配度等;
步骤202:从第一队列中读取离线参数和在线参数的一组可能取值;
步骤203:对于各离线关键词的各相关页面,根据该相关页面的历史点击数据和本次读取的离线参数的可能取值,采用公式一到公式三计算得到该相关页面的离线相关度;
步骤204:根据得到的离线相关度和本次读取的在线参数的可能取值,采用公式四和公式五计算得到每个相关页面的在线相关度;对于每个相关页面,根据该相关页面的在线相关度和该相关页面的标题匹配度信息等,得到该相关页面与对应离线关键词的相关度;
步骤205:对于每个离线关键词,根据该离线关键词的各相关页面的相关度对该离线关键词的各相关页面进行排序,并确定每次排序结果对应的DCG值的和值;将得到的DCG值的和值以及本次读取离线参数和在线参数的可能取值放入第二队列;
步骤206:从第二队列中选取离线参数和在线参数的至少一组可能取值,并根据选取的各组可能取值采用爬山算法或模拟退火算法或遗传算法生成新的一组可能取值,将该新的一组可能取值放入第一队列,并返回步骤202。
需要说明的是,步骤206与步骤202-步骤205也可以并行执行,只要第一队列中的可能取值的数目小于设定值时,就可执行步骤206。在执行次数达到设定门限值时,可以停止上述流程的执行,将得到的最大的DCG值的和值对应的离线参数和在线参数的可能取值,作为对应参数的训练结果值。
实施例二:
本实施例是在实施例之后,利用公式一到公式五所使用的参数的训练结果值进行页面排序和展现的方法;具体流程如下:
步骤一:接收到包含输入的关键词的搜索请求后,搜索与输入的关键词相关的页面;
步骤二:获取公式一到公式五所使用的离线参数和在线参数的训练结果值;
步骤三:对于搜索到的每个页面,根据该页面的历史点击数据和离线参数的训练结果值,采用公式一到公式三计算得到该页面的离线相关度;
步骤四:根据得到的离线相关度和在线参数的训练结果值,采用公式四和公式五计算得到每个页面的在线相关度;对于每个页面,根据该页面的在线相关度和该页面的标题匹配度信息等,得到该页面与输入的关键词的相关度;
步骤五:根据搜索到的每个页面与输入的关键词的相关度将搜索到的各页面进行排序,以使相关度较高的页面位于相关度较低的页面之前;按照排序结果将搜索到的各页面的地址信息进行展现。
参见图3a,本发明实施例提供一种确定页面相关度所使用参数的取值训练装置,该装置包括:
数据采集单元300,用于抽取多个离线关键词及每个离线关键词的多个相关页面;
模型训练单元301,用于根据抽取的各离线关键词和各相关页面,采用模型训练方法得到页面相关度确定方法所使用的参数的训练结果值,以使在采用所述页面相关度确定方法和所述训练结果值确定离线关键词的相关页面的相关度并根据确定结果将该离线关键词的相关页面进行排序时,能够使排序结果对应的搜索引擎质量衡量指标值符合期望值;
结果输出单元302,用于将所述页面相关度确定方法所使用的参数的训练结果值进行输出,以用于确定关键词的相关页面的相关度。
进一步的,所述模型训练单元301具体用于:
执行多次如下训练操作:采用所述页面相关度确定方法和所述参数的一组
可能取值,确定各离线关键词的各相关页面与对应离线关键词的相关度,对于每个离线关键词,分别根据该离线关键词的各相关页面的相关度对该离线关键词的各相关页面进行排序,并确定每次排序结果对应的搜索引擎质量衡量指标值的和值;其中每次训练操作过程中所述页面相关度确定方法所使用的参数的一组可能取值不同;
将得到的最大的搜索引擎质量衡量指标值的和值对应的训练操作过程中所述页面相关度确定方法所使用的参数的一组可能取值,作为该参数的训练结果值。
进一步的,所述页面相关度确定方法所使用的参数包括离线参数和在线参数;
所述数据采集单元300还用于:在抽取多个离线关键词及每个离线关键词的多个相关页面之后、且执行多次所述训练操作之前,收集各离线关键词的各相关页面的历史点击数据;
所述模型训练单元301具体用于:按照如下方法采用所述页面相关度确定方法和所述参数的一组可能取值,确定各离线关键词的各相关页面与对应离线关键词的相关度:
对于各离线关键词的各相关页面,根据该相关页面的历史点击数据和所述离线参数的可能取值,按照第一设定方法得到该相关页面的离线相关度;
根据得到的离线相关度和所述在线参数的可能取值,按照第二设定方法得到每个相关页面的在线相关度;对于每个相关页面,根据该相关页面的在线相关度确定该相关页面与对应离线关键词的相关度。
进一步的,所述模型训练单元301还用于:将随机生成的所述页面相关度确定方法所使用的参数的至少一组可能取值放入第一存储单元;
对于每次训练操作过程,从第一存储单元中选取所述参数的一组可能取值,作为本次训练操作过程中所述页面相关度确定方法所使用的参数的一组可能取值;
在每次训练操作过程结束后,将本次训练操作过程中所述页面相关度确定方法所使用的参数的一组可能取值放入第二存储单元;从第二存储单元中选取至少一组可能取值,并根据选取的各组可能取值按照第三设定方法生成新的一组可能取值,将该新的一组可能取值放入第一存储单元。
进一步的,所述模型训练单元301具体用于:按照如下方法从第二存储单元中选取至少一组可能取值:
将第二存储单元中所述参数的各组可能取值进行排序,使得对应的搜索引擎质量衡量指标值的和值较大的一组可能取值位于对应的搜索引擎质量衡量指标值的和值较小的一组可能取值之前;选取排列在最前面的至少一组可能取值。
进一步的,所述第三设定方法为:爬山算法,或模拟退火算法,或遗传算法。
进一步的,所述模型训练单元301采用的第一设定方法包括如下公式一到公式三:
公式一: score 1 = p 0 + p 1 × DocFirstClicks + p 2 × DocClicks + p 3 × DocLastClicks + p 4 × DocOnlyClicks p 1 + p 2 + p 3 + p 4 ;
公式二: score 2 = p 6 DocClicks + p 7 + p 8 QueryTime + p 9 p 6 + p 8 ;
公式三: score = score 1 × score 2 × p 10 × log ( 1 + score 1 ) log ( 1 + DocViews ) + ( 1 - p 10 ) ) ;
其中,p0、p1、p2、p3、p4、p6、p7、p8、p9、p10为离线参数,score为相关页面的离线相关度;QueryTime为在设定时间内相关页面对应的离线关键词被搜索的次数;DocClicks为在设定时间内相关页面被点击的次数;DocFirstClicks为在设定时间内相关页面作为搜索结果中第一个被点击的页面的次数;DocLastClicks为在设定时间内相关页面作为搜索结果中最后一个被点击的页面的次数;DocOnlyClicks为在设定时间内相关页面作为搜索结果中唯一被点击的页面的次数;DocViews为在设定时间内相关页面被浏览过的次数。
进一步的,所述模型训练单元301采用的第二设定方法包括如下公式四到公式五:
公式四:clickScore=q0×strictScore+q1×generalizeScore;
公式五:generalizeScore=q3×parentScore+q4×ngram cov er_score;
其中,clickScore为相关页面的在线相关度,q0、q1、q3、q4为在线参数,strictScore是根据统计的设定时间内用户在线查询的关键词与相关页面对应的离线关键词完全一致时,相关页面与对应的离线关键词的离线相关度得到的相关度分值;parentScore是根据统计的设定时间内用户在线查询的关键词与相关页面对应的离线关键词不完全一致且相关页面对应的离线关键词中的所有信息元素被包含在在线查询的关键词中时,相关页面与对应的离线关键词的离线相关度得到的相关度分值;ngram cov er_score是根据统计的设定时间内用户在线查询的关键词与相关页面对应的离线关键词不完全一致且相关页面对应的离线关键词中的至少一个信息元素被包含在在线查询的关键词中时,相关页面与对应的离线关键词的离线相关度得到的相关度分值。
进一步的,所述模型训练单元301具体用于:按照如下方法根据该在线相关度确定该相关页面与对应离线关键词的相关度:
将该在线相关度确定为该相关页面与对应离线关键词的相关度;或者,
根据该在线相关度和该相关页面的信息,确定该相关页面与对应离线关键词的相关度。
进一步的,所述相关页面的信息包括以下信息中的至少一个:
相关页面的标题与对应离线关键词的匹配度、相关页面的正文与对应离线关键词的匹配度、相关页面的页面丰富度、相关页面的权威度、相关页面的时新度。
参见图3b,本发明实施例提供一种基于上述取值训练装置的搜索请求处理装置,该装置包括:
搜索单元310,用于在接收到包含输入的关键词的搜索请求后,搜索与所述关键词相关的页面;
获取单元311,用于获取页面相关度确定方法所使用的参数的训练结果值;即获取上述取值训练装置输出的训练结果值;
确定单元312,用于根据所述页面相关度确定方法和所述训练结果值,分别确定搜索到的每个页面与输入的关键词的相关度;
展现单元313,用于根据搜索到的每个页面与输入的关键词的相关度将搜索到的各页面进行排序,以使相关度较高的页面位于相关度较低的页面之前;按照排序结果将搜索到的各页面的地址信息进行展现。
进一步的,所述页面相关度确定方法所使用的参数包括离线参数和在线参数;该装置还包括:
收集单元314,用于在搜索与所述关键词相关的页面之后、且根据所述页面相关度确定方法和所述训练结果值,分别确定搜索到的每个页面与输入的关键词的相关度之前,收集搜索到的每个页面的历史点击数据;
所述确定单元312具体用于:
对于搜索到的每个页面,根据该页面的历史点击数据和所述离线参数的训练结果值,按照第一设定方法得到该页面的离线相关度;
根据得到的离线相关度和所述在线参数的训练结果值,按照第二设定方法得到搜索到的每个页面的在线相关度;对于搜索到的每个页面,根据该页面的在线相关度确定该页面与输入的关键词的相关度。
进一步的,所述确定单元312采用的第一设定方法包括如下公式一到公式三:
公式一: score 1 = p 0 + p 1 × DocFirstClicks + p 2 × DocClicks + p 3 × DocLastClicks + p 4 × DocOnlyClicks p 1 + p 2 + p 3 + p 4 ;
公式二: score 2 = p 6 DocClicks + p 7 + p 8 QueryTime + p 9 p 6 + p 8 ;
公式三: score = score 1 × score 2 × p 10 × log ( 1 + score 1 ) log ( 1 + DocViews ) + ( 1 - p 10 ) ) ;
其中,p0、p1、p2、p3、p4、p6、p7、p8、p9、p10为离线参数,score为页面的离线相关度;QueryTime为在设定时间内页面对应的关键词被搜索的次数;DocClicks为在设定时间内页面被点击的次数;DocFirstClicks为在设定时间内页面作为搜索结果中第一个被点击的页面的次数;DocLastClicks为在设定时间内页面作为搜索结果中最后一个被点击的页面的次数;DocOnlyClicks为在设定时间内页面作为搜索结果中唯一被点击的页面的次数;DocViews为在设定时间内页面被浏览过的次数。
进一步的,所述确定单元312采用的第二设定方法包括如下公式四到公式五:
公式四:clickScore=q0×strictScore+q1×generalizeScore;
公式五:generalizeScore=q3×parentScore+q4×ngram cov er_score;
其中,clickScore为当前页面的在线相关度,q0、q1、q3、q4为在线参数,strictScore是根据统计的设定时间内用户在线查询的关键词与页面对应的离线关键词完全一致时,页面与对应的离线关键词的离线相关度得到的相关度分值;parentScore是根据统计的设定时间内用户在线查询的关键词与页面对应的离线关键词不完全一致且页面对应的离线关键词中的所有信息元素被包含在在线查询的关键词中时,页面与对应的离线关键词的离线相关度得到的相关度分值;ngram cov er_score是根据统计的设定时间内用户在线查询的关键词与页面对应的离线关键词不完全一致且页面对应的离线关键词中的至少一个信息元素被包含在在线查询的关键词中时,页面与对应的离线关键词的离线相关度得到的相关度分值。
进一步的,所述确定单元312具体用于:按照如下方法根据该在线相关度确定该页面与输入的关键词的相关度:
将该在线相关度确定为该页面与输入的关键词的相关度;或者,
根据该在线相关度和该页面的信息,确定该页面与输入的关键词的相关度。
进一步的,所述页面的信息包括以下信息中的至少一个:
页面的标题与输入的关键词的匹配度、页面的正文与输入的关键词的匹配度、页面的页面丰富度、页面的权威度、页面的时新度。
综上,本发明的有益效果包括:
本发明实施例提供的方案中,预先通过模型训练方法得到页面相关度确定方法所使用的参数的训练结果值,该训练结果值能够使得在采用该页面相关度确定方法和该训练结果值确定关键词的相关页面的相关度并根据确定结果将各相关页面进行排序时,排序结果对应的搜索引擎质量衡量指标值符合期望值;在线接收到包含输入的关键词的搜索请求并搜索与用户输入的关键词相关的页面后,根据该页面相关度确定方法和该训练结果值,确定搜索到的每个页面与输入的关键词的相关度并根据各页面的相关度进行页面排序,然后,按照排序结果将各页面的地址信息进行展现。本方法中,由于在采用页面相关度确定方法确定搜索到的每个页面与输入的关键词的相关度时,该采用页面相关度确定方法所采用的取值是预先训练得到的能够使页面排序结果对应的搜索引擎质量衡量指标值符合期望值的数值,因此,采用本方法可以提高搜索结果的准确性,即使得展现给用户的搜索结果中与输入的关键词相关度大的页面尽量位于与输入的关键词相关度小的页面之前。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (32)

1.一种确定页面相关度所使用参数的取值训练方法,其特征在于,该方法包括:
抽取多个离线关键词及每个离线关键词的多个相关页面;
根据抽取的各离线关键词和各相关页面,采用模型训练方法得到页面相关度确定方法所使用的参数的训练结果值,以使在采用所述页面相关度确定方法和所述训练结果值确定离线关键词的相关页面的相关度并根据确定结果将该离线关键词的相关页面进行排序时,能够使排序结果对应的搜索引擎质量衡量指标值符合期望值;
将所述页面相关度确定方法所使用的参数的训练结果值进行输出,以用于确定关键词的相关页面的相关度。
2.如权利要求1所述的方法,其特征在于,所述根据抽取的各离线关键词和各相关页面,采用模型训练方法得到页面相关度确定方法所使用的参数的训练结果值,具体包括:
执行多次如下训练操作:采用所述页面相关度确定方法和所述参数的一组可能取值,确定各离线关键词的各相关页面与对应离线关键词的相关度,对于每个离线关键词,分别根据该离线关键词的各相关页面的相关度对该离线关键词的各相关页面进行排序,并确定每次排序结果对应的搜索引擎质量衡量指标值的和值;其中每次训练操作过程中所述页面相关度确定方法所使用的参数的一组可能取值不同;
将得到的最大的搜索引擎质量衡量指标值的和值对应的训练操作过程中所述页面相关度确定方法所使用的参数的一组可能取值,作为该参数的训练结果值。
3.如权利要求2所述的方法,其特征在于,所述页面相关度确定方法所使用的参数包括离线参数和在线参数;
在抽取多个离线关键词及每个离线关键词的多个相关页面之后、且执行多次所述训练操作之前,进一步包括:收集各离线关键词的各相关页面的历史点击数据;
所述采用所述页面相关度确定方法和所述参数的一组可能取值,确定各离线关键词的各相关页面与对应离线关键词的相关度,具体包括:
对于各离线关键词的各相关页面,根据该相关页面的历史点击数据和所述离线参数的可能取值,按照第一设定方法得到该相关页面的离线相关度;
根据得到的离线相关度和所述在线参数的可能取值,按照第二设定方法得到每个相关页面的在线相关度;对于每个相关页面,根据该相关页面的在线相关度确定该相关页面与对应离线关键词的相关度。
4.如权利要求2所述的方法,其特征在于,训练操作过程中所述页面相关度确定方法所使用的参数的一组可能取值的选取方法包括:
将随机生成的所述页面相关度确定方法所使用的参数的至少一组可能取值放入第一存储单元;
对于每次训练操作过程,从第一存储单元中选取所述参数的一组可能取值,作为本次训练操作过程中所述页面相关度确定方法所使用的参数的一组可能取值;
在每次训练操作过程结束后,将本次训练操作过程中所述页面相关度确定方法所使用的参数的一组可能取值放入第二存储单元;从第二存储单元中选取至少一组可能取值,并根据选取的各组可能取值按照第三设定方法生成新的一组可能取值,将该新的一组可能取值放入第一存储单元。
5.如权利要求4所述的方法,其特征在于,所述从第二存储单元中选取所述参数的至少一组可能取值,具体包括:
将第二存储单元中所述参数的各组可能取值进行排序,使得对应的搜索引擎质量衡量指标值的和值较大的一组可能取值位于对应的搜索引擎质量衡量指标值的和值较小的一组可能取值之前;选取排列在最前面的至少一组可能取值。
6.如权利要求4所述的方法,其特征在于,所述第三设定方法为:
爬山算法,或模拟退火算法,或遗传算法。
7.如权利要求3所述的方法,其特征在于,第一设定方法包括如下公式一到公式三:
公式一: score 1 = p 0 + p 1 × DocFirstClicks + p 2 × DocClicks + p 3 × DocLastClicks + p 4 × DocOnlyClicks p 1 + p 2 + p 3 + p 4 ;
公式二: score 2 = p 6 DocClicks + p 7 + p 8 QueryTime + p 9 p 6 + p 8 ;
公式三: score = score 1 × score 2 × p 10 × log ( 1 + score 1 ) log ( 1 + DocViews ) + ( 1 - p 10 ) ) ;
其中,p0、p1、p2、p3、p4、p6、p7、p8、p9、p10为离线参数,score为相关页面的离线相关度;QueryTime为在设定时间内相关页面对应的离线关键词被搜索的次数;DocClicks为在设定时间内相关页面被点击的次数;DocFirstClicks为在设定时间内相关页面作为搜索结果中第一个被点击的页面的次数;DocLastClicks为在设定时间内相关页面作为搜索结果中最后一个被点击的页面的次数;DocOnlyClicks为在设定时间内相关页面作为搜索结果中唯一被点击的页面的次数;DocViews为在设定时间内相关页面被浏览过的次数。
8.如权利要求3所述的方法,其特征在于,第二设定方法包括如下公式四到公式五:
公式四:clickScore=q0×strictScore+q1×generalizeScore;
公式五:generalizeScore=q3×parentScore+q4×ngram cov er_score;
其中,clickScore为相关页面的在线相关度,q0、q1、q3、q4为在线参数,strictScore是根据统计的设定时间内用户在线查询的关键词与相关页面对应的离线关键词完全一致时,相关页面与对应的离线关键词的离线相关度得到的相关度分值;parentScore是根据统计的设定时间内用户在线查询的关键词与相关页面对应的离线关键词不完全一致且相关页面对应的离线关键词中的所有信息元素被包含在在线查询的关键词中时,相关页面与对应的离线关键词的离线相关度得到的相关度分值;ngram cov er_score是根据统计的设定时间内用户在线查询的关键词与相关页面对应的离线关键词不完全一致且相关页面对应的离线关键词中的至少一个信息元素被包含在在线查询的关键词中时,相关页面与对应的离线关键词的离线相关度得到的相关度分值。
9.如权利要求3所述的方法,其特征在于,所述根据该在线相关度确定该相关页面与对应离线关键词的相关度,具体包括:
将该在线相关度确定为该相关页面与对应离线关键词的相关度;或者,
根据该在线相关度和该相关页面的信息,确定该相关页面与对应离线关键词的相关度。
10.如权利要求9所述的方法,其特征在于,所述相关页面的信息包括以下信息中的至少一个:
相关页面的标题与对应离线关键词的匹配度、相关页面的正文与对应离线关键词的匹配度、相关页面的页面丰富度、相关页面的权威度、相关页面的时新度。
11.一种基于权利要求1-10中任一所述取值训练方法的搜索请求处理方法,其特征在于,该方法包括:
接收到包含输入的关键词的搜索请求后,搜索与所述关键词相关的页面;
获取页面相关度确定方法所使用的参数的训练结果值;
根据所述页面相关度确定方法和所述训练结果值,分别确定搜索到的每个页面与输入的关键词的相关度;
根据搜索到的每个页面与输入的关键词的相关度将搜索到的各页面进行排序,以使相关度较高的页面位于相关度较低的页面之前;按照排序结果将搜索到的各页面的地址信息进行展现。
12.如权利要求11所述的方法,其特征在于,所述页面相关度确定方法所使用的参数包括离线参数和在线参数;
在搜索与所述关键词相关的页面之后、且根据所述页面相关度确定方法和所述训练结果值,分别确定搜索到的每个页面与输入的关键词的相关度之前,进一步包括:收集搜索到的每个页面的历史点击数据;
所述根据所述页面相关度确定方法和所述训练结果值,分别确定搜索到的每个页面与输入的关键词的相关度,具体包括:
对于搜索到的每个页面,根据该页面的历史点击数据和所述离线参数的训练结果值,按照第一设定方法得到该页面的离线相关度;
根据得到的离线相关度和所述在线参数的训练结果值,按照第二设定方法得到搜索到的每个页面的在线相关度;对于搜索到的每个页面,根据该页面的在线相关度确定该页面与输入的关键词的相关度。
13.如权利要求12所述的方法,其特征在于,第一设定方法包括如下公式一到公式三:
公式一: score 1 = p 0 + p 1 × DocFirstClicks + p 2 × DocClicks + p 3 × DocLastClicks + p 4 × DocOnlyClicks p 1 + p 2 + p 3 + p 4 ;
公式二: score 2 = p 6 DocClicks + p 7 + p 8 QueryTime + p 9 p 6 + p 8 ;
公式三: score = score 1 × score 2 × p 10 × log ( 1 + score 1 ) log ( 1 + DocViews ) + ( 1 - p 10 ) ) ;
其中,p0、p1、p2、p3、p4、p6、p7、p8、p9、p10为离线参数,score为页面的离线相关度;QueryTime为在设定时间内页面对应的关键词被搜索的次数;DocClicks为在设定时间内页面被点击的次数;DocFirstClicks为在设定时间内页面作为搜索结果中第一个被点击的页面的次数;DocLastClicks为在设定时间内页面作为搜索结果中最后一个被点击的页面的次数;DocOnlyClicks为在设定时间内页面作为搜索结果中唯一被点击的页面的次数;DocViews为在设定时间内页面被浏览过的次数。
14.如权利要求12所述的方法,其特征在于,第二设定方法包括如下公式四到公式五:
公式四:clickScore=q0×strictScore+q1×generalizeScore;
公式五:generalizeScore=q3×parentScore+q4×ngram cov er_score;
其中,clickScore为页面的在线相关度,q0、q1、q3、q4为在线参数,strictScore是根据统计的设定时间内用户在线查询的关键词与当前页面对应的离线关键词完全一致时,页面与对应的离线关键词的离线相关度得到的相关度分值;parentScore是根据统计的设定时间内用户在线查询的关键词与页面对应的离线关键词不完全一致且页面对应的离线关键词中的所有信息元素被包含在在线查询的关键词中时,页面与对应的离线关键词的离线相关度得到的相关度分值;ngram cov er_score是根据统计的设定时间内用户在线查询的关键词与页面对应的离线关键词不完全一致且页面对应的离线关键词中的至少一个信息元素被包含在在线查询的关键词中时,页面与对应的离线关键词的离线相关度得到的相关度分值。
15.如权利要求12所述的方法,其特征在于,所述根据该在线相关度确定该页面与输入的关键词的相关度,具体包括:
将该在线相关度确定为该页面与输入的关键词的相关度;或者,
根据该在线相关度和该页面的信息,确定该页面与输入的关键词的相关度。
16.如权利要求15所述的方法,其特征在于,所述页面的信息包括以下信息中的至少一个:
页面的标题与输入的关键词的匹配度、页面的正文与输入的关键词的匹配度、页面的页面丰富度、页面的权威度、页面的时新度。
17.一种确定页面相关度所使用参数的取值训练装置,其特征在于,该装置包括:
数据采集单元,用于抽取多个离线关键词及每个离线关键词的多个相关页面;
模型训练单元,用于根据抽取的各离线关键词和各相关页面,采用模型训练方法得到页面相关度确定方法所使用的参数的训练结果值,以使在采用所述页面相关度确定方法和所述训练结果值确定离线关键词的相关页面的相关度并根据确定结果将该离线关键词的相关页面进行排序时,能够使排序结果对应的搜索引擎质量衡量指标值符合期望值;
结果输出单元,用于将所述页面相关度确定方法所使用的参数的训练结果值进行输出,以用于确定关键词的相关页面的相关度。
18.如权利要求17所述的装置,其特征在于,所述模型训练单元,具体用于:
执行多次如下训练操作:采用所述页面相关度确定方法和所述参数的一组可能取值,确定各离线关键词的各相关页面与对应离线关键词的相关度,对于每个离线关键词,分别根据该离线关键词的各相关页面的相关度对该离线关键词的各相关页面进行排序,并确定每次排序结果对应的搜索引擎质量衡量指标值的和值;其中每次训练操作过程中所述页面相关度确定方法所使用的参数的一组可能取值不同;
将得到的最大的搜索引擎质量衡量指标值的和值对应的训练操作过程中所述页面相关度确定方法所使用的参数的一组可能取值,作为该参数的训练结果值。
19.如权利要求18所述的装置,其特征在于,所述页面相关度确定方法所使用的参数包括离线参数和在线参数;
所述数据采集单元还用于:在抽取多个离线关键词及每个离线关键词的多个相关页面之后、且执行多次所述训练操作之前,收集各离线关键词的各相关页面的历史点击数据;
所述模型训练单元具体用于:按照如下方法采用所述页面相关度确定方法和所述参数的一组可能取值,确定各离线关键词的各相关页面与对应离线关键词的相关度:
对于各离线关键词的各相关页面,根据该相关页面的历史点击数据和所述离线参数的可能取值,按照第一设定方法得到该相关页面的离线相关度;
根据得到的离线相关度和所述在线参数的可能取值,按照第二设定方法得到每个相关页面的在线相关度;对于每个相关页面,根据该相关页面的在线相关度确定该相关页面与对应离线关键词的相关度。
20.如权利要求18所述的装置,其特征在于,所述模型训练单元还用于:
将随机生成的所述页面相关度确定方法所使用的参数的至少一组可能取值放入第一存储单元;
对于每次训练操作过程,从第一存储单元中选取所述参数的一组可能取值,作为本次训练操作过程中所述页面相关度确定方法所使用的参数的一组可能取值;
在每次训练操作过程结束后,将本次训练操作过程中所述页面相关度确定方法所使用的参数的一组可能取值放入第二存储单元;从第二存储单元中选取至少一组可能取值,并根据选取的各组可能取值按照第三设定方法生成新的一组可能取值,将该新的一组可能取值放入第一存储单元。
21.如权利要求20所述的装置,其特征在于,所述模型训练单元具体用于:按照如下方法从第二存储单元中选取至少一组可能取值:
将第二存储单元中所述参数的各组可能取值进行排序,使得对应的搜索引擎质量衡量指标值的和值较大的一组可能取值位于对应的搜索引擎质量衡量指标值的和值较小的一组可能取值之前;选取排列在最前面的至少一组可能取值。
22.如权利要求20所述的装置,其特征在于,所述第三设定方法为:
爬山算法,或模拟退火算法,或遗传算法。
23.如权利要求19所述的装置,其特征在于,所述模型训练单元采用的第一设定方法包括如下公式一到公式三:
公式一: score 1 = p 0 + p 1 × DocFirstClicks + p 2 × DocClicks + p 3 × DocLastClicks + p 4 × DocOnlyClicks p 1 + p 2 + p 3 + p 4 ;
公式二: score 2 = p 6 DocClicks + p 7 + p 8 QueryTime + p 9 p 6 + p 8 ;
公式三: score = score 1 × score 2 × p 10 × log ( 1 + score 1 ) log ( 1 + DocViews ) + ( 1 - p 10 ) ) ;
其中,p0、p1、p2、p3、p4、p6、p7、p8、p9、p10为离线参数,score为相关页面的离线相关度;QueryTime为在设定时间内相关页面对应的离线关键词被搜索的次数;DocClicks为在设定时间内相关页面被点击的次数;DocFirstClicks为在设定时间内相关页面作为搜索结果中第一个被点击的页面的次数;DocLastClicks为在设定时间内相关页面作为搜索结果中最后一个被点击的页面的次数;DocOnlyClicks为在设定时间内相关页面作为搜索结果中唯一被点击的页面的次数;DocViews为在设定时间内相关页面被浏览过的次数。
24.如权利要求19所述的装置,其特征在于,所述模型训练单元采用的第二设定方法包括如下公式四到公式五:
公式四:clickScore=q0×strictScore+q1×generalizeScore;
公式五:generalizeScore=q3×parentScore+q4×ngram cov er_score;
其中,clickScore为相关页面的在线相关度,q0、q1、q3、q4为在线参数,strictScore是根据统计的设定时间内用户在线查询的关键词与相关页面对应的离线关键词完全一致时,相关页面与对应的离线关键词的离线相关度得到的相关度分值;parentScore是根据统计的设定时间内用户在线查询的关键词与相关页面对应的离线关键词不完全一致且相关页面对应的离线关键词中的所有信息元素被包含在在线查询的关键词中时,相关页面与对应的离线关键词的离线相关度得到的相关度分值;ngram cov er_score是根据统计的设定时间内用户在线查询的关键词与相关页面对应的离线关键词不完全一致且相关页面对应的离线关键词中的至少一个信息元素被包含在在线查询的关键词中时,相关页面与对应的离线关键词的离线相关度得到的相关度分值。
25.如权利要求19所述的装置,其特征在于,所述模型训练单元具体用于:按照如下方法根据该在线相关度确定该相关页面与对应离线关键词的相关度:
将该在线相关度确定为该相关页面与对应离线关键词的相关度;或者,
根据该在线相关度和该相关页面的信息,确定该相关页面与对应离线关键词的相关度。
26.如权利要求25所述的装置,其特征在于,所述相关页面的信息包括以下信息中的至少一个:
相关页面的标题与对应离线关键词的匹配度、相关页面的正文与对应离线关键词的匹配度、相关页面的页面丰富度、相关页面的权威度、相关页面的时新度。
27.一种基于权利要求17-26中任一所述取值训练装置的搜索请求处理装置,其特征在于,该装置包括:
搜索单元,用于在接收到包含输入的关键词的搜索请求后,搜索与所述关键词相关的页面;
获取单元,用于获取页面相关度确定方法所使用的参数的训练结果值;
确定单元,用于根据所述页面相关度确定方法和所述训练结果值,分别确定搜索到的每个页面与输入的关键词的相关度;
展现单元,用于根据搜索到的每个页面与输入的关键词的相关度将搜索到的各页面进行排序,以使相关度较高的页面位于相关度较低的页面之前;按照排序结果将搜索到的各页面的地址信息进行展现。
28.如权利要求27所述的装置,其特征在于,所述页面相关度确定方法所使用的参数包括离线参数和在线参数;该装置还包括:
收集单元,用于在搜索与所述关键词相关的页面之后、且根据所述页面相关度确定方法和所述训练结果值,分别确定搜索到的每个页面与输入的关键词的相关度之前,收集搜索到的每个页面的历史点击数据;
所述确定单元具体用于:
对于搜索到的每个页面,根据该页面的历史点击数据和所述离线参数的训练结果值,按照第一设定方法得到该页面的离线相关度;
根据得到的离线相关度和所述在线参数的训练结果值,按照第二设定方法得到搜索到的每个页面的在线相关度;对于搜索到的每个页面,根据该页面的在线相关度确定该页面与输入的关键词的相关度。
29.如权利要求28所述的装置,其特征在于,所述确定单元采用的第一设定方法包括如下公式一到公式三:
公式一: score 1 = p 0 + p 1 × DocFirstClicks + p 2 × DocClicks + p 3 × DocLastClicks + p 4 × DocOnlyClicks p 1 + p 2 + p 3 + p 4 ;
公式二: score 2 = p 6 DocClicks + p 7 + p 8 QueryTime + p 9 p 6 + p 8 ;
公式三: score = score 1 × score 2 × p 10 × log ( 1 + score 1 ) log ( 1 + DocViews ) + ( 1 - p 10 ) ) ;
其中,p0、p1、p2、p3、p4、p6、p7、p8、p9、p10为离线参数,score为页面的离线相关度;QueryTime为在设定时间内页面对应的关键词被搜索的次数;DocClicks为在设定时间内页面被点击的次数;DocFirstClicks为在设定时间内页面作为搜索结果中第一个被点击的页面的次数;DocLastClicks为在设定时间内页面作为搜索结果中最后一个被点击的页面的次数;DocOnlyClicks为在设定时间内页面作为搜索结果中唯一被点击的页面的次数;DocViews为在设定时间内页面被浏览过的次数。
30.如权利要求28所述的装置,其特征在于,所述确定单元采用的第二设定方法包括如下公式四到公式五:
公式四:clickScore=q0×strictScore+q1×generalizeScore;
公式五:generalizeScore=q3×parentScore+q4×ngram cov er_score;
其中,clickScore为页面的在线相关度,q0、q1、q3、q4为在线参数,strictScore是根据统计的设定时间内用户在线查询的关键词与页面对应的离线关键词完全一致时,页面与对应的离线关键词的离线相关度得到的相关度分值;parentScore是根据统计的设定时间内用户在线查询的关键词与页面对应的离线关键词不完全一致且页面对应的关离线键词中的所有信息元素被包含在在线查询的关键词中时,页面与对应的离线关键词的离线相关度得到的相关度分值;ngram cov er_score是根据统计的设定时间内用户在线查询的关键词与页面对应的离线关键词不完全一致且页面对应的离线关键词中的至少一个信息元素被包含在在线查询的关键词中时,页面与对应的离线关键词的离线相关度得到的相关度分值。
31.如权利要求28所述的装置,其特征在于,所述确定单元具体用于:按照如下方法根据该在线相关度确定该页面与输入的关键词的相关度:
将该在线相关度确定为该页面与输入的关键词的相关度;或者,
根据该在线相关度和该页面的信息,确定该页面与输入的关键词的相关度。
32.如权利要求31所述的装置,其特征在于,所述页面的信息包括以下信息中的至少一个:
页面的标题与输入的关键词的匹配度、页面的正文与输入的关键词的匹配度、页面的页面丰富度、页面的权威度、页面的时新度。
CN201310574741.6A 2013-11-15 2013-11-15 参数取值训练及搜索请求处理方法和装置 Active CN104636407B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310574741.6A CN104636407B (zh) 2013-11-15 2013-11-15 参数取值训练及搜索请求处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310574741.6A CN104636407B (zh) 2013-11-15 2013-11-15 参数取值训练及搜索请求处理方法和装置

Publications (2)

Publication Number Publication Date
CN104636407A true CN104636407A (zh) 2015-05-20
CN104636407B CN104636407B (zh) 2019-07-19

Family

ID=53215167

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310574741.6A Active CN104636407B (zh) 2013-11-15 2013-11-15 参数取值训练及搜索请求处理方法和装置

Country Status (1)

Country Link
CN (1) CN104636407B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105574030A (zh) * 2014-10-16 2016-05-11 腾讯科技(深圳)有限公司 一种信息搜索方法及装置
CN106528623A (zh) * 2016-09-28 2017-03-22 深圳云天励飞技术有限公司 一种搜索引擎加速方法及装置
CN106649606A (zh) * 2016-11-29 2017-05-10 华为技术有限公司 优化搜索结果的方法及装置
CN106777088A (zh) * 2016-12-13 2017-05-31 飞狐信息技术(天津)有限公司 快速迭代的搜索引擎排序方法及系统
CN107122467A (zh) * 2017-04-26 2017-09-01 努比亚技术有限公司 一种搜索引擎的检索结果评价方法及装置、计算机可读介质
CN109117370A (zh) * 2018-08-07 2019-01-01 Oppo广东移动通信有限公司 游戏测试方法及相关产品
CN111831885A (zh) * 2020-07-14 2020-10-27 深圳市众创达企业咨询策划有限公司 一种互联网信息检索系统与方法
CN112100444A (zh) * 2020-09-27 2020-12-18 四川长虹电器股份有限公司 一种基于机器学习的搜索结果排序方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101770521A (zh) * 2010-03-11 2010-07-07 东华大学 一种用于垂直搜索引擎的聚焦相关度排序方法
US20110071997A1 (en) * 2007-07-30 2011-03-24 Sullivan Alan T Systems and methods for direction of communication traffic
CN103092856A (zh) * 2011-10-31 2013-05-08 阿里巴巴集团控股有限公司 搜索结果排序方法及设备、搜索方法及设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110071997A1 (en) * 2007-07-30 2011-03-24 Sullivan Alan T Systems and methods for direction of communication traffic
CN101770521A (zh) * 2010-03-11 2010-07-07 东华大学 一种用于垂直搜索引擎的聚焦相关度排序方法
CN103092856A (zh) * 2011-10-31 2013-05-08 阿里巴巴集团控股有限公司 搜索结果排序方法及设备、搜索方法及设备

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105574030A (zh) * 2014-10-16 2016-05-11 腾讯科技(深圳)有限公司 一种信息搜索方法及装置
CN105574030B (zh) * 2014-10-16 2019-07-12 腾讯科技(深圳)有限公司 一种信息搜索方法及装置
CN106528623A (zh) * 2016-09-28 2017-03-22 深圳云天励飞技术有限公司 一种搜索引擎加速方法及装置
CN106528623B (zh) * 2016-09-28 2018-05-22 深圳云天励飞技术有限公司 一种搜索引擎加速方法及装置
CN106649606A (zh) * 2016-11-29 2017-05-10 华为技术有限公司 优化搜索结果的方法及装置
CN106649606B (zh) * 2016-11-29 2020-03-31 华为技术有限公司 优化搜索结果的方法及装置
CN106777088A (zh) * 2016-12-13 2017-05-31 飞狐信息技术(天津)有限公司 快速迭代的搜索引擎排序方法及系统
CN107122467A (zh) * 2017-04-26 2017-09-01 努比亚技术有限公司 一种搜索引擎的检索结果评价方法及装置、计算机可读介质
CN109117370A (zh) * 2018-08-07 2019-01-01 Oppo广东移动通信有限公司 游戏测试方法及相关产品
CN111831885A (zh) * 2020-07-14 2020-10-27 深圳市众创达企业咨询策划有限公司 一种互联网信息检索系统与方法
CN111831885B (zh) * 2020-07-14 2021-03-16 深圳市众创达企业咨询策划有限公司 一种互联网信息检索系统与方法
CN112100444A (zh) * 2020-09-27 2020-12-18 四川长虹电器股份有限公司 一种基于机器学习的搜索结果排序方法及系统

Also Published As

Publication number Publication date
CN104636407B (zh) 2019-07-19

Similar Documents

Publication Publication Date Title
CN104636407A (zh) 参数取值训练及搜索请求处理方法和装置
CN102760138B (zh) 用户网络行为的分类方法和装置及对应的搜索方法和装置
CN108280114B (zh) 一种基于深度学习的用户文献阅读兴趣分析方法
CN107704467B (zh) 搜索质量评估方法及装置
CN112632359B (zh) 信息推荐方法、装置、电子设备和存储介质
CN106202294B (zh) 基于关键词和主题模型融合的相关新闻计算方法及装置
CN103425687A (zh) 一种基于关键词的检索方法和系统
CN102567494B (zh) 网站分类方法及装置
CN105488024A (zh) 网页主题句的抽取方法及装置
US10565253B2 (en) Model generation method, word weighting method, device, apparatus, and computer storage medium
CN103365839A (zh) 一种搜索引擎的推荐搜索方法和装置
CN104484380A (zh) 个性化搜索方法及装置
CN102314443B (zh) 搜索引擎的修正方法和系统
CN110543595A (zh) 一种站内搜索系统及方法
CN110046298A (zh) 一种查询词推荐方法、装置、终端设备及计算机可读介质
CN104199965A (zh) 一种语义信息检索方法
CN103049470A (zh) 基于情感相关度的观点检索方法
CN101101605A (zh) 搜索网页的方法、装置及系统和建立索引数据库的装置
CN101751455A (zh) 采用人工智能技术自动产生标题的方法
CN1629837A (zh) 电子文档的处理、浏览及分类查询的方法、装置及其系统
CN103744889A (zh) 一种用于对问题进行聚类处理的方法与装置
CN103399862A (zh) 确定目标查询序列所对应的搜索引导信息的方法与设备
CN113722478A (zh) 多维度特征融合相似事件计算方法、系统及电子设备
CN105930490A (zh) 一种教学资源智能甄选系统
CN106815195A (zh) 一种分词方法及装置、检索方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant