CN104462553A - 问答页面相关问题推荐方法及装置 - Google Patents

问答页面相关问题推荐方法及装置 Download PDF

Info

Publication number
CN104462553A
CN104462553A CN201410828866.1A CN201410828866A CN104462553A CN 104462553 A CN104462553 A CN 104462553A CN 201410828866 A CN201410828866 A CN 201410828866A CN 104462553 A CN104462553 A CN 104462553A
Authority
CN
China
Prior art keywords
relevant issues
question
user
relevant
participle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410828866.1A
Other languages
English (en)
Other versions
CN104462553B (zh
Inventor
沈亮
周伟
梁任鹏
项碧波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201410828866.1A priority Critical patent/CN104462553B/zh
Publication of CN104462553A publication Critical patent/CN104462553A/zh
Priority to PCT/CN2015/095853 priority patent/WO2016101765A1/zh
Application granted granted Critical
Publication of CN104462553B publication Critical patent/CN104462553B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种问答页面相关问题推荐方法及装置。其中,该方法包括:根据来自用户的搜索词,获取数据库与搜索词相关的至少一个相关问题;根据至少一个预设规则对获取的相关问题进行筛选;根据相关问题的筛选结果,确定推荐给用户的相关问题。依据本发明实施例的问答页面相关问题推荐方法,能够得到更准确、更贴合用户需要的相关问题,因此能够提高问答页面检索的准确性。

Description

问答页面相关问题推荐方法及装置
技术领域
本发明涉及搜索技术领域,特别是涉及一种问答页面相关问题推荐方法及装置。
背景技术
随着互联网技术的发展,互联网数据早已呈现爆炸性增长的趋势,人们对知识的需求越来越渴望,越来越多的人们开始使用搜索引擎搜索来满足对未知知识的查询与搜索。大型搜索引擎(比如谷歌google、360、百度等)可以很方便快捷的提供相关问答的搜索。其中相关问答搜索是指用户输入一个问题,搜索引擎检索与该问题相对应的答案。在不同的问答知识页面,不仅提供了针对用户输入的问题进行回答的相关答复内容,还提供了与当前问答页面的用户输入问题相关的问题链接,供用户参考使用,方便用户在进行问答搜索时从不同角度综合得到该问题的解决答案。
例如:当前问答页面的搜索问题为:“感冒咳嗽怎么办?”在当前问答页面为用户推荐的相关问题可以包括:“感冒怎么办?”,“感冒咳嗽流鼻涕怎么办?”,“小孩感冒咳嗽怎么办?”,等等。
现有技术中获取相关问题时,一般是根据用户输入的搜索词作为核心词来进行获取的,这种方式比较简单直接,但获取到的相关问题与用户输入的问题的相关度并不是很好,往往不能很好地满足用户的需求,也就是说,其所获取的相关问题与用户真正想要获得的问题答案之间的匹配度比较差,导致问答页面问题检索的准确性比较差,与用户需求的贴合性比较差,不能解决用户想在当前问答页面查看与所检索的问题更贴近的、更吻合的问题答案的检索匹配需求。
因此,如何获取更合适的相关问题推荐给用户,成为问答页面相关问题获取推荐过程中亟待解决的技术问题。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的问答页面相关问题推荐方法及装置。
依据本发明的一个方面,提供了一种问答页面相关问题推荐方法,包括:根据来自用户的搜索词,获取数据库与所述搜索词相关的至少一个相关问题;根据至少一个预设规则对获取的所述相关问题进行筛选;根据所述相关问题的筛选结果,确定问答页面推荐给用户的相关问题。
可选地,所述至少一个预设规则包括下列至少之一:根据核心词对所述相关问题进行筛选;根据用户的浏览行为日志对所述相关问题进行筛选;根据用户的搜索点击行为日志对所述相关问题进行筛选。
可选地,所述根据核心词对所述相关问题进行筛选,包括:获取与所述搜索词对应的问答页面;提取所述问答页面中的核心词,并根据所述核心词筛选所述相关问题。
可选地,提取所述问答页面中的至少一个核心词,包括:从问答页面中提取核心词候选串;对所述核心词候选串进行分词,提取各个候选串分词的分类特征;根据所述分类特征筛选各个候选串分词是否是核心词。
可选地,从问答页面中提取核心词候选串,包括:从所述问答页面的标题中提取核心词候选串;和/或,从所述问答页面的页面内容中,提取与所述搜索词相关的字符串,作为核心词候选串。
可选地,提取与所述搜索词相关的字符串,包括:对所述搜索词进行分词;从所述问答页面的页面内容中提取包括至少一个搜索词分词的字符串。
可选地,根据所述分类特征筛选各个候选串分词是否是核心词,包括:根据所述分类特征对候选串分词进行分类,根据分类结果确定各个候选串分词是否是核心词;所述分类特征包括下列特征中的至少一种:名词、热度词表、超链接、相关问题共现率、文档词频。
可选地,根据分类结果确定各个候选串分词是否是核心词,具体包括:针对每个分类,将该分类中各个候选串分词与用户输入的搜索词进行匹配,筛选出匹配度最高的设定数量的候选串分词,作为所述核心词;针对每个分类,根据该分类中各个候选串分词的使用频率统计值,筛选出所述使用频率统计值最高的设定数量的候选串分词,作为所述核心词;其中,候选串分词的使用频率统计值包括下列参数之一:被搜索次数、被点击次数、曾作为核心词的次数、曾作为搜索词的次数。
可选地,所述根据用户的浏览行为日志对所述相关问题进行筛选,包括:根据选定时间段内用户的浏览行为日志,确定获取的所述相关问题的浏览权重;根据所述浏览权重对所述相关问题进行排序;根据排序结果对所述相关问题进行筛选。
可选地,所述根据排序结果对所述相关问题进行筛选,包括:根据所述排序结果提取第一预定个数个所述相关问题。
可选地,所述根据选定时间段内用户的浏览行为日志,确定获取的所述相关问题的浏览权重,包括:根据浏览所述相关问题的浏览用户,对获取的相关问题进行分组;其中,每个相关问题分组中包括一个浏览用户对应的部分或者全部相关问题;在每个相关问题分组中,计算组中每个相关问题与组中其它相关问题的相关浏览权重;获取同一相关问题在各相关问题分组中计算得到的相关浏览权重,将获取到的相关浏览权重进行加权,得到获取的每个相关问题的浏览权重。
可选地,根据浏览所述相关问题的浏览用户,对获取的相关问题进行分组,包括:根据选定时间段内的浏览行为日志,得到每个浏览用户的浏览特征向量{T1、T2、……、Ti、Ti+1、……、Tn},其中,Ti表示一个相关问题。
可选地,计算组中每个相关问题与组中其它相关问题的相关浏览权重,包括:在每个相关问题分组中,根据浏览用户浏览每个相关问题的浏览时间对该相关问题分组中的所有相关问题进行排序;根据排序结果中,划分浏览时间间隔小于预设的时间间隔阈值的相关问题至同一会话组;在每个会话组中,计算组中每个相关问题与组中其它相关问题的相关浏览权重。
可选地,所述浏览特征向量中的元素Ti的属性包括下列参数中的至少一个:问答页面的生成时间、答案数、好评数、差评数、问答长度、用户浏览时间、用户停留时间等。
可选地,所述根据用户的搜索点击行为日志对所述相关问题进行筛选,包括:根据选定时间段内用户的搜索点击日志,确定获取的所述相关问题的点击权重;根据所述点击权重对获取的相关问题进行排序;根据排序结果对所述相关问题进行筛选。
可选地,所述根据排序结果对所述相关问题进行筛选,包括:根据所述排序结果提取第二预定个数个所述相关问题。
可选地,根据设定时间段内用户的搜索点击日志,确定获取的所述相关问题的点击权重,包括:根据所述相关问题对应的查询请求串,对获取的所述相关问题进行分组;其中,每个相关问题分组中包括一个查询请求串对应的部分或全部相关问题;在每个相关问题分组中,计算组中每个相关问题与组中其他相关问题的相关点击权重;获取同一相关问题在各相关问题分组中计算得到的相关点击权重,将获取到的相关点击权重进行加权,得到获取的每个相关问题的点击权重。
可选地,根据所述相关问题对应的查询请求串,对获取的所述相关问题进行分组,包括:根据所述相关问题对应的查询请求串,得到每个查询请求串的点击特征向量{T1、T2、……、Ti、Ti+1、……、Tn},其中Ti表示一个相关问题。
可选地,点击特征向量中的元素Ti的属性包括下列参数中的至少一个:问答页面的生成时间、答案数、好评数、差评数、问答长度、展示次数、被点击次数等。
依据本发明的另一方面,还提供了一种问答页面相关问题推荐装置,包括:获取器,适于根据来自用户的搜索词,获取数据库与所述搜索词相关的至少一个相关问题;筛选器,适于根据至少一个预设规则对获取的所述相关问题进行筛选;推荐器,适于根据所述相关问题的筛选结果,确定问答页面推荐给用户的相关问题。
可选地,所述筛选器还包括:第一筛选模块,适于根据用户的浏览行为日志对所述相关问题进行筛选;第二筛选模块,适于根据用户的搜索点击行为日志对所述相关问题进行筛选;第三筛选模块,适于根据核心词对所述相关问题进行筛选;。
可选地,所述第三筛选模块还还包括:获取单元,适于获取与所述搜索词对应的问答页面;提取单元,适于提取所述问答页面中的核心词;确定单元,适于根据所述核心词筛选所述相关问题。
可选地,所述提取单元还适于:从问答页面中提取核心词候选串;对所述核心词候选串进行分词,提取各个候选串分词的分类特征;根据所述分类特征筛选各个候选串分词是否是核心词。
可选地,所述提取单元还适于:从所述问答页面的标题中提取核心词候选串;和/或,从所述问答页面的页面内容中,提取与所述搜索词相关的字符串,作为核心词候选串。
可选地,所述提取单元还适于:对所述搜索词进行分词;从所述问答页面的页面内容中提取包括至少一个搜索词分词的字符串。
可选地,所述提取单元还适于:根据所述分类特征对候选串分词进行分类,根据分类结果确定各个候选串分词是否是核心词;所述分类特征包括下列特征中的至少一种:名词、热度词表、超链接、相关问题共现率、文档词频。
可选地,所述提取单元还适于:针对每个分类,将该分类中各个候选串分词与用户输入的搜索词进行匹配,筛选出匹配度最高的设定数量的候选串分词,作为所述核心词;针对每个分类,根据该分类中各个候选串分词的使用频率统计值,筛选出所述使用频率统计值最高的设定数量的候选串分词,作为所述核心词;其中,候选串分词的使用频率统计值包括下列参数之一:被搜索次数、被点击次数、曾作为核心词的次数、曾作为搜索词的次数。
可选地,所述第一筛选模块还包括:第一权重确定单元,适于根据选定时间段内用户的浏览行为日志,确定获取的所述相关问题的浏览权重;第一排序单元,适于根据所述浏览权重对获取的相关问题进行排序;第一筛选单元,适于根据排序结果对所述相关问题进行筛选。
可选地,所述第一筛选单元还适于:根据所述排序结果提取第一预定个数个所述相关问题。
可选地,所述第一权重确定单元还适于:根据浏览所述相关问题的浏览用户,对获取的相关问题进行分组;其中,每个相关问题分组中包括一个浏览用户对应的部分或者全部相关问题;在每个相关问题分组中,计算组中每个相关问题与组中其它相关问题的相关浏览权重;获取同一相关问题在各相关问题分组中计算得到的相关浏览权重,将获取到的相关浏览权重进行加权,得到获取的每个相关问题的浏览权重。
可选地,所述第一权重确定单元还适于:根据选定时间段内的浏览行为日志,得到每个浏览用户的浏览特征向量{T1、T2、……、Ti、Ti+1、……、Tn},其中,Ti表示一个相关问题。
可选地,所述第一权重确定单元还适于:在每个相关问题分组中,根据浏览用户浏览每个相关问题的浏览时间对该相关问题分组中的所有相关问题进行排序;根据排序结果中,划分浏览时间间隔小于预设的时间间隔阈值的相关问题至同一会话组;在每个会话组中,计算组中每个相关问题与组中其它相关问题的相关浏览权重。
可选地,所述第二筛选模块还包括:第二权重确定单元,适于根据选定时间段内用户的搜索点击日志,确定获取的所述相关问题的点击权重;第二排序单元,适于根据所述点击权重对获取的相关问题进行排序;第二筛选单元,适于根据排序结果对所述相关问题进行筛选。
可选地,所述第二权重确定单元还适于:根据所述相关问题对应的查询请求串,对获取的所述相关问题进行分组;其中,每个相关问题分组中包括一个查询请求串对应的部分或全部相关问题;在每个相关问题分组中,计算组中每个相关问题与组中其他相关问题的相关点击权重;获取同一相关问题在各相关问题分组中计算得到的相关点击权重,将获取到的相关点击权重进行加权,得到获取的每个相关问题的点击权重。
可选地,所述第二权重确定单元还适于:根据所述相关问题对应的查询请求串,得到每个查询请求串的点击特征向量{T1、T2、……、Tn},实现对获取的相关问题进行分组;其中Ti表示一个相关问题。
可选地,所述第二权重确定单元还适于:
得到的点击特征向量中的元素Ti的属性包括下列参数中的至少一个:
问答页面的生成时间、答案数、好评数、差评数、问答长度、展示次数、被点击次数等。
依据本发明实施例的问答页面相关问题推荐方法,能够根据来自用户的搜索词,获取数据库与搜索词相关的至少一个相关问题,并根据至少一个预设规则对获取的相关问题进行筛选,根据筛选结果确定推荐给用户的相关问题。可知,依据本发明实施例的问答页面相关问题推荐方法,在获取到与搜索词相关的相关问题后,利用预设规则对相关问题进行筛选,得到能够更好地反映用户输入的搜索词的相关问题,从而获取到用户真正想要获得的问题答案。另外,本例中利用至少一个预设规则对获取的相关问题进行筛选,即,本例中可以利用多个预设规则对获取的相关问题进行筛选。而利用多个预设规则对获取的相关问题进行多次筛选,能够得到更准确、更贴合用户需要的相关问题,因此能够提高问答页面检索的准确性。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
根据下文结合附图对本发明具体实施例的详细描述,本领域技术人员将会更加明了本发明的上述以及其他目的、优点和特征。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的问答页面相关问题推荐方法的处理流程图;
图2示出了根据本发明一个实施例的根据核心词筛选相关问题并推荐的处理流程图;
图3示出了根据本发明另一个实施例的根据核心词筛选相关问题并推荐的处理流程图;
图4示出了根据本发明又一个实施例的根据核心词筛选相关问题并推荐的处理流程图;
图5示出了根据本发明一个实施例的根据用户的浏览行为日志对相关问题进行筛选并推荐的处理流程图;
图6示出了根据本发明另一个实施例的根据用户的浏览行为日志对相关问题进行筛选并推荐的处理流程图;
图7示出了根据本发明一个实施例的根据用户的搜索点击行为日志对相关问题进行筛选并推荐的处理流程图;
图8示出了根据本发明另一个实施例的根据用户的搜索点击行为日志对相关问题进行筛选并推荐的处理流程图;
图9示出了根据本发明一个实施例的实现问答页面相关问题推荐的系统环境示意图;
图10示出了根据本发明一个优选实施例的根据以上三项预设规则对相关问题进行筛选并推荐的处理流程示意图;
图11示出了根据本发明一个实施例的问答页面相关问题推荐装置的结构示意图;以及
图12示出了根据本发明一个优选实施例的问答页面相关问题推荐装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
为解决上述技术问题,本发明实施例提供了一种问答页面相关问题推荐方法。图1示出了根据本发明一个实施例的问答页面相关问题推荐方法的处理流程图。参见图1,该流程至少包括步骤S102至步骤S106。
步骤S102、根据来自用户的搜索词,获取数据库与搜索词相关的至少一个相关问题;
步骤S104、根据至少一个预设规则对获取的相关问题进行筛选;
步骤S106、根据相关问题的筛选结果,确定问答页面推荐给用户的相关问题。
依据本发明实施例的问答页面相关问题推荐方法,能够根据来自用户的搜索词,获取数据库与搜索词相关的至少一个相关问题,并根据至少一个预设规则对获取的相关问题进行筛选,根据筛选结果确定推荐给用户的相关问题。可知,依据本发明实施例的问答页面相关问题推荐方法,在获取到与搜索词相关的相关问题后,利用预设规则对相关问题进行筛选,得到能够更好地反映用户输入的搜索词的相关问题,从而获取到用户真正想要获得的问题答案。另外,本例中利用至少一个预设规则对获取的相关问题进行筛选,即,本例中可以利用多个预设规则对获取的相关问题进行筛选。而利用多个预设规则对获取的相关问题进行多次筛选,能够得到更准确、更贴合用户需要的相关问题,因此能够提高问答页面检索的准确性。
上文提及,为保证能够为用户提供更贴合用户需求的检索结果,本发明实施例根据至少一个预设规则对与搜索词相关的相关问题进行筛选。本例中,对相关问题进行筛选所依据的预设规则可以是任意能够对相关问题进行进一步筛选的规则。例如,预设规则可以是根据用户行为日志对相关问题进行筛选,还可以是根据搜索词与相关问题的贴合程度对相关问题进行筛选。
本发明实施例中,优选根据以下预设规则对相关问题进行筛选:
(1)根据核心词对相关问题进行筛选;
(2)根据用户的浏览行为日志对相关问题进行筛选;
(3)根据用户的搜索点击行为日志对相关问题进行筛选。
另外,本例中可以仅根据以上预设规则中的一项对相关问题进行筛选,还可以根据以上预设规则中的几项或全部对相关问题进行筛选。之后,根据筛选结果确定推荐给用户的相关问题。在根据以上预设规则中的几项或全部对相关问题进行筛选时,先根据各预设规则分别对相关问题进行筛选,之后拟合各个筛选结果得到推荐给用户的相关问题,可见,在根据多个预设规则对相关问题进行筛选时,仍旧需要进行单个预设规则对相关问题进行筛选的过程。因此,本例中,对根据各个预设规则分别对相关问题进行筛选,并根据筛选结果确定推荐给用户的相关问题的过程进行介绍。
(1)根据核心词对相关问题进行筛选,并根据筛选结果确定推荐的相关问题。
现有技术中,仅根据搜索词进行检索,存在由于检索时在搜索词中提取的核心词不合适,而导致不能获取到匹配度较高的、更贴合用户需求的问答问题答案的问题,因此,本例中,首先获取与搜索词对应的问答页面。其次,提取问答页面中的核心词,并根据提取的核心词筛选相关问题。
实施例一
图2示出了根据本发明一个实施例的根据核心词筛选相关问题并推荐的处理流程图。参见图2,该流程包括如下步骤:
步骤S201:根据用户输入的搜索词获取对应的问答页面及相关问题。
步骤S202:从问答页面中提取核心词候选串。
提取核心词时,从问答页面中提取用于确定核心词的核心词候选串,从候选串中筛选出符合条件的核心词。
从问答页面中提取核心词候选串,可以从问答页面的标题中提取核心词候选串,也可以从问答页面的页面内容中提取,或者从问答页面的标题和问答页面的页面内容中提取。
从问答页面中提取核心词候选串,包括:获取与用户输入的搜索词对应的问答页面;从获取的问答页面的标题中提取核心词候选串。和/或从获取的问答页面的页面内容中,提取与用户输入的搜索词相关的字符串,作为核心词候选串。
步骤S203:对提取的核心词候选串进行分词,提取各个候选串分词的分类特征。
提取到问答页面的核心词候选串后,进行分词处理,将每一个候选串分词划分为若干候选串分词,并提取出这些候选串分词的分类特征。其中,候选串分词的分类特征包括下列特征中的至少一种:名词、热度词表、超链接、相关问题共现率、文档词频等等。
步骤S204:根据提取出的分类特征筛选各个候选串分词是否是核心词。
提取出候选串分词的分类特征后,根据分类特征对候选串分词进行分类,并根据分类结果确定各个候选串分词是否是核心词。
如上所述,候选串分词的分类特征包括名词、热度词表、超链接、相关问题共现率、文档词频等特征中的至少一种,则可以候选串分词中所有的名词归为一类,将候选串分词中在热度词表中的分词归为一类,将候选串分词汇中是超级链接的分词归为一类,或者也可以将候选串分词中在热度词表中的所有名词归为一类,……,等等。
对候选串分词进行分类后,可以根据分类结果,进行核心词的筛选,比如,根据各个分类中各个候选串分词与用户输入的搜索词的匹配程度进行筛选,或者根据各个分类中各个候选串分词的使用频率统计值等因素进行筛选,或者综合考虑上述各种因素进行筛选。
其中,候选串分词的使用频率统计值包括下列参数之一:被搜索次数、被点击次数、曾作为核心词的次数、曾作为搜索词的次数。可以建立数据库,统计候选串分词被用户搜索的次数,被用户点击的次数曾经被确定为核心词的次数、曾经被用户用作搜索词的次数等。
步骤S205:利用步骤S204中确定的核心词筛选步骤S201中获取到的相关问题。
实施例二
图3示出了根据本发明另一个实施例的根据核心词筛选相关问题并推荐的处理流程图,如图3所示,包括如下步骤:
步骤S301:获取与用户输入的搜索词对应的问答页面及相关问题。
例如:用户输入搜索词“孩子感冒咳嗽怎么办?”,根据该搜索词获取到对应的问答页面,获取到的问答页面上有问答页面的标题,至少一个问题答案,至少一个相关问题。比如相关问题可以是“孩子感冒咳嗽怎么办?”,“小儿感冒咳嗽用什么药比较好呢?”。
步骤S302:从获取的问答页面的标题中提取核心词候选串。
本实施例中以从问答页面的标题中提取核心词候选串为例,比如,提取到的核心词候选串可以是“孩子感冒咳嗽怎么办”。
实际操作中还可以从问答页面的问答内容、相关问题等页面内容中提取核心词候选串。
步骤S303:对提取的核心词候选串进行分词,提取各个候选串分词的分类特征。
对提取的核心词候选串“孩子感冒咳嗽怎么办”进行分词,例如,可以分词为:“孩子”、“感冒”、“咳嗽”、“怎么办”等候选串分词。
对分词出的候选串分词进行分类特征提取,例如“孩子”这个候选串分词的分类特征包括:是名词等;“感冒”、“咳嗽”这两个候选串分词的分类特征包括:是名词、是热度词表中的词、是超链接等;“怎么办”这个候选串分词的分类特征包括是超链接等。
步骤S304:根据提取的分类特征对候选串分词进行分类。
根据提取的分类特征对上述分词出的“孩子”、“感冒”、“咳嗽”、“怎么办”等候选串分词进行分类,例如:“孩子”、“感冒”、“咳嗽”都是名词,归为一类;将“感冒”、“咳嗽”都是热度词表中的词,归为一类;“感冒”、“咳嗽”、“怎么办”都是超链接,归为一类。
步骤S305:针对每个分类,将该分类中各个候选串分词与用户输入的搜索词进行匹配。
对候选串分词进行分类后,分别针对每个分类,与用户输入的搜索词进行匹配。
沿用上边的例子,根据上边的分类,将名词分类、热度词表分类和超链接分类中的各个候选串分词分别与用户输入的搜索词进行匹配。
步骤S306:筛选出匹配度最高的设定数量的候选串分词,作为核心词。
沿用上边的例子,筛选出匹配度较高的2个候选串分词为:“感冒”、“咳嗽”,则确定“感冒”、“咳嗽”为核心词;或筛选出匹配度较高的3个候选串分词为:“感冒”、“咳嗽”、“孩子”,则确定“感冒”、“咳嗽”、“孩子”为核心词。
步骤S307:根据确定的核心词筛选相关问题。
沿用上边的例子,根据核心词“感冒”、“咳嗽”、“孩子”筛选得到相关问题“孩子感冒咳嗽怎么办?”。
上述实施例中所列举的搜索词、问答页面标题等都属于简单的举例,实际应用中用户输入的检索词可能会更简单,而根据问答页面获取到的候选串分词的数量可能会更多,匹配过程可能会更复杂,从而能够更好地发挥本发明方法的作用,在此不再一一列举。
上述步骤S305和步骤S306实现了根据分类结果确定各个候选串分词是否是核心词。
上述实施例二中的步骤S305和步骤S306可替换为下面步骤S405和步骤S406所公开的筛选方式。
实施例三
图4示出了根据本发明又一个实施例的根据核心词筛选相关问题并推荐的处理流程图,如图4所示,该流程包括如下步骤:
步骤S401:获取与用户输入的搜索词对应的问答页面及相关问题。
例如:用户输入搜索词“孩子感冒咳嗽怎么办?”,根据该搜索词获取到对应的问答页面,获取到的问答页面上有问答页面的标题,至少一个问题答案,至少一个相关问题。比如,问答答案中可能包括“选择正确的感冒(咳嗽)药”、“感冒止咳的中药”等描述,相关问题可以是“孩子感冒咳嗽怎么办?”、“小儿感冒咳嗽用什么药比较好呢?”等问题。
步骤S402:从获取的问答页面的页面内容中,提取与用户输入的搜索词相关的字符串,作为核心词候选串。
对用户输入的搜索词进行分词,从获取的问答页面的页面内容中提取包括至少一个搜索词分词的字符串。
沿用上边的例子,对用户输入的搜索词“孩子感冒咳嗽怎么办?”进行分词,例如可以分词为“孩子”、“感冒”、“咳嗽”、“怎么办”等搜索词分词。
本实施例中以从问答页面的页面内容中提取核心词候选串为例,可以从问答页面的问答内容、相关问题等页面内容中提取包括“孩子”、“感冒”、“咳嗽”、“怎么办”中至少一个搜索词分词的字符串作为核心词候选串。例如,提取到的核心词候选串可以有:“孩子感冒咳嗽怎么办”、“选择正确的感冒(咳嗽)药”、“感冒止咳的中药”、“小儿感冒咳嗽怎么办?”、“小儿感冒咳嗽用什么药比较好呢?”等等。
步骤S403:对提取的核心词候选串进行分词,提取各个候选串分词的分类特征。
沿用上边的例子,对提取的核心词候选串“孩子感冒咳嗽怎么办”进行分词,例如,可以分词为:“孩子”、“感冒”、“咳嗽”、“怎么办”等候选串分词。对提取的核心词候选串“选择正确的感冒(咳嗽)药”进行分词,例如,可以分词为:“选择”、“正确的”、“感冒”、“咳嗽”、“药”等候选串分词。对提取的核心词候选串“感冒止咳的中药”进行分词,例如,可以分词为:“感冒”、“止咳”、“中药”等候选串分词。依次对提取的核心词候选串进行分词,此处不再一一列举。
对分词出的候选串分词进行分类特征提取,例如“孩子”这个候选串分词的分类特征包括:是名词等;“感冒”、“咳嗽”这两个候选串分词的分类特征包括:是名词、是热度词表中的词、是超链接等;“中药”、“药”这两个候选串分词的分类特征包括:是名词等;“止咳”这个候选串分词的分类特征包括:是热度词表中的词等;“怎么办”这个候选串分词的分类特征包括:是超链接等。总之,对分词出的所有候选串分词都进行分类特征提取,此处不再对上边举例中的各候选串一一列举其分类特征。
步骤S404:根据提取的分类特征对候选串分词进行分类。
根据提取的分类特征对上述分词出的“孩子”、“感冒”、“咳嗽”、“怎么办”、“选择”、“正确的”、“药”、“止咳”、“中药”等候选串分词进行分类,例如:“孩子”、“感冒”、“咳嗽”、“中药”、“药”都是名词,归为一类;将“感冒”、“咳嗽”、“止咳”都是热度词表中的词,归为一类;“感冒”、“咳嗽”、“怎么办”都是超链接,归为一类。总之,对分词出的所有候选串分词都根据分类特征进行分类,此处不再对上边举例中的各候选串一一列举其分类。
步骤S405:针对每个分类,确定该分类中各个候选串分词的使用频率统计值。
沿用上边的例子,在名词分类中、热度词表中的词分类、超链接分类中,分别确定各候选串分词的使用频率统计值。
其中,候选串分词的使用频率统计值可以根据各候选串分词被用户搜索的次数、被用户点击的次数、曾经被确定为核心词的次数、曾经被作为搜索词的次数等因素中的至少一种因素进行统计。
步骤S406:根据各个候选串分词的使用频率统计值,筛选出使用频率统计值最高的设定数量的候选串分词,作为核心词。
沿用上边的例子,筛选出使用频率统计值最高的3个候选串分词为:“感冒”、“咳嗽”、“止咳”,则确定“感冒”、“咳嗽”、“止咳”为核心词;或筛选出使用频率统计值最高的3个候选串分词为:“感冒”、“咳嗽”、“孩子”,则确定“感冒”、“咳嗽”、“孩子”为核心词。
步骤S407:根据确定的核心词对相关问题进行筛选。
沿用上边的例子,根据确定的核心词“感冒”、“咳嗽”、“孩子”筛选得到相关问题“孩子感冒咳嗽怎么办?”。
上述步骤S405和步骤S406实现了根据分类结果确定各个候选串分词是否是核心词。
(2)根据用户的浏览行为日志对相关问题进行筛选,并根据筛选结果确定推荐给用户的相关问题。
本发明实施例中,通过对若干历史用户的浏览行为进行分析,并根据分析结果对相关问题进行筛选,获取到与用户真正想要获得的问题答案匹配度更好的相关问题。
实施例四
图5示出了根据本发明一个实施例的根据用户的浏览行为日志对相关问题进行筛选并推荐的处理流程图。参见图5,该流程包括如下步骤:
步骤S501:根据来自第一用户的搜索词,获取数据库中与来自第一用户的搜索词相关的至少一个相关问题。
第一用户输入搜索词进行问答检索,生成问答页面时,生成的问答页面中包括但不限于问答页面的标题、至少一个问题答案,至少一个相关问题。在获取到第一用户输入的搜索词后,从数据库中获取若干相关问题,这些相关问题为数据库中第二用户浏览的问答页面中的问答问题或问答页面中的相关问题。
其中,第一用户是指当前用户,第二用户是指历史用户。
步骤S502:根据选定时间段内第二用户的浏览行为日志,确定获取的相关问题的浏览权重。
从数据库中获取上述步骤S501中获取到的相关问题对应的第二用户的浏览行为日志。对浏览行为日志进行分析,确定相关问题的浏览权重。确定浏览权重的过程中,可以对获取的相关问题,计算彼此之间的相关浏览权重,根据计算出来的相关浏览权重,对同一相关问题的相关浏览权重进行加权处理,得到各相关问题的浏览权重。
优选的,也可以根据设定的分组条件对获取的相关问题进行分组,在各个相关问题分组中,分别计算各相关问题与组中其他相关问题的相关浏览权重,然后综合各组的计算结果,对各组中出现的同一相关问题的相关浏览权重进行加权处理,得到各相关问题的浏览权重。
下面的实施例二中,以根据浏览用户进行分组为例,说明相关问题的浏览权重的确定过程。
步骤S503:根据确定的浏览权重对获取的相关问题进行排序。
根据确定出的各相关问题的浏览权重,对各相关问题进行排序。比如可以按照浏览权重从高到低的顺序进行排序。对相关问题进行排序时,可以对获取所有的相关问题一起进行排序,也可以按照不同的浏览用户在个浏览用户分组中分别排序,或者按照其他的规则排序。
步骤S504:根据获取的相关问题的排序结果,对相关问题进行筛选,进而根据筛选结果确定推荐给第一用户的相关问题。
根据对相关问题的排序结果,按照设定的推荐规则,筛选相关问题,并将筛选得到的相关问题推荐给用户。比如,根据排序结果将所有的相关问题中浏览权重最高的设定数量的相关问题筛选出作为筛选结果推荐给用户;或者在各浏览用户对应的相关问题中分别筛选出设定数量的相关问题作为筛选结果推荐给第一用户。
实施例五
本发明另一个实施例的根据用户的浏览行为日志对相关问题进行筛选的处理的流程如图6所示。参见图6,该流程包括如下步骤:
步骤S601:根据来自第一用户的搜索词,获取数据库中与来自第一用户的搜索词相关的至少一个相关问题。
例如:第一用户输入搜索词“孩子感冒怎么办?”,根据该搜索词生成对应的问答页面,生成的问答页面上有问答页面的标题,至少一个问题答案,至少一个相关问题。比如:相关问题可以是“小儿感冒咳嗽怎么办?”、“小儿感冒发烧怎么办?”、“小儿感冒咳嗽用什么药比较好呢?”、“小儿感冒鼻塞怎么办?”、“宝宝感冒咳嗽怎么办”、“宝宝感冒咳嗽流鼻涕怎么办”、“宝宝感冒咳嗽用什么药比较好呢?”、“宝宝感冒鼻塞怎么办”、“儿童感冒咳嗽怎么办”、“儿童感冒鼻塞怎么办”、“儿童感冒发烧怎么办”等等。
这些相关问题为数据库中存储的历史用户曾经浏览过的问答页面上的问答问题或问答页面上的相关问题。
步骤S602:根据浏览所述相关问题的浏览用户,对获取的相关问题进行分组。
对获取的相关问题进行分组时,每个相关问题分组中包括一个浏览用户对应的部分或者全部相关问题。
可选的,根据选定时间段内的浏览行为日志,得到每个浏览用户的浏览特征向量{T1、T2、……、Ti、Ti+1、……、Tn},其中,Ti表示一个相关问题。
其中,浏览特征向量中的元素Ti的属性包括下列参数中的至少一个:
问答页面的生成时间、答案数、好评数、差评数、问答长度、用户浏览时间、用户停留时间等。
沿用上边的例子,对上边获取到的各相关问题进行分组如下:
“小儿感冒咳嗽怎么办?”、“小儿感冒咳嗽用什么药比较好呢?”、“宝宝感冒咳嗽怎么办”、“宝宝感冒咳嗽用什么药比较好呢?”、“儿童感冒咳嗽怎么办”被同一个浏览用户浏览过,归为一组。
“小儿感冒发烧怎么办?”、“儿童感冒发烧怎么办”、“小儿感冒鼻塞怎么办?”、“宝宝感冒鼻塞怎么办”、“儿童感冒鼻塞怎么办”被同一个浏览用户浏览过,归为一组。
“小儿感冒鼻塞怎么办?”、“宝宝感冒咳嗽流鼻涕怎么办”、“宝宝感冒鼻塞怎么办”、“儿童感冒鼻塞怎么办”被同一个浏览用户浏览过,归为一组。
……
以此类推,对所有获取的相关问题进行分组,实现将被同一用户浏览过的相关问题归为一组。
步骤S603:在各相关问题分组中,计算组中各相关问题与组中其它相关问题的相关浏览权重。
根据上述各浏览用户的浏览特征向量{T1、T2、……、Ti、Ti+1、……、Tn},利用如下公式计算每个相关问题与组中其它相关问题的相关浏览权重W(Ti,Ti+1):
log(a1/(|Time(i)–Time(i+1)|+a2))
其中,Time(i)一个问答问题的用户浏览时间;
Time(i+1)为组中其它问答问题的用户浏览时间;
a1,a2为经验值常数。
当然,也可以计算组中各相关问题Ti与组中其他相关问题Ti-1的相关浏览权重W。
沿用上边的例子,针对每个分组,分别计算每个相关问题与组中其他相关问题的,例如,针对浏览用户相同的第一个相关问题分组,分别计算“小儿感冒咳嗽怎么办?”、“小儿感冒咳嗽用什么药比较好呢?”、“宝宝感冒咳嗽怎么办”、“宝宝感冒咳嗽用什么药比较好呢?”、“儿童感冒咳嗽怎么办”与组中其他相关问题的相关浏览权重。其他相关问题分组也同样进行计算。
进一步可选的,计算组中各相关问题与组中其它相关问题的相关浏览权重,包括:在各相关问题分组中,根据浏览用户浏览各相关问题的浏览时间对该相关问题分组中的所有相关问题进行排序;根据排序结果中,划分浏览时间间隔小于预设的时间间隔阈值的相关问题至同一会话组;在各会话组中,计算组中各相关问题与组中其它相关问题的相关浏览权重。
也就是说,对于浏览用户相同的相关问题分组中的用户,可以进一步根据浏览时间划分出不同的会话组(session),同一会话组中的相关问题的浏览时间差小于等于某个设定的时间阈值。可以根据浏览用户的浏览特征向量进行session划分。在同一session内,计算相关问题的浏览权重。
步骤S604:获取同一相关问题在各相关问题分组中计算得到的相关浏览权重,将获取到的相关浏览权重进行加权,得到获取的各相关问题的浏览权重。
上边计算出各相关问题分组中的各相关问题的相关浏览权重后,将各相关问题分组中相同的相关问题提取出来,例如,对于“小儿感冒鼻塞怎么办?”这个相关问题,在浏览用户相同的第一个相关问题分组和第三个相关问题中计算得到的相关浏览权重进行加权。
可选的,可以把同一相关问题在不同相关问题分组中计算得到的相关浏览权重直接进行相加,也可以分别乘上相应的权重系数后在进行相加,也可以通过其它的加权规则进行加权处理。
步骤S605:根据确定出的相关问题的浏览权重对获取的相关问题进行排序。
沿用上边的例子,以获取所有的相关问题一起进行排序为例,按照浏览权重从高到低的顺序进行排序,得到排序结果如下:
“小儿感冒发烧怎么办?”、“小儿感冒咳嗽怎么办?”、“宝宝感冒咳嗽流鼻涕怎么办”、“宝宝感冒咳嗽怎么办”“儿童感冒发烧怎么办”、“小儿感冒咳嗽用什么药比较好呢?”、“小儿感冒鼻塞怎么办?”、“宝宝感冒咳嗽用什么药比较好呢?”、“宝宝感冒鼻塞怎么办”、“儿童感冒咳嗽怎么办”、“儿童感冒鼻塞怎么办”。
步骤S606:根据获取的相关问题的排序结果,对相关问题进行筛选,进而根据筛选结果确定推荐给第一用户的相关问题。
根据排序结果,筛选出浏览权重最高的前几个问题作为筛选结果推荐给第一用户,加入到根据用户输入的搜索词生成的问答页面中。
例如:将“小儿感冒发烧怎么办?”、“小儿感冒咳嗽怎么办?”、“宝宝感冒咳嗽流鼻涕怎么办”、“宝宝感冒咳嗽怎么办”“儿童感冒发烧怎么办”作为相关问题加入到问答页面中。
(3)根据用户的搜索点击行为日志对相关问题进行筛选,并根据筛选结果确定推荐给用户的相关问题。
本发明实施例中,通过对若干历史用户的搜索点击行为进行分析,并根据分析结果对相关问题进行筛选,获取到与用户真正想要获得的问题答案匹配度更好的相关问题。
实施例六
图7示出了根据本发明一个实施例的根据用户的搜索点击行为日志对相关问题进行筛选并推荐的处理流程图。参见图7,该流程包括如下步骤:
步骤S701:根据来自第一用户的搜索词,获取数据库中与来自第一用户的搜索词相关的至少一个相关问题。
第一用户输入搜索词进行问答检索,生成问答页面时,生成的问答页面中包括但不限于问答页面的标题、至少一个问题答案,至少一个相关问题。在获取到第一用户输入的搜索词后,从数据库中获取若干相关问题,这些相关问题为数据库中第二用户搜索点击的问答页面中的问答问题或问答页面中的相关问题。
其中,第一用户是指当前用户,第二用户是指历史用户。
步骤S702:根据选定时间段内第二用户的搜索行为日志,确定获取的相关问题的点击权重。
从数据库中获取上述步骤S701中获取到的相关问题对应的第二用户的搜索行为日志。对搜索行为日志进行分析,确定相关问题的点击权重。确定击权重的过程中,可以对获取的相关问题,计算彼此之间的相关点击权重,根据计算出来的相关点击权重,对同一相关问题的相关点击权重进行加权处理,得到各相关问题的点击权重。
优选的,也可以根据设定的分组条件对获取的相关问题进行分组,在各个相关问题分组中,分别计算各相关问题与组中其他相关问题的相关点击权重,然后综合各组的计算结果,对各组中出现的同一相关问题的相关点击权重进行加权处理,得到各相关问题的点击权重。
下面的实施例二中,以根据查询请求串进行分组为例,说明相关问题的点击权重的确定过程。
步骤S703:根据确定出的相关问题的点击权重对获取的相关问题进行排序。
根据确定出的各相关问题的点击权重,对各相关问题进行排序。比如可以按照点击权重从高到低的顺序进行排序。对相关问题进行排序时,可以对获取所有的相关问题一起进行排序,也可以按照不同的查询请求串在各查询串分组中分别排序,或者按照其他的规则排序。
步骤S704:根据获取的相关问题的排序结果,对相关问题进行筛选,进而根据筛选结果确定推荐给第一用户的相关问题。
根据对相关问题的排序结果,按照设定的推荐规则,筛选相关问题,并将筛选得到的相关问题推荐给第一用户。比如,根据排序结果将所有的相关问题中点击权重最高的设定数量的相关问题筛选出作为筛选结果推荐给第一用户;或者在各查询请求串对应的相关问题中分别筛选出设定数量的相关问题作为筛选结果推荐给第一用户。
实施例七
图8示出了根据本发明另一个实施例的根据用户的搜索点击行为日志对相关问题进行筛选并推荐的处理流程图。参见图8,该流程包括如下步骤:
步骤S801:根据来自第一用户的搜索词,获取数据库中与来自第一用户的搜索词相关的至少一个相关问题。
例如:第一用户输入搜索词“孩子感冒怎么办?”,根据该搜索词生成对应的问答页面,生成的问答页面上有问答页面的标题,至少一个问题答案,至少一个相关问题。比如:相关问题可以是“小儿感冒咳嗽怎么办?”、“小儿感冒发烧怎么办?”、“小儿感冒咳嗽用什么药比较好呢?”、“小儿感冒鼻塞怎么办?”、“宝宝感冒咳嗽怎么办”“宝宝感冒咳嗽流鼻涕怎么办”、“宝宝感冒咳嗽用什么药比较好呢?”、“宝宝感冒鼻塞怎么办”、“儿童感冒咳嗽怎么办”、“儿童感冒鼻塞怎么办”、“儿童感冒发烧怎么办”等等。
这些相关问题为数据库中存储的历史用户曾经搜索过的问答页面上的问答问题或问答页面上的相关问题。
步骤S802:根据获取的相关问题对应的查询请求串,对获取的相关问题进行分组。
对获取的相关问题进行分组时,每个相关问题分组中包括一个查询请求串对应的部分或全部相关问题。
可选的,根据获取的相关问题对应的查询请求串,得到各查询请求串的点击特征向量{T1、T2、……、Ti、Ti+1、……、Tn},其中Ti表示一个相关问题。从而实现对获取的相关问题进行分组。
其中,点击特征向量中的元素Ti的属性包括下列参数中的至少一个:问答页面的生成时间、答案数、好评数、差评数、问答长度、展示次数、被点击次数等。
沿用上边的例子,对上边获取到的各相关问题进行分组如下:
“小儿感冒咳嗽怎么办?”、“小儿感冒发烧怎么办?”、“小儿感冒咳嗽用什么药比较好呢?”、“小儿感冒鼻塞怎么办?”对应的查询请求串为“小儿感冒”,归为一组。
“宝宝感冒咳嗽怎么办”、“宝宝感冒咳嗽流鼻涕怎么办”、“宝宝感冒咳嗽用什么药比较好呢?”、“宝宝感冒鼻塞怎么办”对应的查询请求串为“宝宝感冒”,归为一组;
“儿童感冒咳嗽怎么办”、“儿童感冒鼻塞怎么办”、“儿童感冒发烧怎么办”对应的查询请求串为“儿童感冒”,归为一组;
“小儿感冒咳嗽怎么办?”、“小儿感冒咳嗽用什么药比较好呢?”,“宝宝感冒咳嗽怎么办”,“宝宝感冒咳嗽流鼻涕怎么办”、“宝宝感冒咳嗽用什么药比较好呢?”、“儿童感冒咳嗽怎么办”对应的查询请求串为“感冒咳嗽”,归为一组;
“小儿感冒发烧怎么办?”、“小儿感冒发烧怎么办?”、“儿童感冒发烧怎么办”对应的查询请求串为“感冒发烧”,归为一组;
“小儿感冒鼻塞怎么办?”、“宝宝感冒鼻塞怎么办”、“儿童感冒鼻塞怎么办”对应的查询请求串为“感冒鼻噻”,归为一组;
……
以此类推,对所有获取的相关问题进行分组,实现将查询请求串相同的相关问题归为一组。
步骤S803:在各相关问题分组中,计算组中各相关问题与组中其他相关问题的相关点击权重。
根据上述生成的各查询请求串的点击特征向量{T1、T2、……、Ti、Ti+1、……、Tn},利用如下公式计算组中各相关问题Ti与组中其他相关问题Ti+1的相关点击权重W(Ti,Ti+I):
W=P((Ti)|查询请求串)*P((Ti+I)|查询请求串)
其中,Ti表示一个相关问题;
Ti+I表示点击特征向量中包括的其他问答问题;
P((Ti)|查询请求串)表示使用查询请求串时得到Ti的概率;
P((Ti+I)|查询请求串)表示使用查询请求串时得到Ti+I的概率。
当然,也可以计算组中各相关问题Ti与组中其他相关问题Ti-I的相关点击权重W。
沿用上边的例子,针对每个分组,分别计算每个相关问题与组中其他相关问题的,例如,针对查询请求串为“小儿感冒”的相关问题分组,分别计算“小儿感冒咳嗽怎么办?”、“小儿感冒发烧怎么办?”、“小儿感冒咳嗽用什么药比较好呢?”、“小儿感冒鼻塞怎么办?”与组中其他相关问题的相关点击权重。其他相关问题分组也同样进行计算。
步骤S804:获取同一相关问题在各相关问题分组中计算得到的相关点击权重,将获取到的相关点击权重进行加权,得到获取的各相关问题的点击权重。
上边计算出各相关问题分组中的各相关问题的相关点击权重后,将各相关问题分组中相同的相关问题提取出来,例如,对于“小儿感冒咳嗽怎么办?”这个相关问题,在查询请求串为“小儿感冒”的相关问题分组和在查询请求串为“感冒咳嗽”的相关问题分组中计算得到的相关点击权重进行加权。
可选的,可以把同一相关问题在不同相关问题分组中计算得到的相关点击权重直接进行相加,也可以分别乘上相应的权重系数后在进行相加,也可以通过其它的加权规则进行加权处理。
步骤S805:根据确定出的相关问题的点击权重对获取的相关问题进行排序。
沿用上边的例子,以获取所有的相关问题一起进行排序为例,按照点击权重从高到低的顺序进行排序,得到排序结果如下:
“小儿感冒咳嗽怎么办?”、“小儿感冒发烧怎么办?”、“宝宝感冒咳嗽怎么办”、“儿童感冒发烧怎么办”、“宝宝感冒咳嗽流鼻涕怎么办”、“小儿感冒咳嗽用什么药比较好呢?”、“小儿感冒鼻塞怎么办?”、“宝宝感冒咳嗽用什么药比较好呢?”、“宝宝感冒鼻塞怎么办”、“儿童感冒咳嗽怎么办”、“儿童感冒鼻塞怎么办”。
步骤S806:根据获取的相关问题的排序结果,对相关问题进行筛选,进而根据筛选结果确定推荐给第一用户的相关问题。
根据排序结果,筛选出点击权重最高的前几个问题作为筛选结果推荐给第一用户,加入到根据用户输入的搜索词生成的问答页面中。
例如:将“小儿感冒咳嗽怎么办?”、“小儿感冒发烧怎么办?”、“宝宝感冒咳嗽怎么办”、“儿童感冒发烧怎么办”、“宝宝感冒咳嗽流鼻涕怎么办”作为相关问题加入到问答页面中。
上述根据用户的浏览性为日志和/或搜索点击行为日志对相关问题进行筛选和/或推荐的流程中,根据数据库中的历史数据,分析历史用户浏览各个相关问题的浏览行为,和/或点击各个相关问题的搜索点击行为,确定相关问题的浏览权重参数和/或点击权重参数,从而确定向用户推荐相关问题的推荐优先级,从而获取到与用户输入的搜索词匹配度更高的相关问题,在当前问答页面为用户提供与用户需求的贴合性更好、更符合用户需求的相关问题,提高问答页面问题检索的准确性。
针对本发明实施例根据用户的浏览性为日志和/或搜索点击行为日志对相关问题进行筛选和/或推荐的方法,实现问答页面相关问题推荐的系统环境示意如图9所示。该系统包括数据库,存储若干第二用户(历史用户)的相关问题,问答页面问题推荐装置能够获取第一用户输入的搜索词,并根据搜索词从数据库获取若干历史用户浏览和/或搜索点击过的相关问题及相关问题的历史数据,通过对历史数据的分析处理,实现获取更优的相关问题推荐给第一用户。
上文对分别根据各预设规则对相关问题进行筛选,并根据筛选结果推荐相关问题的过程进行了介绍。本例中,当根据预设规则中的几项或全部对相关问题进行筛选时,首先根据各个预设规则分别对相关问题进行筛选,其次,拟合各个筛选结果,得到推荐给用户的相关问题。如图10示出了根据本发明一个优选实施例的根据以上三项预设规则对相关问题进行筛选并推荐的处理流程示意图。参见图10,该流程包括如下步骤:
步骤S1001:获取与用户输入的搜索词对应的相关问题。
例如,用户输入搜索词“小儿感冒怎么办”,根据该搜索词获取到对应的相关问题。例如,获取到的相关问题包括:
“小儿感冒咳嗽怎么办”;
“孩子感冒流鼻涕怎么办”;
“感冒的症状是什么”;
“宝宝感冒的常见问题有什么”;
“感冒发烧怎么办”;
“小儿感冒病因有什么”;
“儿童感冒有没有食疗”;
“怎样停止咳嗽”。
步骤S1002:根据核心词对相关问题进行筛选。
当提取到核心词为“小儿”、“感冒”,根据该核心词筛选到的相关问题为:
“小儿感冒咳嗽怎么办”;
“小儿感冒病因有什么”。
步骤S1003:根据用户的浏览行为日志对相关问题进行筛选。
对步骤S1001中提及的各个相关问题进行浏览权重值的计算,并根据得到的浏览权重值对各个相关问题进行排序,得到排序结果为:
“小儿感冒咳嗽怎么办”;
“怎样停止咳嗽”;
“小儿感冒病因有什么”;
“儿童感冒有没有食疗”;
“宝宝感冒的常见问题有什么”;
“感冒发烧怎么办”;
“孩子感冒流鼻涕怎么办”;
“感冒的症状是什么”。
根据排序结果提取3个相关问题,即得到的筛选结果为:
“小儿感冒咳嗽怎么办”;
“怎样停止咳嗽”;
“小儿感冒病因有什么”。
步骤S1004:根据用户的搜索点击行为日志对相关问题进行筛选。
对步骤S1001中提及的各个相关问题进行搜索点击权重值的计算,并根据得到的搜索点击权重值对各个相关问题进行排序,得到排序结果为:
“怎样停止咳嗽”;
“孩子感冒流鼻涕怎么办”;
“小儿感冒咳嗽怎么办”;
“小儿感冒病因有什么”;
“儿童感冒有没有食疗”;
“宝宝感冒的常见问题有什么”;
“感冒发烧怎么办”;
“感冒的症状是什么”。
根据排序结果提取3个相关问题,即筛选结果为:
“怎样停止咳嗽”;
“孩子感冒流鼻涕怎么办”;
“小儿感冒咳嗽怎么办”。
步骤S1005:根据步骤S1002、步骤S1003以及步骤S1004中得到的各个筛选结果,确定推荐给用户的相关问题。
优选地,本例中可以对步骤S1002、步骤S1003以及步骤S1004中得到的各个筛选结果进行整理排序。例如,得到的三个筛选结果中均包括相关问题“小儿感冒咳嗽怎么办”。再例如,得到的三个筛选结果中的两个筛选结果包括“小儿感冒病因有什么”及“怎样停止咳嗽”。若在问答页面中推荐给用户的相关问题可以是:
“小儿感冒咳嗽怎么办”;
“小儿感冒病因有什么”;
“怎样停止咳嗽”。
需要说明的是,上例中提及的各个筛选结果,和/或步骤S1005中确定推荐的相关问题均为示例,不能够代表实际应用中得到的筛选结果和/或确定推荐的相关问题。
基于同一发明构思,本发明实施例还提供了一种问答页面相关问题推荐装置,该装置的结构如图11所示,包括获取器1110、筛选器1120以及推荐器1130。
现介绍本发明实施例的问答页面相关问题推荐装置的各器件或组成的功能以及各部分间的连接关系:
获取器1110,适于根据来自用户的搜索词,获取数据库与搜索词相关的至少一个相关问题;
筛选器1120,与获取器1110相耦合,适于根据至少一个预设规则对获取的相关问题进行筛选;
推荐器1130,与筛选器1120相耦合,适于根据相关问题的筛选结果,确定问答页面推荐给用户的相关问题。
图12示出了根据本发明一个优选实施例的问答页面相关问题推荐装置的结构示意图。参见图12,筛选器1120还包括:
第一筛选模块1121,与获取器1110以及推荐器1130分别耦合,适于根据用户的浏览行为日志对相关问题进行筛选;
第二筛选模块1122,与获取器1110以及推荐器1130分别耦合,适于根据用户的搜索点击行为日志对相关问题进行筛选;
第三筛选模块1123,与获取器1110以及推荐器1130分别耦合,适于根据核心词对相关问题进行筛选。
在一个优选的实施例中,第三筛选模块1123还包括:
获取单元11231,适于获取与搜索词对应的问答页面;
提取单元11232,与提取单元11231相耦合,适于提取问答页面中的核心词;
确定单元11233,与提取单元11232相耦合,适于根据核心词筛选相关问题。
在一个优选的实施例中,提取单元11232还适于:
从问答页面中提取核心词候选串;
对核心词候选串进行分词,提取各个候选串分词的分类特征;
根据分类特征筛选各个候选串分词是否是核心词。
在一个优选的实施例中,提取单元11232还适于:
从问答页面的标题中提取核心词候选串;和/或
从问答页面的页面内容中,提取与搜索词相关的字符串,作为核心词候选串。
在一个优选的实施例中,提取单元11232还适于:
对搜索词进行分词;
从问答页面的页面内容中提取包括至少一个搜索词分词的字符串。
在一个优选的实施例中,提取单元11232还适于:
根据分类特征对候选串分词进行分类,根据分类结果确定各个候选串分词是否是核心词;
分类特征包括下列特征中的至少一种:名词、热度词表、超链接、相关问题共现率、文档词频。
在一个优选的实施例中,提取单元11232还适于:
针对每个分类,将该分类中各个候选串分词与用户输入的搜索词进行匹配,筛选出匹配度最高的设定数量的候选串分词,作为核心词;
针对每个分类,根据该分类中各个候选串分词的使用频率统计值,筛选出使用频率统计值最高的设定数量的候选串分词,作为核心词;其中,候选串分词的使用频率统计值包括下列参数之一:被搜索次数、被点击次数、曾作为核心词的次数、曾作为搜索词的次数。
在一个优选的实施例中,第一筛选模块1121还包括:
第一权重确定单元11211,适于根据选定时间段内用户的浏览行为日志,确定获取的相关问题的浏览权重;
第一排序单元11212,与权重确定单元11211相耦合,适于根据浏览权重对获取的相关问题进行排序;
第一筛选单元11213,与排序单元11212相耦合,适于根据排序结果对相关问题进行筛选。
在一个优选的实施例中,第一筛选单元11213还适于:根据排序结果提取第一预定个数个相关问题。
在一个优选的实施例中,第一权重确定单元11211还适于:
根据浏览相关问题的浏览用户,对获取的相关问题进行分组;其中,每个相关问题分组中包括一个浏览用户对应的部分或者全部相关问题;
在每个相关问题分组中,计算组中每个相关问题与组中其它相关问题的相关浏览权重;
获取同一相关问题在各相关问题分组中计算得到的相关浏览权重,将获取到的相关浏览权重进行加权,得到获取的每个相关问题的浏览权重。
在一个优选的实施例中,第一权重确定单元11211还适于:
根据选定时间段内的浏览行为日志,得到每个浏览用户的浏览特征向量{T1、T2、……、Ti、Ti+1、……、Tn},其中,Ti表示一个相关问题。
在一个优选的实施例中,第一权重确定单元11211还适于:
在每个相关问题分组中,根据浏览用户浏览每个相关问题的浏览时间对该相关问题分组中的所有相关问题进行排序;
根据排序结果中,划分浏览时间间隔小于预设的时间间隔阈值的相关问题至同一会话组;
在每个会话组中,计算组中每个相关问题与组中其它相关问题的相关浏览权重。
在一个优选的实施例中,第二筛选模块1122还包括:
第二权重确定单元11221,适于根据选定时间段内用户的搜索点击日志,确定获取的相关问题的点击权重;
第二排序单元11222,与第二权重确定单元11221相耦合,适于根据点击权重对获取的相关问题进行排序;
第二筛选单元11223,与第二排序单元11222相耦合,适于根据排序结果对相关问题进行筛选。
在一个优选的实施例中,第二权重确定单元11221还适于:
根据相关问题对应的查询请求串,对获取的相关问题进行分组;其中,每个相关问题分组中包括一个查询请求串对应的部分或全部相关问题;
在每个相关问题分组中,计算组中每个相关问题与组中其他相关问题的相关点击权重;
获取同一相关问题在各相关问题分组中计算得到的相关点击权重,将获取到的相关点击权重进行加权,得到获取的每个相关问题的点击权重。
在一个优选的实施例中,第二权重确定单元11221还适于:
根据相关问题对应的查询请求串,得到每个查询请求串的点击特征向量{T1、T2、……、Tn},实现对获取的相关问题进行分组;其中Ti表示一个相关问题。
在一个优选的实施例中,第二权重确定单元11221还适于:
得到的点击特征向量中的元素Ti的属性包括下列参数中的至少一个:
问答页面的生成时间、答案数、好评数、差评数、问答长度、展示次数、被点击次数等。
根据上述任意一个实施例或多个实施例的组合,本发明实施例能够达到如下有益效果:
依据本发明实施例的问答页面相关问题推荐方法,能够根据来自用户的搜索词,获取数据库与搜索词相关的至少一个相关问题,并根据至少一个预设规则对获取的相关问题进行筛选,根据筛选结果确定推荐给用户的相关问题。可知,依据本发明实施例的问答页面相关问题推荐方法,在获取到与搜索词相关的相关问题后,利用预设规则对相关问题进行筛选,得到能够更好地反映用户输入的搜索词的相关问题,从而获取到用户真正想要获得的问题答案。另外,本例中利用至少一个预设规则对获取的相关问题进行筛选,即,本例中可以利用多个预设规则对获取的相关问题进行筛选。而利用多个预设规则对获取的相关问题进行多次筛选,能够得到更准确、更贴合用户需要的相关问题,因此能够提高问答页面检索的准确性。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的装置或者设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
至此,本领域技术人员应认识到,虽然本文已详尽示出和描述了本发明的多个示例性实施例,但是,在不脱离本发明精神和范围的情况下,仍可根据本发明公开的内容直接确定或推导出符合本发明原理的许多其他变型或修改。因此,本发明的范围应被理解和认定为覆盖了所有这些其他变型或修改。
本发明还公开了A1.一种问答页面相关问题推荐方法,包括:
根据来自用户的搜索词,获取数据库与所述搜索词相关的至少一个相关问题;
根据至少一个预设规则对获取的所述相关问题进行筛选;
根据所述相关问题的筛选结果,确定问答页面推荐给用户的相关问题。
A2.根据A1所述的方法,其中,所述至少一个预设规则包括下列至少之一:
根据核心词对所述相关问题进行筛选;
根据用户的浏览行为日志对所述相关问题进行筛选;
根据用户的搜索点击行为日志对所述相关问题进行筛选。
A3.根据A2所述的方法,其中,所述根据核心词对所述相关问题进行筛选,包括:
获取与所述搜索词对应的问答页面;
提取所述问答页面中的核心词,并根据所述核心词筛选所述相关问题。
A4.根据A3所述的方法,其中,提取所述问答页面中的至少一个核心词,包括:
从问答页面中提取核心词候选串;
对所述核心词候选串进行分词,提取各个候选串分词的分类特征;
根据所述分类特征筛选各个候选串分词是否是核心词。
A5.根据A4所述的方法,其中,从问答页面中提取核心词候选串,包括:
从所述问答页面的标题中提取核心词候选串;和/或
从所述问答页面的页面内容中,提取与所述搜索词相关的字符串,作为核心词候选串。
A6.根据A5所述的方法,其中,提取与所述搜索词相关的字符串,包括:
对所述搜索词进行分词;
从所述问答页面的页面内容中提取包括至少一个搜索词分词的字符串。
A7.根据A4至A6任一项所述的方法,其中,根据所述分类特征筛选各个候选串分词是否是核心词,包括:
根据所述分类特征对候选串分词进行分类,根据分类结果确定各个候选串分词是否是核心词;
所述分类特征包括下列特征中的至少一种:名词、热度词表、超链接、相关问题共现率、文档词频。
A8.根据A7所述的方法,其中,根据分类结果确定各个候选串分词是否是核心词,具体包括:
针对每个分类,将该分类中各个候选串分词与用户输入的搜索词进行匹配,筛选出匹配度最高的设定数量的候选串分词,作为所述核心词;
针对每个分类,根据该分类中各个候选串分词的使用频率统计值,筛选出所述使用频率统计值最高的设定数量的候选串分词,作为所述核心词;其中,候选串分词的使用频率统计值包括下列参数之一:被搜索次数、被点击次数、曾作为核心词的次数、曾作为搜索词的次数。
A9.根据A2所述的方法,其中,所述根据用户的浏览行为日志对所述相关问题进行筛选,包括:
根据选定时间段内用户的浏览行为日志,确定获取的所述相关问题的浏览权重;
根据所述浏览权重对所述相关问题进行排序;
根据排序结果对所述相关问题进行筛选。
A10.根据A9所述的方法,其中,所述根据排序结果对所述相关问题进行筛选,包括:
根据所述排序结果提取第一预定个数个所述相关问题。
A11.根据A9或A10所述的方法,其中,所述根据选定时间段内用户的浏览行为日志,确定获取的所述相关问题的浏览权重,包括:
根据浏览所述相关问题的浏览用户,对获取的相关问题进行分组;其中,每个相关问题分组中包括一个浏览用户对应的部分或者全部相关问题;
在每个相关问题分组中,计算组中每个相关问题与组中其它相关问题的相关浏览权重;
获取同一相关问题在各相关问题分组中计算得到的相关浏览权重,将获取到的相关浏览权重进行加权,得到获取的每个相关问题的浏览权重。
A12.根据A11所述的方法,其中,根据浏览所述相关问题的浏览用户,对获取的相关问题进行分组,包括:
根据选定时间段内的浏览行为日志,得到每个浏览用户的浏览特征向量{T1、T2、……、Ti、Ti+1、……、Tn},其中,Ti表示一个相关问题。
A13.根据A12所述的方法,其中,计算组中每个相关问题与组中其它相关问题的相关浏览权重,包括:
在每个相关问题分组中,根据浏览用户浏览每个相关问题的浏览时间对该相关问题分组中的所有相关问题进行排序;
根据排序结果中,划分浏览时间间隔小于预设的时间间隔阈值的相关问题至同一会话组;
在每个会话组中,计算组中每个相关问题与组中其它相关问题的相关浏览权重。
A14.根据A12或A13所述的方法,其中,所述浏览特征向量中的元素Ti的属性包括下列参数中的至少一个:
问答页面的生成时间、答案数、好评数、差评数、问答长度、用户浏览时间、用户停留时间等。
A15.根据A2所述的方法,其中,所述根据用户的搜索点击行为日志对所述相关问题进行筛选,包括:
根据选定时间段内用户的搜索点击日志,确定获取的所述相关问题的点击权重;
根据所述点击权重对获取的相关问题进行排序;
根据排序结果对所述相关问题进行筛选。
A16.根据A15所述的方法,其中,所述根据排序结果对所述相关问题进行筛选,包括:
根据所述排序结果提取第二预定个数个所述相关问题。
A17.根据A15或A16所述的方法,其中,根据设定时间段内用户的搜索点击日志,确定获取的所述相关问题的点击权重,包括:
根据所述相关问题对应的查询请求串,对获取的所述相关问题进行分组;其中,每个相关问题分组中包括一个查询请求串对应的部分或全部相关问题;
在每个相关问题分组中,计算组中每个相关问题与组中其他相关问题的相关点击权重;
获取同一相关问题在各相关问题分组中计算得到的相关点击权重,将获取到的相关点击权重进行加权,得到获取的每个相关问题的点击权重。
A18.根据A17所述的方法,其中,根据所述相关问题对应的查询请求串,对获取的所述相关问题进行分组,包括:
根据所述相关问题对应的查询请求串,得到每个查询请求串的点击特征向量{T1、T2、……、Ti、Ti+1、……、Tn},其中Ti表示一个相关问题。
A19.根据A18所述的方法,其中,点击特征向量中的元素Ti的属性包括下列参数中的至少一个:
问答页面的生成时间、答案数、好评数、差评数、问答长度、展示次数、被点击次数等。
本发明还公开了B20.一种问答页面相关问题推荐装置,包括:
获取器,适于根据来自用户的搜索词,获取数据库与所述搜索词相关的至少一个相关问题;
筛选器,适于根据至少一个预设规则对获取的所述相关问题进行筛选;
推荐器,适于根据所述相关问题的筛选结果,确定问答页面推荐给用户的相关问题。
B21.根据B20所述的装置,其中,所述筛选器还包括:
第一筛选模块,适于根据用户的浏览行为日志对所述相关问题进行筛选;
第二筛选模块,适于根据用户的搜索点击行为日志对所述相关问题进行筛选;
第三筛选模块,适于根据核心词对所述相关问题进行筛选。
B22.根据B21所述的装置,其中,所述第三筛选模块还包括:
获取单元,适于获取与所述搜索词对应的问答页面;
提取单元,适于提取所述问答页面中的核心词;
确定单元,适于根据所述核心词筛选所述相关问题。
B23.根据B22所述的装置,其中,所述提取单元还适于:
从问答页面中提取核心词候选串;
对所述核心词候选串进行分词,提取各个候选串分词的分类特征;
根据所述分类特征筛选各个候选串分词是否是核心词。
B24.根据B23所述的装置,其中,所述提取单元还适于:
从所述问答页面的标题中提取核心词候选串;和/或
从所述问答页面的页面内容中,提取与所述搜索词相关的字符串,作为核心词候选串。
B25.根据B24所述的装置,其中,所述提取单元还适于:
对所述搜索词进行分词;
从所述问答页面的页面内容中提取包括至少一个搜索词分词的字符串。
B26.根据B23至B25任一项所述的装置,其中,所述提取单元还适于:
根据所述分类特征对候选串分词进行分类,根据分类结果确定各个候选串分词是否是核心词;
所述分类特征包括下列特征中的至少一种:名词、热度词表、超链接、相关问题共现率、文档词频。
B27.根据B26所述的装置,其中,所述提取单元还适于:
针对每个分类,将该分类中各个候选串分词与用户输入的搜索词进行匹配,筛选出匹配度最高的设定数量的候选串分词,作为所述核心词;
针对每个分类,根据该分类中各个候选串分词的使用频率统计值,筛选出所述使用频率统计值最高的设定数量的候选串分词,作为所述核心词;其中,候选串分词的使用频率统计值包括下列参数之一:被搜索次数、被点击次数、曾作为核心词的次数、曾作为搜索词的次数。
B28.根据B21所述的装置,其中,所述第一筛选模块还包括:
第一权重确定单元,适于根据选定时间段内用户的浏览行为日志,确定获取的所述相关问题的浏览权重;
第一排序单元,适于根据所述浏览权重对获取的相关问题进行排序;
第一筛选单元,适于根据排序结果对所述相关问题进行筛选。
B29.根据B28所述的装置,其中,所述第一筛选单元还适于:
根据所述排序结果提取第一预定个数个所述相关问题。
B30.根据B28或B29所述的装置,其中,所述第一权重确定单元还适于:
根据浏览所述相关问题的浏览用户,对获取的相关问题进行分组;其中,每个相关问题分组中包括一个浏览用户对应的部分或者全部相关问题;
在每个相关问题分组中,计算组中每个相关问题与组中其它相关问题的相关浏览权重;
获取同一相关问题在各相关问题分组中计算得到的相关浏览权重,将获取到的相关浏览权重进行加权,得到获取的每个相关问题的浏览权重。
B31.根据B30所述的装置,其中,所述第一权重确定单元还适于:
根据选定时间段内的浏览行为日志,得到每个浏览用户的浏览特征向量{T1、T2、……、Ti、Ti+1、……、Tn},其中,Ti表示一个相关问题。
B32.根据B31所述的装置,其中,所述第一权重确定单元还适于:
在每个相关问题分组中,根据浏览用户浏览每个相关问题的浏览时间对该相关问题分组中的所有相关问题进行排序;
根据排序结果中,划分浏览时间间隔小于预设的时间间隔阈值的相关问题至同一会话组;
在每个会话组中,计算组中每个相关问题与组中其它相关问题的相关浏览权重。
B33.根据B21所述的装置,其中,所述第二筛选模块还包括:
第二权重确定单元,适于根据选定时间段内用户的搜索点击日志,确定获取的所述相关问题的点击权重;
第二排序单元,适于根据所述点击权重对获取的相关问题进行排序;
第二筛选单元,适于根据排序结果对所述相关问题进行筛选。
B34.根据B33所述的装置,其中,所述第二权重确定单元还适于:
根据所述相关问题对应的查询请求串,对获取的所述相关问题进行分组;其中,每个相关问题分组中包括一个查询请求串对应的部分或全部相关问题;
在每个相关问题分组中,计算组中每个相关问题与组中其他相关问题的相关点击权重;
获取同一相关问题在各相关问题分组中计算得到的相关点击权重,将获取到的相关点击权重进行加权,得到获取的每个相关问题的点击权重。
B35.根据B34所述的装置,其中,所述第二权重确定单元还适于:
根据所述相关问题对应的查询请求串,得到每个查询请求串的点击特征向量{T1、T2、……、Tn},实现对获取的相关问题进行分组;其中Ti表示一个相关问题。
B36.根据B34所述的装置,其中,所述第二权重确定单元还适于:
得到的点击特征向量中的元素Ti的属性包括下列参数中的至少一个:
问答页面的生成时间、答案数、好评数、差评数、问答长度、展示次数、被点击次数等。

Claims (10)

1.一种问答页面相关问题推荐方法,包括:
根据来自用户的搜索词,获取数据库与所述搜索词相关的至少一个相关问题;
根据至少一个预设规则对获取的所述相关问题进行筛选;
根据所述相关问题的筛选结果,确定问答页面推荐给用户的相关问题。
2.根据权利要求1所述的方法,其中,所述至少一个预设规则包括下列至少之一:
根据核心词对所述相关问题进行筛选;
根据用户的浏览行为日志对所述相关问题进行筛选;
根据用户的搜索点击行为日志对所述相关问题进行筛选。
3.根据权利要求1-2任一项所述的方法,其中,所述根据核心词对所述相关问题进行筛选,包括:
获取与所述搜索词对应的问答页面;
提取所述问答页面中的核心词,并根据所述核心词筛选所述相关问题。
4.根据权利要求1-3任一项所述的方法,其中,提取所述问答页面中的至少一个核心词,包括:
从问答页面中提取核心词候选串;
对所述核心词候选串进行分词,提取各个候选串分词的分类特征;
根据所述分类特征筛选各个候选串分词是否是核心词。
5.根据权利要求1-4任一项所述的方法,其中,从问答页面中提取核心词候选串,包括:
从所述问答页面的标题中提取核心词候选串;和/或
从所述问答页面的页面内容中,提取与所述搜索词相关的字符串,作为核心词候选串。
6.根据权利要求1-5任一项所述的方法,其中,提取与所述搜索词相关的字符串,包括:
对所述搜索词进行分词;
从所述问答页面的页面内容中提取包括至少一个搜索词分词的字符串。
7.一种问答页面相关问题推荐装置,包括:
获取器,适于根据来自用户的搜索词,获取数据库与所述搜索词相关的至少一个相关问题;
筛选器,适于根据至少一个预设规则对获取的所述相关问题进行筛选;
推荐器,适于根据所述相关问题的筛选结果,确定问答页面推荐给用户的相关问题。
8.根据权利要求7所述的装置,其中,所述筛选器还包括:
第一筛选模块,适于根据用户的浏览行为日志对所述相关问题进行筛选;
第二筛选模块,适于根据用户的搜索点击行为日志对所述相关问题进行筛选;
第三筛选模块,适于根据核心词对所述相关问题进行筛选。
9.根据权利要求7-8任一项所述的装置,其中,所述第三筛选模块还包括:
获取单元,适于获取与所述搜索词对应的问答页面;
提取单元,适于提取所述问答页面中的核心词;
确定单元,适于根据所述核心词筛选所述相关问题。
10.根据权利要求7-9任一项所述的装置,其中,所述提取单元还适于:
从问答页面中提取核心词候选串;
对所述核心词候选串进行分词,提取各个候选串分词的分类特征;
根据所述分类特征筛选各个候选串分词是否是核心词。
CN201410828866.1A 2014-12-25 2014-12-25 问答页面相关问题推荐方法及装置 Active CN104462553B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201410828866.1A CN104462553B (zh) 2014-12-25 2014-12-25 问答页面相关问题推荐方法及装置
PCT/CN2015/095853 WO2016101765A1 (zh) 2014-12-25 2015-11-27 问答页面相关问题推荐方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410828866.1A CN104462553B (zh) 2014-12-25 2014-12-25 问答页面相关问题推荐方法及装置

Publications (2)

Publication Number Publication Date
CN104462553A true CN104462553A (zh) 2015-03-25
CN104462553B CN104462553B (zh) 2019-02-26

Family

ID=52908588

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410828866.1A Active CN104462553B (zh) 2014-12-25 2014-12-25 问答页面相关问题推荐方法及装置

Country Status (1)

Country Link
CN (1) CN104462553B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016101765A1 (zh) * 2014-12-25 2016-06-30 北京奇虎科技有限公司 问答页面相关问题推荐方法及装置
CN105912712A (zh) * 2016-04-29 2016-08-31 华南师范大学 基于大数据的机器人对话控制方法和系统
CN105930527A (zh) * 2016-06-01 2016-09-07 北京百度网讯科技有限公司 搜索方法及装置
CN106168962A (zh) * 2016-06-30 2016-11-30 北京奇虎科技有限公司 基于自然搜索结果提供精确观点的搜索方法及装置
CN106202286A (zh) * 2016-06-30 2016-12-07 北京奇虎科技有限公司 基于自然搜索结果提供实体词的搜索方法及装置
CN106326486A (zh) * 2016-09-05 2017-01-11 北京百度网讯科技有限公司 基于人工智能的推送信息的方法和装置
CN106919589A (zh) * 2015-12-24 2017-07-04 北京奇虎科技有限公司 用户问题分析方法和装置
WO2017202138A1 (zh) * 2016-05-26 2017-11-30 北京搜狗科技发展有限公司 基于搜索引擎的信息处理方法和装置
CN108536852A (zh) * 2018-04-16 2018-09-14 上海智臻智能网络科技股份有限公司 问答交互方法和装置、计算机设备及计算机可读存储介质
CN108664492A (zh) * 2017-03-29 2018-10-16 北京京东尚科信息技术有限公司 一种向用户推送内容的方法、装置、电子设备和存储介质
CN109086431A (zh) * 2018-08-13 2018-12-25 广东小天才科技有限公司 一种知识点巩固学习方法及电子设备
CN109102809A (zh) * 2018-06-22 2018-12-28 北京光年无限科技有限公司 一种用于智能机器人的对话方法及系统
CN110019750A (zh) * 2019-01-04 2019-07-16 阿里巴巴集团控股有限公司 呈现两个以上标准文本问题的方法和装置
CN110162615A (zh) * 2019-05-29 2019-08-23 北京市律典通科技有限公司 一种智能问答方法、装置、电子设备和存储介质
CN112883185A (zh) * 2021-03-30 2021-06-01 中国工商银行股份有限公司 基于机器学习的问题推荐方法及装置
CN113723974A (zh) * 2021-09-06 2021-11-30 北京沃东天骏信息技术有限公司 一种信息处理方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020042794A1 (en) * 2000-01-05 2002-04-11 Mitsubishi Denki Kabushiki Kaisha Keyword extracting device
CN101079056A (zh) * 2007-02-06 2007-11-28 腾讯科技(深圳)有限公司 一种搜索方法和系统
CN101149747A (zh) * 2006-09-21 2008-03-26 索尼株式会社 用于处理信息的装置和方法、以及程序
CN101464897A (zh) * 2009-01-12 2009-06-24 阿里巴巴集团控股有限公司 一种词匹配及信息查询方法及装置
CN102053983A (zh) * 2009-11-02 2011-05-11 阿里巴巴集团控股有限公司 一种垂直搜索的查询方法、系统和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020042794A1 (en) * 2000-01-05 2002-04-11 Mitsubishi Denki Kabushiki Kaisha Keyword extracting device
CN101149747A (zh) * 2006-09-21 2008-03-26 索尼株式会社 用于处理信息的装置和方法、以及程序
CN101079056A (zh) * 2007-02-06 2007-11-28 腾讯科技(深圳)有限公司 一种搜索方法和系统
CN101464897A (zh) * 2009-01-12 2009-06-24 阿里巴巴集团控股有限公司 一种词匹配及信息查询方法及装置
CN102053983A (zh) * 2009-11-02 2011-05-11 阿里巴巴集团控股有限公司 一种垂直搜索的查询方法、系统和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
唐沁钦: "《多媒体系统中个性化推荐的研究和设计》", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
杜定宇: "《基于特征向量的个性化推荐算法研究》", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016101765A1 (zh) * 2014-12-25 2016-06-30 北京奇虎科技有限公司 问答页面相关问题推荐方法及装置
CN106919589A (zh) * 2015-12-24 2017-07-04 北京奇虎科技有限公司 用户问题分析方法和装置
CN105912712A (zh) * 2016-04-29 2016-08-31 华南师范大学 基于大数据的机器人对话控制方法和系统
CN105912712B (zh) * 2016-04-29 2019-09-17 华南师范大学 基于大数据的机器人对话控制方法和系统
WO2017202138A1 (zh) * 2016-05-26 2017-11-30 北京搜狗科技发展有限公司 基于搜索引擎的信息处理方法和装置
US11194863B2 (en) 2016-06-01 2021-12-07 Beijing Baidu Netcom Science And Technology Co., Ltd. Searching method and apparatus, device and non-volatile computer storage medium
CN105930527A (zh) * 2016-06-01 2016-09-07 北京百度网讯科技有限公司 搜索方法及装置
CN105930527B (zh) * 2016-06-01 2019-09-20 北京百度网讯科技有限公司 搜索方法及装置
CN106202286A (zh) * 2016-06-30 2016-12-07 北京奇虎科技有限公司 基于自然搜索结果提供实体词的搜索方法及装置
CN106168962A (zh) * 2016-06-30 2016-11-30 北京奇虎科技有限公司 基于自然搜索结果提供精确观点的搜索方法及装置
CN106202286B (zh) * 2016-06-30 2019-11-01 北京奇虎科技有限公司 基于自然搜索结果提供实体词的搜索方法及装置
CN106326486A (zh) * 2016-09-05 2017-01-11 北京百度网讯科技有限公司 基于人工智能的推送信息的方法和装置
CN106326486B (zh) * 2016-09-05 2019-10-15 北京百度网讯科技有限公司 基于人工智能的推送信息的方法和装置
CN108664492A (zh) * 2017-03-29 2018-10-16 北京京东尚科信息技术有限公司 一种向用户推送内容的方法、装置、电子设备和存储介质
CN108664492B (zh) * 2017-03-29 2022-02-01 北京京东尚科信息技术有限公司 一种向用户推送内容的方法、装置、电子设备和存储介质
CN108536852A (zh) * 2018-04-16 2018-09-14 上海智臻智能网络科技股份有限公司 问答交互方法和装置、计算机设备及计算机可读存储介质
CN108536852B (zh) * 2018-04-16 2021-07-23 上海智臻智能网络科技股份有限公司 问答交互方法和装置、计算机设备及计算机可读存储介质
CN109102809A (zh) * 2018-06-22 2018-12-28 北京光年无限科技有限公司 一种用于智能机器人的对话方法及系统
CN109086431B (zh) * 2018-08-13 2020-11-03 广东小天才科技有限公司 一种知识点巩固学习方法及电子设备
CN109086431A (zh) * 2018-08-13 2018-12-25 广东小天才科技有限公司 一种知识点巩固学习方法及电子设备
CN110019750A (zh) * 2019-01-04 2019-07-16 阿里巴巴集团控股有限公司 呈现两个以上标准文本问题的方法和装置
CN110162615A (zh) * 2019-05-29 2019-08-23 北京市律典通科技有限公司 一种智能问答方法、装置、电子设备和存储介质
CN110162615B (zh) * 2019-05-29 2021-08-24 北京市律典通科技有限公司 一种智能问答方法、装置、电子设备和存储介质
CN112883185A (zh) * 2021-03-30 2021-06-01 中国工商银行股份有限公司 基于机器学习的问题推荐方法及装置
CN113723974A (zh) * 2021-09-06 2021-11-30 北京沃东天骏信息技术有限公司 一种信息处理方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN104462553B (zh) 2019-02-26

Similar Documents

Publication Publication Date Title
CN104462553A (zh) 问答页面相关问题推荐方法及装置
CN109684483B (zh) 知识图谱的构建方法、装置、计算机设备及存储介质
CN111984689B (zh) 信息检索的方法、装置、设备以及存储介质
CN104573054B (zh) 一种信息推送方法和设备
US9317613B2 (en) Large scale entity-specific resource classification
JP5623431B2 (ja) クエリのアスペクトを識別すること
EP2836935B1 (en) Finding data in connected corpuses using examples
CN107862022B (zh) 文化资源推荐系统
US10713291B2 (en) Electronic document generation using data from disparate sources
CN104809108B (zh) 信息监测分析系统
CN108694223A (zh) 一种用户画像库的构建方法及装置
CN105404699A (zh) 一种搜索财经文章的方法、装置及服务器
CN103729362B (zh) 导航内容的确定方法和装置
CN104933100A (zh) 关键词推荐方法和装置
CN105095231A (zh) 一种呈现搜索结果的方法和装置
CN109753601A (zh) 推荐信息点击率确定方法、装置及电子设备
CN102200975A (zh) 一种利用语义分析的垂直搜索引擎系统与方法
CN112825089B (zh) 文章推荐方法、装置、设备及存储介质
CN104462554A (zh) 问答页面相关问题推荐方法和装置
CN104008180A (zh) 结构化数据与图片的关联方法与关联装置
CN104933171A (zh) 兴趣点数据关联方法和装置
CN114330329A (zh) 一种业务内容搜索方法、装置、电子设备及存储介质
CN105389328B (zh) 一种大规模开源软件搜索排序优化方法
CN115309954A (zh) 一种数据检索方法、装置、设备以及存储介质
CN104462552A (zh) 问答页面核心词提取方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220725

Address after: Room 801, 8th floor, No. 104, floors 1-19, building 2, yard 6, Jiuxianqiao Road, Chaoyang District, Beijing 100015

Patentee after: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Address before: 100088 room 112, block D, 28 new street, new street, Xicheng District, Beijing (Desheng Park)

Patentee before: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Patentee before: Qizhi software (Beijing) Co.,Ltd.

TR01 Transfer of patent right