CN103914543B - 搜索结果的展现方法和装置 - Google Patents

搜索结果的展现方法和装置 Download PDF

Info

Publication number
CN103914543B
CN103914543B CN201410134350.7A CN201410134350A CN103914543B CN 103914543 B CN103914543 B CN 103914543B CN 201410134350 A CN201410134350 A CN 201410134350A CN 103914543 B CN103914543 B CN 103914543B
Authority
CN
China
Prior art keywords
search term
search
entity
answer
recommendation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410134350.7A
Other languages
English (en)
Other versions
CN103914543A (zh
Inventor
张伟萌
刘涛
陈楠
赵辉
何伯磊
饶思维
陈坚忠
付冬
胡小博
王文琳
廖毅
谭玉佩
忻舟
马艳军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201410134350.7A priority Critical patent/CN103914543B/zh
Publication of CN103914543A publication Critical patent/CN103914543A/zh
Application granted granted Critical
Publication of CN103914543B publication Critical patent/CN103914543B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种搜索结果的展现方法和装置,该搜索结果的展现方法包括接收用户输入的搜索词;根据所述搜索词,获取搜索结果,所述搜索结果包括聚合推荐结果以及与所述聚合推荐结果关联的推荐理由;向所述用户展现所述搜索结果。该方法能够提高用户查找结果的效率,并提高可靠性。

Description

搜索结果的展现方法和装置
技术领域
本发明涉及通信技术领域,尤其涉及一种搜索结果的展现方法和装置。
背景技术
用户经常在互联网的海量信息中搜索需要的信息,搜索引擎渐渐成为必不可少的工具。互联网中普通存在观点推荐需求的问题,例如,“孕妇能吃什么水果”、“孕妇吃什么海产品补锌”等。目前,对于此类问题,用户输入搜索词后,搜索引擎向用户返回的搜索结果通常是多个网页的链接,用户通过点击链接,查看页面内容,自行寻找和归纳答案。
但是,这种方式效率比较低且缺乏可靠性。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种搜索结果的展现方法,该方法可以提高用户获取搜索结果的效率,且提高搜索结果的可靠性。
本发明的另一个目的在于提出一种搜索结果的展现装置。
为达到上述目的,本发明第一方面实施例提出的搜索结果的展现方法,包括:接收用户输入的搜索词;根据所述搜索词,获取搜索结果,所述搜索结果包括聚合推荐结果以及与所述聚合推荐结果关联的推荐理由;向所述用户展现所述搜索结果。
本发明第一方面实施例提出的搜索结果的展现方法,通过直接给出聚合推荐结果,可以减少用户查找时间,提高搜索结果的查找效率;并且,本实施例通过给出推荐理由,可以在用户查找时有所依据,提高搜索结果的可靠性。
为达到上述目的,本发明第二方面实施例提出的搜索结果的展现装置,包括:接收模块,用于接收用户输入的搜索词;获取模块,用于根据所述搜索词,获取搜索结果,所述搜索结果包括聚合推荐结果以及与所述聚合推荐结果关联的推荐理由;展现模块,用于向所述用户展现所述搜索结果。
本发明第二方面实施例提出的搜索结果的展现装置,通过直接给出聚合推荐结果,可以减少用户查找时间,提高搜索结果的查找效率;并且,本实施例通过给出推荐理由,可以在用户查找时有所依据,提高搜索结果的可靠性。
为达到上述目的,本发明第三方面实施例提出的客户端设备,包括:壳体、处理器、存储器、电路板和电源电路,其中,电路板安置在壳体围成的空间内部,处理器和存储器设置在电路板上;电源电路,用于为客户端设备的各个电路或器件供电;存储器用于存储可执行程序代码;处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码关联的程序,以用于执行以下步骤:接收用户输入的搜索词;根据所述搜索词,获取搜索结果,所述搜索结果包括聚合推荐结果以及与所述聚合推荐结果关联的推荐理由;向所述用户展现所述搜索结果。
本发明第三方面实施例提出的客户端设备,通过直接给出聚合推荐结果,可以减少用户查找时间,提高搜索结果的查找效率;并且,本实施例通过给出推荐理由,可以在用户查找时有所依据,提高搜索结果的可靠性。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明一实施例提出的搜索结果的展现方法的流程示意图;
图2是本发明实施例中展现搜索结果的一种展现示意图;
图3是本发明实施例中展现搜索结果的另一种展现示意图;
图4是本发明实施例中展现搜索结果的另一种展现示意图;
图5是本发明实施例中展现搜索结果的另一种展现示意图;
图6是本发明另一实施例提出的搜索结果的展现方法的流程示意图;
图7是本发明实施例中观点聚合处理的流程示意图;
图8是本发明实施例中离线流程的处理示意图;
图9是本发明实施例中实例化搜索词的流程示意图;
图10是本发明实施例中聚类处理的流程示意图;
图11是本发明实施例中观点分析的流程示意图;
图12是本发明另一实施例提出的搜索结果的展现装置的结构示意图;
图13是本发明另一实施例提出的搜索结果的展现装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
图1是本发明一实施例提出的搜索结果的展现方法的流程示意图,该方法包括:
S11:搜索引擎接收用户输入的搜索词。
其中,本发明实施例中处理的搜索词可以具体为答案是实体类型的搜索词,例如,搜索词是“孕妇能吃什么水果”或者“孕妇吃什么海产品补锌”等这类问题。
这类问题的答案通常是实体类型,实体(entity)是客观世界中存在的且可互相区分的事物,实体可以是人也可以是物体实物,或者,也可以是抽象概念。例如,“苹果”、“梨”、“虾”等这些都属于实体。
S12:搜索引擎根据所述搜索词,获取搜索结果,所述搜索结果包括聚合推荐结果以及与所述聚合推荐结果对应的推荐理由。
相关技术中,搜索引擎得到的搜索结果通常是网页的链接,例如,向用户展现“孕妇能吃什么水果_百度知道”这一链接结果,用户需要点击该链接后进入相应的百度知道的页面,进而在该百度知道的页面上查找结果。
而本发明实施例中获取的搜索结果包括的是具体的聚合推荐结果,例如相关技术中在上述的百度知道的页面上展现的是“苹果”、“梨”这些结果,而本实施例直接获取“苹果”、“梨”这些聚合推荐结果,而不再需要用户进入页面后才看到。
另外,本发明实施例中不仅给出聚合推荐结果,还会给出这些聚合推荐结果的理由,例如,“苹果”有多少人推荐,“梨”有多少人推荐等。或者,推荐理由也可以是网友的回答,例如“苹果富含VC,对宝宝好”等。或者,推荐理由也可以是从网友回答的问题中提取的关键字,例如对应“苹果”的推荐理由是“富含VC”。
S13:搜索引擎向所述用户展现所述搜索结果。
其中,根据用户所使用的设备的不同,具体的展现形式也可以不同。
具体的,如果在个人电脑(Personal Computer,PC)上展现搜索结果,则将所述聚合推荐结果和所述推荐理由在同一个页面上进行展现。
进一步的,在PC上展现时可以为纯标签(TAG)形式或者配图形式。
例如,参见图2,给出了在PC上以纯标签形式展现的搜索结果,其中,当用户搜索“北京特产”时,可以直接显示“北京烤鸭”、“六必居酱菜”这些聚合推荐结果,并且在聚合推荐结果所在页面上还显示相应的推荐理由,例如,“北京烤鸭”有27人推荐,以及网友对于“北京烤鸭”这一问题的回答。
参见图3,给出了在PC上以配图形式展现的搜索结果,其中,当用户搜索“女性为主角的电影”时,可以直接显示“疯狂原始人”、“毒战”这些聚合推荐结果,并且在聚合推荐结果所在页面上还显示相应的推荐理由,例如,“疯狂原始人”有7人推荐,以及网友对于“疯狂原始人”这一问题的回答。
进一步的,推荐理由可以采用如下方式展现:
1)默认展现第一个推荐理由,点击图标重新搜索推荐理由;
2)默认展现第一个实体的推荐理由,点击图标切换推荐理由;
3)默认不展现推荐理由,点击实体后触发该实体关联的推荐理由。
另一方面,如果在移动设备上展现搜索结果,则将所述聚合推荐结果和所述推荐理由在不同的页面上进行展现,其中,展现所述推荐理由的页面是展现所述聚合推荐结果的页面的下一级页面。
例如,参见图4,给出了在移动设备上展现的搜索结果,其中,当用户搜索孕妇能吃什么水果时,可以直接显示“苹果”、“香蕉”这些聚合推荐结果。
由于移动设备的显示限制,聚合推荐结果对应的理由通常不能与聚合推荐结果在同一页面显示,此时,可以点击包含聚合推荐结果的页面进入下一级页面,例如,参见图5,当点击母婴知识这一页面后可以进入下一级页面,在该页面上可以显示具体的推荐理由,例如,用户回答“苹果很好的,一天吃一个,生出宝宝皮肤会好很白。都可以吃的,但是不要过量吃…”。
当然,可以理解的是,在展现时除了展现上述得到的聚合推荐结果和推荐理由外,还可以展现目前已有的结果,例如,如图2所示,还可以展现“北京特产_百度百科”这一页面链接等。
进一步的,可以建立每个聚合推荐结果与其他网页的链接,以便通过选中聚合推荐结果后跳转到另一页面。例如,建立聚合推荐结果与购买网站的链接关系,这样就可以当选中某个聚合推荐结果后就可以跳转到相应网站去购买。
本实施例通过直接给出聚合推荐结果,可以减少用户查找时间,提高搜索结果的查找效率;并且,本实施例通过给出推荐理由,可以在用户查找时有所依据,提高搜索结果的可靠性。
图6是本发明另一实施例提出的搜索结果的展现方法的流程示意图,该方法包括:
S61:用户输入搜索词(query)。
S62:对搜索词进行分析。
其中,对搜索词进行分析不仅包括基础分析,还包括针对问题需求的分析。
基础分析包括:分词、词性标注、专名识别、字词(term)重要性等。
针对问题需求的分析包括:问题类型分析和答案类型分析。
问题类型分析用于目标问答对的筛选;答案类型分析用于后续的实体观点抽取,以便根据搜索词所需要的实体类型抽取相应的实体。
问题类型分析可以包括:识别用户输入的搜索词是否属于适合为用户推荐实体的搜索词,当用户输入的搜索词属于适合为用户推荐实体的搜索词时再进行后续流程。例如,搜索词为“孕妇吃什么海产品补锌”时,由于其答案将是“三文鱼”等这些实体答案,因此,可以确定该搜索词属于适合为用户推荐实体的搜索词,对其进行后续处理。再例如,搜索词是“孕妇是否应该吃海产品”时,由于其答案将是“是”、“否”这些非实体的答案,因此,可以确定该搜索词不属于适合为用户推荐实体的搜索词,此时对其不再进行本发明实施例中的后续处理。
具体的,问题类型分析时可以根据搜索词中包含的分词来确定是否适合进行实体推荐,例如,如上所述的,当搜索词包含“什么”这类词时可以确定为适合实体推荐的,或者,当搜索词包含“是否”这类词时可以确定为不适合实体推荐的。当然,上述的问题类型分析的方式只是一种举例,可以根据实际需要设定相应的规则。
答案类型分析可以包括:识别需求类型词(Lexical Answer Type,LAT),以便根据需求类型词找到用户需要的实体类型。例如,“孕妇吃什么海产品补锌”中,需求类型词为“海产品”。
具体的,答案类型分析时可以将与“什么”相关联的词确定为需求类型词,如上述的“海产品”。当然,上述的答案类型分析的方式只是一种举例,可以根据实际需要设定相应的规则。
S63:观点聚合系统在用户输入的搜索词属于适合为用户推荐实体的搜索词时,根据所述搜索词进行观点聚合处理,得到搜索结果,搜索结果包括聚合推荐结果和对应的推荐理由。
其中,该步骤可以将历史数据中与该搜索词相关的网友回答进行聚合,以得到聚合推荐结果和推荐理由,具体处理过程可以参见后续描述。另外,“对应的”也可以称为“关联的”。
S64:观点聚合系统将得到的搜索结果输出给显示装置,由显示装置向用户展现搜索结果。
具体展现方式可以参见S13,本实施例不再赘述。下面具体描述观点聚合处理的流程。
参见图7,观点聚合处理的流程可以包括:
S71:根据用户输入的搜索词,从倒排(BS)索引库中,获取与该搜索词关联的搜索词实例,并计算每个搜索词实例与搜索词之间的语义相似度数值,将语义相似度数值大于设定阈值的搜索词实例确定为扩展搜索词。
其中,倒排索引库可以是离线方式预先建立的,具体建立过程可以参见后续实施例。倒排索引库中存储搜索词和搜索词实例的关联关系,通过一搜索词,可以在该倒排索引库中找到关联的多个搜索词实例,具体返回的可以是每个搜索词实例的标识(queryid)。
S72:从Q-Q正排索引库中,获取与该扩展搜索词关联的问题和第一特征数据。
其中,Q-Q正排索引库也可以是离线方式预先建立的,具体建立过程可以参见后续实施例。
Q-Q正排索引库存储搜索词和问题之间的关联关系,具体可以是queryid-questionid的关联信息。给定queryid,得到相关questionid和第一特征数据,第一特征数据包括语义相似度、用户行为等,为在线排序提供特征数据。
S73:从Q-A正排索引库中,获取与该问题关联的答案和第二特征数据。
其中,Q-A正排索引库也可以是离线方式预先建立的,具体建立过程可以参见后续实施例。
Q-A正排索引库存储问题和答案的关联关系,具体可以是questionid-answer的关联信息。给定questionid,得到关联的answer和第二特征数据,包括实体,用户观点、实体相关度、候选实体的被推荐次数、候选实体-需求类型词匹配度、候选实体上下文-query匹配度等特征。
S74:进行在线实体抽取和相关度计算,得到筛选后的实体。
由于存在query和question差异化问题,线下计算不能完全覆盖所有情况,因此需要对差异大的query和question线上重新计算。
例如,针对“孕妇吃什么海产品补锌”这一搜索词,获取的答案可能是一段话,如“鱼类是很好的补锌食品”,但经过实体抽取后可以抽取出鱼类。类似的,根据其他答案还可以抽取出贝类、坚果、水果、三文鱼、虾皮、牛奶等实体。具体的,可以通过挖掘食物列表,从答案中抽取出鱼类、贝类、坚果、水果、三文鱼、虾皮、牛奶等实体。抽取后得到的实体可以称为候选实体。
相关度计算用于计算候选实体和用户输入的搜索词是否相关,具体可以包括:
a)根据对搜索词进行分析后得到的需求类型词,在候选实体中去除不属于需求类型词的实体。例如,需要类型词为“海产品”,则选择属于海产品的实体,即鱼类、贝类、虾皮、三文鱼,去掉“坚果、水果、牛奶”。
具体的,可以计算每个候选实体与需求类型词的语义匹配度,即“鱼、坚果、水果、虾皮、牛奶”等候选实体与“海产品”的匹配度,去除匹配度数值低于设定阈值的候选实体。
匹配度的具体计算方法如下:(1)实体关联的多个类型与需求类型词之间embedding向量的平均相似度加权。(2)需求类型词关联的多个实例与候选实体之间embedding向量的平均相似度加权,其中,需求类型词的实例可以通过XXX is a***这样的模板来挖掘。
b)根据候选实体的上下文,去除语义上与需求类型词的匹配度小于设定阈值的候选实体。例如,“虾皮”虽然与需求类型词“海产品”在类型上相匹配,但回答中说的是“虾皮补钙”,语义不匹配,因此去掉“虾皮”,保留“鱼类、贝类、三文鱼”。
具体根据上下文计算匹配度可以包括:首先,通过依存句法分析树找到和“海产品”有依存关系的term作为上下文,再根据该term计算匹配度,计算匹配度的具体计算公式如下:
语义匹配度W(i|海产品->虾皮)=term(i)的重要性打分*答案命中打分(0|1)*与虾皮的位置距离*否定关系打分(0|1)*倾向性分析(0-1),该公式表示在第i个term作为实体上下文时,海产品和虾皮的语义匹配度打分,其中倾向性分析表示虾皮前后的情感词分类打分,该打分可以根据静态统计生成。
此外,“补钙”等上下文可作为推荐理由的关键词候选,在产品展现中使用。
c)计算候选实体之间的上下位关系,例如,将“三文鱼”归为“鱼类”,最终呈现的答案为:鱼类(如三文鱼)、贝类。这种上下文关系可以通过数据挖掘实现,挖掘的来源包括百科的tag、无结构化文本等。比如百科词条“三文鱼”就有一个tag字段“鱼类”。
S75:对筛选后的实体进行排序。
其中,可以根据第一特征数据和第二特征数据,对筛选后的实体进行排序。
排序可以具体包括:首先,根据用户行为、实体相关度、语义相似度等多维特征,利用GBRank等已有的排序系统,对问答对做排序,通过阈值截断方法得到相关性高的问答对。在此基础上,以问答对中的实体为基准,对答案做排序。具体特征如下:Query-问答对的用户点击、候选实体被推荐次数、候选实体-需求类型词匹配度、候选实体上下文-query匹配度。基于以上特征,利用GBRank等已有的排序系统,对答案进行排序。
S76:对排序后的实体进行聚合统计。
例如,可以包括统计每个实体对应的答案的推荐个数,根据推荐个数进行逆序排列,逆序排列后的答案可以作为推荐理由进行展现。例如,对于“疯狂机器人”这一聚合推荐结果,“壁小花小姐”的用户观点的推荐个数最多,则在网友回答中将“壁小花小姐”的观点排列在第一位。
上述实施例中采用的倒排索引库、Q-Q正排索引库和Q-A正排索引库可以是采用离线流程建立的。
图8是本发明实施例中离线流程的处理示意图,包括:
S81:确定目标搜索词。
其中,可以逐一将历史数据中的每个属于适合为用户推荐实体的搜索词确定为目标搜索词,以便满足后续用户在线搜索不同搜索词时的需要。
S82:对该目标搜索词进行实例化,得到该目标搜索词关联的搜索词实例,并将该目标搜索词和该搜索词实例对应存储在倒排索引库中。
其中,可以通过用户点击日志等基础数据,对目标query做实例化挖掘,具体流程可以参见图9,该流程S90包括:
S91:从点击日志获取目标query发生点击的统一资源定符(Uniform ResoureLocator,URL)。
S92:根据该点击URL进行站点挖掘。
S93:根据站点挖掘获取目标站点。
其中,可以通过简单频次统计得到目标站点,其中目标站点表示主需求的站点,多为垂直问答类网站。
S94:根据目标站点获取该目标搜索词关联的搜索词实例。
其中,可以反向挖掘目标站点在点击日志中关联的query集合,将该query集合确定为目标搜索词关联的query实例。其中,当目标站点是综合类站点,可以进一步进行问题分类。
S95:在站点挖掘时,进行问答对挖掘,获取问答对数据。
其中,站点挖掘的同时,可以通过站点去挖掘网页中的问答对资源,获取问答对数据。
S96:对问答对数据进行预处理和问题分类处理,得到问题实例,将该问题实例也作为目标搜索词关联的搜索词实例。
其中,预处理可以是指问题去噪,分类后生成问题实例,补充到query实例中。
S83:对搜索词实例和问答对数据进行聚类处理,得到聚类后的搜索词和聚类后的问题,并将聚类后的搜索词和聚类后的问题关联存储在Q-Q正排索引库中。
其中,参见图10,聚类处理可以包括问题聚类S101和搜索词实例聚类S102。
对于同一个网页,存在多种链接方式,导致url的多样性,这就需要做url归一化,问题聚类的目的便是如此。通过对问题和答案的聚合(这里没用hash去重,是因为页面更新或是title截断都会出现问题和答案的细微变化,导致url归一不到一起),将url归一到唯一的地址,既可以减少死链,又可以扩大有效页面的召回。url归一化的主站点是一致的,以主站为key切分,可以提升效率,使用已有的k-means系统即可满足需求。
Query实例聚类是将挖掘的实例化query做聚合,用于弥补搜索引擎点击过于集中造成的召回不足问题(绝大多数的点击行为都发生在前3页)。以根据term重要性排序,已不可省term为key切分数据,可使用已有的k-means系统。
S84:根据问答对数据,获取Q-A原始数据,并对Q-A原始数据进行观点分析,得到更新后的Q-A数据,并将更新后的Q-A数据关联存储在Q-A正排库中。
参见图11,观点分析主要包括实体抽取S111和相关度计算S112。
观点分析依据问题表述,从回答中抽取答案实体并计算实体与query的相关度。如,问题(孕妇吃什么海产品补锌?)-回答(鱼类、贝类、坚果、水果等补锌,鱼类中三文鱼尤其好;虾皮、牛奶能补钙)。
其中,离线的观点分析与在线的观点分析的原理一致,可以包括:
(1)实体抽取:从问答对的回答出抽取实体,例如,可以通过挖掘食物列表,从回答中抽取出鱼类、贝类、坚果、水果、三文鱼、虾皮、牛奶等实体。
(2)实体相关度计算。相关度计算用于计算候选实体和用户输入的搜索词是否相关,具体可以包括:
a)根据对搜索词进行分析后得到的需求类型词,在候选实体中去除不属于需求类型词的实体。例如,需要类型词为“海产品”,则选择属于海产品的实体,即鱼类、贝类、虾皮、三文鱼,去掉“坚果、水果、牛奶”。
具体的,可以计算每个候选实体与需求类型词的语义匹配度,即“鱼、坚果、水果、虾皮、牛奶”等候选实体与“海产品”的匹配度,去除匹配度数值低于设定阈值的候选实体。
匹配度的具体计算方法如下:(1)实体关联的多个类型与需求类型词之间embedding向量的平均相似度加权。(2)需求类型词关联的多个实例与候选实体之间embedding向量的平均相似度加权,其中,需求类型词的实例可以通过XXX is a***这样的模板来挖掘。
b)根据候选实体的上下文,去除语义上与需求类型词的匹配度小于设定阈值的候选实体。例如,“虾皮”虽然与需求类型词“海产品”在类型上相匹配,但回答中说的是“虾皮补钙”,语义不匹配,因此去掉“虾皮”,保留“鱼类、贝类、三文鱼”。
具体根据上下文计算匹配度可以包括:首先,通过依存句法分析树找到和“海产品”有依存关系的term作为上下文,再根据该term计算匹配度,计算匹配度的具体计算公式如下:
语义匹配度W(i|海产品->虾皮)=term(i)的重要性打分*答案命中打分(0|1)*与虾皮的位置距离*否定关系打分(0|1)*倾向性分析(0-1),该公式表示在第i个term作为实体上下文时,海产品和虾皮的语义匹配度打分,其中倾向性分析表示虾皮前后的情感词分类打分,该打分可以根据静态统计生成。
此外,“补钙”等上下文可作为推荐理由的关键词候选,在产品展现中使用。
c)计算候选实体之间的上下位关系,例如,将“三文鱼”归为“鱼类”,最终呈现的答案为:鱼类(如三文鱼)、贝类。这种上下文关系可以通过数据挖掘实现,挖掘的来源包括百科的tag、无结构化文本等。比如百科词条“三文鱼”就有一个tag字段“鱼类”。
本实施例通过直接给出实体答案,可以减少用户的阅读成本,一目了然;通过提供推荐理由,可以有统计数据和证据,可靠性高,容易让人信服,可辅助用户决策;通过对搜索词、问题、答案的多重聚类处理,一方面可以扩大搜索词的影响面,另一方面补充丰富答案数据,降低长尾搜索带来的数据稀疏影响,在扩大影响面的同时,根据用户行为、语义相似度等特征有效控制转义风险。
图12是本发明另一实施例提出的搜索结果的展现装置的结构示意图,该装置120包括接收模块121、获取模块122和展现模块123。
接收模块121用于接收用户输入的搜索词;
其中,本发明实施例中处理的搜索词可以具体为答案是实体类型的搜索词,例如,搜索词是“孕妇能吃什么水果”或者“孕妇吃什么海产品补锌”等这类问题。
这类问题的答案通常是实体类型,实体(entity)是客观世界中存在的且可互相区分的事物,实体可以是人也可以是物体实物,或者,也可以是抽象概念。例如,“苹果”、“梨”、“虾”等这些都属于实体。
获取模块122用于根据所述搜索词,获取搜索结果,所述搜索结果包括聚合推荐结果以及与所述聚合推荐结果关联的推荐理由;
相关技术中,搜索引擎得到的搜索结果通常是网页的链接,例如,向用户展现“孕妇能吃什么水果_百度知道”这一链接结果,用户需要点击该链接后进入相应的百度知道的页面,进而在该百度知道的页面上查找结果。
而本发明实施例中获取的搜索结果包括的是具体的聚合推荐结果,例如相关技术中在上述的百度知道的页面上展现的是“苹果”、“梨”这些结果,而本实施例直接获取“苹果”、“梨”这些聚合推荐结果,而不再需要用户进入页面后才看到。
另外,本发明实施例中不仅给出聚合推荐结果,还会给出这些聚合推荐结果的理由,例如,“苹果”有多少人推荐,“梨”有多少人推荐等。或者,推荐理由也可以是网友的回答,例如“苹果富含VC,对宝宝好”等。或者,推荐理由也可以是从网友回答的问题中提取的关键字,例如对应“苹果”的推荐理由是“富含VC”。
展现模块123用于向所述用户展现所述搜索结果。
其中,根据用户所使用的设备的不同,具体的展现形式也可以不同。
一个实施例中,所述展现模块123具体用于:
如果在PC上展现搜索结果,则将所述聚合推荐结果和所述推荐理由在同一个页面上进行展现;或者,
如果在移动设备上展现搜索结果,则将所述聚合推荐结果和所述推荐理由在不同的页面上进行展现,其中,展现所述推荐理由的页面是展现所述聚合推荐结果的页面的下一级页面。
具体的,如果在个人电脑(Personal Computer,PC)上展现搜索结果,则将所述聚合推荐结果和所述推荐理由在同一个页面上进行展现。
进一步的,在PC上展现时可以为纯标签(TAG)形式或者配图形式。
例如,参见图2,给出了在PC上以纯标签形式展现的搜索结果,其中,当用户搜索“北京特产”时,可以直接显示“北京烤鸭”、“六必居酱菜”这些聚合推荐结果,并且在聚合推荐结果所在页面上还显示相应的推荐理由,例如,“北京烤鸭”有27人推荐,以及网友对于“北京烤鸭”这一问题的回答。
参见图3,给出了在PC上以配图形式展现的搜索结果,其中,当用户搜索“女性为主角的电影”时,可以直接显示“疯狂原始人”、“毒战”这些聚合推荐结果,并且在聚合推荐结果所在页面上还显示相应的推荐理由,例如,“疯狂原始人”有7人推荐,以及网友对于“疯狂原始人”这一问题的回答。
进一步的,推荐理由可以采用如下方式展现:
1)默认展现第一个推荐理由,点击图标重新搜索推荐理由;
2)默认展现第一个实体的推荐理由,点击图标切换推荐理由;
3)默认不展现推荐理由,点击实体后触发该实体关联的推荐理由。
另一方面,如果在移动设备上展现搜索结果,则将所述聚合推荐结果和所述推荐理由在不同的页面上进行展现,其中,展现所述推荐理由的页面是展现所述聚合推荐结果的页面的下一级页面。
例如,参见图4,给出了在移动设备上展现的搜索结果,其中,当用户搜索孕妇能吃什么水果时,可以直接显示“苹果”、“香蕉”这些聚合推荐结果。
由于移动设备的显示限制,聚合推荐结果对应的理由通常不能与聚合推荐结果在同一页面显示,此时,可以点击包含聚合推荐结果的页面进入下一级页面,例如,参见图5,当点击母婴知识这一页面后可以进入下一级页面,在该页面上可以显示具体的推荐理由,例如,用户回答“苹果很好的,一天吃一个,生出宝宝皮肤会好很白。都可以吃的,但是不要过量吃…”。
当然,可以理解的是,在展现时除了展现上述得到的聚合推荐结果和推荐理由外,还可以展现目前已有的结果,例如,如图2所示,还可以展现“北京特产_百度百科”这一页面链接等。
进一步的,可以建立每个聚合推荐结果与其他网页的链接,以便通过选中聚合推荐结果后跳转到另一页面。例如,建立聚合推荐结果与购买网站的链接关系,这样就可以当选中某个聚合推荐结果后就可以跳转到相应网站去购买。
本实施例通过直接给出聚合推荐结果,可以减少用户查找时间,提高搜索结果的查找效率;并且,本实施例通过给出推荐理由,可以在用户查找时有所依据,提高搜索结果的可靠性。
图13是本发明另一实施例提出的搜索结果的展现装置的结构示意图,在上一实施例的基础上,本实施例中,所述获取模块122包括:分析单元,用于对所述搜索词进行分析,所述分析包括问题类型分析,所述问题类型分析用于判断所述搜索词是否属于适合为用户推荐实体的搜索词;观点聚合单元,用于在所述搜索词属于适合为用户推荐实体的搜索词时,根据所述搜索词进行观点聚合处理,得到所述搜索结果。
其中,对搜索词进行分析不仅包括基础分析,还包括针对问题需求的分析。
基础分析包括:分词、词性标注、专名识别、字词(term)重要性等。
针对问题需求的分析包括:问题类型分析和答案类型分析。
问题类型分析用于目标问答对的筛选;答案类型分析用于后续的实体观点抽取,以便根据搜索词所需要的实体类型抽取相应的实体。
问题类型分析可以包括:识别用户输入的搜索词是否属于适合为用户推荐实体的搜索词,当用户输入的搜索词属于适合为用户推荐实体的搜索词时再进行后续流程。例如,搜索词为“孕妇吃什么海产品补锌”时,由于其答案将是“三文鱼”等这些实体答案,因此,可以确定该搜索词属于适合为用户推荐实体的搜索词,对其进行后续处理。再例如,搜索词是“孕妇是否应该吃海产品”时,由于其答案将是“是”、“否”这些非实体的答案,因此,可以确定该搜索词不属于适合为用户推荐实体的搜索词,此时对其不再进行本发明实施例中的后续处理。
具体的,问题类型分析时可以根据搜索词中包含的分词来确定是否适合进行实体推荐,例如,如上所述的,当搜索词包含“什么”这类词时可以确定为适合实体推荐的,或者,当搜索词包含“是否”这类词时可以确定为不适合实体推荐的。当然,上述的问题类型分析的方式只是一种举例,可以根据实际需要设定相应的规则。
答案类型分析可以包括:识别需求类型词(Lexical Answer Type,LAT),以便根据需求类型词找到用户需要的实体类型。例如,“孕妇吃什么海产品补锌”中,需求类型词为“海产品”。
具体的,答案类型分析时可以将与“什么”相关联的词确定为需求类型词,如上述的“海产品”。当然,上述的答案类型分析的方式只是一种举例,可以根据实际需要设定相应的规则。
一个实施例中,所述分析还包括答案类型分析,所述答案类型分析用于确定所述搜索词的需求类型词,所述观点聚合单元具体用于:
从预先建立的倒排索引库中,获取与所述搜索词关联的搜索词实例,并计算每个搜索词实例与所述搜索词之间的语义相似度数值,将语义相似度数值大于设定阈值的搜索词实例确定为扩展搜索词,所述倒排索引库中存储搜索词及与搜索词关联的搜索词实例;
其中,倒排索引库可以是离线方式预先建立的,具体建立过程可以参见后续实施例。倒排索引库中存储搜索词和搜索词实例的关联关系,通过一搜索词,可以在该倒排索引库中找到关联的多个搜索词实例,具体返回的可以是每个搜索词实例的标识(queryid)。
从预先建立的Q-Q正排索引库中,获取与所述扩展搜索词关联的问题和第一特征数据,所述Q-Q正排索引库中存储搜索词及与搜索词关联的问题和第一特征数据;
其中,Q-Q正排索引库也可以是离线方式预先建立的,具体建立过程可以参见后续实施例。
Q-Q正排索引库存储搜索词和问题之间的关联关系,具体可以是queryid-questionid的关联信息。给定queryid,得到相关questionid和第一特征数据,第一特征数据包括语义相似度、用户行为等,为在线排序提供特征数据。
从预先建立的Q-A正排索引库中,获取与所述问题关联的答案和第二特征数据,所述Q-A正排索引库中存储问题及与问题关联的答案和第二特征数据;
其中,Q-A正排索引库也可以是离线方式预先建立的,具体建立过程可以参见后续实施例。
Q-A正排索引库存储问题和答案的关联关系,具体可以是questionid-answer的关联信息。给定questionid,得到关联的answer和第二特征数据,包括实体,用户观点、实体相关度、候选实体的被推荐次数、候选实体-需求类型词匹配度、候选实体上下文-query匹配度等特征。
根据所述需求类型词对所述获取的答案进行观点分析,得到在线的候选实体,以及每个在线的候选实体的相关度;
由于存在query和question差异化问题,线下计算不能完全覆盖所有情况,因此需要对差异大的query和question线上重新计算。
例如,针对“孕妇吃什么海产品补锌”这一搜索词,获取的答案可能是一段话,如“鱼类是很好的补锌食品”,但经过实体抽取后可以抽取出鱼类。类似的,根据其他答案还可以抽取出贝类、坚果、水果、三文鱼、虾皮、牛奶等实体。具体的,可以通过挖掘食物列表,从答案中抽取出鱼类、贝类、坚果、水果、三文鱼、虾皮、牛奶等实体。抽取后得到的实体可以称为候选实体。
相关度计算用于计算候选实体和用户输入的搜索词是否相关,具体可以包括:
a)根据对搜索词进行分析后得到的需求类型词,在候选实体中去除不属于需求类型词的实体。例如,需要类型词为“海产品”,则选择属于海产品的实体,即鱼类、贝类、虾皮、三文鱼,去掉“坚果、水果、牛奶”。
具体的,可以计算每个候选实体与需求类型词的语义匹配度,即“鱼、坚果、水果、虾皮、牛奶”等候选实体与“海产品”的匹配度,去除匹配度数值低于设定阈值的候选实体。
匹配度的具体计算方法如下:(1)实体关联的多个类型与需求类型词之间embedding向量的平均相似度加权。(2)需求类型词关联的多个实例与候选实体之间embedding向量的平均相似度加权,其中,需求类型词的实例可以通过XXX is a***这样的模板来挖掘。
b)根据候选实体的上下文,去除语义上与需求类型词的匹配度小于设定阈值的候选实体。例如,“虾皮”虽然与需求类型词“海产品”在类型上相匹配,但回答中说的是“虾皮补钙”,语义不匹配,因此去掉“虾皮”,保留“鱼类、贝类、三文鱼”。
具体根据上下文计算匹配度可以包括:首先,通过依存句法分析树找到和“海产品”有依存关系的term作为上下文,再根据该term计算匹配度,计算匹配度的具体计算公式如下:
语义匹配度W(i|海产品->虾皮)=term(i)的重要性打分*答案命中打分(0|1)*与虾皮的位置距离*否定关系打分(0|1)*倾向性分析(0-1),该公式表示在第i个term作为实体上下文时,海产品和虾皮的语义匹配度打分,其中倾向性分析表示虾皮前后的情感词分类打分,该打分可以根据静态统计生成。
此外,“补钙”等上下文可作为推荐理由的关键词候选,在产品展现中使用。
c)计算候选实体之间的上下位关系,例如,将“三文鱼”归为“鱼类”,最终呈现的答案为:鱼类(如三文鱼)、贝类。这种上下文关系可以通过数据挖掘实现,挖掘的来源包括百科的tag、无结构化文本等。比如百科词条“三文鱼”就有一个tag字段“鱼类”。
根据所述第一特征值、所述第二特征数据和所述每个在线的候选实体的相关度,对所述在线的候选实体进行排序,并将排序后的候选实体确定为聚合推荐结果;
其中,可以根据第一特征数据和第二特征数据,对筛选后的实体进行排序。
排序可以具体包括:首先,根据用户行为、实体相关度、语义相似度等多维特征,利用GBRank等已有的排序系统,对问答对做排序,通过阈值截断方法得到相关性高的问答对。在此基础上,以问答对中的实体为基准,对答案做排序。具体特征如下:Query-问答对的用户点击、候选实体被推荐次数、候选实体-需求类型词匹配度、候选实体上下文-query匹配度。基于以上特征,利用GBRank等已有的排序系统,对答案进行排序。
对每个聚合推荐结果对应的答案进行聚合统计,得到所述聚合推荐结果对应的推荐理由。
例如,可以包括统计每个实体对应的答案的推荐个数,根据推荐个数进行逆序排列,逆序排列后的答案可以作为推荐理由进行展现。例如,对于“疯狂机器人”这一聚合推荐结果,“壁小花小姐”的用户观点的推荐个数最多,则在网友回答中将“壁小花小姐”的观点排列在第一位。
参见图13,该装置还可以包括用于建立所述倒排索引库的第一离线处理模块124。第一离线处理模块124具体用于:
确定目标搜索词;
其中,可以逐一将历史数据中的每个属于适合为用户推荐实体的搜索词确定为目标搜索词,以便满足后续用户在线搜索不同搜索词时的需要。
根据点击日志,获取所述目标搜索词发生点击的URL;
根据所述URL进行站点挖掘;
根据所述站点挖掘的处理结果,获取所述目标搜索词对应的搜索词实例;
将所述目标搜索词和所述目标搜索词对应的搜索词实例,关联存储在所述倒排索引库中。
其中,可以通过用户点击日志等基础数据,对目标query做实例化挖掘。
一个实施例中,所述第一离线处理模块进一步具体用于:
根据所述站点挖掘确定目标站点,并将所述目标站点在点击日志中关联的搜索词集合,确定为所述目标搜索词对应的搜索词实例;和/或,
根据所述站点挖掘在每个所述URL关联的页面上进行问答对挖掘,获取问答对数据;对所述问答对数据进行预处理和分类后生成问题实例;确定所述问题实例为所述目标搜索词对应的搜索词实例。
其中,可以通过简单频次统计得到目标站点,其中目标站点表示主需求的站点,多为垂直问答类网站。
其中,可以反向挖掘目标站点在点击日志中关联的query集合,将该query集合确定为目标搜索词关联的query实例。其中,当目标站点是综合类站点,可以进一步进行问题分类。
其中,站点挖掘的同时,可以通过站点去挖掘网页中的问答对资源,获取问答对数据。
其中,预处理可以是指问题去噪,分类后生成问题实例,补充到query实例中。
一个实施例中,该装置还可以包括用于建立所述Q-Q正排索引库的第二离线处理模块125,所述第二离线处理模块125具体用于:
采用URL归一化的方式,对所述问答对数据进行问题聚类,得到聚类后的问题;
对于同一个网页,存在多种链接方式,导致url的多样性,这就需要做url归一化,问题聚类的目的便是如此。通过对问题和答案的聚合(这里没用hash去重,是因为页面更新或是title截断都会出现问题和答案的细微变化,导致url归一不到一起),将url归一到唯一的地址,既可以减少死链,又可以扩大有效页面的召回。url归一化的主站点是一致的,以主站为key切分,可以提升效率,使用已有的k-means系统即可满足需求。
对搜索词实例进行实例聚类,得到聚类后的搜索词;
Query实例聚类是将挖掘的实例化query做聚合,用于弥补搜索引擎点击过于集中造成的召回不足问题(绝大多数的点击行为都发生在前3页)。以根据term重要性排序,已不可省term为key切分数据,可使用已有的k-means系统。
根据所述聚类后的搜索词和所述聚类后的问题确定所述第一特征数据,并将所述聚类后的搜索词和所述聚类后的问题及所述第一特征数据关联存储在Q-Q正排索引库中。
一个实施例中,所述观点聚合单元进一步具体用于:
对获取的答案进行实体抽取,获取候选实体;
对所述候选实体进行相关度计算,得到所述候选实体的相关度。
一个实施例中,所述观点聚合单元进一步具体用于:
计算所述候选实体与需求类型词的语义相关度,以去除不属于需求类型词的候选实体;
计算所述候选实体的上下文与搜索词的语义相关度,以去除上下文与搜索词不匹配的候选实体。
本实施例的装置可以具体为执行上述方法的装置,因此,相应流程可以参见上述方法的描述,在此不再赘述。
本实施例通过直接给出实体答案,可以减少用户的阅读成本,一目了然;通过提供推荐理由,可以有统计数据和证据,可靠性高,容易让人信服,可辅助用户决策;通过对搜索词、问题、答案的多重聚类处理,一方面可以扩大搜索词的影响面,另一方面补充丰富答案数据,降低长尾搜索带来的数据稀疏影响,在扩大影响面的同时,根据用户行为、语义相似度等特征有效控制转义风险。
本发明实施例还提供了一种客户端设备,该客户端设备包括壳体、处理器、存储器、电路板和电源电路,其中,电路板安置在壳体围成的空间内部,处理器和存储器设置在电路板上;电源电路,用于为客户端设备的各个电路或器件供电;存储器用于存储可执行程序代码;处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码关联的程序,以用于执行以下步骤:
S11’:接收用户输入的搜索词。
其中,本发明实施例中处理的搜索词可以具体为答案是实体类型的搜索词,例如,搜索词是“孕妇能吃什么水果”或者“孕妇吃什么海产品补锌”等这类问题。
这类问题的答案通常是实体类型,实体(entity)是客观世界中存在的且可互相区分的事物,实体可以是人也可以是物体实物,或者,也可以是抽象概念。例如,“苹果”、“梨”、“虾”等这些都属于实体。
S12’:根据所述搜索词,获取搜索结果,所述搜索结果包括聚合推荐结果以及与所述聚合推荐结果对应的推荐理由。
相关技术中,搜索引擎得到的搜索结果通常是网页的链接,例如,向用户展现“孕妇能吃什么水果_百度知道”这一链接结果,用户需要点击该链接后进入相应的百度知道的页面,进而在该百度知道的页面上查找结果。
而本发明实施例中获取的搜索结果包括的是具体的聚合推荐结果,例如相关技术中在上述的百度知道的页面上展现的是“苹果”、“梨”这些结果,而本实施例直接获取“苹果”、“梨”这些聚合推荐结果,而不再需要用户进入页面后才看到。
另外,本发明实施例中不仅给出聚合推荐结果,还会给出这些聚合推荐结果的理由,例如,“苹果”有多少人推荐,“梨”有多少人推荐等。或者,推荐理由也可以是网友的回答,例如“苹果富含VC,对宝宝好”等。或者,推荐理由也可以是从网友回答的问题中提取的关键字,例如对应“苹果”的推荐理由是“富含VC”。
S13’:向所述用户展现所述搜索结果。
其中,根据用户所使用的设备的不同,具体的展现形式也可以不同。
具体的,如果在个人电脑(Personal Computer,PC)上展现搜索结果,则将所述聚合推荐结果和所述推荐理由在同一个页面上进行展现。
进一步的,在PC上展现时可以为纯标签(TAG)形式或者配图形式。
例如,参见图2,给出了在PC上以纯标签形式展现的搜索结果,其中,当用户搜索“北京特产”时,可以直接显示“北京烤鸭”、“六必居酱菜”这些聚合推荐结果,并且在聚合推荐结果所在页面上还显示相应的推荐理由,例如,“北京烤鸭”有27人推荐,以及网友对于“北京烤鸭”这一问题的回答。
参见图3,给出了在PC上以配图形式展现的搜索结果,其中,当用户搜索“女性为主角的电影”时,可以直接显示“疯狂原始人”、“毒战”这些聚合推荐结果,并且在聚合推荐结果所在页面上还显示相应的推荐理由,例如,“疯狂原始人”有7人推荐,以及网友对于“疯狂原始人”这一问题的回答。
进一步的,推荐理由可以采用如下方式展现:
1)默认展现第一个推荐理由,点击图标重新搜索推荐理由;
2)默认展现第一个实体的推荐理由,点击图标切换推荐理由;
3)默认不展现推荐理由,点击实体后触发该实体关联的推荐理由。
另一方面,如果在移动设备上展现搜索结果,则将所述聚合推荐结果和所述推荐理由在不同的页面上进行展现,其中,展现所述推荐理由的页面是展现所述聚合推荐结果的页面的下一级页面。
例如,参见图4,给出了在移动设备上展现的搜索结果,其中,当用户搜索孕妇能吃什么水果时,可以直接显示“苹果”、“香蕉”这些聚合推荐结果。
由于移动设备的显示限制,聚合推荐结果对应的理由通常不能与聚合推荐结果在同一页面显示,此时,可以点击包含聚合推荐结果的页面进入下一级页面,例如,参见图5,当点击母婴知识这一页面后可以进入下一级页面,在该页面上可以显示具体的推荐理由,例如,用户回答“苹果很好的,一天吃一个,生出宝宝皮肤会好很白。都可以吃的,但是不要过量吃…”。
当然,可以理解的是,在展现时除了展现上述得到的聚合推荐结果和推荐理由外,还可以展现目前已有的结果,例如,如图2所示,还可以展现“北京特产_百度百科”这一页面链接等。
进一步的,可以建立每个聚合推荐结果与其他网页的链接,以便通过选中聚合推荐结果后跳转到另一页面。例如,建立聚合推荐结果与购买网站的链接关系,这样就可以当选中某个聚合推荐结果后就可以跳转到相应网站去购买。
本实施例通过直接给出聚合推荐结果,可以减少用户查找时间,提高搜索结果的查找效率;并且,本实施例通过给出推荐理由,可以在用户查找时有所依据,提高搜索结果的可靠性。
另一实施例中,处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码关联的程序,以用于执行以下步骤:
S61’:接收用户输入的搜索词(query)。
S62’:对搜索词进行分析。
其中,对搜索词进行分析不仅包括基础分析,还包括针对问题需求的分析。
基础分析包括:分词、词性标注、专名识别、字词(term)重要性等。
针对问题需求的分析包括:问题类型分析和答案类型分析。
问题类型分析用于目标问答对的筛选;答案类型分析用于后续的实体观点抽取,以便根据搜索词所需要的实体类型抽取相应的实体。
问题类型分析可以包括:识别用户输入的搜索词是否属于适合为用户推荐实体的搜索词,当用户输入的搜索词属于适合为用户推荐实体的搜索词时再进行后续流程。例如,搜索词为“孕妇吃什么海产品补锌”时,由于其答案将是“三文鱼”等这些实体答案,因此,可以确定该搜索词属于适合为用户推荐实体的搜索词,对其进行后续处理。再例如,搜索词是“孕妇是否应该吃海产品”时,由于其答案将是“是”、“否”这些非实体的答案,因此,可以确定该搜索词不属于适合为用户推荐实体的搜索词,此时对其不再进行本发明实施例中的后续处理。
具体的,问题类型分析时可以根据搜索词中包含的分词来确定是否适合进行实体推荐,例如,如上所述的,当搜索词包含“什么”这类词时可以确定为适合实体推荐的,或者,当搜索词包含“是否”这类词时可以确定为不适合实体推荐的。当然,上述的问题类型分析的方式只是一种举例,可以根据实际需要设定相应的规则。
答案类型分析可以包括:识别需求类型词(Lexical Answer Type,LAT),以便根据需求类型词找到用户需要的实体类型。例如,“孕妇吃什么海产品补锌”中,需求类型词为“海产品”。
具体的,答案类型分析时可以将与“什么”相关联的词确定为需求类型词,如上述的“海产品”。当然,上述的答案类型分析的方式只是一种举例,可以根据实际需要设定相应的规则。
S63’:通过观点聚合系统在用户输入的搜索词属于适合为用户推荐实体的搜索词时,根据所述搜索词进行观点聚合处理,得到搜索结果,搜索结果包括聚合推荐结果和对应的推荐理由。
其中,该步骤可以将历史数据中与该搜索词相关的网友回答进行聚合,以得到聚合推荐结果和推荐理由,具体处理过程可以参见后续描述。
S64’:将观点聚合系统得到的搜索结果输出给显示装置,由显示装置向用户展现搜索结果。
具体展现方式可以参见S13’,本实施例不再赘述。下面具体描述观点聚合处理的流程。
观点聚合处理的流程可以包括:
S71’:根据用户输入的搜索词,从倒排(BS)索引库中,获取与该搜索词关联的搜索词实例,并计算每个搜索词实例与搜索词之间的语义相似度数值,将语义相似度数值大于设定阈值的搜索词实例确定为扩展搜索词。
其中,倒排索引库可以是离线方式预先建立的,具体建立过程可以参见后续实施例。倒排索引库中存储搜索词和搜索词实例的关联关系,通过一搜索词,可以在该倒排索引库中找到关联的多个搜索词实例,具体返回的可以是每个搜索词实例的标识(queryid)。
S72’:从Q-Q正排索引库中,获取与该扩展搜索词关联的问题和第一特征数据。
其中,Q-Q正排索引库也可以是离线方式预先建立的,具体建立过程可以参见后续实施例。
Q-Q正排索引库存储搜索词和问题之间的关联关系,具体可以是queryid-questionid的关联信息。给定queryid,得到相关questionid和第一特征数据,第一特征数据包括语义相似度、用户行为等,为在线排序提供特征数据。
S73’:从Q-A正排索引库中,获取与该问题关联的答案和第二特征数据。
其中,Q-A正排索引库也可以是离线方式预先建立的,具体建立过程可以参见后续实施例。
Q-A正排索引库存储问题和答案的关联关系,具体可以是questionid-answer的关联信息。给定questionid,得到关联的answer和第二特征数据,包括实体,用户观点、实体相关度、候选实体的被推荐次数、候选实体-需求类型词匹配度、候选实体上下文-query匹配度等特征。
S74’:进行在线实体抽取和相关度计算,得到筛选后的实体。
由于存在query和question差异化问题,线下计算不能完全覆盖所有情况,因此需要对差异大的query和question线上重新计算。
例如,针对“孕妇吃什么海产品补锌”这一搜索词,获取的答案可能是一段话,如“鱼类是很好的补锌食品”,但经过实体抽取后可以抽取出鱼类。类似的,根据其他答案还可以抽取出贝类、坚果、水果、三文鱼、虾皮、牛奶等实体。具体的,可以通过挖掘食物列表,从答案中抽取出鱼类、贝类、坚果、水果、三文鱼、虾皮、牛奶等实体。抽取后得到的实体可以称为候选实体。
相关度计算用于计算候选实体和用户输入的搜索词是否相关,具体可以包括:
a)根据对搜索词进行分析后得到的需求类型词,在候选实体中去除不属于需求类型词的实体。例如,需要类型词为“海产品”,则选择属于海产品的实体,即鱼类、贝类、虾皮、三文鱼,去掉“坚果、水果、牛奶”。
具体的,可以计算每个候选实体与需求类型词的语义匹配度,即“鱼、坚果、水果、虾皮、牛奶”等候选实体与“海产品”的匹配度,去除匹配度数值低于设定阈值的候选实体。
匹配度的具体计算方法如下:(1)实体关联的多个类型与需求类型词之间embedding向量的平均相似度加权。(2)需求类型词关联的多个实例与候选实体之间embedding向量的平均相似度加权,其中,需求类型词的实例可以通过XXX is a***这样的模板来挖掘。
b)根据候选实体的上下文,去除语义上与需求类型词的匹配度小于设定阈值的候选实体。例如,“虾皮”虽然与需求类型词“海产品”在类型上相匹配,但回答中说的是“虾皮补钙”,语义不匹配,因此去掉“虾皮”,保留“鱼类、贝类、三文鱼”。
具体根据上下文计算匹配度可以包括:首先,通过依存句法分析树找到和“海产品”有依存关系的term作为上下文,再根据该term计算匹配度,计算匹配度的具体计算公式如下:
语义匹配度W(i|海产品->虾皮)=term(i)的重要性打分*答案命中打分(0|1)*与虾皮的位置距离*否定关系打分(0|1)*倾向性分析(0-1),该公式表示在第i个term作为实体上下文时,海产品和虾皮的语义匹配度打分,其中倾向性分析表示虾皮前后的情感词分类打分,该打分可以根据静态统计生成。
此外,“补钙”等上下文可作为推荐理由的关键词候选,在产品展现中使用。
c)计算候选实体之间的上下位关系,例如,将“三文鱼”归为“鱼类”,最终呈现的答案为:鱼类(如三文鱼)、贝类。这种上下文关系可以通过数据挖掘实现,挖掘的来源包括百科的tag、无结构化文本等。比如百科词条“三文鱼”就有一个tag字段“鱼类”。
S75’:对筛选后的实体进行排序。
其中,可以根据第一特征数据和第二特征数据,对筛选后的实体进行排序。
排序可以具体包括:首先,根据用户行为、实体相关度、语义相似度等多维特征,利用GBRank等已有的排序系统,对问答对做排序,通过阈值截断方法得到相关性高的问答对。在此基础上,以问答对中的实体为基准,对答案做排序。具体特征如下:Query-问答对的用户点击、候选实体被推荐次数、候选实体-需求类型词匹配度、候选实体上下文-query匹配度。基于以上特征,利用GBRank等已有的排序系统,对答案进行排序。
S76’:对排序后的实体进行聚合统计。
例如,可以包括统计每个实体对应的答案的推荐个数,根据推荐个数进行逆序排列,逆序排列后的答案可以作为推荐理由进行展现。例如,对于“疯狂机器人”这一聚合推荐结果,“壁小花小姐”的用户观点的推荐个数最多,则在网友回答中将“壁小花小姐”的观点排列在第一位。
上述实施例中采用的倒排索引库、Q-Q正排索引库和Q-A正排索引库可以是采用离线流程建立的。
离线流程的处理示意图可以包括:
S81’:确定目标搜索词。
其中,可以逐一将历史数据中的每个属于适合为用户推荐实体的搜索词确定为目标搜索词,以便满足后续用户在线搜索不同搜索词时的需要。
S82’:对该目标搜索词进行实例化,得到该目标搜索词关联的搜索词实例,并将该目标搜索词和该搜索词实例对应存储在倒排索引库中。
其中,可以通过用户点击日志等基础数据,对目标query做实例化挖掘,具体流程可以包括:
S91’:从点击日志获取目标query发生点击的统一资源定符(UniformResoureLocator,URL)。
S92’:根据该点击URL进行站点挖掘。
S93’:根据站点挖掘获取目标站点。
其中,可以通过简单频次统计得到目标站点,其中目标站点表示主需求的站点,多为垂直问答类网站。
S94’:根据目标站点获取该目标搜索词关联的搜索词实例。
其中,可以反向挖掘目标站点在点击日志中关联的query集合,将该query集合确定为目标搜索词关联的query实例。其中,当目标站点是综合类站点,可以进一步进行问题分类。
S95’:在站点挖掘时,进行问答对挖掘,获取问答对数据。
其中,站点挖掘的同时,可以通过站点去挖掘网页中的问答对资源,获取问答对数据。
S96’:对问答对数据进行预处理和问题分类处理,得到问题实例,将该问题实例也作为目标搜索词关联的搜索词实例。
其中,预处理可以是指问题去噪,分类后生成问题实例,补充到query实例中。
S83’:对搜索词实例和问答对数据进行聚类处理,得到聚类后的搜索词和聚类后的问题,并将聚类后的搜索词和聚类后的问题关联存储在Q-Q正排索引库中。
其中,聚类处理可以包括问题聚类101’和搜索词实例聚类102’。
对于同一个网页,存在多种链接方式,导致url的多样性,这就需要做url归一化,问题聚类的目的便是如此。通过对问题和答案的聚合(这里没用hash去重,是因为页面更新或是title截断都会出现问题和答案的细微变化,导致url归一不到一起),将url归一到唯一的地址,既可以减少死链,又可以扩大有效页面的召回。url归一化的主站点是一致的,以主站为key切分,可以提升效率,使用已有的k-means系统即可满足需求。
Query实例聚类是将挖掘的实例化query做聚合,用于弥补搜索引擎点击过于集中造成的召回不足问题(绝大多数的点击行为都发生在前3页)。以根据term重要性排序,已不可省term为key切分数据,可使用已有的k-means系统。
S84’:根据问答对数据,获取Q-A原始数据,并对Q-A原始数据进行观点分析,得到更新后的Q-A数据,并将更新后的Q-A数据关联存储在Q-A正排库中。
观点分析主要包括实体抽取111’和相关度计算112’。
观点分析依据问题表述,从回答中抽取答案实体并计算实体与query的相关度。如,问题(孕妇吃什么海产品补锌?)-回答(鱼类、贝类、坚果、水果等补锌,鱼类中三文鱼尤其好;虾皮、牛奶能补钙)。
其中,离线的观点分析与在线的观点分析的原理一致,可以包括:
(1)实体抽取:从问答对的回答出抽取实体,例如,可以通过挖掘食物列表,从回答中抽取出鱼类、贝类、坚果、水果、三文鱼、虾皮、牛奶等实体。
(2)实体相关度计算。相关度计算用于计算候选实体和用户输入的搜索词是否相关,具体可以包括:
a)根据对搜索词进行分析后得到的需求类型词,在候选实体中去除不属于需求类型词的实体。例如,需要类型词为“海产品”,则选择属于海产品的实体,即鱼类、贝类、虾皮、三文鱼,去掉“坚果、水果、牛奶”。
具体的,可以计算每个候选实体与需求类型词的语义匹配度,即“鱼、坚果、水果、虾皮、牛奶”等候选实体与“海产品”的匹配度,去除匹配度数值低于设定阈值的候选实体。
匹配度的具体计算方法如下:(1)实体关联的多个类型与需求类型词之间embedding向量的平均相似度加权。(2)需求类型词关联的多个实例与候选实体之间embedding向量的平均相似度加权,其中,需求类型词的实例可以通过XXX is a***这样的模板来挖掘。
b)根据候选实体的上下文,去除语义上与需求类型词的匹配度小于设定阈值的候选实体。例如,“虾皮”虽然与需求类型词“海产品”在类型上相匹配,但回答中说的是“虾皮补钙”,语义不匹配,因此去掉“虾皮”,保留“鱼类、贝类、三文鱼”。
具体根据上下文计算匹配度可以包括:首先,通过依存句法分析树找到和“海产品”有依存关系的term作为上下文,再根据该term计算匹配度,计算匹配度的具体计算公式如下:
语义匹配度W(i|海产品->虾皮)=term(i)的重要性打分*答案命中打分(0|1)*与虾皮的位置距离*否定关系打分(0|1)*倾向性分析(0-1),该公式表示在第i个term作为实体上下文时,海产品和虾皮的语义匹配度打分,其中倾向性分析表示虾皮前后的情感词分类打分,该打分可以根据静态统计生成。
此外,“补钙”等上下文可作为推荐理由的关键词候选,在产品展现中使用。
c)计算候选实体之间的上下位关系,例如,将“三文鱼”归为“鱼类”,最终呈现的答案为:鱼类(如三文鱼)、贝类。这种上下文关系可以通过数据挖掘实现,挖掘的来源包括百科的tag、无结构化文本等。比如百科词条“三文鱼”就有一个tag字段“鱼类”。
本实施例通过直接给出实体答案,可以减少用户的阅读成本,一目了然;通过提供推荐理由,可以有统计数据和证据,可靠性高,容易让人信服,可辅助用户决策;通过对搜索词、问题、答案的多重聚类处理,一方面可以扩大搜索词的影响面,另一方面补充丰富答案数据,降低长尾搜索带来的数据稀疏影响,在扩大影响面的同时,根据用户行为、语义相似度等特征有效控制转义风险。
需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (20)

1.一种搜索结果的展现方法,其特征在于,包括:
接收用户输入的搜索词;所述搜索词为答案是实体类型的搜索词;
根据所述搜索词,获取搜索结果,所述搜索结果包括聚合推荐结果以及与所述聚合推荐结果关联的推荐理由;
向所述用户展现所述搜索结果;
其中,所述推荐理由包括如下项中的至少一项:
每个聚合推荐结果对应的作为答案的用户观点;
对每个聚合推荐结果对应的作为答案的用户观点进行关键字提取,将提取的关键字确定为所述聚合推荐结果关联的推荐理由。
2.根据权利要求1所述的方法,其特征在于,所述根据所述搜索词,获取搜索结果,包括:
对所述搜索词进行分析,所述分析包括问题类型分析,所述问题类型分析用于判断所述搜索词是否属于适合为用户推荐实体的搜索词;
在所述搜索词属于适合为用户推荐实体的搜索词时,根据所述搜索词进行观点聚合处理,得到所述搜索结果。
3.根据权利要求2所述的方法,其特征在于,所述分析还包括答案类型分析,所述答案类型分析用于确定所述搜索词的需求类型词,所述根据所述搜索词进行观点聚合处理,包括:
从预先建立的倒排索引库中,获取与所述搜索词关联的搜索词实例,并计算每个搜索词实例与所述搜索词之间的语义相似度数值,将语义相似度数值大于设定阈值的搜索词实例确定为扩展搜索词,所述倒排索引库中存储搜索词及与搜索词关联的搜索词实例;
从预先建立的Q-Q正排索引库中,获取与所述扩展搜索词关联的问题和第一特征数据,所述Q-Q正排索引库中存储搜索词及与搜索词关联的问题和第一特征数据;
从预先建立的Q-A正排索引库中,获取与所述问题关联的答案和第二特征数据,所述Q-A正排索引库中存储问题及与问题关联的答案和第二特征数据;
根据所述需求类型词对所述获取的答案进行观点分析,得到在线的候选实体,以及每个在线的候选实体的相关度;
根据所述第一特征数据、所述第二特征数据和所述每个在线的候选实体的相关度,对所述在线的候选实体进行排序,并将排序后的候选实体确定为聚合推荐结果;
对每个聚合推荐结果对应的答案进行聚合统计,得到所述聚合推荐结果关联的推荐理由。
4.根据权利要求3所述的方法,其特征在于,还包括:建立所述倒排索引库,所述建立所述倒排索引库,包括:
确定目标搜索词;
根据点击日志,获取所述目标搜索词发生点击的URL;
根据所述URL进行站点挖掘;
根据所述站点挖掘的处理结果,获取所述目标搜索词对应的搜索词实例;
将所述目标搜索词和所述目标搜索词对应的搜索词实例,关联存储在所述倒排索引库中。
5.根据权利要求4所述的方法,其特征在于,所述根据所述站点挖掘的处理结果,获取所述目标搜索词对应的搜索词实例,包括:
根据所述站点挖掘确定目标站点,并将所述目标站点在点击日志中关联的搜索词集合,确定为所述目标搜索词对应的搜索词实例;和/或,
根据所述站点挖掘在每个所述URL关联的页面上进行问答对挖掘,获取问答对数据;对所述问答对数据进行预处理和分类后生成问题实例;确定所述问题实例为所述目标搜索词对应的搜索词实例。
6.根据权利要求5所述的方法,其特征在于,还包括:建立所述Q-Q正排索引库,所述建立所述Q-Q正排索引库,包括:
采用URL归一化的方式,对所述问答对数据进行问题聚类,得到聚类后的问题;
对搜索词实例进行实例聚类,得到聚类后的搜索词;
根据所述聚类后的搜索词和所述聚类后的问题确定所述第一特征数据,并将所述聚类后的搜索词和所述聚类后的问题及所述第一特征数据关联存储在Q-Q正排索引库中。
7.根据权利要求3所述的方法,其特征在于,所述观点分析,包括:
对获取的答案进行实体抽取,获取候选实体;
对所述候选实体进行相关度计算,得到所述候选实体的相关度。
8.根据权利要求7所述的方法,其特征在于,所述对所述候选实体进行相关度计算,包括:
计算所述候选实体与需求类型词的语义相关度,以去除不属于需求类型词的候选实体;
计算所述候选实体的上下文与搜索词的语义相关度,以去除上下文与搜索词不匹配的候选实体。
9.根据权利要求1至8任一项所述的方法,其特征在于,所述向用户展现搜索结果,包括:
如果在PC上展现搜索结果,则将所述聚合推荐结果和所述推荐理由在同一个页面上进行展现;或者,
如果在移动设备上展现搜索结果,则将所述聚合推荐结果和所述推荐理由在不同的页面上进行展现,其中,展现所述推荐理由的页面是展现所述聚合推荐结果的页面的下一级页面。
10.根据权利要求3所述的方法,其特征在于,所述推荐理由还包括:
对每个聚合推荐结果对应的答案进行用户推荐统计后,得到的推荐个数。
11.一种搜索结果的展现装置,其特征在于,包括:
接收模块,用于接收用户输入的搜索词;所述搜索词为答案是实体类型的搜索词;
获取模块,用于根据所述搜索词,获取搜索结果,所述搜索结果包括聚合推荐结果以及与所述聚合推荐结果关联的推荐理由;
展现模块,用于向所述用户展现所述搜索结果;
其中,所述推荐理由包括如下项中的至少一项:
每个聚合推荐结果对应的作为答案的用户观点;
对每个聚合推荐结果对应的作为答案的用户观点进行关键字提取,将提取的关键字确定为所述聚合推荐结果关联的推荐理由。
12.根据权利要求11所述的装置,其特征在于,所述获取模块包括:
分析单元,用于对所述搜索词进行分析,所述分析包括问题类型分析,所述问题类型分析用于判断所述搜索词是否属于适合为用户推荐实体的搜索词;
观点聚合单元,用于在所述搜索词属于适合为用户推荐实体的搜索词时,根据所述搜索词进行观点聚合处理,得到所述搜索结果。
13.根据权利要求12所述的装置,其特征在于,所述分析还包括答案类型分析,所述答案类型分析用于确定所述搜索词的需求类型词,所述观点聚合单元具体用于:
从预先建立的倒排索引库中,获取与所述搜索词关联的搜索词实例,并计算每个搜索词实例与所述搜索词之间的语义相似度数值,将语义相似度数值大于设定阈值的搜索词实例确定为扩展搜索词,所述倒排索引库中存储搜索词及与搜索词关联的搜索词实例;
从预先建立的Q-Q正排索引库中,获取与所述扩展搜索词关联的问题和第一特征数据,所述Q-Q正排索引库中存储搜索词及与搜索词关联的问题和第一特征数据;
从预先建立的Q-A正排索引库中,获取与所述问题关联的答案和第二特征数据,所述Q-A正排索引库中存储问题及与问题关联的答案和第二特征数据;
根据所述需求类型词对所述获取的答案进行观点分析,得到在线的候选实体,以及每个在线的候选实体的相关度;
根据所述第一特征数据、所述第二特征数据和所述每个在线的候选实体的相关度,对所述在线的候选实体进行排序,并将排序后的候选实体确定为聚合推荐结果;
对每个聚合推荐结果对应的答案进行聚合统计,得到所述聚合推荐结果关联的推荐理由。
14.根据权利要求13所述的装置,其特征在于,还包括:用于建立所述倒排索引库的第一离线处理模块,所述第一离线处理模块具体用于:
确定目标搜索词;
根据点击日志,获取所述目标搜索词发生点击的URL;
根据所述URL进行站点挖掘;
根据所述站点挖掘的处理结果,获取所述目标搜索词对应的搜索词实例;
将所述目标搜索词和所述目标搜索词对应的搜索词实例,关联存储在所述倒排索引库中。
15.根据权利要求14所述的装置,其特征在于,所述第一离线处理模块进一步具体用于:
根据所述站点挖掘确定目标站点,并将所述目标站点在点击日志中关联的搜索词集合,确定为所述目标搜索词对应的搜索词实例;和/或,
根据所述站点挖掘在每个所述URL关联的页面上进行问答对挖掘,获取问答对数据;对所述问答对数据进行预处理和分类后生成问题实例;确定所述问题实例为所述目标搜索词对应的搜索词实例。
16.根据权利要求15所述的装置,其特征在于,还包括:用于建立所述Q-Q正排索引库的第二离线处理模块,所述第二离线处理模块具体用于:
采用URL归一化的方式,对所述问答对数据进行问题聚类,得到聚类后的问题;
对搜索词实例进行实例聚类,得到聚类后的搜索词;
根据所述聚类后的搜索词和所述聚类后的问题确定所述第一特征数据,并将所述聚类后的搜索词和所述聚类后的问题及所述第一特征数据关联存储在Q-Q正排索引库中。
17.根据权利要求13所述的装置,其特征在于,所述观点聚合单元进一步具体用于:
对获取的答案进行实体抽取,获取候选实体;
对所述候选实体进行相关度计算,得到所述候选实体的相关度。
18.根据权利要求17所述的装置,其特征在于,所述观点聚合单元进一步具体用于:
计算所述候选实体与需求类型词的语义相关度,以去除不属于需求类型词的候选实体;
计算所述候选实体的上下文与搜索词的语义相关度,以去除上下文与搜索词不匹配的候选实体。
19.根据权利要求11至18任一项所述的装置,其特征在于,所述展现模块具体用于:
如果在PC上展现搜索结果,则将所述聚合推荐结果和所述推荐理由在同一个页面上进行展现;或者,
如果在移动设备上展现搜索结果,则将所述聚合推荐结果和所述推荐理由在不同的页面上进行展现,其中,展现所述推荐理由的页面是展现所述聚合推荐结果的页面的下一级页面。
20.根据权利要求13所述的装置,其特征在于,所述观点聚合单元得到的所述推荐理由还包括:
对每个聚合推荐结果对应的答案进行用户推荐统计后,得到的推荐个数。
CN201410134350.7A 2014-04-03 2014-04-03 搜索结果的展现方法和装置 Active CN103914543B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410134350.7A CN103914543B (zh) 2014-04-03 2014-04-03 搜索结果的展现方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410134350.7A CN103914543B (zh) 2014-04-03 2014-04-03 搜索结果的展现方法和装置

Publications (2)

Publication Number Publication Date
CN103914543A CN103914543A (zh) 2014-07-09
CN103914543B true CN103914543B (zh) 2017-12-26

Family

ID=51040223

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410134350.7A Active CN103914543B (zh) 2014-04-03 2014-04-03 搜索结果的展现方法和装置

Country Status (1)

Country Link
CN (1) CN103914543B (zh)

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104102721A (zh) * 2014-07-18 2014-10-15 百度在线网络技术(北京)有限公司 信息推荐方法和装置
CN104462327B (zh) * 2014-12-02 2018-09-11 百度在线网络技术(北京)有限公司 语句相似度的计算、搜索处理方法及装置
CN104462323B (zh) * 2014-12-02 2018-02-27 百度在线网络技术(北京)有限公司 语义相似度计算方法、搜索结果处理方法和装置
CN105786936A (zh) * 2014-12-23 2016-07-20 阿里巴巴集团控股有限公司 用于对搜索数据进行处理的方法及设备
CN105808614A (zh) * 2014-12-31 2016-07-27 阿里巴巴集团控股有限公司 建立特产知识库和提供特产信息的方法及服务器
CN104573028B (zh) * 2015-01-14 2019-01-25 百度在线网络技术(北京)有限公司 实现智能问答的方法和系统
CN106156000B (zh) * 2015-04-28 2020-03-17 腾讯科技(深圳)有限公司 基于求交算法的搜索方法及搜索系统
CN104881446A (zh) * 2015-05-14 2015-09-02 百度在线网络技术(北京)有限公司 搜索方法及装置
CN105095474B (zh) * 2015-08-11 2018-12-14 北京奇虎科技有限公司 建立搜索词与应用数据推荐关系的方法及装置
CN106919577A (zh) * 2015-12-24 2017-07-04 北京奇虎科技有限公司 基于搜索词进行搜索推荐的方法、装置和搜索引擎
CN105528456B (zh) * 2015-12-25 2019-04-26 北京奇虎科技有限公司 基于用户类型的搜索界面展示方法及装置
US11593855B2 (en) 2015-12-30 2023-02-28 Ebay Inc. System and method for computing features that apply to infrequent queries
CN105468791B (zh) * 2016-01-05 2019-11-15 北京信息科技大学 一种基于互动问答社区-百度知道的地理位置实体的完整性表达方法
US10636075B2 (en) * 2016-03-09 2020-04-28 Ebay Inc. Methods and apparatus for querying a database for tail queries
CN105843850B (zh) * 2016-03-15 2020-07-24 北京百度网讯科技有限公司 搜索优化方法和装置
CN105956181A (zh) * 2016-05-31 2016-09-21 北京百度网讯科技有限公司 搜索方法及装置
CN107765883A (zh) * 2016-08-22 2018-03-06 富士通株式会社 输入法的候选词语的排序方法和排序设备
CN106777207A (zh) * 2016-12-23 2017-05-31 北京奇虎科技有限公司 在搜索结果页中聚合餐饮类资讯信息的方法及装置
CN106780214A (zh) * 2016-12-23 2017-05-31 北京奇虎科技有限公司 基于搜索的院校类数据的推荐方法及装置
CN106649761A (zh) * 2016-12-27 2017-05-10 北京百度网讯科技有限公司 基于深度问答的搜索结果展现方法和装置
CN108932247A (zh) * 2017-05-24 2018-12-04 苏宁云商集团股份有限公司 一种优化文本搜索的方法及装置
CN110019644B (zh) * 2017-09-06 2022-10-14 腾讯科技(深圳)有限公司 对话实现中的搜索方法、装置和计算机可读存储介质
CN107797984B (zh) * 2017-09-11 2021-05-14 远光软件股份有限公司 智能交互方法、设备及存储介质
CN108776901B (zh) * 2018-04-27 2021-01-15 微梦创科网络科技(中国)有限公司 基于搜索词的广告推荐方法及系统
CN110555208B (zh) * 2018-06-04 2021-11-19 北京三快在线科技有限公司 一种信息查询中的歧义消除方法、装置及电子设备
CN110580313B (zh) * 2018-06-08 2024-02-02 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置
CN110659406B (zh) * 2018-06-13 2023-10-31 钉钉控股(开曼)有限公司 搜索方法及装置
CN108959529A (zh) * 2018-06-29 2018-12-07 北京百度网讯科技有限公司 问题答案类型的确定方法、装置、设备及存储介质
CN110737774B (zh) * 2018-07-03 2024-05-24 百度在线网络技术(北京)有限公司 图书知识图谱的构建、图书推荐方法、装置、设备及介质
CN111367956B (zh) * 2018-12-25 2023-09-26 杭州海康威视数字技术股份有限公司 数据统计方法及装置
CN110222192A (zh) * 2019-05-20 2019-09-10 国网电子商务有限公司 语料库建立方法及装置
CN110263135B (zh) * 2019-05-20 2022-12-16 北京字节跳动网络技术有限公司 一种数据交换匹配方法、装置、介质和电子设备
CN110399466A (zh) * 2019-08-01 2019-11-01 北京百度网讯科技有限公司 问答数据的筛选方法、装置、设备以及存储介质
CN110659351B (zh) * 2019-09-27 2021-01-29 北京百度网讯科技有限公司 用于挖掘实体上下位关系的方法和装置
CN110766456A (zh) * 2019-10-16 2020-02-07 无线生活(杭州)信息科技有限公司 商品推荐方法及装置
CN111382339B (zh) * 2020-03-10 2024-04-02 北京搜狗科技发展有限公司 一种搜索处理方法、装置和用于搜索处理的装置
CN112308650B (zh) * 2020-07-01 2022-09-30 北京沃东天骏信息技术有限公司 推荐理由生成方法、装置、设备及存储介质
CN112084268B (zh) * 2020-09-04 2022-05-20 北京字节跳动网络技术有限公司 一种搜索结果展示的方法、装置及计算机存储介质
CN112084405A (zh) * 2020-09-04 2020-12-15 北京字节跳动网络技术有限公司 一种搜索方法、装置及计算机存储介质
CN113221572B (zh) * 2021-05-31 2024-05-07 抖音视界有限公司 一种信息处理方法、装置、设备及介质
US20240086484A1 (en) * 2021-06-22 2024-03-14 Beijing Bytedance Network Technology Co., Ltd. Content search method, apparatus and device, and medium
CN113254671B (zh) * 2021-06-22 2021-09-28 平安科技(深圳)有限公司 基于query分析的图谱优化方法、装置、设备及介质
CN114372215B (zh) * 2022-01-12 2023-07-14 抖音视界有限公司 一种搜索结果展示、搜索请求处理方法及装置
CN114978674B (zh) * 2022-05-18 2023-12-05 中国电信股份有限公司 一种爬虫识别增强的方法及装置、存储介质及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1928864A (zh) * 2006-09-22 2007-03-14 浙江大学 一种基于问答库的中文自然语言问答方法
CN102184230A (zh) * 2011-05-11 2011-09-14 北京百度网讯科技有限公司 一种搜索结果的展示方法及装置
CN103279513A (zh) * 2013-05-22 2013-09-04 百度在线网络技术(北京)有限公司 产生内容标签的方法、提供多媒体内容信息的方法及装置
US8655866B1 (en) * 2011-02-10 2014-02-18 Google Inc. Returning factual answers in response to queries

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9798800B2 (en) * 2010-09-24 2017-10-24 International Business Machines Corporation Providing question and answers with deferred type evaluation using text with limited structure

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1928864A (zh) * 2006-09-22 2007-03-14 浙江大学 一种基于问答库的中文自然语言问答方法
US8655866B1 (en) * 2011-02-10 2014-02-18 Google Inc. Returning factual answers in response to queries
CN102184230A (zh) * 2011-05-11 2011-09-14 北京百度网讯科技有限公司 一种搜索结果的展示方法及装置
CN103279513A (zh) * 2013-05-22 2013-09-04 百度在线网络技术(北京)有限公司 产生内容标签的方法、提供多媒体内容信息的方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"A survey on question answering technology from an information retrieval perspective";Oleksandr Kolomiyets 等;《Information Sciences》;20111231;5412-5434 *
"基于常见问题库的多搜索引擎自动问答系统";王慧芝 等;《计算机技术与发展》;20061130;第16卷(第11期);136-139 *

Also Published As

Publication number Publication date
CN103914543A (zh) 2014-07-09

Similar Documents

Publication Publication Date Title
CN103914543B (zh) 搜索结果的展现方法和装置
Drury et al. A survey of the applications of text mining for agriculture
US20230009814A1 (en) Method for training information recommendation model and related apparatus
CN105786977B (zh) 基于人工智能的移动搜索方法和装置
CN106709040B (zh) 一种应用搜索方法和服务器
CN104834729B (zh) 题目推荐方法和题目推荐装置
CN108427708B (zh) 数据处理方法、装置、存储介质和电子装置
US9230194B2 (en) Training image sampling
CN111125422A (zh) 一种图像分类方法、装置、电子设备及存储介质
CN109918662B (zh) 一种电子资源的标签确定方法、装置和可读介质
CN109906450A (zh) 用于通过相似性关联对电子信息排名的方法和装置
CN105144164A (zh) 使用深度网络对概念术语评分
WO2021017306A1 (zh) 根据用户画像的个性化搜索方法、系统、设备及存储介质
CN104102721A (zh) 信息推荐方法和装置
CN112818218B (zh) 信息推荐方法、装置、终端设备及计算机可读存储介质
CN112989208B (zh) 一种信息推荐方法、装置、电子设备及存储介质
CN112749330A (zh) 信息推送方法、装置、计算机设备和存储介质
Li et al. A feature-free search query classification approach using semantic distance
CN115659008A (zh) 大数据信息反馈的信息推送系统、方法、电子设备及介质
CN107833088A (zh) 内容提供方法、装置及智能设备
CN116049536A (zh) 一种推荐方法及相关装置
Arafat et al. Analyzing public emotion and predicting stock market using social media
Zhang et al. Ideagraph plus: A topic-based algorithm for perceiving unnoticed events
CN111242239A (zh) 一种训练样本选取方法、装置、以及计算机存储介质
Tsai et al. User intent prediction search engine system based on query analysis and image recognition technologies

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant