CN113656574A - 用于搜索结果排序的方法、计算设备和存储介质 - Google Patents

用于搜索结果排序的方法、计算设备和存储介质 Download PDF

Info

Publication number
CN113656574A
CN113656574A CN202111212987.XA CN202111212987A CN113656574A CN 113656574 A CN113656574 A CN 113656574A CN 202111212987 A CN202111212987 A CN 202111212987A CN 113656574 A CN113656574 A CN 113656574A
Authority
CN
China
Prior art keywords
authoritative
score
author
search result
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111212987.XA
Other languages
English (en)
Other versions
CN113656574B (zh
Inventor
苏轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Ouying Information Technology Co Ltd
Original Assignee
Beijing Ouying Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Ouying Information Technology Co Ltd filed Critical Beijing Ouying Information Technology Co Ltd
Priority to CN202111212987.XA priority Critical patent/CN113656574B/zh
Publication of CN113656574A publication Critical patent/CN113656574A/zh
Application granted granted Critical
Publication of CN113656574B publication Critical patent/CN113656574B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开的实施例涉及一种用于搜索结果排序的方法、计算设备和存储介质。根据该方法,建立权威关键词库,以存储关于多个不同作者的权威关键词信息;检索与搜索请求相关的多个搜索结果文档,该多个搜索结果文档按第一分数排序;识别搜索请求中包括的一个或多个命名实体;基于每一搜索结果文档的作者信息查询权威关键词库,以确定每一搜索结果文档的第二分数;以及基于每一搜索结果文档的第一分数和第二分数,确定该搜索结果文档的最终排序分数。由此,使得能够在提供搜索结果排序时能够考虑作者的权威度,从而有助于提高用户的整体体验度,而无需考虑用户行为数据。

Description

用于搜索结果排序的方法、计算设备和存储介质
技术领域
本公开的实施例总体涉及信息搜索领域,并且更具体地涉及一种用于搜索结果排序的方法、计算设备和存储介质。
背景技术
通常,搜索引擎会根据用户输入的搜索关键词,提供经排序的搜索结果。目前,大多数搜索引擎利用文档相关性分数来对搜索结果文档进行排序。但是,这种相关性分数通常是基于搜索结果文档与搜索关键词在文字字面上的匹配程度来确定的,而没有考虑搜索关键词的实际语义。因此,这种排序方法错误较多,用户体验度较差。
为了提升搜索结果排序的合理性,出现了利用机器学习模型来对搜索结果文档进行排序的搜索引擎,这种机器学习模型可学习用户行为(诸如,用户点击等)、搜索关键词和搜索结果文档之间的相关性,以帮助得到更为个性化且精准的搜索结果排序。但是,这种方案需要有足够多的用户(>十万,百万量级)以及足够多的用户行为数据(>千万量级)才能够训练出一个相对可用的用于结果排序的机器学习模型。但是,对于绝大多数搜索引擎场景而言,往往很难收集到足够多的用户和用户行为数据来进行以上训练。尤其是在医学领域中,虽然经过多年的积累已存在海量的医疗文本(病例、论文、学术文本等)供例如专门的医学领域搜索引擎进行搜索,但是由于会执行这种搜索的人员相对较少(通常为医生之类的医务工作者,其量级通常为约十万量级),并且与这种搜索相关的用户行为数据也非常少,因此前面提到利用机器学习模型来对搜索结果文档进行排序的方案并不适用于这样的医学领域搜索引擎。
由此,有必要提供一种用于搜索结果排序的技术,使得能够提供更准确且合理的搜索结果排序,而无需相关的用户行为数据。
发明内容
针对上述问题,本公开提供了一种用于搜索结果排序的方法和计算设备,使得在提供搜索结果排序时能够考虑作者的权威度,从而有助于提高用户的整体体验度,而无需考虑用户行为数据。
根据本公开的第一方面,提供了一种用于搜索结果排序的方法,包括:建立权威关键词库,以存储关于多个不同作者的权威关键词信息,所述权威关键词信息包括与相应作者相关联的多个权威关键词以及相对应的权威度分数,每一权威度分数指示所述作者对相应的权威关键词的权威度;检索与搜索请求相关的多个搜索结果文档,所述多个搜索结果文档按第一分数排序;识别所述搜索请求中包括的一个或多个命名实体;基于每一搜索结果文档的作者信息查询所述权威关键词库,以确定每一搜索结果文档的第二分数,所述第二分数指示所述搜索结果文档的作者对所述一个或多个命名实体的权威度;以及基于每一搜索结果文档的所述第一分数和所述第二分数,确定所述搜索结果文档的最终排序分数。
根据本公开的第二方面,提供了一种计算设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开的第一方面的方法。
在本公开的第三方面中,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中所述计算机指令用于使所述计算机执行本公开的第一方面的方法。
在本公开的第四方面中,提供了一种搜索引擎服务器,包括检索模块、命名实体识别模块、排序模块和权威关键词库;所述权威关键词库被配置成存储关于多个不同作者的权威关键词信息,所述权威关键词信息包括与相应作者相关联的多个权威关键词以及相对应的权威度分数,每一权威度分数指示作者对相应的权威关键词的权威度;所述检索模块被配置成检索与搜索请求相关的多个搜索结果文档,所述多个搜索结果文档按第一分数排序;命名实体识别模块被配置成识别所述搜索请求中包括的一个或多个命名实体;所述排序模块被配置成基于每一搜索结果文档的作者信息查询所述权威关键词库,以确定每一搜索结果文档的第二分数,并基于每一搜索结果文档的所述第一分数和所述第二分数,确定所述搜索结果文档的最终排序分数,所述第二分数指示所述搜索结果文档的作者对所述一个或多个命名实体的权威度。
在一些实施例中,建立权威关键词库包括:从预先收集的文档集合中获取作者信息,以分别确定所述文档集合中与每一作者相关联的文档子集;对每一作者的文档子集进行分析,以确定关于所述作者的多个权威关键词;为所述作者确定分别与所述多个权威关键词中的每一权威关键词相对应的权威度分数;以及将所述多个权威关键词、多个权威度分数和所述作者相关联地存储在所述权威关键词库中。
在一些实施例中,为所述作者确定分别与所述多个权威关键词中的每一权威关键词相对应的权威度分数包括基于所述权威关键词在所述文档子集中的一个或多个文档中的位置来确定该权威度分数。
在一些实施例中,基于每一搜索结果文档的作者信息查询所述权威关键词库,以确定每一搜索结果文档的第二分数包括:在所述权威关键词库中查询关于所述搜索结果文档的作者的权威关键词信息;基于所述作者的权威关键词信息,确定所述作者与所述搜索请求中包括的每一个命名实体相对应的权威度分数;以及基于所述作者与每一个命名实体相对应的权威度分数,确定所述第二分数。
在一些实施例中,该方法还包括建立知识图谱,以便存储多个不同实体之间的关联关系,并且基于所述作者的权威关键词信息,确定所述作者与所述搜索请求中包括的每一个命名实体相对应的权威度分数包括:确定所述作者的权威关键词信息中是否包括与所述命名实体匹配的权威关键词;响应于确定所述作者的权威关键词信息中不包括与所述命名实体匹配的权威关键词,基于所述知识图谱确定所述作者的权威关键词信息中是否包括与所述命名实体相关的权威关键词;响应于确定所述作者的权威关键词信息中包括与所述命名实体相关的权威关键词,基于所述作者与该相关的权威关键词相对应的权威度分数确定所述作者与所述命名实体相对应的权威度分数。
在一些实施例中,建立知识图谱包括基于预先收集的实体数据和实体关系数据来建立所述知识图谱,每一实体数据指示实体,每一实体关系数据指示相关联的不同实体之间的关联关系。
在一些实施例中,识别所述搜索请求中包括的一个或多个命名实体包括基于命名实体识别算法来识别所述搜索请求中包括的所述一个或多个命名实体。
在一些实施例中,所述搜索结果文档的最终排序分数是所述搜索结果文档的第一分数和第二分数的加权和。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标注表示相同或相似的元素。
图1示出了用于实现根据本发明的实施例的用于搜索结果排序的方法的系统100的示意图。
图2示出了根据本公开的实施例的示例性搜索引擎服务器200的功能框图。
图3示出了根据本公开的实施例的示例性知识图谱300的示意图。
图4示出了根据本公开的实施例的用于搜索结果排序的方法400的流程图。
图5示出了根据本公开的实施例的用于确定作者与搜索请求中包括的每一个命名实体相对应的权威度分数的方法500的流程图。
图6示出了根据本公开的实施例的电子设备600的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
在本文中使用的术语“包括”及其变形表示开放性包括,即“包括但不限于”。除非特别申明,术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
如上所述,目前,大多数搜索引擎利用文档相关性分数来对搜索结果文档进行排序。但是,这种排序方法错误较多,用户体验度较差。为了提升搜索结果排序的合理性,出现了利用机器学习模型来对搜索结果文档进行排序的搜索引擎,这种机器学习模型可学习用户行为(诸如,用户点击等)、搜索关键词和搜索结果文档之间的相关性,以帮助得到更为个性化且精准的搜索结果排序。但是,这种方案需要有足够多的用户以及足够多的用户行为数据才能够训练出一个相对可用的用于结果排序的机器学习模型。
为了至少部分地解决上述问题以及其他潜在问题中的一个或者多个,本公开的示例实施例提出了一种用于搜索结果排序的方法,包括:建立权威关键词库,以存储关于多个不同作者的权威关键词信息,所述权威关键词信息包括与相应作者相关联的多个权威关键词以及相对应的权威度分数,每一权威度分数指示所述作者对相应的权威关键词的权威度;检索与搜索请求相关的多个搜索结果文档,所述多个搜索结果文档按第一分数排序;识别所述搜索请求中包括的一个或多个命名实体;基于每一搜索结果文档的作者信息查询所述权威关键词库,以确定每一搜索结果文档的第二分数,所述第二分数指示所述搜索结果文档的作者对所述一个或多个命名实体的权威度;以及基于每一搜索结果文档的所述第一分数和所述第二分数,确定所述搜索结果文档的最终排序分数。以此方式,通过基于预先收集的文档分析作者在指定领域的权威度,并在进行搜索结果排序时考虑这种权威度,从而使得能够提高用户的整体体验度,而无需考虑用户行为数据。
图1示出了用于实现根据本发明的实施例的用于搜索结果排序的方法的系统100的示意图。如图1中所示,系统100包括搜索引擎服务器110、网络120、网络服务器130和用户终端140。搜索引擎服务器110、网络服务器130和用户终端140可以通过网络120(例如,因特网)进行数据交互。在本公开中,网络服务器130可以为搜索引擎服务器110提供各种检索资源。例如,在搜索引擎服务器110为专用于搜索医学文本的医学文本搜索引擎服务器的情况下,网络服务器130可以是用于为其提供各种医学领域文档数据(例如,病例、医学文献、医学视频等)的服务器。用户终端140包括浏览器,以用于将用户输入的搜索请求提交给搜索引擎服务器110,以及显示搜索引擎服务器110返回的搜索结果文档,这些搜索结果文档可按搜索引擎服务器110确定的最终排序分数排序。搜索引擎服务器110可经由网络120与网络服务器130进行通信,以检索相应的文档数据、实体数据或实体关系数据,从而帮助实现对例如后面将结合图2来说明的倒排索引库418的建立、对文档集合416的收集和知识图谱412的建立。搜索引擎服务器110可由一个或多个计算设备实现,每一计算设备可以包括至少一个处理器112以及与该至少一个处理器112耦合的至少一个存储器114,该存储器114中存储有可由该至少一个处理器112执行的指令116,该指令116在被该至少一个处理器112执行时执行如下所述的方法200。搜索引擎服务器110或用于实现搜索引擎服务器110的计算设备的具体结构例如可以如下结合图6所述。
图2示出了根据本公开的实施例的示例性搜索引擎服务器200的功能框图。如图2所示,搜索引擎服务器200可以是图1所示的搜索引擎服务器110,其可包括搜索引擎收发模块202、检索模块204、命名实体识别模块206、排序模块208和权威关键词库210。权威关键词库210由搜索引擎服务器200建立,其被配置成存储关于多个不同作者的权威关键词信息,该权威关键词信息包括与相应作者相关联的多个权威关键词以及相对应的权威度分数,每一权威度分数指示作者对相应的权威关键词的权威度。搜索引擎收发模块202被配置成接收用户经由用户终端140上的浏览器提交的搜索请求,并且被配置成将搜索结果文档可按最终排序分数的顺序提供给用户终端140的浏览器进行显示。搜索请求可以包括搜索关键词或搜索短语之类的搜索文本。检索模块204被配置成检索与搜索请求相关的多个搜索结果文档,这些搜索结果文档按第一分数排序。命名实体识别模块206被配置成识别所述搜索请求中包括的一个或多个命名实体。排序模块208被确定每一搜索结果文档的最终排序分数。例如,排序模块208可基于每一搜索结果文档的作者信息查询权威关键词库210,以确定每一搜索结果文档的第二分数,该第二分数指示搜索结果文档的作者对该一个或多个命名实体的权威度,然后基于每一搜索结果文档的第一分数和第二分数,确定所述搜索结果文档的最终排序分数。
搜索引擎服务器200还可包括文档分析模块214和文档集合216。文档集合216可以通过人工收集、爬虫爬取、订阅、人工撰写等各种手段来收集。例如,如果需要分析的是医学领域的作者,则该文档集合可以是各种医学领域文档数据的集合,例如医学病例、医学文献或医学视频等数字资源的集合。文档分析模块214被配置成对文档集合216中的文档进行分析,以建立权威关键词库210。
搜索引擎服务器200还可包括知识图谱212。知识图谱212被配置成例如以图数据库的形式存储多个不同实体之间的关联关系。在本公开中,可包括多个相互独立的知识图谱。知识图谱212可基于预先收集的实体数据和实体关系数据来建立,每一实体数据指示实体,每一实体关系数据指示相关联的不同实体之间的关联关系。在本公开中,实体数据和实体关系数据也可通过人工收集、爬虫爬取、订阅、人工撰写等各种手段来收集。例如,图3示出了根据本公开的实施例的示例性知识图谱300的示意图。在图3所示的知识图谱300中,包括节点和边,其中各个节点表示实体,各个边表示相应实体之间的关联关系。例如,基于图3可知,膝骨关节炎属于关节炎的一种。
搜索引擎服务器200还可包括一个或多个倒排索引库218。每一倒排索引库218可对应于不同的文档分类,例如网页、病例、视频、文本文献等。倒排索引库218可基于感兴趣的文档分类(例如,在网络服务器上检索到的感兴趣的文档分类)利用倒排索引技术建立,其可包括检索模块204进行检索时所需要的索引数据,索引数据中会相关联地记录各个关键词(token)和文档标识符(id)的信息,以便于检索模块204的使用。当然检索模块204也可直接从网络服务器中检索感兴趣的文档,而仍在本公开的保护范围内。
应了解搜索引擎服务器200可包括更多或更少的部件,而仍在本公开的保护范围内。
图4示出了根据本公开的实施例的用于搜索结果排序的方法400的流程图。方法400可由如图1或2所示的搜索引擎服务器110或200执行,也可以在图6所示的电子设备600处执行。应当理解的是,方法400还可以包括未示出的附加框和/或可以省略所示出的框,本公开的范围在此方面不受限制。
在步骤402,搜索引擎服务器110建立权威关键词库,以存储关于多个不同作者的权威关键词信息。在本公开中,权威关键词信息可包括与相应作者相关联的多个权威关键词以及相对应的权威度分数,每一权威度分数指示该作者对相应的权威关键词的权威度。例如,以作者A为例,权威关键词库中可存储有作者A的权威关键词信息,该权威关键词信息可包括与作者A相关联的多个权威关键词以及与每一权威关键词相对应的权威度分数。
在本公开中,如果通过分析确定某个作者在与某个关键词相关联的领域(疾病、术式、治疗方案等)具有一定的权威性,则该关键词可被认为是与该作者相关联的一个权威关键词。例如仅作为示例,如果某个作者在与风湿性关节炎的治疗方案方面具有一定的权威性,则风湿性关节炎可被认为是与该作者相关联的一个权威关键词。
如前所述,权威度分数指示作者对相应的权威关键词的权威度,而该权威度可表示该作者与该权威关键词之间的关联程度,也就是说可理解为该作者在与该权威关键词相关联的领域(疾病、术式、治疗方案等)的权威性程度。
在一些实施例中,权威关键词库(例如权威关键词库210)可由图2所示的文档分析模块214建立。文档分析模块214建立权威关键词库的方法可包括以下步骤。
首先,从预先收集的文档集合(例如,图2所示的文档集合216)中获取作者信息,以分别确定该文档集合中与每一作者相关联的文档子集。
然后,对每一作者的文档子集进行分析,以确定关于该作者的多个权威关键词。例如,可以利用命名实体识别(Named Entity Recongintion, NER)算法从文档子集中的每一文档中提取重要实体,从而确定关于该作者的最为核心的多个关键词(例如,文档涉及的疾病名称、术式等信息)作为关于该作者的多个权威关键词。例如仅作为示例,仅分析,关于某作者的多个权威关键词的示例为[关节炎,风湿病,髋关节置换术]。在本公开中,从每一文档中提取的重要实体可以指的是以下中的至少一者:在知识图谱中存储过的实体、在该文档中出现频率较高的实体、在该文档的标题或首段或摘要中出现的实体等等。
然后,为该作者确定分别与多个权威关键词中的每一权威关键词相对应的权威度分数。在一些实施例中,与每一权威关键词相对应的权威度分数可基于以下公式来得到:该权威关键词的关键词分数*文档权威性分数/文档总数。在该公式中,文档权威性分数也可称为文档质量分数,其可基于用于确定该权威关键词的一个或多个文档的影响因子来确定,或者也可基于这些文档的收藏数或点赞数等来确定。文档总数指的是相关的文档子集所包括的文档的总数。在一些实施例中,权威关键词的关键词分数可全部都记为1分。在另一些实施例中,权威关键词的关键词分数也可基于该权威关键词出现在用于确定该权威关键词的一个或多个文档中的位置来确定。例如仅作为示例,如果该权威关键词曾在该一个或多个文档之一的标题中出现过,则记为1分,如果该权威关键词曾在该一个或多个文档之一的首段中出现过,则记为0.9分,其他情况则都记为0.8分。在本公开中,与每一权威关键词相对应的权威度分数代表的是相应作者与该权威关键词之间的关联程度,或者可理解为该作者在该关键词领域(疾病、术式、治疗方案等)的权威程度。例如,在医学领域中,医学作者的学科领域都是相对固定化的,因此通过分析作者的文献,就可以较为准确地知道该作者在医学的哪个领域是经验丰富且权威的。
最后,将分析得到的多个权威关键词、多个权威度分数和作者相关联地存储在权威关键词库中。
在步骤404,检索与搜索请求相关的多个搜索结果文档,该多个搜索结果文档按第一分数排序。
在一些实施例中,步骤404 可具体包括以下步骤。首先,对搜索请求进行分词,以得到多个搜索关键词(token)。然后,利用倒排索引算法在预先建立的倒排索引库(例如,图2所示的倒排索引库218)中检索与每一搜索关键词相关联的搜索结果文档。然后,对于每一搜索结果文档,至少基于该搜索结果文档匹配到的搜索关键词的数目及其在所述搜索结果文档中的位置,为搜索结果文档确定第一分数。最后,按第一分数对检索到的搜索结果文档进行排序。
在步骤406,识别搜索请求中包括的一个或多个命名实体。
在本公开中,可基于命名实体识别算法(例如,自然语言命名实体识别算法)来识别搜索请求中包括的一个或多个命名实体。例如,如果搜索请求为“血友病性关节炎的膝关节置换手术的评估与准备”,则识别到的命名实体包括一个疾病实体“血友病性关节炎”以及一个手术实体“膝关节置换手术”。如果搜索请求为“膝骨关节炎”,则识别到的命格实体仅包括一个疾病实体“膝骨关节炎”。在一些实施例中,需要识别的命名实体也可根据搜索引擎服务器的定位来决定,例如如果该搜索引擎服务器专用于医学领域,则需要识别的命名实体可以为疾病名称、手术名称、科室名称、医院名称等。
在步骤408,基于每一搜索结果文档的作者信息查询权威关键词库,以确定每一搜索结果文档的第二分数,该第二分数指示所述搜索结果文档的作者对所述一个或多个命名实体的权威度。
在一些实施例中,步骤408可包括以下步骤。首先,在权威关键词库中查询关于搜索结果文档的作者的权威关键词信息。然后,基于该作者的权威关键词信息,确定该作者与搜索请求中包括的每一个命名实体相对应的权威度分数。下面将基于图5对用于确定该作者与搜索请求中包括的每一个命名实体相对应的权威度分数的方法500作进一步更详细的描述。最后,基于该作者与每一个命名实体相对应的权威度分数,确定第二分数。在一些实施例中,该第二分数可以是与每一个命名实体相对应的权威度分数之和。例如,如果在搜索请求中识别出两个命名实体,并且与第一命名实体相对应的权威度分数为0.7,与第二命名实体相对应的权威度分数为0.1,则可确定相应的第二分数为0.8。
在一些实施例中,为了能够更准确的确定每一搜索结果文档的第二分数,方法400还可包括建立知识图谱(例如,图2所示的知识图谱212),以便存储多个不同实体之间的关联关系。在本公开中,建立知识图谱可包括基于预先收集的实体数据和实体关系数据来建立该知识图谱,每一实体数据指示实体,每一实体关系数据指示相关联的不同实体之间的关联关系。如前所述,实体数据和实体关系数据也可通过人工收集、爬虫爬取、订阅、人工撰写等各种手段来收集。在本公开中,知识图谱中还可存储两个具有上下位关系的实体之间的迁移概率,以便在计算第二分数时使用。下文中会对这种迁移概率作更详细的描述。
在步骤410,基于每一搜索结果文档的第一分数和第二分数,确定搜索结果文档的最终排序分数。
在一些实施例中,搜索结果文档的最终排序分数是该搜索结果文档的第一分数和第二分数的加权和,例如可基于以下公式计算:最终排序分数=第一分数+权重*第二分数。在该公式中,权重可表示相应的第二分数的重要程度,值越大,则第二分数越重要,反之亦然,该权重可预先设定,或者也可根据例如是否命中相关的领域来进行设定。
基于以上方法400,通过基于预先收集的文档分析作者在指定领域的权威度,并在进行搜索结果排序时考虑这种权威度,从而使得能够提高用户的整体体验度,而无需考虑用户行为数据。
图5示出了根据本公开的实施例的用于确定作者与搜索请求中包括的每一个命名实体相对应的权威度分数的方法500的流程图。方法500可由如图1或2所示的搜索引擎服务器110或200执行,也可以在图6所示的电子设备600处执行。应当理解的是,方法500还可以包括未示出的附加框和/或可以省略所示出的框,本公开的范围在此方面不受限制。
在步骤502,确定作者的权威关键词信息中是否包括与命名实体匹配的权威关键词。
例如仅作为示例,如果从搜索请求中识别出的命名实体包括“膝骨关节炎”和“膝关节置换手术”,而作者的权威关键词信息包括关节炎0.7分、风湿病0.1分,则可确定该作者的权威关键词信息中不包括与命名实体匹配的权威关键词。
在步骤504,响应于确定作者的权威关键词信息中不包括与命名实体匹配的权威关键词,基于知识图谱确定该作者的权威关键词信息中是否包括与命名实体相关的权威关键词。
例如,如果该作者的权威关键词信息中包括与命名实体存在上下位关系的权威关键词,则可确定该作者的权威关键词信息中包括与命名实体相关的权威关键词。继续以上示例,通过查询知识图谱(例如,图3所示的知识图谱300),可确定“膝骨关节炎”属于“关节炎”即“膝骨关节炎”与“关节炎”之间存在上下位关系,因此可确定该作者的权威关键词信息中包括与命名实体“膝骨关节炎”相关的权威关键词“关节炎”。
在另一些实施例中,响应于确定作者的权威关键词信息中不包括与命名实体匹配的权威关键词,也可直接将该作者与该命名实体相对应的权威度分数确定为零,而不在知识图谱中查询相关性。
在步骤506,响应于确定作者的权威关键词信息中包括与该命名实体相关的权威关键词,基于该作者与该相关的权威关键词相对应的权威度分数确定该作者与该命名实体相对应的权威度分数。
在一些实施例中,响应于确定作者的权威关键词信息中包括与该命名实体相关的权威关键词,可确定作者与命名实体相对应的权威度分数为该作者与相关的权威关键词相对应的权威度分数本身。例如,继续以上示例,可确定作者与命名实体“膝骨关节炎”相对应的权威度分数为该作者与相关的权威关键词“关节炎”相对应的权威度分数,即为0.7。在另一些实施例中,响应于确定作者的权威关键词信息中包括与该命名实体相关的权威关键词,可确定作者与命名实体相对应的权威度分数为该作者与相关的权威关键词相对应的权威度分数与知识图谱中设定的相应迁移概率的乘积。例如,对于以上示例,如果知识图谱中设定“膝骨关节炎”到“关节炎”的迁移概率为0.5,则可确定作者与命名实体“膝骨关节炎”相对应的权威度分数为0.7*0.5。在这些实施例中,通过使用迁移概率,可表明由于相关的权威关键词并不是命名实体本身,因此需要有所折扣,这可用于避免知识图谱概念上下位实体之间导致的权威性扩散问题,权威性扩散问题指的是作者本来只对一个具体学科比较权威,但是却被错误地扩散为对更上层或更下层的学科具有同样的权威。
方法500还包括步骤508,响应于在步骤502确定作者的权威关键词信息中包括与命名实体匹配的权威关键词,基于作者与匹配的权威关键词相对应的权威度分数确定该作者与该命名实体相对应的权威度分数。例如,如果识别出的命名实体包括“关节炎”和“膝关节置换手术”,而作者的权威关键词信息为关节炎0.7分、风湿病0.1分,则可确定作者的权威关键词信息中包括与“关节炎”匹配的权威关键词,这时可例如确定该作者与“关节炎”相对应的权威度分数为0.7。
方法500还包括步骤510,响应于在步骤506确定作者的权威关键词信息中不包括与该命名实体相关的权威关键词,确定该作者与命名实体相对应的权威度分数为零。
通过采用上述手段,本公开能够有效地将作者的权威度结合到搜索结果文档的排序中。
图6示出了可以用来实施本公开内容的实施例的示例电子设备600的示意性框图。例如,如图1所示的搜索引擎服务器110可以由电子设备600来实施。如图所示,电子设备600包括中央处理单元(CPU) 601,其可以根据存储在只读存储器(ROM)602中的计算机程序指令或者从存储单元608加载到随机存取存储器(RAM)603中的计算机程序指令,来执行各种适当的动作和处理。在随机存取存储器603中,还可存储电子设备600操作所需的各种程序和数据。中央处理单元601、只读存储器602以及随机存取存储器603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
电子设备600中的多个部件连接至输入/输出接口605,包括:输入单元606,例如键盘、鼠标、麦克风等;输出单元607,例如各种类型的显示器、扬声器等;存储单元608,例如磁盘、光盘等;以及通信单元609,例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
上文所描述的各个过程和处理,例如方法400和500,可由中央处理单元601执行。例如,在一些实施例中,方法400和500可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元608。在一些实施例中,计算机程序的部分或者全部可以经由只读存储器602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序被加载到随机存取存储器603并由中央处理单元601执行时,可以执行上文描述的方法400和500的一个或多个动作。
本公开涉及方法、装置、系统、电子设备、计算机可读存储介质和/或计算机程序产品。计算机程序产品可以包括用于执行本公开的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘计算设备。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理单元,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (12)

1.一种用于搜索结果排序的方法,包括:
建立权威关键词库,以存储关于多个不同作者的权威关键词信息,所述权威关键词信息包括与相应作者相关联的多个权威关键词以及相对应的权威度分数,每一权威度分数指示所述作者对相应的权威关键词的权威度;
检索与搜索请求相关的多个搜索结果文档,所述多个搜索结果文档按第一分数排序;
识别所述搜索请求中包括的一个或多个命名实体;
基于每一搜索结果文档的作者信息查询所述权威关键词库,以确定每一搜索结果文档的第二分数,所述第二分数指示所述搜索结果文档的作者对所述一个或多个命名实体的权威度;以及
基于每一搜索结果文档的所述第一分数和所述第二分数,确定所述搜索结果文档的最终排序分数。
2.根据权利要求1所述的方法,其中建立权威关键词库包括:
从预先收集的文档集合中获取作者信息,以分别确定所述文档集合中与每一作者相关联的文档子集;
对每一作者的文档子集进行分析,以确定关于所述作者的多个权威关键词;
为所述作者确定分别与所述多个权威关键词中的每一权威关键词相对应的权威度分数;以及
将所述多个权威关键词、多个权威度分数和所述作者相关联地存储在所述权威关键词库中。
3.根据权利要求2所述的方法,其中为所述作者确定分别与所述多个权威关键词中的每一权威关键词相对应的权威度分数包括基于所述权威关键词在所述文档子集中的一个或多个文档中的位置来确定该权威度分数。
4.根据权利要求1所述的方法,其中基于每一搜索结果文档的作者信息查询所述权威关键词库,以确定每一搜索结果文档的第二分数包括:
在所述权威关键词库中查询关于所述搜索结果文档的作者的权威关键词信息;
基于所述作者的权威关键词信息,确定所述作者与所述搜索请求中包括的每一个命名实体相对应的权威度分数;以及
基于所述作者与每一个命名实体相对应的权威度分数,确定所述第二分数。
5.根据权利要求4所述的方法,还包括建立知识图谱,以便存储多个不同实体之间的关联关系,并且基于所述作者的权威关键词信息,确定所述作者与所述搜索请求中包括的每一个命名实体相对应的权威度分数包括:
确定所述作者的权威关键词信息中是否包括与所述命名实体匹配的权威关键词;
响应于确定所述作者的权威关键词信息中不包括与所述命名实体匹配的权威关键词,基于所述知识图谱确定所述作者的权威关键词信息中是否包括与所述命名实体相关的权威关键词;
响应于确定所述作者的权威关键词信息中包括与所述命名实体相关的权威关键词,基于所述作者与该相关的权威关键词相对应的权威度分数确定所述作者与所述命名实体相对应的权威度分数。
6.根据权利要求5所述的方法,其中建立知识图谱包括基于预先收集的实体数据和实体关系数据来建立所述知识图谱,每一实体数据指示实体,每一实体关系数据指示相关联的不同实体之间的关联关系。
7.根据权利要求1所述的方法,其中识别所述搜索请求中包括的一个或多个命名实体包括基于命名实体识别算法来识别所述搜索请求中包括的所述一个或多个命名实体。
8.根据权利要求1所述的方法,其中所述搜索结果文档的最终排序分数是所述搜索结果文档的第一分数和第二分数的加权和。
9.一种计算设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。
10.一种存储有计算机指令的非瞬时计算机可读存储介质,其中所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的方法。
11.一种搜索引擎服务器,包括检索模块、命名实体识别模块、排序模块和权威关键词库;
所述权威关键词库被配置成存储关于多个不同作者的权威关键词信息,所述权威关键词信息包括与相应作者相关联的多个权威关键词以及相对应的权威度分数,每一权威度分数指示作者对相应的权威关键词的权威度;
所述检索模块被配置成检索与搜索请求相关的多个搜索结果文档,所述多个搜索结果文档按第一分数排序;
命名实体识别模块被配置成识别所述搜索请求中包括的一个或多个命名实体;
所述排序模块被配置成基于每一搜索结果文档的作者信息查询所述权威关键词库,以确定每一搜索结果文档的第二分数,并基于每一搜索结果文档的所述第一分数和所述第二分数,确定所述搜索结果文档的最终排序分数,所述第二分数指示所述搜索结果文档的作者对所述一个或多个命名实体的权威度。
12.根据权利要求11所述的搜索引擎服务器,还包括知识图谱,所述知识图谱被配置成存储多个不同实体之间的关联关系。
CN202111212987.XA 2021-10-19 2021-10-19 用于搜索结果排序的方法、计算设备和存储介质 Active CN113656574B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111212987.XA CN113656574B (zh) 2021-10-19 2021-10-19 用于搜索结果排序的方法、计算设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111212987.XA CN113656574B (zh) 2021-10-19 2021-10-19 用于搜索结果排序的方法、计算设备和存储介质

Publications (2)

Publication Number Publication Date
CN113656574A true CN113656574A (zh) 2021-11-16
CN113656574B CN113656574B (zh) 2022-02-08

Family

ID=78494626

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111212987.XA Active CN113656574B (zh) 2021-10-19 2021-10-19 用于搜索结果排序的方法、计算设备和存储介质

Country Status (1)

Country Link
CN (1) CN113656574B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110016113A1 (en) * 2004-10-27 2011-01-20 HARRIS CORPORATION, a Delaware corporation. Method for re-ranking documents retrieved from a document database
CN102722503A (zh) * 2011-03-31 2012-10-10 北京百度网讯科技有限公司 一种对检索结果进行排序的方法及装置
CN102810117A (zh) * 2012-06-29 2012-12-05 北京百度网讯科技有限公司 一种用于提供搜索结果的方法与设备
CN102880657A (zh) * 2012-08-31 2013-01-16 电子科技大学 基于搜索者的专家推荐方法
CN108304421A (zh) * 2017-02-24 2018-07-20 腾讯科技(深圳)有限公司 一种信息搜索方法及装置
CN109144953A (zh) * 2018-07-27 2019-01-04 腾讯科技(深圳)有限公司 搜索文件的排序方法、装置、设备、存储介质及搜索系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110016113A1 (en) * 2004-10-27 2011-01-20 HARRIS CORPORATION, a Delaware corporation. Method for re-ranking documents retrieved from a document database
CN102722503A (zh) * 2011-03-31 2012-10-10 北京百度网讯科技有限公司 一种对检索结果进行排序的方法及装置
CN102810117A (zh) * 2012-06-29 2012-12-05 北京百度网讯科技有限公司 一种用于提供搜索结果的方法与设备
CN102880657A (zh) * 2012-08-31 2013-01-16 电子科技大学 基于搜索者的专家推荐方法
CN108304421A (zh) * 2017-02-24 2018-07-20 腾讯科技(深圳)有限公司 一种信息搜索方法及装置
CN109144953A (zh) * 2018-07-27 2019-01-04 腾讯科技(深圳)有限公司 搜索文件的排序方法、装置、设备、存储介质及搜索系统

Also Published As

Publication number Publication date
CN113656574B (zh) 2022-02-08

Similar Documents

Publication Publication Date Title
Färber et al. Citation recommendation: approaches and datasets
US10586155B2 (en) Clarification of submitted questions in a question and answer system
US10102254B2 (en) Confidence ranking of answers based on temporal semantics
US9798818B2 (en) Analyzing concepts over time
US10503761B2 (en) System for searching, recommending, and exploring documents through conceptual associations
US9754207B2 (en) Corpus quality analysis
US9239875B2 (en) Method for disambiguated features in unstructured text
US9576023B2 (en) User interface for summarizing the relevance of a document to a query
US8370278B2 (en) Ontological categorization of question concepts from document summaries
Xie et al. A novel text mining approach for scholar information extraction from web content in Chinese
US10810215B2 (en) Supporting evidence retrieval for complex answers
US20110099133A1 (en) Systems and methods for capturing and managing collective social intelligence information
US20150170051A1 (en) Applying a Genetic Algorithm to Compositional Semantics Sentiment Analysis to Improve Performance and Accelerate Domain Adaptation
CN111797214A (zh) 基于faq数据库的问题筛选方法、装置、计算机设备及介质
US9760828B2 (en) Utilizing temporal indicators to weight semantic values
US9720962B2 (en) Answering superlative questions with a question and answer system
CN114141384A (zh) 用于检索医学数据的方法、设备和介质
WO2016009321A1 (en) System for searching, recommending, and exploring documents through conceptual associations and inverted table for storing and querying conceptual indices
CN113656574B (zh) 用于搜索结果排序的方法、计算设备和存储介质
CN109213830B (zh) 专业性技术文档的文档检索系统
Efremova et al. A geo-tagging framework for address extraction from web pages
Che Alhadi et al. An ensemble similarity model for short text retrieval
US11574017B2 (en) Sub-question result merging in question and answer (QA) systems
Ojokoh et al. A graph model with integrated pattern and query-based technique for extracting answer to questions in community question answering system
Genovese et al. Web Crawling and Processing with Limited Resources for Business Intelligence and Analytics Applications.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant