CN114175012A - 基于查询令牌密度对电子文档进行排序的系统和方法 - Google Patents

基于查询令牌密度对电子文档进行排序的系统和方法 Download PDF

Info

Publication number
CN114175012A
CN114175012A CN202080046123.2A CN202080046123A CN114175012A CN 114175012 A CN114175012 A CN 114175012A CN 202080046123 A CN202080046123 A CN 202080046123A CN 114175012 A CN114175012 A CN 114175012A
Authority
CN
China
Prior art keywords
query token
query
search
document
token
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080046123.2A
Other languages
English (en)
Inventor
D·罗森诺夫
K·于
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rex Co ltd
Original Assignee
Rex Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rex Co ltd filed Critical Rex Co ltd
Publication of CN114175012A publication Critical patent/CN114175012A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/252Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种包括搜索引擎的系统,搜索引擎被配置为:基于搜索查询和搜索查询语境确定搜索结果,从搜索查询中提取查询令牌,确定每个搜索结果文档内的(多个)查询令牌命中集,每个查询令牌命中集包括在所定义的接近度范围内的中心定位的查询令牌的所定义的接近度范围内的(多个)查询令牌命中,为每个文档内的每个查询令牌命中集确定每个查询令牌命中和中心定位的查询令牌之间的查询令牌密度值(QTDV),每个QTDV基于每个查询令牌命中和中心定位的查询令牌之间的距离,为每个查询令牌命中集确定查询令牌密度分数(QTDS),为每个文档确定文档密度分数(DDS),基于DDS对搜索结果内的每个文档进行排序或重新排序,以及将经排序/重新排序的搜索引擎结果页面传送以呈现。

Description

基于查询令牌密度对电子文档进行排序的系统和方法
相关申请的交叉引用
本公开要求于2019年4月23日提交的题为“SYSTEMS AND METHODS FOR RANKINGELECTRONIC DOCUMENTS BASED ON QUERY TOKEN DOCUMENT DENSITIES(基于查询令牌文档密度对电子文档进行排序的系统和方法)”的美国临时专利申请第62/837,428号的优先权,其全部内容通过引用并入本文。
背景
技术领域
本公开总体上涉及电子文档搜索的领域。更具体地,所公开的实施例涉及用于电子文档搜索的计算机化系统和方法,这些系统和方法通过相关性对搜索结果进行排序、重新排序和/或测量。
背景技术
用户通常利用搜索引擎搜索查询来得到问题的快速回答。不幸的是,用户通常需要在与他们的查询相关的文档被展示(reveal)之前,对多个不相关的搜索结果进行筛选。布尔运算子的使用通常使问题更复杂。如果在搜索查询中使用布尔运算子,则不当地使用布尔运算符可能不期望地从总的搜索结果中忽略材料文档。因此,用户可能选择在搜索查询中输入自然语言。然而,常规的自然语言搜索算法可在破译相对较长的多词自然语言查询、包括多个概念(例如,相关的和/或不同的)的自然语言查询、包括混合搜索模式(例如,自然语言搜索和实体搜索)的自然语言查询以及包括语料库中统计上常见的(例如,特定于域的)项的自然语言查询方面存在问题。示范此类问题的说明性搜索查询包括:“挪用欺诈(fraud by misappropriation)”、“起诉不成立的动议(motion to dismiss)”、“接受为真(accepted as true)”、“第二DCA(2nd DCA)”、“对私人雇主的私人诉因宪法权利(privatecause of action Constitutional right to privacy employer)”、“什么法规要求将委托书记录在运输法中?(What statute requires a power of attorney to be recordedconveyances act?)”等。此类问题可以进一步将材料文档“掩埋”在多个不相关的搜索结果中,从而使得根本不快地呈现用户的回答。
相关的问题是如何充分地测量搜索结果的相关性。虽然这个问题对于测量特定算法响应于具体查询返回的具体文档的客观效用至关重要,但计算搜索相关性的方法相对较少,每种方法都受到具体假设、优势和/或劣势的制约。因此,极其需要一种提高搜索相关性测量技术水平的可靠新方法。
因此,需要基于搜索查询搜索项的用于排序、重新排序和/或测量搜索结果的改进算法来改进搜索引擎结果集。
发明内容
在第一方面中,一种用于对电子文档进行排排序的系统可包括搜索应用设备和搜索引擎设备。搜索应用设备包括处理器和非瞬态计算机可读介质,非瞬态计算机可读介质包括程序指令。当由处理器执行时,程序指令使得处理器:经由一个或多个图形用户界面从客户端设备接收搜索查询和搜索查询语境。搜索引擎设备可包括处理器和非瞬态计算机可读介质,非瞬态计算机可读介质包括程序指令。当由处理器执行时,程序指令使得处理器用于:基于搜索查询和搜索查询语境确定搜索结果,从搜索查询提取查询令牌,确定搜索结果的每个文档内的一个或多个查询令牌命中集,其中每个查询令牌命中集包括在所定义的接近度范围内的中心定位的查询令牌的所定义的接近度范围内的一个或多个查询令牌命中,为每个文档内的每个查询令牌命中集确定每个查询令牌命中和中心定位的查询令牌之间的查询令牌密度值(QTDV),其中每个QTDV基于每个查询令牌命中和每个查询令牌命中的中心定位的查询令牌之间的距离,为每个文档内每个查询令牌命中集确定查询令牌密度分数(QTDS),为每个文档确定文档密度分数(DDS),基于为搜索结果内的每个文档所确定的DDS对每个文档进行排序或重新排序;以及将经排序或重新排序的搜索引擎结果页面传送到搜索应用设备,以经由客户端设备呈现。
在第二方面中,一种搜索引擎可包括处理器和非瞬态计算机可读介质,非瞬态计算机可读介质包括程序指令,当由处理器执行时,程序指令使得处理器:执行搜索查询和搜索查询语境以确定初始搜索结果,从搜索查询提取查询令牌,提取所定义的接近度范围,确定初始搜索结果的每个文档内的一个或多个查询令牌命中集,其中每个查询令牌命中集包括在所定义的接近度范围内的中心定位的查询令牌的所定义的接近度范围内的一个或多个查询令牌命中,为每个文档内的每个查询令牌命中集确定每个查询令牌命中和中心定位的查询令牌之间的查询令牌密度值(QTDV),其中每个QTDV基于每个查询令牌命中和每个查询令牌命中的中心定位的查询令牌之间的距离,为每个文档内每个查询令牌命中集确定查询令牌密度分数(QTDS),为每个文档确定文档密度分数(DDS),以及基于为初始搜索结果内的每个文档确定的DDS对每个文档进行重新排序,以生成经重新排序的搜索引擎结果页面。
在第三方面中,一种用于对电子文档进行排序的计算机实现的方法,方法可包括:经由搜索应用设备接收搜索查询和搜索查询语境,经由搜索引擎,基于搜索查询和搜索查询语境确定搜索结果;以及执行搜索引擎的查询令牌密度算法以:从搜索查询提取查询令牌,确定搜索结果的每个文档内的一个或多个查询令牌命中集,其中每个查询令牌命中集包括在所定义的接近度范围内的中心定位的查询令牌的所定义的接近度范围内的一个或多个查询令牌命中,为每个文档内的每个查询令牌命中集确定每个查询令牌命中和中心定位的查询令牌之间的查询令牌密度值(QTDV),其中每个QTDV基于每个查询令牌命中和每个查询令牌命中的中心定位的查询令牌之间的距离,为每个文档内每个查询令牌命中集确定查询令牌密度分数(QTDS),为每个文档确定文档密度分数(DDS),基于为每个文档确定的DDS对搜索结果内的每个文档进行排序或重新排序,以及将经排序或重新排序的搜索引擎结果页面传送到搜索应用设备,以经由客户端设备呈现。
本文所描述的附加特征和优点将在以下具体实施方式中阐述,并且将部分地从所述描述中对本领域的技术人员变得显而易见,或可通过实践本文中所描述的各方面,包括下面的详细说明、权利要求书以及附图而被认识。
应当理解的是,以上一般描述和以下详细描述两者描述了各方面,并且它们旨在提供用于理解所要求保护的主题的本质和特性的概观或框架。附图被包括以提供对各方面的进一步的理解,并且附图被结合到本说明书中并构成说明书的一部分。附图示出本文所述的各方面,并与说明书一起用于说明所要求保护的主题的原理和操作。
附图说明
附图中阐述的实施例本质上是说明性的和示例性的,并且不旨在限制由权利要求所限定的主题。当结合以下附图阅读时,可以理解对说明性实施例的以下详细描述,其中,用类似的附图标记指示类似的结构,并且其中:
图1描绘了根据本文所示和所述的一个或多个实施例的说明性搜索结果以及该搜索结果的说明性文档,其中已经由多个查询令牌标识符标识多个查询令牌;
图2描绘了根据本文所示和所述的一个或多个实施例的跟踪与搜索结果的每个文档相关联的多个查询令牌的说明性数据文件;
图3描绘了根据本文所示和所述的一个或多个实施例的用于基于文档密度分数对搜索结果的电子文档进行排序或排序的说明性过程的流程图;
图4描绘了根据本文所示和所述的一个或多个实施例的基于文档密度分数进行排序或重新排序的说明性的基于文档密度的搜索结果;
图5描绘了根据本文所示和所述的一个或多个实施例的基于查询令牌之间的距离确定多个QTDV的说明性文档;以及
图6描绘了根据本文所示和所述的一个或多个实施例的说明性QTD系统。
具体实施方式
现在将详细参考确定多个搜索结果文档中的每个文档的查询令牌文档密度以及基于所确定的查询令牌文档密度对搜索结果文档进行排序或重新排序的各方面,其示例在附图中示出。在可能时,贯穿附图将使用相同的附图标记来指示相同或类似的部件。
本公开的各方面涉及用于搜索电子文档的语料库的系统和方法。根据各方面,电子文档的语料库可包括但不限于法庭意见、法规、辅助材料、新闻文章(例如,Lexis、LexisUni等)、法律相关案例,或各个国家(例如,美国、加拿大、澳大利亚、英国等)的类似内容。本公开的各方面扩展到不同的内容类型、域和/或语言。根据各种方面,可使用自然语言处理来搜索电子文档,使得用户能够在不需要布尔连接符的情况下将查询项键入文本字段。例如,用户可在搜索引擎界面的搜索框中键入“担心未来身份盗窃”而不使用任何布尔连接符。在其他方面,布尔连接符可被使用,但被搜索算法忽略。
根据本公开的各方面,一个或多个自然语言搜索算法可在文档语料库中搜索包含查询项中的至少一些查询项的相关电子文档。在一些方面中,具有彼此靠近(例如,聚集在一起)的查询项的语料库的电子文档可被认为比在整个文档中具有相对分散的查询项(例如,未聚集在一起)的语料库的电子文档更相关于用户输入的查询。
本公开的各方面分析文档的查询令牌密度。根据各方面,如本文更充分地描述的,查询令牌密度可以是特定查询令牌位置(例如,文档的一部分)周围的特定邻域(例如,所定义的接近度范围)内的查询令牌(例如,自然语言搜索查询项)的共现(co-occurrence)之间的加权测量距离。在一些方面中,出现在所定义的接近度内的查询令牌可被给予与定位在所定义的接近度范围的中心处的查询令牌的距离成比例的权重。
如本文所述,本公开的各方面可基于查询令牌接近度对原始或初始搜索结果的顺序重新排序。在此类方面中,在可经由电子显示器呈现给用户的经重新排序的列表中,具有聚集的查询项(例如,彼此相对靠近的查询项)的电子文档的排名可以被提高到比具有分散的查询项(例如,彼此相对较远的查询项)的电子文档相比更高。在其他方面中,可能不会发生此类重新排序。在此类方面中,如本文所述的,查询令牌接近度可在初始搜索结果确定或计算期间已经被考虑。
根据本公开的各方面,一种计算机实现的方法可包括确定在所定义的接近度范围内彼此接近的每个电子文档(例如,搜索结果的每个电子文档)内的查询项(例如,在本文中替代地称为查询令牌)(例如,相互之间5个令牌内的查询令牌,相互之间10个令牌内的查询令牌等)。根据各方面,接近度范围可以是预定义的接近度范围(例如,在运行时间之前预设)和/或用户可选择的接近度范围(例如,特别地经由用户界面等可选择)。
继续本文的示例,自然语言查询可以是“担心未来身份盗窃”。在此类方面中,可向每个查询令牌(例如,查询项)分配查询令牌标识符。为了便于说明,查询令牌“担心”可由“A”标识,查询令牌“未来”可由“B”标识,查询令牌“身份”可由“C”标识,查询令牌“盗窃”可由“D”标识。应当理解,每个相应的查询令牌标识符可包括(多个)字母、(多个)数字、(多个)符号等以(例如,唯一地)标识搜索查询的每个查询令牌。在这种情况下,可以组合多个查询令牌以创建单个查询令牌(例如,在搜索查询“担心未来身份盗窃”中,查询令牌“身份盗窃”可解释为单个查询令牌)。根据各方面,使用多个查询令牌标识符可简化查询令牌接近度分析。
图1描绘了根据本公开的各方面的说明性搜索结果以及该搜索结果的说明性文档,其中已经经由多个查询令牌标识符标识多个查询令牌。参考图1,搜索结果100(例如,经由用户界面上的搜索引擎结果页面提供)可包括文档1(“文档1”)102、文档2(“文档2”)112、文档3(“文档3”)122等。从图1来看,在每个文档(例如,文档1 102、文档2 112、文档3 122)中,每个查询令牌(例如,“担心”、“未来”、“身份”、“盗窃”等)可由其相应的查询令牌标识符(例如,“A”、“B”、“C”、“D”等)标识。此外,在每个文档(例如,文档1 102、文档2 112、文档3122)中,对于每个查询令牌(例如,“担心”、“未来”、“身份”、“盗窃”等),位于所定义的接近度范围内的(例如,搜索查询的)其他查询令牌被标识。
从图1来看,例如,在文档1 102的第一部分中,已经确定第一查询令牌命中集104包括查询令牌命中“B”(例如,“未来”)在查询令牌“C”(例如,“身份”)的所定义的接近度范围内。此外,在文档1 102的第二部分中,已经确定第二查询令牌命中集106包括查询令牌命中“A”(例如,“担心”)在查询令牌“D”(例如,“盗窃”)的所定义的接近度范围内。参考第二查询令牌命中集106查看第一查询令牌命中集104,查询令牌命中“B”被描绘为相对更靠近查询令牌“C”,并且查询令牌命中“A”被描绘为相对更远离查询令牌“D”。
类似地,鉴于图1,在文档2 112的第一部分中,已经确定第三查询令牌命中集114包括查询令牌命中“A”和“B”在查询令牌“D”的所定义的接近度范围内。此外,在文档2 112的第二部分中,已经确定第四查询令牌命中集116在查询令牌“B”的所定义的接近度范围内不包括(多个)查询令牌命中(例如,“A”、“B”、“C”、“D”等)。
又进一步,鉴于图1,在文档3 122的第一部分中,已经确定第五查询令牌命中集124包括查询令牌命中“A”、“B”,并且“A”在查询令牌“D”的所定义的接近度范围内。此外,在文档3 122的第二部分中,已经确定第六查询令牌命中集126包括查询令牌命中“A”、“C”,并且“A”在查询令牌“B”的所定义的接近度范围内。鉴于第五查询令牌命中集124,查询令牌命中“B”和查询令牌命中“A”的第一实例被描绘为相对靠近查询令牌“D”,而查询令牌命中“A”的第二实例被描绘为相对更远离查询令牌“D”。类似地,从第六查询令牌命中集126来看,查询令牌命中“C”被描绘为相对靠近查询令牌“B”,而查询令牌命中“A”的第一实例和查询令牌命中“A”的第二实例被描绘为相对更远离(例如,大约等距离)查询令牌“B”。
图2描绘了根据本公开的各方面的跟踪与搜索结果的每个文档相关联的多个查询令牌的(例如,图6的数据库637的)说明性数据文件202。参考图2,第一多个行(例如,行204、行206等)可与第一文档(例如,文档1 102)相关联,第二多个行(例如,行208、行210等)可与第二文档(例如,文档2 112)相关联,并且第三多个行(例如,行212、行214等)可与第三文档(例如,文档3 122)相关联。
从图2来看,数据文件202可记录与每个查询令牌命中集(例如,查询令牌命中集104、106、114、116、124、126等)相关联的信息。参考图2,查询令牌密度分数(QTDS)216可与数据文件202的每行(例如,行204-214等)相关联。根据本公开的各方面,可基于每个查询令牌命中集(例如,查询令牌命中集104、106、114、116、124、126等)内的查询令牌的相对位置来确定每个QTDS 216。在各方面中,可在每个查询令牌命中集内的查询令牌对之间确定查询令牌密度值(QTDV),并组合查询令牌密度值(QTDV)以计算QTDS 216。在一些方面中,例如,QTDV可基于查询令牌命中集中的查询令牌和另一查询令牌之间的距离(例如,令牌的数量)。在此类方面中,例如,相对更靠近彼此的查询令牌可以接收比相对更远离彼此的查询令牌相对更高的QTDV。
简要参考图1,文档1 102可包括第一查询令牌命中集104(例如,在查询令牌“C”的所定义的接近度范围内的查询令牌命中“B”)和第二查询令牌命中集106(例如,在查询令牌“D”的所定义的接近度范围内的查询令牌命中“A”)。现在转到图2,参考图1,由于查询令牌命中“B”相对更靠近查询令牌“C”,为第一查询令牌命中集104分配数据文件202的行204中的相对较高的QTDS 216“3”,并且由于查询令牌命中“A”相对更远离查询令牌“D”,为第二查询令牌命中集106分配数据文件202的行206中的相对较低的QTDS 216“1”。
类似地,文档2 112可包括第三查询令牌命中集114(例如,在查询令牌“D”的所定义的接近度范围内的查询令牌命中“A”和“B”)和第四查询令牌命中集116(例如,在查询令牌“B”的所定义的接近度范围内没有查询令牌命中)。关于第三查询令牌命中集114,由于查询令牌命中“A”相对更远离查询令牌“D”,因此可为其分配相对较低的QTDV,并且由于查询令牌命中“B”相对更靠近查询令牌“D”,因此可为其分配相对较高的QTDV,使得为第三查询令牌命中集114分配数据文件202的行208中的QTDS 216“3”。关于第四查询令牌命中集116,由于没有查询令牌在查询令牌“B”的所定义的接近度范围内,因此为第四查询令牌命中集116分配数据文件202的行210中的QTDS 216“0”。根据本公开的各方面,仅具有所定义的接近度范围之外的(多个)查询令牌的查询令牌命中集(例如,第四查询令牌命中集116)与默认QTDS“0”相关联。
又进一步,文档3 122可包括第五查询令牌命中集124(例如,查询令牌命中“A”、“B”,并且“A”在查询令牌“D”的所定义的接近度范围内)和第六查询令牌命中集126(例如,查询令牌命中“A”、“C”,并且“A”在查询令牌“B”的所定义的接近度范围内)。对于第五查询令牌命中集124,由于查询令牌命中“A”的第一实例相对更靠近查询令牌“D”,因此可为其分配相对较高的QTDV,并且由于查询令牌命中“A”的第二实例相对更远离查询令牌“D”,因此可为其分配相对较低的QTDV。此外,由于查询令牌命中“B”比查询令牌命中“A”的第一实例更靠近查询令牌“D”,因此初始地可为其分配比查询令牌命中“A”的第一实例更高的QTDV。然而根据本公开的各方面,分配给所定义的接近度范围内的重复的查询令牌命中(例如,查询令牌命中“A”的第一实例和查询令牌命中“A”的第二实例)的QTDV可增加预定因子(例如,在所定义的接近度范围内的重复的查询令牌命中可指示文档的该部分的更高相关性)。因此,初始分配给查询令牌命中“A”的第一和/或第二实例的QTDV可增加或提高到初始分配给查询令牌命中“B”的QTDV之上。鉴于数据文件202的行212,当组合第五查询令牌命中集124的QTDV时,为第五查询令牌命中集124分配QTDS 216“12”。类似地,对于第六查询令牌命中集126,由于查询令牌命中“A”的第一实例和查询令牌命中“A”的第二实例在接近查询令牌“B”方面类似,因此可为它们分配QTDV。此外,由于查询令牌命中“C”比查询令牌命中“A”的第一实例和第二示例都更靠近查询令牌“B”,因此初始地可为其分配比查询令牌命中“A”的第一实例和第二实例更高的QTDV。然而,如本文所述,分配给所定义的接近度范围内的重复的查询令牌命中的QTDV可增加预定因子。因此,初始分配给查询令牌命中“A”的第一和/或第二实例的QTDV可增加或提高到超过初始分配给查询令牌命中“B”的QTDV。鉴于数据文件202的行214,当组合第六查询令牌命中集126的QTDV时,为第六查询令牌命中集126分配QTDS 216“10”。
仍然参考图2,在已将QTDS 216分配给搜索结果的每个电子文档(例如,文档1102、文档2 112、文档3 122等)的每个查询令牌命中集之后,可为每个电子文档确定文档密度分数(DDS)218。根据本公开的各方面,可基于分配给电子文档的各个查询令牌命中集的一个或多个QTDS 216来确定DDS 218。在一些方面中,例如,DDS 118可以是与每个电子文档相关联的QTDS 216的总和。继续该示例,参考图2,将第一查询令牌命中集104的QTDS(例如,行204的“3”)和第二查询令牌命中集106的QTDS(例如,行206的“1”)相加,得到文档1 102的DDS 118为“4”。类似地,将第三查询令牌命中集114的QTDS(例如,行208的“3”)和第四查询令牌命中集116的QTDS(例如,行210的“0”)相加,得到文档2 112的DDS 118为“3”。又进一步,将第五查询令牌命中集124的QTDS(例如,行212的“12”)和第六查询令牌命中集126的QTDS(例如,行214的“10”)相加,得到文档3 122的DDS 118为“22”。
图3描绘了根据本公开的各方面的用于基于文档密度分数对搜索结果的电子文档进行排序或排序的说明性过程的流程图。在框302处,可以接收搜索查询(例如,包括查询令牌的搜索字符串)和搜索查询参数(例如,所定义的接近度范围、要重新排序的最大文档排序值等)。在框304处,可从搜索查询中提取查询令牌。如本文所述,用户可将包括自然语言的搜索查询(例如,具有或不具有布尔连接符)输入到搜索引擎界面的搜索框中。作为响应,本公开的搜索算法可基于查询令牌数据库文件617(例如,图6)从搜索查询中提取查询令牌。根据各方面,查询令牌数据库文件617可针对主题和/或感兴趣的域(例如,与法庭意见相关联的查询令牌等)进行定制。在一些方面中,查询令牌数据库文件617可基于同义词列表提取查询令牌(例如,提取在搜索查询中输入的查询项的同义词作为查询令牌)。在其他方面中,查询令牌数据库文件617可基于与查询令牌相关联的数学向量提取查询令牌。在框306处,在虚线框中被描绘为可选的,每个提取的查询令牌可被分配令牌标识符。在框308处,所定义的接近度范围(例如,预设的或用户选择的)可用于从包括一个或多于查询令牌命中集的文档的语料库确定电子文档的结果集。在框310处,如本文所述,QTDS可被分配给每个查询令牌命中集。在框312处,如本文所述,可为结果集的每个电子文档确定DDS。在框314处,可基于DDS对结果集进行排序或重新排序(例如,如果结果集初始地是基于另一个或不同的排序算法进行排序)。根据各方面,结果集可通过简单的重新排序(例如,按数字)、顺序重新排序、智能重新排序(例如,基于来自若干过程(例如,学习排序过程,其中QTD结果作为特征集成到学习排序特征矩阵中)的最佳结果的排序)等进行重新排序。
对搜索结果进行排序或重新排序
图4描绘了根据本公开的各方面的基于文档密度分数(DDS)进行排序或重新排序的说明性的基于文档密度的搜索结果400。参考图4,文档3 122(例如,在图2中具有“22”的DDS)在基于文档密度的搜索结果400中排序在第一位置处。此处,如果搜索引擎已确定搜索结果100(图1和图6,例如,使用另一个排序算法628N),则文档3 122在基于文档密度的搜索结果400中从第三位置重新排序到第一位置。进一步参考图4,文档1 102(例如,在图2中具有“4”的DDS)在基于文档密度的搜索结果400中排序在第二位置处。此处,如果搜索引擎已确定搜索结果100,则文档1 102在基于文档密度的搜索结果400中从第一位置重新排序到第二位置。又进一步,在图4中,文档2 112(例如,在图2中具有“3”的DDS)在基于文档密度的搜索结果400中排序在第三位置处。此处,如果搜索引擎已确定搜索结果100,则文档2 112在基于文档密度的搜索结果400中从第二位置重新排序到第三位置。
根据本公开的各方面,在搜索引擎结果页面(SERP)内对文档进行排序或重新排序的伪代码可以包括:
Figure BDA0003428688910000111
Figure BDA0003428688910000121
根据本公开的一些方面,可以计算文档提高(DB)以基于相关联的DDS提高初始搜索结果100(例如,图1)内的文档,以实现基于文档密度的搜索结果。在此类方面中,为初始搜索结果的每个相应文档计算的DDS可乘以初始搜索结果中每个相应文档的搜索结果排序。继续该示例,初始搜索结果中搜索排序为“1”且DDS为“4”的文档1 102可被分配“4”(例如,1×4=4)的DB。类似地,初始搜索结果中搜索排序为“2”且DDS为“3”的文档2 112可被分配“6”(例如,2×3=6)的DB,初始搜索结果中搜索排序为“3”且DDS为“22”的文档3 122可被分配“66”(例如,3×22=66)的DB。在此类方面中,在基于文档密度的搜索结果(未示出)中,文档1 102可从第一位置重新排序到第三位置,文档2 112可以保持第二位置,文档3 122可从第三位置重新排序到第一位置。此处,应该理解,在基于文档密度的搜索结果中,基于文档的DDS,文档可以类似地被去提高,而不是提高。
如本文所述,搜索结果文档的排序或重新排序导致搜索界面内的用户对最相关的搜索结果文档的更高可见性。根据本公开的各方面,具有聚集在一起的多个查询令牌的搜索结果文档比具有少量或没有聚集在一起的查询令牌的搜索结果文档更相关。通过将最相关的搜索结果文档放在列表的顶部,用户可首先看到最相关的文档。
分配查询令牌密度分数(QTDS)
根据本公开的各方面,可基于查询令牌命中集中的查询令牌和另一查询令牌之间的距离来分配与每个查询令牌命中集相关联的每个QTDS。在一个方面中,正在分析的(例如,搜索结果的)每个文档内的每个令牌/词可以是距离增量。
图5描绘了根据本公开的各方面的基于查询令牌之间的距离为其分配多个QTDS的说明性文档502。参考图5,说明性搜索结果文档502可包括查询令牌命中集A 504、查询令牌命中集B 506、查询令牌命中集C 508、查询令牌命中集D 510、查询令牌命中集E 512和查询令牌命中集F 514。参考图5,每个查询令牌命中集504、506、508、510、512、514等可位于文档502的不同部分内。在图5中,为了说明的目的,从文档502放大了查询令牌命中集A504和查询令牌命中集E 512。参考查询令牌命中集A 504和查询令牌命中集E 512,已建立所定义的接近度范围530(例如,经由搜索引擎的用户界面预选择或选择/输入的)。更具体地,如图5所示,令牌/词计数或距离增量“10”已被建立为所定义的接近度范围530。在一些方面中,文档502的所有查询令牌命中集504-514具有所定义的接近度范围530。在其他方面中,查询令牌命中集504-514中的一个或多个可以具有不同的所定义的接近度范围(例如,基于感兴趣的查询令牌等)。
根据本文所述的各方面,当分配与搜索结果文档的查询令牌命中集相关联的QTDV和/或QTDS时,可利用半宽度(HW)。在此类方面中,HW可等于所定义的接近度范围的一半(例如,10/2=5,HW=5)。HW可用于在位于如本文所讨论的查询令牌命中集的所定义的接近度范围的中心的查询令牌之前和之后建立多个令牌/词。根据各方面,在法律相关文档的语境中,HW=5被确定为合理的半宽度。对于其他主题领域、域和/或内容类型,可类似地确定半宽度(例如,对于新闻文章可以是3,对于学院材料可以是10等)。
关于查询令牌命中集A 504,对于位于所定义的接近度范围530的中心532处的第一查询令牌540,第一组令牌/词552(例如,编号1-5)在第一查询令牌540之前,并且第二组令牌/词554(例如,编号1-5)在第一查询令牌540之后。此处,第一组552的每个令牌/词可以以从所定义的接近度范围530的一半(例如,半宽度,HW=10/2=5)开始的数字开始编号,并从第一查询令牌540向所定义的接近度范围530的开始按数字顺序减少,如图5所描绘的。类似地,第二组554的每个令牌/词可从所定义的接近度范围530的一半(例如,半宽度,HW=10/2=5)开始的数字开始编号,并从第一查询令牌540向所定义的接近度范围530的结尾按数字顺序减少,如图5所描绘的。如本文所述,对所定义的接近度范围530内的每个令牌/词进行此类编号使得位于更靠近第一查询令牌540的查询令牌能够被分配相对较大的QTDV,并且位于更远离第一查询令牌540的查询令牌能够被分配相对较小的QTDV。以此类方式,相对更靠近第一查询令牌540的查询令牌被提高超过相对更远离第一查询令牌540的查询令牌(例如,表示查询令牌命中集A 504可以与用户的搜索查询更相关)。
仍然参考图5,查询令牌命中集A 504在所定义的接近度范围530内不包括除第一查询令牌540之外的查询令牌命中。因此,可为查询令牌命中集A 504分配QTDS“0”(例如,类似于如本文所述的第四查询令牌命中集116)。由于除了第一查询令牌540之外没有查询令牌命中,因此没有QTDV被确定。以类似方式,查询令牌命中集B 506在所定义的接近度范围530内不包括除第二查询令牌550之外的查询令牌命中,并且查询令牌命中集D 510在所定义的接近度范围530内不包括除第四查询令牌570之外的查询令牌命中。因此,查询令牌命中集B 506和查询令牌命中集D 510也可各自被分配QTDS“0”,并且没有QTDV被确定。
关于查询令牌命中集E 512,对于位于所定义的接近度范围530的中心532处的第五查询令牌580,第一组令牌/词582(例如,编号1-5)在第五查询令牌580之前,并且第二组令牌/词584(例如,编号1-5)在第五查询令牌580之后。此处,第一组582的每个令牌/词可以以从所定义的接近度范围530的一半(例如,半宽度,HW=10/2=5)开始的数字开始编号,并从第五查询令牌580向所定义的接近度范围530的开始按数字顺序减少,如图5所描绘的。类似地,第二组584的每个令牌/词可以以从所定义的接近度范围530的一半(例如,半宽度,HW=10/2=5)开始的数字开始编号,并从第五查询令牌580向所定义的接近度范围530的结尾按数字顺序减少,如图5所描绘的。如本文所述,对所定义的接近度范围530内的每个令牌/词进行此类编号使得位于更靠近第五查询令牌580的查询令牌能够被分配相对较大的QTDV,并且位于更远离第五查询令牌580的查询令牌能够被分配相对较小的QTDV。以此类方式,相对更靠近第五查询令牌580的查询令牌被提高超过相对更远离第五查询令牌580的查询令牌(例如,表示查询令牌命中集E512可以与用户的搜索查询更相关)。
在这种情况下,仍然参考图5,查询令牌命中集E 512在所定义的接近度范围530内包括除了第五查询令牌580还包括查询令牌命中586。此处,根据本公开的各方面,可在每个查询令牌命中集中的查询令牌对之间确定QTDV,并将其组合以计算QTDS。因此,可为包括查询令牌命中586和第五查询令牌580的查询令牌对确定QTDV。鉴于图5,由于查询令牌命中586被定位为与第五查询令牌580相距“3”距离增量(例如,3个令牌/词计数),因此查询令牌命中集E 512可被分配QTDS“3”。以类似方式,查询令牌命中集F 514在所定义的接近度范围530内除了第六查询令牌590之外还包括查询令牌命中596。鉴于图5,由于查询令牌命中596被定位为与第六查询令牌590相距“4”距离增量(例如,4个令牌/词计数),因此查询令牌命中集F514可被分配QTDS“2”。又进一步,以类似方式,查询令牌命中集C 508在所定义的接近度范围530内除了第三查询令牌560之外还包括查询令牌命中566、查询令牌命中567和查询令牌命中568。鉴于图5,由于查询令牌命中566被定位为与第三查询令牌560相距“3”距离增量(例如,3个令牌/词计数),因此包括查询令牌命中566和第三查询令牌560的查询令牌对被分配QTDV“3”。类似地,由于查询令牌命中567被定位为与第三查询令牌560相距“1”距离增量(例如,1个令牌/词计数),因此包括查询令牌命中567和第三查询令牌560的查询令牌对被分配QTDV“5”。又进一步,由于查询令牌命中568被定位为与第三查询令牌560相距“5”距离增量(例如,5个令牌/词计数),因此包括查询令牌命中568和第三查询令牌560的查询令牌对被分配QTDV“1”。因此,可为查询令牌命中集C 508分配QTDS“9”(例如,3+5+1=9)。
参考图5,如本文所述,搜索结果文档502的DDS最终可被确定为14(例如,0+0+9+0+3+2=14),以用于在类似于本文所述的基于文档密度的搜索结果内对搜索结果文档502进行排序或重新排序的目的。
进一步参考图5,在本公开的一些方面中,可以不评估每个位置处的令牌(例如,中心定位的查询令牌的每侧上的5、4、3、2、1)(例如,跳过一些令牌位置)。在一个方面中,例如,可如本文所述评估每隔一个令牌位置(例如,在所定义的接近度范围内),而不是每个令牌位置(例如,在所定义的接近度范围内)。这些方面可减少计算时间并提高效率以作为性能调优增强(例如,减少计算机资源消耗),同时不损害所产生的经排序/重新排序的搜索结果的相关性。这可以支持本公开的其他效率方面(例如,直接评估搜索结果文档,而不是要求对搜索结果文档进行任何预处理等)。
折扣函数与密度函数
如本文所述,位于相对更靠近所定义的接近度范围的中心定位的查询令牌的查询令牌可被分配相对较大的QTDV,并且位于相对更远离所定义的接近度范围的中心定位的查询令牌的查询令牌可被分配相对较低的QTDV。在这种脉络下,根据本公开的各方面,可在与查询令牌命中集的中心定位的查询令牌相距每个距离增量(例如,令牌/词计数)处应用越来越大的折扣密度值。
根据各方面,可定义折扣函数(discount function,DF)。在一些方面中,DF可以是与中心定位的令牌相距的距离增量(例如,令牌/词计数)的倒数(例如,DF=1/HW)。此处,继续图5的示例,DF可以是0.2(例如,1/5=0.2)。应当理解,可使用更复杂的DF(例如,DF=1/log(HW)、DF=1/(HW)2等)。
进一步在此方面中,可使用应用所计算的DF(例如,QTDV=1+(1-到查询令牌命中的距离)(DF))的密度函数来计算可分配给查询令牌命的QTDV。此处,继续鉴于图5中的示例,在与第一查询令牌540相距一个距离增量处的查询令牌命中可被分配QTDV“1.8”(例如,1+(1-(1)(0.2))=1.8)。类似地,在与第一查询令牌540相距2个、3个、4个和5个距离增量处的查询令牌命中可分别被分配QTDV“1.6”、“1.4”、“1.2”和“1.0”(例如,朝向所定义的接近度范围530的开始和结尾)。应当理解,可使用更复杂的密度函数(例如,线性、概率、比较词到向量[word2vec]余弦、BERT等)。
测试基于查询项密度(QTD)的算法
折扣累积增益(Discounted Cumulative Gain,DCG)是用于评估搜索结果排序的质量和/或搜索引擎算法的有效性的指标。因此,本文评估本公开的基于QTD的算法的DCG。
假设将本公开的基于QTD的算法应用于自然语言搜索查询将导致改进的人类DCG(hDCG)(通过将来自人类主题专家的评级进行统计性地组合所确定的相关性排序)和参与DCG(eDCG)分数(通过将来自用户/客户的评级进行统计性地组合所确定的相关性排序)。下面的表1详细说明了样本查询及其相对应的初始QTD hDCG结果。在此类方面中,三(3)名独立的主题专家在盲测过程中将总共40个查询评级为二十(20)的排序深度。
Figure BDA0003428688910000171
表1:初始选择的QTD hDCG结果
下面的表2详细说明了相对应的初始QTD hDCG基线测试结果。在此类方面中,三(3)名独立的主题专家在盲测过程中将一千零八十六(1086)个查询评级为十(10)的深度。
Figure BDA0003428688910000172
表2:初始QTD hDCG基线测试
基于QTD的算法调整
本公开的各方面可包括调整如本文所述的QTDV(例如,对应于查询令牌命中集中的一对查询项)和/或QTDS(例如,查询令牌命中集的组合的QTDV)。在此类方面中,可分析在所定义的接近度范围内但不在搜索查询中的令牌/词(例如,非查询令牌)。
在一个方面中,可基于围绕特定查询令牌(例如,中心定位的查询令牌、查询令牌命中集中的另一令牌)的文本(例如,令牌)使QTDV和/或QTDS权重更高或更低。例如,如果该文本/令牌在所定义的接近度范围内,则与该特定查询令牌相关联的QTDV和/或QTDS可以权重更高或更低。
在另一方面中,可基于高值文本或低值文本而分别使QTDV和/或QTDS权重更高或更低(例如,可应用乘法器[例如,1.3等])。根据各方面,高值文本可包括例如,引用(例如,法庭意见、法规等)、数据库内找到的实体(例如,特定人物、地点等)、
Figure BDA0003428688910000181
链接、KeyciteTM标志、语义事实(例如,美国2019年国内生产总值等)。此处,例如,如果特定人物的姓名是所定义的接近度范围内的令牌,则与该查询令牌命中集相关联的QTDV和/或QTDS的权重可比不包括该特定人物姓名的查询令牌命中集的权重更高或更低。
在又一方面中,可基于表现出强烈情感或情绪的情绪分析项和/或令牌而使QTDV和/或QTDS权重更高或更低。在一些方面中,如果积极或消极情绪项(例如,诉讼、传票等)或表现出强烈积极或消极情感的令牌在所定义的接近度范围内,则与该查询令牌命中集相关联的QTDV和/或QTDS可分别比那些不在所定义的接近度范围内的QTDV和/或QTDS权重更高或更低。
在进一步的方面中,可基于所定义的接近度范围内的其他令牌(例如,文件中的隐藏标记、不在搜索查询中的特定项、文档的不期望的方面[例如,源、内容类型、过期日期等]等)使QTDV和/或QTDS权重更高或更低。
在又进一步的方面中,可基于文档字段(例如,文档的标题段、批注段、正文段等)使QTDV和/或QTDS权重更高或更低。如果查询令牌在特定文档字段内,则可以使与该查询令牌相关联的QTDV和/或QTDS权重更高或更低。
在更进一步的方面中,当查询令牌在搜索结果文档中按顺序(例如,搜索查询顺序)出现时,当查询令牌的同义词(例如,狗或犬科动物)被发现在所定义的接近度范围内时等,可以使QTDV和/或QTD的权重更高。
基于QTD的算法扩展
根据本发明的各个方面,所计算的QTDV(例如,对应于查询令牌命中集中的一对查询项)、QTDS(例如,查询令牌命中集的组合的QTDV)和/或DDS(例如,文档的组合的QTDS)可用于触发其他事件(例如,面显示[例如,界面中的侧边显示]、用户界面(UI)更改,以增强文档内容[例如,下划线、突出显示]等)。在一些方面中,本文所讨论的调整中的一个或多个(例如,权重)可触发另一事件。因此,本文考虑所计算的QTDV、QTDS和/或DDS的权重和扩展的各种组合。
QTD作为搜索度量
根据本发明的进一步的方面,所计算的QTDV(例如,对应于查询令牌命中集中的一对查询项)、QTDS(例如,查询令牌命中集的组合的QTDV)和/或DDS(例如,文档的组合的QTDS)可用作文档、搜索引擎结果页面(SERP)、数据集等的精度和/或相关性度量(例如,QTD用作相关性标尺而不是用于排序或重新排序方法)。
在一些方面中,以其最基本的形式,可对照从搜索引擎的算法堆栈626(图6)的另一算法导出的搜索结果来评估如本文所述的从QTD算法导出的搜索结果。
根据各方面,可将针对SERP中的多个文档中的每个文档所计算的DDS用作原始分数。在此类方面中,原始分数可以以类似于相关性计算方法的方式使用,相关性计算方法包括项频率逆文档频率(term frequency-inverse document frequency,TF-IDF)和/或Okapi最佳匹配25(BM25)。
在进一步的方面中,可为SERP(例如,经由搜索引擎用户界面等)选择最大排序值(例如,最多20个搜索结果)。在此类方面中,可对初始搜索结果的每个文档计算DDS。此处,具有将其置于最大排序值处或最大排序值之上的DDS的每个搜索结果文档可被分配到其相应的排序指数,来为SERP中的每个排序(例如,1-20)创建双重排序QTD值。在此类方面中,可进一步评估经排序的DDS。在一些方面中,如果DDS随排序单调地减少,则搜索结果可以表现出有序的相关性和精度。在其他方面中,如果DDS不随排序单调地减少(例如,排序包括一个或多个异常DDS),则在(多个)异常排序处的搜索结果、(多个)错位文档、(多个)不可访问文档等内可能存在精度失效。
在又进一步的方面中,DDS可用于测量SERP的整体相关性。具体地,可(例如,经由搜索引擎用户界面等)为SERP选择最大排序值(例如,最多20个搜索结果),可为初始搜索结果的每个文档计算DDS,并且具有位于最大排序值处或最大排序值之上的DDS的每个搜索结果文档可被分配排序(例如,1-20)。此处,可对经排序的搜索结果文档的DDS求和以生成总体SERP QTD分数。进一步在此类方面中,可评估排序中的各种DDS(例如,特定排序处的DDS、中间DDS排序对等)。例如,可提取排序3、5、10和20处的每个文档的DDS,以评估和比较每个排序处的行为(例如,类似于在SERP的各个级别处计算DCG以区分精度的方式)。在另一示例中,中间DDS排序对(例如,排序3和排序4)可与另一相关性度量(例如,DCG、精度、ERR等)进行比较,以对照其他相关性度量方法中固有的计算假设验证基于QTD的假设(例如,相对较高的查询项密度与相对较高的搜索结果文档相关性成比例)或突出显示异常结果。
在更进一步的方面中,DDS可用于限制召回。这里,如本文所述,针对单个搜索结果文档所计算的DDS、计算成最大排序值的DDS和/或用于计算总体SERP QTD分数的DDS可用于确定最小精度阈值(例如,基于QTD的精度)。在此类方面中,具有低于最小精度阈值的DDS的搜索结果文档可被视为不重要或不相关(例如,特别是当与低的或不重要的TF/IDF分数和/或BM25分数相关时),并从SERP中去除(例如,将总体搜索查询的召回降低到仅有更重要的结果)。例如,如果最小精度阈值为“5”,则可去除DDS为“3”的5000个文档,以使系统相对更快地呈现更相关的结果。在一些方面中,可确定精度下降(例如,低于最小精度阈值)的平均排序(例如,以类似于TF/IDF和/或BM25的方式,为比较而进行归一化)以适当地限制召回。
QTD搜索算法系统
图6描绘了根据本公开的各方面的用于执行QTD搜索算法以响应于搜索查询和搜索查询语境提供经QTD排序的文档的说明性QTD系统600。参考图6,QTD系统600可包括多个客户端设备602A-602N、搜索应用设备604、搜索引擎设备606和网络608。鉴于图6,多个客户端设备602A-602N、搜索应用设备604和搜索引擎设备606可经由网络608通信地耦合。此处,应当理解,尽管图6中描绘了特定数量的部件,但是QTD系统600可包括任意数量的这些部件。此外,QTD系统600的一个或多个部件提供的功能可组合到一个部件中,或者可分布在多个部件上。例如,可使用包括若干个主服务器以及若干个备份服务器的服务器场来实现搜索应用设备604和/或搜索引擎设备606。另外,搜可通过跨多个服务器分布本文所讨论的各种处理步骤来实现索应用设备604和/或搜索引擎设备606。类似地,每个客户端设备602A-602N、搜索应用设备604和/或搜索引擎设备606的功能可以组合到单个设备中。应当理解,可通过如图所示组织的计算机设备或工作站、以分布式处理系统架构组织的计算机设备或工作站、或以软件、硬件和/或固件的无数合适的组合组织的计算机设备或工作站来实现所公开的方面。
根据本公开的各方面,网络608可以是共享、公共和/或专用网络,可涵盖广域网或局域网,和/或可通过有线和/或无线通信网络的任何合适的组合来实现。在一些方面中,网络608可包括内联网或互联网。
根据本文所述的方面,搜索应用设备604可包括计算机设备(例如,网络计算机、服务器、大型机等)。在一些方面中,搜索应用设备604可被配置为被具体设计为用于执行本文中所述的功能的专用计算机(例如,特定机器)。例如,所公开的处理步骤中的一个或多个可在现场可编程门阵列(“FPGA”)、专用集成电路(“ASIC”)或合适的芯片组上实现。搜索应用设备604可包括可由计算机程序选择性地激活和/或重新配置的一个或多个处理器610。特别地,处理器610可通过从存储器612读取程序指令并执行程序指令来执行与所公开的方面一致的步骤或方法。存储器612可包括非瞬态计算机可读介质,该非瞬态计算机可读介质包括存储数据以及计算机程序/软件的一个或多个存储器(例如,RAM、ROM等)或存储设备(例如磁存储器)。存储器612可存储程序模块,当由处理器610执行程序模块时,这些程序模块执行本文所讨论的一个或多个步骤。根据本公开的各方面,搜索应用设备604可包括被配置为从用户接收搜索查询和搜索查询语境的搜索应用614(例如,存储在存储器612中)。特别地,搜索应用614可被配置为提供一个或多个图形用户界面(GUI)以接收用户查询输入。根据各方面,鉴于图6,搜索应用614可生成搜索查询界面616和/或搜索查询语境界面618以供用户与搜索应用614交互。在一些方面中,搜索查询界面616和搜索查询语境界面618可被组合到一个界面中。
根据本文所述的方面,搜索引擎设备606可包括计算机设备(例如,网络计算机、服务器、大型机等)。在一些方面中,搜索引擎设备606可被配置为被具体设计为用于执行本文中所述的功能的专用计算机(例如,特定机器)。例如,所公开的处理步骤中的一个或多个可在现场可编程门阵列(“FPGA”)、专用集成电路(“ASIC”)或合适的芯片组上实现。搜索引擎设备606可包括可由计算机程序选择性地激活和/或重新配置的一个或多个处理器620。特别地,处理器620可通过从存储器622读取程序指令并执行程序指令来执行与所公开的方面一致的步骤或方法。存储器622可包括非瞬态计算机可读介质,该非瞬态计算机可读介质包括存储数据以及计算机程序/软件的一个或多个存储器(例如,RAM、ROM等)或存储设备(例如,磁存储器)。存储器622可存储程序模块,当由处理器620执行程序模块时,这些程序模块执行本文所讨论的一个或多个步骤。搜索引擎设备606可进一步包括搜索引擎624,如本文所述,搜索引擎624被配置(例如,处理器、存储器、程序指令、固件等)为处理/执行(例如,从搜索应用设备604接收的)搜索查询和搜索查询语境以生成搜索引擎结果页面(SERP)636。此处,生成的SERP 636可存储在搜索结果数据库638中(例如,以人类可读的形式,用于进一步处理)和/或直接发送到搜索应用设备604(例如,以人类可读的形式,用于传输到客户端设备602A-602N)。此处,尽管搜索结果数据库638被描绘为搜索引擎设备606的一部分,但搜索结果数据库638可位于搜索引擎设备606的外部(例如,可经由网络608访问)和/或可以是搜索引擎624的一部分。此外,尽管搜索引擎624被描绘为搜索引擎设备606内的单独部件,但搜索引擎624可以是可从存储器622执行的计算机程序。根据各种方面,搜索引擎624可包括搜索算法堆栈626,该搜索算法堆栈626包括可执行的多个搜索算法628A-628N(例如,并列地或顺序地,取决于搜索引擎624和内容构造),以从(多个)语料库数据库630标识搜索结果文档。特别地,搜索算法堆栈626可包括QTD搜索算法628A,以标识从(多个)语料库630标识搜索结果文档并对其进行排序/重新排序,如本文所述。根据各方面,多个搜索算法628A-628N中的一个或多个可在执行期间调用附加参数(例如,默认设置、效率或性能的加持、搜索引擎特定参数、在扩展功能中使用的参数、在(多个)语料库数据库630中存在或不存在内容或元数据时使用的参数等)。在此类方面中,(例如,在执行相应搜索算法628A-628N之前和/或期间)可从搜索引擎参数数据库637读入附加参数。例如,关于本公开的QTD搜索算法628A,可以从搜索引擎参数数据库637和/或搜索查询语境界面618检索此类附加参数和/或(多个)QTD特定参数639(例如,默认QTD参数、经由如本文所述的搜索查询语境界面618接收的参数等)(例如,以执行QTD搜索算法628A)。为了说明的目的,用户可输入情绪分析搜索查询,并且可定义/输入一系列负面情绪词作为隐藏项来用作QTD查询的一部分。此处,指示搜索查询旨在返回负面情绪结果的标志可包括在搜索查询语境界面618中,以触发将输入隐藏负面项用作QTD特定参数。根据一些方面,搜索算法堆栈626可进一步包括默认排序算法628B,以对来自(多个)语料库数据库630的搜索结果文档进行初始排序,如本文所述。例如,搜索引擎624可执行默认排序算法628N,以基于文档匹配的多个不同查询对搜索结果文档进行初始排序(例如,匹配更多查询的文档可能比匹配更少查询的文档排序更高)。在其他方面中,默认排序算法628N可初始地基于文档年龄、引用方式、指向/来自文档的指针等对搜索结果文档进行排序。
尽管语料库数据库630被描绘为搜索引擎设备606的外部,但是应当理解,搜索引擎设备606可包括(多个)语料库数据库630。在一些方面中,(多个)语料库数据库630可容纳在可经由网络608访问的分离的计算机设备631上。根据各方面,每个语料库数据库630可包括内容(例如,文档)以及与每个相应内容相关联的元数据。
鉴于图6,搜索应用设备604和搜索引擎设备606被描绘为QTD系统600的分离的部件。然而,在一些方面中,搜索应用设备604和搜索引擎设备606可被组合为一个搜索设备632(在虚线框中被描绘为可选的)。
根据本文所述的各方面,多个客户端设备602A-602N可包括计算机设备(例如,个人计算机、手机、网络计算机、服务器、大型机等)。在一些方面中,多个客户端设备602A-602N中的每个客户端设备可被配置为被具体设计为用于执行本文中所述的功能的专用计算机(例如,特定机器)。例如,所公开的处理步骤中的一个或多个可在现场可编程门阵列(“FPGA”)、专用集成电路(“ASIC”)或合适的芯片组上实现。多个客户端设备602A-602N中的每个客户端设备可包括可由计算机程序选择性地激活和/或重新配置的一个或多个处理器640A-640N。特别地,每个处理器640A-640N可通过读取来自存储器642A-642N的程序指令并执行程序指令来执行与所公开的方面一致的步骤或方法。存储器642A-642N可包括非瞬态计算机可读介质,该非瞬态计算机可读介质包括存储数据以及计算机程序/软件的一个或多个存储器(例如,RAM、ROM等)或存储设备(例如,磁存储器)。存储器642A-642N可存储程序模块,当由处理器640A-640N执行程序模块时,这些程序模块执行本文所讨论的一个或多个步骤。
在一些方面中,客户端设备602A可进一步包括例如,网页浏览器应用644A(例如,存储在存储器642A中),网页浏览器应用644A被配置为在客户端设备602A的显示器上呈现包括一个或多个网络页面的浏览器界面(例如,基于网络的界面)。特别地,网页浏览器应用644A可呈现由搜索应用设备604的搜索应用614(例如,经由网络608)提供的包括搜索查询界面616和/或搜索查询语境界面618的网络页面。在此类方面中,用户(例如,客户端设备602A的用户)可经由搜索查询界面616和/或搜索查询语境界面618与搜索应用614交互,以执行如本文所述的搜索查询(例如,通过将搜索字符串输入搜索查询界面616中和/或将搜索参数输入搜索查询语境界面618中)。在一些方面中,客户端设备602A可一次性提交多个搜索查询(例如,经由搜索应用设备604的搜索应用614)。如本文所述,客户端设备602A可响应于搜索查询的执行从搜索应用设备604(例如,经由网络608)接收SERP 636,并经由浏览器界面向用户呈现SERP 636。在其他方面,客户端设备602A可进一步包括基于客户端的搜索应用645A(例如,类似于本文所述的搜索应用614),以直接(例如,经由网络608)与搜索引擎设备606交互以执行搜索查询并查看搜索结果,如本文所述。
在其他方面中,客户端设备602N可进一步包括自动搜索应用647N(例如,存储在存储器642N中的软件测试框架、编译器脚本应用等),自动搜索应用647N被配置为(例如,经由应用编程界面等)与搜索应用设备604的搜索应用614直接交互,以执行搜索查询(例如,以自动方式)并接收搜索结果,如本文所述。
仍然参考图6,搜索应用设备604的搜索查询界面616可包括用于搜索(多个)语料库数据库630中的文档的各种用户界面元素。例如,搜索查询界面616可包括查询文本框(未示出),用户可在查询文本框处输入包括搜索项、数字、符号的搜索字符串,和/或经由自然语言(例如,无布尔逻辑运算符)或结构化语言(例如,经由布尔逻辑运算符连接的搜索项)查找的内容(例如,标记)的其他描述符。搜索查询界面616可进一步包括用于(例如,经由搜索应用设备604)将搜索查询提交给搜索引擎624的搜索按钮(未示出)。搜索查询界面616可进一步显示如本文所述排序的与用户的搜索查询匹配的(多个)SERP 636。
进一步鉴于图6,搜索应用设备604的搜索查询语境界面618可包括用于设置与搜索查询相关联的参数的各种用户界面元素。例如,搜索查询语境界面618可包括下拉框(未示出)、过滤器等,用户可在该下拉框(未示出)、过滤程序处选择与搜索查询相关联的参数。可选参数可包括所定义的接近度范围、要排序或重新排序的最大文档排序值、要搜索的(例如,在(多个)语料库数据库630或其他指定数据库中)一个或多个语料库的描述、要执行的搜索算法堆栈626的默认搜索算法(例如,和相关联的参数)、要执行的搜索算法堆栈626的专用和/或非默认搜索算法(例如,和相关联的参数)(例如,如本文所述的QTD搜索算法628A)、与搜索相关联的元数据(例如,日期、用户标识、内容限制或封禁、扩展查询、查询意图信息等)等。
QTD搜索度量系统
仍然参考图6,根据本公开的各方面,QTD系统600还可用作QTD搜索度量系统,以提供如本文所述的搜索结果文档、SERP 636等的相关性度量。在此类方面中,用户(例如,经由客户端设备602A)和/或自动搜索应用647N(例如,经由客户端设备602N)可与搜索应用设备604的搜索应用614交互,以同时执行搜索查询的分组或列表。在一个示例中,自动搜索应用647N可包括搜索测试应用,在该搜索测试应用处,QTD用作度量,以在SERP 636中显示每个搜索文档结果的相关性结果。在另一示例中,自动搜索应用程序647N可包括使用搜索查询的组或列表进行回归测试或比较测试的编译器脚本。
根据各方面,搜索应用614的搜索查询界面616可包括用于输入搜索查询的分组或列表的各种用户界面元素。例如,搜索查询界面616可包括用于在搜索查询的每个分组或每个列表中输入多个搜索查询的多个文本框(未示出),用于在搜索查询的每个分组或列表中剪切和粘贴多个搜索查询的一个或多个相对较大的文本框,用于在搜索查询的每个分组或每个列表中上传多个搜索查询的上传按钮等。进一步在此类方面中,搜索应用614的搜索查询语境界面618可包括用于设置与搜索查询的每个分组或每个列表相关联的参数的各种用户界面要素(例如,使得搜索查询的每个相应分组或列表中的每个查询被相同地处理)。例如,搜索查询语境界面618可包括用于输入与搜索查询的每个分组或每个列表相关联的查询标识符和/或语境元数据的(多个)文本框(未示出),以及下拉框(未示出)、过滤器等,用户可在其中选择与搜索查询的每个分组或每个列表相关联的参数。在一些方面中,与搜索查询的分组或列表相关联的参数可与搜索查询的另一分组或列表相同。在其他方面中,与搜索查询的分组或列表相关联的参数特定于该分组或列表(例如,查询集的标识符或名称、查询集的(多个)源、查询集的描述等)。在一些方面中,以应用顺序或优先级优先的一组参数可以是QTD特定(多个)参数集639。
根据各方面,作为QTD搜索度量系统,可经由搜索查询界面616和搜索查询语境界面618以顺序方式(例如,经由搜索应用设备604)提交搜索查询的每个分组或每个列表,以供由如本文所述的搜索引擎设备606的搜索引擎624执行。在此类方面中,与搜索查询的每个分组或每个列表的每个搜索查询相对应的SERP可保存在搜索结果数据库638中,以用于如本文所述的后续度量分析。
现在应当理解,本文所述的系统和方法通过分析每个电子文档内查询令牌彼此之间的接近度来对搜索结果的电子文档进行排序或重新排序。更具体地,本文所述的系统和方法基于搜索字符串的查询令牌(例如,自然语言搜索字符串)和所定义的接近度范围内的每个查询令牌与其他查询令牌的接近度对搜索结果文档进行排序或重新排序,以生成改进的搜索引擎结果集。在呈现给用户的搜索结果列表中,首先呈现更相关的电子文档。
尽管本文示出和描述了特定实施例,但应理解可作出其他变更和修改而不偏离所要求保护主题的精神和范围。此外,虽然本文中已经描述了所要求保护的主题的各个方面,但不需要以组合的方式来利用这些方面。因此,所附权利要求旨在涵盖所要求保护的主题的范围内的所有此类变更和修改。

Claims (20)

1.一种用于对电子文档进行排序的系统,所述系统包括:
搜索应用设备,包括:
处理器和非瞬态计算机可读介质,所述非瞬态计算机可读介质包括程序指令,当由所述处理器执行时,所述程序指令使得所述处理器:
经由一个或多个图形用户界面从客户端设备接收搜索查询和搜索查询语境;以及
搜索引擎设备,包括:
处理器和非瞬态计算机可读介质,所述非瞬态计算机可读介质包括程序指令,当由所述处理器执行时,所述程序指令使得所述处理器:
基于所述搜索查询和所述搜索查询语境确定搜索结果;
从所述搜索查询提取查询令牌;
确定所述搜索结果的每个文档内的一个或多个查询令牌命中集,其中每个查询令牌命中集包括在所定义的接近度范围内的中心定位的查询令牌的所定义的接近度范围内的一个或多个查询令牌命中;
为每个文档内的每个查询令牌命中集确定每个查询令牌命中和中心定位的查询令牌之间的查询令牌密度值(QTDV),其中每个QTDV基于每个查询令牌命中和每个查询令牌命中的所述中心定位的查询令牌之间的距离;
为每个文档内每个查询令牌命中集确定查询令牌密度分数(QTDS);
为每个文档确定文档密度分数(DDS);
基于为所述搜索结果内的每个文档确定的所述DDS对每个文档进行排序或重新排序;以及
将经排序或重新排序的搜索引擎结果页面传送到所述搜索应用设备,以经由所述客户端设备呈现。
2.如权利要求1所述的系统,其特征在于,所述距离基于每个查询令牌命中和每个查询令牌命中的所述中心定位的查询令牌之间的词或令牌的计数。
3.如权利要求1所述的系统,其特征在于,查询令牌命中集在所述中心定位的查询令牌的所定义的接近度范围内包括多个查询令牌命中,并且其中当由所述搜索引擎设备的所述处理器执行时,所述程序指令进一步使得所述处理器:
将相对较高的QTDV分配给相对更靠近所述查询令牌命中集的所述中心定位的查询令牌的查询令牌命中;以及
将相对较低的QTDV分配给相对更远离所述查询令牌命中集的所述中心定位的查询令牌的查询令牌命中。
4.如权利要求3所述的系统,其特征在于,与所述中心定位的查询令牌相距的每个距离增量与越来越折扣的密度值相关联。
5.如权利要求3所述的系统,其特征在于,每个QTDV基于密度函数,所述密度函数将折扣函数应用于与所述中心定位的查询令牌相距的每个距离增量。
6.如权利要求5所述的系统,其特征在于,所述折扣函数是下列中的一者:1/HW、1/(logHW)或1/(HW)2,其中HW是等于所定义的接近度范围的一半的半宽度。
7.如权利要求1所述的系统,其特征在于,与所述中心定位的查询令牌相距的每个距离增量与降低的权重值相关联。
8.如权利要求7所述的系统,其特征在于,查询令牌命中集包括所述中心定位的查询令牌的所定义的接近度范围内的一个查询令牌命中,并且其中当由所述搜索引擎设备的所述处理器执行时,所述程序指令进一步使得所述处理器:
基于所述降低的权重值将QTDV分配给所述查询令牌命中集。
9.如权利要求1所述的系统,其特征在于,查询令牌命中集不包括所述中心定位的查询令牌的所定义的接近度范围内的查询令牌命中,并且其中当由所述搜索引擎设备的所述处理器执行时,所述程序指令进一步使得所述处理器:
将等于零的QTDV分配给所述查询令牌命中集。
10.如权利要求1所述的系统,其特征在于,当由所述搜索引擎设备的所述处理器执行时,所述程序指令进一步使得所述处理器:
基于以下各项中的一项或多项调整至少一个所确定的QTDV:
所定义的接近度范围内的重复的查询令牌,
在所定义的接近度范围内的包括引用、实体、链接、标志、语义事实或情绪项的标记;
特定文档字段内的查询令牌;以及
在所述文档中以与所述搜索查询中相同的顺序的查询令牌。
11.如权利要求1所述的系统,其特征在于,对所述搜索结果内的每个文档进行排序或重新排序进一步包括基于每个文档在初始搜索结果中的相应排序对每个文档进行提高或去提高。
12.如权利要求1所述的系统,其特征在于,当由所述搜索引擎设备的所述处理器执行时,所述程序指令进一步使得所述处理器:
将为每个文档所确定的所述DDS用作相关性度量以相对于最大排序值对所述搜索结果进行排序或重新排序,以测量所述经排序或重新排序的搜索引擎结果页面的总体相关性,或从所述经排序或重新排序的搜索引擎结果页面去除文档。
13.如权利要求1所述的系统,其特征在于,当由所述搜索引擎设备的所述处理器执行时,所述程序指令进一步使得所述处理器:
经由搜索查询语境界面接收所定义的接近度范围、要搜索的语料库数据库、用于进行排序或重新排序的最大文档排序值或要应用的搜索算法中的至少一者。
14.一种搜索引擎,包括:
处理器和非瞬态计算机可读介质,所述非瞬态计算机可读介质包括程序指令,当由所述处理器执行时,所述程序指令使得所述处理器:
执行搜索查询和搜索查询语境以确定初始搜索结果;
从所述搜索查询提取查询令牌;
提取所定义的接近度范围;
确定所述初始搜索结果的每个文档内的一个或多个查询令牌命中集,其中每个查询令牌命中集包括在所定义的接近度范围内的中心定位的查询令牌的所定义的接近度范围内的一个或多个查询令牌命中;
为每个文档内的每个查询令牌命中集确定每个查询令牌命中和中心定位的查询令牌之间的查询令牌密度值(QTDV),其中每个QTDV基于每个查询令牌命中和每个查询令牌命中的所述中心定位的查询令牌之间的距离;
为每个文档内每个查询令牌命中集确定查询令牌密度分数(QTDS);
为每个文档确定文档密度分数(DDS);以及
基于为所述初始搜索结果内的每个文档确定的所述DDS对每个文档进行重新排序,以生成经重新排序的搜索引擎结果页面。
15.如权利要求14所述的搜索引擎,其特征在于,当由所述处理器执行时,所述程序指令进一步导致所述处理器:
将所述经重新排序的搜索引擎结果页面传送到所述搜索应用设备或搜索引擎结果数据库中的至少一者。
16.如权利要求14所述的搜索引擎,其特征在于,所述距离基于每个查询令牌命中和每个查询令牌命中的所述中心定位的查询令牌之间的词或令牌的计数。
17.如权利要求14所述的搜索引擎:
其中当查询令牌命中集:
在所述中心定位的查询令牌的所定义的接近度范围内包括多个查询令牌命中时,所述程序指令进一步使得所述处理器:
将相对较高的QTDV分配给相对更靠近所述查询令牌命中集的所述中心定位的查询令牌的查询令牌命中;以及
将相对较低的QTDV分配给相对更远离所述查询令牌命中集的所述中心定位的查询令牌的查询令牌命中;
在所述中心定位的查询令牌的所定义的接近度范围内包括一个查询令牌命中时,所述程序指令进一步使得所述处理器:
基于权重值将QTDV分配给所述查询令牌命中集,所述权重值随着与所述中心定位的查询令牌相距的每个距离增量而减小;以及
在所述中心定位的查询令牌的所定义接近度范围内不包括查询令牌命中时,所述程序指令进一步使得所述处理器:
将等于零的QTDV分配给所述查询令牌命中集。
18.如权利要求14所述的搜索引擎,进一步包括:
搜索引擎参数数据库,其中从所述搜索引擎参数数据库提取所定义的接近度范围。
19.一种用于对电子文档进行排序的计算机实现的方法,所述方法包括:
经由搜索应用设备接收搜索查询和搜索查询语境;
经由搜索引擎,基于所述搜索查询和所述搜索查询语境确定搜索结果;以及
执行所述搜索引擎的查询令牌密度算法,以:
从所述搜索查询提取查询令牌;
确定所述搜索结果的每个文档内的一个或多个查询令牌命中集,其中每个查询令牌命中集包括在所定义的接近度范围内的中心定位的查询令牌的所定义的接近度范围内的一个或多个查询令牌命中;
为每个文档内的每个查询令牌命中集确定每个查询令牌命中和中心定位的查询令牌之间的查询令牌密度值(QTDV),其中每个QTDV基于每个查询令牌命中和每个查询令牌命中的所述中心定位的查询令牌之间的距离;
为每个文档内的每个查询令牌命中集确定查询令牌密度分数(QTDS);
为每个文档确定文档密度分数(DDS);
基于为每个文档确定的所述DDS对所述搜索结果内的每个文档进行排序或重新排序;以及
将经排序或重新排序的搜索引擎结果页面传送到所述搜索应用设备,以经由客户端设备呈现。
20.如权利要求19所述的计算机实现的方法,进一步包括:
当查询令牌命中集:
在所述中心定位的查询令牌的所定义的接近度范围内包括多个查询令牌命中时:
将相对较高的QTDV分配给相对更靠近所述查询令牌命中集的所述中心定位的查询令牌的查询令牌命中;以及
将相对较低的QTDV分配给相对更远离所述查询令牌命中集的所述中心定位的查询令牌的查询令牌命中;
在所述中心定位的查询令牌的所定义的接近度范围内包括一个查询令牌命中时:
基于权重值将QTDV分配给所述查询令牌命中集,所述权重值随着与所述中心定位的查询令牌相距的每个距离增量而减小;或者
在所述中心定位的查询令牌的所定义的接近度范围内不包括查询令牌命中时:
将等于零的QTDV分配给所述查询令牌命中集。
CN202080046123.2A 2019-04-23 2020-04-23 基于查询令牌密度对电子文档进行排序的系统和方法 Pending CN114175012A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962837428P 2019-04-23 2019-04-23
US62/837,428 2019-04-23
PCT/US2020/029543 WO2020219688A1 (en) 2019-04-23 2020-04-23 Systems and methods for ranking electronic documents based on query token densities

Publications (1)

Publication Number Publication Date
CN114175012A true CN114175012A (zh) 2022-03-11

Family

ID=72917120

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080046123.2A Pending CN114175012A (zh) 2019-04-23 2020-04-23 基于查询令牌密度对电子文档进行排序的系统和方法

Country Status (4)

Country Link
US (1) US12072896B2 (zh)
EP (1) EP3959623A4 (zh)
CN (1) CN114175012A (zh)
WO (1) WO2020219688A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11281854B2 (en) * 2019-08-21 2022-03-22 Primer Technologies, Inc. Limiting a dictionary used by a natural language model to summarize a document
US12045243B2 (en) 2021-12-04 2024-07-23 International Business Machines Corporation Ranking entity search results based on information density

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6243713B1 (en) * 1998-08-24 2001-06-05 Excalibur Technologies Corp. Multimedia document retrieval by application of multimedia queries to a unified index of multimedia data for a plurality of multimedia data types
US7716216B1 (en) * 2004-03-31 2010-05-11 Google Inc. Document ranking based on semantic distance between terms in a document
US10803126B1 (en) * 2005-01-13 2020-10-13 Robert T. and Virginia T. Jenkins Method and/or system for sorting digital signal information
KR100818553B1 (ko) * 2006-08-22 2008-04-01 에스케이커뮤니케이션즈 주식회사 문서랭킹 부여방법 및 이를 수행할 수 있는 프로그램이수록된 컴퓨터로 읽을 수 있는 기록 매체
NO325864B1 (no) 2006-11-07 2008-08-04 Fast Search & Transfer Asa Fremgangsmåte ved beregning av sammendragsinformasjon og en søkemotor for å støtte og implementere fremgangsmåten
US20080195586A1 (en) * 2007-02-09 2008-08-14 Sap Ag Ranking search results based on human resources data
US7853603B2 (en) * 2007-05-23 2010-12-14 Microsoft Corporation User-defined relevance ranking for search
US20100191758A1 (en) 2009-01-26 2010-07-29 Yahoo! Inc. System and method for improved search relevance using proximity boosting
US8180783B1 (en) 2009-05-13 2012-05-15 Softek Solutions, Inc. Document ranking systems and methods
US8176044B2 (en) * 2009-07-20 2012-05-08 Lexisnexis Fuzzy proximity boosting and influence kernels
EP3115913B1 (en) 2011-05-10 2018-03-14 Uber Technologies, Inc. Systems and methods for performing search and retrieval of electronic documents using a big index
US9779141B2 (en) * 2013-12-14 2017-10-03 Microsoft Technology Licensing, Llc Query techniques and ranking results for knowledge-based matching
US10031913B2 (en) 2014-03-29 2018-07-24 Camelot Uk Bidco Limited Method, system and software for searching, identifying, retrieving and presenting electronic documents
US10372745B2 (en) * 2016-10-03 2019-08-06 International Business Machines Corporation Computing the value of information between concepts

Also Published As

Publication number Publication date
EP3959623A4 (en) 2022-12-21
US20200341990A1 (en) 2020-10-29
WO2020219688A1 (en) 2020-10-29
US12072896B2 (en) 2024-08-27
EP3959623A1 (en) 2022-03-02

Similar Documents

Publication Publication Date Title
US11036814B2 (en) Search engine that applies feedback from users to improve search results
US7895235B2 (en) Extracting semantic relations from query logs
US8478749B2 (en) Method and apparatus for determining relevant search results using a matrix framework
US9117006B2 (en) Recommending keywords
US8661031B2 (en) Method and apparatus for determining the significance and relevance of a web page, or a portion thereof
US10354308B2 (en) Distinguishing accessories from products for ranking search results
US10747759B2 (en) System and method for conducting a textual data search
KR20100084510A (ko) 전자 소스로부터 특정 개체와 관련된 정보를 식별하는 방법, 시스템 및 장치
CN111506727B (zh) 文本内容类别获取方法、装置、计算机设备和存储介质
CN107193883B (zh) 一种数据处理方法和系统
US11226946B2 (en) Systems and methods for automatically determining a performance index
CN106407316B (zh) 基于主题模型的软件问答推荐方法和装置
CN109255012A (zh) 一种机器阅读理解的实现方法以及装置
CN114175012A (zh) 基于查询令牌密度对电子文档进行排序的系统和方法
CN115630144A (zh) 一种文档搜索方法、装置及相关设备
JP2011086043A (ja) 単語テーマ関連度算出装置、単語テーマ関連度算出用プログラムおよび情報検索装置
CN107908649A (zh) 一种文本分类的控制方法
España-Bonet et al. Tailoring and evaluating the Wikipedia for in-domain comparable corpora extraction
CN116431895A (zh) 安全生产知识个性化推荐方法及系统
US20140149378A1 (en) Method and apparatus for determining rank of web pages based upon past content portion selections
CN115438155A (zh) 一种基于相关性和重要性的文献搜索排序方法及电子设备
Irshad et al. SwCS: Section-Wise Content Similarity Approach to Exploit Scientific Big Data.
Khelghati Deep web content monitoring
Badie et al. Automatic evaluation of search engines: Using webpages' content, web graph link structure and websites' popularity
Navrat et al. Context search

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination