CN115917529A - 生成标识在web文档中表达的主题之间的关系的图形数据结构 - Google Patents

生成标识在web文档中表达的主题之间的关系的图形数据结构 Download PDF

Info

Publication number
CN115917529A
CN115917529A CN202180041429.3A CN202180041429A CN115917529A CN 115917529 A CN115917529 A CN 115917529A CN 202180041429 A CN202180041429 A CN 202180041429A CN 115917529 A CN115917529 A CN 115917529A
Authority
CN
China
Prior art keywords
topic
document
information
conditional probability
topics
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180041429.3A
Other languages
English (en)
Inventor
李子柳
J·阿梅德
A·奥弗威克
熊砾
刘霄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Publication of CN115917529A publication Critical patent/CN115917529A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种技术基于分散在web文档上的至少部分非结构化信息来产生图形数据结构。该技术涉及将机器训练模型应用于文档(或更一般地,“文档单元”)集合以标识文档中的主题。然后,该技术通过对文档中单个主题的出现和主题配对的共同出现进行计数来生成计数信息。该技术基于计数信息来生成条件概率信息。条件概率信息的实例描述了在给定第二主题的出现的情况下第一主题将出现的概率,以及在给定第一主题的出现的情况下第二主题将出现的概率。然后,该技术在图形数据结构中制定条件概率信息。该技术还提供了一种应用系统,其利用图形数据结构向用户提供任何种类的计算机实现的服务。

Description

生成标识在web文档中表达的主题之间的关系的图形数据结构
背景技术
已经认识到,万维网(World Wide Web)包含可以在各种计算机应用中收获和应用的大量知识。然而,这种知识以潜在的和非结构化的形式存在,经常散布在彼此没有正式关系并且不共享公共域、布局或信息质量的网页上。以可靠和高效的方式从这些非结构化和变化的源中提取知识是困难的。
发明内容
一种技术基于分散在web文档上的至少部分非结构化信息来产生图形数据结构。该技术涉及将机器训练模型应用于文档(或者更一般地,“文档单元”)集合以标识文档中的主题。该技术通过对文档中的单个主题的出现和主题对的共同出现进行计数来生成计数信息。然后,该技术基于计数信息来生成条件概率信息。条件概率信息的实例描述了在给定第二主题在文档中的假定出现的情况下第一主题将出现在文档中的概率,以及在给定第一主题的假定出现的情况下第二主题将出现的概率。然后,该技术在图形数据结构中制定条件概率信息。该图形数据结构包括多个节点和多个边。多个节点表示候选主题集合中的主题,并且连接两个节点的每个边体现了分别与两个节点相关联的两个主题之间的层次关系。
根据另一方面,该技术提供了一种应用系统,其利用图形数据结构向用户提供任何种类的计算机实现的服务。例示性服务包括搜索服务、推荐服务等。例如,应用系统可以包括通过询问图形数据结构来解释由用户提交的输入消息的逻辑。备选地或附加地,应用系统可以包括在用户提交输入消息之前被修改以合并从图形数据结构收集的信息的逻辑。
总之,该技术提供了一种发现分散在web文档中的潜在信息的资源高效且可扩展的方式。它是高效的,因为它采用执行确定在web文档中表达的主题的有限任务的流线化的第一阶段,而不试图对主题之间的关系进行建模也不试图考虑不同种类的web文档的广泛变化的特性。它包括同样流线化的第二阶段,该第二阶段将条件概率分析应用于第一阶段的结果以标识在第一阶段中发现的主题之间的关系,而不必对主题执行复杂的语义分析。该技术是可扩展的,因为它可以高效地被应用于大量的web文档;这进而又是可能的,因为该技术消除了开发者开发和更新复杂的机器训练模型的需要,并且因为它消除或减少了人类分析师手动评估web文档的需要。
上述因素还允许该技术以高效的方式消耗计算资源(例如,处理资源、存储器资源和通信资源等)。例如,由于第一阶段不试图对主题之间的关系进行建模,因此它放弃或减少了否则将被应用于该任务的计算资源的使用。
在使用的推断阶段,可以说应用系统在处理用户的请求时高效地使用计算资源。例如,应用系统可以对应于允许用户高效地找到并检索web文档的搜索引擎,或者对应于允许用户高效地将文档存储在数据存储库中的适当位置处的归档引擎。在一些情况下,还可以预期应用系统有助于良好的用户体验,例如通过减少用户完成他或她的任务目标所需的时间和劳动量,和/或减少其提供给用户的不准确响应的数目。
以上概括的技术可以在各种类型的系统、设备、组件、方法、计算机可读存储介质、数据结构、图形用户界面呈现、制品等中显现。
提供本概述以便以简化的形式介绍一些概念;这些概念将在下面的详细描述中被进一步描述。本概述不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在被用来限制所要求保护的主题的范围。
附图说明
图1示出了用于产生标识由web文档表达的主题的关系的图形数据结构的计算环境的概况。计算环境还使用图形数据结构来产生一个或多个应用系统。
图2示出了其中用户计算设备与经由图1的计算环境产生的应用系统进行交互的例示性计算环境。
图3-图5示出了在本公开中使用的术语“文档单元”的三个相应解释。
图6示出了由图1的计算环境产生的计数信息。
图7示出了用于在图1的计算环境中计算条件概率的技术的简化示例。
图8示出了在这里以表的形式表达的由图1的计算环境产生的图形数据结构的示例。
图9示出了在这里以图的形式表达的由图1的计算环境产生的图形数据结构的另一示例。
图10示出了由图1的计算环境产生的例示性应用系统。
图11示出了主题检测系统的示例,该主题检测系统是图1的计算环境的一个元素。
图12和图13一起示出了用于产生应用系统的过程的一个实现。
图14示出了用于应用经由图12和图13的过程产生的应用系统的过程。
图15示出了关于图12和图13的过程中的操作的进一步细节。
图16示出了可以被用来实现前述附图中所示的特征的任何方面的例示性类型的计算设备。
贯穿公开和附图使用相同的编号来引用类似的组件和特征。系列100编号是指最初在图1中发现的特征,系列200编号是指最初在图2中发现的特征,系列300编号是指最初在图3中发现的特征,依此类推。
具体实施方式
本公开被组织如下。章节A描述了用于创建和应用应用系统的计算机实现的环境,其中应用系统利用表达在web文档中检测到的主题之间的关系的图形数据结构。章节B阐述了解释章节A的计算环境的操作的例示性方法。以及章节C描述了可以被用来实现章节A和章节B中描述的特征的任何方面的例示性计算功能性。
作为初步问题,术语“硬件逻辑电路”对应于包括执行存储在存储器中的机器可读指令的一个或多个硬件处理器(例如,CPU、GPU等)和/或使用固定和/或可编程逻辑门的任务专用集合来执行操作的一个或多个其它硬件逻辑单元(例如,FPGA)的技术。章节C提供关于硬件逻辑电路的一个实现的附加信息。在一些上下文中,术语“组件”、“引擎”、“模块”、“逻辑”、“系统”、“模型”、“机制”和“工具”中的每个指的是执行特定功能的硬件逻辑电路的一部分。
在一种情况下,附图中所图示的将各个部件分离成不同的单元可以反映在实际实现中使用对应的不同的物理和有形部件。备选地或附加地,在附图中所图示的任何单个部件可以由多个实际的物理部件来实现。备选地或附加地,附图中任何两个或更多个单独部件的描绘可以反映由单个实际物理部件执行的不同功能。
其它附图以流程图的形式描述了概念。在这种形式中,某些操作被描述为构成以特定顺序执行的不同块。这样的实现是例示性的而非限制性的。在本文中描述的某些块可以被分组在一起并且在单个操作中执行,某些块可以被分成多个组成块,并且某些块可以以与在本文中所图示的顺序不同的顺序执行(包括并行地执行这些块的方式)。在一个实现中,流程图中示出的与处理相关的功能相关的块可以被认为是相应的逻辑组件,并且可以由章节C中描述的硬件逻辑电路来实现,该硬件逻辑电路进而又可以由一个或多个硬件处理器和/或包括逻辑门的任务专用集合的其他逻辑单元来实现。
至于术语,短语“配置为”涵盖了用于执行所标识的操作的各种物理和有形机制。这些机制可以被配置为使用章节C的硬件逻辑电路来执行操作。本文所描述的任何存储资源或存储资源的任何组合可以被视为计算机可读介质。在许多情况下,计算机可读介质表示某种形式的物理和有形实体。术语计算机可读介质还涵盖例如经由物理管道和/或空气或其它无线介质等传输或接收的传播信号。然而,特定术语“计算机可读存储介质”明确地排除了传播信号本身,而包括所有其它形式的计算机可读介质。
以下解释可以将一个或多个特征标识为“可选”。这种类型的陈述不应被解释为对可以被认为是可选的特征的穷举指示;也就是说,其他特征可以被认为是可选的,尽管在文本中未被明确标识。此外,对单个实体的任何描述并不旨在排除使用多个这样的实体;类似地,对多个实体的描述并不旨在排除使用单个实体。此外,虽然描述可以将某些特征解释为执行所标识的功能或实现所标识的机制的备选方式,但是这些特征也可以以任何组合方式被组合在一起。此外,术语“多个”是指两个或更多个项,并且不一定暗示特定种类的“所有”项,除非另有明确规定。此外,除非另有说明,否则描述符“第一”、“第二”、“第三”等被用来在不同的项之间进行区分,并且不暗示项之间的排序。最后,术语“示例性”或“例示性”是指潜在的许多实现之中的一个实现,并且可以不必是指优选实现。
A.例示性计算环境
A.1.概况
图1示出了用于产生表达在文档单元中出现的主题的条件概率的图形数据结构的计算环境102的概况。计算环境102还部分地基于图形数据结构产生应用系统。应用系统向用户提供某种计算机实现的服务,其示例在下面阐述。
在本文中所使用的术语“文档单元”可以指的是具有指定范围的文档信息。在附图序列中暂时向前跳跃,图3-图5示出了术语文档单元的三个解释。在图3中,文档单元对应于个体web文档302。个体web文档302包括表达主题A和主题B的信息。在图4中,文档单元对应于经由至少一个链接而彼此链接的至少两个web文档的群组。在这里,web文档402表达主题A,而web文档404表达主题B,并且web文档402包括指向web文档404的链接。在图5中,文档单元对应于单个web文档504的部分502。例如,部分502可以对应于表达主题A和B两者的页面的一部分,诸如标题、摘要、单个段落等。术语“文档单元”可以涵盖其它信息范围。然而,为了便于解释,以下描述将经常做出文档单元是指单个web文档的简化假设。对“web文档”的任何后续提及应被解释为更一般地指代具有任何范围的“文档单元”。
图1的计算环境102对经由诸如互联网之类的计算机网络106可访问的一组web文档104进行操作。分布式数据存储库108集合提供这些web文档。web文档本身对应于由诸如互联网之类的广域网所提供的信息单元。例如,web文档可以对应于与任何域相关联的并且具有任何类型和质量的内容的网络可访问页面。
主题检测系统110使用机器训练模型112检测web文档104中的主题。在一种情况下,主题检测系统110例如使用基于推送的方法、基于拉取的方法或其组合直接从分布式数据存储库108接收文档104。备选地或附加地,计算环境102可以执行初步操作:检索文档或检索从文档中提取的信息并将该信息存储在单个信息储存库中,诸如索引;在这里,主题检测系统110可以对该单个信息储存库中提供的文档信息进行操作。
主题检测系统110使用机器训练模型112来确定由每个web文档(或更一般地,哪个文档单元)表达什么主题。子节A.3提供关于主题检测系统110的例示性实现的附加信息。作为介绍,主题检测系统110接收与包含在所考虑的web文档中的单词相关联的一组令牌(token),可选地与包含在该web文档中或者以其他方式与该web文档相关联的其他信息一起接收。基于这些令牌,主题检测系统110使用机器训练模型112来确定由web文档表达的最可能的主题。例如,主题检测系统110可以为一组可能候选主题内的每个候选主题生成概率分数。如果候选主题的概率分数超过规定的特定于环境的阈值,则主题检测系统110可以确定该web文档表达该候选主题。例如,在一个实例中,主题检测系统110可以确定web文档可能表达三个主题:“橄榄球”、“海鹰”和“西雅图”。这是因为主题检测系统110确定这些主题中的每个主题的概率分数高于规定的阈值。
下面阐述主题检测系统110的一些一般特征。首先,主题检测系统110不需要标识web文档的什么(多个)部分表达特定文档。例如,主题检测系统110可以标识web文档属于橄榄球队“海鹰”的主题,而不指定web文档的什么(多个)部分属于该主题。因为主题检测系统110执行有限且流线化的任务,所以它是高效的。
第二,主题检测系统110可以标识语义上重叠的主题。例如,在上述情况下,主题检测系统110将“橄榄球”和“海鹰”标识为由同一web文档所表达的两个主题。在这里,“海鹰”是美国西雅图地区的特定橄榄球队,因此“海鹰”可以被认为是包含在“橄榄球”的一般类别内的子主题。实际上,因为主题检测系统110将网页的内容映射到语义空间中的一个或多个向量,所以主题检测系统110很可能会生成重叠主题。这些向量中的至少一些可能在语义空间中相对靠近在一起(例如,如由余弦相似度或一些其它距离度量所测量),并且因此可能传达相关的概念。
第三,不预期web文档104源自相同的域或包含具有相同质量的内容。例如,web文档104可以包括新闻文章、粉丝博客、产品页面、百科全书类型条目等的各种集合。这样的信息由不同的源产生并且旨在服务于不同的市场和目标。主题检测系统110的这个特性也对其效率做出了贡献。也就是说,主题检测系统110在这方面被说成是高效的,因为它不需要专门的算法或模型变体来虑及不同种类的web文档。
训练系统114在离线训练过程中生成机器训练模型112。此外,训练系统114可以在接收新的训练数据时动态地更新机器训练模型112。关于训练系统114的附加信息在下面的子节A.3中阐述。
主题检测系统110产生它存储在数据存储库116中的计数信息。更具体地,主题检测系统110对多个候选主题中的每个主题在该组web文档内出现的次数进行计数。主题检测系统110还对在该组web文档内共同出现的两个主题的特定组合的次数进行计数。考虑上述示例,其中主题检测系统110确定特定web文档包括主题“橄榄球”、“海鹰”和“西雅图”。在达成该结论时,主题检测系统110将:(1)递增标识表达“橄榄球”主题的web文档的数目的第一计数器;(2)递增标识表达主题“海鹰”的web文档的数目的第二计数器;(3)递增标识网页文档表达主题“西雅图”的次数的第三计数器;(4)递增标识“橄榄球”和“海鹰”主题在web文档中共同出现的次数的第四计数器;(5)递增标识“橄榄球”和“西雅图”主题在web文档中共同出现的次数的第五计数器;以及(6)递增标识主题“海鹰”和“西雅图”在web文档中共同出现的次数的第六计数器。
在一个实现中,主题检测系统110可以可选地生成针对不同文档范围的单独计数。也就是说,在上面阐述的示例中,主题检测系统110为所考虑的文档单元是个体web文档的情况生成计数信息。在这里,当个体web文档包括特定主题或特定主题配对时,主题检测系统110递增计数。在图4的示例中,主题检测系统110可以将两个链接的web文档视为单个文档单元。例如,第一web文档402可以提供包含指向第二web文档404的链接的第一新闻文章。假设第一web文档402包括单词“西雅图”,而第二web文档404包括名称“海鹰”。在检测到这些主题时,主题检测系统110可以:(1)递增标识表达“海鹰”主题的链接的web文档配对的数目的另一个计数器;(2)递增标识表达“西雅图”主题的连接的web文档配对的数目的另一个计数器;以及(3)递增指示标识主题“海鹰”和“西雅图”在链接的web文档配对中出现的次数的另一个计数器。类似地,主题检测系统110可以生成图5的情况的计数,该计数标识主题和主题配对何时出现在web文档的单个部分(诸如文章的单个段落或单个章节等)内。然而,为了便于说明,以下解释将继续强调其中文档单元具有对应于单个web文档的范围的示例。
图形生成系统118基于数据存储库116中提供的计数信息来产生图形数据结构。图形数据结构意指可以被表征为实体集合以及实体之间的关系的任何信息组织。图形数据结构可以将实体表示为节点,并且将关系集合表示为边,每个边连接相应的节点配对。在当前情况下,图形数据结构中的节点表示由主题检测系统110标识的主题。边表示主题之间的层次关系。在上述示例中,图形数据结构可以包括属于“橄榄球”、“海鹰”和“西雅图”主题的至少三个节点。从“橄榄球”指向“海鹰”的链接可以指示“海鹰”是“橄榄球”的子主题。从“西雅图”指向“海鹰”的链接可以指示“海鹰”也是“西雅图”的子主题。如果图形生成系统118确定没有足够的经验证据表明这些主题具有层次关系,则在“西雅图”和“橄榄球”之间可能没有链接(尽管证据可以另外指示不同组的web文档)。
图形生成系统118通过确定例如主题A和主题B的每个配对主题的条件概率信息来确定主题之间的层次关系。更具体地,在给定主题B的假定出现的情况下,图形生成系统118确定主题A将出现在web文档(或更一般地,文档单元)中的条件概率P(A|B)。该条件概率等于主题A和B在同一web文档(或更一般地,同一文档单元)中出现的次数除以主题B在web文档(或更一般地,文档单元)中出现的次数。在给定主题A的假定出现的情况下,图形生成系统118也确定主题B将出现在web文档(或更一般地,文档单元)中的条件概率P(B|A)。该条件概率等于主题A和B在web文档(或更一般地,同一文档单元)中一起出现的次数除以主题A在web文档(或更一般地,文档单元)中出现的次数。
在一个实现中,当P(B|A)低于规定阈值(例如,在一个非限制性情况下为0.5)并且P(A|B)高于该阈值时,图形生成系统118将指示主题B是主题A的子主题。当P(B|A)高于阈值并且P(A|B)低于阈值时,图形生成系统118将指示主题A是主题B的子主题。在一个实现中,存在以下三种备选可能性:(a)在主题之间没有层次关系;(b)主题B是主题A的子主题;或者(c)主题A是主题B的子主题。图形生成系统118将图形数据结构存储在数据存储库120中。该阈值本质上是环境特定的,并且可以基于由特定组的web文档所提供的经验证据来进行调整。
其他实现可以考虑更复杂的场景。例如,在另一实现中,图形生成系统118可以标识其中主题B是主题A的子主题的一些情况,以及其中主题A是主题A的子主题的其他情况。例如,可以想象将“纽约市”作为“纽约州”的子主题对待的新闻文章,以及其中主要关注焦点是“纽约市”的其它新闻文章,在这些新闻文章上,“纽约州”可以被认为是“纽约市”的子主题。
在一个实现中,当计算每个条件概率分数时,图形生成系统118可以使用不同的加权因子。例如,图形生成系统118可以将加权因子应用于共同出现,其取决于两个主题一起出现的范围。例如,如图5的示例中所指示,对于主题A和主题B出现在相同文档部分(诸如相同段落)内的情况,图形生成系统118可以应用第一权重值w1。如图3的示例中所指示,对于主题A和主题B出现在相同web文档内的情况,它可以应用第二权重值w2。如图4的示例中所指示,对于主题A和主题B出现在两个链接的文档中的情况,可以应用第三权重值w3。在一个示例中,w1>w2>w3,通常指示个体共同出现的重要性随着主题A和主题B共同出现的范围缩小而增加。然而,在其他实现中,图形生成系统118不在图3、图4和图5的情况之间进行区分,将它们全部加权相同的量(例如,值1.0)。或者,如所指出,图形生成系统118可以使用文档范围的单个解释来执行其分析,诸如图3的情况,其中文档单元对应于单个web文档。
备选地或附加地,图形生成系统118可以根据由与出现或共同出现相关联的文档单元所赋予的信息内容的质量,将加权因子应用于任何主题出现或共同出现。例如,如果所考虑的文档单元是与新闻文章或百科全书条目相关联的网页,则图形生成系统118可以应用第一质量值q1,并且如果所考虑的文档单元是社交网络消息,诸如由加利福尼亚州旧金山的推特系统所提供的推文,则图形生成系统118可以应用第二质量值q2。图形生成系统118还可以向上述实现提供其他特定于环境的变化。
应用生成系统122基于数据存储库120中提供的图形数据结构生成一个或多个应用系统。应用系统通常指的是向终端用户提供计算机实现的服务的任何组件。子节A.2(下文)将阐述例示性的应用系统。作为随后解释的介绍,应用系统可以包括搜索引擎、推荐引擎、聊天机器人代理等。数据存储库124可以例如通过存储实现每个应用系统的机器可读指令、实现每个机器训练模型的参数值等来存储(多个)应用系统。一个或多个应用环境126对应于用户与应用系统进行交互的设置。
一个应用环境可以使用搜索引擎来接收来自用户的输入查询。搜索引擎可以使用机器训练模型来确定由输入查询所表达的(多个)主题。搜索引擎然后可以查阅图形数据结构以标识与所标识的(多个)主题相关的(多个)主题。搜索引擎可以使用该见解连同其他信息来找到与用户的输入查询相匹配的文档。备选地或附加地,例如使用诸如PAGERANK算法之类的随机游走算法,搜索引擎可以使用在图形数据结构中提供的信息连同其他信息来对web文档的重要性进行排名。搜索引擎依赖于在选择匹配用户输入查询的web文档时由随机游走算法产生的排名。其他应用环境也是可能的,如将在下面在子节A.2中阐述的。
一个或多个计算设备(例如,服务器)128可以实现主题检测系统110、图形生成系统118、应用生成系统122和数据存储库(116、120、124)。一个或多个计算设备(例如,服务器)130可以实现训练系统114。
前进到图2,该图示出了其中用户计算设备204与使用图1的计算环境102所产生的应用系统206交互的例示性计算环境202。例如,用户可以使用由用户计算设备204所提供的浏览器应用(未示出)来与应用系统206交互。计算机网络208将用户计算设备204与应用系统206连接。用户计算设备204可以对应于个人台式计算设备、膝上型计算设备、游戏控制台、机顶盒、任何类型的手持式计算设备(例如智能电话、平板型计算设备等)、可穿戴计算设备、物联网(IoT)设备、混合现实设备等中的任一个或其任何组合。计算机网络208可以对应于局域网、广域网(例如互联网)、一个或多个点对点链接等或其任何组合。一个或多个计算设备210(例如,一个或多个服务器)可以实现应用系统206。
更具体地,图2示出了其中远程计算设备210实现应用系统206的示例。在另一种情况下,应用系统206的功能性可以被分布在用户计算设备204和远程计算设备210之间。在另一种情况下,用户计算设备204可以实现整个应用系统,从而消除对远程计算设备210的需要(即,相对于应用系统206所提供的服务)。
图6示出了由图1的主题检测系统110产生的计数信息。在这个仅仅是例示性的情况下,数据表602提供计数信息作为值的矩阵。矩阵中任何给定单元处的值定义了特定第一主题(由行号标识)和特定第二主题(由列号标识)的共同出现的数目。例如,位于主题C的行和主题B的列的交叉点处的单元格是“112”,其指示112个web文档(或其它文档单元)都表达了主题C和主题B两者。沿着矩阵对角线的单元格指示表达特定主题的web文档(或其它文档单元)的数目。例如,位于主题C的列和主题的行的交叉点处的单元格具有值“545”,其指示545个web文档(或其它文档单元)表达主题C。
在一种情况下,主题检测系统110提供并更新表达关于所有文档范围的出现(或共同出现)的单个计数值。例如,指示主题C和主题B共同出现112次的上述单元格意味着主题C和主题B在图3-图5中总结的所有种类的范围上一起出现112次。在另一个实现中,主题检测系统110可以存储针对不同的相应文档范围的计数值。例如,尽管在图6中未示出,但是主题检测系统110可以存储第一计数值,该第一计数值指示主题C和主题B已在相同文档部分(例如,相同段落)中出现的次数。它可以存储第二计数值,该第二计数值指示主题C和主题B在相同web文档内出现的次数。它可以存储第三计数值,该第三计数值指示主题C和主题D一起出现在链接的文档配对中的次数,等等。
图7示出了图形生成系统118的操作的高度简化的示例。在这里假设所考虑的仅有两个web文档(702,704)。第一web文档702表达“篮球”和“运动”的主题。第二web文档704表达“橄榄球”和“运动”的主题。因此,图形数据结构将包括至少与“运动”、“篮球”和“橄榄球”的主题相关联的节点。在实际实践中,图形数据结构可以包括与不同的相应主题相关联的数百、数千、数百万等节点。
P(篮球|运动)的条件概率是在其中“篮球”与“运动”一起出现的web文档的数目(在这里是一次出现)出现除以在其中“运动”出现的web文档的数目(在这里是两次出现)。P(篮球|运动)因此是1/2或0.5。P(橄榄球|运动)的条件概率是在其中“橄榄球”与“运动”一起出现的web文档的数目(在这里是一次出现)除以在其中“运动”出现的web文档的数目(在这里是两次出现)。因此,P(橄榄球|运动)也是1/2或0.5。P(运动|篮球)的条件概率是在其中“运动”与“篮球”一起出现的web文档的数目(在这里是一次出现)除以在其中“篮球”出现的web文档的数目(在这里是一次出现)。P(运动|篮球)因此是1/1或1.0。P(运动|橄榄球)的条件概率是在其中“运动”与“橄榄球”一起出现的web文档的数目(在这里是一次出现)除以在其中“橄榄球”出现的web文档的数目(在这里是一次出现)。P(运动|橄榄球)因此也是1/1或1.0。
图形生成系统118将每个条件概率分数与规定的可调阈值(例如,在一个非限制性情况下为0.5)进行比较,以整体产生比较结果。图形生成系统118基于比较结果来确定主题之间的层次关系。在此示例中,图形生成系统118将确定“篮球”和“橄榄球”是“运动”的子主题,但是“运动”不是“篮球”或“橄榄球”的子主题。这是因为P(运动|篮球)大于0.5,而P(运动|篮球)不超过0.5。对于P(运动|橄榄球)和P(橄榄球|运动)也是如此。进一步假设条件概率分数以及给定“橄榄球”的“篮球”和给定“篮球”的“橄榄球”在这两个主题之间不建立层次关系。响应于这些发现,图形生成系统118可以在图形数据结构中建立从“运动”节点指向“篮球”节点的第一链接,并且在图形数据结构中建立从“运动”节点指向“橄榄球”节点的第二链接。
图8示出了由图1的计算环境所产生的图形数据结构的示例,在这里以表格形式来表达。该图形数据结构包括条目802,其指示P(管弦乐|交响乐)的条件概率是0.612,而P(交响乐|管弦乐)的条件概率是0.420。如果阈值是0.5,则这将指示“交响乐”是“管弦乐”的子主题。图形数据结构包括另一个条目804,该条目指示P(兰花|耕作)的条件概率是0.002,而P(耕作|兰花)的条件概率是0.530。这将指示“兰花”是“耕作”的子主题。图形数据结构包括另一个条目806,其指示P(兰花/叶子)和P(叶子|兰花)的条件概率分数低于0.50。这将指示“兰花”和“叶子”没有层次关系。尽管未示出,但是具有超过0.50的条件概率分数(P(A|B)和P(B|A))的两个节点将被标记(label)为不具有层次关系。
图9示出了例示性图形数据结构902的一小部分。这个示例指示图形生成系统118已经确定“宠物”是“动物”的子主题,“狗”是“动物”和“宠物”二者的子主题,而“猫”也是“动物”和“宠物”二者的子主题。图形数据结构902还指示狗的不同品种是“狗”的子主题,而猫的不同品种是“猫”的子主题。该图形数据结构902通常意在传达图形生成系统118可以生成由web文档所表达的主题之间的关系的丰富概要。换句话说,图形生成系统118通过分析个体主题的相应对来进行操作。然而,作为整体,图形生成系统118的个体结论可以对潜在的大量主题之间的关系嵌套做出贡献。
图1的计算环境可以以不同的方式变化。例如,上述解释阐述了图形生成系统118基于对主题A和主题B在web文档中共同出现的次数除以主题B在web文档中出现的次数的考虑来计算P(A|B)的每个条件概率分数的情况。在另一个实现中,图形生成系统118可以形成其它更复杂的条件概率,诸如P(A|B∩C),意指基于主题B和主题C在文档中的给定共同出现的情况下主题A在文档内出现的概率等。
在另一个实现中,图形生成系统118可以使用机器训练的神经网络或其它类型的模型来计算条件概率分数。神经网络可以接收上述合计计数信息并对其进行操作,例如如图6中所示。备选地或附加地,神经网络可以接收描述主题在web文档中的个体出现和共同出现的输入向量并对其进行操作。例如,假设在一个实例中,主题A出现在与新闻相关领域相关联的web文档的标题中。输入向量可以用这个粒度级来表达此单个出现。
A.2.例示性应用系统
图10示出了由图1的计算环境102产生的例示性应用系统206。通常,应用系统206从用户计算设备204(图10中未示出)接收输入消息。应用系统206部分地使用被提供给图形生成系统118的条件概率信息来生成响应,它然后将该响应转发给用户计算设备204。应用系统206可以在生成其响应时与一个或多个数据存储库1002交互。
在许多例示性但非限制性的场景中,应用系统206可以使用输入解释机制1004来解释用户的输入消息。例如,应用系统206可以使用主题标识机制1006来解释与用户的输入消息相关联的(多个)主题。例如,主题标识机制1006可以使用多类别分类模型(诸如任何类型的深度神经网络),其将用户的输入消息中的令牌映射到最可能与输入消息相关联的至少一个主题的指示中。主题标识机制1006产生表达输入消息中检测到的(多个)主题的输入主题信息。然后,主题查找机制1008查阅由数据存储库1010提供(并由图1的图形生成系统118产生)的图形数据结构,以标识与输入主题信息有关系的一个或多个主题(如果有的话)。主题查找机制1008提供表达所标识的(多个)相关主题的相关主题信息。然后,响应制定机制1012可以使用相关主题信息来制定对用户的响应。在这样做时,响应制定机制1012可以与数据存储库1002交互。例如,数据存储库1002可以提供搜索索引,知识图等。
上述类型的应用系统206可以在不同的环境中采用不同的形式。在一个环境中,应用系统206对应于聊天机器人代理1014,聊天机器人代理1014提供与用户的对话界面。在这里,主题标识机制1006可以标识由用户的输入问题或命令所表达的输入主题信息。主题查找机制1008然后可以使用图形数据结构来标识与输入主题信息相关的主题(“相关主题”)。在至少一些情况下,相关主题可以对应于假定用户试图完成的主任务内的子任务。例如,在确定用户的输入消息与“旅行”主题有关时,主题查找机制1008可以查阅数据存储库1010中的图形数据结构,以标识该主题具有与“航空预订”、“旅馆预订”和“汽车租赁预订”的子任务相对应的子节点。然后,响应制定机制1012可以例如使用预先生成的脚本、机器训练的响应生成模型等来帮助用户完成每个这样的子任务。备选地或附加地,输入解释机制1004可以使用相关主题信息来帮助消除用户的输入消息的歧义。
在另一环境中,应用系统206对应于搜索引擎1016。在这里,主题标识机制1006可以再次标识由用户的输入查询所表达的输入主题信息。主题查找机制1008然后可以使用数据存储库1010中的图形数据结构来标识与输入主题信息相关的主题(“相关主题”)。然后,响应制定机制1012可以使用任何相关主题信息来补充和增强用户的输入查询,例如通过将相关主题信息附加到搜索查询以产生扩展查询。然后,响应制定机制1012可以找到与扩展查询匹配的一个或多个网站。响应制定机制1012可以通过将与用户的扩展查询相关联的特征与数据存储库1002中提供的预先生成的搜索索引进行匹配来执行该任务。备选地或附加地,响应制定机制1012可以使用相关主题信息来向用户提供查询建议,例如通过邀请用户输入与已被标识的任何相关主题有关的查询项。
在另一环境中,应用系统206对应于被配置为回答用户的输入问题的知识引擎1018。主题标识机制1006可以再次标识由用户的输入问题所表达的输入主题信息。输入解释机制1004还可以使用意图标识机制(诸如深度神经网络,未示出)来将输入消息中的令牌映射到输出结论,该输出结论标识用户试图通过提交输入消息来完成的假定意图。假定在一种情况下,用户的意图是发现具有与输入主题信息相关的关系的信息。当用户输入一个问题时,诸如“圣达菲位于美国哪个州”或者诸如“美国山脉的示例有哪些”等等之类的问题,这可能是真的。在这种情况下,主题查找机制1008然后可以使用数据存储库1010中的图形数据结构来标识与输入主题信息相关的那些节点,这些节点共同地对应于相关主题信息。然后,响应制定机制1012可以部分地利用相关主题信息来制定对用户输入问题的响应。例如,响应制定机制1012可以将与用户解释的输入问题(包括相关主题信息)相关联的特征与数据存储库1002中预先生成的一组答案进行匹配,以找到与用户的输入问题最佳匹配的答案。然后,响应制定机制1012可以将向用户表达预先生成的答案的响应转发给用户。
在另一环境中,应用系统206对应于推荐引擎1020。在这里,输入解释机制1004可以包括上下文标识机制(未示出),其标识描述用户与计算环境202交互的当前上下文的上下文信息。例如,上下文标识机制可以基于以下任何一项来标识用户的当前上下文:由用户所提供的输入消息;用户当前与之交互的页面或文档;用户在一个页面上做出的选择;与用户有关的人口统计信息;标识由用户做出的先前选择、购买等的历史信息,用户的当前位置,当前时间等。主题标识机制1006可以将该上下文信息中的任一个映射到输入主题信息中。主题查找机制1008然后可以使用数据存储库1010中的图形数据结构来找到与输入主题信息相关的主题(“相关主题”)。然后,响应制定机制1012可以标识与相关主题信息有关的一个或多个推荐项。例如,响应制定机制1012可以通过将与当前上下文相关联的特征(包括相关主题信息)与数据存储库1002中提供的预先生成的搜索索引进行匹配来执行该任务。然后,响应制定机制1008可以生成标识(多个)推荐项的响应。
例如,考虑用户当前正在观看特定类型的帽子的产品页面的情况。并且假设图形数据结构包括与帽子的一般主题相关联的父节点,以及与帽子的不同品牌和/或风格相关联的多个子节点。推荐引擎1020可以使用图形数据结构来标识与用户当前正在观看的帽子相关的其他帽子,例如通过标识与用户当前正在观看的帽子具有相同父节点的其他子节点。推荐引擎1020然后可以向用户提供邀请用户探索与所标识的相关帽子相关联的页面的建议。广告引擎(未示出)可以按照上面描述的相同原理进行操作;在这里,推荐项对应于由相应的广告商所赞助的广告。
在另一环境中,应用系统206对应于允许用户将所提交的文档存储在数据存储库1002中的适当位置处的归档引擎(未示出)。在这里,主题标识机制1006可以使用机器训练模型来标识与输入文档相关联的至少一个主题。主题查找机制1008然后可以查阅图形数据结构以找到与(多个)输入主题相关的一个或多个主题(“相关主题”)。并且响应制定机制1012可以将输入文档存储在数据存储库1002中与所标识的(多个)主题相关联的一个或多个位置处。例如,响应制定机制1012可以将输入文档存储在与由主题标识机制1006所标识的(多个)输入主题和/或由主题查找机制1008所标识的(多个)相关主题相关联的文件夹中。然后,响应制定机制1012可以向用户提供标识其已经采取的存储动作的响应。
上述应用系统在这里是以说明而非限制的精神阐述的。还有其它类型的应用可以利用由图1的计算环境102所产生的图形数据结构。例如,另一应用系统(未示出)可以使用图形数据结构来标识相似项的群集。另一应用系统(未示出)可以使用图形数据结构来帮助将消息路由到适当的目标目的地。另一应用系统(未示出)可以使用图形数据结构来标识匹配社交联系人等等。
在其他情况下,应用系统206可以使用图形数据结构以比上述示例更间接的方式来响应用户的输入消息。例如,文档排名器1022可以使用由图形数据结构所赋予的信息以及其他信息来对web文档进行排名。例如,考虑任何随机游走算法,诸如PAGERANK算法。在其传统公式中,PAGERANK算法对描述web文档(在图中由节点表示)和web文档对之间的链接(在图中由边表示)的web图形进行操作。更具体地,出站链接是指从所考虑的网页到另一网页的链接。入站链接是指从另一网页指向所考虑的网页的任何链接。PAGERANK算法的目标是将排名分数R(pi)指派给与特定网页相关联的web图形中的每个节点pi,其描述了该网页相对于其它网页的重要性。
在一个实现中,PAGERANK算法基于以下等式计算每个排名分数:
Figure BDA0003988956050000191
术语pj是指在链接到所考虑的节点pi的此类节点的集合S(pi)内链接到节点pi的节点。R(pj)是与节点pj相关联的排名分数,并且L(pj)是从节点pj向外指向的链接的数目。N是子图中的节点的数目,并且α是恒定的阻尼因子。
图10中所示的文档排名器1012可以通过使用从图形数据结构(由图形生成系统118生成)获得的信息来修改链接的权重,从而修改传统的PAGERANK算法。例如,考虑其中所考虑的节点(与第一网页相关联)包含到另一节点(与第二网页相关联)的出站链接的情况。可以使用图形数据结构来标识这两个链接的数据页面是否还表达彼此相关的主题。例如,第一网页可以表达“橄榄球”的主题,而第二网页可以表达“海鹰”的主题。如果该关系存在,则文档排名器1012可以将权重值应用于该链接,该权重值相对于两个网页不相关的情况提升其相关性。备选地或附加地,当节点的对应网页表达图形数据结构中的主题或由图形数据结构所标识的特定主题类别中的主题时,文档排名器1012可以将提升值应用于节点本身的分数。修改传统PAGERANK算法(或其他随机游走算法)的其他方式也是可能的;以上示例是以说明而非限制的精神呈现的。
上述实现是更一般情况的具体示例,其中响应制定机制1012被配置为合并由图1的图形生成系统118产生的图形数据结构所赋予的信息。在这种情况下,应用系统206不需要响应于用户对输入查询的提交而执行对数据存储库1010中的图形数据结构的推断阶段询问。图10通过示出从主题标识机制1006到响应制定机制1012的虚线1024来图示了这一点。
在这种类型的应用系统206的另一示例中,离线知识库更新引擎(未示出)可以更新知识引擎1018所使用的已有知识图,以合并从图1的图形生成系统118所产生的图形数据结构获得的信息。例如,知识库更新引擎可以将指示知识图中的两个现有节点具有层次关系的链接添加到已有知识图中。备选地或附加地,知识库更新引擎可以基于从图1的图形生成系统118所产生的图形数据结构获得的见解来将一个或多个新的节点添加到已有知识图中。例如,知识库更新引擎可以将新的子节点添加到知识图中的现有父节点,因为图形数据结构揭示了该新的子节点(其与也出现在图形数据结构中的父节点具有层次关系)的存在。知识引擎206可以与更新后的知识图交互,而无需响应于用户提交输入消息而询问数据存储库1010中的图。
在例示性实现中,应用系统206可以成功地利用由图形数据结构所赋予的信息来准确地解释和高效地处理用户的输入消息。例如,搜索引擎1016可以使用由图形数据结构提供的信息来帮助找到和检索与由用户提交的输入查询相匹配的web文档。在一些情况下,应用系统206可以被说成高效地利用计算资源,只要可以预期减少用户为完成他或她的任务目标所需提交的输入消息的数目。在一些情况下,还可以预期应用系统206有助于良好的用户体验,例如通过减少用户完成他或她的任务目标所需的时间和劳动量,以及减少其提供给用户的不准确响应的数目。
A.3.例示性主题检测系统
在一个实现中,主题检测系统110可以被实现为多类别分类器。多类别分类器接收包含在所考虑的web文档中或以其他方式与所考虑的web文档相关联的输入令牌。输入令牌对应于web文档中的单词,可选地与web文档中包含的其它内容一起(下面更详细地描述)。然后,多类别分类器将输入令牌映射到输出信息。输出信息传达给定web文档表达一组可能候选主题内的每个候选主题的概率。
主题检测系统110可以使用诸如卷积神经网络(CNN)、基于变换器的神经网络等或其任何组合之类的任何类型的神经网络来实现多类别分类器。CNN可以使用卷积层、池化层和完全连接层的任意组合对从web文档获得的令牌进行操作。CNN可以将分类机制(诸如softmax层)应用于这些先前层的输出,以标识由web文档表达的可能主题。关于基于变换器的架构的一般主题的背景信息可以在如下文献中找到:Devlin等人的“BERT:Pre-trainingof Deep Bidirectional Transformers for Language Understanding”arXiv:1810.04805v2[cs.CL],2019年5月24日,16页,和Vaswani等人的“Attention Is All YouNeed”arXiv:1706.03762v5[cs.CL],2017年12月6日,15页。在另一种情况下,主题检测系统110可以使用不是神经网络的机器训练模型(诸如决策树模型)来实现多类别分类器。在另一种情况下,主题检测系统110可以使用基于规则的系统来实现多类别分类器。例如,基于规则的系统可以应用例示性IF-THEN规则,该规则声明:如果在文档标题中存在规定的一组关键字中的任何一个,那么所考虑的web文档属于特定主题。
在另一种方法中,主题检测系统110可以使用诸如递归神经网络(RNN)之类的序列到序列机器训练模型来执行其功能。序列到序列模型将输入令牌映射到表达至少一个主题的输出序列。在另一种方法中,主题检测系统110可以通过对候选文档中存在的每个实际单词和短语进行评分来执行其功能。分数反映了单词或短语表达与候选文档相关联的主题的概率。以上示例是以说明而非限制的方式描述的;主题检测系统110的其它实现可以使用其它方法来标识候选web文档中的主题。
图11示出了使用主题检测器1102的主题检测系统110的一个非限制性实现。主题检测器1102进而是合并了基于变换器的技术的神经网络。从图10的底部开始,语言嵌入机制1104将所考虑的web文档中的输入令牌变换为一组输入嵌入,在本文中也被称为输入向量。语言嵌入机制1104可以使用不同的技术来执行该任务。在一种方法中,语言嵌入机制1104可以例如使用查找表、神经网络等将web文档中的每个单词转换为向量表示。语言嵌入机制1104还可以可选地将特殊分类令牌“[cls]”添加到一系列输入嵌入的开始。
接着,添加机制1106将位置信息添加到每个输入嵌入。位置信息描述(与特定输入嵌入相关联的)令牌在组成web文档的一系列令牌中的位置。例如,假设web文档包括标题“hybrid Fordhatch back2020”。添加机制1106将位置信息添加到与“hybrid”相关联的输入嵌入,其指示单词“hybrid”是标题中的第一令牌。总的来说,主题检测器1102将位置信息添加到输入嵌入中,以将web文档内所考虑的每个令牌的位置上下文通知给它的自注意力(self-attention)机制(下面描述)。添加机制1106可以以不同的方式对位置信息进行编码,诸如通过使用一个或多个正弦函数将令牌的索引映射到位置信息中,或者通过使用机器训练的函数将令牌的索引映射到位置信息中。总之,添加机制1106产生位置修改后的嵌入。
变换机制1108接着将该组位置修改后的嵌入映射到变换器输出向量中。变换机制1108进而又包括一个或多个变换单元的链,包括代表性变换单元1110和一个或多个其它变换单元1112。代表性变换单元1110包括一系列层,包括自注意力机制1114、相加和归一化(add-and-normalize)机制1116,前馈神经网络1118和另一个相加和归一化机制1120。
自注意力机制1114确定web文档中的每个令牌相对于每个其它令牌的重要性。例如,假设给定的web文档包括一组语言令牌,可选地具有先前的分类令牌“[cls]”。在处理web文档中的每个特定单词时,自注意力机制1114考虑到web文档中的每个其他单词关于该特定单词的相关性。例如,假设web文档包括以下句子:“What is the median sales priceof this product in the city of Billings,MT?”在处理单词“Billings”时,例如自注意力机制1114可以确定令牌“city”和“MT”在正确消除术语“Billings”的歧义方面最有用,因为这些上下文术语强烈地暗示“Billings”指的是物理地点而不是金融术语。
自注意力机制1114可以通过将位置修改后的嵌入打包到单个矩阵X中来确定上述交叉项相关性。自注意力机制1114然后将该矩阵线性地投影到三个矩阵Q、K、V中,分别对应于查询矩阵、关键字矩阵和值矩阵,其中dk分别是Q和K中的查询和关键字的维数。点积机制基于以下等式来计算注意力:
Figure BDA0003988956050000231
相加和归一化机制1116将自注意力机制1114的输入(即,位置修改后的输入嵌入)与自注意力机制1114的输出结果相加,然后对该总和执行层归一化。前馈网络1118使用具有任意层数的完全连接(FC)前馈神经网络来将相加和归一化机制1116的输出变换为输出结果。在一个实现中,前馈网络1118可以使用散布有激活(例如,重新激活)的线性变换。最后,另一相加和归一化机制1120将馈送到前馈网络1118的输入与前馈网络1118的输出结果相加,然后对该总和进行归一化。
分类机制1122对变换单元1110的输出进行操作,以便为一组可能候选主题内的每个候选主题生成概率分数。每个概率分数反映web文档表达特定候选主题的概率。分类机制可以使用softmax层、神经网络、支持向量机(SVM)等来执行该任务。分类机制1122还确定每个候选主题是否具有高于特定于环境的阈值的分数。分类机制1122断定所考虑的web文档在其概率分数高于阈值时表达特定主题。
更具体地,在一个实现中,分类机制1122可以对由变换机制1108的最终层所提供的[CLS]令牌的经变换的副本进行操作。在另一实现中,分类机制1122可以对由变换机制1108的完整最终层所给予的信息进行操作。
计数器机制1124生成数据表1126,该数据表1126表达web文档的集合中的个体主题的数目以及web文档中的特定主题配对的共同出现的数目。数据表1126的一个实现如图6中所示。
在一种方法中,(图1的)训练系统114产生确定主题检测器1102的配置的参数值。训练系统114通过对训练示例的语料库进行迭代操作来生成这些参数值,每个训练示例包括候选文档和标签集合。候选文档的标签描述了由候选文档所表达的主题。在一种情况下,提取过程可以基于已经与web文档相关联的元数据(诸如散列标签)和/或包含在web文档的主体中的关键字来从web文档中自动提取标签。备选地或附加地,人类分析师可以例如使用众包平台等自动地将标签应用于web文档。
训练系统114可以训练机器训练模型112以最大化模型112准确预测训练示例的主题的那些情况,并且最小化模型112没有准确预测训练示例的主题的那些情况。训练系统114可以使用任何训练技术来执行该任务,诸如随机梯度下降。训练系统114将其训练目标表达为交叉熵损失函数或任何其它类型的损失函数。
图11中所示的主题检测器1102可以以不同的方式变化。根据一个变型,语言嵌入机制1104可以集成关于所考虑的web文档的附加信息。例如,主题检测器1102可以合并描述文档中的每个单词的位置的信息,例如通过指示该单词是否源自标题、摘要、文档正文等。备选地或附加地,语言嵌入机制1104可以合并由web文档表达的可视信息,该可视信息在候选文档由浏览器应用呈现时支配候选文档中的单词的出现。例示性可视信息可以包括HTML标记(markup)信息,其指示被用来呈现单词的尺寸、被用来呈现单词的字体、文档对象模型(DOM)树中的单词的位置等。在一个实现中,语言嵌入机制1104可以将web文档中的单词的上面标识的补充信息中的任一个与其输入嵌入级联。
通过考虑上述补充信息,主题检测器1102为不同类型的web文档提供可靠的分类结果。特别地,web文档可以不同,因为它们源自不同的域。web文档也可以变化,因为它们提供具有不同质量等级的内容。例如,与其他web文档相比,一些web文档可以提供更鲁棒的描述。
作为结尾点,注意,例如通过确定由用户的输入消息所表达的主题,图11中所示的主题检测器1102也可以由(图10的)应用系统206的主题标识机制1006在实时操作阶段中使用。
总结章节A,本文所描述的技术提供了一种资源高效和可扩展的方式来发现分散在web文档中的潜在信息。该技术是高效的,因为它采用执行确定在web文档中表达的主题的有限任务的流线化的第一阶段,而不试图对主题之间的关系进行建模也不试图考虑不同种类的web文档的广泛变化的特性。它包括同等高效的第二阶段,该第二阶段例如将条件概率应用于第一阶段的结果以标识在第一阶段中发现的主题之间的关系,而不必使用机器学习来执行对主题的复杂语义分析。该技术的效率也使其可扩展。具体地,该技术是可扩展的,因为它可以高效地被应用于大量的web文档;该特性进而又是可能的,因为该技术消除了开发者开发和不断更新复杂的机器训练模型的需要,并且因为它消除或减少了人类分析师手动评估web文档的需要。
上述因素还允许该技术以高效的方式消耗计算资源(例如,处理资源、存储器资源和通信资源等)。例如,由于第一阶段不试图对主题之间的关系进行建模,因此它放弃或减少了否则将被应用于该任务的计算资源的使用。
B.示例性过程
图12-图15以流程图的形式示出了解释章节A的计算环境(102,202)的操作的过程。由于计算环境(102,202)的操作的基本原理已经在章节A中描述,某些操作将在该章节中以概要的方式来解决。如在详细描述的前序部分中所指出的,每个流程图被表达为以特定的顺序执行的一系列操作。但是这些操作的顺序仅仅是代表性的,并且可以以任何方式变化。
图12和图13一起示出了图1的计算环境102通过其产生应用系统的过程1202的一个实现。在框1204中,计算环境102将机器训练模型112应用于文档单元的集合以产生主题信息,每个文档单元包括经由计算机网络106可访问的至少一个web文档的至少一部分。文档单元可以与不同的域相关联,并且可以具有不同的布局、信息质量等。在框1204中应用的操作包含处理被包括在每个文档单元中的令牌以标识由每个文档单元表达的一个或多个主题,而不考虑一个或多个主题如何彼此相关。在框1206中,计算环境102通过以下步骤基于主题信息生成计数信息:针对候选主题集合,对该候选主题集合中的每个主题在该文档单元集合内出现的次数进行计数;以及针对该候选主题集合中的多个主题配对,对每个主题配对在文档单元集合内出现的次数进行计数。在框1208中,计算环境102将计数信息存储在数据表中。在框1210中,计算环境102基于计数信息生成条件概率信息。条件概率信息的实例描述在给定第二主题在文档单元中的假定出现的情况下第一主题将在文档单元中出现的概率,以及在给定第一主题的假定出现的情况下第二主题将在文档单元中出现的概率。
前进到图13,在框1302中,计算环境102在图表数据结构中制定条件概率信息。该图形数据结构包括多个节点和多个边,该多个节点表示候选主题集合中的主题,并且连接两个节点的每个边体现分别与两个节点相关联的两个主题之间的层次关系。在框1304中,计算环境102提供使用图形数据结构向用户提供计算机实现的服务的应用系统。
图14示出了过程1402,通过该过程,图2的计算环境202应用经由图12和图13的过程1202产生的应用系统206。在框1404中,计算环境202接收由用户经由计算机网络208提交的输入消息。在框1406中,计算环境202使用由硬件逻辑电路提供的应用系统206来生成对输入消息的响应。应用系统206通过利用由图12和图13的过程1202产生的条件概率信息来生成响应。
图15示出关于图12和图13的过程1202内的操作的进一步细节。在作为图12的框1210的操作的一部分的框1502中,计算环境102将第一主题和第二主题在文档单元内共同出现的次数除以第二主题在文档单元内出现的次数,以产生第一条件概率分数。它还将第一主题和第二主题在文档单元内共同出现的次数除以第一主题在文档单元内出现的次数,以产生第二条件概率分数。框1504-框1508是图13的框1302中的制定的操作的一部分。在框1504中,计算环境102将第一条件概率分数和第二条件概率分数中的每个与规定阈值进行比较,以产生比较结果。在框1506中,计算环境102基于比较结果在第一主题和第二主题之间建立链接,该链接指示第二主题是第一主题的子主题或者第一主题是第二主题的子主题。在框1508中,计算环境102将该链接表示为图形数据结构中的边。
C.代表性计算功能性
图16示出了可以被用来实现上述附图中阐述的机制的任何方面的计算设备1602。例如,参考图1和图2,图16中所示的计算设备1602的类型可以被用来实现任何用户计算设备或任何服务器。在所有情况下,计算设备1602表示物理的和有形的处理机制。
计算设备1602可以包括一个或多个硬件处理器1604。(多个)硬件处理器1604可以包括但不限于一个或多个中央处理单元(CPU)、和/或一个或多个图形处理单元(GPU)、和/或一个或多个专用集成电路(ASIC)等。更一般地,任何硬件处理器可以对应于通用处理单元或专用处理器单元。
计算设备1602还可以包括对应于一个或多个计算机可读介质硬件单元的计算机可读存储介质1606。计算机可读存储介质1606保存任何种类的信息1608,诸如机器可读指令、设置、数据等。例如,在没有限制的情况下,计算机可读存储介质1606可以包括一个或多个固态设备、一个或多个磁硬盘、一个或多个光盘、磁带等。计算机可读存储介质1606的任何实例可以使用用于存储和检索信息的任何技术。此外,计算机可读存储介质1606的任何实例可以表示计算设备1602的固定或可移动单元。此外,计算机可读存储介质1606的任何实例可以提供信息的易失性或非易失性保留。
计算设备1602可以以不同的方式利用计算机可读存储介质1606的任何实例。例如,计算机可读存储介质1606的任何实例可以表示用于在计算设备1602执行程序期间存储瞬态信息的硬件存储器单元(诸如随机存取存储器(RAM))和/或用于在更永久的基础上对信息进行保留/存档的硬件存储单元(诸如硬盘)。在后一种情况下,计算设备1602还包括用于存储和检索来自计算机可读存储介质1606的实例的信息的一个或多个驱动机制1610(诸如硬盘驱动器机制)。
当(多个)硬件处理器1604执行存储在计算机可读存储介质1606的任何实例中的计算机可读指令时,计算设备1602可以执行上述任何功能。例如,计算设备1602可以执行计算机可读指令以执行章节B中描述的过程的每个框。
备选地或附加地,计算设备1602可以依赖于一个或多个其它硬件逻辑单元1612来使用逻辑门的任务专用集合来执行操作。例如,(多个)硬件逻辑单元1612可以包括硬件逻辑门的固定配置,例如在制造时被创建和设置,并且此后不可改变。备选地或附加地,(多个)其它硬件逻辑单元1612可以包括可编程硬件逻辑门的集合,该可编程硬件逻辑门可以被设置为执行不同的专用任务。后一类器件包括但不限于可编程阵列逻辑器件(PAL)、通用阵列逻辑器件(GAL)、复杂可编程逻辑器件(CPLD)、现场可编程门阵列(FPGA)等。
图16一般指示硬件逻辑电路1614包括(多个)硬件处理器1604、计算机可读存储介质1606和/或其它硬件逻辑单元1612的任何组合。也就是说,计算设备1602可以采用执行计算机可读存储介质1606中提供的机器可读指令的(多个)硬件处理器1604和/或使用硬件逻辑门的固定和/或可编程集合来执行操作的一个或多个其它硬件逻辑单元1612的任何组合。更一般而言,硬件逻辑电路1614对应于基于存储在硬件逻辑单元中和/或以其他方式体现在(多个)硬件逻辑单元中的逻辑来执行操作的(多个)任何类型的一个或多个硬件逻辑单元。
在一些情况下(例如,在计算设备1602表示用户计算设备的情况下),计算设备1602还包括用于(经由输入设备1618)接收各种输入并用于(经由输出设备1620)提供各种输出的输入/输出接口1616。例示性的输入设备包括键盘设备、鼠标输入设备、触摸屏输入设备、数字化板、一个或多个静态图像相机、一个或多个视频相机、一个或多个深度相机系统、一个或多个麦克风、语音识别机制、任何移动检测机制(例如加速计、陀螺仪等)等。一种特定的输出机制可以包括显示设备1622和相关联的图形用户界面呈现(GUI)1624。显示设备1622可以对应于液晶显示设备、发光二极管显示(LED)设备、阴极射线管设备、投影机制等。其它输出设备包括打印机、一个或多个扬声器、触觉输出机制、存档机制(用于存储输出信息)等。计算设备1602还可以包括一个或多个网络接口1626,用于经由一个或多个通信管道1628来与其它设备交换数据。一个或多个通信总线1630将上述单元可通信地耦合在一起。
(多个)通信管道1628可以以任何方式来实现,例如通过局域计算机网络、广域计算机网络(例如互联网)、点对点连接等或其任何组合。(多个)通信管道1628可以包括由任何协议或协议组合管控的硬连线链接、无线链接、路由器、网关功能性、名称服务器等的任何组合。
图16示出了由分立单元的离散集合组成的计算设备1602。在一些情况下,单元的集合可以对应于在具有任何形状因子的计算设备机箱中提供的分立硬件单元。图16示出了其底部部分的例示性形状因子。在其它情况下,计算设备1602可以包括集成了图1中所示的两个或更多单元的功能的硬件逻辑单元。例如,计算设备1602可以包括片上系统(SoC或SOC),其对应于组合了图16中所示的两个或更多单元的功能的集成电路。
以下概述提供了在本文中阐述的技术的一组非详尽的例示性示例。
根据第一示例,描述了一种用于处理web文档的计算机实现的方法。该方法包括将机器训练模型应用于文档单元集合以产生主题信息,每个文档单元包括经由广域网可访问的至少一个web文档的至少一部分,该文档单元对应于不同的域。应用的操作包含处理被包括在每个文档单元中的令牌以标识由每个文档单元表达的一个或多个主题,而不考虑一个或多个主题如何彼此相关。该方法还包括通过以下步骤基于主题信息生成计数信息:针对候选主题集合,对该候选主题集合中的每个主题在该文档单元集合内出现的次数进行计数;以及针对候选主题集合中的多个主题配对,对每个主题配对在该文档单元集合内出现的次数进行计数。然后,该方法将计数信息存储在数据表中。该方法然后包括基于计数信息生成条件概率信息,条件概率信息的实例描述了在给定第二主题在给定文档单元中的假定出现的情况下第一主题将在给定文档单元出现的概率,以及在给定第一主题的假定出现的情况下第二主题将在给定文档单元内出现的概率。该方法然后包括在图形数据结构中制定条件概率信息,该图形数据结构包括多个节点和多个边,该多个节点表示候选主题集合中的主题,并且连接两个节点的每个边体现分别与两个节点相关联的两个主题之间的层次关系。该方法最后包括提供应用系统,该应用系统被配置为使用图形数据结构向用户提供计算机实现的服务。
根据第二示例,该文档单元集合中的至少一个文档单元对应于单个web文档。
根据第三示例,该文档单元集合中的至少一个文档单元包括至少两个web文档,该至少两个web文档中的第一web文档具有到该至少两个web文档中的另一web文档的链接。
根据第四示例,生成条件概率信息的操作通过以下步骤生成条件概率信息的实例:将第一主题和第二主题在文档单元内共同出现的次数除以第二主题在文档单元内出现的次数,以产生第一条件概率分数;以及将第一主题和第二主题在文档单元内共同出现的次数除以第一主题在文档单元内出现的次数,以产生第二条件概率分数。
根据与第四示例相关的第五示例,制定的操作包括将第一条件概率分数和第二条件概率分数中的每个与规定阈值进行比较以产生比较结果,以及基于比较结果确定存在关系。
根据与第五示例相关的第六示例,当比较结果指示第一条件概率分数或第二概率分数高于规定阈值,但第一概率分数和第二概率分数都没有高于规定阈值时,该关系指示第二主题相对于第一主题具有子关系,或第一主题相对于第二主题具有子关系。
根据第七示例,应用系统使用条件概率信息来解释由用户提供的输入消息。
根据与第七示例相关的第八示例,应用系统被配置为:通过标识与输入消息相关联的至少一个主题并且询问图形数据结构以找到与输入消息相关的至少一个主题来解释输入消息。
根据第九示例,描述了用于处理由用户提交的输入消息的一个或多个计算设备。计算设备包括硬件逻辑电路,该硬件逻辑电路包括:(a)通过执行存储在存储器中的机器可读指令来执行操作的一个或多个硬件处理器,和/或(b)使用逻辑门的任务专用集合来执行操作的一个或多个其它硬件逻辑单元。操作包括:经由计算机网络接收由用户提交的输入消息;以及使用由硬件逻辑电路提供的应用系统生成对输入消息的响应。应用系统通过利用由过程产生的条件概率信息生成响应,该过程包含:将机器训练模型应用于文档单元集合以产生主题信息,每个文档单元包括经由广域网可访问的至少一个web文档的至少一部分,该文档单元对应于不同的域。应用的操作包含处理被包括在每个文档单元中的令牌以标识由每个文档单元表达的一个或多个主题,而不考虑一个或多个主题如何彼此相关。该处理还包含通过以下步骤基于主题信息生成计数信息:针对候选主题集合,对该候选主题集合中的每个主题在该文档单元集合内出现的次数进行计数;以及针对候选主题集合中的多个主题配对,对每个主题配对在文档单元集合内出现的次数进行计数。然后,该过程将计数信息存储在数据表中。该过程还包含基于计数信息生成条件概率信息,条件概率信息的实例描述了在给定第二主题在给定文档单元中的假定出现的情况下第一主题将出现在给定文档单元中的概率,以及在给定第一主题的假定出现的情况下第二主题将出现在给定文档单元中的概率。该过程还包含在图形数据结构中制定条件概率信息,该图形数据结构包括多个节点和多个边,该多个节点表示候选主题集合中的主题,并且连接两个节点的每个边体现分别与两个节点相关联的两个主题之间的层次关系。
根据与第九示例相关的第十示例,生成条件概率信息的操作通过以下步骤生成条件概率信息的实例:将第一主题和第二主题在文档单元内共同出现的次数除以第二主题在文档单元内出现的次数,以产生第一条件概率分数;以及将第一主题和第二主题在文档单元内共同出现的次数除以第一主题在文档单元内出现的次数,以产生第二条件概率分数。
根据与第十示例相关的第十一示例,制定的操作包括将第一条件概率分数和第二条件概率分数中的每个与规定阈值进行比较以产生比较结果,以及基于比较结果确定存在关系。
根据与第九示例相关的第十二示例,应用系统被配置为使用条件概率信息来解释输入消息。
根据与第十二示例相关的第十三示例,应用系统被配置为:通过标识与输入消息相关联的至少一个主题并且询问图形数据结构以找到与输入消息相关的至少一个主题来解释输入消息。
根据与第九示例相关的第十四示例,该应用系统包括合并由图形数据结构所赋予的信息的响应制定机制,并且其中响应制定机制被配置为基于由图形数据结构所赋予的信息来解释输入消息。
根据与第九示例相关的第十五示例,该应用系统在使用随机游走算法对web文档进行排名的过程中部分地使用条件概率信息作为加权因子。
根据与第九示例相关的第十六示例,该应用系统被配置为部分地使用条件概率信息通过向已有知识图添加至少一个节点和/或至少一个边来修改已有知识图。
根据与第九示例相关的第十七示例,该应用系统被配置为部分地使用条件概率信息以找到与由用户提交的输入查询和/或影响用户的当前上下文相匹配的至少一个项。
根据与第九示例相关的第十八示例,该应用系统被配置为部分地使用条件概率信息将文档存储在数据存储库中的所标识位置处。
根据第十九示例,描述了一种用于存储计算机可读指令的计算机可读存储介质。当由一个或多个硬件处理器执行时,计算机可读指令执行一种方法,该方法包括:将机器训练模型应用于文档单元集合以产生主题信息,每个文档单元包括经由广域网可访问的至少一个web文档的至少一部分,该文档单元对应于不同的域。应用的操作包含处理被包括在每个文档单元中的令牌以标识由每个文档单元表达的一个或多个主题,而不考虑一个或多个主题如何彼此相关。该方法还包括通过以下步骤基于主题信息生成计数信息:针对候选主题集合,对该候选主题集合中的每个主题在该文档单元集合内出现的次数进行计数;以及针对候选主题集合中的多个主题配对,对每个主题配对在文档单元集合内出现的次数进行计数。然后,该方法将计数信息存储在数据表中。该方法还包括基于计数信息生成条件概率信息,条件概率信息的实例描述了在给定第二主题在给定文档单元中的假定出现的情况下第一主题将在给定文档单元内出现的概率,以及在给定第一主题的假定出现的情况下第二主题将在给定文档单元内出现的概率。更具体地,通过以下步骤产生条件概率的实例:将第一主题和第二主题在文档单元内共同出现的次数除以第二主题在文档单元内出现的次数,以产生第一条件概率分数;以及将第一主题和第二主题在文档单元内共同出现的次数除以第一主题在文档单元内出现的次数,以产生第二条件概率分数。该方法还包括在图形数据结构中制定条件概率信息。制定的操作包含:将第一条件概率分数和第二条件概率分数中的每个与规定阈值进行比较以产生比较结果;基于比较结果在第一主题和第二主题之间建立链接,该链接指示第二主题是第一主题的子主题或第一主题是第二主题的子主题;以及将链接表示为图形数据结构中的边。
根据与第十九示例相关的第二十示例,当第一概率分数和第二概率分数中的一个高于规定阈值,并且第一概率分数和第二概率分数中的另一个低于规定阈值时,建立链接的操作建立链接。
第二十一示例对应于上述第一示例至第二十示例的任何组合(例如,任何逻辑上一致的置换或子集)。
第二十二示例对应于与第一示例至第二十一示例相关联的任何方法对应物、设备对应物、系统对应物、装置加功能对应物、计算机可读存储介质对应物、数据结构对应物、制品对应物、图形用户界面呈现对应物等等。
最后,本文所描述的功能性可以采用各种机制来确保以符合适用法律、社会规范以及个人用户的预期和偏好的方式来处理任何用户数据。例如,该功能性可以允许用户明确地选择进入(然后明确地选择退出)该功能性的提供。该功能性还可以提供适当的安全机制以确保用户数据的隐私(诸如数据安全机制、加密机制、口令保护机制等)。
此外,描述可以在例示性挑战或问题的上下文中阐述各种概念。这种解释方式并不旨在暗示其他人以在本文中所指定的方式了解和/或阐明挑战或问题。此外,这种解释方式并非旨在暗示权利要求中所述的主题限于解决所确定的挑战或问题;也就是说,权利要求中的主题可以被应用于除了本文所描述的那些之外的挑战或问题的上下文中。
虽然已经用结构特征和/或方法动作专用的语言描述了本主题,但是应当理解,所附权利要求中定义的主题不必限于上述具体特征或动作。相反,上述具体特征和动作是作为实现权利要求的示例形式而被公开。

Claims (15)

1.一种用于处理web文档的计算机实现的方法,包括:
将机器训练模型应用于文档单元集合以产生主题信息,每个文档单元包括经由广域网可访问的至少一个web文档的至少一部分,所述文档单元对应于不同的域,
所述应用包含处理被包括在每个文档单元中的令牌以标识由每个文档单元表达的一个或多个主题,而不考虑所述一个或多个主题如何彼此相关;
通过以下步骤基于所述主题信息生成计数信息:
针对候选主题集合,对所述候选主题集合中的每个主题在所述文档单元集合内出现的次数进行计数;以及
针对所述候选主题集合中的多个主题配对,对每个主题配对在所述文档单元集合内出现的次数进行计数;
将所述计数信息存储在数据表中;
基于所述计数信息生成条件概率信息,条件概率信息的实例描述了在给定第二主题在给定文档单元中的假定出现的情况下第一主题将在所述给定文档单元内出现的概率,以及在给定所述第一主题的假定出现的情况下所述第二主题将在所述给定文档单元内出现的概率;在图形数据结构中制定所述条件概率信息,所述图形数据结构包括多个节点和多个边,所述多个节点表示所述候选主题集合中的所述主题,并且连接两个节点的每个边体现分别与所述两个节点相关联的两个主题之间的层次关系;以及
提供应用系统,所述应用系统被配置为使用所述图形数据结构向用户提供计算机实现的服务。
2.根据权利要求1所述的计算机实现的方法,其中所述生成所述条件概率信息通过以下步骤生成条件概率信息的所述实例:
将所述第一主题和所述第二主题在所述文档单元内共同出现的次数除以所述第二主题在所述文档单元内出现的次数,以产生第一条件概率分数;以及
将所述第一主题和所述第二主题在所述文档单元内共同出现的次数除以所述第一主题在所述文档单元内出现的次数,以产生第二条件概率分数。
3.根据权利要求2所述的计算机实现的方法,其中所述制定包括将所述第一条件概率分数和所述第二条件概率分数中的每个与规定阈值相比较以产生比较结果,以及基于所述比较结果确定存在关系。
4.根据权利要求3所述的计算机实现的方法,其中,当所述比较结果指示所述第一条件概率分数或所述第二概率分数高于所述规定阈值,但所述第一概率分数和所述第二概率分数都没有高于所述规定阈值时,所述关系指示所述第二主题相对于所述第一主题具有子关系,或所述第一主题相对于所述第二主题具有子关系。
5.用于处理由用户提交的输入消息的一个或多个计算设备,包括:
硬件逻辑电路,所述硬件逻辑电路包括:(a)通过执行存储在存储器中的机器可读指令来执行操作的一个或多个硬件处理器,和/或(b)使用逻辑门的任务专用集合来执行所述操作的一个或多个其他硬件逻辑单元,所述操作包括:
经由计算机网络接收由所述用户提交的输入消息;
使用由所述硬件逻辑电路提供的应用系统生成对所述输入消息的响应,
所述应用系统通过利用由过程产生的条件概率信息生成所述响应,所述过程包含:
将机器训练模型应用于文档单元集合以产生主题信息,每个文档单元包括经由广域网可访问的至少一个web文档的至少一部分,所述文档单元对应于不同的域,
所述应用包含处理被包括在每个文档单元中的令牌以标识由每个文档单元表达的一个或多个主题,而不考虑所述一个或多个主题如何彼此相关;
通过以下步骤基于所述主题信息生成计数信息:
针对候选主题集合,对所述候选主题集合中的每个主题在所述文档单元集合内出现的次数进行计数;以及
针对所述候选主题集合中的多个主题配对,对每个主题配对在所述文档单元集合内出现的次数进行计数;
将所述计数信息存储在数据表中;
基于所述计数信息生成所述条件概率信息,条件概率信息的实例描述了在给定第二主题在给定文档单元中的假定出现的情况下第一主题将在所述给定文档单元内出现的概率,以及在给定所述第一主题的假定出现的情况下所述第二主题将在所述给定文档单元内出现的概率;以及
在图形数据结构中制定所述条件概率信息,所述图形数据结构包括多个节点和多个边,所述多个节点表示所述候选主题集合中的所述主题,并且连接两个节点的每个边体现分别与所述两个节点相关联的两个主题之间的层次关系。
6.根据权利要求5所述的一个或多个计算设备,其中所述应用系统被配置为使用所述条件概率信息来解释所述输入消息。
7.根据权利要求6所述的一个或多个计算设备,其中所述应用系统被配置为通过标识与所述输入消息相关联的至少一个主题并且询问所述图形数据结构以找到与所述输入消息相关的至少一个主题来解释所述输入消息。
8.根据权利要求5所述的一个或多个计算设备,其中所述应用系统包括合并由所述图形数据结构所赋予的信息的响应制定机制,并且其中所述响应制定机制被配置为基于由所述图形数据结构所赋予的所述信息来解释所述输入消息。
9.根据权利要求5所述的一个或多个计算设备,其中所述应用系统被配置为部分地使用所述条件概率信息以找到与由用户提交的输入查询和/或影响所述用户的当前上下文相匹配的至少一个项。
10.一种用于存储计算机可读指令的计算机可读存储介质,所述计算机可读指令在由一个或多个硬件处理器执行时执行一种方法,所述方法包括:
将机器训练模型应用于文档单元集合以产生主题信息,每个文档单元包括经由广域网可访问的至少一个web文档的至少一部分,所述文档单元对应于不同的域,
所述应用包含处理被包括在每个文档单元中的令牌以标识由每个文档单元表达的一个或多个主题,而不考虑所述一个或多个主题如何彼此相关;
通过以下步骤基于所述主题信息生成计数信息:
针对候选主题集合,对所述候选主题集合中的每个主题在所述文档单元集合内出现的次数进行计数;以及
针对所述候选主题集合中的多个主题配对,对每个主题配对在所述文档单元集合内出现的次数进行计数;
将所述计数信息存储在数据表中;以及
基于所述计数信息生成条件概率信息,条件概率信息的实例描述了在给定第二主题在给定文档单元中的假定出现的情况下第一主题将在所述给定文档单元内出现的概率,以及在给定所述第一主题的假定出现的情况下所述第二主题将在所述给定文档单元内出现的概率,通过以下步骤产生条件概率的所述实例:
将所述第一主题和所述第二主题在所述文档单元内共同出现的次数除以所述第二主题在所述文档单元内出现的次数,以产生第一条件概率分数;以及
将所述第一主题和所述第二主题在所述文档单元内共同出现的次数除以所述第一主题在所述文档单元内出现的次数,以产生第二条件概率分数;以及
在图形数据结构中制定所述条件概率信息,包含:
将所述第一条件概率分数和所述第二条件概率分数中的每个与规定阈值进行比较以产生比较结果;
基于所述比较结果在所述第一主题和所述第二主题之间建立链接,所述链接指示所述第二主题是所述第一主题的子主题或者所述第一主题是所述第二主题的子主题;以及
将所述链接表示为所述图形数据结构中的边。
11.根据权利要求1所述的计算机实现的方法,其中所述文档单元集合中的至少一个文档单元对应于单个web文档。
12.根据权利要求1所述的计算机实现的方法,其中所述文档单元集合中的至少一个文档单元包括至少两个web文档,所述至少两个web文档中的第一web文档具有到所述至少两个web文档中的另一web文档的链接。
13.根据权利要求5所述的一个或多个计算设备,其中所述应用系统在使用随机游走算法对web文档进行排名的过程中部分地使用所述条件概率信息作为加权因子。
14.根据权利要求5所述的一个或多个计算设备,其中所述应用系统被配置为部分地使用所述条件概率信息通过向已有知识图添加至少一个节点和/或至少一个边来修改所述已有知识图。
15.根据权利要求5所述的一个或多个计算设备,其中所述应用系统被配置为部分地使用所述条件概率信息将文档存储在数据存储库中的所标识位置处。
CN202180041429.3A 2020-06-09 2021-04-21 生成标识在web文档中表达的主题之间的关系的图形数据结构 Pending CN115917529A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/896,254 2020-06-09
US16/896,254 US11361028B2 (en) 2020-06-09 2020-06-09 Generating a graph data structure that identifies relationships among topics expressed in web documents
PCT/US2021/028293 WO2021252076A1 (en) 2020-06-09 2021-04-21 Generating a graph data structure that identifies relationships among topics expressed in web documents

Publications (1)

Publication Number Publication Date
CN115917529A true CN115917529A (zh) 2023-04-04

Family

ID=75850716

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180041429.3A Pending CN115917529A (zh) 2020-06-09 2021-04-21 生成标识在web文档中表达的主题之间的关系的图形数据结构

Country Status (4)

Country Link
US (1) US11361028B2 (zh)
EP (1) EP4162372A1 (zh)
CN (1) CN115917529A (zh)
WO (1) WO2021252076A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11552976B2 (en) * 2018-10-15 2023-01-10 Arizona Board Of Regents On Behalf Of Arizona State University Systems and methods for social network analysis on dark web forums to predict enterprise cyber incidents
EP3933699A1 (en) * 2020-06-30 2022-01-05 Siemens Aktiengesellschaft A computer-implemented method and apparatus for automatically annotating columns of a table with semantic types
US20220309100A1 (en) * 2021-03-26 2022-09-29 EMC IP Holding Company LLC Automatic Discovery of Related Data Records
WO2023215903A1 (en) * 2022-05-06 2023-11-09 Mapped Inc. Automatic link prediction for devices in commercial and industrial environments
US20240054287A1 (en) * 2022-08-11 2024-02-15 Microsoft Technology Licensing, Llc Concurrent labeling of sequences of words and individual words

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9317593B2 (en) * 2007-10-05 2016-04-19 Fujitsu Limited Modeling topics using statistical distributions
WO2011004529A1 (ja) * 2009-07-06 2011-01-13 日本電気株式会社 分類階層再作成システム、分類階層再作成方法及び分類階層再作成プログラム
US10552468B2 (en) * 2016-11-01 2020-02-04 Quid, Inc. Topic predictions based on natural language processing of large corpora
US10956521B1 (en) * 2018-05-14 2021-03-23 Amazon Technologies, Inc. Computer process for diversified random walk of a directed graph

Also Published As

Publication number Publication date
EP4162372A1 (en) 2023-04-12
WO2021252076A1 (en) 2021-12-16
US11361028B2 (en) 2022-06-14
US20210382944A1 (en) 2021-12-09

Similar Documents

Publication Publication Date Title
Zhang et al. A quantum-inspired sentiment representation model for twitter sentiment analysis
US11361028B2 (en) Generating a graph data structure that identifies relationships among topics expressed in web documents
JP5171962B2 (ja) 異種データセットからの知識移転を伴うテキスト分類
CA3088695C (en) Method and system for decoding user intent from natural language queries
US9659259B2 (en) Latency-efficient multi-stage tagging mechanism
CN111615706A (zh) 基于子流形稀疏卷积神经网络分析空间稀疏数据
US10229190B2 (en) Latent semantic indexing in application classification
Setiawan et al. Feature expansion using word embedding for tweet topic classification
US20140280179A1 (en) System and Apparatus for Information Retrieval
Kanwal et al. A review of text-based recommendation systems
US20110055238A1 (en) Methods and systems for generating non-overlapping facets for a query
Wang et al. A hybrid model of sentimental entity recognition on mobile social media
US10783179B2 (en) Automated article summarization, visualization and analysis using cognitive services
US20100106719A1 (en) Context-sensitive search
KR20170004154A (ko) 문서를 이미지 기반 컨텐츠로 요약하여 제공하는 방법 및 시스템
US20200410056A1 (en) Generating machine learning training data for natural language processing tasks
Paul et al. Focused domain contextual AI chatbot framework for resource poor languages
US20200125802A1 (en) Identifying themes from content items obtained by a digital magazine server to users of the digital magazine server
US11429792B2 (en) Creating and interacting with data records having semantic vectors and natural language expressions produced by a machine-trained model
Zainuddin et al. Improving twitter aspect-based sentiment analysis using hybrid approach
KR102358191B1 (ko) 주제 가중치와 기업 가중치를 기초로 딥러닝 네트워크를 이용해 선별된 기사를 제공하기 위한 시스템
US11663224B2 (en) Processing queries using an attention-based ranking system
WO2021007159A1 (en) Identifying entity attribute relations
Zhang et al. Relevance estimation with multiple information sources on search engine result pages
CN109952571A (zh) 基于上下文的图像搜索结果

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination