CN111552766B - 使用机器学习来表征在引用图形上应用的参考关系 - Google Patents

使用机器学习来表征在引用图形上应用的参考关系 Download PDF

Info

Publication number
CN111552766B
CN111552766B CN202010087706.1A CN202010087706A CN111552766B CN 111552766 B CN111552766 B CN 111552766B CN 202010087706 A CN202010087706 A CN 202010087706A CN 111552766 B CN111552766 B CN 111552766B
Authority
CN
China
Prior art keywords
document
documents
index
index document
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010087706.1A
Other languages
English (en)
Other versions
CN111552766A (zh
Inventor
B·布尔
A·希克斯
S·R·卡里尔
D·S·曼斯朱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN111552766A publication Critical patent/CN111552766A/zh
Application granted granted Critical
Publication of CN111552766B publication Critical patent/CN111552766B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

提供了使用机器学习进行文档分析的技术。接收对索引文档的选择,并标识参考该索引文档的多个文档。对于该多个文档中的每个相应文档,提取该相应文档的相应部分,其中该相应部分参考该索引文档;以及为该相应部分生成相应向量表示。通过使用经训练的分类器处理该向量表示,基于该多个文档中的每个文档如何与该索引文档相关,为该多个文档生成多个分组。最后,连同该索引文档,至少提供该多个分组的指示。

Description

使用机器学习来表征在引用图形上应用的参考关系
背景技术
本公开涉及电子文档分析,并且更具体地,涉及使用机器学习来分析和表征电子文档。
在审查学术出版物、期刊和会议论文集时,读者经常对探索与任意给定文章有关的作品和出版物感兴趣。用户通常会利用每篇论文中包括的引用,以便于标识其他相关论文,这些相关论文可用于扩展用户对主题和论文本身的理解。另外,用户可能希望定位引用或参考特定文档的文档,以便更好地理解该文档及其在该领域的位置如何以及学术界对它的反应如何。通常,这些参考是根据其发布日期进行组织的。但是,在不先阅读每个文档的情况下,用户将无法确定这些文档如何与特定文档关联,这既浪费时间和成本,又容易产生主观性和错误性。这样,用户很难高效地获得对每个文档如何与该领域相关的客观和细致的理解。
发明内容
根据本公开的一个实施例,提供了一种方法。该方法包括:接收对索引文档的选择;以及标识参考该索引文档的多个文档。对于多个文档中的每个相应文档,该方法包括:提取相应文档的相应部分,其中相应部分参考索引文档;以及通过一个或多个处理器的操作,为相应部分生成相应向量表示。该方法还包括通过使用经训练的分类器处理向量表示,基于多个文档中的每个文档如何与索引文档相关,为多个文档生成多个分组。最终,该方法包括连同索引文档,至少提供多个分组的指示。
根据本公开的第二实施例,提供了一种计算机可读存储介质。该计算机可读存储介质具有与其一起体现的程序代码,该计算机可读程序代码由一个或多个计算机处理器可执行以执行操作。该操作包括:接收对索引文档的选择;以及标识参考该索引文档的多个文档。对于多个文档中的每个相应文档,该操作包括:提取相应文档的相应部分,其中相应部分参考索引文档;以及通过一个或多个处理器的操作,为相应部分生成相应向量表示。该操作还包括通过使用经训练的分类器处理向量表示,基于多个文档中的每个文档如何与索引文档相关,为多个文档生成多个分组。最终,该操作包括连同索引文档,至少提供多个分组的指示。
根据本公开的第三实施例,提供了一种系统。该系统包括一个或多个计算机处理器,以及包含程序的存储器,该程序在由一个或多个计算机处理器执行时执行操作。该操作包括:接收对索引文档的选择;以及标识参考该索引文档的多个文档。对于多个文档中的每个相应文档,该操作包括:提取相应文档的相应部分,其中相应部分参考索引文档;以及通过一个或多个处理器的操作,为相应部分生成相应的向量表示。该操作还包括通过使用经训练的分类器处理向量表示,基于多个文档中的每个文档如何与索引文档相关,为多个文档生成多个分组。最终,该操作包括连同索引文档,至少提供多个分组的指示。
附图说明
图1示出了根据本文公开的一个实施例的用于基于电子文档与索引文档的关系来对电子文档进行分类的工作流。
图2是示出了根据本文公开的一个实施例的被配置为对电子文档进行分析和分类的分析设备的框图。
图3是示出了根据本文公开的一个实施例的使用机器学习来对电子文档进行分析和分类的方法的流程图。
图4A示出了根据本文公开的一个实施例的用于训练词语嵌入编码器以分析电子文档的工作流。
图4B示出了根据本文所公开的一个实施例的用于使用受训练的词语嵌入编码器来分析电子文档的工作流。
图5是示出了根据本文公开的一个实施例的对电子文档进行分析和分类的方法的流程图。
具体实施方式
在本公开的实施例中,使用机器学习来对多个电子文本文档进行分析和分类,以便确定文档之间的关系。在一个实施例中,标识并分析参考索引文档的文档以确定它们如何与索引文档有关。然后可以基于此分析对文档进行分类,并且可以将分类提供给用户,以便于促进理解。例如在一个实施例中,基于以下各项来对文档进行分类:它们是否在索引文档上扩展(例如,依赖索引文档作者使用的技术)、评论索引文档(例如,评论所使用的方法或技术)、显示相似的发现或复制索引文档的结果(或无法复制结果)、依赖于索引文档以用于支持(例如,参考索引文档作为权威)或包括对索引文档的更正或改进(例如,由同一作者或其他人准备)。
本公开的实施例利用机器学习以细粒度的方式对文档进行分析和分类,这超过了仅根据文档的阳性或阴性来对文档进行分类。在一个实施例中,引用图形被用来标识与索引文档有关的文档。在实施例中,该引用图形可以被提供(例如通过维护文档的语料库(“corpus”)的实体),或者可以被动态地生成。在一些实施例中,仅分析与索引文档有关的图形的部分(例如仅直接连接到索引文档的节点和边缘)。在一个实施例中,分析超出了该部分,并且包括对次要和/或三次关系的分析。
在一个实施例中,引用图形是有向图形,其中每个节点对应于文档,并且每个边缘对应于文档之间的参考或引用。在本公开的实施例中,文档可以包括文章、论文、期刊或任意其他文本文档。在一个实施例中,基于哪个文档参考另一个来确定每个边的方向性。例如如果第一文档参考第二文档中呈现的作品并且依赖第二文档中呈现的作品,则引用图形可能包括从第一文档到第二文档的边。在一些实施例中,分析包括文档之间的明确引用或参考(例如通过名称或通过其他标识符)。在一个实施例中,该分析还扩展到其他参考,包括对文档的非明确参考(例如未正式引用该文档的参考)。
在一个实施例中,一旦标识了用于索引文档的相关文档,就使用训练的嵌入模型来处理所有或部分相关文档,以生成该文档(或其一部分)的向量表示。在一些实施例中,如果文档包括对索引文档的多个参考,则分别对每个参考进行分析,并为文档中的每个参考生成相应的向量。在一个实施例中,分析这些向量表示以基于它们如何与底层索引文档相关来生成分组或聚类。在一个实施例中,经训练的分类器(诸如支持向量机,逻辑回归模型,具有线性激活的一个或多个神经网络等)被用于将每个文档分类为预定义的类别,如下面更详细地讨论的。在一些实施例中,一种或多种聚类算法被应用以使得可变数目的聚类能够被标识(诸如自适应k均值聚类、具有噪声的应用的基于密度的空间聚类等)。在这样的实施例中,可以标识文档的唯一类别(而不是预定的分类)。
在本公开的一些实施例中,可以向用户提供或指示所生成的分组,以使得能够实现对下面的材料的更深入的理解。例如在一个实施例中,确定每个类别或分类中的文档数量,并且向用户提供关于每个类别的大小的指示。在一些实施例中,基于每个类别中的文档数量对类别进行排名或排序。在一个实施例中,提供了到每个文档的链接,以及文档的至少一部分(例如围绕相关引用或参考的部分)。另外,在一些实施例中,可以在每个类别内对文档进行排序或排名。例如在一些实施例中,基于文档的发布日期来布置文档。在一个实施例中,基于参考文档如何与索引文档的相关来对参考文档进行排名。即,在这样的实施例中,分析文档以确定索引文档对于参考文档具有的重要性级别。例如在一个实施例中,每个文档引用或参考索引文档的次数可以用于确定索引文档相对于参考文档的重要性。类似地,在一些实施例中,参考或讨论索引文档的文本量与重要性分数相关。
图1示出了根据本文公开的一个实施例的用于基于电子文档与索引文档的关系对电子文档进行分类的工作流100。在所示的实施例中,引用图形105由文档分析应用110接收。在一些实施例中,引用图形105由远程服务生成并提供给文档分析应用110。例如在一个实施例中,一个或多个服务维护文档的语料库,并使用户能够访问它们、搜索、阅读、购买文档等。在一个实施例中,这些服务中的一个或多个还针对它们所维护的文档来生成并维护各自的引用图形105。在一些实施例中,文档分析应用110从一个或多个服务接收这些引用图形105。
在一些实施例中,文档分析应用110生成一个或多个引用图形105。在一个实施例中,文档分析应用110遍历文档的一个或多个语料库并基于所包括的引用和参考来生成引用图形105。在一些实施例中,文档分析应用110接收引用图形105,并适当地组合或链接它们。例如假设存储在第一语料库中的索引文档(其被包括在第一引用图形105中)被存储在第二语料库中的第二文档(因此被包括在第二引用图形105中)参考或引用。在一个实施例中,文档分析应用110可以链接这两个图形(例如通过将来自第二引用图形中的第二文档的边添加到第一引用图形中的索引文档),以便生成更广泛和更完整的引用图形105。
在所示的实施例中,文档分析应用110分析引用图形105以标识与索引文档有关(例如通过参考或引用该索引文档)的文档。在一些实施例中,文档分析应用110对语料库中的每个文档执行该分析。在一个实施例中,文档分析应用110接收对索引文档的选择或指示(例如由用户选择或打开),并且标识与该所选文档有关的文档。如图所示,文档分析应用110基于相关文档与索引文档的关系的性质将相关文档归类为多个类别115A-N。在一个实施例中,基于文档是否支持索引文档、对其进行反驳、对其进行扩展等来确定针对特定文档的适当类别115A-N。然后可以将该精选的参考文档集合提供给用户。
图2是示出了根据本文公开的一个实施例的被配置为对电子文档进行分析和分类的分析设备205的框图。在所示的实施例中,分析设备205包括处理器210、存储器215、存储装置220和网络接口225。在所示的实施例中,处理器210取回并执行存储在存储器215中的编程指令以及存储和取回驻留在存储装置220中的应用数据。处理器210代表单个CPU、多个CPU、具有多个处理核的单个CPU等。通常包括存储器215以代表随机存取存储器。存储装置220可以是磁盘驱动器或基于闪存的存储设备,并且可以包括固定和/或可移除存储设备,诸如固定磁盘驱动器、可移除存储卡或光学存储装置、网络附接存储装置(NAS)或存储区域-网络(SAN)。通过网络接口225,控制器110可以与其他设备通信耦合,诸如文档语料库、用户设备等。本领域的技术人员将理解,分析设备205的一个或多个组件可以位于远程并且可以经由网络访问。
如图所示,分析设备205经由网络285与文档115的语料库进行通信。在一个实施例中,网络285是因特网。尽管示出了文档115的单个存储库,但是在实施例中,分析设备205可以与任意数量的设备、数据库、实体和存储介质通信以便于取回文档115。在所示的实施例中,存储装置220包括引用图形105。尽管示出了单个引用图形105,但是在实施例中,分析设备205可以依赖于任意数量的引用图形105。此外,在一个实施例中,对于给定的索引文档,分析设备205访问、取回或仅生成引用图形105的包围索引文档的部分(例如图中与索引文档紧邻的节点和/或参考索引文档的节点)。另外,尽管被示为驻留在存储装置220中,但是在实施例中,引用图形105可以驻留在任意适当的位置,包括与文档115的语料库一起(例如由单独的实体提供)。
在所示的实施例中,存储器215包括文档分析应用110,该文档分析应用110接收并分析文档115。如图所示,文档分析应用110包括参考组件230、向量组件235和分类器组件240。尽管被示为离散的组件,但是在实施例中,参考组件230、向量组件235和分类器组件240的操作和功能可以在任意数量的组件上组合或划分。此外,尽管被示为驻留在存储器215中的软件组件,但是在实施例中,参考组件230、向量组件235和分类器组件240的操作和功能可以使用硬件、软件或硬件和软件的组合来实现。
在一个实施例中,参考组件230接收索引文档(例如由用户选择)并标识至少一次参考或引用索引文档的文档集合。在一些实施例中,参考组件230解析引用图形105以标识此类文档。在一个实施例中,参考组件230标识包括对索引文档的实际引用的文档。在一些实施例中,即使没有明确的引用,参考组件230也标识并取回参考索引文档的文档。例如在一个实施例中,对于名为“卢瑟福”的作者的索引文档,参考组件230可以将陈述“……在卢瑟福对此事的最新工作中……”的文档标识为相关参考文档。在实施例中,该标识可以基于自然语言处理,并且可以考虑诸如文档是否在同一字段中、时间轴是否一致的(例如卢瑟福文档是否可以被认为是参考文档的“最新”)等的因素。
在一些实施例中,一旦参考组件230标识了相关参考文档,参考组件230还标识了每个文档的相关部分。例如在一个实施例中,如果单个文档五次参考或引用了索引文档,则参考组件230将这五个部分中的每一个标识为单独的相关部分、引用或参考。在一些实施例中,参考组件230提取围绕每个参考的文本的某些部分,以便向参考提供上下文。例如在一个实施例中,参考组件230在每个参考之前和/或之后提取预定数量的语句。在一些实施例中,要提取的文本量(以及是否从参考之前、参考之后或两者中提取文本)由用户定义。
在所示的实施例中,向量组件235接收文档的这些部分,并基于预训练的词语嵌入空间来为每个文档生成向量表示。在一个实施例中,向量组件235分析整个参考文档以生成该向量。在其他实施例中,向量组件235分析针对每个参考所标识和提取的文本的部分,并生成对应的向量。在一些实施例中,向量组件235基于文档中包括的单独的参考或引用中的每一个来为每个参考文档生成单个聚合向量。例如在一个实施例中,如果参考在四个不同的地方引用了索引文档,则向量组件235在生成表示文档与索引文档的关系的单个向量之前,将这些部分进行聚合。在一些实施例中,向量组件235为每个部分生成向量,并将这些向量聚合以表示文档。
在一些实施例中,可以基于单个文档包含的单个参考将其分类为多个类别。例如假设文档的第一部分质疑索引文档中使用的方法,而第二部分确认与索引文档相同的结果。在一些实施例中,文档将被加标签或与每个类别相关联,其中标签进一步与文档的适当部分相关联。在对每个参考文档利用单个表示的一些实施例中,部分或向量被聚合以生成统一的分数,该分数被用于基于文档与索引文档的整体或平均相关性或关系对文档进行分类。
如图所示,分类器组件240取回这些向量表示,并基于参考文档(或参考文档的对应部分)与索引文档之间的关系对它们进行分类或归类。例如在一个实施例中,分类器组件240使用经训练的分类器(例如神经网络)来适当地标记每个参考或文档。在一实施例中,使用标记的样本来训练分类器。例如在一个实施例中,在训练阶段期间,参考文档(或参考文档的一部分)的文本(或其向量表示)作为输入被提供给模型,而所需标签(例如正确的类别)作为目标输出被提供。该输出可以通过模型传播,以更新或改进机器学习模型中的权重和连接,以便于改进其结果。在训练阶段完成之后,新文档(例如文档或文本部分的向量表示)用作输入被处理,并且分类器为输入生成对应的标签。
在一些实施例中,分类器组件240对文档(或其部分)预定义的类别或种类进行排序。例如在一个实施例中,类别可以包括(i)依赖索引文档中使用的技术的文档;(ii)对索引文档中使用的方法的评论;(iii)复制索引文档结果的文档;(iv)与索引文档有关的更正或修订;(v)对索引文档的概念或想法扩展的文档;(vi)无法复制或支持索引文档结果的文档;(vii)依赖于索引文档作为权威的文档。当然,在实施例中,可以利用任意数量的类别。此外,在某些实施例中,分类器组件240可以取决于特定的实现,将给定文档与多个类别相关联。在一些实施例中,分类器组件240不是使用预定义的类别,而是在合适的情况下利用一种或多种聚类算法将文档(或部分)分类为动态和可变数量的聚类。
图3是示出了根据本文公开的一个实施例的使用机器学习对电子文档进行分析和分类的方法300的流程图。方法300从框305开始,在框305,文档分析应用110接收对索引文档的选择或指示。例如在一个实施例中,用户可以选择他们希望审查或阅读的索引文档。在一个实施例中,当用户访问参考该文档的引用或参考时(例如通过单击导向相关文档的链接),文档分析应用110接收对索引文档的选择。在一些实施例中,文档分析应用110接收或取回索引文档的文本。在一个实施例中,文档分析应用110基于所选择的索引文档来取回或生成引用图形(或图形的一部分)。然后,方法300进行到框310。
在框310,文档分析应用110标识引用或参考索引文档的一个或多个文档。例如在一个实施例中,文档分析应用110从维护、存储或提供索引文档的实体中取回引用图形。然后,文档分析应用110可以分析引用图形,以确定参考或引用所选文档的文档集合。在另一个实施例中,文档分析应用110从提供实体取回相关文档的列表。在一些实施例中,如上所述,文档分析应用110标识明确引用索引文档的文档,以及在没有正式引用(例如不包括脚注)的情况下参考索引文档的文档(或文档的一部分)。
然后,方法300进行到框315,在其中文档分析应用110从所标识的文档集合中选择第一参考文档。在框320处,文档分析应用110选择在索引文档中包括的第一引用或参考。也就是说,在所示的实施例中,文档分析应用110标识对索引文档的一个或多个引用或参考中的每一个在参考文档中的位置。然后,文档分析应用110选择这些参考或引用之一进行处理。然后,方法300继续到框325,在框325中,文档分析应用110从参考文档中提取文本的某些部分。如图所示,文本的提取部分对应于所选引用。例如在一个实施例中,文档分析应用110提取与引用有关的语句(例如与脚注或其他引用相关联,或者作为参考)。
在一个实施例中,文档分析应用110还在所选择的引用或参考之前和/或之后提取预定数量的语句。在一些实施例中,如果参考与脚注相关联,则文档分析应用110还提取在脚注内包括的文本(例如如果作者在脚注中提供了附加的解释或说明)。在一个实施例中,文档分析应用110使用一种或多种自然语言处理(NLP)技术来分析文本以确定要提取多少文本。例如在这样的实施例中,文档分析应用110从紧接在包含参考或引用的语句之前或之后的语句开始,确定它是否与参考或引用相关或有关。通过这种方式,文档分析应用110可以通过从参考语句向外扩展来标识文本的相关部分,直到下一个语句不再与引用相关或有关为止(或者直到该语句相关的置信度低于预定义的阈值为止)。
然后,方法300前进到框330,其中文档分析应用110生成所提取文本的向量表示。在一个实施例中,文档分析应用110利用预训练的词语嵌入空间,如下面参考图4A和4B更详细地讨论的。在一个实施例中,向量表示是浮点数的多维向量(或一维数组),并且可以是任意长度(例如可以具有任意数量的分量)。在实施例中,文本部分的向量表示使文本能够被客观地放置在词语嵌入空间中,这能够实现基于文本的含义或上下文对文本进行客观分类。
在框330处,文档分析应用110基于所生成的向量表示来对所选择的引用或参考进行分类。在一个实施例中,文档分析应用110利用已经使用标记的示例训练的机器学习模型。例如在一个实施例中,通过提供向量作为输入并应用类别或分类的指示作为目标输出(诸如使用单热向量)来训练分类器。然后可以通过模型对该目标输出进行反向传播,以便于修改机器学习模型中的权重和连接,以更好地预测正确的分类。在一个实施例中,文档分析应用110利用标记的示例(例如由一个或多个人或主题专家标记)来训练或完善分类器模型。一旦训练了模型,文档分析应用110就针对文本的给定部分处理所生成的向量作为对模型的输入,并确定参考所属的一个或多个类别。
在其他实施例中,如上所述,文档分析应用110代之以利用非监督模型,诸如自适应k均值聚类,以便于生成类别。在这样的实施例中,文档分析应用110可以避免对所生成的向量进行分类,直到所有相关的引用或参考都已经被处理以生成对应的向量为止。此时,文档分析应用110可以将聚类算法应用于向量表示的集合,以便生成分组。
然后,方法300进行到框340,其中文档分析应用110确定是否存在在所选参考文档中剩余的、尚待处理的至少一个附加的引用或参考。如果是这样,则方法300返回框320,以选择下一个引用或参考。否则,方法300前进到框345,在框345中,文档分析应用110确定是否存在至少一个附加参考文档尚待分析。在一些实施例中,如上所述,文档分析应用110还可以基于单独参考来为所选参考文档生成集合或聚合向量表示和/或分类。在这样的实施例中,文档分析应用110可以在进行到框345之前生成该标签。
如果在框345处确定存在要被分析的至少一个附加参考文档,则方法300返回至框315,其中文档分析应用110选择下一个文档。否则,方法300进行到框350,其中文档分析应用110基于分析和分类来提供注释的引用。例如在一个实施例中,文档分析应用110基于所生成的分类对参考文档进行排序,并且向用户呈现文档的分组或聚类以供审查。在一些实施例中,基于对应的参考文档和索引文档之间的关系(例如它们是否支持索引文档、与索引文档相抵触等等)来标记分组。在一个实施例中,基于每个类别中包含的文档数量对类别进行排序。
在一些实施例中,文档分析应用110从每个文档中提供已标识和提取的文本部分的一些或全部,以便允许用户在请求整个文档之前快速审查参考。在一个实施例中,文档分析应用110还提供到对应参考文档的链接或指针,这使得用户能够请求参考文档的全文。在一些实施例中,单个参考文档中包括的参考文献或引用在带注释的结果中被分组在一起,以便它们可以轻松地一起被访问。
在一个实施例中,文档分析应用110基于文档与索引文档的相关性或重要性对文档进行排序。例如在一个实施例中,至少部分地基于它们各自的出版日期来对文档进行布置或排序(例如较新的文档更接近结果的顶部)。在一些实施例中,文档分析应用110为每个参考文档确定文档参考或引用索引文档的次数。在一个实施例中,文档参考索引文档的次数代表索引文档相对于参考文档的重要性。类似地,在一个实施例中,文档分析应用110确定与索引文档相关的文本的数量(例如从参考文档中提取以生成向量表示的语句的数目)。在一些实施例中,语句的数量或那些语句的长度也可以被用来表示索引文档对参考文档的重要性。在一个实施例中,基于该确定的重要性进一步对文档进行排序或布置。
图4A示出了根据本文公开的一个实施例的用于训练词语嵌入编码器以分析电子文档的工作流400A。在所示的实施例中,文本405A的块被提供作为对编码器410的输入。如省略号所示,在实施例中,文本405A可以是任意长度。在一个实施例中,文本405A对应于对文档的参考或引用。例如文本405A可以包括对另一文档的讨论,诸如“Anderson等人使用的方法可以通过几种方式扩展”。如图所示,编码器410处理该文本405A以生成向量415A,其是浮点数的一维阵列(或多维向量)。
在所示的实施例中,为了训练编码器410,训练解码器420以接收向量415A并生成一些输出。在一个实施例中,解码器420的目标输出是输入文本405A的上下文420A(例如原始参考文档中围绕文本405A的文本)。当然,任意上下文或数据都可以用作目标输出,只要目标输出可以用于生成或理解输入文本405A的含义即可。如图所示,该上下文420A通过解码器420传播并进入编码器410,以便于训练编码器410。在所示的实施例中,针对多个示例重复训练过程,以便于训练编码器410和解码器420两者。具体地,编码器410被训练以生成表示输入文本405A的向量415A,并且解码器420被训练以将该向量415A解码为适当的上下文420A。在一些实施例中,一旦已经训练编码器410以生成向量表示,则丢弃解码器420。
图4B示出了根据本文公开的一个实施例的用于使用训练的词语嵌入编码器来分析电子文档的工作流400B。在所示的实施例中,编码器410已经被训练,并且解码器420被丢弃。如图所示,在使用中,文档分析应用110将文本405B的片段提供给编码器410,编码器410生成对应的向量415B。如上所述,在实施例中,该向量415B可以用于在嵌入空间中定位文本405B,使得可以将其容易地和客观地与其他文本进行比较,并基于其意图和含义进行分类。
图5是示出了根据本文公开的一个实施例的对电子文档进行分析和分类的方法500的流程图。方法500在框505开始,在框505,文档分析应用110接收对索引文档的选择。在框510处,文档分析应用110标识参考索引文档的多个文档。方法500然后前进到框515,在框515中,对于多个文档中的每个相应文档,文档分析应用110提取相应文档的相应部分,其中相应部分参考索引文档。此外,在框520处,文档分析应用110为多个文档中的每个相应文档生成相应部分的相应向量表示。方法500继续到框525,在框525中,文档分析应用110通过使用经训练的分类器处理向量表示,基于多个文档中的每一个如何与索引文档相关,为多个文档生成多个分组。最终,在框530处,文档分析应用110至少提供多个分组的指示以及索引文档。
已经出于说明的目的呈现了本公开的各种实施例的描述,但是这些描述并不旨在是穷举的或限于所公开的实施例。在不脱离所描述的实施例的范围和精神的情况下,许多修改和变化对于本领域普通技术人员将是显而易见的。选择本文使用的术语是为了最好地解释实施例的原理,对市场上发现的技术的实际应用或技术上的改进,或者使本领域的其他普通技术人员能够理解本文公开的实施例。
在前面,参考了在本公开中呈现的实施例。然而,本公开的范围不限于特定描述的实施例。取而代之,可以考虑前述特征和元素的任意组合,无论是否与不同的实施例相关,以实现和实践所预期的实施例。此外,尽管本文公开的实施例可以实现优于其他可能的解决方案或优于现有技术的优点,但是通过给定的实施例是否实现特定的优点并不限制本公开的范围。因此,除非在权利要求中明确记载,否则前述方面、特征、实施例和优点仅是示意性的,并且不被视为所附权利要求的要素或限制。同样,对“本发明”的引用不应被解释为本文所公开的任意发明主题的概括,并且除非在权利要求中明确记载,否则不应被视为所附权利要求的元素或限制。
本公开的各方面可以采取以下形式:完全硬件实施例,完全软件实施例(包括固件、驻留软件、微代码等)或结合了软件和硬件方面的实施例,这些方面在本文中通常都统称为“电路”、“模块”或“系统”。
本发明可以是系统、方法和/或计算机程序产品。该计算机程序产品可以包括其上具有用于使处理器执行本发明的方面的计算机可读程序指令的计算机可读存储介质。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及传统过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
可以通过云计算基础设施将本发明的实施例提供给最终用户。云计算通常是指通过网络提供可扩展计算资源作为服务。更正式地讲,云计算可以被定义为计算能力,其提供计算资源与其底层技术体系结构(例如服务器、存储装置、网络)之间的抽象,能够实现对可配置计算资源的共享池的方便的、按需网络访问,共享池可以通过最少的管理工作或服务提供商交互来快速被配置和释放。因此,云计算允许用户访问“云”中的虚拟计算资源(例如存储装置、数据、应用、甚至完整的虚拟化计算系统),而无需考虑用于提供计算资源的底层物理系统(或这些系统的位置)。
通常,云计算资源是按使用量付费提供给用户的,其中仅针对实际使用的计算资源(例如,用户消耗的存储空间量或用户实例化的虚拟化系统的数量)向用户收费。用户可以随时随地从因特网的任意位置访问驻留在云中的任意资源。在本发明的上下文中,用户可以访问云中可用的应用(例如文档分析应用110)或相关数据。例如文档分析应用110可以在云中的计算系统上执行并且分析文档和引用图形。在这种情况下,文档分析应用110可以确定文档之间的关系,并将得到的标签存储在云中的存储位置。这样做允许用户从附接到网络(例如因特网)的任意计算系统访问该信息,该网络连接到云。
尽管前述内容针对本发明的实施例,但是在不脱离本发明的基本范围的情况下,可以设计本发明的其他和进一步的实施例,并且本发明的范围由所附权利要求书确定。

Claims (11)

1.一种方法,包括:
接收对索引文档的选择;
标识参考所述索引文档的多个文档;
针对所述多个文档中的每个相应文档:
提取所述相应文档的相应部分,其中所述相应部分参考所述索引文档;以及
通过一个或多个处理器的操作,为所述相应部分生成相应向量表示;
基于所述多个文档中的每个文档如何与所述索引文档相关,为所述多个文档生成多个分组,包括针对所述多个文档中的相应文档:
使用经训练的分类器处理所述相应向量表示以向多个类别中的相应类别指派所述相应文档,其中所述多个类别包括:(i)针对支持所述索引文档的文档的类别,以及(ii)针对不支持所述索引文档的文档的类别;以及
连同所述索引文档,至少提供所述多个分组的指示。
2.根据权利要求1所述的方法,其中所述经训练的分类器使用文档的精选训练集合被训练,其中所述精选训练集合中的每个相应文档基于所述相应文档如何与相应参考文档相关来被标记。
3.根据权利要求1所述的方法,其中标识参考所述索引文档的所述多个文档包括:
标识引用所述索引文档的文档;以及
标识参考所述索引文档而没有明确引用所述索引文档的文档。
4.根据权利要求1所述的方法,其中提取每个相应文档的所述相应部分包括:
标识所述相应文档中的、所述索引文档被参考的位置;以及
提取在所标识的所述位置之前和之后的预定义数目的语句。
5.根据权利要求1所述的方法,其中所述多个分组中的每个分组与多个类别中的相应类别相对应,其中所述多个类别还包括以下至少一项:
(i)在所述索引文档上扩展的文档的类别;
(ii)评论所述索引文档的文档的类别;
(iii)显示与所述索引文档相似发现的文档的类别;
(iv)未能显示与所述索引文档相似发现的文档的类别;或
(v)依赖于用于支持的所述索引文档的文档的类别。
6.根据权利要求1所述的方法,所述方法还包括:
提供被包括在所述多个分组中的每个分组中的文档的数目;
提供到所述多个文档中的每个文档的链接;以及
提供在所述多个文档中的每个相应文档的所述相应部分。
7.根据权利要求1所述的方法,其中被包括在所述多个分组的第一类别中所述文档部分地基于每个相应文档的相应重要性度量被排序。
8.根据权利要求1所述的方法,其中标识参考所述索引文档的所述多个文档包括访问包括所述索引文档的引用图形。
9.一种计算机可读存储介质,所述计算机可读存储介质具有与其一起体现的计算机可读程序代码,所述计算机可读程序代码由一个或多个计算机处理器可执行以执行根据权利要求1至8中的任一方法的操作。
10.一种系统,包括:
一个或多个计算机处理器;以及
存储器,包含程序,所述程序在由所述一个或多个计算机处理器执行时执行根据权利要求1至8中任一方法的操作。
11.一种计算机系统,包括用于执行根据权利要求1至8的任一方法的步骤的模型。
CN202010087706.1A 2019-02-11 2020-02-10 使用机器学习来表征在引用图形上应用的参考关系 Active CN111552766B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/272,239 US11144579B2 (en) 2019-02-11 2019-02-11 Use of machine learning to characterize reference relationship applied over a citation graph
US16/272,239 2019-02-11

Publications (2)

Publication Number Publication Date
CN111552766A CN111552766A (zh) 2020-08-18
CN111552766B true CN111552766B (zh) 2024-03-01

Family

ID=71946080

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010087706.1A Active CN111552766B (zh) 2019-02-11 2020-02-10 使用机器学习来表征在引用图形上应用的参考关系

Country Status (2)

Country Link
US (1) US11144579B2 (zh)
CN (1) CN111552766B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2021009886A1 (zh) * 2019-07-17 2021-01-21
US11436529B1 (en) * 2019-09-13 2022-09-06 Change Healthcare Holdings, Llc Method, apparatus, and computer program product for natural language processing
KR20210032105A (ko) * 2019-09-16 2021-03-24 한국전자통신연구원 랭킹 기반 네트워크 임베딩을 이용한 군집화 방법 및 장치
US11100429B2 (en) * 2019-12-27 2021-08-24 The Joan and Irwin Jacobs Technion-Cornell Institute System and method for creating electronic document chronologies using machine learning
WO2023028292A1 (en) * 2021-08-26 2023-03-02 Kpmg Llp System and method for implementing a document quality analysis and review tool

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7996379B1 (en) * 2008-02-01 2011-08-09 Google Inc. Document ranking using word relationships
CN103049568A (zh) * 2012-12-31 2013-04-17 武汉传神信息技术有限公司 对海量文档库的文档分类的方法
CN107526746A (zh) * 2016-06-22 2017-12-29 伊姆西公司 管理文档索引的方法和设备

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3254642B2 (ja) * 1996-01-11 2002-02-12 株式会社日立製作所 索引の表示方法
US6711585B1 (en) * 1999-06-15 2004-03-23 Kanisa Inc. System and method for implementing a knowledge management system
US8805803B2 (en) * 2004-08-12 2014-08-12 Hewlett-Packard Development Company, L.P. Index extraction from documents
US7917480B2 (en) * 2004-08-13 2011-03-29 Google Inc. Document compression system and method for use with tokenspace repository
EP1817693A1 (en) * 2004-09-29 2007-08-15 Panscient Pty Ltd. Machine learning system
US8190625B1 (en) * 2006-03-29 2012-05-29 A9.Com, Inc. Method and system for robust hyperlinking
US20070239704A1 (en) 2006-03-31 2007-10-11 Microsoft Corporation Aggregating citation information from disparate documents
EP2011037A1 (en) * 2006-04-11 2009-01-07 ITI Scotland Limited Information extraction methods and apparatus including a computer-user interface
US20080133476A1 (en) 2006-12-05 2008-06-05 Ivo Welch Automated peer performance measurement system for academic citation databases
US8856123B1 (en) * 2007-07-20 2014-10-07 Hewlett-Packard Development Company, L.P. Document classification
JP2011501258A (ja) * 2007-10-10 2011-01-06 アイティーアイ・スコットランド・リミテッド 情報抽出装置および方法
JP2011501847A (ja) * 2007-10-17 2011-01-13 アイティーアイ・スコットランド・リミテッド コンピュータで実現される方法
US8332384B2 (en) 2007-11-29 2012-12-11 Bloomberg Finance Lp Creation and maintenance of a synopsis of a body of knowledge using normalized terminology
US9239884B2 (en) 2008-05-22 2016-01-19 Alcatel Lucent Electronic document processing with automatic generation of links to cited references
US20100017388A1 (en) * 2008-07-21 2010-01-21 Eric Glover Systems and methods for performing a multi-step constrained search
CN102597991A (zh) * 2009-09-26 2012-07-18 哈米什·奥格尔维 文档分析与关联系统及方法
US11036810B2 (en) 2009-12-01 2021-06-15 Apple Inc. System and method for determining quality of cited objects in search results based on the influence of citing subjects
US9424351B2 (en) * 2010-11-22 2016-08-23 Microsoft Technology Licensing, Llc Hybrid-distribution model for search engine indexes
US8630975B1 (en) 2010-12-06 2014-01-14 The Research Foundation For The State University Of New York Knowledge discovery from citation networks
US9075873B2 (en) 2011-03-11 2015-07-07 Microsoft Technology Licensing, Llc Generation of context-informative co-citation graphs
US10331721B2 (en) 2012-06-21 2019-06-25 Autodesk, Inc. Systems and methods for visualizing relationships between publications
US9201969B2 (en) 2013-01-31 2015-12-01 Lexisnexis, A Division Of Reed Elsevier Inc. Systems and methods for identifying documents based on citation history
US9916365B1 (en) 2014-12-11 2018-03-13 Thomson Reuters Global Resources Unlimited Company Citation network analytics
US10635705B2 (en) 2015-05-14 2020-04-28 Emory University Methods, systems and computer readable storage media for determining relevant documents based on citation information
US10282424B2 (en) 2015-05-19 2019-05-07 Researchgate Gmbh Linking documents using citations

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7996379B1 (en) * 2008-02-01 2011-08-09 Google Inc. Document ranking using word relationships
CN103049568A (zh) * 2012-12-31 2013-04-17 武汉传神信息技术有限公司 对海量文档库的文档分类的方法
CN107526746A (zh) * 2016-06-22 2017-12-29 伊姆西公司 管理文档索引的方法和设备

Also Published As

Publication number Publication date
US20200257709A1 (en) 2020-08-13
CN111552766A (zh) 2020-08-18
US11144579B2 (en) 2021-10-12

Similar Documents

Publication Publication Date Title
De Cao et al. Multilingual autoregressive entity linking
CN111552766B (zh) 使用机器学习来表征在引用图形上应用的参考关系
CN107491547B (zh) 基于人工智能的搜索方法和装置
US20160232155A1 (en) Extracting and recommending business processes from evidence in natural language systems
US20150169737A1 (en) Selecting a structure to represent tabular information
US11222053B2 (en) Searching multilingual documents based on document structure extraction
US9411878B2 (en) NLP duration and duration range comparison methodology using similarity weighting
US10909320B2 (en) Ontology-based document analysis and annotation generation
US10430713B2 (en) Predicting and enhancing document ingestion time
US11030402B2 (en) Dictionary expansion using neural language models
US11042576B2 (en) Identifying and prioritizing candidate answer gaps within a corpus
US20210150270A1 (en) Mathematical function defined natural language annotation
CN114840685A (zh) 一种应急预案知识图谱构建方法
US20220207087A1 (en) Optimistic facet set selection for dynamic faceted search
Shanmukhaa et al. Construction of knowledge graphs for video lectures
US20210295036A1 (en) Systematic language to enable natural language processing on technical diagrams
US11120204B2 (en) Comment-based article augmentation
US11423228B2 (en) Weakly supervised semantic entity recognition using general and target domain knowledge
AU2019290658B2 (en) Systems and methods for identifying and linking events in structured proceedings
US11940996B2 (en) Unsupervised discriminative facet generation for dynamic faceted search
CN117633197A (zh) 应用于释义文档的检索信息生成方法、装置和电子设备
Luo et al. Element Extraction from Computer Science Academic Papers for AI Survey Writing
CN116010605A (zh) 长文本分类方法、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant