CN105378706B - 实体提取反馈 - Google Patents

实体提取反馈 Download PDF

Info

Publication number
CN105378706B
CN105378706B CN201380077066.4A CN201380077066A CN105378706B CN 105378706 B CN105378706 B CN 105378706B CN 201380077066 A CN201380077066 A CN 201380077066A CN 105378706 B CN105378706 B CN 105378706B
Authority
CN
China
Prior art keywords
document
proposed
rule set
entity extraction
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201380077066.4A
Other languages
English (en)
Other versions
CN105378706A (zh
Inventor
S.布兰奇弗洛维
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Longsand Ltd
Original Assignee
Longsand Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Longsand Ltd filed Critical Longsand Ltd
Publication of CN105378706A publication Critical patent/CN105378706A/zh
Application granted granted Critical
Publication of CN105378706B publication Critical patent/CN105378706B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/226Validation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

在各种实现方式中描述与实体提取反馈相关联的技术。在一个示例性实现方式中,方法可以包括生成与文档相关联的所提议的实体提取结果,所提议的实体提取结果基于被应用于文档的规则集而被生成。所述方法还可以包括接收关于所提议的实体提取结果的反馈,所述反馈包括与文档相关联的实际实体以及指示实际实体的文档的特征。所述方法还可以包括基于反馈而确定对规则集的所提议的修改。

Description

实体提取反馈
背景技术
实体提取是自然语言处理的形式,其用于识别给定内容源(诸如电子文档)中的哪些项对应于特定实体。实体提取可以用于自动地从半结构化或非结构化内容源中提取并构造信息。可以使用实体提取而识别的实体的示例包括命名实体(诸如人或地方)以及其它类型的实体(诸如电话号码、日期、时间等等)。通常使用类型/值对来定义实体,例如类型=位置,值=芝加哥。
实体提取可以充当许多不同上下文中的有用工具。例如,在招聘场景中,职位候选人可以提供关于其各自简历的相当类似类型的信息,但是简历本身可能以完全不同的方式被格式化或结构化。在该场景中,实体提取可以用于从各种接收的简历中识别关键的信息片段(例如,姓名、联系信息、之前的雇主、教育机构等等),并且这样的所提取的实体可以用于填充候选人数据库以供招聘者使用。作为另一示例,实体提取可以用于监视可疑的恐怖分子之间的无线电谈话(chatter),并且识别和报告在这样的会话中所提及的地理位置。在该示例中,然后可以分析这样的地理位置以确定它们是否涉及会面位置、隐匿位置或潜在的目标位置。这些示例仅仅示出实体提取的宽范围的可能使用中的两个。
附图说明
图1是根据本文描述的实现方式的示例性实体提取环境的概念图解。
图2是根据本文描述的实现方式的用于基于实体提取反馈而修改实体提取规则集的示例性过程的流程图。
图3是根据本文描述的实现方式的用于处理实体提取反馈的示例性计算系统的框图。
图4是根据本文描述的实现方式的示例性系统的框图。
具体实施方式
许多实体提取系统利用某个形式的基于规则的模型来确定、分析和/或提取来自给定内容源的实体。在给定的实体提取系统中所定义和应用的规则集可以任意地复杂,范围从相对简单化到极端详细并且复杂。相对简单化的系统可以具有包括相对小数目的基本规则的规则集,而较精密的系统可以利用显著较高数目的规则和/或显著较复杂的规则。
一些实体提取系统可以包括使用机器学习的一个或多个元素来定义规则的某些部分或全部而生成的规则集。这样的系统一般意图涵盖更宽泛、更复杂范围的实体提取场景。可以应用在实体提取上下文中的机器学习方法的示例包括潜在语义分析、支持向量机、“词袋”以及其它适当的技术或技术的组合。使用这些方法中的一个或多个可以导致相当鲁棒的规则集,而且理解和/或维护起来相当复杂的规则集。
无论多么基本或多么复杂,任何基于规则的实体提取系统的共同特性是:系统可能仅与其相应的规则集所允许的那样准确。准确性,如该术语在此处所使用的那样,可以被定义为匹配大多数人类观察者将会识别为被包括在特定内容源中的一个或多个“正确”或“实际”实体的内容。考虑到可以通过实体提取系统分析的各种类型的源(例如网页、在线新闻源、因特网讨论群组、在线评论、博客、社交媒体等等),通常可能是这样的情况:特定的实体提取系统可能在分析特定类型的源时展现出高水平的准确性,但是在分析不同类型的源时可能不太准确。换言之,实体提取系统经常被有意或无意地调节成在特定上下文(例如理解简历)中比在其它上下文(例如监视可疑恐怖分子)中更好地起作用。
本文中描述了用于通过提供关于由相应的系统所生成的实体提取结果的更有用和详细的反馈来改进基于规则的实体提取系统的准确性的技术。系统虑及识别被包括在文档中的“正确”实体以及指示实际实体的文档的一个或多个特征的反馈,而不是仅仅提供给定情形中的“正确”实体提取结果。基于更详细的反馈,可以以更有针对性的方式来更新实体提取系统的规则集。本文描述的技术可以结合具有相对简单化或相对复杂的规则集的实体提取系统而使用以改进那些系统的准确性。从各图中以及从随后的描述中,这些和其它可能的益处和优点将显而易见。
图1是根据本文所述的实现方式的示例性实体提取环境100的概念图解。如所示的,环境100包括计算系统110,所述计算系统被配置成执行实体提取引擎112。环境100的示例性拓扑可以表示各种实体提取环境。然而,应当理解的是,仅仅出于说明性的目的而示出环境100的示例性拓扑,并且可以对配置进行各种修改。例如,环境100可以包括不同的或附加的组件,或者可以以与所示出的不同的方式来实现组件。而且,虽然计算系统110一般被图示为独立的服务器,但是应当理解的是,计算系统110在实践中可以是任何适当类型的计算设备,诸如服务器、刀片式服务器、大型机、膝上型计算机、台式计算机、工作站或其它设备。计算系统110还可以表示计算设备的群组,诸如服务器场、服务器集群、或者单独或一起操作以执行本文描述的功能性的计算设备的其它群组。
在运行时期间,实体提取引擎112可以用于分析任何适当类型的文档,并且生成识别从文档中提取的一个或多个实体的实体提取结果。取决于实体提取引擎112的配置,引擎可以能够例如在基于文本的文档114a、音频、视频或多媒体文档114b、和/或文档集114c上执行实体提取。在音频、视频或多媒体文档114b的情况中,实体提取引擎112可以被配置成原生地分析文档,或者可以包括“到文本”转换器(例如,话音到文本转录模块或图像到文本模块),所述“到文本”转换器将文档的音频、视频或多媒体部分转换成文本以用于基于文本的实体提取。实体提取引擎112还可以被配置成在其它适当类型的文档上、在有或没有“到文本”转换的情况下执行实体提取。
由实体提取引擎112所生成的实体提取结果一般可以包括实体类型和实体值(例如,类型=位置;值=芝加哥)。实体提取结果还可以包括其它信息。例如,实体提取结果可以包括在从文档提取实体中所暗示的一个或多个特定规则。这样的暗示的规则,其也可以称为触发的规则,可以有助于解释为何识别特定实体。作为另一示例,实体提取结果可以包括从其中提取实体的文档的特定部分或区段。作为另一示例,实体提取结果可以包括与文档的不同部分相关联的多个实体,并且还可以包括从其中提取每一个相应实体的文档的相应部分。
取决于实现方式,可以以不同方式来使用实体提取结果。例如,在一些情况中,实体提取结果可以用于在已经分析了文档之后标记所述文档(例如,通过使用元数据标记模块),以使得文档的元数据包含与文档相关联的一个或多个实体。实体提取结果还可以用于索引目的。在其它情况中,实体提取结果或其部分可以仅仅被返回给用户或以结构化的格式被存储,诸如在数据库中。例如,用户可以将文档提供给实体提取引擎112,并且在文档中识别的各种实体可以例如经由诸如显示器之类的用户接口而被返回给用户,或者可以被存储在结构化信息的数据库中。还可以实现针对实体提取结果的其它适当的运行时使用。
以上描述的运行时场景一般通过实体提取引擎112将预先存在的规则集应用到输入文档以生成实体提取结果而进行操作,而不考虑实体提取结果是否准确。本描述的剩余部分一般涉及实体提取训练场景,其使用本文描述的实体提取反馈技术来改进实体提取系统的准确性。然而,在一些情况中,实体提取训练场景的全部或部分还可以在运行时期间实现以连续地精细调节系统的规则集。例如,实体提取系统的终端用户可以提供与在对系统进行训练(如以下所描述的)中显式涉及的用户的信息类似的信息,并且这样的终端用户提供的信息可以用于以与基于训练者反馈的这样的改进类似的方式改进实体提取的准确性。在各种实现方式中,可以显式地(例如,以类似于训练者反馈的方式)、隐式地(例如,通过分析与实体提取结果相关联的终端用户行为,诸如点入(click through)或其它间接行为)、或其适当组合来提供终端用户反馈。
在显式系统训练场景期间,实体提取引擎112可以与以上描述的运行时场景类似地操作。例如,实体提取引擎112可以分析输入文档,并且可以生成与文档相关联的实体提取结果,其识别来自文档的一个或多个实体。然而,训练场景中的实体提取结果可以被视为所提议的实体提取结果,而不是绝对的实体结果。匹配训练者对被包括在文档中的实际实体的确定的所提议的实体提取结果可以用于加强如可适用于不同使用情况的某些规则,而不匹配训练者对实际实体的确定的所提议的实体提取结果可能指示规则集不完整,或者某些规则可能被不正确地定义(例如,如过包含(over-inclusive)、欠包含(under-inclusive)或二者)。
所提议的实体提取结果一般可以包括从文档提取的一个或多个实体(例如,类型/值配对)。所提议的实体提取结果还可以包括其它信息。例如,所提议的实体提取结果可以包括在识别与文档相关联的实体中所暗示的一个或多个特定规则(例如,触发的规则)。作为另一示例,所提议的实体提取结果可以包括从其中提取实体的文档的特定部分。作为另一示例,所提议的实体提取结果可以包括与文档的不同部分相关联的多个所提议的实体、以及从其中提取那些所提议的实体的文档的相应部分。作为另一示例,所提议的实体提取结果可以包括在确定实体的同时识别的特定的字典词。作为另一示例,所提议的实体提取结果可以包括被识别为与特定实体一起讨论的特定话题。应当理解的是,实体提取结果还可以包括这些或其它适当类型的信息的组合。
所提议的实体提取结果可以被提供(例如,如由箭头116所示的)给训练者,诸如系统管理者或其他适当的用户。例如,实体提取结果可以被显示在计算设备118的用户接口上。训练者然后可以将关于所提议的实体提取结果的反馈提供回到实体提取引擎112(例如,如由箭头120所示)。可以例如经由计算设备118的用户接口来提供反馈。
关于所提议的实体提取结果的反馈可以包括在文档中所包括的实际实体以及指示实际实体的文档的一个或多个特征。例如,训练者可以识别被包括在文档中的正确实体以及最指示正确实体的特定特征,并且可以将这样的反馈提供到实体提取引擎112。基于包括与实际实体相关联的“什么”以及“为何”(而不是仅仅识别实际实体是什么)的更详细的反馈,实体提取引擎112可以以更有针对性的方式更新其规则集。
例如,考虑被提供关于在宾夕法尼亚州的某些读取程序的成功的文档的实体提取系统。取决于实体提取系统的规则集是如何实现的,系统可能将Reading(宾夕法尼亚州东南部的城市)识别为被包括在文档中的位置类型的实体,尽管故事实际上并没有包括对Reading城市的提及。许多可能的规则可能提供这样的不正确的结果——例如,在其中提及state(状态)的文档中,检查在文档中也提及的该州中的城市名称;或者,在其中提及state(状态)的文档中,识别大写的术语并且确定那些术语是否对应于该州中的城市。这些规则可能在某些情况下起作用,但是可能两者都导致在该场景中将Reading假阳性地识别为实体。例如,如果术语“reading”开始句子,并且因此被大写,则将会触发第二可能的规则,尽管它并不用作如规则意图捕获的大写的专有名词。在该情况下,所提议的实体(由系统确定为Reading城市)将不同于如由训练者所确定的实际实体。
在这样的情况下,仅仅对系统弄错了进行反馈,例如,Reading城市不是被包括在文档中的实体,可能经证明对系统有点有用(所述系统然后可以针对该特定文档更新其实体提取结果),但是在识别将会更准确地提取(或知道不提取)其它类似文档中的实体的一个或多个经更新的规则方面对系统而言可能不是同样有用。因而,根据此处描述的技术,训练者还可以在该情况下识别指示实际实体或缺乏实际实体的文档的特征,例如,通过指示与作为专有名词相反,术语Reading仅仅因为它开始句子而被大写。基于反馈,可以以有针对性的方式更新实体提取规则集,例如通过实现在文档中寻找术语的其它实例的规则并且并不在术语仅仅在句首被大写的情况下将所述术语归为专有名词,或通过以其它方式调整规则集以使得实现准确的结果。在一些情况下,对规则集的不同修改可以被提议和/或测试以确定对系统的最全面或最佳适合的调整。
对实体提取规则集的其它更新可以类似地基于特定的术语或短语位于特定文档内哪里或相对于其它术语位于哪里(例如位于这样的实体的已知指示符的若干词内的多义的可能实体)。类似地,可以基于关于文档本身的内容(例如文本)的反馈而更新其它规则。例如,训练者可以识别被规则集中的规则错误处理的特定短语或其它文本使用,并且可以指向如指示文档的实际实体的文档中的该文本。
以上描述的基于文本的示例是相对简单化的并且用于说明实体提取反馈系统的基本操作,但是应当理解的是,反馈机制还可以使用在更复杂的场景中。例如,反馈机制可以允许训练者识别更复杂的语言模式或上下文,诸如通过识别各种语言学方面,包括前缀、后缀、关键字、短语使用等等。通过识别这样的语言模式和/或上下文的特定实例,实体提取系统可以被训练成识别类似的模式和/或上下文,并且例如通过实现规则集中的附加或修改的规则而相应地分析它们。
除了存在于文档的内容中的基于文本的特征之外,训练者还可以提供将与文档相关联的分类识别为指示实际实体的另一特征的反馈。与文档相关联的分类可以包括任何适当的分类器(诸如文档的概念话题、所检查的内容的类型和/或文档上下文)以及可以与文档相关联的其它分类器(诸如作者、语言、出版日期、源等等)。这些分类器可以例如通过提供其中要应用与文本和/或文档的其它内容相关联的语言学规则的上下文而指示文档的实际实体。
在一些实现方式中,训练者可以提供包括文档的所选部分以及与文档相关联的分类二者的反馈,这二者或其组合指示被包括在文档中的实际实体。基于这样的反馈,实体提取系统可以被更新以识别特定上下文中的类似的短语使用,并且相应地确定正确的实体,例如通过实现规则集中的附加或修改的规则。
图2是根据本文中描述的实现方式的用于基于实体提取反馈而修改实体提取规则集的示例性过程200的流程图。过程200可以例如由诸如图1中所图示的实体提取引擎112之类的实体提取引擎来执行。为了呈现的清楚,随后的描述使用图1中所图示的实体提取引擎112作为用于描述过程的示例的基础。然而,应当理解的是,可以使用另一系统或系统的组合来执行过程或过程的各个部分。
过程200开始于框210,其中基于被应用于文档的规则集而生成与文档相关联的所提议的实体提取结果。例如,实体提取引擎112可以基于引擎所实现的规则集而识别被包括在特定文档中的所提议的实体。
在一些情况中,实体提取引擎112还可以从规则集中识别出影响所提议的实体提取结果的一个或多个触发的规则,并且可以使得触发的规则被显示给用户。继续上文的“Reading”示例,建议Reading作为城市实体的一个或多个触发的规则可以被识别。在其中在生成所提议的实体提取结果中触发多个规则的情况下,每一个规则都可以被显示给用户。这样的信息可以帮助用户理解为何生成特定实体提取结果。在一些情况下,触发的规则的数目可能是相当众多的,并且因此实体提取引擎112可以代替地仅显示在生成所提议的实体提取结果中触发的较高阶规则。在一些实现方式中,还可以允许用户在必要时向下钻取(drill)到较高阶的规则中以查看同样影响所提议的实体提取结果的附加的较低阶规则。
在框220处,接收关于所提议的实体提取结果的反馈。反馈可以包括与文档相关联的实际实体(或实体的缺乏)以及指示实际实体的文档的特征。例如,实体提取引擎112可以接收(例如从训练者或从另一适当的用户)反馈,所述反馈识别文档的实际实体以及最指示实际实体的文档的特征。在一些实现方式中,指示实际实体的文档的特征可以包括来自文档的内容的一部分(例如来自文档的、最指示实际实体的选择)。在一些实现方式中,指示实际实体的文档的特征可以包括与文档相关联的分类(例如,与文档相关联的概念话题或语言)。在一些实现方式中,反馈可以包括文档的所选部分以及与文档相关联的分类二者,这二者或其组合指示文档的实际实体。
在框230处,基于所接收的反馈而识别对规则集的所提议的修改。例如,实体提取引擎112可以基于识别最指示被包括在文档中的实际实体(或实体的缺乏)的文档的特征的反馈而识别新规则或对规则集中的现有规则的改变。
在对现有规则的改变的情况中,如果所提议的实体提取结果不匹配实际实体,则实体提取引擎112可以基于反馈而确定在所提议的实体提取规则的生成期间触发的一个或多个现有规则被不正确地定义(例如,欠包含、过包含或二者)。在这样的情况中,实体提取引擎112可以基于反馈中所识别的特征而识别对一个或多个触发的规则的所提议的修改。在一些情况中,触发的规则以及对触发的规则的所提议的改变可以被显示给用户。
在新规则的情况中,实体提取引擎112可以基于反馈而确定被识别为指示实际实体的文档的特征在生成所提议的实体提取结果时(例如,当引擎112未能识别文档中的实体时)没有被使用,其可以指示规则集不包括适当的规则来捕获存在于被分析的文档中的特定场景。在这样的情况中,实体提取引擎112可以基于在反馈中所识别的特征而识别新的所提议的规则以添加到规则集。
在一些情况中,实体提取引擎112还可以使得对规则集的所提议的修改(新规则或对现有规则的改变)被显示给用户,并且可以要求来自用户的验证,即这样的对规则集的所提议的修改是可接受的。例如,实体提取引擎112可以使得所提议的修改被显示给提供反馈的训练者,并且可以仅响应于接收到由用户对所提议的改变的确认而应用对规则集的所提议的改变。
在一些实现方式中,实体提取引擎112还可以识别其它已知的文档(例如,来自先前分析的文档的语料库),所述文档已经基于对规则集的所提议的修改而类似地或不同地被分析。在这样的实现方式中,可以向用户显示通知,其指示已经类似地或不同地分析的文档,例如使得用户可以理解应用这样的修改的潜在衍生物。通过识别可能受对规则集的所提议的修改所影响的文档,系统可以帮助防止其中在修复其它问题时产生新的实体提取问题的情形。
在一些情况中,对规则集的不同的修改可以被提议和/或测试以确定对系统的最全面或最佳适合的调整。例如,实体提取引擎112可以识别对规则集的多个可能的修改,其中的每一个将达到“正确”实体提取结果并且其还将满足反馈的约束。在这样的情况中,实体提取引擎112可以放弃作为可能的修改的、将不利影响先前分析的文档的“正确”实体的任何修改。
图3是根据本文中描述的实现方式的用于处理实体提取反馈的示例性计算系统300的框图。在一些实现方式中,计算系统300可以用于执行以上关于图1的计算系统110所描述的功能性中的某些部分或全部,和/或执行图2中图示的过程200的某些部分或全部。
计算系统300可以包括处理器310、存储器320、接口330、实体提取分析器340、规则更新器350以及分析规则和数据存储库360。应当理解的是,此处示出的组件仅仅用于说明性目的,并且在一些情况中,关于特定组件所描述的功能性可以由一个或多个不同的或附加的组件来执行。类似地,应当理解的是,功能性的部分或全部可以被组合到比所示出的更少的组件中。
处理器310可以被配置成处理指令以供计算系统300执行。指令可以存储在非暂时性的、有形计算机可读存储介质上,诸如在存储器320中或在分离的存储设备(未示出)上,或在任何其它类型的易失性或非易失性存储器上,其存储指令以使得可编程处理器执行本文中描述的技术。可替换地或附加地,计算系统300可以包括专用硬件,诸如一个或多个集成电路、专用集成电路(ASIC)、专用特殊处理器(ASSP)、现场可编程门阵列(FPGA)或专用硬件的前述示例的任何组合,以用于执行本文中描述的技术。在一些实现方式中,多个处理器可以酌情连同多个存储器和/或多个类型的存储器一起使用。
接口330可以以硬件和/或软件来实现,并且可以被配置成例如提供实体提取结果以及接收由一个或多个用户提供的反馈并对其进行响应。例如,接口330可以被配置成接收或定位待分析的文档或文档集,以向训练者提供所提议的实体提取结果(或实体提取结果集),并且接收由训练者所提供的反馈以及对其进行响应。接口330还可以包括一个或多个用户接口,所述用户接口允许用户(例如训练者或系统管理者)与计算系统300直接交互,例如以手动定义或修改规则集中的规则,所述规则集可以存储在分析规则和数据存储库360中。示例性用户接口可以包括触摸屏设备、指示设备、键盘、语音输入接口、视觉输入接口等等。
实体提取分析器340可以在一个或多个处理器(例如处理器310)上执行,并且可以使用被存储在分析规则和数据存储库360中的规则集来分析分档,从而确定与文档相关联的所提议的实体提取结果。例如,实体提取分析器340可以解析文档以确定被包括在文档中的术语和短语、文档的结构以及与文档相关联的其它相关信息。实体提取分析器340然后可以将来自实体提取规则集的任何可适用的规则应用于经解析的文档以确定所提议的实体提取结果。在使用实体提取分析器340而确定所提议的实体提取结果之后,所提议的实体可以被提供给用户以供回顾和反馈,例如经由接口330。
规则更新器350可以在一个或多个处理器(例如处理器310)上执行,并且可以接收关于所提议的实体提取结果的反馈。反馈可以包括与文档相关联的实际实体,例如,如由用户所确定的。反馈还可以包括指示(例如,最指示)实际实体的文档的特征。例如,用户可以识别特定特征(例如特定短语的或其它语言学的使用,文档的特定相关的区段、或文档的特定分类)、或特征的某种组合,其支持用户对实际实体的评定。
响应于接收到反馈,规则更新器350可以基于如上所述的反馈而识别对规则集的所提议的修改。例如,规则更新器350可以建议添加一个或多个新的规则以涵盖在规则集中先前尚未定义的使用情况,或者可以建议修改规则集中的一个或多个现有规则以在现有规则上进行校正或改进。
分析规则和数据存储库360可以被配置成存储由实体提取分析器340所使用的实体提取规则集。除了规则集之外,存储库360还可以存储其它数据,诸如关于先前分析的文档的信息及其对应的“正确”实体。通过存储关于先前分析的文档的这样的信息,计算系统300可以确保对规则集的所提议的修改不影响先前分析的文档。例如,规则更新器350可以识别可以修正不正确的实体提取结果的、对规则集的多个所提议的修改,其中的一些与其它相比将会实现对规则集的更宽的改变。如果规则更新器350确定所提议的修改之一将会不利地影响先前分析的文档的“正确”实体,则更新器350可以放弃作为可能性的该提议的修改,并且可以代替地仅仅提议在范围上更窄的并且将不会不利地影响先前分析的文档的所提议的实体的修改。
图4示出了根据本文中描述的实现方式的示例性系统400的框图。系统400包括实体提取反馈机器可读指令402,其可以包括图1和3中描绘的计算设备的各种模块中的某些。实体提取反馈机器可读指令402可以被加载以供在一个或多个处理器404上执行。如本文中所使用的,处理器可以包括微处理器、微控制器、处理器模块或子系统、可编程集成电路、可编程门阵列、或另一控制或计算设备。(一个或多个)处理器404可以耦合到网络接口406(以允许系统400执行通过数据网络的通信)和/或耦合到一个或多个存储介质408。
存储介质408可以实现为一个或多个计算机可读或机器可读的存储介质。存储介质可以包括不同形式的存储器,包括半导体存储器设备,诸如动态或静态随机存取存储器(DRAM或SRAM)、可擦除且可编程只读存储器(EPROM)、电可擦除且可编程只读存储器(EEPROM)、以及闪速存储器;磁盘,诸如固定盘、软盘和可移除盘;其它磁性介质,包括磁带;光学介质,诸如压缩盘(CD)或数字视频盘(DVD);或其它适当类型的存储设备。
注意到,以上讨论的指令可以被提供在一个计算机可读或机器可读的存储介质上,或可替换地,可以被提供在具有复数个节点的系统中所分布的多个计算机可读或机器可读的存储介质上。这样的一个或多个计算机可读或机器可读存储介质被认为是制品(或制造品)的部分。制品或制造品可以指代任何适当制造的组件或多个组件。一个或多个存储介质可以要么位于运行机器可读指令的机器中,要么位于远程站点处,例如从所述远程站点可以通过网络下载机器可读指令以供执行。
尽管以上已经详细描述了一些实现方式,但是其它修改是可能的。例如,在图中描绘的逻辑流可以不要求所示的特定次序或顺序次序来实现合期望的结果。另外,可以提供其它步骤,或者可以从所描述的流程中消除步骤。类似地,可以向所描述的系统添加其它组件或从所描述的系统中移除组件。因此,其它实现方式在下述权利要求的范围内。

Claims (15)

1.一种处理实体提取反馈的计算机实现的方法,所述方法包括:
利用计算系统而生成与文档相关联的所提议的实体提取结果,所提议的实体提取结果基于被应用于文档的规则集而被生成;
利用计算系统而接收关于所提议的实体提取结果的反馈,所述反馈包括在文档中所包括的实际实体以及指示实际实体的文档的特征;
利用计算系统、基于反馈而确定对规则集的所提议的修改;以及
根据对规则集的所提议的修改来修改规则集,其中所述规则集的修改产生修改的规则集,所述修改的规则集指定在文档中搜索实际实体的多个实例以确认要提取的特定实体提取结果。
2.根据权利要求1所述的计算机实现的方法,还包括使得对规则集的所提议的修改被显示给用户,并且响应于接收到用户的确认而应用对规则集的所提议的修改。
3.根据权利要求1所述的计算机实现的方法,其中指示实际实体的文档的特征包括来自文档的内容的一部分。
4.根据权利要求1所述的计算机实现的方法,其中指示实际实体的文档的特征包括与文档相关联的分类。
5.根据权利要求1所述的计算机实现的方法,其中确定对规则集的所提议的修改包括从规则集中识别出影响所提议的实体提取结果的触发的规则,并且当所提议的实体提取结果不匹配实际实体时生成对触发的规则的所提议的改变,对触发的规则的所提议的改变基于指示实际实体的文档的特征而被生成。
6.根据权利要求5所述的计算机实现的方法,还包括使得触发的规则以及对触发的规则的所提议的改变被显示给用户。
7.根据权利要求1所述的计算机实现的方法,其中生成对规则集的所提议的修改包括确定要被添加到规则集的新提议的规则,所述新提议的规则是基于指示实际实体的文档的特征的。
8.根据权利要求1所述的计算机实现的方法,还包括从规则集中识别出影响所提议的实体提取结果的触发的规则,并且使得触发的规则被显示给用户。
9.根据权利要求1所述的计算机实现的方法,还包括从先前分析的文档的语料库中识别出将会受对规则集的所提议的修改影响的其它文档,并且使得通知被显示给用户,所述通知指示所述其它文档。
10.一种实体提取反馈系统,包括:
一个或多个处理器;
在所述一个或多个处理器中的至少一个上执行的实体提取分析器,所述实体提取分析器使用规则集来分析文档以确定与文档相关联的所提议的实体提取结果;以及
在所述一个或多个处理器中的至少一个上执行的规则更新器,所述规则更新器接收关于所提议的实体提取结果的反馈,所述反馈包括与文档相关联的实际实体以及指示实际实体的文档的特征,基于反馈而生成对规则集的所提议的修改,并且根据对规则集的所提议的修改来修改规则集,其中所述规则集的修改产生修改的规则集,所述修改的规则集指定在文档中搜索实际实体的多个实例以确认要提取的特定实体提取结果。
11.根据权利要求10所述的实体提取反馈系统,其中所述规则更新器使得对规则集的所提议的修改被显示给用户,并且响应于接收到用户的确认而用所提议的修改来更新规则集。
12.根据权利要求10所述的实体提取反馈系统,其中所述规则更新器通过从规则集中识别出影响所提议的实体提取结果的触发的规则而生成对规则集的所提议的修改,并且当所提议的实体提取结果不匹配实际实体时生成对触发的规则的所提议的更新,对触发的规则的所提议的更新基于指示实际实体的文档的特征而被生成。
13.根据权利要求12所述的实体提取反馈系统,其中所述规则更新器使得触发的规则和对触发的规则的所提议的更新被显示给用户。
14.根据权利要求10所述的实体提取反馈系统,其中所述规则更新器通过生成要被添加到规则集的新提议的规则而生成对规则集的所提议的修改,所述新提议的规则是基于指示实际实体的文档的特征的。
15.一种存储指令的非暂时性计算机可读存储介质,所述指令在被一个或多个处理器执行时使得所述一个或多个处理器:
生成与文档相关联的所提议的实体提取结果,所提议的实体提取结果基于被应用于文档的规则集而被生成;
接收关于所提议的实体提取结果的反馈,所述反馈包括与文档相关联的实际实体以及与文档相关联的分类;
基于反馈而确定对规则集的所提议的修改;以及
其中所述规则集的修改产生修改的规则集,所述修改的规则集指定在文档中搜索实际实体的多个实例以确认要提取的特定实体提取结果。
CN201380077066.4A 2013-05-30 2013-05-30 实体提取反馈 Expired - Fee Related CN105378706B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2013/061198 WO2014191043A1 (en) 2013-05-30 2013-05-30 Entity extraction feedback

Publications (2)

Publication Number Publication Date
CN105378706A CN105378706A (zh) 2016-03-02
CN105378706B true CN105378706B (zh) 2018-02-06

Family

ID=48699728

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380077066.4A Expired - Fee Related CN105378706B (zh) 2013-05-30 2013-05-30 实体提取反馈

Country Status (4)

Country Link
US (1) US20160085741A1 (zh)
EP (1) EP3005148A1 (zh)
CN (1) CN105378706B (zh)
WO (1) WO2014191043A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10558754B2 (en) * 2016-09-15 2020-02-11 Infosys Limited Method and system for automating training of named entity recognition in natural language processing
US10679008B2 (en) * 2016-12-16 2020-06-09 Microsoft Technology Licensing, Llc Knowledge base for analysis of text
US10289963B2 (en) * 2017-02-27 2019-05-14 International Business Machines Corporation Unified text analytics annotator development life cycle combining rule-based and machine learning based techniques
US11586970B2 (en) 2018-01-30 2023-02-21 Wipro Limited Systems and methods for initial learning of an adaptive deterministic classifier for data extraction
US11550810B2 (en) 2018-02-06 2023-01-10 Thomson Reuters Enterprise Centre Gmbh Systems and method for generating a structured report from unstructured data
AU2022258988A1 (en) * 2021-04-16 2023-10-12 Thomson Reuters Enterprise Centre Gmbh Systems and method for generating a structured report from unstructured data
US12086552B2 (en) * 2022-03-24 2024-09-10 International Business Machines Corporation Generating semantic vector representation of natural language data

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101305361A (zh) * 2005-11-09 2008-11-12 微软公司 自适应任务框架

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0521544D0 (en) * 2005-10-22 2005-11-30 Ibm A system for modifying a rule base for use in processing data
EP2218023A2 (en) * 2007-10-17 2010-08-18 ITI Scotland Limited Computer-implemented methods
US8554719B2 (en) * 2007-10-18 2013-10-08 Palantir Technologies, Inc. Resolving database entity information
US8370128B2 (en) * 2008-09-30 2013-02-05 Xerox Corporation Semantically-driven extraction of relations between named entities
US8752001B2 (en) * 2009-07-08 2014-06-10 Infosys Limited System and method for developing a rule-based named entity extraction
US8745091B2 (en) * 2010-05-18 2014-06-03 Integro, Inc. Electronic document classification
US8417709B2 (en) * 2010-05-27 2013-04-09 International Business Machines Corporation Automatic refinement of information extraction rules
EP2622483A4 (en) * 2010-09-28 2014-06-04 Siemens Ag ADAPTIVE REMOTE CONTROL OF ROLLING EQUIPMENT
US8576541B2 (en) * 2010-10-04 2013-11-05 Corning Incorporated Electrolyte system
US8972328B2 (en) * 2012-06-19 2015-03-03 Microsoft Corporation Determining document classification probabilistically through classification rule analysis

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101305361A (zh) * 2005-11-09 2008-11-12 微软公司 自适应任务框架

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ESpotter:Adaptive Named Entity Recognition for Web Browsing;jianhan zhu 等;《PROFESSIONAL KNOWLEDGE MANAGEMENT LECTURE NOTES IN COMPUTER SCIENCE;LECTURE NOTES IN ARTIFICIAL INTELLIG ENCE;LNCS,SPRINGER》;20050101;518-529 *
复杂数据体上的实体识别技术研究;王宏志 等;《计算机学报》;20111031;第34卷(第10期);1843-1852 *

Also Published As

Publication number Publication date
US20160085741A1 (en) 2016-03-24
EP3005148A1 (en) 2016-04-13
CN105378706A (zh) 2016-03-02
WO2014191043A1 (en) 2014-12-04

Similar Documents

Publication Publication Date Title
Dubey et al. Lc-quad 2.0: A large dataset for complex question answering over wikidata and dbpedia
CN105378706B (zh) 实体提取反馈
US9875296B2 (en) Information extraction from question and answer websites
US10025819B2 (en) Generating a query statement based on unstructured input
Alzahrani et al. Understanding plagiarism linguistic patterns, textual features, and detection methods
US9239875B2 (en) Method for disambiguated features in unstructured text
US9002700B2 (en) Systems and methods for advanced grammar checking
Lind et al. Building the bridge: Topic modeling for comparative research
Gamon et al. Using statistical techniques and web search to correct ESL errors
US9646512B2 (en) System and method for automated teaching of languages based on frequency of syntactic models
CN105378707A (zh) 情感反馈
US11593557B2 (en) Domain-specific grammar correction system, server and method for academic text
US20190317986A1 (en) Annotated text data expanding method, annotated text data expanding computer-readable storage medium, annotated text data expanding device, and text classification model training method
CN106570180A (zh) 基于人工智能的语音搜索方法及装置
US20180102062A1 (en) Learning Map Methods and Systems
CN113705198B (zh) 场景图生成方法、装置、电子设备及存储介质
Sugawara et al. Benchmarking machine reading comprehension: A psychological perspective
De Kuthy et al. Towards automatically generating questions under discussion to link information and discourse structure
Zhu Deep learning for Chinese language sentiment extraction and analysis
KR20200066119A (ko) 지식 기반 추론 및 신뢰도 분석을 이용한 가짜뉴스 판별 방법, 이를 수행하기 위한 기록매체 및 장치
Duran et al. Some issues on the normalization of a corpus of products reviews in Portuguese
Zavarella et al. An Ontology-Based Approach to Social Media Mining for Crisis Management.
AlShenaifi et al. ARIB@ QALB-2015 shared task: a hybrid cascade model for Arabic spelling error detection and correction
SCALIA Network-based content geolocation on social media for emergency management
Singh et al. Deep neural based name entity recognizer and classifier for English language

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180206

Termination date: 20200530