CN109564589B

CN109564589B - 使用手动用户反馈进行实体识别和链接系统和方法

Info

Publication number: CN109564589B
Application number: CN201780029317.XA
Authority: CN
Inventors: L·B·恩格太里; V·V·马尔沃德
Original assignee: General Electric Co
Current assignee: General Electric Co
Priority date: 2016-05-13
Filing date: 2017-05-09
Publication date: 2023-08-04
Anticipated expiration: 2037-05-09
Also published as: US20170329842A1; US10146859B2; CN109564589A; WO2017196807A1

Abstract

根据一个实施例，提供一种文本分析方法。所述方法包括识别概念。识别概念包括接收包括多个实体的文本流，以及从所述多个实体中提取至少一个概念。所述方法还包括消除所述至少一个被提取概念的歧义。消除所述至少一个被提取概念的歧义包括接收所述至少一个被提取概念，以及生成与所述至少一个被提取概念相对应的至少一个已消除歧义概念。

Description

使用手动用户反馈进行实体识别和链接系统和方法

背景技术

本发明大体上涉及对从各种来源接收的文本进行分析，并且更确切地说，涉及对从嵌入在非结构化文本中的实体中提取的概念进行检测和验证。

文本分析的一个挑战是识别具有模糊含义的术语，称为实体识别和实体链接。例如，文本分析系统的性能可能受文本中出现的模糊术语，例如Michael Jordan(篮球运动员或著名加州大学伯克利分校教授)、back(身体部位或介词)和US(超声波或美国)的负面影响。典型实体识别和实体链接方法依赖于手动标记文本以训练所述系统从文本中识别术语，然后将术语链接到正确概念。所述基于文本的训练的编译可能极为昂贵，并且系统更新依赖于技术用户例如软件开发人员来重新训练和增强实体识别和链接系统。这些系统的日常用户最终在生态系统中起被动作用。确切地说，在医学领域，用户自己(临床医生)对模糊术语适当使用的见解具备最高相关性，并且他们不整合到当前的系统和方法开发中。此外，不同应用的术语和约定也可能有很大差异，因此使系统能够在其使用环境中演进至关重要。

需要提高与文本分析相关的方法和系统的效率和相关性。

发明内容

根据本发明的一个方面，一种文本分析方法包括识别概念、消除所述至少一个被提取概念的歧义以及捕获用户反馈。识别概念包括接收包括多个实体的文本流，以及从所述多个实体中提取至少一个概念。消除所述至少一个被提取概念的歧义包括接收所述至少一个被提取概念，以及生成与所述至少一个被提取概念相对应的至少一个已消除歧义概念。捕获用户反馈包括：接收所述至少一个已消除歧义概念；使用从用户接收的第一手动输入验证所述已消除歧义概念；生成以下项中的至少一者：被保留概念和被丢弃概念；从所述用户接收第二手动输入；以及基于所述第二手动输入将所述被保留概念添加到以下项中的至少一者：所述多个肯定示例概念和所述多个否定示例概念。

根据本发明的另一方面，一种文本分析系统包括：概念识别模块，所述概念识别模块配置成接收包括多个实体的文本流，并且从所述多个实体提取至少一个概念。所述系统还包括概念歧义消除模块，所述概念歧义消除模块独立连接到所述概念识别模块并且配置成接收所述至少一个被提取概念和消除其歧义，并且生成至少一个对应的已消除歧义概念。

根据本发明的另一方面，提供一种存储指令的非暂态计算机可读介质，所述指令在被计算机处理器执行时使所述计算机处理器执行文本分析方法，所述文本分析方法包括：识别概念；消除所述至少一个被提取概念的歧义；以及捕获用户反馈。识别概念包括接收包括多个实体的文本流，以及从所述多个实体中提取至少一个概念。消除所述至少一个被提取概念的歧义包括：接收所述至少一个被提取概念；以及生成与所述至少一个被提取概念相对应的至少一个已消除歧义概念，其中所述生成至少一个已消除歧义概念包括计算表示所述至少一个被提取概念的正确可能性的置信度得分，并且进一步其中，所述计算置信度得分包括加入与以下项中的每一者的比较：所述多个肯定示例概念和所述多个否定示例概念，其中所述消除所述至少一个被提取概念的歧义包括：将所述至少一个被提取概念与以下项中的每一者进行比较：多个肯定示例概念和多个否定示例概念。捕获用户反馈包括接收所述至少一个已消除歧义概念；使用从用户接收的第一手动输入来验证所述已消除歧义概念；以及生成以下项中的至少一者：被保留概念和被丢弃概念。

附图说明

参照附图阅读以下具体实施方式将更好地理解本说明书中所述的实施例，在附图中，相似单词符表示附图中的相似部分，其中：

图1示出根据本发明一个实施例的文本分析系统；

图2示出根据本发明一个实施例的特征向量生成过程的过程；

图3示出基于本发明一个实施例的文本分析方法；以及

图4示出基于本发明一个实施例的图3中识别概念步骤的展开图。

具体实施方式

下文将参照附图详细描述示例性实施例，其中相同参考数字表示各个所有附图中的相同部分。这些实施例中的一些实施可以解决上述和其他需求。为了提供这些实施例的简要描述，说明书中可能不会描述实际实施方案中的所有特征。应了解，任何工程或设计项目中开发任何所述实际实施方案时，必须做出特定于某个实施方案的大量决定以实现开发人员的特定目标，例如，遵守与系统相关以及与业务相关的限制，而这些限制可能会因实施方案的不同而有所不同。此外，应了解，所述开发工作可能复杂而且耗时，但对受益于本公开的所属领域中的普通技术人员而言将仍是设计、制造以及生产中的常规任务。

在介绍本说明书中所公开的各个实施例中的元件时，冠词“一”、“一个”、“该”和“所述”旨在表示存在一个或多个所述元件。术语“包含”、“包括”和“具有”旨在于包括性含义，且表示除了所列元件外，可能还有其他元件。

现有实体识别和实体链接方法可以大体上分类为基于词典的方法、监督学习方法、半监督学习方法和主动学习方法。基于词典的技术是确定实体识别和链接的主要方法。除了在词典和目标文本中执行关键单词之间的精确匹配之外，基于词典的方法的扩展通常包括部分匹配，例如试探法，例如以便理解实体的名称变体和缩写。监督学习方法可以标记数据以学习捕获实体相邻特征以便识别实体的序变模型。半监督方法需要小型标记示例种子，并且以迭代方式概括以识别实体。主动学习方法需要小型标记示例种子，但此算法将提示用户最不确定的情况，以便改进实体识别和实体链接过程。

当任何现有方法应用于典型工业应用中时经常出现问题，其中数据或文本通常是自由形式的，并且缺乏能够实现有价值下游分析的标准化结构。在作为非限制性示例的医学应用的上下文中，许多信息是由护理提供者手动输入的自然语言文本，甚至结构化字段通常是站点可配置的，也就是说，一个数据系统中的概念并不始终以与其他系统中相同的方式表示。医疗应用中的一个主要示例是包括在电子病历中的临床文件，尤其是诊所就诊、住院病人病程记录、专家咨询或临床医生与患者会面的其他主观评估。

重要的是有效地分析自然语言文本以提供见解或将内容转换成结构化形式，以便更好地进行显像和分析。大多数实体识别和实体链接算法在分析非结构化文本时通常都会遇到处理模糊术语的问题。处理此问题的一种方法是修改和改进实体识别和链接算法。但是，修改原始源代码需要大量时间以及深入的技术专业知识。随着成品概念识别算法的出现，技术经验有限的人员也能够使用所述系统。但是，更新所述系统需要对标记数据进行编译，以执行培训和更新系统。

在本发明的一个实施例中，此问题通过提供依据用户反馈有效地更新概念识别和链接算法的机制来解决。所述机制消除编译新培训数据集以包括其他术语的需要，并且减小在更新系统时对开发人员的依赖性。在本发明的另一个实施例中，从文本中识别术语或实体，并且使用用户反馈在软件应用程序中为其指定适当概念，从而不断改进实体识别和实体链接能力。此外，在本发明的又一个实施例中，描述一种方法，所述方法从非结构化文本中识别、提取概念并且对被提取概念消除歧义，并且使主要软件用户能够主动提供关于用于培训系统的术语的反馈。根据本发明一个实施例的歧义消除模块从这些示例中更新和学习以帮助改进标记过程。在本发明的另一个实施例中，从文本语料库例如临床文件中识别医学概念涉及使用基于反馈的机制，其中以医学本体作为实体识别的基础。在整个说明书中，实体称为共同指示文本中概念的单词令牌，而概念称为本体中的内容。被提取概念与链接到本体中的特定概念的实体相对应。

现在转到附图，图1示出根据本发明一个实施例的文本分析系统。文本分析系统10包括概念识别模块12、概念歧义消除模块14和用户反馈模块16。所述概念识别模块12配置成通常从用户52接收包括若干实体34的文本流32，并且从所述若干实体中提取至少一个概念36。

在实际操作的典型示例中，从输入文本流32中自动识别若干逻辑上可能的实体34。例如，作为非限制性示例，如果接收到文本流“肌肉与骨骼：否认肌痛、背痛、关节痛或跌倒”(Musculoskeletal:denies myalgias,back pain,joint pain or falls)，则执行自动实体识别，在一个非限制性示例中借助包括与身体部位及其症状相关的大多数概念的本体，或者以任何现有命名实体识别系统中所用的方式。在上述示例性场景中，可以自动识别的实体是：“肌肉与骨骼(Musculoskeletal)”、“肌痛(myalgias)”、“背痛(back pain)”、“必备(back)”、“关节痛(joint pain)”、“关节(joint)”等。此外，“实体链接”自动将已识别的实体映射到典型示例性本体中存在和登记的对应概念。例如，“肌肉与骨骼”可以映射到示例性国家癌症研究所分类词典(NCIT)本体中的“肌肉与骨骼”概念

(http://purl.bioontology.org/ontology/NCIT？conceptid＝

http％3A％2F％2Fncicb.nci.nih.gov％2Fxml％2Fowl％2FEVS％2FThesau rus.owl％23C25348)。

此外，如下文更详细解释，为表示成被提取概念的每个实体到概念映射自动生成句法和语义特征，并且所述特征成为每个实体到概念映射的向量表示元素。以这种方式生成的向量将自动与实体到概念映射的任何现有肯定示例和否定示例进行比较。此外，计算置信度得分以确定映射的正确可能性。由此获得的映射呈现给用户，使得用户可以验证映射是否正确。然后通过更新歧义消除模型将用户反馈结合到系统中，而无需重新训练。

再次参照图1，概念识别模块12包括文本处理部件82和特征向量生成部件84。所述文本处理部件82配置成通过应用自然语言处理技术来处理若干实体34，并且提取所述被提取概念36。

所述文本处理部件82通常对输入文本32应用自然语言处理技术。在本发明的一个实施例中，输入文本流32包括非结构化文本。在本发明的另一个实施例中，输入文本流32包括通过各种支持网络的标准形式接收的结构化文本。在一种情况下，输入文本32通常采用临床文件的形式，例如诊所记录和病程记录。仅作为非限制性示例，使用Apache OpenNLP执行句子分割、标记化和词性标记(parts-of-speech tagging)，而使用ClearNLP执行词形还原(lemmatization)。为识别文本中的概念，将UIMA概念映射器(UIMA Concept Mapper)与RadLex和国家癌症研究所词表(NCIThesaurus)本体一起用作UIMA概念映射器词典的来源。这通过将本体转换成XML格式的UIMA概念映射器词典来实现。所述本体中的每个概念均被转换成词典格式的规范形式和变体。概念的规范形式用所述概念的统一资源标识符(URI)表示，而其变体包括所述概念的优选名称和同义词。当UIMA概念映射器识别出实体时，将返回所述实体及其对应URI，以便可以将其视为所述实体与本体中特定概念之间的映射。

参见图1，所述特征向量生成部件84配置成从文本处理部件82接收所述被提取概念36、生成在与所述被提取概念36相关联的若干特征88方面与链接到所述被提取概念36的所述若干实体34相对应的特征向量表示86，并且将所述特征向量表示86与所述若干肯定示例概念26以及所述若干否定示例概念28相关联。

对于特征向量生成部件84，与其他基于向量的方法中相同，链接到概念c的实体e与具有向量表示x_e→c＝<f₁,…,f_d>的向量关联，其中f_i与特征对应。向量可以表示概念c的肯定示例或否定示例。与c的肯定示例相对应的向量存储在矩阵P_c中，而否定示例统称为N_c。在本发明的一个实施例中，特征向量生成部件将文本处理部件作为输入来填充x_e→c中的元素。

此外，在特征向量生成部件84的上下文中使用的特征可以分类成句法和语义特征。在使用Apache OpenNLP的典型非限制性示例中，句法特征可以包括全大写(isAllUppercase)和词性特征。特征全大写(isAllUppercase)用于确认被提取实体中的所有字母是否均大写。另一类型的句法特征是词性特征，表示为POS特征(POS features)。考虑POS特征名词(NN)、所有形式的动词(VB)、介词(IN)、(TO)、数字(CD)、形容词(JJ)和副词(RB)的各种词性标签。此外，所述POS特征应用于包括实体左侧和右侧n个单词令牌的窗口。本说明书中将n选择为2。假设特征f_i表示存在感兴趣实体的名词，特征f_i-2和f_i-1是指实体左侧存在名词，而特征f_i+1和f_i+2与实体右侧存在名词相对应。语义特征包括识别实体及其相邻单词令牌的实体类型。确切地说，语义特征中所考虑的实体类型是成像模态(IM)、身体部位(BP)、解剖结构修饰符(AM)、诊断程序(DP)、疾病和障碍(DD)和症状(SYM)。语义特征应用于在自被提取实体起n个单词令牌的窗口内的相邻单词令牌。此外，如果被提取概念是根概念的子类，则实体视作属于特定实体类型。

图2示出根据本发明一个实施例的通过特征向量生成部件84实现的典型特征向量生成过程100。图2中的第一示例性句子102示出单词令牌“US”104和“us”106的出现。特征向量生成部件84将所述单词令牌识别成与概念“超声波”相关联的实体，并且生成第一实体104的特征向量112。但是，实际上只有第一次出现的“US”与此概念相对应。为简明起见，仅示出这两个实体的向量表示中的特征“全大写(isAllUppercase)”、NN、VB、IN、BP。实体“US”的特征f1(图示成x1)被指定为1，因为所述实体的所有单词母均大写。特征f2和f3与实体左侧出现名词相对应，而f5和f6是指实体右侧的名词。特征f4与实体中出现名词相对应，并且此特征标记为1，因为单词令牌“US”被词性标记器识别为名词。特征f11与句子中的动词“was”相对应，而f19是指被识别为身体部位的实体“thyroid(甲状腺)”。特征向量生成部件84以类似方式生成实体106(“us”)的第二特征向量表示114，其中f6与单词“time”相对应，并且f15是指句子中的单词“at”。最后，特征向量生成部件84将与各种特征向量112、114等相关的信息合成到所述被提取概念36中，并且将其发送到概念歧义消除模块14。

再次参见图1，概念歧义消除模块14独立连接到概念识别模块12，并且配置成从概念识别模块12接收所述被提取概念36并且为其消除歧义，并且生成对应的已消除歧义概念38。所述概念歧义消除模块14进一步包括若干肯定示例概念26和若干否定示例概念28。所述肯定示例概念26和否定示例概念28中的每一者用作与所述被提取概念36进行比较的基准。为了消除所述被提取概念36的歧义，所述概念歧义消除模块14计算表示所述被提取概念36的正确可能性的置信度得分42，以生成对应的已消除歧义概念38。所述置信度得分42包括与所述肯定示例概念26和否定示例概念28中的每一者的比较。

在本发明的一个实施例中，所述文本分析系统10计算与肯定示例概念和否定示例概念的相似性得分，以分别匹配最相似的肯定示例概念26和否定示例概念28。所述相似性分别使用所述被提取概念36与所述肯定示例概念26和否定示例概念28中的每一者之间的余弦相似度来计算。确切地说，所述被提取概念36的置信度得分42指定为(positiveScore+(1-negativeScore))/2。如果歧义消除模块14中不含与所述被提取概念相关的任何信息，则将其得分指定为1。所述置信度得分42反映所述被提取概念的正确可能性。

为进一步阐述理论背景，每个概念均表示成基于若干句法和语义特征的向量。句法特征包括检查所述被提取概念的表面形式是否为大写并且识别其词性标记，而语义特征包括识别所述表面形式的实体类型。为捕获与所述概念相关联的额外上下文，通过所述被提取概念左侧和右侧单词的句法和语义特征将特征值添加到向量。要计算置信度得分，将所述被提取概念的概念向量与歧义消除模块14中的向量进行比较。

如上所述，计算置信度得分42的一个具体目标是确定实体e正确链接到概念c的可能性，即被提取概念的正确可能性，表示成e→c。这通过将e→c与歧义消除模块中为概念c收集的肯定示例P_c和否定示例N_c进行比较来实现。从直观角度来看，e→c的置信度得分基于e→c与P_c中肯定示例之间的相似程度以及e→c与N_c中否定示例之间的不相似程度来计算。所述置信度得分计算score(e→c)表征为以下公式：

在上文提供的等式中，w_p和w_n与权重对应，所述权重在典型实验中被指定为0.5。务必需要在N_c＝φ时，即没有与概念c相关联的否定示例时记录并且验证score(e→c)指定为1背后的基本原理。本发明方法的基础是依赖于本体来识别概念，并且只需要对能够用在不同上下文中的概念消除歧义。这可以通过感兴趣的概念存在否定示例来反映，其中具有否定示例的概念表明所述概念能够用在文本中的多个上下文中。此性质被捕获在上述公式中，以便只有在收集到c的否定示例的情况下才计算被提取概念的conf(e→c)。score(e→c)高表明e→c视作与P_c中肯定示例中的一个肯定示例高度相似并且与N_c中否定示例中的一个否定示例高度不相似。所述被提取概念与示例之间的相似性将使用定义如下的余弦相似性基于其对应向量表示来计算：

再次参见图1，文本分析系统10进一步基于置信度得分42来决定是保留还是丢弃所述被提取概念。如果所述得分低于某个阈值，则可以丢弃此概念，否则将保留此概念。例如，当链接到概念“Musculoskeletal:denies myalgias,back pain,joint pain or falls(肌肉与骨骼：否认肌痛、背痛、关节痛或跌倒)”时，“back(背部)”是身体部位的肯定示例。另一个方面，否定示例为：“I plan to see him back in 6months for follow up(我打算要求他6个月之后复诊)”。在另一个上下文下，另一个肯定示例是：“US thyroid showed Abenign-appearing spongiform nodule within the right(甲状腺超声检查显示右侧内出现良性海绵状结节)”“He continues to work for the US Post Office(他仍然在美国邮局工作)”。

在本发明的一个实施例中，一旦概念歧义消除模块14中已经借助置信度得分42将被提取概念36消除歧义为38，务必需要验证所述已消除歧义概念38。验证所述已消除歧义概念38时，务必需要将实际用户集成到系统中并且处理和接收在线用户反馈而不是重新训练模型。如下文进一步详述，在本发明的一个实施例中，以交互方式通过用户反馈模块16接收用户反馈，以便改进用于实体识别和链接的基础模型。尽管主动学习方法也使用用户反馈来帮助解决不确定情况，但是根据本发明一个实施例的方法和系统不需要使用种子标记示例。由于不需要标记示例，用户能够负责改进过程，而不依赖于开发人员。当系统部署在不同域或应用站点中时，此特征特别重要。

在本发明的一个实施例中，所有被提取并且消除歧义的概念38在基于网络的用户界面上呈现给用户52，其中表示概念38的文本将突出显示。除了突出显示文本之外，还显示被提取并且消除歧义的概念38及其类型。为典型用户52提供两个选择，即指示所述提取和歧义消除正确(肯定)或者不正确(否定)。基于用户选择，歧义消除模块14中更新适当向量集，肯定示例26和否定示例28。更新后的歧义消除模块14进一步用于从任何未来文本中提取概念。

再次参见图1并且根据代表性模块和部件进行解释，用户反馈模块16连接到概念歧义消除模块14并且配置成从概念歧义消除模块14接收已消除歧义概念38。此外，用户反馈模块16使用从用户52接收的第一手动输入62来验证所述已消除歧义概念，并且生成被保留概念72或被丢弃概念74。所述被保留概念72提供回概念歧义消除模块14，并且基于从用户62接收的第二手动输入64添加到所述若干肯定示例概念26或者所述若干否定示例概念28中。

在本发明的某些实施例中，所述文本分析系统10是基于计算机的系统，所述基于计算机的系统具有配置成处理来自用户界面16的输入文本32的电路。此外，所述文本分析系统10可以包括存储指令的非暂态计算机可读介质，所述指令在被计算机处理器执行时使所述计算机处理器执行下文详细描述的文本分析方法200。例如，所述文本分析系统10可以包括处理器、存储装置和记忆装置。一个或多个处理器可以用于执行软件，例如文本处理软件等。此外，所述一个或多个处理器可以包括一个或多个微处理器，例如一个或多个“通用”微处理器、一个或多个专用微处理器和/或专用集成电路(ASICS)，或者它们的特定组合。例如，所述一个或多个处理器可以包括一个或多个精简指令集(RISC)处理器。

所述一个或多个存储装置(例如，非易失性存储器)可以包括只读存储器(ROM)、闪存、硬盘驱动器或任何其他适当光学、磁性或固态存储介质，或者它们的组合。所述一个或多个存储装置可以存储数据(例如，文本数据等)、指令(例如，用于处理文本的软件或固件等)以及任何其他适当数据。一个或多个记忆装置可以包括易失性存储器例如随机存取存储器(RAM)，以及/或者非易失性存储器，例如ROM。所述一个或多个记忆装置可以存储各种信息，并且可以用于各种目的。例如，所述一个或多个记忆装置可以存储被一个或多个处理器执行的处理器可执行指令(例如，固件或软件)，例如用于文本分析软件的指令。

在某些实施例中，所述文本分析系统10可以包括配置成与例如远程服务器或基于云的计算机网络通信(例如，经由有线或无线信号)的通信装置(例如，网络接口、无线通信模块等)。在所述实施例中，所述文本分析系统10可以输出指示与输入文本流32对应的所述被提取概念的信号。所述远程服务器或网络可以存储和/或处理所述信号以促进短期和/或长期文本分析。例如，所述远程服务器或网络可以将被提取并且消除歧义的概念与先前存储的肯定概念示例和否定概念示例数据库进行比较，以便出于验证目的而识别置信度得分。

再次转到附图，图3示出基于本发明一个实施例的文本分析方法200。所述方法200包括在步骤202中识别概念。识别概念202包括在212中接收包括若干实体34(图1)的文本流32(图1)。在本发明的一个实施例中，接收文本流的步骤212中包括接收非结构化文本流。在本发明的另一个实施例中，输入文本流32包括通过各种支持网络的标准形式接收的结构化文本。识别概念202还包括在214中从所述若干实体34中提取概念36(图1)。

所述方法200进一步包括在204中消除所述被提取概念的歧义。消除所述被提取概念36的歧义包括在222中接收所述被提取概念，以及在224中生成与所述被提取概念36相对应的已消除歧义概念38(图1)。消除所述被提取概念的歧义的步骤204进一步包括将所述被提取概念与肯定示例概念26和否定示例概念28中的每一者进行比较。224中的生成已消除歧义概念包括计算表示所述被提取概念的正确可能性的置信度得分42。计算置信度得分42包括加入与所述肯定示例概念26和否定示例概念28中的每一者的比较。

所述方法200进一步包括在206中捕获用户反馈。捕获用户反馈206包括在232中接收所述已消除歧义概念28，在234中使用从用户52接收的第一手动输入62来验证所述已消除歧义概念，以及在236中生成被保留概念72或被丢弃概念74中的任一者。捕获用户反馈的步骤232进一步包括在238中从用户接收第二手动输入64；以及在242中基于所述第二手动输入64将所述被保留概念72添加到肯定示例概念26和否定示例概念28中。

图4示出基于本发明一个实施例的图3中识别概念步骤202的展开图。所述步骤202包括在步骤252中应用自然语言处理技术以处理所述若干实体34以生成所述被提取概念36；在步骤254中生成在与所述被提取概念相关联的若干特征88方面与链接到所述被提取概念36的所述若干实体34相对应的特征向量表示86；以及在步骤256中将所述特征向量表示与所述若干肯定示例概念26以及所述若干否定示例概念28中的任一者相关联。

本发明的一个非限制性技术优点在于，本说明书中所描述的歧义消除系统和方法是半自动的，并且这些通常使用用户反馈来主动改进歧义消除模块。确切地说，所述基于反馈的机制可以通过收集肯定示例和否定示例来消除能够用在不同上下文中的概念的歧义。本发明方法旨在通过仅将本体用到词典的输入文本来减少误报数量。本发明方法进一步涉及文本处理步骤，其中生成句法和语义特征以形成特征向量生成步骤中实体的向量表示。此外，歧义消除步骤期间为每个实体指定的置信度得分反映了链接到本体中特定概念的实体的正确可能性。

本发明的另一个非限制性技术优点在于，歧义消除模块是独立于概念识别算法的。换言之，所述歧义消除模块可以与任何给定概念识别算法配对，从而用在若干不同域中。所述歧义消除模块的此独立配置减轻了通过用户反馈更新系统时对开发人员的依赖性。所述方法的一个商业优势是在于，它使得用户能够通过用户反馈不断提高其算法版本的准确性，从而降低维护系统的成本。换言之，本说明书中所描述的系统和方法的当前配置有助于在更短时间段内为各种域构建更好的概念识别模块。

本说明书使用示例来公开本发明，包括最佳模式，同时还使所属领域中的任何技术人员能够实践本发明，包括制造和使用任何装置或系统并且执行所包括的任何方法。本发明的专利保护范围由权利要求书限定，并且可以包括所属领域中的技术人员得出的其他实例。如果其他示例的结构构件与权利要求书的字面意义相同，或如果所述示例包括的等效结构构件与权利要求书的字面意义无实质差别，则所述示例也应在权利要求书的范围内。

Claims

1.一种文本分析方法，包括：

识别概念，其中包括：

接收包括多个实体的文本流，以及

从所述多个实体中提取至少一个概念；

消除所述至少一个被提取概念的歧义，其中包括：

接收所述至少一个被提取概念，以及

生成与所述至少一个被提取概念相对应的至少一个已消除歧义概念，其中所述生成至少一个已消除歧义概念包括：计算表示所述至少一个被提取概念的正确可能性的置信度得分，其中所述计算置信度得分包括加入与以下项中的每一者的比较：多个肯定示例概念和多个否定示例概念，其中所述消除所述至少一个被提取概念的歧义包括将所述至少一个被提取概念与以下项中的每一者进行比较：所述多个肯定示例概念和所述多个否定示例概念；以及

捕获用户反馈，其中包括：

接收所述至少一个已消除歧义概念，

使用从用户接收的第一手动输入验证所述已消除歧义概念，

生成以下项的至少一者：被保留概念和被丢弃概念，

从所述用户接收第二手动输入，以及

基于所述第二手动输入将所述被保留概念添加到以下项中的至少一者：所述多个肯定示例概念和所述多个否定示例概念。

2.根据权利要求1所述的方法，其中所述识别概念进一步包括：

通过应用自然语言处理技术来处理所述多个实体，以生成所述至少一个被提取概念，

生成在与所述被提取概念相关联的多个特征方面与链接到所述至少一个被提取概念的所述多个实体中的至少一个实体相对应的特征向量表示，以及

将所述向量表示与以下项中的至少一者相关联：所述多个肯定示例概念和所述多个否定示例概念。

3.根据权利要求1所述的方法，其中所述接收文本流包括接收非结构化文本流。

4.一种文本分析系统，包括：

概念识别模块，所述概念识别模块配置成：

接收包括多个实体的文本流，并且

从所述多个实体中提取至少一个概念；

概念歧义消除模块，所述概念歧义消除模块包括多个肯定示例概念和多个否定示例概念，所述概念歧义消除模块独立地连接到所述概念识别模块，并且配置成：

接收所述至少一个被提取概念并且为其消除歧义，其中消除所述至少一个被提取概念的歧义包括将所述至少一个被提取概念与以下项中的每一者进行比较：所述多个肯定示例概念和所述多个否定示例概念，并且

生成至少一个对应的已消除歧义概念，其中所述生成至少一个已消除歧义概念包括：计算表示所述至少一个被提取概念的正确可能性的置信度得分，其中所述计算置信度得分包括加入与以下项中的每一者的比较：所述多个肯定示例概念和所述多个否定示例概念；以及

用户反馈模块，所述用户反馈模块连接到所述概念歧义消除模块并且配置成：

从所述概念歧义消除模块接收所述已消除歧义概念，

使用从用户接收的第一手动输入验证所述已消除歧义概念，

生成以下项的至少一者：被保留概念和被丢弃概念，

从所述用户接收第二手动输入，以及

基于所述第二手动输入将所述被保留概念添加到以下项中的至少一者：所述概念歧义消除模块的所述多个肯定示例概念和所述多个否定示例概念。

5.根据权利要求4所述的系统，其中所述概念识别模块进一步包括：

文本处理部件，所述文本处理部件配置成：

通过应用自然语言处理技术来处理所述多个实体，并且

提取至少一个概念，以及

特征向量生成部件，所述特征向量生成部件配置成：

从所述文本处理部件接收所述被提取概念，

生成在与所述被提取概念相关联的多个特征方面与链接到所述至少一个被提取概念的所述多个实体中的至少一个实体相对应的特征向量表示，并且

6.根据权利要求4所述的系统，其中所述文本包括非结构化文本。

7.一种存储指令的非暂态计算机可读介质，所述指令当被计算机处理器执行时使所述计算机处理器执行文本分析方法，所述文本分析方法包括：

识别概念，其中包括：

接收包括多个实体的文本流，以及

从所述多个实体中提取至少一个概念；

消除所述至少一个被提取概念的歧义，其中包括：

接收所述至少一个被提取概念，以及

生成与所述至少一个被提取概念相对应的至少一个已消除歧义概念，

其中所述生成至少一个已消除歧义概念包括计算表示所述至少一个被提取概念的正确可能性的置信度得分，并且

进一步其中，所述计算置信度得分包括加入与以下项中的每一者的比较：所述多个肯定示例概念和所述多个否定示例概念，其中所述消除所述至少一个被提取概念的歧义包括将所述至少一个被提取概念与以下项中的每一者进行比较：多个肯定示例概念和多个否定示例概念；以及

捕获用户反馈，其中包括：

接收所述至少一个已消除歧义概念，

使用从用户接收的第一手动输入验证所述已消除歧义概念，以及

生成以下项的至少一者：被保留概念和被丢弃概念，

从所述用户接收第二手动输入，以及

8.根据权利要求7所述的介质，其中所述识别概念进一步包括：