CN113597611A - 命名实体识别系统的实体类型识别 - Google Patents

命名实体识别系统的实体类型识别 Download PDF

Info

Publication number
CN113597611A
CN113597611A CN202080021811.3A CN202080021811A CN113597611A CN 113597611 A CN113597611 A CN 113597611A CN 202080021811 A CN202080021811 A CN 202080021811A CN 113597611 A CN113597611 A CN 113597611A
Authority
CN
China
Prior art keywords
entity
text
corpus
identified
results
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080021811.3A
Other languages
English (en)
Inventor
J.布里奥迪
J.伊索-西皮拉
O.奥克斯勒
T.托吉亚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BenevolentAI Technology Ltd
Original Assignee
BenevolentAI Technology Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BenevolentAI Technology Ltd filed Critical BenevolentAI Technology Ltd
Publication of CN113597611A publication Critical patent/CN113597611A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

提供用于文本语料库内的实体的实体类型识别和/或消歧的方法、设备和系统,所述方法包含:接收一个或多个实体结果,每个实体结果包括表示所识别实体和所述所识别实体在所述文本语料库内的位置的数据;通过将所述文本语料库中与所述每个实体的所述位置相关联的文本输入到经过训练的实体类型(ET)模型来识别接收到的实体结果中的每个实体的实体类型,所述经过训练的ET模型配置成从所述文本语料库预测或提取所述每个实体的实体类型;以及输出表示所述接收到的实体结果中的每个实体的所识别实体类型的数据。

Description

命名实体识别系统的实体类型识别
技术领域
本申请涉及一种用于根据例如文本语料库的大规模数据集识别实体时执行命名实体识别系统的实体类型识别的系统和方法。
背景技术
一个或多个领域中的数据或文本语料库等大规模数据集内的实体识别,例如仅作为实例但不受限的生物信息学或化学信息文献(例如,由例如仅作为实例但不受限的PubMed的各种源存储的出版物),对于识别实体类型、所关注实体和/或它们之间的对应实体关系来说很重要。大规模数据集或数据/文本语料库可以包括或表示来自一个或多个数据源、内容源、内容提供者等等的任何信息或数据,并且可包含仅作为实例但不限于非结构化数据/文本、结构化数据/文本、文本正文、文章、出版物、文献、文档、文本、电子邮件、图像和/或视频,或者可含有大量信息的任何其它信息或数据。此数据可由一个或多个源、内容源/提供者或多个源(例如,PubMed、MEDLINE、维基百科)编译、由其生成和/或与其一起/或由其存储,并且可用于形成大规模数据集或数据/文本语料库,从中可提取实体、实体类型和所关注关系。此类大规模数据集或数据/文本语料库可包含来自一个或多个数据源的数据或信息,其中每个数据源可提供表示多个非结构化和/或结构化文本/文档、文档、文章或文献等等的数据。尽管来自出版商、内容提供者/源的大部分文档、文章或文献具有特定的文档格式/结构,例如,PubMed文档存储为XML,其中具有关于作者、期刊、出版日期及文档中的章节和段落的信息,但是此类文档可被视为数据/文本语料库的部分。为简单起见,大规模数据集或数据/文本语料库在本文中称为仅作为实例但不限于文本语料库。
可以使用传统的命名实体识别(NER)系统来识别和提取实体、实体类型和/或实体/实体类型在文本语料库内出现的位置。这些NER系统使用根据文本语料库的多个源手动整理的实体词典。每个实体词典可以存储多个特定实体类型的实体名称,并且与文本匹配技术一起用于从文本或文献语料库识别和提取“实体”的名称和类型。举例来说,在生物信息学上下文中,可以从包含仅作为实例但不限于与“白血病”相关联的PubMed/MEDLINE/维基百科出版物的文本语料库内的文本正文识别具有“疾病”类型的命名为“白血病”的实体。为了使这些NER系统能够运行,实体词典需要不断地手动更新、整理和标注,以便可靠地匹配和识别文本语料库的各部分内的已知实体。随着文学或科学研究的主体的增加以及由此引起的文本语料库的增加,此类NER系统很少是最新的,因为它们无法适应最新的、创建的或发现的实体;或无法识别或适应当前实体术语和/或实体类型的任何非标准化或替代性使用。这会导致对依赖NER的下游过程产生不利的不正确或不明确的实体结果。
此外,通常使用实体类型的经整理实体词典来实现从文本语料库识别和提取实体的NER系统这样做通常是不受上下文影响的,而是严重依赖于对实体词典的正确整理和更新。但是,当不同类型的实体在不同文档中具有相同名称时,实体结果可包含歧义。这意味着当文本中包含具有特定实体和实体类型的字符串的部分实际上指代的是不同实体类型或子类型的相同命名实体时,此类NER系统可能会错误地识别此字符串。或者,当出现歧义时,此类NER系统可默认为特定实体类型,希望特定实体类型的实体的最普遍使用是正确的。因此,由其中所识别的实体可具有超过一个实体类型的基于词典的NER系统提供的实体结果可能会为所识别的实体选择错误的实体类型。例如,化学元素银可以简称为“Ag”,其可定义为化学类型的实体,而蛋白质途径抗原也可以简称为“Ag”,其可定义为蛋白质类型的实体。因此,经典/传统的NER系统可能会将在部分文本中的字符串“Ag”错误地识别为银——化学类型的实体,但此字符串“Ag”实际上可能与抗原——蛋白质类型的实体——相关联。
尽管基于机器学习(ML)技术的NER系统会考虑到实体的上下文,但是这些系统依赖于对实体和实体类型的正确识别来生成广泛训练数据集,使得ML技术能够生成可靠或稳健的NER模型用于识别实体和/或实体类型。同样,生成广泛训练数据集通常依赖于基于词典的NER系统及手动整理和标注。即使这会使得训练数据集快速生成,但是使用此类带手动整理的基于词典的NER系统意味着正在生成的训练数据集和已创建的NER模型已经过时。这种情况增加了风险,即NER模型无法适应或正确地识别最新创建或发现的实体和/或实体类型的上下文并识别最新创建或发现的实体和/或实体类型;和/或无法识别当前实体术语和/或实体类型的上下文或适应当前实体术语和/或实体类型的任何非标准化或替代性使用,等等。这进一步导致了对依赖NER的下游过程产生不利的不正确或不明确的实体结果。
此外,即使使用机器学习(ML)技术的NER系统被认为通过使用包含在每个已知实体的名称的实例周围的文本的训练数据集来考虑到文档内的实体的上下文从而提供改进的对实体和/或实体类型的分类,但是这种特定性往往会导致学习实体和实体类型的过度拟合以及有偏向的基于ML的NER模型。也就是说,基于ML的NER系统学习的是对给定实体名称来说最常见的最普遍实体类型,并且通常会将其预测偏向此实体类型。由于实体结果可能会作为用于更新基于ML的NER系统的额外训练数据反馈,这会进一步放大一个或多个NER模型的过度拟合,并生成不准确和/或有偏向的实体识别结果,因为系统可能无法正确地学习适应它在更新的文本语料库中遇到的实体周围的文本的上下文。实际上,这种系统最终提供的预测更类似于简单的概率估计或基于字典的NER系统。
期望更有效和更稳健的实体和实体类型识别和/或消歧系统供基于ML的NER系统使用,该系统能够避免上述过度拟合情形对预测和/或从文本语料库中识别实体和实体类型的偏向。因此,这种系统可以提供更准确的实体/实体类型预测结果。
下文所描述的实施例不限于解决上文所描述的已知方法的任何或全部缺点的实施方案。
发明内容
提供本发明内容的目的是以简化形式介绍下文在具体实施方式中进一步描述的一系列概念。本发明内容不旨在标识要求保护的主题的关键特征或必要特征,也不旨在用于确定要求保护的主题的范围;促进本发明的工作和/或用于实现基本上类似的技术效果的各种变型和替代性特征应被视为落入本文公开的本发明的范围中。
本公开提供一种基于机器学习(ML)技术的实体类型(ET)识别或消歧系统,此系统可以最小化或避免使用基于ML的技术的命名实体识别(NER)系统的过度拟合,同时提高由此产生的实体和/或实体类型识别的准确度。将NER系统与ET识别/消歧系统耦合,其中NER系统输出一组实体结果以供ET识别/消歧系统使用ET识别模型进行进一步处理。ET识别模型配置成使用来自与实体结果相关联的文本语料库的文本的相关部分预测和识别与接收到的一组实体结果中的一或多个实体相关联的最可能实体类型。
例如,使用ML技术过程生成配置成补充在文本语料库上使用的NER系统的ET模型(ET识别模型或ET模型)。ML技术训练为生成ET模型,此ET模型识别在文本(例如,文档)的一部分内在例如实体名称或字符串的实体之前和之后出现的文本种类,并提供与所述实体相关联的多个不同实体类型中的最可能实体类型。通过这种方式,ET模型配置成将实体名称的出现上下文化,从而可以更好地预测每一个实体的实体类型。此信息可进一步供NER系统使用以帮助更准确地预测在文本语料库内识别的实体的实体类型。
在第一方面中,本公开提供一种用于文本语料库内的实体的实体类型识别的计算机实施方法,所述方法包含:接收一个或多个实体结果,每个实体结果包括表示所识别实体和所述所识别的实体在所述文本语料库内的位置的数据;通过将所述文本语料库中与所述每个实体的所述位置相关联的文本输入到经过训练的实体类型(ET)模型来识别接收到的实体结果中的每个实体的实体类型,所述经过训练的ET模型配置成从所述文本语料库预测或提取所述每个实体的实体类型;以及输出表示所述接收到的实体结果中的每个实体的所识别实体类型的数据。
优选地,其中输入与所述每个实体的所述位置相关联的文本进一步包括输入所述文本语料库中在所述每个实体的所述位置之前和之后的文本。
优选地,其中接收所述一个或多个实体结果进一步包括接收由命名实体识别(NER)系统生成的所述一个或多个实体结果。
优选地,其中包括表示所识别实体和所述所识别实体在所述文本语料库内的位置的数据的每个实体结果包含以下群组中的一个或多个:所识别实体和所述所识别实体在所述文本语料库内的所述位置的指示;所识别实体和来自所述文本语料库的在所述所识别实体周围的文本部分;所识别实体、在所述所识别实体的位置之前的第一文本部分和在所述所识别实体的所述位置之后的第二文本部分;在所识别实体的所述位置周围的文本部分;以及在所识别实体的所述位置之前的第一文本部分和在所识别实体的所述位置之后的第二文本部分。
优选地,所述计算机实施方法进一步包括:从NER系统接收一个或多个实体结果,其中每个实体结果包含表示所述文本语料库内在所识别实体的所述位置之前的第一文本部分和在所述所识别实体的所述位置之后的第二文本部分;通过将所述文本语料库中与所述所识别实体相关联的所述第一和第二文本部分输入到所述经过训练的实体类型ET模型来识别所述接收到的实体结果中的每个实体的实体类型,所述经过训练的ET模型配置成从所述文本语料库预测或提取所述每个实体的实体类型;以及向所述NER系统发送表示所述接收到的实体结果中的每个实体的所述所识别实体类型的数据。
优选地,所述计算机实施方法进一步包括:从NER系统接收一个或多个实体结果,其中每个实体结果包含表示所识别实体、所识别实体类型和所述所识别实体在所述文本语料库内的位置的数据;如果与相关文本部分相关联的多个实体结果表示相同实体,其中所述多个实体结果中的至少一个与所述多个实体结果中的另一个具有不同实体类型,识别所述多个实体结果之间的不明确实体类型;针对所述多个实体结果中的每一个,将所述文本语料库中与所述每个实体的所述位置相关联的文本输入到所述经过训练的ET模型,所述经过训练的ET模型配置成从所述文本语料库预测或提取所述每个实体的实体类型;以及聚合与所述相关文本部分相关联的所述多个实体结果的所预测或所提取实体类型,以输出表示所述多个实体结果的实体类型。
优选地,其中所述相关文本部分位于来自所述文本语料库的文档中,并且针对所述文档聚合所述多个实体结果的所述所预测或所提取实体类型包括聚合所述多个实体结果中的每个实体的预测以形成所述多个实体结果中的所述实体的所述实体类型的总体预测。
优选地,所述计算机实施方法进一步包括通过训练机器学习ML技术生成或更新所述ET模型,以基于所述一个或多个实体结果从所述文本语料库预测或提取实体类型。
优选地,其中所述ML技术包括来自以下群组的至少一个ML技术:神经网络;递归神经网络;前馈神经网络;卷积神经网络;长期短期记忆(LSTM)神经网络;双向LSTM神经网络;基于LSTM条件随机场(CRF)的神经网络;以及用于基于所述一个或多个实体结果从文本语料库预测实体类型的任何其它ML技术。
优选地,所述计算机实施方法进一步包括基于所述所识别实体类型更新所述ET模型。
优选地,所述计算机实施方法进一步包括基于带标记数据集训练所述ML技术以生成或更新所述ET模型,所述带标记数据集包括多个带标记数据项,其中每个带标记数据项包括来自所述文本语料库的与实体相关联且用实体类型标记标注的文本部分。
优选地,其中来自所述文本语料库的与实体相关联的所述文本部分包含第一文本部分、表示所述实体的第二文本部分及在所述实体之后的第三文本部分。
优选地,其中每个带标记数据项包括在表示所述实体的所述第二文本部分周围的所述第一和第三文本部分。
优选地,其中训练所述ML技术以生成或更新所述ET模型进一步包括针对每一迭代通过以下操作基于所述带标记数据集迭代地训练所述ML技术以生成或更新所述ET模型:比较所述带标记数据项和从所述ET模型输出的对应的所预测或所提取实体类型;基于与所述ML技术相关联的损失函数,基于所述比较来更新所述ET模型。
优选地,其中所述ET模型是基于神经网络,所述神经网络包括分别配置成表示在所述实体的所述位置之前的第一文本部分和在所述实体的所述位置之后的第二文本部分的前向和后向隐藏状态,其中所述前向和后向隐藏状态串接在一起以生成所述第一和第二文本部分的实体类型表示。
优选地,所述ET模型进一步包括所述ET模型的第一部分和所述ET模型的第二部分,所述ET模型的所述第一和第二部分配置成基于所述一个或多个实体结果从所述文本语料库预测或提取表示实体类型的数据,所述方法进一步包括:将与实体结果中的实体相关联的文本部分分割为在所述实体的所述位置之前的第一文本部分和在所述实体的所述位置之后的第二文本部分;将所述第一文本部分输入到所述ET模型的所述第一部分,以预测表示第一实体类型估计的数据;将所述第二文本部分输入到所述ET模型的所述第二部分以预测表示第二实体类型估计的数据;以及组合表示所述第一和第二实体类型估计的数据以形成与所述实体相关联的所识别实体类型。
优选地,其中表示所述第一实体类型估计的所述数据包括第一N维向量,且表示所述第二实体类型估计的所述数据包括第二N维向量,其中组合表示所述第一和第二实体类型的数据进一步包括串接所述第一和第二N维向量,并将所得向量的维数减少到潜在实体类型的数目,其中所述所得向量的每个向量元素对应于不同实体类型,每个向量元素的值表示所述实体是所述特定实体类型的可能性。
优选地,其中所述ET模型基于双向LSTM神经网络从ML技术生成。
优选地,其中所述ET模型的模型参数基于多个带标记数据项进行联合训练,每个带标记数据项包括表示在实体的所述位置且用与所述实体相关联的实体类型标记标注之前的第一文本部分、在所述实体的所述位置之后且用与所述实体相关联的实体类型标记标注的第二文本部分的数据。
在第二方面中,本公开提供从根据第一方面、其组合和/或修改、如本文中要求保护和/或如本文中所描述的计算机实施方法获得的机器学习(ML)模型。
在第三方面中,本公开提供一种设备,其包括:接收器,其配置成接收一个或多个实体结果,每个实体结果包括表示实体和所识别实体在文本语料库内的位置的数据;实体类型识别模块,其包括配置成基于所述文本语料库中与所述所识别实体相关联的文本预测或提取接收到的实体结果中的所述一个或多个实体中的每一个的实体类型的实体类型模型;以及传输器,其用于输出表示所述接收到的实体结果中的每个实体的所预测或所识别实体类型的数据。
优选地,其中所述实体类型模型配置成用于接收与所述每个实体的所述位置相关联的文本,其中与所述每个实体的所述位置相关联的所述文本包括所述文本语料库中在所述每个实体的所述位置之前的文本部分和在所述每个实体的所述位置之后的文本部分。
优选地,其中所述设备进一步配置成实施根据第一方面、其组合和/或修改、如本文中要求保护和/或如本文中所描述的计算机实施方法。
在第四方面中,本公开提供一种包括处理器、存储器单元和通信接口的设备,其中所述处理器连接到所述存储器单元和所述通信接口,其中所述处理器和存储器配置成实施根据第一方面、其组合和/或修改、如本文中要求保护和/或如本文中所描述的计算机实施方法。
在第五方面中,本公开提供一种系统,其包括:用于从文本语料库生成实体结果的命名实体识别NER系统,每个实体结果包括表示所识别实体和所述所识别实体在所述文本语料库内的位置的数据;以及根据第三方面或第四方面中的任一个、其组合和/或修改、如本文中要求保护和/或如本文中所描述的设备,所述设备耦合到所述NER系统,所述设备配置成从所述NER系统接收一个或多个实体结果。
在第六方面中,本公开提供一种包括数据或指令代码的计算机可读介质,所述数据或指令代码在处理器上执行时使所述处理器实施根据第一方面、其组合和/或修改、如本文中要求保护和/或如本文中所描述的计算机实施方法。
在第七方面中,本公开提供一种包括数据或指令代码的有形计算机可读介质,所述数据或指令代码在处理器上执行时使所述处理器实施根据第一方面、其组合和/或修改、如本文中要求保护和/或如本文中所描述的计算机实施方法。
在第八方面中,本公开提供一种从根据第一方面、其组合和/或修改、如本文中要求保护和/或如本文中所描述的计算机实施方法获得的ET模型。
优选地,根据第一、第二、第三、第四、第五、第六、第七和/或第八方面中的任一个、其组合和/或修改、如本文中要求保护和/或如本文中所描述的计算机实施方法、设备、系统或计算机可读介质,其中实体包括与来自以下群组的实体类型相关联的实体数据:基因;疾病;化合物/药物;蛋白质;化学、器官、生物;或与生物信息学或化学信息学相关联的任何其它实体类型,等等。
本文中所描述的方法可以由呈机器可读形式的软件在例如呈计算机程序的形式的有形存储介质上执行,所述计算机程序包含适于在所述程序在计算机上运行时以及在所述计算机程序可以在计算机可读介质上体现的情况下执行本文中所描述的任何方法的所有步骤的计算机程序代码构件。有形(或非暂时性)存储介质的实例包括磁盘、拇指驱动器、存储卡等,并且不包括传播的信号。所述软件可以适用于在并行处理器或串行处理器上执行,使得所述方法步骤可以以任何适合的顺序或同时执行。
本申请确认固件和软件可以是有价值的、可单独交易的商品。旨在涵盖在“哑”或标准硬件上运行或控制“哑”或标准硬件的软件,以实现期望的功能。还旨在涵盖“描述”或定义硬件的配置的软件,如HDL(硬件描述语言)软件,如用于设计硅芯片或用于配置通用可配置芯片,以实现期望的功能。
如对技术人员显而易见的,优选特征可以适当地结合,并且可以与本发明的任何方面结合。
附图说明
将仅借助于实例参考以下附图来描述本发明的实施例,在附图中:
图1a是示出根据本发明的示例实体类型识别系统的示意图;
图1b是示出根据本发明的另一示例实体类型(ET)识别系统的示意图;
图1c是示出根据本发明的用于实体类型消歧的示例ET识别系统的示意图;
图1d是示出根据本发明的用于执行ET识别的示例过程的流程图;
图1e是示出根据本发明的用于实体类型消歧的ET识别的另一示例过程的流程图;
图1f是示出根据本发明的用于ET识别期间的ET聚合的实例过程的流程图;
图2a是示出用于从文本语料库生成实体结果的基于实体词典的示例命名实体识别(NER)系统的示意图;
图2b是示出用于从文本语料库生成实体结果的基于机器学习模型的示例NER系统的示意图;
图3a是示出根据本发明的当训练用于ET识别系统时的示例ET机器学习(ET-ML)系统的示意图;
图3b是示出根据本发明的当训练用于ET识别系统时的图3a的示例ET-ML系统的示意图;
图3c是示出根据本发明的与ET-ML系统一起使用的ET-ML模型的示意图;
图3d是示出根据本发明的用于训练ET识别系统的图3a到3c中的任一个的ET-ML模型的过程的流程图;
图3e是示出根据本发明的当训练用于ET识别系统时的图3d的ET-ML模型的实例的示意图;
图4是示出根据本发明的基于图3a-3e的ET-ML模型的另一示例ET识别系统的示意图;
图5是示出根据本发明的用于ET识别系统的基于双向长期短期记忆神经网络的示例ET-ML模型的示意图;
图6a是示出根据本发明的计算系统/装置的示意图;以及
图6b是示出根据本发明的系统的示意图。
共同的附图标记在所有附图中用于指示相似特征。
具体实施方式
下文仅通过举例的方式描述本发明的实施例。这些实例表示申请人目前已知的实践本发明的最佳模式,但是这些实例并不是可以实现本发明的唯一方法。描述阐述了实例的功能以及构造和操作实例的步骤的序列。然而,可以由不同的实例来完成相同或等效的功能和顺序。
例如生物信息学或化学信息文献的数据或文本内的实体识别对于识别和提取所关注实体和/或所关注实体类型、对应实体以及它们之间的关系等等来说很重要。实体识别信息可用于后续下游过程,例如关系提取、使用机器学习技术从基于所识别实体、实体类型及实体之间的关系等等生成的带标记训练数据生成生物信息学和/或化学信息模型。
研究人员和科学家不断在许多领域和科学领域(例如,生物信息学和/或化学信息学)增加人类知识体系,其中研究体系形成了大量呈指数级增长的文本/文档语料库(或大规模数据集),例如仅作为实例但不限于结构化/非结构化文本、文档、文章、出版物、研究相关文本和/或文档;会议和期刊论文;已发表的专利/专利申请;新闻文章;白皮书;网站/博客帖子;和/或任何其它有用信息来源等。鉴于生物信息学和/或化学信息学文献的巨大规模,命名实体识别(NER)系统通常用于文本挖掘等,以便识别和提取所识别实体、实体类型和/或实体和/或实体类型在文本内出现的位置。这些NER系统通常使用手动标注的实体词典来识别文本内的实体。在生物信息学和/或化学信息学等医学科学中,实体类型可以是一系列类型,如基因、疾病、化学品、蛋白质、细胞系等,并且随着这些领域的进一步研究,正在生成的非结构化数据、文本和/或文献等等的量不断增加,因此实体和/或实体类型的数目也不断增加。鉴于此,可能具有相同名称或字符串但属于几种不同实体类型的实体越来越多。这导致从不断增加的文本/数据语料库中识别实体和/或实体类型存在歧义。
尽管一些使用ML技术的NER系统可以通过检查在每个实体名称的实例周围的文本来考虑到文本/文档部分内的实体的上下文从而提供改进的实体分类,但是这可能导致所学习实体类型过度拟合,其中基于ML的NER系统学习到的是针对给定实体名称最常见的实体类型,并将其预测偏向此类型。鉴于结果可能会反馈到基于ML的NER系统中,这可能会导致生成不准确的实体识别结果,因为系统可能无法正确学习实体周围文本的上下文。实际上,这种系统最终提供的预测更类似于简单的概率估计。
本发明通过提供一种更稳健的基于ML技术的实体类型(ET)识别或消歧系统来提供对上述关键问题的解决方案,该系统可以最小化或避免使用基于ML的技术的NER系统的过度拟合,同时提高由其产生的实体和/或实体类型识别的准确度。本发明旨在通过NER系统与ET识别/消歧系统的明智组合或耦合来克服这些关键问题,其中NER系统输出一组实体结果,以供ET识别/消歧系统使用ET识别模型进行进一步处理。ET识别模型配置成使用来自与实体结果相关联的文本语料库的文本的相关部分预测和识别与接收到的一组实体结果中的一或多个实体相关联的最可能实体类型。
具体地说,使用ML技术过程生成配置成补充在文本语料库上使用的NER系统的ET模型(ET识别模型或ET模型)。ML技术训练为生成ET模型,此ET模型识别在文本(例如,文档)的一部分内在例如实体名称或字符串的实体之前和之后出现的文本种类,并提供与所述实体相关联的多个不同实体类型中的最可能实体类型。通过这种方式,ET模型配置成将实体名称的出现上下文化,从而可以更好地预测每一个实体的实体类型。此信息可进一步供NER系统使用以帮助更准确地预测在文本语料库内识别的实体的实体类型。
使用包含多个带标记训练数据元素的带标记训练数据集从一个或多个ML技术训练并生成ET模型或ET识别模型,其中每个带标记训练数据元素与多个实体中的一实体相关联,并且包含表示与所述实体相关联且用与所述实体相关联的实体类型标记标注的文本部分的数据。对于与实体相关联的每个带标记训练数据元素,所述文本部分包含在与所述实体相关联的字符串周围的文本或字符。
例如,用实体类型标记标注的文本部分可包含:a)在与所述实体相关联的文本或字符串之前的文本或字符;以及b)在与所述实体相关联的文本或字符串之后的文本或字符;但是不包含与所述实体相关联的文本或字符串。在另一实例中,包含命名实体且用实体类型标记标注的文本部分可包含命名实体的周围文本,其中所述周围文本分割成出现在命名实体“左侧”和“右侧”的文本,其中向结果应用ML技术或系统。所述文本部分的周围文本可能不包含命名实体的实体名称或字符串,使得在训练期间ML技术或系统不考虑命名实体。已发现,在每个训练数据元素中省略与实体(或命名实体)相关联的文本或字符串进一步最小化或避免ML技术生成过度拟合的实体类型识别模型,从而进一步减小实体类型识别模型的偏向。已发现,这提高了从输入到所得ET识别模型的文本语料库预测实体的正确实体类型的准确度。
使用ML技术训练和生成一个或多个具有与输入数据相关联的相同或类似输出目标的经过训练的模型或分类器。ML技术可包括或表示一个或多个计算方法或计算方法组合,这些计算方法可用于生成分析模型、分类器和/或算法,有助于解决复杂问题,例如仅作为实例但不限于高效和准确的大规模数据挖掘,包含从大规模数据集(例如,文本/文档或非结构化数据的语料库或集合)进行实体和/或实体类型及实体关系的文本挖掘、预测、分析和提取,以生成大规模带标记训练数据集用于ML技术,从而生成用于下游过程的经过进一步训练的模型。下游过程可包含仅作为实例但不限于与复杂过程和/或化合物有关的模型或分类器和/或分析模型的训练;与一个或多个关系有关的输入数据的分类。通过化学信息学和/或生物信息学领域中正确标注的训练数据集,ML技术可用于生成经过进一步训练的模型、分类器和/或分析模型,以用于下游过程,例如作为实例但不限于药物发现、识别和优化以及信息学、化学信息学和/或生物信息学领域中的其它相关生物医学产品、治疗、分析和/或建模。
如本文所述,可由本发明使用的ML技术的实例可包含或基于仅作为实例但不限于可在带标记和/或未标记的数据集上训练以生成与带标记和/或未标记的数据集相关联的模型或分类器的任何ML技术或算法/方法、一种或多种监督式ML技术、半监督式ML技术、无监督ML技术、线性和/或非线性ML技术、与分类相关联的ML技术、与回归相关联的ML技术等等,和/或其组合。ML技术的一些实例可以包含或基于仅通过举例但不限于以下中的一个或多个:主动学习、多任务学习、迁移学习、神经消息解析、一次性学习、降维、决策树学习、相关联规则学习、相似性学习、数据挖掘算法/方法、人工神经网络(NN)、深度NN、深度学习、深度学习ANN、归纳逻辑编程、支持向量机(SVM)、稀疏字典学习、聚类、贝叶斯(Bayesian)网络、强化学习、表示学习、相似性和度量学习、稀疏字典学习、遗传算法、基于规则的机器学习、学习分类器系统和/或其一个或多个组合等。
监督式ML技术的一些实例可包含或基于仅作为实例但不限于ANN、DNN、关联规则学习算法、先验算法、
Figure BDA0003265645770000111
算法、基于案例的推理、高斯过程回归、基因表达式编程、数据处理的组方法(GMDH)、归纳逻辑编程、基于实例的学习、惰性学习、学习自动机、学习向量量化、逻辑模型树、最小消息长度(决策树、决策图等)、最近邻算法、类比建模、可能近似正确学习(PAC)学习、链波下降规则、知识获取方法、符号机器学习算法、支持向量机、随机森林、分类器集合、引导聚合(BAGGING)、提升(元算法)、序数分类、信息模糊网络(IFN)、条件随机场、方差分析、二次分类器、k最近邻、提升、sprint、贝叶斯网络、朴素贝叶斯(Na?veBayes)、隐马尔可夫模型(HMM)、分层隐马尔可夫模型(HHMM)以及能够从带标记训练数据等推断函数或生成模型的任何其它ML技术或ML任务。
无监督ML技术的一些实例可以包含或基于仅通过举例但不限于期望最大化(EM)算法、向量量化、生成的地形图,信息瓶颈(IB)方法和能够推断描述隐藏结构和/或从未标记的数据和/或通过忽略标记的训练数据集中的标记等生成模型的任何其它ML技术或ML任务。半监督式ML技术的一些实例可包含或基于仅作为实例但不限于以下中的一个或多个:主动学习、生成模型、低密度分离、基于图的方法、协同训练、转导或能够利用未标记数据集和带标记数据集进行训练(例如通常训练数据集可以包含少量的带标记训练数据结合大量的未标记数据等)的任何其它ML技术、任务或监督式ML技术的类别。
人工NN(ANN)ML技术的一些实例可包含或基于仅作为实例但不限于以下中的一个或多个:人工NN、前馈NN、循环NN(RNN)、卷积NN(CNN)、自动编码器、长期短期记忆(LSTM)、LSTM条件随机场(CRF)、双向LSTM、双向LSTM-CRF;递归人工NN、极限学习机、逻辑学习机、自组织映射,以及受到构成动物大脑的生物神经网络启发且能够基于带标记和/或未标记数据集学习或生成模型的其它ANN ML技术或联结式系统/计算系统。深度学习ML技术的一些实例可以包含或基于仅通过举例但不限于以下中的一个或多个:深度信仰网络、深度玻尔兹曼机、DNN、深度CNN、深度RNN、分层时间记忆、深度玻尔兹曼机(DBM)堆叠式自动编码器和/或能够基于学习来自标记的和/或未标记的数据集的数据表示学习或生成模型的任何其它ML技术。
为简单起见且仅作为举例,本发明可以使用能够向带标记训练数据集学习的ML技术(也称为深度学习技术)描述,并且可基于来自以下群组的任何ML技术或算法:神经网络;递归神经网络;前馈神经网络;卷积神经网络;长期短期记忆(LSTM)神经网络;双向神经网络;双向LSTM神经网络;结合条件随机场(CRF)的神经网络;基于LSTM CRF的神经网络;或其组合;和/或适用于训练ET模型或ET ML模型以预测、识别和/或分类一个或多个实体的实体类型及文本语料库/文档的对应文本部分等等的任何其它ML技术。一旦训练,经过训练的ET模型配置成用于预测、识别和/或分类与匹配实体相关联的一个或多个文本部分内的匹配实体的实体类型。
图1a是示出根据本发明的示例实体类型识别系统100的示意图。ET识别系统100包含例如耦合到ET识别设备104的文本语料库102的大规模数据集、耦合到ET识别设备104的实体结果模块106,及耦合到ET识别设备104的ET识别结果模块108。
大规模数据集或文本语料库102可包含一个或多个数据源,其中每个数据源可包含表示多个非结构化和/或结构化文本/文档等等的数据。在此实例中,数据集102可以称为文本/文档语料库102,并且优选地可包含非结构化文本或文档。例如,文本/文档语料库102可包含来自一个或多个数据源的数据集,例如仅作为实例但不限于PubMed出版物、MEDLINE出版物、生物信息学和/或化学信息学领域中的任何期刊或文章出版物。尽管本文所提供的实例包含生物信息学和/或化学信息学领域中的文本/文档语料库,但这仅作为实例,且本发明不限于此,技术人员应了解,文本/文档语料库可包含表示任何研究或科学领域中的文本/文档且可供文本挖掘或数据挖掘技术用于从文本/文档语料库进行实体和实体类型识别等等的任何数据。
实体结果模块106可以是:a)命名实体识别(NER)系统或另一数据处理系统中接收与文本/文档语料库等等内的所识别实体有关的一组实体结果的部分;或b)ET识别设备中配置成从NER系统或另一数据处理系统接收与所识别实体有关的一组实体结果的部分。在任何情况下,实体结果模块106接收一个或多个实体结果,每个实体结果包含表示所识别实体以及所识别实体在文本/文档语料库(例如,文本或数据语料库)内的位置的指示的数据。这些可能已被例如NER系统所识别。
例如,所述一组实体结果可包含表示以下的数据:一个或多个所识别实体、与每个所识别实体相关联的一个或多个实体类型,以及文本部分和/或所述实体在文本/文档语料库内的文本部分中的位置的指示。实体在文本/文档语料库内的文本部分中的位置的指示可用于使ET识别设备针对每个实体结果定位文本/文档语料库102中的在实体周围的文本部分。
ET识别设备可包含配置成使用文本/文档语料库102预测和/或识别接收到的实体结果中的每个实体的实体类型的一个或多个ET识别模型104a或ET模型。例如,文本语料库中与所述每个实体的位置相关联的文本部分可被输入到配置成从文本语料库预测或提取所述每个实体的实体类型的ET模型。在使用ET模型针对每个实体结果预测实体类型之前,ET模型训练和配置成从文本/文档语料库中的相关文本部分等预测或提取实体结果中的所述每个实体的实体类型。ET识别设备106可输出表示接收到的实体结果中的每个实体的所识别实体类型的数据。实体识别结果模块108可配置成更新实体结果以包含表示接收到的实体结果中的每个实体的所预测或所识别实体类型的数据。实体识别结果模块108可以是ET识别设备104的一部分。
在训练ET模型104a期间,ET设备104可针对实体结果中的每个所识别实体配置成检索和输入与所述每个所识别实体的位置相关联的文本,所述输入文本包含来自文本语料库的在实体周围的文本部分,例如,文本语料库中的在所述每个所识别实体的位置之前和之后的文本部分。每个实体结果可结构化为包含表示实体的数据和表示文本语料库内与所识别实体相关联的文本部分的数据。例如,每个实体结果可基于以下群组中的至少一个或多个而包含表示所识别实体的数据和表示与所识别实体相关联的文本部分:所识别实体和所识别实体在文本/非结构化文本语料库等等内的位置的指示;所识别实体和来自文本/非结构化文本语料库等等的在所识别实体周围的文本部分;所识别实体、在所识别实体的位置之前的第一文本部分和在所识别实体的位置之后的第二文本部分;在所识别实体的位置周围的文本部分;以及在所识别实体的位置之前的第一文本部分和在所识别实体的位置之后的第二文本部分;或含有所识别实体的文本部分;和/或表示所识别实体和在所识别实体周围的文本部分的任何其它合适的数据。实体结果可包含表示所识别实体在文本语料库的文本部分内的位置的数据,或者可包含表示含有所述所识别实体的文本部分和所识别实体在所述文本部分内的位置的数据。
ET设备104可配置成通过训练用于基于所述一个或多个实体结果从文本语料库预测或提取实体类型的对应ML技术来训练、生成或更新ET模型104a-104n中的一个或多个。为了训练ML技术以生成或更新ET模型,可以使用包含多个带标记数据项的带标记训练数据集。每个带标记数据项可包含表示来自文本语料库的与已知或先前所识别的实体相关联且用实体类型标记标注的文本部分的数据。每个实体类型标记可来自与一个或多个实体类型相关联的一组实体类型标记。实体类型标记可包含表示或识别特定实体类型的数据。作为实例,来自文本语料库的与已知实体相关联的文本部分可包含在表示实体的第二文本部分之前的第一文本部分和在实体之后的第三文本部分。也就是说,每个带标记数据项包含在表示实体的第二文本部分周围的第一和第三文本部分。训练ML技术以生成或更新ET模型可包含基于带标记数据集迭代地训练ML技术以生成或更新ET模型,其中每个带标记数据项的第一和第三文本部分由通过ML技术输入和处理,其中针对每一迭代:与带标记数据项相关联的实体类型标记与从所述一个或多个ET模型104a-104n输出的对应的所预测或所提取实体类型相比较,其中定义所述一个或多个ET模型104a-104n中的每一个的模型参数基于比较结果而更新(例如,可以计算与ML技术相关联的一个或多个损失函数来更新定义ET模型104a-104n的模型参数)。
一旦ET模型经过训练,ET设备104就可接收实体结果来识别实体类型。这些所识别的实体类型可用于对NER系统先前尝试相对于实体结果中的所识别实体预测的任何实体类型进行消歧和/或校正。ET识别设备104可针对所识别实体向所述一个或多个ET模型输入不包含与所识别实体相关联的字符串的文本部分。替代地或另外,ET识别设备104可向ET模型中的一个或多个输入文本部分和所识别实体在文本部分内的位置,其中ET模型可处理在描述所识别实体的字符串(或文本部分)之前和之后的文本部分。ET模型104a可处理在所识别实体周围的文本部分,其中ET模型104a忽略或不包含文本部分中的所识别实体来预测或识别与所识别实体相关联的实体类型。
图1b是示出根据本发明的基于图1a的ET识别系统100的另一示例ET识别系统110的示意图。在此实例中,NER系统112包含例如实体结果模块106的功能性。NER系统112可配置成从文本语料库102和实体结果识别实体和/或实体类型,如参考图1a所描述,所述实体结果可包含表示所识别实体和每个实体在文本语料库内的位置的指示(例如,与实体相关联的文本部分,或实体在文本语料库内的文本部分中的位置的指示,等等)的数据。实体结果模块106可向实体类型(ET)设备104发送一组实体结果,所述ET设备配置成使用一个或多个ET模型104a-104n处理实体结果以预测和/或识别实体结果中的每个实体的实体类型。ET设备104可经由实体识别结果模块108输出实体类型识别结果,此结果包含表示以下的数据:所述一组实体结果中的每个实体、与每个实体相关联的文本部分(或文本部分在文本语料库102中的位置)的指示,及所述每个实体的所预测/所识别实体类型。
例如,ET设备104可配置成从NER系统112接收一个或多个实体结果或一组实体结果。每个实体结果包含表示文本语料库内在所识别实体的位置之前的第一文本部分和在所识别实体的位置之后的第二文本部分的数据。或者,每个实体结果可包含表示所识别实体和含有所识别实体的文本部分和/或实体在文本语料库内的位置的指示的数据。技术人员应了解,实体结果可以可供ET设备104用于识别和/或检索在实体结果中的每个所识别实体周围的文本部分的任何类型的格式或数据结构或根据应用需要来提供。ET设备104可配置成针对实体结果中的每个所识别实体,提取或处理含有所识别实体的每个实体结果以确定和/或检索(例如,从实体结果或从文本语料库检索)在所识别实体周围的文本。例如,ET设备104可针对接收到的一组实体结果内的每个所识别实体检索:a)文本语料库102中在表示所识别实体的文本或字符串之前且邻近的第一文本部分,和b)文本语料库102中在表示所识别实体的文本或字符串之后且邻近的第二文本部分。ET设备104配置成通过将文本语料库102中与所识别实体相关联的第一和第二文本部分输入到所述一个或多个经过训练的ET模型104a-104n中来识别接收到的实体结果中的每个所识别实体的实体类型。
ET模型104a-104n的模型参数训练和配置成基于文本语料库102中含有所识别实体的文本部分的上下文从文本语料库102预测、识别和/或提取所述每个所识别实体的实体类型。用于训练ET模型104a-104n的训练数据集可基于多个带标记训练数据项,包含表示多个已知实体的数据,其中每个已知实体用已知实体类型标记进行标记且与来自文本语料库的含有已知实体的对应文本部分相关联。在训练期间,ML技术通过针对每个已知实体和实体类型标记输入表示在表示已知实体的文本或字符串之前的第一文本部分和在表示已知实体的文本或字符串之后的第二文本部分的数据来生成和/或更新ET模型的模型参数。第一文本部分和第二文本部分的长度可依据已知实体在与已知实体相关联的文本部分的句子和/或段落内的位置而变化。
应注意,在训练期间或在训练之后,在与所识别实体相关联的文本部分中的所识别实体的字符串不作为输入提供到ET模型104a-104n。这允许ET模型104a-104n基于与所识别/已知实体相关联的文本部分的上下文确定所识别/已知实体的实体类型,同时最小化所述一个或多个ET模型104a-104n的模型参数偏向已知实体和相关联的实体类型或与其过度拟合的可能性。这允许ET模型104a-104n在遇到未知文本部分和/或其中可以使用所识别实体的新上下文时更有可能正确地预测实体类型,这种情况下,NER系统112可能无法正确地确定。
基于ET模型104a-104n处理与每个所识别实体相关联的第一和第二文本部分,ET设备104可输出表示每个所识别实体的所预测/所识别实体类型的数据。实体识别结果模块1087可向NER系统112发送表示接收到的实体结果中的每个实体的所识别实体类型。另外或可选地,可以发送实体识别结果以供NER系统112进行进一步处理。例如,NER系统112可使用实体识别结果来校正或更新一开始从文本语料库102导出的所述一组实体结果。另外或替代地,NER系统112可配置成在处理文本语料库时更新或校正NER系统112内用于识别实体类型的NER技术。例如,NER系统112可包含基于ML技术的一个或多个NER模型,它们配置成预测/识别文本语料库内的实体和/或配置成预测/识别所识别实体的实体类型,其中实体识别结果可用于更新NER模型和或生成用于预测/识别所识别实体的实体类型的新NER模型。另外或替代地,NER系统112可使用基于文本/模式匹配的NER技术和/或实体词典(例如,每个实体词典包含与特定实体类型相关联的多个实体),其中实体词典和/或实体类型识别技术可以基于实体类型识别结果更新。
图1c是示出基于图1a和1b的ET识别系统100的用于实体类型消歧的另一示例ET识别系统120的示意图。在此实例中,NER系统112配置成从生物信息学/化学信息学领域的文本语料库识别实体。NER系统112可使用多个实体词典,每个实体词典包含特定实体类型的实体,系统还使用用于识别文本语料库102中的实体和每一个所识别实体的实体类型的模式/文本匹配技术。每个实体类型可以由一组实体类型标记中的一实体类型标记表示。在此实例中,所述一组实体类型可包含仅作为实例但不限于化学实体类型122a、疾病实体类型122b、基因实体类型122c和其它实体类型122d。这些实体类型中的每一个可具有一组实体类型标记中的一种实体类型标记。
化学实体类型122a用于标记和识别文本语料库中确定为化学品的实体。疾病实体类型122b用于标记和识别文本语料库中确定为疾病的实体。基因实体类型122b用于标记和识别文本语料库中确定为基因的实体。其它实体类型122b用于标记和识别文本语料库中未被考虑到或未被确定为化学、疾病或基因实体类型的实体。这些可包含NER系统112无法确定属于化学、疾病或基因实体类型的不明确实体。例如,有时研究人员在描述基因、化学品和/或疾病时可在不同上下文中使用相同实体名称。这可导致所识别实体的实体类型的错误识别,NER系统112可能无法应对这一点。尽管可能存在供NER系统112选择实体类型的各种选择策略,但这些可能导致实体的错误或不完整识别,这可能会影响依赖于文本语料库中实体和实体类型的正确识别的下游过程的准确性。例如,当NER系统112无法确定实体的实体类型时的选择策略可以是通过从实体类型122a-122d的有序列表1.化学;2.疾病;3.基因;4.其它中选择实体类型进行默认选择。作为另一实例,NER系统112不提供实体类型标记的选择策略可以很简单,即,将实体标记为其它实体类型。
当NER系统112识别文本语料库内属于这些实体类型122a-122d中的一个或多个的实体时,它可以在一组实体结果124中记录和/或存储表示实体和实体所属的最可能实体类型(例如,基因126a、化学126b、疾病126c或其它)的数据,以及表示含有实体的文本部分的位置或文本语料库中的含有实体的文本部分的数据。实体结果模块106或NER系统112的其它功能性可配置成向ET识别设备104发送所述一组实体结果或所述一组实体结果的部分/选择(例如,那些实体具有不明确的实体类型或例如其它实体类型的实体类型)以供进一步处理/分析。
ET识别设备104从NER系统112接收一个或多个实体结果。如所描述,每个实体结果可包含表示所识别实体、所识别实体类型和所识别实体在文本语料库内的位置的数据。或者,每个实体结果可包含表示所识别实体以及所识别实体在文本语料库内的位置的指示或文本语料库内含有所识别实体的文本部分的数据。ET识别设备配置成针对实体结果中的每一个向经过训练的ET模型输入文本语料库中与所述每个实体的位置相关联的文本,所述ET模型训练和配置成从文本语料库预测或提取所述每个实体的实体类型。针对所识别实体或实体结果输入的文本可以是在所识别实体周围的文本,输入文本内可能不包含表示所识别实体的文本或字符串。ET模型可输出接收到的一组实体结果中的每个所识别实体的实体类型识别结果。
此外,NER系统112和/或ET识别设备104还可配置成如果与相关文本部分相关联的多个实体结果表示相同实体,其中所述多个实体结果中的至少一个与所述多个实体结果中的另一个具有不同实体类型,那么识别所述多个实体结果之间的不明确实体类型。这可表明赋予所识别实体的实体类型存在歧义。对于所述多个实体结果中的每一个,文本语料库中与所述每个实体的位置相关联的文本部分可被输入到ET识别设备104的经过训练的ET模型,所述ET模型训练或配置成从文本语料库预测或提取所述每个实体的实体类型。同样,针对所识别实体或实体结果输入的文本可以是在所识别实体周围的文本,输入文本内可能不包含表示所识别实体的文本或字符串。
ET识别设备104或ET模型可聚合与相关文本部分相关联的所述多个实体结果的所预测或所提取实体类型,以输出表示所述多个实体结果的实体类型。此外,与所述多个实体结果相关联的相关文本部分可位于来自文本语料库的相同文档或相同文本正文中。因此,ET识别设备104可进一步配置成通过将所述多个实体结果中的每个实体的预测聚合在一起形成所述多个实体结果中的实体的实体类型的总体预测来聚合文档/文本正文的所述多个实体结果的所预测或所提取实体类型。表示所述多个实体结果的实体类型可输出到实体识别结果模块108,此模块可将实体类型识别结果发送到NER系统112以更新对应的所识别实体和/或一组实体结果。
图1d是示出根据本发明的执行文本语料库内的ET识别的示例过程130的流程图。过程130可包含以下步骤:在步骤132中,接收一个或多个实体结果,每个实体结果包含表示所识别实体和所识别实体在文本语料库内的位置的数据。在步骤134中,通过将文本语料库中与所述每个实体的位置相关联的文本输入到经过训练的ET模型来识别接收到的实体结果中的每个实体的实体类型,所述经过训练的ET模型配置成从非结构化文本语料库预测或提取所述每个实体的实体类型。例如,输入与所述每个实体的位置相关联的文本可包含输入文本语料库中在所述每个实体的位置之前和之后的文本。输入文本可能不包含表示实体的文本或字符串。在步骤136中,ET模型可输出包含表示接收到的实体结果中的每个实体的所识别实体类型的数据的实体类型识别结果。这可包含将具有接收到的实体结果中的每一个实体的所识别实体类型的实体类型识别结果发送到NER系统或可以使用实体和所识别实体类型的其它系统。
图1e是示出根据本发明的用于实体类型消歧的ET识别的另一示例过程140的流程图。过程140可包含至少以下步骤:在步骤142中,从NER系统或其它系统接收一个或多个实体结果,其中每个实体结果包含表示所识别实体、所识别实体类型和/或所识别实体在文本语料库内的位置的数据。在步骤144中,基于文本语料库识别和消岐与实体结果有关的实体类型。这可包含如果与相关文本部分相关联的多个实体结果表示相同实体,其中所述多个实体结果中的至少一个与所述多个实体结果中的另一个具有不同实体类型,识别所述多个实体结果之间的不明确实体类型。识别实体类型可进一步包含针对所述多个实体结果中的每一个将文本语料库中与所述每个实体的位置相关联的文本输入到经过训练的ET模型,所述ET模型配置成从文本语料库预测或提取所述每个实体的实体类型。输入与所述每个实体的位置相关联的文本进一步包含输入文本语料库中在所述每个实体的位置之前和之后的文本。聚合与相关文本部分相关联的所述多个实体结果的所预测或所提取实体类型,以输出表示所述多个实体结果的实体类型。在步骤146中,ET模型可输出包含表示接收到的实体结果中的每个实体的所识别实体类型的数据的实体类型识别结果。这可包含将具有接收到的实体结果中的每一个实体的所识别实体类型的实体类型识别结果发送到NER系统或可以使用实体和所识别实体类型的其它系统。
图1f是示出用于在图1e的过程140中所概述的ET识别期间的实体类型聚合的示例过程150的流程图。当文本部分中存在相同的多个实体时,可执行过程150,因为其中一些实体具有不同实体类型,因此所述多个实体的实体类型可存在歧义。过程150可包含以下步骤:在步骤152中,确定和/或识别文本部分或正文中具有不明确实体类型的实体的实例。例如,关于与文本正文或相关文本部分相关联的相同所识别实体的多个实体结果可具有不同实体类型。这可以是所识别实体针对所述文本正文具有不明确实体类型的指示。如果所述多个实体结果表示相同实体,其中所述多个实体结果中的至少一个与所述多个实体结果中的另一个具有不同实体类型,那么这多个实体结果可为不明确的,需要消歧。如图1a到1e中的任一个中所描述,可通过针对所述多个实体结果中的每一个将文本语料库中与所述每个实体的位置相关联的文本输入到经过训练的ET模型来识别所述多个实体结果中的每一个的实体类型,所述经过训练的ET模型训练和配置成从文本语料库预测或提取所述每个实体的实体类型。在步骤154中,可以聚合所识别实体类型以确定所述多个实体结果的总体实体类型。例如,聚合与相关文本部分相关联的所述多个实体结果的所预测或所提取实体类型,以输出表示所述多个实体结果的实体类型。在步骤156中,当相关文本部分或文本正文位于来自文本语料库的相同文档中时,聚合所述文档的所述多个实体结果的所预测或所提取实体类型可进一步包含通过聚合所述多个实体结果中的每个实体的预测以形成所述多个实体结果中的实体的实体类型的总体预测来预测所述多个实体结果中的实体实例的实体类型。
图2a是示出示例命名实体识别(NER)系统200的示意图,其中基于词典的NER系统202使用实体词典从文本语料库102生成实体结果204a或204b。实体词典在输入到基于词典的NER系统202中时用于识别文本/文档语料库102内的实体和它们对应的实体类型,其中基于实体词典,可以向文本语料库102应用文本匹配技术。文本匹配技术可以是用于识别潜在实体和实体类型的传统文本匹配技术,其中生成第一组实体结果204a或204b(例如,实体、对应实体类型和文本语料库的文本内的实体位置的指示的列表)。
文本语料库102的处理可使用文本匹配技术来实现,以从每个实体词典识别可与来自文本/文档语料库102的文本部分或文本文档等等中的短语、字符部分和/或字符串匹配的任何实体。实体词典内匹配实体的那些字符串作为所识别实体存储在一组实体结果中。所述一组实体结果内的每个所识别实体可包含表示以下的数据:所识别实体、所识别实体的实体类型、所识别实体出现在文本或文本文档内的位置的指示,和/或任选的来自文本/文档语料库102的实体出现在其中的文档/文本的文档识别符。
所述一组实体结果可包含具有相同类型但出现在文本部分或文档内的不同位置和/或出现在文本/文档语料库102的不同文本部分和/或文档中的多个实体。所述一组实体结果可以由任何合适的数据结构表示,例如仅作为实例但不限于表示实体列表和/或实体表格的数据,其中每一行表示所识别实体,每一列表示与所识别实体相关联的信息,包含仅作为实例但不限于表示所识别实体的字符串或文本部分、表示所识别实体的实体类型的标记或数据,和/或所识别实体在文本语料库102内的位置的指示。列表或表格可以表示为在数据库或库中表示每个所识别实体等的数据结构或多个记录。
NER系统202可包含多个实体词典,其中每一个实体词典表示特定实体类型的实体(例如,药物实体词典、化学实体词典、基因实体词典、疾病/病状实体词典等),并且填充有与所述实体类型相关联的已知或手动整理的实体。来自生物信息学和/或化学信息学领域的所关注实体类型可包含仅作为实例但不限于药物、蛋白质、基因、化学、组织细胞、细胞系、治疗、疾病/病状或与生物信息学和/或化学信息学相关联的任何其它实体类型。为简单起见,本文提供的实例基于生物信息学和/或化学信息学领域。尽管描述的是来自生物信息学和/或化学信息学领域的所关注实体类型,但这仅仅是为简单起见且仅作为举例,技术人员应了解,本发明不是仅限于来自生物信息学和/或化学信息学领域和/或其应用的实体类型,事实上本发明可应用于来自任何其它领域和任何其它合适的应用的任何实体类型,也可根据应用需要而应用。
每一个实体词典通常用特定实体类型的实体手动标注。很明显,由于正在进行的研究会在与每个实体类型相关联的每个领域中生成非结构化文本,例如文章、报告、文档、测试结果等,所以实体词典可能就会很快过时。因此,文本语料库102可以用生成的最新研究持续更新或定期更新。这还意味着基于词典的NER系统202的实体词典必须定期更新,确保它有机会正确地从文本语料库102识别实体和/或实体类型。但是,此类系统严重依赖最新的实体词典,而鉴于人类在各个科学领域(例如,生物信息学和/或化学信息学)的知识体系中添加了大量的新文档/文本等,这通常是不可能实现的。因此,此类基于词典的NER系统无法避免实体结果的不准确性。
基于词典的NER系统202处理文本/文档语料库102以生成第一组实体结果列表206。所述一组实体结果可进行核对并提供为表示所识别实体、所识别实体类型和/或所识别实体/实体类型在文本/文档语料库的文本/文档内出现的位置的列表或表格的数据。例如,每段文本或文档可被认为是字符串或字符数组,其中实体的位置可基于识别为表示所述实体的所述文本部分的第一个和最后一个字符索引。
例如,来自文本语料库102的文档或文本文档可包含仅作为实例但不限于5000个字符,包含空格,其中每个连续字符用1到5000的连续索引编索引。文档可为生物信息学/化学信息学的领域,并且具有来自文本语料库102的文本文档的以字符索引100开始的文本的短语或句子,可为“扑热息痛用于治疗头痛”。此句具有两个实体,分别为药物实体类型的“扑热息痛”和疾病/病状实体类型的“头痛”。因此,基于词典的NER系统202可使用包含例如“扑热息痛”的药物实体类型的已知实体列表的药物实体词典106a以及文本匹配技术204来识别此文本语句包含药物实体类型的实体“扑热息痛”。实体“扑热息痛”在文本文档中具有由开始字符索引100到结束字符索引110定义的位置。基于词典的NER系统202还可使用疾病/病状实体词典106d以及文本匹配技术204来识别此文本语句还包含疾病/病状实体类型的实体“头痛”,其具有由此文本文档的开始字符索引131和结束字符索引138定义的位置。这贯穿所述文本文档以及文本语料库102中的文本文档执行,以基于NER系统202的实体词典识别实体、实体类型和/或实体在文本语料库内的位置。
如先前所描述,所述一组实体结果204a或204b可包含表示以下的数据:所识别实体和对应的所识别实体类型、所识别实体在文本内的位置,和/或任选的用于识别所识别实体出现在文本/文档语料库中的哪一文本部分、文档的文本文档识别符或链接等等。例如,一组实体结果204a中的每个实体结果可基于具有基于{<实体>;<位置>}的格式的数据结构,其中<实体>包括表示所识别实体的数据,<位置>包括表示实体在文本语料库102内的位置的指示的数据。在另一实例中,所述一组实体结果中的每个实体结果可基于具有基于{<实体>;<实体类型>;<位置>}的格式的数据结构,其中<实体>包括表示所识别实体的数据;<实体类型>包括表示所识别实体的实体类型的数据(例如,实体类型标记);且<位置>包括表示实体在文本语料库102内的位置的指示。表示实体在文本语料库102内的位置的指示的<loc>数据可以用适用于识别文本语料库102内与所识别实体相关联的文本部分的任何方式表示。例如,一组实体结果中的实体结果可基于具有基于{<实体>,<实体类型>,<位置>}的格式的数据结构,其中<位置>包含表示{<位置-起始字符索引>:<位置-结束字符索引>,<文本文档ID>}的数据。举例来说,上述“扑热息痛/头痛”语句可以用以下实体结果列表204b中包含表示以下的数据的行和列表示:
<实体> <实体类型> <起始字符索引>:<结束字符索引> <文档ID>
扑热息痛 药品 100:110 102i
头痛 疾病/病状 131:138 102i
... ... ... ...
图2b是示出另一示例NER系统210的示意图,其中NER-ML系统212使用一个或多个机器学习技术创建一个或多个NER模型来从文本语料库102或非结构化文本的语料库等等生成实体结果214a或214b。为了应用一个或多个ML技术来创建经过训练的NER模型,通常需要大量的训练数据,此模型足够稳健,能够从文本语料库102识别和提取实体、实体类型和/或关系。ML技术可通过使用与实体和/或实体类型等等相关联的带标记训练数据集来训练,带标记训练数据集可以手动、半自动或自动生成。带标记训练数据集可包含多个训练数据实例或一组带标记训练数据实例。每个带标记训练数据实例可包含表示包含一个或多个已知实体的文本部分和所述一个或多个已知实体中的每一个在文本部分内的位置的指示的数据。所述每个带标记训练数据实例的所述一个或多个实体中的每一个还可用指示那些一个或多个已知实体中的每一个的实体类型的已知实体类型标记标注。
例如,每个训练数据实例可包含表示含有已知实体的特定文本部分(例如,含有所关注的已知实体的语句)和所述已知实体在所述特定文本部分内的位置的指示的数据。训练数据实例可另外用基于所述特定文本部分中所含的已知实体的类型的实体类型标记标注。ML技术使用带标记训练数据集生成基于带标记训练数据集的NER ML模型,其中经过训练的NER ML模型配置成从文本语料库102预测、识别和/或提取与带标记训练数据集相关联的一个或多个实体和/或实体类型。应了解,NER模型可配置成生成一组实体结果214a和/或214b等等,如仅作为实例但不限于参考图2a所描述。应注意,任何NER模型的准确性和稳健性取决于用于生成NER模型的一个或多个ML技术的设计/类型,但是更重要地,取决于带标记训练数据集的大小、多样性、准确性。
例如,使用ML技术和NERML模型的NER系统能够将文档内的实体上下文考虑在内,但是这受到带标记训练数据集和其中的实体使用的实例的范围限制,其中每个已知实体的名称和上下文的特定文本实例可针对带标记训练数据集中所定义的特定上下文提供实体和/或实体类型的预测、识别和/或分类。但是,此类特定性往往会导致学习实体和实体类型的过度拟合以及有偏向的基于ML的NER模型。也就是说,基于ML的NER系统学习的是对给定实体名称来说最常见的最普遍实体类型,并且通常会将其预测偏向此实体类型。
由于仅作为实例但不限于在科学和/或研究界连续或周期性生成的可被馈送到文本语料库中的人类知识和发现、文本、文档、研究等数量不断增加,参考图2a和2b所描述的基于词典的NER系统202和基于ML的NER系统204在实施或训练时几乎立即面临过时的风险;这导致实体结果不明确和/或不准确,其中所识别实体具有每个系统202或204不能正确或充分解决的不正确或不明确的实体类型。这需要手动整理、检查和验证所有实体结果,这在时间和资源方面极其昂贵。参考图1a-1e和本文中所描述的根据本发明的ET识别系统配置成通过将所识别实体或实体出现在文本语料库内的上下文考虑在内同时最小化已知实体和实体类型的所有偏向来处理一组实体结果并识别实体类型。
图3a是示出根据本发明的用于训练机器学习(ML)技术以生成与NER系统一起使用的经过训练的ET模型的示例训练ET识别系统300的示意图。训练ET识别系统300包含训练数据集模块302、ML技术模块304和更新模块306。训练数据集模块302配置成向ML技术模块304提供与已知实体相关联的带标记训练数据集,上述已知实体用每个已知实体的实体类型标记标注。例如,带标记训练数据集可针对多个实体中的每一个包含多个带标记训练数据实例,其中带标记训练数据实例包含表示含有已知实体的文本部分、已知实体在文本部分中的位置和实体类型标记的数据。作为另一实例,带标记训练数据集X可包含多个带标记训练数据实例{x1,...xi,...,xT},1≤i≤T,其中T为带标记训练数据集X中的带标记训练数据实例的数目。每个带标记训练数据实例xi可包含表示含有已知实体的文本部分、已知实体在文本部分内的位置和来自一组二进制或非二进制标记
Figure BDA0003265645770000231
的实体类型标记变量
Figure BDA0003265645770000232
的数据,每一二进制或非二进制标记表示一种实体类型,其中L≥1是要建模的实体类型的数目。
ML技术模块304配置成使用带标记训练数据集训练一个或多个ML技术以生成一个或多个ET模型来预测、识别和/或分类由参考图1a-2b所描述的NER系统生成的一组实体结果中的所识别实体的实体类型。ET模型可配置成输出表示每一个所识别实体的实体类型的指示的实体类型识别结果数据。更新模块306配置成接收与带标记训练数据集相关联的实体类型识别结果/标记,并基于带标记训练数据集确定ET模型是已经训练充分还是需要进一步训练迭代。如果需要进一步训练,那么ML技术模块304配置成基于与对应ML技术相关联的损失函数等等更新ET模型的模型参数,并基于来自训练数据集模块302的带标记训练数据集继续训练ET模型。如果不需要进一步的训练,那么当给定来自含有所识别实体的文本语料库等等的文本部分时,可以认为ET模型在预测、识别和/或分类所识别实体的实体类型方面经过训练。如果ET模型就已知实体周围的文本部分进行训练,那么可以缓解过度拟合。在一些实例中,这涉及将已知实体从已知实体周围的文本部分排除在外以避免或减少/最小化与每个已知实体有关的ET模型的过度拟合和/或偏向。
图3b是示出根据本发明的当训练用于ET识别系统时的图3a的示例ET-ML系统310的示意图。语料库模块312可存储和/或保持文本/文档或非结构化文本的语料库,其可由用于从文本语料库预测、识别和/或分类实体和实体类型的NER系统处理。文本语料库可根据应用需要连续地、不定期地或定期地更新。语料库模块312可将文本语料库甚至用于处理的文本语料库的子集输入到NER系统(例如,图2a或2b的NER系统200或210),NER系统可输出一组实体结果,如本文中所描述,其中每个实体结果包含至少表示以下的数据:所识别实体和所识别实体在文本语料库内的位置或来自文本语料库的包含所识别实体的文本部分(例如,包含所识别实体的文本部分以及在表示所识别实体的字符串或文本之前的第一文本部分和在所识别实体之后的第二文本部分)。实体结果还可包含实体类型等等。NER系统200或210可将所述一组实体结果中的一个或多个实体结果提供到包含一个或多个经过训练的ET模型的ET识别系统316。这些ET模型可各自输出表示接收到的实体结果中的每个所识别实体的一组实体类型识别结果和/或标记的数据,其可由实体结果模块318从每一个ET模型核对。因此,实体结果模块318可输出一组实体类型识别结果供NER系统200或210使用。这一组实体类型识别结果可用于参考图1a-2b所描述或本文中所描述的NER系统,以更新实体类型的它们的一组实体结果,它们还可用于更新NER系统200或210的实体词典和/或NER模型等等。实体类型识别结果可用于更新参考图3a所描述的用于训练ET模型的带标记训练数据集,和/或参考图2b所描述的用于训练NER ML模型的带标记训练数据集,等等。
此外,作为识别实体结果中的每一个实体的实体类型的补充或替代,ET识别系统216和/或其中使用的ET模型可配置成确定来自文本语料库的相同文本文档或文本章节内的所识别实体的多个实例是否具有不明确的实体类型。ET识别系统310可包含聚合模块319,其用于通过例如使用ET模型识别所识别实体的所述多个实例中的每一个的实体类型并聚合、合并或组合所识别实体的所述多个实例的所识别实体类型以形成覆盖所述多个实例的一个实体类型来识别此类不明确的实体类型。例如,ET模型可针对所识别实体的每一实例输出一组实体类型中的所有实体类型的概率实体类型向量,其中概率实体类型向量的每一元素表示一种特定实体类型。所识别实体的所述多个实例的概率实体类型向量可平均或组合成加权线性组合以形成表示所述多个实例的实体类型的单个概率实体类型向量。也就是说,对应于具有最大概率的概率实体类型向量元素的实体类型可用于形成所识别实体的所述多个实例中的每一个的实体类型。
图3c是示出根据本发明的与如仅作为实例但不限于参考图1a-3b和本文中所描述的ET识别系统一起使用的ET-ML模型320(或ET模型)的示意图。ET-ML模型320可用于基于所识别实体和来自文本语料库的在所识别实体周围的文本识别实体类型。这还可用于将从NER系统200或210输出的一组实体结果中的所识别实体的一个或多个实体类型消歧。ET-ML模型320示出为接收表示来自文本语料库的与所识别实体相关联的输入文本部分322的数据。文本部分322包含所识别实体的文本或字符串和周围文本的字符,其可为[左输入文本][实体名称][右输入文本]的形式。也就是说,输入文本部分322包含表示在所识别实体之前的第一输入文本部分的数据(例如,[左输入文本])、表示所识别实体的数据(例如,[实体名称])和表示在所识别实体之后的第二输入文本部分的数据(例如,[右输入文本])。在所识别实体周围的文本部分由配置成输出所识别实体的实体类型的预测的ET-ML模型320处理。
具体地说,ET-ML模型320接收输入文本部分322,其可以是输入文本串322,包括:第一文本部分,其可以是左输入文本串(例如,[左输入文本]);文本部分322中的所识别实体名称或所识别实体名称的字符串(例如,[实体名称]);和第二文本部分,其可以是右输入文本串(例如,[右输入文本])。文本串322被文本分割器324分割成单独的左文本组件326a和右文本组件326b,其中实体名称本身被舍弃。左文本组件326a和右文本组件326b可分别编码为或嵌入表示左文本组件326a和右文本组件326b的数据以用于第一ML模块328a和第二ML模块328b。
第一ML模块328a对表示左输入文本326a的数据进行操作,以基于左输入文本段326a产生第一实体类型向量嵌入表示330a。第一实体类型向量嵌入表示330a可以是N维向量空间的N维向量,其中N>1。第二ML模块328b对表示右输入文本326b的数据进行操作,以基于右输入文本段326b产生第二实体类型向量嵌入表示330b。第二实体类型向量嵌入表示330b也可以是N维向量空间的N维向量,其中N>1。实体类型向量组合器332组合第一实体类型向量嵌入表示330a和第二实体类型向量嵌入表示330b以形成所识别实体(例如,[实体名称])的实体类型的总体实体类型预测向量334。实体类型预测向量334可以是L维向量空间的L维向量,表示一组二进制或非二进制实体类型标记
Figure BDA0003265645770000261
的概率,其中L≥1是要通过ET识别模型320建模的实体类型的数目。实体类型预测向量334的第l个元素可表示所识别实体具有实体类型标记
Figure BDA0003265645770000264
的概率或可能性。
第一ML模块328a包含ET ML模型320(或第一ET ML模型)的由第一ML技术使用带标记训练数据集配置和训练的第一部分。第二ML模块328b包含ET ML模型320的同样由第二ML技术使用带标记训练数据集配置和训练的第二部分。第一和第二ML技术可以是相同或不同的ML技术。第一和第二ML技术可进行联合训练以生成ET ML模型320的第一和第二部分。带标记训练数据集X可包含多个带标记训练数据实例{x1,...xi,...,xT},1≤i≤T,其中T为带标记训练数据集X中的带标记训练数据实例的数目。每个带标记训练数据实例xi可包含表示以下的数据:含有已知实体的文本部分(例如,[左输入文本][实体名称][右输入文本])、已知实体在文本部分内的位置(例如,[实体名称]),其中带标记训练数据实例用来自一组二进制或非二进制实体类型标记
Figure BDA0003265645770000262
的实体类型标记
Figure BDA0003265645770000265
标记,所述一组实体类型标记中的每个标记表示一种实体类型,其中L≥1是要通过ET模型320建模的实体类型的数目。
第一ML模块328a和第二ML模块3428b可基于重复带标记训练数据集进行联合训练。第一ML模块328a输出第一实体类型向量嵌入表示330a,其可以是N维向量空间的N维向量,其中N>1。第二ML模块328b输出第二实体类型向量嵌入表示330b,其可以是N维向量空间的N维向量,其中N>1。组合第一实体类型向量330a和第二实体类型向量330b以形成实体类型预测向量334。实体类型预测向量334可以是L维向量空间的L维向量,表示一组二进制或非二进制实体类型标记
Figure BDA0003265645770000263
的概率,其中L≥1是要通过ET识别模型320建模的实体类型的数目。ET ML模型320的第一部分和ET ML模型320的第二部分的模型参数基于预测实体类型向量334的所估计输出与带标记训练数据实例的对应实体类型标记之间针对每个带标记训练数据实例的比较或所生成的错误向量来更新。例如,对应ML技术的损失函数可用于在带标记训练数据集每次迭代时更新ET ML模型320的第一和第二部分的模型参数,直到ET ML模型320的第一和第二部分训练妥当为止(例如,当错误预测的实体类型的数目低于预测错误阈值时)。
用于组合嵌入向量330a和330b以产生L维预测实体类型向量334的实体类型向量组合器332可包含以下步骤:串接分别基于左输入文本326a和右输入文本326b从第一ML模块328a和第二ML模块328输出的第一向量实体类型嵌入330a和第二向量实体类型嵌入330b;以及将所得向量的维数减少到一组预定义实体类型(例如,药物实体类型、基因实体类型、化学实体类型、蛋白质实体类型、其它实体类型)中的潜在实体类型(或类别)的数目。输出预测实体类型向量334可由表示实体是L个不同实体类型中的一个的可能性的概率向量组成,其中每个向量元素对应于所述一组实体类型(例如,一组实体类型标记
Figure BDA0003265645770000271
Figure BDA0003265645770000272
中的不同实体类型。
ET模型320可基于神经网络,其中第一ET模块328a和第二ET模块328b可基于联合ML神经网络技术。第一ML模块328a的ET模型320的第一部分可被视为第一ML模型。第二ML模块328b的ET模型320的第二部分可被视为第二ML模型。第一ML模块328a的第一ML模型(或ET模型320的第一部分)可包含配置成表示在所识别实体的位置之前的第一文本部分326a(例如,左输入文本)的神经网络的前向隐藏状态。第二ML模块328b的第二ML模型(或ET ML模型320的第二部分)可包含配置成表示在所识别实体的位置之后的第二文本部分326b(例如,(右输入文本])的神经网络的后向隐藏状态。前向和后向隐藏状态可连接在一起以生成表示第一文本部分326a和第二文本部分326b的实体类型。例如,对左输入文本326a和右输入文本326b进行操作的第一ML模块328a和第二ML模块328b可由联合ML技术组成,例如双向长期短期记忆(LSTM)ML系统。此系统可基于数个具有已知实体类型的预标记的明确已知实体周围的文本训练,以便学习与每一个实体类型共同出现的左右输入文本的实体类型,其中双向LSTM ML系统可接着根据这些实体类型将所识别实体分类。
带标记训练数据集X可包含多个带标记训练数据实例{x1,...xi,...,xT},1≤i≤T,其中T为带标记训练数据集X中的带标记训练数据实例的数目。每个带标记训练数据实例xi可包含表示含有所述实体且用以下中的至少一个标记的文本部分的数据:1)所述实体在文本部分内的位置的指示;以及2)来自一组二进制或非二进制标记
Figure BDA0003265645770000273
的实体类型标记变量
Figure BDA0003265645770000274
每一二进制或非二进制标记表示一种实体类型,其中L≥1是要建模的实体类型的数目。
图3d是示出根据本发明的用于训练图3c的ET模型320的训练过程340的流程图。如关于图3c所描述,带标记训练数据集X 342可用于训练ET ML模型320以预测所识别实体的实体类型。可通过向ET ML模型320提供包括多个文本部分342a-342n的带标记训练数据集X342来训练ET ML模型320,文本部分342a-342b中的每一个在多个实体中的已知实体周围,其中每一个已知实体具有对应的已知实体类型344a-344n。在已知实体周围的所述一组文本部分342a-342n从带标记训练数据集X 342输入到ET ML模型320,此模型配置成预测文本部分342a-342n中的每一个的一组实体类型334a-334n。所预测实体类型334a-334n与已知实体类型344a-344n比较346,其中比较被反馈348给ET ML模型320以根据用于生成ET ML模型320的ML技术更新模型参数。
具体地说,带标记训练数据集X 342可基于所提供的已知的预先验证的实体类型344a-344n的列表以及原始文档中在实体名称或已知实体周围的文本342a-342n。这可由编程成仅返回明确实体名称和实体类型的NER系统预先生成。替代地或另外,带标记训练数据集X342初始可手动整理。每一文本部分344a-344n被供应到ET ML模型320,其中针对输入的已知实体周围的每个文本部分344a-344n输出所预测实体类型334a-334n。ET ML模型320仅考虑在已知实体周围的文本部分344a-344n,不包含表示已知实体的文本或字符串。接着,在已知(经过验证的)实体类型344a-344n和所预测实体类型334a-334n之间进行比较。这些比较的结果被反馈348到ET ML模型320,然后可以用于训练预测系统。例如,如果ET ML模型320基于神经网络,那么比较的输出可以是用于通过神经网络进行反向传播的损失函数。
图3e是示出根据本发明的使用基于参考图1a-3d描述的任一个ET模型的ET模型354的ET ML系统350的示例输入和输出的示意图。ET ML系统350包含ET ML模型354,所述ETML模型如参考图1a-3d所描述从文本语料库获取文本部分352作为输入,处理文本部分352以输出实体类型预测向量356。在此实例中,所识别实体呈粗体的输入文本部分352包含文本:“Western blot analysis,Uhlik et.al.(2003)found that CCM2,which they calledOSM,was expressed in the majority”,其中字符串“CCM2”是所识别实体。输出预测实体类型向量356可以写成行向量PE=(p1,p2,p3,p4),其中值p1、p2、p3和p4分别表示所识别实体“CCM2”是四个实体类型“化学”、“基因”、“疾病”和“其它”中的一个的可能性。在此情况下,p1是所识别实体是“化学”实体类型的概率或可能性;p2是所识别实体是“基因”实体类型的概率或可能性;p3是所识别实体是“疾病”实体类型的概率或可能性;且p4是所识别实体是“其它”实体类型的概率或可能性。
在此实例中,ET ML模型354的输入文本352包括在命名或所识别实体“CCM2”两侧的若干字符,它们可以是NER系统提供的更大文本正文中的摘录。将文本352输入到ET ML模型356中,并进行实体类型的预测以产生预测实体类型向量356。例如,预测实体类型向量356是对应于不同实体类型“化学”、“基因”、“疾病”或“其它”的概率的向量。依据ET ML模型356从带标记训练数据集342学习到的类别或实体类型,概率可对应于实体类型“化学”、“基因”、“疾病”或“其它”。在此实例中,这些实体类型的给定概率分别是0.1、0.6、0.3和0.0,这意味着所识别实体“CCM2”的所预测实体类型是实体类型“基因”,因为它具有0.6的最高概率或可能性。基本上,预测实体类型向量356中利用最高值的向量元素指示实体类型。
图4是示出根据本发明的基于关于图3a-3e描述的ET-ML模型的另一示例ET识别系统400的示意图。ET识别系统400包含来自文本语料库的输入到NER系统404的文档402,所述NER系统包含NER预测模块404a和实体结果404b。NER预测模块404a基于输入文本文档402输出实体结果404b。实体结果404b包含表示来自文本语料库的文档402的含有所识别实体(例如,[实体])的文本部分的数据。实体结果404b可包含表示所识别实体、所识别实体的字符串的位置及选自文档402的在所识别实体周围的文本部分404b的指示的数据。在此实例中,实体结果包含来自文本语料库的文档402的在所识别实体(例如,[实体])周围的文本部分404b。实体结果404b可被输入到ET ML模型406,在此情况下,ET ML模型406可基于仅作为实例但不限于图3c和/或3d的ET ML模型320。尽管ET ML模型406是基于图3c和/或3d的ET ML模型320,但是技术人员应了解,ET ML模型406可基于仅作为实例但不限于参考图1a到3e和/或5所描述的一个或多个ET模型、其修改、其组合等等。ET ML模型406包含文本分割器406a,其提取邻近所识别实体的左文本部分406b(或在所识别实体之前的第一文本部分)和邻近所识别实体的右文本部分406c(或在所识别实体之后的第二文本部分),其中文本部分406b和406c均不包含所识别实体。左、右文本部分被输入到可包含一个或多个ET ML模型(未示出)的预测模块406d,所述ET ML模型基于仅作为实例但不限于参考图1a到3e和/或5所描述的一个或多个ET模型、其修改、其组合等等。预测模块406d输出对应的实体类型向量嵌入,这些嵌入组合输出表示实体类型的可能性或概率的预测实体类型向量406e。这反馈给NER系统404以更新实体结果404b的实体类型。NER系统404输出所识别实体和对应实体类型的列表408,它可能已经使用来自ET ML模型406的所识别实体类型更新过。
在另一实例中,输入文本404b由NER系统404对文本文档402进行操作以从中识别和提取实体名称和实体类型来提供。在实体类型不明确的情况下,NER系统404可向ET ML模型406提供所识别实体和周围文本404b,以便执行消歧或识别文本404b中的所识别实体的最可能实体类型。也就是说,当NER系统404处理文本文档402时,如果它碰到具有不明确实体类型的实体或仅需要识别所识别实体的实体类型,那么NER系统404可提取在所识别实体周围的文本404b以输入到ET ML模型406。ET ML模型406从输入文本404b提取所识别实体名称的左侧文本406b和右侧文本406c(例如,左侧文本或右侧文本的大小可以是预定义数目的:字符;字、句子和/或段落等等),其中所识别实体名称被舍弃。这些文本部分404b和404c被馈送到预测模块406d中,此模块包含训练和配置成基于在所识别实体周围但不包含所识别实体的文本部分预测所识别实体的实体类型的一个或多个ET ML模型。接着,以类似于作为实例但不限于图1a-3e所描述的方式在预测模块406d中进行所识别实体的实体类型的预测。这产生实体类型的最终预测406e,所述最终预测接着经由路径407反馈到NER系统404中以并入到NER系统404的最终输出408中。然后,NER系统404递送输入文本正文402内所含的实体名称和对应实体类型的输出。
任选地,如果贯穿单个文档402多次遇到相同的不明确实体,那么ET ML模型可配置成将文本402中的所识别实体的每一实例的预测406e聚合在一起以形成所述所识别实体的实体类型的总体预测。假设在单个文档402内,单个所识别实体名称应始终指代相同实体类型。这可通过串接各个预测实体类型向量并使用归一化函数(例如,softmax)输出单个所识别实体的最终文档级预测实体类型向量来实现。
图5是示出根据本发明的作为ET识别系统的示例ET-ML模型的示例双向LSTM神经网络500的示意图。双向LSTM神经网络500可用于ET-ML模型320,其中示出为对图3c中的左输入文本部分326a和右输入文本部分326b进行操作的ML模块328a和328b可由双向LSTM神经网络500组成。参考图5,双向LSTM神经网络500对分割成字的输入文本串进行操作。在此实例中,向双向LSTM神经网络500供应划分成单独字的左或右输入文本串502。在此实例中,输入图3e的文本部分352,其中仅示出字“OSM”502a、“was”502b和“expressed”502c,但是假设文本部分352中的所有字都作为左或右输入文本串502输入,但不包含实体名称“CCM2”。文本串502中的每个字被传递到并行运行的两个LSTM系统504和506。第一LSTM系统504(例如,ET-ML模型的第一部分或第一ET-ML模型)在输入文本串502的前向方向上操作,第二LSTM系统506(例如,ET-ML模型的第二部分或第二ET-ML模型)在输入文本串502的反向方向上操作。
第一LSTM系统504包含至少一个隐藏层,所述隐藏层包含多个LSTM单元504a-504b,这些LSTM单元连接到每个输入字502a-502c和邻近的先前LSTM单元504a-504m的输出。第二LSTM系统506包含至少一个隐藏层,所述隐藏层包含多个LSTM单元506a-506o,这些LSTM单元连接到每个输入字502a-502c和邻近的后续LSTM单元506a-506o的输出。因为LSTM系统具有先前输入值的‘记忆’,所以第一LSTM系统504(或前向LSTM系统)基于所述字和文本串502中的所有先前字提供文本串502中的最终字的输出,而第二LSTM系统506(或反向LSTM系统)基于文本串502中的第一个字和文本串502中的每个后续字提供输出。通过这种方式,正如人们从单个前向LSTM中所期望的那样,消除了对串中的最后一个字的偏向。前向LSTM 504和反向LSTM 506分别从文本串502中的最终LSTM单元504m和506o的最后一个和第一个字输出预测向量。接着,这些预测聚合(例如,通过串接)在一起508以便产生如仅作为实例但不限于参考图3a-3e和4所描述的实体类型的预测实体类型向量嵌入。
双向LSTM神经网络500基于带标记训练数据集进行训练,如仅作为实例但不限于参考图1a到4关于训练ET ML模型所描述。例如,带标记训练数据集可包含多个带标记训练数据实例,其中每个带标记训练数据实例包含表示与已知实体相关联且用已知实体类型标记的文本部分的数据。双向LSTM神经网络500接收每个带标记训练数据实例作为输入文本串502,所述输入文本串包含在对应于已知实体的文本周围的文本部分的文本,但是输入文本串502不包含对应于已知实体的文本。因此,双向LSTM神经网络500避免了实体名称与实体类型过度拟合,并且学习如何基于实体在文本部分内出现的上下文识别实体类型。
双向LSTM神经网络500组合第一LSTM网络504和第二LSTM网络506(前向和后向LSTM网络)的输出以生成每个带标记训练数据实例的预测实体类型向量。双向LSTM神经网络500还执行带标记训练数据实例的已知(验证后的)实体类型和输出的所预测实体类型向量之间的比较。这些比较的结果被反馈给双向LSTM神经网络500,用于更新第一和第二LSTM网络和/或可在表示输入文本串502的数据输入到第一和第二LSTM网络之前使用的任何其它输入/输出嵌入/编码神经网络的模型参数。比较的输出可以是用于通过包括第一LSTM504和第二LSTM 506和/或任何其它输入/输出嵌入/编码神经网络的所述一个或多个神经网络进行反向传播的损失函数。
图6a是示出具有计算装置602的示例计算系统600的示意图,此系统可用于实施以下的一个或多个方面:用于处理文本语料库以生成包含表示所识别实体、所识别实体在文本语料库的文本部分中的位置和/或在所识别实体周围的文本部分的数据的一组实体结果的ET识别系统,和/或用于处理所述一组实体结果以根据本发明和/或基于参考图1a-5所描述的过程、方法、系统和/或设备识别、预测和/或提取每个实体结果的实体类型的ET ML模型。计算装置602包含一个或多个处理器单元604、存储器单元606和通信接口608,其中所述一个或多个处理器单元604连接到存储器单元606和通信接口608。通信接口608可经由通信网络610连接计算装置602与一个或多个数据库或用于实施如本文中所描述的本发明的其它处理系统或计算装置。存储器单元606可存储一个或多个程序指令、代码或组件,例如仅作为实例但不限于用于操作计算装置602的操作系统606a和用于存储额外数据和/或与以下相关联的其它程序指令、代码和/或组件的数据存储装置606b:实施所述功能性和/或一个或多个功能或与如本文中所描述和/或参考图1a到5中的至少一个所描述的设备、机构和/或系统/平台/架构的方法和/或过程中的一个或多个相关联的功能性。
本发明的另外方面可包含一个或多个设备和/或装置,所述设备和/或装置包含通信接口、存储器单元和处理器单元,处理器单元连接到通信接口和存储器单元,其中处理器单元、存储单元、通信接口配置成执行或实施如参考图1a到5本文中所描述的系统、设备、方法和/或过程或其组合。
图6b是示出根据本发明的用于对由NER系统622处理文本/文档语料库生成的一组实体结果执行ET识别以识别一个或多个实体的系统620的示意图。系统620包含一个或多个NER系统622、一个或多个ET ML模型624和实体类型结果/识别模块/装置626。NER系统622可包含仅作为实例但不限于一个或多个基于实体词典的NER系统、一个或多个基于ML的NER系统、其修改、其组合和/或如本文所描述的系统,这些系统可处理文本语料库以生成一组实体结果,识别一个或多个所关注实体、来自文本语料库的在所识别的所关注实体周围的文本部分和/或所关注实体在文本部分内的位置等等。ET ML模型624可包含仅作为实例但不限于使用ML技术基于带标记训练数据集训练的ET模型,所述带标记训练数据集针对每个已知实体包含在已知实体周围的文本部分和已知实体类型标记。ML技术处理不包含已知实体的每一文本部分,以生成、更新和/或调整ET ML模型624的模型参数。一旦训练,ET ML模型624就配置成基于在所识别实体周围但不包含所识别实体的文本部分预测和/或识别所识别实体的实体类型。所识别实体和/或在所识别实体周围的文本部分可以从NER系统622输出的一组实体结果中提供。实体类型结果/识别模块/装置626可包含仅作为实例但不限于用于从ET ML模型624输出的多组实体类型结果识别实体类型的分析/比较机构,其中所识别实体类型可以自动、半自动或手动方式验证。NER系统622、ET ML模型624、实体类型结果/识别模块/装置626可以根据与本发明、其修改相关联和/或如本文所描述和/或如参考图1a-6a所描述的方法、过程、注意设备和/或系统进行配置,以提供从文本语料库中的所识别实体预测/识别实体类型的高效性和提高的准确性,它们可用于生成合适的训练数据集来训练ET ML模型、NER ML模型和/或训练下游ML过程、模型、分类器等等。
在其它方面中,根据本发明的ET识别设备可包含一个或多个处理器、存储器和/或通信接口,所述一个或多个处理器连接到存储器和/或通信接口,其中所述一个或多个处理器配置成实施过程130、140、150和340中的一个或多个和/或设备/系统/模型100、110、120、200、210、300、310、320、350、400、500、600和610中的一个或多个和/或ET识别系统、ET ML模型或ET模型、基于词典的NER系统、基于ML的NER系统、分类器,和/或参考图1a到5b中的任一个或多个所描述的任何方法/过程、这些过程的步骤、其组合、其修改。此外,过程130、140、150和340中的一个或多个和/或设备/系统/模型100、110、120、200、210、300、310、320、350、400、500、600和610中的一个或多个和/或ET识别系统、ET ML模型或ET模型、基于词典的NER系统、基于ML的NER系统、分类器和/或参考图1a到6b中的任一个或多个所描述的任何方法/过程、这些过程的步骤、其组合、其修改可实施于硬件和/或软件中。
在上文所描述的实施例中,服务器可以包含单个服务器或服务器网络。在一些实例中,服务器的功能性可以由跨地理区域分布的服务器网络(如服务器全球分布式网络)来提供,并且用户可以基于用户位置连接到服务器网络中的合适的一个。
为清楚期间,上文描述参考单个用户讨论了本发明的实施例。应当理解,实际上,系统可以由多个用户共享并且可能同时由非常大量的用户共享。
上文所描述的实施例是全自动的。在一些实例中,系统的用户或操作者可以手动地指导方法的一些步骤执行。
在本发明的所描述的实施例中,系统可以被实施为任何形式的计算和/或电子装置。此种装置可以包含一个或多个处理器,所述一个或多个处理器可以是用于对计算机可执行指令进行处理以控制所述装置的操作以采集和记录路由信息的微处理器、控制器或任何其它适合的类型的处理器。在一些实例中,例如在使用片上系统架构的情况下,处理器可以包括在硬件(而不是软件或固件)中实施方法的一部分的一个或多个固定的功能块(也被称为加速器)。包含操作系统的平台软件或任何其它适合的平台软件可以提供在基于计算的装置处以使应用软件能够在所述装置上执行。
本文所描述的各种功能可以以硬件、软件或其任何组合实施。如果以软件实施,则可以将功能作为一或多个指令或代码存储在计算机可读介质上或者通过计算机可读介质进行传输。计算机可读介质可以包括例如计算可读存储介质。计算机可读存储介质可以包括在任何方法或技术中实施的用于存储如计算机可读指令、数据结构、程序模块、或其它数据等信息的易失性或非易失性介质、可移除或不可移除介质。计算机可读存储介质可以是可以被计算机访问的任何可用存储介质。通过举例而非限制,此种计算机可读存储介质可以包含RAM、ROM、EEPROM、闪速存储器或其它存储器装置、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置或可以用于承载或存储采用指令或数据结构形式的期望程序代码并且可以被计算机访问的任何其它介质。如本所使用的,盘和碟包括压缩光碟(CD)、激光碟、光碟、数字通用光碟(DVD)、软盘和蓝光盘(BD)。进一步地,传播的信号不包括在计算机可读存储介质的范围内。计算机可读介质还包括通信介质,所述通信介质包括促进将计算机程序从一处传送到另一处的任何介质。例如,连接可以是通信介质。例如,如果使用同轴电缆、光纤电缆、双绞线、DSL、或如红外、无线电和微波等无线技术从网站、服务器或其它远程源传输软件,则同轴电缆、光纤电缆、双绞线、DSL或如红外、无线电和微波等无线技术包含在通信介质的定义中。上述内容的组合也应包含在计算机可读介质的范围内
可替代地或另外地,本文所描述的功能性可以至少部分地由一个或多个硬件逻辑组件执行。例如而非限制,可以使用的硬件逻辑组件可以包含现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑器件(CPLD)等。
尽管被示为单个系统,但是应当理解,计算装置可以是分布式系统。因此,举例来说,几个装置可以通过网络连接进行通信并且可以共同执行被描述为由计算装置执行的任务。
尽管展示为本地装置,应当了解,计算装置可以定位在远端并且通过网络或其它通信链路(例如使用通信接口)被访问。
术语“计算机”在本文中用于指代具有处理能力使得其可以执行指令的任何装置。本领域技术人员将认识到,此类处理能力并入到许多不同的装置中,并且因此术语“计算机”包括PC、服务器、移动电话、个人数字助理和许多其它装置。
本领域技术人员将认识到,用于存储程序指令的存储装置可以跨网络分布。例如,远程计算机可以存储被描述为软件的处理实例。本地或终端计算机可以访问远程计算机并且下载一部分或全部软件以运行程序。可替代地,本地计算机可以按需下载一个软件或执行本地终端处的一些软件指令和远程计算机(或计算机网络)处的一些软件指令。本领域技术人员还将认识到,通过使用本领域技术人员已知的常规技术,全部或部分软件指令可以由专用电路(如DSP、可编程逻辑阵列等)执行。
应当理解,上文所描述的益处和优点可以涉及一个实施例或者可以涉及几个实施例。所述实施例不限于解决任何或全部所陈述的问题的那些实施例或具有任何或全部所陈述的益处和优点的那些实施例。变体应被认为包含在本发明的范围内。
对“一个”项的任何提及是指那些项中的一个或多个项。术语“包含”在本文中用于意指包括所标识的方法步骤或要素,但是所述此类步骤或要素不包含排他性列表并且方法或设备可以含有另外的步骤或要素。
如本文所使用的,术语“组件”和“系统”旨在涵盖配置有使某些功能性可以在由处理器执行时被执行的计算机可执行指令的计算机可读数据存储装置。计算机可执行指令可以包括例程、函数等。还应当理解,组件或系统可以本地化在单个装置上或跨几个装置分布。
进一步地,如本文所使用的,术语“示范性”旨在意指“充当某些的说明或实例”。
进一步地,对于在具体实施方式或权利要求书中使用了术语“包括”而言,此种术语旨在以与术语“包含”相似的方式是开放式的,这是由于“包含”在被使用时被解释成权利要求项中的过渡词。
附图展示了示范性方法。虽然方法被示出和描述为按特定序列执行的一系列动作,但是应当理解和了解,所述方法不受序列的顺序的限制。例如,一些动作可以与本文所描述的顺序不同的顺序发生。另外,一个动作可以与另一个动作同时发生。进一步地,在一些实例中,并不需要全部动作来实施本文中所描述的方法。
此外,本文中所描述的动作可以包含可以由一个或多个处理器实施的和/或存储在一个或多个计算机可读介质上的计算机可执行指令。计算机可执行指令可以包括例程、子例程、程序、执行线程和/或等等。仍进一步地,方法的动作的结果可以存储在计算可读介质中、在显示装置上显示和/或等等。
本文所描述的方法的步骤的顺序是示范性的,但是这些步骤可以在适当的情况下按任何适合的顺序或同时执行。另外地,在不脱离本文中所描述的主题的范围的情况下,可以添加或替换步骤或者可以从任何方法中删除单独的步骤。本文中所描述的任何实例的各方面可以与所描述的任何其它实例的各方面结合以在不损失效应的情况下形成另外的实例。
应当理解,优选实施例的以上描述仅作为示例给出并且本领域技术人员可以做出各种修改。上文已描述的内容包括一个或多个实施例的实例。当然,不可能出于描述上文提及的方面的目的而描述出对上述装置或方法的每一种可以想到的修改和改变,但是本领域普通技术人员可以认识到,各方面的许多另外的修改和排列是可能的。因此,所描述的各方面旨在涵盖落入所附权利要求书的范围内的所有此种改变、修改以及变化。

Claims (27)

1.一种用于文本语料库内的实体的实体类型识别的计算机实施方法,所述方法包括:
接收一个或多个实体结果,每个实体结果包括表示所识别实体和所述所识别实体在所述文本语料库内的位置的数据;
通过将所述文本语料库中与所述每个实体的所述位置相关联的文本输入到经过训练的实体类型ET模型来识别接收到的实体结果中的每个实体的实体类型,所述经过训练的ET模型配置成从所述文本语料库预测或提取所述每个实体的实体类型;以及
输出表示所述接收到的实体结果中的每个实体的所述所识别实体类型的数据。
2.根据权利要求1所述的计算机实施方法,其中输入与所述每个实体的所述位置相关联的文本进一步包括输入所述文本语料库中在所述每个实体的所述位置之前和之后的文本。
3.根据权利要求1或2所述的计算机实施方法,其中接收所述一个或多个实体结果进一步包括接收由命名实体识别NER系统生成的所述一个或多个实体结果。
4.根据权利要求1到3中任一项所述的计算机实施方法,其中包括表示所识别实体和所述所识别实体在所述文本语料库内的位置的数据的每个实体结果包含以下群组中的一个或多个:
所识别实体和所述所识别实体在所述文本语料库内的所述位置的指示;
所识别实体和来自所述文本语料库的在所述所识别实体周围的文本部分;
所识别实体、在所述所识别实体的所述位置之前的第一文本部分和在所述所识别实体的所述位置之后的第二文本部分;
在所识别实体的所述位置周围的文本部分;以及
在所识别实体的所述位置之前的第一文本部分和在所识别实体的所述位置之后的第二文本部分。
5.根据权利要求1到4中任一项所述的计算机实施方法,其进一步包括:
从NER系统接收一个或多个实体结果,其中每个实体结果包含表示所述文本语料库内在所识别实体的所述位置之前的第一文本部分和在所述所识别实体的所述位置之后的第二文本部分的数据;
通过将所述文本语料库中与所述所识别实体相关联的所述第一和第二文本部分输入到所述经过训练的实体类型ET模型来识别所述接收到的实体结果中的每个实体的实体类型,所述经过训练的ET模型配置成从所述文本语料库预测或提取所述每个实体的实体类型;以及
将表示所述接收到的实体结果中的每个实体的所述所识别实体类型的数据发送到所述NER系统。
6.根据权利要求1到4中任一项所述的计算机实施方法,其进一步包括:
从NER系统接收一个或多个实体结果,其中每个实体结果包含表示所识别实体、所识别实体类型和所述所识别实体在所述文本语料库内的位置的数据;
如果与相关文本部分相关联的多个实体结果表示相同实体,其中所述多个实体结果中的至少一个与所述多个实体结果中的另一个具有不同实体类型,识别所述多个实体结果之间的不明确实体类型;
针对所述多个实体结果中的每一个,将所述文本语料库中与所述每个实体的所述位置相关联的文本输入到所述经过训练的ET模型,所述经过训练的ET模型配置成从所述文本语料库预测或提取所述每个实体的实体类型;以及
聚合与所述相关文本部分相关联的所述多个实体结果的所预测或所提取实体类型,以输出表示所述多个实体结果的实体类型。
7.根据权利要求6所述的计算机实施方法,其中所述相关文本部分位于来自所述文本语料库的文档中,并且针对所述文档聚合所述多个实体结果的所述所预测或所提取实体类型包括聚合所述多个实体结果中的每个实体的预测以形成所述多个实体结果中的所述实体的所述实体类型的总体预测。
8.根据权利要求1到7中任一项所述的计算机实施方法,其进一步包括通过训练机器学习ML技术生成或更新所述ET模型,以基于所述一个或多个实体结果从所述文本语料库预测或提取实体类型。
9.根据权利要求8所述的计算机实施方法,其中所述ML技术包括来自以下群组的至少一个ML技术:
神经网络;
递归神经网络;
前馈神经网络;
卷积神经网络;
长期短期记忆LSTM神经网络;
双向LSTM神经网络;
基于LSTM条件随机场CRF的神经网络;以及
用于基于所述一个或多个实体结果从文本语料库预测实体类型的任何其它ML技术。
10.根据权利要求8或9中任一项所述的计算机实施方法,其进一步包括基于所述所识别实体类型更新所述ET模型。
11.根据权利要求10所述的计算机实施方法,其进一步包括基于带标记数据集训练所述ML技术以生成或更新所述ET模型,所述带标记数据集包括多个带标记数据项,其中每个带标记数据项包括来自所述文本语料库的与实体相关联且用实体类型标记标注的文本部分。
12.根据权利要求11所述的计算机实施方法,其中来自所述文本语料库的与实体相关联的所述文本部分包含第一文本部分、表示所述实体的第二文本部分及在所述实体之后的第三文本部分。
13.根据权利要求12所述的计算机实施方法,其中每个带标记数据项包括在表示所述实体的所述第二文本部分周围的所述第一和第三文本部分。
14.根据权利要求11到13中任一项所述的计算机实施方法,其中训练所述ML技术以生成或更新所述ET模型进一步包括针对每一迭代通过以下操作基于所述带标记数据集迭代地训练所述ML技术以生成或更新所述ET模型:比较所述带标记数据项和从所述ET模型输出的对应的所预测或所提取实体类型;基于与所述ML技术相关联的损失函数,基于所述比较来更新所述ET模型。
15.根据前述权利要求中任一项所述的计算机实施方法,其中所述ET模型是基于神经网络,所述神经网络包括分别配置成表示在所述实体的所述位置之前的第一文本部分和在所述实体的所述位置之后的第二文本部分的前向和后向隐藏状态,其中所述前向和后向隐藏状态串接在一起以生成所述第一和第二文本部分的实体类型表示。
16.根据前述权利要求中任一项所述的计算机实施方法,所述ET模型进一步包括所述ET模型的第一部分和所述ET模型的第二部分,所述ET模型的所述第一和第二部分配置成基于所述一个或多个实体结果从所述文本语料库预测或提取表示实体类型的数据,所述方法进一步包括:
将与实体结果中的实体相关联的文本部分分割为在所述实体的所述位置之前的第一文本部分和在所述实体的所述位置之后的第二文本部分;
将所述第一文本部分输入到所述ET模型的所述第一部分,以预测表示第一实体类型估计的数据;
将所述第二文本部分输入到所述ET模型的所述第二部分以预测表示第二实体类型估计的数据;以及
组合表示所述第一和第二实体类型估计的数据以形成与所述实体相关联的所识别实体类型。
17.根据权利要求15所述的计算机实施方法,其中表示所述第一实体类型估计的所述数据包括第一N维向量,且表示所述第二实体类型估计的所述数据包括第二N维向量,其中组合表示所述第一和第二实体类型的数据进一步包括串接所述第一和第二N维向量,并将所得向量的维数减少到潜在实体类型的数目,其中所述所得向量的每个向量元素对应于不同实体类型,每个向量元素的值表示所述实体是所述特定实体类型的可能性。
18.根据前述权利要求中任一项所述的计算机实施方法,其中所述ET模型基于双向LSTM神经网络从ML技术生成。
19.根据前述权利要求中任一项所述的计算机实施方法,其中所述ET模型的模型参数基于多个带标记数据项进行联合训练,每个带标记数据项包括表示在实体的所述位置之前且用与所述实体相关联的实体类型标记标注的第一文本部分、在所述实体的所述位置之后且用与所述实体相关联的实体类型标记标注的第二文本部分的数据。
20.一种从根据权利要求1到19中任一项所述的计算机实施方法获得的机器学习ML模型。
21.一种设备,其包括:
接收器,其配置成接收一个或多个实体结果,每个实体结果包括表示实体和所识别实体在文本语料库内的位置的数据;
实体类型识别模块,其包括配置成基于所述文本语料库中与所述所识别实体相关联的文本预测或提取接收到的实体结果中的所述一个或多个实体中的每一个的实体类型的实体类型模型;以及
传输器,其用于输出表示所述接收到的实体结果中的每个实体的所预测或所识别实体类型的数据。
22.根据权利要求21所述的设备,其中所述实体类型模型配置成用于接收与所述每个实体的所述位置相关联的文本,其中与所述每个实体的所述位置相关联的所述文本包括所述文本语料库中在所述每个实体的所述位置之前的文本部分和在所述每个实体的所述位置之后的文本部分。
23.根据权利要求21或22所述的设备,其中所述设备进一步配置成实施根据权利要求1到19中任一项所述的计算机实施方法。
24.一种设备,其包括处理器、存储器单元和通信接口,其中所述处理器连接到所述存储器单元和所述通信接口,其中所述处理器和存储器配置成实施根据权利要求1到19中任一项所述的计算机实施方法。
25.一-种系统,其包括:
用于从文本语料库生成实体结果的命名实体识别NER系统,每个实体结果包括表示所识别实体和所述所识别实体在所述文本语料库内的位置的数据;以及
根据权利要求21到24中任一项所述的设备,所述设备耦合到所述NER系统,所述设备配置成从所述NER系统接收一个或多个实体结果。
26.一种包括数据或指令代码的计算机可读介质,所述数据或指令代码在处理器上执行时使所述处理器实施根据权利要求1到19中任一项所述的计算机实施方法。
27.在前述权利要求中任一项中要求保护的计算机实施方法、设备、系统或计算机可读介质,其中实体包括与来自以下群组的实体类型相关联的实体数据:基因;疾病;化合物/药物;蛋白质;化学、器官、生物;或与生物信息学或化学信息学相关联的任何其它实体类型,等等。
CN202080021811.3A 2019-03-26 2020-03-23 命名实体识别系统的实体类型识别 Pending CN113597611A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GBGB1904161.5A GB201904161D0 (en) 2019-03-26 2019-03-26 Entity type identification for named entity recognition systems
GB1904161.5 2019-03-26
PCT/GB2020/050777 WO2020193964A1 (en) 2019-03-26 2020-03-23 Entity type identification for named entity recognition systems

Publications (1)

Publication Number Publication Date
CN113597611A true CN113597611A (zh) 2021-11-02

Family

ID=66381376

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080021811.3A Pending CN113597611A (zh) 2019-03-26 2020-03-23 命名实体识别系统的实体类型识别

Country Status (5)

Country Link
US (1) US20220188519A1 (zh)
EP (1) EP3948641A1 (zh)
CN (1) CN113597611A (zh)
GB (1) GB201904161D0 (zh)
WO (1) WO2020193964A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114692644A (zh) * 2022-03-11 2022-07-01 粤港澳大湾区数字经济研究院(福田) 一种文本实体标注方法、装置、设备及存储介质

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10127240B2 (en) 2014-10-17 2018-11-13 Zestfinance, Inc. API for implementing scoring functions
US11941650B2 (en) 2017-08-02 2024-03-26 Zestfinance, Inc. Explainable machine learning financial credit approval model for protected classes of borrowers
WO2019173734A1 (en) 2018-03-09 2019-09-12 Zestfinance, Inc. Systems and methods for providing machine learning model evaluation by using decomposition
WO2019212857A1 (en) 2018-05-04 2019-11-07 Zestfinance, Inc. Systems and methods for enriching modeling tools and infrastructure with semantics
US11816541B2 (en) 2019-02-15 2023-11-14 Zestfinance, Inc. Systems and methods for decomposition of differentiable and non-differentiable models
CA3134043A1 (en) 2019-03-18 2020-09-24 Sean Javad Kamkar Systems and methods for model fairness
US11829871B2 (en) * 2019-08-20 2023-11-28 Lg Electronics Inc. Validating performance of a neural network trained using labeled training data
US11580310B2 (en) * 2019-08-27 2023-02-14 Google Llc Systems and methods for generating names using machine-learned models
CN113366511B (zh) * 2020-01-07 2022-03-25 支付宝(杭州)信息技术有限公司 利用遗传编程的命名实体识别和提取
US11625494B2 (en) * 2020-02-06 2023-04-11 AVAST Software s.r.o. Data privacy policy based network resource access controls
CN111666427B (zh) * 2020-06-12 2023-05-12 长沙理工大学 一种实体关系联合抽取方法、装置、设备及介质
US11947912B1 (en) * 2020-09-30 2024-04-02 Amazon Technologies, Inc. Natural language processing
US11720962B2 (en) 2020-11-24 2023-08-08 Zestfinance, Inc. Systems and methods for generating gradient-boosted models with improved fairness
US20220207384A1 (en) * 2020-12-30 2022-06-30 International Business Machines Corporation Extracting Facts from Unstructured Text
CN113761215A (zh) * 2021-03-25 2021-12-07 中科天玑数据科技股份有限公司 一种基于反馈自学习的动态字典库生成方法
CN113656544B (zh) * 2021-08-11 2024-03-15 云知声智能科技股份有限公司 嵌套命名实体识别模型的训练方法、装置、设备和介质
WO2023096642A1 (en) * 2021-11-24 2023-06-01 Bluware, Inc. Interactive qualitative-quantitative live labeling for deep learning artificial intelligence
CN117744660B (zh) * 2024-02-19 2024-05-10 广东省人民医院 一种基于强化学习和迁移学习的命名实体识别方法和装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9317613B2 (en) * 2010-04-21 2016-04-19 Yahoo! Inc. Large scale entity-specific resource classification
CN106294313A (zh) * 2015-06-26 2017-01-04 微软技术许可有限责任公司 学习用于实体消歧的实体及单词嵌入
EP3385862A1 (en) * 2017-04-03 2018-10-10 Siemens Aktiengesellschaft A method and apparatus for performing hierarchical entity classification
US11250331B2 (en) * 2017-10-31 2022-02-15 Microsoft Technology Licensing, Llc Distant supervision for entity linking with filtering of noise
US11144830B2 (en) * 2017-11-21 2021-10-12 Microsoft Technology Licensing, Llc Entity linking via disambiguation using machine learning techniques

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114692644A (zh) * 2022-03-11 2022-07-01 粤港澳大湾区数字经济研究院(福田) 一种文本实体标注方法、装置、设备及存储介质

Also Published As

Publication number Publication date
EP3948641A1 (en) 2022-02-09
US20220188519A1 (en) 2022-06-16
GB201904161D0 (en) 2019-05-08
WO2020193964A1 (en) 2020-10-01

Similar Documents

Publication Publication Date Title
CN113597611A (zh) 命名实体识别系统的实体类型识别
US20220188520A1 (en) Name entity recognition with deep learning
US11580415B2 (en) Hierarchical multi-task term embedding learning for synonym prediction
Preethi et al. An effective digit recognition model using enhanced convolutional neural network based chaotic grey wolf optimization
US10949456B2 (en) Method and system for mapping text phrases to a taxonomy
US11886822B2 (en) Hierarchical relationship extraction
Hossain et al. Bengali text document categorization based on very deep convolution neural network
Guha et al. MatScIE: An automated tool for the generation of databases of methods and parameters used in the computational materials science literature
Zhang et al. Using a pre-trained language model for medical named entity extraction in Chinese clinic text
US20230351111A1 (en) Svo entity information retrieval system
Ahmad et al. Machine and Deep Learning Methods with Manual and Automatic Labelling for News Classification in Bangla Language
Azunre et al. Semantic classification of tabular datasets via character-level convolutional neural networks
Tong et al. Using deep neural network to recognize mutation entities in biomedical literature
Devkota et al. Knowledge of the ancestors: Intelligent ontology-aware annotation of biological literature using semantic similarity
Lee et al. Literature mining for context-specific molecular relations using multimodal representations (COMMODAR)
Kanimozhi et al. A systematic review on biomedical named entity recognition
Garg et al. Machine learning in text analysis
Fayruzov et al. DEEPER: a full parsing based approach to protein relation extraction
He et al. Bootstrapped multi-level distant supervision for relation extraction
Mahendran A study on developing novel methods for relation extraction
Wu et al. Sensei: Self-Supervised Sensor Name Segmentation
Ju Neural Named Entity Recognition and Temporal Relation Extraction
Ramponi knowledge extraction from biomedical literature with symbolic and deep transfer learning methods
Tsui et al. Creating a scalable deep learning based Named Entity Recognition Model for biomedical textual data by repurposing BioSample free-text annotations
Kumar et al. SnorkelPlus: A Novel Approach for Identifying Relationships Among Biomedical Entities Within Abstracts

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination