CN112154509A - 具有用于文本注释的演变领域特异性词典特征的机器学习模型 - Google Patents

具有用于文本注释的演变领域特异性词典特征的机器学习模型 Download PDF

Info

Publication number
CN112154509A
CN112154509A CN201980033655.XA CN201980033655A CN112154509A CN 112154509 A CN112154509 A CN 112154509A CN 201980033655 A CN201980033655 A CN 201980033655A CN 112154509 A CN112154509 A CN 112154509A
Authority
CN
China
Prior art keywords
embedding
learning model
machine learning
character
instructions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201980033655.XA
Other languages
English (en)
Inventor
凌媛
S·S·阿尔哈桑
O·F·法里
柳俊毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV filed Critical Koninklijke Philips NV
Publication of CN112154509A publication Critical patent/CN112154509A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/10Ontologies; Annotations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9027Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Bioethics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Machine Translation (AREA)

Abstract

一种生成用于机器学习模型的嵌入的方法,包括:从第一文本数据提取字符嵌入和词语嵌入;根据领域知识数据集来生成领域知识嵌入;将所述字符嵌入、所述词语嵌入和所述领域知识嵌入组合为组合嵌入;并且将所述组合嵌入提供到所述机器学习模型的层。

Description

具有用于文本注释的演变领域特异性词典特征的机器学习 模型
技术领域
本文所公开的各种示范性实施例总体上涉及具有用于自然语言处理的演变领域特异性词典特征的机器学习模型。
背景技术
机器学习模型可以形成以注释文本中的命名实体,例如,识别个体或地点的名称、日期、动物、疾病等。在生物医学设置中,障碍注释是许多生物医学自然语言处理应用中的特征。例如,从临床试验提取障碍名称能够对于患者剖析和其他下游应用是有帮助的,诸如将临床试验与适合的患者匹配。类似地,生物医学文章中的障碍注释可以帮助信息搜索引擎准确地索引它们,使得临床医师可以容易地找到相关文章来增强他们的知识。
发明内容
下面呈现了各种示范性实施例的概述。一些简化和省略可以在以下概述中做出,其旨在突出显示并且介绍各种示范性实施例的一些方面,但是不限制本发明的范围。示范性实施例的详细描述适于允许本领域普通技术人员制造并且使用将在稍后部分中跟随的发明构思。
各种实施例涉及一种生成用于机器学习模型的嵌入的方法,包括:从第一文本数据提取字符嵌入和词语嵌入;根据领域知识数据集来生成领域知识嵌入;将所述字符嵌入、所述词语嵌入和所述领域知识嵌入组合为组合嵌入;并且将所述组合嵌入提供到所述机器学习模型的层。
描述了各种实施例,其中,所述领域知识数据集包括来自领域专家的反馈。
描述了各种实施例,其中,来自所述领域专家的所述反馈包括对第二文本数据的命名实体识别标记。
描述了各种实施例,其中,来自所述领域专家的所述反馈包括要用于更新词汇数据库的额外词汇。
描述了各种实施例,其中,来自所述领域专家的所述反馈基于对所述机器学习模型的输出的正确性的确定。
描述了各种实施例,其中,所述领域知识数据集包括被应用到第二文本数据的自然语言处理引擎的输出。
描述了各种实施例,其中,所述领域知识数据集包括基于第二文本数据的查询到基于词汇数据的TRIE词典的输出。
描述了各种实施例,其中,所述机器学习模型执行对第二文本数据的命名实体识别。
描述了各种实施例,其中,所述机器学习模型执行对第二文本数据的医学障碍注释。
描述了各种实施例,还包括:在生成所述领域知识嵌入之前使用所述第一文本数据、所述字符嵌入和所述词语嵌入来训练所述机器学习模型;并且在生成所述领域知识嵌入之后重新训练所述机器学习模型。
描述了各种实施例,还包括:基于在重新训练所述机器学习模型之前被添加到所述领域知识数据集的数据量来确定需要对所述机器学习模型的重新训练。
描述了各种实施例,其中,提取所述字符嵌入还包括:将卷积神经网络层应用到所述第一文本数据中的词语以产生第一字符嵌入部分;将长短期记忆神经网络层应用到所述第一文本数据中的词语以产生第二字符嵌入部分;并且将所述第一字符嵌入部分和所述第二字符嵌入部分进行连结(concatenating)以产生所述字符嵌入。
描述了各种实施例,其中,所述机器学习模型包括长短期记忆层和条件随机场层,并且还包括将所述领域知识嵌入提供到所述条件随机场层。
描述了各种实施例,还包括:在生成所述领域知识嵌入之前使用所述第一文本数据、所述字符嵌入和所述词语嵌入来训练所述机器学习模型;并且在生成所述领域知识嵌入之后重新训练所述机器学习模型。
另外的各种实施例涉及一种编码有用于生成用于机器学习模型的嵌入的指令的非瞬态机器可读存储介质,包括:用于从第一文本数据提取字符嵌入和词语嵌入的指令;用于根据领域知识数据集来生成领域知识嵌入的指令;用于将所述字符嵌入、所述词语嵌入和所述领域知识嵌入组合为组合嵌入的指令;以及用于将所述组合嵌入提供到所述机器学习模型的层的指令。
描述了各种实施例,其中,所述领域知识数据集包括来自领域专家的反馈。
描述了各种实施例,其中,来自所述领域专家的所述反馈包括对第二文本数据的命名实体识别标记。
描述了各种实施例,其中,来自所述领域专家的所述反馈包括要用于更新词汇数据库的额外词汇。
描述了各种实施例,其中,来自所述领域专家的所述反馈基于对所述机器学习模型的输出的正确性的确定。
描述了各种实施例,其中,所述领域知识数据集包括被应用到第二文本数据的自然语言处理引擎的输出。
描述了各种实施例,其中,所述领域知识数据集包括基于第二文本数据的查询到基于词汇数据的TRIE词典的输出。
描述了各种实施例,其中,所述机器学习模型执行对第二文本数据的命名实体识别。
描述了各种实施例,其中,所述机器学习模型执行对第二文本数据的医学障碍注释。
描述了各种实施例,还包括:用于在生成所述领域知识嵌入之前使用所述第一文本数据、所述字符嵌入和所述词语嵌入来训练所述机器学习模型的指令;以及用于在生成所述领域知识嵌入之后重新训练所述机器学习模型的指令。
描述了各种实施例,还包括:用于基于在重新训练所述机器学习模型之前被添加到所述领域知识数据集的数据量来确定需要对所述机器学习模型的重新训练的指令。
描述了各种实施例,其中,提取所述字符嵌入还包括:用于将卷积神经网络层应用到所述第一文本数据中的词语以产生第一字符嵌入部分的指令;用于将长短期记忆神经网络层应用到所述第一文本数据中的词语以产生第二字符嵌入部分的指令;以及用于将所述第一字符嵌入部分和所述第二字符嵌入部分进行连结以产生所述字符嵌入的指令。
描述了各种实施例,其中,所述机器学习模型包括长短期记忆层和条件随机场层,并且还包括用于将所述领域知识嵌入提供到所述条件随机场层的指令。
描述了各种实施例,还包括:用于在生成所述领域知识嵌入之前使用所述第一文本数据、所述字符嵌入和所述词语嵌入来训练所述机器学习模型的指令;以及用于在生成所述领域知识嵌入之后重新训练所述机器学习模型的指令。
另外的各种实施例涉及一种编码有用于生成用于障碍注释机器学习模型的嵌入的指令的非瞬态机器可读存储介质,包括:用于从第一文本数据提取字符嵌入和词语嵌入的指令;用于根据词典数据集来生成词典嵌入的指令;用于根据额外标注数据集来生成额外标注嵌入的指令;用于将所述字符嵌入、所述词语嵌入、所述词典嵌入和所述额外标注嵌入组合为组合嵌入的指令;以及用于将所述组合嵌入提供到所述障碍注释机器学习模型的层的指令。
描述了各种实施例,其中,所述额外标注数据集包括来自领域专家的反馈。
描述了各种实施例,其中,来自所述领域专家的所述反馈包括对第二文本数据的障碍注释。
描述了各种实施例,其中,来自所述领域专家的所述反馈包括要用于更新词汇数据库的额外词汇。
描述了各种实施例,其中,来自所述领域专家的所述反馈基于对所述障碍注释机器学习模型的输出的正确性的确定。
描述了各种实施例,其中,所述词典数据集包括被应用到第二文本数据的自然语言处理引擎的输出。
描述了各种实施例,其中,所述词典数据集包括基于第二文本数据的查询到基于词汇数据的TRIE词典的输出。
描述了各种实施例,还包括:用于在生成所述词典嵌入和所述额外标注嵌入之前使用所述第一文本数据、所述字符嵌入和所述词语嵌入来训练所述障碍注释机器学习模型的指令;以及用于在生成所述词典嵌入和所述额外标注嵌入之后重新训练所述障碍注释机器学习模型的指令。
描述了各种实施例,还包括:用于基于在重新训练所述障碍注释机器学习模型之前被添加到所述词典数据集和所述额外标注数据集的数据量来确定需要对所述障碍注释机器学习模型的重新训练的指令。
描述了各种实施例,其中,提取所述字符嵌入还包括:用于将卷积神经网络层应用到所述第一文本数据中的词语以产生第一字符嵌入部分的指令;用于将长短期记忆神经网络层应用到所述第一文本数据中的词语以产生第二字符嵌入部分的指令;以及用于将所述第一字符嵌入部分和所述第二字符嵌入部分进行连结以产生所述字符嵌入的指令。
描述了各种实施例,其中,所述障碍注释机器学习模型包括长短期记忆层和条件随机场层,并且还包括用于将所述词典嵌入和所述额外标注嵌入提供到所述条件随机场层的指令。
附图说明
为了更好地理解各种示范性实施例,参考附图,其中:
图1图示了用于障碍注释的LSTM-CRF模型的架构;
图2图示了可以如何生成词典嵌入和额外标注嵌入;
图3图示了使用额外标注嵌入和词典嵌入的障碍注释系统;并且
图4图示了在可以迁移用于使用在第二领域中的在第一领域中训练的LSTM-CRF模型。
为了促进理解,相同附图标记已经被用于指定具有基本上相同或相似结构和/或基本上相同或相似功能的元件。
具体实施方式
说明书和附图图示了本发明的原理。因此将意识到,本领域技术人员将能够设计各种布置,其尽管未在本文中明确描述或示出,但是实现本发明的原理并且被包括在其范围内。此外,本文记载的所有范例主要旨在明确用于教学目的以帮助读者理解本发明的原理和由(一个或多个)发明人贡献的概念以促进本领域并且要被解释为不限于这样的特别记载的范例和条件。此外,如本文所使用的,术语“或”是指非排他性或(即,和/或),除非另行指示(例如,“否则”或“或在备选方案中”)。而且,本文所描述的各种实施例不必互相排斥,因为一些实施例可以与一个或多个其他实施例组合以形成新实施例。
障碍注释在许多生物医学自然语言应用中是重要的。例如,从临床试验文本提取障碍名称能够对于患者剖析和其他下游应用是有帮助的,诸如将临床试验与适合的患者匹配。类似地,生物医学文章中的障碍注释可以帮助信息搜索引擎准确地索引它们,使得临床医师可以容易地找到相关文章来增强他们的知识。实现障碍注释中的高精度和高召回是由大多数真实世界应用期望的。
深度学习技术已经证明了优于用于各种一般领域自然语言处理(NLP)的常规机器学习(ML)技术的优越性能,例如,语言建模、词性(POS)标注、命名实体识别(NER)、释义识别、语义分析等。与一般领域文本相比较,临床文档提出了独特的挑战,这是因为首字母缩略词的广泛使用和由医疗保健提供者造成的非标准临床术语、不一致的文档结构和组织、以及用于严格去识别和匿名化以确保患者数据隐私的要求。这些方法还取决于良好标记数据集,并且作为结果,模型需要每次当应用到新数据集时重新训练。此外,在一些情况下,不存在用于训练模型的足够标记数据。克服这些挑战可以促进用于各种有用临床应用的更多研究和创新,包括临床决策支持、患者队列识别、患者参与支持、群体健康管理、药物警戒、个性化用药以及临床文本摘要。
为此,将描述通过经由各种类型的嵌入将临床领域知识编码到深度神经网络架构的不同层中解决障碍注释任务的实施例,所述深度神经网络架构包括长短期记忆网络条件随机场(LSTM-CRF)模型和卷积神经网络(CNN)模型。使用这些实施例的实验示出临床领域知识对模型的性能的影响,同时将该临床领域知识添加在网络的不同部分处。这些实施例还实现了科学论文数据集上的障碍注释中的新现有技术结果。
在本文中将描述实施例,其图示良好标记数据集上的模型的训练同时能够将经训练的模型应用到新未标记数据集而不失去用于新数据集的重要领域特异性特征。这些实施例基于良好标记的科学论文文本数据来训练用于障碍注释的LSTM-CRF模型。LSTM-CRF模型还编码来自通用词典的领域特异性词典特征。此外,LSTM-CRF模型编码来自未标记语料库的演变反馈。因此,即使LSTM-CRF模型在一个特定数据集上训练,LSTM-CRF模型可以应用于具有演变词典特征的不同数据集。下面将进一步描述这些特征的细节。下文所描述的实施例与生物医学领域中的障碍识别相关,其中,标记数据集的大小可以是小的,但是要分析的数据集是大的。该情况也在其他领域中发生,并且因此,可以广泛应用本文所描述的实施例,诸如在模型在第一领域中的一个数据集上被训练的情况下,并且该模型然后扩展并且应用到第二领域中的数据。
来自自由文本的障碍注释是序列标注问题。BIO标注方案可以被用于标注输入序列。例如,如下文所示,标注结果指代针对来自输入文本的每个词语的标签。“B障碍”表示障碍名称的开始词语,“I障碍”表示障碍名称中的其他词语,并且“O”表示不属于障碍名称的词语:
输入文本:...前列腺癌的新诊断...
标注结果:O O O B-障碍 I-障碍
针对障碍注释的现有基于规则的系统或者常规机器学习方法很大程度上取决于手工特征,诸如句法、词汇、n元语法等。基于神经网络的方法通常不依赖于手工特征,然而,需要大的标记数据来训练神经网络。在本文所描述的实施例中,领域知识被引入基于神经网络的方法中。
为了障碍注释,存在可以使用的许多现有临床NLP引擎。利用现有工具而不是从头开始仅仅在标记数据集上训练基于神经网络的模型将是好的,其可以是有限的。因此,本文所描述的实施例编码来自现有临床NLP管线的输出以改进针对障碍注释的模型性能。
混合临床NLP引擎可以被用于生成标注输出,但是任何其他类型的临床NLP管线可以用于该目的。临床NLP引擎生成障碍标注和其他类型的生物医学概念。在下文所描述的实施例中,仅使用障碍标注,但是其他类型的标注也可以提供也可以编码在模型中的有用信息。
另一类型的领域知识是疾病词汇。先前研究花费显著努力建立词典/本体论以促进生物医学NLP任务。MEDIC是现有疾病词汇的范例,其总计包括9700独特疾病和67000独特术语。
来自临床NLP引擎的输出和疾病词汇是由本文所描述的实施例用于改进用于障碍注释的基于神经网络的方法的两种领域知识。其他种类或者领域信息可以被识别并且被用于改进如由本文所公开的实施例描述的神经网络的性能。该额外领域信息允许当数据标记数据集为小时或者当将模型从一个领域移动到另一个时用于注释和其他任务的基于神经网络的方法的性能的改进。
如上文所描述的,LSTM-CRF模型已经形成以执行NER,并且LSTM-CRF模型实现一般领域中的现有技术性能。因此,该模型可以用于障碍注释的任务。然而,在真实用例中,当前不存在用于训练模型以从临床试验文本提取障碍名称的足够标记数据。仅可用数据集是具有注释的障碍名称的科学论文。作为结果,可以在确定如何将LSTM-CRF模型应用到障碍注释的问题时考虑以下问题:第一,如何将在一个语料库上训练的LSTM-CRF模型适配到另一新语料库;第二,如何编码来自新语料库的词典特征,并且第三,如何将来自领域专家的反馈高效地编码和更新到经训练的模型中。本文所描述的实施例解决这些各种问题。
现在将描述用于障碍注释的LSTM-CRF模型的实施例。用于命名实体识别任务的神经网络的一般架构是双向LSTM-CRF,其将向量(x1,x2,...,xn)的序列采取为输入并且返回相应地表示输入序列的标注信息的另一序列(y1,y2,...,yn)。
图1图示了用于障碍注释的LSTM-CRF模型的架构。LSTM-CRF模型100包括以下层:字符嵌入层140、词语嵌入层130、双向LSTM层120、CRF标注层110。针对包含n个词语的给定句子(x1,x2,...,xn),每个词语被表示为d维向量。d维向量从两个部分连结:来自字符嵌入层140的d1维向量V字符和来自词语嵌入层130的d2维向量V词语。双向LSTM层120读取输入句子(x1,x2,...,xn)的向量表示以产生隐藏向量的两个序列,即,前向序列
Figure BDA0002786494470000081
124和后向序列
Figure BDA0002786494470000082
122。LSTM层120然后将前向序列124和后向序列122连结到
Figure BDA0002786494470000083
中,其然后输入到CRF层110中。CRF层110然后确定并且输出针对特定输入词语xi的标签yi
字符嵌入层140的编码可以使用各种方法完成。两个可能方法包括使用用于学习字符嵌入的字符双向LSTM层142和用于学习字符嵌入的字符卷积神经网络(CNN)层144。除了其他信息之外,双向LSTM层142提供与接收到的词语中的字母的序列有关的嵌入式信息,例如,希腊语或拉丁语同根词。除了其他信息,CNN层144提供相对于词语中的哪些字母在确定词语的意义时最有用的嵌入式信息。
字符CNN层144生成针对句子中的每个词语的字符嵌入,如下。首先,定义字符C的词汇。让d是字符嵌入的维度,并且Q∈Rd×|C|是矩阵字符嵌入。字符CNN层144将当前词语“癌”采取为输入并且执行Q∈Rd×|C|的查找并且堆叠查找结果以形成矩阵Ck145。在Ck145与多个滤波器/内核矩阵147之间应用卷积操作。然后,最大超时(max-over-time)池化操作应用于获得词语的固定维表示,其被指代为Vcnn147。该特定CNN层144旨在是范例,并且也可以使用具有各种操作和层数的其他CNN或递归神经网络(RNN)层。
字符LSTM层142类似于LSTM-CRF模型100的架构中的双向LSTM层120。代替于将句子中的词语的序列采取为输入,如在LSTM层120中完成的,字符LSTM层142将词语中的字符的序列采取为输入。字符LSTM层142然后输出两个序列
Figure BDA0002786494470000091
的最后步骤的连结,其可以被指代为Vlstm
字符CNN层144和字符LSTM层142两者被用于学习字符嵌入。字符MIX层148取得来自字符CNN层144和字符LSTM层142两者的输出并且将其连结到Vmix=[Vcnn;Vlstm]中,其与上文讨论的字符嵌入层140的相同d1维向量V字符
在LSTM-CRF模型100中,来自领域词汇162或外部标注工具152的领域知识可以通过词典嵌入层150和额外标注嵌入层160引入。
图2图示了可以如何生成词典嵌入和额外标注嵌入。
在词汇中现有的先验知识在生物医学NLP任务中发挥重要作用。已经开发基于手工特征的许多基于规则的系统或者常规机器学习系统,其利用词汇来获得先验领域知识,特别地在生物医学中NLP领域。该领域知识的集成可以在实体识别任务中是有帮助的。
生成词典嵌入利用词汇数据库210。词汇数据库210被用于针对词汇建立212TRIE词典220。通过当新条目被添加到词汇数据库210、条目从词汇数据库210删除、或者条目在词汇数据库210中更新时更新TRIE词典220,TRIE词典220也可以容易地维持214。TRIE是用于频繁词语/短语匹配的高效数据结构。接收输入句子200,并且查询230TRIE词典220。基于任何匹配结果,查询提供标注句子作为输出。例如,在句子“...前列腺癌的新诊断...”中,短语“前列腺癌”在TRIE词典中映射,因此查询会将短语“前列腺癌”标注为“B-障碍I-障碍”。标注结果235还被用于生成词典嵌入V词典160。这通过创建词典嵌入矩阵160中的标注短语(在该范例中,“前列腺癌”)的条目来完成。与新条目相关联的嵌入值可以随机化以改进在LSTM-CRF模型训练期间嵌入值的收敛。
额外标注嵌入的生成类似于生成如上文所讨论的词典嵌入。生成额外标注嵌入可以利用临床NLP引擎250而不是使用词汇数据库。针对每个输入句子200,查询260临床NLP引擎250,并且输出标注序列。标注结果270还被用于生成额外标注嵌入V标注150。这通过创建额外标注嵌入矩阵150中的标注短语(在该范例中,“前列腺癌”)的条目来完成。与新条目相关联的嵌入值可以随机化以改进在LSTM-CRF模型训练期间嵌入值的收敛。
词典嵌入160和额外标注嵌入150也可以使用其他方法更新。一个方法可以涉及识别未标注文本中的障碍或者分析LSTM-CRF模型100的输出的人类领域专家以识别误差,并且这样的反馈可以被用于更新词典嵌入160或额外标注嵌入150。输入句子200可以来自感兴趣的未标记语料库。
词典嵌入V词典160和额外标注嵌入V标注150可以嵌入到LSTM-CRF模型100的架构中,如图1所示。特别地,词典嵌入V词典160和额外标注嵌入V标注150可以通过在将其与词语嵌入130和字符嵌入140连结在双向LSTM层120之前嵌入,其导致连结向量[V词语;V字符;V词典;V标注]并且充当双向LSTM层120的输入。这些额外嵌入可以扩展LSTM-CRF模型100的能力和性能超过仅使用用于训练的可用良好标记语料库而可能的事物。词典嵌入160和额外标注嵌入150个体或组合可以被称为领域知识嵌入。领域知识嵌入包括基于领域知识添加到LSTM-CRF模型的任何嵌入。
图3图示了使用额外标注嵌入和词典嵌入的障碍注释系统。LSTM-CRF模型100与图1中所描述的LSTM-CRF模型相同。初始地,从良好标记语料库320提取注释的训练数据325。数据预处理模块330接收注释的训练数据325并且预处理该数据以生成初始词语嵌入数据130和字符嵌入数据120。然后LSTM-CRF模型100使用训练数据335训练。然后可以部署LSTM-CRF模型100。
在部署期间,LSTM-CRF模型可以接收未标记数据126并且产生障碍注释305。这些障碍注释305可以存储在反馈存储设备310中以用于由人类领域专家分析。例如,人类领域专家可以确定由LSTM-CRF模型输出的领域输出注释305是否是正确的。此外,未标记语料库也可以存储在反馈存储设备310中以用于由人类领域专家分析。人类领域专家可以生成存储在反馈标签数据存储设备315中的人类反馈311。人类反馈也可以被用于更新词汇数据存储设备210。此外,未标记语料库312可以存储在未标记语料库数据存储设备317中。
重新训练判断引擎340可以评价对反馈标签存储设备、词汇标签存储设备和未标记语料库存储设备的更新以确定足够的额外领域信息量已经被接收以证明重新训练LSTM-CRF模型100。这可以通过使用各种阈值和矩阵完成,例如,跟踪对词汇数据库210或反馈标签存储设备315的添加的数目。该决策也可以考虑将被要求以执行重新训练的当前处理资产的可用性和成本。此外,可以监测障碍注释系统的性能,并且如果性能减小到指定阈值之下,则也可以起始重新训练。如果重新训练尚未证明合理,则LSTM-CRF模型100继续操作。一旦重新训练判断引擎340确定需要重新训练,那么这样的重新训练请求345被传送到数据预处理模块330。
当数据预处理模块330接收重新训练请求345时,其可以使用未标记语料库数据作为输入来创建如图2中所描述的额外标注嵌入数据150和词典嵌入数据160。此外,人类反馈可以并入到额外标注嵌入数据150和词典嵌入数据160之一或两者中。然后,LSTM-CRF模型100使用各种更新数据重新训练。
该重新训练导致更新和经改进的障碍注释系统和过程。随着时间,由于额外领域专家连同来自临床NLP引擎的额外词汇数据和输出一起被接收,因此LSTM-CRF模型改进障碍注释过程的准确度和范围。因此,当仅小良好标记语料库存在时,障碍注释过程可以仍然使用额外标注嵌入和词典嵌入利用来自各种源的添加数据的输入随时间改进。再次,如上文所讨论的,这些实施例可以应用在其他应用中,其中,所有不同种类的领域知识可以聚集并且输入到将改进注释过程或其他NLP过程的性能的额外嵌入层中。其他注释任务或应用的范例包括词性标注、命名实体识别、事件识别、语义角色标记、时间注释等,其中,领域特异性词汇、术语、本体论、语料库等可以提供额外知识以改进注释模型的性能。
图4图示了可以迁移用于使用在第二领域中的在第一领域中训练的LSTM-CRF模型。存在其中第一领域中形成的模型可以适于使用在第二领域中同时保留来自第一领域的重要领域特异性特征的情况。LSTM-CRF模型400非常类似于图1的LSTM-CRF模型。LSTM-CRF模型400保留来自图1的LSTM-CRF模型100的相同标签。标注工具152和词汇工具162被用于生成如上文关于图1和2所描述的领域特异性知识。该领域特异性知识并入在额外标注嵌入层150和词典嵌入层160中,如上文所描述的。差异在于,来自额外标注嵌入层150和词典嵌入层160的信息也作为输入被提供到CRF层110。这被图示为从额外标注嵌入层150到CRF层110的数据连接405和从词典嵌入层160到CRF层110的数据连接410,其产生
Figure BDA0002786494470000121
作为针对CRF层110的输入。这些额外连接405和410允许在额外标注嵌入层150和词典嵌入层160中编码的额外领域知识以更直接地影响架构的各层处的LSTM-CRF模型400的输出。这通过生成针对额外标注嵌入层150和词典嵌入层160的数据并且然后利用来自第二领域的数据训练LSTM-CRF模型来完成。作为结果,可以保留来自第一领域的有价值的学习,同时将模型扩展到第二领域中。
上文所描述的实施例的各种特征导致现有障碍注释系统、NER系统和其他NLP系统上的技术改进和进步。这样的特征包括但不限于:基于额外领域知识的词典嵌入和额外标注嵌入的添加;使用临床NLP引擎、实施为TRIE词典的词汇数据库和来自领域专家的反馈信息从未标记语料库提取障碍信息;CNN层连同词语的字符上的LSTM层的使用;并且使用词典嵌入和额外标注嵌入信息作为CRF层的输入。
本文所描述的实施例可以被实施为在具有相关联的存储器和存储设备的处理器上运行的软件。处理器可以是能够运行存储在存储器或存储装置中的指令或以其他方式处理数据的任何硬件设备。这样一来,处理器可以包括微处理器、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、图形处理单元(GPU)、专用神经网络处理器、或其他类似设备。
存储器可以包括各种存储器,诸如例如L1、L2或L3高速缓存或系统存储器。这样一来,存储器可以包括静态随机存取存储器(SRAM)、动态RAM(DRAM)、闪存、只读存储器(ROM)或者其他类似存储器设备。
存储设备可以包括一个或多个机器可读存储介质,诸如只读存储器(ROM)、随机存取存储器(RAM)、磁盘存储介质、光学存储介质、闪存设备或者类似存储介质。在各种实施例中,存储设备可以存储用于由处理器运行的指令或者处理器可以操作的数据。该软件可以实施上文所描述的各种实施例。
另外的这样的实施例可以被实施在多处理器计算机系统、分布式计算机系统和云计算系统上。
在实施本发明的实施例的处理器上运行的特定软件的任何组合构成特定专用机器。
如本文所使用的,术语“非瞬态机器可读存储介质”将被理解为排除瞬态传播信号但是包括所有形式的易失性和非易失性存储器。
尽管已经特别参考其某些示范性方面详细描述了各种示范性实施例,但是应当理解,本发明能够实现其他实施例并且其细节能够完成各个明显方面中的修改。如对于本领域技术人员容易显而易见的,可以实现变化和修改,同时保持在本发明的精神和范围内。因此,前述公开、描述和附图仅出于说明性目的并且不以任何方式限制本发明,本发明仅由权利要求定义。

Claims (39)

1.一种生成用于机器学习模型的嵌入的方法,包括:
从第一文本数据提取字符嵌入和词语嵌入;
根据领域知识数据集来生成领域知识嵌入;
将所述字符嵌入、所述词语嵌入和所述领域知识嵌入组合为组合嵌入;并且
将所述组合嵌入提供到所述机器学习模型的层。
2.根据权利要求1所述的方法,其中,所述领域知识数据集包括来自领域专家的反馈。
3.根据权利要求2所述的方法,其中,来自所述领域专家的所述反馈包括对第二文本数据的命名实体识别标记。
4.根据权利要求2所述的方法,其中,来自所述领域专家的所述反馈包括要用于更新词汇数据库的额外词汇。
5.根据权利要求2所述的方法,其中,来自所述领域专家的所述反馈基于对所述机器学习模型的输出的正确性的确定。
6.根据权利要求1所述的方法,其中,所述领域知识数据集包括被应用到第二文本数据的自然语言处理引擎的输出。
7.根据权利要求1所述的方法,其中,所述领域知识数据集包括基于第二文本数据的查询到基于词汇数据的TRIE词典的输出。
8.根据权利要求1所述的方法,其中,所述机器学习模型执行对第二文本数据的命名实体识别。
9.根据权利要求1所述的方法,其中,所述机器学习模型执行对第二文本数据的医学障碍注释。
10.根据权利要求1所述的方法,还包括:
在生成所述领域知识嵌入之前使用所述第一文本数据、所述字符嵌入和所述词语嵌入来训练所述机器学习模型;并且
在生成所述领域知识嵌入之后重新训练所述机器学习模型。
11.根据权利要求10所述的方法,还包括:
基于在重新训练所述机器学习模型之前被添加到所述领域知识数据集的数据量来确定需要对所述机器学习模型的重新训练。
12.根据权利要求1所述的方法,其中,提取所述字符嵌入还包括:
将卷积神经网络层应用到所述第一文本数据中的词语以产生第一字符嵌入部分;
将长短期记忆神经网络层应用到所述第一文本数据中的词语以产生第二字符嵌入部分;并且
将所述第一字符嵌入部分和所述第二字符嵌入部分进行连结以产生所述字符嵌入。
13.根据权利要求1所述的方法,其中,所述机器学习模型包括长短期记忆层和条件随机场层,并且还包括将所述领域知识嵌入提供到所述条件随机场层。
14.根据权利要求13所述的方法,还包括:
在生成所述领域知识嵌入之前使用所述第一文本数据、所述字符嵌入和所述词语嵌入来训练所述机器学习模型;并且
在生成所述领域知识嵌入之后重新训练所述机器学习模型。
15.一种编码有用于生成用于机器学习模型的嵌入的指令的非瞬态机器可读存储介质,包括:
用于从第一文本数据提取字符嵌入和词语嵌入的指令;
用于根据领域知识数据集来生成领域知识嵌入的指令;
用于将所述字符嵌入、所述词语嵌入和所述领域知识嵌入组合为组合嵌入的指令;以及
用于将所述组合嵌入提供到所述机器学习模型的层的指令。
16.根据权利要求15所述的非瞬态机器可读存储介质,其中,所述领域知识数据集包括来自领域专家的反馈。
17.根据权利要求16所述的非瞬态机器可读存储介质,其中,来自所述领域专家的所述反馈包括对第二文本数据的命名实体识别标记。
18.根据权利要求16所述的非瞬态机器可读存储介质,其中,来自所述领域专家的所述反馈包括要用于更新词汇数据库的额外词汇。
19.根据权利要求16所述的非瞬态机器可读存储介质,其中,来自所述领域专家的所述反馈基于对所述机器学习模型的输出的正确性的确定。
20.根据权利要求15所述的非瞬态机器可读存储介质,其中,所述领域知识数据集包括被应用到第二文本数据的自然语言处理引擎的输出。
21.根据权利要求15所述的非瞬态机器可读存储介质,其中,所述领域知识数据集包括基于第二文本数据的查询到基于词汇数据的TRIE词典的输出。
22.根据权利要求15所述的非瞬态机器可读存储介质,其中,所述机器学习模型执行对第二文本数据的命名实体识别。
23.根据权利要求15所述的非瞬态机器可读存储介质,其中,所述机器学习模型执行对第二文本数据的医学障碍注释。
24.根据权利要求15所述的非瞬态机器可读存储介质,还包括:
用于在生成所述领域知识嵌入之前使用所述第一文本数据、所述字符嵌入和所述词语嵌入来训练所述机器学习模型的指令;以及
用于在生成所述领域知识嵌入之后重新训练所述机器学习模型的指令。
25.根据权利要求24所述的非瞬态机器可读存储介质,还包括:
用于基于在重新训练所述机器学习模型之前被添加到所述领域知识数据集的数据量来确定需要对所述机器学习模型的重新训练的指令。
26.根据权利要求15所述的非瞬态机器可读存储介质,其中,提取所述字符嵌入还包括:
用于将卷积神经网络层应用到所述第一文本数据中的词语以产生第一字符嵌入部分的指令;
用于将长短期记忆神经网络层应用到所述第一文本数据中的词语以产生第二字符嵌入部分的指令;以及
用于将所述第一字符嵌入部分和所述第二字符嵌入部分进行连结以产生所述字符嵌入的指令。
27.根据权利要求15所述的非瞬态机器可读存储介质,其中,所述机器学习模型包括长短期记忆层和条件随机场层,并且还包括用于将所述领域知识嵌入提供到所述条件随机场层的指令。
28.根据权利要求27所述的非瞬态机器可读存储介质,还包括:
用于在生成所述领域知识嵌入之前使用所述第一文本数据、所述字符嵌入和所述词语嵌入来训练所述机器学习模型的指令;以及
用于在生成所述领域知识嵌入之后重新训练所述机器学习模型的指令。
29.一种编码有用于生成用于障碍注释机器学习模型的嵌入的指令的非瞬态机器可读存储介质,包括:
用于从第一文本数据提取字符嵌入和词语嵌入的指令;
用于根据词典数据集来生成词典嵌入的指令;
用于根据额外标注数据集来生成额外标注嵌入的指令;
用于将所述字符嵌入、所述词语嵌入、所述词典嵌入和所述额外标注嵌入组合为组合嵌入的指令;以及
用于将所述组合嵌入提供到所述障碍注释机器学习模型的层的指令。
30.根据权利要求29所述的非瞬态机器可读存储介质,其中,所述额外标注数据集包括来自领域专家的反馈。
31.根据权利要求30所述的非瞬态机器可读存储介质,其中,来自所述领域专家的所述反馈包括对第二文本数据的障碍注释。
32.根据权利要求30所述的非瞬态机器可读存储介质,其中,来自所述领域专家的所述反馈包括要用于更新词汇数据库的额外词汇。
33.根据权利要求30所述的非瞬态机器可读存储介质,其中,来自所述领域专家的所述反馈基于对所述障碍注释机器学习模型的输出的正确性的确定。
34.根据权利要求29所述的非瞬态机器可读存储介质,其中,所述词典数据集包括被应用到第二文本数据的自然语言处理引擎的输出。
35.根据权利要求29所述的非瞬态机器可读存储介质,其中,所述词典数据集包括基于第二文本数据的查询到基于词汇数据的TRIE词典的输出。
36.根据权利要求29所述的非瞬态机器可读存储介质,还包括:
用于在生成所述词典嵌入和所述额外标注嵌入之前使用所述第一文本数据、所述字符嵌入和所述词语嵌入来训练所述障碍注释机器学习模型的指令;以及
用于在生成所述词典嵌入和所述额外标注嵌入之后重新训练所述障碍注释机器学习模型的指令。
37.根据权利要求36所述的非瞬态机器可读存储介质,还包括:
用于基于在重新训练所述障碍注释机器学习模型之前被添加到所述词典数据集和所述额外标注数据集的数据量来确定需要对所述障碍注释机器学习模型的重新训练的指令。
38.根据权利要求29所述的非瞬态机器可读存储介质,其中,提取所述字符嵌入还包括:
用于将卷积神经网络层应用到所述第一文本数据中的词语以产生第一字符嵌入部分的指令;
用于将长短期记忆神经网络层应用到所述第一文本数据中的词语以产生第二字符嵌入部分的指令;以及
用于将所述第一字符嵌入部分和所述第二字符嵌入部分进行连结以产生所述字符嵌入的指令。
39.根据权利要求29所述的非瞬态机器可读存储介质,其中,所述障碍注释机器学习模型包括长短期记忆层和条件随机场层,并且还包括用于将所述词典嵌入和所述额外标注嵌入提供到所述条件随机场层的指令。
CN201980033655.XA 2018-04-19 2019-04-18 具有用于文本注释的演变领域特异性词典特征的机器学习模型 Pending CN112154509A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201862659998P 2018-04-19 2018-04-19
US62/659,998 2018-04-19
PCT/EP2019/060212 WO2019202136A1 (en) 2018-04-19 2019-04-18 Machine learning model with evolving domain-specific lexicon features for text annotation

Publications (1)

Publication Number Publication Date
CN112154509A true CN112154509A (zh) 2020-12-29

Family

ID=66251793

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980033655.XA Pending CN112154509A (zh) 2018-04-19 2019-04-18 具有用于文本注释的演变领域特异性词典特征的机器学习模型

Country Status (5)

Country Link
US (1) US20210232768A1 (zh)
EP (1) EP3782159A1 (zh)
JP (1) JP2021522569A (zh)
CN (1) CN112154509A (zh)
WO (1) WO2019202136A1 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11431741B1 (en) * 2018-05-16 2022-08-30 Exabeam, Inc. Detecting unmanaged and unauthorized assets in an information technology network with a recurrent neural network that identifies anomalously-named assets
GB201815664D0 (en) * 2018-09-26 2018-11-07 Benevolentai Tech Limited Hierarchical relationship extraction
JP7358748B2 (ja) * 2019-03-01 2023-10-11 富士通株式会社 学習方法、抽出方法、学習プログラムおよび情報処理装置
US11625366B1 (en) 2019-06-04 2023-04-11 Exabeam, Inc. System, method, and computer program for automatic parser creation
US11409743B2 (en) * 2019-08-01 2022-08-09 Teradata Us, Inc. Property learning for analytical functions
US11966964B2 (en) * 2020-01-31 2024-04-23 Walmart Apollo, Llc Voice-enabled recipe selection
US11956253B1 (en) 2020-06-15 2024-04-09 Exabeam, Inc. Ranking cybersecurity alerts from multiple sources using machine learning
WO2022087497A1 (en) * 2020-10-22 2022-04-28 Assent Compliance, Inc. Multi-dimensional product information analysis, management, and application systems and methods
CN115757325B (zh) * 2023-01-06 2023-04-18 珠海金智维信息科技有限公司 一种xes日志智能转换方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201714917D0 (en) * 2017-09-15 2017-11-01 Spherical Defence Labs Ltd Detecting anomalous application messages in telecommunication networks
CN107797992A (zh) * 2017-11-10 2018-03-13 北京百分点信息科技有限公司 命名实体识别方法及装置
US20180082197A1 (en) * 2016-09-22 2018-03-22 nference, inc. Systems, methods, and computer readable media for visualization of semantic information and inference of temporal signals indicating salient associations between life science entities
CN107836000A (zh) * 2015-07-07 2018-03-23 触摸式有限公司 用于语言建模和预测的改进的人工神经网络

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107836000A (zh) * 2015-07-07 2018-03-23 触摸式有限公司 用于语言建模和预测的改进的人工神经网络
US20180082197A1 (en) * 2016-09-22 2018-03-22 nference, inc. Systems, methods, and computer readable media for visualization of semantic information and inference of temporal signals indicating salient associations between life science entities
GB201714917D0 (en) * 2017-09-15 2017-11-01 Spherical Defence Labs Ltd Detecting anomalous application messages in telecommunication networks
CN107797992A (zh) * 2017-11-10 2018-03-13 北京百分点信息科技有限公司 命名实体识别方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JASON P.C. CHIU 等: ""Named Entity Recognition with Bidirectional LSTM-CNNs"", 《TRANSACTIONS OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》, vol. 4, pages 357 - 370, XP055607308, DOI: 10.1162/tacl_a_00104 *
MARYAM HABIBI等: ""Deep learning with word embedd ings improves biomedic al named entity recog nition"", 《BIOINFORMATICS》, vol. 33, no. 14, pages 37 *
SHOTARO MISAWA 等: ""Character-based Bidirectional LSTM-CRF with words and characters for Japanese Named Entity Recognition"", 《PROCEEDINGS OF THE FIRST WORKSHOP ON SUBWORD AND CHARACTER LEVEL MODELS IN NLP》, pages 97 - 102 *

Also Published As

Publication number Publication date
EP3782159A1 (en) 2021-02-24
US20210232768A1 (en) 2021-07-29
WO2019202136A1 (en) 2019-10-24
JP2021522569A (ja) 2021-08-30

Similar Documents

Publication Publication Date Title
CN112154509A (zh) 具有用于文本注释的演变领域特异性词典特征的机器学习模型
US9633006B2 (en) Question answering system and method for structured knowledgebase using deep natural language question analysis
Zhao et al. Disease named entity recognition from biomedical literature using a novel convolutional neural network
Chen et al. Automatic ICD-10 coding algorithm using an improved longest common subsequence based on semantic similarity
CN111611775B (zh) 一种实体识别模型生成方法、实体识别方法及装置、设备
CN111832307A (zh) 一种基于知识增强的实体关系抽取方法及系统
Gordin et al. Reading Akkadian cuneiform using natural language processing
Wan et al. A self-attention based neural architecture for Chinese medical named entity recognition
CN112287664B (zh) 文本指标数据解析方法、系统及相应设备和存储介质
CN113707307A (zh) 病情分析方法、装置、电子设备及存储介质
Nishida et al. Unsupervised discourse constituency parsing using Viterbi EM
Polignano et al. Comparing Transformer-based NER approaches for analysing textual medical diagnoses.
Adduru et al. Towards Dataset Creation And Establishing Baselines for Sentence-level Neural Clinical Paraphrase Generation and Simplification.
Sahala Contributions to computational assyriology
Detroja et al. A survey on relation extraction
CN112800244B (zh) 一种中医药及民族医药知识图谱的构建方法
WO2020069048A1 (en) Reinforcement learning approach to modify sentence reading grade level
Sornlertlamvanich et al. Thai Named Entity Recognition Using BiLSTM-CNN-CRF Enhanced by TCC
Neuraz et al. The Impact of Specialized Corpora for Word Embeddings in Natural Langage Understanding.
Zhu et al. Unsupervised chunking based on graph propagation from bilingual corpus
Romero et al. Information extraction in handwritten marriage licenses books
Silfverberg et al. Automatic morpheme segmentation and labeling in universal dependencies resources
Afzal et al. Multi-Class Clinical Text Annotation and Classification Using Bert-Based Active Learning
Attardi et al. UniPi: Recognition of mentions of disorders in clinical text
Magistry Languages (s) of the SHUN-PAO, a Computational Linguistics account

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination