CN109690577A - 利用堆叠式自动编码器进行的半监督式分类 - Google Patents

利用堆叠式自动编码器进行的半监督式分类 Download PDF

Info

Publication number
CN109690577A
CN109690577A CN201780054591.2A CN201780054591A CN109690577A CN 109690577 A CN109690577 A CN 109690577A CN 201780054591 A CN201780054591 A CN 201780054591A CN 109690577 A CN109690577 A CN 109690577A
Authority
CN
China
Prior art keywords
machine learning
learning model
encoder
sentence
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201780054591.2A
Other languages
English (en)
Inventor
R·加艾尼
S·S·阿尔哈桑
O·F·法里
K·李
V·达特拉
A·卡迪尔
柳俊毅
A·普拉卡什
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of CN109690577A publication Critical patent/CN109690577A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本文中描述的技术涉及用于预测和其他用途的堆叠式自动编码器和其他分类器的半监督式训练和应用。在各种实施例中,可以训练半监督式模型(108)以用于句子分类,并且可以将本文中提到的“残余堆叠式去噪自动编码器”(“RSDA”)(220)(其可以是无监督式的)与诸如分类神经网络(例如,多层感知机或“MLP”)的监督式分类器(218)进行组合。在各种实施例中,RSDA可以是堆叠式去噪自动编码器,其可以包括或者可以不包括一个或多个残余连接。如果存在残余连接,则残余连接可以帮助RSDA“记住”跨多层的遗忘信息。在各种实施例中,半监督式模型可以同时利用未标记的数据(用于RSDA)和标记的数据(用于分类器)来训练。

Description

利用堆叠式自动编码器进行的半监督式分类
技术领域
本文中描述的各种实施例总体上涉及人工智能。更具体地但非排他性地,本文中公开的各种方法和装置涉及用于预测和其他用途的堆叠式自动编码器和其他分类器的半监督式训练和应用。
背景技术
基于深度学习的分类方法通常依赖于大量标记的数据。然而,采集标记的数据成本很高,这限制了研究人员将这些技术应用于许多自然语言处理任务。当前用于深度学习的半监督式方法主要使用未标记的数据来学习单词嵌入,然后将这些单词嵌入用于监督式分类,但是这些学习的向量并不直接受益于监督。半监督式学习旨在通过利用未标记的数据和标记的数据两者来提高监督式方法的性能。已经有一些有限的尝试使用深度学习进行半监督式句子分类,例如,使用卷积神经网络(“CNN”)和/或长短期记忆网络(“LSTM”)从未标记的训练数据中学习单词嵌入,然后利用这些嵌入进行监督式分类。虽然这些努力可以减轻句子分类任务中的某些错误,但是仍然存在两个主要缺陷。首先,到目前为止,这些方法仅关注单个句子分类的简单情况。其次,这种尝试主要涉及使用未标记的数据进行单词嵌入提取,然后在流水线环境中进行监督式分类。因此,它们无法从未标记的数据和标记的数据两者中联合地学习区别特征。
发明内容
本公开涉及用于预测和其他用途的堆叠式自动编码器和其他分类器/模型的半监督式训练和应用的方法和装置。例如,本文中描述的是用于句子分类的半监督式模型,其将本文中提到的“残余堆叠式去噪自动编码器”(“RSDA”)(其可以是无监督式的)与诸如分类神经网络(例如,多层感知机或“MLP”)的监督式分类器进行组合。在各种实施例中,RSDA可以是堆叠式去噪自动编码器,其可以包括或者可以不包括一个或多个残余连接。如果存在残余连接,则残余连接可以帮助RSDA“记住”跨多层的遗忘信息。在各种实施例中,半监督式模型可以同时利用未标记的数据(用于RSDA)和标记的数据(用于分类器)来训练。
一旦被训练,半监督式模型的一个或多个部分就可以用于各种分类任务,包括但不限于释义识别、(例如电影评论、音乐评论、书籍评论、产品评论等的)情感检测、主观性分类以及句子蕴涵。例如,在一些实施例中,在RSDA被训练之后,可以丢弃(或忽略)自动编码器的一个或多个解码器层。RSDA的一个或多个剩余编码器层可以用于生成例如句子嵌入的编码的嵌入,其可以作为输入被应用到分类器(例如,应用在分类神经网络上)以预测与上述分类任务中的一个或多个分类任务相关联的一个或多个标记。虽然本文中描述的技术可用于预测任何数量的领域中的标记,但是本文中描述的一些实施例涉及从自由形式的临床记录中预测诊断和/或其他结果。
总体上,在一个方面中,一种方法可以包括:在嵌入机器学习模型上应用第一多个句子作为未标记的训练数据以生成多个句子嵌入;在自动编码器机器学习模型上应用所述多个句子嵌入作为输入以训练所述自动编码器机器学习模型,其中,所述自动编码器机器学习模型包括一个或多个编码器层和一个或多个解码器层;在编码器机器学习模型的一个或多个实例上应用第二多个句子作为标记的训练数据以生成多个编码的嵌入,其中,所述第二多个句子与对应的多个标记相关联,并且其中,所述编码器机器学习模型包括所述自动编码器机器学习模型的所述一个或多个编码器层;在分类器上应用所述多个编码的嵌入作为标记的训练数据以生成输出;以及基于所述输出和所述多个标记来训练所述分类器以利用所述多个标记中的一个或多个标记对后续句子进行分类。
在各种实施例中,所述嵌入机器学习模型可以包括skip-thoughts模型。在各种实施例中,所述一个或多个编码器层可以包括多个编码器层的序列,并且所述一个或多个解码器层包括对所述多个编码器层的序列进行镜像的多个解码器层的序列。在各种实施例中,所述自动编码器机器学习模型可以包括一个或多个残余连接。在各种实施例中,所述一个或多个残余连接可以包括所述多个编码器层的序列中的最后的编码器层与所述多个解码器层的序列中的最后的解码器层之间的残余连接。
在各种实施例中,所述嵌入机器学习模型可以包括卷积神经网络。在各种实施例中,所述分类器可以包括多层感知机和softmax层。在各种实施例中,所述第一多个句子和所述第二多个句子可以包括自由形式的临床记录,并且所述多个标记包括与所述自由形式的临床记录相关联的多个诊断。
应当认识到,以下更详细讨论的前述构思和额外构思的所有组合(假设这些构思并不相互矛盾)被预见为本文中公开的本发明主题的部分。特别地,出现在本公开结尾的要求保护的主题的所有组合都被预见为本文中公开的本发明主题的部分。还应当认识到,本文中明确采用的也可以出现在通过引用并入的任何公开中的术语应当被赋予与本文中公开的特定构思最一致的含义。
附图说明
在附图中,类似的附图标记在不同的视图中通常指代相同的部分。而且,附图不一定是按比例绘制的,而是通常将重点放在说明本文中描述的实施例的各种原理上。
图1在高层次上示意性图示了根据各种实施例的各种部件如何相互作用。
图2比图1稍微更详细地示意性图示了根据各种实施例的本文中描述的各种部件可以如何相互作用。
图3比图1或图2更详细地示意性图示了根据各种实施例的RSDA可以如何被配置的一个示例。
图4描绘了根据各种实施例的可以被采用的卷积神经网络架构的示例。
图5描绘了根据各种实施例的经训练的半监督式模型可以如何被用于执行对句子对的分类的一个示例。
图6描绘了根据各种实施例的用于实践本公开的选定方面的示例方法。
图7描绘了根据各种实施例的示例计算机架构。
具体实施方式
基于深度学习的分类方法通常依赖于大量标记的数据。然而,采集标记的数据成本很高,这限制了研究人员将这些技术应用于许多自然语言处理任务。当前用于深度学习的半监督式方法主要使用未标记的数据来学习单词嵌入,然后将这些单词嵌入用于监督式分类,但是这些学习的向量并不直接受益于监督。半监督式学习旨在通过利用未标记的数据和标记的数据两者来提高监督式方法的性能。已经有一些有限的尝试使用深度学习进行半监督式句子分类,例如,使用卷积神经网络(“CNN”)和/或长短期记忆网络(“LSTM”)从未标记的训练数据中学习单词嵌入,然后利用这些嵌入进行监督式分类。虽然这些努力可以减轻句子分类任务中的某些错误,但是仍然存在两个主要缺陷。首先,到目前为止,这些方法仅关注单个句子分类的简单情况。其次,这种尝试主要涉及使用未标记的数据进行单词嵌入提取,然后在流水线环境中进行监督式分类。因此,它们无法从未标记的数据和标记的数据两者中联合地学习区别特征。鉴于前述内容,本公开的各种实施例和实施方式涉及用于预测和其他用途的堆叠式自动编码器和其他分类器的半监督式训练和应用。
图1在高层次上示意性图示了根据各种实施例的各种部件如何相互作用。在框106处使用未标记的数据102和标记的数据104两者来训练半监督式模型108。应当理解,当应用于本文中的“模型”时,描述符“半监督式”仅指如何训练模型,并且一旦将模型应用于后续数据以进行预测,则并不一定意味着额外的监督。一旦半监督式模型108被训练,模型输入107就可以被应用到半监督式模型108(例如应用在该半监督式模型上)以生成模型输出109。
模型输出109可以包括各种不同类型的数据,这取决于半监督式模型108被训练的数据和/或模型输入107,例如,各种标记或分类的预测,句子是否是另一句子的释义,一个或多个句子的情感等。例如,在一些实施例中,可以使用标记的和未标记的自由形式的临床记录(其包括例如关于患者的观察,例如,症状、实验室数据、处置、命令等)来训练半监督式模型108。一旦被训练,就可以在半监督式模型108上应用与特定患者相关联的未标记的自由形式的临床记录作为输入107以生成模型输出109,该模型输出包括例如与特定患者相关联的一个或多个诊断预测。
图2比图1更详细地示意性图示了半监督式模型108的部件的视图。在图2中,半监督式模型108包括RSDA 220(其是无监督式的,使用未标记的数据102训练的)和分类器218(其是监督式的,使用标记的数据104训练的)。RSDA 220可以包括句子解码器210、一个或多个编码器层(其在图2中被称为“堆叠式编码器”212)、一个或多个解码器层214(其在图2中被称为“堆叠式解码器”214)以及句子生成器216。更一般地,经训练的模型108可以包括RSDA 220(特别是句子编码器210和堆叠式编码器212)、分类器218,并且另外包括馈送到分类器218中的句子编码器210和堆叠式编码器212的另一实例。一旦图2左侧的句子编码器210和堆叠式编码器212的实例被训练,图2右侧的句子编码器210和堆叠式编码器212的实例就可以与左侧的那些相同(即,共享权重)。
在各种实施例中,句子编码器210可以被配置为基于一个或多个句子或单词的序列的输入,使用各种技术来生成句子嵌入(即,包含在句子级别的有价值信息的固定长度向量表示)。在一些实施例中,句子编码器210可以采用经训练的skip-thought模型的形式,其包括具有门控循环单元(“GRU”)激活的递归神经网络(“RNN”)编码器和具有条件GRU的RNN解码器。可以在各种数据集(例如,书籍的在线语料库)上训练这样的模型。在一些实施例中,可以训练句子编码器210,使得在给定连续句子的三元组(si-1,si,si+1)的情况下,句子编码器210尝试以某种方式编码句子si以生成前一句子(si-1)和后一句子(si+1)。
在各种实施例中,句子编码器210可以包括skip-thought编码器211A、skip-thought解码器211B以及目标函数(图2中未描绘)。对于skip-thought编码器211A,令分别表示句子si中的单词和单词嵌入,其中,N是句子si中的单词的数量。在各种实施例中,句子编码器210的skip-thought编码器211A可以被公式化如下:
rt=σ(Wrxt+Urht-1) (I)
zt=σ(Wzxt+Uzht-1) (2)
其中,W和U表示不同的权重集,r是重置门,z是更新门,表示在时间t时建议的状态更新,ht是在时间t时的输出,并且⊙表示逐元素乘积。
如上所述,句子编码器210的skip-thought解码器211B可以包括GRU,所述GRU可以例如根据编码器输出hi进行调节。在各种实施例中,句子编码器210的skip-thought解码器211B的计算可以类似于句子编码器210的skip-thought编码器211A的计算,除了skip-thought解码器211B可以包括额外的权重集C、Cr和Cz以在GRU计算中利用编码器输出:
与skip-thought编码器211A和skip-thought解码器211B相关联的目标函数可以是以当前句子(si)的编码的表示hi为条件的前一句子(si-1)和后一句子(si+1)的对数概率的总和:
一旦skip-thoughts句子编码器210被编码,在各种实施例中,就可以有效地丢弃skip-thought解码器211B,如通常关于自动编码器常见的。此后,skip-thought编码器211A可以有效地用作将单词(或句子)的序列映射到单词嵌入的序列的查找表。正是这些单词嵌入的序列可以作为输入被提供给RSDA 220的其余部分,特别是被提供给堆叠式编码器212。虽然本文中将skip-thoughts描述为用于生成单词嵌入的序列,但这并不意味着限制。在各种实施例中,可以替代地采用其他类型的模型,例如,与word2vec相关联的那些模型。
回到RSDA 220,在各种实施例中,在给定句子s的情况下,可以使用句子编码器210(更具体地为使用skip-thought编码器211A作为查找表)从数据集102/104提取句子嵌入并将该句子嵌入应用作为在堆叠式编码器212上的输入。在一些实施例中,在应用激活函数并将输出传递到下一层(下面会更详细地描述)之前,可以在堆叠式编码器212的每一层处注入噪声。堆叠式解码器214的每一层可以重建堆叠式编码器212的对应层的无噪声输出。句子生成器216可以被配置为基于来自堆叠式解码器214的输出来重建输入句子s。在来自句子生成器216的输出与原始输入句子s不同的情况下,可以采用各种训练技术(例如反向传播、随机梯度下降等)来调整与堆叠式编码器212和堆叠式解码器214(以及可能还有句子生成器216)相关联的各种权重,以校正错误并训练RSDA 220。
图3比图2更详细地示意性图示了根据各种实施例的RSDA 220可以如何被配置的一个示例。在图3中,如上所述,可以在skip-thought编码器211A上应用单词的序列330(例如,句子)作为输入。skip-thought编码器211A的输出是单词嵌入的序列334。在一些实施例中,可以在一个或多个卷积神经网络336上应用单词嵌入的序列334作为输入以生成输出,在一些实施例中,所述输出可以包括编码的单词嵌入的序列。在图4中描绘并在下文中描述了用于卷积神经网络336的一个示例架构。
接下来,可以提供一个或多个编码器层的序列3381-N(其对应于图2的堆叠式编码器212)以接收由卷积神经网络336生成的输出。如关于自动编码器常见的,一个或多个解码器层的序列3401-N(其对应于图2的堆叠式解码器214)可以跟随编码器层3381-N的序列。虽然描绘了三个编码器和三个解码器,但这并不意味着限制;在各种实施例中,可以采用更多或更少的编码器和/或解码器层。
在解码器层340之后,在一些实施例中,可以在解码器递归神经网络342上应用来自最后的解码器层340N的输出作为输入以生成另一单词嵌入的序列344。然后可以将该单词嵌入的序列344传递到softmax层346,其继而可以输出单词的序列348。目标是确保单词的序列348与单词的序列330相同(即,被重建)。在训练期间,在单词的序列348、330不同的情况下,可以采用各种优化技术(例如,反向传播、随机梯度下降等)来调整与RSDA220的各个层相关联的权重。
在一些实施例中,为了改善编码和解码过程,可以例如在3501处从第一编码器层3381向最后的编码器层338N(编码嵌入)并且/或者在3502处从最后的编码器层338N到最后的解码器层340N提供一个或多个残余连接3501-2(重建的嵌入)。残余连接350可以帮助网络记住否则可能跨多个堆叠层逐渐消散的重要信息。在一些实施例中,当在层中存在残余连接350时,可以将到该层中的输入与(残余连接的)对应层输出和前一层输出相连接。图3中描绘的残余连接仅是示例;可以在各个层之间采用更多、更少和/或不同的残余连接。
在一些实施例中,RSDA 220可以在数学上被公式化如下:
其中,φ是激活,并且hl-1是层l的输入,其当层l中存在残余连接时是两个不同层输出的连接。和hi分别是无噪声预激活、噪声预激活和层l的输出。σ2的值可以是模型的超参数,其能够基于经验数据手动选择、自动选择等。
返回参考图2,经训练的模型108的监督式部件(分类器218)可以是机器学习模型,例如,多层感知机(“MLP”)、朴素贝叶斯分类器、k最邻近分类器、支持向量机等。在各种实施例中,可以在分类器218上应用由(现在训练的)堆叠式编码器212的一个或多个实例生成的编码的句子嵌入以生成一个或多个预测的标记。分类器218可以用于各种分类任务,包括但不限于例如对单个句子的分类(例如,电影评论情感检测)或对句子对的分类(例如,释义检测)。
在各种实施例中,分类器218可以是一层分类器,但是在所有实施例中并不都需要这样。例如,在一些实施例中,单层分类器可以被公式化如下:
其中,oc是分类器218的输出。
关于目标函数,在一些实施例中,RSDA 220可以在堆叠式解码器214的每个解码器层340处使用均方误差。在一些实施例中,可以使用在softmax层之上具有L1和L2正则化的交叉熵来训练分类器218。因此,分类器218的目标函数可以是均方误差与具有正则化项的交叉熵的加权求和,例如如下:
其中,L是编码器和解码器中的层数,X表示分类器输入,Ws表示softmax层的权重,λ、α和β是成本函数中控制成本函数中的每个项的影响的超参数。
图4描绘了根据各种实施例的可以被采用的卷积神经网络架构的一个示例,该卷积神经网络架构用于例如通过图3中的卷积神经网络336来生成用于堆叠式编码器212的输入(例如,编码的单词嵌入的序列)。具有W窗口大小(“CNN-W”)的一对卷积神经网络4501和4502可以各自接收句子(即,单词的序列)作为输入。在各种实施例中,CNN-W 4501和4502可以一起生成每个CNN-W的个体输出的连接作为输出。该连接数据可以作为输入被应用在一个或多个双向递归神经网络(“BI-RNN”)的序列4521和4522上。BI-RNN 4521和4522继而可以生成可能比原始输入句子更有意义的输出。虽然在图4中描绘了两个BI-RNN,但是应当理解,可以采用任何数量的BI-RNN的序列或堆叠。
在一些实施例中,可以将由BI-RNN 4521和4522生成的输出作为输入而应用本文中有时提到的“压配器”454上,以根据表示的序列来生成句子的向量表示(或嵌入)。在各种实施例中,压配器454可以应用于由BI-RNN 4521和4522生成的输出的序列上的每个表示的每个特征。在各种实施例中,由压配器采用的函数可以是例如最大值、最小值、平均值、最后值等。
图5描绘了与堆叠式解码器214分开的图2的堆叠式编码器212可以如何被应用于使用两个句子作为输入的成对分类(例如,释义检测)的一个示例。在给定一对句子(单词的序列)3301和3302的情况下,可以使用(例如从预先训练的skip-thoughts模型获得的)skip-thought编码器211A来提取句子嵌入。然后,两个提取的句子嵌入可以作为输入被应用在两个堆叠式编码器212(其可以共享权重)上以提取它们的编码的嵌入。
分类器218采用完全连接的神经网络的形式,其包括一个或多个隐藏层560和softmax层562。编码器输出的连接(即,来自最后的编码器层338N的输出)可以作为输入被应用到分类器218,以例如根据上述公式(14)-(17)来确定每个类别在给定输入集合的情况下的条件概率:P(y/X)。
图6描绘了根据各种实施例的用于实践本公开的选定方面的示例方法600。为方便起见,参考执行操作的系统来描述流程图的操作。该系统可以包括各种计算机系统的各种部件,包括700。此外,虽然方法600的操作以特定顺序示出,但这并不意味着限制。可以对一个或多个操作进行重新排序,省略或添加一个或多个操作。
在框602处,该系统可以在经训练的嵌入机器学习模型上应用第一多个句子例如作为未标记的训练数据以生成多个单词嵌入的序列(例如,334)。如上所述,嵌入机器学习模型可以采用各种形式,例如,经训练的skip-thought模型(例如,skip-thought编码器211A)或经训练的word2vec编码器。
在框604处,该系统可以在自动编码器机器学习模型(例如,RSDA 220)上应用多个句子嵌入作为输入以训练自动编码器机器学习模型。在各种实施例中,自动编码器机器学习模型可以包括一个或多个编码器层(例如,3381-N)和一个或多个解码器层(例如,3401-N)。尽管未在图6中描绘,但是在一些实施例中,可以将单词嵌入的序列作为输入而应用在卷积神经网络(例如,336)上以生成编码的嵌入,并且这些编码的嵌入可以作为输入而被应用在自动编码器机器学习模型上。
在框606处,该系统可以在编码器机器学习模型(例如,堆叠式编码器212,包括编码器层3381-N)的一个或多个实例上应用第二多个句子例如作为标记的训练数据以生成多个编码的嵌入。在各种实施例中,第二多个句子可以与对应的多个标记(例如,诊断、预测、分类等)相关联。如上所述,编码器机器学习模型可以包括RSDA 220的一个或多个编码器层3381-N,并且可以丢弃解码器层3401-N
在框608处,该系统可以在分类器(例如,218)上应用由编码器机器学习模型生成的多个编码的嵌入作为标记的训练数据以生成输出。在各种实施例中,在框610处,可以使用该输出以及例如多个标记来训练分类器(例如,218)以利用多个标记中的一个或多个标记对后续句子进行分类。
框612-614展示了可以在临床背景中用于预测诊断的任选操作。这并不意味着限制,并且应当理解,所公开的技术可以用于各种额外用途。在框612处,该系统可以将与给定患者相关联的给定自由形式的临床记录作为输入(例如,107)而应用在半监督式模型(例如,108)上以生成输出(例如,109),所述输出例如可以包括基于给定自由形式的临床记录预测的一个或多个诊断。如上所述,半监督式模型(例如,108)可以包括无监督式部分(例如,RSDA 220的编码器堆叠212)和监督式部分(例如,分类器218)。在各种实施例中,可以包括RSDA220的堆叠式编码器212(例如在训练之后丢弃堆叠式解码器214)的前述编码器机器学习模型可以被馈送到分类器(例如,218)中,如图5中所描绘的。
在框614处,该系统可以提供指示在框612处生成的一个或多个预测的输出。例如,在一些实施例中,可以在显示设备上或在打印到纸张上的报告上呈现一个或多个预测的诊断(或结果)。在一些实施例中,所呈现的预测的诊断中的一个或多个预测的诊断可以包括基于先前描述的softmax函数所确定的概率。在一些实施例中,如果特定诊断的概率满足阈值,则可以将该特定诊断比其他诊断更显著地(例如,粗体、更大的文本、不同的颜色等)呈现,并且/或者如果预测的诊断需要立即关注,则可以触发警报。在一些实施例中,例如响应于临床医生在医院信息系统中提交EHR,可以自动确定预测的诊断。在一些这样的实施例中,可以例如立即或稍后某个时间通过电子邮件或其他消息手段在显示设备上向临床医生通知预测的诊断。
下面的表1描绘了与其他技术相比,使用各种参数和/或通过以各种方式实施本公开的选定方面来应用本文中描述的技术的示例结果。利用500和1000个标记的样品进行测试,这两者都具有预定义的开发集和测试集。
表格1
对于设计选择实验,将学习率设定为0.01,并且最多在400个次数内训练模型。
噪声测试从没有残余连接的简单模型开始。定义了五种不同的设置(如上表1所示)以研究所有模型中的噪声的影响。在所有情况下,噪声是来自(0;0:5)分布的随机变量。在第一设置“无噪声”中,没有噪声被注入到任何层中。在第二设置“输入噪声”中,句子嵌入的损坏的且有噪声的版本被注入到网络。在第三设置“编码器噪声”中,噪声被注入到输入层并且也被注入到所有编码器层。在第四设置“解码器噪声”中,噪声被注入到网络的无监督部分的所有层(输入、编码器和解码器)。在第五设置“全噪声”中,噪声被注入到半监督式模型(108)的所有层中,包括分类器218的层。假设向网络注入噪声可能会得到对不可见的数据实现更好性能的更鲁棒的模型。上表1中的结果证实了这种预期。然而,似乎向分类器部分(全噪声)注入噪声并不是非常有用,并且解码器噪声是最佳设置。
转向正则化,尝试了多种正则化方法:“正则化残余”、“L2残余”和“无正则化残余”。对于“正则化残余”,使用配备有L1和L2正则化器的残余模型。对于“L2残余”,使用配备有L2正则化器的残余模型。对于“无正则化残余”,使用没有L1和L2正则化器的残余模型。L1和L2正则化器用于softmax权重以控制它们。L1正则化倾向于使权重为零,而L2正则化倾向于使权重接近于零。基于表1中的实验结果,当使用500个标记的示例时,使用L1和L2正则化器两者是有帮助的,因为当可获得的数据较少时,对权重施加了更多限制。但是在1000个标记的示例的情况下,不需要强制权重为零,而只需保持它们相对较低就足以获得良好的结果。
转向残余连接选择,全噪声模型与正则化残余模型之间的唯一区别是在正则化残余模型中具有残余连接。添加残余连接有助于网络记住会在模型(RSDA 220)的层上遗忘的重要信息。表1表明,当使用500个标记的示例和1000个标记的示例时,利用残余连接来增强模型将会使测试集的准确度分别提高0.89%和0.83%,这是显著的改进。仅通过引入残余连接就可以提高模型的性能证明了RSDA 220的有效性和功能性。
转向激活,网络中的激活函数可以基于任务和数据集的类型而变化。通常,ReLU对图像表现出的性能非常好,而tanh对文本数据表现出的性能更好。还研究了不同激活函数的作用。“正则化残余”是使用tanh激活函数的残余模型。“线性正则化”是使用线性激活函数的残余模型。“ReLU正则化”是使用ReLU激活函数的残余模型。“Sigmoid正则化”是使用Sigmoid激活函数的残余模型。根据表1,线性正则化在所有模型中表现出的性能最差。由于Sigmoid正则化的非线性,Sigmoid正则化的性能优于ReLU正则化的性能。文本数据(例如,单词嵌入)呈现出n维空间,其中,使用正数和负数范围的实数,但是ReLU和Sigmoid将它们的输入映射到正实数的范围。由于这种限制,在使用tanh激活函数的正则化残余中实现了更好的结果。
最后,转向应用于分类器218的输入,尝试了测试用例的各种组合:
SimpleIn:
AugProdIn:
AugAbsIn:
AbsProdIn:
正则化残余:
在这些测试用例中,u和v是编码器输入,并且和⊙分别表示连接和逐元素乘积。表1中的结果证明了|u-v|作为分类器的输入的重要性。结果还表明,所提取的句子嵌入携带针对分类器的必要信息,因为句子嵌入的绝对差异显著地帮助分类器做出关于给定句子的蕴涵的决定。术语(u⊙v)不是非常有用,在没有|u-v|的情况下尤为如此。它只会增加学习函数的复杂性和模糊性。当使用1000个标记的示例时,网络能够解决这种模糊性以获得更好的准确性。
图7是示例计算机系统710的框图。计算机系统710通常包括至少一个处理器714,该至少一个处理器经由总线子系统712与多个外围设备通信。如本文中所使用的,术语“处理器”将被理解为包含能够执行归因于本文中描述的部件的各种功能的各种设备,例如,微处理器、GPU、FPGA、ASIC、其他类似设备及其组合。这些外围设备可以包括数据保留子系统724,包括例如存储器子系统725和文件存储子系统726、用户接口输出设备720、用户接口输入设备722以及网络接口子系统716。输入设备和输出设备允许用户与计算机系统710交互。网络接口子系统716提供到外部网络的接口并且被耦合到其他计算机系统中的对应接口设备。
用户接口输入设备722可以包括键盘、指示设备(例如鼠标、轨迹球、触摸板或图形输入板)、扫描仪、并入到显示器中的触摸屏、音频输入设备(例如,语音识别系统、麦克风和/或其他类型的输入设备)。通常,对术语“输入设备”的使用旨在包括将信息输入到计算机系统710中或通信网络上的所有可能类型的设备和方式。
用户接口输出设备720可以包括显示子系统、打印机、传真机或非视觉显示器(例如,音频输出设备)。显示子系统可以包括阴极射线管(CRT)、平板设备(例如,液晶显示器(LCD))、投影设备或用于创建可见图像的一些其他机构。显示子系统还可以例如经由音频输出设备来提供非视觉显示。通常,对术语“输出设备”的使用旨在包括将信息从计算机系统710输出到用户或另一机器或计算机系统的所有可能类型的设备和方式。
数据保留系统724存储提供本文中描述的一些或所有模块的功能的编程和数据结构。例如,数据保留系统724可以包括执行图1-5的选定方面以及实施方法600的选定方面的逻辑功能。
这些软件模块通常由处理器714单独运行或与其他处理器组合运行。存储子系统中使用的存储器725能够包括多个存储器,多个存储器包括用于在程序运行期间存储指令和数据的主随机存取存储器(RAM)730、存储固定指令的只读存储器(ROM)732以及其他类型的存储器,例如,指令/数据高速缓存(其可以额外地或备选地与至少一个处理器714集成在一起)。文件存储子系统726能够为程序和数据文件提供永久存储,并且可以包括硬盘驱动器、软盘驱动器以及相关联的可移动介质、CD-ROM驱动器、光盘驱动器或可移动介质盒。实施某些实施方式的功能的模块可以由文件存储子系统726存储在数据保留系统724中,或者存储在能由(一个或多个)处理器714访问的其他机器中。如本文中所使用的,术语“非瞬态计算机可读介质”将被理解为包括易失性存储器(例如,DRAM和SRAM)和非易失性存储器(例如,闪速存储器、磁性存储设备和光学存储设备)两者,但是不包括瞬态信号。
总线子系统712提供用于使计算机系统710的各种部件和子系统按预期与彼此通信的机制。虽然总线子系统712被示意性示为单个总线,但总线子系统的替代性实施方式可以使用多个总线。在一些实施例中,特别是在计算机系统710包括经由一个或多个网络连接的多个个体计算设备的情况下,可以利用有线或无线网络连接添加和/或替换一个或多个总线。
计算机系统710能够是各种类型的,包括工作站、服务器、计算集群、刀片服务器、服务器农场,或任何其他数据处理系统或计算设备。在一些实施例中,计算机系统710可以被实施在云计算环境中。由于计算机和网络的不断变化的性质,图7中描绘的计算机系统710的描述仅仅旨在作为用于说明一些实施方式的目的的特定示例。计算机系统710的许多其他配置可能具有比图7中描绘的计算机系统更多或更少的部件。
虽然本文中已经描述和说明了若干发明实施例,但是本领域普通技术人员将容易想到用于执行本文中描述的功能并且/或者获得本文中描述的结果和/或一个或多个优点的各种其他手段和/或结构,并且这些变化和/或修改中的每个都被认为是在本文中描述的发明实施例的范围内。更一般地,本领域技术人员将容易理解,本文中描述的所有参数、尺寸、材料和配置均旨在是示例性的,并且实际的参数、尺寸、材料和/或配置将取决于使用本发明的教导的一个或多个特定应用。本领域技术人员将认识到或者能够使用不超过常规实验来确定本文中描述的特定的发明实施例的许多等同方案。因此,应当理解,前述实施例仅作为示例而呈现,并且在权利要求及其等同方案的范围内,本发明的实施例可以以不同于具体描述和要求保护的方式来实施。本公开的发明实施例涉及本文中描述的每个单独的特征、系统、物品、材料、套件和/或方法。另外,如果这些特征、系统、物品、材料、套件和/或方法不相互矛盾,则两个或更多个这样的特征、系统、物品、材料、套件和/或方法的任何组合都被包括在本公开的发明范围内。
如本文中定义和使用的所有定义均应当被理解为控制在字典定义、通过引用并入的文献中的定义和/或定义的术语的普通含义上。
除非明确指出相反情况,否则如本说明书和权利要求书中使用的词语“一”和“一个”应当被理解为意指“至少一个”。
如本说明书和权利要求书中使用的短语“和/或”应当被理解为意指如此结合的元件中的“任一个或两者”,即,在某些情况下结合存在而在其他情况下分开存在的元件。用“和/或”列出的多个元件应以相同的方式解释,即,如此结合的元件中的“一个或多个”。除了由“和/或”子句具体标识的元件之外,还可以任选地存在其他元件,无论是与具体标识的那些元件相关还是不相关。因此,作为非限制性示例,当与开放式语言(例如,包括)一起使用时,对A和/或B的引用能够在一个实施例中指代仅仅A(任选地包括除B之外的元件);在另一实施例中,指代仅仅B(任选地包括除A之外的元件);在又一实施例中,指代A和B两者(任选地包括其他元件);等等。
如本说明书和权利要求书中使用的,“或”应当被理解为具有与如上文所定义的“和/或”相同的含义。例如,当分隔列表中的项目时,“或”或“和/或”应当被解读为是包含性的,即,包含多个元件或元件列表中的至少一个元件,而且也包括多个元件或元件列表中的多于一个元件,以及(任选地)额外未列出的项。只有术语明确指出相反情况(例如“中的仅一个”或“中的恰好一个”)或者当在权利要求中使用“由……组成”时,“由……组成”将指的是恰好包含多个元件或元件列表中的恰好一个元件。一般而言,当跟有排他性术语(例如,“任一个”、“中的一个”、“中的仅一个”或“中的恰好一个”)时,如本文中使用的术语“或”仅应被解读为表示排他性备选(即,“一个或另一个而不是两者”)。当在权利要求中使用“基本上由……组成”时,该术语应当具有其在专利法领域中使用的普通含义。
如在本说明书和权利要求书中使用的,在引用一个或多个元件的列表时,短语“至少一个”应当被理解为意指选自元件列表中的元件中的任何一个或多个元件中的至少一个元件,但不一定包括元件列表中具体列出的每个元件中的至少一个元件,并且不排除元件列表中的元件的任何组合。任选地,该定义还允许存在除了在短语“至少一个”所指的元件列表内具体标识的元件之外的元件,无论是与具体标识的那些元件相关还是不相关。因此,作为非限制性示例,在一个实施例中,“A和B中的至少一个”(或等效地“A或B中的至少一个”或等效地“A和/或B中的至少一个”)能够指代至少一个(任选地包括多于一个)A,而不存在B(并且任选地包括除B之外的元件);在另一实施例中,能够指代至少一个(任选地包括多于一个)B,而不存在A(并且任选地包括除A之外的元件);在又一实施例中,能够指代至少一个(任选地包括多于一个)A以及至少一个(任选地包括多于一个)B(以及任选地包括其他元件);等等。
还应当理解,除非明确指出相反情况,否则本文中要求保护的包括多于一个步骤或动作的任何方法中,该方法的步骤或动作的顺序不一定限于该方法的步骤或动作被记载的顺序。
在权利要求以及上面的说明书中,所有过渡短语(例如,“包括(comprising)”、“包含”、“携带”、“具有”、“含有”、“涉及”、“持有”、“包括(composed of)”)等应当被理解为开放式的,即意指包括但不限于。只有过渡短语“由……组成”和“基本上由……组成”应当分别被理解为封闭式过渡短语或半封闭式过渡短语,如美国专利局专利审查程序手册第2111.03节所阐述的。应当理解,根据专利合作条约(“PCT”)的规则6.2(b),在权利要求中使用的某些表达和附图标记并不限制范围。

Claims (20)

1.一种方法,包括:
在嵌入机器学习模型(210、211A)上应用(602)第一多个句子(330)作为未标记的训练数据以生成多个句子嵌入(334);
在自动编码器机器学习模型(220)上应用(604)所述多个句子嵌入作为输入以训练所述自动编码器机器学习模型,其中,所述自动编码器机器学习模型包括一个或多个编码器层(338)和一个或多个解码器层(340);
在编码器机器学习模型(212)的一个或多个实例上应用(606)第二多个句子作为标记的训练数据以生成多个编码的嵌入,其中,所述第二多个句子与对应的多个标记相关联,并且其中,所述编码器机器学习模型包括所述自动编码器机器学习模型的所述一个或多个编码器层(338);
在分类器(218)上应用(608)所述多个编码的嵌入作为标记的训练数据以生成输出;以及
基于所述输出和所述多个标记来训练(610)所述分类器以利用所述多个标记中的一个或多个标记对后续句子进行分类。
2.根据权利要求1所述的方法,其中,所述嵌入机器学习模型包括skip-thoughts模型。
3.根据权利要求1所述的方法,其中,所述一个或多个编码器层包括多个编码器层的序列(3381-N),并且所述一个或多个解码器层包括对所述多个编码器层的序列进行镜像的多个解码器层的序列(3401-N)。
4.根据权利要求3所述的方法,其中,所述自动编码器机器学习模型包括一个或多个残余连接(350)。
5.根据权利要求4所述的方法,其中,所述一个或多个残余连接包括所述多个编码器层的序列中的最后的编码器层(338N)与所述多个解码器层的序列中的最后的解码器层(340N)之间的残余连接。
6.根据权利要求1所述的方法,其中,所述嵌入机器学习模型包括卷积神经网络。
7.根据权利要求1所述的方法,其中,所述分类器包括多层感知机和softmax层(562)。
8.根据权利要求1所述的方法,其中,所述第一多个句子和所述第二多个句子包括自由形式的临床记录,并且所述多个标记包括与所述自由形式的临床记录相关联的多个诊断。
9.至少一种非瞬态计算机可读介质,其包括指令,响应于由一个或多个处理器对所述指令的运行,所述指令使所述一个或多个处理器执行以下操作:
在嵌入机器学习模型(210、211A)上应用(602)第一多个句子(330)作为未标记的训练数据以生成多个句子嵌入(334);
在自动编码器机器学习模型(220)上应用(604)所述多个句子嵌入作为输入以训练所述自动编码器机器学习模型,其中,所述自动编码器机器学习模型包括一个或多个编码器层(338)和一个或多个解码器层(340);
在编码器机器学习模型(212)的一个或多个实例上应用(606)第二多个句子作为标记的训练数据以生成多个编码的嵌入,其中,所述第二多个句子与对应的多个标记相关联,并且其中,所述编码器机器学习模型包括所述自动编码器机器学习模型的所述一个或多个编码器层(338);
在分类器(218)上应用(608)所述多个编码的嵌入作为标记的训练数据以生成输出;并且
基于所述输出和所述多个标记来训练(610)所述分类器以利用所述多个标记中的一个或多个标记对后续句子进行分类。
10.根据权利要求9所述的非瞬态计算机可读介质,其中,所述嵌入机器学习模型包括skip-thoughts模型。
11.根据权利要求9所述的非瞬态计算机可读介质,其中,所述一个或多个编码器层包括多个编码器层的序列(3381-N),并且所述一个或多个解码器层包括对所述多个编码器层的序列进行镜像的多个解码器层的序列(3401-N)。
12.根据权利要求11所述的非瞬态计算机可读介质,其中,所述自动编码器机器学习模型包括一个或多个残余连接(350)。
13.根据权利要求12所述的非瞬态计算机可读介质,其中,所述一个或多个残余连接包括所述多个编码器层的序列中的最后的编码器层(338N)与所述多个解码器层的序列中的最后的解码器层(340N)之间的残余连接。
14.根据权利要求9所述的非瞬态计算机可读介质,其中,所述嵌入机器学习模型包括卷积神经网络。
15.根据权利要求9所述的非瞬态计算机可读介质,其中,所述分类器包括多层感知机和softmax层。
16.根据权利要求9所述的非瞬态计算机可读介质,其中,所述第一多个句子和所述第二多个句子包括自由形式的临床记录,并且所述多个标记包括与所述自由形式的临床记录相关联的多个诊断。
17.一种系统,包括一个或多个处理器以及与所述一个或多个处理器可操作地耦合的存储器,其中,所述存储器存储指令,响应于由一个或多个处理器对所述指令的运行,所述指令使所述一个或多个处理器执行以下操作:
在嵌入机器学习模型(210、211A)上应用(602)第一多个句子(330)作为未标记的训练数据以生成多个句子嵌入(334);
在自动编码器机器学习模型(220)上应用(604)所述多个句子嵌入作为输入以训练所述自动编码器机器学习模型,其中,所述自动编码器机器学习模型包括一个或多个编码器层(338)和一个或多个解码器层(340);
在编码器机器学习模型(212)的一个或多个实例上应用(606)第二多个句子作为标记的训练数据以生成多个编码的嵌入,其中,所述第二多个句子与对应的多个标记相关联,并且其中,所述编码器机器学习模型包括所述自动编码器机器学习模型的所述一个或多个编码器层(338);
在分类器(218)上应用(608)所述多个编码的嵌入作为标记的训练数据以生成输出;并且
基于所述输出和所述多个标记来训练(610)所述分类器以利用所述多个标记中的一个或多个标记对后续句子进行分类。
18.根据权利要求17所述的系统,其中,所述嵌入机器学习模型包括skip-thoughts模型。
19.根据权利要求17所述的系统,其中,所述一个或多个编码器层包括多个编码器层的序列(3381-N),并且所述一个或多个解码器层包括对所述多个编码器层的序列进行镜像的多个解码器层的序列(3401-N)。
20.根据权利要求19所述的系统,其中,所述自动编码器机器学习模型包括一个或多个残余连接(350)。
CN201780054591.2A 2016-09-07 2017-09-04 利用堆叠式自动编码器进行的半监督式分类 Pending CN109690577A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201662384250P 2016-09-07 2016-09-07
US62/384,250 2016-09-07
PCT/EP2017/072037 WO2018046412A1 (en) 2016-09-07 2017-09-04 Semi-supervised classification with stacked autoencoder

Publications (1)

Publication Number Publication Date
CN109690577A true CN109690577A (zh) 2019-04-26

Family

ID=59856502

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780054591.2A Pending CN109690577A (zh) 2016-09-07 2017-09-04 利用堆叠式自动编码器进行的半监督式分类

Country Status (4)

Country Link
US (1) US11544529B2 (zh)
EP (1) EP3510530A1 (zh)
CN (1) CN109690577A (zh)
WO (1) WO2018046412A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111104516A (zh) * 2020-02-10 2020-05-05 支付宝(杭州)信息技术有限公司 一种文本分类方法、装置及电子设备
CN112149355A (zh) * 2020-09-27 2020-12-29 浙江科技学院 基于半监督动态反馈堆栈降噪自编码器模型的软测量方法

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10572342B2 (en) * 2016-10-24 2020-02-25 SK Hynix Inc. Memory system with LDPC decoder and operating method thereof
WO2018093926A1 (en) * 2016-11-15 2018-05-24 Google Llc Semi-supervised training of neural networks
EP3563302A1 (en) * 2017-04-20 2019-11-06 Google LLC Processing sequential data using recurrent neural networks
KR20190019748A (ko) * 2017-08-18 2019-02-27 삼성전자주식회사 자연어 생성 방법 및 장치
GB2568233A (en) * 2017-10-27 2019-05-15 Babylon Partners Ltd A computer implemented determination method and system
KR102608469B1 (ko) * 2017-12-22 2023-12-01 삼성전자주식회사 자연어 생성 방법 및 장치
KR20190115319A (ko) * 2018-04-02 2019-10-11 필아이티 주식회사 문장을 복수의 클래스들로 분류하는 모바일 장치 및 방법
CN110472251B (zh) * 2018-05-10 2023-05-30 腾讯科技(深圳)有限公司 翻译模型训练的方法、语句翻译的方法、设备及存储介质
GB2577909B (en) 2018-10-10 2020-11-18 Symetrica Ltd Gamma-ray spectrum classification
CN109060347B (zh) * 2018-10-25 2020-01-14 哈尔滨理工大学 基于堆叠消噪自动编码器和门控循环单元神经网络的行星齿轮故障识别方法
US11625573B2 (en) * 2018-10-29 2023-04-11 International Business Machines Corporation Relation extraction from text using machine learning
CN109543727B (zh) * 2018-11-07 2022-12-20 复旦大学 一种基于竞争重构学习的半监督异常检测方法
WO2020094276A1 (en) 2018-11-09 2020-05-14 NEC Laboratories Europe GmbH Method and system for adaptive network intrusion detection
KR102540774B1 (ko) * 2018-12-04 2023-06-08 한국전자통신연구원 서브워드 임베딩 및 스킵서트 기반 문장 임베딩 방법 및 장치
ES2716634B2 (es) * 2018-12-14 2020-11-26 Univ Leon Procedimiento y sistema de generacion de resumenes de texto extractivos utilizando aprendizaje profundo no supervisado y autocodificadores
US11023683B2 (en) * 2019-03-06 2021-06-01 International Business Machines Corporation Out-of-domain sentence detection
EP3939003B1 (en) 2019-03-12 2024-04-03 Bayer HealthCare, LLC Systems and methods for assessing a likelihood of cteph and identifying characteristics indicative thereof
CN113329688B (zh) 2019-09-18 2023-11-28 拜耳公司 用于确定组织体素的特征的方法、系统和计算机可读介质
ES2955349T3 (es) 2019-09-18 2023-11-30 Bayer Ag Predicción de imágenes MRI mediante un modelo de predicción entrenado por aprendizaje supervisado
EP3798911A1 (en) * 2019-09-24 2021-03-31 Robert Bosch GmbH Method and system to classify sensor data with improved training robustness
EP3798918A1 (en) 2019-09-26 2021-03-31 Naver Corporation Using semi-supervised variational autoencoder for wi-fi-based indoor localization
CN110826607A (zh) * 2019-10-24 2020-02-21 北京建筑大学 一种滚动轴承的故障检测方法及装置
DE102020122844A1 (de) * 2019-10-29 2021-04-29 Samsung Electronics Co., Ltd. System und verfahren für tiefgehendes maschinelles lernen für computer-vision-anwendungen
EP4070327A1 (de) 2019-12-05 2022-10-12 Bayer Aktiengesellschaft Unterstützung bei der erkennung von lungenerkrankungen
US11900070B2 (en) * 2020-02-03 2024-02-13 International Business Machines Corporation Producing explainable rules via deep learning
CN111310830B (zh) * 2020-02-17 2023-10-10 湖北工业大学 一种联合收割机堵塞故障诊断系统及方法
WO2021194466A1 (en) * 2020-03-23 2021-09-30 Hewlett-Packard Development Company, L.P. Device failure prediction based on autoencoders
US10963792B1 (en) * 2020-03-26 2021-03-30 StradVision, Inc. Method for training deep learning network based on artificial intelligence and learning device using the same
EP3929937A1 (en) 2020-06-22 2021-12-29 Bayer Aktiengesellschaft Determining the impact of covid-19 progression
US11663486B2 (en) * 2020-06-23 2023-05-30 International Business Machines Corporation Intelligent learning system with noisy label data
EP4016063A1 (de) 2020-12-16 2022-06-22 Bayer Aktiengesellschaft Erzeugen von codes für chemische strukturen aus nmr-spektroskopischen daten
CN113011456B (zh) * 2021-02-05 2022-07-15 中国科学技术大学 用于图像分类的基于类别自适应模型的无监督域适应方法
CN113850028B (zh) * 2021-11-30 2022-03-04 中南大学 基于堆叠异构残差网络的换流阀冷却方式分类方法及装置
EP4202942A1 (de) 2021-12-22 2023-06-28 Bayer Aktiengesellschaft Bereitstellen von informationen zu chemischen verbindungen

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103729459A (zh) * 2014-01-10 2014-04-16 北京邮电大学 一种构建情感分类模型的方法
CN104748962A (zh) * 2015-04-03 2015-07-01 西安交通大学 一种基于堆叠自动编码机的行星齿轮箱智能诊断方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103729459A (zh) * 2014-01-10 2014-04-16 北京邮电大学 一种构建情感分类模型的方法
CN104748962A (zh) * 2015-04-03 2015-07-01 西安交通大学 一种基于堆叠自动编码机的行星齿轮箱智能诊断方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KIROS: "《Skip-Thought Vectors》", 《SKIP-THOUGHT VECTORS》 *
XAVIER GLOROT ET AL: "《Domain Adaptation for Large-Scale Sentiment Classification:A Deep Learning Approach》", 《ICML’11 PROCEEDINGS OF THE 28TH INTERNATIONAL CONFERENCE ON INTERNATIONAL》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111104516A (zh) * 2020-02-10 2020-05-05 支付宝(杭州)信息技术有限公司 一种文本分类方法、装置及电子设备
CN112149355A (zh) * 2020-09-27 2020-12-29 浙江科技学院 基于半监督动态反馈堆栈降噪自编码器模型的软测量方法
CN112149355B (zh) * 2020-09-27 2023-08-22 浙江科技学院 基于半监督动态反馈堆栈降噪自编码器模型的软测量方法

Also Published As

Publication number Publication date
US20190205733A1 (en) 2019-07-04
EP3510530A1 (en) 2019-07-17
WO2018046412A1 (en) 2018-03-15
US11544529B2 (en) 2023-01-03

Similar Documents

Publication Publication Date Title
CN109690577A (zh) 利用堆叠式自动编码器进行的半监督式分类
Rocktäschel et al. Reasoning about entailment with neural attention
JP7072585B2 (ja) 文脈固有の単語ベクトルを用いた自然言語処理
Lake et al. Human-level concept learning through probabilistic program induction
Deng A tutorial survey of architectures, algorithms, and applications for deep learning
Wen et al. Dynamic interactive multiview memory network for emotion recognition in conversation
Zhang et al. Deep learning and SVM‐based emotion recognition from Chinese speech for smart affective services
Alali et al. Narrow convolutional neural network for Arabic dialects polarity classification
Cabada et al. Mining of educational opinions with deep learning
Puscasiu et al. Automated image captioning
Kim et al. Cross-modal distillation with audio–text fusion for fine-grained emotion classification using BERT and Wav2vec 2.0
CN111046157B (zh) 一种基于平衡分布的通用英文人机对话生成方法和系统
Isa et al. CNN comparisons models on dyslexia handwriting classification
US11856038B2 (en) Cognitively learning to generate scripts that simulate live-agent actions and responses in synchronous conferencing
Ilias et al. Context-aware attention layers coupled with optimal transport domain adaptation and multimodal fusion methods for recognizing dementia from spontaneous speech
Shukla et al. Deep Learning in Neural Networks: An Overview
Fayyaz et al. CNN and traditional classifiers performance for sign language recognition
Yang [Retracted] Design of Service Robot Based on User Emotion Recognition and Environmental Monitoring
Wakchaure et al. A scheme of answer selection in community question answering using machine learning techniques
Gupta A review of generative AI from historical perspectives
Kumar et al. Self-attention enhanced recurrent neural networks for sentence classification
Wu et al. Actions as contexts
M'Charrak Deep learning for natural language processing (nlp) using variational autoencoders (vae)
Chintala Understanding natural language with deep neural networks using torch
Deng et al. CodeeGAN: Code generation via adversarial training

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190426