CN111356997A

CN111356997A - 具有颗粒化注意力的层次神经网络

Info

Publication number: CN111356997A
Application number: CN201880064676.3A
Authority: CN
Inventors: 凌媛; S·S·阿尔哈桑; O·F·法里; 柳俊毅
Original assignee: Koninklijke Philips NV
Current assignee: Koninklijke Philips NV
Priority date: 2017-08-03
Filing date: 2018-08-03
Publication date: 2020-06-30
Anticipated expiration: 2038-08-03
Also published as: RU2020109236A3; US11361569B2; US20210089765A1; CN111356997B; WO2019025601A1; RU2020109236A

Abstract

本文所公开的技术涉及生成并且应用颗粒注意力层次神经网络模型以分类文档。在各种实施例中，指示所述文档的数据可以被获得(102)并且使用双粒度注意力机构处理(104)到层次网络模型的两个或更多个层中的第一层中以生成第一层输出数据，其中，双粒度注意力机构更重地加权指示所述文档的数据的一些部分。指示所述文档的数据的一些部分在所述双粒度注意力机构的训练期间被集成到所述层次网络模型中。第一层输出数据可以在所述层次网络模型的两个或更多个层中的第二层中被处理(106)以生成第二层输出数据。分类标签可以根据第二层输出数据来生成(108)。

Description

具有颗粒化注意力的层次神经网络

技术领域

本文所描述的各种实施例总体上涉及自然语言处理。更具体地，但是非专有地，本文中所公开的各种方法和装置涉及具有多粒度注意力机构的层次网络模型。

背景技术

在用于自由文本文档(诸如放射学报告)的分类的常规机器学习方法中，可以执行领域特异性特征工程学以考虑面向任务的关键特征。包括卷积神经网络(“CNN”)和/或递归神经网络(“RNN”)的深度学习技术已经示出针对文本分类的优于常规机器学习方法的经改进的性能。然而，深度神经网络模型通常从纯原始文本数据获悉任务特异性特征并且不基于文档的多个粒度强调重要特征。

发明内容

本公开涉及用于具有用于文档分类的多粒度注意力机构的层次网络模型的方法和装置。在各种实施例中，在各种领域中的文档中发现的固有结构可以使用在层次结构模型中。字符、词语、短语、句子、章节(即，在单个标题下的群组、段落等)等可以基于其相关性被分配不同的权重以准确地分类文档。在一些实施例中，使用具有使用本文所描述的技术学习的权重的层次模型执行文档分类可以促进跨不同粒度的广泛的权重可视化和分析。在各种实施例中，基于颗粒化注意力的层次神经网络(“HNN”-GA)可以使用在文档分类中(例如，放射学报告文档分类、其他文档领域内的分类、模型可以搜索若干粒度水平处的文档的搜索工具等)。HNN-GA可以具有表示不同水平和/或粒度的文档的层次结构。文档水平可以包括字符、词语、短语、句子、章节等。额外地或者备选地，基于词语、短语、句子、段落等的注意力机构可以强调可以在使用HNN-GA的准确分类中扮演角色的信息。

文档的不同粒度水平中的固有结构(诸如字符、词语、句子和章节)具有可以由神经网络分类模型考虑和学习以进一步改进语义丰富的文档(诸如放射学报告)的分类的重要的背景特征。包括深度学习网络模型的许多神经网络模型可以利用注意力机构。通常，注意力机构可以允许网络模型学习以聚焦于模型的特定输入数据。通常，注意力机构是通过参数公式化以聚焦于局部和/或全局特征的接口并且可以通过使用一个或多个表达的计算系统评价。

计算系统可以将本文所描述的技术用于文本处理工作流程中的重复性任务。例如，在放射学工作流程中，本文所描述的技术可以被用于自动生成放射学报告分类以过滤应当被带到放射科医师的注意力的文本放射学报告中的必要信息。这可以使得放射科医师能够将更多努力和认知能力专用于更困难的诊断推理任务。现有的自然语言处理(“NLP”)系统可以使用来自放射学报告分类的词汇线索和背景。这些现有的NLP系统可以提供次优的准确度并且可以具有适于新数据集的困难。另外，基于多粒度的固有文档结构未用在现有框架中。

在许多实施例中，HNN-GA可以包括RNN。额外地或者备选地，HNN-GA可以包括可以用于文本文档分类的一个或多个长短期记忆(“LSTM”)网络(或者在一些情况下，门控递归单元或“GRU”)。在各种实施例中，文档可以作为一组字符提供给HNN-GA。HNN-GA可以经由LSTM网络中的隐藏单元编码字符。字符层处的LSTM网络的输出可以继而使用在HNN-GA中以随后以类似的方式编码词语、句子、章节和文档表示。标记化的词语、短语、句子、章节等可以经由注意力层附接。例如，词语注意力层可以包括在HNN-GA的词语层中以学习权重以理解哪些词语对下层的任务领域更重要。

在一些实施例中，注意力机构可以包括双粒度。换句话说，注意力机构可以包括学习要聚焦于的什么数据来自接收到的输入的注意力历史以及可以包括领域知识的注意力历史的双层(即，第二层)。在一些这样的实施例中，注意力历史的双层可以包括与不同层相关的领域知识。例如，在用于词语层的双粒度注意力历史中，词语注意力可以学习权重以理解对于下层领域的重要词语。例如，在双层注意力历史中，第一注意力机构可以包括词语知识，并且第二注意力机构可以利用与后续层相关的知识领域预填充。例如，用于词语层的双粒度注意力机构中的第二注意力机构可以利用短语领域知识预填充。领域注意力历史可以利用领域相关信息预填充。例如，来自与特定领域有关的一组文档的前N个短语(例如，其可以基于术语频率)可以使用NLP管线提取。

特定短语的存在或不存在可以指示每个文档应当属于领域内的哪个类。例如，通过在短语注意力层中考虑全局短语注意力，根据若干实施例的HNN-GA模型可以更好地执行领域特异性文档分类。在一些这样的实施例中，顶部短语可以用于学习词语和句子水平两者中的基于短语的注意力。额外地或者备选地，类似注意力机构可以被用于学习用于分类的重要的句子和章节。此外，HNN-GA内的层的任何各种组合可以组合以学习多个粒度。换句话说，利用多粒度注意力机构的HNN-GA可以包括超过两层，其中，提高的注意力机构被利用并且不限于两层的网络模型(即，网络模型中的超过两层可以包括多粒度注意力机构)。

在许多实施例中，文档中的不同词语、短语、句子、章节等可以由用于分类的一个或多个注意力机构使用。额外地或者备选地，不同词语、短语、句子、章节等可以在训练网络模型中用于学习用于分类任务的不同权重。HNN-GA网络模型可以利用如适于根据许多实施例的分类任务的一个或多个机器学习算法学习训练阶段中的权重，包括线性回归、逻辑回归、线性判别分析、主成分分析、分类树、回归树、朴素贝叶斯、k最近邻、学习向量量化、支持向量机、装填森林、随机森林、升压、AdaBoost等。在测试阶段期间，HNN-GA模型可以预测用于文档的标签并且可以示出用于文档中的词语、短语、句子、段落、章节等的不同权重。权重可以为分类结果的进一步的理解提供可视化。

通常，在一个方面中，一种方法可以包括：获得指示文档的数据；使用双粒度注意力机构在层次网络模型的两个或更多个层中的第一层中处理指示文档的数据以生成第一层输出数据，其中，所述双粒度注意力机构在第一层中更重地加权指示文档的数据的一些部分，其中，所述一些部分在双粒度注意力机构的训练期间被集成到所述层次网络模型中；在层次网络模型的两个或更多个层中的第二层中处理第一层输出数据以生成第二层输出数据；并且根据第二层输出数据生成分类标签。在各种实施例中，层次网络模型的两个或更多个层包括词语层和句子层。在各种实施例中，层次网络模型的两个或更多个层还包括字符层、章节层和文档层。

在各种实施例中，所述方法还可以包括生成所述分类标签还包括将所述第二层输出数据馈送到柔性最大值函数中。

在各种实施例中，所述方法还可以包括双粒度注意力机构，其还包括注意力历史和领域特异性注意力历史，其中，所述注意力历史与所述层次网络模型的第一水平相对应，并且所述领域特异性注意力历史与所述层次网络模型的第二层相对应。在各种实施例中，双粒度注意力机构可以由一个或多个处理器通过以下公式确定：

e_t＝a(h_t,h′_t)

其中，e是注意力值，a是可学习函数，h是注意力历史，h’是领域特异性注意力历史，α是概率向量，T是总时间步数，t是时间，k是时间，并且c是加权平均值。在各种实施例中，领域特异性注意力预填充有对应于特定领域中的知识的嵌入物。

在各种实施例中，方法还可以包括字符层还包括字符长短期记忆(“LSTM”)层，其中，字符双粒度机构应用于字符LSTM层，词语层还包括词语LSTM层，其中，词语双粒度机构应用于词语LSTM层，句子层还包括句子LSTM层，其中，句子双粒度机构应用于句子LSTM层，并且章节层还包括LSTM层，其中，章节双粒度层应用于章节LSTM层。

另外，一些实施例包括一个或多个计算设备的一个或多个处理器，其中，所述一个或多个处理器可操作以执行存储在相关联的存储器中的指令，并且其中，所述指令被配置为引起前述方法中的任一种的执行。一些实施例还包括一个或多个非瞬态计算机可读存储介质，其存储由一个或多个处理器可执行以执行前述方法中的任一种的计算机指令。

应当意识到，前述概念和以下更详细地讨论的额外概念的所有组合(假如这样的概念不相互矛盾)被预期为本文所公开的发明主题的一部分。特别地，在本公开的末尾出现的要求保护的主题的所有组合被预期为本文所公开的发明主题的一部分。还应当意识到，还可以在通过引用并入的任何公开中出现的在本文中明确地采用的术语应当符合与本文所公开的特定概念最一致的意义。

附图说明

在附图中，相似附图标记通常贯穿不同视图指代相同部分。而且，附图未按比例绘制，而是重点通常在于图示在本文中所描述的实施例的各种原理。

图1A是根据各种实施例的图示执行本公开的选定的方面的范例过程的流程图；

图1B是根据各种实施例的图示执行本公开的选定的方面的另一范例过程的流程图；

图2是根据各种实施例的图示执行本公开的选定的方面的另一范例过程的流程图；

图3、图4、图5和图6是根据各种实施例的图示神经网络模型的范例的示图；

图7是根据各种实施例的图示注意力机构的范例的示图；

图8A和图8B是根据各种实施例的图示文本中的句子水平和词语水平重要性的视觉表示的示图；

图9A和图9B是根据各种实施例的图示使用热图的文本文档中的句子和词语水平重要性的额外视觉表示的示图；

图10是根据各种实施例的图示领域短语和领域短语范例中的词语计数的频率分布的示图；

图11A和图11B是根据各种实施例的图示各种测试数据集中的平均句子数目和平均领域短语数目的分布的示图；

图12A和图12B是根据各种实施例的图示其他模型未能分类的HNN-GA模型正确分类的范例文档的示图；

图13A和图13B是根据各种实施例的图示用于HNN-GA模型的混淆矩阵的示图；

图14A和图14B是根据各种实施例的图示由HNN-GA模型不正确分类的范例文档的示图；

图15A和图15B是根据各种实施例的图示由HNN-GA模型不正确分类的范例文档的示图；并且

图16是描绘范例计算系统架构的示图。

具体实施方式

根据各种实施例的基于颗粒化注意力的层次网络模型(“HNN-GA”)可以将领域水平信息编码到一个或多个注意力机构中。在各种实施例中，HNN-GA可以包括字符层、词语层、句子层、章节层(有时被称为段落层)和文档层。领域特异性信息可以贯穿注意力机构编码在HNN-GA中的各个层中。例如，HNN-GA网络模型可以与文本放射学报告一起用于分类报告是否指示患者具有肺栓塞(“PE”)。在各种实施例中，HNN-GA可以利用不同的深度学习技术，诸如基于递归神经网络(“RNN”)的模型。

在许多实施例中，特定领域(例如，放射学报告)的语义可以通过包括两个或更多个层的HNN-GA来建模，所述层包括字符层、词语层、句子层、章节层和/或文档层的组合。在一些这样的技术中，一个或多个注意力机构可以用在层次网络结构中的一个或多个层处。与经由用于面向产品的情感分类任务的用户-产品注意力机构编码全局用户偏好和产品特性的技术相反，领域短语注意力机构可以通过层次结构编码领域相关知识。

参考图1A，公开了根据许多实施例的用于实践本公开的选定的方面的范例过程100。为了方便起见，参考执行操作的系统描述了流程图的操作。该系统可以包括各种计算系统的各种部件，包括图16中所描述的那些部件。此外，尽管以特定次序示出过程100的操作，但是这不意为限制性的。可以重新排序、省略和/或添加一个或多个操作。

在框102处，可以获得指示文档的数据。在一些实施例中，文档可以是可以由HNN-GA分类的文本文档的字符表示。例如，文档可以是可以分类以识别其是否包含与PE或其他医学状况有关的信息的放射学报告。

在框104处，指示文档的数据可以使用多粒度注意力机构在层次网络模型的两个或更多个层的第一层中处理以生成第一层输出数据。在各种实施例中，层次网络模型的两个或更多个层可以包括字符层、词语层、句子层、章节层(有时被称为段落层)、文档层等。在一些实施例中，一个或多个层可以额外地包括长短期记忆(“LSTM”)网络。多粒度注意力机构可以比其他更重地加权指示文档的数据的一些部分。换句话说，数据的一些部分可以从注意力机构接收提高的注意力；数据的其他部分可以从注意力机构接收降低的注意力。例如，利用本公开的选定的方面配置的HNN-GA可以包括词语层、句子层和/或文档层。利用本公开的选定的方面配置的HNN-GA内的每个层可以包括一个或多个注意力机构。根据若干实施例的HNN-GA的层中的注意力机构的多个粒度内的注意力机构可以利用使用NLP引擎提取的领域词语/短语预填充。

在框106处，输出数据的第一层可以在HNN-GA的两个或更多个层中的第二个中处理以生成第二层输出数据。在框104处，如上文所描述的，HNN-GA的两个或更多个层可以包括字符层、词语层、句子层、章节层(有时被称为段落层)、文档层等。

在框108处，分类标签可以根据第二层输出数据生成。在许多实施例中，柔性最大值(softmax)函数可以被用于生成分类标签。在放射学报告范例中，分类标签可以包括类标签，例如，{PE_阳性,PE_阴性}(其可以指示肺栓塞的存在或不存在)、{PE_急性,PE_慢性}(其可以指示所识别的肺栓塞是极性还是慢性的)。

在框110处，分类标签可以被提供给使用计算系统的用户。在一些实施例中，如下面图8A-9B中所图示的，分配给文本文档的部分的权重的视觉表示可以被提供有针对用户的分类标签，其强调注意力的一个或多个水平。

图1B图示了根据许多实施例的用于实践本公开的选定的方面的范例过程150。为了方便起见，参考执行操作的系统描述了流程图的操作。该系统可以包括各种计算系统的各种部件，包括图16中所描述的部件。此外，尽管以特定次序示出过程150的操作，但是这不意为限制性的。可以重新排序、省略和/或添加一个或多个操作。

在框152处，指示层次网络模型的字符层中的文档的字符表示的数据可以使用字符多粒度注意力机构处理以生成指示词语表示的数据。如上文所描述的，在框104处，多(例如，双)粒度注意力机构可以向数据的一些部分给出比其他更大的权重。在框154处，指示层次网络模型的词语层中的词语表示的数据可以使用词语多粒度注意力机构处理以生成指示句子表示的数据。在框156处，指示层次网络模型的句子层中的句子表示的数据可以使用句子多粒度注意力机构处理以生成指示章节表示的数据。

在框158处，指示层次网络模型的章节层中的章节表示的数据可以使用章节多粒度注意力机构处理以生成指示文档的数据。

在框160处，文档分类标签可以根据指示文档的数据处理。在框162处，文档分类标签可以被提供给使用计算系统的一个或多个用户。如上文在框110中所描述的，文本文档的视觉表示可以基于分类标签被提供给用户。

图2图示了根据许多实施例的用于实践本公开的选定的方面-即训练HNN-GA-的示例过程200。为了方便起见，参考执行操作的系统描述了流程图的操作。该系统可以包括各种计算系统的各种部件，包括图16中所描述的部件。此外，尽管以特定次序示出过程200的操作，但是这不意为限制性的。可以重新排序、省略和/或添加一个或多个操作。

在框202处，可以获得用于文本分类中的指示文档的一组训练数据。该组训练数据包括文档的文本(例如，文本可以以字符格式表示)以及用于文档的对应的已知分类标签。在各种实施例中，一组训练数据可以包括指示许多文档的数据。然而，如果模型学习分类训练数据集并且不能够正确地分类未知数据(有时被称为过度拟合)，则是不期望的。因此，在许多实施例中，该组训练数据仔细地被选择以找到教导网络模型以生成用于训练集中的已知数据的准确的分类标签与选择将训练网络模型以生成用于未来的未知数据的准确的分类标签的训练集之间的平衡。在一些这样的实施例中，具有已知分类标签的第一组训练数据可以被用于训练网络模型，并且具有已知分类标签的第二组已知训练数据(有时被称为测试数据集)可以测试网络模型的准确度。该第二组训练数据(或者测试数据)可以确认网络模型的分类的准确度。额外地或者备选地，“更好的”一组训练数据可以被选择以训练不良地生成测试数据集的分类标签的网络模型。

在框204处，指示领域特异性知识的数据可以任选地在指示文档的一组训练数据上使用自然语言处理来确定。领域特异性知识可以与特定分类任务有关。例如，用于标记指示肺栓塞的放射学报告的分类任务的领域特异性知识可以包括短语“肺栓塞”，通常在医学本体论中表示的个体词语“肺”、“栓塞”或其他临床概念。如“不存在”或个体地“不”、“存在”等的其他一般领域线索还可以帮助分类文档。此外，可以针对HNN-GA的不同水平提取不同的领域特异性知识。例如，用于HNN-GA内的一个层的一组领域知识可以包括词语，而不同的一组领域知识可以包括短语。

在其他实施例中，可以预定用于HNN-GA的领域知识。换句话说，领域特异性知识未从指示文档的一组训练数据提取，而是相反从先前已知的一组数据提取。额外地或者备选地，先前已知的一组数据可以与指示使用自然语言处理技术从该组训练数据提取的领域特异性知识的数据组合。在许多实施例中，领域特异性知识(从一组训练数据先前已知和/或提取的)可以预填充HNN-GA的层中的注意力机构。例如，在双注意力机构中，第二注意力机构可以预填充有领域特异性知识，因此HNN-GA可以在生成用于输入数据的分类标签时向相关领域知识给出提高的注意力。

在框206处，HNN-GA的两个或更多个层可以使用指示文档的一组训练数据训练。在许多实施例中，HNN-GA可以使用反向传播使用一组训练数据训练。反向传播可以包括使用一组训练数据计算HNN-GA内的权重以生成分类标签并且将所生成的分类标签与用于训练数据的已知分类标签进行比较(即，通过网络传播训练数据)。针对HNN-GA中的每个层的权重(和/或网络模型中的每个层内的个体神经元)可以基于所生成的分类标签与已知分类标签之间的差异来更新，并且这些更新的权重可以通过HNN-GA重新分布(即，权重更新)。

在许多实施例中，HNN-GA的一个或多个层内的第一注意力机构可以使用一组训练数据训练。在一些实施例中，一组训练数据可以被用于训练HNN-GA的单层内的多个注意力机构。在其他实施例中，第二注意力机构可以预填充有领域特异性知识(诸如在任选框204中从训练集提取的一组预定知识和/或领域特异性知识)。

图3-图6图示了根据许多实施例的HNN-GA。在一些这样的实施例中，图3-图6图示了使用双粒度注意力机构的文本分类的下游分类任务。换句话说，两层粒度被用于如图3-图6中所图示的注意力机构。然而，这不意为限制性的，并且额外注意力机构可以在合适时用于许多实施例。作为使用放射学报告的说明性范例，根据一些实施例的网络模型的输入可以是放射学报告。输出分类标签可以包括各种放射学相关标签，诸如“肺栓塞存在”、“肺栓塞不存在”、“肺栓塞急性”等。图3图示了图示层次网络的字符层的范例的图像300。图像300包含文本文档的字符表示302。字符表示302可以传递到字符层LSTM 304。字符层注意力机构306可以应用于字符LSTM层304的输出的输出，其可以生成用于词语层中的词语表示308。在许多实施例中，字符层注意力机构306可以学习额外权重以指代哪些字符在当前表示中更重要，使得这些特征可以在预测输出中的类标签时使用。

图4图示了图示利用本公开的选定的方面配置的HNN-GA的词语表示层的范例的图像400。图像400包含类似于由图3中所描绘的词语层生成的文本文档的文本文档的词语表示308。在一些实施例中，每个词语可以由包括多个圆形的垂直框表示，其中，每个圆形可以指代字符表示。词语表示可以作为输入传递到词语层LSTM 402。词语层注意力机构404可以应用于词语层LSTM单元402的输出，其可以生成文本文档的句子表示406。在许多实施例中，词语层注意力机构404可以被用于学习在预测输出中的类标签中重要的词语的额外权重。

图5图示了图示利用本公开的选定的方面配置的HNN-GA的句子表示层的范例的图像500。图像500包含可以由图4中所描述的句子表示层生成的文本文档的句子表示406。在一些实施例中，句子表示406可以指示各自指示具有被指代为每个框内的圆形的词语的字符的词语的一系列框。应当容易意识到，如句子表示406中所图示的三字符词语仅是说明性的，并且词语可以具有任何变化数目的字符。句子表示可以作为输入传递到句子层LSTM502。句子层注意力机构504可以应用于句子层LSTM单元502的输出以生成文本文档的章节表示506。在各种实施例中，句子层注意力机构504可以被用于学习在预测输出中的类标签中重要的句子的额外权重。

图6图示了图示利用本公开的选定的方面配置的HNN-GA的章节表示层的范例的图像600。图像600包含可以由图5中所描述的章节表示层生成的文本文档的章节表示502。章节表示502可以包括各自由具有指代每个词语的字符的圆形的框表示的词语的组合。如上文所描述的，三字符词语的使用仅是说明性范例，并且词语可以具有由每个词语要求的任何各种数目的字符。在许多这样的实施例中，章节表示可以包括许多句子的组合。章节表示506可以作为输入传递到章节层LSTM 602。章节层注意力机构604可以应用于章节层LSTM602的输出以生成文本文档的文档表示606。在一些实施例中，章节层(以及其对应的部件)也可以被称为段落层。在各种实施例中，章节层注意力机构604可以学习在预测用于输入文档的标签的分类中重要的章节的额外权重。文档表示606可以传递到分类函数608以生成分类标签。在许多实施例中，分类函数可以是柔性最大值函数。

图7图示了根据许多实施例的注意力机构。根据许多实施例的HNN-GA的一个或多个水平可以包括双粒度注意力机构。例如，HNN-GA中的句子层可以包括可以针对提高的注意力考虑句子和短语两者的双粒度注意力机构。在一些这样的实施例中，额外注意力历史可以维持并且填充有第二粒度水平中的术语。例如，如果注意力的第一水平是句子水平，则第二粒度可以是短语水平。新注意力历史h_t'可以填充有短语嵌入物。尽管在一些实施例中不一定与额外的隐藏层相关联，但是第二注意力历史h_t'能够使模型向该额外粒度提供注意力并且影响用于每个隐藏层的权重值。在一些实施例中，这些可以是用于HNN-GA的特定应用的领域短语。例如，当HNN-GA被用于解释放射学报告时，领域短语可以包括诸如“肺栓塞”、“无深静脉血栓的证据”等的短语。

在各种实施例中，注意力历史的第一粒度h_t和注意力历史h′_t的第二粒度可以被用于使用以下表达式确定双粒度注意力机构：

e_t＝a(h_t,h′_t) (1)

其中，e是注意力值，a是可学习函数，h是第一粒度注意力历史，h’是第二粒度注意力历史(其在各种实施例中可以是领域特异性注意力历史)，α是概率向量，T是总时间步数，t是时间，k是时间，并且c是加权平均值。

如图700中所图示的，输入句子“我”704、“喜欢”706、“一”708、“匹萨”710可以被接收为双粒度注意力机构的输入。在各种实施例中，诸如“停止”762的专业词汇、短语、字符表示等可以指示句子的结束。在各种实施例中，取决于HNN-GA网络模型的层，可以在文档中的字符之间、在文档中的词语之间、在文档中的章节之间等使用类似指示器。

第一粒度注意力历史712、716、720、724、728和第二粒度注意力历史714、718、722和730可以应用于输入句子。在各种实施例中，第一粒度注意力历史712和第二粒度注意力历史714可以从HNN-GA的句子层中的先前句子接收输入702，并且该先前输入可以由箭头指示。额外地或者备选地，取决于HNN-GA的层，输入702可以表示先前的字符、词语、章节等。在许多实施例中，第一粒度注意力历史716和第二粒度注意力历史718可以接收来自输入句子的输入词语“我”702。类似地，第一粒度注意力历史720和第二粒度注意力历史722可以接收输入词语“喜欢”706。此外，第一粒度注意力历史722和第二粒度注意力历史724可以接收输入词语“一”708。额外地或者备选地，第一粒度注意力历史728和第二粒度注意力历史730可以接收词语“匹萨”710作为输入。第一粒度注意力历史和第二粒度注意力历史的输出被组合在元素734、736、738、740和742中。元素734、736、738、740和742可以以各种方式组合第一粒度注意力历史和第二粒度注意力历史的输出，包括连结注意力历史、将一个注意力历史从另一个注意力历史中提取、乘以注意力历史等。

在各种实施例中，第一粒度注意力历史712的输出和第二粒度注意力历史714的输出可以组合在元素734中。额外地或者备选地，来自先前迭代732的信息可以作为额外输入传递到元素734(即，除来自第一注意力历史712和第二注意力历史714的输出之外)。元素734的输出是输出注意力历史744。在许多实施例中，注意力历史744的输出可以应用于LSTM中的对应的部分以生成HNN-GA中的下一层的表示。在如图像700中所图示的词语层中，输出注意力历史744、746、748、750和752可以应用于词语层LSTM以生成句子表示。

第一粒度注意力历史716的输出和第二粒度注意力历史718的输出可以组合在元素736中。元素736还可以接收来自元素734的输入(即，来自先前词语的信息可以在生成注意力历史输出时传递到下一个词语)。在各种实施例中，元素736的输出可以生成输出注意力历史746，其如上文所描述可以应用于HNN-GA的对应的层的LSTM。类似地，第一粒度注意力机构720的输出和第二粒度注意力机构722的输出和元素736可以组合在元素738中以生成输出注意力历史748。第一粒度注意力机构724的输出和第二粒度注意力机构726的输出可以在元素740中与元素738的输出以生成输出注意力历史750。额外地或者备选地，第一粒度注意力历史728的输出和第二粒度注意力历史730的输出可以在元素742中与元素740的输出组合以生成输出注意力历史752。

图8A和图8B图示了在词语和句子水平处向文本文档中的信息给出的提高的注意力的视觉表示。图8A中的图像802图示了已经分类为具有正PE标签的文本文档。类似地，图8B中的图像850图示了已经分类为具有负PE标签的文本文档。在图8A和图8B两者中，具有分类期间的提高的注意力的词语和/或短语以斜体文本指示。额外地或者备选地，具有甚至更大的权重的词语还被指示为斜粗体文本。例如，在图8A的句子2中，“片状实变”被指示以通过为斜体而具有更高的重要性。此外，“实变”与“片状”相比具有较更高的重要性，因此此外，“实变”是粗体的。类似地，具有提高的注意力的句子通过将句子号加下划线来指示。例如，句子3和4在图8B中加下划线以指示具有更高的句子水平重要性的那些句子。

图9A和图9B图示了在词语和句子水平处向文本文档中的信息给出的提高的注意力的额外视觉表示。图9A中的图像902图示已经分为九个句子的“样本报告”文本文档。图9B中的图像950图示了由向如图9A中所图示的“样本报告”中的词语和句子给出的加权的注意力生成的对应的热图。

在各种实施例中，HNN-GA模型可以专用于特定领域，诸如解释放射学报告。额外地或者备选地，如上文所讨论的，HNN-GA模型可以包括各种层，并且若干实施例中利用的层可以是专门的。在各种实施例中，放射学报告的语义可以通过包括词语水平、句子水平和文档水平表示的层次结构建模。基于领域短语注意力的层次神经网络模型(“DPA-HNN”)(还被称为如上文图3-6中所图示的HNN-GA)可以将临床领域相关短语编码到注意力机构中并且通过包括词语水平、句子水平和文档水平表示的层次结构表示放射学报告。在许多实施例中，与单个注意力机构(诸如使用词语注意力)相比较，领域短语注意力可以在当放射科医师常规地跟随领域特异性注释书写风格时在分类放射学报告中扮演更重要的角色。此外，一些领域短语在放射学文档中频繁出现，从而证明具有领域短语注意力机构的DPA-HNN模型。

尽管递归神经网络(“RNN”)模型是可以根据实施例编码顺序信息的强大的模型，但是其在学习远程相关性时遭受消失/爆发梯度问题。长短期记忆(“LSTM”)网络模型和梯度递归单元(“GRU”)网络模型被已知通常为这些问题的成功补救。在各种实施例中，可以利用LSTM模型。然而，在其他实施例中，GRU单元可以替换LSTM单元。在许多实施例中，LSTM可以用作隐藏层激活单元以对句子和文档的语义表示进行建模。在各种实施例中，LSTM中的每个细胞被计算如下：

f_t＝σ(W_f·X+b_f) (5)

i_t＝σ(W_i·X+b_i) (6)

o_t＝σ(W_o·X+b_o) (7)

c_t＝f_t⊙c_t-1+i_t⊙tanh(W_c·X+b_c) (8)

h_t＝o_t⊙tanh(c_t) (9)

其中，W_i,W_f,

是权重矩阵，并且b_i,b_f,

分别是要在输入、忘记和输出门的训练、参数化和变换期间学习的LSTM的偏置。在各种实施例中，σ是S形函数，并且⊙代表逐元素乘法。额外地或者备选地，x_t是LSTM细胞单元的输入，并且h_t表示时间t处的隐藏状态。

在各种实施例中，可以假定文档具有L数目的句子，其中，每个句子s_i包含T_i个词语。此外，w_it(其中，t∈[1,T])可以表示第i个句子中的词语。针对词语水平计算，x_t可以表示词语嵌入向量w_t。第一隐藏层向量h_it(其中，t∈[1,T])可以被用于表示句子。针对句子水平计算，x_t表示句子嵌入向量s_i。在这种情况下，隐藏层向量h_i(其中，i∈[1,L])可以被用于表示文档。

最后隐藏层可以是文档的表示并且柔性最大值层可以置于最后隐藏层的顶部以预测针对放射学报告的分类标签，例如{PE_阳性,PE_阴性}或{PE_急性,PE_慢性}。在各种实施例中，将h*考虑为放射学报告的最后表示，柔性最大值层可以公式化为：

y＝softmax(W_sh^*+b_s) (10)

其中，W_s和b_s是柔性最大值层的参数。正确标签的负对数似然值可以用作训练损失函数：

L＝∑_dlogy_dj (11)

其中，j是文档d的标签。

相反，没有注意力的层次神经网络(HNN)模型可以将隐藏状态馈送到平均池化层以获得句子表示和最后文档表示。例如，放射学报告的最后特征表示可以被计算为：

根据许多实施例的领域短语注意力机构可以通过考虑领域短语捕获文档和实质上句子的最重要的部分。奖励作为正确分类文档的线索的句子可以是合理的。因此，如果其存在于句子中，则可以对领域短语给予额外注意力。每个领域短语可以编码为连续和实值向量

其可以随机初始化。

这产生：

u_i＝tanh(W_sh_i+W_dpp+b_s) (13)

其中，W_s和W_dp是投影参数，并且b_s是在训练期间要学习的偏置参数。

在一些实施例中，临床概念可以使用混合临床自然语言处理(“NLP”)引擎基于SNOMED临床术语本体论(即，可以使用在临床文档和报告中的医学术语的系统组织的集合)从放射学报告中提取。在相同句子中出现的连续临床概念可以组合为一个领域短语。例如，在句子“肝内的三个小低衰减病变，其太小而不能表征”、“低衰减”和“病变”可以通过临床NLP引擎标记为两个单独的临床概念。然而，由于其是句子中的连续词语，因而词语可以被认为是领域短语“低衰减病变”。换句话说，临床概念应当连续地存在于句子中以便是领域短语的一部分。领域短语(DP)的列表根据斯坦福训练集生成。斯坦福训练集中的DP的总数是343，并且DP中的平均词语数近似等于4。在图10中图示了根据各种实施例的DP和DP范例中的词语计数的频率分布。

DPA-HNN(还被称为HNN-GA)模型的性能可以使用以下度量：精确度、回忆、F1值、曲线下面积(AUC)等中的一个或多个在各种数据集上测试，所述各种数据集包括放射学特异性数据集，诸如：斯坦福、UPMC、科罗拉多孩子、杜克等。为了将神经模型的预测的概率值转换为二进制类标签，最佳截止阈值可以通过使0与1之间的所有阈值(t_i)的精确度(t_i)+回忆(t_i)最大化对阳性类的概率确定。

相对于斯坦福测试集，DPA-HNN具有用于PE正/负和PE急性/慢性分类两者的所有评价度量上的最佳评分。与层次神经网络(HNN)模型和基于注意力的层次神经网络(A-HNN)模型相比较，编码领域短语注意力的DPA-HNN模型可以改进DPA-HNN网络模型的性能。在各种实施例中，HNN模型和A-HNN模型之上的DPA-HNN模型的改进被发现是统计上显著的(p<0.05)。从结果可以看出，通常，基于神经网络的方法在斯坦福测试集上的F1和AUC评分方面比经典PEFinder、支持向量机(SVM)和/或Adaboost方法具有更好的性能。

此外，关于UPMC数据集，DPA-HNN具有用于这两个任务的最佳精确度评分。此外，关于杜克测试集，DPA-HNN具有用于这两个任务的最佳AUC评分。额外地或备选地，关于科罗拉多孩子测试集，HNN具有用于PE正/负分类的所有评价度量上的最佳评分，而不对PE急性/慢性分类良好执行。

总体上，根据许多实施例的DPA-HNN模型可以示出标准测试集并且部分地UPMC数据集和杜克测试集上的性能改进。尽管执行的DPA-HNN在科罗拉多孩子测试集上降低，但是DPA-HNN和其他基于神经网络的模型在包括主要成人患者的斯坦福数据集上训练(与科罗拉多孩子测试集的特定儿科人口相反)。进一步的分析展示外部数据集(UPMC数据集、杜克测试集、科罗拉多孩子测试集)具有文档中的句子和领域的平均数的变化分布。在图11A-11B和以下表中图示了分布和统计数字。图11A的图像1100图示了测试的数据集中的平均句子数的分布，并且图11B的图像1150图示了测试的数据集中的平均领域短语数目的分布。

DP可以在根据各种实施例的DPA-HNN模型中扮演重要角色。例如，科罗拉多数据具有文档中的1.2DP的平均数目，其比斯坦福测试数据中的3.5DP的平均数目低得多。额外地或备选地，针对科罗拉多数据的没有DP的文档的百分比比斯坦福测试数据低得多-其可以额外地是为何在斯坦福数据集上训练的DPA-HNN模型在科罗拉多数据上同样良好工作的原因。然而，针对该数据集的文档中的句子的平均数目是6.2，其非常接近于6.4的斯坦福数据。由于在HNN模型中，平均句子数目有关系，但是不是DP，因此其解释为何HNN模型比科罗拉多数据上的DPA-HNN模型具有更好的性能。

额外地或备选地，通常可以观察PE急性/慢性分类任务的评价评分比PE正/负分类任务更低，其指代与后者任务相比较比的前者的复杂性。

为了更好地理解自然语言任务中的什么信息DPA-HNN模型用于做出其决策，方法已经开发以可视化输入词语对输出决策的影响。

包括DPA-HNN模型的基于RNN的模型可以正确地针对相同报告预测类，其中，其他模型未能正确地分类文档。DPA-HNN模型的范例文档可以正确地分类哪些其他网络模型未能根据许多实施例分类，其在图12A-12B中图示。这经由基于层次注意力的可视化图示，其中，其中，用于句子中的每个词语的权重值从根据用于第一LSTM层的词语水平注意力学习的权重获得。用于报告中的每个句子的权重值从根据用于第二LSTM层的句子水平注意力学习的权重获得。利用用于词语水平和句子水平注意力两者的权重，可以看到，不同的句子在报告中扮演不同角色，并且不同的词语在朝向放射学报告的最后分类的每个句子中扮演不同角色。在如图12B的图像1250中所图示的负分类范例中，句子3：“在中心肺动脉中不存在充盈缺陷以指示肺栓塞”具有最高权重。词语“栓塞”具有该句子中的最高权重，并且词语“不”具有该句子中的第二最高权重。在图12A的图像1200中所图示的正分类范例中，句子1：“在肺动脉系统内的凝块的体积中的印象1间隔减小”具有最高权重。词语“凝块”具有该句子中的最高权重。在各种实施例中，基于RNN的模型可以通过考虑词语之间的长期相关性从数据捕获全局背景。

根据许多实施例的结果可以进一步文字化为用于测试如图13A-13B中所图示的斯坦福测试集的DPA-HNN模型的混淆矩阵。混淆矩阵逐类标准化以有意义地表示模型的性能。X轴表示金标准结果，并且Y轴表示来自根据各种实施例的DPA-HNN模型的预测结果。可以看到，假阳性(右上部分)和假阴性(左下部分)速率针对如图13A的图像1300中所图示的PE阳/阴性分类和如图13B的图像1350中所图示的PE急性/慢性分类两者非常低。额外地或者备选地，对于这两个分类，仅两个情况误分类，如图14B-15B所示。这些误差被评价并且发现与印象中的冲突和怀疑语言有关。例如，在如图14B中所图示的图像1450中，印象清楚地说明“无明确的肺栓塞”，然而，此后不久报告继续建议“伪影vs右上叶中的可能的肺栓塞”并且推荐额外的成像测试。在如图15B的图像1550中所图示的其他范例中，模型聚焦于词语“亚急性”以将报告预测为慢性的。如图14A中所图示的图像1400和如图15A中所图示的图像1500额外地图示误分类。

图16是可以任选地被用于执行本文所描述的技术的一个或多个方面的范例计算设备1610的框图。在一些实施例中，客户端计算设备和/或(一个或多个)其他部件中的一个或多个可以包括范例计算设备1610的一个或多个部件。

计算设备1610通常包括至少一个处理器1614，其经由总线子系统1612与多个外围设备通信。这些外围设备可以包括存储子系统1624，包括例如存储器子系统1625和文件存储子系统1626、用户接口输出设备1620、用户接口输入设备1622和网络接口子系统1616。输入和输出设备允许与计算设备1610的用户交互。网络接口子系统1616向外部网络提供接口并且被耦合到其它计算设备中的对应的接口设备。

用户接口输入设备1622可以包括键盘、诸如鼠标的指点设备、轨迹球、触摸板或图形输入板、扫描器、并入到显示器中的触摸屏、诸如语音识别系统、麦克风的音频输入设备和/或其他类型的输入设备。一般而言，术语“输入设备”的使用旨在包括将信息输入到计算设备10中或者通信网络上的所有可能类型的设备和方式。

用户接口输出设备1620可以包括显示子系统、打印机、传真机或非视觉显示器，诸如音频输出设备。显示子系统可以包括阴极射线管(CRT)、诸如液晶显示器(LCD)的平板设备、投影设备或用于创建可见图像的一些其他机构。显示子系统还可以诸如经由音频输出设备提供非视觉显示。一般而言，术语“输出设备”的使用旨在包括将信息从计算设备1610输出给用户或者另一机器或计算设备的所有可能类型的设备和方式。

存储子系统1624存储提供在本文中所描述的模块中的一些或全部的功能的编程和数据结构。例如，存储子系统1624可以包括执行图1A-1B和2的过程100、150和/或200的选定的方面的逻辑。

这些软件模块通常由处理器1614单独或者与其他处理器组合执行。用在存储子系统1624中的存储器1625可以包括多个存储器，包括用于在程序执行期间存储指令和数据的主随机存取存储器(RAM)1630和固定指令被存储的只读存储器(ROM)1632。文件存储子系统1626可以为程序和数据文件提供永久存储，并且可以包括硬盘驱动器、软盘驱动器以及相关联的可移除介质、CD-ROM驱动器、光盘驱动器或可移除介质盒。实施特定实施例的功能的模块可以由存储子系统1624或者在由(一个或多个)处理器1614可访问的其他机器中的文件存储子系统1626存储。

总线子系统1612提供用于让计算设备1610的各种部件和子系统根据预期彼此通信的机构。尽管总线子系统1612示意性地被示出为单个总线，但是总线子系统的备选实施例可以使用多个总线。

计算设备1610可以具有不同的类型，包括工作站、服务器、计算集群、刀片服务器、服务器群或任何其他数据处理系统或计算设备。由于计算机和网络的不断改变的性质，出于图示一些实施例的目的，图16中所描绘的计算设备1610的描述仅被预期为特定范例。具有比图16中所描绘的计算设备更多或更少的部件的计算设备1610的许多其他配置是可能的。

尽管本文中已经描述和图示了若干发明实施例，但是本领域的普通技术人员将容易想到用于执行功能和/或获得结果和/或本文描述的优点中的一个或多个的各种其他手段和/或结构，并且这些变化和/或修改中的每一个被认为是在本文描述的发明实施例的范围内。更具体地，本领域技术人员将容易意识到，本文中所描述的所有参数、尺度、材料和配置意味着是示范性的，并且实际参数、尺度、材料和/或配置将取决于使用本发明的教导的一个或多个特定应用。本领域的技术人员将认识到，或者仅仅使用常规实验就能够确定本文描述的特定发明实施例的许多等价方案。因此，应理解的是，前述实施例仅通过范例呈现，并且在权利要求及其等价方案的范围内，可以以与具体描述和要求保护的方式不同的方式来实践发明实施例。本公开的发明实施例涉及本文描述的每个个体特征、系统、物品、材料、套件和/或方法。此外，如果这样的特征、系统、物品、材料、套件和/或方法不相互不一致，则两个或更多个这样的特征、系统、物品、材料、套件和/或方法的任何组合都包括在本公开的发明范围内。

如本文所定义和使用的所有定义应被理解为控制在字典定义、通过引用并入的文献中的定义和/或所定义的术语的普通含义上。

如本文中在说明书和权利要求书中所使用的词语“a(一)”和“an(一个)”应被理解为意指“至少一个”，除非明确相反指示。

如在本说明书和权利要求书中所使用的短语“和/或”应该被理解为是指如此联合的元素中的“任一个或两者”，即在一些情况下联合存在并且在其它情况下分离存在的元素。利用“和/或”列出的多个元素应该以相同的方式解释，即如此联合的元素中的“一个或多个”。除了由“和/或”子句特别识别的元素，其他元素可以任选地存在，不管与具体识别的那些元素相关还是不相关。因此，作为非限制性范例，当与诸如“包括”的开放式语言结合使用时，对“A和/或B”的引用在一个实施例中可以仅指A(任选地包括除了B之外的元素)；在另一个实施例中，仅指B(任选地包括除了A之外的元素)；在又一个实施例中，指A和B两者(任选地包括其他元素)；等等。

如在本说明书和权利要求书中所使用的，“或”应当被理解为具有与上面所定义的“和/或”相同的含义。例如，当在列表中分离项目时，“或”或“和/或”应被解释为包含性的，即包括多个元素或元素列表中的至少一个元素，但也包括多于一个元素，以及任选的其他未列出项目。仅清楚地指示为相反的术语，诸如“仅一个”或“确切地一个”，或者，当在权利要求中使用时，“由...组成”，将指包括多个元素或元素列表中的确切地一个元素。通常，如本文使用的术语“或”仅当前面有排他性术语(例如“任一个”，“...中的一个”，“...中的仅一个”，或者“...中的确切地一个”)时才应解释为指示排他性备选(即，“一个或另一个但是并非两者”)。当在权利要求中使用时，“实质上由...组成”应当具有其在专利法领域中使用的普通含义。

如本文中在说明书和权利要求书中所使用的，涉及一个或多个元素的列表的短语“至少一个”应该被理解为是指选自元素列表中的元素中的任何一个或多个的至少一个元素，但是不必包括元素列表内具体列出的每一个元素和每个元素中的至少一个，并且不排除元素列表中的元素的任何组合。该定义还允许除了在短语“至少一个”涉及的元素列表内具体识别的元素之外元素可以任选地存在，而不管与具体识别的那些元素相关还是不相关。因此，作为非限制性范例，“A和B中的至少一个”(或者等价地，“A或B中的至少一个”，或者等价地“A和/或B中的至少一个”)可以在一个实施例中指至少一个、任选地包括多于一个A，而不存在B(并且任选地包括除了B之外的元素)；在另一个实施例中，指至少一个、任选地包括多于一个B，而不存在A(并且任选地包括除了A之外的元素)；在又一个实施例中，指至少一个、任选地包括多于一个A，以及至少一个、任选地包括多于一个B(并且任选地包括其他元素)；等等。

还应该理解，除非明确地相反指示，在本文所要求保护的包括多于一个步骤或动作的任何方法中，方法的步骤或动作的顺序不必限于叙述该方法的步骤或动作的顺序。

Claims

1.一种利用一个或多个处理器来实施以生成文档的一个或多个分类的方法，包括：

获得(102)指示所述文档的数据；

使用双粒度注意力机构在层次网络模型的两个或更多个层中的第一层中处理(104)指示所述文档的所述数据以生成第一层输出数据，其中，所述双粒度注意力机构在所述第一层中更重地加权指示所述文档的所述数据的一些部分，其中，所述一些部分在所述双粒度注意力机构的训练期间被集成到所述层次网络模型中；

在所述层次网络模型的两个或更多个层中的第二层中处理(106)所述第一层输出数据以生成第二层输出数据；并且

根据所述第二层输出数据来生成(108)分类标签。

2.根据权利要求1所述的方法，其中，所述层次网络模型的所述两个或更多个层包括词语层和句子层。

3.根据权利要求2所述的方法，其中，所述层次网络模型的所述两个或更多个层还包括字符层、章节层和文档层。

4.根据权利要求1所述的方法，其中，生成所述分类标签还包括将所述第二层输出数据馈送到柔性最大值函数中。

5.根据权利要求1所述的方法，其中，所述双粒度注意力机构还包括注意力历史和领域特异性注意力历史，其中，所述注意力历史与所述层次网络模型的所述第一水平相对应，并且所述领域特异性注意力历史与所述层次网络模型的所述第二层相对应。

6.根据权利要求5所述的方法，其中，所述双粒度注意力机构由所述一个或多个处理器通过以下公式来确定：

e_t＝a(h_t,h′_t)

其中，e是注意力值，a是可学习函数，h是所述注意力历史，h'是所述领域特异性注意力历史，α是概率向量，T是总时间步数，t是时间，k是时间，并且c是加权平均值。

7.根据权利要求6所述的方法，其中，所述领域特异性注意力历史被预填充有对应于特定领域中的知识的嵌入物。

8.根据权利要求3所述的方法，其中，所述字符层还包括字符长短期记忆(“LSTM”)层，其中，字符双粒度机构被应用于所述字符LSTM层，所述词语层还包括词语LSTM层，其中，词语双粒度机构被应用于所述词语LSTM层，所述句子层还包括句子LSTM层，其中，句子双粒度机构被应用于所述句子LSTM层，并且所述章节层还包括LSTM层，其中，章节双粒度层被应用于所述章节LSTM层。

9.至少一种非瞬态计算机可读介质，其存储机器学习模型以生成文档的一个或多个分类，其中，使用以下过程来训练所述模型：

获得(202)指示所述文档的一组训练数据；

使用指示所述文档的所述一组训练数据，利用双粒度注意力机构来训练(206)层次网络模型的两个或更多个层，其中，利用所述层次网络模型的所述两个或更多个层来训练所述双层注意力机构中的第一层，并且利用指示领域特异性知识的数据来预填充所述双粒度注意力机构中的第二层；

获得(102)指示所述文档的数据；

使用所述双粒度注意力机构在层次网络模型的两个或更多个层中的第一层中处理(104)指示所述文档的所述数据以生成第一层输出数据，其中，所述双粒度注意力机构在所述第一层中更重地加权指示所述文档的所述数据的一些部分；

根据所述第二层输出数据来生成(108)分类标签。

10.根据权利要求9所述的至少一种非瞬态计算机可读介质，其中，所述层次网络模型的所述两个或更多个层包括词语层和句子层。

11.根据权利要求10所述的至少一种非瞬态计算机可读介质，其中，所述层次网络模型的所述两个或更多个层还包括字符层、章节层和文档层。

12.根据权利要求9所述的至少一种非瞬态计算机可读介质，其中，生成所述分类标签还包括将所述第二层输出数据馈送到柔性最大值函数中。

13.根据权利要求9所述的至少一种非瞬态计算机可读介质，其中，所述双粒度注意力机构由所述一个或多个处理器通过以下公式来确定：

e_t＝a(h_t,h′_t)

其中，e是注意力值，a是可学习函数，h是双层注意力历史中的第一层，h'是所述双层注意力历史中的第二层并且包括领域特异性知识，α是概率向量，T是总时间步数，t是时间，k是时间，并且c是加权平均值。

14.根据权利要求13所述的至少一种非瞬态计算机可读介质，其中，所述领域特异性注意力历史被预填充有对应于特定领域中的知识的嵌入物。

15.根据权利要求10所述的至少一种非瞬态计算机可读介质，其中，所述字符层还包括字符长短期记忆(“LSTM”)层，其中，字符双粒度机构被应用于所述字符LSTM层，所述词语层还包括词语LSTM层，其中，词语双粒度机构被应用于所述词语LSTM层，所述句子层还包括句子LSTM层，其中，句子双粒度机构被应用于所述句子LSTM层，并且所述章节层还包括LSTM层，其中，章节双粒度层被应用于所述章节LSTM层。

16.一种包括一个或多个处理器和能够与所述一个或多个处理器操作地耦合的存储器来用于生成文档的一个或多个分类的系统，其中，所述存储器存储指令，所述指令响应于由一个或多个处理器对所述指令的运行而令所述一个或多个处理器执行以下操作：

获得(102)指示所述文档的数据；

根据所述第二层输出数据来生成(108)分类标签。

17.根据权利要求16所述的系统，其中，所述层次网络模型的所述两个或更多个层包括词语层和句子层。

18.根据权利要求17所述的系统，其中，所述层次网络模型的所述两个或更多个层还包括字符层、章节层和文档层。

19.根据权利要求16所述的系统，其中，生成所述分类标签还包括将所述第二层输出数据馈送到柔性最大值函数中。

20.根据权利要求16所述的系统，其中，所述双粒度注意力机构还包括注意力历史和领域特异性注意力历史，其中，所述注意力历史与所述层次网络模型的所述第一水平相对应，并且所述领域特异性注意力历史与所述层次网络模型的所述第二层相对应。