CN111145914B

CN111145914B - 一种确定肺癌临床病种库文本实体的方法及装置

Info

Publication number: CN111145914B
Application number: CN201911399541.5A
Authority: CN
Inventors: 王成弟; 李为民; 倪浩; 刘丹; 邵俊; 任鹏伟; 郑永升; 石磊; 梁平
Original assignee: Hangzhou Yitu Healthcare Technology Co ltd; West China Hospital of Sichuan University
Current assignee: Hangzhou Yitu Healthcare Technology Co ltd; West China Hospital of Sichuan University
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2023-08-04
Anticipated expiration: 2039-12-30
Also published as: CN111145914A

Abstract

本申请实施例提供一种确定肺癌临床病种库文本实体的方法及装置，方法包括：获取待识别肺癌临床病种库文本数据，并确定所述待识别肺癌临床病种库文本数据中各字段的词向量；对各词向量进行编码处理，得到各词向量的编码向量；根据各编码向量之间的相关性，确定任一编码向量的解码结果，所述解码结果为所述待识别肺癌临床病种库文本数据中的字段；根据各编码向量的解码结果得到所述待识别肺癌临床病种库文本数据中的文本实体。本申请实施例引入了自注意力机制，能够解决文本字段之间的长距离依赖关系，准确全面的确定待识别文本数据的向量特征，以便准确确定待识别文本数据中的实体。

Description

一种确定肺癌临床病种库文本实体的方法及装置

技术领域

本发明实施例涉及自然语言处理技术领域，尤其涉及一种确定肺癌临床病种库文本实体的方法及装置。

背景技术

自然语言处理(NLP)是计算机科学、人工智能和语言学的交叉领域。目的是让计算机处理或“理解”自然语言，以执行诸如语言翻译和问题回答等任务。近年来随着互联网和信息产业的高速发展，大量的非结构化文本数据不断增长，面对海量的文本数据，如何高效地进行信息管理和数据挖掘成为了研究热点之一，而信息抽取技术也逐渐受到了人们的关注。

但是现有技术中确定文本信息中的实体方法，需要构建完备的词库，耗费巨大的人力。即使用统计方法确定文本中的实体，例如条件随机场、隐马尔可夫模型受限于特征的选择和语料。仍存在泛化性能不够，对一些语料库中不存在的实体也会出现漏识别问题。

发明内容

本申请实施例提供一种确定肺癌临床病种库文本实体的方法及装置，至少解决了现有技术中存在的泛化性能不够、漏识别等问题。

本申请实施例提供一种确定文本实体的方法，包括：

获取待识别文本数据，并确定所述待识别文本数据中各字段的词向量；

根据已训练的文本实体处理模型确定各词向量的向量特征，所述已训练的文本实体处理模型至少是根据自注意力机制的文本处理模型训练得到的；

根据各向量特征确定所述待识别文本数据中的文本实体，所述文本实体为所述待识别文本数据中的字段。

可选的，所述已训练的文本实体处理模型至少包括编码单元以及解码单元；

所述根据已训练的文本实体处理模型确定各词向量的向量特征，包括：

将各词向量输入至所述编码单元,得到各编码向量；

将各编码向量输入至所述解码单元，得到各词向量的向量特征。

可选的，所述将各编码向量输入至所述解码单元，得到各词向量的向量特征，包括：

针对第i个词向量，将第i个词向量的编码向量、第i个词向量以及第i-1个词向量的解码向量输入至所述解码单元，得到第i个词向量的向量特征，其中，第i-1个词向量的解码向量是所述已训练的文本实体处理模型的解码单元根据第i-1个词向量的编码向量、第i-1个词向量以及第i-2个词向量的向量特征确定的，其中i大于等于2。

可选的，所述已训练的文本实体处理模型至少包括多层编码单元，每一所述编码单元包括自注意力机制层和前馈网络层，其中，所述自注意力机制层用于计算各词向量上下文信息；所述前馈网络层用于对所述自注意力机制输出的信息进行非线性变换。

可选的，所述根据各向量特征从目标文本集合中确定所述待识别文本数据中的文本实体，包括：

针对每个向量特征，确定该向量特征是所述目标文本集合中每个字段的概率，并将最大概率对应的字段作为该向量特征对应的文本实体。

可选的，所述待识别文本数据中包括所述待识别文本数据的停止标识；

所述根据各向量特征从目标文本集合中确定所述待识别文本数据中的文本实体，包括：

若连续确定的所述待识别文本数据中的文本实体为所述停止标识，则确定所述待识别文本数据中的文本实体已确定完成。

可选的，所述已训练的文本实体处理模型至少是根据自注意力机制的语音识别模型以及训练样本进行训练得到的，所述训练样本中至少具有跳字和/或嵌套特征。

本申请实施例提供一种确定文本实体的装置，包括：

获取单元，用于获取待识别文本数据，并确定所述待识别文本数据中各字段的词向量；

向量特征确定单元，用于根据已训练的文本实体处理模型确定各词向量的向量特征，所述已训练的文本实体处理模型至少是根据自注意力机制的文本处理模型训练得到的；

文本实体确定单元，用于根据各向量特征确定所述待识别文本数据中的文本实体，所述文本实体为所述待识别文本数据中的字段。

所述向量特征确定单元具体用于：

将各词向量输入至所述编码单元,得到各编码向量；

可选的，所述向量特征确定单元具体用于：

可选的，所述文本实体确定单元具体用于：

所述文本实体确定单元具体用于：

本申请实施例一种确定肺癌临床病种库文本实体的方法，所述方法包括：

获取待识别肺癌临床病种库文本数据，并确定所述待识别肺癌临床病种库文本数据中各字段的词向量；

对各词向量进行编码处理，得到各词向量的编码向量；

根据各编码向量之间的相关性，确定任一编码向量的解码结果，所述解码结果为所述待识别肺癌临床病种库文本数据中的字段；

根据各编码向量的解码结果得到所述待识别肺癌临床病种库文本数据中的文本实体。

本申请实施例提供一种确定肺癌临床病种库文本实体的装置，包括：

获取单元，用于获取待识别肺癌临床病种库文本数据，并确定所述待识别肺癌临床病种库文本数据中各字段的词向量；

编码单元，用于对各词向量进行编码处理，得到各词向量的编码向量；

解码单元，用于根据各编码向量之间的相关性，确定任一编码向量的解码结果，所述解码结果为所述待识别肺癌临床病种库文本数据中的字段；

文本实体确定单元，用于根据各编码向量的解码结果得到所述待识别肺癌临床病种库文本数据中的文本实体。

通过本申请实施例提供的确定文本实体的方法，能够根据自注意力机制确定输入的待识别文本数据的向量，然后根据待识别文本数据的向量确定待识别文本数据中的文本实体，并且确定的文本实体是从待识别文本数据中的多个字段确定的。在本申请实施例中，引入了自注意力机制，自注意力机制能够解决文本字段之间的长距离依赖关系，能够更好的通过相关性确定待识别文本数据的向量特征，以便确定待识别文本数据中的实体。

并且进一步地，本申请实施例确定的文本实体是待识别文本数据中的字段，所以通过本申请实施例能够进一步识别至少具有嵌套或者跳字结构的待识别文本数据中的文本实体，不会出现漏识别的问题。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种确定文本实体的方法的应用场景示意图；

图2为本申请实施例提供的一种确定文本实体的方法的流程示意图；

图3为本申请实施例提供的一种编码单元-解码单元的结构示意图；

图4为本申请实施例提供的一种已训练的文本实体处理模型的结构示意图；

图5为本申请实施例提供的一种多头自注意力机制层的结构示意图；

图6为本申请实施例提供的一种编码单元-解码单元的数据处理流程示意图；

图7为本申请实施例提供的一种确定文本实体的方法的流程示意图；

图8为本申请实施例提供的一种确定文本实体的装置的结构示意图；

图9为本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了方便理解，下面对本申请实施例中涉及的名词进行解释：

机器学习(ML，Machine Learning)：是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径。机器学习的核心是“使用算法解析数据，从中学习，然后对世界上的某件事情做出决定或预测”。这意味着，与其显式地编写程序来执行某些任务，不如教计算机如何开发一个算法来完成任务。

深度学习(DL，Deep Learning)：是机器学习领域中一个新的研究方向，它被引入机器学习使其更接近于最初的目标——人工智能(AI,Artificial Intelligence)。

人工智能(AI，Artificial Intelligence)：它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。

自然语言处理(NLP，Natural Language Processing)：是数据科学领域的一个重要的分支，它包含了以一种高效的方式去分析，理解和从文本里提取信息等重要过程。通过利用NLP及其组件，可以组织大量的文本数据，执行大量的自动化任务，并解决各种问题，比如自动摘要，机器翻译，命名实体识别，关系提取，情感分析，语音识别和主题分割等。

Seq2Seq(Sequence to Sequence)：自然语言处理中的一种方法，也是一种能够根据给定的序列，通过特定的方法生成另一个序列的方法。

编码单元：将一个可变长度的信号序列变为固定长度的向量表达。

解码单元：将固定长度的向量变成可变长度的目标的信号序列。

注意力机制：注意力机制的本质来自于人类视觉注意力机制。人们视觉在感知东西的时候一般不会是一个场景从到头看到尾每次全部都看，而往往是根据需求观察注意特定的一部分。而且当人们发现一个场景经常在某部分出现自己想观察的东西时，人们会进行学习在将来再出现类似场景时把注意力放到该部分上。

在具体实践过程中，本申请的发明人发现，现有技术中从文本数据中抽取实体信息使用的技术方案通常是基于分词的方法，具体的，首先对待识别文本进行分词，再对分词结果进行分类，按照类别识别出待识别文本中的实体。

但是现有技术中，仅仅通过分类结果确定待识别文本中的实体，会造成一个实体可能被分成多个词，导致无法获得一个完整的实体。并且现有技术中的方案中，不能解决待识别文本中各文本字段相关性的问题，造成对一些实体存在漏识别的问题。

基于上述现有技术的缺点，本申请的发明人首先构思了一种确定文本实体的方法。

发明人认为，可以使用深度学习的方法，更好的确定待分类文本数据中各字段的向量特征，进而能够确定更准确的文本实体。

但是在使用深度学习算法，例如RNN等确定待分类文本数据中的文本实体的过程中，发明人发现，使用RNN确定文本实体的过程中没有考虑到待分类文本数据中各字段之间的长距离依赖关系，所以使得确定的文本实体准确性较低；并且使用RNN等方法时，文本实体是从词库中确定的，而词库范围较大，也造成文本实体准确性低的问题。

发明人进一步构思，如果能够通过学习待识别文本数据中各字段之间的相关性就能够解决待识别文本数据中各字段之间的长距离依赖问题，并且若根据各字段的向量特征确定的文本实体范围是待分类文本数据中的各字段，则可以提高确定待识别文本数据中文本实体的准确性。

在介绍完本申请实施例的设计思想之后，下面对本申请实施例的技术方案能够适用的应用场景做一些简单介绍，需要说明的是，以下介绍的应用场景仅用于说明本申请实施例而非限定。在具体实施时，可以根据实际需要灵活地应用本申请实施例提供的技术方案。

为进一步说明本申请实施例提供的技术方案，下面结合附图以及具体实施方式对此进行详细的说明。虽然本申请实施例提供了如下述实施例或附图所示的方法操作步骤，但基于常规或者无需创造性的劳动在所述方法中可以包括更多或者更少的操作步骤。在逻辑上不存在必要因果关系的步骤中，这些步骤的执行顺序不限于本申请实施例提供的执行顺序。

参考图1，其为本申请实施例提供的确定文本实体的方法的应用场景示意图。该应用场景至少包括数据处理设备101以及数据库102，数据处理设备101与数据库102之间可以位于同一局域网中，也可以位于不同的网络中。数据处理设备101与数据库102之间通过有线网络或者无线网络进行连接。

在本申请实施例中，数据处理设备101从数据库102中获取待识别文本数据，数据处理设备101基于待识别文本数据，确定待识别文本数据中各字段的词向量。

数据处理设备101可以从数据库102中获取已训练的文本实体处理模型，或者数据处理设备101可以从训练设备103中获取在训练设备103中保存的已训练的文本实体处理模型，已训练的文本实体处理模型是通过训练设备103训练得到的，训练设备103至少通过自注意力机制的文本处理模型训练得到已训练的文本实体处理模型。

在本申请实施例中，数据处理设备101与训练设备103之间可以通过有线网络或者无线网络进行连接。数据处理设备101与训练设备103可以位于同一局域网中，也可以位于不同的网络中。

在本申请实施例中，数据处理设备101通过已训练的文本实体处理模型确定各词向量的向量特征，并通过各向量特征从目标文本集合中确定待识别文本数据中的文本实体，在本申请实施例中，目标文本集合中的字段为待识别文本数据中的多个字段。

应当理解，本申请实施例中的数据处理设备101以及训练设备103包括但不限于桌面计算机、移动电话、移动电脑、平板电脑等电子设备，可以包括服务器，服务器可以是服务器集群，也可以是单个服务器。

通过本申请实施例中的方法，可以通过自注意力机制使能够确定待识别文本数据中的当前文本字段和与当前文本字段之间相邻长距离的其它文本字段之间的依赖性，能够更好的通过相关性确定待识别文本数据的向量特征，以便更准确的确定待识别文本数据中的文本实体。

当然，本申请实施例提供的方法并不限用于图1所示的应用场景中，还可以用于其它可能的应用场景，本申请实施例并不进行限制。对于图1所示的应用场景的各个设备所能实现的功能将在后续的方法实施例中一并进行描述，在此先不过多赘述。

下面结合图1所示的应用场景，对本申请实施例提供的技术方案进行说明。

参考图2，本申请实施例提供一种确定文本实体的方法，包括以下步骤：

步骤S201，获取待识别文本数据，并确定所述待识别文本数据中各字段的词向量。

具体的，在本申请实施例中，待识别文本数据可以是多个应用场景下形成的文本数据，需要对待识别文本数据中的实体进行识别，一种可选的实施例中，待识别文本数据是通过语音识别模型从语音数据中提取出的。

另一种可选的实施例中，待识别文本数据中存在嵌套和/或跳字的结构，例如，待识别文本数据为“扁桃体有点肿大”，则“扁桃体肿大”为待识别文本数据中的跳字结构。待识别文本数据为“扁桃体有点肿大化脓”，则“扁桃体肿大””以及“扁桃体化脓”为待识别文本数据中的嵌套结构。

在获取到待识别文本数据后，确定待识别文本数据中各字段的词向量，例如，待识别文本数据为“扁桃体有点肿大”，则待识别文本数据中的各字段为“扁”、“桃”、“体”、“有”、“点”、“肿”、“大”，分别确定各字段的词向量。

一种可选的实施例中，可以通过词嵌入Word Embedding的方式确定各字段的词向量。Embedding是数学领域的有名词，是指某个对象X被嵌入到另外一个对象Y中，映射f:X→Y，例如有理数嵌入实数。Word Embedding是NLP中一组语言模型和特征学习技术的总称，把词汇表中的单词或者短语映射成由实数构成的向量上。

具体的，在本申请实施例中，可以通过一种Word Embedding方法—One-Hot来确定各字段的词向量，示例性的，One-Hot把语料中的词汇去重取出，按照一定的顺序(例如字典序或者出现顺序等)排列为词汇表，则每一个单词都可以表示为一个长度为N的向量，N为词汇表长度，即单词总数。该向量中，除了该词所在的分量为1，其余均置为0。

或者通过另一种Word Embedding方法—神经语音模型(Neural Language Model)来确定各字段的词向量，NLM是一类用来克服维数灾难的语言模型，它使用词的分布式表示对自然语言序列建模。神经语言模型能够识别两个相似的词，并且不丧失将每个词编码为彼此不同的能力。神经语言模型共享一个词及其上下文和其他类似词。

当然，在本申请实施例中，确定各字段的词向量的方法不限于上述描述的方法，还有其它方法，例如Glove或者FastText的方法。

可选的，在本申请实施例中，对获取的待识别文本数据进行数据预处理，数据预处理的过程至少包括文本分词、去停用词(包括标点、数字、单字和其它一些无意义的词)等操作。例如，在本申请实施例中，待识别文本数据为“我的天啊，今天天气真好！”，则在进行文本分词、去停用词后，得到的待获取识别文本数据为“我/的/天/啊/今天/天气/真/好”。

步骤S202，根据已训练的文本实体处理模型确定各词向量的向量特征，所述已训练的文本实体处理模型至少是根据自注意力机制的文本处理模型训练得到的。

具体的，在本申请实施例中，在确定了各字段的词向量后，通过已训练的文本实体处理模型确定各词向量的向量特征。

在本申请实施例中，为了能够确定待识别文本数据中各字段的相关性，所以在本申请实施例中，已训练的文本实体处理模型是至少根据自注意力机制的文本处理模型训练得到的。

在本申请实施例中，自注意力机制是注意力机制Attention中的一种特例，注意力机制最早是在视觉图像领域提出来的，注意力机制的本质来自于人类视觉注意力机制。人们视觉在感知东西的时候一般不会是一个场景从到头看到尾每次全部都看，而往往是根据需求观察注意特定的一部分。而且当人们发现一个场景经常在某部分出现自己想观察的东西时，人们会进行学习在将来再出现类似场景时把注意力放到该部分上。注意力机制函数的本质可以被描述为一个查询query到一系列键key-值value对的映射，在计算Attention时主要分为三步，第一步是将query和每个key进行相似度计算得到权重，常用的相似度函数有点积，拼接，感知机等；然后第二步是使用一个分类函数s oftmax对这些权重进行归一化；最后将权重和相应的键值value进行加权求和得到最后的Attention。目前在NLP研究中，key和value常常都是同一个，即key＝value。

而注意力机制通常使用编码单元以及解码单元进行注意力机制的实现，具体的，如图3所示，编码单元Encoder负责从输入序列中学习某种表达，然后解码单元Decoder参考该表达生成每一个输出。示例性的，图3中的输入到编码单元的数据为X₁,X₂,X₃,X₄，编码单元Encoder负责从输入序列X₁,X₂,X₃,X₄中学习各数据的向量表达，并通过解码单元将各数据的向量表达转换为Y₁,Y₂,Y₃的输出结果。

在了解了编码单元以及解码单元的结构后，在编码单元以及解码单元中融入注意力机制，假设当前Docoder要输出的是Y_t，已知Decoder上一时刻的隐层输出的值为S_t-1，用它与Encoder的各时刻隐层h_j输出做某种操作f_att，计算出来的相应用softmax转化为概率，就是我们所需的权重a，对输入加权求和，计算出输入序列的表达C，作为Decoder当前的部分输入，从而生成Y_t，这就是Attention的工作机制。

自注意力机制是一种特征的注意力机制，是Attention的特例，在Encoder-Decoder中，输入和输出序列是同一个序列时，称为Self-Attention。普通的Attention，在机器翻译中的物理意义是目标语单词和源语单词之间的一种单词对齐机制，而Self-Attention学习的是句子内部的联系。

所以通过上述内容可知，在本申请实施例中，由于已训练的文本实体处理模型是根据自注意力机制的文本处理模型训练得到的，所以已训练的文本实体处理模型中至少包括编码单元以及解码单元。可以将各词向量输入至所述编码单元,得到各编码向量；将各编码向量输入至所述解码单元，得到各词向量的向量特征。

在本申请实施例中，已训练的文本实体处理模型中可以具有多层编码单元和/或多层解码单元，若已训练的文本实体处理模型中可以具有多层编码单元以及多层解码单元，则首先通过多层编码单元的多层处理得到编码单元的编码向量，并将编码向量输入至各层解码单元，并经过各层解码单元的处理结果依次向上计算，得各词向量的向量特征。

示例性的，在本申请实施例中，如图4所示，在本申请实施例中，已训练的文本实体处理模型的结构如图4所示，已训练的文本实体处理模型具有4层编码单元，分别为编码单元1、编码单元2、编码单元3以及编码单元4；已训练的文本实体处理模型具有4层解码单元，将各词向量输入至编码单元1、编码单元2、编码单元3以及编码单元4中，并依次经过编码单元1、编码单元2、编码单元3以及编码单元4的处理，得到编码向量。

可选的，在本申请实施例中，每一个Encoder的结构是相同的，每一个Decoder的结构也是相同的。

一种可选的实施例中，已训练的文本实体处理模型至少包括多层编码单元，每一所述编码单元包括自注意力机制层和前馈网络层，自注意力机制层用于计算各词向量上下文信息；前馈网络层用于对所述自注意力机制输出的信息进行非线性变换。也就是说，在本申请实施例中，自注意力机制层能够根据输入的各词向量以及其他词向量之间的相关性，来确定各词向量的真实含义，例如，在本申请实施例中，待识别文本数据为“The animaldidn't cross the street because it was too tired”，在识别“it”时，如果不根据上下文信息，并不能确定“it”的指代是什么。而在使用了自注意力机制层后，能够在“annimal”的信息上增加权重，也就是能够理解“it”的指代。

另一方面，在本申请实施例中，前馈网络层主要对于自注意力机制层的输出结果进行非线性编码，抽取有用的高层表示。

可选的，在本申请实施例中，自注意力机制层为多头自注意力机制层，多头自注意力机制层将每个Encoder的输入词向量上创建3个向量，具体的，多头自注意力机制层的结构如图5所示，Query，Key，Value首先进过一个线性变换，然后输入到放缩点积中，并将该步骤执行h次，也就是所谓的多头，每一次算一个头。而且每次Q，K，V进行线性变换的参数W是不一样的。然后将h次的放缩点积结果进行拼接，再进行一次线性变换得到的值作为多头自注意力机制层的结果。由此可知，多头自注意力机制层不同之处在于进行了h次计算而不仅仅算一次，可以在不同的表示子空间里学习到相关的信息。

进一步地，在本申请实施例中，由于各词向量所处的字符位置与各词向量的向量特征相关，所以在本申请实施例中还要考虑各词向量的位置信息。可选的，已训练的文本实体处理模型还包括位置编码层，位置编码层位于各词向量信息进行正弦余弦编码，以使得输入到自注意力机制层的各词向量中具有位置信息。

另一种可选的实施例中，已训练的文本实体处理模型至少包括多层解码单元，解码层的结构包括自注意力机制层、全局注意层、编-解码层和前馈网络层。

具体的，在本申请实施例中，将编码单元的编码向量输入至最下层的自注意力机制层，并获得最下层自注意力机制层的输出；将最下层自注意力机制层的输出与全局特征信息输入至最下层的全局注意层，并获得最下层全局注意层的输出，全局信息是编码单元中自注意力机制层确定的注意力信息。

将最下层全局注意层的输出与编码向量输入至最下层所述解码器的编-解码注意层，并获得最下层编-解码注意层的输出；将最下层编-解码注意层的输出输入至最下层前馈网络层，并获得最下层解码单元的输出；将最下层解码单元的输出作为上一层解码单元的自注意力机制层的输入执行迭代运算。

在本申请实施例中，编码单元可以将各词向量并行进行编码，而解码单元需要逐一进行解码，可以理解为，针对设定字符位置m的字符进行解码时，解码单元的输入是编码单元的输出以及对应m-1位置解码器的输出，m大于等于2。

另一种可选的实施例中，为了能够使用更多的向量特征，从而能够确定出更准确的文本实体，所以在本申请实施例中，除了将编码单元的输出以及对应m-1位置解码器的输出作为解码单元的输入，还可以将字符位置m的字符的词向量作为解码单元的输入，具体的，各编码向量输入至所述解码单元，得到各词向量的向量特征，包括：

针对第i个词向量，将第i个词向量的编码向量、第i个词向量以及第i-1个词向量的解码向量输入至解码单元，得到第i个词向量的向量特征，其中，第i-1个词向量的解码向量是已训练的文本实体处理模型的解码单元根据第i-1个词向量的编码向量、第i-1个词向量以及第i-2个词向量的向量特征确定的，其中i大于等于2。

也就是说，在本申请实施例中，通过第i个词向量的编码向量、第i个词向量以及第i-1个词向量的解码向量多个向量特征确定第i个词向量的解码结果。示例性的，如图6所示，在图6中，输入编码单元的词向量为X₁，X₂，X₃，X₄，编码单元针对X₁，X₂，X₃，X₄的输出结果为L₁，L₂，L₃，L₄；解码单元的输入为Y₁，Y₂，Y₃，Y₄，针对X₁，可选的，解码单元的Y₁中至少包括L₄，解码单元的输出结果为R₁，针对X₂，输入至解码单元的是Y₂中至少包括X₁的解码结果R₁、L₂以及X₂。并依次通过上述过程最终得到X₁，X₂，X₃，X₄对应的解码结果，即各词向量的向量特征R₁，R₂，R₃，R₄。在本申请实施例中输入至Y₂，Y₃，Y₄中的向量仅是为了进行解释设置的，并不代表在实体识别过程中的真实输入。

本申请实施例中还提供另一种已训练的文本实体处理模型的结构，该已训练的文本实体处理模型使用双向编码过程，该模型确定各词向量的向量特征的过程类似完形填空，尽管仍旧看到所有位置信息，但需要预测的词已被特殊符号代替；使用上述实施例中的文本实体处理模型中的编码单元以及解码单元作为新的编码单元，实现各词向量之间的上下文相关。所以在本申请实施例中对语境的理解更深刻，能够更全面的确定各词向量的向量特征。

一种可选的实施例中，具有双向编码处理过程的文本实体处理模型为BERT(Bidirectional Encoder Representations from Transformers)模型，该模型可以利用MLM(Masked Language Model)和NSP(Next Sentence Predicate)机制在大量的文本数据上进行预训练，通过对句子双向的建模得到具有上下文语义信息的BERT模型。

在本申请实施例中，为了解决现有技术中不能解决跳字和/或嵌套结构的实体识别的问题，所以在本申请实施例中用具有跳字和/或嵌套特征的训练样本进行训练，训练样本的来源可以是各个文本训练数据库，也可以根据应用场景不同，选择不同领域的文本数据库。

可选的，在本申请实施例中，BERT将传统大量在下游具体NLP任务中做的操作转移到预训练词向量中，在获得使用BERT词向量后，最终只需在词向量上加简单的MLP或线性分类器即可。例如，在本申请实施例中，可以通过医学领域的文本数据进行预训练，进行其它应用技术领域中的BERT的迁移。

步骤S203，根据各向量特征确定所述待识别文本数据中的文本实体，所述文本实体为所述待识别文本数据中的字段。具体的，在本申请实施中，为了解决嵌套和/或跳字的问题，所以在本申请实施例中，识别的文本实体是待识别文本数据中的多个字段中的某个或者多个，例如，在本申请实施例中，“扁桃体有点肿大化脓”中的全部字段作为目标文本集合，也就是说，对“扁桃体有点肿大化脓”就行文本实体识别的结果是“扁桃体有点肿大化脓”中的多个字段。

在本申请实施例中，确定该向量特征是所述目标文本集合中每个字段的概率，并将最大概率对应的字段作为该向量特征对应的文本实体。示例性的，在本申请实施例中，针对输入的“扁”对应的词向量1，确定该词向量1的向量特征，并根据该词向量1的向量特征确定输出结果为目标文本集合中各字段的概率，即确定了输出结果为“扁”的概率为76％，输出结果为“桃”的概率为10％，输出结果为“体”的概率为5％，输出结果为“有”的概率为1％，输出结果为“有”的概率为1％，输出结果为“肿”的概率为2％，输出结果为“肿”的概率为1％，输出结果为“大”的概率为1％，输出结果为“化”的概率为2％，输出结果为“脓”的概率为1％。

一种可选的实施例中，为了能够在将输入的待识别文本数据中的各字段作为待选输出结果，可以引出指针结构，也就是说，通过计算输出结果的概率，生成指针结构，并根据指针指向的位置，确定待识别文本数据中的某个字段为输出结果。

可选的，在本申请实施例中，通过分类函数softmax来确定输出结果，一种具体的实现方式中，若已训练的文本实体处理模型包括编码单元以及解码单元，则可以通过公式1以及公式2得到softmax的分布概率：

p(C_i|C₁,...,C_i-1,P)＝soft max(uⁱ) 公式2

其中，e_j表示编码单元中每个词向量的编码向量，d_i代表解码层的针对第i个位置的词向量的解码结果，也就是向量特征，表示第d_idi个输出位是输入数据中第j个字的概率，并进行归一化。

一种可选的实施例中，为了能够进行开始识别实体已经结束识别实体的过程，所以在本申请实施例中，待识别文本数据中包括待识别文本数据的开始标识以及停止标识，开始标识以及停止标识可以用不同的标识符号进行表示，例如*或者#等标识。

在开始进行实体识别时，是将开始标识输入至已训练的文本实体处理模型中，并且在连续确定待识别文本数据中的文本实体为停止标识时，则认为待识别文本数据中的文本实体已确定完成。

为了更好的解释本申请实施例，下面结合一种具体的实施场景描述本申请实施例提供的确定文本实体的方法，在本申请实施例中，已训练的文本实体处理模型具有4层的编码单元以及4层的解码单元，每个编码单元中至少包括位置编码层、自注意力机制层以及前馈网络层，解码层的结构至少包括自注意力机制层、全局注意层、编-解码层和前馈网络层。并且，在本申请实施例中，已训练的文本实体处理模型是根据医疗领域中的文本数据进行训练得到的，医疗领域中的文本数据来源可以是病历，也可以是医疗领域中的论文数据。训练数据中至少包括嵌套和/或跳字的结构。具体的，如图7所示，在本申请实施例中，获取待识别文本数据为“患者大小便正常，扁桃体有点肿大化脓，咳嗽，神清”。并在待识别文本数据的末尾加入【#】表示分隔符，对待识别文本数据进行预处理，去除待识别文本数据中的标点。在本申请实施例中，目标文本集合为“患者大小便正常扁桃体有点肿大化脓咳嗽神清”，本申请实施例中识别的实体为医疗领域的实体。

在本申请实施例中，首先对待识别文本数据进行预处理，去掉待识别文本数据中的标点，并进行分词；对分词结果使用word embedding方法中的词汇共生矩阵(word co-occurrence matrix)方法进行词嵌入，得到各字段的词向量。

在本申请实施例中，将各词向量输入至各编码单元进行向量编码，各编码单元之间的参数可以共享，在训练过程中可以加快模型的收敛速度。具体的，如图7所示，将各个词向量输入至编码单元中，并得到T1至T21的编码结果，可以认为是每个字段对应的隐态信息。从图7中可以看出，T21的编码结果是分隔符的编码结果，通过分隔符可以确定编码过程结束。

在解码单元的处理过程中，首先是将分隔符的编码结果输入，开始进行解码单元的第一次解码处理，解码单元根据编码结果确定向量特征，并根据向量特征确定了指针结构的指向，如图7所示，指针指向的是“大”字段。

在进行第二次解码处理过程中，输入至解码单元的是“大”字段的词向量，“大”字段对应的隐态信息以及“大”字段的解码结果，可以通过向量拼接的方式将多个信息进行组合，输入至解码单元中，解码单元确定向量特征，并根据向量特征确定了指针结构的指向，指针指向的是“便”字段。

在解码过程中，若解码的结果是【#】表示一个医疗实体预测结束，下一个实体预测开始。这样一次性能就可以预测多个实体。同时两个实体之间没有强约束，因此两个实体之间的字有重叠、交叉嵌套等都可以处理。

如图7所示，当连续出现两个解码的结果是【#】，则表示没有解码结果中不存在其它实体了，停止进行医疗实体的识别。

可以通过该方法进行解码处理，分别得到指针指向为“正”、“常”、“#”、“小”、“便”、“正”、“常”、“#”、“扁”、“条”、“体”、“肿”、“大”、“#”、“扁”、“条”、“体”、“化”、“脓”、“#”、“神”、“清”。

本申请实施例还提供一种确定肺癌临床病种库文本实体的方法，在本申请实施例中，获取的待识别肺癌临床病种库文本数据可以是从肺癌临床病种库中获取的，也可以是从肺癌临床病历中获取的。待求的文本实体为肺癌诊断相关实体，例如原位癌、肿瘤、淋巴结等。

在获取到待识别肺癌临床病种库文本数据后，首先确定待识别肺癌临床病种库文本数据中各字段的词向量。

一种可选的实施例中，可以用词嵌入的方式确定待识别肺癌临床病种库文本数据中各字段的词向量。

在确定了各字段的词向量后，对词向量进行编码处理，也就是说，将词向量转换为固定长度的编码向量，得到各词向量的编码向量。

在确定各词向量的编码向量后，确定各词向量的编码向量之间的相关性，例如待识别肺癌临床病种库文本数据中包括“淋巴结肿大”等字段，针对“淋”字段对应的编码向量，与“巴”字段对应的编码向量、“结”字段对应的编码向量、“肿”字段对应的编码向量以及“大”字段对应的编码向量都具有相关性，所以根据各相关性，确定各编码向量的解码结果。

在本申请实施例中，确定的解码结果是待识别肺癌临床病种库文本数据中的字段，保证了文本识别的准确性。

在确定了所有的解码结果后，则确定了待识别肺癌临床病种库文本数据的文本实体。

在确定了待识别肺癌临床病种库文本数据的文本实体后，可以更新肺癌临床病种库中的文本实体，也可以用于诊断或者其它医学用途。

基于上述实施例，参阅图8所示，本申请实施例提供一种确定文本实体的装置800，包括：

获取单元801，用于获取待识别文本数据，并确定所述待识别文本数据中各字段的词向量；

向量特征确定单元802，用于根据已训练的文本实体处理模型确定各词向量的向量特征，所述已训练的文本实体处理模型至少是根据自注意力机制的文本处理模型训练得到的；

文本实体确定单元803，用于根据各向量特征确定所述待识别文本数据中的文本实体，所述文本实体为所述待识别文本数据中的字段。

本实施例中，所述已训练的文本实体处理模型至少包括编码单元以及解码单元；

所述向量特征确定单元802具体用于：

将各词向量输入至所述编码单元,得到各编码向量；

所述向量特征确定单元802具体用于：

本实施例中，所述已训练的文本实体处理模型至少包括多层编码单元，每一所述编码单元包括自注意力机制层和前馈网络层，其中，所述自注意力机制层用于计算各词向量上下文信息；所述前馈网络层用于对所述自注意力机制输出的信息进行非线性变换。

本实施例中，所述文本实体确定单元803具体用于：

所述待识别文本数据中包括所述待识别文本数据的停止标识；

本实施例中，所述文本实体确定单元803具体用于：

本实施例中，所述已训练的文本实体处理模型至少是根据自注意力机制的语音识别模型以及训练样本进行训练得到的，所述训练样本中至少具有跳字和/或嵌套特征。

基于上述实施例，本申请实施例提供一种确定肺癌临床病种库文本实体的装置，包括：

基于相同的技术构思，本申请实施例提供了一种计算机设备，如图9所示，包括至少一个处理器901，以及与至少一个处理器连接的存储器902，本申请实施例中不限定处理器901与存储器902之间的具体连接介质，图9中处理器901和存储器902之间通过总线连接为例。总线可以分为地址总线、数据总线、控制总线等。

在本申请实施例中，存储器902存储有可被至少一个处理器901执行的指令，至少一个处理器901通过执行存储器902存储的指令，可以执行前述的确定文本实体的方法中所包括的步骤。

其中，处理器901是计算机设备的控制中心，可以利用各种接口和线路连接终端设备的各个部分，通过运行或执行存储在存储器902内的指令以及调用存储在存储器902内的数据，从而获得客户端地址。待选的，处理器901可包括一个或多个处理单元，处理器901可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器901中。在一些实施例中，处理器901和存储器902可以在同一芯片上实现，在一些实施例中，它们也可以在独立的芯片上分别实现。

处理器901可以是通用处理器，例如中央处理器(CPU)、数字信号处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器902作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器902可以包括至少一种类型的存储介质，例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory，RAM)、静态随机访问存储器(Static Random Access Memory，SRAM)、可编程只读存储器(Programmable Read Only Memory，PROM)、只读存储器(Read Only Memory，ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、磁性存储器、磁盘、光盘等等。存储器902是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。本申请实施例中的存储器902还可以是电路或者其它任意能够实现存储功能的装置，用于存储程序指令和/或数据。

基于相同的技术构思，本申请实施例提供了一种计算机可读存储介质，其存储有可由计算机设备执行的计算机程序，当所述程序在计算机设备上运行时，使得所述计算机设备执行确定文本实体的方法的步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种确定肺癌临床病种库文本实体的方法，其特征在于，所述方法包括：

根据已训练的文本实体处理模型确定各词向量的向量特征，所述已训练的文本实体处理模型至少是根据自注意力机制的文本处理模型以及训练样本进行训练得到的，所述训练样本中至少具有跳字和/或嵌套特征；

根据各向量特征从目标文本集合中确定所述待识别文本数据中的文本实体，具体为：针对每个向量特征，确定输出结果，该输出结果是所述目标文本集合中每个字段的概率，并将最大概率对应的字段作为该向量特征对应的文本实体。

2.根据权利要求1所述的方法，其特征在于，所述已训练的文本实体处理模型至少包括编码单元以及解码单元；

将各词向量输入至所述编码单元,得到各编码向量；

3.根据权利要求2所述的方法，其特征在于，所述将各编码向量输入至所述解码单元，得到各词向量的向量特征，包括：

4.根据权利要求1所述的方法，其特征在于，所述已训练的文本实体处理模型至少是根据自注意力机制的语音识别模型以及训练样本进行训练得到的。

5.一种确定肺癌临床病种库文本实体的装置，其特征在于，包括：

向量特征确定单元，用于根据已训练的文本实体处理模型确定各词向量的向量特征，所述已训练的文本实体处理模型至少是根据自注意力机制的文本处理模型以及训练样本进行训练得到的，所述训练样本中至少具有跳字和/或嵌套特征；

文本实体确定单元，用于根据各向量特征从目标文本集合中确定所述待识别文本数据中的文本实体，具体为：针对每个向量特征，确定输出结果，该输出结果是所述目标文本集合中每个字段的概率，并将最大概率对应的字段作为该向量特征对应的文本实体。

6.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1～4任一权利要求所述方法的步骤。

7.一种计算机可读存储介质，其特征在于，其存储有可由计算机设备执行的计算机程序，当所述程序在计算机设备上运行时，使得所述计算机设备执行权利要求1～4任一权利要求所述方法的步骤。