CN116187318A

CN116187318A - 文本数据的识别方法、装置、设备及存储介质

Info

Publication number: CN116187318A
Application number: CN202211609558.0A
Authority: CN
Inventors: 许胜强; 王黎成; 廖晏祯; 胡加学; 赵景鹤; 贺志阳; 鹿晓亮; 魏思; 胡国平
Original assignee: Iflytek Medical Technology Co ltd
Current assignee: Iflytek Medical Technology Co ltd
Priority date: 2022-12-14
Filing date: 2022-12-14
Publication date: 2023-05-30

Abstract

本申请提供了文本数据的识别方法、装置、设备及存储介质，具体实现方案为：获取待识别医疗文本数据；在所述待识别医疗文本数据中确定对应的临床发现词；根据所述待识别医疗文本数据中的其他词与所述临床发现词之间的第一逻辑关系和所述待识别医疗文本数据及其之前的医疗文本数据之间的第二逻辑关系，确定所述临床发现词的类别。根据本申请的技术方案，能够有效提升医疗文本数据的处理效率。

Description

文本数据的识别方法、装置、设备及存储介质

技术领域

本申请涉及数据处理技术领域，尤其涉及一种文本数据的识别方法、装置、设备及存储介质。

背景技术

随着互联网技术的不断发展，患者会通过互联网会对自己的症状进行一些口语化的描述，一般称之为主诉。目前，医生需要完全阅读患者的主诉内容之后，才可以对主诉内容进行针对性的问诊，使得医生对主诉内容的处理效率低下。

发明内容

为了解决上述问题，本申请提出一种文本数据的识别方法、装置、设备及存储介质，能够有效提升医疗文本数据的处理效率。

根据本申请实施例的第一方面，提供了一种文本数据的识别方法，包括：

获取待识别医疗文本数据；

在所述待识别医疗文本数据中确定对应的临床发现词；

根据所述待识别医疗文本数据中的其他词与所述临床发现词之间的第一逻辑关系和所述待识别医疗文本数据及其之前的医疗文本数据之间的第二逻辑关系，确定所述临床发现词的类别。

根据本申请实施例的第二方面，提供了一种文本数据的识别装置，包括：

获取模块，用于获取待识别医疗文本数据；

确定模块，用于在所述待识别医疗文本数据中确定对应的临床发现词；

识别模块，用于根据所述待识别医疗文本数据中所有词汇与所述临床发现词之间的第一逻辑关系和所述待识别医疗文本数据及其之前的医疗文本数据之间的第二逻辑关系，确定所述临床发现词的类别。

本申请第三方面提供了一种电子设备，包括：

存储器和处理器；

所述存储器与所述处理器连接，用于存储程序；

所述处理器，通过运行所述存储器中的程序，实现上述的文本数据的识别方法。

本申请第四方面提供了一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时，实现上述的文本数据的识别方法。

上述申请中的一个实施例具有如下优点或有益效果：

在获取到的待识别医疗文本数据中确定对应的临床发现词，根据待识别医疗文本数据中的其他词与临床发现词之间的第一逻辑关系和之间的第二逻辑关系，有效关注临床发现词与句中其他词的上下文关系，以及待识别医疗文本数据与其他文本的上下文关系，使得确定出的临床发现词的类别更加准确，从而便于对医疗文本数据的理解，进而提升医疗文本数据的处理效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的一种文本数据的识别方法的流程示意图；

图2为本申请实施例提供的实体抽取的示意图；

图3为本申请实施例提供的文本输入者标记医疗文本数据的示意图；

图4为本申请实施例提供的一种文本数据的识别方法中的步骤S130的具体流程示意图；

图5为本申请实施例提供的第一层词图的示意图；

图6为本申请实施例提供的第二层词图的示意图；

图7为本申请实施例提供的对话图的示意图；

图8为本申请实施例提供一种文本数据的识别方法的具体流程示意图；

图9为本申请实施例提供的一种文本数据的识别装置的结构示意图；

图10为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

本申请实施例技术方案适用于应用在各种文本识别的场景中，例如，医疗场景、互联网问诊等。采用本申请实施例技术方案，能够提升医疗文本数据的处理效率。

本申请实施例技术方案可示例性地应用于处理器、电子设备、服务器(包括云服务器)等硬件设备，或包装成软件程序被运行，当硬件设备执行本申请实施例技术方案的处理过程，或上述软件程序被运行时，可以实现对医疗文本数据中临床发现词的类别进行识别的目的。本申请实施例只对本申请技术方案的具体处理过程进行示例性介绍，并不对本申请技术方案的具体实现形式进行限定，任意的可以执行本申请技术方案处理过程的技术实现形式，都可以被本申请实施例所采用。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

示例性方法

图1是根据本申请一实施例的文本数据的识别方法的流程图。在一示例性实施例中，提供了一种文本数据的识别方法，包括：

S110、获取待识别医疗文本数据；

S120、在所述待识别医疗文本数据中确定对应的临床发现词；

S130、根据所述待识别医疗文本数据中的其他词与所述临床发现词之间的第一逻辑关系和所述待识别医疗文本数据及其之前的医疗文本数据之间的第二逻辑关系，确定所述临床发现词的类别。

在步骤S110中，示例性地，待识别医疗文本数据用于表示在患者就诊时医生和/或患者的对话内容。医疗文本数据可以是直接采集到的数据，还可以是通过其他设备间接采集到的数据，亦可以是在开源的数据库或网页上获取的数据。

具体地，可以是获取医生和/或患者的语音数据，再对语音数据进行识别，得到医疗文本数据。还可以是直接获取的医生和/或患者输入的医疗文本数据。进一步地，在获取医疗文本数据后，可以先对文本进行清洗处理，即去除医疗文本数据中的无关数据，例如，地址、电话、时间、网页链接等。

在步骤S120中，示例性地，临床发现词用于表示临床发现所对应的词汇。其中，临床发现(Clinical Finding)是临床医学下病人状态描述的概念集合，每一个临床发现的概念都具有明确的涵义(比如腹泻，呕吐，高温，物理降温，降温药物治疗)，在医学领域中为了保证其严谨性对每一个概念都进行了明确的定义和说明。所以可以采用严谨的临床发现的概念对病人状态进行表达。可选地，临床发现词可以是口语化的对症状进行描述的词，还可以是标准的医疗用词。临床发现词包括：肚子疼、拉肚子、腹泻、上腹部疼、呕吐、反胃等。

具体地，可以对待识别医疗文本数据进行实体抽取模型得到临床发现词，例如，实体抽取模型可以是隐马尔可夫模型(hidden Markov model，HMM)、支持向量机(supportvector machine，SVM)、条件随机场(conditional random field，CRF)、长短期记忆网络(Long Short Term Memory，LSTM)等。在本实施例中，如图2所示，采用LSTM+CRF，其中，LSTM采用Bi-LSTM模型(Bi-directional Long Short Term Memory)。可选地，先确定待识别医疗文本数据中每个词对应的词向量，将词向量按照待识别医疗文本数据中的词序输入至Bi-LSTM模型，结合正反向隐层输出得到每个词属于每个实体类别标签的概率，再输入CRF模型中，优化目标函数，从而得到每个词所属的实体类别(即BIO标记)。例如，将待识别医疗文本数据“不是，主要是下腹部疼”输入至Bi-LSTM模型+CRF模型，输出抽取到的实体是“下腹部疼”。实体抽取模型还可使用Bi-LSTM模型、ERNIE模型(Enhanced languageRepresentation with Informative Entities)或者注意力模型等对参数进行调整优化。

在步骤S130中，示例性地，第一逻辑关系用于表示临床发现词与句中其他词的上下文语义关系。可选地，可以采用向量表达待识别医疗文本数据中的各个词汇，再通过临床发现词及其相邻的词汇对应的向量按照一定权重进行计算，将计算结果作为第一逻辑关系。可选地，还可以是将临床发现词及其相邻的词汇输入至预先训练的神经网络，输出第一逻辑关系，其中，预设的神经网络根据训练文本数据学习词与词之间语义关系。如深度神经网络(Deep Neural Networks,DNN)、卷积神经网络(Convolutional Neural Network，CNN)、递归神经网络(Recurrent Neural Network，RNN)。

第二逻辑关系用于表示待识别医疗文本数据与前文的语义关系。可选地，可以根据向量分别表示待识别医疗文本数据及其之前的医疗文本数据，再将待识别医疗文本数据及其之前的医疗文本数据对应的向量进行计算，将计算结果作为第二逻辑关系。可选地，还可以是将待识别医疗文本数据及其之前的医疗文本数据输入至预先训练的神经网络，输出第二逻辑关系，其中，预设的神经网络根据训练文本数据学习句子与句子之间语义关系。

临床发现词的类别用于区分临床发现词与已有症状或疾病的相关性。临床发现词的类别可以分为与已有症状或疾病或医生诊断相关、与疾病已有症状或疾病或医生诊断无关、无法确定是否与已有症状或疾病或医生诊断相关。可选地，上述几种类别可以用任意字符进行表示，如字母、数字、汉字等。在本实施例中，采用阳性(pos)、阴性(neg)、其他(other)对上述三种类别进行表示。具体地，阳性表示与已有症状或疾病或医生诊断(包含多个诊断结论)相关等，可以理解的是，疾病包括已有疾病和未来可能发生的疾病；阴性表示与疾病已有症状或疾病或医生诊断无关(即未患有疾病、症状)；其他表示无法确定是否与已有症状或疾病或医生诊断相关，即一般指用户没有回答、不知道或者回答不明确/模棱两可不好推断的情况。进一步地，还可以增加一个分类：无实际意义的临床发现词，一般是医生的解释说的是一般知识，和患者当前的状态条件独立不具有标注意义，可以用不标注(empty)表示。

具体地，根据训练文本数据确定第一逻辑关系的训练数据和第二逻辑关系的训练数据，再根据第一逻辑关系的训练数据、第二逻辑关系的训练数据以及训练文本数据中临床发现词对应的类别对神经网络模型进行训练，得到训练好的神经网络模型。如此将第一逻辑关系和第二逻辑关系输入至训练好的神经网络模型，输出临床发现词对应的类别。

在本申请的技术方案中，在获取到的待识别医疗文本数据中确定对应的临床发现词，根据待识别医疗文本数据中的其他词与临床发现词之间的第一逻辑关系和之间的第二逻辑关系，有效关注临床发现词与句中其他词的上下文关系，以及待识别医疗文本数据与其他文本的上下文关系，使得确定出的临床发现词的类别更加准确，从而便于对医疗文本数据的理解，进而提升医疗文本数据的处理效率。

在一种实施方式中，所述在所述待识别医疗文本数据中确定对应的临床发现词之后，在所述根据所述待识别医疗文本数据中的其他词与所述临床发现词之间的第一逻辑关系和所述待识别医疗文本数据及其之前的医疗文本数据之间的第二逻辑关系，确定所述临床发现词的类别之前，所述方法还包括：

根据所述待识别医疗文本数据及所述临床发现词对应的标准名，得到所述待识别医疗文本数据对应的标准化文本数据。

示例性地，标准名用于表示标准的医疗用词。由于患者描述信息较为口语化、甚至可能有错别字，因此，需要将临床发现词进行标准化处理，得到对应的标准名，例如，“下腹部疼”标准化为“下腹部疼痛”。

示例性地，可以是利用标准名替换待识别医疗文本数据中的临床发现词，得到标准化文本数据。还可以是在待识别医疗文本数据中，将“临床发现词”替换为“临床发现词+“标准化为”+标准名”。例如，“不是，主要是下腹部疼”标准化为“不是，主要是下腹部疼标准化为下腹部疼痛”。如此构建标准词模板，对待识别医疗文本数据进行标准化处理，使得标准化后的文本数据具有通用性，便于确定临床发现词的类别。

在一种实施方式中，所述获取待识别医疗文本数据之后，所述方法还包括：

对所述待识别医疗文本数据的文本输入者进行标记。

示例性地，文本输入者包括患者、医生。对于同样的临床发现词，若是患者提出，则更多的是在描述自身状态。若是医生提出，则多数是提问或是在对医学常识作出解释。因此对于医疗对话中的每段文本，需要标注文本输入者。如图3所示，标注的方式包括显式嵌入和隐式嵌入，显式嵌入可以通过在词表中添加代表对话角色的特殊标识符(如图3中第一行的特殊标识符)。而隐示嵌入则是在输入端添加角色嵌入向量，与其他输入向量拼接(如图3中第二行的ED表示医生、EP表示患者)。

在本实施例中，采用显式嵌入对文本输入者进行标注，若文本的输入者为患者，则在文本前拼接“患者”，若文本的输入者为医生，则在文本前拼接“医生”。如此，对医疗文本数据进行文本输入者的标记，根据不同文本输入者的可以进一步区分出与已有症状或疾病或医生诊断相关的临场发现词。

在一种实施方式中，如图4所示，所述根据所述待识别医疗文本数据中的其他词与所述临床发现词之间的第一逻辑关系和所述待识别医疗文本数据及其之前的医疗文本数据之间的第二逻辑关系，确定所述临床发现词的类别，步骤S130包括:

S310、利用所述待识别医疗文本数据中所有词汇之间的上下文逻辑关系，将所述待识别医疗文本数据中的其他词的信息聚合至所述临床发现词中，确定所述临床发现词的聚合结果；

S320、利用所述待识别医疗文本数据及其之前的医疗文本数据之间的逻辑关系，将所述之前的医疗文本数据的信息聚合至所述待识别医疗文本数据中，得到所述待识别医疗文本数据的聚合结果；

S30、根据所述临床发现词的聚合结果和所述待识别医疗文本数据的聚合结果，确定所述临床发现词的类别。

示例性地，所有词汇之间的上下文逻辑关系是通过构建词图确定的，具体地，将待识别医疗文本数据中出现过的所有词都作为词图中的节点，词图中的边是从一个词开始，到其相邻词结束，如此词图形成一个闭环，确定词与词之间的关系。根据词图可以确定临床发现词与其他词的距离，可以根据需要选择需要聚合的词的个数，例如，若预先设置只关注于临床发现词距离最近的词汇所包含的信息，那么就只对临床发现词及其距离最近的词进行聚合。若预先设置关注医疗文本数据中所有词汇所包含的信息，那么就对临床发现词及其他词进行聚合。还可以是先聚合临床发现词距离最近的词，再聚合距离最近的词之外的词汇。聚合的方式可以是对临床发现词与其他词对应的向量取平均值，以确定上下文逻辑关系，即临床发现词的聚合结果。

示例性地，所有医疗文本数据(即句子与句子)之间的逻辑关系是通过构建对话图确定的，具体地，将医疗文本数据作为对话图中的节点，根据医疗文本数据之间的顺序确定对话图的边，例如，由第i-1个医疗文本数据指向第i个医疗文本数据，如此形成对话图的边。

可选地，在同一次患者问诊的情况下，对话图是不断更新的，每接收到第i个医疗文本数据(即待识别医疗文本数据)，均将其添加至对话图中，与第i-1个医疗文本数据相连。这样，对于每一个待识别医疗文本数据来说，之前的医疗文本数据的数量不同。根据对话图可以确定待识别医疗文本数据与之前的医疗文本数据的距离，可以根据需要选择需要聚合的句子的个数，例如，若预先设置只关注于待识别医疗文本数据前一个句子所包含的信息，那么就只对待识别医疗文本数据及其前一个医疗文本数据进行聚合。若预先设置关注待识别医疗文本数据之前多个句子所包含的信息，那么就对待识别医疗文本数据及其之前多个医疗文本数据进行聚合。聚合的方式可以是利用注意力机制确定待识别医疗文本数据及其之前的医疗文本数据的逻辑关系，即待识别医疗文本数据的聚合结果。如此，对医疗文本数据进行分层聚合，词间第一层消息聚合、句子间第二层消息聚合历史对话信息，可以兼顾自身信息与外源信息。

具体地，预先根据训练文本数据中的临床发现词的聚合结果和训练文本数据的聚合结果以及对应的临床发现词的类别对神经网络模型进行训练，得到训练好的临床发现词类别识别模型。如此，将临床发现词的聚合结果和待识别医疗文本数据的聚合结果输入至临床发现词类别识别模型，就可以输出临床发现词的类别。在本实施例中，可以通过全连接层输出最终分类，再采用采用函数对模型进行优化。从而实现对临床发现词的类别进行判别。

优选地，所述方法还包括：

根据所述临床发现词的聚合结果和所述待识别医疗文本数据的聚合结果，更新所述待识别医疗文本数据之前的医疗文本数据中临床发现词的类别。

示例性地，利用待识别医疗文本数据中临床发现词的类别以及之前的医疗文本数据与待识别文本中临床发现词的相关性，更新之前的医疗文本数据中临床发现词的类别。

具体地，在确定待识别医疗文本数据中临床发现词的类别为已有症状或疾病或医生诊断相关(阳性)的情况下，若之前的医疗文本数据中临床发现词的类别标记为无法确定是否与已有症状或疾病或医生诊断相关(其他)或阳性，则判断之前的医疗文本数据与待识别文本中临床发现词的相关性；若之前的医疗文本数据与待识别文本中临床发现词相关，则将之前的医疗文本数据中临床发现词的类别标记为阳性；反之，若不相关，则将之前的医疗文本数据中临床发现词的类别标记为与疾病已有症状或疾病或医生诊断无关(阴性)。

在确定待识别医疗文本数据中临床发现词的类别为阴性的情况下，若之前的医疗文本数据中临床发现词的类别标记为其他；若之前的医疗文本数据与待识别文本中临床发现词相关，则将之前的医疗文本数据中临床发现词的类别标记为阴性；反之，若不相关，但是依然无法确定之前的医疗文本数据中临床发现词是否与已有症状或疾病或医生诊断相关，因此其类别依然标记为其他。

在本实施例中，对之前的医疗文本数据中标记为其他或阳性的词汇进行类别更新，如此可以对更准确的理解医疗文本的内容。

例如，患者：医生您好，从昨天晚上开始肚子一直疼，吃了布洛芬有所缓解。----“肚子一直疼”标记阳性。

医生：肚子疼，是上腹部疼么？----“肚子疼”标记阳性，是基于上文推断；“上腹部疼痛”标记其他，表示不明确。

患者：不是，主要是下腹部疼。----将“上腹部疼痛”标记阴性，“下腹部疼痛”标记阳性。

在一种实施方式中，所述利用所述待识别医疗文本数据中所有词汇之间的上下文逻辑关系，将所述待识别医疗文本数据中的其他词的信息聚合至所述临床发现词中，确定所述临床发现词的聚合结果，包括：

根据所述待识别医疗文本数据中每一个词及其相邻词，确定所述待识别医疗文本数据中每一个词的第一编码结果；

对所述待识别医疗文本数据中所述临床发现词对应的第一编码结果与所述待识别医疗文本数据中每一个词的第一编码结果进行注意力机制计算，得到所述临床发现词与所述待识别医疗文本数据中的其他词的第一编码结果之间的相关系数；

基于所述相关系数，对所述待识别医疗文本数据中的其他词的第一编码结果和所述临床发现词对应的第一编码结果进行信息聚合计算，得到所述临床发现词的第二编码结果。

具体地，对于由l个词构成的整段或整句医疗对话文本T(即医疗文本数据)，可以用

来表示，其中，r_i表示该段对话中的第i个词的嵌入向量，由wordembedding方法将上述向量初始化为d₀维。在构建词图时，将对话中出现过的所有词汇都作为图中的节点。图中的边从一个词汇开始，到其相邻词结束。综上，词图被定义为:

其中，N⁰和E⁰是图的节点集和边集，节点的向量表示以及边的权重均来自于全局共享矩阵。p表示与图中每个单词相连的相邻单词的最大距离，一般根据实际经验进行设置。

在临床发现词的阴阳性判别中，临床发现词前后的几个词最为关键，因此在信息传递过程中，可以首先聚合距离较近的单词信息，这里可以根据经验设置p的大小。p＝1时，第一层词图如图5所示，词间信息传递第一层(即第一编码结果)可以定义为：

其中，average函数是取平均值函数，可以根据经验设置参数λ，表示在消息传递过程中应该保留多少历史信息。

经过上述第一层后，该词图的表示更新为

为了掌握全文的特征，还需要对所有节点之间都建立一层连接。第二层词图如图6所示，第二层词图可以定义为：

其中，N¹和E¹是图的节点集和边集。

由于边数较多，即对每个节点，需要聚合的邻节点信息过多，因此不能使用average函数，这里的信息聚合采用注意力机制，词间信息聚合第二层定义为：

其中，||表示拼接运算，LeakyReLU为一种非线性函数。c_ij是相邻节点与第i个节点之间的相关系数。α_ij为SoftMax函数(即通过上述两个公式计算得到临床发现词与所述待识别医疗文本数据中的其他词的第一编码结果之间的相关系数)。然后，根据第一层相同的方式对聚合信息，公式如下：

/>

如此，词图第一层消息传递聚合局部信息、词图第二层消息传递聚合全局信息，采用分层图神经网络在多个层级上聚合对话信息，可以兼顾局部信息与全局信息。

在一种实施方式中，所述利用所述待识别医疗文本数据及其之前的医疗文本数据之间的逻辑关系，将所述之前的医疗文本数据的信息聚合至所述待识别医疗文本数据中，得到所述待识别医疗文本数据的聚合结果，包括：

确定所述之前的医疗文本数据对应的第三编码结果与所述待识别医疗文本数据对应的第四编码结果；

将所述第三编码结果与所述临床发现词对应的第四编码结果进行信息聚合处理，得到所述待识别医疗文本数据的第四编码结果。

示例性地，可以采用第二层词图得到的第二编码结果对医疗对话文本T中的m句对话分别进行编码，如此可以得到之前的医疗文本数据对应的第三编码结果与待识别医疗文本数据对应的第四编码结果。

优选地，其中，确定医疗文本数据对应的编码结果的方法，包括：

在所述医疗文本数据中存在临床发现词的情况下，对所述医疗文本数据中的临床发现词的编码结果及所述临床发现词之前的词汇的编码结果进行注意力机制计算，得到所述医疗文本数据中的临床发现词及其之前词汇之间的相关系数，并基于所述医疗文本数据中的临床发现词与及其之前词汇之间的相关系数对所述医疗文本数据中所述临床发现词之前的词汇的编码结果进行计算，得到所述医疗文本数据对应的编码结果；

在所述医疗文本数据中不存在临床发现词的情况下，根据所述医疗文本数据中每一个词对应的编码结果计算所述医疗文本数据的平均编码，并将所述平均编码确定为所述医疗文本数据对应的编码结果。

在本实施例中，经过两层词图得到了

实际上，全部的对话文本是由m句对话组成。需要获得每条对话的编码，以构建对话图。对于第t句对话，设其由/>

组成，其编码表示设为s_t，若其中存在临床发现词的编码/>

同样可以使用注意力机制计算得到该句话的编码表示，定义为：

若该句对话中不存在临床发现，则使用简单的均值函数计算得到编码表示，定义为：

如图7所示，最终得到了对话图的表示：

N⁽¹⁾＝{s_t|t∈[1,m]}

E⁽¹⁾＝{e_tu|t∈[1,m]；u∈[t-q,t+q]}

其中，N⁽¹⁾和E⁽¹⁾是对话图的节点集和边集。q表示与图中每句话上下文相关联的对话距离的最大值。例如，q＝2，需要说明的是。q的数值大小可以是根据实际需求进行设置的。

为了更好地在实际场景中应用，模型可以面向在线测试，因此，在阴阳性判断过程中，只针对已经产生的对话文本进行分析。即对于第i句对话，最多只能聚合第i-q条对话到其自身的信息(即待识别医疗文本数据的聚合结果)，表示如下：

c_ij＝LeakyReLU(s_i||s_j)

h∈[i-q,i]

其中，s′_i用于表示第i句对话的编码。

如此，对话图消息传递聚合历史对话信息，可以兼顾自身信息与外源信息。进一步地，对话间的消息传递采用注意力机制，且只关注上文，与实际认知相符合。

进一步地，由于在本模型中，每个临床发现词及其对应医疗文本数据的编码都是d₀维向量，采用如下方式进行拼接：

其中，||表示拼接操作，第i个临床发现词的编码表示为

第i个临床发现词所在医疗文本数据的编码表示为s′_i。

如图8所示，通过一层带有softmax的全连接层(Multi-Layer Perceptron，MLP)输出最终预测的分类：

其中，

将向量映射到4维，b为4维的偏置。4个值对应当前临床发现被分类为阳性、阴性、其他和不标注类别的置信度。

损失函数采用交叉熵，定义如下：

其中，y_i表示第i个临床发现的阴阳性真实类别，N表示对话中临床发现的总个数。

由此可见，在本实施例中，只需输入医疗文本数据(如“不是，主要是下腹部疼”)。即可以对医疗文本数据进行清理、实体抽取、标记文本输入者、进行文本的标准化。再根据词图第一层消息传递聚合局部信息、词图第二层消息传递聚合全局信息以及对话图消息传递聚合历史对话信息。采用分层图神经网络在多个层级上聚合对话信息，可以兼顾自身信息与外源信息、局部信息与全局信息，且构建词图、对话图规模为文本级，资源占用小；最后通过全连接层输出最终预测的分类，中间没有经过额外的人工处理，实现了采用端到端的方式对临床发现词阴阳性进行判别。

在一种实施方式中，所述方法还包括：

在所述待识别医疗文本数据的文本输入者标记为患者的情况下，根据所述临床发现词的类别生成针对所述患者的问题文本数据。

示例性地，在互联网问诊的场景下，通过机器学习医生与患者之间的医疗文本数据，将临床发现词与医生的医疗文本数据输入至神经网络模型进行学习。这样根据输入的临床发现词即可生成对应该症状的问题文本数据。通过类别判断临床发现词是否与已有症状或疾病或医生诊断相关，如此可以驱动AI生成更加符合当前患者情况的问题文本数据，进而实现AI与患者的多轮对话交互。

进一步地，可以为每个患者创建对应的医疗档案，医疗档案中记载患者所得过的疾病、症状、手术、用药等情况。如此，在进行互联网问诊时，可以根据患者的医疗档案更加了解患者，从而提出更准确的问题，在每次识别出患者的阳性的临床发现词时，将其加入至医疗档案中，以更新患者的用户画像。

示例性装置

相应的，图9是根据本申请一实施例的文本数据的识别装置的结构示意图。在一示例性实施例中，提供了一种文本数据的识别装置，包括：

获取模块910，用于获取待识别医疗文本数据；

确定模块920，用于在所述待识别医疗文本数据中确定对应的临床发现词；

识别模块930，用于根据所述待识别医疗文本数据中所有词汇与所述临床发现词之间的第一逻辑关系和所述待识别医疗文本数据及其之前的医疗文本数据之间的第二逻辑关系，确定所述临床发现词的类别。

在一种实施方式中，识别模块930，包括:

第一聚合模块，用于利用所述待识别医疗文本数据中所有词汇之间的上下文逻辑关系，将所述待识别医疗文本数据中的其他词的信息聚合至所述临床发现词中，确定所述临床发现词的聚合结果；

第二聚合模块，用于利用所述待识别医疗文本数据及其之前的医疗文本数据之间的逻辑关系，将所述之前的医疗文本数据的信息聚合至所述待识别医疗文本数据中，得到所述待识别医疗文本数据的聚合结果；

预测模块，用于根据所述临床发现词的聚合结果和所述待识别医疗文本数据的聚合结果，确定所述临床发现词的类别。

在一种实施方式中，所述装置还包括：

更新模块，用于根据所述临床发现词的聚合结果和所述待识别医疗文本数据的聚合结果，更新所述待识别医疗文本数据之前的医疗文本数据中临床发现词的类别。

在一种实施方式中，所述装置还包括：

标准化模块，用于根据所述待识别医疗文本数据及所述临床发现词对应的标准名，得到所述待识别医疗文本数据对应的标准化文本数据。

在一种实施方式中，所述装置还包括：

角色标记模块，对所述待识别医疗文本数据的文本输入者进行标记。

在一种实施方式中，所述第一聚合模块，还用于：

在一种实施方式中，所述第二聚合模块，还用于：

在一种实施方式中，其中，确定医疗文本数据对应的编码结果的方法，包括：

在一种实施方式中，所述装置还包括：

生成模块，用于在所述待识别医疗文本数据的文本输入者标记为患者的情况下，根据所述临床发现词的类别生成针对所述患者的问题文本数据。

本实施例提供的文本数据的识别装置，与本申请上述实施例所提供的文本数据的识别方法属于同一申请构思，可执行本申请上述任意实施例所提供的文本数据的识别方法，具备执行文本数据的识别方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请上述实施例提供的文本数据的识别方法的具体处理内容，此处不再加以赘述。

示例性电子设备

本申请另一实施例还提出一种电子设备，参见图10所示，该设备包括：

存储器1000和处理器1010；

其中，所述存储器1000与所述处理器1010连接，用于存储程序；

所述处理器1010，用于通过运行所述存储器1000中存储的程序，实现上述任一实施例公开的文本数据的识别方法。

具体的，上述电子设备还可以包括：总线、通信接口1020、输入设备1030和输出设备1040。

处理器1010、存储器1000、通信接口1020、输入设备1030和输出设备1040通过总线相互连接。其中：

总线可包括一通路，在计算机系统各个部件之间传送信息。

处理器1010可以是通用处理器，例如通用中央处理器(CPU)、微处理器等，也可以是特定应用集成电路(application-specific integrated circuit，ASIC)，或一个或多个用于控制本发明方案程序执行的集成电路。还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

处理器1010可包括主处理器，还可包括基带芯片、调制解调器等。

存储器1000中保存有执行本发明技术方案的程序，还可以保存有操作系统和其他关键业务。具体地，程序可以包括程序代码，程序代码包括计算机操作指令。更具体的，存储器1000可以包括只读存储器(read-only memory，ROM)、可存储静态信息和指令的其他类型的静态存储设备、随机存取存储器(random access memory，RAM)、可存储信息和指令的其他类型的动态存储设备、磁盘存储器、flash等等。

输入设备1030可包括接收用户输入的数据和信息的装置，例如键盘、鼠标、摄像头、扫描仪、光笔、语音输入装置、触摸屏、计步器或重力感应器等。

输出设备1040可包括允许输出信息给用户的装置，例如显示屏、打印机、扬声器等。

通信接口1020可包括使用任何收发器一类的装置，以便与其他设备或通信网络通信，如以太网，无线接入网(RAN)，无线局域网(WLAN)等。

处理器1010执行存储器1000中所存放的程序，以及调用其他设备，可用于实现本申请上述实施例所提供的任意一种文本数据的识别方法的各个步骤。

示例性计算机程序产品和存储介质

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的文本数据的识别方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是存储介质，其上存储有计算机程序，计算机程序被处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的文本数据的识别方法中的步骤。

上述的电子设备的具体工作内容，以及上述的计算机程序产品和存储介质上的计算机程序被处理器运行时的具体工作内容，均可以参见上述的方法实施例的内容，此处不再赘述。

对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请各实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减，各实施例中记载的技术特征可以进行替换或者组合。

本申请各实施例种装置及终端中的模块和子模块可以根据实际需要进行合并、划分和删减。

本申请所提供的几个实施例中，应该理解到，所揭露的终端，装置和方法，可以通过其它的方式实现。例如，以上所描述的终端实施例仅仅是示意性的，例如，模块或子模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个子模块或模块可以结合或者可以集成到另一个模块，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块或子模块可以是或者也可以不是物理上分开的，作为模块或子模块的部件可以是或者也可以不是物理模块或子模块，即可以位于一个地方，或者也可以分布到多个网络模块或子模块上。可以根据实际的需要选择其中的部分或者全部模块或子模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块或子模块可以集成在一个处理模块中，也可以是各个模块或子模块单独物理存在，也可以两个或两个以上模块或子模块集成在一个模块中。上述集成的模块或子模块既可以采用硬件的形式实现，也可以采用软件功能模块或子模块的形式实现。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件单元，或者二者的结合来实施。软件单元可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种文本数据的识别方法，其特征在于，包括：

获取待识别医疗文本数据；

在所述待识别医疗文本数据中确定对应的临床发现词；

2.根据权利要求1所述的方法，其特征在于，所述根据所述待识别医疗文本数据中的其他词与所述临床发现词之间的第一逻辑关系和所述待识别医疗文本数据及其之前的医疗文本数据之间的第二逻辑关系，确定所述临床发现词的类别，包括:

利用所述待识别医疗文本数据中所有词汇之间的上下文逻辑关系，将所述待识别医疗文本数据中的其他词的信息聚合至所述临床发现词中，确定所述临床发现词的聚合结果；

利用所述待识别医疗文本数据及其之前的医疗文本数据之间的逻辑关系，将所述之前的医疗文本数据的信息聚合至所述待识别医疗文本数据中，得到所述待识别医疗文本数据的聚合结果；

根据所述临床发现词的聚合结果和所述待识别医疗文本数据的聚合结果，确定所述临床发现词的类别。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求2所述的方法，其特征在于，所述利用所述待识别医疗文本数据中所有词汇之间的上下文逻辑关系，将所述待识别医疗文本数据中的其他词的信息聚合至所述临床发现词中，确定所述临床发现词的聚合结果，包括：

5.根据权利要求2所述的方法，其特征在于，所述利用所述待识别医疗文本数据及其之前的医疗文本数据之间的逻辑关系，将所述之前的医疗文本数据的信息聚合至所述待识别医疗文本数据中，得到所述待识别医疗文本数据的聚合结果，包括：

6.根据权利要求5所述的方法，其特征在于，其中，确定医疗文本数据对应的编码结果的方法，包括：

7.根据权利要求1所述的方法，其特征在于，所述在所述待识别医疗文本数据中确定对应的临床发现词之后，在所述根据所述待识别医疗文本数据中的其他词与所述临床发现词之间的第一逻辑关系和所述待识别医疗文本数据及其之前的医疗文本数据之间的第二逻辑关系，确定所述临床发现词的类别之前，所述方法还包括：

8.根据权利要求1所述的方法，其特征在于，所述获取待识别医疗文本数据之后，所述方法还包括：

对所述待识别医疗文本数据的文本输入者进行标记。

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：

10.一种文本数据的识别装置，其特征在于，包括：

获取模块，用于获取待识别医疗文本数据；

11.一种电子设备，其特征在于，包括：

存储器和处理器；

所述存储器与所述处理器连接，用于存储程序；

所述处理器，通过运行所述存储器中的程序，实现如权利要求1至9中任意一项文本数据的识别方法。

12.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时，实现如权利要求1至9中任意一项文本数据的识别方法。