CN114580354B

CN114580354B - 基于同义词的信息编码方法、装置、设备和存储介质

Info

Publication number: CN114580354B
Application number: CN202210478341.4A
Authority: CN
Inventors: 袁正; 谭传奇; 黄松芳
Original assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Current assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date: 2022-05-05
Filing date: 2022-05-05
Publication date: 2022-10-28
Anticipated expiration: 2042-05-05
Also published as: CN114580354A

Abstract

本申请提供一种基于同义词的信息编码方法、装置、设备和存储介质，该方法包括：对病历文本中的词语进行编码，以得到病历文本对应的第一语义表示；获取预设的疾病编码标识所对应的多种描述，多种描述中包括与疾病编码标识对应的标准描述以及同义词描述。根据所述多种描述确定疾病编码标识对应的第二语义表示，根据所述多种描述和第一语义表示，确定病历文本对应于疾病编码标识的第三语义表示。根据第三语义表示与第二语义表示的相似度，确定病历文本是否标记上所述疾病编码标识。在上述病历文本的自动编码过程中，充分利用了疾病名称的同义词描述，从而可以实现病历文本的自动、准确编码处理。

Description

基于同义词的信息编码方法、装置、设备和存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于同义词的信息编码方法、装置、设备和存储介质。

背景技术

各家医疗机构在管理病历文本时，需要请编码人员将病历文本编码映射到国际疾病分类（international Classification of diseases ,简称ICD）等标准编码标识上，诸如ICD9或者ICD10等标准编码标识。编码的过程容易出错，且消耗大量人力。

发明内容

本发明实施例提供一种基于同义词的信息编码方法、装置、设备和存储介质，用以提高信息编码结果的准确性。

第一方面，本发明实施例提供一种基于同义词的信息编码方法，所述方法包括：

对病历文本中的词语进行编码，以得到所述病历文本对应的第一语义表示；

获取预设的疾病编码标识所对应的多种描述，所述多种描述中包括与所述疾病编码标识对应的标准描述以及同义词描述；

根据所述多种描述，确定所述疾病编码标识对应的第二语义表示；

根据所述多种描述和所述第一语义表示，确定所述病历文本对应于所述疾病编码标识的第三语义表示；

根据所述第三语义表示与所述第二语义表示的相似度，确定所述病历文本是否标记上所述疾病编码标识。

第二方面，本发明实施例提供一种基于同义词的信息编码装置，所述装置包括：

病历编码模块，用于对病历文本中的词语进行编码，以得到所述病历文本对应的第一语义表示；

描述获取模块，用于获取预设的疾病编码标识所对应的多种描述，所述多种描述中包括与所述疾病编码标识对应的标准描述以及同义词描述；

语义处理模块，用于根据所述多种描述，确定所述疾病编码标识对应的第二语义表示；根据所述多种描述和所述第一语义表示，确定所述病历文本对应于所述疾病编码标识的第三语义表示；根据所述第三语义表示与所述第二语义表示的相似度，确定所述病历文本是否标记上所述疾病编码标识。

第三方面，本发明实施例提供一种电子设备，包括：存储器、处理器、通信接口；其中，所述存储器上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器至少可以实现如第一方面所述的基于同义词的信息编码方法。

第四方面，本发明实施例提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器至少可以实现如第一方面所述的基于同义词的信息编码方法。

第五方面，本发明实施例提供一种基于同义词的信息编码方法，所述方法包括：

对目标文本中的词语进行编码，以得到所述目标文本对应的第一语义表示；

获取预设的类别标识所对应的多种类别描述，所述多种类别描述中包括与所述类别标识对应的标准描述以及同义词描述；

根据所述多种类别描述，确定所述类别标识对应的第二语义表示；

根据所述多种类别描述和所述第一语义表示，确定所述目标文本对应于所述类别标识的第三语义表示；

根据所述第三语义表示与所述第二语义表示的相似度，确定所述目标文本中是否标记上所述类别标识。

本发明实施例可以实现对病历文本）进行按照所包含的疾病进行疾病编码标识的自动编码。具体地，针对病历文本中包含的各个词语，可以先进行语义编码处理，以得到病历文本对应的第一语义表示。针对已知的各疾病编码标识（比如ICD9中包含的各编码标识），一方面获取每个疾病编码标识所对应的标准描述，即标准的疾病名称，另一方面获得该标准描述对应的同义词描述，从而得到由同一疾病编码标识对应的标准描述和各种同义词描述构成的多种描述，继而针对同一疾病编码标识对应的每种描述进行语义编码，结合每种描述的语义编码结果得到这种疾病编码标识所对应的第二语义表示。之后，根据任一疾病编码标识对应的多种描述以及所述第一语义表示，确定病历文本对应于该疾病编码标识的第三语义表示，即病历文本基于这个疾病编码标识标签的语义表示。根据第三语义表示与第二语义表示的相似度，确定病历文本是否应该标记上这个疾病编码标识。

在上述病历文本的自动编码过程中，充分利用了疾病名称的同义词描述，从而可以实现病历文本的自动、准确编码处理。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于同义词的信息编码方法的流程图；

图2为本发明实施例提供的一种病历编码过程的示意图；

图3为本发明实施例提供的一种基于同义词的信息编码方法的流程图；

图4为本发明实施例提供的一种基于同义词的信息编码方法的流程图；

图5为本发明实施例提供的一种基于同义词的信息编码方法的应用示意图；

图6为本发明实施例提供的一种基于同义词的信息编码装置的结构示意图；

图7为与图6所示实施例提供的基于同义词的信息编码装置对应的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图对本发明的一些实施方式作详细说明。在各实施例之间不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。另外，下述各方法实施例中的步骤时序仅为一种举例，而非严格限定。

本发明实施例提供的基于同义词的信息编码方法可以由一电子设备来执行，该电子设备可以是服务器，也可以是用户终端，该服务器可以是云端的物理服务器或虚拟服务器（虚拟机）。

图1为本发明实施例提供的一种基于同义词的信息编码方法的流程图，如图1所示，该方法包括如下步骤：

101、对病历文本中的词语进行编码，以得到病历文本对应的第一语义表示。

102、获取预设的疾病编码标识所对应的多种描述，多种描述中包括与疾病编码标识对应的标准描述以及同义词描述。

103、根据所述多种描述，确定所述疾病编码标识对应的第二语义表示。

104、根据所述多种描述和第一语义表示，确定病历文本对应于所述疾病编码标识的第三语义表示。

105、根据第三语义表示与第二语义表示的相似度，确定病历文本是否标记上所述疾病编码标识。

本发明实施例提供的方案可以应用于对病历文本进行疾病编码的应用场景中。对病历文本进行疾病编码，就是按照病历文本中包含的疾病名称等描述内容，确定出应该为该病历文本标记上的通用的疾病编码标识，比如其中包含“B型副伤寒”，则对应的疾病编码标识为A10.2。基于对病历文本的疾病编码标识的自动确定，可以为病历文本分类归档、查询以及医生了解病人既往病史等提供便利。

实际应用中，该病历文本可以是门诊病历，也可以是住院病历。该病历文本可以是对手写病历进行扫描而得到，也可以是直接在电脑等终端上填写病历文本表单而自动生成。由于本发明实施例提供的方案主要是针对病历文本中的文字内容进行处理，因此，本发明实施例中也将病历文本统称为病历文本。

为了实现对病历文本的疾病编码，首先，需要对一个病历文本进行编码处理，以得到病历文本对应的语义表示，称为第一语义表示。

具体地，病历文本中会描写有关病症、疾病名称等信息，对这些描述内容进行分词处理，可以得到多个词语（或者称为单词），可以先对每个词语进行词向量编码（比如word2vec等），以映射为计算机能够处理的数学向量形式。之后，可以采用某种神经网络模型，将得到的多个词语各自对应的词向量输入到该神经网络模型中，以得到该神经网络模型针对这多个词语分别输出的隐层状态，作为相应词语对应的语义向量，最终，多个词语各自对应的语义向量构成了该病历文本对应的第一语义表示。

在实际应用中，上述分词处理也可以是逐个文字的拆分，即单词。上述神经网络模型可以采用双向长短期记忆网络（Bi-directional Long-Short Term Memory，简称Bi-LSTM）模型、LSTM模型、循环神经网络（Recurrent Neural Network，简称RNN）模型，等等。

为便于理解，举例来说，对于一份病历文本，假设其输入由若干词语（或称为单词）组成，这些词语表示为集合：

，其中，

表示词语总数，

表示其中一个词语。进而假设针对其中每个词语进行词向量编码后得到对应的词向量集合为：

，其中，

表示词语

对应的词向量。

之后，比如通过Bi-LSTM模型对上述词向量集合中的各个词向量进行语义编码，得到如下编码结果：

。其中，

表示的是语义编码计算，

表示词向量

对应的语义向量，即将词向量

输入到模型后模型输出的隐藏状态向量。

表示

个语义向量构成的矩阵，即第一语义表示。

由于对病历文本进行疾病编码处理，实际上是从已知的若干疾病编码标识中确定当前的病历文本所对应的疾病编码标识，即当前的病历文本中所应该包含的疾病编码标识。所以，通过查询通用的疾病编码标识数据库，便可以得知每种疾病编码标识以及其对应的标准的疾病描述内容，通常为一种标准的疾病名称。之后，针对每种疾病编码标识所对应的描述内容进行语义编码处理。

本发明实施例中，为了提高病历文本的疾病编码结果的准确性，针对任一个疾病编码标识来说，不仅考虑了其在上述数据库中对应的标准描述，还考虑了同义词描述。举例来说，假设在上述数据库中，某疾病编码标识对应的标准描述为“伤寒”，那么可以通过查询已知的医学知识图谱等方式，确定与其对应的同义词描述，比如包括“感冒”、“风寒”等等。知识图谱的创建不属于本发明实施例的重点，不详细阐述。

也就是说，本发明实施例中，对病历文本进行自动编码时，因为同种疾病可能以形式差异很大的名词出现，因此可以充分利用疾病名称的同义词信息，以完成自动、准确地病历文本编码。

由于针对当前的病历文本来说，在对其进行疾病编码时并不可知其中会包含哪些疾病，因此，需要针对上述数据库中已知的各个疾病编码标识都进行对应的语义表示的确定处理，最终基于每种疾病编码标识所对应的语义表示，确定病历文本所包含的疾病编码标识。

由于针对每个疾病编码标识的处理过程都是一样的，因此为便于描述，仅以其中任一个疾病编码标识

为例进行说明。

假设通过上述数据库可知该疾病编码标识

对应的标准描述为

，查询到的其同义词描述分别为：

。从而，由这

种描述构成了疾病编码标识

对应的描述集合。

为预设值，可以根据需求而设定，需要说明的是，如果对于某个疾病编码标识来说，并不能找到其对应的

种描述，则可以通过复制多个其标准描述的方式补齐。

对于其中的每种描述

，假设其由

个单词（或者说词语）构成，表示为：

。

之后，根据疾病编码标识

对应的

种描述，确定疾病编码标识

对应的第二语义表示，可选地，可以实现为：

分别对

种描述进行编码，以得到

种描述对应的

个第四语义表示；

根据

个第四语义表示，确定疾病编码标识

对应的第二语义表示。

其中，可选地，分别对

种描述进行编码，以得到

种描述对应的

个第四语义表示，可以实现为：针对任一种描述，对所述任一种描述中的各词语进行编码，得到所述各词语对应的语义表示；对所述各词语对应的语义表示进行最大池化处理，以得到所述任一种描述对应的第四语义表示。

其中，可选地，根据

个第四语义表示，确定疾病编码标识

对应的第二语义表示，可以实现为：对

个第四语义表示进行最大池化处理，以得到疾病编码标识

对应的第二语义表示。

上述针对每种描述的处理过程可以表示为：

其中，以

种描述中的任一种描述

为例，上述

表示描述

中包含的

个词语各自对应的词向量，可以将这

个词向量依次输入到上述对病历文本进行语义编码的神经网络模型，比如上述Bi-LSTM模型，以对其进行编码，得到各个词向量对应的语义编码结果，即会得到

个词语对应的

个语义表示。

之后，对这

个语义表示进行最大池化（即上述

）处理，便可以得到描述

对应的第四语义表示

。

之后，针对疾病编码标识

对应的

种描述各自对应的第四语义表示，进行最大池化处理，以得到疾病编码标识

对应的第二语义表示

，处理过程可以表示为：

通过上述针对疾病编码标识

对应的多种描述的语义编码处理可知，最终得到的疾病编码标识

所对应的第二语义表示中会包含其中每种描述的语义信息，不仅仅会包含标准描述的语义信息。

之后，根据疾病编码标识

对应的多种描述和病历文本所对应的第一语义表示，确定病历文本对应于疾病编码标识

的第三语义表示。由于此前对病历文本进行语义编码处理时，并为考虑其与各个疾病编码标识之间的关系，这里所说的“定病历文本对应于疾病编码标识

的第三语义表示”实际上可以理解为是确定病历文本基于标签

（将疾病编码标识视为一种分类标签）的语义表示，在该语义表示确定过程中，建立了病历文本分别与各个疾病编码标识之间的关联关系。该关联关系可以通过注意力（Attention）机制来实现。

概括来说，根据疾病编码标识

对应的多种描述和病历文本对应的第一语义表示，确定病历文本对应于疾病编码标识

的第三语义表示，可以实现为：

根据多种描述对应的多个第四语义表示和所述第一语义表示，确定病历文本中的词语对应于每个第四语义表示的注意力系数向量；根据所述注意力系数向量和所述第一语义表示，确定病历文本对应于疾病编码标识

的第三语义表示。

其中，以疾病编码标识

对应的

种描述中的任一种描述

为例，由上文举例可知，该描述对应的第四语义表示为

，上述第一语义表示为

，确定病历文本中的词语对应于第四语义表示

的注意力系数向量，基于注意力机制的原理，实际上就是以

作为查询（Query），计算与病历文本的第一语义表示

的注意力系数，该注意力系数的计算实际上就是计算病历文本中包含的

个词语各自对应的注意力系数取值，亦即构成

的上述

个语义向量

各自对应的注意力系数。由这

个注意力系数值构成了病历文本中的词语对应于第四语义表示

的注意力系数向量。

上述病历文本中的词语对应于第四语义表示

的注意力系数向量，其物理含义可以理解为：病历文本中包含的各词语对于判断出病历文本中包含描述

各自对应的贡献程度，该贡献程度通过注意力系数来反映。

在得到病历文本中的词语对应于第四语义表示

的注意力系数向量后，通过使用该注意力系数向量对第一语义表示

中包含的

个语义向量

进行加权求和处理，便可以得到病历文本对应于疾病编码标识

的第三语义表示。

实际上，上述病历文本中的词语对应于第四语义表示

的注意力系数向量是一个维数为

的向量，将其中

个向量元素对应地与上述

个语义向量一一相乘后进行向量加和计算，最终会得到一个维数为

的向量，即为上述第三语义表示。

最后，计算病历文本对应于疾病编码标识

的第三语义表示与疾病编码标识

对应的第二语义表示的相似度，以在该相似度符合设定条件时，确定病历文本应该标记上疾病编码标识

。

为便于理解上述自动编码过程，结合图2来示意性说明。

如图2中所示，为了实现病历文本的疾病编码，可以使用包括图中示意的多个功能模块构成的编码系统来实现，这个编码系统实际上可以构成一个编码模型，其中包括图中示意的语义编码模块、最大池化处理模块、注意力计算模块、相似度输出模块。

其中，语义编码模块可以是上文中介绍的Bi-LSTM模型，最大池化处理模块用于实现上文中所述的最大池化（

）处理，相似度输出模块实际上是编码模型的输出层，在训练阶段，用于计算损失函数，只是该损失函数通过上述第三语义表示与第二语义表示的相似度来定义。

如图2中所示，针对上文中所说的病历文本来说，其中包含的各个词语所对应的词向量输入到语义编码模块后，输出上述第一语义表示

。任一疾病编码标识所对应的每种描述中各自包含的词向量输入该语义编码模块，将语义编码输出的一种描述中每个词语的语义向量输入到最大池化处理模块中，得到这种描述对应的第四语义表示，如上文所述，疾病编码标识

对应的

种描述各自对应的第四语义表示为：

。这些第四语义表示进一步在经过最大池化处理模块的处理，得到疾病编码标识

对应的第二语义表示：

。

针对每一个第四语义表示，结合第一语义表示，通过注意力计算模块计算出病历文本中各词语对应的注意力系数，得到对应于每个第四语义表示的注意力系数向量：

。之后，基于计算出的每个注意力系数向量，分别对第一语义表示

中包含的多个语义向量进行加权求和，得到多个加权后的语义表示：

。最后，对这些加权后的语义表示进行最大池化处理，得到病历文本对应于疾病编码标识

的第三语义表示

。

之后，计算第三语义表示

与第二语义表示

的相似度。

其中，如图2中所示，该相似度的计算可以定义为：计算病历文本蕴含了标签

（即疾病编码标识

）的对数概率：

。其中，

表示的是Sigmoid函数，

表示转置，

表示双仿射变换矩阵。

在编码模型训练阶段，上述病历文本作为训练样本时，其中包含的疾病编码标识被预先进行标注，作为监督信息。而上述通过上述对数概率定义的相似度，实际上反映的是该病历文本与任一疾病编码标识

的相似度值，遍历疾病编码标识数据库中包含的各个疾病编码标识，可以得到该病历文本与每个疾病编码标识的相似度值，可以设定一个相似度阈值，若该病历文本与某个疾病编码标识的相似度值大于该阈值，则认为该病历文本蕴含该疾病编码标识。从而，将实际确定出的该病历文本所蕴含的疾病编码标识，与预先标注的监督信息进行对比，即可以根据损失函数值调整编码模型参数，在模型训练至收敛时，便可以得到适用于各种疾病的双仿射变换矩阵

。基于对该矩阵的训练，可以使得编码模型克服对长尾数据的依赖，即克服样本不均衡的影响，样本不均衡主要体现为能够收集到的有些疾病编码标识所对应的描述数量比较少。

对于上文中提到的：在分别对某疾病编码标识对应的多种描述进行编码，以得到多种描述对应的多个第四语义表示后，根据多个第四语义表示和病历文本对应的第一语义表示，确定病历文本中的词语对应于每个第四语义表示的注意力系数向量。本发明实施例提供了一种可选的注意力系数向量的确定方式，如图3中所示。

图3为本发明实施例提供的一种基于同义词的信息编码方法的流程图，如图3所示，可以包括如下步骤：

301、对病历文本中的多个词语进行编码，以得到病历文本对应的第一语义表示，第一语义表示由所述多个词语对应的多个语义向量构成。

302、获取预设的疾病编码标识所对应的标准描述以及同义词描述构成的多种描述，分别对多种描述进行编码，以得到多种描述对应的多个第四语义表示，根据多个第四语义表示确定所述疾病编码标识对应的第二语义表示。

上述步骤的执行过程可以参考前述实施例中的相关说明，在此不赘述。

303、将第一语义表示切分为多个语义块，其中，每个语义块中包括所述多个词语对应的多个子语义向量，每个子语义向量由对应语义向量中的部分维度构成，语义块的数量与所述多种描述的数量相等。

承接于前述第一语义表示

以及任一个疾病编码标识

对应有

种描述：

，

的举例，这里将第一语义表示

切成

个大小相同的语义块。其中，病历文本中包含的

个词语各自对应的语义向量为：

。

其中，切分方式为：假设构成第一语义表示

的上述

个语义向量形成一个

行K 列的矩阵，其中，假设每个语义向量是K维的。将这K列均等地划分为

组，那么每一组将构成一个语义块。比如，K=100，

，则每10列为一组，这样将得到10个语义块，其中，每个语义块中都包括

行语义向量中的部分维度，称为

个子语义向量。

为便于描述，将

的划分结果表示为：

。

304、确定目标语义块中多个子语义向量对应于目标第四语义表示的注意力系数向量，其中，目标第四语义表示与目标语义块的序号相同，目标第四语义表示是多个第四语义表示中的任一个。

承接于上文中的举例，对于任一第四语义表示

，计算目标语义块

对应于该第四语义表示的注意力系数向量，即以

作为查询（Query），计算目标语义块

中

个子语义向量各自对应的注意力系数。其中，该目标语义块

的编号

与第四语义表示

的编号

是相同的。概括来说也就是：针对

种描述各自对应的第四语义表示，以及

个语义块，一一对应地对第四语义表示与语义块进行注意力计算。这样的计算方式，使得训练出的编码模型在注意力计算时，能够更好地聚焦于对预测疾病编码标识更为重要的语义信息上，即为对准确预测疾病编码标识更为重要的语义信息分配更大的注意力系数。

以第四语义表示

为例，与目标语义块

的注意力计算结果可以表示为：

其中，tanh是反正切函数，可以替换为relu函数等，

为求解出的注意力系数向量。

和

为权重系数矩阵。

305、以确定出的对应于多个第四语义表示的多个注意力系数向量，分别对第一语义表示中包含的多个语义向量进行加权求和，得到多个加权后的语义表示，对多个加权后的语义表示进行最大池化处理，以得到病历文本对应于所述疾病编码标识的第三语义表示。

上述第三语义表示

的计算过程可以表示为：

，其中，对应于多个第四语义表示的注意力系数向量分别为：

。多个加权后的语义表示分别为：

。

306、根据第三语义表示与第二语义表示的相似度，确定病历文本是否标记上所述疾病编码标识。

可选地，可以根据第三语义表示、第二语义表示以及训练出的双仿射变换矩阵

，确定第三语义表示与第二语义表示的相似度：

。如果该相似度大于设定阈值，则认为病历文本包括疾病编码标识

所对应的疾病，为该病历文本标记上该疾病编码标识

。

以上实施例中介绍了对病历文本进行疾病编码的方案。实际上，在很对其他应用场景中，也会存在类似的应用需求。这种应用需求可以概括为：在预先设置了多种类别标识，以及每种类别标识对应的标准类别（名称）描述的情况下，针对当前输入的文本，需求确定该文本所对应的类别标识。由于预先仅建立了类别标识与其对应的标注类别描述的对应关系，仅基于该对应关系来进行文本所关联的类别标识的标记，准确性有限，因为只有在文本中包括了某种类别标识对应的标注类别描述的情形下，才会为该文本标记上该类别标识。

为了提高文本所关联的类别标识标记结果的准确性，基于上述实施例提供的方案，本发明实施例提供了通用的解决方法，如图4所示，该方法包括如下步骤：

401、对目标文本中的词语进行编码，以得到目标文本对应的第一语义表示。

402、获取预设的类别标识所对应的多种类别描述，多种类别描述中包括与所述类别标识对应的标准描述以及同义词描述。

403、根据所述多种类别描述，确定所述类别标识对应的第二语义表示。

404、根据所述多种类别描述和第一语义表示，确定目标文本对应于所述类别标识的第三语义表示。

405、根据第三语义表示与第二语义表示的相似度，确定目标文本中是否标记上所述类别标识。

上述目标文本比如可以是前述实施例中的病历文本，相应地，类别标识为各种疾病编码标识。目标文本比如还可以是商品描述文本，类别标识可以是商品的类目名称，比如，土豆这个类别标识下可以对应有多种描述：土豆、马铃薯、洋芋、山药蛋，等等。

本实施例的执行可以参考前述其他实施例中的相关说明，在此不展开赘述。

如前文所述，本发明提供的基于同义词的信息编码方法可以在云端来执行，在云端可以部署有若干计算节点，每个计算节点中都具有计算、存储等处理资源。在云端，可以组织由多个计算节点来提供某种服务，当然，一个计算节点也可以提供一种或多种服务。云端提供该服务的方式可以是对外提供服务接口，用户调用该服务接口以使用相应的服务。服务接口包括软件开发工具包（Software Development Kit，简称SDK）、应用程序接口（Application Programming Interface，简称API）等形式。

针对本发明实施例提供的方案，云端可以提供有信息编码服务的服务接口，用户通过用户设备调用该服务接口，以向云端触发调用请求，所述请求中包括病历文本。云端确定响应该请求的计算节点，利用该计算节点中的处理资源执行如下步骤：

另外，前述实施例中介绍的模型训练任务也可以由云端的该计算节点来完成。

为便于理解，结合图5来示例性说明。用户可以通过图5中示意的用户设备E1调用信息编码服务接口（图中的API接口），通过该接口上传包含病历文本的服务请求。在云端，如图中所示，除部署有若干计算节点外，还部署有运行有管控服务的管理节点E2，管理节点E2在接收到用户设备E1发送的服务请求后，确定响应该服务请求的计算节点E3，计算节点E3在接收到病历文本后，执行上述步骤，最终输出该病历文本所关联的各个疾病编码标识，发送给用户设备E1，用户设备E1显示该最终检测结果。详细执行过程参考前述实施例中的介绍，在此不赘述。

以下将详细描述本发明的一个或多个实施例的基于同义词的信息编码装置。本领域技术人员可以理解，这些装置均可使用市售的硬件组件通过本方案所教导的步骤进行配置来构成。

图6为本发明实施例提供的一种基于同义词的信息编码装置的结构示意图，如图6所示，该装置包括：病历编码模块11、描述获取模块12、语义处理模块13。

病历编码模块11，用于对病历文本中的词语进行编码，以得到所述病历文本对应的第一语义表示。

描述获取模块12，用于获取预设的疾病编码标识所对应的多种描述，所述多种描述中包括与所述疾病编码标识对应的标准描述以及同义词描述。

语义处理模块13，用于根据所述多种描述，确定所述疾病编码标识对应的第二语义表示；根据所述多种描述和所述第一语义表示，确定所述病历文本对应于所述疾病编码标识的第三语义表示；根据所述第三语义表示与所述第二语义表示的相似度，确定所述病历文本是否标记上所述疾病编码标识。

可选地，确定所述疾病编码标识对应的第二语义表示的过程中，所述语义处理模块13具体用于：分别对所述多种描述进行编码，以得到所述多种描述对应的多个第四语义表示；根据所述多个第四语义表示，确定所述疾病编码标识对应的所述第二语义表示。

其中，可选地，所述语义处理模块13具体用于：针对任一种描述，对所述任一种描述中的各词语进行编码，得到所述各词语对应的语义表示；对所述各词语对应的语义表示进行最大池化处理，以得到所述任一种描述对应的第四语义表示；对所述多个第四语义表示进行最大池化处理，以得到所述疾病编码标识对应的所述第二语义表示。

可选地，根据所述多种描述和所述第一语义表示，确定所述病历文本对应于所述疾病编码标识的第三语义表示的过程中，所述语义处理模块13具体用于：根据所述多个第四语义表示和所述第一语义表示，确定所述病历文本中的词语对应于每个第四语义表示的注意力系数向量；根据所述注意力系数向量和所述第一语义表示，确定所述病历文本对应于所述疾病编码标识的第三语义表示。

可选地，所述病历文本中包括多个词语，所述第一语义表示由所述多个词语对应的多个语义向量构成。基于此，确定所述病历文本中的词语对应于每个第四语义表示的注意力系数向量的过程中，所述语义处理模块13具体用于：将所述第一语义表示切分为多个语义块，其中，每个语义块中包括所述多个词语对应的多个子语义向量，每个子语义向量由对应语义向量中的部分维度构成，所述语义块的数量与所述多种描述的数量相等；确定目标语义块中多个子语义向量对应于目标第四语义表示的注意力系数向量，其中，所述目标第四语义表示与所述目标语义块的序号相同，所述目标第四语义表示是所述多个第四语义表示中的任一个。

可选地，确定所述病历文本对应于所述疾病编码标识的第三语义表示的过程中，所述语义处理模块13具体用于：以确定出的对应于所述多个第四语义表示的多个注意力系数向量，分别对所述第一语义表示中包含的多个语义向量进行加权求和，得到多个加权后的语义表示；对所述多个加权后的语义表示进行最大池化处理，以得到所述病历文本对应于所述疾病编码标识的第三语义表示。

可选地，所述语义处理模块13具体用于：根据所述第三语义表示、所述第二语义表示以及训练出的双仿射变换矩阵，确定所述第三语义表示与所述第二语义表示的相似度。

图6所示装置可以执行前述实施例中提供的步骤，详细的执行过程和技术效果参见前述实施例中的描述，在此不再赘述。

在一个可能的设计中，上述图6所示基于同义词的信息编码装置的结构可实现为一电子设备。如图7所示，该电子设备可以包括：处理器21、存储器22、通信接口23。其中，存储器22上存储有可执行代码，当所述可执行代码被处理器21执行时，使处理器21至少可以实现如前述实施例中提供的基于同义词的信息编码方法。

另外，本发明实施例提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器至少可以实现如前述实施例中提供的基于同义词的信息编码方法。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的网元可以是或者也可以不是物理上分开的。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现，当然也可以通过硬件和软件结合的方式来实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于同义词的信息编码方法，其特征在于，包括：

根据所述第三语义表示与所述第二语义表示的相似度，确定所述病历文本是否标记上所述疾病编码标识；

其中，所述第三语义表示的确定，包括：

分别对所述多种描述进行编码，以得到所述多种描述对应的多个第四语义表示；

根据所述多个第四语义表示和所述第一语义表示，确定所述病历文本中的词语对应于每个第四语义表示的注意力系数向量；

以确定出的对应于所述多个第四语义表示的多个注意力系数向量，分别对所述第一语义表示中包含的多个语义向量进行加权求和，得到多个加权后的语义表示；对所述多个加权后的语义表示进行最大池化处理，以得到所述病历文本对应于所述疾病编码标识的第三语义表示。

2.根据权利要求1所述的方法，其特征在于，所述根据所述多种描述，确定所述疾病编码标识对应的第二语义表示，包括：

根据所述多个第四语义表示，确定所述疾病编码标识对应的所述第二语义表示。

3.根据权利要求2所述的方法，其特征在于，所述分别对所述多种描述进行编码，以得到所述多种描述对应的多个第四语义表示，包括：

针对任一种描述，对所述任一种描述中的各词语进行编码，得到所述各词语对应的语义表示；

对所述各词语对应的语义表示进行最大池化处理，以得到所述任一种描述对应的第四语义表示。

4.根据权利要求2所述的方法，其特征在于，所述根据所述多个第四语义表示，确定所述疾病编码标识对应的所述第二语义表示，包括：

对所述多个第四语义表示进行最大池化处理，以得到所述疾病编码标识对应的所述第二语义表示。

5.根据权利要求1所述的方法，其特征在于，所述病历文本中包括多个词语，所述第一语义表示由所述多个词语对应的多个语义向量构成；

所述根据所述多个第四语义表示和所述第一语义表示，确定所述病历文本中的词语对应于每个第四语义表示的注意力系数向量，包括：

将所述第一语义表示切分为多个语义块，其中，每个语义块中包括所述多个词语对应的多个子语义向量，每个子语义向量由对应语义向量中的部分维度构成，所述语义块的数量与所述多种描述的数量相等；

确定目标语义块中多个子语义向量对应于目标第四语义表示的注意力系数向量，其中，所述目标第四语义表示与所述目标语义块的序号相同，所述目标第四语义表示是所述多个第四语义表示中的任一个。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述第三语义表示、所述第二语义表示以及训练出的双仿射变换矩阵，确定所述第三语义表示与所述第二语义表示的相似度。

7.一种基于同义词的信息编码装置，其特征在于，包括：

语义处理模块，用于根据所述多种描述，确定所述疾病编码标识对应的第二语义表示；根据所述多种描述和所述第一语义表示，确定所述病历文本对应于所述疾病编码标识的第三语义表示；根据所述第三语义表示与所述第二语义表示的相似度，确定所述病历文本是否标记上所述疾病编码标识；

其中，在确定所述第三语义表示的过程中，所述语义处理模块具体用于：分别对所述多种描述进行编码，以得到所述多种描述对应的多个第四语义表示；根据所述多个第四语义表示和所述第一语义表示，确定所述病历文本中的词语对应于每个第四语义表示的注意力系数向量；以确定出的对应于所述多个第四语义表示的多个注意力系数向量，分别对所述第一语义表示中包含的多个语义向量进行加权求和，得到多个加权后的语义表示；对所述多个加权后的语义表示进行最大池化处理，以得到所述病历文本对应于所述疾病编码标识的第三语义表示。

8.一种电子设备，其特征在于，包括：存储器、处理器、通信接口；其中，所述存储器上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1至6中任一项所述的基于同义词的信息编码方法。

9.一种非暂时性机器可读存储介质，其特征在于，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1至6中任一项所述的基于同义词的信息编码方法。

10.一种基于同义词的信息编码方法，其特征在于，包括：

根据所述第三语义表示与所述第二语义表示的相似度，确定所述目标文本中是否标记上所述类别标识；

其中，所述第三语义表示的确定，包括：

分别对所述多种类别描述进行编码，以得到所述多种类别描述对应的多个第四语义表示；

根据所述多个第四语义表示和所述第一语义表示，确定所述目标文本中的词语对应于每个第四语义表示的注意力系数向量；

以确定出的对应于所述多个第四语义表示的多个注意力系数向量，分别对所述第一语义表示中包含的多个语义向量进行加权求和，得到多个加权后的语义表示；对所述多个加权后的语义表示进行最大池化处理，以得到所述目标文本对应于所述类别标识的第三语义表示。