CN109493931A

CN109493931A - 一种病历文件的编码方法、服务器及计算机可读存储介质

Info

Publication number: CN109493931A
Application number: CN201811249477.8A
Authority: CN
Inventors: 曹灵宇; 顾大中
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-10-25
Filing date: 2018-10-25
Publication date: 2019-03-19
Anticipated expiration: 2038-10-25
Also published as: CN109493931B

Abstract

本发明适用于人工智能技术领域，提供了一种病历文件的编码方法、服务器及计算机可读存储介质，包括：从待编码的病历文件中获取病人的病历信息，并对病历信息进行分词处理，得到多个分词词语；基于预设的基准词序列确定各个分词词语的第一词向量；将所有分词词语的第一词向量导入预设编码模型，得到病历文件的第一编码概率向量、第二编码概率向量及第三编码概率向量；将第一编码概率向量、第二编码概率向量及第三编码概率向量中值最大的元素对应的编码分别确定为病历文件的第一类型编码、第二类型编码及第三类型编码，从而降低了人工成本，提高了病历文件的编码效率。

Description

一种病历文件的编码方法、服务器及计算机可读存储介质

技术领域

本发明属于人工智能技术领域，尤其涉及一种病历文件的编码方法、服务器及计算机可读存储介质。

背景技术

病历文件是用于记录病人病历信息的医学档案，是医疗数据的载体。为了对病历文件进行有效管理，通常会基于病人所患疾病的类型对病历文件进行编码分类。现有的病历文件编码方法通常是先建立疾病类型与编码之间的映射关系，再基于病历文件中的病历信息确定病人所患疾病的类型，最后基于疾病类型与编码之间的映射关系对病历文件进行编码。

由于现有的病历文件编码方法在对病历文件进行编码时，需要人工基于病历文件中的病历信息确定病人所患疾病的类型，因而需要耗费大量的人力，降低了病历文件的编码效率。

发明内容

有鉴于此，本发明实施例提供了一种病历文件的编码方法、服务器及计算机可读存储介质，以解决现有的病历文件编码方法存在的人工成本高，病历文件编码效率低的问题。

本发明实施例的第一方面提供了一种病历文件的编码方法，包括：

从待编码的病历文件中获取病人的病历信息，并对所述病历信息进行分词处理，得到多个分词词语；

基于预设的基准词序列确定各个所述分词词语的第一词向量；

将所有所述分词词语的第一词向量导入预设编码模型，得到所述病历文件的第一编码概率向量、第二编码概率向量及第三编码概率向量；所述第一编码概率向量中的每个元素的值用于标识所述病历文件属于该元素对应的第一类型编码的概率，所述第二编码概率向量中的每个元素的值用于标识所述病历文件属于该元素对应的第二类型编码的概率，所述第三编码概率向量中的每个元素的值用于标识所述病历文件属于该元素对应的第三类型编码的概率；

将所述第一编码概率向量、所述第二编码概率向量及所述第三编码概率向量中值最大的元素对应的编码分别确定为所述病历文件的第一类型编码、第二类型编码及第三类型编码。

本发明实施例的第二方面提供了一种服务器，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下各步骤：

本发明实施例的第三方面提供了一种服务器，包括：

分词处理单元，用于从待编码的病历文件中获取病人的病历信息，并对所述病历信息进行分词处理，得到多个分词词语；

第一确定单元，用于基于预设的基准词序列确定各个所述分词词语的第一词向量；

概率计算单元，用于将所有所述分词词语的第一词向量导入预设编码模型，得到所述病历文件的第一编码概率向量、第二编码概率向量及第三编码概率向量；所述第一编码概率向量中的每个元素的值用于标识所述病历文件属于该元素对应的第一类型编码的概率，所述第二编码概率向量中的每个元素的值用于标识所述病历文件属于该元素对应的第二类型编码的概率，所述第三编码概率向量中的每个元素的值用于标识所述病历文件属于该元素对应的第三类型编码的概率；

编码确定单元，用于将所述第一编码概率向量、所述第二编码概率向量及所述第三编码概率向量中值最大的元素对应的编码分别确定为所述病历文件的第一类型编码、第二类型编码及第三类型编码。

本发明实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现以下各步骤：

实施本发明实施例提供的一种病历文件的编码方法、服务器及计算机可读存储介质具有以下有益效果：

本发明实施例提供的一种病历文件的编码方法通过获取病历文件中的病历信息，对病历信息进行分词处理，并基于预设的基准词序列确定分词处理得到的各个分词词语的第一词向量，由于所有分词词语的第一词向量可以从整体上描述病历信息，因而实现了对病历信息的自动提取和处理；同时，本发明实施例基于所有分词词语的第一词向量，采用预设编码模型确定病历文件的第一编码概率向量、第二编码概率向量及第三编码概率向量，从而可以直接基于病历信息得到病历文件的编码，无需人工基于病历信息确定病人所患疾病类型，进而降低了人工作成本，提高了病历文件的编码效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种病历文件的编码方法的实现流程图；

图2是本发明实施例提供的一种病历文件的编码方法中S13的具体实现流程图；

图3是本发明实施例提供的一种病历文件的编码方法中S132的具体实现流程图；

图4是本发明实施例提供的一种病历文件的编码方法中S133的具体实现流程图；

图5是本发明实施例提供的一种病历文件的编码方法中S134的具体实现流程图；

图6是本发明实施例提供的一种服务器的结构框图；

图7是本发明另一实施例提供的一种服务器的结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

请参阅图1，图1是本发明实施例提供的一种病历文件的编码方法的实现流程图。本实施例中，病历文件的编码方法的执行主体为服务器。如图1所示的病历文件的编码方法包括以下步骤：

S11：从待编码的病历文件中获取病人的病历信息，并对所述病历信息进行分词处理，得到多个分词词语。

病历文件用于记录病人的病历信息，病历信息包括但不限于病人的基本信息及诊疗信息。病人的基本信息包括但不限于病人的性别、年龄等；诊疗信息包括病人就诊科室信息及医生对病人病情的诊断描述信息；病人就诊科室信息可以是病人所就诊的科室的名称或编号，此处不做限制。

本发明实施例中，待编码的病历文件可以是电子病历文件，也可以是纸质病历文件。电子病历文件可以是文本格式的文件，也可以是表格格式的文件。若待编码的病历文件为电子病历文件，则服务器可以直接读取电子病历文件中的文本内容，进而得到病人的病历信息；若待编码的病历文件为纸质病历文件，则服务器可以基于光学字符识别(OpticalCharacter Recognition，OCR)技术来读取纸质病历文件中的文字信息，进而得到病人的病历信息。

需要说明的是，服务器从病历文件中获取到的病历信息为文本格式的信息，也就是说，病历信息是由多个词语构成的文本。

服务器从待编码的病历文件中获取到病人的病历信息后，对病人的病历信息进行分词处理，得到多个分词词语。在实际应用中，服务器可以基于字符匹配算法、语义分析算法或统计法等对病历信息进行分词处理。其中，字符匹配算法包括但不限于正向最大匹配算法、逆向最大匹配算法、最少切分算法及双向最大匹配算法等。由于基于字符匹配算法、语义分析算法及统计法的分词处理方法均为现有技术，因此，此处不再对其原理进行详述。

S12：基于预设的基准词序列确定各个所述分词词语的第一词向量。

作为本发明一实施例，服务器可以对分词处理得到的多个分词词语进行去停用词处理，进而从多个分词词语中剔除语助词、限定词等对编码无贡献意义的停用词。服务器对分词处理得到的多个分词词语进行去停用词处理后，基于预设的基准词序列确定去停用词处理后剩余的各个分词词语的第一词向量。

其中，预设的基准词序列由n个预设词语按照预设顺序排列而成。预设词语可以包括预设词库或预设词典中的所有词语，预设顺序可根据实际需求设置。

具体的，服务器可以为每一分词词语均构建一个与基准词序列对应的n维词向量，n维词向量中的每一元素分别与基准词序列中该位置的预设词语相对应，n维词向量中每一元素的值通过0或1表示。服务器可以先确定每一分词词语在基准词序列中的位置，再将该分词词语的n维词向量中该位置的元素的值配置为1，将其余元素的值配置为0，进而得到每一分词词语的第一词向量。

S13：将所有所述分词词语的第一词向量导入预设编码模型，得到所述病历文件的第一编码概率向量、第二编码概率向量及第三编码概率向量。

服务器确定了各个分词词语的第一词向量后，将所有分词词语的第一词向量均导入预设编码模型，在预设编码模型中基于所有分词词语的第一词向量确定待编码的病历文件的第一编码概率向量、第二编码概率向量及第三编码概率向量。其中，第一编码概率向量中的每个元素的值用于标识病历文件属于该元素对应的第一类型编码的概率，第二编码概率向量中的每个元素的值用于标识病历文件属于该元素对应的第二类型编码的概率，第三编码概率向量中的每个元素的值用于标识病历文件属于该元素对应的第三类型编码的概率。

第一类型编码、第二类型编码及第三类型编码分别用于标识基于类目分类、亚目分类及细目分类的国际疾病分类(International Classification of Diseases，ICD)编码。第一类型编码为三位数编码，第二类型编码为四位数编码，第三类型编码为六位数编码。需要说明的是，第三类型编码为第二类型编码的子编码，第二类型编码为第一类型编码的子编码。

预设编码模型是基于预设数量的样本数据，通过机器学习算法对预先构建的神经网络模型进行训练得到的。样本数据中的每条数据均由对一病历文件中包含的病历信息进行分词处理得到的各个分词词语的第一词向量及该病历文件的第一编码概率向量、第二编码概率向量及第三编码概率向量构成。

神经网络模型包括级联的第一神经网络、第二神经网络及第三神将网络。第一神经网络、第二神经网络及第三神经网络分别用于确定病历文件的第一编码概率向量、第二编码概率向量及第三编码概率向量。

在对神经网络模型进行训练时，将每条样本数据包含的各个分词词语的第一词向量作为第一神经网络的输入，将每条样本数据包含的各个分词词语的第一词向量及病历文件的第一编码概率向量作为第二神经网络的输入，将每条样本数据包含的各个分词词语的第一词向量及病历文件的第二编码概率向量作为第三神经网络的输入，将第一码概率向量、第二编码概率向量及第三编码概率向量分别作为第一神经网络、第二神经网络及第三神经网络的输出，对神经网络模型进行训练，将训练完成的神经网络模型确定为预设编码模型。

作为本发明一实施例，步骤S13具体可以通过如图2所示的S131～S133来实现，详述如下：

S131：将所有所述分词词语的第一词向量均分别导入所述预设编码模型中的第一神经网络、第二神经网络及第三神经网络。

本实施例中，服务器确定了各个分词词语的第一词向量后，将所有分词词语的第一词向量均分别导入预设编码模型中的第一神经网络、第二神经网络及第三神经网络。

S132：在所述第一神经网络中基于所有所述分词词语的第一词向量确定所述病历文件的第一编码概率向量，并将所述第一编码概率向量导入所述第二神经网络。

本实施例中，服务器在预设编码模型中的第一神经网络中基于所有分词词语的第一词向量确定病历文件的第一编码概率向量。

作为本发明一实施例，第一神经网络模型包括依次连接的第一嵌入层、第一卷积层及第一概率确定层，S132具体可以通过如图3所示的S1321～S1323来实现，详述如下：

S1321：在所述第一嵌入层对各个所述分词词语的第一词向量进行降维处理，得到各个所述分词词语的第二词向量。

本实施例中，为了提高服务器的数据处理效率，服务器在第一神经网络的第一嵌入层对各个分词词语的第一词向量进行降维处理，得到各个分词词语的第二词向量。其中，第二词向量的维度远小于第一词向量的维度。

实际应用中，服务器可以采用主成分分析(Principal Component Analysis，PCA)算法对各个分词词语的第一词向量进行降维处理，也可以通过T分布随机邻域嵌入(T-distributed Stochastic Neighbor Embedding，T-SNE)算法对各个分词词语的第一词向量进行降维处理，具体根据实际需求设置，此处不做限制。

S1322：在所述第一卷积层基于第一预设卷积核对各个所述分词词语的第二词向量及各个所述分词词语的上下文分词词语的第二词向量进行卷积处理，得到各个所述分词词语的第三词向量。

服务器得到各个分词词语的第二词向量后，在第一神经网络的第一卷积层基于第一预设卷积核对各个分词词语的第二词向量及各个分词词语的上下文分词词语的第二词向量进行卷积处理，得到各个分词词语的第三词向量。

需要说明的是，某分词词语的上下文分词词语指紧邻该分词词语且位于该分词词语之前及之后的m个分词词语，m为大于或等于1的整数，m可根据实际需求进行设置，此处不做限制。示例性的，若m为1，则某分词词语的上下文分词词语指与该分词词语紧邻的前一个分词词语及后一个分词词语。

第一预设卷积核为多维向量，第一预设卷积核的维度根据预设的上下文分词词语的总数确定，示例性的，若预设的上下文分词词语的总数为2m，则第一预设卷积核的维度为2m+1。需要说明的是，第一预设卷积核中各元素的值是在对神经网络模型进行训练时在神经网络模型的第一神经网络中学习得到的。

服务器可以将第一预设卷积核中各个元素的值分别作为各个分词词语的第二词向量及各个分词词语的上下文分词词语的第二词向量的权重系数，将各个分词词语的第二词向量及各个分词词语的上下文分词词语的第二词向量进行加权求和运算，进而得到各个分词词语的第三词向量。示例性的，若某分词词语的第二词向量为a，该分词词语的上下文分词词语的第二词向量分别为b、c，第一预设卷积核为[k₁,k₂,k₃]，则该分词词语的第三词向量为：k₁b+k₂a+k₃c。

其中，分词词语的第三词向量能够表征该分词词语与其前后分词词语的上下文关系，进而能够提高病历文件编码的准确性。

S1323：在所述第一概率计算层基于预先学习到的各个预设词语的第三词向量属于各个第一类型编码的概率，确定各个所述分词词语的第三词向量属于各个所述第一类型编码的概率，并基于各个所述分词词语的第三词向量属于各个所述第一类型编码的概率确定所述病历文件的第一编码概率向量。

在对预先构建的神经网络模型进行训练时，服务器会在第一神经网络的第一概率计算层学习到各个预设词语的第三词向量属于各个第一类型编码的概率。

本实施例中，服务器得到各个分词词语的第三词向量后，在第一神经网络的第一概率计算层基于预先学习到的各个预设词语的第三词向量属于各个第一类型编码的概率，确定各个分词词语的第三词向量属于各个第一类型编码的概率，并将各个分词词语的第三词向量属于各个所述第一类型编码的概率确定为个各个分词词语的第三词向量的权重，对所有分词词语的第三词向量进行加权求和运算，得到病历文件的第一编码概率向量。

服务器在第一神经网络中确定了病历文件的第一编码概率向量后，将病历文件的第一编码概率向量导入预设编码模型的第二神经网络。

S133：在所述第二神经网络中基于所有所述分词词语的第一词向量及所述第一编码概率向量确定所述病历文件的第二编码概率向量，并将所述第二编码概率向量导入所述第三神经网络。

服务器在预设编码模型的第二神经网络中基于所有分词词语的第一词向量及病历文件的第一编码概率向量确定病历文件的第二编码概率向量。

作为本发明一实施例，第二神经网络包括依次连接的第二嵌入层、第二卷积层及第二概率确定层，S133具体可以通过如图4所示的S1331～S1333来实现，详述如下：

S1331：在所述第二嵌入层对各个所述分词词语的第一词向量进行降维处理，得到各个所述分词词语的第二词向量，将各个所述分词词语的所述第二词向量分别与所述第一编码概率向量进行组合，得到各个所述分词词语的第四词向量。

本实施例中，为了提高服务器的数据处理效率，服务器在第二神经网络的第二嵌入层对各个分词词语的第一词向量进行降维处理，得到各个分词词语的第二词向量。其中，第二词向量的维度远小于第一词向量的维度。实际应用中，服务器可以采用PCA算法或T-SNE算法对各个分词词语的第一词向量进行降维处理，具体根据实际需求设置，此处不做限制。

服务器将各个分词词语的第二词向量分别与第一编码概率向量进行组合，得到各个分词词语的第四词向量。其中，第四词向量的维度为第二词向量的维度与第一编码概率向量的维度之和。本发明实施例在第二神经网络中确定病历文件的第二类型编码时，以在第一神经网络中得到的第一编码概率向量为参考，从而能够提高病历文件的第二类型编码的准确性。

S1332：在所述第二卷积层基于第二预设卷积核对各个所述分词词语的第四词向量及各个所述分词词语的上下文分词词语的第四词向量进行卷积处理，得到各个所述分词词语的第五词向量。

服务器得到各个分词词语的第四词向量后，在第二神经网络的第二卷积层基于第二预设卷积核对各个分词词语的第四词向量及各个分词词语的上下文分词词语的第四词向量进行卷积处理，得到各个分词词语的第五词向量。

第二预设卷积核为多维向量，第二预设卷积核的维度根据预设的上下文分词词语的总数确定，示例性的，若预设的上下文分词词语的总数为2m，则第二预设卷积核的维度为2m+1。需要说明的是，第二预设卷积核中各元素的值是在对神经网络模型进行训练时在神经网络模型的第二神经网络中学习得到的。

本实施例中，服务器可以将第二预设卷积核中各个元素的值分别作为各个分词词语的第四词向量及各个分词词语的上下文分词词语的第四词向量的权重系数，将各个分词词语的第四词向量及各个分词词语的上下文分词词语的第四词向量进行加权求和运算，进而得到各个分词词语的第五词向量。

其中，分词词语的第五词向量能够表征该分词词语与其前后分词词语的上下文关系，进而能够提高病历文件编码的准确性。

S1333：在所述第二概率计算层基于预先学习到的各个预设词语的第五词向量属于各个第二类型编码的概率，确定各个所述分词词语的第五词向量属于各个所述第二类型编码的概率，并基于各个所述分词词语的第五词向量属于各个所述第二类型编码的概率确定所述病历文件的第二编码概率向量。

在对预先构建的神经网络模型进行训练时，服务器会在第二神经网络的第二概率计算层学习到各个预设词语的第五词向量属于各个第二类型编码的概率。

本实施例中，服务器得到各个分词词语的第五词向量后，在第二神经网络的第二概率计算层基于预先学习到的各个预设词语的第五词向量属于各个第二类型编码的概率，确定各个分词词语的第五词向量属于各个第二类型编码的概率，并将各个分词词语的第五词向量属于各个所述第二类型编码的概率确定为个各个分词词语的第五词向量的权重，对所有分词词语的第五词向量进行加权求和运算，得到病历文件的第二编码概率向量。

服务器在第二神经网络中确定了病历文件的第二编码概率向量后，将病历文件的第二编码概率向量导入预设编码模型的第三神经网络。

S134：在所述第三神神经网络中基于所有所述分词词语的第一词向量及所述第二编码概率向量确定所述病历文件的第三编码概率向量。

服务器在预设编码模型的第三神经网络中基于所有分词词语的第一词向量及病历文件的第二编码概率向量确定病历文件的第三编码概率向量。

作为本发明一实施例，第三神经网络包括依次连接的第三嵌入层、第三卷积层及第三概率确定层，S134具体可以通过如图5所示的S1341～S1343来实现，详述如下：

S1341：在所述第三嵌入层对各个所述分词词语的第一词向量进行降维处理，得到各个所述分词词语的第二词向量，将各个所述分词词语的所述第二词向量分别与所述第二编码概率向量进行组合，得到各个所述分词词语的第六词向量。

本实施例中，为了提高服务器的数据处理效率，服务器在第三神经网络的第三嵌入层对各个分词词语的第一词向量进行降维处理，得到各个分词词语的第二词向量。其中，第二词向量的维度远小于第一词向量的维度。实际应用中，服务器可以采用PCA算法或T-SNE算法对各个分词词语的第一词向量进行降维处理，具体根据实际需求设置，此处不做限制。

服务器将各个分词词语的第二词向量分别与第二编码概率向量进行组合，得到各个分词词语的第六词向量。其中，第六词向量的维度为第二词向量的维度与第二编码概率向量的维度之和。本发明实施例在第三神经网络中确定病历文件的第三类型编码时，以在第二神经网络中得到的第二编码概率向量为参考，进一步提高了病历文件的第三类型编码的准确性。

S1342：在所述第三卷积层基于第三预设卷积核对各个所述分词词语的第六词向量及各个所述分词词语的上下文分词词语的第六词向量进行卷积处理，得到各个所述分词词语的第七词向量。

服务器得到各个分词词语的第六词向量后，在第三神经网络的第三卷积层基于第三预设卷积核对各个分词词语的第六词向量及各个分词词语的上下文分词词语的第六词向量进行卷积处理，得到各个分词词语的第七词向量。

第三预设卷积核为多维向量，第三预设卷积核的维度根据预设的上下文分词词语的总数确定，示例性的，若预设的上下文分词词语的总数为2m，则第三预设卷积核的维度为2m+1。需要说明的是，第三预设卷积核中各元素的值是在对神经网络模型进行训练时在神经网络模型的第三神经网络中学习得到的。

本实施例中，服务器可以将第三预设卷积核中各个元素的值分别作为各个分词词语的第六词向量及各个分词词语的上下文分词词语的第六词向量的权重系数，将各个分词词语的第六词向量及各个分词词语的上下文分词词语的第六词向量进行加权求和运算，进而得到各个分词词语的第七词向量。

其中，分词词语的第七词向量能够表征该分词词语与其前后分词词语的上下文关系，进而能够提高病历文件编码的准确性。

S1343：在所述第三概率计算层基于预先学习到的各个预设词语的第七词向量属于各个第三类型编码的概率，确定各个所述分词词语的第七词向量属于各个所述第三类型编码的概率，并基于各个所述分词词语的第七词向量属于各个所述第三类型编码的概率确定所述病历文件的第三编码概率向量。

在对预先构建的神经网络模型进行训练时，服务器会在第三神经网络的第三概率计算层学习到各个预设词语的第七词向量属于各个第三类型编码的概率。

本实施例中，服务器得到各个分词词语的第七词向量后，在第三神经网络的第三概率计算层基于预先学习到的各个预设词语的第七词向量属于各个第三类型编码的概率，确定各个分词词语的第七词向量属于各个第三类型编码的概率，并将各个分词词语的第七词向量属于各个所述第三类型编码的概率确定为个各个分词词语的第七词向量的权重，对所有分词词语的第七词向量进行加权求和运算，得到病历文件的第三编码概率向量。

S14：将所述第一编码概率向量、所述第二编码概率向量及所述第三编码概率向量中值最大的元素对应的编码分别确定为所述病历文件的第一类型编码、第二类型编码及第三类型编码。

服务器得到病历文件的第一编码概率向量、第二编码概率向量及第三编码概率向量后，将第一编码概率向量中值最大的元素对应的第一类型编码确定为病历文件的第一类型编码，将第二编码概率向量中值最大的元素对应的第二类型编码确定为病历文件的第二类型编码，将第三编码概率向量中值最大的元素对应的第三类型编码确定为病历文件的第三类型编码。

在实际应用中，编码人员可以根据实际需求，从病历文件的第一类型编码、第二类型编码及第三类型编码中选择其中一个编码作为病历文件的最终编码。

以上可以看出，本实施提供的一种病历文件的编码方法通过获取病历文件中的病历信息，对病历信息进行分词处理，并基于预设的基准词序列确定分词处理得到的各个分词词语的第一词向量，由于所有分词词语的第一词向量可以从整体上描述病历信息，因而实现了对病历信息的自动提取和处理；同时，本发明实施例基于所有分词词语的第一词向量，采用预设编码模型确定病历文件的第一编码概率向量、第二编码概率向量及第三编码概率向量，从而可以直接基于病历信息得到病历文件的编码，无需人工基于病历信息确定病人所患疾病类型，进而降低了人工作成本，提高了病历文件的编码效率。

由于本发明实施例可以基于病历文件中的病历信息直接确定出病历文件的第一类型编码、第二类型编码及第三类型编码，从而提高了病历文件编码方法的适用范围；同时，由于本发明实施例中的病历信息不仅包括诊疗信息，还包括病人的基本信息，因此，本发明实施例依据病历信息确定出的病历文件的编码更加准确，提高了病历文件编码的准确度。

请参阅图6，图6是本发明实施例提供的一种服务器的结构框图。本实施例中的服务器为服务器。该服务器包括的各单元用于执行图1至图5对应的实施例中的各步骤。具体请参阅图1至图5以及图1至图5所对应的实施例中的相关描述。为了便于说明，仅示出了与本实施例相关的部分。参见图6，服务器600包括：分词处理单元61、第一确定单元62、概率计算单元63及编码确定单元64。其中：

分词处理单元61用于从待编码的病历文件中获取病人的病历信息，并对所述病历信息进行分词处理，得到多个分词词语。

第一确定单元62用于基于预设的基准词序列确定各个所述分词词语的第一词向量。

概率计算单元63用于将所有所述分词词语的第一词向量导入预设编码模型，得到所述病历文件的第一编码概率向量、第二编码概率向量及第三编码概率向量；所述第一编码概率向量中的每个元素的值用于标识所述病历文件属于该元素对应的第一类型编码的概率，所述第二编码概率向量中的每个元素的值用于标识所述病历文件属于该元素对应的第二类型编码的概率，所述第三编码概率向量中的每个元素的值用于标识所述病历文件属于该元素对应的第三类型编码的概率。

编码确定单元64用于将所述第一编码概率向量、所述第二编码概率向量及所述第三编码概率向量中值最大的元素对应的编码分别确定为所述病历文件的第一类型编码、第二类型编码及第三类型编码。

作为本发明一实施例，所述预设编码模型包括级联的第一神经网络、第二神经网络及第三神经网络；概率计算单元63包括导入单元、第二确定单元、第三确定单元及第四确定单元。其中：

导入单元用于将所有所述分词词语的第一词向量均分别导入所述预设编码模型中的第一神经网络、第二神经网络及第三神经网络。

第二确定单元用于在所述第一神经网络中基于所有所述分词词语的第一词向量确定所述病历文件的第一编码概率向量，并将所述第一编码概率向量导入所述第二神经网络。

第三确定单元用于在所述第二神经网络中基于所有所述分词词语的第一词向量及所述第一编码概率向量确定所述病历文件的第二编码概率向量，并将所述第二编码概率向量导入所述第三神经网络。

第四确定单元用于在所述第三神神经网络中基于所有所述分词词语的第一词向量及所述第二编码概率向量确定所述病历文件的第三编码概率向量。

作为本发明一实施例，所述第一神经网络包括依次连接的第一嵌入层、第一卷积层及第一概率确定层；第二确定单元包括第一降维单元、第一卷积单元及第一概率计算单元。其中：

第一降维单元用于在所述第一嵌入层对各个所述分词词语的第一词向量进行降维处理，得到各个所述分词词语的第二词向量。

第一卷积单元用于在所述第一卷积层基于第一预设卷积核对各个所述分词词语的第二词向量及各个所述分词词语的上下文分词词语的第二词向量进行卷积处理，得到各个所述分词词语的第三词向量。

第一概率计算单元用于在所述第一概率计算层基于预先学习到的各个预设词语的第三词向量属于各个第一类型编码的概率，确定各个所述分词词语的第三词向量属于各个所述第一类型编码的概率，并基于各个所述分词词语的第三词向量属于各个所述第一类型编码的概率确定所述病历文件的第一编码概率向量。

作为本发明一实施例，所述第二神经网络包括依次连接的第二嵌入层、第二卷积层及第二概率确定层；第三确定单元包括第二降维单元、第二卷积单元及第二概率计算单元。其中：

第二降维单元用于在所述第二嵌入层对各个所述分词词语的第一词向量进行降维处理，得到各个所述分词词语的第二词向量，将各个所述分词词语的所述第二词向量分别与所述第一编码概率向量进行组合，得到各个所述分词词语的第四词向量。

第二降维单元用于在所述第二卷积层基于第二预设卷积核对各个所述分词词语的第四词向量及各个所述分词词语的上下文分词词语的第四词向量进行卷积处理，得到各个所述分词词语的第五词向量。

第二概率计算单元用于在所述第二概率计算层基于预先学习到的各个预设词语的第五词向量属于各个第二类型编码的概率，确定各个所述分词词语的第五词向量属于各个所述第二类型编码的概率，并基于各个所述分词词语的第五词向量属于各个所述第二类型编码的概率确定所述病历文件的第二编码概率向量。

作为本发明一实施例，所述第三神经网络包括依次连接的第三嵌入层、第三卷积层及第三概率确定层；第四确定单元包括第三降维单元、第三卷积单元及第三概率计算单元。其中：

第三降维单元用于在所述第三嵌入层对各个所述分词词语的第一词向量进行降维处理，得到各个所述分词词语的第二词向量，将各个所述分词词语的所述第二词向量分别与所述第二编码概率向量进行组合，得到各个所述分词词语的第六词向量。

第三卷积单元用于在所述第三卷积层基于第三预设卷积核对各个所述分词词语的第六词向量及各个所述分词词语的上下文分词词语的第六词向量进行卷积处理，得到各个所述分词词语的第七词向量。

第三概率计算单元用于在所述第三概率计算层基于预先学习到的各个预设词语的第七词向量属于各个第三类型编码的概率，确定各个所述分词词语的第七词向量属于各个所述第三类型编码的概率，并基于各个所述分词词语的第七词向量属于各个所述第三类型编码的概率确定所述病历文件的第三编码概率向量。

以上可以看出，本实施例提供的一种服务器通过获取病历文件中的病历信息，对病历信息进行分词处理，并基于预设的基准词序列确定分词处理得到的各个分词词语的第一词向量，由于所有分词词语的第一词向量可以从整体上描述病历信息，因而实现了对病历信息的自动提取和处理；同时，本发明实施例基于所有分词词语的第一词向量，采用预设编码模型确定病历文件的第一编码概率向量、第二编码概率向量及第三编码概率向量，从而可以直接基于病历信息得到病历文件的编码，无需人工基于病历信息确定病人所患疾病类型，进而降低了人工作成本，提高了病历文件的编码效率。

图7是本发明另一实施例提供的一种服务器的结构框图。如图7所示，该实施例的服务器7包括：处理器70、存储器71以及存储在所述存储器71中并可在所述处理器70上运行的计算机程序72，例如病历文件的编码方法的程序。处理器70执行所述计算机程序72时实现上述各个病历文件的编码方法各实施例中的步骤，例如图1所示的S11至S14。或者，所述处理器70执行所述计算机程序72时实现上述图6对应的实施例中各单元的功能，例如，图6所示的单元61至64的功能，具体请参阅图6对应的实施例中的相关描述，此处不赘述。

示例性的，所述计算机程序72可以被分割成一个或多个单元，所述一个或者多个单元被存储在所述存储器71中，并由所述处理器70执行，以完成本发明。所述一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序72在所述服务器7中的执行过程。例如，所述计算机程序72可以被分割成分词处理单元、第一确定单元、概率计算单元及编码确定单元，各单元具体功能如上所述。

所述服务器可包括，但不仅限于，处理器70、存储器71。本领域技术人员可以理解，图7仅仅是服务器7的示例，并不构成对服务器7的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述服务器还可以包括输入输出设备、网络接入设备、总线等。

所称处理器70可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器71可以是所述服务器7的内部存储单元，例如服务器7的硬盘或内存。所述存储器71也可以是所述服务器7的外部存储设备，例如所述服务器7上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器71还可以既包括所述服务器7的内部存储单元也包括外部存储设备。所述存储器71用于存储所述计算机程序以及所述服务器所需的其他程序和数据。所述存储器71还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种病历文件的编码方法，其特征在于，包括：

2.根据权利要求1所述的病历文件的编码方法，其特征在于，所述预设编码模型包括级联的第一神经网络、第二神经网络及第三神经网络；

所述将所有所述分词词语的第一词向量导入预设编码模型，得到所述病历文件的第一编码概率向量、第二编码概率向量及第三编码概率向量，包括：

将所有所述分词词语的第一词向量均分别导入所述预设编码模型中的第一神经网络、第二神经网络及第三神经网络；

在所述第一神经网络中基于所有所述分词词语的第一词向量确定所述病历文件的第一编码概率向量，并将所述第一编码概率向量导入所述第二神经网络；

在所述第二神经网络中基于所有所述分词词语的第一词向量及所述第一编码概率向量确定所述病历文件的第二编码概率向量，并将所述第二编码概率向量导入所述第三神经网络；

在所述第三神神经网络中基于所有所述分词词语的第一词向量及所述第二编码概率向量确定所述病历文件的第三编码概率向量。

3.根据权利要求2所述的病历文件的编码方法，其特征在于，所述第一神经网络包括依次连接的第一嵌入层、第一卷积层及第一概率确定层；

所述在所述第一神经网络中基于所有所述分词词语的第一词向量确定所述病历文件的第一编码概率向量，包括：

在所述第一嵌入层对各个所述分词词语的第一词向量进行降维处理，得到各个所述分词词语的第二词向量；

在所述第一卷积层基于第一预设卷积核对各个所述分词词语的第二词向量及各个所述分词词语的上下文分词词语的第二词向量进行卷积处理，得到各个所述分词词语的第三词向量；

在所述第一概率计算层基于预先学习到的各个预设词语的第三词向量属于各个第一类型编码的概率，确定各个所述分词词语的第三词向量属于各个所述第一类型编码的概率，并基于各个所述分词词语的第三词向量属于各个所述第一类型编码的概率确定所述病历文件的第一编码概率向量。

4.根据权利要求2所述的病历文件的编码方法，其特征在于，所述第二神经网络包括依次连接的第二嵌入层、第二卷积层及第二概率确定层；

所述在所述第二神经网络中基于所有所述分词词语的第一词向量及所述第一编码概率向量确定所述病历文件的第二编码概率向量，包括：

在所述第二嵌入层对各个所述分词词语的第一词向量进行降维处理，得到各个所述分词词语的第二词向量，将各个所述分词词语的所述第二词向量分别与所述第一编码概率向量进行组合，得到各个所述分词词语的第四词向量；

在所述第二卷积层基于第二预设卷积核对各个所述分词词语的第四词向量及各个所述分词词语的上下文分词词语的第四词向量进行卷积处理，得到各个所述分词词语的第五词向量；

在所述第二概率计算层基于预先学习到的各个预设词语的第五词向量属于各个第二类型编码的概率，确定各个所述分词词语的第五词向量属于各个所述第二类型编码的概率，并基于各个所述分词词语的第五词向量属于各个所述第二类型编码的概率确定所述病历文件的第二编码概率向量。

5.根据权利要求2所述的病历文件的编码方法，其特征在于，所述第三神经网络包括依次连接的第三嵌入层、第三卷积层及第三概率确定层；

所述在所述第三神神经网络中基于所有所述分词词语的第一词向量及所述第二编码概率向量确定所述病历文件的第三编码概率向量，包括：

在所述第三嵌入层对各个所述分词词语的第一词向量进行降维处理，得到各个所述分词词语的第二词向量，将各个所述分词词语的所述第二词向量分别与所述第二编码概率向量进行组合，得到各个所述分词词语的第六词向量；

在所述第三卷积层基于第三预设卷积核对各个所述分词词语的第六词向量及各个所述分词词语的上下文分词词语的第六词向量进行卷积处理，得到各个所述分词词语的第七词向量；

在所述第三概率计算层基于预先学习到的各个预设词语的第七词向量属于各个第三类型编码的概率，确定各个所述分词词语的第七词向量属于各个所述第三类型编码的概率，并基于各个所述分词词语的第七词向量属于各个所述第三类型编码的概率确定所述病历文件的第三编码概率向量。

6.一种服务器，其特征在于，所述服务器包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如下步骤：

7.根据权利要求6所述的服务器，其特征在于，所述预设编码模型包括级联的第一神经网络、第二神经网络及第三神经网络；

8.根据权利要求7所述的服务器，其特征在于，所述第一神经网络包括依次连接的第一嵌入层、第一卷积层及第一概率确定层；

9.一种服务器，其特征在于，包括：

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。