CN109670177A

CN109670177A - 一种基于lstm实现医学语义归一化的控制方法及控制装置

Info

Publication number: CN109670177A
Application number: CN201811559804.XA
Authority: CN
Inventors: 嵇艺; 罗震; 徐盛
Original assignee: Xiamen Yifangjian Information Technology Co Ltd; Yijian (shanghai) Information Technology Co Ltd
Current assignee: Xiamen Yifangjian Information Technology Co Ltd; Yijian (shanghai) Information Technology Co Ltd
Priority date: 2018-12-20
Filing date: 2018-12-20
Publication date: 2019-04-23

Abstract

本发明提供了一种基于LSTM实现医学语义归一化的控制方法及控制装置，其通过深度神经网络实现医学语义归一化，包括如下步骤：a.基于Word2Vec语言模型将医学语义转换为词向量序列；b.基于LSTM训练模型对所述词向量序列进行模型训练，确定所述词向量序列与标准医学语义库中各个语义的相似度；c.将相似度最高的标准医学语义作为所述医学语义的归一化表示，通过对初始识别医学实体进行字特征向量映射作为输入，引入深度的神经网络模型学习现有的标准映射库中自然描述实体语义特征与医学标准实体关系，最终将文本中的自然语言描述实体映射到给定医学标准库中的标准实体名称，本发明操作简单，功能强大，实用性强，具有极高的商业价值。

Description

一种基于LSTM实现医学语义归一化的控制方法及控制装置

技术领域

本发明属于信息技术领域，特别涉及一种基于LSTM实现医学语义归一化的控制方法及控制装置。

背景技术

医学命名实体(包括疾病、疾病诊断、临床症状、检查和治疗等)，医学命名实体归一化是信息提取的基本任务之，旨在将文本中的自然语言描述实体映射到给定医学标准库中的标准实体名称，它也是医疗知识挖掘，医疗智能机器人，医疗临床决策支持系统等应用领域的重要基础工作。医疗文本潜藏着丰富的医疗价值，但是这些医疗文本大多处于一种非结构化的状态。为充分挖掘其中的价值，并为接下来医疗命名实体的实际应用打好基础工作，医疗文本实体识别是必不可少的步骤。

现阶段，医学自然语言描述实体的归一化的任务主要建立在规则模式，以模式和字符串相匹配为主要手段，将电子病历中的文本匹配至标准实体，该方法依赖于知识库和词典的建立，而另一种基于机器学习的方法，一种基于CRF与规则相结合的医学病历实体识别算法，先利用CRF进行病历实体的初始识别，然后基于规则进行病历实体识别结果优化。而这种模式下仍然存在较多问题，严重影响了医疗诊断的进步，例如不同的实体可能指的是同一标准实体，如湿啰音在电子病历中有湿性罗音、粗湿啰音、细湿罗音、水泡音、小水泡音、痰鸣音等多种描述，同时也可能存在错别字，如湿罗音等。这个步骤需要人工处理大量的实体映射规则，而人工映射规则很大程度上依赖于人的主观判断，而对一些近似含义不同的描述实体的映射容易出现错误，其次依赖于人工映射则会消耗较大的人力，并且工作效率不高。

而目前，市场上并没有一种能够有效解决上述问题的具体办法，尤其涉及一种基于LSTM实现医学语义归一化的控制方法及控制装置。

发明内容

针对现有技术存在的技术缺陷，本发明的目的是提供一种基于LSTM实现医学语义归一化的控制方法及控制装置，根据本发明的另一个方面，提供了一种基于LSTM实现医学语义归一化的控制方法，其通过深度神经网络实现医学语义归一化，包括如下步骤：

a.基于Word2Vec语言模型将医学语义转换为词向量序列；

b.基于LSTM训练模型对所述词向量序列进行模型训练，确定所述词向量序列与标准医学语义库中各个语义的相似度；

c.将相似度最高的标准医学语义作为所述医学语义的归一化表示。

优选地，在所述步骤a之前，还包括步骤i：对所述医学语义进行数据筛选以及数据清洗。

优选地，所述步骤a包括如下步骤：

a1：对输入的医学语义的每个字转换成词向量，并按顺序排列获得词向量序列；

a2：判断所述词向量序列与标准词向量序列的长短差异，若词向量序列过长，则执行步骤a3，若词向量序列过短，则执行步骤a4；

a3：将词向量序列中长度超出部分截断；

a4：将词向量序列中长度不足部分用空白补足。

优选地，所述步骤b包括如下步骤：

b1.将基于所述词向量序列以及一层Bidirectional LSTM确定词序列中每一个词的完整的基于过去和未来的上下文信息特征，再经过一层单向LSTM输出词序列最后一个包含整个短语的特征链接到隐藏输入层；

b2.基于隐藏输入层以及激励函数模型输入相加的多次迭代确定最终输入层；

b3.基于所述最终输入层确定目标维度的映射空间，并通过标签分类函数sigmoid确定所述词向量序列与标准医学语义库中各个语义的相似度。

优选地，所述步骤b1包括：将所述词向量序列作为Bidirectional LSTM的输入，Bidirectional LSTM分别以正向时序和反向时序处理输入的词向量序列，并将两个处理结果经过一层单向LSTM输出词序列最后一个包含整个短语的特征输出链接到同一个隐藏输出层。

优选地，在所述步骤b2中，所述激励函数模型通过公式：

其中，所述x为神经元的输入，其作用为单侧抑制相对宽阔的兴奋边界、稀疏激活性。

优选地，在所述步骤b2中，基于隐藏输入层以及激励函数模型输入相加的多次迭代通过如下公式计算：

xo＝F(xi，{Wi})+xi其中，F＝L2σ(L1x)，所述L1、L2为线性变换层，所述σ为ReLU激活函数，所述xi为神经元i输入，所述Wi为神经元i权重。

优选地，在所述步骤b3中，所述标签分类函数sigmoid通过如下公式计算：

所述x为神经元输入。

优选地，在所述步骤c之后，还包括步骤：

d.基于优化损失函数优化Bidirectional LSTM的参数，并确定优化后的Bidirectional LSTM。

优选地，所述优化损失函数通过如下公式实现：

其中，所述p_i:给定xi，模型预测输出概率，所述y_i为实际的目标结果。

根据本发明的另一个方面，提供了一种基于LSTM实现医学语义归一化的控制装置，其通过深度神经网络实现医学语义归一化，包括：

第一获取装置：基于Word2Vec语言模型将医学语义转换为词向量序列；

第一确定装置：基于LSTM训练模型对所述词向量序列进行模型训练，确定所述词向量序列与标准医学语义库中各个语义的相似度；

第一处理装置：将相似度最高的标准医学语义作为所述医学语义的归一化表示。

优选地，在所述第一获取装置之前，还包括第二处理装置：对所述医学语义进行数据筛选以及数据清洗。

优选地，所述第一获取装置包括：

第二获取装置：对输入的医学语义的每个字转换成词向量，并按顺序排列获得词向量序列；

第一判断步骤：判断所述词向量序列与标准词向量序列的长短差异，若词向量序列过长，则执行步骤a3，若词向量序列过短，则执行步骤a4；

第三处理装置：将词向量序列中长度超出部分截断；

第四处理装置：将词向量序列中长度不足部分用空白补足。

优选地，所述第一确定装置包括：

第五处理装置：将基于所述词向量序列以及一层Bidirectional LSTM确定词序列中每一个词的完整的基于过去和未来的上下文信息特征，再经过一层单向LSTM输出词序列最后一个包含整个短语的特征链接到隐藏输入层；

第二确定装置：基于隐藏输入层以及激励函数模型输入相加的多次迭代确定最终输入层；

第三确定装置：基于所述最终输入层确定目标维度的映射空间，并通过标签分类函数sigmoid确定所述词向量序列与标准医学语义库中各个语义的相似度。

优选地，所述第五处理装置包括：将所述词向量序列作为Bidirectional LSTM的输入，Bidirectional LSTM分别以正向时序和反向时序处理输入的词向量序列，并将两个处理结果经过一层单向LSTM输出词序列最后一个包含整个短语的特征输出链接到同一个隐藏输出层。

优选地，在所述第一处理装置之后，还包括：

第四确定装置：基于优化损失函数优化Bidirectional LSTM的参数，并确定优化后的Bidirectional LSTM。

本发明提供了一种基于LSTM实现医学语义归一化的控制方法及控制装置，通过对初始识别医学实体进行字特征向量映射作为输入，引入深度的神经网络模型学习现有的标准映射库中自然描述实体语义特征与医学标准实体关系，最终将文本中的自然语言描述实体映射到给定医学标准库中的标准实体名称，本发明操作简单，功能强大，实用性强，具有极高的商业价值。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1示出了本发明的具体实施方式的，一种基于LSTM实现医学语义归一化的控制方法的具体流程示意图；

图2示出了本发明的第一实施例的，对所述医学语义进行数据筛选以及数据清洗的具体流程示意图；

图3示出了本发明的第二实施例的，基于Word2Vec语言模型将医学语义转换为词向量序列的具体流程示意图；

图4示出了本发明的第三实施例的，基于LSTM训练模型对所述词向量序列进行模型训练，确定所述词向量序列与标准医学语义库中各个语义的相似度的具体流程示意图；

图5示出了本发明的第四实施例的，基于优化损失函数优化Bidirectional LSTM的参数，并确定优化后的Bidirectional LSTM的具体流程示意图；以及

图6示出了本发明的另一具体实施方式的，一种基于LSTM实现医学语义归一化的控制装置的模块连接示意图。

具体实施方式

为了更好的使本发明的技术方案清晰的表示出来，下面结合附图对本发明作进一步说明。

图1示出了本发明的具体实施方式的，一种基于LSTM实现医学语义归一化的控制方法的具体流程示意图，具体地，包括如下步骤：

首先，进入步骤S101，基于Word2Vec语言模型将医学语义转换为词向量序列，所述医学语义属于文本数据，而计算机程序不能够对文本数据直接进行计算，因此需要将文本数据转换为数值向量，此处采用了公知技术word2vec，本领域技术人员理解，对医学语义中的文本数据中每一个词进行处理，采用word2vec工语言模型对处理后的文本数据中每一个词进行训练，得到一个词向量字典，其中医学语义每一个词都对应着一个词向量，在生成词向量序列后，能够以词向量序列的形式读取序列化的单词，而不是以文本的形式。

进一步地，在将文本数据转换成数值向量的过程中需要获取文本数据中的特征，这就需要对文本数据中的每个字符进行拆解，并利用Word2ve，将文本数据转换为深度神经网络能够理解的数值形式，也就是词向量序列。

进一步地，所述Word2vec是一个用于处理文本的双层神经网络，其它能够输入文本语料，输出一组向量，所述Word2vec将每个词编码为向量，这种模型能够根据输入语料中相邻的其他词来进行每个词的定型，而不是将文本语料进行重构从而为词语定型，优选地，通过确定一个词与其他相似的词之间的近似度，让标记变为更连续且更全面的意义，Word2vec将term转换成向量形式，可以把对文本内容的处理简化为向量空间中的向量运算，计算出向量空间上的相似度，来表示文本语义上的相似度。

进一步地，词向量是用于将文本形式的词以数学形式表达的数据，比如，文本形式的“发烧”表示为数学形式“[0 0 0 1 0 0 0 0 0 0 0...]”，此时，“[0 0 0 1 0 0 0 0 0 00...]”即为“发烧”的词向量。可以理解，这里不限定将文本形式的词转换为何种表示的词向量，只要能够将文本形式的词进行数学化表示即可。

然后，进入步骤S102，基于LSTM训练模型对所述词向量序列进行模型训练，确定所述词向量序列与标准医学语义库中各个语义的相似度，本领域技术人员理解，所述Word2vec将医学语义中每个词编码为向量，并生成词向量序列后，将词向量序列输入至LSTM模型中并进行训练，采用已有的医学标注短语与医学标准实体映射的训练集，将医学向量序列输入构建的深度神经网络模块中，深度神经网络各层的神经元依据输入数据计算出短语对应的医学标准实体库中的标准词概率，并确定所述词向量序列与标准医学语义库中各个语义的相似度。

最后，进入步骤S103，将相似度最高的标准医学语义作为所述医学语义的归一化表示，本领域技术人员理解，采用已有的医学标注短语与医学标准实体映射的评估集，输入训练后的神经源网络模型中，对模型输出和评估集结果进行评估，并将相似度最高的标准医学语义作为所述医学自然语义的归一化统一表示，并将文本中的自然语言描述实体映射到给定医学标准库中的标准实体名称。

进一步地，将各个分词向量化的过程，是指用向量表示词以及词的上下文语义环境，本发明中基于大量的医学文本进行预训练，获得将词向量化表示的模型，在生成的模型中，如果两个词的上下文语义越接近，则两个词对应的词向量的余弦距离越大。

进一步地，归一化是一种简化计算的方式，即将有量纲的表达式，所述归一化是把数据映射到0～1范围之内处理，归纳统一样本的统计分布性，“归一词”可以是用来表示一些相似描述的共同表现形式，本发明中所述归一化是将医学语句使用归一词进行代替，以将不同语义相同的表述进行形式统一。例如，在一个优选地实施例中，用户输入“今天下雪了”，而其中的“下雪了”、“温度低”、“冷”都是关于今天的天气情况，所述词语语义较为接近，因此，可以统一表述，用“T_”开头，使用归一化“T_天气”来表示今天的天气情况。

图2示出了本发明的第一实施例的，对所述医学语义进行数据筛选以及数据清洗的具体流程示意图，具体地，包括如下步骤：

首先，进入步骤S201，基于Word2Vec语言模型将医学语义转换为词向量序列，本领域技术人员理解，所述图2中步骤S201可以参考所述图1中的步骤S101，在此不予赘述。

然后，进入步骤S202，基于LSTM训练模型对所述词向量序列进行模型训练，确定所述词向量序列与标准医学语义库中各个语义的相似度，本领域技术人员理解，所述图2中步骤S202可以参考所述图1中的步骤S102，在此不予赘述。

然后，进入步骤S203，将相似度最高的标准医学语义作为所述医学语义的归一化表示，本领域技术人员理解，所述图2中步骤S203可以参考所述图1中的步骤S103，在此不予赘述。

最后，进入步骤S204，对所述医学语义进行数据筛选以及数据清洗，本领域技术人员理解，在对所述医学语义进行向量转换前，需要对所述医学语义进行数据筛选和数据清洗两个过程，首先，将所述医学语义直接录入到系统库，并对其进行数据筛选和清洗，去除重复数据、异常数据以及无用数据、无效数据等，精确地筛选出最需要的数据，从而得到关键数据，经过以上两个数据处理的过程，大大的降低了数据的规模以及复杂度。

在一个优选地实施例中，输入一段话至模型中：，“昨天一天，他一直在发低烧，并且伴有打喷嚏、流鼻涕，咽喉还肿痛”，系统自动读取文字，并对数据进行筛选和清洗，去除重复、无用和无意义的词，统一规范词语，并筛选语句中的关键词语，得到后的语句为：“2018年11月10日，发烧、喷嚏、流鼻涕、咽喉、肿痛”，在得到语句的文本特征后，将所述词语转换成向量。

图3示出了本发明的第二实施例的，基于Word2Vec语言模型将医学语义转换为词向量序列的具体流程示意图，具体地，包括如下步骤：

首先，进入步骤S1011，对输入的医学语义的每个字转换成词向量，并按顺序排列获得词向量序列，本领域技术人员理解，因计算机仅能对数值型的类型进行计算，而输入的字符w是字符型，计算机不能直接计算，因此需要将字符转化为数值向量，此处采用公知技术word2vec，把输入的医学语义进行分词提取，其中每一个词都对应着一个词向量，将每个词转换为word2vec向量，按顺序组合word2vec，组合成了一个或多个词向量，将所述一个或多个词向量按照排列顺序组成一个或多个词向量序列，在生成词向量序列后，LSTM训练模型能够以词向量序列的形式读取序列化的单词。

进一步地，词向量序列是包括文本形式的各词向量化得到的各词向量，各词向量的先后顺序与相应的词在目标文本中出现的先后顺序一致，由此，可以理解为，目标文本中最开始的词所对应的词向量在词向量序列中的顺序最靠前。

例如，在一个优选地实施例中，所述语句为：“他昨天看了一部电影”，对其进行分词，得到“他/昨天/看/了/一部/电影”，那么词“他”的词向量为a1，词“昨天”的词向量为a2，词“看”的词向量为a3，词“了”的词向量为a3，词“一部”的词向量为a4，词“电影”的词向量为a5，将词向量序列输入word2vec语言模型中，按词向量序列中各词向量的先后顺序处理各词向量得到语义向量序列。

然后，进入步骤S1012，判断所述词向量序列与标准词向量序列的长短差异，若词向量序列过长，则执行步骤a3，若词向量序列过短，则执行步骤a4，本领域技术人员理解，在按照词向量序列中各词向量的先后顺序处理各词向量得到语义向量序列后，对所述一个或多个词向量序列的长度进行判断，由于模型的输入是定长的，而输入的医学标注短语长度并不固定，这就需要对所述一个或多个词向量序列的长度进行识别和判断，如果所述词向量序列的长度过长则直接进入步骤S1013中进行处理，如果词向量序列的长度不足则直接进入步骤S1014，进行后续操作。

进一步地，所述标准词向量序列的长度可以为任意数值，用户可以自行设定数值，对于标准语句的长度，重要的是将其设定为合适的长度，能够保证在将词向量序列输入至LSTM层中能够精确的进行计算。

然后，进入步骤S1013，将词向量序列中长度超出部分截断，本领域技术人员理解，所述词向量序列在经过判断之后，超出固定长度，则对词向量序列超出的部分进行截取，从所述词向量序列截下的部分则可以作为一组新的词向量序列，并再次进入步骤S1012中，判断词向量序列的长度与标准词向量序列的长度差异。

最后，进入步骤S1014，将词向量序列中长度不足部分用空白补足，本领域技术人员理解，所述词向量序列的长度如低于标准词向量的长度，则可以直接生成空白序列，对所述词向量序列缺失的长度进行补齐，具体地，所述空白序列不影响所述的初始词向量序列的语义等。

图4示出了本发明的第三实施例的，基于LSTM训练模型对所述词向量序列进行模型训练，确定所述词向量序列与标准医学语义库中各个语义的相似度的具体流程示意图，具体地，包括如下步骤：

首先，进入步骤S1021，将基于所述词向量序列以及一层Bidirectional LSTM确定词序列中每一个词的完整的基于过去和未来的上下文信息特征，再经过一层单向LSTM输出词序列最后一个包含整个短语的特征链接到隐藏输入层，本领域技术人员理解，在将所述医学语句进行编码后，直接转换成所述一个或多个词向量，并按顺序排列获得词向量序列，首先，将词向量序列作为Bidirectional LSTM输入，Bidirectional LSTM分别以正向时序和反向时序处理输入的短语词向量，并将两个LSTM输出链接到同一个隐藏输出层(长度为hidden_size*2)。

进一步地，普通的卷积神经网络是根据前面的词向量而推导出后面的信息，但大多数情况下一个序列当前的输出与之后的输出也有关，而双层积神经网的隐藏层能够保留两个值，A参与正向计算，A’参与反向计算，最终的输出值y取决于A和A’，这种情况下就能够兼顾一个序列当前的输出与之后的输出。

所述b步骤包括：将所述词向量序列作为Bidirectional LSTM的输入，Bidirectional LSTM分别以正向时序和反向时序处理输入的词向量序列，并将两个处理结果经过一层单向LSTM输出词序列最后一个包含整个短语的特征输出链接到同一个隐藏输出层，本领域技术人员理解，在将所述医学语句进行编码后，直接转换成所述一个或多个词向量，并按顺序排列获得词向量序列，首先，将词向量序列作为Bidirectional LSTM输入，Bidirectional LSTM分别以正向时序和反向时序处理输入的短语词向量，得到两个处理结果，并将两个处理结果经过一层单向LSTM输出词序列最后一个包含整个短语的特征，输出并链接到同一个隐藏输出层。

进一步地，LSTM模型的关键构成是一种被称作“门”的结构，LSTM拥有三类门，分别是输入门、输出门、和遗忘门，首先，LSTM需要通过遗忘门决定应该从向量中丢弃什么信息，例如一些通过输出门来决定输出哪部分，通过传入门来决定要添加什么信息，通过LSTM的三类门能够根号的天性语言的结构、内容等，所述LSTM模型属于本领域常用的技术手段与公知常识，在此不予赘述。

然后，进入步骤S1022，基于隐藏输入层以及激励函数模型输入相加的多次迭代确定最终输入层，在所述步骤b2中，所述激励函数模型通过公式：

其中，所述x为神经元的输入，本领域技术人员理解，在多层神经网络中，上层节点的输出和下层节点的输入之间具有一个函数关系，这个函数称为激励函数，所述ReLU函数其实就是一个取最大值函数，它作为中间隐层神经元的激活函数，不会出现“梯度消失”现象，同时还能够达到单侧抑制、相对宽阔的兴奋边界、稀疏激活性的作用，通过上述公式，可以得到向量序列的特征，并以此作为文字特征分析的基础，具体地，所述激励函数为本领域常用技术手段，在此不予赘述。

进一步地，本领域技术人员理解，将步骤S1021的输出作为单向LSTM输入，输出表示在词序的每个时刻都知道整个词向量序列的完整信息，并经过两个层次的迭代，即隐藏层、ReLU激励函数，将输入的隐藏层与Block的输出相加，并进行多次迭代，最终确定出最终输入层。具体地，所述隐藏层层数可以为两层、三层、四层或者更多，在一个优选地实施例中，所述隐藏层层数的层数为2个，而在其他实施例中，所述测量模块的数据可以根据实际情况进行调整，并不局限于2个，可以为任意数量，优选地，所述隐藏层层数的增加能够降低网络误差，提高精度，越深的网络提取的特征越抽象，越具有语义信息。

进一步地，基于隐藏输入层以及激励函数模型输入相加的多次迭代通过如下公式计算：xo＝F(xi，{Wi})+xi，其中F＝L2σ(L1x)，L1/L2为线性变换层，σ为ReLU激活函数，Xi为神经元i输入，Wi为神经元i权重，F(xi)与xi相加就是逐元素相加，但是如果两者维度不同，需要给xi执行一个线性映射来匹配维度，用来学习残差的网络层数应当大于1，否则退化为线性。

进一步地，本领域技术人员理解，将输入的隐藏层与Block的输出相加并进行多次迭代，而在此过程中需要增加多层网络层数，但如果简单地增加深度，会导致梯度弥散或梯度爆炸，对于该问题的解决方法是正则化初始化和中间的正则化(BatchNormalization)，这样的话可以训练几十层的网络，因此在本本发明在此过程中利用了残差函数，所述残差结构函数能够优化残差网络，并且能够通过增加相当的深度来提高准确率，它解决了增加隐藏层而带来的副作用，这样能够通过单纯地增加网络深度，来提高网络性能。

最后，进入步骤S1023，基于所述最终输入层确定目标维度的映射空间，并通过标签分类函数sigmoid确定所述词向量序列与标准医学语义库中各个语义的相似度，本领域技术人员理解，所述标签分类函数sigmoid通过如下公式计算：其中，X为神经元输入，所述标签分类函数是用来做二分类，用于神经网路的最后一层做分类函数，它是将一个标量数字转换到[0,1]之间，如果大于一个概率阈值(一般是0.5)，则认为属于某个类别，否则不属于某个类别，本质上其实就是针对logits中每个分类计算的结果分别作用一个sigmoid分类器，分别判定样本是否属于某个类别同样假设，也是神经网络最终的全连接的输出，本领域技术人员理解，所述神经网络模型将向量序列输出最后一层时，通过一个全链接层转换层目标维度的映射空间，通过sigmoid层计算每个目标维度的概率值，判断映射目标。

进一步地，一般Sigmoid用作二分类，将一个标量数字转化为0-1之前的一个值，一般大于设置的阀值，通过与阀值的大小判别输入两个分类中的某一类。在这里应用主要考虑到医学短语的归一是包括多分类情况，例如胃肠不适(胃不适、肠不适)、干湿啰音(干啰音、湿啰音)等，会与多个医学标准实体相关，因此在实际应用中会对每个维度分别作一个Sigmoid的分类器，判定样本是否属于这个维度标签

在一个优选地实施例中，利用sigmoid函数进行分类，假设有个10类别，sigmoid应该会将logits中每个数字都变成[0,1]之间的概率值，假设结果为[0.01,0.05,0.4,0.6,0.3,0.1,0.5,0.4,0.06,0.8],然后设置一个概率阈值，比如0.3，如果概率值大于0.3，则判定类别符合，那么该输入样本则会被判定为类别3、类别4、类别5、类别7及类别8，即一个样本具有多个标签。

图5示出了本发明的第四实施例的，基于优化损失函数优化Bidirectional LSTM的参数，并确定优化后的Bidirectional LSTM的具体流程示意图，具体地，包括如下步骤：

首先，进入步骤S301，基于Word2Vec语言模型将医学语义转换为词向量序列，本领域技术人员理解，所述图5中步骤S301可以参考所述图1中的步骤S101，在此不予赘述。

然后，进入步骤S302，基于LSTM训练模型对所述词向量序列进行模型训练，确定所述词向量序列与标准医学语义库中各个语义的相似度，本领域技术人员理解，所述图5中步骤S302可以参考所述图1中的步骤S102，在此不予赘述。

然后，进入步骤S303，将相似度最高的标准医学语义作为所述医学语义的归一化表示，本领域技术人员理解，所述图5中步骤S303可以参考所述图1中的步骤S103，在此不予赘述。

最后，进入步骤S304，基于优化损失函数优化Bidirectional LSTM的参数，并确定优化后的Bidirectional LSTM，本领域技术人员理解，所述优化损失函数通过如下公式实现：

所述损失函数是设计神经网络中很重要的一个关键因素，它增加了模型的复杂性，提供了个更多的非线性操作。更为具体地，在采用已有的医学标注短语与医学标准实体映射的训练集，将医学标注短语输入构建的深度神经网络模块中，深度神经网络各层的神经元依据输入数据计算出短语对应的医学标准实体库中的标准词概率，这就需要损失函数对深度神经网络参数进行优化，最终确定优化后的Bidirectional LSTM。

图6示出了本发明的另一具体实施方式的，一种基于LSTM实现医学语义归一化的控制装置的模块连接示意图，本领域技术人员理解，本发明提供了一种基于LSTM实现医学语义归一化的控制装置，其通过深度神经网络实现医学语义归一化，包括第一获取装置：基于Word2Vec语言模型将医学语义转换为词向量序列，所述医学语义属于文本数据，而计算机程序不能够对文本数据直接进行计算，因此需要将文本数据转换为数值向量，此处采用了公知技术word2vec，本领域技术人员理解，对医学语义中的文本数据中每一个词进行处理，采用word2vec工语言模型对处理后的文本数据中每一个词进行训练，得到一个词向量字典，其中医学语义每一个词都对应着一个词向量，在生成词向量序列后，能够以词向量序列的形式读取序列化的单词，而不是以文本的形式。在将文本数据转换成数值向量的过程中需要获取文本数据中的特征，这就需要对文本数据中的每个字符进行拆解，并利用Word2ve，将文本数据转换为深度神经网络能够理解的数值形式，也就是词向量序列，所述第一获取装置与第一确定装置及第二处理装置进行连接。

第一确定装置：基于LSTM训练模型对所述词向量序列进行模型训练，确定所述词向量序列与标准医学语义库中各个语义的相似度，所述Word2vec将医学语义中每个词编码为向量，并生成词向量序列后，将词向量序列输入至LSTM模型中并进行训练，采用已有的医学标注短语与医学标准实体映射的训练集，将医学向量序列输入构建的深度神经网络模块中，深度神经网络各层的神经元依据输入数据计算出短语对应的医学标准实体库中的标准词概率，并确定所述词向量序列与标准医学语义库中各个语义的相似度，所述第一确定装置与第一获取装置、第一处理装置及第五处理装置、第二确定装置和第三确定装置连接。

第一处理装置：将相似度最高的标准医学语义作为所述医学语义的归一化表示，采用已有的医学标注短语与医学标准实体映射的评估集，输入训练后的神经源网络模型中，对模型输出和评估集结果进行评估，并将相似度最高的标准医学语义作为所述医学语义的归一化表示，统一使用相似度最高的标准医学语句的名称作为医学语义的名称，所述第一处理装置连接第一确定装置及第四确定装置。

优选地，在所述第一获取装置之前，还包括第二处理装置：对所述医学语义进行数据筛选以及数据清洗，对所述医学语义进行向量转换前，需要对所述医学语义进行数据筛选和数据清洗两个过程，首先，将所述医学语义直接录入到系统库，并对其进行数据筛选和清洗，去除重复数据、异常数据以及无用数据、无效数据等，精确地筛选出最需要的数据，从而得到关键数据，经过以上两个数据处理的过程，大大的降低了数据的规模以及复杂度，所述第二处理装置连接第一获取装置。

优选地，所述第一获取装置包括：

第二获取装置：对输入的医学语义的每个字转换成词向量，并按顺序排列获得词向量序列，因计算机仅能对数值型的类型进行计算，而输入的字符w是字符型，计算机不能直接计算，因此需要将字符转化为数值向量，此处采用公知技术word2vec，把输入的医学语义进行分词提取，其中每一个词都对应着一个词向量，将每个词转换为word2vec向量，按顺序组合word2vec，组合成了一个或多个词向量，将所述一个或多个词向量按照排列顺序组成一个或多个词向量序列，在生成词向量序列后，LSTM训练模型能够以词向量序列的形式读取序列化的单词。词向量序列是包括文本形式的各词向量化得到的各词向量，各词向量的先后顺序与相应的词在目标文本中出现的先后顺序一致，由此，可以理解为，目标文本中最开始的词所对应的词向量在词向量序列中的顺序最靠前，所述第二获取装置与第一判断装置、第三处理装置及第四处理装置共同连接第一获取装置。

第一判断步骤：判断所述词向量序列与标准词向量序列的长短差异，若词向量序列过长，则执行步骤a3，若词向量序列过短，则执行步骤a4，在按照词向量序列中各词向量的先后顺序处理各词向量得到语义向量序列后，对所述一个或多个词向量序列的长度进行判断，由于模型的输入是定长的，而输入的医学标注短语长度并不固定，这就需要对所述一个或多个词向量序列的长度进行识别和判断，如果所述词向量序列的长度过长则直接进入步骤S1013中进行处理，如果词向量序列的长度不足则直接进入步骤S1014，进行后续操作，所述第一判断装置与所述第二获取装置第三处理装置及第四处理装置共同连接第一获取装置。

第三处理装置：将词向量序列中长度超出部分截断，所述词向量序列在经过判断之后，超出固定长度，则对词向量序列超出的部分进行截取，从所述词向量序列截下的部分则可以作为一组新的词向量序列，并再次进入步骤S1012中，判断词向量序列的长度与标准词向量序列的长度差异，所述第三处理装置与所述第二获取装置、第一判断装置及第四处理装置共同连接第一获取装置。

第四处理装置：将词向量序列中长度不足部分用空白补足，所述词向量序列的长度如低于标准词向量的长度，则可以直接生成空白序列，对所述词向量序列缺失的长度进行补齐，具体地，所述空白序列不影响所述的初始词向量序列的语义等，所述第四处理装置与所述第二获取装置、第一判断装置及第三处理装置共同连接第一获取装置。

优选地，所述第一确定装置包括：

第五处理装置：将基于所述词向量序列以及一层Bidirectional LSTM确定词序列中每一个词的完整的基于过去和未来的上下文信息特征，再经过一层单向LSTM输出词序列最后一个包含整个短语的特征链接到隐藏输入层，在将所述医学语句进行编码后，直接转换成所述一个或多个词向量，并按顺序排列获得词向量序列，首先，将词向量序列作为Bidirectional LSTM输入，Bidirectional LSTM分别以正向时序和反向时序处理输入的短语词向量，并将两个LSTM输出链接到同一个隐藏输出层，所述第五处理装置与所述第二确定装置、第三确定装置共同连接第一确定装置。

第二确定装置：基于隐藏输入层以及激励函数模型输入相加的多次迭代确定最终输入层，将步骤S1021的输出作为单向LSTM输入，输出表示在词序的每个时刻都知道整个词向量序列的完整信息，并经过两个层次的迭代，即隐藏层、ReLU激励函数，将输入的隐藏层与Block的输出相加，并进行多次迭代，最终确定出最终输入层。具体地，所述隐藏层层数可以为两层、三层、四层或者更多，将输入的隐藏层与Block的输出相加并进行多次迭代，而在此过程中需要增加多层网络层数，但如果简单地增加深度，会导致梯度弥散或梯度爆炸，对于该问题的解决方法是正则化初始化和中间的正则化(BatchNormalization)，这样的话可以训练几十层的网络，因此在本本发明在此过程中利用了残差函数，所述残差结构函数能够优化残差网络，并且能够通过增加相当的深度来提高准确率，它解决了增加隐藏层而带来的副作用，这样能够通过单纯地增加网络深度，来提高网络性能，所述第二确定装置与所述第五处理装置、第三确定装置共同连接第一确定装置。

第三确定装置：基于所述最终输入层确定目标维度的映射空间，并通过标签分类函数sigmoid确定所述词向量序列与标准医学语义库中各个语义的相似度，所述标签分类函数sigmoid通过如下公式计算：其中，X为神经元输入，所述标签分类函数是用来做二分类，用于神经网路的最后一层做分类函数，它是将一个标量数字转换到[0,1]之间，如果大于一个概率阈值(一般是0.5)，则认为属于某个类别，否则不属于某个类别，本质上其实就是针对logits中每个分类计算的结果分别作用一个sigmoid分类器，分别判定样本是否属于某个类别同样假设，也是神经网络最终的全连接的输出，本领域技术人员理解，所述神经网络模型将向量序列输出最后一层时，通过一个全链接层转换层目标维度的映射空间，通过sigmoid层计算每个目标维度的概率值，判断映射目标，所述第三确定装置与所述第二确定装置、第五处理装置共同连接第一确定装置。

优选地，在所述第一处理装置之后，还包括：第四确定装置：基于优化损失函数优化Bidirectional LSTM的参数，并确定优化后的Bidirectional LSTM，所述优化损失函数通过如下公式实现：其中，所述p_i:给定xi，模型预测输出概率，所述y_i为实际的目标结果。

所述损失函数是设计神经网络中很重要的一个关键因素，它增加了模型的复杂性，提供了个更多的非线性操作。更为具体地，在采用已有的医学标注短语与医学标准实体映射的训练集，将医学标注短语输入构建的深度神经网络模块中，深度神经网络各层的神经元依据输入数据计算出短语对应的医学标准实体库中的标准词概率，这就需要损失函数对深度神经网络参数进行优化，最终确定优化后的Bidirectional LSTM，所述第四确定装置连接第一处理装置。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种基于LSTM实现医学语义归一化的控制方法，其通过深度神经网络实现医学语义归一化，其特征在于，包括如下步骤：

a.基于Word2Vec语言模型将医学语义转换为词向量序列；

2.根据权利要求1所述的控制方法，其特征在于，在所述步骤a之前，还包括步骤i：对所述医学语义进行数据筛选以及数据清洗。

3.根据权利要求1或2所述的控制方法，其特征在于，所述步骤a包括如下步骤：

a3：将词向量序列中长度超出部分截断；

a4：将词向量序列中长度不足部分用空白补足。

4.根据权利要求1所述的控制方法，其特征在于，所述步骤b包括如下步骤：

5.根据权利要求4所述的控制方法，其特征在于，所述步骤b1包括：将所述词向量序列作为Bidirectional LSTM的输入，Bidirectional LSTM分别以正向时序和反向时序处理输入的词向量序列，并将两个处理结果经过一层单向LSTM输出词序列最后一个包含整个短语的特征输出链接到同一个隐藏输出层。

6.根据权利要求4所述的控制方法，其特征在于，在所述步骤b2中，所述激励函数模型通过公式：

7.根据权利要求4所述的控制方法，其特征在于，在所述步骤b2中，基于隐藏输入层以及激励函数模型输入相加的多次迭代通过如下公式计算：

xo＝F(xi，{Wi})+xi，其中，F＝L2σ(L1x)，所述L1、L2为线性变换层，所述σ为ReLU激活函数，所述xi为神经元i输入，所述Wi为神经元i权重。

8.根据权利要求4所述的控制方法，其特征在于，在所述步骤b3中，所述标签分类函数sigmoid通过如下公式计算：

所述x为神经元输入。

9.根据权利要求1所述的控制方法，其特征在于，在所述步骤c之后，还包括步骤：

10.根据权利要求9所述的控制方法，其特征在于，所述优化损失函数通过如下公式实现：

11.一种基于LSTM实现医学语义归一化的控制装置，其通过深度神经网络实现医学语义归一化，其特征在于，包括：

12.根据权利要求11所述的控制装置，其特征在于，在所述第一获取装置之前，还包括第二处理装置：对所述医学语义进行数据筛选以及数据清洗。

13.根据权利要求12所述的控制装置，其特征在于，所述第一获取装置包括：

第三处理装置：将词向量序列中长度超出部分截断；

第四处理装置：将词向量序列中长度不足部分用空白补足。

14.根据权利要求11所述的控制装置，其特征在于，所述第一确定装置包括：

15.根据权利要求14所述的控制装置，其特征在于，所述第五处理装置包括：将所述词向量序列作为Bidirectional LSTM的输入，Bidirectional LSTM分别以正向时序和反向时序处理输入的词向量序列，并将两个处理结果经过一层单向LSTM输出词序列最后一个包含整个短语的特征输出链接到同一个隐藏输出层。

16.根据权利要求15所述的控制装置，其特征在于，在所述第一处理装置之后，还包括：