CN116882496B

CN116882496B - 一种多级逻辑推理的医学知识库构建方法

Info

Publication number: CN116882496B
Application number: CN202311150596.9A
Authority: CN
Inventors: 冯嵩; 陈廷寅; 李云
Original assignee: Xiangya Hospital of Central South University
Current assignee: Xiangya Hospital of Central South University
Priority date: 2023-09-07
Filing date: 2023-09-07
Publication date: 2023-12-05
Anticipated expiration: 2043-09-07
Also published as: CN116882496A

Abstract

本发明涉及医学知识库构建的技术领域，公开了一种多级逻辑推理的医学知识库构建方法，所述方法包括：将预处理后的医学文本数据映射为字符向量，对医学文本数据中的潜在医学词汇进行编码，将潜在医学词汇的编码信息融入字符向量中，提取医学文本数据中字符序列的局部特征向量，构成多特征融合的医学文本特征向量序列数据；生成表征语义编码信息的全局语义信息矩阵，对全局语义信息矩阵进行解码操作并构建医学知识库。本发明以字符向量为基础，利用局部特征向量以及潜在医学词汇的编码信息将推理主体集中在特定的有效字符中，得到不同医学文本数据的语义编码信息，利用语义向量间的相似性进行不同医学文本数据的内部关联进而构建得到医学知识库。

Description

一种多级逻辑推理的医学知识库构建方法

技术领域

本发明涉及医学知识库构建的技术领域，尤其涉及一种多级逻辑推理的医学知识库构建方法。

背景技术

医学知识库是将医学期刊文献、医学指南、医学教材、药品说明书等可信的医学知识提炼以要点的形式向医生和医疗从业人员提供知识服务，是医生和医疗从业人员医疗、学习过程中使用较多的工具。但是当前没有适用于基层医生和基层医疗机构的医学知识库，对基层医生和基层医疗机构医疗服务能力的提升产生了不利影响。针对该问题，本发明提出一种多级逻辑推理的医学知识库构建方法，实现医学知识整合，构建医学知识系统学习策略。

发明内容

有鉴于此，本发明提供一种多级逻辑推理的医学知识库构建方法，目的在于：1）基于预训练语言模型生成医学文本数据的字符向量序列，并从医学文本数据中提取表征专业医学专有名词的潜在医学词汇，基于潜在医学词汇的出现频率确定信息权重，结合信息权重和独热编码结果生成潜在医学词汇的编码信息，并利用卷积神经网络提取医学文本数据中字符序列的字形结构信息，作为局部特征向量，将融入潜在医学词汇编码信息的字符向量与局部特征向量进行拼接，得到多特征融合的医学文本特征向量序列数据，实现不同角度的医学文本特征表示；2）根据多特征融合结果进行语义关系推理，在语义关系推理过程中，以字符向量为基础，利用局部特征向量以及潜在医学词汇的编码信息将推理主体集中在特定的有效字符中，构建得到医学文本特征向量序列数据的全局语义信息矩阵，通过对全局语义信息矩阵进行解码操作，得到不同医学文本数据的语义向量间相似性，利用语义向量间的相似性进行不同医学文本数据的内部关联，实现内部关联的医学文本数据之间的跳转，得到由潜在医学词汇、字形结构信息多级逻辑推理得到的医学知识内部关联关系，并构建得到基于医学知识内部关联关系的医学知识库。

实现上述目的，本发明提供的一种多级逻辑推理的医学知识库构建方法，包括以下步骤：

S1：采集医学文本数据并进行预处理，得到预处理后的医学文本数据；

S2：将预处理后的医学文本数据映射为固定维数的字符向量，对医学文本数据中的所有潜在医学词汇进行编码，将潜在医学词汇的编码信息融入字符向量中，并利用卷积神经网络提取医学文本数据中字符序列的局部特征向量；

S3：将融入潜在医学词汇编码信息的字符向量与局部特征向量进行拼接，得到多特征融合的医学文本特征向量序列数据；

S4：构建全局语义编码模型，生成医学文本特征向量序列数据的全局语义信息矩阵，所述全局语义编码模型以构建得到的多特征融合的医学文本特征向量序列数据为输入，以全局语义信息矩阵为输出；

S5：对全局语义信息矩阵进行解码操作，得到不同医学文本数据的语义向量间相似性，利用语义向量间的相似性进行不同医学文本数据的内部关联，构建得到医学知识库。

作为本发明的进一步改进方法：

可选地，所述S1步骤中采集医学文本数据，包括：

采集N组医学文本数据，其中每组医学文本数据包括病症描述、治疗方案、治疗药物信息以及其他补充信息，所采集N组医学文本数据的集合表示为：

；

其中：

表示所采集的第n组医学文本数据，表示医学文本数据中的病症描述文本数据，表示医学文本数据中的治疗方案文本数据，表示医学文本数据中的治疗药物信息文本数据，表示医学文本数据中的其他补充信息文本数据。

在本发明实施例中，每组医学文本数据对应一种疾病的描述信息，病症描述包括疾病的定义、病因、临床表现、相关病症、治疗方法、推荐医院、预防措施、禁忌、严重性以及传染性，治疗方案包括治疗方法描述、疗效、化验/体检方案以及正常指标，治疗药物信息包括药物作用、药物成分、药物禁忌、用法以及副作用，其他补充信息包括治疗后的调养流程等等。

可选地，所述S1步骤中对医学文本数据进行预处理，包括：

对所采集的医学文本数据进行预处理，其中医学文本数据的预处理流程为：

利用预构建的潜在医学词汇词典对任意一组医学文本数据进行潜在医学词汇匹配，将匹配成功的潜在医学词汇在医学文本数据中进行标注，其中潜在医学词汇匹配流程为：

对于医学文本数据中的任意一句文本，截取前s个文本字符与潜在医学词汇词典中的潜在医学词汇进行比对，若比对不成功，则截取前s-1个文本字符与潜在医学词汇词典中的潜在医学词汇进行比对，依此类推，直到比对成功或待比对文本字符仅剩一个文本字符，将比对成功的连续文本字符作为匹配成功的潜在医学词汇，并在该句文本中删去前s个文本字符，重新进行潜在医学词汇匹配；

提取医学文本数据中每个字符的偏旁，并统计每个偏旁出现的频率。

可选地，所述S2步骤中将预处理后的医学文本数据映射为固定维数的字符向量，对医学文本数据中的所有潜在医学词汇进行编码，包括：

将预处理后的医学文本数据映射为固定维数的字符向量，并对医学文本数据中的所有潜在医学词汇进行编码，其中字符向量的映射流程以及潜在医学词汇的编码流程为：

获取大规模医学知识文本数据作为语料库，采用Word2Vec模型进行训练，训练得到Word2Vec预训练语言模型，将任意一组医学文本数据输入到Word2Vec预训练语言模型中，得到医学文本数据对应的字符向量，其中医学文本数据对应的字符向量为：

；

其中：

表示医学文本数据对应的字符向量；

表示医学文本数据中第个文本字符的映射结果，映射结果的维数均为128维，表示医学文本数据中的文本字符总数；

对于任意潜在医学词汇word，计算其信息权重：

；

其中：

表示潜在医学词汇word的信息权重；

表示潜在医学词汇word出现的频率，表示N组医学文本数据中潜在医学词汇出现的总数，表示潜在医学词汇word在N组医学文本数据中出现的次数；

对潜在医学词汇进行独热编码，并基于信息权重对独热编码结果进行加权表示，得到潜在医学词汇的编码结果，其中潜在医学词汇word的编码结果为：

；

其中：

表示潜在医学词汇word的编码结果，为独热编码方式，为潜在医学词汇word的独热编码结果。

可选地，所述S2步骤中将潜在医学词汇的编码信息融入字符向量中，并利用卷积神经网络提取医学文本数据中字符序列的局部特征向量，包括：

将潜在医学词汇的编码信息融入字符向量中，其中医学文本数据所对应字符向量的潜在医学词汇编码信息的融入结果为：

；

其中：

表示医学文本数据中第个文本字符所组成潜在医学词汇的编码结果，若医学文本数据中第个文本字符不组成潜在医学词汇，则用特殊符号dec对进行表示；

利用卷积神经网络提取医学文本数据中字符序列的局部特征向量，其中医学文本数据的局部特征向量提取流程为：

S21：将医学文本数据中的任意第j个字符的偏旁进行独热编码表示，得到字符的偏旁编码结果，；

S22：利用卷积神经网络中的卷积核提取字符的字形结构信息：

；

其中：

表示字符的字形结构信息；

表示非线性函数，将其设置为Sigmoid函数；

H表示卷积核；

表示内积运算；

b表示偏置参数；

S23：构成医学文本数据的局部特征向量：

；

其中：

表示医学文本数据的局部特征向量。

可选地，所述S3步骤中将融入潜在医学词汇编码信息的字符向量与局部特征向量进行拼接，包括：

将融入潜在医学词汇编码信息的字符向量与局部特征向量进行拼接，得到多特征融合的医学文本特征向量序列数据，其中医学文本数据对应的多特征融合的医学文本特征向量序列数据为：

；

其中：

表示医学文本数据对应的多特征融合的医学文本特征向量序列数据。

可选地，所述S4步骤中利用所构建的全局语义编码模型生成医学文本特征向量序列数据的全局语义信息矩阵，包括：

构建全局语义编码模型，所述全局语义编码模型以构建得到的多特征融合的医学文本特征向量序列数据为输入，以全局语义信息矩阵为输出，其中全局语义编码模型包括输入层、编码层以及输出层，输入层用于接收N组医学文本特征向量序列数据，编码层用于对每组医学文本特征向量序列数据进行加权语义编码处理，生成医学文本特征向量序列数据的语义编码信息，输出层用于将每组医学文本特征向量序列数据的语义编码信息构成全局语义信息矩阵；

利用所构建的全局语义编码模型生成医学文本特征向量序列数据的全局语义信息矩阵，其中全局语义信息矩阵的生成流程为：

S41：输入层接收N组医学文本特征向量序列数据；

S42：编码层对每组医学文本特征向量序列数据进行加权语义编码处理，其中第n组医学文本特征向量序列数据的加权语义编码处理公式为：

；

其中：

分别表示字符向量、局部特征向量以及潜在医学词汇编码向量的映射权重矩阵；

表示第n组医学文本特征向量序列数据中局部特征向量的加权语义，表示第n组医学文本特征向量序列数据中潜在医学词汇编码向量的加权语义；

表示医学文本数据中的偏旁集合，表示偏旁u在所有医学文本数据中出现的频率；

表示医学文本数据中的潜在医学词汇集合，表示潜在医学词汇h在所有潜在医学词汇中出现的频率，，表示N组医学文本数据中潜在医学词汇出现的总数，表示潜在医学词汇u在N组医学文本数据中出现的次数；

表示医学文本数据的潜在医学词汇编码向量；

表示第n组医学文本特征向量序列数据的编码处理结果，即第n组医学文本特征向量序列数据的语义编码信息；

S43：输出层将N组医学文本特征向量序列数据的构成全局语义信息矩阵：

；

其中：C表示全局语义信息矩阵。

可选地，所述S5步骤中对全局语义信息矩阵进行解码操作，得到不同医学文本数据的语义向量间相似性，包括：

对全局语义信息矩阵进行解码操作，得到不同医学文本数据的语义向量间相似性，其中全局语义信息矩阵的解码流程为：

计算全局语义信息矩阵中每组语义编码信息的语义评分，其中的语义评分计算结果为：

；

其中：

表示的维数；表示的语义评分结果；

对于全局语义信息矩阵中语义评分结果高于阈值的语义编码信息，计算与其他语义编码信息的语义向量间相似性，若高于阈值，则与任意语义编码信息的语义向量间相似性的计算公式为：

；

其中：

表示之间的余弦相似度；表示与语义编码信息的语义向量间相似性。

可选地，所述S5步骤中利用语义向量间的相似性进行不同医学文本数据的内部关联，构建得到医学知识库，包括：

对于任意语义评分结果高于阈值的语义编码信息，计算语义编码信息与全局语义信息矩阵中其他语义编码信息的语义向量间相似性，语义向量间相似性高于预设的相似阈值，则建立两个语义编码信息所对应医学文本数据的内部关联，进而构建得到医学知识库。在本发明实施例中，医学知识库中建立内部关联的两组医学文本数据，在查询其中任意一组医学文本数据时，会提供另一组医学文本数据的跳转链接。

为了解决上述问题，本发明提供一种电子设备，所述电子设备包括：

存储器，存储至少一个指令；

通信接口，实现电子设备通信；及处理器，执行所述存储器中存储的指令以实现上述所述的多级逻辑推理的医学知识库构建方法。

为了解决上述问题，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一个指令，所述至少一个指令被电子设备中的处理器执行以实现上述所述的多级逻辑推理的医学知识库构建方法。

相对于现有技术，本发明提出一种多级逻辑推理的医学知识库构建方法，该技术具有以下优势：

首先，本方案提出一种多种文本特征提取方法，通过将潜在医学词汇的编码信息融入字符向量中，其中医学文本数据所对应字符向量的潜在医学词汇编码信息的融入结果为：

；

其中：

表示医学文本数据中第个文本字符所组成潜在医学词汇的编码结果，若医学文本数据中第个文本字符不组成潜在医学词汇，则用特殊符号dec对进行表示；利用卷积神经网络提取医学文本数据中字符序列的局部特征向量，其中医学文本数据的局部特征向量提取流程为：将医学文本数据中的任意第j个字符的偏旁进行独热编码表示，得到字符的偏旁编码结果，；利用卷积神经网络中的卷积核提取字符的字形结构信息：

；

其中：

表示字符的字形结构信息；表示非线性函数，将其设置为Sigmoid函数；H表示卷积核；表示内积运算；b表示偏置参数；构成医学文本数据的局部特征向量：

；

其中：

表示医学文本数据的局部特征向量。将融入潜在医学词汇编码信息的字符向量与局部特征向量进行拼接，得到多特征融合的医学文本特征向量序列数据，其中医学文本数据对应的多特征融合的医学文本特征向量序列数据为：

；

其中：

表示医学文本数据对应的多特征融合的医学文本特征向量序列数据。本方案基于预训练语言模型生成医学文本数据的字符向量序列，并从医学文本数据中提取表征专业医学专有名词的潜在医学词汇，基于潜在医学词汇的出现频率确定信息权重，结合信息权重和独热编码结果生成潜在医学词汇的编码信息，并利用卷积神经网络提取医学文本数据中字符序列的字形结构信息，作为局部特征向量，将融入潜在医学词汇编码信息的字符向量与局部特征向量进行拼接，得到多特征融合的医学文本特征向量序列数据，实现不同角度的医学文本特征表示。

同时，本方案提出一种基于语义关系推理的医学知识内部关联关系构建方法，通过构建全局语义编码模型，所述全局语义编码模型以构建得到的多特征融合的医学文本特征向量序列数据为输入，以全局语义信息矩阵为输出，其中全局语义编码模型包括输入层、编码层以及输出层，输入层用于接收N组医学文本特征向量序列数据，编码层用于对每组医学文本特征向量序列数据进行加权语义编码处理，生成医学文本特征向量序列数据的语义编码信息，输出层用于将每组医学文本特征向量序列数据的语义编码信息构成全局语义信息矩阵；利用所构建的全局语义编码模型生成医学文本特征向量序列数据的全局语义信息矩阵，其中全局语义信息矩阵的生成流程为：输入层接收N组医学文本特征向量序列数据；编码层对每组医学文本特征向量序列数据进行加权语义编码处理，其中第n组医学文本特征向量序列数据的加权语义编码处理公式为：

；

其中：

分别表示字符向量、局部特征向量以及潜在医学词汇编码向量的映射权重矩阵；表示第n组医学文本特征向量序列数据中局部特征向量的加权语义，表示第n组医学文本特征向量序列数据中潜在医学词汇编码向量的加权语义；表示医学文本数据中的偏旁集合，表示偏旁u在所有医学文本数据中出现的频率；表示医学文本数据中的潜在医学词汇集合，表示潜在医学词汇h在所有潜在医学词汇中出现的频率，，表示N组医学文本数据中潜在医学词汇出现的总数，表示潜在医学词汇u在N组医学文本数据中出现的次数；表示医学文本数据的潜在医学词汇编码向量；表示第n组医学文本特征向量序列数据的编码处理结果，即第n组医学文本特征向量序列数据的语义编码信息；输出层将N组医学文本特征向量序列数据的构成全局语义信息矩阵：

；

其中：

C表示全局语义信息矩阵。本方案根据多文本特征进行语义关系推理，在语义关系推理过程中，以字符向量为基础，利用局部特征向量以及潜在医学词汇的编码信息将推理主体集中在特定的有效字符中，构建得到医学文本特征向量序列数据的全局语义信息矩阵，通过对全局语义信息矩阵进行解码操作，得到不同医学文本数据的语义向量间相似性，利用语义向量间的相似性进行不同医学文本数据的内部关联，实现内部关联的医学文本数据之间的跳转，得到由潜在医学词汇、字形结构信息多级逻辑推理得到的医学知识内部关联关系，并构建得到基于医学知识内部关联关系的医学知识库。

附图说明

图1为本发明一实施例提供的一种多级逻辑推理的医学知识库构建方法的流程示意图；

图2为本发明一实施例提供的实现多级逻辑推理的医学知识库构建方法的电子设备的结构示意图；

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本申请实施例提供一种多级逻辑推理的医学知识库构建方法。所述多级逻辑推理的医学知识库构建方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之，所述多级逻辑推理的医学知识库构建方法可以由安装在终端设备或服务端设备的软件或硬件来执行，所述软件可以是区块链平台。所述服务端包括但不限于：单台服务器、服务器集群、云端服务器或云端服务器集群等。

实施例1

S1：采集医学文本数据并进行预处理，得到预处理后的医学文本数据。

所述S1步骤中采集医学文本数据，包括：

；

其中：

所述S1步骤中对医学文本数据进行预处理，包括：

S2：将预处理后的医学文本数据映射为固定维数的字符向量，对医学文本数据中的所有潜在医学词汇进行编码，将潜在医学词汇的编码信息融入字符向量中，并利用卷积神经网络提取医学文本数据中字符序列的局部特征向量。

所述S2步骤中将预处理后的医学文本数据映射为固定维数的字符向量，对医学文本数据中的所有潜在医学词汇进行编码，包括：

；

其中：

表示医学文本数据对应的字符向量；

对于任意潜在医学词汇word，计算其信息权重：

；

其中：

表示潜在医学词汇word的信息权重；表示潜在医学词汇word出现的频率，表示N组医学文本数据中潜在医学词汇出现的总数，表示潜在医学词汇word在N组医学文本数据中出现的次数；

；

其中：

所述S2步骤中将潜在医学词汇的编码信息融入字符向量中，并利用卷积神经网络提取医学文本数据中字符序列的局部特征向量，包括：

；

其中：

；

其中：

表示字符的字形结构信息；

表示非线性函数，将其设置为Sigmoid函数；

H表示卷积核；

表示内积运算；

b表示偏置参数；

S23：构成医学文本数据的局部特征向量：

；

其中：

表示医学文本数据的局部特征向量。

S3：将融入潜在医学词汇编码信息的字符向量与局部特征向量进行拼接，得到多特征融合的医学文本特征向量序列数据。

所述S3步骤中将融入潜在医学词汇编码信息的字符向量与局部特征向量进行拼接，包括：

；

其中：

S4：构建全局语义编码模型，生成医学文本特征向量序列数据的全局语义信息矩阵，所述全局语义编码模型以构建得到的多特征融合的医学文本特征向量序列数据为输入，以全局语义信息矩阵为输出。

所述S4步骤中利用所构建的全局语义编码模型生成医学文本特征向量序列数据的全局语义信息矩阵，包括：

S41：输入层接收N组医学文本特征向量序列数据；

；

其中：

表示第n组医学文本特征向量序列数据中局部特征向量的加权语义，

表示第n组医学文本特征向量序列数据中潜在医学词汇编码向量的加权语义；

表示医学文本数据的潜在医学词汇编码向量；

；

其中：

C表示全局语义信息矩阵。

所述S5步骤中对全局语义信息矩阵进行解码操作，得到不同医学文本数据的语义向量间相似性，包括：

；

其中：

表示的维数；表示的语义评分结果；

；

其中：

所述S5步骤中利用语义向量间的相似性进行不同医学文本数据的内部关联，构建得到医学知识库，包括：

对于任意语义评分结果高于阈值的语义编码信息，计算语义编码信息与全局语义信息矩阵中其他语义编码信息的语义向量间相似性，语义向量间相似性高于预设的相似阈值，则建立两个语义编码信息所对应医学文本数据的内部关联，进而构建得到医学知识库。

实施例2

如图2所示，是本发明一实施例提供的实现多级逻辑推理的医学知识库构建方法的电子设备的结构示意图。

所述电子设备1可以包括处理器10、存储器11、通信接口13和总线，还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序，如程序12。

其中，所述存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器（例如：SD或DX存储器等）、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备1的内部存储单元，例如该电子设备1的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备1的外部存储设备，例如电子设备1上配备的插接式移动硬盘、智能存储卡（Smart Media Card， SMC）、安全数字（SecureDigital， SD）卡、闪存卡（Flash Card）等。进一步地，所述存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据，例如程序12的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

所述处理器10在一些实施例中可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器（Central Processing unit，CPU）、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心（Control Unit），利用各种接口和线路连接整个电子设备的各个部件，通过运行或执行存储在所述存储器11内的程序或者模块（用于实现多级逻辑推理的医学知识库构建的程序12等），以及调用存储在所述存储器11内的数据，以执行电子设备1的各种功能和处理数据。

所述通信接口13可以包括有线接口和/或无线接口（如WI-FI接口、蓝牙接口等），通常用于在该电子设备1与其他电子设备之间建立通信连接，并实现电子设备内部组件之间的连接通信。

所述总线可以是外设部件互连标准（peripheral component interconnect，简称PCI）总线或扩展工业标准结构（extended industry standard architecture，简称EISA）总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。

图2仅示出了具有部件的电子设备，本领域技术人员可以理解的是，图2示出的结构并不构成对所述电子设备1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

例如，尽管未示出，所述电子设备1还可以包括给各个部件供电的电源（比如电池），优选地，电源可以通过电源管理装置与所述至少一个处理器10逻辑相连，从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等，在此不再赘述。

可选地，该电子设备1还可以包括用户接口，用户接口可以是显示器（Display）、输入单元（比如键盘（Keyboard）），可选地，用户接口还可以是标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED（Organic Light-Emitting Diode，有机发光二极管）触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。

应该了解，所述实施例仅为说明之用，在专利申请范围上并不受此结构的限制。

所述电子设备1中的所述存储器11存储的程序12是多个指令的组合，在所述处理器10中运行时，可以实现：

采集医学文本数据并进行预处理，得到预处理后的医学文本数据；

将预处理后的医学文本数据映射为固定维数的字符向量，对医学文本数据中的所有潜在医学词汇进行编码，将潜在医学词汇的编码信息融入字符向量中，并利用卷积神经网络提取医学文本数据中字符序列的局部特征向量；

将融入潜在医学词汇编码信息的字符向量与局部特征向量进行拼接，得到多特征融合的医学文本特征向量序列数据；

构建全局语义编码模型，生成医学文本特征向量序列数据的全局语义信息矩阵；

对全局语义信息矩阵进行解码操作，得到不同医学文本数据的语义向量间相似性，利用语义向量间的相似性进行不同医学文本数据的内部关联，构建得到医学知识库。

具体地，所述处理器10对上述指令的具体实现方法可参考图1至图2对应实施例中相关步骤的描述，在此不赘述。

需要说明的是，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种多级逻辑推理的医学知识库构建方法，其特征在于，所述方法包括：

利用所构建的全局语义编码模型生成医学文本特征向量序列数据的全局语义信息矩阵，包括：

S41：输入层接收N组医学文本特征向量序列数据；

；

其中：

表示医学文本数据的潜在医学词汇编码向量；

；

其中：

C表示全局语义信息矩阵；

2.如权利要求1所述的一种多级逻辑推理的医学知识库构建方法，其特征在于，所述S1步骤中采集医学文本数据，包括：

；

其中：

3.如权利要求2所述的一种多级逻辑推理的医学知识库构建方法，其特征在于，所述S1步骤中对医学文本数据进行预处理，包括：

4.如权利要求3所述的一种多级逻辑推理的医学知识库构建方法，其特征在于，所述S2步骤中将预处理后的医学文本数据映射为固定维数的字符向量，对医学文本数据中的所有潜在医学词汇进行编码，包括：

；

其中：

表示医学文本数据对应的字符向量；

对于任意潜在医学词汇word，计算其信息权重：

；

其中：

表示潜在医学词汇word的信息权重；

；

其中：

5.如权利要求4所述的一种多级逻辑推理的医学知识库构建方法，其特征在于，所述S2步骤中将潜在医学词汇的编码信息融入字符向量中，并利用卷积神经网络提取医学文本数据中字符序列的局部特征向量，包括：

；

其中：

；

其中：

表示字符的字形结构信息；

表示非线性函数，将其设置为Sigmoid函数；

H表示卷积核；

表示内积运算；

b表示偏置参数；

S23：构成医学文本数据的局部特征向量：

；

其中：

表示医学文本数据的局部特征向量。

6.如权利要求5所述的一种多级逻辑推理的医学知识库构建方法，其特征在于，所述S3步骤中将融入潜在医学词汇编码信息的字符向量与局部特征向量进行拼接，包括：

；

其中：

7.如权利要求1所述的一种多级逻辑推理的医学知识库构建方法，其特征在于，所述S5步骤中对全局语义信息矩阵进行解码操作，得到不同医学文本数据的语义向量间相似性，包括：

；

其中：

表示的维数；

表示的语义评分结果；

；

其中：

表示之间的余弦相似度；

表示与语义编码信息的语义向量间相似性。

8.如权利要求7所述的一种多级逻辑推理的医学知识库构建方法，其特征在于，所述S5步骤中利用语义向量间的相似性进行不同医学文本数据的内部关联，构建得到医学知识库，包括：