CN112712901A

CN112712901A - 基于语法量子长短时记忆模型及药物相互作用提取方法

Info

Publication number: CN112712901A
Application number: CN202110045922.4A
Authority: CN
Inventors: 张善文; 黄文准; 王旭启
Original assignee: Xijing University
Current assignee: Xijing University
Priority date: 2021-01-14
Filing date: 2021-01-14
Publication date: 2021-04-27

Abstract

本发明公开了基于语法量子长短时记忆模型及药物相互作用提取方法，属于模式识别与生物信息技术领域，本发明包括数据预处理、向量嵌入、特征提取和分类过程。其中，特征提取过程由语法量子长短时记忆模型和注意力机制实现，SQLSTM模型利用6个具有可调参数并经过迭代优化的量子电路VQC替代长短时记忆模型中的传统运算，该模型利用了量子计算替代传统数值计算，该模型比经典的长短时记忆模型更稳定、训练速度更快，并与注意力机制相结合进行药物相互作用特征提取，能够快速学习到更多药物相互作用信息，具有快速学习和高速处理DDI信息的能力，网络模型收敛快，能够使医务人员和病人快速准确了解所使用的药物之间的DDIs信息。

Description

基于语法量子长短时记忆模型及药物相互作用提取方法

技术领域

本发明属于模式识别与生物信息技术领域，具体涉及基于语法量子长短时记忆模型及药物相互作用提取方法。

背景技术

众所周知，很多病人特别是老年病人在药物治疗期间每天服用多种药物，而多种药物混合服用可能引起药物与药物相互作用(Drug-drug interactions,DDIs)。不良DDIs可能引起病人呕吐、头晕、眼花、瘙痒、耳鸣、过敏等情况，严重的不良DDIs可能导致病情恶化、病人休克、甚至死亡。例如，将阿司匹林与华法林等血液稀释剂同时服用会导致大量出血。不良DDIs严重危害着人类健康。据报道，我国每年有250万人因不良DDIs住院，住院患者中不良DDIs发生率约为20％，其中1/4由抗生素所致，20多万人死于用药不当或用药错误，并且随着新疾病和新药物的不断出现，不良DDIs逐年递增。如何帮助医务人员和病人快速准确地了解所使用的多种药物之间的DDIs信息已成为当前人工智能和生物信息领域的一个重要研究方向。尽管基于语法卷积神经网络(Syntax convolutional neural networks,SCNN)和基于长短时记忆网络(Long Short-Term Memory,LSTM)的DDI提取方法取得了较好的结果，但是SCNN和LSTM模型存在对算力要求高和训练时间长等不足。

发明内容

为了解决现有技术中的问题，本发明提供了基于语法量子长短时记忆模型及药物相互作用提取方法，具有快速学习和高速处理DDI信息的能力，网络模型收敛快，能够使医务人员和病人快速准确了解所使用的药物之间的DDIs信息。

为了实现以上目的，本发明提供了语法量子长短时记忆模型，包括输入层、向量嵌入层、语法量子LSTM层、注意力层和分类输出层，所述输入层用于从数据库中得到语料，并进行数据预处理；所述向量嵌入层用于进行向量嵌入，将所述输入层得到并预处理后的每个单词映射为词向量、实体类型向量和词性向量，并拼接为一个向量；所述语法量子LSTM层用于利用SQLSTM单元从所述向量嵌入层得到的向量中提取高级特征，所述SQLSTM单元包括6个变分量子电路VQC堆叠组成，每个变分量子电路VQC为所述SQLSTM单元的基本单元，所述SQLSTM单元的输入为前一个时间步长的隐藏状态与当前输入向量的连接，输出为每个VQC结束时测量到的四个向量，测量值为每个量子位的泡利-Z期望值，经泡利-Z操作一个量子比特，然后经过两个非线性激活函数σ和tanh得到，σ和tanh分别为sigmoid和双曲正切函数；所述注意力层用于产生权值向量，将所述语法量子LSTM层得到的高级特征中每个时间步长的词级特征与权值向量相乘，合并为一个句子级的特征向量；所述分类输出层用于将所述注意力层得到的句子级的特征向量输入分类器Softmax，进行DDIs分类识别。

进一步地，所述输入层的预处理包括负例过滤、实体替换和分词。

进一步地，所述预处理包括：首先依据语法、语义和词性规则对数据库中的实例进行预分类，排除预分类结果中的负例，平衡训练过程中所使用数据库的正负比例；然后将具体的词语统一替换为特殊的类别词语；最后通过文本信息标注工具GENIA tagger将数据库中的文本句子进行分词，将文献输入到文本信息标注工具GENIA tagger中，得到句子中每个词语的基础形式、词性标签、分块标签和命名实体标签。

进一步地，所述向量嵌入包括：

S1：使用词向量计算工具word2vec将句子中每个词表示为词向量，然后拼接，得到词级的句子向量表示，其中，词向量通过查找词向量表获得；

S2：实体类型向量被映射到与句子长度一致的实值矩阵中，通过统计实体类型的个数，随机初始化实体类型向量表，再从实体类型向量表中查找句子中每个词的实体类型向量；

S3：词性向量被映射到与句子长度一致的实值矩阵中，使用自然语言处理工具包Stanford CoreNLP识别句中每个词的词性，再统计词性类型数，将词的词性标签标记为词性类型，构建词性类型向量表，查找词性类型向量表获取句子中每个词的词性向量；

S4：拼接步骤S1、S2和S3分别得到的词向量、实体类型向量和词性向量，得到所述SQLSTM单元的输入。

进一步地，所述SQLSTM单元的数据处理过程包括：

S1：编码从所述向量嵌入层得到的向量的特征数据到N-量子态；

S2：经过编码的特征数据进行幺正量子操作；

S3：每个变分量子电路VQC的末尾为一个量子测量层，通过计算基础上的测量来考虑每个量子位的期望值。

进一步地，所述N-量子态表示为：

其中，

为每一基态与每一量子q_i∈{0,1}的复振幅；

的平方表示测量后状态

的测量概率，且

将初始状态

转换为无偏状态：

其中，i是标记对应位字符串的十进制数。

进一步地，所述幺正量子操作包括多个CNOT门和单量子位旋转门，CNOT门应用于每一对固定邻接1和2的量子位产生多量子位纠缠；单量子位旋转门{R_i＝R(α_i,β_i,γ_i)}在沿x,y和z轴方向的3个旋转角度{α_i,β_i,γ_i}事先不固定，在基于梯度下降法的迭代优化过程中进行更新。

进一步地，所述SQLSTM单元中，设v_t为前一个SQLSTM单元的隐藏状态h_t-1对其输入向量x_t在t时刻的输出，则一个SQLSTM单元的形式化数学表达式如下：

h_t＝VQC₅(o_t*tanh(c_t))，y_t＝VQC₆(o_t*tanh(c_t))

进一步地，所述注意力层中，设H为所述SQLSTM单元的输出向量[h₁,h₂,...,h_n]组成的矩阵，其中n是句子的长度，则句子的加权特征表示为r＝Ha^T，其中a＝softmax(w^TM),M＝tanh(H)，

d^w为向量的维数，w为训练参数，w、a和r的维数分别为d^w、n和d^w；则得到的分类特征向量为h^*＝tanh(r)。

本发明还提供了基于上述的语法量子长短时记忆模型的药物相互作用提取方法，包括以下步骤：

步骤1：在输入层从数据库中得到医疗语料，并进行数据预处理；

步骤2：在向量嵌入层将每个单词映射为词向量、实体类型向量和词性向量，并拼接为一个向量；

步骤3：在语法量子LSTM层，利用SQLSTM单元从步骤2中得到的向量中提取高级特征；

步骤4：利用注意力层产生一个权值向量，将每个时间步长的词级特征与权值向量相乘，合并为一个句子级的特征向量；

步骤5：在分类输出层，将步骤4得到的句子级的特征向量输入分类器Softmax，进行DDIs分类识别。

与现有技术相比，本发明包括数据预处理、向量嵌入、特征提取和分类过程。其中，特征提取过程由语法量子长短时记忆模型(Syntax Quantum Long Short-Term Memory,SQLSTM)和注意力机制实现，SQLSTM模型利用6个具有可调参数并经过迭代优化的量子电路VQC替代长短时记忆模型中的传统运算，该模型利用了量子计算替代传统数值计算，该模型比经典的长短时记忆模型更稳定、训练速度更快，并与注意力机制相结合进行药物相互作用特征提取，能够快速学习到更多药物相互作用信息。与基于SCNN和基于LSTM的DDI提取方法相比，本发明的特点为：具有快速学习和高速处理DDI信息的能力，网络模型收敛快，能够使医务人员和病人快速准确了解所使用的药物之间的DDIs信息，本发明为从医疗文献资料更准确获取药物相互作用信息提供了一个有力可靠的技术方案，为合理用药监测系统提供技术支撑。

附图说明

图1是本发明的提取方法流程图；

图2是本发明的SQLSTM单元结构图。

具体实施方式

下面结合说明书附图和具体的实施例对本发明作进一步地解释说明，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本发明一方面提出了语法量子长短时记忆模型，包括输入层、向量嵌入层、语法量子LSTM层、注意力层和分类输出层，输入层用于从数据库中得到语料，并进行数据预处理；向量嵌入层用于进行向量嵌入，将输入层得到并预处理后的每个单词映射为词向量、实体类型向量和词性向量，并拼接为一个向量；语法量子LSTM层用于利用SQLSTM单元从向量嵌入层得到的向量中提取高级特征，参见图2，SQLSTM单元包括6个变分量子电路VQC堆叠组成，每个变分量子电路VQC为SQLSTM单元的基本单元，SQLSTM单元的输入为前一个时间步长的隐藏状态与当前输入向量的连接，输出为每个VQC结束时测量到的四个向量，测量值为每个量子位的泡利-Z期望值，经泡利-Z操作一个量子比特，然后经过两个非线性激活函数σ和tanh得到，σ和tanh分别为sigmoid和双曲正切函数，x_t是在时间t的输入，h_t是隐藏状态，c_t是单元格状态，y_t是输出，

和

分别表示数据元素的乘法和加法；注意力层用于产生权值向量，将语法量子LSTM层得到的高级特征中每个时间步长的词级特征与权值向量相乘，合并为一个句子级的特征向量；分类输出层用于将注意力层得到的句子级的特征向量输入分类器进行分类识别。

输入层的预处理包括负例过滤、实体替换和分词，预处理具体包括：首先依据语法、语义和词性规则对数据库中的实例进行预分类，排除预分类结果中的负例，平衡训练过程中所使用数据库的正负比例；然后将具体的词语统一替换为特殊的类别词语；最后通过文本信息标注工具GENIA tagger将数据库中的文本句子进行分词，将文献输入到文本信息标注工具GENIA tagger中，得到句子中每个词语的基础形式、词性标签、分块标签和命名实体标签。

向量嵌入具体包括：

S4：拼接步骤S1、S2和S3分别得到的词向量、实体类型向量和词性向量，得到SQLSTM单元的输入。

SQLSTM单元的数据处理过程包括：

S1：编码从向量嵌入层得到的向量的特征数据到N-量子态；

N-量子态表示为：

其中，

为每一基态与每一量子q_i∈{0,1}的复振幅；

的平方表示测量后状态

的测量概率，且

将初始状态

转换为无偏状态：

其中，i是标记对应位字符串的十进制数；

S2：经过编码的特征数据进行幺正量子操作；

幺正量子操作包括多个CNOT门和单量子位旋转门，CNOT门应用于每一对固定邻接1和2的量子位产生多量子位纠缠；单量子位旋转门{R_i＝R(α_i,β_i,γ_i)}在沿x,y和z轴方向的3个旋转角度{α_i,β_i,γ_i}事先不固定，在基于梯度下降法的迭代优化过程中进行更新；

S3：每个变分量子电路VQC的末尾为一个量子测量层，通过计算基础上的测量来考虑每个量子位的期望值。设v_t为前一个SQLSTM单元的隐藏状态h_t-1对其输入向量x_t在t时刻的输出，则一个SQLSTM单元的形式化数学表达式如下：

h_t＝VQC₅(o_t*tanh(c_t))，y_t＝VQC₆(o_t*tanh(c_t))

注意力层中，设H为所述SQLSTM单元的输出向量[h₁,h₂,...,h_n]组成的矩阵，其中n是句子的长度，则句子的加权特征表示为r＝Ha^T，其中a＝softmax(w^TM),M＝tanh(H)，

本发明另一方面还提供了基于上述语法量子长短时记忆模型的药物相互作用提取方法，参见图1，包括如下步骤：S1：数据预处理过程，包括负例过滤、实体替换和分词；S2：向量嵌入过程，包括词向量嵌入、实体类型向量嵌入和词性向量嵌入；S3：特征提取过程，由语法量子长短时记忆模型(SQLSTM)和注意力机制相结合提取句子的高层次分类特征；S4利用Softmax分类器进行药物相互作用类型识别。

具体包括以下步骤：

步骤1：在输入层从数据库中得到医疗语料，并进行数据预处理，数据预处理过程包括负例过滤、实体替换和分词。首先采用过滤算法依据一些明显的语法、语义和词性规则对数据集中的实例进行预分类，排除预分类结果中的负例，平衡训练过程中所使用数据集的正负比例，然后将具体的药物词语统一替换为特殊的几类词语，再通过生物医学领域的文本信息标注工具GENIA tagger将数据集中的文本句子进行分词。将生物医学文献输入到GENIA tagger中，得到句子中每个词语的基础形式、词性标签、分块标签和命名实体标签。

步骤2：在向量嵌入层中，将每个单词映射为词向量、实体类型向量和词性向量，并拼接为一个向量，具体包括以下步骤：

步骤2.1：使用词向量计算工具word2vec将句子中每个词表示为词向量，然后拼接，得到词级的句子向量表示。其中，词向量通过查找词向量表获得。

步骤2.2：实体类型向量被映射到与句子长度一致的实值矩阵中。通过统计实体类型的个数，随机初始化实体类型向量表，再从该表中查找句子中每个词的实体类型向量。

步骤2.3：词性向量被映射到与句子长度一致的实值矩阵中。使用自然语言处理工具包Stanford CoreNLP识别句中每个词的词性，再统计词性类型数，将词的词性标签标记为词性类型。构建词性类型向量表，查找该表获取句子中每个词的词性向量。

步骤2.4：拼接步骤2.1、步骤2.2和步骤2.3分别得到的词向量、实体类型向量和词性向量，得到SQLSTM的输入。

步骤3：在特征提取中，语法量子LSTM层利用SQLSTM从步骤2中得到的向量中提取高级特征。如图2，SQLSTM与LSTM类似，SQLSTM由6个VQC堆叠组成，VQC为SQLSTM的基本单元，第i个VQC表示为VQC_i。输入是前一个时间步长的隐藏状态与当前输入向量的连接，输出为每个VQC结束时的测量得到的四个向量。测量值是每个量子位的泡利-Z期望值，泡利-Z操作一个量子比特。然后经过非线性激活函数σ和tanh。SQLSTM的数据处理过程具体包括以下步骤：

步骤3.1：编码步骤2.4提取的特征数据到量子态。一般的N-量子态表示为：

其中

为每一基态与每一量子q_i∈{0,1}的复振幅，

的平方表示测量后状态

的测量概率，且

将初始状态

转换为无偏状态：

其中，i是标记计算基础的对应位字符串的十进制数。

步骤3.2：经过编码的数据现在为一个量子态，然后经过一系列的幺正量子操作。这些量子操作由几个CNOT门和单量子位旋转门组成。CNOT门应用于每一对固定邻接1和2的量子位产生多量子位纠缠。单量子位旋转门{R_i＝R(α_i,β_i,γ_i)}在3个沿x,y和z轴方向的旋转角度{α_i,β_i,γ_i}事先不固定，而是在基于梯度下降法的迭代优化过程中进行更新。

步骤3.3：每个变分量子电路(VQC)块的末尾是一个量子测量层。通过测量考虑每个量子位的期望值。在提出的SQLSTM中，来自每个VQC的测量值将在一个SQLSTM单元中处理。

设v_t为前一个SQLSTM单元的隐藏状态h_t-1对其输入向量x_t的输出，则一个SQLSTM单元的形式化数学表达式如下：

h_t＝VQC₅(o_t*tanh(c_t))，y_t＝VQC₆(o_t*tanh(c_t))

步骤4：利用注意力层产生一个权值向量，将每个时间步长的词级特征与权值向量相乘，合并为一个句子级的特征向量。设H为SQLSTM的输出向量[h₁,h₂,...,h_n]组成的矩阵，其中n是句子的长度，则句子的加权特征表示为r＝Ha^T，其中a＝softmax(w^TM),M＝tanh(H)，

d^w为向量的维数，w为训练参数，w、a和r的维数分别为d^w、n和d^w。

则得到的分类特征向量为h^*＝tanh(r)。

步骤5：在分类输出层将步骤4得到的句子级的特征向量输入分类器Softmax，进行DDIs分类。

本发明SQLSTM模型利用6个具有可调参数并经过迭代优化的量子电路VQC替代长短时记忆模型中的传统运算，与基于SCNN和基于LSTM的DDI提取方法相比，具有快速学习和高速处理DDI信息的能力，网络模型收敛快；并与注意力机制相结合进行药物相互作用特征提取，能够使医务人员和病人快速准确了解所使用的药物之间的DDIs信息，为从医疗文献资料更准确获取药物相互作用信息提供了一个有力可靠的技术方案，为合理用药监测系统提供技术支撑。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

Claims

1.语法量子长短时记忆模型，其特征在于，包括输入层、向量嵌入层、语法量子LSTM层、注意力层和分类输出层，所述输入层用于从数据库中得到语料，并进行数据预处理；所述向量嵌入层用于进行向量嵌入，将所述输入层得到并预处理后的每个单词映射为词向量、实体类型向量和词性向量，并拼接为一个向量；所述语法量子LSTM层用于利用SQLSTM单元从所述向量嵌入层得到的向量中提取高级特征，所述SQLSTM单元包括6个变分量子电路VQC堆叠组成，每个变分量子电路VQC为所述SQLSTM单元的基本单元，所述SQLSTM单元的输入为前一个时间步长的隐藏状态与当前输入向量的连接，输出为每个VQC结束时测量到的四个向量，测量值为每个量子位的泡利-Z期望值，经泡利-Z操作一个量子比特，然后经过两个非线性激活函数σ和tanh得到，σ和tanh分别为sigmoid和双曲正切函数；所述注意力层用于产生权值向量，将所述语法量子LSTM层得到的高级特征中每个时间步长的词级特征与权值向量相乘，合并为一个句子级的特征向量；所述分类输出层用于将所述注意力层得到的句子级的特征向量输入分类器Softmax，进行DDIs分类识别。

2.根据权利要求1所述的语法量子长短时记忆模型，其特征在于，所述输入层的预处理包括负例过滤、实体替换和分词。

3.根据权利要求2所述的语法量子长短时记忆模型，其特征在于，所述预处理包括：首先依据语法、语义和词性规则对数据库中的实例进行预分类，排除预分类结果中的负例，平衡训练过程中所使用数据库的正负比例；然后将具体的词语统一替换为特殊的类别词语；最后通过文本信息标注工具GENIA tagger将数据库中的文本句子进行分词，将文献输入到文本信息标注工具GENIA tagger中，得到句子中每个词语的基础形式、词性标签、分块标签和命名实体标签。

4.根据权利要求1所述的语法量子长短时记忆模型，其特征在于，所述向量嵌入包括：

5.根据权利要求1所述的语法量子长短时记忆模型，其特征在于，所述SQLSTM单元的数据处理过程包括：

S2：经过编码的特征数据进行幺正量子操作；

6.根据权利要求5所述的语法量子长短时记忆模型，其特征在于，所述N-量子态表示为：

其中，

为每一基态与每一量子q_i∈{0,1}的复振幅；

的平方表示测量后状态

的测量概率，且

将初始状态

转换为无偏状态：

其中，i是标记对应位字符串的十进制数。

7.根据权利要求5所述的语法量子长短时记忆模型，其特征在于，所述幺正量子操作包括多个CNOT门和单量子位旋转门，CNOT门应用于每一对固定邻接1和2的量子位产生多量子位纠缠；单量子位旋转门{R_i＝R(α_i,β_i,γ_i)}在沿x,y和z轴方向的3个旋转角度{α_i,β_i,γ_i}事先不固定，在基于梯度下降法的迭代优化过程中进行更新。

8.根据权利要求5所述的语法量子长短时记忆模型，其特征在于，所述SQLSTM单元中，设v_t为前一个SQLSTM单元的隐藏状态h_t-1对其输入向量x_t在t时刻的输出，则一个SQLSTM单元的形式化数学表达式如下：

9.根据权利要求1所述的语法量子长短时记忆模型，其特征在于，所述注意力层中，设H为所述SQLSTM单元的输出向量[h₁,h₂,...,h_n]组成的矩阵，其中n是句子的长度，则句子的加权特征表示为r＝Ha^T，其中a＝softmax(w^TM),M＝tanh(H)，

10.基于权利要求1至9中任一项所述的语法量子长短时记忆模型的药物相互作用提取方法，其特征在于，包括以下步骤：