CN112712901A - 基于语法量子长短时记忆模型及药物相互作用提取方法 - Google Patents

基于语法量子长短时记忆模型及药物相互作用提取方法 Download PDF

Info

Publication number
CN112712901A
CN112712901A CN202110045922.4A CN202110045922A CN112712901A CN 112712901 A CN112712901 A CN 112712901A CN 202110045922 A CN202110045922 A CN 202110045922A CN 112712901 A CN112712901 A CN 112712901A
Authority
CN
China
Prior art keywords
vector
quantum
word
layer
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110045922.4A
Other languages
English (en)
Inventor
张善文
黄文准
王旭启
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xijing University
Original Assignee
Xijing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xijing University filed Critical Xijing University
Priority to CN202110045922.4A priority Critical patent/CN112712901A/zh
Publication of CN112712901A publication Critical patent/CN112712901A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/40ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Public Health (AREA)
  • Databases & Information Systems (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Toxicology (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Medicinal Chemistry (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于语法量子长短时记忆模型及药物相互作用提取方法,属于模式识别与生物信息技术领域,本发明包括数据预处理、向量嵌入、特征提取和分类过程。其中,特征提取过程由语法量子长短时记忆模型和注意力机制实现,SQLSTM模型利用6个具有可调参数并经过迭代优化的量子电路VQC替代长短时记忆模型中的传统运算,该模型利用了量子计算替代传统数值计算,该模型比经典的长短时记忆模型更稳定、训练速度更快,并与注意力机制相结合进行药物相互作用特征提取,能够快速学习到更多药物相互作用信息,具有快速学习和高速处理DDI信息的能力,网络模型收敛快,能够使医务人员和病人快速准确了解所使用的药物之间的DDIs信息。

Description

基于语法量子长短时记忆模型及药物相互作用提取方法
技术领域
本发明属于模式识别与生物信息技术领域,具体涉及基于语法量子长短时记忆模型及药物相互作用提取方法。
背景技术
众所周知,很多病人特别是老年病人在药物治疗期间每天服用多种药物,而多种药物混合服用可能引起药物与药物相互作用(Drug-drug interactions,DDIs)。不良DDIs可能引起病人呕吐、头晕、眼花、瘙痒、耳鸣、过敏等情况,严重的不良DDIs可能导致病情恶化、病人休克、甚至死亡。例如,将阿司匹林与华法林等血液稀释剂同时服用会导致大量出血。不良DDIs严重危害着人类健康。据报道,我国每年有250万人因不良DDIs住院,住院患者中不良DDIs发生率约为20%,其中1/4由抗生素所致,20多万人死于用药不当或用药错误,并且随着新疾病和新药物的不断出现,不良DDIs逐年递增。如何帮助医务人员和病人快速准确地了解所使用的多种药物之间的DDIs信息已成为当前人工智能和生物信息领域的一个重要研究方向。尽管基于语法卷积神经网络(Syntax convolutional neural networks,SCNN)和基于长短时记忆网络(Long Short-Term Memory,LSTM)的DDI提取方法取得了较好的结果,但是SCNN和LSTM模型存在对算力要求高和训练时间长等不足。
发明内容
为了解决现有技术中的问题,本发明提供了基于语法量子长短时记忆模型及药物相互作用提取方法,具有快速学习和高速处理DDI信息的能力,网络模型收敛快,能够使医务人员和病人快速准确了解所使用的药物之间的DDIs信息。
为了实现以上目的,本发明提供了语法量子长短时记忆模型,包括输入层、向量嵌入层、语法量子LSTM层、注意力层和分类输出层,所述输入层用于从数据库中得到语料,并进行数据预处理;所述向量嵌入层用于进行向量嵌入,将所述输入层得到并预处理后的每个单词映射为词向量、实体类型向量和词性向量,并拼接为一个向量;所述语法量子LSTM层用于利用SQLSTM单元从所述向量嵌入层得到的向量中提取高级特征,所述SQLSTM单元包括6个变分量子电路VQC堆叠组成,每个变分量子电路VQC为所述SQLSTM单元的基本单元,所述SQLSTM单元的输入为前一个时间步长的隐藏状态与当前输入向量的连接,输出为每个VQC结束时测量到的四个向量,测量值为每个量子位的泡利-Z期望值,经泡利-Z操作一个量子比特,然后经过两个非线性激活函数σ和tanh得到,σ和tanh分别为sigmoid和双曲正切函数;所述注意力层用于产生权值向量,将所述语法量子LSTM层得到的高级特征中每个时间步长的词级特征与权值向量相乘,合并为一个句子级的特征向量;所述分类输出层用于将所述注意力层得到的句子级的特征向量输入分类器Softmax,进行DDIs分类识别。
进一步地,所述输入层的预处理包括负例过滤、实体替换和分词。
进一步地,所述预处理包括:首先依据语法、语义和词性规则对数据库中的实例进行预分类,排除预分类结果中的负例,平衡训练过程中所使用数据库的正负比例;然后将具体的词语统一替换为特殊的类别词语;最后通过文本信息标注工具GENIA tagger将数据库中的文本句子进行分词,将文献输入到文本信息标注工具GENIA tagger中,得到句子中每个词语的基础形式、词性标签、分块标签和命名实体标签。
进一步地,所述向量嵌入包括:
S1:使用词向量计算工具word2vec将句子中每个词表示为词向量,然后拼接,得到词级的句子向量表示,其中,词向量通过查找词向量表获得;
S2:实体类型向量被映射到与句子长度一致的实值矩阵中,通过统计实体类型的个数,随机初始化实体类型向量表,再从实体类型向量表中查找句子中每个词的实体类型向量;
S3:词性向量被映射到与句子长度一致的实值矩阵中,使用自然语言处理工具包Stanford CoreNLP识别句中每个词的词性,再统计词性类型数,将词的词性标签标记为词性类型,构建词性类型向量表,查找词性类型向量表获取句子中每个词的词性向量;
S4:拼接步骤S1、S2和S3分别得到的词向量、实体类型向量和词性向量,得到所述SQLSTM单元的输入。
进一步地,所述SQLSTM单元的数据处理过程包括:
S1:编码从所述向量嵌入层得到的向量的特征数据到N-量子态;
S2:经过编码的特征数据进行幺正量子操作;
S3:每个变分量子电路VQC的末尾为一个量子测量层,通过计算基础上的测量来考虑每个量子位的期望值。
进一步地,所述N-量子态表示为:
Figure BDA0002897303600000031
其中,
Figure BDA0002897303600000032
为每一基态与每一量子qi∈{0,1}的复振幅;
Figure BDA0002897303600000033
的平方表示测量后状态
Figure BDA0002897303600000034
的测量概率,且
Figure BDA0002897303600000035
将初始状态
Figure BDA0002897303600000036
转换为无偏状态:
Figure BDA0002897303600000037
其中,i是标记对应位字符串的十进制数。
进一步地,所述幺正量子操作包括多个CNOT门和单量子位旋转门,CNOT门应用于每一对固定邻接1和2的量子位产生多量子位纠缠;单量子位旋转门{Ri=R(αiii)}在沿x,y和z轴方向的3个旋转角度{αiii}事先不固定,在基于梯度下降法的迭代优化过程中进行更新。
进一步地,所述SQLSTM单元中,设vt为前一个SQLSTM单元的隐藏状态ht-1对其输入向量xt在t时刻的输出,则一个SQLSTM单元的形式化数学表达式如下:
Figure BDA0002897303600000041
Figure BDA0002897303600000042
ht=VQC5(ot*tanh(ct)),yt=VQC6(ot*tanh(ct))
进一步地,所述注意力层中,设H为所述SQLSTM单元的输出向量[h1,h2,...,hn]组成的矩阵,其中n是句子的长度,则句子的加权特征表示为r=HaT,其中a=softmax(wTM),M=tanh(H),
Figure BDA0002897303600000043
dw为向量的维数,w为训练参数,w、a和r的维数分别为dw、n和dw;则得到的分类特征向量为h*=tanh(r)。
本发明还提供了基于上述的语法量子长短时记忆模型的药物相互作用提取方法,包括以下步骤:
步骤1:在输入层从数据库中得到医疗语料,并进行数据预处理;
步骤2:在向量嵌入层将每个单词映射为词向量、实体类型向量和词性向量,并拼接为一个向量;
步骤3:在语法量子LSTM层,利用SQLSTM单元从步骤2中得到的向量中提取高级特征;
步骤4:利用注意力层产生一个权值向量,将每个时间步长的词级特征与权值向量相乘,合并为一个句子级的特征向量;
步骤5:在分类输出层,将步骤4得到的句子级的特征向量输入分类器Softmax,进行DDIs分类识别。
与现有技术相比,本发明包括数据预处理、向量嵌入、特征提取和分类过程。其中,特征提取过程由语法量子长短时记忆模型(Syntax Quantum Long Short-Term Memory,SQLSTM)和注意力机制实现,SQLSTM模型利用6个具有可调参数并经过迭代优化的量子电路VQC替代长短时记忆模型中的传统运算,该模型利用了量子计算替代传统数值计算,该模型比经典的长短时记忆模型更稳定、训练速度更快,并与注意力机制相结合进行药物相互作用特征提取,能够快速学习到更多药物相互作用信息。与基于SCNN和基于LSTM的DDI提取方法相比,本发明的特点为:具有快速学习和高速处理DDI信息的能力,网络模型收敛快,能够使医务人员和病人快速准确了解所使用的药物之间的DDIs信息,本发明为从医疗文献资料更准确获取药物相互作用信息提供了一个有力可靠的技术方案,为合理用药监测系统提供技术支撑。
附图说明
图1是本发明的提取方法流程图;
图2是本发明的SQLSTM单元结构图。
具体实施方式
下面结合说明书附图和具体的实施例对本发明作进一步地解释说明,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本发明一方面提出了语法量子长短时记忆模型,包括输入层、向量嵌入层、语法量子LSTM层、注意力层和分类输出层,输入层用于从数据库中得到语料,并进行数据预处理;向量嵌入层用于进行向量嵌入,将输入层得到并预处理后的每个单词映射为词向量、实体类型向量和词性向量,并拼接为一个向量;语法量子LSTM层用于利用SQLSTM单元从向量嵌入层得到的向量中提取高级特征,参见图2,SQLSTM单元包括6个变分量子电路VQC堆叠组成,每个变分量子电路VQC为SQLSTM单元的基本单元,SQLSTM单元的输入为前一个时间步长的隐藏状态与当前输入向量的连接,输出为每个VQC结束时测量到的四个向量,测量值为每个量子位的泡利-Z期望值,经泡利-Z操作一个量子比特,然后经过两个非线性激活函数σ和tanh得到,σ和tanh分别为sigmoid和双曲正切函数,xt是在时间t的输入,ht是隐藏状态,ct是单元格状态,yt是输出,
Figure BDA0002897303600000061
Figure BDA0002897303600000062
分别表示数据元素的乘法和加法;注意力层用于产生权值向量,将语法量子LSTM层得到的高级特征中每个时间步长的词级特征与权值向量相乘,合并为一个句子级的特征向量;分类输出层用于将注意力层得到的句子级的特征向量输入分类器进行分类识别。
输入层的预处理包括负例过滤、实体替换和分词,预处理具体包括:首先依据语法、语义和词性规则对数据库中的实例进行预分类,排除预分类结果中的负例,平衡训练过程中所使用数据库的正负比例;然后将具体的词语统一替换为特殊的类别词语;最后通过文本信息标注工具GENIA tagger将数据库中的文本句子进行分词,将文献输入到文本信息标注工具GENIA tagger中,得到句子中每个词语的基础形式、词性标签、分块标签和命名实体标签。
向量嵌入具体包括:
S1:使用词向量计算工具word2vec将句子中每个词表示为词向量,然后拼接,得到词级的句子向量表示,其中,词向量通过查找词向量表获得;
S2:实体类型向量被映射到与句子长度一致的实值矩阵中,通过统计实体类型的个数,随机初始化实体类型向量表,再从实体类型向量表中查找句子中每个词的实体类型向量;
S3:词性向量被映射到与句子长度一致的实值矩阵中,使用自然语言处理工具包Stanford CoreNLP识别句中每个词的词性,再统计词性类型数,将词的词性标签标记为词性类型,构建词性类型向量表,查找词性类型向量表获取句子中每个词的词性向量;
S4:拼接步骤S1、S2和S3分别得到的词向量、实体类型向量和词性向量,得到SQLSTM单元的输入。
SQLSTM单元的数据处理过程包括:
S1:编码从向量嵌入层得到的向量的特征数据到N-量子态;
N-量子态表示为:
Figure BDA0002897303600000071
其中,
Figure BDA0002897303600000072
为每一基态与每一量子qi∈{0,1}的复振幅;
Figure BDA0002897303600000073
的平方表示测量后状态
Figure BDA0002897303600000074
的测量概率,且
Figure BDA0002897303600000075
将初始状态
Figure BDA0002897303600000076
转换为无偏状态:
Figure BDA0002897303600000077
其中,i是标记对应位字符串的十进制数;
S2:经过编码的特征数据进行幺正量子操作;
幺正量子操作包括多个CNOT门和单量子位旋转门,CNOT门应用于每一对固定邻接1和2的量子位产生多量子位纠缠;单量子位旋转门{Ri=R(αiii)}在沿x,y和z轴方向的3个旋转角度{αiii}事先不固定,在基于梯度下降法的迭代优化过程中进行更新;
S3:每个变分量子电路VQC的末尾为一个量子测量层,通过计算基础上的测量来考虑每个量子位的期望值。设vt为前一个SQLSTM单元的隐藏状态ht-1对其输入向量xt在t时刻的输出,则一个SQLSTM单元的形式化数学表达式如下:
Figure BDA0002897303600000078
Figure BDA0002897303600000079
ht=VQC5(ot*tanh(ct)),yt=VQC6(ot*tanh(ct))
注意力层中,设H为所述SQLSTM单元的输出向量[h1,h2,...,hn]组成的矩阵,其中n是句子的长度,则句子的加权特征表示为r=HaT,其中a=softmax(wTM),M=tanh(H),
Figure BDA00028973036000000710
dw为向量的维数,w为训练参数,w、a和r的维数分别为dw、n和dw;则得到的分类特征向量为h*=tanh(r)。
本发明另一方面还提供了基于上述语法量子长短时记忆模型的药物相互作用提取方法,参见图1,包括如下步骤:S1:数据预处理过程,包括负例过滤、实体替换和分词;S2:向量嵌入过程,包括词向量嵌入、实体类型向量嵌入和词性向量嵌入;S3:特征提取过程,由语法量子长短时记忆模型(SQLSTM)和注意力机制相结合提取句子的高层次分类特征;S4利用Softmax分类器进行药物相互作用类型识别。
具体包括以下步骤:
步骤1:在输入层从数据库中得到医疗语料,并进行数据预处理,数据预处理过程包括负例过滤、实体替换和分词。首先采用过滤算法依据一些明显的语法、语义和词性规则对数据集中的实例进行预分类,排除预分类结果中的负例,平衡训练过程中所使用数据集的正负比例,然后将具体的药物词语统一替换为特殊的几类词语,再通过生物医学领域的文本信息标注工具GENIA tagger将数据集中的文本句子进行分词。将生物医学文献输入到GENIA tagger中,得到句子中每个词语的基础形式、词性标签、分块标签和命名实体标签。
步骤2:在向量嵌入层中,将每个单词映射为词向量、实体类型向量和词性向量,并拼接为一个向量,具体包括以下步骤:
步骤2.1:使用词向量计算工具word2vec将句子中每个词表示为词向量,然后拼接,得到词级的句子向量表示。其中,词向量通过查找词向量表获得。
步骤2.2:实体类型向量被映射到与句子长度一致的实值矩阵中。通过统计实体类型的个数,随机初始化实体类型向量表,再从该表中查找句子中每个词的实体类型向量。
步骤2.3:词性向量被映射到与句子长度一致的实值矩阵中。使用自然语言处理工具包Stanford CoreNLP识别句中每个词的词性,再统计词性类型数,将词的词性标签标记为词性类型。构建词性类型向量表,查找该表获取句子中每个词的词性向量。
步骤2.4:拼接步骤2.1、步骤2.2和步骤2.3分别得到的词向量、实体类型向量和词性向量,得到SQLSTM的输入。
步骤3:在特征提取中,语法量子LSTM层利用SQLSTM从步骤2中得到的向量中提取高级特征。如图2,SQLSTM与LSTM类似,SQLSTM由6个VQC堆叠组成,VQC为SQLSTM的基本单元,第i个VQC表示为VQCi。输入是前一个时间步长的隐藏状态与当前输入向量的连接,输出为每个VQC结束时的测量得到的四个向量。测量值是每个量子位的泡利-Z期望值,泡利-Z操作一个量子比特。然后经过非线性激活函数σ和tanh。SQLSTM的数据处理过程具体包括以下步骤:
步骤3.1:编码步骤2.4提取的特征数据到量子态。一般的N-量子态表示为:
Figure BDA0002897303600000091
其中
Figure BDA0002897303600000092
为每一基态与每一量子qi∈{0,1}的复振幅,
Figure BDA0002897303600000093
的平方表示测量后状态
Figure BDA0002897303600000094
的测量概率,且
Figure BDA0002897303600000095
将初始状态
Figure BDA0002897303600000096
转换为无偏状态:
Figure BDA0002897303600000097
其中,i是标记计算基础的对应位字符串的十进制数。
步骤3.2:经过编码的数据现在为一个量子态,然后经过一系列的幺正量子操作。这些量子操作由几个CNOT门和单量子位旋转门组成。CNOT门应用于每一对固定邻接1和2的量子位产生多量子位纠缠。单量子位旋转门{Ri=R(αiii)}在3个沿x,y和z轴方向的旋转角度{αiii}事先不固定,而是在基于梯度下降法的迭代优化过程中进行更新。
步骤3.3:每个变分量子电路(VQC)块的末尾是一个量子测量层。通过测量考虑每个量子位的期望值。在提出的SQLSTM中,来自每个VQC的测量值将在一个SQLSTM单元中处理。
设vt为前一个SQLSTM单元的隐藏状态ht-1对其输入向量xt的输出,则一个SQLSTM单元的形式化数学表达式如下:
Figure BDA0002897303600000101
Figure BDA0002897303600000102
ht=VQC5(ot*tanh(ct)),yt=VQC6(ot*tanh(ct))
步骤4:利用注意力层产生一个权值向量,将每个时间步长的词级特征与权值向量相乘,合并为一个句子级的特征向量。设H为SQLSTM的输出向量[h1,h2,...,hn]组成的矩阵,其中n是句子的长度,则句子的加权特征表示为r=HaT,其中a=softmax(wTM),M=tanh(H),
Figure BDA0002897303600000103
dw为向量的维数,w为训练参数,w、a和r的维数分别为dw、n和dw
则得到的分类特征向量为h*=tanh(r)。
步骤5:在分类输出层将步骤4得到的句子级的特征向量输入分类器Softmax,进行DDIs分类。
本发明SQLSTM模型利用6个具有可调参数并经过迭代优化的量子电路VQC替代长短时记忆模型中的传统运算,与基于SCNN和基于LSTM的DDI提取方法相比,具有快速学习和高速处理DDI信息的能力,网络模型收敛快;并与注意力机制相结合进行药物相互作用特征提取,能够使医务人员和病人快速准确了解所使用的药物之间的DDIs信息,为从医疗文献资料更准确获取药物相互作用信息提供了一个有力可靠的技术方案,为合理用药监测系统提供技术支撑。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

Claims (10)

1.语法量子长短时记忆模型,其特征在于,包括输入层、向量嵌入层、语法量子LSTM层、注意力层和分类输出层,所述输入层用于从数据库中得到语料,并进行数据预处理;所述向量嵌入层用于进行向量嵌入,将所述输入层得到并预处理后的每个单词映射为词向量、实体类型向量和词性向量,并拼接为一个向量;所述语法量子LSTM层用于利用SQLSTM单元从所述向量嵌入层得到的向量中提取高级特征,所述SQLSTM单元包括6个变分量子电路VQC堆叠组成,每个变分量子电路VQC为所述SQLSTM单元的基本单元,所述SQLSTM单元的输入为前一个时间步长的隐藏状态与当前输入向量的连接,输出为每个VQC结束时测量到的四个向量,测量值为每个量子位的泡利-Z期望值,经泡利-Z操作一个量子比特,然后经过两个非线性激活函数σ和tanh得到,σ和tanh分别为sigmoid和双曲正切函数;所述注意力层用于产生权值向量,将所述语法量子LSTM层得到的高级特征中每个时间步长的词级特征与权值向量相乘,合并为一个句子级的特征向量;所述分类输出层用于将所述注意力层得到的句子级的特征向量输入分类器Softmax,进行DDIs分类识别。
2.根据权利要求1所述的语法量子长短时记忆模型,其特征在于,所述输入层的预处理包括负例过滤、实体替换和分词。
3.根据权利要求2所述的语法量子长短时记忆模型,其特征在于,所述预处理包括:首先依据语法、语义和词性规则对数据库中的实例进行预分类,排除预分类结果中的负例,平衡训练过程中所使用数据库的正负比例;然后将具体的词语统一替换为特殊的类别词语;最后通过文本信息标注工具GENIA tagger将数据库中的文本句子进行分词,将文献输入到文本信息标注工具GENIA tagger中,得到句子中每个词语的基础形式、词性标签、分块标签和命名实体标签。
4.根据权利要求1所述的语法量子长短时记忆模型,其特征在于,所述向量嵌入包括:
S1:使用词向量计算工具word2vec将句子中每个词表示为词向量,然后拼接,得到词级的句子向量表示,其中,词向量通过查找词向量表获得;
S2:实体类型向量被映射到与句子长度一致的实值矩阵中,通过统计实体类型的个数,随机初始化实体类型向量表,再从实体类型向量表中查找句子中每个词的实体类型向量;
S3:词性向量被映射到与句子长度一致的实值矩阵中,使用自然语言处理工具包Stanford CoreNLP识别句中每个词的词性,再统计词性类型数,将词的词性标签标记为词性类型,构建词性类型向量表,查找词性类型向量表获取句子中每个词的词性向量;
S4:拼接步骤S1、S2和S3分别得到的词向量、实体类型向量和词性向量,得到所述SQLSTM单元的输入。
5.根据权利要求1所述的语法量子长短时记忆模型,其特征在于,所述SQLSTM单元的数据处理过程包括:
S1:编码从所述向量嵌入层得到的向量的特征数据到N-量子态;
S2:经过编码的特征数据进行幺正量子操作;
S3:每个变分量子电路VQC的末尾为一个量子测量层,通过计算基础上的测量来考虑每个量子位的期望值。
6.根据权利要求5所述的语法量子长短时记忆模型,其特征在于,所述N-量子态表示为:
Figure FDA0002897303590000021
其中,
Figure FDA0002897303590000022
为每一基态与每一量子qi∈{0,1}的复振幅;
Figure FDA0002897303590000023
的平方表示测量后状态
Figure FDA0002897303590000024
的测量概率,且
Figure FDA0002897303590000025
将初始状态
Figure FDA0002897303590000026
转换为无偏状态:
Figure FDA0002897303590000031
其中,i是标记对应位字符串的十进制数。
7.根据权利要求5所述的语法量子长短时记忆模型,其特征在于,所述幺正量子操作包括多个CNOT门和单量子位旋转门,CNOT门应用于每一对固定邻接1和2的量子位产生多量子位纠缠;单量子位旋转门{Ri=R(αiii)}在沿x,y和z轴方向的3个旋转角度{αiii}事先不固定,在基于梯度下降法的迭代优化过程中进行更新。
8.根据权利要求5所述的语法量子长短时记忆模型,其特征在于,所述SQLSTM单元中,设vt为前一个SQLSTM单元的隐藏状态ht-1对其输入向量xt在t时刻的输出,则一个SQLSTM单元的形式化数学表达式如下:
Figure FDA0002897303590000032
9.根据权利要求1所述的语法量子长短时记忆模型,其特征在于,所述注意力层中,设H为所述SQLSTM单元的输出向量[h1,h2,...,hn]组成的矩阵,其中n是句子的长度,则句子的加权特征表示为r=HaT,其中a=softmax(wTM),M=tanh(H),
Figure FDA0002897303590000033
dw为向量的维数,w为训练参数,w、a和r的维数分别为dw、n和dw;则得到的分类特征向量为h*=tanh(r)。
10.基于权利要求1至9中任一项所述的语法量子长短时记忆模型的药物相互作用提取方法,其特征在于,包括以下步骤:
步骤1:在输入层从数据库中得到医疗语料,并进行数据预处理;
步骤2:在向量嵌入层将每个单词映射为词向量、实体类型向量和词性向量,并拼接为一个向量;
步骤3:在语法量子LSTM层,利用SQLSTM单元从步骤2中得到的向量中提取高级特征;
步骤4:利用注意力层产生一个权值向量,将每个时间步长的词级特征与权值向量相乘,合并为一个句子级的特征向量;
步骤5:在分类输出层,将步骤4得到的句子级的特征向量输入分类器Softmax,进行DDIs分类识别。
CN202110045922.4A 2021-01-14 2021-01-14 基于语法量子长短时记忆模型及药物相互作用提取方法 Pending CN112712901A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110045922.4A CN112712901A (zh) 2021-01-14 2021-01-14 基于语法量子长短时记忆模型及药物相互作用提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110045922.4A CN112712901A (zh) 2021-01-14 2021-01-14 基于语法量子长短时记忆模型及药物相互作用提取方法

Publications (1)

Publication Number Publication Date
CN112712901A true CN112712901A (zh) 2021-04-27

Family

ID=75548948

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110045922.4A Pending CN112712901A (zh) 2021-01-14 2021-01-14 基于语法量子长短时记忆模型及药物相互作用提取方法

Country Status (1)

Country Link
CN (1) CN112712901A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023061441A1 (zh) * 2021-10-13 2023-04-20 合肥本源量子计算科技有限责任公司 文本的量子线路确定方法、文本分类方法及相关装置
CN116127321A (zh) * 2023-02-16 2023-05-16 广东工业大学 一种船舶新闻推送模型的训练方法、推送方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023061441A1 (zh) * 2021-10-13 2023-04-20 合肥本源量子计算科技有限责任公司 文本的量子线路确定方法、文本分类方法及相关装置
CN116127321A (zh) * 2023-02-16 2023-05-16 广东工业大学 一种船舶新闻推送模型的训练方法、推送方法及系统

Similar Documents

Publication Publication Date Title
CN110210037B (zh) 面向循证医学领域的类别检测方法
CN109471895B (zh) 电子病历表型抽取、表型名称规范化方法及系统
Er et al. Attention pooling-based convolutional neural network for sentence modelling
Gallant et al. Representing objects, relations, and sequences
Collobert et al. A unified architecture for natural language processing: Deep neural networks with multitask learning
CN110555083B (zh) 一种基于zero-shot无监督实体关系抽取方法
Zhang et al. Sentiment Classification Based on Piecewise Pooling Convolutional Neural Network.
CN108399230A (zh) 一种基于卷积神经网络的中文财经新闻文本分类方法
CN109189925A (zh) 基于点互信息的词向量模型和基于cnn的文本分类方法
CN109697285A (zh) 增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法
CN111192680A (zh) 一种基于深度学习和集成分类的智能辅助诊断方法
CN110287323B (zh) 一种面向目标的情感分类方法
CN111177383B (zh) 一种融合文本语法结构和语义信息的文本实体关系自动分类方法
CN113553440B (zh) 一种基于层次推理的医学实体关系抽取方法
Reyes-Galaviz et al. A supervised gradient-based learning algorithm for optimized entity resolution
CN111475622A (zh) 一种文本分类方法、装置、终端及存储介质
CN112712901A (zh) 基于语法量子长短时记忆模型及药物相互作用提取方法
CN113254675B (zh) 基于自适应少样本关系抽取的知识图谱构建方法
CN111753088A (zh) 一种自然语言信息的处理方法
CN111540470B (zh) 一种基于bert迁移学习的社交网络抑郁倾向检测模型及其训练方法
CN114781382A (zh) 基于rwlstm模型融合的医疗命名实体识别系统及方法
CN112863695A (zh) 基于量子注意力机制双向长短期记忆预测模型及提取方法
CN115017879A (zh) 文本对比方法、计算机设备及计算机存储介质
CN111723572B (zh) 基于CNN卷积层和BiLSTM的中文短文本相关性度量方法
CN112069825A (zh) 面向警情笔录数据的实体关系联合抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination