CN110543557A

CN110543557A - 一种基于注意力机制的医疗智能问答系统的构建方法

Info

Publication number: CN110543557A
Application number: CN201910841535.4A
Authority: CN
Inventors: 刘磊; 吴爽; 孙应红; 侯良文; 李静
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-09-06
Filing date: 2019-09-06
Publication date: 2019-12-06
Anticipated expiration: 2039-09-06
Also published as: CN110543557B

Abstract

本发明提出了一种基于注意力机制的医疗智能问答系统的构建方法。首先采集医疗问答数据，并用Word2vec技术进行向量化表示，对每个问题，从回答数据中选取语义相似度最大的句子作为标准答案，构建医疗知识问答训练库。然后构建基于注意力机制的医疗智能问答系统的深度学习模型：包括利用双向LSTM将问题和回答数据进行语义编码和拼接，并增加注意力机制；拼接后的语义编码输入到双向LSTM中进行特征融合，最后由softmax函数输出标准答案。

Description

一种基于注意力机制的医疗智能问答系统的构建方法

技术领域

本发明属于数据挖掘领域，具体是涉及基于注意力机制的医疗智能问答系统的构建方法。

背景技术

随着互联网技术的蓬勃发展，互联网成为了人们获取信息的重要来源。人们获取信息主要由搜索引擎来实现，搜索引擎可以帮助人们找到用户需要的信息网页。问答系统(Question Answering System,QA)是信息检索系统中的一种高级形式，它能够用准确、简洁的语言回答用户用自然语言提出的问题。其研究兴起的主要原因是人们对快速、准确地获取信息的需求。

当人们搜索医疗信息时，搜索引擎返回的结果数量多、信息量大、返回的结果冗长，未经处理的医疗信息难以满足用户对健康的需求。医药领域专业性强，非专业人士在获取信息时会存在诸多障碍，因此需要构建医疗智能问答系统，根据用户提问，返回用户准确、精简的回答，提高医疗资源的利用率。

医疗问答系统的研究方法主要有基于规则的、基于知识图谱、基于深度学习等。基于规则的方法需要限定医疗领域，如糖尿病、高血压等；基于知识图谱的方法利用知识库中的知识对问句进行解析、推理来得到答案，但医疗知识图谱的构建过程较为复杂；基于深度学习的方法将问题和答案输入到深度模型进行训练，得到问题和答案的特征向量，将新的问题输入模型，得到候选答案的特征向量，最后选出最佳答案。

发明内容

为实现上述目的，本发明采用如下的技术方案

一种基于注意力机制的医疗智能问答系统的构建方法，包括以下步骤：

1、一种基于注意力机制的医疗智能问答系统的构建方法，按以下步骤实现：

步骤(1)数据采集和预处理

(1.1)从医疗网站采集医疗问答数据集QA，

QA＝{(q₁,A₁),(q₂,A₂),…,(q_i,A_i),…,(q_n,A_n)}，(1≤i≤n)

其中q_i表示第i个医疗问题，A_i为医疗问题q_i的回答列表，n为问答对的数量。A_i进一步表示为A_i＝{a₁,a₂,…,a_j,…,a_m}，(1≤j≤m)，a_j为回答列表A_i的第j个回答，m为A_i中回答总数。

(1.2)对医疗问答数据集QA进行分词，并用Word2vec中的CBOW模型对分词后的结果进行训练，得到QA中所有词的词向量表示，

E＝(word₁,word₂,…,word_i,…,word_t)，(1≤i≤t)，

其中word_i＝(e₁,e₂,…,e_m)表示第i个词的词向量，e₁,e₂,…,e_m是数值，t为医药单词总数，m为医药单词的维度。

步骤(2)构建医疗问答数据的训练集

(2.1)对每一个问答对(q,A)，利用词向量构建对应的语义表示。

q的语义表示S(q)由公式(1)得到：

其中word_i(1≤i≤h)表示问题q中第i个词的词向量，“+”表示词向量作加法运算，h为问题q中的词的总数。

回答列表A＝{a₁,a₂,…,a_j,…,a_m}中每个回答a的语义表示S(a)由公式(2)得到，

其中word_i(1≤i≤g)表示回答a中第i个词的词向量，“+”表示词向量作加法运算，g为回答a中的词的总数。

(2.2)对每一个问答对(q,A)，计算问题q与回答列表A中每个回答a之间的相似性，获取问题的标准答案。

利用夹角余弦计算S(q)与S(a)之间的相似值Sim(q,a)，

Sim(q,a)＝cos<S(q),S(a)> (3)

其中S(q)为问题q的语义表示，S(a)为回答a∈A的语义表示。

对所有a∈A，取Sim(q,a)相似值最高的回答a作为标准答案，记作answer＝(pb,pe)。其中pb表示标准答案在回答列表中的开始位置，pe表示标准答案在回答列表中的结束位置。

用医疗问题q，回答数据a，标准答案answer构建医疗知识问答库QAS＝{(q₁,A₁,answer₁),(q₂,A₂,answer₂),…,(q_n,A_n,answer_n)}。

(2.3)从医疗知识问答库QAS取出一部分数据作为训练集train_set。

(2.4)利用分位点得到医疗知识问答库QAS中的医疗问题q，回答数据a，标准答案answer的各自最大长度q_maxlen、a_maxlen、answer_max len。

步骤(3)构建基于注意力机制的深度学习医疗问答模型

(3.1)模型输入

模型的输入为训练集train_set中的问答对(q,A)。

(3.2)词嵌入层

将问题q的词向量按行排列，得到医疗问题q的词嵌入矩阵q_emd。将回答列表A中每个回答的词向量按行排列，得到回答a的词嵌入矩阵a_emd。将回答a的词嵌入矩阵按行拼接得到回答列表A的词嵌入矩阵A_emd，

其中表示回答列表A中第i个回答的词嵌入矩阵，“:”表示矩阵拼接运算。

(3.3)双向LSTM层

利用双向LSTM模型分别对医疗问答词嵌入矩阵q_emd和词嵌入矩阵A_emd进行编码，得到问题编码q_encodes和回答列表编码A_encodes。

(3.4)注意力层

将问题编码q_encodes和回答列表编码A_encodes进行矩阵乘法运算，得到问题与回答之间的相似性矩阵Sim_qA，

Sim_qA＝mult(q_encodes,A_encodes ^T) (5)

令矩阵Sim_qA各列向量中的最大值为问题回答特征向量F_attention，

F_attention＝max(Sim_qA[:,j])^T (6)

其中Sim_qA[i,:]表示矩阵Sim_qA中第j列的向量，max(Sim_qA[i,:])表示矩阵Sim_qA的各列向量中的最大值。

将问题回答特征向量F_attention与回答列表编码A_encodes作点乘运算，得到问题回答权重矩阵Q_weight，

Q_weight＝F_attention*A_encodes (7)

其中“*”表示矩阵点乘运算。

(3.5)全连接层

A_encodes、Q_weight以最高维度进行拼接得到问题回答拼接矩阵Con_qA。

Con_qA＝[A_encodes:Q_weight] (8)

其中“:”表示矩阵拼接运算。

将矩阵Con_qA输入到双向LSTM模型中得到问题与回答之间的上下文交互信息矩阵，记作B_qA。

(3.6)输出层

输出层来确定答案的初始位置和结束位置，即输出层输出回答列表中答案所在的初始位置和结束位置。方法如下：

将矩阵Con_qA与矩阵B_qA拼接后输入到softmax激活函数中，得到答案在回答列表中初始位置，记作pb'，

pb'＝softmax(Con_qA:B_qA) (9)

其中“:”表示矩阵拼接运算。

将矩阵B_qA输入到双向LSTM模型中得到矩阵D_qA，将矩阵Con_qA与矩阵D_qA拼接后输入到softmax激活函数中，得到答案在回答列表中结束位置，记作pe'，

pe'＝softmax(Con_qA:D_qA) (10)

其中“:”表示矩阵拼接运算。

这样对每一个问答对(q,A)，都可以得到模型输出的答案位置对(pb',pe')。

(3.6)模型训练

根据输出层中答案的初始位置和结束位置，利用损失函数对模型进行训练，方法如下：

迭代更新模型参数，将损失函数Loss(θ)最小化来完成模型训练，损失函数由公式(11)得到：

其中θ为模型所有的待训练参数，N为医疗知识问答库QAS中问答对的总数，pb_i为第i个标准答案answer初始位置，pe_i为第i个标准答案answer结束位置，pb′_i为模型输出的第i个答案在回答列表中的初始位置，pe′_i为模型输出的第i个答案在回答列表中的结束位置，“*”表示矩阵点乘运算。

步骤(4)测试深度学习医疗问答模型

利用步骤(3)训练的问答模型，针对用户提出的医疗问题，对问答模型进行测试。根据测试，本模型可以有效地输出用户问题对应的答案，至此我的技术方案可以为用户节省查询、搜索时间，给用户提供方便。

有益效果

(1)本发明从医疗问答对入手，根据用户提出的医药问题，能够返回用户精确、简洁的答案；

(2)本发明提出的注意力机制，能够捕捉融合用户的问题与医生回答之间的有效信息。

附图说明

图1本发明实现基于注意力机制的医疗智能问答系统流程图；

图2本发明实现基于注意力机制的医疗智能问答系统模型结构图；

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步的详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

根据图1、2所示，本发明提出的方法是依次按以下步骤实现的(以某内科疾病数据为例)：

步骤(1)数据采集和预处理

从医疗网站某科室采集医疗问答数据集QA，共3415个问答对即n＝3415，每个回答列表A中有6个回答，A＝{a₁,a₂,a₃,a₄,a₅,a₆}。部分医疗问答对如表1所示：

表1部分医疗问答对示例

(1.2)对医疗问答数据集QA进行分词，并用Word2vec中的CBOW模型对分词后的结果进行训练，得到QA中所有词的词向量E，词向量E中的词向量word数量为34943，每一个词向量word的维度为300维。

步骤(2)构建医疗问答数据的训练集和验证集

(2.1)对每一个问答对(q,A)，利用词向量构建对应的语义表示。q的语义表示为S(q)，回答列表A＝{a₁,a₂,a₃,a₄,a₅,a₆}中每个回答a的语义表示为S(a)。

(2.2)对每一个问答对(q,A)，计算问题q与回答列表A中每个回答a之间的相似性，获取问题的标准答案。利用夹角余弦计算S(q)与S(a)之间的相似值Sim(q,a)。

取Sim(q,a)相似值最高的回答a作为标准答案，记作answer。对标准答案answer分词，将第一个词作为答案开始位置pb，最后一个词作为结束位置pe。用医疗问题q，回答数据a，标准答案answer构建医疗知识问答库QAS。示例结果如表2所示，a₁-a₆内容与表1相同。

表2医疗知识问答库QAS示例

(2.3)从医疗知识问答库QAS取出2390个问答对作为训练集train_set，将剩下的1025个问答对作为验证集val_set。

(2.4)利用九分位点得到医疗知识问答库QAS中的医疗问题q，回答数据a，标准答案answer的各自最大长度q_maxlen＝200、a_maxlen＝600、answer_max len＝600。

步骤(3)构建基于注意力机制的深度学习医疗问答模型

(3.1)模型输入

模型的输入为训练集train_set中2390个问答对(q,A)。

(3.2)词嵌入层

本层主要用来对医疗问答对进行向量表示，由于医疗文本数据是非结构化的数据，为了更好地理解文本内容，通常需要将文本内容转化为向量表示，方便对文本内容进行表示。具体的表示方法如下：

其中表示回答列表A中第i个回答的词嵌入矩阵，回答列表A中共有6个回答，“:”表示矩阵拼接运算，词嵌入矩阵q_emd的维度为m行300列，m为问题q中词的数量，词嵌入矩阵A_emd的维度为n行300列，n为回答列表A中词的数量。

(3.3)双向LSTM层

本层主要用来对医疗问答对进行语义表示，由于双向LSTM模型可以捕获句子的前后信息，医药问答中的句子前后依赖性较强，因此选用双向LSTM模型对医疗问答对进行语义表示，具体方法如下：

将问题词嵌入矩阵q_emd和回答列表词嵌入矩阵A_emd分别输入双向LSTM中得到，得到问题编码q_encodes和回答列表编码A_encodes。经过双向LSTM模型后问题编码q_encodes的维度为m行300列，m为问题q中词的数量，回答列表编码A_encodes的维度为n行300列，n为回答列表A中词的数量。

为了预防过拟合，将模型中隐藏层神经元的部分权重随机归零，来减少神经元各节点间的依赖，归零率dropout设置为0.5。

(3.4)注意力层

本层主要用来得到医药问题与回答列表之间的交互信息，具体方法如下：

将问题编码q_encodes和回答列表编码A_encodes进行矩阵乘法运算，得到问题与回答之间的相似矩阵Sim_qA，问题编码q_encodes的维度为m行600列，m为问题q中词的数量，回答列表编码A_encodes的维度为n行600列，n为回答列表A中词的数量，相似矩阵Sim_qA的维度为m行n列。

Sim_qA＝mult(q_encodes,A_encodes ^T) (2)

F_attention＝max(Sim_qA[:,j])^T (3)

其中Sim_qA[i,:]表示矩阵Sim_qA中第j列的向量，max(Sim_qA[i,:])表示矩阵Sim_qA的各列向量中的最大值，该向量中有n个元素，维度为1行n列，T表示矩阵转置，问题注意力矩阵F_attention维度为为n行1列。

将矩阵Sim_qA各行向量中的最大值与问题编码q_encodes相乘得到问题注意力矩阵q_attention，

q_attention＝max(Sim_qA[:,j])^T (4)

其中Sim_qA[i,:]表示矩阵Sim_qA中第j列的向量，max(Sim_qA[i,:])表示矩阵Sim_qA的各列向量中的最大值，该向量中有n个元素，维度为1行n列，T表示矩阵转置，问题注意力矩阵q_attention维度为为n行1列。

Q_weight＝q_attention*A_encodes (5)

其中“*”表示矩阵点乘运算，问题注意力权重矩阵Q_weight的维度为n行600列。

(3.5)全连接层

本层主要将医药问题与回答列表之间的交互信息进行连接，以便得到问题和回答的上下文交互信息，具体方法如下：

A_encodes、Q_weight以最高维度进行拼接得到问题回答拼接矩阵Con_qA，

Con_qA＝[A_encodes:Q_weight] (6)

其中“:”表示矩阵拼接运算，问答拼接矩阵Con_qA的维度为n行1200列。

将矩阵Con_qA输入到双向LSTM模型中得到问题与回答之间的上下文交互信息矩阵，记作B_qA。上下文交互信息矩阵B_qA维度为n行600列。

(3.6)输出层

本层主要输出答案的初始位置和结束位置，即答案输出，具体方法如下：

将矩阵Con_qA与矩阵B_qA拼接后，拼接后的矩阵维度为n行1800列，输入到softmax激活函数中，得到答案在回答列表中初始位置，记作pb'，

pb'＝softmax(Con_qA:B_qA) (7)

其中“:”表示矩阵拼接运算。

将矩阵B_qA输入到双向LSTM模型中得到矩阵D_qA，矩阵D_qA的矩阵维度为n行600列，将矩阵Con_qA与矩阵D_qA拼接，拼接后的矩阵维度为n行1800列，并输入到softmax激活函数中，得到答案在回答列表中结束位置，记作pe'，

pe'＝softmax(Con_qA:D_qA) (8)

其中“:”表示矩阵拼接运算。

这样对每一个问答对(q:A)，都可以得到模型输出的答案位置对(pb':pe')。

(3.6)模型训练

本层主要根据输出层中答案的初始位置和结束位置，利用损失函数对模型进行训练，具体方法如下：

利用公式(9)训练损失函数Loss(θ)，不断迭代更新模型参数，直到损失函数达到最小值时结束训练。

通过训练参数θ来得到模型输出的答案位置对，训练参数的总量为14068个，表3给出模型训练的各个参数。

表3模型训练参数

由实验结果可知，当学习率为0.001时，模型收敛能更快收敛，当迭代次数等于100时，损失函数的函数值几乎没有变化，模型训练完成。步骤(4)模型测试与评价

(4.1)模型测试

将验证集val_set中的1025个问答对输入到训练好的医药问答模型中，模型输出验证集中每一个问题在回答列表中答案位置对，根据答案位置对得到验证集中每一个问题对应的答案。部分医疗问答对测试示例如表4：

表4部分医疗问答对测试示例

由表4可以看出，模型输出的“扁桃体发炎肿大有红血丝咳嗽有痰怎么办”的答案为回答列表A中的第六个回答。

(4.2)模型评价

将验证集val_set中得到的问题答案，利用两个评价指标Bleu和Rouge_L进行评价：

Bleu(bilingual evaluation understudy)评价方法：

其中N的上限取值为4，即最多统计4-gram的精度，BP为惩罚因子。lc表示匹配答案长度，ls表示标准答案长度，max_i∈m h_k(answer_ij)表示某n-gram在多条标准答案中出现最多的次数，h_k(c_i)表示h_k在预测答案c_i中出现的次数，h_k(answer_i)表示h_k在标准答案answer_ij中出现的次数。

Rouge_L(recall-oriented understanding for gisting evaluation)评价方法：

其中，answer为医疗标准答案，Y为模型预测答案，LCS(answer,Y)为answer、Y的最长公共子序列，m为X中单词总数，n为Y中单词总数，β为参数，R相当于召回率，P相当于精度，Rouge_L相当于F值。Rouge_L值越接近1，模型输出答案越接近标准答案。

问答模型在验证集下的评价得分如表5，表5为训练100轮的得分。

表5评价得分表

由表可知，Bleu_1、Bleu_2、Bleu_3、Bleu_4得分相近都为0.62，Rouge_L得分为0.67，比Bleu高0.05。说明本模型能够较为准确地匹配出医药问题的答案。

Claims

1.一种基于注意力机制的医疗智能问答系统的构建方法，按以下步骤实现：

步骤(1)数据采集和预处理

(1.1)从医疗网站采集医疗问答数据集QA，

QA＝{(q₁,A₁),(q₂,A₂),…,(q_i,A_i),…,(q_n,A_n)}，(1≤i≤n)

E＝(word₁,word₂,…,word_i,…,word_t)，(1≤i≤t)，

步骤(2)构建医疗问答数据的训练集

(2.1)对每一个问答对(q,A)，利用词向量构建对应的语义表示。

q的语义表示S(q)由公式(1)得到：

利用夹角余弦计算S(q)与S(a)之间的相似值Sim(q,a)，

Sim(q,a)＝cos<S(q),S(a)> (3)

其中S(q)为问题q的语义表示，S(a)为回答a∈A的语义表示。

(2.4)利用分位点得到医疗知识问答库QAS中的医疗问题q，回答数据a，标准答案answer的各自最大长度q_maxlen、a_maxlen、answer_maxlen。

步骤(3)构建基于注意力机制的深度学习医疗问答模型

(3.1)模型输入

模型的输入为训练集train_set中的问答对(q,A)。

(3.2)词嵌入层

A_emd＝[a_1emd:a_2emd…a_iemd…:a_memd] (4)

其中a_iemd表示回答列表A中第i个回答的词嵌入矩阵，“:”表示矩阵拼接运算。

(3.3)双向LSTM层

(3.4)注意力层

Sim_qA＝mult(q_encodes,A_encodes ^T) (5)

F_attention＝max(Sim_qA[:,j])^T (6)

Q_weight＝F_attention*A_encodes (7)

其中“*”表示矩阵点乘运算。

(3.5)全连接层

Con_qA＝[A_encodes:Q_weight] (8)

其中“:”表示矩阵拼接运算。

(3.6)输出层

pb'＝softmax(Con_qA:B_qA) (9)

其中“:”表示矩阵拼接运算。

pe'＝softmax(Con_qA:D_qA) (10)

其中“:”表示矩阵拼接运算。

(3.6)模型训练

步骤(4)模型应用

利用步骤(3)训练的问答模型，针对用户提出的医疗问题进行实时回答。