CN110176311A

CN110176311A - 一种基于对抗神经网络的自动医疗方案推荐方法和系统

Info

Publication number: CN110176311A
Application number: CN201910413792.8A
Authority: CN
Inventors: 管欣鑫; 李业丽; 宫鹤宸; 曾庆涛; 周楚风
Original assignee: Beijing Institute of Graphic Communication
Current assignee: Beijing Institute of Graphic Communication
Priority date: 2019-05-17
Filing date: 2019-05-17
Publication date: 2019-08-27

Abstract

本申请实施例提供了一种基于对抗神经网络的自动医疗方案推荐方法和系统，其中方法包括：接收当前用户端发送的目标用户的病情信息，所述病情信息包括病情的种类和程度，以及用户的性别、年龄和病史；提取所述病情信息中的词频，所述词频为所述病情信息中有实际意义的词；将所述词频与预先生成的医疗方案数据库中的病情信息模板进行匹配，确定对应的医疗方案；将所述医疗方案推荐给所述当前用户端。本申请实施例的基于对抗神经网络的自动医疗方案推荐方法和系统，能够有效提高医疗系统的使用率、信任度和智能度。

Description

一种基于对抗神经网络的自动医疗方案推荐方法和系统

技术领域

本申请涉及医疗系统技术领域，尤其涉及一种基于对抗神经网络的自动医疗方案推荐方法和系统。

背景技术

世界人口数量的不断增长，给医疗事业也带来了巨大的压力，虽然在一些大城市医疗条件得到了改善，但毕竟是资源有限。而且生活水平的提高，人们也越来越注重个人健康，无论是看病就诊，还是营养保健都想要在最短的时间内，得到最有效的医疗方案，并且病人有时候得了比较小的病，去医院看大夫比较麻烦和浪费时间，也会浪费医疗资源。

面临这样的压力，应该开发一种基于人工智能的就诊平台，人们通过手机或者电脑输入自己的症状和需求，就可以出现相对应的解决办法。所以，针对这一需求，人工智能就诊平台的研发就显得极为重要，也是目前市场上的研究热点之一。

但是，通过研究发现，(1)现有的医疗网站上并不能真正的实现人工智能，大多数需要一些医生在线回答问题，但是这样存在回复时间周期长，在线医生少和不能排上队等问题。(2)根据病人输入病情，智能推荐生成治疗方案，用药情况也是先研究缺口。(3)现有的医疗网站存在无法更加细化治疗方案的局限性，无法根据病人的个人情况推荐更加完善的治疗方法，存在治疗方法单一化，大众化问题。(4)现有医疗网站推荐的医疗方案可能没有得到权威机构的认真，无法取得群众的信任。这些问题导致了现有医疗系统使用率不高、信任度不高、智能度不高。

发明内容

有鉴于此，本申请的目的在于提出一种基于对抗神经网络的自动医疗方案推荐方法和系统，来解决现有技术中的医疗系统使用率不高、信任度不高和智能度不高的技术问题。

基于上述目的，在本申请的第一个方面，提出了一种基于对抗神经网络的自动医疗方案推荐方法，包括：

接收当前用户端发送的目标用户的病情信息，所述病情信息包括病情的种类和程度，以及用户的性别、年龄和病史；

提取所述病情信息中的词频，所述词频为所述病情信息中有实际意义的词；

将所述词频与预先生成的医疗方案数据库中的病情信息模板进行匹配，确定对应的医疗方案；

将所述医疗方案推荐给所述当前用户端。

在一些实施例中，所述提取所述病情信息中的词频，具体包括：

利用Jieba分词对所述病情信息进行预处理，去掉所述病情信息中的停止词；

将剩余的词作为所述病情信息的词频。

在一些实施例中，还包括医疗方案数据库的预先生成过程，具体为：

通过数据挖掘爬取医疗网站的现有病情信息和对应的解决方案；

根据所述现有病情信息和所述对应的解决方案生成病情特征，所述病情特征包括病情的种类、程度、性别、年龄、病史和解决方案；

将所述病情特征通过词组嵌入，映射到w维空间向量，生成医疗方案数据，利用对抗神经网络对所述医疗方案数据进行学习，生成新的医疗方案；

将所述新的医疗方案汇总起来，生成医疗方案数据库。

在一些实施例中，在所述根据所述现有病情信息和所述对应的解决方案生成病情特征之后，还包括：

将所述病情特征按照主题词进行分类，并将分类后的病情特征通过TF-IDF进行文本提取，提取出主要的病症和对应的解决方法。

在一些实施例中，所述将所述病情特征按照主题词进行分类，具体包括：

选择一篇医疗方案d_i，该医疗方案被选中的概率为P(d_i)；

选定该医疗方案d_i以后，确定医疗方案的主题分布；

从主题分布中按照概率P(z_k|d_i)选择一个隐含的主题类别z_k；

选定z_k后，确定主题下的词分布，从词分布中按照概率P(w_j|z_k)选择医疗方案中的主题词，其中，

P(w_j|d_i)表示w_j在医疗方d_i中出现的概率，P(z_k|d_i)表示z_k在医疗方案d_i中出现的概率，P(w_j|z_k)表示具体某个医疗词w_j在z_k下出现的概率，与主题词越密切P(w_j|z_k)越大。

在一些实施例中，所述将所述病情特征通过词组嵌入，映射到w维空间向量，生成医疗方案数据，利用对抗神经网络对所述医疗方案数据进行学习，生成新的医疗方案，具体包括：

利用一个医疗方案生成模型G和一个判别医疗方案模型D对所述医疗方案数据进行学习，目标函数如下：

minmaxV(D,G)＝E_x～Pdata(x)[logD(x)]+E_z～Pz(z)[log(1-(D(z)))]，

其中，G是一个生成式的网络，首先由G接收一个随机的噪声z同时输入病人的情况，通过这个噪声生成新的医疗方案；

生成器是一个LSTM神经网络，目标函数如下：

其中R_T为一个完整医疗方案的评分之和，S₀表示初始状态，θ表示生成器的参数，表示期望值，求和过程表示，每生成一个医疗方案，都会计算其生成该医疗方案的概率与其对应的期望值，那么两者相乘即表示生成该医疗方案的期望值，求和后即为该整个医疗方案的期望值；

D是一个判别网络，判别这个医疗方案是不是“真实的”。它的输入参数是x，x代表一个医疗方案，输出D(x)代表x为真实医疗方案的概率，如果为1，就代表理论上100％是真实的医疗方案，而输出为0，就代表不可能是真实的医疗方案。

在一些实施例中，在所述将所述病情特征通过词组嵌入，映射到w维空间向量，生成医疗方案数据，利用对抗神经网络对所述医疗方案数据进行学习，生成新的医疗方案之后，还包括：

将所述新的医疗方案发送至目标认证服务器对所述新的医疗方案进行权威认证；

所述将所述新的医疗方案汇总起来，生成医疗方案数据库，包括：

将权威认证后的新的医疗方案汇总起来，生成医疗方案数据库。

基于上述目的，在本申请的第二个方面，还提出了一种基于对抗神经网络的自动医疗方案推荐系统，包括：

病情信息接收模块，用于接收当前用户端发送的目标用户的病情信息，所述病情信息包括病情的种类和程度，以及用户的性别、年龄和病史；

词频提取模块，用于提取所述病情信息中的词频，所述词频为所述病情信息中有实际意义的词；

医疗方案确定模块，用于将所述词频与预先生成的医疗方案数据库中的病情信息模板进行匹配，确定对应的医疗方案；

医疗方案推荐模块，用于将所述医疗方案推荐给所述当前用户端。

在一些实施例中，还包括：

数据库生成模块，用于建立医疗方案数据库，具体为：

将所述新的医疗方案汇总起来，生成医疗方案数据库。

在一些实施例中，所述数据库生成模块，还用于：

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请实施例一的基于对抗神经网络的自动医疗方案推荐方法的流程图；

图2是本申请实施例一中的医疗方案数据库的生成方法的流程图；

图3是本申请实施例二的基于对抗神经网络的自动医疗方案推荐方法一个具体实施例的流程图；

图4是本申请实施例的医疗方案分类示意图；

图5是本申请实施例的文本内容提取方法示意图；

图6是本申请实施例的对抗神经网络的结构示意图；

图7是本申请实施例的病人特征匹配模型示意图；

图8是本申请实施例的基于对抗神经网络的自动医疗方案推荐系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

如图1所示，是本申请实施例一的基于对抗神经网络的自动医疗方案推荐方法的流程图。从图1中可以看出，本实施例的基于对抗神经网络的自动医疗方案推荐方法，可以包括以下步骤：

S101：接收当前用户端发送的目标用户的病情信息，所述病情信息包括病情的种类和程度，以及用户的性别、年龄和病史。

在本实施例中，当前用户端可以是智能手机、平板电脑等移动终端，目标用户通常为病人，目标用户或者其他用户可以通过当前用户端将目标用户的病情信息发送至应用本实施例方法的服务器，以查找与目标用户的病情信息匹配的治疗方案。本实施例中的病情信息包括病情的种类和程度，以及用户的性别、年龄和病史。例如病情可以包括感冒、发烧和咳嗽，程度可以划分为轻度，中度和重度，用户的性别、年龄和病史，可以根据病人的个人实际情况填写。本实施中的病情信息通常为文本形式的信息，当然，也可以为语音形式的信息，对于语音形式的信息，则需要利用自然语言处理技术将语音形式的信息转化为文本形式的信息，。

S102：提取所述病情信息中的词频，所述词频为所述病情信息中有实际意义的词。

在本实施例中，当接收到当前用户端发送的目标用户的病情信息后，需要对该病情信息后进行预处理，具体地，可以用Jieba分词对所述情信息进行预处理，去掉所述病情信息中的停止词，将剩余的词作为所述病情信息的词频。

S103：将所述词频与预先生成的医疗方案数据库中的病情信息模板进行匹配，确定对应的医疗方案。

当提取所述病情信息中的词频后，可以根据提取出来的词频的语义与预先生成的医疗方案数据库中的病情信息模板进行匹配，确定对应的医疗方案，该医疗方案即为上文中的治疗方案。关于医疗方案数据库的生成参见后续实施例，这里不再展开说明。

S104：将所述医疗方案推荐给所述当前用户端。

在确定与目标用户的病理信息对应的医疗方案后，将所述医疗方案推荐给所述当前用户端，以使目标用户能够获取该医疗方案，进而根据该医疗方案对自身的病情采取相应的治疗措施。例如服药的种类和药量。

本申请实施例的基于对抗神经网络的自动医疗方案推荐方法和系统，能够有效提高医疗系统的使用率、信任度和智能度。

如图2所示，是本申请实施例一中的医疗方案数据库的生成方法的流程图。医疗方案数据库的生成方法，可以包括以下步骤：

S201：通过数据挖掘爬取医疗网站的现有病情信息和对应的解决方案。

具体地，可以通过数据挖掘合法爬取(Python)相应的医疗网站，获取医疗网站中现有病情信息和对应的解决方案，即具体的病情，以及对应的解决方案。

S202：根据所述现有病情信息和所述对应的解决方案生成病情特征，所述病情特征包括病情的种类、程度、性别、年龄、病史和解决方案。

S203：将所述病情特征通过词组嵌入，映射到w维空间向量，生成医疗方案数据，利用对抗神经网络对所述医疗方案数据进行学习，生成新的医疗方案。

S204：将所述新的医疗方案汇总起来，生成医疗方案数据库。

本实施例的医疗方案数据库的生成方法，使得治疗方案更加细化。

此外，作为本申请的一个实施例，在生成医疗方案数据库的过程中，在所述根据所述现有病情信息和所述对应的解决方案生成病情特征之后，还包括：

将所述病情特征按照主题词进行分类，如图4所示，为本申请实施例的医疗方案分类示意图。将所述病情特征按照主题词进行分类的具体过程为：

选择一篇医疗方案d_i，该医疗方案被选中的概率为P(d_i)；

选定该医疗方案d_i以后，确定医疗方案的主题分布；

从主题分布中按照概率P(z_k|d_i)选择一个隐含的主题类别z_k；

并将分类后的病情特征通过TF-IDF进行文本提取，提取出主要的病症和对应的解决方法。

利用一个医疗方案生成模型G和一个判别医疗方案模型D对所述医疗方案数据进行学习，

如图6所示，是本申请实施例的对抗神经网络的结构示意图。利用一个医疗方案生成模型G和一个判别医疗方案模型D对所述医疗方案数据进行学习的目标函数如下：

minmaxV(D,G)＝E_x～Pdata(x)[logD(x)]+E_z～Pz(z)[log(1-(D(z)))]，

生成器是一个LSTM神经网络，目标函数如下：

为了使得本申请的技术方案更容易被理解，下面按照逻辑的先后顺序对本申请的技术方案进行再一次的说明。如图3所示，是本申请实施例二的基于对抗神经网络的自动医疗方案推荐方法一个具体实施例的流程图。在本实施例中，数据准备通过数据挖掘合法爬取(Python)相应的医疗网站，需要获取的是具体的病情，以及相应对的解决办法。

获取病情的特征：包括病情的种类、程度、性别、年龄、病史、解决方法。

对输入的数据，包括病情的种类、程度、解决方法等特征值进行向量化。特征值向量化是通过词组嵌入，将特征文本映射到w维空间向量。

把步骤上述步骤生成的特征向量值作为医疗方案分类的数据。

将医疗方案按照内科、外科、儿科等12个不同的主题词进行分类(参见图4)。

将按主题词分类好的医疗方案通过TF-IDF进行简短的文本提取，提取出主要的病症和对应的解决方法。将这些医疗方案通过对抗生成神经网络(GAN)产生新的医疗方案。通过权威机构认证新产生的医疗方案。输入病人的情况通过神经网络训练输给Softmax进行相似度匹配，获取相似度最高的医疗方案推荐给病人。

在将医疗方案按照主题词进行分类时，具体实现过程如下：

根据PLSA算法，P(w_j|d_i)表示w_j在医疗方d_i中出现的概率，P(z_k|d_i)表示z_k在医疗方案d_i中出现的概率，P(w_j|z_k)表示具体某个医疗词w_j在z_k下出现的概率，与主题词越密切P(w_j|z_k)越大。

选择一篇医疗方案d_i，该医疗方案被选中的概率为P(d_i)。选定该医疗方案d_i以后，确定医疗方案的主题分布。从主题分布中按照概率P(z_k|d_i)选择一个隐含的主题类别z_k。选定z_k后，确定主题下的词分布，从词分布中按照概率P(w_j|z_k)选择医疗方案中的主题词。把该医疗方案根据同样的方法，主题词分完以后再进行二级分类，使分类更加详细具体。

图5是本申请实施例的文本内容提取方法示意图。将按主题词分类好的医疗方案通过TF-IDF进行简短的文本提取，则可以具体包括：

用jieba分词进行预处理，将停止词过滤掉。剩下的词语为有意义的词即词频。在一个医疗方案中多次出现的词就显得尤为重要。

以上式子中n_i,j是该词在医疗方案中的出现次数，而分母则是在医疗方案中所有字词的出现次数之和。

为了衡量一个词的重要性，引入了一个重要性权值调整参数，即IDF

其中：|D|表示语料库中文件的总数；|{j:t_i∈d_j}|表示词语t在医疗方案中出现的数目；

根据式(3)和式(4)得到式(5)

tfidf_i,j＝tf_i,j×idf_i (5)

通过换行符对文档进行分段，通过分割符对每个段落进行分句。

对文章位置进行标注，通过mark列表，标注出是否是第一段、尾段、第一句、最后一句。

用TF-IDF提取文本中的关键词并将结果合并成一个句子进行分词，同时计算医疗方面专业术语词性，提取名词和动词。

根据关键词词性权重，句子的位置权重，专业术语的权重计算整体权重。权重按照1：2：1的比例进行加权。

对句子的权重值进行排序。

根据排序结果，取排名占前10％的句子生成简要医疗方案。

如图7所示，是本申请实施例的病人特征匹配模型示意图。该模型用于将输入病人的情况通过神经网络训练输给Softmax进行相似度匹配，获取相似度最高的医疗方案推荐给病人。具体地，该模型包括输入层、模型层和输出层。

输入层数据信息主要基于用户的显示或隐式反馈、医疗方案、病情的种类、程度、性别、年龄、病史、等(都为数据模块中向量化后的值)。

模型层基于神经网络。

设隐含层共m个神经元，通过隐含层ReLU激活函数处理后，获得向量u_i，就是病人patient_i隐特征值，同理，医疗方案scheme_j的隐特征值向量为v_j，计算过程如下：

其中，u_i,v_j∈R^m，分别表示病人、医疗方案全连接层权值，分别为对应偏置项，为实数，p_t为源特征值向量化输入后降维取最大项，ReLU(x)＝max(0,x)。

其中:参数设置为：病人、医疗方案特征值权重分别为α＝1、β＝0.5，RNN模型学习率为lr＝0.00065，病人、医疗方案隐特征正则化为λ_patient＝λ_scheme＝λ＝0.001深度神经网络神经元数为1026个。

输出层利用自学习获取病人、医疗方案隐表示，再通过Softmax、内积等计算相似度产生最优医疗方案推荐。

本申请实施例本申请实施例的基于对抗神经网络的自动医疗方案推荐方法，能够有效提高医疗系统的使用率、信任度和智能度。

如图8所示，是本申请实施例的基于对抗神经网络的自动医疗方案推荐系统的结构示意图。本实施例的基于对抗神经网络的自动医疗方案推荐系统，包括：

病情信息接收模块801，用于接收当前用户端发送的目标用户的病情信息，所述病情信息包括病情的种类和程度，以及用户的性别、年龄和病史。

词频提取模块802，用于提取所述病情信息中的词频，所述词频为所述病情信息中有实际意义的词；

医疗方案确定模块803，用于将所述词频与预先生成的医疗方案数据库中的病情信息模板进行匹配，确定对应的医疗方案；

医疗方案推荐模块804，用于将所述医疗方案推荐给所述当前用户端。

此外，还包括数据库生成模块(图中未示出)，用于建立医疗方案数据库，具体为：

将所述新的医疗方案汇总起来，生成医疗方案数据库。

此外，还用于：

关于基于对抗神经网络的自动医疗方案推荐系统各模块的具体功能和原理参见上述方法实施例，这里不再重复赘述。

本申请实施例的基于对抗神经网络的自动医疗方案推荐系统，能够有效提高医疗系统的使用率、信任度和智能度。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种基于对抗神经网络的自动医疗方案推荐方法，其特征在于，包括：

将所述医疗方案推荐给所述当前用户端。

2.根据权利要求1所述的方法，其特征在于，所述提取所述病情信息中的词频，具体包括：

将剩余的词作为所述病情信息的词频。

3.根据权利要求2所述的方法，其特征在于，还包括医疗方案数据库的预先生成过程，具体为：

将所述新的医疗方案汇总起来，生成医疗方案数据库。

4.根据权利要求3所述的方法，其特征在于，在所述根据所述现有病情信息和所述对应的解决方案生成病情特征之后，还包括：

5.根据权利要求4所述的方法，其特征在于，所述将所述病情特征按照主题词进行分类，具体包括：

选择一篇医疗方案d_i，该医疗方案被选中的概率为P(d_i)；

选定该医疗方案d_i以后，确定医疗方案的主题分布；

从主题分布中按照概率P(z_k|d_i)选择一个隐含的主题类别z_k；

6.根据权利要求5所述的方法，其特征在于，所述将所述病情特征通过词组嵌入，映射到w维空间向量，生成医疗方案数据，利用对抗神经网络对所述医疗方案数据进行学习，生成新的医疗方案，具体包括：

minmaxV(D,G)＝E_x～Pdata(x)[logD(x)]+E_z～Pz(z)[log(1-(D(z)))]，

生成器是一个LSTM神经网络，目标函数如下：

7.根据权利要求6所述的方法，其特征在于，在所述将所述病情特征通过词组嵌入，映射到w维空间向量，生成医疗方案数据，利用对抗神经网络对所述医疗方案数据进行学习，生成新的医疗方案之后，还包括：

8.一种基于对抗神经网络的自动医疗方案推荐系统，其特征在于，包括：

9.根据权利要求8所述的系统，其特征在于，还包括：

数据库生成模块，用于建立医疗方案数据库，具体为：

将所述新的医疗方案汇总起来，生成医疗方案数据库。

10.根据权利要求9所述的系统，其特征在于，所述数据库生成模块，还用于：