CN109979558A

CN109979558A - 基于新型人工智能技术的症状药物关联关系分析方法

Info

Publication number: CN109979558A
Application number: CN201711439992.8A
Authority: CN
Inventors: 郑泽宇; 刘智; 周驰
Original assignee: Shenyang Institute of Automation of CAS
Current assignee: Shenyang Institute of Automation of CAS
Priority date: 2017-12-27
Filing date: 2017-12-27
Publication date: 2019-07-05
Anticipated expiration: 2037-12-27
Also published as: CN109979558B

Abstract

本发明涉及一种基于新型人工智能技术的症状药物关联关系分析方法，包括以下步骤：症状抽取模块，抽取患者的症状集S；症状词向量映射模块，将汉语症状集映射为高维稠密词向量集；症状词向量编码模块，利用长短期记忆网络编码模型对症状词向量集进行编码，产生包含全部症状信息的信息向量C以及n个症状编码信息向量集H_S；建议方生成模块，以信息向量C和症状编码信息向量集H_S为输入，利用结合注意力模型的长短期记忆网络生成模型，生成一个包含L味中药的建议药方，即症状到中药的关联关系。本发明从系统输入到系统输出，逻辑结构清晰，层次分明，系统实现细节详尽，实现了一种端到端(症状端‑中药端)的系统闭合工作方式，极易落地和大规模应用。

Description

基于新型人工智能技术的症状药物关联关系分析方法

技术领域

本发明涉及人工智能与中医两个交叉领域，具体是一种将人工智能应用于中医范畴针对症状-药物间关联关系自主分析并产生结果的智能中医方法。

背景技术

现阶段人工智能再度兴起且逐步步入各行各业，传统中医领域同样步入“人工智能+中医”时代。已有的智能中医系统多为中医四诊仪器和以专家系统、传统的机器学习方法为技术基础，以名老中医的经验或古代医术为知识实现智能中医系统。该种方法主要存在以下不足：1)已有方法实现的智能中医是基于规则且规则由人而定且固定不变，需要大量的人为参与且无法随实践行医过程发现新规律、新经验。2)目前已有的智能中医并没有将古代、近现代的实际中医医案作为智能中医系统的知识，然而这些在实际行医过程中产生的医案极具中医医学价值和分析价值。3)由于已有智能中医方法的实现方式决定了这些方法产生的药方是一成不变的，没有像中医医师一样发现新的有效的中药组合配比的能力。4)已有的智能中医系统无法自主分析发现症状-药物间的关联关系，该部分工作依然由人来承担；且有的系统结构复杂、逻辑不清、不宜于大规模应用。

发明内容

针对上述技术不足，本发明提出一种基于新型人工智能技术的症状药物关联关系分析方法。该方法并不拘泥于某一中医学派或名老中医的经验，以已有的中医各时期医案为基础，利用深度学习训练机制，该分析方法自主学习已有的各种中医医案案例。该方法模拟人的学习过程自主学习医案中包含的病症与中药的作用关系，自主产生经验规则而非人为设定。由于是自主学习医案，自主生成规则、最终自主产生中药组合，本方法具有通过大量的医案学习最终会学习到新的有效的药物配比组合的能力，能够自主发现新的病症-中药规则，发现症状和药物之间已知和未知的关联关系，协助人类医师为其提供药方组成参考并与其共同提升中药知识水平。自主整个过程几乎无需人为参与，仅在最终建议方生成阶段由中医医师参与其中。

本发明解决其技术问题所采用的技术方案是：基于新型人工智能技术的症状药物关联关系分析方法，包括以下步骤：

1)症状抽取模块：提取包含n个症状的症状集S＝{s₁,s₂,s₃,……,s_n}；

2)症状词向量映射模块：使用Embedding映射方法将症状集S的汉语症状映射为多维空间的症状词向量集，症状词向量由

计算得到，其中s_t为第t个症状，为向量映射函数，F表示映射函数，W_e和b_e为生成症状词向量e_t的参数；

3)症状词向量编码模块：根据症状词向量e_t，利用长短期记忆网络编码模型即编码LSTM模型对词向量集进行编码，产生包含全部症状的信息向量C以及n个症状编码信息向量集

4)建议药方生成模块：利用结合注意力模型的长短期记忆网络生成模型即生成LSTM模型，以步骤3)中的C和H_s为输入，生成由L味中药构成的建议药方。

所述步骤3)具体如下：

其中，e_t为第t个症状词向量，为前一个症状编码信息向量，W_i、b_i、W_f、b_f、W_o、b_o、W_C、b_C为编码LSTM模型的参数，σ和tanh是激活函数：

所述步骤4)具体如下：

生成LSTM模型的注意力模型的权重采用以下公式：

其中，e_j是产生第j味过程中药的输入，该输入是第j-1味中药；W_a、b_a是注意力模型的可训练权重，softmax为归一化函数；注意力权重a是一个n维的向量，向量中元素a_t对应第t个症状；

生成LSTM模型如下：

其中,weighted_h为注意力向量；e_j是产生第j味中药的输入即第j-1味中药，为第j-1味中药经过编码后的中药信息向量；W_i、b_i、W_f、b_f、W_o、b_o、W_C、b_C、W_M、b_M为生成LSTM模型参数，σ和tanh是激活函数，m_j为生成的第j味中药，其中j＝1,2,3,…,L；

上述公式依次执行直至产生结束标志为止，最终生成一个包含L味中药的建议药方M。

预先收集的医案数据生成样本进行训练，得到编码LSTM模型、生成LSTM模型参数，包括以下步骤：

将预先收集的医案中症状集和药方作为训练样本；其中，症状集作为输入，药方作为校验标签；

症状集输入至步骤2)中，经步骤2)-步骤4)，生成LSTM模型产生建议中药集；

生成的建议中药集与作为校验标签的医案中药集进行对比并生成误差值，利用反向传播算法和生成的误差值对编码LSTM模型的和生成LSTM模型参数进行更新；

反复执行步骤2)-4)，当误差值满足预定阈值时，最终得到编码LSTM模型的参数和生成LSTM模型参数。

基于新型人工智能技术的症状药物关联关系分析系统，包括：

症状抽取模块：用于提取包含n个症状的症状集S＝{s₁,s₂,s₃,……,s_n}；

症状词向量映射模块：用于使用Embedding映射方法将症状集S的汉语症状映射为多维空间的症状词向量集，症状词向量由

症状词向量编码模块：用于根据症状词向量e_t，利用长短期记忆网络编码模型即编码LSTM模型对词向量集进行编码，产生包含全部症状的信息向量C以及n个症状编码信息向量集

建议药方生成模块：用于利用结合注意力模型的长短期记忆网络生成模型即生成LSTM模型，以步骤3)中的C和H_s为输入，生成由L味中药构成的建议药方。

本发明具有以下有益效果及优点：

1.本发明的分析方法打破了传统专家系统和机器学习单一不变的工作方式，不仅参考中医古籍和名老中医行医经验，且以中医医案作为知识基础。

2.本发明的方法通过自主学习不仅能够产生已有的经典中药配比，且能够在此的基础上生成新的有效的建议方，能够自主发现新的病症-中药规则、发现症状和药物之间已知和未知的关联关系，自主学习、自主创新。

3.本发明方法在分析患者症状集时能够产生一些对某些症状有效但人类医师未考虑到的中药，作为人类中药医师的强大助手，协助人类医师为其提供药方组成参考并与其共同提升中药知识水平。

4.该系统设计方法从系统输入到系统输出，逻辑结构清晰，层次分明，系统实现细节详尽，实现了一种端到端(症状端-中药端)的系统闭合工作方式，极易推广和进行大规模应用。

附图说明

图1是本发明的系统流程图；

图2是症状名词-词向量映射示意图构图；

图3是中医症状自主诊断开方方法结构图；

具体实施方式

下面结合附图及实施对本发明做进一步的详细说明。该长短期记忆网络只是本方法的一种实现，任何其他形式的长短期记忆网络计算方法均属于本专利范围。

如图1、图2所示，本发明涉及一种基于新型人工智能技术的症状药物关联关系分析方法，此系统设计方法包括以下步骤：症状抽取模块，根据患者主诉及医生望闻问切得到的症状情况，凝练并抽取患者的症状集S；症状词向量映射模块，使用Embedding映射方法将汉语症状集映射为一组高维稠密词向量集；症状词向量编码模块，利用长短期记忆网络编码模型对症状词向量集进行编码，产生一个包含全部症状信息的信息向量C以及n个症状编码信息向量集H_s；建议药方生成模块，以信息向量C和症状编码信息向量集H_s为输入，利用结合注意力模型的长短期记忆网络生成模型依次生成一味中药直至产生结束符为止，最终生成一个包含L味中药的建议药方，即症状到中药的关联关系。本发明涉及的基于人工智能的症状药物关联关系自主分析方法有效的解决了现存的智能中医方法中症-药规则固定无更新、无法利用实际行医医案的经验知识以及中药方固定不变的问题。该方法改变了传统的由病症匹配唯一经典药方的智能中医形式，能够有效的学习实际行医医案中有效经验规律并结合古今中医经典作为症状到中药的依据；能够自主学习医案、中医经典中的规律，在已有的经典方的基础上做出优化创新，真正做到中医人工智能层面的对症下药；作为人类中药医师的强大助手，协助人类医师为其提供药方组成参考并与其共同提升中药知识水平。此外，该方法从系统输入到系统输出，逻辑结构清晰，层次分明，系统实现细节详尽，实现了一种端到端(症状端-中药端)的系统闭合工作方式，极易落地和大规模应用。

本发明涉及一种基于新型人工智能技术的症状药物关联关系分析方法。该方法主要包括：1)症状抽取模块，收集患者病症，构成症状集S；2)症状词向量编码模块，将症状集S映射为高维稠密词向量集，词向量集的个数与S中症状的个数相同；3)症状词向量编码模块，利用编码LSTM模型将症状集对应的词向量集进行信息编码，产生一个包含全部症状信息的信息向量C以及n个症状编码后信息向量集H_s；4)建议药方生成模块，利用生成LSTM模型，以步骤3)中产生的C和H_s为输入，产生注意力权重，逐步生成中药，最终构成建议药方。

(1)本方法将患者的症状凝练、提取为症状名词，然后生成本方法的输入数据，即症状集S。如医案中的症状包括：入睡困难，失眠，心慌憋气，醒后难以再寐甚至彻夜不寐，头晕，神疲，急躁易怒，舌暗，舌边有瘀斑，脉弦细。

(2)通过上述过程对症状集的收集，确定算法的输入症状。然后通过映射函数Embedding将症状集中的n个症状映射为高维空间中的症状词向量。例如，我们假设每个词向量的纬度是300，则(1)中10个症状将被映射为10个300维的向量集，即10×300的矩阵。该映射过程如图2所示。

(3)上述症状映射完成后，编码LSTM模型使用映射后的症状词向量集作为输入，编码过程由

计算得到。其中e_t为第t个症状词向量，为前一个经过编码LSTM模块编码后的症状信息向量，W_i、b_i、W_f、b_f、W_o、b_o、W_C、b_C为编码LSTM模型可训练参数，σ和tanh是激活函数，由

计算而得。每次编码LSTM模型将一个症状词向量集中的一个词向量e_t作为其输入，然后产生一个编码后的向量并更新一次症状编码向量C_t。编码LSTM按照这个过程依次执行n次，总计产生n个症状编码向量h_s以及对症状编码向量C更新n次；当整个过程执行结束时，向量C则编码了整个症状集所有的症状信息；整个过程中向量C与h_s不同，它始终唯一，仅在每次产生新的h_s时对C进行更新，因此向量C可以视为包含了所有症状信息的全局信息向量。编码LSTM模型的编码过程如图3上半部所示。

(4)编码阶段结束后，生成过程如图3下半部所示。生成LSTM模型以起始符为起点，向量C和症状编码向量集H_s为输入，依次生成一味中药，注意力权重即生成过程由

计算得到。其中e_j是产生第j味中药的输入，该输入是第j-1味中药，初值为起始符，如图3所示。W_a、b_a是注意力模型的可训练权重，softmax为归一化函数，使注意力权重向量a各元素和为1，x_j表示对向量x中第j个元素进行归一化，K为向量x的长度。weighted_h为将注意力权重a应用到症状编码向量集H_s后得到的加权信息向量。第j-1味经过生成LSTM模型编码后的中药信息向量，初始值为W_i、b_i、W_f、b_f、W_o、b_o、W_C、b_C、W_M、b_M为生成LSTM模型可训练参数，W_M和b_M为生成中药模块的可训练参数，σ和tanh是激活函数同编码LSTM模型，m_j为生成的第j味中药。生成LSTM模型的生成过程将一直执行知道产生结束标志，最终产生的建议药方M包含了整个过程中产生的L味中药。

5)本分析方法利用机器学习训练方法对整个过程进行训练，样本集由医案症状集、药方、中医知识构成，训练过程计算模型产生的建议方中的中药与医案药方中的中药的误差，利用该误差值和反向传播算法(Back Propagation)计算步骤2)、3)、4)中对应的各部分训练参数(如W和b,此处略去下标)的更新值，进而自动对整个模型进行训练优化。

将预先收集的医案中症状集和药方作为训练样本。其中，症状集作为输入，药方作为校验标签。症状集输入至权利要求1的步骤2)中，经过步骤2)-4)的计算，生成LSTM模型产生的建议中药集将作为本发明提出的方法的输出。生成的建议中药集与作为校验标签的医案中药集进行对比并生成误差值，利用反向传播算法(Back Propagation)和生成的误差值对编码LSTM模型的和生成LSTM模型参数进行更新优化。利用这些医案数据通过反复执行步骤2)、3)、4)，最终得到编码LSTM模型的参数和生成LSTM模型参数。

Claims

1.基于新型人工智能技术的症状药物关联关系分析方法，其特征在于包括以下步骤：

2.根据权利要求1所述的基于新型人工智能技术的症状药物关联关系分析方法，其特征在于，所述步骤3)具体如下：

3.根据权利要求1所述的基于新型人工智能技术的症状药物关联关系分析方法，其特征在于所述步骤4)具体如下：

生成LSTM模型的注意力模型的权重采用以下公式：

生成LSTM模型如下：

4.根据权利要求1所述的基于新型人工智能技术的症状药物关联关系分析方法，其特征在于，预先收集的医案数据生成样本进行训练，得到编码LSTM模型、生成LSTM模型参数，包括以下步骤：

5.基于新型人工智能技术的症状药物关联关系分析系统，其特征在于包括：

计算得到，其中s_t为第t个症状，F为向量映射函数，F表示映射函数，W_e和b_e为生成症状词向量e_t的参数；