CN113554053A

CN113554053A - 一种比较中药处方相似性的方法

Info

Publication number: CN113554053A
Application number: CN202110553551.0A
Authority: CN
Inventors: 李天泉; 杨建明; 史晓雨; 张好霞; 郭诗琦; 陈浩
Original assignee: Chongqing Kangzhou Pharmaceutical Big Data Development And Application Research Institute; Chongqing Kangzhou Big Data Co ltd
Current assignee: Chongqing Kangzhou Pharmaceutical Big Data Development And Application Research Institute; Chongqing Kangzhou Big Data Co ltd
Priority date: 2021-05-20
Filing date: 2021-05-20
Publication date: 2021-10-26
Anticipated expiration: 2041-05-20
Also published as: CN113554053B

Abstract

本发明公开了一种比较中药处方相似性的方法，包括：对中药处方数据库中的中药处方文本进行分词，生成词汇表；根据所述词汇表生成药材分词向量；计算每个处方中的药材分词向量的分词权重；根据所述药材的分词向量与对应的所述分词权重生成处方的短文本向量；获取短文本向量之间的相互关联程度；根据所述短文本向量之间的相互关联程度计算处方相似度。本发明提供一种比较中药处方相似性的方法，用one‑hot编码处理处方中药材的词向量，再利用TF‑IDF和Word2Vec进行处方短文本特性向量，最后采用计算信息增益的方法计算处方短文本向量的关联程度，归一化后得到处方之间的相似度，将比较结果和解释展示给用户，实现了更加高效、快捷、准确的实现中药处方的相似度比较功能。

Description

一种比较中药处方相似性的方法

技术领域

本发明涉及数据处理技术领域，具体涉及一种比较中药处方相似性的方法。

背景技术

当前，中医药的振兴发展迎来发展的大好时机，坚持传承精华，做到守正创新，加快推进中医药现代化产业化。目前中药处方(包括中成药处方/中药方剂)有几万个品种，实际上临床不需要那么多。但处方类似、功能主治相同的中药处方之间，由于处方中的药品名、处方数量、处方中的药材名、用量等关键信息出现写法不一致，不规范、一义多词、多词一义或别称的情况，导致医生重复开药、加重患者负担。如何充分利用现有处方对中成药或中药方剂进行二次开发，避免低水平重复研发，有必要对不同的中成药处方或中药方剂之间的相似性进行分析。

利用大数据挖掘方法研究中医药学，建立模型，规避研究人员本身的经验或者知识结构固化的限制，挖掘出现有中医药学的之外的潜在信息，大大提高研究思路的创新性和多样性，从而更快更优的挖掘出分散的传统中药数据背后潜藏的价值，对于推动创新中医药发展，传承中医精神有重要意义。

发明内容

有鉴于此，本发明的目的在于提供一种比较中药处方相似性的方法，能够更加高效、快捷、准确的实现中药处方的相似度比较功能。

本发明的目的是通过以下技术方案来实现的：一种比较中药处方相似性的方法，包括：

对中药处方数据库中的中药处方文本进行分词，生成词汇表；

根据所述词汇表生成药材分词向量；

计算每个处方中的药材分词向量的分词权重；

根据所述药材的分词向量与对应的所述分词权重生成处方的短文本向量；

获取短文本向量之间的相互关联程度；

根据所述短文本向量之间的相互关联程度计算处方相似度。

可选地，所述根据所述词汇表生成药材分词向量，包括：

将所述词汇表中的每个分词进行one-hot编码，生成分词向量；

按照某个词在所述词汇表中出现的位置，将所述分词向量中对应的位置的值设置为1，其他位置的值设置为0；如果所述词汇表中没有某个词，则向量为全0向量；

确定分词向量的维数。

可选地，所述计算每个处方中的药材分词向量的分词权重，包括：

采用TF-IDF公式计算每个处方中的药材分词向量的分词权重。

可选地，所述分词向量的TF-IDF权重归一化公式为：

分词向量的TF-IDF权重归一化公式包括：TF词频tf公式和IDF逆文件频率idf_i公式，TF 词频tf公式为：

其中l_i,j表示药材t_i在处方d_j中的用量，∑_kl_k,j表示处方d_j中所有药材的用量之和；IDF逆文件频率idf_i的公式为：

其中|D|表示中处方的总数，|{j:t_i∈d_j}|表示包含药材t_i的处方数量。

可选地，所述根据所述药材的分词向量与对应的所述分词权重生成处方的短文本向量，包括：

根据所述药材的分词向量与对应的所述分词权重将所述分词向量进行线性相加，生成处方的短文本向量；

每个处方d_j的短文本向量：

其中w_t表示药材t_i的分词向量经过 Word2Vec模型训练出来的词向量，tf-idf_i表药材t_i的分词向量引入的分词权重因子。

可选地，所述获取短文本向量之间的相互关联程度，包括：

计算短文本向量T_A中某一药材的分词向量t与短文本向量T_B的相互关联程度I(t；T)，

其中p(t)是指分词向量t在短文本向量中出现的概率，p(T_i) 表示中药处方数据库中的处方属于处方T_i的概率，p(t,T_i)表示处方T_i中出现分词向量t的处方数目与整个中药处方数据库中处方数目之比；

将短文本向量T_A中所有的药材的分词向量t_a与短文本向量T_B的关联程度进行求和，得到短文本向量之间的相互关联程度，所述短文本向量之间的相互关联程度为：

其中，t_a是指处方短文本向量T_A中出现的分词向量，

是指分词向量t_a的用量关联度。

可选地，所述用量关联度的计算公式为：

其中l_max是指药材分词向量t_i在短文本向量T_A或短文本向量T_B中用量的最大值，l_min是指药材分词向量t_i在短文本向量T_A或短文本向量T_B中用量的最小值。

可选地，所述根据所述短文本向量之间的相互关联程度计算处方相似度，包括：

将短文本向量之间的相互关联程度进行非线性归一化得到处方相似度，归一化公式为：

可选地，还包括：对中药处方数据库中的数据进行数据清洗处理。

由于采用了上述技术方案，本发明具有如下的优点：

本发明提供一种比较中药处方相似性的方法，用one-hot编码处理处方中药材的词向量，再利用TF-IDF和Word2Vec进行处方短文本特性向量，最后采用计算信息增益的方法计算处方短文本向量的关联程度，归一化后得到处方之间的相似度，将比较结果和解释展示给用户，实现了更加高效、快捷、准确的实现中药处方的相似度比较功能。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

本发明的附图说明如下。

图1为本发明一实施例中比较中药处方相似性的方法的流程图；

图2为本发明一实施例中one-Hot编码示意图；

图3为本发明一实施例中实施范例的框架图；

图4为本发明一实施例中Word2Vec网络模型图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

针对已有的中药处方，本申请实施例提供了一种比较中药处方相似性的方法

如图1所示，包括以下步骤：

步骤S1,对中药处方数据库中的中药处方文本进行分词，生成词汇表；

其中，根据所收集的中药处方，选取中药处方的属性和中药处方的所含的药材种类，提取所需的处方和药材数据信息，建立中药处方数据库，中药处方数据库包含了三张数据表：处方数据表、药材数据表、病症数据表。处方数据表包含了：处方名、所含药品及用量、主治病症字段；药材数据表包含了：药材名、药材功效字段；病症中药处方数据库包含了：病名、病因、症状字段。

在一实施例中，还包括对中药处方数据库中的处方数据进行数据清洗，针对不规范写法、一义多词、多词一义、别称的情况，基于设计聚合、拆分规则，纠正错误用语，保证药材名、病症名及其描述、药材用量计量单位、主治功能信息的唯一性和准确性。清洗的必要处理包括了：统一同一药材的不同名称；同一病因的不同名称；同一症状的描述和名称；药材用量的计量单位；同效处方的不同名称。

在完成数据清洗后，将处方中的每一个药品的名称及其对应的药材用量提取出来，形成一张词汇表；

步骤S2,根据所述词汇表生成药材分词向量；

具体地，如图2，结合图2，采用one-hot编码对词汇表中的每个分词进行预处理，生成多个分词向量，按照某个词在所述词汇表中出现的位置，将所述分词向量中对应的位置的值设置为1，其他位置的值设置为0；如果所述词汇表中没有某个词，则向量为全0向量；确定分词向量的维数。具体为，对处方中的不同药材种类和用量进行one-hot编码，按药材种类化为1200 维，按药材用量化为300种。由于各个类别之间是相互独立的，所以使用one-hot编码对这个信息进行编码。其中，one-hot编码，又称为一位有效编码，主要是采用N位状态向量来对N 个状态进行编码，每个状态都由它独立的状态位，并且在任意时候只有一位有效。one-hot编码首先要求将分类值映射到整数值，然后，每个整数值被表示为二进制向量，除了整数的索引之外，其它都是零值，则被标记为1。例如：对有两种药材的处方进行one-hot编码，则第一个药材的one-hot编码值为[1,0]，第二个药材的编码值为[0,1]。

步骤S3,计算每个处方中的药材分词向量的分词权重；

采用TF-IDF(term frequency–inverse document frequency,TF-IDF,是一种用于信息检索与数据挖掘的常用加权技术)公式计算每个处方中的药材分词向量的分词权重。

具体地，所述分词向量的TF-IDF权重归一化公式为：

步骤S4,根据所述药材的分词向量与对应的所述分词权重生成处方的短文本向量，包括：

每个处方d_j的短文本向量：

其中w_t表示药材的分词向量t_i经过 Word2Vec网络模型训练出来的词向量，tf-idf_i表药材的分词向量t_i引入的分词权重因子。

结合图4具体来说，Word2Vec网络模型根据公式

结合层次化softmax函数和负采样技术后对Word2Vec采用随机梯度下降算法进行求解最优化参数，在公式中v_w和v'_w分别代表词w的输入输出词向量。

步骤S5,获取短文本向量之间的相互关联程度；

得到短文本向量后，使用互信息(信息增益)来衡量两个处方短文本向量T_A、T_B之间相互关联程度，首先计算短文本向量T_A中某一药材的分词向量t与短文本向量T_B的相互关联程度 I(t；T)，所述计算关联程度I(t；T)的公式为：

其中p(t)是指分词向量t在短文本向量中出现的概率，p(T_i)表示中药处方数据库中的处方属于处方T_i的概率，p(t,T_i)表示处方T_i中出现分词向量t的处方数目与整个中药处方数据库中处方数目之比；

然后再将处方短文本向量T_A中所有的药材的分词向量t_a与处方短文本向量T_B的关联程度进行求和，所述关联程度求和公式为：

其中

为用量关联度，计算公式为：

其中l_max是指药材词向量t_i在处方短文本向量T_A或T_B中用量的最大值，l_min是指药材分词向量t_i在短文本向量T_A或短文本向量T_B中用量的最小值。

步骤S6,根据所述短文本向量之间的相互关联程度计算处方相似度。

将关联程度进行非线性归一化得到处方短文本向量的相似度，归一化公式为：

得到相似度后，按相似度从高到低进行对处方进行排序，将排序后的处方列表展现给用户，并标明列表中每一个处方与比较处方的相似点，例如标明与被处方相同的药材、标明与被比较处方中相同药材相近的药材用量。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的保护范围当中。