CN114446488A

CN114446488A - 一种中药方剂识别方法及系统

Info

Publication number: CN114446488A
Application number: CN202210028537.3A
Authority: CN
Inventors: 文天才; 张兴平; 王斌; 王怡菲
Original assignee: Institute Of Information On Traditional Chinese Medicine Cacms
Current assignee: Institute Of Information On Traditional Chinese Medicine Cacms
Priority date: 2022-01-11
Filing date: 2022-01-11
Publication date: 2022-05-06

Abstract

本发明提供了一种中药方剂识别方法及系统，其中，中药方剂识别方法包括：获取待识别中药方剂；基于待识别中药方剂内各药物的名称，从标准中药方剂库中筛选候选方剂；基于方剂配伍组成，分别计算待识别中药方剂和各个候选方剂的相似度，得到各个候选方剂的相似度结果；基于各个候选方剂的相似度结果，确定待识别中药方剂对应的标准中药方剂名称。通过利用待识别中药方剂内药物名称，从标准中药方剂库内筛选出候选方剂，保证了候选方剂的全面性；基于方剂配伍组成进行待识别中药方剂和候选方剂之间的相似度计算，充分考虑了各个药物在方剂中的功效，从而实现了将待识别中药方剂和经典方剂的匹配，保证了匹配结果的准确度。

Description

一种中药方剂识别方法及系统

技术领域

本发明涉及中医中药领域，具体涉及一种中药方剂识别方法及系统。

背景技术

方剂是连接中医基础理论与中医临床实践的桥梁,是中医研究的核心内容，尤其是挖掘名老中医诊疗思维的手段。方剂并非是药物的堆积，而是在中医理论的指导下使用多种中药进行组方配伍，进而实现增效减毒以发挥最佳疗效的药物组合。在一份经典中药处方中，不同中药承担了不同的角色以实现不同功效，而相同的药物在不同的处方中所承担的角色亦不同。在实际临床实践中，医生依据多个经典处方进行组合加减，进而针对不同的病情形成新的中药方剂，但目前的中药方剂识别方法主要是基于药物组成将中药方剂与经典方剂进行匹配，存在着准确度不高、无法将新的中药方剂与经典方剂精准匹配的问题。

发明内容

因此，本发明要解决的技术问题在于克服现有中药方剂识别方法准确性不高、无法将中药方剂同经典方剂进行匹配的缺陷，从而提供一种中药方剂识别方法及系统。

根据第一方面，本发明实施例提供了一种中药方剂识别方法，所述方法包括：

获取待识别中药方剂；

基于所述待识别中药方剂内各药物的名称，从标准中药方剂库中筛选候选方剂；

基于方剂配伍组成，分别计算所述待识别中药方剂和各个候选方剂的相似度，得到各个候选方剂的相似度结果；

基于所述各个候选方剂的相似度结果，确定所述待识别中药方剂对应的标准中药方剂名称。

可选地，所述基于所述待识别中药方剂内各药物的名称，从标准中药方剂库中筛选候选方剂，包括：

依次从所述标准中药方剂库中提取当前标准中药方剂；

判断所述当前标准中药方剂内的药物名称是否与所述待识别中药方剂内的药物名称存在重叠；

在当前标准中药方剂内的药物名称与所述待识别中药方剂内的药物名称存在重叠时，将所述当前标准中药方剂确定为候选方剂。

可选地，所述方剂配伍组成包括君药、臣药、佐药和使药，所述基于方剂配伍组成，分别计算所述待识别中药方剂和各个候选方剂的相似度，得到各个候选方剂的相似度结果，包括：

分别计算所述待识别中药方剂和所述各个候选方剂的君药相似度、臣药相似度、佐药相似度和使药相似度，得到对应所述各个候选方剂的君药相似度结果、臣药相似度结果、佐药相似度结果和使药相似度结果；

计算所述待识别中药方剂和所述各个候选方剂的整方相似度，得到所述各个候选方剂的整方相似度结果。

可选地，所述基于所述各个候选方剂的相似度结果，确定所述待识别中药方剂对应的标准中药方剂名称，包括：

分别将各个候选方剂的相似度结果输入预设方剂识别模型，得到各个候选方剂对应的预测值；

对各个候选方剂的预测值进行排序，得到各个候选方剂的预测值排序结果；

基于所述预测值排序结果，确定所述待识别中药方剂对应的标准中药方剂名称。

可选地，所述基于所述预测值排序结果，确定所述待识别中药方剂对应的标准中药方剂名称，包括：

基于所述预测值排序结果，从各个候选方剂中筛选满足预设方剂筛选数量或预设预测值阈值的第一候选方剂；

将第一候选方剂对应的方剂名称，确定为所述待识别中药方剂对应的标准中药方剂名称。

可选地，所述预设方剂识别模型的训练模型通过如下公式表示：

logit(Y)＝β₀+β₁d₁+β₂d₂+β₃d₃+β₄d₄+β₅d₅

其中，logit(Y)为待识别中药方剂是候选方剂Y的预测值，Y为候选方剂，d_i为待识别中药方剂与候选方剂Y的相似度结果，i＝1,2,3,4,5，d_i分别表示君药、臣药、佐药、使药和整方的相似度结果，β₀为常数，β_i为预设方剂识别模型的模型参数，分别与d_i对应。

可选地，所述预设方剂识别模型通过如下方式进行训练：

获取带有标准中药方剂名称标识的中药方剂样本；

计算中药方剂样本与其对应各个候选方剂的相似度结果；

将各个候选方剂的相似度结果分别输入预设方剂识别模型，得到中药方剂样本是候选方剂的预测值；

基于所述预测值与所述中药方剂样本对应的标准中药方剂名称标识的差异，调整所述预设方剂识别模型的模型参数，直至预测结果与所述中药方剂样本对应的标准中药方剂名称标识一致，得到训练好的预设方剂识别模型。

根据第二方面，本发明实施例提供了一种中药方剂识别系统，所述系统包括：

获取模块，用于获取待识别中药方剂；

第一处理模块，用于基于所述待识别中药方剂内各药物的名称，从标准中药方剂库中筛选候选方剂；

第二处理模块，用于基于方剂配伍组成，分别计算所述待识别中药方剂和各个候选方剂的相似度，得到各个候选方剂的相似度结果；

识别模块，用于基于所述各个候选方剂的相似度结果，确定所述待识别中药方剂对应的标准中药方剂名称。

根据第三方面，本发明实施例提供了一种电子设备，包括：

存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行第一方面，或者第一方面任意一种可选实施方式中所述的方法。

根据第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行第一方面，或者第一方面任意一种可选实施方式中所述的方法。

本发明技术方案，具有如下优点：

本发明实施例提供的中药方剂识别方法及系统，通过获取待识别中药方剂；基于所述待识别中药方剂内各药物的名称，从标准中药方剂库中筛选候选方剂；基于方剂配伍组成，分别计算所述待识别中药方剂和各个候选方剂的相似度，得到各个候选方剂的相似度结果；基于所述各个候选方剂的相似度结果，确定所述待识别中药方剂对应的标准中药方剂名称。通过利用待识别中药方剂内药物名称，从标准中药方剂库内筛选出候选方剂，保证了候选方剂的全面性；基于方剂配伍组成进行待识别中药方剂和候选方剂之间的相似度计算，充分考虑了各个药物在方剂中的功效，从而实现了将待识别中药方剂和经典方剂的匹配，保证了匹配结果的准确度。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的中药方剂识别方法的流程图；

图2为本发明实施例的中药方剂识别方法的标准方剂数据整理示意图；

图3为本发明实施例的中药方剂识别方法的实际中药方剂和标准方剂的对比示意图；

图4为本发明实施例的中药方剂识别方法的算法框架图；

图5为本发明实施例的中药方剂识别系统的结构示意图；

图6为本发明实施例的中药方剂识别系统的中医方剂识别软件显示界面图；

图7为本发明实施例的一种电子设备的结构示意图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，还可以是两个元件内部的连通，可以是无线连接，也可以是有线连接。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

本发明实施例提供了一种中药方剂识别方法，如图1所示，该中药方剂识别方法具体包括如下步骤：

步骤S101：获取待识别中药方剂。在实际应用中，随着电子病历系统的普及，诊疗过程中的方剂信息也可以以电子处方的形式进行储存，这为方剂学的临床实际应用提供了丰富的数据资源。本发明实施例的待识别中药方剂也是从电子处方中获取得到。

步骤S102：基于待识别中药方剂内各药物的名称，从标准中药方剂库中筛选候选方剂。在实际应用中，如图2所示，标准中药方剂库包括从《方剂学》(第十版)内选取以及专业方剂网站收集包含“君臣佐使”配伍信息的方剂数据，在本发明实施例中标准中药方剂数据为376条，提取出方剂名称、出处、组成和配伍信息，标识每味药物的“君、臣、佐、使”属性。但实际情况不限于此，为筛选候选方剂而进行标准中药方剂库数据的扩充也在本发明实施例提供的中药方剂识别方法的保护范围之内。

具体地，在一实施例中，上述步骤S102具体包括如下步骤：

步骤S201：依次从标准中药方剂库中提取当前标准中药方剂。

步骤S202：判断当前标准中药方剂内的药物名称是否与待识别中药方剂内的药物名称存在重叠。

步骤S203：在当前标准中药方剂内的药物名称与待识别中药方剂内的药物名称存在重叠时，将当前标准中药方剂确定为候选方剂。

在实际应用中，考虑到临床实践中医生确定中药处方可能会参考多个方剂，且中药标准方剂集合规模较小，因此在候选方剂选择时采用较为简单的中药集合运算方法，定义如公式(1)所示：

C(A，B)＝|A∩B| (1)

其中，A代表待识别中药方剂中所有中药组成的集合，B代表一个标准方剂中所有中药组成的集合，C(A,B)代表两个集合中存在中药交集的数量。当C(A,B)≥1时，则将该标准方剂纳入候选方剂集合。

步骤S103：基于方剂配伍组成，分别计算待识别中药方剂和各个候选方剂的相似度，得到各个候选方剂的相似度结果。在实际应用中，会存在多个候选方剂和待识别中药方剂都存在中药组成重复的情况，为了筛选出与待识别中药方剂更为接近的标准中药方剂，需要对候选方剂的相似度进行计算，依据相似度结果确定与待识别中药方剂更为接近的标准中药方剂名称。

具体地，在一实施例中，上述步骤S103具体包括如下步骤：

步骤S301：分别计算待识别中药方剂和各个候选方剂的君药相似度、臣药相似度、佐药相似度和使药相似度，得到对应各个候选方剂的君药相似度结果、臣药相似度结果、佐药相似度结果和使药相似度结果。

步骤S302：计算待识别中药方剂和各个候选方剂的整方相似度，得到各个候选方剂的整方相似度结果。

(1)距离系数

在本发明实施例中，定义距离系数为待识别组方的中药组成集合与候选方剂中药组成集合的交集与候选方剂中药组成集合之比，如公式(2)所示：

其中，A代表待识别中药方剂中所有中药组成的集合，B代表一个标准方剂中所有中药组成的集合，d代表两个集合中存在中药交集占候选方剂中药集合的比例，d的取值范围在0～1之间。

在本发明实施例中，涉及到君、臣、佐、使和整方5个距离系数。D(A,B)中A为待识别中药方剂中所有中药组成的集合，B代表标准方剂中所有君、臣、佐、使药或标准方全部中药的集合，从而可以得到5个不同集合的距离系数d₁～d₅，d₁～d₅分别对应君药集合的距离系数、臣药集合的距离系数、佐药集合的距离系数、使药集合的距离系数和整方集合的距离系数。

(2)权重系数

本发明实施例中的权重系数代表君、臣、佐、使与整方5个距离系数对方剂识别的相对重要性，分别标记为w₁～w₅，其估计方法采用回归系数法，由于方剂识别结果Y通常只有两种，即正确(Y＝1)或错误(Y＝0)，故可以构建以d₁～d₅为自变量，以方剂识别结果Y为因变量的Logistic回归模型，Logistic回归模型即为预设方剂识别模型的训练模型，其具体构建过程如公式(3)所示：

logit(Y)＝β₀+β₁d₁+β₂d₂+β₃d₃+β₄d₄+β₅d₅ (3)

其中，按照Logistic回归模型的定义，上式中Logit(Y)为当前方剂被判定正确概率与错误概率商的自然对数，β₀为常数，β₁～β₅为回归模型中d₁～d₅的系数，其在一定程度上反映了自变量对因变量的重要性。

在实际应用中，考虑到模型自变量d₁～d₅存在的变异也可能影响到自变量对因变量的重要程度，因此还可以对上述公式(3)的回归模型进行优化，以进一步提高最终预测结果的准确性。

首先需要对β₁～β₅进行标准化得到β′₁～β′₅，并以此得到权重系数公式如公式(4)和公式(5)所示：

其中，β_i代表回归模型中回归系数，β′_i代表标准化回归系数，S_i为自变量d_i的标准差，i＝1,2,3,4,5。标准化回归系数β′_i需要再次标准化并成为本算法使用的权重系数w_i。

(3)相似度系数

为了综合判定方剂识别结果，本发明实施例通过对回归模型进行优化，建立相似度系数来表示待识别中药方剂和候选方剂之间的相似度程度，各个候选方剂的相似度结果均通过优化后含相似度系数的回归模型进行计算得到。

优化后含相似度系数的回归模型如公式(6)所示：

sim＝∑d_iw_i (6)

其中，sim表示待识别中药方剂与候选方剂的相似度，sim∈[0,1]，d_i和w_i分别表示第i个距离系数和第i个权重系数，i＝1,2,3,4,5。

步骤S104：基于各个候选方剂的相似度结果，确定待识别中药方剂对应的标准中药方剂名称。在实际应用中，本发明实施例将不同的中药按照中医“君臣佐使”思想被赋予不同权重，并基于该权重构建一个综合相似度评价指标来测量医生自拟方与标准方的距离，并输出满足评价指标的标准中药方剂名称。

通过执行上述步骤，本发明实施例提供的中药方剂识别方法，通过获取待识别中药方剂；基于待识别中药方剂内各药物的名称，从标准中药方剂库中筛选候选方剂；基于方剂配伍组成，分别计算待识别中药方剂和各个候选方剂的相似度，得到各个候选方剂的相似度结果；基于各个候选方剂的相似度结果，确定待识别中药方剂对应的标准中药方剂名称。通过利用待识别中药方剂内药物名称，从标准中药方剂库内筛选出候选方剂，保证了候选方剂的全面性；基于方剂配伍组成进行待识别中药方剂和候选方剂之间的相似度计算，充分考虑了各个药物在方剂中的功效，从而实现了将待识别中药方剂和经典方剂的匹配，保证了匹配结果的准确度。

具体地，在一实施例中，上述步骤S104具体包括如下步骤：

步骤S401：分别将各个候选方剂的相似度结果输入预设方剂识别模型，得到各个候选方剂对应的预测值。

具体地，在一实施例中，上述步骤S401中预设方剂识别模型的训练过程具体包括如下步骤：

步骤S501：获取带有标准中药方剂名称标识的中药方剂样本。

示例性地，本发明实施例从中国中医科学院中医药数据中心数据仓库提取出真实世界临床病例中药处方数据随机抽取2000份中药处方，去除重复处方后得到1438份。由两名具有丰富经验的中医师依照标准方剂数据集对1438份数据进行人工识别并标记标准方剂名称，如果该组方涉及多个标准方剂则标记多个名称。从该1438份数据中随机抽取70％(n＝1000)作为训练集，其余30％(n＝438)作为测试集。

示例性地，如图3所示，某待识别中药方剂包括10位中药组成，中医师判定该方剂主要由痛泻要方和厚朴温中汤组成。在痛泻要方中，白术为君药，白芍为臣药，陈皮为佐药，防风为使药。在厚朴温中汤中，厚朴为君药，草豆蔻为臣药，陈皮、茯苓、木香、生姜为佐药，炙甘草为使药。可以看出，陈皮在痛泻要方和厚朴温中汤中都充当了佐药的角色。而标准方剂厚朴温中汤中木香和生姜尽管未出现在在当前方剂中，但由于其他组成中药尤其是君药和臣药都出现在了方剂中，因此医生也判定该方剂包含了厚朴温中汤。

步骤S502：计算中药方剂样本与其对应各个候选方剂的相似度结果。

在实际应用中，本发明实施例首先将候选方剂中不同的中药进行权重计算，基于该权重构建综合相似度评价指标来综合判定方剂识别结果。在训练过程中，权重构建过程需要使用到Logistic回归，而Logistic回归需要使用到正例和负例数据。考虑到最终训练模型的处方识别效果，构建的负例样本可与正例样本在特征上存在一定的相似性，以增强模型的稳健性。因此，本发明实施例利用交集比例算法对训练集数据进行方剂识别，将那些标准方剂名称识别错误，但匹配概率大于0.5(依据步骤S302中的公式)的预测数据作为训练集中的负例。

基于以上思想，本研究首先利用公式(1)构建训练集中每份样本对应候选方剂集合，并依据公式(2)求解所有待识别样本与对应候选方剂的距离d_i。在此基础上，利用公式(3)构建Logistic回归模型，利用公式(4)和公式(5)分别计算出整方与君、臣、佐、使5个距离系数对方剂识别的相对重要性权重w_i。

步骤S503：将各个候选方剂的相似度结果分别输入预设方剂识别模型，得到中药方剂样本是候选方剂的预测值。

步骤S504：基于预测值与中药方剂样本对应的标准中药方剂名称标识的差异，调整预设方剂识别模型的模型参数，直至预测结果与中药方剂样本对应的标准中药方剂名称标识一致，得到训练好的预设方剂识别模型。

在实际应用中，依据公式(6)，所有待识别中药方剂与候选方剂都可以计算得到一个相似度系数sim，但一个待识别中药方剂可能与多个候选方剂的相似度系数均较高，这说明一个待识别中药方剂可能是由多个标准方剂组合而成，这时候就需要确定一个合适的阈值来确定最终的方剂名称。

本发明实施例将以全集匹配算法AM作为基础算法，以基于君臣佐使原则且不含全集权重的多模式匹配算法(JCZSWM-All)和基于君臣佐使原则且含全集权重的多模式匹配算法(JCZSWM+All)两者与基础算法进行比较。依据AM算法原理，直接以公式(2)中的计算结果作为相似度系数，即sim_AM＝d。在JCZSWM-All和JCZSWM+All算法中，依据公式(3～6)计算相似度系数sim，但JCZSWM-All算法不包括w₅，而JCZSWM+All算法包括w₅。

寻找最优相似度系数，本发明实施例依次设定阈值为[0,1]之间实数，并按照公式(7～9)中计算精确率、召回率和F1值，取使F1值达到最大时的相似度系数sim。同时，考虑到样本数据可能存在混杂或偏性，本发明实施例在每个不同相似度sim阈值时，采用Bootstrap(有放回的均匀抽样)方法每次从训练集中随机抽取200个样本，并重复抽样100次。利用每200个样本计算精确率、召回率和F1值，从而得到100个精确率、召回率和F1值。而最终该阈值下相似度系数sim的模型评价结果将取100个精确率、召回率和F1值的均值。

在实际应用中，本发明实施例通过建立评价指标对预设方剂识别模型的模型参数进行调整，如表1所示，建立算法识别结果与人工标识结果的混淆矩阵。

表1混淆矩阵

其中，n代表样本编号，N代表样本量，A为人工标记方剂名称集合，B为基于预设方剂识别模型识别的标准方剂名称集合。

本发明实施例中，建立下述3个评价指标：

(1)精确率

精确率是指基于预设方剂识别模型获取的标准中药方剂为正确中药方剂的比率，精确率的计算公式如下：

(2)召回率

召回率是指在人工标注方剂中，能被预设方剂识别模型识别的比率，召回率的计算公式如下：

(3)F1值

F1值为综合评价指标，用于综合评价精确与召回率，F1值的计算公式如下：

步骤S402：对各个候选方剂的预测值进行排序，得到各个候选方剂的预测值排序结果。在实际应用中，一个待识别中药方剂可能会对应多个候选方剂，为了更加清晰地了解待识别中药方剂中各药物的作用，需要对得到的各个候选方剂的预测值进行排序。

步骤S403：基于预测值排序结果，确定待识别中药方剂对应的标准中药方剂名称。根据预设值的排序结果，结合评价指标，将与待识别中药方剂最接近的候选方剂名称进行输出，输出结果即为待识别中药方剂所对应的标准中药方剂名称。

通过将各候选方剂的预测值进行排序，可筛选出与待识别中药方剂更加匹配的候选方剂，结合评价指标，可灵活获取与待识别中药方剂对应的标准中药方剂名称，在提高对经典方剂的识别率的同时，也为研究中医的用药思维和挖掘潜在有效核心方药提供了有效帮助。

具体地，在一实施例中，上述步骤S403具体包括如下步骤：

步骤S601：基于预测值排序结果，从各个候选方剂中筛选满足预设方剂筛选数量或预设预测值阈值的第一候选方剂。在本发明实施例中，预设预测阈值根据实际情况人为设定，假定选定的预设预测阈值为0.7时，则将预测值大于等于0.7的第一候选方剂进行输出。通过设定方剂筛选数量或者预设预测值，可以使输出结果更加灵活、全面，有效地帮助了中医药研究人员精确掌握处方中不同中药的角色。

步骤S602：将第一候选方剂对应的方剂名称，确定为待识别中药方剂对应的标准中药方剂名称。

依照“君臣佐使”的配伍原则来认识和分析方剂，才能充分体会中医师诊疗疾病的特色与规律，在继承前人经验的基础上，有效训练临证用药技艺、提高辨证论治水平。在“君臣佐使”配伍原则的支持下，中药方剂的识别质量更高、更具合理性，与中医理论更契合，从而可以有效地帮助中医药研究人员精确掌握处方中不同中药的角色。

下面将结合具体应用示例，对本发明实施例提供的中药方剂识别方法进行详细的说明。

如图4所示，在本发明实施例中，针对任意包含多味中药的待识别中药方剂，首先从标准的方剂集中筛选出候选方剂集合，然后分别计算待识别中药方剂与标准方剂的整方距离以及君药、臣药、佐药和使药距离并乘以相应权重并求和，从而得到所有候选方剂的概率系数。通过对该方剂识别模型进行训练，最终可以得到一个合适的概率系数阈值，方剂识别模型将输出比该阈值大的所有标准中药方剂名称。

(1)纳入方剂基本情况

如表2所示，本发明实施例共纳入标准方剂376首，涉及中药419味，平均每个方剂包含7-8味中药；纳入测试的临床方剂数据集共包含方剂处方1438条，涉及中药445味，每条方剂数据平均包含1-2个经典处方。

表2方剂中药基本构成

(2)模型训练过程结果

本发明实施例对训练集(n＝1000)使用全集匹配算法取相似度阈值为0.5得到8638条记录，其中正例1653条记录(19.8％)，负例6716条记录(80.2％)，训练结果如表3所示。

表3全集匹配算法训练结果

识方结果	频率	百分比％
			正确	1653	19.8
错误	6716	80.2
			总计	8638	100.0

在上述方法的基础上，构建了Logistic模型。在本发明实施例中，正例的Logistic模型用数据集：所有系数均有统计学意义(p-value<0.05)，虽然整方的β系数最大，但由于君药的标准差最大(S₁＝0.4525)，最终其标准化系数(β’＝1.1391)和权重均(w_JCZSWM-All＝0.4404,w_JCZSWM+All＝0.3418)为最大，其次为臣药，详细数据如表4所示。

表4君臣佐使赋权法的相关系数

计算出整方与君、臣、佐、使5个距离系数对方剂识别的相对重要性权重后，我们对相似度阈值进行了训练。X轴代表不同阈值threshold，Y轴代表各评价指标，可见AM算法阈值在0.7时f1-value最优，JCZSWM-All和JCZSWM-All算法最优阈值为0.8。

(3)评价结果

依据上述过程，分别利用三种算法和标准集对包含438条已标注数据的测试集进行方剂名称识别，与AM算法相比，JCZSWM-ALL和JCZSWM+ALL的F1值分别提高了8.73％和11.04％，并且在精确率上也要优于AM算法，算法对比结果如表5所示。

表5三种算法对比

算法	精确率P	召回率R	F1值
				AM:base	0.6022	0.7537	0.6695
JCZSWM-ALL	0.8420	0.6871	0.7568
				JCZSWM+ALL	0.9430	0.6649	0.7799

本发明实施例提供了一种中药方剂识别系统，如图5所示，该中药方剂识别系统包括：

获取模块101，用于获取待识别中药方剂。详细内容参见上述方法实施例中步骤S101的相关描述，在此不再进行赘述。

第一处理模块102，用于基于待识别中药方剂内各药物的名称，从标准中药方剂库中筛选候选方剂。详细内容参见上述方法实施例中步骤S102的相关描述，在此不再进行赘述。

第二处理模块103，用于基于方剂配伍组成，分别计算待识别中药方剂和各个候选方剂的相似度，得到各个候选方剂的相似度结果。详细内容参见上述方法实施例中步骤S103的相关描述，在此不再进行赘述。

识别模块104，用于基于各个候选方剂的相似度结果，确定待识别中药方剂对应的标准中药方剂名称。详细内容参见上述方法实施例中步骤S104的相关描述，在此不再进行赘述。

上述的中药方剂识别系统的更进一步描述参见上述中药方剂识别方法实施例的相关描述，在此不再进行赘述。

通过上述各个组成部分的协同合作，本发明实施例提供的中药方剂识别系统，通过利用待识别中药方剂内药物名称，从标准中药方剂库内筛选出候选方剂，保证了候选方剂的全面性；基于方剂配伍组成进行待识别中药方剂和候选方剂之间的相似度计算，充分考虑了各个药物在方剂中的功效，从而实现了将待识别中药方剂和经典方剂的匹配，保证了匹配结果的准确度。

如图6所示，利用Python Web技术建立了基于“君臣佐使”配伍算法的中医方剂识别软件。在该软件中，用户直接将需要识别的中药组成输入识别框，系统即可以自动识别出包含在此中药组成中的方剂名称。

本发明实施例提供了一种电子设备，如图7所示，该电子设备包括处理器901和存储器902，存储器902和处理器901之间互相通信连接，其中处理器901和存储器902可以通过总线或者其他方式连接，图7中以通过总线连接为例。

处理器901可以为中央处理器(Central Processing Unit，CPU)。处理器901还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。

存储器902作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本发明实施例中方法所对应的程序指令/模块。处理器901通过运行存储在存储器902中的非暂态软件程序、指令以及模块，从而执行处理器901的各种功能应用以及数据处理，即实现上述方法实施例中的方法。

存储器902可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储处理器901所创建的数据等。此外，存储器902可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器902可选包括相对于处理器901远程设置的存储器，这些远程存储器可以通过网络连接至处理器901。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。一个或者多个模块存储在存储器902中，当被处理器901执行时，执行上述方法实施例中的方法。

上述电子设备具体细节可以对应参阅上述方法实施例中对应的相关描述和效果进行理解，此处不再赘述。

本领域技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，实现的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(Random Access Memory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等；存储介质还可以包括上述种类的存储器的组合。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种中药方剂识别方法，其特征在于，包括：

获取待识别中药方剂；

2.根据权利要求1所述的方法，其特征在于，所述基于所述待识别中药方剂内各药物的名称，从标准中药方剂库中筛选候选方剂，包括：

依次从所述标准中药方剂库中提取当前标准中药方剂；

3.根据权利要求1所述的方法，其特征在于，所述方剂配伍组成包括君药、臣药、佐药和使药，所述基于方剂配伍组成，分别计算所述待识别中药方剂和各个候选方剂的相似度，得到各个候选方剂的相似度结果，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述各个候选方剂的相似度结果，确定所述待识别中药方剂对应的标准中药方剂名称，包括：

5.根据权利要求4所述的方法，其特征在于，所述基于所述预测值排序结果，确定所述待识别中药方剂对应的标准中药方剂名称，包括：

6.根据权利要求4所述的方法，其特征在于，所述预设方剂识别模型的训练模型通过如下公式表示：

logit(Y)＝β₀+β₁d₁+β₂d₂+β₃d₃+β₄d₄+β₅d₅

7.根据权利要求6所述的方法，其特征在于，所述预设方剂识别模型通过如下方式进行训练：

获取带有标准中药方剂名称标识的中药方剂样本；

计算中药方剂样本与其对应各个候选方剂的相似度结果；

8.一种中药方剂识别系统，其特征在于，包括：

获取模块，用于获取待识别中药方剂；

9.一种电子设备，其特征在于，包括：

存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行如权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机从而执行如权利要求1-7任一项所述的方法。