CN117216131A

CN117216131A - 基于数据检索的中药材数据管理系统

Info

Publication number: CN117216131A
Application number: CN202311466250.XA
Authority: CN
Inventors: 詹国平; 朱丽芳; 蔡家宝; 黄晓瑜
Original assignee: Shenzhen Qianhai Shekou Free Trade Zone Hospital Shenzhen Nanshan Shekou People's Hospital
Current assignee: Shenzhen Qianhai Shekou Free Trade Zone Hospital Shenzhen Nanshan Shekou People's Hospital
Priority date: 2023-11-07
Filing date: 2023-11-07
Publication date: 2023-12-12
Anticipated expiration: 2043-11-07
Also published as: CN117216131B

Abstract

本发明涉及数据处理技术领域，具体涉及一种基于数据检索的中药材数据管理系统，该系统对历史先验数据中每个细分科室开具药方数据中的中药材数据进行数据处理，根据中药材数据的出现次数及次数差异划分出基准药材数据和通用药材数据，并根据基准药材数据和通用药材数据之间分布情况的关联性得到第一关联程度，进一步结合第一关联程度和通用药材的数量分布情况，将所有中药材数据划分到每个细分科室对应的最终聚类集合中，最后根据最终聚类集合构建中药材数据库完成中药材数据管理。本发明的中药材数据存储方式对应的中药材数据检索效率更高。

Description

基于数据检索的中药材数据管理系统

技术领域

本发明涉及数据处理技术领域，具体涉及一种基于数据检索的中药材数据管理系统。

背景技术

随着智慧医疗系统和大数据技术的发展，中药材数据规模越来越庞大，形式也变得多样化。中药材数据不仅包括药材的使用方法、禁忌等文本信息，还包括图片、视频等多媒体信息。为了更有效地管理和利用这些数据，智慧医疗系统通常将这些数据存储在数据库中，以便医生能够快速检索和配置合适的中药材药方。

在现有技术中，中药材数据存储方式主要按照药材品类进行分类并储存在对应的数据库中，使得同一种类的药材存储在同一个数据库中，进而在减少数据存储空间的同时便于医生能够快速的检索到所需药性的中药材数据。但是在实际的药方配置过程中需要考虑多种中药相互制约的特性以平衡药性，并且中药药方通常较为复杂，药材的选取、药量都会影响药方的整体药性，所以在配置药方时通常需要多次检索多种中药材数据。因此在采用现有技术中的中药材数据存储方式进行数据检索时，需要频繁的切换数据库，导致对应的数据检索效率较低。

发明内容

为了解决现有技术中的中药材数据存储方式对应的中药材数据检索效率较低的技术问题，本发明的目的在于提供一种基于数据检索的中药材数据管理系统，所采用的技术方案具体如下：

本发明提出了基于数据检索的中药材数据管理系统，所述系统包括：

中药材数据获取模块，用于获取历史先验数据中每个细分科室开具的每个药方数据，所述药方数据中包含至少两种中药材数据；

第一关联程度获取模块，用于根据每种中药材数据在每个细分科室对应所有药方数据的出现次数以及次数分布差异特征，得到通用药材数据和每个细分科室的基准药材数据；将每个细分科室对应的所有基准药材数据作为一个聚类集合，得到每个细分科室对应的初始聚类集合；任选一种通用药材数据作为目标通用药材数据，根据每个细分科室的每种基准药材数据与目标通用药材数据在对应细分科室的所有药方数据中的分布情况，得到每个细分科室的每种基准药材数据与目标通用药材数据的第一关联程度；

最终聚类集合获取模块，用于根据第一关联程度和每种通用药材数据在每个细分科室中的数量分布情况，将通用药材数据划分到每个细分科室对应的初始聚类集合中，得到每个细分科室对应的参考聚类集合；对参考聚类集合外的其他数据进行密度聚类，得到每个细分科室对应的最终聚类集合；

中药材数据管理模块，用于根据所述最终聚类集合构建中药材数据库进行中药材数据管理。

进一步地，所述通用药材数据的获取方法包括：

任选一个细分科室作为目标细分科室，将目标细分科室开具的任意一种中药材数据作为目标中药材数据；在历史先验数据中，将目标中药材数据在目标细分科室开具的所有药方数据中的出现次数与目标细分科室中药方数据的数量的比值，作为目标中药材数据在目标细分科室中的次数权重；

将目标中药材数据在目标细分科室中出现次数与其在目标细分科室外其他所有细分科室中的出现次数均值之间的差值，作为目标中药材数据在目标细分科室中的次数偏差程度；

根据所述次数权重和所述次数偏差程度，得到目标中药材数据在目标细分科室中的参考分类系数，所述次数权重与所述参考分类系数呈正相关，所述次数偏差程度与所述参考分类系数呈正相关；

当所述参考分类系数小于预设第一参考阈值且大于预设第二参考阈值时，将目标中药材数据作为目标细分科室中的通用药材数据。

进一步地，所述基准药材数据的获取方法包括：

当所述参考分类系数大于或等于预设第一参考阈值时，将目标中药材数据作为目标细分科室中的基准药材数据。

进一步地，所述第一关联程度的获取方法包括：

对于任意一个细分科室：

将细分科室的所有药方数据中每种基准药材数据与目标通用药材数据同时出现的次数，作为细分科室中每种基准药材数据对应的关联数量；将细分科室中每种基准药材数据的在对应所有药方数据中的出现次数，作为细分科室中每种基准药材数据对应的参考数量；将细分科室中每种基准药材数据对应的关联数量与参考数量的比值，作为细分科室中每种基准药材数据与目标通用药材数据的第一关联程度。

进一步地，所述参考聚类集合的获取方法包括：

选取任意细分科室作为目标细分科室；统计每种通用药材数据对应的所有第一关联程度，将对应的任意一个第一关联程度大于或等于预设第一关联程度阈值的通用药材数据，作为强关联数据；当强关联数据与目标细分科室中任意基准药材数据的第一关联程度大于或等于预设第一关联程度阈值时，将强关联数据划分到目标细分科室中的初始聚类集合中，得到目标细分科室对应的迭代聚类集合，所述强关联数据不唯一；

在所有种类的通用药材数据中，将强关联数据之外的其他每种通用药材数据作为弱关联数据；根据弱关联数据在每个细分科室中的数量分布情况和对应的第一关联程度，得到每个细分科室的每种基准药材数据与每种弱关联数据的第二关联程度；

统计每种弱关联数据对应的所有第二关联程度，将对应的任意一个第二关联程度大于或等于预设第二关联程度阈值的弱关联数据，作为高频关联数据；当高频关联数据与目标细分科室中的任意基准药材数据的第二关联程度大于或等于预设第二关联程度阈值时，将高频关联数据划分到目标细分科室中的迭代聚类集合中，得到目标细分科室对应的参考聚类集合，所述高频关联数据不唯一。

进一步地，所述第二关联程度的获取方法包括：

将每种弱关联数据在每个细分科室开具的所有药方中的出现总次数，作为每种弱关联数据在每个细分科室中的累计数量；计算每种弱关联数据在所有细分科室对应的累计数量均值；

计算每种弱关联数据对应的第一关联程度与累计数量的乘积，将所述乘积与所述累计数量均值之间的比值，作为每个细分科室的每种基准药材数据与每种弱关联数据的第二关联程度。

进一步地，所述参考分类系数的获取方法包括：

将所述次数偏差程度的归一化值与所述次数权重的乘积，作为目标中药材数据在目标细分科室中的参考分类系数。

进一步地，所述预设第一关联程度阈值设置为0.6。

进一步地，所述预设第二关联程度阈值设置为0.5。

进一步地，所述预设第一参考阈值设置为0.3。

本发明具有如下有益效果：

虽然中药药方的配置通常较为复杂，但是每个中药药方都存在对应的诊疗方向，并且中药材本身的药性是固定的，所以也存在许多种类的中药材仅能够针对一种诊疗方向，例如银花只针对感冒流感等疾病能够产生治疗效果，不能广泛地应用于各种疾病和病症。因此，在某些诊疗方向对应细分科室的中药药方中，基本都存在相同的具有针对性的中药材，即对应本发明实施例中每个细分科室对应的基准药材数据。基准药材数据为在某个疾病方向或细分科室对应药方使用率较高的药材，以基准药材数据为基准进行中药材数据分类，能够显著减少医生配置药方时切换数据库的频率。

而所有中药材种类中也存在部分的中药材在各种药方或诊疗方向中较为通用，例如当归，能够通过提高机体免疫功能使得对各种疾病都有一定的防治作用，并且与多种中药材的相性较好，例如白芍、肉桂、枸杞等，因此在各个细分科室对应的中药药方中，会广泛的存在一些较为通用的中药材，即对应本发明实施例中的通用药材数据。通用药材数据即在各个疾病方向或细分科室对应药方中均广泛分布，因此在以基准药材数据为中心的聚类集合分配一定的通用药材数据，能够在一定程度上减少切换数据库的频率。

进一步地在对通用药材数据进行聚类集合的分配时，根据基准药材数据和通用药材数据的关联性计算出的第一关联程度，以及通用药材数据的数量分布情况，使得对通用药材数据的分配在结合与基准药材数据关联性的同时考虑到了其在药方中出现的频次，进而使得得到的最终聚类集合所构建的中药材数据库在进行中药材数据管理时，对应切换数据库的频率更小，对应的检索效率更高。综上所述，本发明的中药材数据存储方式对应的中药材数据检索效率更高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1为本发明一个实施例所提供的一种基于数据检索的中药材数据管理系统结构框图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的一种基于数据检索的中药材数据管理系统，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的一种基于数据检索的中药材数据管理系统的具体方案。

请参阅图1，其示出了本发明一个实施例提供的基于数据检索的中药材数据管理系统结构框图，该系统包括：中药材数据获取模块101、第一关联程度获取模块102、最终聚类集合获取模块103、中药材数据管理模块104。

中药材数据获取模块101，用于获取历史先验数据中每个细分科室开具的每个药方数据，药方数据中包含至少两种中药材数据。

本发明实施例旨在提供一种基于数据检索的中药材数据管理系统，用于根据每个细分科室开具的每个药方中中药材数据之间的关联性，对中药材数据进行数据处理，将关联性强的中药材数据聚类到一个数据库中，从而降低配置药方时切换数据库的次数，提高中药材数据检索效率。因此首先需要获取数据处理的对象即中药材数据。

本发明实施例首先获取历史先验数据中每个细分科室开具的每个药方数据，药方数据中包含至少两种中药材数据。细分科室为医院中不同科室进行进一步划分后的科室，对应的诊疗方向具有一定的针对性，因此同一细分科室开具的药方对应的诊疗方向应当相同或相似。因为单种药材的药方在进行配置时，不需要考虑到数据库切换，所以只存在一种药材的药方数据在配置药方的角度上，并不具有参考性。所以本发明实施例对应的历史先验数据所采集的药方数据中包含至少两种中药材数据。在本发明实施例中，历史先验数据采集半年内各个细分科室开具的每个药方数据。需要说明的是，实施者可根据具体实施环境自行调整历史先验数据的采集时间范围，在此不做进一步赘述。

第一关联程度获取模块102，用于根据每种中药材数据在每个细分科室对应所有药方数据的出现次数以及次数分布差异特征，得到通用药材数据和每个细分科室的基准药材数据；将每个细分科室对应的所有基准药材数据作为一个聚类集合，得到每个细分科室对应的初始聚类集合；任选一种通用药材数据作为目标通用药材数据，根据每个细分科室的每种基准药材数据与目标通用药材数据在对应细分科室的所有药方数据中的分布情况，得到每个细分科室的每种基准药材数据与目标通用药材数据的第一关联程度。

每个细分科室的药方对应的诊疗方向是相同或相似的，例如中医呼吸内科，主要针对例如肺结核、肺气肿、感冒等疾病进行诊疗，对应的疾病具有呼吸系统病理变化和炎症反应的共同点。而每种中药材数据其对应的药性是固定的，有些药材仅具有特定的药性，使得其在处理特征诊疗方向的疾病时应用广泛，但极少应用于其他诊疗方向，例如紫菀，仅在应对呼吸系统病理变化对应的疾病时应用较多，对于其他疾病的应用较少，所以可以视为中医呼吸内科对应的基准药材数据，即专门应用于某一诊疗方向且应用频率较高的中药材，所以若对每个细分科室建立对应的数据库，将对应细分科室中的基准药材数据置于对应的数据库中，能够明显减少切换数据库的频率，提高检索效率。此外，也可能存在一些在多个细分科室中都适用的药材，例如，黄芩，用于大部分炎症反应相关的疾病，而大多数细分科室都会开具治疗炎症反应相关的药方，因此黄芩可以视为一种通用药材数据，即在各个诊疗方向应用广泛的中药材，所以若将通用药材数据重复分配到各个细分科室对应的数据库中时，会使得药方的配置更加方便，从而达到提高检索效率的目的。本发明实施例根据每种中药材数据在每个细分科室对应所有药方数据的出现次数以及次数分布差异特征，得到通用药材数据和每个细分科室的基准药材数据。

优选地，通用药材数据的获取方法包括：

任选一个细分科室作为目标细分科室，将目标细分科室开具的任意一种中药材数据作为目标中药材数据；在历史先验数据中，将目标中药材数据在目标细分科室开具的所有药方数据中的出现次数与目标细分科室中药方数据的数量的比值，作为目标中药材数据在目标细分科室中的次数权重。次数权重即衡量目标中药材数据出现频率的特征值，对应的次数权重越大，说明目标中药材数据在目标细分科室中应用频率越高。若目标中药材属于目标细分科室中的基准药材数据，则说明目标中药材在目标细分科室中应用较多，因此对应的应用频率较高，对应的次数权重较大。

而对于通用药材数据而言，其本身的特点在于应用广泛，在特定的某个细分科室的应用频率并不会影响通用药材数据的选择，因此需要从应用广泛的角度进行分析来筛选通用药材数据。应用广泛即说明的通用药材数据在各个细分科室的均有一定的应用，所以相比于其他药材，通用药材数据在各个细分科室中被检索或被应用的次数差异较小。将目标中药材数据在目标细分科室中出现次数与其在目标细分科室外其他所有细分科室中的出现次数均值之间的差值，作为目标中药材数据在目标细分科室中的次数偏差程度。即次数偏差程度的绝对值越小，对应的目标中药材数据越可能为通用药材数据。对于基准药材数据而言，由于对应的中药材的应用范围较小，在其应用领域外的其他细分科室中，基本不会应用或应用较少，导致基准药材数据在各个细分科室中被检索或被应用的次数差异较大，但是基准药材数据在应用领域对应的细分科室中的检索次数较多，即该检索次数应该远大于其他各个细分科室中被检索或被应用的次数均值，因此基准药材数据对应的次数偏差程度的绝对值较大，且大于0。

根据次数权重和次数偏差程度，得到目标中药材数据在目标细分科室中的参考分类系数，次数权重与参考分类系数呈正相关，次数偏差程度与参考分类系数呈正相关。由于次数权重和次数偏差程度都能够用于筛选基准药材数据和通用药材数据，因此本发明实施例将和次数偏差程度结合，通过得到的参考分类系数来进一步筛选基准药材数据和通用药材数据。优选地，将所述次数偏差程度的归一化值与所述次数权重的乘积，作为目标中药材数据在目标细分科室中的参考分类系数。在本发明实施例中，次数偏差程度的归一化方法采用双曲归一化函数，实施者可根据具体实施环境自行调整归一化方法，在此不做进一步赘述。

当参考分类系数小于预设第一参考阈值且大于预设第二参考阈值时，将目标中药材数据作为目标细分科室中的通用药材数据。由于本发明实施例中次数权重和次数偏差程度对应的绝对值都小于1，因此本发明实施例中第一参考阈值和第二参考阈值在选取时对应的绝对值也都小于1。优选地，将第一参考阈值设置为0.3，将第二参考阈值设置为-0.3。由于通用药材数据在各个细分科室中广泛分布，即不集中分布一个或某几个细分科室中；并且考虑到中药对应药方本身的性质，并不存在各个诊疗方向均有应用，且应用频率均较大的中药材。即在某些细分科室应用频率较大的中药材，对应的次数偏差程度通常也较大。所以通用药方数据在各个细分科室对应的次数权重较小，且对应的分布比较广泛，即次数偏差程度越小，次数权重越小，对应的目标中药材数据越能为通用药材数据，即通用药材数据对应的参考分类系数的绝对值较小，因此本发明实施例将小于预设第一参考阈值且大于预设第二参考阈值的参考分类系数对应的目标中药材数据作为通用药材数据。需要说明的是，实施者可根据具体实施环境自行调整第一参考阈值和第二参考阈值的大小，在此不做进一步赘述。

优选地，基准药材数据的获取方法包括：

当参考分类系数大于或等于预设第一参考阈值时，将目标中药材数据作为目标细分科室中的基准药材数据。若目标中药材数据属于目标细分科室中的基准药材数据，则说明目标中药材数据在目标细分科室应用频率较高，因此对应的次数权重较大。所以对应的次数权重越大，对应的目标中药材数据越可能为目标细分科室的基准药材数据。并且由于目标细分科室中的基准药材数据的应用频率或检索频率通常只是集中在对应的目标细分科室中，因此对应的次数偏差程度的绝对值通常较大，且为正数，所以本发明实施例将大于或等于预设第一参考阈值的参考分类系数设置为基准药材数据。

即在本发明实施例中，目标中药材数据在目标细分科室中的参考分类系数大于或等于0.3时，将目标中药材数据作为目标细分科室中的基准药材数据；目标中药材数据在目标细分科室中的参考分类系数大于-0.3且小于0.3时，将目标中药材数据作为通用药材数据；此外，对于参考分类系数小于或等于预设第二参考阈值的目标中药材数据，即本发明实施例对于目标细分科室中参考分类系数小于-0.3的目标中药材数据，由于其参考分类系数小于-0.3，所以其对应次数偏差程度的绝对值较大，且在对应目标细分科室中的出现次数小于其余细分科室中出现次数的均值，因此，对应的小于或等于预设第二参考阈值的目标中药材数据即不属于通用药材数据的范畴，对应在检索时出现的次数也较小，所以其并不会被频繁调用，本发明实施例将目标细分科室中小于或等于预设第二参考阈值的目标中药材数据，作为偶然数据。需要说明的是，由于目标中药材数据为目标细分科室开具的任意一种中药材数据，所以其对应的次数权重不可能为0，因此不会出现目标细分科室中不存在的中药材数据被划分为通用药材数据。

在本发明实施例中，目标中药材数据在目标细分科室中的参考分类系数的获取方法在公式上表现为：

其中，为目标中药材数据在目标细分科室中的参考分类系数，/>为目标中药材数据在目标细分科室开具的所有药方数据中的出现次数，/>为历史先验数据中目标细分科室开具的所有药方数据的数量，/>为目标中药材数据在目标细分科室外第/>个细分科室开具的所有药方数据中的出现次数，/>为除目标细分科室外其他所有细分科室的总数，为双曲归一化函数，/>为目标中药材数据在目标细分科室外其他所有细分科室中的出现次数均值，/>为目标中药材数据在目标细分科室中的次数偏差程度通过双曲归一化函数进行归一化后的归一化值，/>为目标中药材数据在目标细分科室中的次数偏差程度，/>为目标中药材数据在目标细分科室中的次数权重。

需要说明的是，实施者也可根据具体实施环境通过其他归一化方法对次数偏差程度进行归一化，但是需要保证归一化后的数值范围在-1到1之间，例如通过sigmoid函数进行归一化，对应的公式表现为：

其中，为sigmoid函数，其他参数的含义与本发明实施例中目标中药材数据在目标细分科室中的参考分类系数的获取方法对应的公式相同，且sigmoid函数为本领域技术人员所熟知的技术手段，在此不做进一步赘述。

在本发明实施例中，将每个细分科室对应的所有基准药材数据作为一个聚类集合，得到每个细分科室对应的初始聚类集合。即本发明实施例以每个细分科室对应的基准药材数据为中心建立聚类集合，由于每个细分科室的基准药材在对应细分科室中的使用频率较高，因此以细分科室为单位所建立的聚类集合在配置药方时，能够快速的在对应细分科室的聚类集合中检索到所需要的中药材数据，对应的检索效率较高。但是考虑到初始聚类集合仅包含基准药材数据，导致在配置药方时，还是需要频率的调用或切换数据库，所以需要在初始聚类集合的基础上进行扩充，得到完整且合理的数据库，进一步提高对应的检索效率。

考虑到通用药材数据广泛分布在各个细分科室中，因此可以对以每个细分科室的基准药材数据为中心的初始聚类集合中分配一定重复的通用药材数据。但是需要考虑到分配通用药材数据的目的是方便在同一个聚类集合中配置中药配方，减少数据库切换次数，提高检索效率，所以需要保证在每个初始聚类集合所分配的通用药材数据与其中的基准药材数据具有一定的关联性，在不考虑关联性的情况下进行分配会增加每个数据库中的数据冗余度，且不便于医生快速的找到所需的中药材，从而影响中药材数据检索速度。因此需要根据每个细分科室中基准药材数据与通用药材数据的关联性，本发明实施例任选一种通用药材数据作为目标通用药材数据，根据每个细分科室的每种基准药材数据与目标通用药材数据在对应细分科室的所有药方数据中的分布情况，得到每个细分科室的每种基准药材数据与目标通用药材数据的第一关联程度。通过第一关联程度表征每个细分科室中每种基准药材数据与通用药材数据之间的关联性。对应的第一关联程度越大，说明的关联性越好，对应的目标通用药材数据越可能分配到对应细分科室的初始聚类集合中。

优选地，第一关联程度的获取方法包括：

对于任意一个细分科室：将细分科室的所有药方数据中每种基准药材数据与目标通用药材数据同时出现的次数，作为细分科室中每种基准药材数据对应的关联数量。在细分科室中，对应基准药材数据与目标通用药材数据同时出现在同一个药方数据中的次数越多，则说明对应细分科室的医生在配置药方时，同时用到对应的基准药材数据与目标通用药材数据的可能性越大。因此当目标通用药材数据与该细分科室中某种基准药材数据的关联数量较大时，若将目标通用药材数据分配到该细分科室中，则能够明显的提高医生在以对应细分科室的数据库中配置药方的检索效率。因此本发明实施例计算目标通用药材在对应细分科室中每种基准药材数据的关联数量。

将细分科室中每种基准药材数据的在对应所有药方数据中的出现次数，作为细分科室中每种基准药材数据对应的参考数量。将细分科室中每种基准药材数据对应的关联数量与参考数量的比值，作为细分科室中每种基准药材数据与目标通用药材数据的第一关联程度。由于每种基准药材数据在对应细分科室中所有药方的出现次数可能并不相同，所以为了使得第一关联程度对目标通用数据和基准药材数据之间关联性的表征更加准确，本发明实施例通过引入参考数量，将关联数量与参考数量之间的比值对应的第一关联程度的数值限制在0到1范围内，使得第一关联程度更加可视化，避免不同量纲的影响。对应的细分科室中某种基准药材数据与目标通用药材数据的第一关联程度越大，则说明对应种类的基准药材数据与目标通用药材数据的越关联，则目标通用药材数据越可能属于该细分科室中对应的聚类集合。

在本发明实施例中，第个细分科室中第/>种基准药材数据与第/>种通用药材数据的第一关联程度的获取方法在公式上表现为：

其中，为第/>个细分科室中第/>种基准药材数据与第/>种通用药材数据的第一关联程度，/>为第/>个细分科室中第/>种基准药材数据与第/>种通用药材数据同时出现的次数，即第/>个细分科室中第/>种基准药材数据对应的关联数量；/>为第/>个细分科室中第/>种基准药材数据在第/>个细分科室开具的所有药方数据中的出现次数，即第/>个细分科室中第/>种基准药材数据对应的参考数量。进一步根据第/>个细分科室中第/>种基准药材数据与第/>种通用药材数据的第一关联程度的获取方法，得到每个细分科室的每种基准药材数据与每种通用药材数据的第一关联程度。

最终聚类集合获取模块103，用于根据第一关联程度和每种通用药材数据在每个细分科室中的数量分布情况，将通用药材数据划分到每个细分科室对应的初始聚类集合中，得到每个细分科室对应的参考聚类集合；在参考聚类集合的基础上对参考聚类集合外的其他数据进行密度聚类，得到每个细分科室对应的最终聚类集合。

至此，通过第一关联程度获取模块得到表征每个细分科室的每种基准药材数据与每种通用药材数据关联性的第一关联程度，因此可进一步根据第一关联程度将每种通用药材分配到对应细分科室的聚类集合中。但是考虑到除关联程度外，每种通用药材数据在每个细分科室中出现的次数也会影响后续的检索效率。所以本发明实施例根据第一关联程度和每种通用药材数据在每个细分科室中的数量分布情况，将通用药材数据划分到每个细分科室对应的初始聚类集合中，得到每个细分科室对应的参考聚类集合。

优选地，参考聚类集合的获取方法包括：

选取任意细分科室作为目标细分科室；统计每种通用药材数据对应的所有第一关联程度，将对应的任意一个第一关联程度大于或等于预设第一关联程度阈值的通用药材数据，作为强关联数据；当强关联数据与目标细分科室中任意基准药材数据的第一关联程度大于或等于预设第一关联程度阈值时，将强关联数据划分到目标细分科室中的初始聚类集合中，得到目标细分科室对应的迭代聚类集合，所述强关联数据不唯一。优选地，预设第一关联程度阈值设置为0.6。需要说明的是，实施者可根据具体实施环境自行调整第一关联阈值的大小，在此不做进一步赘述。

每个通用药材数据与所有细分科室中的任意一个基准药材数据都具有对应的第一关联程度，且第一关联程度表征对应的通用药材数据与对应基准药材数据之间的关联性，而关联性越大则说明对应的通用药材数据与对应的基准药材数据处于一个聚类集合或数据库中的可能性越大，因此可将第一关联程度大于或等于预设第一关联程度阈值的通用药材数据与对应的基准药材数据划分到一个聚类集合中，所以对于任意一个通用药材数据而言，只要其对应的任意一个第一关联程度大于或等于预设第一关联程度阈值，则该通用药材数据就能够分配到初始聚类集合中，因此将该通用药材数据作为强关联数据，表明该通用药材数据能够对应一个较大第一关联程度。此外，由于每个细分科室对应一个初始聚类集合，而每个细分科室中又对应多个基准药材数据，因此对于任意一个细分科室而言，若某个通用药材数据与其中任意一个基准药材数据的第一关联程度大于或等于预设第一关联程度阈值，则该通用药材数据为强关联数据，并且该通用药材数据可被聚类到该细分科室对应的初始聚类集合中，所以不论关联细分科室中存在多少个与对应强关联数据的第一关联程度大于预设第一关联程度阈值的基准药材数据，该强关联数据只在该细分科室中存在一次，即在每个细分科室中，每种通用药材数据至多被聚类一次。而强关联数据不唯一是指该强关联数据能够被重复聚类到多个初始聚类集合中。

在所有种类的通用药材数据中，将强关联数据之外的其他每种通用药材数据作为弱关联数据；根据弱关联数据在每个细分科室中的数量分布情况和对应的第一关联程度，得到每个细分科室的每种基准药材数据与每种弱关联数据的第二关联程度。即本发明实施例将对应的所有第一关联程度均小于预设第一关联程度阈值的通用药材数据作为弱关联数据，即表明对应的弱关联数据在与所有基准关联数据的关联性较差。但是需要考虑到通用药材数据在每个细分科室中出现的次数也会影响后续的检索效率，所以也需要进一步计算弱关联数据的第二关联程度，进行进一步地聚类集合分配。

优选地，第二关联程度的获取方法包括：

将每种弱关联数据在每个细分科室开具的所有药方中的出现总次数，作为每种弱关联数据在每个细分科室中的累计数量；计算所有弱关联数据对应的累计数量均值；计算每种弱关联数据对应的第一关联程度与累计数量的乘积，将乘积与累计数量均值之间的比值，作为每个细分科室的每种基准药材数据与每种弱关联数据的第二关联程度。

对于任意一种弱关联数据而言，其对应的通用药材数据与任意一个细分科室对应的基准药材数据关联性均较小。但是若其在其中一个细分科室中对应的累计数量较大，则说明该弱关联数据对应的通用药材数据在该细分科室的使用频率是较高的，所以将该通用药材数据聚类到对应使用频率较高的聚类集合时，也能在一定程度上提高检索效率。但是不同的弱关联数据对应的量纲不同，并且考虑到每个细分科室中的药方大多都会涉及到基准药材数据，因此本发明实施例将每个每种关联数据与对应的第一关联程度加权后比上累计数量的均值来进一步表征第二关联程度。需要说明的是，由于弱关联数据为通用药材数据，因此其对应的累计数量与累计数量均值的差异一般较小，因此所计算出的第二关联程度对弱关联数据的筛选较为苛刻，通常只能将对应第一关联程度临近预设第一关联程度阈值的通用药材数据进行进一步筛选，在此不做进一步赘述。

统计每种弱关联数据对应的所有第二关联程度，将对应的任意一个第二关联程度大于或等于预设第二关联程度阈值的弱关联数据，作为高频关联数据；当高频关联数据与目标细分科室中的任意基准药材数据的第二关联程度大于或等于预设第二关联程度阈值时，将高频关联数据划分到目标细分科室中的迭代聚类集合中，得到目标细分科室对应的参考聚类集合，所述高频关联数据不唯一。优选地，预设第二关联程度阈值设置为0.5；并且本发明实施例将小于预设第二关联程度阈值的弱关联数据对应的所有通用药材作为无关联药材数据。需要说明的是，实施者可根据具体实施环境自行调整预设第二关联程度阈值的大小，并且根据第二关联程度的大小将弱关联数据筛选后聚类到对应迭代聚类集合中的方法，与本发明实施例中根据第一关联程度的大小将通用药材数据聚类到对应的初始聚类集合中的方法类似，在此不对其意义进一步赘述。

在本发明实施例中，第个细分科室中第/>种基准药材数据与第/>种弱关联数据的第二关联程度的获取方法在公式上表现为：

其中，为第/>个细分科室中第/>种基准药材数据与第/>种弱关联数据的第二关联程度，/>为第/>个细分科室中第/>种基准药材数据与第/>种弱关联数据对应通用药材数据的第一关联程度，/>为第/>个细分科室中第/>种弱关联数据对应累计数量，/>为第个细分科室中第/>种弱关联数据对应累计数量，/>为细分科室的总数量，/>为第/>种弱关联数据在所有细分科室中的累计数量均值。进一步根据第/>个细分科室中第种基准药材数据与第/>种弱关联数据的第二关联程度的获取方法，得到每个细分科室中每种基准药材数据与每种弱关联数据的第二关联程度。

至此，得到每个细分科室对应的参考聚类集合，但是参考聚类集合外可能也存在一些没有被聚类的数据，例如本发明实施例中对应的偶然数据和无关联药材数据。所以为了使得最终得到的聚类集合更加完整，即为了使得最终的数据库能够包含所有中药材数据。本发明实施例在参考聚类集合的基础上对参考聚类集合外的其他数据进行密度聚类，得到每个细分科室对应的最终聚类集合。在本发明实施例中，在各个参考聚类集合的基础上，将无关联药材数据和偶然数据根据对应的数据密度，将对应的药材数据索引进行密度聚类，得到最终聚类集合。需要说明的是，密度聚类例如DBSCAN聚类算法为本领域技术人员所熟知的技术手段，在此不做进一步限定和赘述。

中药材数据管理模块104，用于根据最终聚类集合构建中药材数据库进行中药材数据管理。

本发明实施例根据最终聚类集合构建中药材数据库进行中药材数据管理。将每个细分科室对应的最终聚类集合作为一个中药材数据库，完成对中药材数据库的构建。由于最终聚类集合中药材的检索关联性较强，所以在对应细分科室配置药方调用出现频率较大的基准药材数据后，对应数据库中的通用药材被调用的可能性也较大，从而进一步降低了数据库切换的频率，对应的检索效率较高。

综上所述，本发明对历史先验数据中每个细分科室开具药方数据中的中药材数据进行数据处理，根据中药材数据的出现次数及次数差异划分出基准药材数据和通用药材数据，并根据基准药材数据和通用药材数据之间分布情况的关联性得到第一关联程度，进一步结合第一关联程度和通用药材的数量分布情况，将所有中药材数据划分到每个细分科室对应的最终聚类集合中，最后根据最终聚类集合构建中药材数据库完成中药材数据管理。本发明的中药材数据存储方式对应的中药材数据检索效率更高。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

Claims

1.基于数据检索的中药材数据管理系统，其特征在于，所述系统包括：

2.根据权利要求1所述的基于数据检索的中药材数据管理系统，其特征在于，所述通用药材数据的获取方法包括：

3.根据权利要求2所述的基于数据检索的中药材数据管理系统，其特征在于，所述基准药材数据的获取方法包括：

4.根据权利要求1所述的基于数据检索的中药材数据管理系统，其特征在于，所述第一关联程度的获取方法包括：

对于任意一个细分科室：

5.根据权利要求1所述的基于数据检索的中药材数据管理系统，其特征在于，所述参考聚类集合的获取方法包括：

6.根据权利要求5所述的基于数据检索的中药材数据管理系统，其特征在于，所述第二关联程度的获取方法包括：

7.根据权利要求2所述的基于数据检索的中药材数据管理系统，其特征在于，所述参考分类系数的获取方法包括：

8.根据权利要求5所述的基于数据检索的中药材数据管理系统，其特征在于，所述预设第一关联程度阈值设置为0.6。

9.根据权利要求5所述的基于数据检索的中药材数据管理系统，其特征在于，所述预设第二关联程度阈值设置为0.5。

10.根据权利要求3所述的基于数据检索的中药材数据管理系统，其特征在于，所述预设第一参考阈值设置为0.3。