CN115238064A

CN115238064A - 一种基于聚类的中医医案的关键词提取方法

Info

Publication number: CN115238064A
Application number: CN202211141365.7A
Authority: CN
Inventors: 顾扬; 贾冬梅; 金清; 刘鹏
Original assignee: Daan Health Technology Beijing Co ltd
Current assignee: Daan Health Technology Beijing Co ltd
Priority date: 2022-09-20
Filing date: 2022-09-20
Publication date: 2022-10-25
Anticipated expiration: 2042-09-20
Also published as: CN115238064B

Abstract

本发明涉及一种基于聚类的中医医案的关键词提取方法，包括：步骤S1，对医案文本进行分词，获得病症语料，将病症候选词转化为词向量，提取相关的中医诊疗建议；步骤S2，设置病症标准词向量，计算词关联度，生成病症集合域；步骤S3，计算域间重合度，设置重合限，合并病症集合域，根据联想度和检索参照词向量划分病症词域；步骤S4，根据病症词域的病症标准词向量数量设置检索范围优先级，根据病症词域的病症标准词向量数量调整联想度和重合限，输出检索结果与中医诊疗建议。本发明根据实际检索结果调整聚类的病症集合域和病症词域，使中医医案文本的关键词检索范围符合实际检索需求，提高了中医医案的关键词检索准确度。

Description

一种基于聚类的中医医案的关键词提取方法

技术领域

本发明涉及计算机技术领域，尤其涉及一种基于聚类的中医医案的关键词提取方法。

背景技术

在中医临床研究中，对中医医案的分析研究是相当重要的一部分，中医医案记录了历代中医学家临床实践的经验，反映了历代中医学家的学术思想，承载着丰富的中医理论。然而，中医医案重视个案，由于个体的不同，同类疾病的医案之间的差异较大，中医医师在研究一种疾病时通常需要综合参考多篇医案，且由于医案文本具有文学性特点，导致不同医案之间的文学描述也存在较大差异。因此，目前的医案文本信息较为分散，医师很难对医案进行有效检索。

随着信息技术的飞速发展，医疗信息数据化在医疗领域普及，将中医医案进行数据化进行汇总也成为了一种发展趋势。为了实现中医医案的充分利用，除了进行汇总形成文库外，更重要的是选择合适的方式实现对医案的精确检索和提取，以提高中医从业者的参考效率，协助中医从业者得出诊治方案，因此，发明一种适用于中医医案的检索方法。中国专利CN109284353A公开了医案检索方法，所述方法包括：接收用户终端发送的医案检索请求，医案检索请求中携带检索文本，从检索文本中提取辩证属性，查找辩证属性对应的属性标签，判断属性标签是否属于证型标签，当属性标签属于证型标签时，从辩证属性中提取类别属性，查找与类别属性对应的第一类别医案库，从第一类别医案库中查找医案文本，医案文本的医案标签与所述辩证属性匹配，根据查找到的所述医案文本生成检索结果，将所述检索结果返回给所述用户终端。该发明提高了海量医案数据的检索效率，但必须以辩证属性进行检索，检索范围过小，导致中医医案的检索结果的准确度较低。

发明内容

为此，本发明提供一种基于聚类的中医医案的关键词提取方法，通过实际检索需求设置和调整病症集合域和病症词域，使医案文本的关键词的检索范围符合实际检索需求，实现提高中医医案的关键词检索的准确度的有益效果，可以解决现有技术中的中医医案的检索结果的准确度较低的问题。

为实现上述目的，本发明提供一种基于聚类的中医医案的关键词提取方法，包括：

步骤S1，对中医医案文本的病症部分进行分词预处理，获得病症语料，将所述病症候选词转化为词向量，其中，所述病症语料包括若干个病症候选词，同时提取所述中医医案文本的诊疗部分，作为与所述病症部分相关的中医诊疗建议；

步骤S2，设置若干病症标准词向量，根据各病症标准词向量的余弦值和各词向量的余弦值计算各词向量与各病症标准词向量的词关联度，根据所述词关联度生成若干个以各病症标准词向量为参照词向量的病症集合域；

步骤S3，计算各所述病症集合域之间的域间重合度，设置重合限，根据所述重合限和所述域间重合度，将域间重合度大于等于重合限的病症集合域进行合并，以合并后的各所述病症集合域中的词向量为检索参照词向量，设置联想度并根据所述联想度和检索参照词向量划分病症词域；

步骤S4，根据各所述病症词域中包含的病症标准词向量数量设置各病症词域的检索范围的优先级，根据病症标准词向量数量调整所述病症词域的联想度和重合限，并根据所述优先级输出检索结果以及与所述检索结果相关的中医诊疗建议。

进一步地，当根据各病症标准词向量的余弦值和各词向量的余弦值计算各词向量与各病症标准词向量的词关联度时，根据各病症标准词向量的余弦值和各词向量的余弦值进行作比运算，其中，

当所述病症标准词向量的余弦值大于所述词向量的余弦值时，以各病症标准词向量的余弦值为分母，以各词向量的余弦值为分子进行作比运算，计算所得比值为各词向量与相应病症标准词向量的词关联度；

当所述病症标准词向量的余弦值小于所述词向量的余弦值时，以各词向量的余弦值为分母，以各病症标准词向量的余弦值为分子进行作比运算，计算所得比值为各词向量与相应病症标准词向量的词关联度；

当所述病症标准词向量的余弦值等于所述词向量的余弦值时，对所述词向量进行去重处理。

进一步地，当根据各所述词关联度生成若干个以各所述病症标准词向量为参照词向量的病症集合域时，以各病症标准词向量为各所述病症集合域的参照词向量，并设置各病症集合域的边缘限，用于根据各词关联度将各词向量进行划分，将与各病症标准词向量的词关联度大于等于所述边缘限的词向量划分至各病症集合域内。

进一步地，当计算各所述病症集合域之间的域间重合度时，统计各病症集合域之间的共有词向量数量，将其中一病症集合域设为第一病症集合域、另一病症集合域设为第二病症集合域，并分别计算所述共有词向量数量在第一病症集合域的集合域词向量数量的占比为第一重合占比，共有词向量数量在第二病症集合域的集合域词向量数量的占比为第二重合占比，比较第一重合占比和第二重合占比，

当第一重合占比大于第二重合占比，则第一重合占比为第一病症集合域和第二病症集合域之间的域间重合度；

当第一重合占比小于第二重合占比，则第二重合占比为第一病症集合域和第二病症集合域之间的域间重合度；

当第一重合占比等于第二重合占比，则第一重合占比或第二重合占比为第一病症集合域和第二病症集合域之间的域间重合度。

进一步地，当根据所述域间重合度对各病症集合域进行合并时，设置重合限，用于判定是否将两个病症集合域进行合并，

当两个病症集合域之间的域间重合度大于等于重合限时，将所述两个病症集合域进行合并，形成新病症集合域，病症集合域中的参照词向量在新病症集合域中作为新参照词向量进行保留；

当两个病症集合域之间的域间重合度小于重合限时，不对所述两个病症集合域进行合并。

进一步地，当以合并后的各所述病症集合域中的词向量为检索参照词向量划分病症词域时，对各所述词向量的归属域数量进行判别并根据所述归属域数量和词向量的归属域中的词向量的总数设置病症词域的联想度，

当词向量的归属域数量=0时，判定此词向量为游离词向量，以所述游离词向量为病症词域的检索参照词向量建立病症词域；

当词向量的归属域数量=1时，根据所述词向量所在的病症集合域的集合域词向量数量设置联想度，以所述词向量为检索参照词向量，根据所述联想度建立病症词域；

当词向量的归属域数量>1时，根据所述词向量所在的各归属域的词向量的总数量分别设置词向量在各归属域的各联想度，以所述词向量为检索参照词向量，根据所述联想度建立病症词域。

进一步地，当根据所述词向量所在的病症集合域的集合域词向量数量设置联想度时，统计所述词向量所在的病症集合域的集合域词向量数量，计算所述病症集合域的集合域词向量数量占词库的总词向量数量的比例值，根据所述比例值和所述病症集合域的集合域词向量数量计算以所述词向量为检索参照词向量的病症词域的词域向量数，根据所述词域向量数将病症集合域中与所述检索参照词向量最相似的数量为词域向量数的词向量归入所述病症词域，词域边缘限的词向量与检索参照词向量的相似程度为联想度，当检索参照词向量的归属域数量>1时，根据上述方法分别确定检索参照词向量在各归属域中的各病症词域和各关联度，并将各病症词域中重合的词向量进行去重处理。

进一步地，当以所述词向量为检索参照词向量，根据所述联想度建立病症词域时，计算病症集合域中各词向量与所述检索参照词向量的相似程度，当各词向量与所述检索参照词向量的相似程度大于等于联想度时，将所述词向量归入所述病症词域；

当各词向量与所述检索参照词向量的相似程度小于联想度时，不将所述词向量归入所述病症词域。

进一步地，当设置各病症词域的检索范围优先级时，判断各病症词域中是否包含病症标准词向量，

若所述病症词域中不包含病症标准词向量，则将所述病症词域设置为第一优先域；

若所述病症词域中包含一个病症集合域的病症标准词向量，则将所述病症词域设置为第一优先域，同时将所述病症集合域设置为第二优先域；

若所述病症词域中包含多个病症集合域的病症标准词向量，则将所述病症词域设置为第一优先域，同时根据各病症集合域的集合域词向量数量总数由大到小进行排序，根据各病症集合域的序号1，2，…，N划分检索范围优先级，序号为1的病症集合域设置为第二优先域，序号为2的病症集合域设置为第三优先域，以此类推，序号为N的病症集合域设置为第N+1优先域，同时设置限制优先次序Nm，根据N+1的数值大小判定优先域划分是否符合预设标准，当N+1小于等于Nm时，认为优先域划分符合预设标准，当N+1大于Nm时，认为优先域划分不符合预设标准，对该病症词域的联想度进行调整。

进一步地，当对该病症词域的联想度进行调整时，设置第一调整参数k1，用于将所述病症词域的联想度M调整为M’，M’=M×（1-k1），其中k1=a/A，a为词域向量数，A为集合域词向量总数量，同时设置最小联想度Mm，

当M’大于等于Mm时，将所述病症词域的联想度调整为M’；

当M’小于Mm时，将所述病症词域的联想度调整为Mm，同时对重合限进行调整，设置第二调整参数k2，用于将重合限Q调整为Q’，Q’=Q×（1-k2），其中，k2=（Mm-M’）/Mm。

与现有技术相比，本发明的有益效果在于，通过以各病症标准词向量的余弦值和各词向量的余弦值的比值为词关联度，生成若干个以各病症标准词向量为参照词向量的病症集合域，并根据各病症集合域之间的重合度，将重合度不符合预设标准的病症集合域进行合并，以对病症集合域进行优化调整，设置联想度并以联想度和调整后的各病症集合域中的词向量为检索参照词向量划分病症词域，根据病症词域中的病症标准词向量设置各所述病症词域的检索范围的优先级，并根据病症词域中的病症标准词向量数量检测优先级的设置是否符合预设标准，在优先级设置不符合预设标准时，对词关联度和重合限进行调整，最终根据优先级输出检索结果以及与所述检索结果相关的中医诊疗建议，使医案文本的关键词的检索范围符合实际检索需求，提高中医医案的关键词检索的准确度。

尤其，通过以各病症标准词向量的余弦值为分母，以各词向量的余弦值为分子进行作比运算，计算各词向量与相应病症标准词向量的词关联度，实现根据病症标准词向量的不同，精确计算各词向量以此病症标准词向量为参照的词关联度，避免因直接根据词向量的余弦值进行病症集合域的划分，导致病症集合域内词向量的词关联度低，降低检索结果的准确性，进而使医案文本的关键词的检索范围符合实际检索需求，提高中医医案的关键词检索的准确度。

尤其，通过以各病症标准词向量为各所述病症集合域的参照词向量，设置各病症集合域的边缘限，将与各病症标准词向量的词关联度大于等于所述边缘限的词向量划分至相应的病症集合域，将与病症标准词向量相近的词向量划分在一个作为检索范围的病症集合域中，使当病症集合域中的词向量被检索时，最相似的检索结果被有效检索，扩大检索范围，进而使医案文本的关键词的检索范围符合实际检索需求，提高中医医案的关键词检索的准确度。

尤其，通过根据各病症集合域两两之间的共有词向量数量，计算共有词向量数量分别占第一病症集合域的集合域词向量数量的第一重合占比和第二病症集合域的集合域词向量数量的第二重合占比，比较第一重合占比和第二重合占比，以第一重合占比和第二重合占比中的较大值为两个病症集合域之间的域间重合度，作为对病症集合域进行优化的依据，避免存在个别病症集合域内的词向量高度相似却存在与不同病症集合域中，使相应的检索范围缩小，降低检索精确度，同时以第一重合占比和第二重合占比中的较大值为两个病症集合域之间的域间重合度，实现将重合词向量数量较多的病症集合域并入重合词向量数量较少的病症集合域，在合并病症集合域的同时，保证合并后生成的新病症集合域中的词向量不会减少，避免检索范围缩小，降低检索精确度，进而使医案文本的关键词的检索范围符合实际检索需求，提高中医医案的关键词检索的准确度。

尤其，通过设置重合限，在两个病症集合域之间的域间重合度大于等于重合限时，将所述两个病症集合域进行合并，形成新病症集合域，病症集合域中的参照词向量在新病症集合域中作为新参照词向量进行保留，当两个病症集合域之间的域间重合度小于重合限时，不对所述两个病症集合域进行合并，避免存在个别病症集合域内的词向量高度相似却存在与不同病症集合域中，使相应的检索范围缩小，降低检索精确度，同时将重合词向量数量较多的病症集合域并入重合词向量数量较少的病症集合域，并且将原病症集合域中的参照词向量在新病症集合域中作为新参照词向量进行保留，避免检索范围缩小，降低检索精确度，进而使医案文本的关键词的检索范围符合实际检索需求，提高中医医案的关键词检索的准确度。

尤其，通过在完成病症集合域的优化后，统计各个词向量的归属域数量，根据词向量所在的各归属域的词向量的总数量分别设置词向量在各归属域的各联想度，以词向量为检索参照词向量，根据词向量的在各归属域中的联想度建立病症词域，使各个病症词域的检索范围的设置符合实际检索需求，避免病症词域的检索范围设置固定，导致检索范围过大或者过小，降低检索精确度，进而使医案文本的关键词的检索范围符合实际检索需求，提高中医医案的关键词检索的准确度。

尤其，通过根据比例值和病症集合域的集合域词向量数量计算以词向量为检索参照词向量的病症词域的词域向量数，根据词域边缘限的词向量与检索参照词向量的相似程度为联想度，对病症词域内的词向量进行选择和处理，使各个病症词域的检索范围与实际检索需求相符合，避免病症词域的检索范围的设置过大或者过小，降低检索精确度，进而使医案文本的关键词的检索范围符合实际检索需求，提高中医医案的关键词检索的准确度。

尤其，通过计算病症集合域中各词向量与所述检索参照词向量的相似程度，当某个词向量与所述检索参照词向量的相似程度大于等于联想度时，将所述词向量归入所述病症词域，当某个词向量与所述检索参照词向量的相似程度小于联想度时，不将所述词向量归入所述病症词域，使各个病症词域中的词向量与检索参照词向量的相似程度最大，确保检索范围以被检索词进行联想和延伸，进而使医案文本的关键词的检索范围符合实际检索需求，提高中医医案的关键词检索的准确度。

尤其，通过根据病症词域是否包含病症标准词向量以及病症词域中包含的病症标准词向量数量设置检索范围的检索次序的优先级，并对检索范围的数量进行判定，在优先域划分不符合预设标准，对该病症词域的联想度进行调整，以调整病症词域的检索范围，使病症词域的划分范围符合实际检索需求，进而使医案文本的关键词的检索范围符合实际检索需求，提高中医医案的关键词检索的准确度。

尤其，通过在与某词向量相关的各归属域有高度重合的可能性时，调整病症词域的联想度，以对病症词域的检索范围进行调整，同时为避免病症词域的检索范围过小，导致检索补充分，降低检测准确度，因此设置最小联想度对病症词域的检索范围的缩小程度进行限制，当病症词域的检索范围缩小到最小程度但仍有包含的病症标准词向量过多的可能性时，对重合限进行调整，对病症集合域进行充分的优化，使检索范围的设置符合实际检索需求，进而使医案文本的关键词的检索范围符合实际检索需求，提高中医医案的关键词检索的准确度。

附图说明

图1为本发明实施例提供的基于聚类的中医医案的关键词提取方法的流程图；

图2为本发明实施例提供的基于聚类的中医医案的关键词提取方法中的当病症词域中不包含病症标准词向量时的设置检索范围优先级的示意图；

图3为本发明实施例提供的基于聚类的中医医案的关键词提取方法中的当病症词域中包含一个病症集合域的病症标准词向量时的设置检索范围优先级的示意图；

图4为本发明实施例提供的基于聚类的中医医案的关键词提取方法中的当病症词域中包含多个病症集合域的病症标准词向量时的设置检索范围优先级的示意图。

具体实施方式

为了使本发明的目的和优点更加清楚明白，下面结合实施例对本发明作进一步描述；应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非在限制本发明的保护范围。

需要说明的是，在本发明的描述中，术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方向或位置关系的术语是基于附图所示的方向或位置关系，这仅仅是为了便于描述，而不是指示或暗示所述装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，还需要说明的是，在本发明的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域技术人员而言，可根据具体情况理解上述术语在本发明中的具体含义。

请参阅图1所示，本发明实施例提供的基于聚类的中医医案的关键词提取方法，包括：

步骤S1：对医案文本的病症部分进行分词预处理，获得病症语料，所述病症语料包括若干个病症候选词，将所述病症候选词转化为词向量；

步骤S2：设置若干病症标准词向量，根据各病症标准词向量的余弦值和各词向量的余弦值计算各词向量与各病症标准词向量的词关联度，根据所述词关联度生成若干个以各病症标准词向量为参照词向量的病症集合域；

步骤S3：计算各所述病症集合域之间的域间重合度，设置重合限，根据所述重合限和所述域间重合度，将域间重合度大于等于重合限的病症集合域进行合并，以合并后的各所述病症集合域中的词向量为检索参照词向量，设置联想度并根据所述联想度和检索参照词向量划分病症词域；

步骤S4：根据各所述病症词域中包含的病症标准词向量数量设置各病症词域的检索范围的优先级，根据各所述病症词域中包含的病症标准词向量数量调整所述病症词域的联想度和重合限，并根据所述优先级输出检索结果以及与所述检索结果相关的中医诊疗建议。

中医医案中主要包括两个重要部分，一是包括对病患症状的描述和病症的归结的病症部分，二是针对本医案中病患症状和病症归结总结诊疗方式的诊疗部分，对于中医而言，检索医案的主要目的即是根据当前医患的病症表现和病症归结，对先前的诊疗方式进行检索，辅助确定诊疗方案。因此，在对中医医案文本进行分词处理时，应将病症部分作为挖掘候选词的词料，而诊疗部分应当作为与病症部分相对应的诊疗建议，伴随中医医案的检索结果输出，以实现辅助确定诊疗方案的目的。

通过以各病症标准词向量的余弦值和各词向量的余弦值的比值为词关联度，生成若干个以各病症标准词向量为参照词向量的病症集合域，并根据各病症集合域之间的重合度，将重合度不符合预设标准的病症集合域进行合并，以对病症集合域进行优化调整，设置联想度并以联想度和调整后的各病症集合域中的词向量为检索参照词向量划分病症词域，根据病症词域中的病症标准词向量设置各所述病症词域的检索范围的优先级，并根据病症词域中的病症标准词向量数量检测优先级的设置是否符合预设标准，在优先级设置不符合预设标准时，对词关联度和重合限进行调整，最终根据优先级输出检索结果以及与所述检索结果相关的中医诊疗建议，使医案文本的关键词的检索范围符合实际检索需求，提高中医医案的关键词检索的准确度。

具体而言，当根据各病症标准词向量的余弦值和各词向量的余弦值计算各词向量与各病症标准词向量的词关联度时，根据各病症标准词向量的余弦值和各词向量的余弦值进行作比运算，其中，

以实施例1为例，肺之积标准词向量的余弦值为0.9658，肝之积标准词向量的余弦值为0.8546，柴瘦词向量的余弦值为0.9296，腹内引痛词向量的余弦值为0.8446，则对于肺之积标准词向量，柴瘦词向量的第一相似度为0.9625，腹内引痛词向量的第一相似度为0.8745，对于肝之积标准词向量，柴瘦词向量的第二相似度为0.9193，腹内引痛词向量的第一相似度为0.9883，可见虽然看似柴瘦词向量的余弦值大，腹内引痛词向量的余弦值小，但实际上对于肺之积标准词向量而言，柴瘦词向量与肺之积标准词向量更相似，对于肝之积标准词向量而言，腹内引痛词向量与肝之积标准词向量更相似。当某病症标准词向量的余弦值等于某词向量的余弦值时，认为此词向量与病症标准词向量相同，此时将该词向量删除，仅保留病症标准词向量。

通过以各病症标准词向量的余弦值为分母，以各词向量的余弦值为分子进行作比运算，计算各词向量与相应病症标准词向量的词关联度，实现根据病症标准词向量的不同，精确计算各词向量以此病症标准词向量为参照的词关联度，避免因直接根据词向量的余弦值进行病症集合域的划分，导致病症集合域内词向量的词关联度低，降低检索结果的准确性，进而使医案文本的关键词的检索范围符合实际检索需求，提高中医医案的关键词检索的准确度。

具体而言，当根据各所述词关联度生成若干个以各所述病症标准词向量为参照词向量的病症集合域时，以各病症标准词向量为各所述病症集合域的参照词向量，并设置各病症集合域的边缘限，用于根据各词关联度将各词向量进行划分，将与各病症标准词向量的词关联度大于等于所述边缘限的词向量划分至相应的病症集合域。

以实施例2为例，肺之积标准词向量为肺之积集合域的参照词向量，肺之积集合域的边缘限为0.8，则所有与肺之积标准词向量的词关联度大于等于0.8的词向量均划分至肺之积集合域。

通过以各病症标准词向量为各所述病症集合域的参照词向量，设置各病症集合域的边缘限，将与各病症标准词向量的词关联度大于等于所述边缘限的词向量划分至相应的病症集合域，将与病症标准词向量相近的词向量划分在一个作为检索范围的病症集合域中，使当病症集合域中的词向量被检索时，最相似的检索结果被有效检索，扩大检索范围，进而使医案文本的关键词的检索范围符合实际检索需求，提高中医医案的关键词检索的准确度。

具体而言，当计算各所述病症集合域之间的域间重合度时，统计各病症集合域两两之间的共有词向量数量，并分别计算所述共有词向量数量分别占第一病症集合域的集合域词向量数量的第一重合占比和第二病症集合域的集合域词向量数量的第二重合占比，比较第一重合占比和第二重合占比，

以实施例3为例，计算肺之积集合域与肝之积集合域之间的域间重合度时，肺之积集合域内有100个词向量，肝之积集合域有80个词向量，其中，肺之积集合域和肝之积集合域共有的词向量为20个，则第一重合占比为（20÷100）×100%=20%，第二重合占比为（20÷80）×100%=25%，则第二重合占比为肺之积集合域与肝之积集合域之间的域间重合度。

通过根据各病症集合域两两之间的共有词向量数量，计算共有词向量数量分别占第一病症集合域的集合域词向量数量的第一重合占比和第二病症集合域的集合域词向量数量的第二重合占比，比较第一重合占比和第二重合占比，以第一重合占比和第二重合占比中的较大值为两个病症集合域之间的域间重合度，作为对病症集合域进行优化的依据，避免存在个别病症集合域内的词向量高度相似却存在与不同病症集合域中，使相应的检索范围缩小，降低检索精确度，同时以第一重合占比和第二重合占比中的较大值为两个病症集合域之间的域间重合度，实现将重合词向量数量较多的病症集合域并入重合词向量数量较少的病症集合域，在合并病症集合域的同时，保证合并后生成的新病症集合域中的词向量不会减少，避免检索范围缩小，降低检索精确度，进而使医案文本的关键词的检索范围符合实际检索需求，提高中医医案的关键词检索的准确度。

具体而言，当根据所述域间重合度对各病症集合域进行合并时，设置重合限，用于判定是否将两个病症集合域进行合并，

假设重合限为80%，若有第一病症集合域的第一重合占比为50%，第二病症集合域的第二重合占比为70%，第一病症集合域和第二病症集合域之间的域间重合度为70%，第一病症集合域和第二病症集合域之间的域间重合度小于重合限，则不对第一病症集合域和第二病症集合域进行合并；若有第三病症集合域的第三重合占比为50%，第四病症集合域的第四重合占比为85%，第三病症集合域和第四病症集合域之间的域间重合度为85%，第三病症集合域和第四病症集合域之间的域间重合度大于重合限，将第三病症集合域和第四病症集合域进行合并，形成新病症集合域，合并第三病症集合域和第四病症集合域时，将第四病症集合域并入第三病症集合域，第三病症集合域的第三参照词向量和第四病症集合域的第四参照词向量在新病症集合域中作为新参照词向量进行保留。

通过设置重合限，在两个病症集合域之间的域间重合度大于等于重合限时，将所述两个病症集合域进行合并，形成新病症集合域，病症集合域中的参照词向量在新病症集合域中作为新参照词向量进行保留，当两个病症集合域之间的域间重合度小于重合限时，不对所述两个病症集合域进行合并，避免存在个别病症集合域内的词向量高度相似却存在与不同病症集合域中，使相应的检索范围缩小，降低检索精确度，同时将重合词向量数量较多的病症集合域并入重合词向量数量较少的病症集合域，并且将原病症集合域中的参照词向量在新病症集合域中作为新参照词向量进行保留，避免检索范围缩小，降低检索精确度，进而使医案文本的关键词的检索范围符合实际检索需求，提高中医医案的关键词检索的准确度。

具体而言，当以合并后的各所述病症集合域中的词向量为检索参照词向量划分病症词域时，对各所述词向量的归属域数量进行判别并根据所述归属域数量和词向量的归属域中的词向量的总数设置病症词域的联想度，

归属域是指词向量所处的病症集合域，由于病症集合域优化后，存在病症集合域部分重合的情况，因此在为各个词向量建立病症词域时需考虑该词向量的归属域数量，并根据归属域数量的不同，使用不同的方式设置建立病症词域。

通过在完成病症集合域的优化后，统计各个词向量的归属域数量，根据词向量所在的各归属域的词向量的总数量分别设置词向量在各归属域的各联想度，以词向量为检索参照词向量，根据词向量的在各归属域中的联想度建立病症词域，使各个病症词域的检索范围的设置符合实际检索需求，避免病症词域的检索范围设置固定，导致检索范围过大或者过小，降低检索精确度，进而使医案文本的关键词的检索范围符合实际检索需求，提高中医医案的关键词检索的准确度。

具体而言，当根据所述词向量所在的病症集合域的集合域词向量数量设置联想度时，统计所述词向量所在的病症集合域的集合域词向量数量，计算所述病症集合域的集合域词向量数量占词库的总词向量数量的比例值，根据所述比例值和所述病症集合域的集合域词向量数量计算以所述词向量为检索参照词向量的病症词域的词域向量数，根据所述词域向量数将病症集合域中与所述检索参照词向量最相似的数量为词域向量数的词向量归入所述病症词域，词域边缘限的词向量与检索参照词向量的相似程度为联想度，当检索参照词向量的归属域数量>1时，根据上述方法分别确定检索参照词向量在各归属域中的各病症词域和各关联度，并将各病症词域中重合的词向量进行去重处理。

词域向量数=比例值×集合域词向量数量=（集合域词向量数量/总词向量数量）×集合域词向量数量，假设总词向量数量为10000，某个病症集合域的集合域词向量数量为1000，则该病症集合域中病症词域的词域向量数应为（1000/10000）×1000=100，为某个病症候选词的词向量0.8456划分病症词域时，将该病症候选词的词向量作为该病症词域的检索参照词向量，同时计算该病症集合域中的词向量与0.8456的相似程度，选择与0.8456的相似程度为第一至第一百的100个词向量华划分至该病症词域中，与0.8456的相似程度为第一百的词向量为词域边缘限，词域边缘限的词向量与检索参照词向量的相似程度的计算方式为|词域边缘限的词向量-检索参照词向量|,|词域边缘限的词向量-检索参照词向量|为联想度。

通过根据比例值和病症集合域的集合域词向量数量计算以词向量为检索参照词向量的病症词域的词域向量数，根据词域边缘限的词向量与检索参照词向量的相似程度为联想度，对病症词域内的词向量进行选择和处理，使各个病症词域的检索范围与实际检索需求相符合，避免病症词域的检索范围的设置过大或者过小，降低检索精确度，进而使医案文本的关键词的检索范围符合实际检索需求，提高中医医案的关键词检索的准确度。

具体而言，当以所述词向量为检索参照词向量，根据所述联想度建立病症词域时，计算病症集合域中各词向量与所述检索参照词向量的相似程度，当某个词向量与所述检索参照词向量的相似程度大于等于联想度时，将所述词向量归入所述病症词域；

当某个词向量与所述检索参照词向量的相似程度小于联想度时，不将所述词向量归入所述病症词域。

计算病症集合域中各词向量与所述检索参照词向量的相似程度时，相似程度=|词向量-检索参照词向量|，联想度=|词域边缘限的词向量-检索参照词向量|。

通过计算病症集合域中各词向量与所述检索参照词向量的相似程度，当某个词向量与所述检索参照词向量的相似程度大于等于联想度时，将所述词向量归入所述病症词域，当某个词向量与所述检索参照词向量的相似程度小于联想度时，不将所述词向量归入所述病症词域，使各个病症词域中的词向量与检索参照词向量的相似程度最大，确保检索范围以被检索词进行联想和延伸，进而使医案文本的关键词的检索范围符合实际检索需求，提高中医医案的关键词检索的准确度。

具体而言，当设置各病症词域的检索范围优先级时，判断某病症词域中是否包含病症标准词向量，

如图2所示，若所述病症词域中不包含病症标准词向量，则将所述病症词域设置为第一优先域；

如图3所示，若所述病症词域中包含一个病症集合域的病症标准词向量，则将所述病症词域设置为第一优先域，同时将所述病症集合域设置为第二优先域；

如图4所示，若所述病症词域中包含多个病症集合域的病症标准词向量，则将所述病症词域设置为第一优先域，同时根据各病症集合域的集合域词向量数量总数由大到小进行排序，根据各病症集合域的序号1，2，…，N划分检索范围优先级，序号为1的病症集合域设置为第二优先域，序号为2的病症集合域设置为第三优先域，以此类推，序号为N的病症集合域设置为第N+1优先域，同时设置限制优先次序Nm，根据N+1的数值大小判定优先域划分是否符合预设标准，当N+1小于等于Nm时，认为优先域划分符合预设标准，当N+1大于Nm时，认为优先域划分不符合预设标准，对该病症词域的联想度进行调整。

划分检索范围优先级的目的是在进行检索时优先在词向量最相似的区域内进行检索并输出结果，当病症词域中不包含病症标准词向量时，以病症词域为第一优先域进行检索即可保证较高的检索准确度，当病症词域中包含病症标准词向量时，说明被检索词与病症标准词向量相近，存在病症标准词向量应为被检索词的可能性，若此时仅以病症词域为检索范围进行检索，则有降低检索精确度的可能性，故应在以病症词域作为第一个进行检索的区域进行检索的同时，将整个病症集合域作为第二个进行检索的区域进行检索。由于存在一个词向量具有多个归属域的情况，因此考虑一个病症词域中可能会包含有多个病症标准词向量的情况，此时以病症词域作为第一个进行检索的区域进行检索的同时，将各归属域根据其集合域词向量数量总数由大到小设置优先域，但若一个病症词域中的包含的病症标准词向量过多，则说明与该词向量相关的各归属域有高度重合的可能性，此时需要调整病症词域的联想度，即对病症词域的范围进行调整。在输出检索结果并输出与检索结果相关的中医诊疗建议时，按照检索顺序对检索结果和中医诊疗建议进行输出，构建中医诊疗建议时根据诊疗部分的重合度设置建议比重，根据建议比重将诊疗建议作为中医诊疗建议进行输出。

通过根据病症词域是否包含病症标准词向量以及病症词域中包含的病症标准词向量数量设置检索范围的检索次序的优先级，并对检索范围的数量进行判定，在优先域划分不符合预设标准，对该病症词域的联想度进行调整，以调整病症词域的检索范围，使病症词域的划分范围符合实际检索需求，进而使医案文本的关键词的检索范围符合实际检索需求，提高中医医案的关键词检索的准确度。

具体而言，当对该病症词域的联想度进行调整时，设置第一调整参数k1，用于将所述病症词域的联想度M调整为M’，M’=M×（1-k1），其中k1=a/A，a为词域向量数，A为集合域词向量总数量，同时设置最小联想度Mm，

当M’大于等于Mm时，将所述病症词域的联想度调整为M’；

当考虑与某词向量相关的各归属域有高度重合的可能性，调整病症词域的联想度，以对病症词域的检索范围进行调整，但病症词域的检索范围过小时将会导致检索补充分，从而降低检测准确度，因此设置最小联想度，用于限制病症词域的检索范围的缩小程度，当病症词域的检索范围缩小到最小程度但仍有包含的病症标准词向量过多的可能性时，应考虑是否因重合限设置过高导致在对病症集合域的优化不充分，故对重合限进行调整。

通过在与某词向量相关的各归属域有高度重合的可能性时，调整病症词域的联想度，以对病症词域的检索范围进行调整，同时为避免病症词域的检索范围过小，导致检索补充分，降低检测准确度，因此设置最小联想度对病症词域的检索范围的缩小程度进行限制，当病症词域的检索范围缩小到最小程度但仍有包含的病症标准词向量过多的可能性时，对重合限进行调整，对病症集合域进行充分的优化，使检索范围的设置符合实际检索需求，进而使医案文本的关键词的检索范围符合实际检索需求，提高中医医案的关键词检索的准确度。

在实际操作过程中，本发明实施例提供的基于聚类的中医医案的关键词提取方法的实施过程如下：

步骤S1：对医案文本进行分词预处理，获得病症语料，所述病症语料包括若干个病症候选词，将所述病症候选词转化为词向量；

步骤S2：设置若干病症标准词向量，计算各所述病症标准词向量的余弦值和各所述词向量的余弦值，根据各病症标准词向量的余弦值和各词向量的余弦值计算各词向量与各病症标准词向量的词关联度，根据所述词关联度生成若干个以各病症标准词向量为参照词向量的病症集合域。

其中，步骤S2包括：步骤S21：根据各病症标准词向量的余弦值和各词向量的余弦值进行作比运算，当所述病症标准词向量的余弦值大于所述词向量的余弦值时，以各病症标准词向量的余弦值为分母，以各词向量的余弦值为分子进行作比运算，计算所得比值为各词向量与相应病症标准词向量的词关联度；

当所述病症标准词向量的余弦值等于所述词向量的余弦值时，对所述词向量进行去重处理；

步骤S22：以各病症标准词向量为各所述病症集合域的参照词向量，并设置各病症集合域的边缘限，用于根据各词关联度将各词向量进行划分，将与各病症标准词向量的词关联度大于等于所述边缘限的词向量划分至相应的病症集合域。

步骤S3：计算各所述病症集合域之间的域间重合度，设置重合限，根据所述重合限和所述域间重合度，将域间重合度大于等于重合限的病症集合域进行合并，以合并后的各所述病症集合域中的词向量为检索参照词向量，设置联想度并根据所述联想度和检索参照词向量划分病症词域。

其中，步骤S3包括：步骤S31：统计各病症集合域两两之间的共有词向量数量，并分别计算所述共有词向量数量分别占第一病症集合域的集合域词向量数量的第一重合占比和第二病症集合域的集合域词向量数量的第二重合占比，比较第一重合占比和第二重合占比，

当第一重合占比大于第二重合占比，则第一重合占比为第一病症集合域和第二病症集合域之间的域间重合度，

当第一重合占比小于第二重合占比，则第二重合占比为第一病症集合域和第二病症集合域之间的域间重合度，

当第一重合占比等于第二重合占比，则第一重合占比或第二重合占比为第一病症集合域和第二病症集合域之间的域间重合度；

步骤S32：设置重合限，用于判定是否将两个病症集合域进行合并，当两个病症集合域之间的域间重合度大于等于重合限时，将所述两个病症集合域进行合并，形成新病症集合域，病症集合域中的参照词向量在新病症集合域中作为新参照词向量进行保留，当两个病症集合域之间的域间重合度小于重合限时，不对所述两个病症集合域进行合并；

步骤S33：对各所述词向量的归属域数量进行判别并根据所述归属域数量和词向量的归属域中的词向量的总数设置病症词域的联想度，

当词向量的归属域数量=0时，判定此词向量为游离词向量，以所述游离词向量为病症词域的检索参照词向量建立病症词域，

当词向量的归属域数量=1时，根据所述词向量所在的病症集合域的集合域词向量数量设置联想度，以所述词向量为检索参照词向量，根据所述联想度建立病症词域，

当词向量的归属域数量>1时，根据所述词向量所在的各归属域的词向量的总数量分别设置词向量在各归属域的各联想度，以所述词向量为检索参照词向量，根据所述联想度建立病症词域，

设置联想度时，统计所述词向量所在的病症集合域的集合域词向量数量，计算所述病症集合域的集合域词向量数量占词库的总词向量数量的比例值，根据所述比例值和所述病症集合域的集合域词向量数量计算以所述词向量为检索参照词向量的病症词域的词域向量数，根据所述词域向量数将病症集合域中与所述检索参照词向量最相似的数量为词域向量数的词向量归入所述病症词域，词域边缘限的词向量与检索参照词向量的相似程度为联想度，当检索参照词向量的归属域数量>1时，根据上述方法分别确定检索参照词向量在各归属域中的各病症词域和各关联度，并将各病症词域中重合的词向量进行去重处理；

步骤S34：计算病症集合域中各词向量与所述检索参照词向量的相似程度，当某个词向量与所述检索参照词向量的相似程度大于等于联想度时，将所述词向量归入所述病症词域，当某个词向量与所述检索参照词向量的相似程度小于联想度时，不将所述词向量归入所述病症词域，计算病症集合域中各词向量与所述检索参照词向量的相似程度时，相似程度=|词向量-检索参照词向量|，联想度=|词域边缘限的词向量-检索参照词向量|。

其中，步骤S4包括：步骤S41:判断某病症词域中是否包含病症标准词向量，

若所述病症词域中包含多个病症集合域的病症标准词向量，则将所述病症词域设置为第一优先域，同时根据各病症集合域的集合域词向量数量总数由大到小进行排序，根据各病症集合域的序号1，2，…，N划分检索范围优先级，序号为1的病症集合域设置为第二优先域，序号为2的病症集合域设置为第三优先域，以此类推，序号为N的病症集合域设置为第N+1优先域，同时设置限制优先次序Nm，根据N+1的数值大小判定优先域划分是否符合预设标准，当N+1小于等于Nm时，认为优先域划分符合预设标准，当N+1大于Nm时，认为优先域划分不符合预设标准，对该病症词域的联想度进行调整；

步骤S42：对该病症词域的联想度进行调整时，设置第一调整参数k1，用于将所述病症词域的联想度M调整为M’，M’=M×（1-k1），其中k1=a/A，a为词域向量数，A为集合域词向量总数量，同时设置最小联想度Mm，

当M’大于等于Mm时，将所述病症词域的联想度调整为M’；

当M’小于Mm时，将所述病症词域的联想度调整为Mm，同时对重合限进行调整；

步骤S43：设置第二调整参数k2，用于将重合限Q调整为Q’，Q’=Q×（1-k2），其中，k2=（Mm-M’）/Mm。

步骤S44：根据各检索范围的优先级次序输出检索结果，同时将检索结果中的诊疗部分进行截取，根据诊疗部分的重合度设置建议比重，根据建议比重在输出检索结果的同时将诊疗建议作为中医诊疗建议输出进行输出。

以上所述仅为本发明的优选实施例，并不用于限制本发明；对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于聚类的中医医案的关键词提取方法，其特征在于，包括：步骤S1，对中医医案文本的病症部分进行分词预处理，获得病症语料，将病症候选词转化为词向量，其中，所述病症语料包括若干个所述病症候选词，同时提取所述中医医案文本的诊疗部分，作为与所述病症部分相关的中医诊疗建议；步骤S2，设置若干病症标准词向量，根据各病症标准词向量的余弦值和各词向量的余弦值计算各词向量与各病症标准词向量的词关联度，根据所述词关联度生成若干个以各病症标准词向量为参照词向量的病症集合域；步骤S3，计算各所述病症集合域之间的域间重合度，设置重合限，根据所述重合限和所述域间重合度，将域间重合度大于等于重合限的病症集合域进行合并，以合并后的各所述病症集合域中的词向量为检索参照词向量，设置联想度并根据所述联想度和检索参照词向量划分病症词域；步骤S4，根据各所述病症词域中包含的病症标准词向量数量设置各病症词域的检索范围的优先级，根据病症标准词向量数量调整所述病症词域的联想度和重合限，并根据所述优先级输出检索结果以及与所述检索结果相关的中医诊疗建议。

2.根据权利要求1所述的基于聚类的中医医案的关键词提取方法，其特征在于，当根据各病症标准词向量的余弦值和各词向量的余弦值计算各词向量与各病症标准词向量的词关联度时，根据各病症标准词向量的余弦值和各词向量的余弦值进行作比运算，其中，

3.根据权利要求2所述的基于聚类的中医医案的关键词提取方法，其特征在于，当根据各所述词关联度生成若干个以各所述病症标准词向量为参照词向量的病症集合域时，以各病症标准词向量为各所述病症集合域的参照词向量，并设置各病症集合域的边缘限，用于根据各词关联度将各词向量进行划分，将与各病症标准词向量的词关联度大于等于所述边缘限的词向量划分至各病症集合域内。

4.根据权利要求3所述的基于聚类的中医医案的关键词提取方法，其特征在于，当计算各所述病症集合域之间的域间重合度时，统计各病症集合域之间的共有词向量数量，将其中一病症集合域设为第一病症集合域、另一病症集合域设为第二病症集合域，并分别计算所述共有词向量数量在第一病症集合域的集合域词向量数量的占比为第一重合占比，共有词向量数量在第二病症集合域的集合域词向量数量的占比为第二重合占比，比较第一重合占比和第二重合占比，

5.根据权利要求4所述的基于聚类的中医医案的关键词提取方法，其特征在于，当根据所述域间重合度对各病症集合域进行合并时，设置重合限，用于判定是否将两个病症集合域进行合并，

6.根据权利要求5所述的基于聚类的中医医案的关键词提取方法，其特征在于，当以合并后的各所述病症集合域中的词向量为检索参照词向量划分病症词域时，对各所述词向量的归属域数量进行判别并根据所述归属域数量和词向量的归属域中的词向量的总数设置病症词域的联想度，

7.根据权利要求6所述的基于聚类的中医医案的关键词提取方法，其特征在于，当根据所述词向量所在的病症集合域的集合域词向量数量设置联想度时，统计所述词向量所在的病症集合域的集合域词向量数量，计算所述病症集合域的集合域词向量数量占词库的总词向量数量的比例值，根据所述比例值和所述病症集合域的集合域词向量数量计算以所述词向量为检索参照词向量的病症词域的词域向量数，根据所述词域向量数将病症集合域中与所述检索参照词向量最相似的数量为词域向量数的词向量归入所述病症词域，词域边缘限的词向量与检索参照词向量的相似程度为联想度，当检索参照词向量的归属域数量>1时，根据上述方法分别确定检索参照词向量在各归属域中的各病症词域和各关联度，并将各病症词域中重合的词向量进行去重处理。

8.根据权利要求7所述的基于聚类的中医医案的关键词提取方法，其特征在于，当以所述词向量为检索参照词向量，根据所述联想度建立病症词域时，计算病症集合域中各词向量与所述检索参照词向量的相似程度，当各词向量与所述检索参照词向量的相似程度大于等于联想度时，将所述词向量归入所述病症词域；

9.根据权利要求8所述的基于聚类的中医医案的关键词提取方法，其特征在于，当设置各病症词域的检索范围优先级时，判断各病症词域中是否包含病症标准词向量，

10.根据权利要求9所述的基于聚类的中医医案的关键词提取方法，其特征在于，当对该病症词域的联想度进行调整时，设置第一调整参数k1，用于将所述病症词域的联想度M调整为M’，M’=M×（1-k1），其中k1=a/A，a为词域向量数，A为集合域词向量总数量，同时设置最小联想度Mm，

当M’大于等于Mm时，将所述病症词域的联想度调整为M’；