CN117271804B

CN117271804B - 一种共病特征知识库生成方法、装置、设备及介质

Info

Publication number: CN117271804B
Application number: CN202311548856.8A
Authority: CN
Inventors: 汪洋; 刘康莉; 李劲松; 周天舒; 田雨
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-11-21
Filing date: 2023-11-21
Publication date: 2024-03-01
Anticipated expiration: 2043-11-21
Also published as: CN117271804A

Abstract

本发明涉及一种共病特征知识库生成方法、装置、设备及介质，属于医疗数据处理技术领域，其中方法包括以下步骤：采集患者电子病历文本并进行数据预处理；提取电子病历文本的实体和信息组，得到文本深层结构化结果，所述信息组由实体对组成；基于深度学习模型对文本深层结构化结果进行术语标准化，形成共病特征；根据术语标准化后的文本深层结构化结果和人工诊断结果，利用辅助诊断模型补充诊断结果，并基于关联规则算法挖掘诊断结果的共病模式；基于共病特征和共病模式构建共病特征知识库。与现有技术相比，本发明构建的共病特征知识库具有支持细粒度筛查等优点。

Description

一种共病特征知识库生成方法、装置、设备及介质

技术领域

本发明涉及医疗数据处理技术领域，尤其是涉及一种共病特征知识库生成方法、装置、设备及介质。

背景技术

患者自身的共病现象逐渐引起人们注意，共病是指同一患者体内存在两种或两种以上的慢性非传染性疾病，共病往往涉及不同科室疾病，会提高诊疗难度，增加治疗不良反应，导致生活质量下降，需要有针对性的综合管理。

电子病历中积累着海量共病患者相关的诊断、发展、诊疗和转归等诊疗信息，基于患者真实诊疗文本进行规律性挖掘，能为临床上共病患者的诊疗提供参考。

现有的医学研究、教学和诊疗多是基于单病种的，而共病牵扯复杂，且种类组合繁多，当前缺少对电子病历文本进行深层结构化的方法，难以支撑后续的统计分析；同时，考虑到疾病的多样性和病情的复杂性，若共病特征知识库的信息的细粒度不足，将难以支撑实际应用。

CN115374053A公开了一种信息智能归档方法、信息智能归档装置、电子设备及计算机可读存储介质，该方法包括：获取患者的电子病历中的至少一个分段标题及至少一个要素，其中，所述要素为所述患者拥有的与疾病相关的特征；确定每个所述分段标题所属的标题类型；根据每个所述分段标题所属的标题类型，将所述至少一个要素分别归档至对应的要素列表。但是，该方法仅用于提取电子病历中的相关疾病特征，并未对共病模式进行分析，且信息的提取粒度不够细致，实体覆盖范围不够全面。

发明内容

本发明的目的是为了提供一种共病特征知识库生成方法、装置、设备及介质，基于大规模共病信息分析共病模式，完成电子病历的深层结构化，构建基于真实病历文本的共病特征知识库，对深入研究共病患者的临床诊疗具有重要意义。

本发明的目的可以通过以下技术方案来实现：

根据本发明的第一方面，提供了一种基于电子病历的共病特征知识库生成方法，包括以下步骤：

S1、采集患者电子病历文本并进行数据预处理；

S2、提取电子病历文本的实体和信息组，得到文本深层结构化结果，所述信息组由实体对组成；

S3、基于深度学习模型对文本深层结构化结果进行术语标准化，形成共病特征；

S4、根据术语标准化后的文本深层结构化结果和人工诊断结果，利用辅助诊断模型补充诊断结果，并基于关联规则算法挖掘诊断结果的共病模式；

S5、基于共病特征和共病模式构建共病特征知识库。

进一步地，所述步骤S2包括以下步骤：

S21、根据预先确定的CRF(Case Report Form，病历报告表)表单确定待提取实体类型及实体词；

S22、根据待提取实体类型及其关系构建结构模式指导符SSI；

S23、以结构模式指导符(structural schema instructor, SSI)和电子病历文本序列为统一信息抽取模型的输入，在实体和信息组生成过程中将SSI用作前缀，根据SSI生成包含电子病历文本序列中待抽取信息的线性化序列Y，其中，

统一信息抽取模型根据给定的原始文本序列和结构模式指导符，基于Transformer编码器计算输入层的隐藏表示，并利用Transformer解码器在解码的第i步，生成线性化序列Y中的第i个tokeny _i，预测tokeny _i的条件概率p(y _i|y<x,x,s)，并将预测的表达式转换为提取的实体和信息组信息；

S24、基于步骤S21-S23，根据标注好的电子病历数据D={(s,x,y)}对经过预训练的统一信息抽取模型使用交叉熵损失进行微调；

S25、利用微调好的统一信息抽取模型对电子病历文本进行信息提取，得到文本深层结构化结果。

进一步地，所述步骤S3包括以下步骤：

S31、基于语言模型获取实体和标准来源术语的向量表示；

S32、计算实体向量和标准来源术语向量之间的余弦相似度；

S33、根据余弦相似度排序高低选择预设数量的标准来源术语形成候选术语集；

S34、根据实体向量和候选术语集中的标准术语向量之间的相似度，结合人工校验构造唯一正样本和负样本；

S35、将正负样本输入0-1分类模型进行训练，经softmax层获取预测为1的最大概率的标签，作为输入的实体对应的标准化术语进行输出；

S36、对文本深层结构化结果中的所有实体执行步骤S31-S35，进行术语标准化结果，形成共病特征。

更进一步地，所述步骤S34具体为：

设定相似度阈值，当实体向量和候选术语集中的标准术语向量之间的相似度大于等于相似度阈值时，将所述实体与候选术语集中对应的标准术语组合成正样本，当某实体的正样本数量超过一个时，进行人工校验，保留唯一正样本；

当实体向量和候选术语集中的标准术语向量之间的相似度小于相似度阈值时，所述实体与候选术语集中对应的标准术语组成负样本；

当实体向量和候选术语集中的所有标准术语向量之间的相似度均小于相似度阈值时，则在相关标准术语库进行人工查找，将查找结果与所述实体组成唯一正样本；若仍未能查找到对应术语，则人工确定术语表达，并与所述实体组成唯一正样本。

进一步地，所述根据术语标准化后的文本深层结构化结果和人工诊断结果，利用辅助诊断模型补充诊断结果包括以下步骤：

S41、提取电子病历文本中的人工诊断结果，排除其中的急性疾病，并根据预设规则将人工诊断结果中部分疾病的下位细分进行合并；

S42、对术语标准化后的文本深层结构化结果和人工诊断结果进行特征工程，构造多标签分类模型的训练样本；

S43、训练多标签分类模型，所述多标签分类模型包括嵌入层、特征提取层、分类层，其中嵌入层通过语言模型获取文本的语义特征表示，特征提取层通过神经网络进一步编码语义表示，分类层采用Sigmoid激活函数完成各标签的概率输出；

S44、对多标签分类模型进行性能评估，得到最优多标签分类模型；

S45、以术语标准化后的电子病历文本深层结构化结果作为最优多标签分类模型的输入，输出补充诊断结果。

进一步地，所述基于关联规则算法挖掘诊断结果的共病模式具体为：

根据人工诊断结果和补充诊断结果组成的项集计算频繁项集的支持度、置信度和提升度，并分别与预设的阈值进行比较，当支持度、置信度和提升度均大于等于对应的阈值时，将对应频繁项集确定为一种共病模式，并通过患者ID将共病模式与术语标准化后的文本深层结构化结果进行关联。

进一步地，所述共病特征知识库包括共病模式查询功能、共病模式的精确和模糊匹配功能、共病特征的组合查询功能和共病特征的可视化功能，其中，

所述共病模式查询功能是指当用户在功能框中输入一种或多种疾病后，共病特征知识库支持对包括这些疾病的共病模式进行查询，并展示各共病模式对应的患者数、支持度、置信度和提升度；

所述共病模式的精确和模糊匹配功能是当用户为查询患者数据输入某共病模式时，共病特征知识库提供精确和模糊两种匹配模式以供选择，当选择精确匹配时，只纳入患有与该共病模式所包括疾病完全一致的患者数据，当选择模糊匹配时，当患者所患疾病包括该共病模式中的所有疾病时，即将该患者数据纳入；

所述共病特征的组合查询功能是指用户可对各文本涉及的实体类型进行自由组合，达到定制化和精细化查询的目的；

所述共病特征的可视化功能是指共病特征知识库支持通过图表和词云反映来查询/匹配结果的频数与百分比信息。

根据本发明的第二方面，提供了一种基于电子病历的共病特征知识库生成装置，包括：

数据采集与预处理模块，用于采集患者电子病历文本并进行数据预处理；

文本深层结构化模块，用于提取电子病历文本的实体和信息组，得到文本深层结构化结果，所述信息组由实体对组成；

术语标准化模块，用于基于深度学习模型对文本深层结构化结果进行术语标准化，形成共病特征；

共病模式分析模块，用于根据术语标准化后的文本深层结构化结果和人工诊断结果，利用辅助诊断模型补充诊断结果，并基于关联规则算法挖掘诊断结果的共病模式；

知识库构建模块，用于基于共病特征和共病模式构建共病特征知识库。

根据本发明的第三方面，提供了一种电子设备，包括存储器和处理器，所述存储器上存储有计算机程序，所述处理器执行所述程序时实现所述的方法。

根据本发明的第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现所述的方法。

与现有技术相比，本发明具有以下有益效果：

（1）针对当前缺少通用型共病特征知识库的现状，本发明基于真实电子病历数据，设计了从文本深层结构化、术语标准化、共病模式挖掘到共病特征知识库的完整构建流程。

（2）考虑到电子病历系统中对患者所患疾病记录不够全面的问题，本发明利用辅助诊断模型从患者诊疗信息中推断出其所患潜在疾病，对患者诊断结果表单进行补充，增强所挖掘共病模式的可靠性。

（3）本发明所设计知识库支持用户对实体类型的选择与组合，实现对共病特征的细粒度筛查与统计。

（4）本发明将电子病历文本的深层结构化的结果进行标准化，使知识库内容更加规范，利于筛查。

附图说明

图1为本发明的方法流程图；

图2为一种实施例中的统一信息抽取模型整体框架示意图；

图3为一种实施例中的术语标准化流程图；

图4为一种实施例中的辅助诊断流程图；

图5为本发明的装置结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

电子病历是医疗机构对门诊、住院患者临床诊疗和指导干预的、数字化的医疗服务工作记录。本实施例提供一种基于电子病历的共病特征知识库生成方法，如图1所示，包括以下步骤：

S1、采集患者电子病历文本并进行数据对齐和缺失值处理等数据预处理。

S2、提取电子病历文本的实体和信息组，得到文本深层结构化结果，其中，信息组由实体对组成。

深层结构化是指将自然语言表达的医学文本转化为可检索、可分析、可计算的结构化数据。自动识别文本中的医学实体和属性，如入院记录、出院记录中的阳性或阴性症状、体征、疾病、检查、治疗方案等实体，并可根据特定的研究需求，从病历中按预设schema抽取结构化信息，其中，schema是数据库中的一个结构化框架，它定义了数据的组织方式和存储结构，用来描述数据库中的对象关系，包括表、列、数据类型、索引、外键、触发器等。

本实施例中，文本的深层结构化涉及信息提取schema的制定、数据标注、模型设计与微调和信息提取等部分。在一种择优的实施例中，步骤S2包括以下步骤：

S21、根据预先确定的CRF表单确定待提取实体类型及实体词，即提取schema。

病历文本来自门诊记录、入院记录、出院记录、病理结论、病程记录、医师查房记录、手术记录、死亡记录、影像结论、24小时出入院记录等业务场景，针对各医疗场景下不同类型的医疗文本，结合实体及关系概念体系，与医生讨论制定详细的CRF（Case ReportForm，病历报告表）表单，文本的深层结构化结果以CRF表单为基础进行归纳。CRF表单是按照通信协议规定设计的一种文件，在病历系统中，用以收集、记录和保存每一名病人的现病史、既往史、体格检查等研究所需临床资料。

本实施例中，信息提取schema中部分类型文本和对应提取的实体类型及数量如表1所示。

表 1 部分类型文本对应提取的实体类型及数量

文本类型	实体类型	涉及实体类型数量
			主诉	症状；身体部位；方位词；频次；诱因；描述；大小。	7
个人史	触发词（饮酒、吸烟）；事项有无；量级；类别；持续时间；是否戒断。	6
			家族史	触发词（家族遗传情况）；疾病；患病亲属。	3
体格检查	体温；呼吸频率；身高；体重；脉搏；心率；收缩压；舒张压；BMI。	9
			影像结论	方位；部位；细致部位；病变；大小状态；疾病；疾病性质；多发情况；密度；钙化；淋巴结；程度；形态；检查名称；检查结果；术后；疑似诊断；变化趋势；复查；分级；分期；病变性质；描述；转移情况；是否复发。	25
病理结论	部位；疾病；疾病性质；病变；程度；检查名称；疑似诊断；病变性质；分期；分级；检查结果；方位；大小；基因名称；基因位点；突变类型；基因检测结果；淋巴结部位；淋巴结数目；阳性淋巴结；分化程度；切缘；数量……	34
			诊疗经过	触发词；药物名称；用量；服用方式。	4
出院嘱托	触发词（饮食）；检查项目；频率；饮食要求；禁忌；时间。	6
			既往史	传染性疾病名称；既往疾病名称,过敏情况,有无高血压,有无糖尿病……	10
入院情况	身高；体重；BMI；体温；呼吸频率；心率……	9
			现病史	检查,检查所见；疾病；手术；体重变化……	7
首次病程记录	检查, 检查所见；疾病；手术；体重变化；治疗方案；鉴别诊断……	16
			盆腔病理检查	症状；身体部位；方位；严重程度；描述。	5
液基细胞	病例表现；诊断。	2
			影像所见	部位；病灶；大小；位于；边界；内部回声；血流信号；增强效应；内液；形态；病变；数量；多发；内容物；囊壁；疾病；考虑；T1WI；T2WI；DWI。	20

病历文本中蕴含着细致的诊疗信息，实体间形成信息组完成对复杂信息的表述。当涉及复杂病情的描述时，需要完成各实体所属的信息分组。

例如影像所见文本：“子宫前位，大小7.5 7.7 6.8cm，内膜厚1.25cm（双层），回声欠均，宫腔内见1.9 0.8 1.4cm偏强回声，内见星点状血流信号，前壁局部肌层增厚，回声不均，血流较丰富”。其中子宫对应信息组为“（（生理位置：前位）（形态大小：7.5 7.7 6.8cm）（双层内膜：1.25cm）（内部回声：欠匀）（前壁回声：不匀））”。病灶对应信息组为“（（病灶：偏强回声）（大小：1.9 0.8 1.4cm）（位于：宫腔内）（血流信号：星点状血流信号））”。与普通知识库相比，本发明通过实体的组合，可以在后续筛查阶段对共病特征进行筛选与统计。

正式标注开始前，每类电子病历文本抽样200条样本进行标注预实验，在kappa值达到0.85，确认标注的一致性之后，完成各业务场景下电子病历文本的数据标注，最终得到5000余条涉及86种实体的标注数据集，用于后续统一信息抽取模型的微调。kappa值是一种用于衡量分类或测量标度间观察者一致性的统计指标，它考察了实际观测值与预期一致性之间的差异，常用于评估不同观察者或评估者之间的一致性水平。

医疗文本的信息抽取往往涉及实体及实体对之间的关系，为了降低任务的复杂度，提高抽取效率，在此设计一种统一信息抽取模型来同时完成病历文本中实体和由实体对所组成信息组的抽取。

统一信息抽取模型的整体框架如图2所示，该框架对实体识别和关系抽取任务进行统一建模，自适应地生成结构化的目标抽取结果。基于生成式的设计，统一信息抽取模型一次可以生成多个实体类型对应的结果，可实现医学领域中嵌套实体的分别提取。针对医学术语种类多、数量大、表达多变等特点，统一信息抽取的prompt learning（提示学习）机制带来的少样本学习效果，在一定程度上也解决了医学术语泛化的问题。

步骤S22-S25描述了统一信息抽取模型抽取信息的过程。

S22、根据待提取实体类型及其关系构建结构模式指导符SSI；

为了自适应以上两种不同的信息抽取任务，统一信息抽取模型利用结构模式指导符(structural schema instructor, SSI)的提示机制控制文本中要发现的内容和要生成的内容，例如SSI“[spot] 部位 [spot] 疾病 [asso] 位于 [text]”表示从文本中提取出“何种疾病发生于何部位”的默认关系，其中，spot表示实体发现，asso表示实体关联，text表示输入的文本。

不同于其它关系抽取任务中多达数十种的关系判定，本发明中关系抽取在于完成由实体对组成的信息组的抽取，无需进行每类实体间明确的关系判定，利用生成式的结构保证实体词的正确分组即可，降低任务复杂度的同时也提高了抽取效率。

例如给定文本：“双侧胸腔少许积液，主动脉壁少许钙化”。实体识别模块将生成：“（（部位：胸腔）（部位：主动脉壁）（病变：积液）（病变：钙化）（程度：少许）（方位：双侧））”。关系抽取模块将生成两组信息：“（（部位：胸腔，病变：积液，方位：双侧，程度：少许），（部位：主动脉壁，病变：钙化，程度：少许））”。

S23、以结构模式指导符SSI(s)和电子病历文本序列Text(x)为统一信息抽取模型的输入，在实体和信息组生成过程中将SSI用作前缀，根据s生成包含电子病历文本序列x中待抽取信息的线性化序列Y，如图2所示，其中，

统一信息抽取模型根据给定的原始文本序列和结构模式指导符，基于标准的Transformer编码器Encoder()计算输入层的隐藏表示：

，

并利用标准的Transformer解码器Decoder()在解码的第i步，生成线性化序列Y中的第i个tokeny _i，解码器状态如下所示：

，

预测token y _i的条件概率p(y _i|y<x,x,s)，并将预测的表达式转换为提取的实体和信息组信息。其中，token为语言模型中用来表示单词或短语的符号。

S24、基于步骤S21-S23，根据标注好的电子病历数据D={(s,x,y)}对经过预训练的统一信息抽取模型使用交叉熵损失进行微调：

，

其中：L _FT为模型微调阶段的损失函数，s为结构模式指导符，x为文本序列，y为文本序列x对应的结构化记录，D _task为针对任务类型构造好的标注数据集，θ _e为编码器Encoder的全部参数，θ _d为解码器Decoder的全部参数，p(y|x,s;θ _e,θ _d)为文本序列x被模型预测为结构化记录y的概率。

本实施例中，在模型的预训练方面，本实施例基于中文开源电子病历数据集和其它领域信息抽取任务数据集，利用远程监督的方法生成上述结构的语料完成模型的预训练。

S3、基于深度学习模型对文本深层结构化结果进行术语标准化，形成共病特征。

术语标准化是指：医学相关文本中，相同内涵的疾病、药品、症状和手术等术语存在标准和非标准的表达形式，医学术语标准化是将非标准的术语表达进行统一，映射到标准术语上。

鉴于医学研究的严谨性与复杂性，在电子病历文本深层结构化后，本发明将其中的实体词映射到统一的标准术语上，以支撑后续的数据分析。

术语标准化采用基于深度学习的术语匹配模型。首先通过相似度计算生成与实体词相近的候选术语集来构造正负样本，完成分类模型的训练后，输入待匹配实体词后经softmax（归一化指数函数）层取概率最大的候选术语作为标准术语输出。

具体的，如图3所示，术语标准化包括以下步骤：

S31、基于语言模型获取实体和标准来源术语的向量表示；

本实施例中，候选的标准术语来源及内容参考《国际疾病分类 ICD-10 北京临床版v601》和SNOMED CT （Systematized Nomenclature of Medicine -- Clinical Terms）医学系统命名法——临床术语标准。基于经电子病历语料微调后的中文开源句向量模型CoSENT获取实体词和术语的高维语义表征v1和v2。

S32、计算实体向量v1和标准来源术语向量v2之间的余弦相似度：

，

S33、根据余弦相似度排序高低选择一定数量的标准来源术语形成候选术语集。

S34、根据实体向量和候选术语集中的标准术语向量之间的相似度，结合人工校验构造唯一正样本和负样本。

具体的，设定一较高的相似度阈值，当实体向量和候选术语集中的标准术语向量之间的相似度大于等于相似度阈值时，将所述实体与候选术语集中对应的标准术语组合成正样本，当某实体的正样本数量超过一个时，进行人工校验，保留唯一正样本，确保正样本的唯一性；

将这些术语样本表达进行整理，形成适用于本发明的自定义标准化术语集。样本的构造形式参考历年CHIP（China Conference on Health Information Processing）临床术语标准化评测任务和CBLUE（Chinese Biomedical Language UnderstandingEvaluation）临床术语标准化任务的数据集。

S35、将正负样本输入0-1分类模型进行训练，经softmax层获取预测为1的最大概率的标签，作为输入的实体对应的标准化术语进行输出。

S4、根据术语标准化后的文本深层结构化结果和人工诊断结果，利用辅助诊断模型补充诊断结果，并基于关联规则算法挖掘诊断结果的共病模式。

电子病历系统中单个患者的疾病诊断结果表单往往包括多种疾病。基于大量的诊断结果表单数据可以通过关联规则挖掘出所患疾病之间的相关性及其共病规律。

相较于共现分析、因子分析和聚类分析等共病模式分析方法，基于关联规则的分析方法可以从大规模电子病历数据中一次性完成二元、三元和四元以上共病模式的挖掘，并且从支持度、置信度和提升度等指标对得到的共病结果的可靠性进行判定。

具体的，如图4所示，辅助诊断过程包括以下步骤S41-S45。

S41、提取电子病历文本中的人工诊断结果，具体的，提取患者病历信息中的诊断结果时，排除其中的急性疾病。同时为方便统计分析，本发明将诊断结果中部分疾病的下位细分进行合并，比如慢性胃炎包括慢性浅表性胃炎、慢性糜烂性胃炎和慢性萎缩性胃炎，高血压包括高血压3级、高血压2级和高血压1级。

考虑到患者的诊断结果表单对患者所患疾病记录不够全面，在此采用辅助诊断模型来根据患者的电子病历文本内容对其所患疾病进行预测，得到其潜在疾病，对患者的诊断结果进行补充。相较于以往基于既有显性疾病数据挖掘共病模式，本发明通过利用辅助诊断挖掘出潜在疾病，对患者疾病进行补充后，所得到的共病模式更加可靠。

为了诊断出患者自身存在的多种疾病，在此选择多标签分类模型完成辅助诊断，具体步骤如S42-S45所示。

S42、对术语标准化后的文本深层结构化结果和人工诊断结果进行特征工程，构造多标签分类模型的训练样本。

由于单个患者的全部病历文本较长，为了解决样本输入超出模型长度限制的问题，进行特征工程时，利用电子病历文本的深层结构化结果与患者诊断结果完成训练样本的构造。

S43、训练多标签分类模型。

多标签分类中，每个文本都涉及多种标签，多标签分类考虑总标签集合，目的是将多个标签正确分配给特定文本。本实施例中，多标签分类模型包括嵌入层、特征提取层、分类层，其中，嵌入层通过BERT（Bidirectional Encoder Representation fromTransformers）等语言模型获取文本的语义特征表示，特征提取层通过神经网络进一步编码语义表示，分类层采用Sigmoid激活函数完成各标签的概率输出。

S44、对多标签分类模型进行性能评估，得到最优多标签分类模型。

S45、以术语标准化后的电子病历文本深层结构化结果作为最优多标签分类模型的输入，输出补充诊断结果，在原诊断结果表单的基础上对患者所患疾病进行补充。

S46、基于关联规则算法挖掘诊断结果的共病模式。

关联规则，又叫关联分析，此类算法能发现数据库中各变量之间事先并不明确的联系，并能量化这种联系的强度，满足一定强度的联系即可作为规则来解释变量之间存在的规律。本实施例采用关联规则算法进行共病模式挖掘。如表2，将每个患者在诊断结果表单所患疾病情况看做一个事务，不同诊断结果看做项集。

表2 患者诊断结果表单

患者ID	诊断结果
		IP00265254	劳力型心绞痛、冠心病、高血压、二型糖尿病、高脂血症
IP00295007	肠易激综合征、慢性胃炎、反流性食管炎、慢性乙型病毒性肝炎
		IP00330549	胆囊结石、肝恶心肿瘤、肝硬化、肾囊肿
IP00264320	高血压、高脂血症、颈动脉硬化、腔隙性脑梗死、前列腺增生

将最低条件支持度设为0.1%，最小置信度设为50%，最低提升度设置为1.5。支持度（support）、置信度（confidence）和提升度（lift）三者的定义如下：

支持度：表示在全部事务中，{X,Y}出现的可能性，即项集中{X,Y}同时出现的概率：

support(X≥Y)=P(X∪Y)；

置信度：表示在关联规则的先决条件X发生的条件下，关联结果Y发生的概率，即含有X的项集条件下，同时含有Y的可能性：

confidence(X≥Y)=P(Y/X)；

提升度：表示在含有X的条件下同时含有Y的可能性与无条件下含有Y的可能性之比。即在Y的自身出现的可能性P(Y)的基础上，X的出现对于P(Y/X)的提升程度：

lift(X≥Y)=P(Y/X)/P(Y)；

根据人工诊断结果和补充诊断结果组成的项集计算频繁项集的支持度、置信度和提升度，并分别与上述预设的阈值进行比较，当支持度、置信度和提升度均大于等于对应的阈值时，将对应频繁项集确定为一种共病模式，并通过患者ID将共病模式与术语标准化后的文本深层结构化结果进行关联。

S5、基于共病特征和共病模式构建共病特征知识库。

本发明所设计共病特征知识库支持如下功能：共病模式查询功能、共病模式的精确和模糊匹配功能、共病特征的组合查询功能和共病特征的可视化功能。通过知识库的查询/匹配功能实现对数据的统计分析与展示。

共病模式查询功能是指当用户在功能框中输入一种或多种疾病后，共病特征知识库支持对包括这些疾病的共病模式进行查询和预览，并展示各共病模式对应的患者数、支持度、置信度和提升度等指标。

共病模式的精确和模糊匹配功能是当用户为查询患者数据输入某共病模式时，共病特征知识库提供精确和模糊两种匹配模式以供选择。精确匹配的目的在于缩小匹配范围，排除患者所患其它疾病的干扰，当选择精确匹配时，只纳入患有与该共病模式所包括疾病完全一致的患者数据；当选择模糊匹配时，当患者所患疾病包括该共病模式中的所有疾病时，即将该患者数据纳入。如某患者患的诊断结果中只有“劳力型心绞痛、冠心病、高血压”这三种疾病，在某次查询中，选择的共病模式为“冠心病、高血压”，当用户选择精确匹配时，则不纳如该患者数据，选择模糊匹配时则纳入。

共病特征的组合查询功能是指用户可对各文本涉及的实体类型进行自由组合，达到定制化和精细化查询的目的。如在对共病知识库信息进行筛查时，除了对单个实体表示的特征进行筛查，还可以将某文本类型下的不同实体类型进行自由组合来实现复杂特征的统计，比如在“影像所见”文本中，涉及“部位”、“疾病”、“方位”、“病变”、“大小”、“数量”、“病灶”等实体，复杂特征往往由多个实体组合表达，如“宫腔内见1.9 0.8 1.4cm偏强回声”由“宫腔内（位于），1.9 0.8 1.4cm（大小），偏强回声（病灶）”三类实体组成，用户在进行筛查时可以同时建立多个实体组合方案，选择纳入指定的实体类型来对共病特征从内涵上进行限制。

共病特征的可视化功能是指共病特征知识库支持通过图表和词云反映来查询/匹配结果的频数与百分比信息。

本发明基于统一信息抽取模型完成电子病历文本的深层结构化，基于医学术语标准化模型完成所抽取实体信息的统一标准化，基于辅助诊断模型补充预测患者所患疾病，利用关联规则算法挖掘出共病模式，构建支持细粒度筛查的共病特征知识库，为共病相关研究提供支撑。

以上是关于方法实施例的介绍，以下通过装置实施例，对本发明所述方案进行进一步说明。

如图5所示，一种基于电子病历的共病特征知识库生成装置包括：

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，所述描述的模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本发明电子设备包括中央处理单元(CPU)，其可以根据存储在只读存储器(ROM)中的计算机程序指令或者从存储单元加载到随机访问存储器(RAM)中的计算机程序指令，来执行各种适当的动作和处理。在RAM中，还可以存储设备操作所需的各种程序和数据。CPU、ROM以及RAM通过总线彼此相连。输入/输出(I/O)接口也连接至总线。

设备中的多个部件连接至I/O接口，包括：输入单元，例如键盘、鼠标等；输出单元，例如各种类型的显示器、扬声器等；存储单元，例如磁盘、光盘等；以及通信单元，例如网卡、调制解调器、无线通信收发机等。通信单元允许设备通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理单元执行上文所描述的各个方法和处理，例如方法S1～S5。例如，在一些实施例中，方法S1～S5可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元。在一些实施例中，计算机程序的部分或者全部可以经由ROM和/或通信单元而被载入和/或安装到设备上。当计算机程序加载到RAM并由CPU执行时，可以执行上文描述的方法S1～S5的一个或多个步骤。备选地，在其他实施例中，CPU可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行方法S1～S5。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统 (SOC)、复杂可编程逻辑设备(CPLD)等等。

用于实施本发明的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此，凡本技术领域中技术人员依据本发明的构思在现有技术的基础上通过逻辑分析、推理、或者有限的实验可以得到的技术方案，皆应在权利要求书所确定的保护范围内。

Claims

1.一种基于电子病历的共病特征知识库生成方法，其特征在于，包括以下步骤：

S1、采集患者电子病历文本并进行数据预处理；

S4、根据术语标准化后的文本深层结构化结果和人工诊断结果，利用辅助诊断模型补充诊断结果，并基于关联规则算法挖掘诊断结果的共病模式；其中，所述基于关联规则算法挖掘诊断结果的共病模式具体为：

根据人工诊断结果和补充诊断结果组成的项集计算频繁项集的支持度、置信度和提升度，并分别与预设的阈值进行比较，当支持度、置信度和提升度均大于等于对应的阈值时，将对应频繁项集确定为一种共病模式，并通过患者ID将共病模式与术语标准化后的文本深层结构化结果进行关联；

S5、基于共病特征和共病模式构建共病特征知识库；

其中，所述步骤S2包括以下步骤：

S21、根据预先确定的CRF表单确定待提取实体类型及实体词；

S22、根据待提取实体类型及其关系构建结构模式指导符SSI；

S23、以结构模式指导符SSI和电子病历文本序列为统一信息抽取模型的输入，在实体和信息组生成过程中将SSI用作前缀，根据SSI生成包含电子病历文本序列中待抽取信息的线性化序列Y，其中，

统一信息抽取模型根据给定的原始文本序列和结构模式指导符，基于Transformer编码器计算输入层的隐藏表示，并利用Transformer解码器在解码的第i步，生成线性化序列Y中的第i个token y _i，预测token y _i的条件概率p(y _i|y<x,x,s)，并将预测的表达式转换为提取的实体和信息组信息，其中，s为结构模式指导符，x为文本序列，y为文本序列x对应的结构化记录，y _i为解码生成线性化序列Y中的第i个token；

S25、利用微调好的统一信息抽取模型对电子病历文本进行信息提取，得到文本深层结构化结果；

所述根据术语标准化后的文本深层结构化结果和人工诊断结果，利用辅助诊断模型补充诊断结果，包括以下步骤：

2.根据权利要求1所述的一种基于电子病历的共病特征知识库生成方法，其特征在于，所述步骤S3包括以下步骤：

S31、基于语言模型获取实体和标准来源术语的向量表示；

S32、计算实体向量和标准来源术语向量之间的余弦相似度；

3.根据权利要求2所述的一种基于电子病历的共病特征知识库生成方法，其特征在于，所述步骤S34具体为：

4.根据权利要求1所述的一种基于电子病历的共病特征知识库生成方法，其特征在于，所述共病特征知识库包括共病模式查询功能、共病模式的精确和模糊匹配功能、共病特征的组合查询功能和共病特征的可视化功能，其中，

5.一种基于电子病历的共病特征知识库生成装置，其特征在于，包括：

共病模式分析模块，用于根据术语标准化后的文本深层结构化结果和人工诊断结果，利用辅助诊断模型补充诊断结果，并基于关联规则算法挖掘诊断结果的共病模式；其中，所述基于关联规则算法挖掘诊断结果的共病模式具体为：

知识库构建模块，用于基于共病特征和共病模式构建共病特征知识库；

其中，所述文本深层结构化模块执行以下步骤：

S21、根据预先确定的CRF表单确定待提取实体类型及实体词；

S22、根据待提取实体类型及其关系构建结构模式指导符SSI；

6.一种电子设备，包括存储器和处理器，所述存储器上存储有计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1～4中任一项所述的方法。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1～4中任一项所述的方法。